このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200825となっている論文です。

PDF登録状況(公開日: 20200825)

TitleAuthorsAbstract論文公表日・翻訳日
# スペクトルプルーニングのための領域適応規則化

Domain Adaptation Regularization for Spectral Pruning ( http://arxiv.org/abs/1912.11853v3 )

ライセンス: Link先を確認
Laurent Dillard, Yosuke Shinya, Taiji Suzuki(参考訳) ディープニューラルネットワーク(DNN)は最近、さまざまなコンピュータビジョン関連タスクで最先端のパフォーマンスを実現している。 しかし、その計算コストは、リソースの制限や厳格なレイテンシ制約のある組み込みシステムで実装できることを制限する。 したがって、モデル圧縮はこの問題を克服するための研究の活発な分野である。 さらに、DNNは通常、大量のラベル付きデータをトレーニングする必要がある。 これはデプロイメントに対する第2の制限である。 ドメイン適応(DA)は、ラベル付きソースディストリビューションで学んだ知識を、おそらくラベルなしのターゲットディストリビューションに転送することでこの問題に対処する。 本稿では,DA設定における圧縮法の改善の可能性について検討する。 我々は,単一のデータ分散の文脈で以前に開発された圧縮手法に着目し,圧縮中に使用するデータの慎重に選択し,da目的に直接関連した正規化項を追加することにより,圧縮結果を改善することができることを示す。 また,本手法は,da設定で検討した既存の圧縮法を高い圧縮率で大きなマージンで上回ることを示した。 我々の研究は1つの特定の圧縮法に基づいているが、da設定における圧縮を改善するための一般的なガイドラインも概説する。

Deep Neural Networks (DNNs) have recently been achieving state-of-the-art performance on a variety of computer vision related tasks. However, their computational cost limits their ability to be implemented in embedded systems with restricted resources or strict latency constraints. Model compression has therefore been an active field of research to overcome this issue. Additionally, DNNs typically require massive amounts of labeled data to be trained. This represents a second limitation to their deployment. Domain Adaptation (DA) addresses this issue by allowing knowledge learned on one labeled source distribution to be transferred to a target distribution, possibly unlabeled. In this paper, we investigate on possible improvements of compression methods in DA setting. We focus on a compression method that was previously developed in the context of a single data distribution and show that, with a careful choice of data to use during compression and additional regularization terms directly related to DA objectives, it is possible to improve compression results. We also show that our method outperforms an existing compression method studied in the DA setting by a large margin for high compression rates. Although our work is based on one specific compression method, we also outline some general guidelines for improving compression in DA setting.
翻訳日:2023-06-10 08:19:48 公開日:2020-08-25
# 自動機械学習は、トモグラフィで境界の絡み合った状態を分類できる

Automated Machine Learning can Classify Bound Entangled States with Tomograms ( http://arxiv.org/abs/2001.08118v3 )

ライセンス: Link先を確認
Caio B. D. Goes and Askery Canabarro and Eduardo I. Duzzioni and Thiago O. Maciel(参考訳) 6次元以上の量子系では、正部分転位(PPT)の基準は十分であるが、量子状態の非分離性を決定するのに必要ではない。 本稿では、量子状態トモグラフィーを実行するのに十分なデータを用いて、2つのキュートリットのランダムな状態を分離可能または絡み合うものとして分類する自動機械学習手法を提案する。 peres-horodeckiの基準が失敗した場合でも、このフレームワークをうまく適用できます。 さらに,エンタングルメントの一般化されたロバスト性を回帰手法で推定し,それを用いて分類器を検証することもできる。

For quantum systems with a total dimension greater than six, the positive partial transposition (PPT) criterion is sufficient but not necessary to decide the non-separability of quantum states. Here, we present an Automated Machine Learning approach to classify random states of two qutrits as separable or entangled using enough data to perform a quantum state tomography, without any direct measurement of its entanglement. We could successfully apply our framework even when the Peres-Horodecki criterion fails. In addition, we could also estimate the Generalized Robustness of Entanglement with regression techniques and use it to validate our classifiers.
翻訳日:2023-06-06 07:07:26 公開日:2020-08-25
# 連続照明下における活焼入れSPADの計測統計

Counting Statistics of Actively Quenched SPADs Under Continuous Illumination ( http://arxiv.org/abs/2001.10036v2 )

ライセンス: Link先を確認
Ivo Straka, Jan Grygar, Josef Hlou\v{s}ek, Miroslav Je\v{z}ek(参考訳) 本研究は, 連続波定数照明を受ける単一光子アバランシェダイオード(SPAD)のカウンティング挙動をモデル化するための確率論的アプローチを示す。 本稿では,有限時間ウィンドウにおける検出数の分布を予測する解析式とシミュレーションアルゴリズムを提案する。 平均検出率の式も提示する。 アプローチは回復時間、後脈動、トワイライト脈動をカバーする。 市販シリコンスペードを用いた測定データと理論的予測を実験的に比較した。 総変動距離は 10^{-5}$ から 10^{-2}$ までである。

This work presents stochastic approaches to model the counting behavior of actively quenched single-photon avalanche diodes (SPADs) subjected to continuous-wave constant illumination. We present both analytical expressions and simulation algorithms predicting the distribution of the number of detections in a finite time window. We also present formulas for the mean detection rate. The approaches cover recovery time, afterpulsing, and twilight pulsing. We experimentally compare the theoretical predictions to measured data using commercially available silicon SPADs. Their total variation distances range from $10^{-5}$ to $10^{-2}$.
翻訳日:2023-06-05 11:42:53 公開日:2020-08-25
# 超伝導コプレーナ共振器の結合低減に関する解析モデルと基板トレンチによる量子ビット設計

Analytical modeling of participation reduction in superconducting coplanar resonator and qubit designs through substrate trenching ( http://arxiv.org/abs/2001.11451v2 )

ライセンス: Link先を確認
Conal E. Murray(参考訳) コプラナー導波路(cpw)とキュービットの誘電損失を減らすための戦略は、オーバーライジング金属化のギャップ内の基板にトレンチを形成することを含む。 これらの設計では, 地平面と導体金属化の有効誘電特性の変化により, 表面や界面に付着する汚染層の関与を低減できる。 この減少を定量化するために, 有限要素法が適用されてきたが, 基板トレンチ深度が小さく, 中間層トレンチ深度が小さいジオメトリーに一意に対処できる解析手法が提案されている。 コンフォメーションマッピング技術は、基板トレンチを必要とせず、不均一な汚染層厚を持つcpwおよびqubitジオメトリを生成する。 この変動をパラメータ化することにより、金属化コーナーやエッジ付近の電界強度の特異点を適切に捉える2次元解析近似を用いて表面参加を計算することができる。 例えば、トレンチ側壁による基板対空気接触の初期増加と、有効誘電率の低下による表面接触の全体的な減少を捉えた基板トレンチ深さに関する2つのレジームを示し、この表面における損失接点を抽出するための実験的測定と比較する。

A strategy aimed at decreasing dielectric loss in coplanar waveguides (CPW) and qubits involves the creation of trenches in the underlying substrate within the gaps of the overlying metallization. Participation of contamination layers residing on surfaces and interfaces in these designs can be reduced due to the change in the effective dielectric properties between the groundplane and conductor metallization. Although finite element method approaches have been previously applied to quantify this decrease, an analytical method is presented that can uniquely address geometries possessing small to intermediate substrate trench depths. Conformal mapping techniques produce transformed CPW and qubit geometries without substrate trenching but a non-uniform contamination layer thickness. By parametrizing this variation, one can calculate surface participation through the use of a two-dimensional, analytical approximation that properly captures singularities in the electric field intensity near the metallization corners and edges. Examples demonstrate two regimes with respect to substrate trench depth that capture an initial increase in substrate-to-air surface participation due to the trench sidewalls and an overall decrease in surface participation due to the reduction in the effective dielectric constant, and are compared to experimental measurements to extract loss tangents on this surface.
翻訳日:2023-06-05 04:43:49 公開日:2020-08-25
# 鏡, 鏡: 鏡の前にある超伝導量子ビットのlandau-zener-stuckelberg-majorana干渉法

Mirror, mirror: Landau-Zener-Stuckelberg-Majorana interferometry of a superconducting qubit in front of a mirror ( http://arxiv.org/abs/2003.00322v2 )

ライセンス: Link先を確認
P. Y. Wen, O. V. Ivakhnenko, M. A. Nakonechnyi, B. Suri, J.-J. Lin, W.-J. Lin, J. C. Chen, S. N. Shevchenko, Franco Nori, and I.-C. Hoi(参考訳) 半無限伝送線路における超伝導量子ビットのlandau-zener-stuckelberg-majorana干渉法について検討した。 トランスモン型量子ビットは共振電磁場(EM)のノードにあり、EMフィールドから隠れている。 クビットが別の鏡として機能するため、『鏡』はこの仕組みを簡潔に記述している。 正弦波フラックスポンプを適用して量子ビットの共振周波数を変調する。 我々は,系内の弱いプローブの反射係数を測定することにより,分光を観測する。 スペクトルに顕著な干渉パターンが出現し、服装の量子ビットでは多光子共鳴と解釈できる。 私たちの計算は実験とよく一致する。

We investigate the Landau-Zener-Stuckelberg-Majorana interferometry of a superconducting qubit in a semi-infinite transmission line terminated by a mirror. The transmon-type qubit is at the node of the resonant electromagnetic (EM) field, hiding from the EM field. "Mirror, mirror" briefly describes this system, because the qubit acts as another mirror. We modulate the resonant frequency of the qubit by applying a sinusoidal flux pump. We probe the spectroscopy by measuring the reflection coefficient of a weak probe in the system. Remarkable interference patterns emerge in the spectrum, which can be interpreted as multi-photon resonances in the dressed qubit. Our calculations agree well with the experiments.
翻訳日:2023-06-01 05:36:40 公開日:2020-08-25
# 純脱落を超える量子探索

Quantum probing beyond pure dephasing ( http://arxiv.org/abs/2003.04014v2 )

ライセンス: Link先を確認
Dario Tamascelli, Claudia Benedetti, Heinz-Peter Breuer, and Matteo G.A. Paris(参考訳) 量子プローブは、複雑な環境と相互作用する単純な量子システムを利用して、環境の温度やスペクトル密度などの環境パラメータに関する正確な情報を抽出する技術である。 本稿では,熱平衡におけるオーミックボソニック環境を特徴付ける単一量子ビットプローブの性能解析を行う。 特に, プローブと環境との相互作用をハミルトニアンに調整することで, 従来の純粋否定のパラダイムを超越した効果を解析した。 弱い結合状態と短時間状態では、プローブのダイナミクスを解析的に扱うが、強い結合状態と長時間状態には数値シミュレーションを用いる。 次に,量子フィッシャー情報を評価し,遮断周波数と環境温度を推定する。 我々の結果は、短い時間に注意を集中しない限り、純粋な嫌悪は最適ではないという明確な証拠を提供する。 特に、超越相互作用の存在が到達可能な最大精度を改善する、すなわち量子フィッシャー情報を増加させる作業体制がいくつか見つかった。 また,推定精度の決定におけるプローブの初期状態とプローブ特性周波数の役割について検討し,量子レベルでのボソニック環境を特徴付ける最適化検出設計のための定量的ガイドラインを提供する。

Quantum probing is the art of exploiting simple quantum systems interacting with a complex environment to extract precise information about some environmental parameters, e.g. the temperature of the environment or its spectral density. Here we analyze the performance of a single-qubit probe in characterizing Ohmic bosonic environments at thermal equilibrium. In particular, we analyze the effects of tuning the interaction Hamiltonian between the probe and the environment, going beyond the traditional paradigm of pure dephasing. In the weak-coupling and short-time regime, we address the dynamics of the probe analytically, whereas numerical simulations are employed in the strong coupling and long-time regime. We then evaluate the quantum Fisher information for the estimation of the cutoff frequency and the temperature of the environment. Our results provide clear evidence that pure dephasing is not optimal, unless we focus attention to short times. In particular, we found several working regimes where the presence of a transverse interaction improves the maximum attainable precision, i.e. it increases the quantum Fisher information. We also explore the role of the initial state of the probe and of the probe characteristic frequency in determining the estimation precision, thus providing quantitative guidelines to design optimized detection to characterize bosonic environments at the quantum level.
翻訳日:2023-05-30 03:14:51 公開日:2020-08-25
# 量子ウォークによる位相相とエッジ状態の制御可能なシミュレーション

Controllable simulation of topological phases and edge states with quantum walk ( http://arxiv.org/abs/2004.04042v3 )

ライセンス: Link先を確認
S. Panahiyan and S. Fritzsche(参考訳) 異なる位相相,境界状態,エッジ状態などの凝縮物質の様々な位相現象を,ステップ依存コインを用いた2種類の量子ウォークによってシミュレートする。 特に、ステップ依存的な1次元量子ウォークは、BDIファミリーのすべての種類の位相位相と、すべての種類の境界状態とエッジ状態をシミュレートすることを示す。 さらに, ステップ依存型コインはシミュレーションの制御因子としてステップ数を提供することを示した。 実際、多くのステップをチューニングすることで、境界状態、エッジ状態、位相相の発生、それらのタイプ、そして位置を決定することができる。 これら2つの特徴は、位相相、境界状態、エッジ状態、位相相転移の量子ウォークを多目的かつ高度に制御可能なシミュレータを作る。 また, シミュレーショントポロジカル現象に対する細胞様構造の出現について報告する。 各セルはbdiファミリーの全ての種類の境界(エッジ)状態と位相相を含む。

We simulate various topological phenomena in condense matter, such as formation of different topological phases, boundary and edge states, through two types of quantum walk with step-dependent coins. Particularly, we show that one-dimensional quantum walk with step-dependent coin simulates all types of topological phases in BDI family, as well as all types of boundary and edge states. In addition, we show that step-dependent coins provide the number of steps as a controlling factor over the simulations. In fact, with tuning number of steps, we can determine the occurrences of boundary, edge states and topological phases, their types and where they should be located. These two features make quantum walks versatile and highly controllable simulators of topological phases, boundary, edge states, and topological phase transitions. We also report on emergences of cell-like structures for simulated topological phenomena. Each cell contains all types of boundary (edge) states and topological phases of BDI family.
翻訳日:2023-05-26 03:48:52 公開日:2020-08-25
# 周期駆動クォート振動子における仕事統計--古典力学と量子力学

Work statistics in the periodically driven quartic oscillator: classical versus quantum dynamics ( http://arxiv.org/abs/2004.10479v2 )

ライセンス: Link先を確認
Mattes Heerwagen and Andreas Engel(参考訳) ナノスケール系の熱力学では、古典力学と量子力学的記述の関係が特に重要である。 この対応を精査するため、古典的および量子力学の枠組み内で緩やかに振幅が変化する周期外力によって駆動されるアンハーモニック振動子の研究を行った。 駆動によって誘導される発振器のエネルギー変化は、系の作業の確率分布と密接に関連している。 ドライブの振幅 $\lambda(t)$ が 0 から最大 $\lambda_{max}$ に増加すると、再び 0 に戻り、最終的にハミルトニアンが一致する。 主な関心値は、初期エネルギー $e_i$ から最終エネルギー $e_f$ への遷移の確率密度 $p(e_f|e_i)$ である。 古典的な場合、$E_f\neq E_i$ の非対角遷移は主にセパラトリクス交差の機構によって生じる。 振り子近似における近似解析結果が数値シミュレーションに準拠していることを示す。 量子の場合、数値的に正確な結果はフロケ理論を用いた解析的議論と補完される。 古典的および量子的なケースでは、駆動の最大振幅 $\lambda_{max}$ を持つ周期的変化 $p(e_f|e_i)$ の直感的な説明を与える。

In the thermodynamics of nanoscopic systems the relation between classical and quantum mechanical description is of particular importance. To scrutinize this correspondence we study an anharmonic oscillator driven by a periodic external force with slowly varying amplitude both classically and within the framework of quantum mechanics. The energy change of the oscillator induced by the driving is closely related to the probability distribution of work for the system. With the amplitude $\lambda(t)$ of the drive increasing from zero to a maximum $\lambda_{max}$ and then going back to zero again initial and final Hamiltonian coincide. The main quantity of interest is then the probability density $P(E_f|E_i)$ for transitions from initial energy $E_i$ to final energy $E_f$. In the classical case non-diagonal transitions with $E_f\neq E_i$ mainly arise due to the mechanism of separatrix crossing. We show that approximate analytical results within the pendulum approximation are in accordance with numerical simulations. In the quantum case numerically exact results are complemented with analytical arguments employing Floquet theory. For both classical and quantum case we provide an intuitive explanation for the periodic variation of $P(E_f|E_i)$ with the maximal amplitude $\lambda_{max}$ of the driving.
翻訳日:2023-05-22 11:08:25 公開日:2020-08-25
# 生成複雑性に基づく量子状態のキャラクタリゼーション

Characterization of quantum states based on creation complexity ( http://arxiv.org/abs/2004.13827v2 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 量子状態の生成複雑性は、基本初期状態から量子状態を生成するのに必要な最小のゲート数である。 量子状態の生成の複雑さは量子回路の複雑さと密接に関連しており、古典的アルゴリズムを上回る効率的な量子アルゴリズムを開発する上で重要である。 これまでの大きな疑問は、量子状態が量子ビット数と多項式的にスケールするいくつかの基本ゲートで作成できるかどうかである。 この研究において、我々はまず、完全一般の量子状態に対して、生成複雑性が多項式であるかどうかを決定するために指数関数的に難しい(量子ビット数で指数関数的にスケールするいくつかのステップが必要となる)ことを示す。 次に、多項式生成複雑性を持つ大規模量子状態のクラスが、任意の候補量子状態が与えられたとき、そのクラスに属するか否かを任意に高い成功確率で決定するための効率的な係数サンプリング手順を設計できるような共通の係数特徴を持つことを示す。 その結果、量子状態の生成複雑性の部分的知識が得られ、そのような状態を含む量子回路やアルゴリズムを設計するのに有用である。

The creation complexity of a quantum state is the minimum number of elementary gates required to create it from a basic initial state. The creation complexity of quantum states is closely related to the complexity of quantum circuits, which is crucial in developing efficient quantum algorithms that can outperform classical algorithms. A major question unanswered so far is what quantum states can be created with a number of elementary gates that scales polynomially with the number of qubits. In this work we first show for an entirely general quantum state it is exponentially hard (requires a number of steps that scales exponentially with the number of qubits) to determine if the creation complexity is polynomial. We then show it is possible for a large class of quantum states with polynomial creation complexity to have common coefficient features such that given any candidate quantum state we can design an efficient coefficient sampling procedure to determine if it belongs to the class or not with arbitrarily high success probability. Consequently partial knowledge of a quantum state's creation complexity is obtained, which can be useful for designing quantum circuits and algorithms involving such a state.
翻訳日:2023-05-21 21:32:20 公開日:2020-08-25
# 古典ポテンシャルによる散乱過程におけるボームの量子力の評価

Evaluating Bohm's quantum force in the scattering process by a classical potential ( http://arxiv.org/abs/2006.08511v3 )

ライセンス: Link先を確認
Wanisson S. Santana, Clebson Cruz, Elisama Lima and Frederico V. Prudente(参考訳) 本研究では,ガウス波の散乱過程におけるボームの量子力を古典的エッカートポテンシャルによって評価するための強力なツールとして,ド・ブロイ・ボーム量子運動理論(qtm)の応用を示す。 本研究は,古典的ポテンシャルが存在しない場合,実効力から生じる量子効果を,ウェーブパケット自体の存在と本質的に関連していることを示す。 対照的に、古典ポテンシャルによる散乱では、任意の古典的力がなくても量子力効果を経験し、ポテンシャルが古典的力場なしで作用できるという事実を補強する。 したがって、この応用は、ボームの量子力の概念の議論を通じて、単に量子理論の代替解釈ではなく、教室作業ツールとしてQTMを導入するのに役立つ。

In this work, we show an application of the de Broglie-Bohm Quantum Theory of Motion (QTM) as a powerful tool for evaluating Bohm's quantum force in the scattering process of a Gaussian wavepacket by a classical Eckart potential. Our results show that in the absence of a classical potential, the system experiences quantum effects arising from an effective force, intrinsically related to the existence of the wavepacket itself. In contrast, in the scattering by the classical potential, it experiences a quantum force effect even in the absence of any classical force, reinforcing the fact that potentials can act without classical force fields. Thus, this application could be useful to introduce QTM, through the discussion of the concept of Bohm's quantum force, as a classroom working tool instead of merely an alternative interpretation of the quantum theory.
翻訳日:2023-05-13 20:17:25 公開日:2020-08-25
# 相対論的スピン作用素は内在的でなければならない

Relativistic spin operator must be intrinsic ( http://arxiv.org/abs/2008.01308v2 )

ライセンス: Link先を確認
E. R. F. Taillebois, A. T. Avelar(参考訳) 相対論的スピン可観測物の多くの提案があるが、この量の適切な定義については合意がない。 この問題は、現在の文献では、そのような作用素が満足すべき性質の集合に関して合意がないという事実から生じる。 ここでは、相対論的スピン観測可能の性質について誰もが同意すべき条件を課すことで、この問題を克服する方法を示す。 内在性の概念は古典的相対論的極限で解析され、その後量子状態へと拡張され、スピン問題はポアンカル・'{e} 群の既約ユニタリ表現の文脈で扱われる。 このアプローチは、相対論的スピン可観測性の3ベクトル提案を規定し、本質的であるだけでなく、非相対論的極限における共分散や予測の一貫性のような興味深い物理的特徴も持つというユニークな満足なスピン定義をもたらす。 また, 電磁・スピン相互作用に関する一貫した観測独立モデルも提案した。

Although there are many proposals of relativistic spin observables, there is no agreement about the adequate definition of this quantity. This problem arises from the fact that, in the present literature, there is no consensus concerning the set of properties that such an operator should satisfy. Here we present how to overcome this problem by imposing a condition that everyone should agree about the nature of the relativistic spin observable: it must be intrinsic. The intrinsicality concept is analyzed in the relativistic classical limit and then it is extended to the quantum regime, the spin problem being treated in the context of the irreducible unitary representations of the Poincar\'{e} group. This approach rules out three-vector proposals of relativistic spin observable and leads to a unique satisfactory spin definition that, besides being intrinsic, also possesses interesting physical features such as covariance and consistency of predictions in the non relativistic limit. To support the presented results from an operational perspective, a consistent observer-independent model for the electromagnetic-spin interaction is also presented.
翻訳日:2023-05-07 04:41:50 公開日:2020-08-25
# 英語 Twitter と Mandarin Weibo を用いた文化のポリテネスに関する研究

Studying Politeness across Cultures Using English Twitter and Mandarin Weibo ( http://arxiv.org/abs/2008.02449v3 )

ライセンス: Link先を確認
Mingyang Li, Louis Hickman, Louis Tay, Lyle Ungar, Sharath Chandra Guntuku(参考訳) 文化間の礼儀正しいモデリングは、適切で礼儀正しいと考えられるものを明らかにすることによって、文化間コミュニケーションを改善するのに役立つ。 米国英語と中国語の丁寧さに関連する言語的特徴について検討した。 まず、米国から5300件のTwitter投稿と中国から5300件のSina Weibo投稿に礼儀正しいスコアを付けた。 次に、英語と中国語の丁寧な特徴セット「PoliteLex」を開発する。 検証された精神言語辞書と組み合わせて、言語的特徴と文化間の丁寧さの相関について検討する。 マンダリン・ヴァイボー(mandarin weibo)では、将来重視される会話、グループ提携による識別、感謝は英語のtwitterよりも丁寧であると考えられている。 死に関連するタブーの話題、代名詞の選択の欠如、非公式な言語は、英語のTwitterと比べてマンダリン・ワイボの虚偽性が高い。 最後に,mandarin weiboのf1スコア0.886,英語twitterの0.774を用いて,丁寧さを予測するための言語ベースの機械学習モデルを構築した。

Modeling politeness across cultures helps to improve intercultural communication by uncovering what is considered appropriate and polite. We study the linguistic features associated with politeness across US English and Mandarin Chinese. First, we annotate 5,300 Twitter posts from the US and 5,300 Sina Weibo posts from China for politeness scores. Next, we develop an English and Chinese politeness feature set, `PoliteLex'. Combining it with validated psycholinguistic dictionaries, we then study the correlations between linguistic features and perceived politeness across cultures. We find that on Mandarin Weibo, future-focusing conversations, identifying with a group affiliation, and gratitude are considered to be more polite than on English Twitter. Death-related taboo topics, lack of or poor choice of pronouns, and informal language are associated with higher impoliteness on Mandarin Weibo compared to English Twitter. Finally, we build language-based machine learning models to predict politeness with an F1 score of 0.886 on Mandarin Weibo and a 0.774 on English Twitter.
翻訳日:2023-05-07 00:18:49 公開日:2020-08-25
# 短距離絡み合い支援を用いた量子ネットワーク

Quantum networking with short-range entanglement assistance ( http://arxiv.org/abs/2008.05553v3 )

ライセンス: Link先を確認
Siddhartha Santra and Vladimir S. Malinovsky(参考訳) ネットワークノード間の補助的短距離経路によって供給される絡み合いを補助する量子ネットワークにおいて,高忠実な長距離絡み合いを分散する手法を提案する。 共役触媒状態の形での絡み合い支援を利用して、ネットワークのエッジ上での絡み合い濃度変換の効率を最大化する。 触媒状態はネットワークノードでの適応操作に再利用され、補助短距離経路を用いて定期的に補充される。 このようなエンタングルメントアシストを用いた長距離エンタングルメント分布の速度は、エンタングルメントアシストを使わずに可能よりも有意に高いことが判明した。

We propose an approach to distribute high-fidelity long-range entanglement in a quantum network assisted by the entanglement supplied by auxiliary short-range paths between the network nodes. Entanglement assistance in the form of shared catalyst states is utilized to maximize the efficiency of entanglement concentration transformations over the edges of the network. The catalyst states are recycled for use in adaptive operations at the network nodes and replenished periodically using the auxiliary short-range paths. The rate of long-range entanglement distribution using such entanglement assistance is found to be significantly higher than possible without using entanglement assistance.
翻訳日:2023-05-06 11:29:25 公開日:2020-08-25
# スピン鎖における欠陥の電子スピン共鳴 o-(dmttf)2x : 分子磁石のような多用途システム

Electron Spin Resonance of Defects in Spin Chains. o-(DMTTF)2X : a versatile system behaving like molecular magnet ( http://arxiv.org/abs/2008.10897v1 )

ライセンス: Link先を確認
L. Soriano, J. Zeisner, V. Kataev, O. Pilone, M. Fourmigu\'e, O. Jeannin, H. Vezin, M. Orio, S. Bertaina(参考訳) 本研究では, スピン鎖o-(DMTTF)2Xファミリーの欠陥を連続波とパルス法による電子パラ磁性共鳴法による研究を行った。 スピン鎖の欠陥は強く相関し、分子磁石として類似した微細構造を示す。 2D-HYSCORE法とDFT法を用いて, 欠陥と核スピン浴との間の超微細結合を強く低減することを示した。 この減少は、核の効果を遮蔽するハイゼンベルク交換相互作用によるものであると仮定する。

The paper presents the Electron Paramagnetic Resonance study of defects in the spin chain o- (DMTTF)2X family using continuous wave and pulsed techniques. The defects in spin chains are strongly correlated and present similar microscopic structure as a molecular magnet. By means of 2D-HYSCORE and DFT calculations we show a strong reduction of hyperfine coupling between the defects and the nuclear spin bath. We assume that the reduction is due to the Heisenberg exchange interaction which screens the effect of the nuclei.
翻訳日:2023-05-05 00:12:33 公開日:2020-08-25
# 量子貯留層工学による最大ステアリングコヒーレンス保護

Maximal Steered Coherence Protection by Quantum Reservoir Engineering ( http://arxiv.org/abs/2008.10836v1 )

ライセンス: Link先を確認
Yusef Maleki and Bahram Ahansaz(参考訳) 量子ステアリング楕円体に対するデコヒーレンスの効果は、マルコフ領域と非マルコフ領域の両方において特定のリザーバ操作によって制御できることを示した。 したがって、いわゆる最大操舵コヒーレンスは、貯水池に補助キュービットを結合することによって実現された貯水池工学によって保護することができる。

We show that the effects of decoherence on quantum steering ellipsoids can be controlled by a specific reservoir manipulating, in both Markovian and non-Markovian realms. Therefore, the so-called maximal steered coherence could be protected through reservoir engineering implemented by coupling auxiliary qubits to the reservoir.
翻訳日:2023-05-05 00:12:09 公開日:2020-08-25
# 希土類イオンドーパントを用いたマイクロ波光変換の理論

Theory of Microwave-Optical Conversion Using Rare-Earth Ion Dopants ( http://arxiv.org/abs/2008.10834v1 )

ライセンス: Link先を確認
Peter S. Barnett and Jevon J. Longdell(参考訳) 我々はマイクロ波から光子へのコヒーレント変換装置の理論記述を開発する。 この装置では、結晶中のドーパントイオンが3レベルシステムとして使われ、重なり合うマイクロ波と光学キャビティ内の磁場と相互作用する。 我々は、イオンのアンサンブルと相互作用するキャビティ場のモデルを開発し、不均一広化の効果を考慮しつつ、開量子システムアプローチを用いてイオンをモデル化する。 デバイスを正確にシミュレートするための数値計算手法を開発した。 また、量子情報応用に関連する小空洞場に適用可能な単純化されたモデルも開発している。 この単純化されたモデルは、デバイスの最大変換効率を予測するために使用される。 本研究では, 各種パラメータの影響を調査し, 希釈冷凍機内の既存実験装置を用いて80%以上の変換効率を推定する。

We develop a theoretical description of a device for coherent conversion of microwave to optical photons. For the device, dopant ions in a crystal are used as three-level systems, and interact with the fields inside overlapping microwave and optical cavities. We develop a model for the cavity fields interacting with an ensemble of ions, and model the ions using an open quantum systems approach, while accounting for the effect of inhomogeneous broadening. Numerical methods are developed to allow us to accurately simulate the device. We also further develop a simplified model, applicable in the case of small cavity fields which is relevant to quantum information applications. This simplified model is used to predict the maximum conversion efficiency of the device. We investigate the effect of various parameters, and predict that conversion efficiency of above 80% should be possible with currently existing experimental setups inside a dilution refrigerator.
翻訳日:2023-05-05 00:12:02 公開日:2020-08-25
# 量子ネットワークにおける通信波長におけるマルチファンクショナルオンチップストレージ

Multifunctional on-chip storage at telecommunication wavelength for quantum networks ( http://arxiv.org/abs/2008.10795v1 )

ライセンス: Link先を確認
Ioana Craiciu, Mi Lei, Jake Rochman, John G. Bartholomew, Andrei Faraon(参考訳) 量子ネットワークは、セキュアな通信や精度測定から分散量子コンピューティングまで、さまざまなアプリケーションを可能にする。 フォトニック量子ビットを格納し、その周波数、帯域幅、検索時間を制御することは、将来の光量子ネットワークにおいて重要な機能である。 ここでは、シリコンフォトニック共振器と結合し、オンチップ電極を介して制御されるイットリウムオルソシリケート中のエルビウムイオンのアンサンブルを用いてこれらの機能を実証する。 電信Cバンドの光は、イオンアンサンブルの遷移周波数の直流スタークシフトによって制御される動的原子周波数コムプロトコルを用いて保存、操作、検索される。 我々は、50 nsのインクリメント、パルス幅(\pm39$ MHz)以上の周波数シフト、帯域幅を6MHzから18MHzに3倍に向上させるデジタル方式でメモリ時間制御を実証した。 オンチップ電極を用いて5vの低印加バイアスで3kv/cm以上の電場を達成し,10khz/(v/cm)の極大シフトを経験する希土類イオンにとって魅力的なプラットフォームとなった。

Quantum networks will enable a variety of applications, from secure communication and precision measurements to distributed quantum computing. Storing photonic qubits and controlling their frequency, bandwidth and retrieval time are important functionalities in future optical quantum networks. Here we demonstrate these functions using an ensemble of erbium ions in yttrium orthosilicate coupled to a silicon photonic resonator and controlled via on-chip electrodes. Light in the telecommunication C-band is stored, manipulated and retrieved using a dynamic atomic frequency comb protocol controlled by linear DC Stark shifts of the ion ensemble's transition frequencies. We demonstrate memory time control in a digital fashion in increments of 50 ns, frequency shifting by more than a pulse-width ($\pm39$ MHz), and a bandwidth increase by a factor of three, from 6 MHz to 18 MHz. Using on-chip electrodes, electric fields as high as 3 kV/cm were achieved with a low applied bias of 5 V, making this an appealing platform for rare earth ions, which experience Stark shifts of the order of 10 kHz/(V/cm).
翻訳日:2023-05-05 00:11:50 公開日:2020-08-25
# Fibonacci anyons vs Majorana fermions

Fibonacci anyons versus Majorana fermions ( http://arxiv.org/abs/2008.10790v1 )

ライセンス: Link先を確認
Emil G\'enetay Johansen, Tapio Simula(参考訳) 我々は,${\rm su}(2)_k$ anyonモデルを研究し,トポロジカル量子計算への期待を評価した。 特に、Ising (k=2$) anyonとFibonacci (k=3$) anyonモデルを比較した。 異なるエノンモデルの量子計算性能は、ターゲットユニタリ演算子と、その近似をエノンブレイディングによって実現した近似との差により、単一量子ビットレベルで定量化される。 効率的な比較を容易にするために,指数関数的に大きい探索木から多項式時間で最適なブレイド語を求めるモンテカルロ拡張ソロワ・キタエフ量子コンパイラアルゴリズムを開発した。 普遍量子計算はイジング・アノンモデル内ではブレイディングだけでは達成できないため、位相的保護を完全に破るコストでアノンモデルの普遍性を回復する非位相的計測過程をモデル化するための基本位相ゲートを導入する。 すべての非位相ゲート演算に制御可能なノイズ項を導入することにより,従来のデコヒーレンス過程をアルゴリズム的にモデル化する。 妥当なデコヒーレンスレベルにおいては、ハイブリッドIsing anyonモデルでさえ、従来の非トポロジカル量子コンピュータよりも大きなトポロジ的優位性を維持している。 さらに,100ドル(約1万1000円)の初等編み物の単語長に対して,すでに発せられている編み語の内在誤差を超えるゲートノイズのため,驚くほど短い編み物の編集が要求されることが判明した。 ハイブリッドトポロジカル量子計算の将来は今後も有望であると結論づける。

We have studied ${\rm SU}(2)_k$ anyon models, assessing their prospects for topological quantum computation. In particular, we have compared the Ising ($k=2$) anyon and Fibonacci ($k=3$) anyon models, motivated by their potential for future realizations based on Majorana fermion quasiparticles or exotic fractional quantum-Hall states, respectively. The quantum computational performance of the different anyon models is quantified at single qubit level by the difference between a target unitary operator and its approximation realised by anyon braiding. To facilitate efficient comparisons, we have developed a Monte Carlo enhanced Solovay-Kitaev quantum compiler algorithm that finds optimal braid words in polynomial time from the exponentially large search tree. Since universal quantum computation cannot be achieved within the Ising anyon model by braiding alone, we have introduced an additional elementary phase gate to model a non-topological measurement process, which restores universality of the anyon model at the cost of breaking the full topological protection. We model conventional kinds of decoherence processes algorithmically by introducing a controllable noise term to all non-topological gate operations. We find that for reasonable levels of decoherence, even the hybrid Ising anyon model retains a significant topological advantage over a conventional, non-topological, quantum computer. Furthermore, we find that only surprisingly short anyon braids are ever required to be compiled due to the gate noise exceeding the intrinsic error of the braid words already for word lengths of the order of $100$ elementary braids. We conclude that the future for hybrid topological quantum computation remains promising.
翻訳日:2023-05-05 00:11:28 公開日:2020-08-25
# 大きなフォック状態の決定論的生成

Deterministic Generation of Large Fock States ( http://arxiv.org/abs/2008.10787v1 )

ライセンス: Link先を確認
M. Uria, P. Solano, C. Hermann-Avigliano(参考訳) 我々は、電磁界を大光子数状態に決定的に準備するプロトコルを提案する。 フィールドはコヒーレントな状態から始まり、一つまたは少数の2段階のシステムとの共鳴相互作用によって、ポストセレクションなしでコヒーレントに置換されたフォック状態へと進化する。 本手法の有効性を現実的なパラメータで示す。 提案した手法は、Fock状態に到達するための扉を、$n\sim100$と$70$%以上の最適忠実度で開き、場のマクロ状態と量子状態の間の線を曖昧にする。

We present a protocol to deterministically prepare the electromagnetic field in a large photon number state. The field starts in a coherent state and, through resonant interaction with one or few two-level systems, it evolves into a coherently displaced Fock state, without any post-selection. We show the feasibility of the scheme under realistic parameters. The presented method opens a door to reach Fock states with $n\sim100$ and optimal fidelities above $70$%, blurring the line between macroscopic and quantum states of the field.
翻訳日:2023-05-05 00:10:53 公開日:2020-08-25
# 多部交絡測度の一家系

A family of multipartite entanglement measures ( http://arxiv.org/abs/2008.11108v1 )

ライセンス: Link先を確認
P\'eter Vrana(参考訳) 純粋な多成分状態に対する付加的絡み合い測度の族を構築する。 一粒子還元状態のR'enyiエントロピーと最近発見された普遍スペクトル点(Christandl, Vrana, Zuiddam, STOC 2018)の間には、単純で補間され、テンソル変性のモノトンとして機能する。

We construct a family of additive entanglement measures for pure multipartite states. The family is parametrised by a simplex and interpolates between the R\'enyi entropies of the one-particle reduced states and the recently-found universal spectral points (Christandl, Vrana, and Zuiddam, STOC 2018) that serve as monotones for tensor degeneration.
翻訳日:2023-05-05 00:03:36 公開日:2020-08-25
# デジタルマネートークンの歴史的状況と特徴

Historical Context and Key Features of Digital Money Tokens ( http://arxiv.org/abs/2008.11084v1 )

ライセンス: Link先を確認
Shreepad Shukla(参考訳) デジタル通貨トークンは金融機関、中央銀行、規制当局、国際協会、フィンテックの注目を集めている。 彼らのデジタルマネートークンの研究と実験には、革新的な技術と運用の枠組みの創出が含まれる。 本稿では,近年のデジタル通貨トークンの概念を,従来の貨幣形態から進化を図解し,歴史的文脈に取り入れた「マネーツリー」を提案する。 次に、デジタルマネートークンの重要な特徴をオプションと例で識別します。 この論文が金融サービス業界に利益をもたらすことを期待しており、フィードバックを楽しみにしています。

Digital money tokens have attracted the attention of financial institutions, central banks, regulators, international associations and fintechs. Their research and experimentation with digital money tokens has included creating innovative technical and operational frameworks. In this paper, we present a 'money tree' which places this recent concept of digital money tokens into a historical context by illustrating their evolution from more traditional forms of money. We then identify key features of digital money tokens with options and examples. We hope this paper will be of interest to the financial services industry and we look forward to feedback.
翻訳日:2023-05-05 00:03:17 公開日:2020-08-25
# tripチェーンを用いた余剰通勤のモデル化と解析

Modeling and Analysis of Excess Commuting with Trip Chains ( http://arxiv.org/abs/2008.11082v1 )

ライセンス: Link先を確認
Yujie Hu, Xiaopeng Li(参考訳) 他のタイプの人間の移動と同様に、通勤は自然に複雑であり、2つのアンカーの間に複数の目的の停止を含むトリップチェーン行動などである。 2001年の全国家計旅行調査によると、平日の米国の労働者の約半数が通勤中に停留した。 しかし、地域全体の通勤効率を調べる過剰な通勤研究では、通勤は家から仕事へのノンストップ旅行として単純化されている。 本研究は、トリップチェインに基づくモデルを提案し、トリップチェインの挙動を過剰な通勤に組み込むことによって、このギャップを埋める。 フロリダ州タンパベイ地域のケーススタディに基づいて、従来の過剰通勤研究は実際の通勤と最適な通勤の両方を過小評価し、過剰通勤を過小評価している。 例えば、鎖状通勤のみの場合、平均最低通勤時間は5.48分から9.32分に70%増加する。 このギャップは、連鎖活動の種類による非凝集分析により、旅行連鎖型によって異なる。 そのため、政策立案者や計画立案者は、都市交通・土地利用政策のトリップチェーン行動の省略を警告している。 さらに,提案モデルを用いて非作業走行の効率について検討することができる。

Commuting, like other types of human travel, is complex in nature, such as trip-chaining behavior involving making stops of multiple purposes between two anchors. According to the 2001 National Household Travel Survey, about one half of weekday U.S. workers made a stop during their commute. In excess commuting studies that examine a region's overall commuting efficiency, commuting is, however, simplified as nonstop travel from homes to jobs. This research fills this gap by proposing a trip-chaining-based model to integrate trip-chaining behavior into excess commuting. Based on a case study of the Tampa Bay region of Florida, this research finds that traditional excess commuting studies underestimate both actual and optimal commute, while overestimate excess commuting. For chained commuting trips alone, for example, the mean minimum commute time is increased by 70 percent from 5.48 minutes to 9.32 minutes after trip-chaining is accounted for. The gaps are found to vary across trip-chaining types by a disaggregate analysis by types of chain activities. Hence, policymakers and planners are cautioned of omitting trip-chaining behavior in making urban transportation and land use policies. In addition, the proposed model can be adopted to study the efficiency of non-work travel.
翻訳日:2023-05-05 00:03:08 公開日:2020-08-25
# 相互作用する2レベル原子の原子減衰基底と集合崩壊

The atomic damping basis and the collective decay of interacting two-level atoms ( http://arxiv.org/abs/2008.11056v1 )

ライセンス: Link先を確認
W. Alvarez-Giron, P. Barberis-Blostein(参考訳) 主方程式が原子ラベルの置換の下で対称であるとき、相互作用する2レベル原子の進化に対する解析的解を求める。 マスター方程式は原子独立散逸を含む。 解を得る方法は次のとおりである: まず、系対称性を用いて、次元が原子数で多項式的に成長する作用素空間の進化を記述する。 第二に、原子の独立な散逸をモデル化するマスター方程式の散逸部分の固有ベクトルからなる解を展開する。 この原子減衰基底は、ボソニック場に用いられる減衰基底の原子アナログである。 この解は、系が準放射指数項と超放射指数項の和として崩壊することを示している。

We find analytical solutions to the evolution of interacting two-level atoms when the master equation is symmetric under the permutation of atomic labels. The master equation includes atomic independent dissipation. The method to obtain the solutions is: First, we use the system symmetries to describe the evolution in an operator space whose dimension grows polynomially with the number of atoms. Second, we expand the solutions in a basis composed of eigenvectors of the dissipative part of the master equation that models the independent dissipation of the atoms. This atomic damping basis is an atomic analog to the damping basis used for bosonic fields. The solutions show that the system decays as a sum of sub- and super-radiant exponential terms.
翻訳日:2023-05-05 00:02:47 公開日:2020-08-25
# 縦方向コヒーレント・狭帯域自由電子レーザーの原子・分子・光学物理応用

Atomic, molecular and optical physics applications of longitudinally coherent and narrow bandwidth Free-Electron Lasers ( http://arxiv.org/abs/2008.11024v1 )

ライセンス: Link先を確認
Carlo Callegari, Alexei N. Grum-Grzhimailo, Kenichi L. Ishikawa, Kevin C. Prince, Giuseppe Sansone, Kiyoshi Ueda(参考訳) 短波長自由電子レーザー(fels: short wavelength free-electron lasers)は、軟x線と硬x線を用いて、化学、物理的、生物学的に幅広い現象を調査できる最新の光源である。 これらの光源は、現在世界で最も強力な光源(X線源)を含み、非常に高いパワーと高い横コヒーレンスによって特徴付けられるが、最初のFELは長手コヒーレンスを減少させた。 現在, 周波数領域の狭い帯域幅で, 良好な長手コヒーレンスを実現することが可能であり, この特性と基礎となる物理を応用した実験範囲を議論し, 解説する。 主な用途は、高分解能(例えば共鳴実験)や時間的コヒーレンス(例えばコヒーレント制御実験)を必要とするものである。 現在利用可能な光源は、幅広い実験用レーザー技術を短波長まで拡張している。

Short wavelength Free-Electron Lasers (FELs) are the newest light sources available to scientists to probe a wide range of phenomena, with chemical, physical and biological applications, using soft and hard X-rays. These sources include the currently most powerful light sources in the world (hard X-ray sources) and are characterised by extremely high powers and high transverse coherence, but the first FELs had reduced longitudinal coherence. Now it is possible to achieve good longitudinal coherence (narrow bandwidth in the frequency domain) and here we discuss and illustrate a range of experiments utilising this property, and their underlying physics. The primary applications are those which require high resolution (for example resonant experiments), or temporal coherence (for example coherent control experiments). The currently available light sources extend the vast range of laboratory laser techniques to short wavelengths.
翻訳日:2023-05-05 00:02:08 公開日:2020-08-25
# 調和鎖における量子対熱ゆらぎとその実験的意義

Quantum versus thermal fluctuations in the harmonic chain and experimental implications ( http://arxiv.org/abs/2008.11005v1 )

ライセンス: Link先を確認
K. Sch\"onhammer(参考訳) 量子機械調和振動子の非零基底状態エネルギーは、プランク定数に比例する平均平方値を持つポテンシャルの最小値の周りの量子揺らぎを意味する。 古典力学では、発振器が温度$t$の熱浴に結合されたときに熱揺らぎが起こる。 有限温度の量子統計力学では、純粋な量子ゆらぎから高温限界における古典的な熱ゆらぎへの遷移を記述することができる。 ピエルスによって最初に指摘されたのは、平均2乗の熱ゆらぎは、鎖内の原子の距離と直線的に増加し、長い範囲の結晶秩序を破壊することである。 対応する純粋な量子揺らぎは、鎖の固定端からの距離によってはるかに遅い {\it logarithmic} を増加させる。 これはまた、例えば、ゼロ温度の無限鎖におけるx線散乱における鋭いブラッグピークがないことを示しており、代わりに1次元の量子液体("it luttinger liquids} と呼ばれる)に典型的な動力法則の振る舞いを示す。

The nonzero ground-state energy of the quantum mechanical harmonic oscillator implies quantum fluctuations around the minimum of the potential with the mean square value proportional to Planck's constant. In classical mechanics thermal fluctuations occur when the oscillator is coupled to a heat bath of temperature $T$. At finite temperature quantum statistical mechanics allows the description of the transition from pure quantum fluctuations at $T=0$ to classical thermal fluctuations in the high temperature limit. It was early pointed out by Peierls that the mean square thermal fluctuations in a {\it harmonic chain} increase {\it linearly} with the distance of the atoms in the chain, destroying long range crystalline order. The corresponding pure quantum fluctuations lead to a much slower {\it logarithmic} increase with the distance from the fixed end of the chain. It is also shown that this implies, for example, the absence of sharp Bragg peaks in x-ray scattering in an infinite chain at zero temperature, which instead show power law behaviour typical for one dimensional quantum liquids (called {\it Luttinger liquids}).
翻訳日:2023-05-05 00:01:50 公開日:2020-08-25
# syrwid, kosior, sachaの"lack of a real time crystal in a chiral soliton model"へのコメント

Comment on "Lack of a genuine time crystal in a chiral soliton model" by Syrwid, Kosior, and Sacha ( http://arxiv.org/abs/2008.10940v1 )

ライセンス: Link先を確認
Patrik \"Ohberg and Ewan M. Wright(参考訳) 我々は、A. Syrwid, A. Kosior, K. Sacha に「キラルソリトンモデルにおける真の時間結晶の欠如」 arXiv:2005.12313 についてコメントする。

We present a comment on A. Syrwid, A. Kosior, and K. Sacha, "Lack of a genuine time crystal in a chiral soliton model," arXiv:2005.12313.
翻訳日:2023-05-05 00:01:05 公開日:2020-08-25
# 粒子の混合と古典性の出現--自然崩壊モデルの視点から

Particle mixing and the emergence of classicality: A spontaneous-collapse-model view ( http://arxiv.org/abs/2008.11137v1 )

ライセンス: Link先を確認
Kyrylo Simonov(参考訳) 自然崩壊モデルは、波動関数の崩壊を物理過程として考慮し、量子力学における測定問題を解くことを目的としている。 これらのモデルがフェノメロジカルな非エルミート・ハミルトニアンによって支配される崩壊するフレーバー振動系にどのように影響するかを分析する。 次に, 量子力学と普遍位置定位モデル, 連続自発位置定位モデルという2つの一般的な崩壊モデルを中性中間子系に適用する。 非エルミートハミルトニアンによる崩壊系の時間発展へのアプローチと拡大ヒルベルト空間におけるリンドブラッド形式の散逸子との等価性を用いて、自発的崩壊が量子状態とマスター方程式の両方の崩壊ダイナミクスを誘導できることを示した。 さらに,フレーバー振動系の減衰特性は,崩壊機構の基盤となる騒音場の時間(a)対称性と密接に関連していることを示す。 この(a)対称性は確率積分の定義と関連しており、確率計算における It\=o-Stratonovich dilemma の背後にある物理的直観を与えることができる。

Spontaneous collapse models aim to resolve the measurement problem in quantum mechanics by considering wave-function collapse as a physical process. We analyze how these models affect a decaying flavor-oscillating system whose evolution is governed by a phenomenological non-Hermitian Hamiltonian. In turn, we apply two popular collapse models, the Quantum Mechanics with Universal Position Localization and the Continuous Spontaneous Localization models, to a neutral meson system. By using the equivalence between the approaches to the time evolution of decaying systems with a non-Hermitian Hamiltonian and a dissipator of the Lindblad form in an enlarged Hilbert space, we show that spontaneous collapse can induce the decay dynamics in both quantum state and master equations. Moreover, we show that the decay property of a flavor-oscillating system is intimately connected to the time (a)symmetry of the noise field underlying the collapse mechanism. This (a)symmetry, in turn, is related to the definition of the stochastic integral and can provide a physical intuition behind the It\=o-Stratonovich dilemma in stochastic calculus.
翻訳日:2023-05-04 23:52:10 公開日:2020-08-25
# 量子waserstein自然勾配による量子統計学習

Quantum statistical learning via Quantum Wasserstein natural gradient ( http://arxiv.org/abs/2008.11135v1 )

ライセンス: Link先を確認
Simon Becker and Wuchen Li(参考訳) 本稿では,統計学習問題 $\operatorname{argmin}_{\rho(\theta) \in \mathcal p_{\theta}} w_{q}^2 (\rho_{\star},\rho(\theta))$ 対象の量子状態 $\rho_{\star}$ を量子数 $l^2$-wasserstein 計量で近似する新しいアプローチを提案する。 有限次元$C^*$代数上の密度作用素に対するワッサーシュタイン自然勾配流を考慮し、この推定問題を解く。 密度作用素の連続パラメトリックモデルに対しては、パラメータ空間が量子ワッサーシュタイン情報行列を持つリーマン多様体となるように量子ワッサーシュタイン計量を取り戻す。 ベナム・ブレニエの公式の量子アナログを用いて、パラメータ空間上の自然な勾配フローを導出する。 また、関連するウィグナー確率分布の輸送を研究することにより、ある連続変数量子状態についても論じる。

In this article, we introduce a new approach towards the statistical learning problem $\operatorname{argmin}_{\rho(\theta) \in \mathcal P_{\theta}} W_{Q}^2 (\rho_{\star},\rho(\theta))$ to approximate a target quantum state $\rho_{\star}$ by a set of parametrized quantum states $\rho(\theta)$ in a quantum $L^2$-Wasserstein metric. We solve this estimation problem by considering Wasserstein natural gradient flows for density operators on finite-dimensional $C^*$ algebras. For continuous parametric models of density operators, we pull back the quantum Wasserstein metric such that the parameter space becomes a Riemannian manifold with quantum Wasserstein information matrix. Using a quantum analogue of the Benamou-Brenier formula, we derive a natural gradient flow on the parameter space. We also discuss certain continuous-variable quantum states by studying the transport of the associated Wigner probability distributions.
翻訳日:2023-05-04 23:51:50 公開日:2020-08-25
# 曲面スナイダー空間における3次元DKP発振器

Three dimensional DKP oscillator in a curved Snyder space ( http://arxiv.org/abs/2009.02150v1 )

ライセンス: Link先を確認
B. Hamil, M. Merad, T. Birkandan(参考訳) Snyder-de Sitterモデルは、Snyderモデルをde Sitterの背景に拡張したものである。 三重特殊相対性理論(triply special relativity, tsr)は、光速、プランク質量、宇宙定数という3つの基本的なパラメータに基づいている。 本稿では、運動量空間におけるスナイダー・ド・シッター代数の枠組みにおけるスピンゼロと1の3次元DKP発振器について検討する。 ベクトル球面調和法を用いて、両方の場合においてエネルギースペクトルと対応する固有関数を求める。

The Snyder-de Sitter model is an extension of the Snyder model to a de Sitter background. It is called triply special relativity (TSR) because it is based on three fundamental parameters: speed of light, Planck mass, and the cosmological constant. In this paper, we study the three dimensional DKP oscillator for spin zero and one in the framework of Snyder-de Sitter algebra in momentum space. By using the technique of vector spherical harmonics the energy spectrum and the corresponding eigenfunctions are obtained for both cases.
翻訳日:2023-05-04 23:44:51 公開日:2020-08-25
# 機械学習を用いた単純共有型システムの電子構造における非局所効果の検出

Detecting non-local effects in the electronic structure of a simple covalent system with machine learning methods ( http://arxiv.org/abs/2008.11277v1 )

ライセンス: Link先を確認
Behnam Parsaeifard, Jonas A. Finkler, Stefan Goedecker(参考訳) 機械学習から借用した手法を用いて、炭素原子の単純な共有結合系において、局所的物性に対する完全アルゴリズム的長距離効果を検出する。 これらの長距離効果が多くの構成で存在しているという事実は、局所性仮定に基づく力場や現代の機械学習スキームのような原子論的シミュレーション手法は精度が限られていることを示している。 長距離効果の基本的な駆動機構は電荷移動であることを示す。 電荷移動が知られている場合、バンド構造エネルギーのような特定の量で局所性を回復することができる。

Using methods borrowed from machine learning we detect in a fully algorithmic way long range effects on local physical properties in a simple covalent system of carbon atoms. The fact that these long range effects exist for many configurations implies that atomistic simulation methods, such as force fields or modern machine learning schemes, that are based on locality assumptions, are limited in accuracy. We show that the basic driving mechanism for the long range effects is charge transfer. If the charge transfer is known, locality can be recovered for certain quantities such as the band structure energy.
翻訳日:2023-05-04 23:44:25 公開日:2020-08-25
# 局所クエンチ後の準粒子像とその崩壊 : 相互情報、ネガティビティ、反射エントロピー

The quasi-particle picture and its breakdown after local quenches: mutual information, negativity, and reflected entropy ( http://arxiv.org/abs/2008.11266v1 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Yuya Kusuki, Shinsei Ryu(参考訳) 局所作用素による基底状態の励起後の(r\'enyi)相互情報、対数ネガティビティ、(r\'enyi)反射エントロピーのダイナミクスについて検討した。 Refの最近の結果と合わせて。 [1], 真空下で励起された状態から生じる3つの量の間に, 局所的および大域的な量子クエンチを含む近接knit構造が推測できる。 この構造は、理論のカオス性、すなわち積分可能でカオス的な理論に対する同値性の異なる集合に密接に依存する。 有理共形場理論(RCFT)では、挿入された一次作用素の量子次元を計算するための全ての量を求める。 対照的に、相関測度は、有限のツイストギャップを持つすべての$c > 1$共形場理論において有界に成長する(対数的に)。 2つの理論のクラスにおける計算を比較することで、2次元共形場理論における準粒子像の分解の力学機構を特定できる。 興味深いことに、我々の一般的な教訓が、非平衡系における絡み合いダイナミクスの普遍性を示す可積分スピン鎖やカオススピン鎖のような共形場理論とはかなり異なる量子系に適用できるという予備的な証拠も見いだされる。

We study the dynamics of (R\'enyi) mutual information, logarithmic negativity, and (R\'enyi) reflected entropy after exciting the ground state by a local operator. Together with recent results from Ref. [1], we are able to conjecture a close-knit structure between the three quantities that emerges in states excited above the vacuum, including both local and global quantum quenches. This structure intimately depends on the chaoticity of the theory i.e. there exist distinct sets of equivalences for integrable and chaotic theories. For rational conformal field theories (RCFT), we find all quantities to compute the quantum dimension of the primary operator inserted. In contrast, we find the correlation measures to grow (logarithmically) without bound in all $c > 1$ conformal field theories with a finite twist gap. In comparing the calculations in the two classes of theories, we are able to identify the dynamical mechanism for the breakdown of the quasi-particle picture in 2D conformal field theories. Intriguingly, we also find preliminary evidence that our general lessons apply to quantum systems considerably distinct from conformal field theories, such as integrable and chaotic spin chains, suggesting a universality of entanglement dynamics in non-equilibrium systems.
翻訳日:2023-05-04 23:44:10 公開日:2020-08-25
# プログラミングプロジェクトに関する学生チームワーク: GitHubのログから何がわかるのか?

Student Teamwork on Programming Projects: What can GitHub logs show us? ( http://arxiv.org/abs/2008.11262v1 )

ライセンス: Link先を確認
Niki Gitinabard, Ruth Okoilu, Yiqao Xu, Sarah Heckman, Tiffany Barnes, Collin Lynch(参考訳) GitやApache Subversion(SVN)といったバージョン管理システムによって仲介されるチームワークは、プロのプログラミングの中心である。 その結果、多くの大学は、入門コースでもコラボレーション環境とオンライン開発環境の両方をカリキュラムに取り入れている。 本研究では,コンピュータサイエンス専攻向けcs2 javaプログラミングコースの2つの提供により,2つのプログラミングプロジェクトからgithubログを収集した。 学生は毎年2つのプロジェクト(オプション1つ、必須1つ)でペアで働いた。 私たちは学生のGitHub履歴を使って、学生チームを労働の分割に基づいて3つのグループに分類しました。 次に,各プロジェクトの各部分におけるコミット数と平均回数を含む,学生のチームワークのメトリクスを算出し,これらのメトリクスを用いて学生のチームワークスタイルを予測した。 その結果,提出ログから生徒のチームワークスタイルを自動識別できることが判明した。 この作業は、バージョン管理システムを使いながら初心者の習慣をよりよく理解するのに役立ちます。 これらの習慣は、それらの中の有害な作業スタイルを特定し、将来的にはチームワークやピアサポートのための自動足場の開発につながる可能性がある。

Teamwork, often mediated by version control systems such as Git and Apache Subversion (SVN), is central to professional programming. As a consequence, many colleges are incorporating both collaboration and online development environments into their curricula even in introductory courses. In this research, we collected GitHub logs from two programming projects in two offerings of a CS2 Java programming course for computer science majors. Students worked in pairs for both projects (one optional, the other mandatory) in each year. We used the students' GitHub history to classify the student teams into three groups, collaborative, cooperative, or solo-submit, based on the division of labor. We then calculated different metrics for students' teamwork including the total number and the average number of commits in different parts of the projects and used these metrics to predict the students' teamwork style. Our findings show that we can identify the students' teamwork style automatically from their submission logs. This work helps us to better understand novices' habits while using version control systems. These habits can identify the harmful working styles among them and might lead to the development of automatic scaffolds for teamwork and peer support in the future.
翻訳日:2023-05-04 23:43:44 公開日:2020-08-25
# メタラーニングによる超解像ネットワークへの高速適応

Fast Adaptation to Super-Resolution Networks via Meta-Learning ( http://arxiv.org/abs/2001.02905v3 )

ライセンス: Link先を確認
Seobin Park, Jinsu Yoo, Donghyeon Cho, Jiwon Kim and Tae Hyun Kim(参考訳) 従来のスーパーレゾリューション(sr)アプローチは、大量の外部srデータセットでトレーニングされるが、与えられたテスト画像の望ましい特性を活用できない。 一方、自己教師型SRアプローチはテスト画像の内部情報を利用するが、実行時に計算複雑性に悩まされる。 本研究では、入力画像から得られる付加情報を実際に活用することにより、従来のSRネットワークのアーキテクチャを変更することなく、SISRの性能をさらに向上する機会を観察する。 トレーニング段階では,メタラーニングによりネットワークをトレーニングし,テスト時に任意の入力画像に迅速に適応させることができる。 そして、テスト段階では、与えられた低解像度画像のみを用いることで、このメタ学習ネットワークのパラメータをほんの数イテレーションで迅速に微調整する。 テスト時の適応は、自然画像で観察されるパッチ再帰特性を最大限に活用する。 本手法は未知のSRカーネルを効果的に処理し,既存のモデルに適用することができる。 提案手法は,様々なベンチマークSRデータセット上での従来のSRネットワークの性能を一貫して向上することを示す。

Conventional supervised super-resolution (SR) approaches are trained with massive external SR datasets but fail to exploit desirable properties of the given test image. On the other hand, self-supervised SR approaches utilize the internal information within a test image but suffer from computational complexity in run-time. In this work, we observe the opportunity for further improvement of the performance of SISR without changing the architecture of conventional SR networks by practically exploiting additional information given from the input image. In the training stage, we train the network via meta-learning; thus, the network can quickly adapt to any input image at test time. Then, in the test stage, parameters of this meta-learned network are rapidly fine-tuned with only a few iterations by only using the given low-resolution image. The adaptation at the test time takes full advantage of patch-recurrence property observed in natural images. Our method effectively handles unknown SR kernels and can be applied to any existing model. We demonstrate that the proposed model-agnostic approach consistently improves the performance of conventional SR networks on various benchmark SR datasets.
翻訳日:2023-01-13 04:56:44 公開日:2020-08-25
# f-BRS:インタラクティブセグメンテーションのためのバックプロパゲーションリファインメントの再考

f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation ( http://arxiv.org/abs/2001.10331v3 )

ライセンス: Link先を確認
Konstantin Sofiiuk, Ilia Petrov, Olga Barinova and Anton Konushin(参考訳) ディープニューラルネットワークは、インタラクティブセグメンテーションに対する主流のアプローチとなっている。 実験で示したように、いくつかの画像では、トレーニングされたネットワークは、ほんの数クリックで正確なセグメンテーション結果を提供するが、未知のオブジェクトでは、大量のユーザー入力でも満足のいく結果が得られない。 最近提案されたバックプロパゲーション・リファインメント(BRS)方式は, 対話型セグメンテーションの最適化問題を導入し, ハードケースの性能が大幅に向上した。 同時に、BRSは、他の方法と比較して、クリック当たりの計算予算が大幅に増加し、深層ネットワークを数回、前後に通過する必要がある。 本稿では、ネットワーク入力の代わりに補助変数に対する最適化問題を解くためのf-BRS(Feature Backproagating refinement scheme)を提案する。 GrabCut、バークレー、DAVIS、SBDのデータセットの実験では、オリジナルのBRSと比較してクリックあたりの時間の桁違いに新しい最先端のデータセットが設定された。 コードとトレーニングされたモデルはhttps://github.com/saic-vul/fbrs_interactive_segmentationで入手できる。

Deep neural networks have become a mainstream approach to interactive segmentation. As we show in our experiments, while for some images a trained network provides accurate segmentation result with just a few clicks, for some unknown objects it cannot achieve satisfactory result even with a large amount of user input. Recently proposed backpropagating refinement (BRS) scheme introduces an optimization problem for interactive segmentation that results in significantly better performance for the hard cases. At the same time, BRS requires running forward and backward pass through a deep network several times that leads to significantly increased computational budget per click compared to other methods. We propose f-BRS (feature backpropagating refinement scheme) that solves an optimization problem with respect to auxiliary variables instead of the network inputs, and requires running forward and backward pass just for a small part of a network. Experiments on GrabCut, Berkeley, DAVIS and SBD datasets set new state-of-the-art at an order of magnitude lower time per click compared to original BRS. The code and trained models are available at https://github.com/saic-vul/fbrs_interactive_segmentation .
翻訳日:2023-01-06 02:42:30 公開日:2020-08-25
# 深い決定論的ダイナミクス勾配によるq(s,s')の推定

Estimating Q(s,s') with Deep Deterministic Dynamics Gradients ( http://arxiv.org/abs/2002.09505v2 )

ライセンス: Link先を確認
Ashley D. Edwards, Himanshu Sahni, Rosanne Liu, Jane Hung, Ankit Jain, Rui Wang, Adrien Ecoffet, Thomas Miconi, Charles Isbell, Jason Yosinski(参考訳) 本稿では, 値関数の新たな形式である$Q(s, s')$を導入し, 状態$s$から隣接する状態$s'$に遷移し, その後に最適に作用することを示す。 最適ポリシを導出するために,この値を最大化する次世代予測を学習するフォワードダイナミクスモデルを開発した。 この定式化は、政治から学びながら、価値から行動を切り離す。 我々は,この手法の利点を,価値関数伝達,冗長な行動空間内での学習,および準最適あるいは完全にランダムな政策によって生成される状態観測から外部政治を学ぶという点で強調する。 コードとビデオはhttp://sites.google.com/view/qss-paperで入手できる。

In this paper, we introduce a novel form of value function, $Q(s, s')$, that expresses the utility of transitioning from a state $s$ to a neighboring state $s'$ and then acting optimally thereafter. In order to derive an optimal policy, we develop a forward dynamics model that learns to make next-state predictions that maximize this value. This formulation decouples actions from values while still learning off-policy. We highlight the benefits of this approach in terms of value function transfer, learning within redundant action spaces, and learning off-policy from state observations generated by sub-optimal or completely random policies. Code and videos are available at http://sites.google.com/view/qss-paper.
翻訳日:2022-12-30 00:16:52 公開日:2020-08-25
# マルチスケール特徴関係学習による顔の完成と超解像

Joint Face Completion and Super-resolution using Multi-scale Feature Relation Learning ( http://arxiv.org/abs/2003.00255v2 )

ライセンス: Link先を確認
Zhilei Liu, Yunpeng Wu, Le Li, Cuicui Zhang, Baoyuan Wu(参考訳) 以前の顔修復の研究は、低解像度(LR)や隠蔽された顔画像のような、特定の品質の低い顔画像の修復に重点を置いていた。 しかし、実世界では、上記の2種類の画像劣化はしばしば共存する。 したがって、lr画像を同時に修復できるモデルを設計することが重要である。 本稿では,2つの劣化モードが共存する画像の顔復元を実現するとともに,1つのタイプの劣化で画像の修復を行うマルチスケール特徴グラフ生成敵ネットワーク(mfg-gan)を提案する。 GANに基づいて、MFG-GANはグラフ畳み込みとピラミッドネットワークを統合し、隠蔽された低解像度の顔画像を非隠蔽の高解像度の顔画像に復元する。 mfg-ganは、高品質な画像が生成されるようにカスタマイズされた損失を使用する。 さらに,エンド・ツー・エンド・フォーマットでネットワークを設計した。 公開ドメインのcelebaとhelenデータベースを用いた実験の結果,提案手法は,顔の超解像(最大4倍,8倍)と顔の完成を同時に行う場合,最先端の手法よりも優れていることがわかった。 データベース間のテストにより、提案手法の一般化性も向上した。

Previous research on face restoration often focused on repairing a specific type of low-quality facial images such as low-resolution (LR) or occluded facial images. However, in the real world, both the above-mentioned forms of image degradation often coexist. Therefore, it is important to design a model that can repair LR occluded images simultaneously. This paper proposes a multi-scale feature graph generative adversarial network (MFG-GAN) to implement the face restoration of images in which both degradation modes coexist, and also to repair images with a single type of degradation. Based on the GAN, the MFG-GAN integrates the graph convolution and feature pyramid network to restore occluded low-resolution face images to non-occluded high-resolution face images. The MFG-GAN uses a set of customized losses to ensure that high-quality images are generated. In addition, we designed the network in an end-to-end format. Experimental results on the public-domain CelebA and Helen databases show that the proposed approach outperforms state-of-the-art methods in performing face super-resolution (up to 4x or 8x) and face completion simultaneously. Cross-database testing also revealed that the proposed approach has good generalizability.
翻訳日:2022-12-27 20:53:09 公開日:2020-08-25
# シームズニューラルネットワークの解釈による対称性不変量と保存量の検出

Discovering Symmetry Invariants and Conserved Quantities by Interpreting Siamese Neural Networks ( http://arxiv.org/abs/2003.04299v4 )

ライセンス: Link先を確認
Sebastian J. Wetzel, Roger G. Melko, Joseph Scott, Maysum Panju, Vijay Ganesh(参考訳) 本稿では,理論物理学における類似性検出のための解釈可能なシアムニューラルネットワーク(snn)を提案する。 より正確には、SNNを特殊相対性理論における事象、電磁場の変換、中心電位における粒子の運動に適用する。 これらの例では、SNNは、同じイベント、フィールド構成、動きの軌跡に属するデータポイントを特定することを学ぶ。 結果、どのデータポイントが同じイベントまたはフィールド構成に属するかを学ぶ過程で、これらのsnsは関連する対称性不変量と保存量も学習する。 これらのSNNは高度に解釈可能であり、先行知識なしで対称性不変量や保存量を明らかにすることができる。

In this paper, we introduce interpretable Siamese Neural Networks (SNN) for similarity detection to the field of theoretical physics. More precisely, we apply SNNs to events in special relativity, the transformation of electromagnetic fields, and the motion of particles in a central potential. In these examples, the SNNs learn to identify datapoints belonging to the same events, field configurations, or trajectory of motion. It turns out that in the process of learning which datapoints belong to the same event or field configuration, these SNNs also learn the relevant symmetry invariants and conserved quantities. These SNNs are highly interpretable, which enables us to reveal the symmetry invariants and conserved quantities without prior knowledge.
翻訳日:2022-12-25 09:40:34 公開日:2020-08-25
# DELTAS:スパースポイントの三角測量と密度化学習による深さ推定

DELTAS: Depth Estimation by Learning Triangulation And densification of Sparse points ( http://arxiv.org/abs/2003.08933v2 )

ライセンス: Link先を確認
Ayan Sinha, Zak Murez, James Bartolozzi, Vijay Badrinarayanan and Andrew Rabinovich(参考訳) 多視点ステレオ(MVS)は、アクティブ深度センシングの精度と単眼深度推定の実用性の間の黄金平均である。 3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。 しかし、この精度は計算コストが高く実用的採用を妨げている。 コストボリュームアプローチとは別として,まず,効率的な深さ推定手法を提案する。 (a)興味点の記述子を検出して評価する b)少量の利害点を一致させ、三角測量することを学び、最後に (c)CNNを用いてこのスパースな3Dポイントの集合を密度化する。 エンドツーエンドのネットワークは、ディープラーニングフレームワーク内の3つのステップ全てを効率的に実行し、中間的な2次元画像と3次元幾何学的監督と深度監督を訓練する。 第1ステップでは,関心点検出とディスクリプタ学習を用いたポーズ推定を補完する。 異なるシーン長に対する低い計算量を用いた深度推定の最先端結果を示す。 さらに,本手法はより新しい環境に一般化し,ネットワークが出力する記述子を強いベースラインと比較する。 コードはhttps://github.com/magicleap/DELTASで入手できる。

Multi-view stereo (MVS) is the golden mean between the accuracy of active depth sensing and the practicality of monocular depth estimation. Cost volume based approaches employing 3D convolutional neural networks (CNNs) have considerably improved the accuracy of MVS systems. However, this accuracy comes at a high computational cost which impedes practical adoption. Distinct from cost volume approaches, we propose an efficient depth estimation approach by first (a) detecting and evaluating descriptors for interest points, then (b) learning to match and triangulate a small set of interest points, and finally (c) densifying this sparse set of 3D points using CNNs. An end-to-end network efficiently performs all three steps within a deep learning framework and trained with intermediate 2D image and 3D geometric supervision, along with depth supervision. Crucially, our first step complements pose estimation using interest point detection and descriptor learning. We demonstrate state-of-the-art results on depth estimation with lower compute for different scene lengths. Furthermore, our method generalizes to newer environments and the descriptors output by our network compare favorably to strong baselines. Code is available at https://github.com/magicleap/DELTAS
翻訳日:2022-12-22 04:06:09 公開日:2020-08-25
# RAFT:光流用全対電場変換器

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow ( http://arxiv.org/abs/2003.12039v3 )

ライセンス: Link先を確認
Zachary Teed and Jia Deng(参考訳) 光フローのための新しいディープネットワークアーキテクチャであるRAFT(Recurrent All-Pairs Field Transforms)を導入する。 RAFTは画素あたりの特徴を抽出し、すべての画素に対してマルチスケールの4D相関ボリュームを構築し、その相関ボリュームのルックアップを実行するリカレントユニットを介してフローフィールドを反復的に更新する。 RAFTは最先端のパフォーマンスを達成する。 KITTIでは、RAFT は F1-all エラーの5.10%を達成し、最高の結果(6.10%)から 16% エラーを削減した。 Sintel(ファイナルパス)では、RAFTは2.855ピクセルのエンドポイントエラーを取得し、最高の出力結果(4.098ピクセル)から30%のエラー削減を行う。 さらに、RAFTは強力なクロスデータセットの一般化を持ち、推論時間、トレーニング速度、パラメータカウントの効率も高い。 コードはhttps://github.com/princeton-vl/raftで入手できる。

We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.
翻訳日:2022-12-19 21:59:45 公開日:2020-08-25
# ビデオ認識のためのwebly教師付き学習

Omni-sourced Webly-supervised Learning for Video Recognition ( http://arxiv.org/abs/2003.13042v2 )

ライセンス: Link先を確認
Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin(参考訳) ビデオ認識モデルのトレーニングにWebデータを活用する新しいフレームワークであるOmniSourceを紹介する。 OmniSourceは、画像、ショートビデオ、ウェブ教師あり学習のための長いビデオなど、データフォーマット間の障壁を克服している。 まず、タスク固有のデータ収集によってキュレートされ、教師モデルによって自動的にフィルタリングされる複数の形式のデータサンプルを統一形式で変換する。 次に,複数のデータソースと形式間のドメインギャップに対処する共同学習戦略を提案する。 データバランシング、再サンプリング、データセット間の混成など、いくつかの優れたプラクティスが共同トレーニングで採用されている。 実験によると、複数のソースやフォーマットのデータを利用することで、omnisourceはトレーニングでよりデータ効率が良い。 たった3.5mの画像と8k分のビデオがインターネットからクロールされ(前作の2%以下)、omnisourceで学んだモデルは2d-と3d-convnetのベースラインモデルのtop-1精度をそれぞれ3.0%と3.9%向上させた。 omnisourceでは、ビデオ認識のためのプリトレーニング戦略が異なる新しいレコードを確立する。 我々の最良のモデルは、Kinetics-400ベンチマークでそれぞれ80.4%、80.5%、83.6のTop-1アキュラシーを達成し、ImageNetの事前トレーニングとIG-65Mの事前トレーニングを行った。

We introduce OmniSource, a novel framework for leveraging web data to train video recognition models. OmniSource overcomes the barriers between data formats, such as images, short videos, and long untrimmed videos for webly-supervised learning. First, data samples with multiple formats, curated by task-specific data collection and automatically filtered by a teacher model, are transformed into a unified form. Then a joint-training strategy is proposed to deal with the domain gaps between multiple data sources and formats in webly-supervised learning. Several good practices, including data balancing, resampling, and cross-dataset mixup are adopted in joint training. Experiments show that by utilizing data from multiple sources and formats, OmniSource is more data-efficient in training. With only 3.5M images and 800K minutes videos crawled from the internet without human labeling (less than 2% of prior works), our models learned with OmniSource improve Top-1 accuracy of 2D- and 3D-ConvNet baseline models by 3.0% and 3.9%, respectively, on the Kinetics-400 benchmark. With OmniSource, we establish new records with different pretraining strategies for video recognition. Our best models achieve 80.4%, 80.5%, and 83.6 Top-1 accuracies on the Kinetics-400 benchmark respectively for training-from-scratch, ImageNet pre-training and IG-65M pre-training.
翻訳日:2022-12-18 13:50:45 公開日:2020-08-25
# 期待最大化マルチインスタンス学習による弱教師付き行動定位

Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning ( http://arxiv.org/abs/2004.00163v2 )

ライセンス: Link先を確認
Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, Huijuan Xu(参考訳) 弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。 バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。 バッグのラベルのみが知られているため、バッグ内のどのキーインスタンスにバッグのラベルをトリガーするかが主な課題である。 以前のモデルのほとんどは、注意に基づくアプローチを使用して、インスタンスからバッグの表現を生成し、バッグの分類を通じてトレーニングする。 しかし、これらのモデルは、負のバッグのインスタンスが一様に負であるというMILの仮定に暗黙的に違反する。 本研究では、キーインスタンス割り当てを隠れ変数として明示的にモデル化し、期待最大化(EM)フレームワークを採用する。 E と M のプロセスをモデル化するための2つの擬似ラベル生成スキームを導出し、確率下界を反復的に最適化する。 EM-MILアプローチは学習目標とMIL仮定の両方をより正確にモデル化する。 THUMOS14とActivityNet1.2の2つの標準ベンチマークで最先端のパフォーマンスを実現している。

Weakly-supervised action localization requires training a model to localize the action segments in the video given only video level action label. It can be solved under the Multiple Instance Learning (MIL) framework, where a bag (video) contains multiple instances (action segments). Since only the bag's label is known, the main challenge is assigning which key instances within the bag to trigger the bag's label. Most previous models use attention-based approaches applying attentions to generate the bag's representation from instances, and then train it via the bag's classification. These models, however, implicitly violate the MIL assumption that instances in negative bags should be uniformly negative. In this work, we explicitly model the key instances assignment as a hidden variable and adopt an Expectation-Maximization (EM) framework. We derive two pseudo-label generation schemes to model the E and M process and iteratively optimize the likelihood lower bound. We show that our EM-MIL approach more accurately models both the learning objective and the MIL assumptions. It achieves state-of-the-art performance on two standard benchmarks, THUMOS14 and ActivityNet1.2.
翻訳日:2022-12-18 00:03:56 公開日:2020-08-25
# 物理にインスパイアされた深層学習による準円、スピン、非予備ブラックホール融合の信号多様体の特徴付け

Physics-inspired deep learning to characterize the signal manifold of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2004.09524v2 )

ライセンス: Link先を確認
Asad Khan, E. A. Huerta, Arnav Das(参考訳) 2つのブラックホールの融合のスピン分布は、これらの物体の形成チャネルとそれらの形成、進化、融合する天体物理環境に関する重要な情報を含んでいる。 準円、スピン、非予備の2値ブラックホールマージの信号多様体を特徴づける深層学習の適合性を定量化するために、天体ブラックホールのスピン特性の一般相対論的制約を組み込んだ新しい最適化スキームで訓練されたウェーブネットの修正版を提案する。 ニューラルネットワークモデルは、NRHybSur3dq8の有効性体制内で生成される1.5万$\ell=|m|=2$波形、すなわち質量比$q\leq8$、個々のブラックホールスピン$ | s^z_{\{1,\,2\}} | \leq 0.8$で訓練、検証、試験される。 このニューラルネットモデルを用いて、ノイズのないブラックホール融合の天体物理パラメータをどの程度正確に推定できるかを定量化する。 我々は、テストデータセットの波形と、ニューラルネットワークによって質量比と個々のスピンが予測される対応する信号との重なりを計算してこれを行う。 高性能計算と物理に着想を得た最適化アルゴリズムの収束により、パラメータ空間全体にわたる二元ブラックホール融合の質量比と個々のスピンの正確な再構成が可能となる。 これは、物理にインスパイアされた深層学習モデルを用いて、2元ブラックホールの融合のスピン分布を現実的な検出シナリオで再構築するための重要なステップである。

The spin distribution of binary black hole mergers contains key information concerning the formation channels of these objects, and the astrophysical environments where they form, evolve and coalesce. To quantify the suitability of deep learning to characterize the signal manifold of quasi-circular, spinning, non-precessing binary black hole mergers, we introduce a modified version of WaveNet trained with a novel optimization scheme that incorporates general relativistic constraints of the spin properties of astrophysical black holes. The neural network model is trained, validated and tested with 1.5 million $\ell=|m|=2$ waveforms generated within the regime of validity of NRHybSur3dq8, i.e., mass-ratios $q\leq8$ and individual black hole spins $ | s^z_{\{1,\,2\}} | \leq 0.8$. Using this neural network model, we quantify how accurately we can infer the astrophysical parameters of black hole mergers in the absence of noise. We do this by computing the overlap between waveforms in the testing data set and the corresponding signals whose mass-ratio and individual spins are predicted by our neural network. We find that the convergence of high performance computing and physics-inspired optimization algorithms enable an accurate reconstruction of the mass-ratio and individual spins of binary black hole mergers across the parameter space under consideration. This is a significant step towards an informed utilization of physics-inspired deep learning models to reconstruct the spin distribution of binary black hole mergers in realistic detection scenarios.
翻訳日:2022-12-11 19:13:54 公開日:2020-08-25
# 言語体系性の検証

Probing Linguistic Systematicity ( http://arxiv.org/abs/2005.04315v2 )

ライセンス: Link先を確認
Emily Goodwin and Koustuv Sinha and Timothy J. O'Donnell(参考訳) 近年、深層自然言語理解モデルが体系性を示すかどうかという問題に多くの関心が寄せられ、単語のような単位が出現する文の意味に一貫した貢献をするように一般化されている。 神経モデルがしばしば非体系的に一般化する証拠が蓄積されている。 言語学的観点から体系性の概念を考察し,一連のプローブと一連のメトリクスを定義し,体系的行動を測定する。 また、ネットワークアーキテクチャが非体系的に一般化できる方法を特定し、なぜそのような一般化の形式が満足できないのかについて議論した。 ケーススタディとして,自然言語推論(nli)の設定における一連の実験を行い,nluシステムの一部が非システム的ながら高い総合的性能を達成できることを実証した。

Recently, there has been much interest in the question of whether deep natural language understanding models exhibit systematicity; generalizing such that units like words make consistent contributions to the meaning of the sentences in which they appear. There is accumulating evidence that neural models often generalize non-systematically. We examined the notion of systematicity from a linguistic perspective, defining a set of probes and a set of metrics to measure systematic behaviour. We also identified ways in which network architectures can generalize non-systematically, and discuss why such forms of generalization may be unsatisfying. As a case study, we performed a series of experiments in the setting of natural language inference (NLI), demonstrating that some NLU systems achieve high overall performance despite being non-systematic.
翻訳日:2022-12-05 12:44:45 公開日:2020-08-25
# ストリーミング知覚に向けて

Towards Streaming Perception ( http://arxiv.org/abs/2005.10420v2 )

ライセンス: Link先を確認
Mengtian Li, Yu-Xiong Wang, Deva Ramanan(参考訳) 身体的知覚(embodied perception)とは、自律的なエージェントがその環境を知覚して行動できる能力のことである。 エージェントの応答性は、主に処理パイプラインの遅延によって制御される。 過去の研究はレイテンシと精度の間のアルゴリズム上のトレードオフを研究してきたが、Paretoの最適遅延精度曲線に沿って異なる手法を比較するための明確な基準は存在しなかった。 アルゴリズムが特定のフレームの処理を完了すると、周囲の世界は変化した。 そこで本稿では,リアルタイムオンライン認識のための単一の指標として,レイテンシと精度を協調的に統合する手法を提案する。 このメトリックの背後にある重要な洞察は、瞬時に認識スタック全体の出力を共同で評価することであり、計算中に無視されるべきストリーミングデータの量をスタックが考慮せざるを得ない。 より広範に、この指標に基づいて、任意の単一フレームタスクをストリーミング知覚タスクに体系的に変換するメタベンチマークを導入する。 本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。 Our proposed solutions and their empirical analysis demonstrate a number of surprising conclusions: (1) there exists an optimal "sweet spot" that maximizes streaming accuracy along the Pareto optimal latency-accuracy curve, (2) asynchronous tracking and future forecasting naturally emerge as internal representations that enable streaming perception, and (3) dynamic scheduling can be used to overcome temporal aliasing, yielding the paradoxical result that latency is sometimes minimized by sitting idle and "doing nothing".

Embodied perception refers to the ability of an autonomous agent to perceive its environment so that it can (re)act. The responsiveness of the agent is largely governed by latency of its processing pipeline. While past work has studied the algorithmic trade-off between latency and accuracy, there has not been a clear metric to compare different methods along the Pareto optimal latency-accuracy curve. We point out a discrepancy between standard offline evaluation and real-time applications: by the time an algorithm finishes processing a particular frame, the surrounding world has changed. To these ends, we present an approach that coherently integrates latency and accuracy into a single metric for real-time online perception, which we refer to as "streaming accuracy". The key insight behind this metric is to jointly evaluate the output of the entire perception stack at every time instant, forcing the stack to consider the amount of streaming data that should be ignored while computation is occurring. More broadly, building upon this metric, we introduce a meta-benchmark that systematically converts any single-frame task into a streaming perception task. We focus on the illustrative tasks of object detection and instance segmentation in urban video streams, and contribute a novel dataset with high-quality and temporally-dense annotations. Our proposed solutions and their empirical analysis demonstrate a number of surprising conclusions: (1) there exists an optimal "sweet spot" that maximizes streaming accuracy along the Pareto optimal latency-accuracy curve, (2) asynchronous tracking and future forecasting naturally emerge as internal representations that enable streaming perception, and (3) dynamic scheduling can be used to overcome temporal aliasing, yielding the paradoxical result that latency is sometimes minimized by sitting idle and "doing nothing".
翻訳日:2022-11-30 23:39:54 公開日:2020-08-25
# メタ微調整によるクロスドメインマイトショット学習

Cross-Domain Few-Shot Learning with Meta Fine-Tuning ( http://arxiv.org/abs/2005.10544v4 )

ライセンス: Link先を確認
John Cai, Sheng Mei Shen(参考訳) 本稿では,CVPR 2020 Challengeが提案するクロスドメインFew-Shot Learningベンチマークについて述べる。 この目的のために、ドメイン適応および数ショットの学習における最先端の手法に基づいて、両方のタスクを実行するためにトレーニング可能なシステムを構築する。 微調整されたモデルを作成する必要性に触発されて、トランスファーラーニング(微調整)とメタラーニングアルゴリズムの統合を検討し、後の微調整ステージで適応するように設計された特定の層を持つネットワークを訓練する。 そのため,1次mamlに基づくメタ学習アルゴリズムを含むようにエピソディクス学習プロセスを変更し,それに続くメタ学習モジュールとしてグラフニューラルネットワークモデルを使用する。 提案手法は,特にデータ拡張と組み合わせた場合,精度の向上に有効であることがわかった。 最後に,本手法とベースライン法を単純なアンサンブルで組み合わせ,平均精度73.78%をベンチマークで達成した。 これはminiimagenetでのみトレーニングされた既存のベンチマークよりも6.51%改善されている。

In this paper, we tackle the new Cross-Domain Few-Shot Learning benchmark proposed by the CVPR 2020 Challenge. To this end, we build upon state-of-the-art methods in domain adaptation and few-shot learning to create a system that can be trained to perform both tasks. Inspired by the need to create models designed to be fine-tuned, we explore the integration of transfer-learning (fine-tuning) with meta-learning algorithms, to train a network that has specific layers that are designed to be adapted at a later fine-tuning stage. To do so, we modify the episodic training process to include a first-order MAML-based meta-learning algorithm, and use a Graph Neural Network model as the subsequent meta-learning module. We find that our proposed method helps to boost accuracy significantly, especially when combined with data augmentation. In our final results, we combine the novel method with the baseline method in a simple ensemble, and achieve an average accuracy of 73.78% on the benchmark. This is a 6.51% improvement over existing benchmarks that were trained solely on miniImagenet.
翻訳日:2022-11-30 22:53:49 公開日:2020-08-25
# TIPRDC:匿名中間表現を用いたディープラーニングのためのタスク非依存のプライバシ参照データクラウドソーシングフレームワーク

TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations ( http://arxiv.org/abs/2005.11480v7 )

ライセンス: Link先を確認
Ang Li, Yixiao Duan, Huanrui Yang, Yiran Chen, Jianlei Yang(参考訳) ディープラーニングの成功は、さまざまな大規模データセットの可用性から部分的に恩恵を受けている。 これらのデータセットは個々のユーザーからクラウドソースされることが多く、性別や年齢などのプライベート情報を含んでいる。 データの共有に関するユーザからの新たなプライバシー上の懸念は、クラウドソーシングデータセットの生成や使用を妨げ、新たなディープラーニングアプリケーションのためのトレーニングデータの飢えにつながる。 na\"{\i}veのソリューションのひとつは、生データを前処理してユーザ側で機能を抽出し、抽出した機能のみをデータコレクタに送信する、というものだ。 残念ながら、攻撃者はこれらの抽出された機能を利用して、プライベート属性を推論するために敵の分類器を訓練することができる。 一部の先行芸術は、私的属性を保護するためにゲーム理論を利用した。 しかし、これらの防御は既知の初等学習タスクのために設計されており、抽出された機能は未知の学習タスクでは役に立たない。 学習課題の未知や変化に対処するため,匿名化中間表現を用いたタスク非依存のプライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。 このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。 匿名化中間表現を学習するためのハイブリッド学習法として,(1)プライベート情報を特徴から隠蔽する敵対的訓練プロセス,(2)ニューラルネットワークを用いた相互情報推定器を用いたオリジナル情報を最大に保持する手法を設計した。

The success of deep learning partially benefits from the availability of various large-scale datasets. These datasets are often crowdsourced from individual users and contain private information like gender, age, etc. The emerging privacy concerns from users on data sharing hinder the generation or use of crowdsourcing datasets and lead to hunger of training data for new deep learning applications. One na\"{\i}ve solution is to pre-process the raw data to extract features at the user-side, and then only the extracted features will be sent to the data collector. Unfortunately, attackers can still exploit these extracted features to train an adversary classifier to infer private attributes. Some prior arts leveraged game theory to protect private attributes. However, these defenses are designed for known primary learning tasks, the extracted features work poorly for unknown learning tasks. To tackle the case where the learning task may be unknown or changing, we present TIPRDC, a task-independent privacy-respecting data crowdsourcing framework with anonymized intermediate representation. The goal of this framework is to learn a feature extractor that can hide the privacy information from the intermediate representations; while maximally retaining the original information embedded in the raw data for the data collector to accomplish unknown learning tasks. We design a hybrid training method to learn the anonymized intermediate representation: (1) an adversarial training process for hiding private information from features; (2) maximally retain original information using a neural-network-based mutual information estimator.
翻訳日:2022-11-30 03:28:39 公開日:2020-08-25
# 単眼RGBを用いた二次元グローバル3次元空間推定

Two-hand Global 3D Pose Estimation Using Monocular RGB ( http://arxiv.org/abs/2006.01320v4 )

ライセンス: Link先を確認
Fanqing Lin, Connor Wilhelm, Tony Martinez(参考訳) 単眼のrgb入力画像のみを用いて,両手のグローバルな3d関節位置を推定する課題に挑戦する。 本研究では,2つの手と複雑な背景雑音に拘わらず,手の位置を正確に把握する多段階畳み込みニューラルネットワークを用いたパイプラインを提案し,深度情報のない2次元および3次元標準関節位置を推定する。 カメラの起源に関するグローバルな関節位置は、新しい投影アルゴリズムを用いて手ポーズ推定とキー骨の実際の長さを用いて計算される。 この新しいタスクのためにCNNをトレーニングするために,大規模な合成3Dハンドポーズデータセットを導入する。 提案手法は,rgbのみの情報を用いた3次元正準手ポーズ推定ベンチマークデータセットよりも優れた性能を示す。 また, rgbのみの入力を用いて, 両手の正確な3dハンドトラッキングを実現する最初の研究を行い, 定量的, 質的評価を行う。

We tackle the challenging task of estimating global 3D joint locations for both hands via only monocular RGB input images. We propose a novel multi-stage convolutional neural network based pipeline that accurately segments and locates the hands despite occlusion between two hands and complex background noise and estimates the 2D and 3D canonical joint locations without any depth information. Global joint locations with respect to the camera origin are computed using the hand pose estimations and the actual length of the key bone with a novel projection algorithm. To train the CNNs for this new task, we introduce a large-scale synthetic 3D hand pose dataset. We demonstrate that our system outperforms previous works on 3D canonical hand pose estimation benchmark datasets with RGB-only information. Additionally, we present the first work that achieves accurate global 3D hand tracking on both hands using RGB-only inputs and provide extensive quantitative and qualitative evaluation.
翻訳日:2022-11-26 07:25:33 公開日:2020-08-25
# Deep Time-Delay Reservoir Computing: ダイナミクスとメモリ容量

Deep Time-Delay Reservoir Computing: Dynamics and Memory Capacity ( http://arxiv.org/abs/2006.06322v2 )

ライセンス: Link先を確認
Mirko Goldmann, Felix K\"oster, Kathy L\"udge and Serhiy Yanchuk(参考訳) Deep Time-Delay Reservoir Computingの概念は、一方向接続されたシステムと時間遅延を使って教師付き学習を行う。 本稿では,池田深部貯水池の動的特性がメモリ容量(MC)とどのように関係しているか,最適化にどのように使用できるかを示す。 特に、対応する自律システムの分岐解析を行い、入力と層動力学の間の一般化された同期を測定する条件付きリアプノフ指数を計算する。 条件付きリアプノフ指数の分岐や等級にMCが系距離とどのように関係しているかを示す。 異なる動的レジームの相互作用は線形と非線形のmc間の調整可能な分布をもたらす。 さらに, シミュレーションにより, MCの全層におけるクロックサイクルと遅延の共振を示す。 単層貯水池でのmc損失とは対照的に、これらの共鳴はmcの分離度を増加させ、例えば最大線形mcを持つシステムを設計するために使うことができる。 そこで我々は,高非線形mcと長時間線形mcのどちらかを付与する2つの構成を示す。

The Deep Time-Delay Reservoir Computing concept utilizes unidirectionally connected systems with time-delays for supervised learning. We present how the dynamical properties of a deep Ikeda-based reservoir are related to its memory capacity (MC) and how that can be used for optimization. In particular, we analyze bifurcations of the corresponding autonomous system and compute conditional Lyapunov exponents, which measure the generalized synchronization between the input and the layer dynamics. We show how the MC is related to the systems distance to bifurcations or magnitude of the conditional Lyapunov exponent. The interplay of different dynamical regimes leads to a adjustable distribution between linear and nonlinear MC. Furthermore, numerical simulations show resonances between clock cycle and delays of the layers in all degrees of the MC. Contrary to MC losses in a single-layer reservoirs, these resonances can boost separate degrees of the MC and can be used, e.g., to design a system with maximum linear MC. Accordingly, we present two configurations that empower either high nonlinear MC or long time linear MC.
翻訳日:2022-11-22 14:41:23 公開日:2020-08-25
# ニューロシンボリックな視覚推論:「推論」から「視覚」を遠ざける

Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" ( http://arxiv.org/abs/2006.11524v3 )

ライセンス: Link先を確認
Saeed Amizadeh, Hamid Palangi, Oleksandr Polozov, Yichen Huang, Kazuhito Koishida(参考訳) 視覚的質問応答(VQA)のような視覚的推論タスクは、知覚に根ざした質問の意味についての推論を伴う視覚的知覚の相互作用を必要とする。 しかし、この領域の最近の進歩は、推論よりも認識の改善(例えば、シーングラフ生成)によってもたらされている。 ニューラル・モジュール・ネットワークのようなニューラル・シンボリック・モデルは、構成的推論の利点をVQAにもたらすが、それらはまだ視覚的表現学習と絡み合っており、それゆえ、神経的推論を改善・評価することは困難である。 そこで本研究では,(1)VQAの推論的側面をその知覚から分離し,評価する枠組みを提案し,(2)不完全な知覚を伴ってもモデルが推論的疑問に答えられるような,新しいトップダウンキャリブレーション手法を提案する。 この目的のために,視覚的知覚から解答を明示的に分離する,VQAのための微分可能な一階論理形式を導入する。 挑戦的なGQAデータセットでは、このフレームワークは、よく知られたVQAモデルとタスクに関する情報的な洞察を導くために、奥深く、絡み合った比較を行うために使用される。

Visual reasoning tasks such as visual question answering (VQA) require an interplay of visual perception with reasoning about the question semantics grounded in perception. However, recent advances in this area are still primarily driven by perception improvements (e.g. scene graph generation) rather than reasoning. Neuro-symbolic models such as Neural Module Networks bring the benefits of compositional reasoning to VQA, but they are still entangled with visual representation learning, and thus neural reasoning is hard to improve and assess on its own. To address this, we propose (1) a framework to isolate and evaluate the reasoning aspect of VQA separately from its perception, and (2) a novel top-down calibration technique that allows the model to answer reasoning questions even with imperfect perception. To this end, we introduce a differentiable first-order logic formalism for VQA that explicitly decouples question answering from visual perception. On the challenging GQA dataset, this framework is used to perform in-depth, disentangled comparisons between well-known VQA models leading to informative insights regarding the participating models as well as the task.
翻訳日:2022-11-18 21:54:36 公開日:2020-08-25
# 理解と微調整のための射影潜在介入

Projective Latent Interventions for Understanding and Fine-tuning Classifiers ( http://arxiv.org/abs/2006.12902v2 )

ライセンス: Link先を確認
Andreas Hinterreiter and Marc Streit and Bernhard Kainz(参考訳) ニューラルネットワーク分類器によって学習された高次元潜在表現は解釈が難しいことで知られている。 特に医学的応用において、モデル開発者とドメインの専門家は、これらの潜伏表現が結果の分類性能にどのように関係するかをより深く理解したいと考えています。 本稿では,潜在空間の低次元埋め込みに対して手作業による変更をバックプロパゲーションすることで分類器を再訓練する手法であるplis(projective latent interventions)を提案する。 バックプロパゲーションは、t分布確率的近傍埋め込みのパラメトリック近似に基づいている。 PLIにより、ドメインの専門家は、自分たちの期待に合うように、直感的に潜在する決定空間を制御できる。 例えば、特定のクラスのペアのパフォーマンスは、組み込みのクラスクラスタを手動で分離することで向上することができる。 本手法は胎児超音波画像診断における実世界シナリオで評価する。

High-dimensional latent representations learned by neural network classifiers are notoriously hard to interpret. Especially in medical applications, model developers and domain experts desire a better understanding of how these latent representations relate to the resulting classification performance. We present Projective Latent Interventions (PLIs), a technique for retraining classifiers by back-propagating manual changes made to low-dimensional embeddings of the latent space. The back-propagation is based on parametric approximations of t-distributed stochastic neighbourhood embeddings. PLIs allow domain experts to control the latent decision space in an intuitive way in order to better match their expectations. For instance, the performance for specific pairs of classes can be enhanced by manually separating the class clusters in the embedding. We evaluate our technique on a real-world scenario in fetal ultrasound imaging.
翻訳日:2022-11-17 22:09:28 公開日:2020-08-25
# 部分的トレース回帰と低ランククラス分解

Partial Trace Regression and Low-Rank Kraus Decomposition ( http://arxiv.org/abs/2007.00935v2 )

ライセンス: Link先を確認
Hachem Kadri (QARMA), St\'ephane Ayache (QARMA), Riikka Huusari, Alain Rakotomamonjy (DocApp - LITIS), Liva Ralaivola(参考訳) トレース回帰モデルはよく研究された線形回帰モデルの直接拡張であり、行列を実数値出力に写像することができる。 ここでは、行列値入力から行列値出力への線形写像の族である部分トレース回帰モデル、さらに一般的なモデルを導入し、このモデルはトレース回帰モデルを仮定し、従って線形回帰モデルを仮定する。 部分的トレース作用素が広く研究されている量子情報理論からのツールを借りて、完全正の写像のいわゆる低ランククラウス表現を利用して、データから部分的トレース回帰モデルを学ぶ枠組みを提案する。 本研究の枠組みと人工的および実世界実験との関連性を示す。 i)行列から行列への回帰と 二 正の半定値行列完成、部分的トレース回帰問題として定式化できる二つのタスク

The trace regression model, a direct extension of the well-studied linear regression model, allows one to map matrices to real-valued outputs. We here introduce an even more general model, namely the partial-trace regression model, a family of linear mappings from matrix-valued inputs to matrix-valued outputs; this model subsumes the trace regression model and thus the linear regression model. Borrowing tools from quantum information theory, where partial trace operators have been extensively studied, we propose a framework for learning partial trace regression models from data by taking advantage of the so-called low-rank Kraus representation of completely positive maps. We show the relevance of our framework with synthetic and real-world experiments conducted for both i) matrix-to-matrix regression and ii) positive semidefinite matrix completion, two tasks which can be formulated as partial trace regression problems.
翻訳日:2022-11-14 13:42:24 公開日:2020-08-25
# carecall:covid-19パンデミックを管理するためのコールベースのアクティブモニタリングダイアログエージェント

CareCall: a Call-Based Active Monitoring Dialog Agent for Managing COVID-19 Pandemic ( http://arxiv.org/abs/2007.02642v2 )

ライセンス: Link先を確認
Sang-Woo Lee, Hyunhoon Jung, SukHyun Ko, Sunyoung Kim, Hyewon Kim, Kyoungtae Doh, Hyunjung Park, Joseph Yeo, Sang-Houn Ok, Joonhaeng Lee, Sungsoon Lim, Minyoung Jeong, Seongjae Choi, SeungTae Hwang, Eun-Young Park, Gwang-Ja Ma, Seok-Joo Han, Kwang-Seung Cha, Nako Sung, Jung-Woo Ha(参考訳) 新型コロナウイルスの感染拡大を抑制するには、感染者の追跡が不可欠だ。 新型コロナウイルスの感染拡大を緩和するためには、アクティブなモニタリングと積極的な検査が不可欠である。 この問題に対処するために,韓国と日本においてアクティブな監視を行うコールベースダイアログエージェントであるCareCallを紹介する。 本システムについて,統計を用いたケーススタディを行い,システムの動作について述べる。 最後に,CareCallを有効検査を支援するシンプルなアイデアについて議論する。

Tracking suspected cases of COVID-19 is crucial to suppressing the spread of COVID-19 pandemic. Active monitoring and proactive inspection are indispensable to mitigate COVID-19 spread, though these require considerable social and economic expense. To address this issue, we introduce CareCall, a call-based dialog agent which is deployed for active monitoring in Korea and Japan. We describe our system with a case study with statistics to show how the system works. Finally, we discuss a simple idea which uses CareCall to support proactive inspection.
翻訳日:2022-11-13 03:12:19 公開日:2020-08-25
# 大規模画像コレクションにおける教師なしマルチオブジェクト発見に向けて

Toward unsupervised, multi-object discovery in large-scale image collections ( http://arxiv.org/abs/2007.02662v2 )

ライセンス: Link先を確認
Huy V. Vo, Patrick P\'erez and Jean Ponce(参考訳) 本稿では,画像コレクションに存在する物体を監督せずに発見する問題に対処する。 我々は,Vo et al. (CVPR'19) の最適化手法をいくつかの重要な特徴で構築し,(1) 新たなサリエンシに基づく領域提案アルゴリズムを提案する。 この手順は、境界ボックス情報なしで分類タスクで訓練された既製のCNN機能を活用するが、それ以外は教師なしである。 2) 提案手法の階層構造を,Vo などのオブジェクト発見手法の効果的な正則化手法として活用し,その性能を向上し,いくつかの標準ベンチマークにおける技術状況を大幅に改善する。 3) 2段階の戦略を採り、画像コレクション全体を用いて表現する対象を発見する前に、小さなランダムな画像セットを用いた有望な提案を選択し、まず(我々の知る限りでは)、最大2万枚の画像でデータセットを構成する画像の1つに複数のオブジェクトを発見し、既存の方法と比較して5倍以上の増加、そして、真の大規模な教師なし画像解釈への第一歩を踏み出した。

This paper addresses the problem of discovering the objects present in a collection of images without any supervision. We build on the optimization approach of Vo et al. (CVPR'19) with several key novelties: (1) We propose a novel saliency-based region proposal algorithm that achieves significantly higher overlap with ground-truth objects than other competitive methods. This procedure leverages off-the-shelf CNN features trained on classification tasks without any bounding box information, but is otherwise unsupervised. (2) We exploit the inherent hierarchical structure of proposals as an effective regularizer for the approach to object discovery of Vo et al., boosting its performance to significantly improve over the state of the art on several standard benchmarks. (3) We adopt a two-stage strategy to select promising proposals using small random sets of images before using the whole image collection to discover the objects it depicts, allowing us to tackle, for the first time (to the best of our knowledge), the discovery of multiple objects in each one of the pictures making up datasets with up to 20,000 images, an over five-fold increase compared to existing methods, and a first step toward true large-scale unsupervised image interpretation.
翻訳日:2022-11-13 02:45:40 公開日:2020-08-25
# mcu-net: 医療場面における意思決定支援システムにおける不確実性表現の枠組み

MCU-Net: A framework towards uncertainty representations for decision support system patient referrals in healthcare contexts ( http://arxiv.org/abs/2007.03995v3 )

ライセンス: Link先を確認
Nabeel Seedat(参考訳) 自律的な意思決定支援を展開する際には、人為的なシステムを導入することが、信頼を生み出すための医療コンテキストにおいて重要であり、患者から患者への信頼性の高いパフォーマンスを提供する。 ディープラーニング手法は高い性能を保ちながら、不確実性表現の欠如により、この患者中心のアプローチを許さない。 そこで本研究では,U-Netとモンテカルロ・ドロップアウトを組み合わせたMCU-Netを用いて,医用画像セグメンテーションのための不確実性表現の枠組みを4つの異なる不確実性指標で評価する。 このフレームワークは、不確実症例の自動参照のための不確実性しきい値に基づいたヒューマン・イン・ザ・ループのアスペクトを医療専門家に追加することで、これを強化する。 我々は, MCU-Netとてんかん不確実性, 不確実性しきい値が組み合わさって個々の患者レベルでの自動成績を最大化することを示した。 これは、ヘルスケア設定で機械学習ベースの意思決定サポートを展開する際の不確実性表現へのステップである。

Incorporating a human-in-the-loop system when deploying automated decision support is critical in healthcare contexts to create trust, as well as provide reliable performance on a patient-to-patient basis. Deep learning methods while having high performance, do not allow for this patient-centered approach due to the lack of uncertainty representation. Thus, we present a framework of uncertainty representation evaluated for medical image segmentation, using MCU-Net which combines a U-Net with Monte Carlo Dropout, evaluated with four different uncertainty metrics. The framework augments this by adding a human-in-the-loop aspect based on an uncertainty threshold for automated referral of uncertain cases to a medical professional. We demonstrate that MCU-Net combined with epistemic uncertainty and an uncertainty threshold tuned for this application maximizes automated performance on an individual patient level, yet refers truly uncertain cases. This is a step towards uncertainty representations when deploying machine learning based decision support in healthcare settings.
翻訳日:2022-11-12 09:43:08 公開日:2020-08-25
# スプーフィング対策のタンデム評価と話者自動検証:基礎

Tandem Assessment of Spoofing Countermeasures and Automatic Speaker Verification: Fundamentals ( http://arxiv.org/abs/2007.05979v2 )

ライセンス: Link先を確認
Tomi Kinnunen and H\'ector Delgado and Nicholas Evans and Kong Aik Lee and Ville Vestman and Andreas Nautsch and Massimiliano Todisco and Xin Wang and Md Sahidullah and Junichi Yamagishi and Douglas A. Reynolds(参考訳) 近年,自動話者検証システム(ASV)が操作されたり人工的な入力によって騙されるのを防ぐため,スプーフィング対策(CM)の開発が進んでいる。 Spoofing CMsの信頼性は通常、EER(Equal error rate)計量を用いて測定される。 プリミティブEERは、アプリケーション要件と、スプーフィングとCMがASVに与える影響を反映せず、従来のASV研究における主要な指標としての使用は、リスクベースの評価アプローチを好んで長い間放棄されてきた。 本稿では,最近のリスクベースアプローチであるタンデム検出コスト関数 (t-dcf) の拡張について述べる。 拡張には、パラメータが少ないt-DCFの簡易バージョン、固定されたASVシステムの特別なケースの分析、解釈に関する独自の洞察を与えるシミュレーション、ASVspoof 2019データベースを使った新しい分析が含まれる。 CMアセスメントにおけるt-DCFの導入は、アンチ・スプーフィングとASV研究コミュニティの緊密な連携を促進することが期待されている。

Recent years have seen growing efforts to develop spoofing countermeasures (CMs) to protect automatic speaker verification (ASV) systems from being deceived by manipulated or artificial inputs. The reliability of spoofing CMs is typically gauged using the equal error rate (EER) metric. The primitive EER fails to reflect application requirements and the impact of spoofing and CMs upon ASV and its use as a primary metric in traditional ASV research has long been abandoned in favour of risk-based approaches to assessment. This paper presents several new extensions to the tandem detection cost function (t-DCF), a recent risk-based approach to assess the reliability of spoofing CMs deployed in tandem with an ASV system. Extensions include a simplified version of the t-DCF with fewer parameters, an analysis of a special case for a fixed ASV system, simulations which give original insights into its interpretation and new analyses using the ASVspoof 2019 database. It is hoped that adoption of the t-DCF for the CM assessment will help to foster closer collaboration between the anti-spoofing and ASV research communities.
翻訳日:2022-11-11 06:17:23 公開日:2020-08-25
# インスタンスフロー:インスタンスレベルでの分類器混乱の進化を可視化する

InstanceFlow: Visualizing the Evolution of Classifier Confusion on the Instance Level ( http://arxiv.org/abs/2007.11353v2 )

ライセンス: Link先を確認
Michael P\"uhringer, Andreas Hinterreiter, Marc Streit(参考訳) 分類は、最も重要な教師付き機械学習タスクの1つである。 分類モデルのトレーニング中、トレーニングインスタンスは、分類性能を反復的に向上するために、モデルに複数回(複数のエポックの間)フィードされる。 モデルの複雑さの増大は、視覚化によるモデル解釈可能性の需要の増大につながった。 既存のアプローチは主にトレーニング後の最終的なモデルパフォーマンスの視覚的分析に重点を置いており、しばしばパフォーマンスの集計に限られる。 本稿では,インスタンスレベルでの分類器の学習動作を時間とともに解析する,新しいデュアルビュー可視化ツールであるInstanceFlowを紹介する。 sankeyダイアグラムは、各インスタンスのオンデマンド詳細なグリフとトレースを使用して、エポック全体のインスタンスフローを視覚化する。 タブビューでは、ユーザはランキングとフィルタリングによって興味深いインスタンスを見つけることができる。 このように、インスタンスフローはクラスレベルのパフォーマンス評価とインスタンスレベルのパフォーマンス評価のギャップを埋めると同時に、ユーザがトレーニングプロセスの完全な時間的分析を実行可能にする。

Classification is one of the most important supervised machine learning tasks. During the training of a classification model, the training instances are fed to the model multiple times (during multiple epochs) in order to iteratively increase the classification performance. The increasing complexity of models has led to a growing demand for model interpretability through visualizations. Existing approaches mostly focus on the visual analysis of the final model performance after training and are often limited to aggregate performance measures. In this paper we introduce InstanceFlow, a novel dual-view visualization tool that allows users to analyze the learning behavior of classifiers over time on the instance-level. A Sankey diagram visualizes the flow of instances throughout epochs, with on-demand detailed glyphs and traces for individual instances. A tabular view allows users to locate interesting instances by ranking and filtering. In this way, InstanceFlow bridges the gap between class-level and instance-level performance evaluation while enabling users to perform a full temporal analysis of the training process.
翻訳日:2022-11-07 22:11:53 公開日:2020-08-25
# VISIOCITYによるリアルなビデオ要約:新しいベンチマークと評価フレームワーク

Realistic Video Summarization through VISIOCITY: A New Benchmark and Evaluation Framework ( http://arxiv.org/abs/2007.14560v2 )

ライセンス: Link先を確認
Vishal Kaushal, Suraj Kothawade, Rishabh Iyer, Ganesh Ramakrishnan(参考訳) ビデオの自動要約は、いくつかの課題のためにまだ未解決の問題である。 私たちは、ビデオの自動要約をより現実的なものにするためのステップを取ります。 第一に、現在利用可能なデータセットは、非常に短いビデオを持つか、特定のタイプのビデオしか持たない。 そこで本研究では,ビデオ要約のフレーバーをサポートする高密度な概念アノテーションを備えた,6つのカテゴリにまたがる長いビデオからなるベンチマークデータセットVISIOCITYを提案する。 第二に、長いビデオでは、人間の参照要約を得るのが難しい。 本稿では,VISIOCITYにおける間接的接地真理から複数の参照要約を自動生成する,パレート最適性に基づく新しいレシピを提案する。 これらの要約は人間の要約と同等であることを示す。 第3に、複数の基底的真理の要約(タスクの非常に主観的な性質による)が存在する場合、単一損失関数を用いた単一の複合的基底的真理要約から学ぶことは良い考えではないことを実証する。 そこで本研究では,損失の組合せを用いた既存モデルの拡張のための簡易なレシピであるvisiocity-sumを提案する。 また,要約を評価するための1つの尺度は,現在の慣行と同様,不足していることを示す。 本稿では,1つの尺度よりも人間の判断に近い要約品質を定量的に評価するための枠組みを提案する。 本報告では,様々な尺度を用いて評価したビジオシティに関する映像要約手法の性能を報告し,人間判断のモデル化における手法や評価機構の限界を提示するとともに,評価枠組みの有効性を実証する。

Automatic video summarization is still an unsolved problem due to several challenges. We take steps towards making automatic video summarization more realistic by addressing them. Firstly, the currently available datasets either have very short videos or have few long videos of only a particular type. We introduce a new benchmarking dataset VISIOCITY which comprises of longer videos across six different categories with dense concept annotations capable of supporting different flavors of video summarization and can be used for other vision problems. Secondly, for long videos, human reference summaries are difficult to obtain. We present a novel recipe based on pareto optimality to automatically generate multiple reference summaries from indirect ground truth present in VISIOCITY. We show that these summaries are at par with human summaries. Thirdly, we demonstrate that in the presence of multiple ground truth summaries (due to the highly subjective nature of the task), learning from a single combined ground truth summary using a single loss function is not a good idea. We propose a simple recipe VISIOCITY-SUM to enhance an existing model using a combination of losses and demonstrate that it beats the current state of the art techniques when tested on VISIOCITY. We also show that a single measure to evaluate a summary, as is the current typical practice, falls short. We propose a framework for better quantitative assessment of summary quality which is closer to human judgment than a single measure, say F1. We report the performance of a few representative techniques of video summarization on VISIOCITY assessed using various measures and bring out the limitation of the techniques and/or the assessment mechanism in modeling human judgment and demonstrate the effectiveness of our evaluation framework in doing so.
翻訳日:2022-11-05 20:11:30 公開日:2020-08-25
# 識別モデルの改良によるロバスト長期物体追跡

Robust Long-Term Object Tracking via Improved Discriminative Model Prediction ( http://arxiv.org/abs/2008.04722v2 )

ライセンス: Link先を確認
Seokeon Choi, Junhyun Lee, Yunsung Lee, Alexander Hauptmann(参考訳) 本稿では,事前学習した短期追跡者に基づくロバストな長期追跡のための識別モデル予測法を提案する。 ベースライン事前訓練された短期トラッカーはSuperDiMPであり、PrDiMPのバウンディングボックス回帰器と標準DiMP分類器を組み合わせたものである。 トラッカーRLT-DiMPは,(1)ランダム消去による不確かさの低減:モデルを堅牢にするために,ランダムな小さな長方形領域を確実に消去した後,複数の画像からの合意を有効活用する。 そして、それに従って、モデルの追跡状態を補正します。 2) 時空間制約のあるランダム探索について, 遠方での突発的検出問題を防止するために, スコアペナルティを適用した頑健なランダム探索法を提案する。 (3) より差別的な特徴学習のための背景強化: 探索領域に含まれない様々な背景を増強し, 背景クラッタのより堅牢なモデルを訓練する。 VOT-LT2020ベンチマークデータセットの実験では、提案手法は最先端の長期トラッカーに匹敵する性能を実現する。 ソースコードはhttps://github.com/bismex/rlt-dimp。

We propose an improved discriminative model prediction method for robust long-term tracking based on a pre-trained short-term tracker. The baseline pre-trained short-term tracker is SuperDiMP which combines the bounding-box regressor of PrDiMP with the standard DiMP classifier. Our tracker RLT-DiMP improves SuperDiMP in the following three aspects: (1) Uncertainty reduction using random erasing: To make our model robust, we exploit an agreement from multiple images after erasing random small rectangular areas as a certainty. And then, we correct the tracking state of our model accordingly. (2) Random search with spatio-temporal constraints: we propose a robust random search method with a score penalty applied to prevent the problem of sudden detection at a distance. (3) Background augmentation for more discriminative feature learning: We augment various backgrounds that are not included in the search area to train a more robust model in the background clutter. In experiments on the VOT-LT2020 benchmark dataset, the proposed method achieves comparable performance to the state-of-the-art long-term trackers. The source code is available at: https://github.com/bismex/RLT-DIMP.
翻訳日:2022-10-31 11:55:28 公開日:2020-08-25
# 動画で見る共通行動の現地化

Localizing the Common Action Among a Few Videos ( http://arxiv.org/abs/2008.05826v2 )

ライセンス: Link先を確認
Pengwan Yang, Vincent Tao Hu, Pascal Mettes, Cees G. M. Snoek(参考訳) 本論文は,長編ビデオにおける動作の時間的範囲をローカライズする試みである。 既存の作業が開始、終了、および/またはトレーニング中のアクションのクラスで多くの例を活用している場合は、わずかなアクションのローカライズを提案する。 長い未トリミングビデオにおけるアクションの開始と終了は、共通のクラスラベルを知らずに、同じアクションを含むトリミングされたビデオ例のハンドフルのみに基づいて決定される。 この課題に対処するために,サポートビデオからの表現を関連するクエリビデオセグメントにアライメント可能な,新たな3次元畳み込みネットワークアーキテクチャを提案する。 ネットワークには、 (\textit{i}) 少数のトリミングされたサポートビデオと未トリミングされたクエリビデオの表現を同時に補完する相互拡張モジュール、 (\textit{ii}) サポートビデオをクエリブランチに反復的に融合するプログレッシブアライメントモジュール、 (\textit{iii}) 異なるサポートビデオの重要性を判断するためのペアアライメントモジュールが含まれる。 単一または複数アクションインスタンスを含む未トリミングビデオにおけるマイトショットコモンアクションローカライズの評価は,提案手法の有効性と汎用性を示す。

This paper strives to localize the temporal extent of an action in a long untrimmed video. Where existing work leverages many examples with their start, their ending, and/or the class of the action during training time, we propose few-shot common action localization. The start and end of an action in a long untrimmed video is determined based on just a hand-full of trimmed video examples containing the same action, without knowing their common class label. To address this task, we introduce a new 3D convolutional network architecture able to align representations from the support videos with the relevant query video segments. The network contains: (\textit{i}) a mutual enhancement module to simultaneously complement the representation of the few trimmed support videos and the untrimmed query video; (\textit{ii}) a progressive alignment module that iteratively fuses the support videos into the query branch; and (\textit{iii}) a pairwise matching module to weigh the importance of different support videos. Evaluation of few-shot common action localization in untrimmed videos containing a single or multiple action instances demonstrates the effectiveness and general applicability of our proposal.
翻訳日:2022-10-30 22:54:57 公開日:2020-08-25
# Word2vec Skip-gram 次元選択法

Word2vec Skip-gram Dimensionality Selection via Sequential Normalized Maximum Likelihood ( http://arxiv.org/abs/2008.07720v3 )

ライセンス: Link先を確認
Pham Thuc Hung, Kenji Yamanishi(参考訳) 本稿では,2vec Skip-gram (SG) の次元性を選択するための新しい情報基準に基づく手法を提案する。 確率論の観点からは、sgは単語間の真の文脈分布が存在するという仮定の下で、暗黙の確率分布推定と見なされる。 そこで我々は,最良次元を選択する目的で情報基準を適用し,対応するモデルが可能な限り真の分布に近付くようにした。 次元選択問題に対する情報基準として,赤宅情報基準,ベイズ情報基準,逐次正規化最大度(snml)基準について検討した。 SNMLは、最小記述長に基づいて、データシーケンスのシーケンシャルエンコーディングに必要な総コード長である。 提案手法は,元のSGモデルとSG負サンプリングモデルの両方に適用し,情報基準を用いた考え方を明らかにする。 さらに,従来のSNMLは計算上の欠点に悩まされているため,計算の効率化に新たなヒューリスティックスを導入する。 さらに,SNMLがBICとAICの両方より優れていることを示す。 単語埋め込みの他の評価手法と比較して,SNMLが選択した次元は,単語類似性タスクや単語類似性タスクによって得られる最適次元にかなり近い。

In this paper, we propose a novel information criteria-based approach to select the dimensionality of the word2vec Skip-gram (SG). From the perspective of the probability theory, SG is considered as an implicit probability distribution estimation under the assumption that there exists a true contextual distribution among words. Therefore, we apply information criteria with the aim of selecting the best dimensionality so that the corresponding model can be as close as possible to the true distribution. We examine the following information criteria for the dimensionality selection problem: the Akaike Information Criterion, Bayesian Information Criterion, and Sequential Normalized Maximum Likelihood (SNML) criterion. SNML is the total codelength required for the sequential encoding of a data sequence on the basis of the minimum description length. The proposed approach is applied to both the original SG model and the SG Negative Sampling model to clarify the idea of using information criteria. Additionally, as the original SNML suffers from computational disadvantages, we introduce novel heuristics for its efficient computation. Moreover, we empirically demonstrate that SNML outperforms both BIC and AIC. In comparison with other evaluation methods for word embedding, the dimensionality selected by SNML is significantly closer to the optimal dimensionality obtained by word analogy or word similarity tasks.
翻訳日:2022-10-27 20:38:11 公開日:2020-08-25
# 効率的な探索・航行のための活動予測

Occupancy Anticipation for Efficient Exploration and Navigation ( http://arxiv.org/abs/2008.09285v2 )

ライセンス: Link先を確認
Santhosh K. Ramakrishnan, Ziad Al-Halah, Kristen Grauman(参考訳) 最先端ナビゲーション手法は空間記憶を利用して新しい環境に一般化するが、その占有マップはエージェントが直接観察する幾何学的構造を捉えることに限られる。 そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。 エージェントは空間認識をより迅速に構築し、3D環境における効率的な探索とナビゲーションを容易にする。 エゴセントリックビューとトップダウンマップの両方のコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測でき、強力なベースラインよりもパフォーマンスが大幅に向上します。 さらに,探索およびナビゲーションのシーケンシャルな意思決定タスクにデプロイする場合,gibsonおよびmatterport3dデータセットの最先端のメソッドよりも優れています。 われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。 プロジェクトページ: http://vision.cs.utexas.edu/projects/occupancy_anticipation/

State-of-the-art navigation methods leverage a spatial memory to generalize to new environments, but their occupancy maps are limited to capturing the geometric structures directly observed by the agent. We propose occupancy anticipation, where the agent uses its egocentric RGB-D observations to infer the occupancy state beyond the visible regions. In doing so, the agent builds its spatial awareness more rapidly, which facilitates efficient exploration and navigation in 3D environments. By exploiting context in both the egocentric views and top-down maps our model successfully anticipates a broader map of the environment, with performance significantly better than strong baselines. Furthermore, when deployed for the sequential decision-making tasks of exploration and navigation, our model outperforms state-of-the-art methods on the Gibson and Matterport3D datasets. Our approach is the winning entry in the 2020 Habitat PointNav Challenge. Project page: http://vision.cs.utexas.edu/projects/occupancy_anticipation/
翻訳日:2022-10-26 21:36:09 公開日:2020-08-25
# SemEval-2020 Task 11: BERT with Entity Mapping for Propaganda Classification (英語)

DUTH at SemEval-2020 Task 11: BERT with Entity Mapping for Propaganda Classification ( http://arxiv.org/abs/2008.09894v2 )

ライセンス: Link先を確認
Anastasios Bairaktaris, Symeon Symeonidis, Avi Arampatzis(参考訳) 本報告では,SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articlesに参加するために,Democritus University of Thrace(DUTH)チームが採用した手法について述べる。 私たちのチームはsubtask 2を扱った: テクニックの分類。 我々は,データセットのノイズ低減,特徴選択手法,教師あり機械学習アルゴリズムのために,浅い自然言語処理(nlp)前処理手法を用いた。 我々の最終モデルはエンティティマッピングを用いたBERTシステムに基づいている。 モデルの精度を向上させるために,単語クラスと実体認識を用いて,ある単語を5つのカテゴリーに分類した。

This report describes the methods employed by the Democritus University of Thrace (DUTH) team for participating in SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articles. Our team dealt with Subtask 2: Technique Classification. We used shallow Natural Language Processing (NLP) preprocessing techniques to reduce the noise in the dataset, feature selection methods, and common supervised machine learning algorithms. Our final model is based on using the BERT system with entity mapping. To improve our model's accuracy, we mapped certain words into five distinct categories by employing word-classes and entity recognition.
翻訳日:2022-10-26 08:06:03 公開日:2020-08-25
# モデル不確かさ下における協調フィルタリング

Collaborative Filtering under Model Uncertainty ( http://arxiv.org/abs/2008.10117v2 )

ライセンス: Link先を確認
Robin M. Schmidt, Moritz Hahn(参考訳) 彼らの仕事の中で、Dean、Rich、Rechtは、レコメンダシステムでアイテムのリコースと可用性を研究するモデルを作成しました。 Marx, Pin Calmon, Ustun による予測多重度の定義を用いて, 2つのモデルパラメータの異なる値を用いて, このモデルの異なるバリエーションについて検討した。 ペアで比較すると、これらのモデルのほとんどは、可用性のばらつきとあいまいさの観点から非常によく似た結果をもたらしており、可用性セットが著しく異なる場合もいくつかある。

In their work, Dean, Rich, and Recht create a model to research recourse and availability of items in a recommender system. We used the definition of predictive multiplicity by Marx, Pin Calmon, and Ustun to examine different variations of this model, using different values for two model parameters. Pairwise comparison of their models show, that most of these models produce very similar results in terms of discrepancy and ambiguity for the availability and only in some cases the availability sets differ significantly.
翻訳日:2022-10-26 02:45:58 公開日:2020-08-25
# 大規模テキストコーパスを用いた検討E2E ASRモデルの性能向上

Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus ( http://arxiv.org/abs/2008.10491v2 )

ライセンス: Link先を確認
Cal Peyser, Sepand Mavandadi, Tara N. Sainath, James Apfel, Ruoming Pang, Shankar Kumar(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠けている。 これはモデルアーキテクチャを単純化する一方で、トレーニングにテキストのみのデータを統合する作業が複雑になる。 推定時に事前学習したLMをE2Eモデルに組み込む方法として浅層融合が提案されているが、まだ非常に大きなテキストコーパスでは研究されておらず、ビームサーチにおけるハイパーパラメータ設定に非常に敏感であることが示されている。 本研究では,e2easrモデルに非常に大きなテキストコーパスを組み込むために,浅い融合を適用した。 モデルサイズの影響を調査し,パラメータ数を増加させるよりも,トレーニングセットのインテリジェントなプルーニングが効果的であることを示す。 さらに、最小単語誤り率(MWER)の微調整にLMを組み込むことで、浅い融合が最適なハイパーパラメータ設定に依存しにくくなり、そのチューニングの難しさを低減できることを示す。

End-to-end (E2E) automatic speech recognition (ASR) systems lack the distinct language model (LM) component that characterizes traditional speech systems. While this simplifies the model architecture, it complicates the task of incorporating text-only data into training, which is important to the recognition of tail words that do not occur often in audio-text pairs. While shallow fusion has been proposed as a method for incorporating a pre-trained LM into an E2E model at inference time, it has not yet been explored for very large text corpora, and it has been shown to be very sensitive to hyperparameter settings in the beam search. In this work, we apply shallow fusion to incorporate a very large text corpus into a state-of-the-art E2EASR model. We explore the impact of model size and show that intelligent pruning of the training set can be more effective than increasing the parameter count. Additionally, we show that incorporating the LM in minimum word error rate (MWER) fine tuning makes shallow fusion far less dependent on optimal hyperparameter settings, reducing the difficulty of that tuning problem.
翻訳日:2022-10-25 12:33:47 公開日:2020-08-25
# YNU-HPCC at SemEval-2020 Task 11: LSTM Network for Detection of Propaganda Techniques in News Articles

YNU-HPCC at SemEval-2020 Task 11: LSTM Network for Detection of Propaganda Techniques in News Articles ( http://arxiv.org/abs/2008.10166v2 )

ライセンス: Link先を確認
Jiaxu Dao, Jin Wang, Xuejie Zhang(参考訳) 本稿では,ニュース記事のプロパガンダ検出手法に関するsemeval-2020タスク11における研究をまとめる。 このタスクはSIサブタスクとTCサブタスクに分けられる。 本稿では,GloVe単語表現,BERT事前学習モデル,LSTMモデルアーキテクチャを実装した。 提案手法はSIサブタスクとTCサブタスクの両方に対して良好な結果を得た。 SIサブタスクのマクロF1スコアは0.406であり、TCサブタスクのマイクロF1スコアは0.505である。 本手法は, テストセットに対してsiとtcのサブタスクがそれぞれ17位, tcが22位と, 公式のベースラインメソッドを大幅に上回っている。 本稿では,Bi-LSTM,LSTM,BERT,XGBoostなど,さまざまなディープラーニングモデルアーキテクチャの性能を,ニュースプロモーション手法の検出において比較する。 この論文のコードは、https://github.com/daojiaxu/semeval_11で入手できる。

This paper summarizes our studies on propaganda detection techniques for news articles in the SemEval-2020 task 11. This task is divided into the SI and TC subtasks. We implemented the GloVe word representation, the BERT pretraining model, and the LSTM model architecture to accomplish this task. Our approach achieved good results for both the SI and TC subtasks. The macro-F1-score for the SI subtask is 0.406, and the micro-F1-score for the TC subtask is 0.505. Our method significantly outperforms the officially released baseline method, and the SI and TC subtasks rank 17th and 22nd, respectively, for the test set. This paper also compares the performances of different deep learning model architectures, such as the Bi-LSTM, LSTM, BERT, and XGBoost models, on the detection of news promotion techniques. The code of this paper is availabled at: https://github.com/daojiaxu/semeval_11.
翻訳日:2022-10-25 12:16:55 公開日:2020-08-25
# googleのランドマーク検索2020」の3位決定

3rd Place Solution to "Google Landmark Retrieval 2020" ( http://arxiv.org/abs/2008.10480v2 )

ライセンス: Link先を確認
Ke Mei, Lei li, Jinchang Xu, Yanhua Cheng, Yugeng Lin(参考訳) 画像検索はコンピュータビジョンの基本的な問題である。 本稿では,Google Landmark Retrieval 2020チャレンジに対する3位の詳細ソリューションについて紹介する。 データクリーニングとメトリック学習によるモデルの探索に重点を置いている。 我々は,クラスタリングの組込みに基づくデータクリーニング戦略を用いる。 さらに,データ拡張手法である corner-cutmix を用いることで,マルチスケールおよびオクルードランドマーク画像の認識能力を向上させる。 本手法のアブレーション実験と結果について詳述する。

Image retrieval is a fundamental problem in computer vision. This paper presents our 3rd place detailed solution to the Google Landmark Retrieval 2020 challenge. We focus on the exploration of data cleaning and models with metric learning. We use a data cleaning strategy based on embedding clustering. Besides, we employ a data augmentation method called Corner-Cutmix, which improves the model's ability to recognize multi-scale and occluded landmark images. We show in detail the ablation experiments and results of our method.
翻訳日:2022-10-25 12:09:03 公開日:2020-08-25
# 超解像のためのカスケード畳み込みニューラルネットワーク

Cascade Convolutional Neural Network for Image Super-Resolution ( http://arxiv.org/abs/2008.10329v2 )

ライセンス: Link先を確認
Jianwei Zhang and zhenxing Wang and yuhui Zheng and Guoqing Zhang(参考訳) 超解像畳み込みニューラルネットワーク(SRCNN)の開発により、深層学習技術は画像超解像の分野で広く応用されている。 従来は画像超解像の高速化と復元性に優れていたSRCNNの構造の最適化に主眼を置いていた。 しかしながら、これらのアプローチのほとんどはトレーニングプロセス中の特定のスケールイメージのみを考慮し、異なるスケール画像間の関係を無視する。 本稿では,3つの高速SRCNNと1つの高速SRCNNを含む,画像超解像のためのカスケード畳み込みニューラルネットワークを提案する。 異なるスケールの画像を同時にトレーニングすることができ、学習ネットワークは、異なるスケールのイメージに存在する情報をフルに活用することができる。 広範な実験により,画像srの性能が向上した。

With the development of the super-resolution convolutional neural network (SRCNN), deep learning technique has been widely applied in the field of image super-resolution. Previous works mainly focus on optimizing the structure of SRCNN, which have been achieved well performance in speed and restoration quality for image super-resolution. However, most of these approaches only consider a specific scale image during the training process, while ignoring the relationship between different scales of images. Motivated by this concern, in this paper, we propose a cascaded convolution neural network for image super-resolution (CSRCNN), which includes three cascaded Fast SRCNNs and each Fast SRCNN can process a specific scale image. Images of different scales can be trained simultaneously and the learned network can make full use of the information resided in different scales of images. Extensive experiments show that our network can achieve well performance for image SR.
翻訳日:2022-10-25 11:58:22 公開日:2020-08-25
# 3D-CNNを用いた少数ショットテキスト独立話者検証

Few Shot Text-Independent speaker verification using 3D-CNN ( http://arxiv.org/abs/2008.11088v1 )

ライセンス: Link先を確認
Prateek Mishra(参考訳) 顔認識システムは、人工知能の主要な成功の1つであり、ここ数年で多くの使われてきた。 しかし、画像だけが生体認証の存在ではない。オーディオは、既存の認識システムの代替として使用できるもう1つの生体認証である。 しかし、話者検証のようなタスクにはテキスト非依存の音声データが常に利用できる訳ではなく、訓練データが少ないと仮定してテキスト非依存の話者検証は過去にも行われていない。 そこで,本稿では,極めて少ない訓練データを用いて,主張話者の同一性を検証する新しい手法を提案する。 これを実現するために私たちは、中心的損失と話者バイアス損失を持つシャムニューラルネットを用いています。 VoxCeleb1データセットを用いて行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度はテキスト非依存話者検証におけるアートモデルの状態に近い。

Facial recognition system is one of the major successes of Artificial intelligence and has been used a lot over the last years. But, images are not the only biometric present: audio is another possible biometric that can be used as an alternative to the existing recognition systems. However, the text-independent audio data is not always available for tasks like speaker verification and also no work has been done in the past for text-independent speaker verification assuming very little training data. Therefore, In this paper, we have proposed a novel method to verify the identity of the claimed speaker using very few training data. To achieve this we are using a Siamese neural network with center loss and speaker bias loss. Experiments conducted on the VoxCeleb1 dataset show that the proposed model accuracy even on training with very few data is near to the state of the art model on text-independent speaker verification
翻訳日:2022-10-25 04:41:47 公開日:2020-08-25
# Medley2K: メドレー遷移のデータセット

Medley2K: A Dataset of Medley Transitions ( http://arxiv.org/abs/2008.11159v1 )

ライセンス: Link先を確認
Lukas Faber, Sandro Luck, Damian Pascual, Andreas Roth, Gino Brunner and Roger Wattenhofer(参考訳) メドレーの自動生成、すなわち、滑らかな遷移によって連結された異なる歌によって形成された楽曲は、現在の文献ではよく研究されていない。 このトピックの研究を容易にするために、2000のメドレーと7,712のラベル付き遷移からなるMedley2Kというデータセットを利用可能にしました。 私たちのデータセットは、さまざまなジャンルのさまざまな曲の遷移を特徴としている。 このデータセットの詳細な説明と、曲間の遷移を生成するタスクにおいて、最先端の生成モデルを訓練して検証する。

The automatic generation of medleys, i.e., musical pieces formed by different songs concatenated via smooth transitions, is not well studied in the current literature. To facilitate research on this topic, we make available a dataset called Medley2K that consists of 2,000 medleys and 7,712 labeled transitions. Our dataset features a rich variety of song transitions across different music genres. We provide a detailed description of this dataset and validate it by training a state-of-the-art generative model in the task of generating transitions between songs.
翻訳日:2022-10-25 04:41:34 公開日:2020-08-25
# 運転状態分析のための脳波脳モニタリングのサーベイとチュートリアル

A Survey and Tutorial of EEG-Based Brain Monitoring for Driver State Analysis ( http://arxiv.org/abs/2008.11226v1 )

ライセンス: Link先を確認
Ce Zhang, Azim Eskandarian(参考訳) 認知的および生理的状態は、車両を制御する能力に影響を与える。 したがって、これらの運転状態は自動車の安全性にとって重要である。 先進的な運転支援システム(adas)や自動運転車の設計は、ドライバーと効果的に相互作用する能力に依存する。 したがって、運転状態のより深い理解が最重要である。 EEGは運転状態のモニタリングとヒューマンエラー検出において最も効果的な方法の1つであることが証明されている。 本稿では,過去30年間の脳波に基づく運転状態検出システムとその解析アルゴリズムについて論じる。 まず,運転状態研究に広く用いられている脳波システムについて紹介する。 次に、ドライバ状態検出のためのEEG信号前処理、特徴抽出、分類アルゴリズムをレビューする。 最後に,脳波を用いた運転状態モニタリング研究を詳細に検討し,今後の展開について考察する。 現在のEEGベースの運転状態監視アルゴリズムは、安全アプリケーションに期待できると結論付けている。 しかし、EEGアーチファクトの削減、リアルタイム処理、オブジェクト間の分類精度にはまだ多くの改善が必要である。

Drivers cognitive and physiological states affect their ability to control their vehicles. Thus, these driver states are important to the safety of automobiles. The design of advanced driver assistance systems (ADAS) or autonomous vehicles will depend on their ability to interact effectively with the driver. A deeper understanding of the driver state is, therefore, paramount. EEG is proven to be one of the most effective methods for driver state monitoring and human error detection. This paper discusses EEG-based driver state detection systems and their corresponding analysis algorithms over the last three decades. First, the commonly used EEG system setup for driver state studies is introduced. Then, the EEG signal preprocessing, feature extraction, and classification algorithms for driver state detection are reviewed. Finally, EEG-based driver state monitoring research is reviewed in-depth, and its future development is discussed. It is concluded that the current EEG-based driver state monitoring algorithms are promising for safety applications. However, many improvements are still required in EEG artifact reduction, real-time processing, and between-subject classification accuracy.
翻訳日:2022-10-25 04:41:23 公開日:2020-08-25
# 学習型微分方程式制約による最適化とその応用

Optimization with learning-informed differential equation constraints and its applications ( http://arxiv.org/abs/2008.10893v1 )

ライセンス: Link先を確認
Guozhi Dong, Michael Hintermueller and Kostas Papafitsoros(参考訳) 半線形楕円偏微分方程式の最適制御と物理積分イメージングの応用に着想を得て,データ駆動法でのみアクセス可能な成分を用いた微分方程式制約付き最適化問題の研究を行った。 特に、機械学習コンポーネントの問題の解析と数値的手法に焦点を当てている。 比較的一般的な文脈では、エラー解析が提供され、人工ニューラルネットワークに基づく近似から生じる特定の特性に対処する。 さらに,2つのアプリケーションそれぞれに対して解析的詳細を示し,数値的な結果を与える。

Inspired by applications in optimal control of semilinear elliptic partial differential equations and physics-integrated imaging, differential equation constrained optimization problems with constituents that are only accessible through data-driven techniques are studied. A particular focus is on the analysis and on numerical methods for problems with machine-learned components. For a rather general context, an error analysis is provided, and particular properties resulting from artificial neural network based approximations are addressed. Moreover, for each of the two inspiring applications analytical details are presented and numerical results are provided.
翻訳日:2022-10-25 04:41:10 公開日:2020-08-25
# 濾過装置の予測保守に関する経済的な展望

An Economic Perspective on Predictive Maintenance of Filtration Units ( http://arxiv.org/abs/2008.11070v1 )

ライセンス: Link先を確認
Denis Tan Jing Yu, Adrian Law Wing-Keung(参考訳) 本稿では,濾過ユニットの予測保守に関する経済的な視点を提供する。 業界4.0の増加傾向と安価なセンサーが利用可能であることから、予測的メンテナンスの台頭が可能である。 しかし、企業による予測保守の導入率は低いままである。 ほとんどの企業は、修正と予防の維持に固執している。 これは、予測メンテナンスの技術的実装に関する情報が不足していることではなく、効果的に使用できる最先端機械学習アルゴリズムに関する研究論文が豊富にあるためではない。 主な問題は、ほとんどの上級管理職がまだ予測メンテナンスのアイデアを十分に確信していないことだ。 実施の経済的価値は、マネジメントによる正当化を改善するために、予測保守プログラムにリンクする必要があります。 本研究では,予測メンテナンスの経済的価値を示すために,3つの機械学習モデルを訓練した。 データはシンガポール科学技術デザイン大学にあるテストベッドから収集された。 テストベッドは現実世界の水処理工場によく似ている。 モンテカルロシミュレーションと組み合わせた費用対効果解析を提案した。 予測保守プログラムを実装することにより、潜在的なコストと節約の文書化のための構造化されたアプローチを提供した。 シミュレーションは現実世界のリスクを金融モデルに組み込んだ。 金融指標は、膜ベースの統合環境ソリューションプロバイダーであるcitic envirotech ltdが採用した。 予測保守の経済価値を詳細に述べるために2つのシナリオが使われた。 本研究は, 予測保守の技術的領域とビジネス領域のギャップを埋めることを目的としている。

This paper provides an economic perspective on the predictive maintenance of filtration units. The rise of predictive maintenance is possible due to the growing trend of industry 4.0 and the availability of inexpensive sensors. However, the adoption rate for predictive maintenance by companies remains low. The majority of companies are sticking to corrective and preventive maintenance. This is not due to a lack of information on the technical implementation of predictive maintenance, with an abundance of research papers on state-of-the-art machine learning algorithms that can be used effectively. The main issue is that most upper management has not yet been fully convinced of the idea of predictive maintenance. The economic value of the implementation has to be linked to the predictive maintenance program for better justification by the management. In this study, three machine learning models were trained to demonstrate the economic value of predictive maintenance. Data was collected from a testbed located at the Singapore University of Technology and Design. The testbed closely resembles a real-world water treatment plant. A cost-benefit analysis coupled with Monte Carlo simulation was proposed. It provided a structured approach to document potential costs and savings by implementing a predictive maintenance program. The simulation incorporated real-world risk into a financial model. Financial figures were adapted from CITIC Envirotech Ltd, a leading membrane-based integrated environmental solutions provider. Two scenarios were used to elaborate on the economic values of predictive maintenance. Overall, this study seeks to bridge the gap between technical and business domains of predictive maintenance.
翻訳日:2022-10-25 04:37:36 公開日:2020-08-25
# ヒルベルト自己回帰過程の予測 : リカレントニューラルネットワークによるアプローチ

Prediction of Hilbertian autoregressive processes : a Recurrent Neural Network approach ( http://arxiv.org/abs/2008.11155v1 )

ライセンス: Link先を確認
Cl\'{e]ment Carr\'e and Andr\'e Mas(参考訳) 自己回帰的ヒルベルトモデル(ARH)は90年代初頭にデニス・ボスクによって導入された。 これは膨大な文学の主題であり、多くの拡張を生んだ。 このモデルは、時系列分析で広く使われる古典的多次元自己回帰モデルを一般化する。 金融、産業、生物学など多くの分野に適用された。 本稿では,ニューラルネットワークを用いた自己相関演算子の推定に基づいて,古典的予測手法を比較する。 後者は、Recurrent Neural Networksの人気のあるバージョンであるLong Short Term Memory Networkに基づいている。 比較はシミュレーションと実際のデータセットを通して行われる。

The autoregressive Hilbertian model (ARH) was introduced in the early 90's by Denis Bosq. It was the subject of a vast literature and gave birth to numerous extensions. The model generalizes the classical multidimensional autoregressive model, widely used in Time Series Analysis. It was successfully applied in numerous fields such as finance, industry, biology. We propose here to compare the classical prediction methodology based on the estimation of the autocorrelation operator with a neural network learning approach. The latter is based on a popular version of Recurrent Neural Networks : the Long Short Term Memory networks. The comparison is carried out through simulations and real datasets.
翻訳日:2022-10-25 04:37:18 公開日:2020-08-25
# 脳波運動画像を用いた計算効率の高いマルチクラス時空間パターン解析

A Computationally Efficient Multiclass Time-Frequency Common Spatial Pattern Analysis on EEG Motor Imagery ( http://arxiv.org/abs/2008.11227v1 )

ライセンス: Link先を確認
Ce Zhang, Azim Eskandarian(参考訳) 共通空間パターン (CSP) は脳波(EEG)運動画像(MI)の一般的な特徴抽出法である。 本研究では,従来のCSPアルゴリズムを改良し,マルチクラスMI分類精度を改善し,計算処理の効率化を図る。 EEG MIデータは、Brain-Computer Interface (BCI) Competition IVから収集される。 まず、実験試験毎にバンドパスフィルタと時間周波数解析を行う。 そして、csp特徴抽出のための信号エネルギーに基づいて、実験試験毎に最適な脳波信号を選択する。 抽出された特徴は3つの分類器、線形判別分析(LDA)、na\\"ive Bayes(NVB)、サポートベクトルマシン(SVM)で分類し、分類精度の比較を行う。 その結果,提案アルゴリズムの平均計算時間はfbcsp(bciコンペティションivで1位)よりも37.22%低く,従来のcsp法よりも4.98%長いことがわかった。 分類率は,BCIコンペティションIVの上位3位に比べて,提案アルゴリズムのカッパ値が2番目に高かった。

Common spatial pattern (CSP) is a popular feature extraction method for electroencephalogram (EEG) motor imagery (MI). This study modifies the conventional CSP algorithm to improve the multi-class MI classification accuracy and ensure the computation process is efficient. The EEG MI data is gathered from the Brain-Computer Interface (BCI) Competition IV. At first, a bandpass filter and a time-frequency analysis are performed for each experiment trial. Then, the optimal EEG signals for every experiment trials are selected based on the signal energy for CSP feature extraction. In the end, the extracted features are classified by three classifiers, linear discriminant analysis (LDA), na\"ive Bayes (NVB), and support vector machine (SVM), in parallel for classification accuracy comparison. The experiment results show the proposed algorithm average computation time is 37.22% less than the FBCSP (1st winner in the BCI Competition IV) and 4.98% longer than the conventional CSP method. For the classification rate, the proposed algorithm kappa value achieved 2nd highest compared with the top 3 winners in BCI Competition IV.
翻訳日:2022-10-25 04:37:12 公開日:2020-08-25
# シンクロ波形計測による配電網の事象原因解析

Event Cause Analysis in Distribution Networks using Synchro Waveform Measurements ( http://arxiv.org/abs/2008.11582v1 )

ライセンス: Link先を確認
Iman Niazazari, Hanif Livani, Amir Ghasemkhani, Yunchuan Liu, and Lei Yang(参考訳) 本稿では,配信ネットワークにおける状況認識を高めるために,イベント原因分析のための機械学習手法を提案する。 データストリームは、時間同期高サンプリングレート同期波形測定ユニット(SWMU)を用いてキャプチャされる。 提案手法は,機械学習,畳み込みニューラルネットワーク(CNN)に基づいて定式化されている。 本発明の方法は、測定の時空間的特徴を効果的に捉え、事象原因分析を行うことができる。 本稿では,キャパシタバンクスイッチング,変圧器のエネルギ化,故障,高インピーダンス障害(hif)など,実分散ネットワークで起こりうる事象を包含するイベントについて検討する。 本研究のデータセットはリアルタイムデジタルシミュレータ(RTDS)を用いて生成し,実世界のイベントをシミュレートする。 事象が検出された後、電圧波形の1サイクルのみを用いて事象原因解析を行う。 シミュレーションの結果,提案手法の有効性を,最先端の分類器と比較した。

This paper presents a machine learning method for event cause analysis to enhance situational awareness in distribution networks. The data streams are captured using time-synchronized high sampling rates synchro waveform measurement units (SWMU). The proposed method is formulated based on a machine learning method, the convolutional neural network (CNN). This method is capable of capturing the spatiotemporal feature of the measurements effectively and perform the event cause analysis. Several events are considered in this paper to encompass a range of possible events in real distribution networks, including capacitor bank switching, transformer energization, fault, and high impedance fault (HIF). The dataset for our study is generated using the real-time digital simulator (RTDS) to simulate real-world events. The event cause analysis is performed using only one cycle of the voltage waveforms after the event is detected. The simulation results show the effectiveness of the proposed machine learning-based method compared to the state-of-the-art classifiers.
翻訳日:2022-10-25 04:36:23 公開日:2020-08-25
# 時系列異常検出のための自動モデル選択

Automated Model Selection for Time-Series Anomaly Detection ( http://arxiv.org/abs/2009.04395v1 )

ライセンス: Link先を確認
Yuanxiang Ying, Juanyong Duan, Chunlei Wang, Yujing Wang, Congrui Huang, Bixiong Xu(参考訳) 時系列異常検出は、学術分野と産業分野の両方で一般的なトピックである。 多くの企業は、アプリケーションやサービスの何千という時間的シグナルを監視し、潜在的なインシデントに対する即時のフィードバックとアラートを必要とする。 このタスクは、乱雑で確率的であり、しばしば適切なラベルを持たない、時系列の複雑な特性のために難しい。 これはラベルの欠如と単一のモデルが異なる時系列にほとんど適合しないため、教師付きモデルのトレーニングを禁止している。 本稿では,この問題に対する解決策を提案する。 入力データに対して適切なパラメータを持つ最も適切な検出モデルを自動的に見つけるための自動モデル選択フレームワークを提案する。 モデル選択層は拡張可能であり、サービスに新しい検出器が利用できる場合、あまり手間をかけずに更新できる。 最後に,カスタマイズしたチューニングアルゴリズムを導入して,ユーザの基準に合致する異常を柔軟にフィルタする。 実世界のデータセットの実験は、我々のソリューションの有効性を示している。

Time-series anomaly detection is a popular topic in both academia and industrial fields. Many companies need to monitor thousands of temporal signals for their applications and services and require instant feedback and alerts for potential incidents in time. The task is challenging because of the complex characteristics of time-series, which are messy, stochastic, and often without proper labels. This prohibits training supervised models because of lack of labels and a single model hardly fits different time series. In this paper, we propose a solution to address these issues. We present an automated model selection framework to automatically find the most suitable detection model with proper parameters for the incoming data. The model selection layer is extensible as it can be updated without too much effort when a new detector is available to the service. Finally, we incorporate a customized tuning algorithm to flexibly filter anomalies to meet customers' criteria. Experiments on real-world datasets show the effectiveness of our solution.
翻訳日:2022-10-25 04:36:06 公開日:2020-08-25
# パッチ類似度に基づく画像雑音化アルゴリズムの批判的解析

A Critical Analysis of Patch Similarity Based Image Denoising Algorithms ( http://arxiv.org/abs/2008.10824v1 )

ライセンス: Link先を確認
Varuna De Silva(参考訳) 画像デノイジングは古典的な信号処理問題であり、過去20年間、画像処理コミュニティで大きな関心を集めてきた。 画像デノイジングのアルゴリズムのほとんどが非局所的類似性のパラダイムに焦点をあてており、類似する近傍の画像ブロックは再構成の基礎を構築するために収集される。 厳密な実験を通じて,非局所的類似性に基づく画像雑音化アルゴリズムの開発について検討する。 第一に、自然画像に存在する基礎的品質としての非局所的類似性の概念は、十分に注目されていない。 第二に、複数のビルディングブロックを組み合わせて開発した画像復調アルゴリズムは、それらの比較が面倒な作業である。 最後に、画像のデノージングに関するほとんどの作業は、デノージング画像と参照画像(加算白色ガウスノイズで摂動する)とのピーク信号対雑音比(psnr)に基づくパフォーマンス結果を示す。 本稿では,非局所的類似性とその様々な雑音レベルにおける有効性に関する統計解析から始まり,それに続いて,異なる最先端画像推定アルゴリズムを理論的に比較する。 最後に,画像分割アルゴリズムの性能評価において,参照なし画像品質尺度と未処理画像(raw)を組み込む手法の見直しを論じる。

Image denoising is a classical signal processing problem that has received significant interest within the image processing community during the past two decades. Most of the algorithms for image denoising has focused on the paradigm of non-local similarity, where image blocks in the neighborhood that are similar, are collected to build a basis for reconstruction. Through rigorous experimentation, this paper reviews multiple aspects of image denoising algorithm development based on non-local similarity. Firstly, the concept of non-local similarity as a foundational quality that exists in natural images has not received adequate attention. Secondly, the image denoising algorithms that are developed are a combination of multiple building blocks, making comparison among them a tedious task. Finally, most of the work surrounding image denoising presents performance results based on Peak-Signal-to-Noise Ratio (PSNR) between a denoised image and a reference image (which is perturbed with Additive White Gaussian Noise). This paper starts with a statistical analysis on non-local similarity and its effectiveness under various noise levels, followed by a theoretical comparison of different state-of-the-art image denoising algorithms. Finally, we argue for a methodological overhaul to incorporate no-reference image quality measures and unprocessed images (raw) during performance evaluation of image denoising algorithms.
翻訳日:2022-10-25 04:35:53 公開日:2020-08-25
# 残留ネットワークによるEM構造の直接合成:一対一変圧器に関する研究

Residual Network Based Direct Synthesis of EM Structures: A Study on One-to-One Transformers ( http://arxiv.org/abs/2008.10755v1 )

ライセンス: Link先を確認
David Munzer, Siawpeng Er, Minshuo Chen, Yan Li, Naga S. Mannem, Tuo Zhao, Hua Wang(参考訳) rf/mm波回路の高速、あるいは自動設計と最適化を実現するために、オンチップ電磁(em)パッシブ構造を直接合成するための機械学習モデルを提案する。 概念実証として,提案するニューラルネットワークモデルを用いて45nm soiプロセス上での1:1トランスの直接合成を実証する。 既存の変換器sパラメータファイルとその幾何学的設計トレーニングサンプルを用いて、モデルはターゲット幾何学的設計を予測する。

We propose using machine learning models for the direct synthesis of on-chip electromagnetic (EM) passive structures to enable rapid or even automated designs and optimizations of RF/mm-Wave circuits. As a proof of concept, we demonstrate the direct synthesis of a 1:1 transformer on a 45nm SOI process using our proposed neural network model. Using pre-existing transformer s-parameter files and their geometric design training samples, the model predicts target geometric designs.
翻訳日:2022-10-25 04:35:31 公開日:2020-08-25
# 機械学習を用いたスマート天気予報:テネシー州を事例として

Smart Weather Forecasting Using Machine Learning:A Case Study in Tennessee ( http://arxiv.org/abs/2008.10789v1 )

ライセンス: Link先を確認
A H M Jakaria, Md Mosharaf Hossain, Mohammad Ashiqur Rahman(参考訳) 伝統的に、気象予報は、長期間にわたって異なる大気条件を利用する大規模複雑な物理モデルの助けを借りて行われる。 これらの状態は、気象システムの摂動によって不安定になり、モデルが不正確な予報を提供する。 モデルは通常、大量のエネルギーを消費する大規模なハイパフォーマンスコンピューティング(HPC)環境で数百のノードで実行される。 本稿では,複数の気象観測所の過去のデータを用いて,簡単な機械学習モデルを訓練する気象予報手法を提案する。 モデルは、リソース集約的な環境よりもはるかに少ない環境で実行できる。 評価結果から,現在の最先端技術と併用するには,モデルの精度が十分であることがわかった。 また、気象予報が行われている地域のみのデータより、近隣の複数の地域からの気象観測所データを活用することが有益であることを示す。

Traditionally, weather predictions are performed with the help of large complex models of physics, which utilize different atmospheric conditions over a long period of time. These conditions are often unstable because of perturbations of the weather system, causing the models to provide inaccurate forecasts. The models are generally run on hundreds of nodes in a large High Performance Computing (HPC) environment which consumes a large amount of energy. In this paper, we present a weather prediction technique that utilizes historical data from multiple weather stations to train simple machine learning models, which can provide usable forecasts about certain weather conditions for the near future within a very short period of time. The models can be run on much less resource intensive environments. The evaluation results show that the accuracy of the models is good enough to be used alongside the current state-of-the-art techniques. Furthermore, we show that it is beneficial to leverage the weather station data from multiple neighboring areas over the data of only the area for which weather forecasting is being performed.
翻訳日:2022-10-25 04:35:23 公開日:2020-08-25
# エントロピックしきい値を持つGaborフィルタによる網膜血管の検出

Detection of Retinal Blood Vessels by using Gabor filter with Entropic threshold ( http://arxiv.org/abs/2008.11508v1 )

ライセンス: Link先を確認
Mohamed. I. Waly, Ahmed El-Hossiny(参考訳) 糖尿病網膜症は視覚障害の基本的な原因である。 本稿では,血管を識別・使用するためのプログラム戦略を提案する。 血管の位置は、血管が網膜画像の典型的な要素であるため、糖尿病網膜症の発見における基本的なステップである。 血管の位置は、眼科医がより早く、より早く病気を認識するのに役立つ。 血管は、STAREとDRIVEの2つの自由アクセス性網膜データベース上でGobarフィルタを利用して認識され、消去される。 物理区切り画像と比較収率画像とを比較して、セグメンテーション計算の精度を定量的に評価し、エントロピックしきい値によるエントロピックしきい値容器画素セグメンテーションを用いたガボルフィルタは、偽陽性率の低いより良い容器である。

Diabetic retinopathy is the basic reason for visual deficiency. This paper introduces a programmed strategy to identify and dispense with the blood vessels. The location of the blood vessels is the fundamental stride in the discovery of diabetic retinopathy because the blood vessels are the typical elements of the retinal picture. The location of the blood vessels can help the ophthalmologists to recognize the sicknesses prior and quicker. The blood vessels recognized and wiped out by utilizing Gobar filter on two freely accessible retinal databases which are STARE and DRIVE. The exactness of segmentation calculation is assessed quantitatively by contrasting the physically sectioned pictures and the comparing yield pictures, the Gabor filter with Entropic threshold vessel pixel segmentation by Entropic thresholding is better vessels with less false positive portion rate.
翻訳日:2022-10-25 04:28:16 公開日:2020-08-25
# パラメータ調整モデルを用いたソフトウェア活動推定

Software Effort Estimation using parameter tuned Models ( http://arxiv.org/abs/2009.01660v1 )

ライセンス: Link先を確認
Akanksha Baghel, Meemansa Rathod, Pradeep Singh(参考訳) ソフトウェア見積もりは、ソフトウェアプロジェクトで最も重要な活動の1つです。 ソフトウェア作業量の推定は、ソフトウェアライフサイクルの初期段階で必要となる。 ソフトウェアプロジェクトマネージャが見ているように、現在進行中のプロジェクト失敗は大きな問題です。 推定の不正確さがこの問題の原因である。 ソフトウェアのサイズが大きくなると、システムも複雑になるため、ソフトウェア開発プロセスのコストを正確に予測することは困難である。 ソフトウェア業界の最大の落とし穴は、ソフトウェア開発の急速に変化する性質であり、すべてのドメインでソフトウェア開発に高い精度をもたらすパラメトリックモデルを開発するのが難しくなった。 ソフトウェア製品の開発コストを正確に予測する有用なモデルの開発が必要です。 本研究は,高パラメータチューニングを用いた各種回帰モデルの新しい解析手法を提案する。 モデル開発における9種類の回帰手法の検討

Software estimation is one of the most important activities in the software project. The software effort estimation is required in the early stages of software life cycle. Project Failure is the major problem undergoing nowadays as seen by software project managers. The imprecision of the estimation is the reason for this problem. Assize of software size grows, it also makes a system complex, thus difficult to accurately predict the cost of software development process. The greatest pitfall of the software industry was the fast-changing nature of software development which has made it difficult to develop parametric models that yield high accuracy for software development in all domains. We need the development of useful models that accurately predict the cost of developing a software product. This study presents the novel analysis of various regression models with hyperparameter tuning to get the effective model. Nine different regression techniques are considered for model development
翻訳日:2022-10-25 04:28:02 公開日:2020-08-25
# 心拍・歩行・呼吸データを用いたウェアラブルデバイスの連続認証

Continuous Authentication of Wearable Device Users from Heart Rate, Gait, and Breathing Data ( http://arxiv.org/abs/2008.10779v1 )

ライセンス: Link先を確認
William Cheung and Sudip Vhaduri(参考訳) 個人情報のセキュリティは、ますますデジタル化された社会の基盤になりつつある。 ユーザはパスワードやPINで溢れているが、これらのゴールドスタンダードな明示的な認証は、あまり人気がなく、価値も低い。 近年,顔認証や指認識などの生体認証技術が普及している。 しかし、これらのハードバイオメトリックベースのシステムは、強力なセンサーと認証モデルを備えた専用デバイスを必要とする。 それでも、マーケットウェアラブルはユーザーのさまざまな個人情報を収集し、車や銀行口座へのアクセスなど、生活の不可欠な部分になりつつある。 したがってtimeは、現代の市場ウェアラブルから容易に得ることのできる、控えめなソフトバイオメトリックデータを使用して、ウェアラブルに負担のない暗黙の認証機構を要求する。 本稿では,心拍数,歩行,呼吸音声信号を用いたウェアラブルデバイスのための,コンテキスト依存型ソフトバイオメトリック認証システムを提案する。 リーブ・ワン・アウト」バリデーションを用いた詳細な分析から、より軽量なk$-nearestの隣人モデル(k$-nn)が$k = 2$で、平均精度は$0.93 \pm 0.06$、$f_1$スコア$0.93 \pm 0.03$、"em false positive rate} (fpr) が$0.08$ at 50\% の信頼レベルで得られており、これはこの仕事の約束を示している。

The security of private information is becoming the bedrock of an increasingly digitized society. While the users are flooded with passwords and PINs, these gold-standard explicit authentications are becoming less popular and valuable. Recent biometric-based authentication methods, such as facial or finger recognition, are getting popular due to their higher accuracy. However, these hard-biometric-based systems require dedicated devices with powerful sensors and authentication models, which are often limited to most of the market wearables. Still, market wearables are collecting various private information of a user and are becoming an integral part of life: accessing cars, bank accounts, etc. Therefore, time demands a burden-free implicit authentication mechanism for wearables using the less-informative soft-biometric data that are easily obtainable from modern market wearables. In this work, we present a context-dependent soft-biometric-based authentication system for wearables devices using heart rate, gait, and breathing audio signals. From our detailed analysis using the "leave-one-out" validation, we find that a lighter $k$-Nearest Neighbor ($k$-NN) model with $k = 2$ can obtain an average accuracy of $0.93 \pm 0.06$, $F_1$ score $0.93 \pm 0.03$, and {\em false positive rate} (FPR) below $0.08$ at 50\% level of confidence, which shows the promise of this work.
翻訳日:2022-10-25 04:27:21 公開日:2020-08-25
# 機械学習システムの品質評価ガイドライン作成に向けて

Towards Guidelines for Assessing Qualities of Machine Learning Systems ( http://arxiv.org/abs/2008.11007v1 )

ライセンス: Link先を確認
Julien Siebert, Lisa Joeckel, Jens Heidrich, Koji Nakamichi, Kyoko Ohashi, Isao Namba, Rieko Yamamoto, Mikio Aoyama(参考訳) 近年,機械学習(ML)手法に基づくコンポーネントを含むシステムの普及が進んでいる。 ソフトウェアシステムの意図した振る舞いを保証するため、システムとそのコンポーネント(ISO/IEC 25010など)に必要な品質の側面を定義する標準が存在する。 mlの異なる性質から、品質面の調整や(信頼性などの)追加、関心対象(トレーニングデータの完全性など)と品質要件への適合度を客観的に評価する方法について、極めて正確に知る必要があります。 本稿では,産業用ユースケースに基づいたmlシステムのための品質モデル(評価対象,品質側面,メトリクス)の構築について述べる。 この品質モデルにより、実践者はこの種のMLシステムの品質要件を客観的に指定し、評価することができる。 将来的には、MLシステムの種類によって品質という用語がどう違うかを学び、MLシステムの品質を特定し評価するための一般的なガイドラインを策定したいと考えています。

Nowadays, systems containing components based on machine learning (ML) methods are becoming more widespread. In order to ensure the intended behavior of a software system, there are standards that define necessary quality aspects of the system and its components (such as ISO/IEC 25010). Due to the different nature of ML, we have to adjust quality aspects or add additional ones (such as trustworthiness) and be very precise about which aspect is really relevant for which object of interest (such as completeness of training data), and how to objectively assess adherence to quality requirements. In this article, we present the construction of a quality model (i.e., evaluation objects, quality aspects, and metrics) for an ML system based on an industrial use case. This quality model enables practitioners to specify and assess quality requirements for such kinds of ML systems objectively. In the future, we want to learn how the term quality differs between different types of ML systems and come up with general guidelines for specifying and assessing qualities of ML systems.
翻訳日:2022-10-25 04:26:38 公開日:2020-08-25
# より良いストーリーテリングのためのソーシャルネットワークの複雑化--中国史料と小説の実証的研究

Complicating the Social Networks for Better Storytelling: An Empirical Study of Chinese Historical Text and Novel ( http://arxiv.org/abs/2008.10835v1 )

ライセンス: Link先を確認
Chenhan Zhang(参考訳) デジタル人間性は歴史、文学、映画の発展を可能にするため重要なテーマである。 本稿では,中国史書,三国史の記録(\textit{records}),同時代の歴史小説『三王国のロマンス』(\textit{romance})について実証研究を行う。 自然言語処理技術を用いて文字とその関係を抽出する。 次に、歴史テキストと歴史小説の主人公のソーシャルネットワークと感情を特徴付ける。 我々は, \textit{romance} におけるソーシャルネットワークは \textit{records} よりも複雑で動的であり,主文字の影響が異なることを見出した。 これらの知見は、2つの文学ジャンルの異なる物語のスタイルと、歴史小説が登場人物の社会的ネットワークを複雑にし、物語の識字性を豊かにする様子を浮き彫りにした。

Digital humanities is an important subject because it enables developments in history, literature, and films. In this paper, we perform an empirical study of a Chinese historical text, Records of the Three Kingdoms (\textit{Records}), and a historical novel of the same story, Romance of the Three Kingdoms (\textit{Romance}). We employ natural language processing techniques to extract characters and their relationships. Then, we characterize the social networks and sentiments of the main characters in the historical text and the historical novel. We find that the social network in \textit{Romance} is more complex and dynamic than that of \textit{Records}, and the influence of the main characters differs. These findings shed light on the different styles of storytelling in the two literary genres and how the historical novel complicates the social networks of characters to enrich the literariness of the story.
翻訳日:2022-10-25 04:19:54 公開日:2020-08-25
# この文は有効ですか。 Commonsense Validationのためのアラビアデータセット

Is this sentence valid? An Arabic Dataset for Commonsense Validation ( http://arxiv.org/abs/2008.10873v1 )

ライセンス: Link先を確認
Saja Tawalbeh and Mohammad AL-Smadi(参考訳) 常識的理解と検証は、自然言語理解の分野で難しい課題である。 それゆえ,テキストの共通性を検証するモデルを評価するための提案システムの能力について検討した研究論文がいくつか発表されている。 本稿では,共通理解と検証のためのベンチマークアラビアデータセットと,同じデータセットを用いて訓練されたベースライン研究とモデルを提案する。 我々の知る限りでは、このデータセットはアラビア語テキストコモンセンス検証の分野における最初のものと考えられている。 データセットはCreative Commons BY-SA 4.0ライセンスで配布されており、GitHubで公開されている。

The commonsense understanding and validation remains a challenging task in the field of natural language understanding. Therefore, several research papers have been published that studied the capability of proposed systems to evaluate the models ability to validate commonsense in text. In this paper, we present a benchmark Arabic dataset for commonsense understanding and validation as well as a baseline research and models trained using the same dataset. To the best of our knowledge, this dataset is considered as the first in the field of Arabic text commonsense validation. The dataset is distributed under the Creative Commons BY-SA 4.0 license and can be found on GitHub.
翻訳日:2022-10-25 04:19:38 公開日:2020-08-25
# 既存手法による二項分類課題に対する非線形決定木の評価

Evaluating Nonlinear Decision Trees for Binary Classification Tasks with Other Existing Methods ( http://arxiv.org/abs/2008.10753v1 )

ライセンス: Link先を確認
Yashesh Dhebar, Sparsh Gupta and Kalyanmoy Deb(参考訳) データセットを2つ以上の異なるクラスに分類することは、重要な機械学習タスクである。 多くのメソッドは、テストデータに対して非常に高い精度でバイナリ分類タスクを分類することができるが、データ分割の理由をより深く理解するために、容易に解釈可能な説明を提供することはできない。 本稿では,最近提案された非線形決定木手法を,いくつかの特徴を含む複数のデータセットに対して,よく使用される分類手法を用いて強調し,評価する。 本研究は, 手法のパラメータ値に対する分類の影響, 達成精度に対する分類器の複雑さ, 結果の分類器の解釈可能性などの重要な課題を明らかにする。

Classification of datasets into two or more distinct classes is an important machine learning task. Many methods are able to classify binary classification tasks with a very high accuracy on test data, but cannot provide any easily interpretable explanation for users to have a deeper understanding of reasons for the split of data into two classes. In this paper, we highlight and evaluate a recently proposed nonlinear decision tree approach with a number of commonly used classification methods on a number of datasets involving a few to a large number of features. The study reveals key issues such as effect of classification on the method's parameter values, complexity of the classifier versus achieved accuracy, and interpretability of resulting classifiers.
翻訳日:2022-10-25 04:19:29 公開日:2020-08-25
# マルチスケール3次元応力モデリングにおける機械学習の適用

Machine learning applied in the multi-scale 3D stress modelling ( http://arxiv.org/abs/2008.11244v1 )

ライセンス: Link先を確認
Xavier Garcia and Adrian Rodriguez-Herrera(参考訳) 本稿では,有限要素モデリングとニューラルネットワークを組み合わせたハイブリッド手法により,地下応力を推定する手法を提案する。 この手法は、多周波数解を得るというアイデアを生かして、幅広い長さスケールの振る舞いを伴うシステムの数値モデリングを行う。 1つの低周波溶液は、粗いスケールで安価な有限要素モデリングによって得られる。 第二の解は、微小スケールにおける自由パラメータの不均一性によって導入されたきめ細かい詳細を提供する。 この高周波解は、高分解能有限要素モデルで得られる部分解で訓練されたニューラルネットワークを介して推定される。 粗い有限要素の解とニューラルネットワークの推定値とを組み合わせると、結果は高分解能有限要素モデルで計算される結果の2\%の誤差となる。 本稿では,この手法の利点と欠点を説明し,実例を通してその適用性について述べる。

This paper proposes a methodology to estimate stress in the subsurface by a hybrid method combining finite element modeling and neural networks. This methodology exploits the idea of obtaining a multi-frequency solution in the numerical modeling of systems whose behavior involves a wide span of length scales. One low-frequency solution is obtained via inexpensive finite element modeling at a coarse scale. The second solution provides the fine-grained details introduced by the heterogeneity of the free parameters at the fine scale. This high-frequency solution is estimated via neural networks -trained with partial solutions obtained in high-resolution finite-element models. When the coarse finite element solutions are combined with the neural network estimates, the results are within a 2\% error of the results that would be computed with high-resolution finite element models. This paper discusses the benefits and drawbacks of the method and illustrates their applicability via a worked example.
翻訳日:2022-10-25 04:19:18 公開日:2020-08-25
# 物理認識構造制約に基づく限定観測による空間分類

Spatial Classification With Limited Observations Based On Physics-Aware Structural Constraint ( http://arxiv.org/abs/2009.01072v1 )

ライセンス: Link先を確認
Arpan Man Sainju, Wenchong He, Zhe Jiang, Da Yan and Haiquan Chen(参考訳) 限定的な特徴観察による空間分類は、機械学習において難しい問題となっている。 この問題は、特定の場所にセンサーのサブセットのみを配置したり、フィールドサーベイで部分的な応答を収集するアプリケーションに存在する。 既存の研究は、主に不完全または欠落したデータ、例えばデータのクリーニングとインプット、特徴値の欠落やモデル欠落した特徴をEMアルゴリズムの隠れ変数として扱える分類モデルに焦点をあてている。 しかしながら、これらの手法は、不完全な特徴観察は少数のサンプルでのみ発生し、大部分のサンプルが特徴観察を欠いている問題を解くことはできないと仮定する。 この問題に対処するため,我々は最近,物理認識構造制約をモデル表現に組み込む新しい手法を提案した。 提案手法では,すべてのサンプル位置について空間的文脈的特徴を観測し,基礎となる空間的文脈的特徴マップから空間的構造的制約を確立する。 モデルパラメータ学習とクラス推論のための効率的なアルゴリズムを設計する。 本稿では,各クラスにおけるサンプルの特徴値をマルチモーダル分布に従わせることにより,最近のアプローチを拡張する。 マルチモーダル分布を持つ拡張モデルの学習アルゴリズムを提案する。 実世界の水文学応用評価の結果,本手法は分類精度においてベースライン法を著しく上回り,特にトレーニングサンプルの特徴分布がマルチモーダルである場合,マルチモーダル拡張は初期のシングルモーダル版よりも頑健であることがわかった。 計算実験により,提案手法は大規模データセット上で計算効率が高いことが示された。

Spatial classification with limited feature observations has been a challenging problem in machine learning. The problem exists in applications where only a subset of sensors are deployed at certain spots or partial responses are collected in field surveys. Existing research mostly focuses on addressing incomplete or missing data, e.g., data cleaning and imputation, classification models that allow for missing feature values or model missing features as hidden variables in the EM algorithm. These methods, however, assume that incomplete feature observations only happen on a small subset of samples, and thus cannot solve problems where the vast majority of samples have missing feature observations. To address this issue, we recently proposed a new approach that incorporates physics-aware structural constraint into the model representation. Our approach assumes that a spatial contextual feature is observed for all sample locations and establishes spatial structural constraint from the underlying spatial contextual feature map. We design efficient algorithms for model parameter learning and class inference. This paper extends our recent approach by allowing feature values of samples in each class to follow a multi-modal distribution. We propose learning algorithms for the extended model with multi-modal distribution. Evaluations on real-world hydrological applications show that our approach significantly outperforms baseline methods in classification accuracy, and the multi-modal extension is more robust than our early single-modal version especially when feature distribution in training samples is multi-modal. Computational experiments show that the proposed solution is computationally efficient on large datasets.
翻訳日:2022-10-25 04:19:07 公開日:2020-08-25
# プライバシー保護勧告のための多視点深層学習フレームワーク

A Federated Multi-View Deep Learning Framework for Privacy-Preserving Recommendations ( http://arxiv.org/abs/2008.10808v1 )

ライセンス: Link先を確認
Mingkai Huang, Hao Li, Bing Bai, Chang Wang, Kun Bai, Fei Wang(参考訳) ユーザプライバシとデータセキュリティに対する深刻な懸念から、レコメンデーションサービスプロバイダによって、分散化されたユーザデータの収集がますます困難になっているため、プライバシ保護のレコメンデーションは最近勢いを増している。 この状況はさらに欧州一般データプライバシー規則(gdpr)のような厳格な政府規制によって悪化している。 Federated Learning(FL)は、データセキュリティとプライバシを損なうことなく、データリポジトリをブリッジする、新たに開発されたプライバシ保護機械学習パラダイムである。 したがって、パーソナライズされたプライバシ保護レコメンデーションを実現するために、多くのフェデレーションレコメンデーション(FedRec)アルゴリズムが提案されている。 しかし、従来のコラボレーティブフィルタリング(cf)法から拡張された既存のfeedrecアルゴリズムは、コールドスタート問題にうまく対処できない。 さらに、フェデレーション設定でトレーニングされたw.r.t.モデル精度は、集中型レコメンデーションと比較して無視できないことが多い。 本稿では,この問題を解決するために,複数のデータソースからフェデレーションモデルを学習し,よりリッチなユーザレベルの機能を取り込むことにより,そのレコメンデーション性能を大幅に向上させる汎用的なコンテンツベースフェデレーションマルチビューレコメンデーションフレームワークfl-mv-dssmを提案する。 fl-mv-dssmによって提案された新しいフェデレーションマルチビュー設定は、新しい利用モデルを開き、レコメンデーションシナリオにおいてflに新しいセキュリティ課題をもたらす。 我々は、 \xxx のセキュリティ保証を証明し、fl-mv-dssm とその公開データセットとのバリエーションについて実証的な評価を行い、その効果を示す。 この論文が受け入れられれば、私たちのコードは公開されます。

Privacy-preserving recommendations are recently gaining momentum, since the decentralized user data is increasingly harder to collect, by recommendation service providers, due to the serious concerns over user privacy and data security. This situation is further exacerbated by the strict government regulations such as Europe's General Data Privacy Regulations(GDPR). Federated Learning(FL) is a newly developed privacy-preserving machine learning paradigm to bridge data repositories without compromising data security and privacy. Thus many federated recommendation(FedRec) algorithms have been proposed to realize personalized privacy-preserving recommendations. However, existing FedRec algorithms, mostly extended from traditional collaborative filtering(CF) method, cannot address cold-start problem well. In addition, their performance overhead w.r.t. model accuracy, trained in a federated setting, is often non-negligible comparing to centralized recommendations. This paper studies this issue and presents FL-MV-DSSM, a generic content-based federated multi-view recommendation framework that not only addresses the cold-start problem, but also significantly boosts the recommendation performance by learning a federated model from multiple data source for capturing richer user-level features. The new federated multi-view setting, proposed by FL-MV-DSSM, opens new usage models and brings in new security challenges to FL in recommendation scenarios. We prove the security guarantees of \xxx, and empirical evaluations on FL-MV-DSSM and its variations with public datasets demonstrate its effectiveness. Our codes will be released if this paper is accepted.
翻訳日:2022-10-25 04:18:41 公開日:2020-08-25
# ライブアクションロールプレイングゲーム(LARP)における人工知能の応用

Applications of Artificial Intelligence in Live Action Role-Playing Games (LARP) ( http://arxiv.org/abs/2008.11003v1 )

ライセンス: Link先を確認
Christoph Salge, Emily Short, Mike Preuss, Spyridion Samothrakis and Pieter Spronck(参考訳) ライブアクションロールプレイング(LARP)ゲームや同様の体験が人気ゲームジャンルになりつつある。 ここでは,人工知能技術,特にAI for Gamesでよく使用されるものについて,LARPに適用する方法について論じる。 本稿では、LARPを驚くほど適したアプリケーション分野にするための具体的な特性について論じ、既存のアプローチを概観する。 LARPを組織化しやすくし、AIなしでは不可能な要素でプレイヤーエクスペリエンスを向上させることで、AIを活用することが有益と思われるいくつかの方向を概説する。

Live Action Role-Playing (LARP) games and similar experiences are becoming a popular game genre. Here, we discuss how artificial intelligence techniques, particularly those commonly used in AI for Games, could be applied to LARP. We discuss the specific properties of LARP that make it a surprisingly suitable application field, and provide a brief overview of some existing approaches. We then outline several directions where utilizing AI seems beneficial, by both making LARPs easier to organize, and by enhancing the player experience with elements not possible without AI.
翻訳日:2022-10-25 04:18:11 公開日:2020-08-25
# 含意規則を用いたサッカーチームのパス戦略の解明

Uncovering Soccer Teams Passing Strategies Using Implication Rules ( http://arxiv.org/abs/2008.11229v1 )

ライセンス: Link先を確認
Olumide Leshi(参考訳) 形式的概念分析 FCA はソーシャル・ネットワーク・アナリティクス SNA など様々な知識分野に応用されている。 また、チームスポーツの評価におけるSNAの適用性についても研究されている。 本稿では,サッカーチームの頻繁なパスシーケンスを明らかにするために,FCAに基づくアプローチを提案する。 このアプローチは最小限のカバー、duquenne guigues dgベース、サッカーチームがソーシャルネットワークを記述するという概念に依存する。

Formal Concept Analysis FCA has seen application in different knowledge areas, including Social Network Analysis SNA. In turn, research has also shown the applicability of SNA in assessing team sports. In this project, to uncover frequent passing sequences of a soccer team, an FCA based approach is introduced. The approach relies on a minimum cover of implications, the Duquenne Guigues DG basis and the notion that a soccer teams passes describe a social network.
翻訳日:2022-10-25 04:17:56 公開日:2020-08-25
# 教授に対する学生の認識から学ぶ : 意見マイニングを通して

Learning from students' perception on professors through opinion mining ( http://arxiv.org/abs/2008.11183v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on and Juan S. Fl\'orez and Leonel F. Ardila and Nicolas Parra-A. and Jorge E. Camargo and Nelson Vargas(参考訳) 授業調査に関する意見を通じて測定された授業に対する学生の認識は、環境と学習方法論の両方において、欠陥と問題を特定することができる。 本研究の目的は,自然言語処理(nlp)と機械学習(ml)技術を用いた感情分析を通じて,学生に関係のあるトピックを識別するための意見と,極性分析による関連する感情の予測を行うことである。 その結果、関連する感情と関連する意見のトピックを予測するために、2つのアルゴリズムを実装し、訓練し、テストした。 両アプローチの組み合わせは、各感情ラベル(肯定的、否定的、中立的な意見)とトピックに関連する学生の意見の特定の特性を特定するのに役立つ。 さらに,授業に関する意見を述べるオープン質問を通じて学生が提供できる情報に基づいて,クローズドな質問をせずに学生の知覚調査を行う可能性について検討する。

Students' perception of classes measured through their opinions on teaching surveys allows to identify deficiencies and problems, both in the environment and in the learning methodologies. The purpose of this paper is to study, through sentiment analysis using natural language processing (NLP) and machine learning (ML) techniques, those opinions in order to identify topics that are relevant for students, as well as predicting the associated sentiment via polarity analysis. As a result, it is implemented, trained and tested two algorithms to predict the associated sentiment as well as the relevant topics of such opinions. The combination of both approaches then becomes useful to identify specific properties of the students' opinions associated with each sentiment label (positive, negative or neutral opinions) and topic. Furthermore, we explore the possibility that students' perception surveys are carried out without closed questions, relying on the information that students can provide through open questions where they express their opinions about their classes.
翻訳日:2022-10-25 04:17:32 公開日:2020-08-25
# 離散ラドン変換を用いたグレースケール画像モーメント

Using the discrete radon transformation for grayscale image moments ( http://arxiv.org/abs/2008.11083v1 )

ライセンス: Link先を確認
William Diggin and Michael Diggin(参考訳) 画像モーメントは、所定の画像内のピクセル値に対する重み付け和であり、オブジェクトの検出やローカライゼーションに使用される。 生画像モーメントは画像から直接導出され、モーメント不変量の導出に基本となる。 現在の生画像モーメントの一般アルゴリズムは計算に費用がかかり、画像中の画素数と乗算を必要とする倍数も必要となる。 大きさ (N,M) の画像に対して、O(NM) 乗法を持つ。 本稿では,グレースケール画像の生画像モーメントを計算するために離散ラドン変換を用いたアルゴリズムの概要を示す。 これは2次元モーメント計算を1次元モーメント計算の線形結合に還元する。 その結果,O(N + M)の乗算にはO(N + M)のスケールが必要であり,生画像のモーメントのアルゴリズムとして最も広く使われている。

Image moments are weighted sums over pixel values in a given image and are used in object detection and localization. Raw image moments are derived directly from the image and are fundamental in deriving moment invariants quantities. The current general algorithm for raw image moments is computationally expensive and the number of multiplications needed scales with the number of pixels in the image. For an image of size (N,M), it has O(NM) multiplications. In this paper we outline an algorithm using the Discrete Radon Transformation for computing the raw image moments of a grayscale image. It reduces two dimensional moment calculations to linear combinations of one dimensional moment calculations. We show that the number of multiplications needed scales as O(N + M), making it faster then the most widely used algorithm of raw image moments.
翻訳日:2022-10-25 04:11:56 公開日:2020-08-25
# 幾何事前化によるディープステレオネットワークの一般化

Improving Deep Stereo Network Generalization with Geometric Priors ( http://arxiv.org/abs/2008.11098v1 )

ライセンス: Link先を確認
Jialiang Wang, Varun Jampani, Deqing Sun, Charles Loop, Stan Birchfield, Jan Kautz(参考訳) 近年、エンド・ツー・エンドのディープラーニング手法は高度なステレオビジョンを持ち、トレーニングデータとテストデータが類似している場合に優れた結果が得られる。 しかし、密接な地上真理を持つ多様な現実世界のシーンの大規模なデータセットは入手が難しく、現在研究コミュニティに公開されていない。 その結果、多くのアルゴリズムは、類似したシーンや合成データセットの小さな現実世界のデータセットに依存するが、そのようなデータセットで訓練されたエンドツーエンドのアルゴリズムは、現実世界のアプリケーションで発生する異なるイメージにあまり一般化しないことが多い。 この問題を解決するためのステップとして,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。 与えられたネットワークに対して、ネットワークトレーニングに勾配領域の滑らかさと排他的推論を明示的に付加する一方で、アーキテクチャは推論中に変化しない。 実験では,合成データセットをトレーニングし,ミドルベリー(実画像)データセットでテストした場合,一貫した改善を示す。 特に,ミドルベリーのPSM-Net精度を5.37 MAEから3.21 MAEに向上させる。

End-to-end deep learning methods have advanced stereo vision in recent years and obtained excellent results when the training and test data are similar. However, large datasets of diverse real-world scenes with dense ground truth are difficult to obtain and currently not publicly available to the research community. As a result, many algorithms rely on small real-world datasets of similar scenes or synthetic datasets, but end-to-end algorithms trained on such datasets often generalize poorly to different images that arise in real-world applications. As a step towards addressing this problem, we propose to incorporate prior knowledge of scene geometry into an end-to-end stereo network to help networks generalize better. For a given network, we explicitly add a gradient-domain smoothness prior and occlusion reasoning into the network training, while the architecture remains unchanged during inference. Experimentally, we show consistent improvements if we train on synthetic datasets and test on the Middlebury (real images) dataset. Noticeably, we improve PSM-Net accuracy on Middlebury from 5.37 MAE to 3.21 MAE without sacrificing speed.
翻訳日:2022-10-25 04:11:43 公開日:2020-08-25
# 単一段階時間行動定位ネットワークにおける境界不確かさ

Boundary Uncertainty in a Single-Stage Temporal Action Localization Network ( http://arxiv.org/abs/2008.11170v1 )

ライセンス: Link先を確認
Ting-Ting Xie, Christos Tzelepis, Ioannis Patras(参考訳) 本稿では,1段階のニューラルネットワークによる時間的行動の局所化の問題に対処する。 提案したアーキテクチャでは,境界予測を一変量ガウス分布としてモデル化し,不確実性をモデル化する。 まず、境界の基底的真理位置とガウス的境界の予測をモデル化するガウス型と、同じガウス的条件下での$\ell_1$ の損失を期待するガウス型の2つの不確実性を考慮した境界回帰損失を用いる。 両方の不確実性モデリング手法により,mAP@tIoU=0.5の$1.5\%以上の検出性能が向上し,提案する単純な1段ネットワークが,より複雑な1段ネットワークと2段ネットワークに近接して動作することを示す。

In this paper, we address the problem of temporal action localization with a single stage neural network. In the proposed architecture we model the boundary predictions as uni-variate Gaussian distributions in order to model their uncertainties, which is the first in this area to the best of our knowledge. We use two uncertainty-aware boundary regression losses: first, the Kullback-Leibler divergence between the ground truth location of the boundary and the Gaussian modeling the prediction of the boundary and second, the expectation of the $\ell_1$ loss under the same Gaussian. We show that with both uncertainty modeling approaches improve the detection performance by more than $1.5\%$ in mAP@tIoU=0.5 and that the proposed simple one-stage network performs closely to more complex one and two stage networks.
翻訳日:2022-10-25 04:11:23 公開日:2020-08-25
# ゼロショット学習における知覚と知覚のバイアス認識

Bias-Awareness for Zero-Shot Learning the Seen and Unseen ( http://arxiv.org/abs/2008.11185v1 )

ライセンス: Link先を確認
William Thong and Cees G.M. Snoek(参考訳) 一般化されたゼロショット学習は、見たクラスと見えないクラスの両方からの入力を認識する。 しかし、既存のメソッドはトレーニング中に見られるクラスに偏りがちである。 本稿では,このバイアスを緩和しようと試みる。 一般化ゼロショット学習のための意味埋め込み空間に入力をマッピングするバイアス対応学習者を提案する。 トレーニング中、モデルは、温度スケーリングを伴う埋め込み空間における実数値クラスプロトタイプへの回帰を学習し、マージンベースの双方向エントロピー用語は、見えて見えない確率を正規化する。 実数値のセマンティクス埋め込み空間に依存することは、モデルが見たクラスと見えないクラスの両方の異なるタイプのセマンティクス情報を操作できるため、多用途なアプローチを提供する。 一般化ゼロショット学習のための4つのベンチマークを用いて実験を行い,提案するバイアスアウェア分類器の利点を,単独の手法として,あるいは生成した特徴と組み合わせて実証した。

Generalized zero-shot learning recognizes inputs from both seen and unseen classes. Yet, existing methods tend to be biased towards the classes seen during training. In this paper, we strive to mitigate this bias. We propose a bias-aware learner to map inputs to a semantic embedding space for generalized zero-shot learning. During training, the model learns to regress to real-valued class prototypes in the embedding space with temperature scaling, while a margin-based bidirectional entropy term regularizes seen and unseen probabilities. Relying on a real-valued semantic embedding space provides a versatile approach, as the model can operate on different types of semantic information for both seen and unseen classes. Experiments are carried out on four benchmarks for generalized zero-shot learning and demonstrate the benefits of the proposed bias-aware classifier, both as a stand-alone method or in combination with generated features.
翻訳日:2022-10-25 04:11:06 公開日:2020-08-25
# grab: 物体を人間の手で把握するデータセット

GRAB: A Dataset of Whole-Body Human Grasping of Objects ( http://arxiv.org/abs/2008.11200v1 )

ライセンス: Link先を確認
Omid Taheri, Nima Ghorbani, Michael J. Black, and Dimitrios Tzionas(参考訳) 人間の把握を理解するためのコンピュータの訓練には、複雑な3Dオブジェクトの形状、詳細な接触情報、ポーズと形状、時間の経過とともに3Dの身体の動きを含む豊富なデータセットが必要である。 グラッピング」は、安定して物体を持ち上げる単一の手であると考えられがちであるが、私たちは全身の動きを捉え、「全身のつかみ」という一般的な概念を採用する。 そこで本研究では,全身の3次元形状を含むGRAB(GRasping Actions with Bodies)と呼ばれる新しいデータセットを収集し,形状や大きさの異なる51の日常的な物体と相互作用する10人の被験者の列を合成する。 MoCapのマーカーが与えられたら、顔と手、そして3Dオブジェクトのポーズを含む、完全な3Dボディの形状とポーズを合わせます。 これにより、時間とともに詳細な3dメッシュが提供され、そこから物体と物体の接触を計算します。 これは、人間がオブジェクトをつかみ、操作する方法、全身がどのように関与し、どのように相互作用がタスクによって異なるかを理解するために、既存のデータセットをはるかに超えています。 我々は条件付き生成ネットワークであるGrabNetをトレーニングし、未知の3Dオブジェクト形状の3Dハンドグリップを予測する。 データセットとコードは、https://grab.is.tue.mpg.deで研究目的に利用できる。

Training computers to understand, model, and synthesize human grasping requires a rich dataset containing complex 3D object shapes, detailed contact information, hand pose and shape, and the 3D body motion over time. While "grasping" is commonly thought of as a single hand stably lifting an object, we capture the motion of the entire body and adopt the generalized notion of "whole-body grasps". Thus, we collect a new dataset, called GRAB (GRasping Actions with Bodies), of whole-body grasps, containing full 3D shape and pose sequences of 10 subjects interacting with 51 everyday objects of varying shape and size. Given MoCap markers, we fit the full 3D body shape and pose, including the articulated face and hands, as well as the 3D object pose. This gives detailed 3D meshes over time, from which we compute contact between the body and object. This is a unique dataset, that goes well beyond existing ones for modeling and understanding how humans grasp and manipulate objects, how their full body is involved, and how interaction varies with the task. We illustrate the practical value of GRAB with an example application; we train GrabNet, a conditional generative network, to predict 3D hand grasps for unseen 3D object shapes. The dataset and code are available for research purposes at https://grab.is.tue.mpg.de.
翻訳日:2022-10-25 04:10:51 公開日:2020-08-25
# データ効率な変化検出のためのリモートセンシングにおける深層能動学習

Deep Active Learning in Remote Sensing for data efficient Change Detection ( http://arxiv.org/abs/2008.11201v1 )

ライセンス: Link先を確認
V\'it R\r{u}\v{z}i\v{c}ka, Stefano D'Aronco, Jan Dirk Wegner, Konrad Schindler(参考訳) 変化検出とマップ更新のための深層ニューラルネットワークモデルの文脈におけるアクティブラーニングについて検討する。 アクティブな学習は、局所的な表面の変化を検出することを含む、多くのリモートセンシングタスクにとって自然な選択である。 アクティブな学習環境では、最小限のトレーニング例から始まり、ユーザによって注釈付けされトレーニングセットに追加される情報的サンプルを段階的に選択する。 したがって、アクティブラーニングシステムのコアコンポーネントは、モデル不確実性を推定し、不確実で情報的なサンプルを選択するメカニズムである。 本研究では,明示的あるいは暗黙的なモデルアンサンブル間の分散やエントロピーに基づいて,深層ネットワークを扱う際の不確かさを捉え,定量化するための異なるメカニズムについて検討する。 アクティブ・ラーニングは、高い情報的サンプルを見つけ、自動的にトレーニング分布のバランスを保ち、大規模な事前アノテーション付きトレーニングセットで教師されるモデルと同じ性能に到達し、$\approx$99%のアノテートサンプルを減らした。

We investigate active learning in the context of deep neural network models for change detection and map updating. Active learning is a natural choice for a number of remote sensing tasks, including the detection of local surface changes: changes are on the one hand rare and on the other hand their appearance is varied and diffuse, making it hard to collect a representative training set in advance. In the active learning setting, one starts from a minimal set of training examples and progressively chooses informative samples that are annotated by a user and added to the training set. Hence, a core component of an active learning system is a mechanism to estimate model uncertainty, which is then used to pick uncertain, informative samples. We study different mechanisms to capture and quantify this uncertainty when working with deep networks, based on the variance or entropy across explicit or implicit model ensembles. We show that active learning successfully finds highly informative samples and automatically balances the training distribution, and reaches the same performance as a model supervised with a large, pre-annotated training set, with $\approx$99% fewer annotated samples.
翻訳日:2022-10-25 04:10:27 公開日:2020-08-25
# コンピュータビジョン研究のためのツールとしてのhololens 2研究モード

HoloLens 2 Research Mode as a Tool for Computer Vision Research ( http://arxiv.org/abs/2008.11239v1 )

ライセンス: Link先を確認
Dorin Ungureanu, Federica Bogo, Silvano Galliani, Pooja Sama, Xin Duan, Casey Meekhof, Jan St\"uhmer, Thomas J. Cashman, Bugra Tekin, Johannes L. Sch\"onberger, Pawel Olszta, Marc Pollefeys(参考訳) Microsoft HoloLens 2のような混合現実ヘッドセットは、統合コンピューティング機能を備えた強力なセンシングデバイスであり、コンピュータビジョン研究の理想的なプラットフォームとなっている。 本技術報告では,HoloLens 2 Research Mode,API,および生のセンサストリームへのアクセスを可能にする一連のツールを紹介する。 本稿では,このAPIの概要と,センサデータ処理に基づく複合現実感アプリケーションの構築方法について解説する。 また、研究モードセンサデータとhololens 2.0で提供される目と手の動きを追跡する機能を組み合わせる方法も示す。 研究モードapiとオープンソースのツールセットをリリースすることにより、コンピュータビジョンの分野におけるさらなる研究とロボティクスを促進し、研究コミュニティからの貢献を促進することを目指している。

Mixed reality headsets, such as the Microsoft HoloLens 2, are powerful sensing devices with integrated compute capabilities, which makes it an ideal platform for computer vision research. In this technical report, we present HoloLens 2 Research Mode, an API and a set of tools enabling access to the raw sensor streams. We provide an overview of the API and explain how it can be used to build mixed reality applications based on processing sensor data. We also show how to combine the Research Mode sensor data with the built-in eye and hand tracking capabilities provided by HoloLens 2. By releasing the Research Mode API and a set of open-source tools, we aim to foster further research in the fields of computer vision as well as robotics and encourage contributions from the research community.
翻訳日:2022-10-25 04:10:06 公開日:2020-08-25
# 変数認識ネットワークを用いた時間的行動定位

Temporal Action Localization with Variance-Aware Networks ( http://arxiv.org/abs/2008.11254v1 )

ライセンス: Link先を確認
Ting-Ting Xie, Christos Tzelepis, Ioannis Patras(参考訳) この研究は、変数認識ネットワーク(VAN)、すなわち、入力および/または回帰タスクの出力に2次統計を使用するDNNによる時間的行動ローカライゼーションの問題に対処する。 まず,入力の2次統計量を示すネットワーク(VANp)を提案する。つまり,各サンプルの平均値と分散値を持ち,ネットワーク全体の平均値と分散値を伝搬し,2次統計量で出力を出力する。 このフレームワークでは、入力と出力の両方をガウス型と解釈できる。 そのため、よく使われるnn層をまたいで伝播する微分可能な解析解(あるいは合理的近似)を導出する。 ネットワークをトレーニングするために、予測されたガウスとガウスの接地行動境界付近でのKL偏差に基づいて微分可能な損失を定義し、標準バックプロパゲーションを使用する。 重要なことは、VANpの分散伝播には追加のパラメータは不要であり、テスト中は追加の計算も不要である。 アクションローカライズでは、入力の手段と分散はプール操作で計算され、通常は固定次元のベクトルに任意に長いビデオをもたらすために使用される。 第二に,重回帰ネットワークの第1層(主観的,最後の)層を,平均と分散の両方の入力(主観的,出力内で予測)を取り込むために追加パラメータで補強する2つの代替定式化を提案する。 その結果,第2次統計の組込みはベースラインネットワーク上で改善し,vanpは追加パラメータを伴わずにほぼすべての2段階ネットワークの精度を上回っていることがわかった。

This work addresses the problem of temporal action localization with Variance-Aware Networks (VAN), i.e., DNNs that use second-order statistics in the input and/or the output of regression tasks. We first propose a network (VANp) that when presented with the second-order statistics of the input, i.e., each sample has a mean and a variance, it propagates the mean and the variance throughout the network to deliver outputs with second order statistics. In this framework, both the input and the output could be interpreted as Gaussians. To do so, we derive differentiable analytic solutions, or reasonable approximations, to propagate across commonly used NN layers. To train the network, we define a differentiable loss based on the KL-divergence between the predicted Gaussian and a Gaussian around the ground truth action borders, and use standard back-propagation. Importantly, the variances propagation in VANp does not require any additional parameters, and during testing, does not require any additional computations either. In action localization, the means and the variances of the input are computed at pooling operations, that are typically used to bring arbitrarily long videos to a vector with fixed dimensions. Second, we propose two alternative formulations that augment the first (respectively, the last) layer of a regression network with additional parameters so as to take in the input (respectively, predict in the output) both means and variances. Results in the action localization problem show that the incorporation of second order statistics improves over the baseline network, and that VANp surpasses the accuracy of virtually all other two-stage networks without involving any additional parameters.
翻訳日:2022-10-25 04:09:44 公開日:2020-08-25
# dynamic future net: 多様な人間の動き生成

Dynamic Future Net: Diversified Human Motion Generation ( http://arxiv.org/abs/2009.05109v1 )

ライセンス: Link先を確認
Wenheng Chen, He Wang, Yi Yuan, Tianjia Shao, Kun Zhou(参考訳) 人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。 既存のデータを最大化して新しいデータを合成する必要がある特殊な機器や手動姿勢を必要とするため、高品質な骨格運動の獲得は困難である。 しかし、人間の運動力学の内在的な運動確率性により、短期的・長期的に現れる課題である。 短期的には、2つのフレームの間に強いランダム性があり、例えば、1つのフレームに複数の可能なフレームが続き、異なる動きスタイルに繋がる。 本稿では,時間的確率性において非自明なモデリング能力を持つ生成モデルを構築し,上記の動き確率性に着目した新しい深層学習モデルであるdynamic future netを提案する。 限られた量のデータがあれば、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方で視覚的に拘束できる。 我々は,このモデルを幅広い動作で評価し,最先端の手法と比較した。 質的かつ定量的な結果から,本手法のロバスト性,汎用性,高品質性が得られた。

Human motion modelling is crucial in many areas such as computer graphics, vision and virtual reality. Acquiring high-quality skeletal motions is difficult due to the need for specialized equipment and laborious manual post-posting, which necessitates maximizing the use of existing data to synthesize new data. However, it is a challenge due to the intrinsic motion stochasticity of human motion dynamics, manifested in the short and long terms. In the short term, there is strong randomness within a couple frames, e.g. one frame followed by multiple possible frames leading to different motion styles; while in the long term, there are non-deterministic action transitions. In this paper, we present Dynamic Future Net, a new deep learning model where we explicitly focuses on the aforementioned motion stochasticity by constructing a generative model with non-trivial modelling capacity in temporal stochasticity. Given limited amounts of data, our model can generate a large number of high-quality motions with arbitrary duration, and visually-convincing variations in both space and time. We evaluate our model on a wide range of motions and compare it with the state-of-the-art methods. Both qualitative and quantitative results show the superiority of our method, for its robustness, versatility and high-quality.
翻訳日:2022-10-25 04:08:47 公開日:2020-08-25
# 文書画像におけるグラフィカル物体検出

Graphical Object Detection in Document Images ( http://arxiv.org/abs/2008.10843v1 )

ライセンス: Link先を確認
Ranajit Saha and Ajoy Mondal and C. V. Jawahar(参考訳) 図形要素:特に表や図形は、文書に含まれる最も価値のある情報の視覚的な要約を含む。 したがって、文書画像中のそのようなグラフィカルオブジェクトのローカライズは、そのようなグラフィカルオブジェクトや文書画像の内容を理解するための最初のステップである。 本稿では,ドキュメントイメージ内のグラフィカルオブジェクトをローカライズするための,エンドツーエンドのトレーニング可能なディープラーニングフレームワークであるgraphical object detection(god)を提案する。 私たちのフレームワークはデータ駆動で、ドキュメントイメージ内のグラフィカルオブジェクトを見つけるのにヒューリスティックやメタデータは必要ありません。 GODは、文書画像におけるグラフィカルオブジェクト検出タスクのためのラベル付きトレーニング画像の不足に対応するために、転送学習とドメイン適応の概念を探求する。 ICDAR-2013, ICDAR-POD2017, UNLV など, 各種公開ベンチマークデータセットの性能解析を行った結果, 現状技術と比較して有望な結果が得られた。

Graphical elements: particularly tables and figures contain a visual summary of the most valuable information contained in a document. Therefore, localization of such graphical objects in the document images is the initial step to understand the content of such graphical objects or document images. In this paper, we present a novel end-to-end trainable deep learning based framework to localize graphical objects in the document images called as Graphical Object Detection (GOD). Our framework is data-driven and does not require any heuristics or meta-data to locate graphical objects in the document images. The GOD explores the concept of transfer learning and domain adaptation to handle scarcity of labeled training images for graphical object detection task in the document images. Performance analysis carried out on the various public benchmark data sets: ICDAR-2013, ICDAR-POD2017,and UNLV shows that our model yields promising results as compared to state-of-the-art techniques.
翻訳日:2022-10-25 04:02:31 公開日:2020-08-25
# 自己教師付きセマンティクスマッチングのための信頼度対応逆学習

Confidence-aware Adversarial Learning for Self-supervised Semantic Matching ( http://arxiv.org/abs/2008.10902v1 )

ライセンス: Link先を確認
Shuaiyi Huang, Qiuyue Wang, Xuming He(参考訳) 本稿では,学習した深い特徴であっても,あいまいさの解決が難しい意味マッチングの課題に対処することを目的とする。 予測の信頼性を考慮してこの問題に対処し、部分的一致誤差を補正する新たな改善戦略を開発する。 具体的には,このアプローチの2つの重要なアイデアをインスタンス化する信頼度対応意味マッチングネットワーク(camnet)を提案する。 まず,自己教師付き学習によるマッチング予測のための密接な信頼度マップを推定する。 第2に,推定された信頼度に基づいて,画像平面上の他の場所への信頼性の高いマッチングを伝搬することにより,初期予測を洗練する。 さらに, 意味的アライメント損失と信頼度損失, 意味的対応の質を測定する敵対的損失を統合した, 新たなハイブリッドロスを開発した。 我々は,改良中の信頼を利用してセマンティックマッチングの精度を向上し,マッチングネットワーク全体のエンドツーエンドの自己教師付き対向学習手順を開発する。 提案手法を2つの公開ベンチマークで評価し,先行技術よりも高い性能を達成した。 ソースコードはhttps://github.com/shuaiyihuang/camnetで公開します。

In this paper, we aim to address the challenging task of semantic matching where matching ambiguity is difficult to resolve even with learned deep features. We tackle this problem by taking into account the confidence in predictions and develop a novel refinement strategy to correct partial matching errors. Specifically, we introduce a Confidence-Aware Semantic Matching Network (CAMNet) which instantiates two key ideas of our approach. First, we propose to estimate a dense confidence map for a matching prediction through self-supervised learning. Second, based on the estimated confidence, we refine initial predictions by propagating reliable matching to the rest of locations on the image plane. In addition, we develop a new hybrid loss in which we integrate a semantic alignment loss with a confidence loss, and an adversarial loss that measures the quality of semantic correspondence. We are the first that exploit confidence during refinement to improve semantic matching accuracy and develop an end-to-end self-supervised adversarial learning procedure for the entire matching network. We evaluate our method on two public benchmarks, on which we achieve top performance over the prior state of the art. We will release our source code at https://github.com/ShuaiyiHuang/CAMNet.
翻訳日:2022-10-25 04:01:58 公開日:2020-08-25
# 境界を考える:ランドマーク熱マップ回帰のための多レベル境界情報を利用する

Think about boundary: Fusing multi-level boundary information for landmark heatmap regression ( http://arxiv.org/abs/2008.10924v1 )

ライセンス: Link先を確認
Jinheng Xie, Jun Wan, Linlin Shen, Zhihui Lai(参考訳) 現在の顔アライメントアルゴリズムは、顔のランドマークの位置を予測するのにかなり優れたパフォーマンスを得たが、深刻な閉塞と大きなポーズのバリエーションを持つ顔には大きな課題が残っている。 逆に、これらのシーンでは、顔の境界のセマンティックな位置が予約され、推定されることが多い。 そこで本稿では,顔の境界とランドマークの関係を探索し,境界を意識したランドマーク予測を行うための2段階のアプローチについて検討する。 SCBEモジュールでは,高品質な顔境界熱マップ作成を支援するため,ステム層を改良し,中間的な監視を行う。 SCBEモジュールから継承された境界認識機能は、境界からランドマークヒートマップへの変換をより良くモデル化するために、マルチスケールの融合フレームワークでBALTモジュールに統合される。 実験結果から,本手法が文献の最先端手法より優れていることが示された。

Although current face alignment algorithms have obtained pretty good performances at predicting the location of facial landmarks, huge challenges remain for faces with severe occlusion and large pose variations, etc. On the contrary, semantic location of facial boundary is more likely to be reserved and estimated on these scenes. Therefore, we study a two-stage but end-to-end approach for exploring the relationship between the facial boundary and landmarks to get boundary-aware landmark predictions, which consists of two modules: the self-calibrated boundary estimation (SCBE) module and the boundary-aware landmark transform (BALT) module. In the SCBE module, we modify the stem layers and employ intermediate supervision to help generate high-quality facial boundary heatmaps. Boundary-aware features inherited from the SCBE module are integrated into the BALT module in a multi-scale fusion framework to better model the transformation from boundary to landmark heatmap. Experimental results conducted on the challenging benchmark datasets demonstrate that our approach outperforms state-of-the-art methods in the literature.
翻訳日:2022-10-25 04:01:21 公開日:2020-08-25
# 無線信号を用いた家庭内日常キャプション

In-Home Daily-Life Captioning Using Radio Signals ( http://arxiv.org/abs/2008.10966v1 )

ライセンス: Link先を確認
Lijie Fan, Tianhong Li, Yuan Yuan, Dina Katabi(参考訳) 本論文は, 日常生活を字幕化し, 家庭内における活動や物との相互作用をテキストで記述することを目的とする。 この問題に対処するには、従来のビデオキャプション以外の新しい方法が必要になる。 本稿では,ホームのフロアマップを用いて,プライバシ保護無線信号を解析し,日常生活をキャプションする新しいモデルRF-Diaryを紹介する。 RF-Diaryは、壁や閉塞や暗い環境で人々の生活を観察し、キャプションすることができる。 RF-Diaryを設計する際には,無線信号を用いて人の3次元ダイナミクスを捉え,フロアマップを用いてオブジェクトとの相互作用を学習する。 また、既存のビデオベースのキャプションデータセットを活用して、ラジオベースのキャプションモデルのパフォーマンスを向上させるマルチモーダル機能アライメントトレーニングスキームも使用しています。 RF-Diaryは可視光条件下で正確な字幕を生成する。 また、ビデオベースのキャプションアプローチでは意味のあるキャプションを生成できない暗黒または隠された設定でも、優れたパフォーマンスを維持している。 詳細については、プロジェクトのWebページを参照してください。

This paper aims to caption daily life --i.e., to create a textual description of people's activities and interactions with objects in their homes. Addressing this problem requires novel methods beyond traditional video captioning, as most people would have privacy concerns about deploying cameras throughout their homes. We introduce RF-Diary, a new model for captioning daily life by analyzing the privacy-preserving radio signal in the home with the home's floormap. RF-Diary can further observe and caption people's life through walls and occlusions and in dark settings. In designing RF-Diary, we exploit the ability of radio signals to capture people's 3D dynamics, and use the floormap to help the model learn people's interactions with objects. We also use a multi-modal feature alignment training scheme that leverages existing video-based captioning datasets to improve the performance of our radio-based captioning model. Extensive experimental results demonstrate that RF-Diary generates accurate captions under visible conditions. It also sustains its good performance in dark or occluded settings, where video-based captioning approaches fail to generate meaningful captions. For more information, please visit our project webpage: http://rf-diary.csail.mit.edu
翻訳日:2022-10-25 04:01:02 公開日:2020-08-25
# 不均衡データセットに対するアクティブクラスインクリメンタル学習

Active Class Incremental Learning for Imbalanced Datasets ( http://arxiv.org/abs/2008.10968v1 )

ライセンス: Link先を確認
Eden Belouadah, Adrian Popescu, Umang Aggarwal, L\'eo Saci(参考訳) インクリメンタル学習(il)は、aiシステムがストリームデータに適応できるようにする。 既存のアルゴリズムの多くは,段階的なシナリオの現実性を低下させる2つの強い仮説を立てている。(1)新しいデータはストリーミング時に容易に注釈付けされ,(2)テストはバランスの取れたデータセットで実行され,一方、ほとんどの実生活データセットは実際には不均衡である。 これらの仮説は破棄され、結果として生じる課題は、アクティブな学習と非バランスな学習の組み合わせに対処される。 不均衡に対処し、IL制約に適合するサンプル取得関数を導入する。 また,ilを,破滅的な忘れ方に対する知識蒸留の確立した利用ではなく,不均衡な学習問題と考える。 ここでは、クラス予測スケーリングを通じて推論中の不均衡効果を減少させる。 評価は4つのビジュアルデータセットで行われ、既存のデータと提案されているサンプル取得関数を比較する。 その結果,提案したコントリビューションは肯定的な効果を示し,アクティブなIL性能と標準IL性能のギャップを減らした。

Incremental Learning (IL) allows AI systems to adapt to streamed data. Most existing algorithms make two strong hypotheses which reduce the realism of the incremental scenario: (1) new data are assumed to be readily annotated when streamed and (2) tests are run with balanced datasets while most real-life datasets are actually imbalanced. These hypotheses are discarded and the resulting challenges are tackled with a combination of active and imbalanced learning. We introduce sample acquisition functions which tackle imbalance and are compatible with IL constraints. We also consider IL as an imbalanced learning problem instead of the established usage of knowledge distillation against catastrophic forgetting. Here, imbalance effects are reduced during inference through class prediction scaling. Evaluation is done with four visual datasets and compares existing and proposed sample acquisition functions. Results indicate that the proposed contributions have a positive effect and reduce the gap between active and standard IL performance.
翻訳日:2022-10-25 04:00:41 公開日:2020-08-25
# 健全物体検出のためのラベルデカップリングフレームワーク

Label Decoupling Framework for Salient Object Detection ( http://arxiv.org/abs/2008.11048v1 )

ライセンス: Link先を確認
Jun Wei, Shuhui Wang, Zhe Wu, Chi Su, Qingming Huang, Qi Tian(参考訳) 近年,完全畳み込みネットワーク(FCN)から多段階特徴を集約し,エッジ情報を補助的監視として導入する手法が注目されている。 画期的な進歩は達成されているが、エッジのピクセルがエッジに近いほど、エッジのピクセルは非常に不均衡な分布であるため、予測が難しくなるのが観察されている。 この問題に対処するために,ラベルデカップリング(LD)プロシージャと機能相互作用ネットワーク(FIN)で構成されるラベルデカップリングフレームワーク(LDF)を提案する。 ldは、元の塩分マップをボディマップとディテールマップに明示的に分解し、ボディマップはオブジェクトの中心領域に集中し、ディテールマップはエッジ周辺の領域に集中する。 細部マップは、従来のエッジ監視よりもピクセルが多いので、うまく機能する。 鮮度マップと異なり、ボディマップはエッジピクセルを捨て、中心領域にのみ注意を払う。 これはトレーニング中のエッジピクセルからの邪魔をうまく回避する。 したがって, ボディマップとディテールマップをそれぞれ扱うために, フィンに2つの分枝を用いる。 特徴相互作用 (FI) は2つの補足枝を融合させて唾液マップを予測し、2つの枝を再び精製するために使用される。 この反復的な洗練は、より良い表現とより正確な正当性マップを学ぶのに役立つ。 6つのベンチマークデータセットの総合的な実験により、LDFは様々な評価指標における最先端のアプローチよりも優れていることが示された。

To get more accurate saliency maps, recent methods mainly focus on aggregating multi-level features from fully convolutional network (FCN) and introducing edge information as auxiliary supervision. Though remarkable progress has been achieved, we observe that the closer the pixel is to the edge, the more difficult it is to be predicted, because edge pixels have a very imbalance distribution. To address this problem, we propose a label decoupling framework (LDF) which consists of a label decoupling (LD) procedure and a feature interaction network (FIN). LD explicitly decomposes the original saliency map into body map and detail map, where body map concentrates on center areas of objects and detail map focuses on regions around edges. Detail map works better because it involves much more pixels than traditional edge supervision. Different from saliency map, body map discards edge pixels and only pays attention to center areas. This successfully avoids the distraction from edge pixels during training. Therefore, we employ two branches in FIN to deal with body map and detail map respectively. Feature interaction (FI) is designed to fuse the two complementary branches to predict the saliency map, which is then used to refine the two branches again. This iterative refinement is helpful for learning better representations and more precise saliency maps. Comprehensive experiments on six benchmark datasets demonstrate that LDF outperforms state-of-the-art approaches on different evaluation metrics.
翻訳日:2022-10-25 04:00:25 公開日:2020-08-25
# 半監督インスタンスセグメンテーションのためのマスク誘導サンプル選択

Mask-guided sample selection for Semi-Supervised Instance Segmentation ( http://arxiv.org/abs/2008.11073v1 )

ライセンス: Link先を確認
Miriam Bellver, Amaia Salvador, Jordi Torres, Xavier Giro-i-Nieto(参考訳) イメージセグメンテーションの手法は通常、ピクセルレベルのアノテーションで訓練される。 この制約に対処する最も一般的な解決策は、バウンディングボックスやスクリブルといったより低い形式の監視で訓練された弱い教師付きパイプラインを実装することである。 もうひとつは半教師付き手法で、大量のラベルなしデータと限られた数の強いラベル付きサンプルを利用する。 この第2のセットアップでは、強く注釈付けされるサンプルをランダムに、またはモデル性能を最大化するサンプルを選択するアクティブな学習メカニズムで選択することができる。 本稿では,半教師付きインスタンスセグメンテーションに対してアノテートするサンプルを決定するためのサンプル選択手法を提案する。 提案手法は,まず,ラベルなしのサンプルプールに対する擬似マスクの予測と,マスクの品質を予測するスコアからなる。 このスコアは、グラウンド真理マスクを持つセグメントのインターセクションオーバーユニオン(IoU)の推定値である。 品質スコアからアノテートしたほうがよいサンプルについて検討し,提案手法がランダム選択よりも優れており,半教師付きインスタンスセグメンテーションの性能が向上し,アノテーションの予算が低くなることを示す。

Image segmentation methods are usually trained with pixel-level annotations, which require significant human effort to collect. The most common solution to address this constraint is to implement weakly-supervised pipelines trained with lower forms of supervision, such as bounding boxes or scribbles. Another option are semi-supervised methods, which leverage a large amount of unlabeled data and a limited number of strongly-labeled samples. In this second setup, samples to be strongly-annotated can be selected randomly or with an active learning mechanism that chooses the ones that will maximize the model performance. In this work, we propose a sample selection approach to decide which samples to annotate for semi-supervised instance segmentation. Our method consists in first predicting pseudo-masks for the unlabeled pool of samples, together with a score predicting the quality of the mask. This score is an estimate of the Intersection Over Union (IoU) of the segment with the ground truth mask. We study which samples are better to annotate given the quality score, and show how our approach outperforms a random selection, leading to improved performance for semi-supervised instance segmentation with low annotation budgets.
翻訳日:2022-10-25 03:59:40 公開日:2020-08-25
# 間接機械翻訳が感性分類に及ぼす影響

The Impact of Indirect Machine Translation on Sentiment Classification ( http://arxiv.org/abs/2008.11257v1 )

ライセンス: Link先を確認
Alberto Poncelas, Pintu Lohar, Andy Way, James Hadley(参考訳) 感性分類は、映画レビュー、ツイート、顧客からのフィードバックの分析など、多くの自然言語処理(NLP)アプリケーションにとって不可欠である。 堅牢な感情分類システムを構築するには十分な量のデータが必要である。 しかし、そのようなリソースはすべてのドメインや全ての言語で常に利用できるわけではない。 本研究では,機械翻訳システムを用いて,顧客からのフィードバックを他の言語に翻訳する手法を提案する。 さらに,直接翻訳は必ずしも可能とは限らないため,ピボットmtシステムを用いて翻訳された文に対する自動分類器の性能について検討する。 以上の手法を用いて,提案する感情分類システムの性能を分析し,翻訳文の分類の利点と欠点について考察する。

Sentiment classification has been crucial for many natural language processing (NLP) applications, such as the analysis of movie reviews, tweets, or customer feedback. A sufficiently large amount of data is required to build a robust sentiment classification system. However, such resources are not always available for all domains or for all languages. In this work, we propose employing a machine translation (MT) system to translate customer feedback into another language to investigate in which cases translated sentences can have a positive or negative impact on an automatic sentiment classifier. Furthermore, as performing a direct translation is not always possible, we explore the performance of automatic classifiers on sentences that have been translated using a pivot MT system. We conduct several experiments using the above approaches to analyse the performance of our proposed sentiment classification system and discuss the advantages and drawbacks of classifying translated sentences.
翻訳日:2022-10-25 03:53:25 公開日:2020-08-25
# ポインタジェネレータネットワークを用いた概念抽出

Concept Extraction Using Pointer-Generator Networks ( http://arxiv.org/abs/2008.11295v1 )

ライセンス: Link先を確認
Alexander Shvets and Leo Wanner(参考訳) 概念抽出は多くの下流アプリケーションにとって不可欠である。 しかし、驚くほど単純なシングルトークン/用語のチャンクコンセプタアライメントや、dbpediaspotlightのような辞書検索技術が普及している。 本稿では,双方向lstmとコピー機構を利用したポインタ生成ネットワークの遠隔監視に基づく,汎用的なoov指向抽出モデルを提案する。 このモデルは250万ページものwikipediaページから特別にコンパイルされた大きな注釈付きコーパスで訓練され、通常のページでテストされた。 実験の結果,本モデルは標準技術よりも優れており,DBpedia Spotlight上で使用すると,さらに性能が向上することがわかった。 さらに実験では、モデルが他のデータセットに容易に移植可能であることを示し、同程度に最先端のパフォーマンスを実現している。

Concept extraction is crucial for a number of downstream applications. However, surprisingly enough, straightforward single token/nominal chunk-concept alignment or dictionary lookup techniques such as DBpedia Spotlight still prevail. We propose a generic open-domain OOV-oriented extractive model that is based on distant supervision of a pointer-generator network leveraging bidirectional LSTMs and a copy mechanism. The model has been trained on a large annotated corpus compiled specifically for this task from 250K Wikipedia pages, and tested on regular pages, where the pointers to other pages are considered as ground truth concepts. The outcome of the experiments shows that our model significantly outperforms standard techniques and, when used on top of DBpedia Spotlight, further improves its performance. The experiments furthermore show that the model can be readily ported to other datasets on which it equally achieves a state-of-the-art performance.
翻訳日:2022-10-25 03:52:54 公開日:2020-08-25
# 多周期生産計画問題に対する統合切断・充填不均一プレキャストビーム

Integrated Cutting and Packing Heterogeneous Precast Beams Multiperiod Production Planning Problem ( http://arxiv.org/abs/2008.11303v1 )

ライセンス: Link先を確認
Kennedy Araujo and Tiberius Bonates and Bruno Prata(参考訳) 本稿では,不均質なプレキャストビームの多周期生産計画 (icp-hpbmpp) を統合的切断・充填する手法を提案する。 我々は,ICP-HPBMPPの整数線形計画モデルと,その最適目的関数値の下位境界を提案し,モデルの線形緩和から得られる値よりも最適解値に近いことを実証的に示している。 また,代替法としてicp-hpbmppの遺伝的アルゴリズムアプローチを提案する。 計算実験を議論し、D-最適実験設計を用いた遺伝的アルゴリズムのパラメータ化を提案する。 中規模および大規模問題の最適解を見つけることや、大規模インスタンスに対して実現可能な解を見つけることさえ困難であるが、小規模インスタンスを解決する際の正確なアプローチの優れた性能を観察する。 一方、遺伝的アルゴリズムは、短時間の計算時間で、大規模インスタンスの良質なソリューションを見つけることができる。

We introduce a novel variant of cutting production planning problems named Integrated Cutting and Packing Heterogeneous Precast Beams Multiperiod Production Planning (ICP-HPBMPP). We propose an integer linear programming model for the ICP-HPBMPP, as well as a lower bound for its optimal objective function value, which is empirically shown to be closer to the optimal solution value than the bound obtained from the linear relaxation of the model. We also propose a genetic algorithm approach for the ICP-HPBMPP as an alternative solution method. We discuss computational experiments and propose a parameterization for the genetic algorithm using D-optimal experimental design. We observe good performance of the exact approach when solving small-sized instances, although there are difficulties in finding optimal solutions for medium and large-sized problems, or even in finding feasible solutions for large instances. On the other hand, the genetic algorithm could find good-quality solutions for large-sized instances within short computing times.
翻訳日:2022-10-25 03:52:12 公開日:2020-08-25
# simsにインスパイアされたサンドボックスゲームai用プラットフォームsimsimに「sul sul!

Say "Sul Sul!" to SimSim, A Sims-Inspired Platform for Sandbox Game AI ( http://arxiv.org/abs/2008.11258v1 )

ライセンス: Link先を確認
Megan Charity, Dipika Rajesh, Rachel Ombok, L. B. Soros(参考訳) 本稿では,生命シミュレーションゲーム the sims における環境設計を新たなプラットフォームとして提案する。 このドメインでは、最小の生存可能性基準を含む、シミュレーションエージェントの物理的要求を満たすオブジェクトを家に提供することが目標である。 重要なことに、プレイヤーが利用できる多数のオブジェクト(人間でも自動化でも)は、基礎となる設計問題に対する幅広い解決策を提供する。 simsimと呼ばれる新しいオープンソースシミュレータにおける経験的研究は、実用可能な環境設計を効果的に生成する新奇な進化的アルゴリズムの能力を調査する。

This paper proposes environment design in the life simulation game The Sims as a novel platform and challenge for testing divergent search algorithms. In this domain, which includes a minimal viability criterion, the goal is to furnish a house with objects that satisfy the physical needs of a simulated agent. Importantly, the large number of objects available to the player (whether human or automated) affords a wide variety of solutions to the underlying design problem. Empirical studies in a novel open source simulator called SimSim investigate the ability of novelty-based evolutionary algorithms to effectively generate viable environment designs.
翻訳日:2022-10-25 03:51:56 公開日:2020-08-25
# 部分領域適応のための学習対象領域特定分類器

Learning Target Domain Specific Classifier for Partial Domain Adaptation ( http://arxiv.org/abs/2008.10785v1 )

ライセンス: Link先を確認
Chuan-Xian Ren, Pengfei Ge, Peiyi Yang, Shuicheng Yan(参考訳) unsupervised domain adaptation~(uda)の目的は、ラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送する際の分布の不一致を減らすことである。 従来のUDA手法では、ソースとターゲットドメインは同一のラベル空間を共有しており、実際にはターゲットドメインのラベル情報が非依存であるため、非現実的である。 本稿では、より現実的な UDA シナリオである部分的ドメイン適応(PDA)に焦点を当て、ターゲットラベル空間をソースラベル空間に仮定する。 PDAのシナリオでは、ターゲットドメインに存在しないソースのアウトレイラは、ターゲットドメイン(技術的に負の転送と呼ばれる)と誤って一致し、UDAメソッドのパフォーマンスが低下する。 本稿では,TSCDA(Target Domain Specific Classifier Learning-based Domain Adaptation)法を提案する。 TSCDAは、特徴分布を部分的に整合させ、負の移動を緩和するために、軟弱な最大誤差基準を示す。 また、擬似ラベルと複数の補助分類器を持つ対象ドメインのターゲット固有分類器を学習し、さらに分類器シフトに対処する。 Peers Assisted Learningという名前のモジュールは、複数のターゲット固有の分類器間の予測差を最小化するために使用され、それによって分類器はターゲットドメインに対してより差別的になる。 3つのpdaベンチマークデータセットで行った広範囲な実験により、tscdaはoffice-31とoffice-homeでそれぞれ$4\%$と$5.6\%$という大きなマージンで、他の最先端のメソッドよりも優れていた。

Unsupervised domain adaptation~(UDA) aims at reducing the distribution discrepancy when transferring knowledge from a labeled source domain to an unlabeled target domain. Previous UDA methods assume that the source and target domains share an identical label space, which is unrealistic in practice since the label information of the target domain is agnostic. This paper focuses on a more realistic UDA scenario, i.e. partial domain adaptation (PDA), where the target label space is subsumed to the source label space. In the PDA scenario, the source outliers that are absent in the target domain may be wrongly matched to the target domain (technically named negative transfer), leading to performance degradation of UDA methods. This paper proposes a novel Target Domain Specific Classifier Learning-based Domain Adaptation (TSCDA) method. TSCDA presents a soft-weighed maximum mean discrepancy criterion to partially align feature distributions and alleviate negative transfer. Also, it learns a target-specific classifier for the target domain with pseudo-labels and multiple auxiliary classifiers, to further address classifier shift. A module named Peers Assisted Learning is used to minimize the prediction difference between multiple target-specific classifiers, which makes the classifiers more discriminant for the target domain. Extensive experiments conducted on three PDA benchmark datasets show that TSCDA outperforms other state-of-the-art methods with a large margin, e.g. $4\%$ and $5.6\%$ averagely on Office-31 and Office-Home, respectively.
翻訳日:2022-10-25 03:51:45 公開日:2020-08-25
# cdec-net: 文書画像におけるテーブル検出のための複合変形型カスケードネットワーク

CDeC-Net: Composite Deformable Cascade Network for Table Detection in Document Images ( http://arxiv.org/abs/2008.10831v1 )

ライセンス: Link先を確認
Madhav Agarwal and Ajoy Mondal and C. V. Jawahar(参考訳) テーブル、図形、方程式などのページ要素やオブジェクトのローカライズは、ドキュメントイメージから情報を抽出する第一ステップである。 本稿では,文書内に存在するテーブルを検出するための,新しいエンドツーエンドトレーニング可能な深層ネットワーク(CDeC-Net)を提案する。 提案するネットワークは,Msk R-CNNのマルチステージ拡張と,高いIoU閾値で高い検出精度で大規模に変化するテーブルを検出する変形可能な畳み込みを有するデュアルバックボーンからなる。 ICDAR-2013, ICDAR-2017, ICDAR-2019,UNLV, Marmot, PubLayNet, TableBankなど,公開可能なすべてのベンチマークデータセットに対して,CDeC-Netを実験的に評価した。 私たちの解決策には3つの重要な特性があります (i)訓練済みのモデルCDeC-Net{\ddagは、すべての一般的なベンチマークデータセットでよく機能する。 (II)IoUの高閾値を含む複数の性能について報告する。 (iii) ベンチマーク毎の最近の論文の同じプロトコルに従うことにより, 一貫して優れた定量的性能を実証する。 私たちのコードとモデルは、結果の再現性を実現するために公開されます。

Localizing page elements/objects such as tables, figures, equations, etc. is the primary step in extracting information from document images. We propose a novel end-to-end trainable deep network, (CDeC-Net) for detecting tables present in the documents. The proposed network consists of a multistage extension of Mask R-CNN with a dual backbone having deformable convolution for detecting tables varying in scale with high detection accuracy at higher IoU threshold. We empirically evaluate CDeC-Net on all the publicly available benchmark datasets - ICDAR-2013, ICDAR-2017, ICDAR-2019,UNLV, Marmot, PubLayNet, and TableBank - with extensive experiments. Our solution has three important properties: (i) a single trained model CDeC-Net{\ddag} performs well across all the popular benchmark datasets; (ii) we report excellent performances across multiple, including higher, thresholds of IoU; (iii) by following the same protocol of the recent papers for each of the benchmarks, we consistently demonstrate the superior quantitative performance. Our code and models will be publicly released for enabling the reproducibility of the results.
翻訳日:2022-10-25 03:51:14 公開日:2020-08-25
# 奥行き完了のための適応コンテキストアウェアマルチモーダルネットワーク

Adaptive Context-Aware Multi-Modal Network for Depth Completion ( http://arxiv.org/abs/2008.10833v1 )

ライセンス: Link先を確認
Shanshan Zhao, Mingming Gong, Huan Fu, and Dacheng Tao(参考訳) 深度補完は,スパース深度データと対応する単一RGB画像から深度マップを復元することを目的としている。 観察されたピクセルは、観測されていないピクセルの深さを回復するための重要なガイダンスを提供する。 しかし, 深度データの疎大さから, 従来の手法のほとんどを応用した標準畳み込み演算は, 観測された文脈を深度値でモデル化するには有効ではない。 この問題に対処するために,観測された空間コンテキストをキャプチャするグラフ伝搬法を提案する。 具体的には、まず観測された画素から異なるスケールで複数のグラフを構築する。 グラフ構造はサンプルによって異なるため,伝播に注意機構を適用し,ネットワークが文脈情報を適応的にモデル化することを奨励する。 さらに,入力データのミュータリモダリティを考慮し,それぞれ2つのモダリティのグラフ伝搬を活用し,マルチモダリティ表現を抽出する。 最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。 提案手法は,あるモダリティに対する元の情報を保存し,適応ゲーティング重みを学習することで,他方から補完的な情報を吸収する。 本モデルはacmnet(adaptive context-aware multi-modal network)と名付けられ,2つのベンチマーク(kitti,nyu-v2)において最先端の性能を実現し,同時にパラメータも最新のモデルよりも少ない。 私たちのコードは、 \url{https://github.com/sshan-zhao/acmnet} で利用可能です。

Depth completion aims to recover a dense depth map from the sparse depth data and the corresponding single RGB image. The observed pixels provide the significant guidance for the recovery of the unobserved pixels' depth. However, due to the sparsity of the depth data, the standard convolution operation, exploited by most of existing methods, is not effective to model the observed contexts with depth values. To address this issue, we propose to adopt the graph propagation to capture the observed spatial contexts. Specifically, we first construct multiple graphs at different scales from observed pixels. Since the graph structure varies from sample to sample, we then apply the attention mechanism on the propagation, which encourages the network to model the contextual information adaptively. Furthermore, considering the mutli-modality of input data, we exploit the graph propagation on the two modalities respectively to extract multi-modal representations. Finally, we introduce the symmetric gated fusion strategy to exploit the extracted multi-modal features effectively. The proposed strategy preserves the original information for one modality and also absorbs complementary information from the other through learning the adaptive gating weights. Our model, named Adaptive Context-Aware Multi-Modal Network (ACMNet), achieves the state-of-the-art performance on two benchmarks, {\it i.e.}, KITTI and NYU-v2, and at the same time has fewer parameters than latest models. Our code is available at: \url{https://github.com/sshan-zhao/ACMNet}.
翻訳日:2022-10-25 03:50:54 公開日:2020-08-25
# ノイズダウンリンクを用いた連合学習の収束

Convergence of Federated Learning over a Noisy Downlink ( http://arxiv.org/abs/2008.11141v1 )

ライセンス: Link先を確認
Mohammad Mohammadi Amiri, Deniz Gunduz, Sanjeev R. Kulkarni, H. Vincent Poor(参考訳) 本研究では,電力制限された無線デバイスがローカルデータセットを利用して,遠隔パラメータサーバ(PS)の助けを借りてグローバルモデルを協調訓練するフェデレートラーニング(FL)について検討する。 psは、グローバルモデルにアクセスし、それをローカルトレーニング用のデバイスと共有し、デバイスは、グローバルモデルを更新するために、psにローカルアップデートの結果を返す。 このフレームワークは、PSからデバイスへのダウンリンク送信と、デバイスからPSへのアップリンク送信を必要とする。 本研究の目的は,ダウンリンクとアップリンクの両方における帯域制限された共有無線媒体が,ダウンリンクに着目したflの性能に与える影響を検討することである。 この目的のために、ダウンリンクチャンネルとアップリンクチャンネルは、それぞれ、帯域幅が限られているフェイディングブロードキャストと複数のアクセスチャネルとしてモデル化される。 ダウンリンク伝送では,まず,全デバイスがデコードできるように,psで量子化技術を用いてグローバルモデル更新を共通レートでブロードキャストするディジタル手法を導入する。 次に,全球モデルが非符号化方式でpsによって放送されるアナログダウンリンク伝送を提案する。 両方の場合において、アップリンク上のアナログ伝送を考慮する。 さらに、アップリンク伝送がエラーのないことを前提として、提案したアナログ手法の収束挙動を解析する。 数値実験により、アナログダウンリンク方式はPSの送信電力が著しく低いにもかかわらず、デジタル方式よりも大幅に改善されていることが示された。 実験結果は収束結果を相関させ、データ分布のバイアスがより大きい場合や、アナログダウンリンクアプローチにおいて、デバイスがグローバルモデルをよりよく見積もる場合には、より少ない局所的なイテレーションを使用する必要があることを示す。

We study federated learning (FL), where power-limited wireless devices utilize their local datasets to collaboratively train a global model with the help of a remote parameter server (PS). The PS has access to the global model and shares it with the devices for local training, and the devices return the result of their local updates to the PS to update the global model. This framework requires downlink transmission from the PS to the devices and uplink transmission from the devices to the PS. The goal of this study is to investigate the impact of the bandwidth-limited shared wireless medium in both the downlink and uplink on the performance of FL with a focus on the downlink. To this end, the downlink and uplink channels are modeled as fading broadcast and multiple access channels, respectively, both with limited bandwidth. For downlink transmission, we first introduce a digital approach, where a quantization technique is employed at the PS to broadcast the global model update at a common rate such that all the devices can decode it. Next, we propose analog downlink transmission, where the global model is broadcast by the PS in an uncoded manner. We consider analog transmission over the uplink in both cases. We further analyze the convergence behavior of the proposed analog approach assuming that the uplink transmission is error-free. Numerical experiments show that the analog downlink approach provides significant improvement over the digital one, despite a significantly lower transmit power at the PS. The experimental results corroborate the convergence results, and show that a smaller number of local iterations should be used when the data distribution is more biased, and also when the devices have a better estimate of the global model in the analog downlink approach.
翻訳日:2022-10-25 03:44:29 公開日:2020-08-25
# 文脈化された道徳的推論

Contextualized moral inference ( http://arxiv.org/abs/2008.10762v1 )

ライセンス: Link先を確認
Jing Yi Xie, Graeme Hirst, Yang Xu(参考訳) 知的システムにおける道徳意識の発達は、過去数十年間、哲学的調査の話題から、人工知能における批判的かつ実用的な問題へとシフトしてきた。 しかし、日常的な道徳的状況の自動推論は未解決の問題である。 モラルヴィグネットに対する人々の直感的判断を予測するテキストベースアプローチを提案する。 我々の方法論は、コンテキスト化された言語モデルと道徳的感情のテキスト推論における最近の研究に基づいている。 文脈化表現は、人間のモラル判断を推測する上で、単語埋め込みや感情感情に基づく代替表現よりも大きなアドバンテージを示し、モラル心理学の3つの独立したデータセットで評価され、反映される。 我々は,テキストの自動的モラル推論へのアプローチの約束と限界について論じる。

Developing moral awareness in intelligent systems has shifted from a topic of philosophical inquiry to a critical and practical issue in artificial intelligence over the past decades. However, automated inference of everyday moral situations remains an under-explored problem. We present a text-based approach that predicts people's intuitive judgment of moral vignettes. Our methodology builds on recent work in contextualized language models and textual inference of moral sentiment. We show that a contextualized representation offers a substantial advantage over alternative representations based on word embeddings and emotion sentiment in inferring human moral judgment, evaluated and reflected in three independent datasets from moral psychology. We discuss the promise and limitations of our approach toward automated textual moral reasoning.
翻訳日:2022-10-25 03:44:00 公開日:2020-08-25
# 中国のバイオメディカルテキストマイニングにおける概念表現学習

Conceptualized Representation Learning for Chinese Biomedical Text Mining ( http://arxiv.org/abs/2008.10813v1 )

ライセンス: Link先を確認
Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua(参考訳) バイオメディカル・テキスト・マイニングは, バイオメディカル・ドキュメントやWebデータの増加に伴い, ますます重要になりつつある。 近年,BERT などの単語表現モデルが研究者の間で人気を集めている。 しかし, 一般用および生物用コーパスの単語分布が異なるため, バイオメディカルテキストを含むデータセット上での性能評価は困難である。 さらに、医学領域には長い尾の概念や用語があり、言語モデルを通して学べるのは難しい。 中国の生物医学文献では、複雑な構造と句の組み合わせが多様であるため、より困難である。 本稿では,最近導入された事前学習型言語モデルBERTを中国の生物医学コーパスに適用し,新しい概念化表現学習手法を提案する。 また、新しい中国語バイオメディカル言語理解評価ベンチマーク(\textbf{ ChineseBLUE})もリリースした。 我々は,中国の事前学習モデルであるBERT,BERT-wwm,RoBERTaの有効性について検討した。 ベンチマーク実験の結果,我々のアプローチは大きな利益をもたらす可能性が示唆された。 トレーニング済みのモデルをGitHubでリリースしています。

Biomedical text mining is becoming increasingly important as the number of biomedical documents and web data rapidly grows. Recently, word representation models such as BERT has gained popularity among researchers. However, it is difficult to estimate their performance on datasets containing biomedical texts as the word distributions of general and biomedical corpora are quite different. Moreover, the medical domain has long-tail concepts and terminologies that are difficult to be learned via language models. For the Chinese biomedical text, it is more difficult due to its complex structure and the variety of phrase combinations. In this paper, we investigate how the recently introduced pre-trained language model BERT can be adapted for Chinese biomedical corpora and propose a novel conceptualized representation learning approach. We also release a new Chinese Biomedical Language Understanding Evaluation benchmark (\textbf{ChineseBLUE}). We examine the effectiveness of Chinese pre-trained models: BERT, BERT-wwm, RoBERTa, and our approach. Experimental results on the benchmark show that our approach could bring significant gain. We release the pre-trained model on GitHub: https://github.com/alibaba-research/ChineseBLUE.
翻訳日:2022-10-25 03:43:49 公開日:2020-08-25
# 単純教師なし類似度に基づくアスペクト抽出

Simple Unsupervised Similarity-Based Aspect Extraction ( http://arxiv.org/abs/2008.10820v1 )

ライセンス: Link先を確認
Danny Suarez Vargas, Lucas R. C. Pessutto, and Viviane Pereira Moreira(参考訳) 感情分析の文脈では、評価対象エンティティの特定の側面に注目して、より細かい粒度分析を行うことへの関心が高まっている。 これはアスペクトベースの知覚分析(ABSA)の目標であり、基本的にアスペクト抽出と極性検出という2つのタスクを含む。 第1のタスクはレビューテキストで言及されている側面を発見する責任があり、第2のタスクはその側面に対して感情指向(肯定的、否定的、中立的)を割り当てる。 現在、ABSAの最先端技術は、リカレント、畳み込み、アテンションニューラルネットワークなどのディープラーニング手法を適用している。 これらの技術の限界は、多くのトレーニングデータを必要とし、計算コストが高いことである。 本稿では,アスペクト抽出のための単純なアプローチ suaex を提案する。 SUAExは教師なしであり、単語埋め込みの類似性のみに依存している。 3つの異なる領域のデータセットに対する実験結果から、SUAExは最先端の注目に基づくアプローチをわずかに上回る結果が得られることが示されている。

In the context of sentiment analysis, there has been growing interest in performing a finer granularity analysis focusing on the specific aspects of the entities being evaluated. This is the goal of Aspect-Based Sentiment Analysis (ABSA) which basically involves two tasks: aspect extraction and polarity detection. The first task is responsible for discovering the aspects mentioned in the review text and the second task assigns a sentiment orientation (positive, negative, or neutral) to that aspect. Currently, the state-of-the-art in ABSA consists of the application of deep learning methods such as recurrent, convolutional and attention neural networks. The limitation of these techniques is that they require a lot of training data and are computationally expensive. In this paper, we propose a simple approach called SUAEx for aspect extraction. SUAEx is unsupervised and relies solely on the similarity of word embeddings. Experimental results on datasets from three different domains have shown that SUAEx achieves results that can outperform the state-of-the-art attention-based approach at a fraction of the time.
翻訳日:2022-10-25 03:43:35 公開日:2020-08-25
# TabSim:テーブル類似性の正確な推定のためのシームズニューラルネットワーク

TabSim: A Siamese Neural Network for Accurate Estimation of Table Similarity ( http://arxiv.org/abs/2008.10856v1 )

ライセンス: Link先を確認
Maryam Habibi, Johannes Starlinger, Ulf Leser(参考訳) テーブルは構造化された情報を提示するポピュラーで効率的な手段である。 ウェブページを含む様々な種類の文書で広く使われている。 表は情報を二次元行列として表示し、その意味論は構造(行、列)、ヘッダ、キャプション、コンテンツの混合によって伝達される。 最近の研究は、テーブルをテキストへの追加としてだけでなく、テーブルマッチング、テーブル補完、値計算といった問題に対する興味深い結果をもたらす、第一級オブジェクトとして捉え始めている。 これらの問題は、本質的には2つのテーブルの意味的類似性に対する正確な測度に依存する。 本稿では,深層ニューラルネットワークを用いたテーブル類似度スコア計算手法TabSimを提案する。 概念的には、TabSimはテーブルをキャプションの埋め込み、内容、構造に関する学習的な結合として表現する。 この表現に2つのテーブルが与えられると、シアムニューラルネットワークは、テーブルの意味的類似性に関連するスコアを計算するように訓練される。 そこで本研究では,本手法を学習・評価するために,生体医学品から抽出した1500対のテーブルペアからなる金の標準コーパスを作成し,その類似度について手作業でスコアを付けた。 評価の結果,TabSimはアプリ平均で他のテーブル類似度指標よりも優れていた。 7% pp F1-score in a binary similarity classification set and by app。 1.5%であった。

Tables are a popular and efficient means of presenting structured information. They are used extensively in various kinds of documents including web pages. Tables display information as a two-dimensional matrix, the semantics of which is conveyed by a mixture of structure (rows, columns), headers, caption, and content. Recent research has started to consider tables as first class objects, not just as an addendum to texts, yielding interesting results for problems like table matching, table completion, or value imputation. All of these problems inherently rely on an accurate measure for the semantic similarity of two tables. We present TabSim, a novel method to compute table similarity scores using deep neural networks. Conceptually, TabSim represents a table as a learned concatenation of embeddings of its caption, its content, and its structure. Given two tables in this representation, a Siamese neural network is trained to compute a score correlating with the tables' semantic similarity. To train and evaluate our method, we created a gold standard corpus consisting of 1500 table pairs extracted from biomedical articles and manually scored regarding their degree of similarity, and adopted two other corpora originally developed for a different yet similar task. Our evaluation shows that TabSim outperforms other table similarity measures on average by app. 7% pp F1-score in a binary similarity classification setting and by app. 1.5% pp in a ranking scenario.
翻訳日:2022-10-25 03:43:17 公開日:2020-08-25
# インテント記述生成によるクエリ理解

Query Understanding via Intent Description Generation ( http://arxiv.org/abs/2008.10889v1 )

ライセンス: Link先を確認
Ruqing Zhang, Jiafeng Guo, Yixing Fan, Yanyan Lan, and Xueqi Cheng(参考訳) 問合せ理解は情報検索(IR)における根本的な問題であり、過去数十年にわたって継続的な注目を集めてきた。 クエリ分類やクエリクラスタリングなど,ユーザの検索クエリを理解するために,さまざまなタスクが提案されている。 しかし、多くの詳細な情報が失われているため、意図クラス/クラスタレベルでの検索クエリを理解することはそれほど正確ではない。 TRECやSemEvalといった多くのベンチマークデータセットに見られるように、クエリは、ドキュメントの関連性を評価するための意図を明確に記述する人間のアノテーションによって提供される詳細な記述と関連付けられていることが多い。 もしシステムが人間のアノテータのような検索クエリの詳細なインテント記述を自動的に生成できれば、より優れたクエリ理解が達成されたことを示すだろう。 そこで本稿では,クエリ理解のための新しいQ2IDタスクを提案する。 クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは、あるクエリの関連性および非関連性の両方に基づいて自然言語のインテント記述を生成することを目的とした逆タスクである。 そこで本稿では,この課題に対処するために,クエリが与えられた文書と無関係な文書を対比してインテント記述を生成するための新しいコントラスト生成モデルctrsgenを提案する。 Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を示す。 本稿では、実例によるQ2ID手法の可能性について論じる。

Query understanding is a fundamental problem in information retrieval (IR), which has attracted continuous attention through the past decades. Many different tasks have been proposed for understanding users' search queries, e.g., query classification or query clustering. However, it is not that precise to understand a search query at the intent class/cluster level due to the loss of many detailed information. As we may find in many benchmark datasets, e.g., TREC and SemEval, queries are often associated with a detailed description provided by human annotators which clearly describes its intent to help evaluate the relevance of the documents. If a system could automatically generate a detailed and precise intent description for a search query, like human annotators, that would indicate much better query understanding has been achieved. In this paper, therefore, we propose a novel Query-to-Intent-Description (Q2ID) task for query understanding. Unlike those existing ranking tasks which leverage the query and its description to compute the relevance of documents, Q2ID is a reverse task which aims to generate a natural language intent description based on both relevant and irrelevant documents of a given query. To address this new task, we propose a novel Contrastive Generation model, namely CtrsGen for short, to generate the intent description by contrasting the relevant documents with the irrelevant documents given a query. We demonstrate the effectiveness of our model by comparing with several state-of-the-art generation models on the Q2ID task. We discuss the potential usage of such Q2ID technique through an example application.
翻訳日:2022-10-25 03:42:39 公開日:2020-08-25
# カノニカル、ノンカノニカル、ノンリテラルテキストにおける大域構造の比較計算解析

Comparative Computational Analysis of Global Structure in Canonical, Non-Canonical and Non-Literary Texts ( http://arxiv.org/abs/2008.10906v1 )

ライセンス: Link先を確認
Mahdi Mohseni, Volker Gast, Christoph Redies(参考訳) 本研究では,文学テキストと非文学テキストのグローバルな特性について検討する。 文学作品の中では、正典とノンカノニカルの区別がなされている。 この研究の中心的な仮説は、3つのテキストタイプ(非文学的・文学的・文学的)は、読者の美的反応の相関として、構造的デザインの特徴に関して系統的な違いを示すことである。 これらの違いを調査するため,本研究では,3つのカテゴリのテキストを含むコーパス,Jena Textual Aesthetics Corpusを作成した。 全球構造の2つの側面,テキストに沿った長距離相関を反映した可変性と自己相似的(フラクタル)パターンについて検討した。 基本的な観測は4種類ある。 (i)文毎のPOSタグの頻度 (ii)文の長さ。 (iii)テキストのチャンクにおける語彙の多様性、及び (iv)テキストのチャンクにおける話題確率の分布 これらの基本的な観測は、(a)低レベルな性質の2つのより一般的なカテゴリに分類される (i)および (ii)文のレベルで観察される(言語デコーディングを反映する)こと、(b)高水準の特性 (iii)及び (iv)テキストレベルで観察される(理解の反映)。 基本観測は時系列に変換され、これらの時系列はマルチフラクタル遅延変動解析(MFDFA)の対象となる。 その結果,3種類のテキストに対して,テキストの低レベル特性は高レベル特性よりも差別性が高いことがわかった。 標準文学の文章は、主に可変性の点で非標準文学と異なる。 フラクタリティはテキストの普遍的な特徴であり、文学的テキストよりも非文学的に発音される。 本研究の具体的な結果以外にも,テキスト美学の実験的な研究に関する新たな視点を開こうとしている。

This study investigates global properties of literary and non-literary texts. Within the literary texts, a distinction is made between canonical and non-canonical works. The central hypothesis of the study is that the three text types (non-literary, literary/canonical and literary/non-canonical) exhibit systematic differences with respect to structural design features as correlates of aesthetic responses in readers. To investigate these differences, we compiled a corpus containing texts of the three categories of interest, the Jena Textual Aesthetics Corpus. Two aspects of global structure are investigated, variability and self-similar (fractal) patterns, which reflect long-range correlations along texts. We use four types of basic observations, (i) the frequency of POS-tags per sentence, (ii) sentence length, (iii) lexical diversity in chunks of text, and (iv) the distribution of topic probabilities in chunks of texts. These basic observations are grouped into two more general categories, (a) the low-level properties (i) and (ii), which are observed at the level of the sentence (reflecting linguistic decoding), and (b) the high-level properties (iii) and (iv), which are observed at the textual level (reflecting comprehension). The basic observations are transformed into time series, and these time series are subject to multifractal detrended fluctuation analysis (MFDFA). Our results show that low-level properties of texts are better discriminators than high-level properties, for the three text types under analysis. Canonical literary texts differ from non-canonical ones primarily in terms of variability. Fractality seems to be a universal feature of text, more pronounced in non-literary than in literary texts. Beyond the specific results of the study, we intend to open up new perspectives on the experimental study of textual aesthetics.
翻訳日:2022-10-25 03:42:15 公開日:2020-08-25
# JokeMeter - SemEval-2020 Task 7: Convolutional humor

JokeMeter at SemEval-2020 Task 7: Convolutional humor ( http://arxiv.org/abs/2008.11053v1 )

ライセンス: Link先を確認
Martin Docekal, Martin Fajcik, Josef Jon, Pavel Smrz(参考訳) 本稿では,SemEval-2020 Task 7におけるHummor評価のためのシステムについて述べる。 このシステムは畳み込みニューラルネットワークアーキテクチャに基づいている。 我々は、オフィシャルデータセット上でシステムを調査し、学習した内部機能がどのように見えるかを見るために、モデル自身についてより洞察を提供する。

This paper describes our system that was designed for Humor evaluation within the SemEval-2020 Task 7. The system is based on convolutional neural network architecture. We investigate the system on the official dataset, and we provide more insight to model itself to see how the learned inner features look.
翻訳日:2022-10-25 03:41:46 公開日:2020-08-25
# 運動センサデータを用いた運動・時間解析のためのデータサイエンス

Data Science for Motion and Time Analysis with Modern Motion Sensor Data ( http://arxiv.org/abs/2008.10786v1 )

ライセンス: Link先を確認
Chiwoo Park, Sang Do Noh and Anuj Srivastava(参考訳) モーション・アンド・タイム分析は、特に製造業やサービス業における業務業績の分析において、オペレーション研究において一般的な研究テーマである。 リーン製造とスマートファクトリのための継続的改善ツールとして、再び注目を集めています。 本稿では,作業速度と実行速度との相関関係を,現代の動きセンサから収集したデータを用いて,データ駆動による作業動作解析のためのフレームワークを開発した。 過去の分析は、時間を要するストップウォッチングとビデオタップを含む手動のステップに大きく依存していた。 現代のセンシングデバイスはモーションデータの収集を自動化しているが、新しいデータを知識に変換するモーション分析はほとんど未開発である。 未解決の技術的問題として、モーションセンサデータから動きと時間情報を抽出する方法、作業動作と実行速度を統計的にモデル化して比較する方法、動きの統計的相関と速度との関係についてがある。 本稿では,人間の動きと実行率の新しい数学的表現空間を定義し,これらの新しい空間の統計ツールを開発することによって,モーションセンサデータを用いた動きと時間解析のための新しい数学的枠組みを開発する。 本手法は, 動作データの製造に応用した5つの応用事例を用いて実証する。

The motion-and-time analysis has been a popular research topic in operations research, especially for analyzing work performances in manufacturing and service operations. It is regaining attention as continuous improvement tools for lean manufacturing and smart factory. This paper develops a framework for data-driven analysis of work motions and studies their correlations to work speeds or execution rates, using data collected from modern motion sensors. The past analyses largely relied on manual steps involving time-consuming stop-watching and video-taping, followed by manual data analysis. While modern sensing devices have automated the collection of motion data, the motion analytics that transform the new data into knowledge are largely underdeveloped. Unsolved technical questions include: How the motion and time information can be extracted from the motion sensor data, how work motions and execution rates are statistically modeled and compared, and what are the statistical correlations of motions to the rates? In this paper, we develop a novel mathematical framework for motion and time analysis with motion sensor data, by defining new mathematical representation spaces of human motions and execution rates and by developing statistical tools on these new spaces. This methodological research is demonstrated using five use cases applied to manufacturing motion data.
翻訳日:2022-10-25 03:35:35 公開日:2020-08-25
# 画像デノイジングのための効率的なブラインドスポットニューラルネットワークアーキテクチャ

Efficient Blind-Spot Neural Network Architecture for Image Denoising ( http://arxiv.org/abs/2008.11010v1 )

ライセンス: Link先を確認
David Honz\'atko, Siavash A. Bigdeli, Engin T\"uretken, L. Andrea Dunbar(参考訳) 画像デノイジングは、計算写真において必須のツールである。 ディープニューラルネットワークをコアとする標準的なデノイジング技術では、トレーニングにはクリーンでノイズの多いイメージのペアが必要となる。 クリーンサンプルを持っていない場合は、隣接するピクセルのみに基づいてピクセル値を推定する盲点ニューラルネットワークアーキテクチャを使用することができる。 したがって、これらのネットワークはノイズの多い画像を直接トレーニングすることができる。 現在、盲点は主にシフトした畳み込みやシリアライゼーションによって達成されている。 本稿では,目隠しスポット特性を実現するために拡張を用いた,新しい完全畳み込み型ネットワークアーキテクチャを提案する。 当社のネットワークは,従来の作業よりもパフォーマンスを向上し,確立したデータセットで最先端の結果を得る。

Image denoising is an essential tool in computational photography. Standard denoising techniques, which use deep neural networks at their core, require pairs of clean and noisy images for its training. If we do not possess the clean samples, we can use blind-spot neural network architectures, which estimate the pixel value based on the neighbouring pixels only. These networks thus allow training on noisy images directly, as they by-design avoid trivial solutions. Nowadays, the blind-spot is mostly achieved using shifted convolutions or serialization. We propose a novel fully convolutional network architecture that uses dilations to achieve the blind-spot property. Our network improves the performance over the prior work and achieves state-of-the-art results on established datasets.
翻訳日:2022-10-25 03:35:15 公開日:2020-08-25
# 安全認証のためのマスク顔認証

Masked Face Recognition for Secure Authentication ( http://arxiv.org/abs/2008.11104v1 )

ライセンス: Link先を確認
Aqeel Anwar, Arijit Raychowdhury(参考訳) 新型コロナウイルス(covid-19)の世界的なパンデミックにより、マスクの使用が生活の重要な部分となっている。 感染拡大を避けるため、公共の場で顔を覆うことが奨励されている。 これらのマスクの使用は、学校やオフィスの参加者の追跡や携帯電話のアンロックに使用される顔認識システムの正確性に深刻な疑問を呈している。 多くの組織は認証手段として顔認識を使用しており、そのようなシステムをデプロイするために必要なデータセットを社内ですでに開発している。 残念ながら、マスクされた顔は検出や認識が難しく、社内のデータセットを無効にし、そのような顔認識システムが動作不能になる恐れがある。 本稿では,偽陽性率の低さと精度の高いマスク顔の認識を可能にするツールにより,ユーザデータセットを認証のために新しい写真を撮って再作成する必要なく,現在の顔データセットを使用する方法を提案する。 マスクされた顔の大規模なデータセットを効果的に作成するためのオープンソースのツールMaskTheFaceを提案する。 このツールで生成されたデータセットは、マスクされた顔のターゲット精度を持つ効果的な顔認識システムのトレーニングに使用される。 我々はfacenetシステムにおける真陽性率の38%の増加を報告した。 また、実世界のカスタムデータセットMFR2で再学習システムの精度を検証し、同様の精度を報告する。

With the recent world-wide COVID-19 pandemic, using face masks have become an important part of our lives. People are encouraged to cover their faces when in public area to avoid the spread of infection. The use of these face masks has raised a serious question on the accuracy of the facial recognition system used for tracking school/office attendance and to unlock phones. Many organizations use facial recognition as a means of authentication and have already developed the necessary datasets in-house to be able to deploy such a system. Unfortunately, masked faces make it difficult to be detected and recognized, thereby threatening to make the in-house datasets invalid and making such facial recognition systems inoperable. This paper addresses a methodology to use the current facial datasets by augmenting it with tools that enable masked faces to be recognized with low false-positive rates and high overall accuracy, without requiring the user dataset to be recreated by taking new pictures for authentication. We present an open-source tool, MaskTheFace to mask faces effectively creating a large dataset of masked faces. The dataset generated with this tool is then used towards training an effective facial recognition system with target accuracy for masked faces. We report an increase of 38% in the true positive rate for the Facenet system. We also test the accuracy of re-trained system on a custom real-world dataset MFR2 and report similar accuracy.
翻訳日:2022-10-25 03:35:04 公開日:2020-08-25
# 深層ニューラルネットワークを用いた心臓mriによる解剖学的厚みの測定

Measure Anatomical Thickness from Cardiac MRI with Deep Neural Networks ( http://arxiv.org/abs/2008.11109v1 )

ライセンス: Link先を確認
Qiaoying Huang, Eric Z. Chen, Hanchao Yu, Yimo Guo, Terrence Chen, Dimitris Metaxas, Shanhui Sun(参考訳) 医用画像からの形状推定は臨床応用において重要である。 例えば、心筋の厚さが心臓疾患の診断の鍵となる。 正確な密厚推定には数学モデルが利用できるが、反復解法によって計算のオーバーヘッドが重い。 そこで本研究では,2次元の環状形状から厚みを推定する高速解法と,生の心臓画像から直接厚みを推定するエンド・ツー・エンド・ネットワークを含む濃厚度推定手法を提案する。 厚さ推定は、数学的モデルより100倍高速な反復解法や手動補正を使わずに行われる。 また, 各種心疾患の厚みパターンを標準的臨床モデルを用いて解析し, 厚みに基づく心疾患診断法の有用性を実証した。

Accurate estimation of shape thickness from medical images is crucial in clinical applications. For example, the thickness of myocardium is one of the key to cardiac disease diagnosis. While mathematical models are available to obtain accurate dense thickness estimation, they suffer from heavy computational overhead due to iterative solvers. To this end, we propose novel methods for dense thickness estimation, including a fast solver that estimates thickness from binary annular shapes and an end-to-end network that estimates thickness directly from raw cardiac images.We test the proposed models on three cardiac datasets and one synthetic dataset, achieving impressive results and generalizability on all. Thickness estimation is performed without iterative solvers or manual correction, which is 100 times faster than the mathematical model. We also analyze thickness patterns on different cardiac pathologies with a standard clinical model and the results demonstrate the potential clinical value of our method for thickness based cardiac disease diagnosis.
翻訳日:2022-10-25 03:34:43 公開日:2020-08-25
# 深層学習によるバイオインフォマティクスの構造化予測に向けて

Towards Structured Prediction in Bioinformatics with Deep Learning ( http://arxiv.org/abs/2008.11546v1 )

ライセンス: Link先を確認
Yu Li(参考訳) 機械学習、特にディープラーニングを使って生物研究を促進することは、興味深い研究の方向性である。 しかし、標準的な分類や回帰の問題に加えて、バイオインフォマティクスでは、2d画像や3d分子構造のようなより複雑な構造化対象を予測する必要がある。 上記の複雑な予測タスクは構造化予測と呼ばれる。 構造予測は従来の分類よりも複雑であるが、元のバイオインフォマティクス問題のほとんどは複雑な出力オブジェクトを持つので、より広範な応用がある。 問題固有の制約やラベル空間への依存性など,構造化された予測問題の性質から,既存のディープラーニングモデルの直接的な適用は,不満足な結果をもたらす可能性がある。 ここでは, バイオインフォマティクスにおける構造化予測問題の解決に有効であると考えられる。 まず、問題構造を明示的にモデル化する確率的グラフィカルモデルなど、ディープラーニングと他の古典的アルゴリズムを組み合わせることができる。 第二に、構造化ラベル空間と問題制約を明示的にも暗黙的にも考慮し、問題固有のディープラーニングアーキテクチャや手法を設計できる。 我々は, シーケンシング解析, 構造予測, 関数アノテーション, ネットワーク解析を含む4つのバイオインフォマティクスサブフィールドの6つのプロジェクトからアイデアを実証した。 構造化出力は、1D信号、2D画像、3D構造、階層ラベリング、異種ネットワークをカバーする。 上記のアイデアの助けを借りて、我々の手法はすべて対応する問題に対してsoma性能を達成できます。 これらのプロジェクトの成功は、人々の健康と健康に直接利益をもたらす健康上の問題など、より困難だが重要な問題への取り組みを拡大する動機となります。

Using machine learning, especially deep learning, to facilitate biological research is a fascinating research direction. However, in addition to the standard classification or regression problems, in bioinformatics, we often need to predict more complex structured targets, such as 2D images and 3D molecular structures. The above complex prediction tasks are referred to as structured prediction. Structured prediction is more complicated than the traditional classification but has much broader applications, considering that most of the original bioinformatics problems have complex output objects. Due to the properties of those structured prediction problems, such as having problem-specific constraints and dependency within the labeling space, the straightforward application of existing deep learning models can lead to unsatisfactory results. Here, we argue that the following ideas can help resolve structured prediction problems in bioinformatics. Firstly, we can combine deep learning with other classic algorithms, such as probabilistic graphical models, which model the problem structure explicitly. Secondly, we can design the problem-specific deep learning architectures or methods by considering the structured labeling space and problem constraints, either explicitly or implicitly. We demonstrate our ideas with six projects from four bioinformatics subfields, including sequencing analysis, structure prediction, function annotation, and network analysis. The structured outputs cover 1D signals, 2D images, 3D structures, hierarchical labeling, and heterogeneous networks. With the help of the above ideas, all of our methods can achieve SOTA performance on the corresponding problems. The success of these projects motivates us to extend our work towards other more challenging but important problems, such as health-care problems, which can directly benefit people's health and wellness.
翻訳日:2022-10-25 03:34:28 公開日:2020-08-25
# エンドツーエンド3次元多物体追跡と軌道予測

End-to-End 3D Multi-Object Tracking and Trajectory Forecasting ( http://arxiv.org/abs/2008.11598v1 )

ライセンス: Link先を確認
Xinshuo Weng, Ye Yuan, Kris Kitani(参考訳) 3次元多物体追跡(MOT)と軌道予測は、現代の3次元知覚システムにおいて2つの重要な要素である。 エージェントインタラクションの共有特徴表現を学習するために,両タスクをひとつのフレームワークで統一することが有用である,という仮説を立てる。 この仮説を評価するために,新たに2つの計算ユニットを組み込んだ3次元MOTと軌道予測の統一解を提案する。 まず、複数のエージェントが互いに相互作用する方法を捉えるために、グラフニューラルネットワーク(gnns)を導入することで、機能インタラクション技術を採用する。 GNNは複雑な階層的相互作用をモデル化し、MOT関連のための識別的特徴学習を改善し、軌道予測のための社会的に認識されたコンテキストを提供する。 第2に、予測された軌道の品質と多様性を改善するために、ダイバーシティサンプリング関数を使用する。 学習されたサンプリング関数は、生成軌跡分布から様々な結果を効率的に抽出し、多くの重複軌跡サンプルを生成する問題を回避するために訓練される。 提案手法は,KITTIデータセット上での最先端性能を実現する。 プロジェクトのWebサイトはhttp://www.xinshuoweng.com/projects/GNNTrkForecastにあります。

3D multi-object tracking (MOT) and trajectory forecasting are two critical components in modern 3D perception systems. We hypothesize that it is beneficial to unify both tasks under one framework to learn a shared feature representation of agent interaction. To evaluate this hypothesis, we propose a unified solution for 3D MOT and trajectory forecasting which also incorporates two additional novel computational units. First, we employ a feature interaction technique by introducing Graph Neural Networks (GNNs) to capture the way in which multiple agents interact with one another. The GNN is able to model complex hierarchical interactions, improve the discriminative feature learning for MOT association, and provide socially-aware context for trajectory forecasting. Second, we use a diversity sampling function to improve the quality and diversity of our forecasted trajectories. The learned sampling function is trained to efficiently extract a variety of outcomes from a generative trajectory distribution and helps avoid the problem of generating many duplicate trajectory samples. We show that our method achieves state-of-the-art performance on the KITTI dataset. Our project website is at http://www.xinshuoweng.com/projects/GNNTrkForecast.
翻訳日:2022-10-25 03:33:44 公開日:2020-08-25
# 皮膚病変分類における勝利チケットの特性

Properties Of Winning Tickets On Skin Lesion Classification ( http://arxiv.org/abs/2008.12141v1 )

ライセンス: Link先を確認
Sherin Muckatira(参考訳) Skin cancer affects a large population every year -- automated skin cancer detection algorithms can thus greatly help clinicians. Prior efforts involving deep learning models have high detection accuracy. However, most of the models have a large number of parameters, with some works even using an ensemble of models to achieve good accuracy. In this paper, we investigate a recently proposed pruning technique called Lottery Ticket Hypothesis. We find that iterative pruning of the network resulted in improved accuracy, compared to that of the unpruned network, implying that -- the lottery ticket hypothesis can be applied to the problem of skin cancer detection and this hypothesis can result in a smaller network for inference. また、性別と年齢によって作成されたサブグループ間の精度も調べ、いくつかのサブグループは他のグループよりも高い精度を示していることがわかった。

Skin cancer affects a large population every year -- automated skin cancer detection algorithms can thus greatly help clinicians. Prior efforts involving deep learning models have high detection accuracy. However, most of the models have a large number of parameters, with some works even using an ensemble of models to achieve good accuracy. In this paper, we investigate a recently proposed pruning technique called Lottery Ticket Hypothesis. We find that iterative pruning of the network resulted in improved accuracy, compared to that of the unpruned network, implying that -- the lottery ticket hypothesis can be applied to the problem of skin cancer detection and this hypothesis can result in a smaller network for inference. We also examine the accuracy across sub-groups -- created by gender and age -- and it was found that some sub-groups show a larger increase in accuracy than others.
翻訳日:2022-10-25 03:33:12 公開日:2020-08-25
# 周辺車両の車線変更予測のための2ストリームネットワーク

Two-Stream Networks for Lane-Change Prediction of Surrounding Vehicles ( http://arxiv.org/abs/2008.10869v1 )

ライセンス: Link先を確認
David Fern\'andez-Llorca, Mahdi Biparva, Rub\'en Izquierdo-Gonzalo and John K. Tsotsos(参考訳) 高速道路のシナリオでは、人間のドライバーが視覚的手がかりのみを使用して、周囲の車両の早期の切り込みと切り抜きの操作を予想する。 自動化システムは、パフォーマンスの安全性と効率を高めるために、これらの状況を早期に予測する必要がある。 周囲車両の車線変化認識と予測に対処するため,ビデオカメラからの視覚的手がかりを積み重ねることで,行動認識・予測問題としてこの問題を提起する。 2ストリーム畳み込みネットワークと時空間乗算器ネットワークの2つのビデオ行動認識手法を解析した。 車両周辺領域の異なるサイズを解析し、車両間の相互作用と性能におけるコンテキスト情報の重要性を評価する。 さらに、異なる予測地平線の評価を行う。 その結果, これらの手法が, 1秒から2秒間の時間的地平線における周辺車両の車線変化の強い予測因子となる可能性が示された。

In highway scenarios, an alert human driver will typically anticipate early cut-in and cut-out maneuvers of surrounding vehicles using only visual cues. An automated system must anticipate these situations at an early stage too, to increase the safety and the efficiency of its performance. To deal with lane-change recognition and prediction of surrounding vehicles, we pose the problem as an action recognition/prediction problem by stacking visual cues from video cameras. Two video action recognition approaches are analyzed: two-stream convolutional networks and spatiotemporal multiplier networks. Different sizes of the regions around the vehicles are analyzed, evaluating the importance of the interaction between vehicles and the context information in the performance. In addition, different prediction horizons are evaluated. The obtained results demonstrate the potential of these methodologies to serve as robust predictors of future lane-changes of surrounding vehicles in time horizons between 1 and 2 seconds.
翻訳日:2022-10-25 03:26:49 公開日:2020-08-25
# パーソナライズドレコメンデーションにおける時間依存型クロスネットワーク情報の利用の検討

Exploring the use of Time-Dependent Cross-Network Information for Personalized Recommendations ( http://arxiv.org/abs/2008.10866v1 )

ライセンス: Link先を確認
Dilruk Perera and Roger Zimmermann(参考訳) オンラインアプリケーションにおける情報の圧倒的な量と複雑さは、ユーザが興味を持つ情報を見つけるために不可欠である。 しかし,(1)不完全なユーザプロファイル,(2)ユーザの嗜好の動的な性質は,タイムライン,精度,多様性,ノベルティといった面において推奨品質を低下させ続けている。 上記の2つの制限を1つのソリューションで解決するために,新たなネットワーク間時間対応レコメンダソリューションを提案する。 このソリューションはまず、複数のソースネットワークからユーザの好みを集約することで、ターゲットネットワークの履歴的ユーザモデルを学習する。 第2に、ユーザレベルの潜在要因を認識して、過去のモデルから現在のユーザモデルを開発し、タイムリーなレコメンデーションを行う。 提案手法は,Twitterのソースネットワークからの補助情報を用いて,YouTubeターゲットネットワークのレコメンデーションを改善する。 異なる時間粒度下での複数時間認識およびクロスネットワークベースラインを用いた実験により,提案手法は精度,ノベルティ,多様性の点で優れた性能が得られることを示した。

The overwhelming volume and complexity of information in online applications make recommendation essential for users to find information of interest. However, two major limitations that coexist in real world applications (1) incomplete user profiles, and (2) the dynamic nature of user preferences continue to degrade recommender quality in aspects such as timeliness, accuracy, diversity and novelty. To address both the above limitations in a single solution, we propose a novel cross-network time aware recommender solution. The solution first learns historical user models in the target network by aggregating user preferences from multiple source networks. Second, user level time aware latent factors are learnt to develop current user models from the historical models and conduct timely recommendations. We illustrate our solution by using auxiliary information from the Twitter source network to improve recommendations for the YouTube target network. Experiments conducted using multiple time aware and cross-network baselines under different time granularities show that the proposed solution achieves superior performance in terms of accuracy, novelty and diversity.
翻訳日:2022-10-25 03:26:22 公開日:2020-08-25
# Huberの基準に対するブロックワイズ最小化アルゴリズム:スパース学習とその応用

Block-wise Minimization-Majorization algorithm for Huber's criterion: sparse learning and applications ( http://arxiv.org/abs/2008.10982v1 )

ライセンス: Link先を確認
Esa Ollila and Ammar Mian(参考訳) フーバーの基準は線形モデルにおける回帰とスケールパラメータの堅牢な共同推定に利用できる。 Huber (Huber, 1981) による、この基準を導入する動機は、結合最大極大目的関数の非凸性と、関連するML推定スケールの非ロマンス性(非有界影響関数)から生じる。 本稿では,huber が提案するアルゴリズムがブロックワイズ最小化メジャー化フレームワーク内でどのように設定可能かを示す。 さらに,コンバージェンスをさらに改善するために,位置とスケールの両方に対して,新たなデータ適応ステップサイズを提案する。 次に,反復的ハードしきい値法を用いて,不確定線形モデルのスパース学習にフーバーの基準をどのように利用できるかを示す。 画像復号化アプリケーションにおけるアルゴリズムの有用性とシミュレーション研究について述べる。

Huber's criterion can be used for robust joint estimation of regression and scale parameters in the linear model. Huber's (Huber, 1981) motivation for introducing the criterion stemmed from non-convexity of the joint maximum likelihood objective function as well as non-robustness (unbounded influence function) of the associated ML-estimate of scale. In this paper, we illustrate how the original algorithm proposed by Huber can be set within the block-wise minimization majorization framework. In addition, we propose novel data-adaptive step sizes for both the location and scale, which are further improving the convergence. We then illustrate how Huber's criterion can be used for sparse learning of underdetermined linear model using the iterative hard thresholding approach. We illustrate the usefulness of the algorithms in an image denoising application and simulation studies.
翻訳日:2022-10-25 03:26:02 公開日:2020-08-25
# セッションベースレコメンデーションのための多対一リカレントニューラルネットワーク

Many-to-one Recurrent Neural Network for Session-based Recommendation ( http://arxiv.org/abs/2008.11136v1 )

ライセンス: Link先を確認
Amine Dadoun (1 and 2), Raphael Troncy (1) ((1) Eurecom, (2) Amadeus SAS)(参考訳) 本稿では,D2KLabチームによるRecSys Challenge 2019へのアプローチについて述べる。 ホテルの屋根は巨大で、スタッフは親しみやすく、効率が良い」という人の気持ちはどうなっていますか。 肯定的です。 感情を肯定できる文中の単語列と同様に、webサイトのユーザが行う一連のアクションを分析して、ショッピングセッションの終わりにユーザがバスケットに追加するアイテムを予測できる。 本稿では,ブラウジングセッション中に行った行動の順序に基づいて,ユーザが宿泊施設をクリックした確率を学習する多対一のリカレントニューラルネットワークを提案する。 より具体的には、ルールベースのアルゴリズムとGated Recurrent Unit RNNを組み合わせることで、ユーザに表示される宿泊施設のリストをソートする。 我々はRNNを検証セットに最適化し、学習率、バッチサイズ、宿泊用埋め込みサイズなどのハイパーパラメータをチューニングした。 この感情分析タスクの類似は、有望な結果をもたらす。 しかし、それは訓練段階で計算的に要求されており、さらに調整する必要がある。

This paper presents the D2KLab team's approach to the RecSys Challenge 2019 which focuses on the task of recommending accommodations based on user sessions. What is the feeling of a person who says "Rooms of the hotel are enormous, staff are friendly and efficient"? It is positive. Similarly to the sequence of words in a sentence where one can affirm what the feeling is, analysing a sequence of actions performed by a user in a website can lead to predict what will be the item the user will add to his basket at the end of the shopping session. We propose to use a many-to-one recurrent neural network that learns the probability that a user will click on an accommodation based on the sequence of actions he has performed during his browsing session. More specifically, we combine a rule-based algorithm with a Gated Recurrent Unit RNN in order to sort the list of accommodations that is shown to the user. We optimized the RNN on a validation set, tuning the hyper-parameters such as the learning rate, the batch-size and the accommodation embedding size. This analogy with the sentiment analysis task gives promising results. However, it is computationally demanding in the training phase and it needs to be further tuned.
翻訳日:2022-10-25 03:25:44 公開日:2020-08-25
# ウェアラブルデバイスユーザのためのコンテキスト依存型暗黙認証

Context-Dependent Implicit Authentication for Wearable Device User ( http://arxiv.org/abs/2008.12145v1 )

ライセンス: Link先を確認
William Cheung and Sudip Vhaduri(参考訳) 市場のウェアラブルは、金融取引や、利用者のさまざまな個人情報に基づいて提供する車へのアクセスなど、さまざまなサービスで人気を博しているため、この情報のセキュリティは非常に重要になっている。 しかし、ユーザーはIoT(Internet of Things)の世界において、PINやパスワードで溢れていることが多い。 さらに、顔認識や指認識のようなハードバイオメトリックな認証は、センサーや計算能力に制限があるため、市場ウェアラブルには適用できない。 したがって, 市場ウェアラブルから容易に入手可能なソフトバイオメトリックデータを用いて, ウェアラブルの負担のない暗黙認証機構を開発することは, 時間的要求である。 本研究では,心拍数,歩行,呼吸音声信号を利用した文脈依存型ソフトバイオメトリック・ウェアラブル認証システムを提案する。 我々の詳細な分析から、放射基底関数(RBF)カーネルを持つバイナリサポートベクトルマシン(SVM)は、平均精度が0.94 \pm 0.07$, $F_1$ score of $0.93 \pm 0.08$, a equal error rate (EER) at about 0.6$ at a lower confidence threshold of 0.52, which shows the promise of this work。

As market wearables are becoming popular with a range of services, including making financial transactions, accessing cars, etc. that they provide based on various private information of a user, security of this information is becoming very important. However, users are often flooded with PINs and passwords in this internet of things (IoT) world. Additionally, hard-biometric, such as facial or finger recognition, based authentications are not adaptable for market wearables due to their limited sensing and computation capabilities. Therefore, it is a time demand to develop a burden-free implicit authentication mechanism for wearables using the less-informative soft-biometric data that are easily obtainable from the market wearables. In this work, we present a context-dependent soft-biometric-based wearable authentication system utilizing the heart rate, gait, and breathing audio signals. From our detailed analysis, we find that a binary support vector machine (SVM) with radial basis function (RBF) kernel can achieve an average accuracy of $0.94 \pm 0.07$, $F_1$ score of $0.93 \pm 0.08$, an equal error rate (EER) of about $0.06$ at a lower confidence threshold of 0.52, which shows the promise of this work.
翻訳日:2022-10-25 03:24:35 公開日:2020-08-25
# 同じコインの2つの側面:移行学習のためのホワイトボックスとブラックボックスアタック

Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer Learning ( http://arxiv.org/abs/2008.11089v1 )

ライセンス: Link先を確認
Yinghua Zhang, Yangqiu Song, Jian Liang, Kun Bai, Qiang Yang(参考訳) 転送学習は、ターゲットドメイン内のラベル付きデータに制限のあるディープラーニングモデルをトレーニングする一般的なプラクティスとなっている。 一方、深層モデルは敵の攻撃に対して脆弱である。 転送学習は広く適用されているが、モデルロバスト性への影響は明らかではない。 この問題を解決するために、我々は、ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す実験的な評価を行った。 また,対象モデルに対して,そのソースモデルが生成する逆例を用いて攻撃を行う,転送学習モデルに対するブラックボックス攻撃法を提案する。 ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。 実験の結果,2つのネットワークが独立にトレーニングされた場合よりも,微調整を行った場合の逆例の方が伝達しやすいことがわかった。

Transfer learning has become a common practice for training deep learning models with limited labeled data in a target domain. On the other hand, deep models are vulnerable to adversarial attacks. Though transfer learning has been widely applied, its effect on model robustness is unclear. To figure out this problem, we conduct extensive empirical evaluations to show that fine-tuning effectively enhances model robustness under white-box FGSM attacks. We also propose a black-box attack method for transfer learning models which attacks the target model with the adversarial examples produced by its source model. To systematically measure the effect of both white-box and black-box attacks, we propose a new metric to evaluate how transferable are the adversarial examples produced by a source model to a target model. Empirical results show that the adversarial examples are more transferable when fine-tuning is used than they are when the two networks are trained independently.
翻訳日:2022-10-25 03:17:29 公開日:2020-08-25
# FastSal: ビジュアルサリエンシ予測のための計算効率の良いネットワーク

FastSal: a Computationally Efficient Network for Visual Saliency Prediction ( http://arxiv.org/abs/2008.11151v1 )

ライセンス: Link先を確認
Feiyan Hu and Kevin McGuinness(参考訳) 本稿では,人間の視覚に注意を惹きつける傾向のある画像の領域を計算予算の制約下で予測し,視覚的なサリエンシー予測の問題に焦点をあてる。 我々は、EfficientNetやMobileNetV2のような最近の効率的な畳み込みニューラルネットワークアーキテクチャを修正、テストし、それらを、AUCやNASのような標準的な精度メトリクスと、計算複雑性とモデルサイズの両方の観点から、SalGANやDeepGaze IIのような既存の最先端サリエンシモデルと比較する。 mobilenetv2は視覚的なサリエンシーモデルにとって優れたバックボーンであり、複雑なデコーダがなくても効果的である。 また、deepgaze iiのような計算コストの高いモデルからの知識転送は、ラベル付きデータセットを擬似ラベル付けすることで実現可能であり、このアプローチにより、計算コストとモデルサイズのごく一部しか持たない多くの最先端アルゴリズムとほぼ同程度の結果が得られることを示した。 ソースコードはhttps://github.com/feiyanhu/fastsalで入手できる。

This paper focuses on the problem of visual saliency prediction, predicting regions of an image that tend to attract human visual attention, under a constrained computational budget. We modify and test various recent efficient convolutional neural network architectures like EfficientNet and MobileNetV2 and compare them with existing state-of-the-art saliency models such as SalGAN and DeepGaze II both in terms of standard accuracy metrics like AUC and NSS, and in terms of the computational complexity and model size. We find that MobileNetV2 makes an excellent backbone for a visual saliency model and can be effective even without a complex decoder. We also show that knowledge transfer from a more computationally expensive model like DeepGaze II can be achieved via pseudo-labelling an unlabelled dataset, and that this approach gives result on-par with many state-of-the-art algorithms with a fraction of the computational cost and model size. Source code is available at https://github.com/feiyanhu/FastSal.
翻訳日:2022-10-25 03:16:46 公開日:2020-08-25
# 半スーパービジョンのファッションで学ぶ

Learning to Learn in a Semi-Supervised Fashion ( http://arxiv.org/abs/2008.11203v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Chao-Te Chou, Yu-Chiang Frank Wang(参考訳) ラベル付きデータとラベル付きデータの両方から半教師付き学習に対処するために,新しいメタ学習方式を提案する。 特に,ラベル付きデータとラベルなしデータは,個人再同定や画像検索などのタスクで見られるような,相互に結合した基底的真理ラベルセットを共有していると考える。 学習手法はラベル付きデータからラベルなしデータへの情報活用の考え方を利用する。 多くのメタ学習アルゴリズムが行うように、関連するクラス単位の類似度スコアを適合させる代わりに、ラベル付きデータから意味論的指向の類似度表現を導出し、ラベルなしデータへ変換する。 このように、我々の戦略は自己指導型学習スキームとみなすことができ、完全に教師付き学習タスクに適用して性能を向上させることができる。 様々な課題と設定に関する実験により,提案手法の有効性と最先端手法に対する優位性を確認した。

To address semi-supervised learning from both labeled and unlabeled data, we present a novel meta-learning scheme. We particularly consider that labeled and unlabeled data share disjoint ground truth label sets, which can be seen tasks like in person re-identification or image retrieval. Our learning scheme exploits the idea of leveraging information from labeled to unlabeled data. Instead of fitting the associated class-wise similarity scores as most meta-learning algorithms do, we propose to derive semantics-oriented similarity representations from labeled data, and transfer such representation to unlabeled ones. Thus, our strategy can be viewed as a self-supervised learning scheme, which can be applied to fully supervised learning tasks for improved performance. Our experiments on various tasks and settings confirm the effectiveness of our proposed approach and its superiority over the state-of-the-art methods.
翻訳日:2022-10-25 03:16:24 公開日:2020-08-25
# 輪郭木階層に基づく三次元表面セグメンテーションのためのディープニューラルネットワーク

Deep Neural Network for 3D Surface Segmentation based on Contour Tree Hierarchy ( http://arxiv.org/abs/2008.11269v1 )

ライセンス: Link先を確認
Wenchong He, Arpan Man Sainju, Zhe Jiang and Da Yan(参考訳) 2dグリッド上の標高関数と各ピクセルで観測される非空間的特徴によって定義される3d曲面が与えられたとき、表面分割の問題は、非空間的特徴と表面トポロジーの両方に基づいてピクセルを連続したクラスに分類することを目的としている。 この問題は、水理学、惑星科学、生化学において重要な応用であるが、いくつかの理由により独特な挑戦である。 まず、クラスセグメントの空間的範囲は、その空間的形状や方向に関わらず、位相空間の表面輪郭に従う。 第二に、位相構造は異なる表面分解能に基づく複数の空間スケールに存在する。 画像分割のための既存の広く成功したディープラーニングモデルは、グリッド上の規則的な構造パターンを学ぶために畳み込みやプール操作に依存するため、しばしば適用されない。 対照的に,異なる標高で表面輪郭の進化を捉えた多樹である輪郭樹の骨格によって表面トポロジー構造を表現することを提案する。 さらに,輪郭木階層に基づくグラフニューラルネットワークの設計を行い,異なる空間スケールで表面トポロジ構造をモデル化する。 実世界の水文データに基づく実験評価により,本モデルがいくつかのベースライン法よりも精度が優れていることが示された。

Given a 3D surface defined by an elevation function on a 2D grid as well as non-spatial features observed at each pixel, the problem of surface segmentation aims to classify pixels into contiguous classes based on both non-spatial features and surface topology. The problem has important applications in hydrology, planetary science, and biochemistry but is uniquely challenging for several reasons. First, the spatial extent of class segments follows surface contours in the topological space, regardless of their spatial shapes and directions. Second, the topological structure exists in multiple spatial scales based on different surface resolutions. Existing widely successful deep learning models for image segmentation are often not applicable due to their reliance on convolution and pooling operations to learn regular structural patterns on a grid. In contrast, we propose to represent surface topological structure by a contour tree skeleton, which is a polytree capturing the evolution of surface contours at different elevation levels. We further design a graph neural network based on the contour tree hierarchy to model surface topological structure at different spatial scales. Experimental evaluations based on real-world hydrological datasets show that our model outperforms several baseline methods in classification accuracy.
翻訳日:2022-10-25 03:15:40 公開日:2020-08-25
# 多元的景観:多くの敵対的防御の背後にある統一的な原理

Likelihood Landscapes: A Unifying Principle Behind Many Adversarial Defenses ( http://arxiv.org/abs/2008.11300v1 )

ライセンス: Link先を確認
Fu Lin, Rohit Mittapalli, Prithvijit Chattopadhyay, Daniel Bolya, Judy Hoffman(参考訳) 畳み込みニューラルネットワークは、通常のデータがどこにあるかに近い部分空間にあることが知られているが、自然に発生するものではなく、低い確率で発生する。 本研究は,本手法が,訓練されたモデル下での入力画像の幾何的形状に与える影響について検討する。 まず,識別型分類器のエネルギーモデル解釈を生かした景観の可視化手法を提案する。 次に,確率的景観の平坦さを定量化する尺度を提案する。 対角防御手法のサブセットは、近景を平坦化させる同様の効果をもたらすことが観察された。 さらに, 敵対的強固性のための平坦な景観への直接的正規化について検討する。

Convolutional Neural Networks have been shown to be vulnerable to adversarial examples, which are known to locate in subspaces close to where normal data lies but are not naturally occurring and of low probability. In this work, we investigate the potential effect defense techniques have on the geometry of the likelihood landscape - likelihood of the input images under the trained model. We first propose a way to visualize the likelihood landscape leveraging an energy-based model interpretation of discriminative classifiers. Then we introduce a measure to quantify the flatness of the likelihood landscape. We observe that a subset of adversarial defense techniques results in a similar effect of flattening the likelihood landscape. We further explore directly regularizing towards a flat landscape for adversarial robustness.
翻訳日:2022-10-25 03:15:19 公開日:2020-08-25
# ディープニューラルネットワークは"ロバスト"か?

Are Deep Neural Networks "Robust"? ( http://arxiv.org/abs/2008.12650v1 )

ライセンス: Link先を確認
Peter Meer(参考訳) 外れ値と外れ値の分離は、コンピュータビジョンにおけるロバスト性の定義である。 このエッセイは、ディープニューラルネットワークが典型的なロバストな推定器とどのように異なるかを示している。 ディープニューラルネットワークは、この従来の定義では堅牢ではない。

Separating outliers from inliers is the definition of robustness in computer vision. This essay delineates how deep neural networks are different than typical robust estimators. Deep neural networks not robust by this traditional definition.
翻訳日:2022-10-25 03:15:08 公開日:2020-08-25
# ICE-Talk: 制御可能な表現型発話機のためのインタフェース

ICE-Talk: an Interface for a Controllable Expressive Talking Machine ( http://arxiv.org/abs/2008.11045v1 )

ライセンス: Link先を確認
No\'e Tits, Kevin El Haddad and Thierry Dutoit(参考訳) ICE-TalkはオープンソースのWebベースのGUIで、テキストフィールドとクリック可能な2Dプロットを介して制御可能なパラメータを持つTSシステムを使用することができる。 制御可能なttの潜在空間の研究を可能にする。 さらに、人間とエージェントの相互作用の一部として使用できるモジュールとして実装されている。

ICE-Talk is an open source web-based GUI that allows the use of a TTS system with controllable parameters via a text field and a clickable 2D plot. It enables the study of latent spaces for controllable TTS. Moreover it is implemented as a module that can be used as part of a Human-Agent interaction.
翻訳日:2022-10-25 03:15:06 公開日:2020-08-25
# 学術論文の抽出要約器

Extractive Summarizer for Scholarly Articles ( http://arxiv.org/abs/2008.11290v1 )

ライセンス: Link先を確認
Athar Sefid, Clyde Lee Giles, Prasenjit Mitra(参考訳) 本稿では,長い学術論文を要約する抽出方法を紹介する。 論文の著者によるプレゼンテーションスライドをゴールドサマリー標準として使用し,文章のラベル付けを行う。 それらの文は、その斬新さと深層ニューラルネットワークによって推定される重要性に基づいてランク付けされる。 ウィンドウベースの文抽出ラベリングにより、少なくとも4つのrouge1リコールポイントが改善される。

We introduce an extractive method that will summarize long scientific papers. Our model uses presentation slides provided by the authors of the papers as the gold summary standard to label the sentences. The sentences are ranked based on their novelty and their importance as estimated by deep neural networks. Our window-based extractive labeling of sentences results in the improvement of at least 4 ROUGE1-Recall points.
翻訳日:2022-10-25 03:14:59 公開日:2020-08-25
# スパースプロジェクションによるガウス過程回帰の可変選択

Variable selection for Gaussian process regression through a sparse projection ( http://arxiv.org/abs/2008.10769v1 )

ライセンス: Link先を確認
Chiwoo Park, David J. Borth, Nicholas S. Wilson and Chad N. Hunter(参考訳) 本稿ではガウス過程(GP)回帰と統合された新しい変数選択手法を提案する。 入力変数のスパースプロジェクションと、投影された特徴間のユークリッド距離に依存する一般的な定常共分散モデルを考える。 スパース射影行列は未知のパラメータと見なされる。 本研究では,凹部スパルシティペナルティを伴う非凸境界度関数の最大化に基づいて,パラメータと他の共分散パラメータを共最適化する埋め込み勾配降下ステップを用いた前方段階的アプローチを提案し,アルゴリズムの収束特性について述べる。 提案モデルは, 既存の自動適合度決定手法よりも幅広い定常共分散関数を対象とし, 既存のmcmcサンプリング手法よりも解法の方がより計算可能であり, スパーシティを先行した自動相関パラメータ推定を行うことができる。 このアプローチは、多数のシミュレーションシナリオに対して評価される。 シミュレーション実験により,チューニングパラメータの選択とパラメータ推定の精度を評価した。 いくつかのベンチマーク手法と比較すると,提案手法は変数選択の精度が向上した。 これは、金属合金の大気腐食に影響を与える環境要因を特定する重要な問題に適用される。

This paper presents a new variable selection approach integrated with Gaussian process (GP) regression. We consider a sparse projection of input variables and a general stationary covariance model that depends on the Euclidean distance between the projected features. The sparse projection matrix is considered as an unknown parameter. We propose a forward stagewise approach with embedded gradient descent steps to co-optimize the parameter with other covariance parameters based on the maximization of a non-convex marginal likelihood function with a concave sparsity penalty, and some convergence properties of the algorithm are provided. The proposed model covers a broader class of stationary covariance functions than the existing automatic relevance determination approaches, and the solution approach is more computationally feasible than the existing MCMC sampling procedures for the automatic relevance parameter estimation with a sparsity prior. The approach is evaluated for a large number of simulated scenarios. The choice of tuning parameters and the accuracy of the parameter estimation are evaluated with the simulation study. In the comparison to some chosen benchmark approaches, the proposed approach has provided a better accuracy in the variable selection. It is applied to an important problem of identifying environmental factors that affect an atmospheric corrosion of metal alloys.
翻訳日:2022-10-25 03:09:08 公開日:2020-08-25
# バイアス付き正則化と微調整における条件付きメタラーニングの利点

The Advantage of Conditional Meta-Learning for Biased Regularization and Fine-Tuning ( http://arxiv.org/abs/2008.10857v1 )

ライセンス: Link先を確認
Giulia Denevi, Massimiliano Pontil, Carlo Ciliberto(参考訳) バイアスレギュラー化と微調整は、最近の2つのメタラーニングアプローチである。 これらは、タスクの目標ベクトルが共通のメタパラメータベクトルに近接しているタスクの分布に取り組むのに効果的であることが示されている。 しかし、これらの手法はタスクの不均一な環境では性能が悪く、タスクの分布の複雑さは単一のメタパラメータベクトルではキャプチャできない。 条件付きメタラーニングによってこの問題に対処し、タスクのサイド情報をそのタスクに適したメタパラメータベクトルにマッピングする条件付き関数を推定する。 我々は,条件付きアプローチが標準的なメタラーニングよりも大きな優位性をもたらす環境の特性を特徴付け,これらの特性を満たす複数のクラスタを持つ環境の例を強調した。 次に、実際には同等の利点をもたらす凸メタアルゴリズムを提案する。 数値実験により理論的な結果が確認された。

Biased regularization and fine-tuning are two recent meta-learning approaches. They have been shown to be effective to tackle distributions of tasks, in which the tasks' target vectors are all close to a common meta-parameter vector. However, these methods may perform poorly on heterogeneous environments of tasks, where the complexity of the tasks' distribution cannot be captured by a single meta-parameter vector. We address this limitation by conditional meta-learning, inferring a conditioning function mapping task's side information into a meta-parameter vector that is appropriate for that task at hand. We characterize properties of the environment under which the conditional approach brings a substantial advantage over standard meta-learning and we highlight examples of environments, such as those with multiple clusters, satisfying these properties. We then propose a convex meta-algorithm providing a comparable advantage also in practice. Numerical experiments confirm our theoretical findings.
翻訳日:2022-10-25 03:08:14 公開日:2020-08-25
# LowFER: リンク予測のための低ランクバイリニアプール

LowFER: Low-rank Bilinear Pooling for Link Prediction ( http://arxiv.org/abs/2008.10858v1 )

ライセンス: Link先を確認
Saadullah Amin, Stalin Varanasi, Katherine Ann Dunfield, G\"unter Neumann(参考訳) 知識グラフは本質的に不完全であり、世界知識からの観測された事実は、実体間の構造的関係として表される。 この問題を部分的に解決するためには、統計的関係学習における重要な課題はリンク予測や知識グラフの補完である。 この問題を解決するために線形モデルと非線形モデルの両方が提案されている。 双線型モデルは表現力に富むが、過剰にフィットしやすく、関係数におけるパラメータの2次成長につながる。 より単純なモデルはより標準となり、関係パラメータとして双線型写像に一定の制約がある。 本研究では,マルチモーダル学習においてよく用いられる分解型双線形プールモデルを提案し,エンティティとリレーションの融合性を向上し,効率的かつ制約のないモデルを提案する。 我々は,モデルが完全表現的であることを証明し,埋め込み次元と分解ランクの有界性を示す。 本モデルでは,タッカー分解に基づくタッカーモデルを,性能を損なうことなく効率のよい低ランク近似として自然に一般化する。 低ランク近似により、モデル複雑性は因子化ランクによって制御でき、タッカーの立方体成長の可能性を回避できる。 経験的に、実世界のデータセットについて評価し、同等または最先端のパフォーマンスに到達します。 極端な低ランクでは、モデルはパラメータを効率的に保ちながら性能を維持する。

Knowledge graphs are incomplete by nature, with only a limited number of observed facts from the world knowledge being represented as structured relations between entities. To partly address this issue, an important task in statistical relational learning is that of link prediction or knowledge graph completion. Both linear and non-linear models have been proposed to solve the problem. Bilinear models, while expressive, are prone to overfitting and lead to quadratic growth of parameters in number of relations. Simpler models have become more standard, with certain constraints on bilinear map as relation parameters. In this work, we propose a factorized bilinear pooling model, commonly used in multi-modal learning, for better fusion of entities and relations, leading to an efficient and constraint-free model. We prove that our model is fully expressive, providing bounds on the embedding dimensionality and factorization rank. Our model naturally generalizes Tucker decomposition based TuckER model, which has been shown to generalize other models, as efficient low-rank approximation without substantially compromising the performance. Due to low-rank approximation, the model complexity can be controlled by the factorization rank, avoiding the possible cubic growth of TuckER. Empirically, we evaluate on real-world datasets, reaching on par or state-of-the-art performance. At extreme low-ranks, model preserves the performance while staying parameter efficient.
翻訳日:2022-10-25 03:08:01 公開日:2020-08-25
# 感性情報検出:コンテキストの符号化のための再帰的ニューラルネットワーク

Sensitive Information Detection: Recursive Neural Networks for Encoding Context ( http://arxiv.org/abs/2008.10863v1 )

ライセンス: Link先を確認
Jan Neerbek(参考訳) 処理と分類のためのデータの量は、ますます増加するペースで増加する。 同時に、組織、政府、企業におけるコラボレーションと透明性の要求は、内部リポジトリからパブリックまたはサードパーティドメインへのデータの公開を推進します。 これにより、機密情報を共有できる可能性が高まる。 機密情報の漏洩は、組織にとっても個人にとっても経済的にも非常にコストがかかる可能性がある。 本研究ではセンシティブな情報検出の重要な問題に対処する。 特に,構造化されていないテキスト文書の検出に注目する。 感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。 さらに,従来の最先端のアプローチは,このような単純なシナリオに暗黙的に調整されているため,実際のセンシティブなコンテンツの検出に失敗していることを示す。 我々は,生成規則のセットや記述的話題語へのアクセスといった非現実的な仮定ではなく,ラベル付き例へのアクセスのみを前提とした,センシティブな情報検出手法の新たなファミリーを開発した。 我々のアプローチはパラフレーゼ検出の現状に触発され、再帰的ニューラルネットワークに対するディープラーニングアプローチをセンシティブな情報検出問題に適用する。 我々の文脈ベースアプローチは,センシティブな情報検出,いわゆるキーワードベースアプローチ,実世界データ,および人間ラベル付きセンシティブで非センシティブな文書の例において,これまでの最先端の手法のファミリーを大きく上回っていることを示す。

The amount of data for processing and categorization grows at an ever increasing rate. At the same time the demand for collaboration and transparency in organizations, government and businesses, drives the release of data from internal repositories to the public or 3rd party domain. This in turn increase the potential of sharing sensitive information. The leak of sensitive information can potentially be very costly, both financially for organizations, but also for individuals. In this work we address the important problem of sensitive information detection. Specially we focus on detection in unstructured text documents. We show that simplistic, brittle rule sets for detecting sensitive information only find a small fraction of the actual sensitive information. Furthermore we show that previous state-of-the-art approaches have been implicitly tailored to such simplistic scenarios and thus fail to detect actual sensitive content. We develop a novel family of sensitive information detection approaches which only assumes access to labeled examples, rather than unrealistic assumptions such as access to a set of generating rules or descriptive topical seed words. Our approaches are inspired by the current state-of-the-art for paraphrase detection and we adapt deep learning approaches over recursive neural networks to the problem of sensitive information detection. We show that our context-based approaches significantly outperforms the family of previous state-of-the-art approaches for sensitive information detection, so-called keyword-based approaches, on real-world data and with human labeled examples of sensitive and non-sensitive documents.
翻訳日:2022-10-25 03:07:15 公開日:2020-08-25
# 深層ネットワークを用いた生理信号の科学的発見

Using Deep Networks for Scientific Discovery in Physiological Signals ( http://arxiv.org/abs/2008.10936v1 )

ライセンス: Link先を確認
Tom Beer, Bar Eini-Porat, Sebastian Goodfellow, Danny Eytan and Uri Shalit(参考訳) ディープニューラルネットワーク(DNN)は生理的信号の分類において顕著な成功を収めている。 本研究では、DNNの性能が、真に新しい特徴を発見するのとは対照的に、信号の既存の特徴を再発見することに依存するかを調べる方法を提案する。 さらに,ネットワークの仮説空間から手作業による特徴を除去する新たな手法を提案し,科学的探索の手法として,既知の特徴と異なる表現の学習を強制的に行おうとする。 次に、解釈可能性、特にクラスアクティベーションマップの分野における既存の作業に基づいて、ネットワークが学んだ新機能を推測します。 我々は、ECG信号とEEG信号を用いてこのアプローチを実証する。 心電図の信号から,心房細動の特定作業においては,DNNが既知の特徴を再発見する可能性が示唆された。 また,ECGの特徴を選択的に取り除き,その特徴を「再発見」することで,新たな特徴を発見できることを示す。 さらに,本手法を科学的仮説の検証ツールとして利用できるかを検討した。 脳波からの睡眠の分類における眼球運動の重要性を検討することで、このシナリオをシミュレートする。 我々のツールは、他の方法で隠されるであろうデータに光のパターンを持ち込むことで、研究者の注意を集中できることを示す。

Deep neural networks (DNN) have shown remarkable success in the classification of physiological signals. In this study we propose a method for examining to what extent does a DNN's performance rely on rediscovering existing features of the signals, as opposed to discovering genuinely new features. Moreover, we offer a novel method of "removing" a hand-engineered feature from the network's hypothesis space, thus forcing it to try and learn representations which are different from known ones, as a method of scientific exploration. We then build on existing work in the field of interpretability, specifically class activation maps, to try and infer what new features the network has learned. We demonstrate this approach using ECG and EEG signals. With respect to ECG signals we show that for the specific task of classifying atrial fibrillation, DNNs are likely rediscovering known features. We also show how our method could be used to discover new features, by selectively removing some ECG features and "rediscovering" them. We further examine how could our method be used as a tool for examining scientific hypotheses. We simulate this scenario by looking into the importance of eye movements in classifying sleep from EEG. We show that our tool can successfully focus a researcher's attention by bringing to light patterns in the data that would be hidden otherwise.
翻訳日:2022-10-25 03:06:54 公開日:2020-08-25
# 不均一データと計算環境における連合学習の加速

Accelerating Federated Learning in Heterogeneous Data and Computational Environments ( http://arxiv.org/abs/2008.11281v1 )

ライセンス: Link先を確認
Dimitris Stripelis and Jose Luis Ambite(参考訳) 機械学習の問題に関連するデータが、規制や競合性、プライバシの理由からデータを共有できない複数の場所に分散している状況があります。 例えば、ユーザーの携帯電話にあるデータ、特定の産業分野の企業の製造データ、または異なる病院にある医療記録などである。 さらに、参加サイトはデータ分散と計算能力が異なることが多い。 連合学習は、これらの環境で利用可能なすべてのデータに対して共同モデルを学ぶためのアプローチを提供する。 本稿では,分散検証セットに対するフェデレーションにおける学習者の性能を評価する新しい分散検証重み付けスキーム(dvw)を提案する。 各学習者は、そのローカルトレーニング例のごく一部(例:5%)を検証データセットとして予約し、他の学習者モデルに対する評価を可能にする。 我々はDVWがFedAvgのような既存の手法と比較して、データおよび計算上不均一な環境における同期通信プロトコルと非同期通信プロトコルの両方において優れた性能を示すことを実証的に示す。

There are situations where data relevant to a machine learning problem are distributed among multiple locations that cannot share the data due to regulatory, competitiveness, or privacy reasons. For example, data present in users' cellphones, manufacturing data of companies in a given industrial sector, or medical records located at different hospitals. Moreover, participating sites often have different data distributions and computational capabilities. Federated Learning provides an approach to learn a joint model over all the available data in these environments. In this paper, we introduce a novel distributed validation weighting scheme (DVW), which evaluates the performance of a learner in the federation against a distributed validation set. Each learner reserves a small portion (e.g., 5%) of its local training examples as a validation dataset and allows other learners models to be evaluated against it. We empirically show that DVW results in better performance compared to established methods, such as FedAvg, both under synchronous and asynchronous communication protocols in data and computationally heterogeneous environments.
翻訳日:2022-10-25 03:00:46 公開日:2020-08-25
# レストランビデオにおける時空間行動認識

Spatiotemporal Action Recognition in Restaurant Videos ( http://arxiv.org/abs/2008.11149v1 )

ライセンス: Link先を確認
Akshat Gupta, Milan Desai, Wusheng Liang, Magesh Kannan(参考訳) 時空間行動認識はビデオ内の行動の特定と分類のタスクである。 このプロジェクトでは,レストランの作業員が食事を準備するビデオ映像を分析し,自動チェックアウトや在庫管理などの応用の可能性について検討する。 このようなビデオは、小さなオブジェクトや迅速なアクション、不均衡なデータクラスなど、研究者が慣れ親しんだ標準化データセットとはまったく異なる。 2つのアプローチを探求する。 最初のアプローチは、おなじみのオブジェクト検出器You Only Look Onceと、最近提案されたアナログをアクション認識に応用するYou Only Watch Onceだ。 はじめに、畳み込みLSTMを用いたYOLOの繰り返し修正を設計、実装し、そのようなネットワークのトレーニングにおける様々な微妙さについて検討する。 第二に, ヨウの3次元畳み込みが, 固有データセットの時空間的特徴を捉える能力について検討する。

Spatiotemporal action recognition is the task of locating and classifying actions in videos. Our project applies this task to analyzing video footage of restaurant workers preparing food, for which potential applications include automated checkout and inventory management. Such videos are quite different from the standardized datasets that researchers are used to, as they involve small objects, rapid actions, and notoriously unbalanced data classes. We explore two approaches. The first approach involves the familiar object detector You Only Look Once, and another applying a recently proposed analogue for action recognition, You Only Watch Once. In the first, we design and implement a novel, recurrent modification of YOLO using convolutional LSTMs and explore the various subtleties in the training of such a network. In the second, we study the ability of YOWOs three dimensional convolutions to capture the spatiotemporal features of our unique dataset
翻訳日:2022-10-25 02:59:34 公開日:2020-08-25
# 分散ディープラーニングの新たな方向性:IoT設計の最前線にネットワークをもたらす

New Directions in Distributed Deep Learning: Bringing the Network at Forefront of IoT Design ( http://arxiv.org/abs/2008.10805v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Wei Chen, Radu Marculescu(参考訳) 本稿では,最先端のディープラーニングを大規模に導入する上で,まず3つの課題を取り上げる。 (i)ハードウェアに制約のあるIoTデバイス (II)IoT時代のデータセキュリティとプライバシ (iii)複数のIoTデバイスにまたがる分散推論のためのネットワーク対応ディープラーニングアルゴリズムの欠如。 次に,(1)深層ネットワーク学習のための連合学習,(2)学習アルゴリズムのデータ非依存展開,(3)コミュニケーションを意識した分散推論という3つの課題から自然に出現する3つの研究方向を対象とした統一的視点を提案する。 上記の研究の方向性は、エッジインテリジェンスを実現するためにネットワーク中心のアプローチが必要であり、そのため、IoTの真の可能性を完全に活用する、と私たちは考えています。

In this paper, we first highlight three major challenges to large-scale adoption of deep learning at the edge: (i) Hardware-constrained IoT devices, (ii) Data security and privacy in the IoT era, and (iii) Lack of network-aware deep learning algorithms for distributed inference across multiple IoT devices. We then provide a unified view targeting three research directions that naturally emerge from the above challenges: (1) Federated learning for training deep networks, (2) Data-independent deployment of learning algorithms, and (3) Communication-aware distributed inference. We believe that the above research directions need a network-centric approach to enable the edge intelligence and, therefore, fully exploit the true potential of IoT.
翻訳日:2022-10-25 02:59:18 公開日:2020-08-25
# GANスリム化:統一最適化フレームワークによるオールインワンGAN圧縮

GAN Slimming: All-in-One GAN Compression by A Unified Optimization Framework ( http://arxiv.org/abs/2008.11062v1 )

ライセンス: Link先を確認
Haotao Wang, Shupeng Gui, Haichuan Yang, Ji Liu, Zhangyang Wang(参考訳) generative adversarial networks (gans) は様々なコンピュータビジョンアプリケーションで人気が高まり、最近はリソースに制約されたモバイルデバイスにデプロイされるようになった。 他の深層モデルと同様に、最先端のganは高いパラメータの複雑さに苦しむ。 これは最近gan(通常はジェネレータ)を圧縮する探検の動機となった。 深層分類器の圧縮に成功している膨大な文献と比較すると、GAN圧縮の研究はまだ初期段階にあり、より洗練された組み合わせではなく個々の圧縮技術を活用している。 GANのトレーニングの不安定さが悪名高いため、異なる圧縮テクニックをヒューリスティックに積み重ねることで、満足できない結果が得られます。 そこで本稿では,GAN Slimming (GS) と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。 GSは、モデル蒸留、チャネルプルーニング、量子化の3つの主要な圧縮技術と、GANのミニマックス目標を1つの統一最適化形式に統合し、終端から終端まで効率的に最適化することができる。 ベルとホイッスルがなければ、GSは画像から画像への変換のGANを圧縮する既存の選択肢よりも優れている。 具体的には、GSを用いて、最先端の転送ネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。 コードと事前訓練されたモデルはhttps://github.com/TAMU-VITA/GAN-Slimmingで見ることができる。

Generative adversarial networks (GANs) have gained increasing popularity in various computer vision applications, and recently start to be deployed to resource-constrained mobile devices. Similar to other deep models, state-of-the-art GANs suffer from high parameter complexities. That has recently motivated the exploration of compressing GANs (usually generators). Compared to the vast literature and prevailing success in compressing deep classifiers, the study of GAN compression remains in its infancy, so far leveraging individual compression techniques instead of more sophisticated combinations. We observe that due to the notorious instability of training GANs, heuristically stacking different compression techniques will result in unsatisfactory results. To this end, we propose the first unified optimization framework combining multiple compression means for GAN compression, dubbed GAN Slimming (GS). GS seamlessly integrates three mainstream compression techniques: model distillation, channel pruning and quantization, together with the GAN minimax objective, into one unified optimization form, that can be efficiently optimized from end to end. Without bells and whistles, GS largely outperforms existing options in compressing image-to-image translation GANs. Specifically, we apply GS to compress CartoonGAN, a state-of-the-art style transfer network, by up to 47 times, with minimal visual quality degradation. Codes and pre-trained models can be found at https://github.com/TAMU-VITA/GAN-Slimming.
翻訳日:2022-10-25 02:59:05 公開日:2020-08-25
# 文埋め込みのドメイン適応のための簡易手法

A simple method for domain adaptation of sentence embeddings ( http://arxiv.org/abs/2008.11228v1 )

ライセンス: Link先を確認
Anna Kruspe(参考訳) 事前訓練された文の埋め込みは、様々なNLPタスクに非常に有用であることが示されている。 このような埋め込みのトレーニングには大量のデータが必要であるため、さまざまなテキストデータに基づいてトレーニングされることが多い。 特定の領域への適応は多くのケースで結果を改善するが、そのような微調整は通常問題依存であり、適応に使用されるデータに過度に適応するリスクを引き起こす。 本稿では,Siameseアーキテクチャを用いて,GoogleのUniversal Sentence Encoder(USE)を微調整するための簡易なユニバーサル手法を提案する。 我々は,このアプローチを様々なデータセットに適用する方法を示し,類似した問題を表わす異なるデータセットに結果を提示する。 このアプローチは、これらのデータセットの従来の微調整と比較される。 さらに利点として、このアプローチはデータセットと異なるアノテーションを組み合わせるのに使うことができる。 また、すべてのデータセットに並列に埋め込まれた埋め込みも提示する。

Pre-trained sentence embeddings have been shown to be very useful for a variety of NLP tasks. Due to the fact that training such embeddings requires a large amount of data, they are commonly trained on a variety of text data. An adaptation to specific domains could improve results in many cases, but such a finetuning is usually problem-dependent and poses the risk of over-adapting to the data used for adaptation. In this paper, we present a simple universal method for finetuning Google's Universal Sentence Encoder (USE) using a Siamese architecture. We demonstrate how to use this approach for a variety of data sets and present results on different data sets representing similar problems. The approach is also compared to traditional finetuning on these data sets. As a further advantage, the approach can be used for combining data sets with different annotations. We also present an embedding finetuned on all data sets in parallel.
翻訳日:2022-10-25 02:57:22 公開日:2020-08-25
# 畳み込みニューラルネットワークの最適化のためのチャネル指向勾配

Channel-Directed Gradients for Optimization of Convolutional Neural Networks ( http://arxiv.org/abs/2008.10766v1 )

ライセンス: Link先を確認
Dong Lao, Peihao Zhu, Peter Wonka, Ganesh Sundaramoorthi(参考訳) 本稿では,畳み込みニューラルネットワークの最適化手法を提案する。 この方法は既存の確率勾配の単純な処理しか必要とせず、任意の最適化器と組み合わせて使用することができ、確率勾配の計算と比較して線形オーバーヘッド(パラメータ数)しか持たない。 この方法は、パラメータテンソルの特定の方向にわたって勾配の成分を平滑化させる効果を持つ出力チャネル指向再重み付けl2またはソボレフ計量に対する損失関数の勾配を計算することで動作する。 出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。 このような勾配の連続理論とその離散化と深層ネットワークへの応用について述べる。 ベンチマークデータセット、複数のネットワーク、ベースラインオプティマイザの実験では、出力チャネル指向メトリクスに対する確率勾配を単純に計算することで、最適化器を一般化誤差で改善できることが示されている。

We introduce optimization methods for convolutional neural networks that can be used to improve existing gradient-based optimization in terms of generalization error. The method requires only simple processing of existing stochastic gradients, can be used in conjunction with any optimizer, and has only a linear overhead (in the number of parameters) compared to computation of the stochastic gradient. The method works by computing the gradient of the loss function with respect to output-channel directed re-weighted L2 or Sobolev metrics, which has the effect of smoothing components of the gradient across a certain direction of the parameter tensor. We show that defining the gradients along the output channel direction leads to a performance boost, while other directions can be detrimental. We present the continuum theory of such gradients, its discretization, and application to deep networks. Experiments on benchmark datasets, several networks and baseline optimizers show that optimizers can be improved in generalization error by simply computing the stochastic gradient with respect to output-channel directed metrics.
翻訳日:2022-10-25 02:51:02 公開日:2020-08-25
# CnGAN:非オーバーラップユーザのためのクロスネットワークユーザ嗜好生成のためのジェネレーティブ・アドバイザラル・ネットワーク

CnGAN: Generative Adversarial Networks for Cross-network user preference generation for non-overlapped users ( http://arxiv.org/abs/2008.10845v1 )

ライセンス: Link先を確認
Dilruk Perera and Roger Zimmermann(参考訳) クロスネットワーク・レコメンデーション・ソリューションの大きな欠点は、ネットワーク間で重複しているユーザーにのみ適用できることである。 したがって、大多数のユーザを構成する非オーバーラップされたユーザは無視される。 そこで本研究では,新しいマルチタスク学習型エンコーダGAN-RecommenderアーキテクチャであるCnGANを提案する。 提案モデルは,ターゲットからソースネットワークへのマッピングを学習することにより,非オーバーラップユーザに対するソースネットワークユーザの好みを合成的に生成する。 その結果、ユーザの好みは、Siameseネットワークベースのニューラルレコメンデータアーキテクチャで使用される。 さらに,マルチタスク学習環境における生成プロセスを導くために,暗黙的インタラクションを用いたレコメンデーションのための新しいユーザベースペアワイズ損失関数を提案する。 大規模な実験によると、生成した好みは、オーバーラップしないユーザの推奨を改善するために使用できる。 その結果、精度、新規性、多様性の観点から、最先端のクロスネットワーク推奨ソリューションと比較して優れたパフォーマンスが得られる。

A major drawback of cross-network recommender solutions is that they can only be applied to users that are overlapped across networks. Thus, the non-overlapped users, which form the majority of users are ignored. As a solution, we propose CnGAN, a novel multi-task learning based, encoder-GAN-recommender architecture. The proposed model synthetically generates source network user preferences for non-overlapped users by learning the mapping from target to source network preference manifolds. The resultant user preferences are used in a Siamese network based neural recommender architecture. Furthermore, we propose a novel user based pairwise loss function for recommendations using implicit interactions to better guide the generation process in the multi-task learning environment.We illustrate our solution by generating user preferences on the Twitter source network for recommendations on the YouTube target network. Extensive experiments show that the generated preferences can be used to improve recommendations for non-overlapped users. The resultant recommendations achieve superior performance compared to the state-of-the-art cross-network recommender solutions in terms of accuracy, novelty and diversity.
翻訳日:2022-10-25 02:50:32 公開日:2020-08-25
# 因果モデルにおける変分推論による公正予測の改善

Improving Fair Predictions Using Variational Inference In Causal Models ( http://arxiv.org/abs/2008.10880v1 )

ライセンス: Link先を確認
Rik Helwegen, Christos Louizos and Patrick Forr\'e(参考訳) アルゴリズム的公正の重要性は、機械学習が人々の生活に与える影響の増加とともに増大する。 フェアネス指標に関する最近の研究は、フェアネス制約における因果推論の必要性を示している。 本研究では, 因果経路の公平性制約を組み込んだフレキシブルな予測モデルを作成するためのFairTradeという実用的な手法を提案する。 この方法は、観測されていない共同設立者を説明するために、最近の変分推論の進歩を利用する。 さらに,ブラックボックスモデルの評価に因果メカニズム推定を用いた方法の概要を提案する。 不法社会福祉検出の文脈において,シミュレーションデータと実データセットを用いて実験を行った。 この研究は、倫理的・法的境界を尊重する機械学習技術に貢献することを目的としている。

The importance of algorithmic fairness grows with the increasing impact machine learning has on people's lives. Recent work on fairness metrics shows the need for causal reasoning in fairness constraints. In this work, a practical method named FairTrade is proposed for creating flexible prediction models which integrate fairness constraints on sensitive causal paths. The method uses recent advances in variational inference in order to account for unobserved confounders. Further, a method outline is proposed which uses the causal mechanism estimates to audit black box models. Experiments are conducted on simulated data and on a real dataset in the context of detecting unlawful social welfare. This research aims to contribute to machine learning techniques which honour our ethical and legal boundaries.
翻訳日:2022-10-25 02:49:55 公開日:2020-08-25
# 包括的レコメンダシステムに向けて:暗黙のクロスネットワークデータのリストワイズランキングに基づく時間対応統一型コンメンデーション

Towards Comprehensive Recommender Systems: Time-Aware UnifiedcRecommendations Based on Listwise Ranking of Implicit Cross-Network Data ( http://arxiv.org/abs/2008.13516v1 )

ライセンス: Link先を確認
Dilruk Perera and Roger Zimmermann(参考訳) Webアプリケーションにおける情報の豊富さは、ユーザだけでなくアプリケーションにも不可欠である。 既存のレコメンデーションシステムの有効性にもかかわらず,(1)新規ユーザと既存ユーザの両方に対して,ユーザの嗜好の動的な性質を考慮してタイムリーなレコメンデーションを提供できないこと,(2)暗黙のフィードバックを用いた場合のランキングタスクに完全に最適化されていないこと,という2つの大きな制限がある。 そこで本研究では,新たな深層学習型統合クロスネットワークソリューションを提案し,冷スタート問題とデータスパーシティ問題を軽減し,新規ユーザと既存ユーザに対してタイムリーなレコメンデーションを提供する。さらに,暗黙フィードバック下でのランキング問題を分類タスクとして考慮し,暗黙データに対するリストワイズ最適化基準を汎用的に提案し,アイテムのリストを効果的にランク付けする。 youtubeターゲットネットワーク上でのレコメンデーションにtwitterの補助情報を用いたクロスネットワークモデルを提案する。 マルチタイムアウェアネスとクロスネットワークベースラインとの大規模な比較は,提案手法が精度,ノベルティ,多様性の点で優れていることを示している。 さらに, 人気のあるmovielensデータセットを用いた実験により, 提案手法が既存の最先端ランキング手法を上回っていることが示唆された。

The abundance of information in web applications make recommendation essential for users as well as applications. Despite the effectiveness of existing recommender systems, we find two major limitations that reduce their overall performance: (1) inability to provide timely recommendations for both new and existing users by considering the dynamic nature of user preferences, and (2) not fully optimized for the ranking task when using implicit feedback. Therefore, we propose a novel deep learning based unified cross-network solution to mitigate cold-start and data sparsity issues and provide timely recommendations for new and existing users.Furthermore, we consider the ranking problem under implicit feedback as a classification task, and propose a generic personalized listwise optimization criterion for implicit data to effectively rank a list of items. We illustrate our cross-network model using Twitter auxiliary information for recommendations on YouTube target network. Extensive comparisons against multiple time aware and cross-network base-lines show that the proposed solution is superior in terms of accuracy, novelty and diversity. Furthermore, experiments conducted on the popular MovieLens dataset suggest that the proposed listwise ranking method outperforms existing state-of-the-art ranking techniques.
翻訳日:2022-10-25 02:49:46 公開日:2020-08-25
# 多変量時系列データを用いた機械学習の反事実的説明

Counterfactual Explanations for Machine Learning on Multivariate Time Series Data ( http://arxiv.org/abs/2008.10781v1 )

ライセンス: Link先を確認
Emre Ates, Burak Aksar, Vitus J. Leung, Ayse K. Coskun(参考訳) 多変量時系列データへの機械学習(ML)の適用は、コンピュータシステム管理を含む多くのアプリケーション領域で人気が高まっている。 例えば、最近のハイパフォーマンスコンピューティング(HPC)研究は、多変量時系列の形でシステムテレメトリデータを使用するさまざまなMLフレームワークを提案し、パフォーマンスの変動を検出し、インテリジェントなスケジューリングやノード割り当てを行い、システムのセキュリティを改善している。 これらのMLフレームワークを採用する上で共通の障壁は、ユーザ信頼の欠如とデバッグの難しさである。 これらの障壁は、プロダクションシステムでMLフレームワークを広く採用するために克服する必要がある。 この課題に対処するために,多変量時系列データを用いた教師付きMLフレームワークに対して,対実的説明を提供するための新しい説明可能性手法を提案する。 提案手法は,信頼性やロバスト性など,いくつかの異なるMLフレームワークやデータセット上での最先端の説明可能性手法よりも優れている。 また,提案手法を用いてMLフレームワークをデバッグし,HPCシステムテレメトリデータの理解を深める方法について述べる。

Applying machine learning (ML) on multivariate time series data has growing popularity in many application domains, including in computer system management. For example, recent high performance computing (HPC) research proposes a variety of ML frameworks that use system telemetry data in the form of multivariate time series so as to detect performance variations, perform intelligent scheduling or node allocation, and improve system security. Common barriers for adoption for these ML frameworks include the lack of user trust and the difficulty of debugging. These barriers need to be overcome to enable the widespread adoption of ML frameworks in production systems. To address this challenge, this paper proposes a novel explainability technique for providing counterfactual explanations for supervised ML frameworks that use multivariate time series data. The proposed method outperforms state-of-the-art explainability methods on several different ML frameworks and data sets in metrics such as faithfulness and robustness. The paper also demonstrates how the proposed method can be used to debug ML frameworks and gain a better understanding of HPC system telemetry data.
翻訳日:2022-10-25 02:49:20 公開日:2020-08-25
# エントロピー正規化価値ベース強化学習における単調政策改善の確保

Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based Reinforcement Learning ( http://arxiv.org/abs/2008.10806v1 )

ライセンス: Link先を確認
Lingwei Zhu and Takamitsu Matsubara(参考訳) 本稿では,各政策更新における方針の単調な改善を確実にするエントロピー規則化値に基づく強化学習手法を確立することを目的とする。 一般無限水平 MDP における政策改善に関する以前提案された下界とは異なり、エントロピー正則化は下界を意識する。 我々のバウンダリは、期待される政策優位関数を推定することしか必要としないため、大規模(連続的な)状態空間問題にスケーラブルである。 本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。 本稿では,線形関数近似器を用いた離散状態迷路と連続状態逆振り子タスクの両方におけるアプローチの有効性を示す。

This paper aims to establish an entropy-regularized value-based reinforcement learning method that can ensure the monotonic improvement of policies at each policy update. Unlike previously proposed lower-bounds on policy improvement in general infinite-horizon MDPs, we derive an entropy-regularization aware lower bound. Since our bound only requires the expected policy advantage function to be estimated, it is scalable to large-scale (continuous) state-space problems. We propose a novel reinforcement learning algorithm that exploits this lower-bound as a criterion for adjusting the degree of a policy update for alleviating policy oscillation. We demonstrate the effectiveness of our approach in both discrete-state maze and continuous-state inverted pendulum tasks using a linear function approximator for value estimation.
翻訳日:2022-10-25 02:49:03 公開日:2020-08-25