このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210905となっている論文です。

PDF登録状況(公開日: 20210905)

TitleAuthorsAbstract論文公表日・翻訳日
# 環境支援量子輸送と移動エッジ

Environment-assisted quantum transport and mobility edges ( http://arxiv.org/abs/2012.09337v4 )

ライセンス: Link先を確認
Donny Dwiputra, Freddy P. Zen(参考訳) 環境支援量子トランスポート(ENAQT)は、環境ノイズがオープン量子システムのトランスポートを強化するというユニークな状況である。 本論文では, 1次元の単一粒子移動端の存在が, 強いENAQTを生成する方法を検討する。 そこで本研究では,aah(generally aubry-andr\'e-harper)タイト結合モデル(aah)のエッジに結合したエネルギー電流を,温度の異なるスピン浴と系内のノイズの強調により検討する。 ENAQTは桁違いに増加し,非単調な局所固有状態と障害強度に依存していることがわかった。 この強化は、人口均一化と地域化の連携の結果であることを示す。

Environment-assisted quantum transport (ENAQT) is a unique situation where environmental noise can, counterintuitively, enhance the transport of an open quantum system. In this paper, we investigate how the presence of a one-dimensional single-particle mobility edge can generate strong ENAQT. For this purpose, we study the energy current of a generalized Aubry-Andr\'e-Harper (AAH) tight binding model coupled at its edges to spin baths of differing temperature and dephasing noise along the system. We find that the ENAQT increases by orders of magnitude and depends on the number of localized eigenstates and disorder strength nonmonotonically. We show that this enhancement is the result of the cooperation between population uniformization and localization.
翻訳日:2023-04-20 08:47:35 公開日:2021-09-05
# 励起状態量子位相を同定する運動定数

Constant of motion identifying excited-state quantum phases ( http://arxiv.org/abs/2103.10762v2 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no(参考訳) 我々は、励起状態量子相転移(esqpts)の幅広いクラスが、2つの異なる励起状態量子相をもたらすことを提案する。 これらの位相は演算子 $\hat{\mathcal{c}}$ によって同定される。 したがって、ESQPT臨界エネルギーはスペクトルを、物理可観測物の平衡期待値がこの運動定数に決定的に依存する1つの位相と、エネルギーが唯一の関連する熱力学的大きさである別の位相に分割する。 この作用素の商標的特徴は、2つの異なる固有値、$\pm1$を持ち、したがってこの2つの位相の最初の離散対称性として機能するということである。 第一のケースでは、$\hat{\mathcal{c}}$ は、退化二重項から臨界直線を渡る際の非退化固有レベルへの変化を説明する。 我々はラビとディッケのモデルにおいて厳密な数値的証拠を示し、この結果は熱力学的極限に完全であり、有限サイズの補正はパワーローとして減少することを示唆している。

We propose that a broad class of excited-state quantum phase transitions (ESQPTs) gives rise to two different excited-state quantum phases. These phases are identified by means of an operator, $\hat{\mathcal{C}}$, which is a constant of motion only in one of them. Hence, the ESQPT critical energy splits the spectrum into one phase where the equilibirium expectation values of physical observables crucially depend on this constant of motion, and another phase where the energy is the only relevant thermodynamic magnitude. The trademark feature of this operator is that it has two different eigenvalues, $\pm1$, and therefore it acts as a discrete symmetry in the first of these two phases. This scenario is observed in systems with and without an additional discrete symmetry; in the first case, $\hat{\mathcal{C}}$ explains the change from degenerate doublets to non-degenerate eigenlevels upon crossing the critical line. We present stringent numerical evidence in the Rabi and Dicke models, suggesting that this result is exact in the thermodynamic limit, with finite-size corrections that decrease as a power-law.
翻訳日:2023-04-07 10:52:33 公開日:2021-09-05
# 量子ネットワークの量子ビット候補としての二重イオン化ランタン

Doubly-ionized lanthanum as a qubit candidate for quantum networks ( http://arxiv.org/abs/2109.01978v1 )

ライセンス: Link先を確認
S. Olmschenk(参考訳) 量子ネットワークの量子ビット候補として二重イオン化ランタン (la$^{2+}$) を提案する。 原子の最も低いレベル間の遷移は赤外線にあり、長距離量子通信で直接物質-光界面を制御できる。 これらの遷移はLa$^{2+}$イオンを直接レーザー冷却するためにも用いられる。 イオンの豊富な超微細構造は、磁場に敏感な状態に格納された量子ビットと、原子-光子絡みのプロトコルを許容する。

We propose doubly-ionized lanthanum (La$^{2+}$) as a possible qubit candidate for quantum networks. Transitions between the lowest levels in the atom are in the infrared, enabling a direct matter-light interface amenable to long-distance quantum communication. These transitions could also be used to directly laser-cool trapped La$^{2+}$ ions. The rich hyperfine structure of the ion may allow for a qubit stored in magnetic-field insensitive states, as well as protocols for atom-photon entanglement.
翻訳日:2023-03-16 02:56:09 公開日:2021-09-05
# 階層的量子ビットマップと階層的量子誤差補正

Hierarchical Qubit Maps and Hierarchical Quantum Error Correction ( http://arxiv.org/abs/2109.01953v1 )

ライセンス: Link先を確認
Natalie Klco and Martin J. Savage(参考訳) 我々は、論理量子ビットの忠実度を差分最適化し、量子デバイスの性能を向上させる階層的に実装された量子エラー補正(HI-QEC)を考える。 擬似システムの階層を論理的クビット雑音感性に伝達するクビット表現を利用することで、物理-論理的クビット分布の不均一性を体系的に構成することができる。 具体的には、HI-QECの低エネルギー観測値計算における表面コードリソースへの影響を定精度で推定し、早期誤差補正シミュレーションで検証可能な量子ビット要求の最大$\sim 60\%の削減を求める。 階層的量子ビット写像は、不意に、あるいは設計によって、フィディリティが一様でない qubit や qudit システムでは誤り訂正なしでも可能である。 階層最適化は、核と粒子物理学のための量子シミュレーションの共設計プロセスにおけるもう一つの要素である。

We consider hierarchically implemented quantum error correction (HI-QEC), in which the fidelities of logical qubits are differentially optimized to enhance the capabilities of quantum devices in scientific applications. By employing qubit representations that propagate hierarchies in simulated systems to those in logical qubit noise sensitivities, heterogeneity in the distribution of physical-to-logical qubits can be systematically structured. For concreteness, we estimate HI-QEC's impact on surface code resources in computing low-energy observables to fixed precision, finding up to $\sim 60\%$ reductions in qubit requirements plausible in early error corrected simulations. Hierarchical qubit maps are also possible without error correction in qubit and qudit systems where fidelities are non-uniform, either unintentionally or by design. Hierarchical optimizations are another element in the co-design process of quantum simulations for nuclear and particle physics.
翻訳日:2023-03-16 02:55:53 公開日:2021-09-05
# グローバルクエリとの接続のクエリ複雑性について

On the query complexity of connectivity with global queries ( http://arxiv.org/abs/2109.02115v1 )

ライセンス: Link先を確認
Arinta Auza and Troy Lee(参考訳) グラフがグローバルクエリと接続されているかどうかを判断するクエリの複雑さについて検討する。 最初に見るモデルは、隣接行列に対する行列-ベクトル乗法クエリです。 ここで、隣接行列 $a$ を持つ$n$-vertex グラフに対して、ベクトル $x \in \{0,1\}^n$ をクエリし、答え $ax$ を受け取ることができる。 重み付きグラフのスパンディングフォレストを一定の確率で出力できるランダム化アルゴリズムを,随伴行列に対する$o(\log^4(n))$ matrix-vector乗算クエリの後に与える。 これはsunとalの結果を補完する。 O(\log^4(n))$Matrix-vector乗算クエリの後にグラフのスパンニングフォレストをグラフの符号付き頂点入射行列に出力できるランダム化アルゴリズム(ICALP 2019)を提供する。 応用として、量子アルゴリズムは、$O(\log^5(n))$カットクエリの後に非重み付きグラフのスパンニングフォレストを出力し、Lee, Santha, Zhang(SODA 2021)の結果を改善し、単純化することで、有界な$O(\log^8(n))$を与える。 論文の第2部では、グラフが接続されているかどうかを決定する線形クエリの複雑さについて、より低い境界を示す。 もし$w$ がグラフの重みベクトル ($\binom{n}{2}$ dimensional vector) であるなら、線型クエリでは任意のベクトル $z \in \mathbb{r}^{n \choose 2}$ をクエリし、答え $\langle z, w\rangle$ を受け取ることができる。 ゼロエラーランダム化アルゴリズムは接続性を解決するために$\Omega(n)$リニアクエリを生成する必要がある。 我々が知る限り、これは接続の制限のない線形クエリの複雑さにおいて、あらゆる種類の最初の下限である。 我々は、接続の線形クエリ \emph{certificate complexity} を見てこの下限を示し、この証明複雑性を線形代数的方法で特徴づける。

We study the query complexity of determining if a graph is connected with global queries. The first model we look at is matrix-vector multiplication queries to the adjacency matrix. Here, for an $n$-vertex graph with adjacency matrix $A$, one can query a vector $x \in \{0,1\}^n$ and receive the answer $Ax$. We give a randomized algorithm that can output a spanning forest of a weighted graph with constant probability after $O(\log^4(n))$ matrix-vector multiplication queries to the adjacency matrix. This complements a result of Sun et al.\ (ICALP 2019) that gives a randomized algorithm that can output a spanning forest of a graph after $O(\log^4(n))$ matrix-vector multiplication queries to the signed vertex-edge incidence matrix of the graph. As an application, we show that a quantum algorithm can output a spanning forest of an unweighted graph after $O(\log^5(n))$ cut queries, improving and simplifying a result of Lee, Santha, and Zhang (SODA 2021), which gave the bound $O(\log^8(n))$. In the second part of the paper, we turn to showing lower bounds on the linear query complexity of determining if a graph is connected. If $w$ is the weight vector of a graph (viewed as an $\binom{n}{2}$ dimensional vector), in a linear query one can query any vector $z \in \mathbb{R}^{n \choose 2}$ and receive the answer $\langle z, w\rangle$. We show that a zero-error randomized algorithm must make $\Omega(n)$ linear queries in expectation to solve connectivity. As far as we are aware, this is the first lower bound of any kind on the unrestricted linear query complexity of connectivity. We show this lower bound by looking at the linear query \emph{certificate complexity} of connectivity, and characterize this certificate complexity in a linear algebraic fashion.
翻訳日:2023-03-16 02:52:16 公開日:2021-09-05
# 複合量子共振子相互作用による非平衡熱電流と2光子統計のチューニング

Tuning nonequilibrium heat current and two-photon statistics via composite qubit-resonator interaction ( http://arxiv.org/abs/2109.02089v1 )

ライセンス: Link先を確認
Zhe-Huan Chen, Han-Xin Che, Zhe-Kai Chen, Chen Wang, Jie Ren(参考訳) 量子熱輸送と2光子統計は、回路量子力学系における2つの代表的な非平衡の特徴である。 本研究では,単一モード光共振器に対して1量子ビットが横結合と縦結合を示す複合量子共振器モデルにおいて,定常状態における量子熱流と2光子相関関数について検討する。 弱い量子共振子相互作用により, 2つの微視的輸送像,すなわちコネネリングとサイクリック熱交換過程をそれぞれ横結合と縦結合に対応させて解き明かす。 強い量子共鳴子カップリングでは、熱流は量子共鳴子カップリング強度を高めて非単調な挙動を示し、量子ビットと対応する熱浴の間の散乱過程に強く依存する。 さらに、強いクビット共振器結合系における熱電流を高めるために、長手結合が好ましい。 2光子相関関数では、第一励起固有状態と第二励起固有状態の間のエネルギーギャップの変調が主成分である反束-束縛遷移を示す。 回路量子力学プラットフォームに基づく非平衡熱輸送と非古典光子放射の理解を深めることが期待されている。

Quantum thermal transport and two-photon statistics serve as two representative nonequilibrium features in circuit quantum electrodynamics systems. Here, we investigate quantum heat flow and two-photon correlation function at steady-state in a composite qubit-resonator model, where one qubit shows both transverse and longitudinal couplings to a single-mode optical resonator. With weak qubit-resonator interaction, we unravel two microscopic transport pictures, i.e., cotunneling and cyclic heat exchange processes, corresponding to transverse and longitudinal couplings respectively. At strong qubit-resonator coupling, the heat current exhibits nonmonotonic behavior by increasing qubit-resonator coupling strength, which tightly relies on the scattering processes between the qubit and corresponding thermal bath. Furthermore, the longitudinal coupling is preferred to enhance heat current in strong qubit-resonator coupling regime. For two-photon correlation function, it exhibits an antibunching-to-bunching transition, which is mainly dominated by the modulation of energy gap between the first and second excited eigenstates. Our results are expected to deepen the understanding of nonequilibrium thermal transport and nonclassical photon radiation based on the circuit quantum electrodynamics platform.
翻訳日:2023-03-16 02:51:22 公開日:2021-09-05
# 単純検出型LIDARのための隠れた単一光子の実用的小型光源

A practical compact source of heralded single photons for simple detection LIDAR ( http://arxiv.org/abs/2109.02055v1 )

ライセンス: Link先を確認
Mateusz P. Mrozowski, John Jeffers, Jonathan D. Pritchard(参考訳) 量子センシング、量子暗号、量子計算といった光学量子技術はすべて、精密光子数や絡み合った光子ペア状態といった非古典光の性質を利用して、古典光に基づく技術を超える。 ヘラルド単一光子を得る一般的な経路は、光ファイバーの自発的4波混合であり、光ファイバーネットワークへの高効率統合のために、空間モードが明確に定義できる。 これらのファイバーは通常、高出力(10W)のポンプレーザーを必要とする大型で商用のパルスレーザーを使用してポンプされる。 本稿では,コスト効率,コンパクト,モバイルの代替案を提案する。 660 nmと960 nmの光子対は商業用複屈折光ファイバの4波混合を用いて作成され、キャビティエンハンス光周波数コム生成を用いた785 nm cwレーザーダイオード由来のghz繰り返し率の変換制限ピコ秒パルスを用いて励起される。 パルスは平均出力275 mw、ピーク出力40 w以上、光子収率は毎秒2000組以上と予測されている。 この設計は後に、信号とアイドラーの合同測定ではなく、アイドラーと信号光子の一致カウントに基づく量子照明スキームを実装するために使用される。 これにより、自由空間における干渉性安定性を維持する必要なしに、古典的なLIDARよりも量子的に有利になる。

Optical quantum technologies such as quantum sensing, quantum cryptography and quantum computation all utilize properties of non-classical light, such as precise photon-number and entangled photon-pair states, to surpass technologies based on the classical light. A common route for obtaining heralded single photons is spontaneous four-wave mixing in optical fibers, allowing for a well-defined spatial mode, for high efficiency integration into optical fiber networks. These fibers are typically pumped using large, commercial, pulsed lasers requiring high-power (~10 W) pump lasers and are limited to ~MHz repetition rate. Here we propose a cost-efficient, compact and mobile alternative. Photon pairs at 660 nm and 960 nm will be created using four-wave mixing in commercial birefringent optical fiber, pumped using transform limited picosecond pulses with GHz repetition rates derived from a 785 nm CW laser diode using cavity-enhanced optical frequency comb generation. The pulses are predicted to have average power of 275 mW, a peak power of >40 W, and predicted photon yield of >2000 pairs detected per second. This design will be later utilized to implement a quantum illumination scheme based on a coincidence count between idler and signal photons - instead of joint measurement between signal and idler. This will allow for quantum advantage over classic LIDAR without the requirement for maintaining an interferometric stability in free space.
翻訳日:2023-03-16 02:51:00 公開日:2021-09-05
# 量子後vrfと今後のブロックチェーンシステムへの応用

Post-Quantum VRF and its Applications in Future-Proof Blockchain System ( http://arxiv.org/abs/2109.02012v1 )

ライセンス: Link先を確認
Zengpeng Li, Teik Guan Tan, Pawel Szalachowski, Vishal Sharma, Jianying Zhou(参考訳) 検証可能なランダム関数(英: verible random function、略してVRF)は、その出力の正しさの非対話的に公証な証明を提供する強力な擬ランダム関数である。 最近VRFは、ランダムビーコンや実証・オブ・テイクコンセンサスプロトコルなど、ブロックチェーン設計に不可欠なアプリケーションを見つけている。 私たちの知る限り、第1世代のブロックチェーンシステムは本質的に非効率な作業証明コンセンサスを使用しており、研究コミュニティは、リソース集約的な作業証明が暗号化構造によってエミュレートされる、概念実証スキームを提案して、同じ特性を実現しようとしました。 残念なことに、最も議論された証明のコンセンサス(例えば、アルゴランとウロボラスの家族)は、ビルディングブロックは古典的なハードな仮定の下でのみ安全であり、特に、それらの設計は量子コンピューティングの出現とその影響を無視している。 本稿では,量子安全性に本質的な性質を持つ対称鍵プリミティブ(非対話型ゼロ知識システムなど)を用いて,単純なvrf解から量子後vrfを得る汎用コンパイラを提案する。 提案手法は,ZKBooとZKB++の2つの効率的なゼロ知識システムを用いて,コンパイラの正確性を検証する。 我々の概念実証実装は、今日でも、ソリューションによって導入されたオーバーヘッドが実際のデプロイメントで許容されることを示している。 また、量子セキュアなVRF(quantum-secure decentralized random beacon)や、抽選に基づくブロックチェーンプロトコルの証明など、潜在的な応用を実証する。

A verifiable random function (VRF in short) is a powerful pseudo-random function that provides a non-interactively public verifiable proof for the correctness of its output. Recently, VRFs have found essential applications in blockchain design, such as random beacons and proof-of-stake consensus protocols. To our knowledge, the first generation of blockchain systems used inherently inefficient proof-of-work consensuses, and the research community tried to achieve the same properties by proposing proof-of-stake schemes where resource-intensive proof-of-work is emulated by cryptographic constructions. Unfortunately, those most discussed proof-of-stake consensuses (e.g., Algorand and Ouroborous family) are not future-proof because the building blocks are secure only under the classical hard assumptions; in particular, their designs ignore the advent of quantum computing and its implications. In this paper, we propose a generic compiler to obtain the post-quantum VRF from the simple VRF solution using symmetric-key primitives (e.g., non-interactive zero-knowledge system) with an intrinsic property of quantum-secure. Our novel solution is realized via two efficient zero-knowledge systems ZKBoo and ZKB++, respectively, to validate the compiler correctness. Our proof-of-concept implementation indicates that even today, the overheads introduced by our solution are acceptable in real-world deployments. We also demonstrate potential applications of a quantum-secure VRF, such as quantum-secure decentralized random beacon and lottery-based proof of stake consensus blockchain protocol.
翻訳日:2023-03-16 02:50:35 公開日:2021-09-05
# 遺伝的多元一般化VQE:遺伝的アルゴリズムを用いた高度VQE法

Genetic-Multi-initial Generalized VQE: Advanced VQE method using Genetic Algorithms then Local Search ( http://arxiv.org/abs/2109.02009v1 )

ライセンス: Link先を確認
Hikaru Wakaura and Takao Tomono(参考訳) 変分量子解法 (vqe) は量子コンピュータや古典コンピュータを用いた化学計算法として知られている。 この方法は、変分量子分解(vqd)法による励起状態のエネルギー準位も導出することができる。 しかし、励起状態のパラメータのランドスケープは、結果がそれらによって捕捉される傾向がある多くの局所的な最小値を持つ。 そこで, 遺伝的アルゴリズムを用いて局所探索(GA, LS)を古典的な最適化手法として適用した。 改良GA, LSにより, 地盤および励起状態の計算を行い, 水素分子のエネルギーを計算した。 ここでは, powell, broyden-fletcher-goldfarb-shanno, nelder-mead, newton法を最適化器として用いる。 その結果,ニュートン法は地盤および励起状態とそのエネルギーを他の方法よりも高精度に導出できることがわかった。 我々は、Newton法がシードアップに有効であり、より正確であることを予測している。

Variational-Quantum-Eigensolver (VQE) method has been known as the method of chemical calculation using quantum computers and classical computers. This method also can derive the energy levels of excited states by Variational-Quantum-Deflation (VQD) method. Although, parameter landscape of excited state have many local minimums that the results are tend to be trapped by them. Therefore, we apply Genetic Algorithms then Local Search (GA then LS) as the classical optimizer of VQE method. We performed the calculation of ground and excited states and their energies on hydrogen molecule by modified GA then LS. Here we uses Powell, Broyden-Fletcher-Goldfarb-Shanno, Nelder-Mead and Newton method as an optimizer of LS. We obtained the result that Newton method can derive ground and excited states and their energies in higher accuracy than others. We are predicting that newton method is more effective for seed up and be more accurate.
翻訳日:2023-03-16 02:50:02 公開日:2021-09-05
# 反強磁性ボース-アインシュタイン凝縮体の準安定スピン相図

Metastable spin-phase diagrams in antiferromagnetic Bose-Einstein condensates ( http://arxiv.org/abs/2109.01986v1 )

ライセンス: Link先を確認
E. Serrano-Ens\'astiga and F. Mireles(参考訳) 外部磁場下でのスピノルボース-アインシュタイン凝縮はスピン依存相互作用による基底状態の良好なスピン領域を示す。 低温では、衝突誘起のスピン混合不安定性により、凝縮物は相境界付近で生じる準安定状態に膨らむ。 本研究では,スピン-1反強磁性ボース・アインシュタイン凝縮の準安定スピン相図をゼロおよび有限温度で理論的に研究する。 このアプローチはハートリー・フォック理論を利用し、ハミルトニアンの対称性と自由エネルギーに対する超越方程式の閉系を生成する順序パラメータを利用し、自己整合性の使用を完全に回避する。 その結果,最近の実験と一致し,観察したクエンチダイナミクスの異なるタイプの質的説明が可能となった。 さらに, 反強磁性スピノル凝縮反応において, 温度の急変とともに同様の現象が起こることを見出した。 また, 温度上昇は強磁性-極性遷移境界のトレーサブルシフトを誘発し, 自己整合平均場計算では検出されなかった挙動を示す。

Spinor Bose-Einstein condensates under external magnetic fields exhibit well-characterized spin domains of its ground state due to spin-dependent interactions. At low temperatures, collision-induced spin-mixing instabilities may promote the condensate to dwell into metastable states occurring near the phase boundaries. In this work, we study theoretically the metastable spin-phase diagram of a spin-1 antiferromagnetic Bose-Einstein condensate at zero and finite temperatures. The approach makes use of Hartree-Fock theory and exploits the symmetry of the Hamiltonian and of the order parameters yielding a closed system of transcendental equations for the free energy, fully avoiding the use of selfconsistency. Our results are consistent with recent experiments and allow us to explain qualitatively the different types of observed quench dynamics. In addition, we found that similar phenomena should occur in antiferromagnetic spinor condensates with a sudden change in the temperature. It is shown also that the increase of temperature induces a traceable shift of the Ferromagnetic-Polar transition boundary, behavior previously not noticed by selfconsistent mean-field calculations.
翻訳日:2023-03-16 02:49:32 公開日:2021-09-05
# 会話エージェントの自己認識

Self-recognition in conversational agents ( http://arxiv.org/abs/2002.02334v3 )

ライセンス: Link先を確認
Yigit Oktar, Erdem Okur, Mehmet Turkan(参考訳) 標準的なチューリングテストでは、機械は裁判官に人間性を証明する必要がある。 人間のような思考実体をうまく模倣することで、この機械は思考も可能であることを証明できる。 チューリングテストは一般的な知性や思考活動の存在を示す道具ではないと主張する反論もある。 説得力のある代替案はラヴレステストであり、エージェントはエージェントの作者が説明できない製品を創出しなければならない。 したがって、エージェントはオリジナル製品の所有者でなければならない。 しかし、このためにエージェントは自己の考えを示し、自分自身を他人と区別しなければならない。 チューリングテストで自己の考えを持続することは、裁判官がテキストミラーとして振る舞うことを決めた場合、依然として可能である。 鏡を通して動物に適用された自己認識テストは、汎用知能の存在を実証するための有効なツールであるように見える。 ここでの方法論は、エージェントを1つに置き、接触したエージェントが他方か、模倣者か、あるいは自分自身を教師なしのやり方で判断するだけで、ミラーテストのテキスト版を構築する。 このミラーテストのテキスト版は客観的であり、自己完結しており、人間性がない。 このテキストミラーテストに合格するエージェントは、チューリングテストの範囲内で構成的な方法でチューリングの「機械は考えるか?」という原点と長く続く疑問に答えて、内声と呼ばれることができる思考メカニズムを取得または取得すべきである。 さらに、自己認識の成功は、人工物における自己認識のより強い概念への道を開く可能性がある。

In a standard Turing test, a machine has to prove its humanness to the judges. By successfully imitating a thinking entity such as a human, this machine then proves that it can also think. Some objections claim that Turing test is not a tool to demonstrate the existence of general intelligence or thinking activity. A compelling alternative is the Lovelace test, in which the agent must originate a product that the agent's creator cannot explain. Therefore, the agent must be the owner of an original product. However, for this to happen the agent must exhibit the idea of self and distinguish oneself from others. Sustaining the idea of self within the Turing test is still possible if the judge decides to act as a textual mirror. Self-recognition tests applied on animals through mirrors appear to be viable tools to demonstrate the existence of a type of general intelligence. Methodology here constructs a textual version of the mirror test by placing the agent as the one and only judge to figure out whether the contacted one is an other, a mimicker, or oneself in an unsupervised manner. This textual version of the mirror test is objective, self-contained, and devoid of humanness. Any agent passing this textual mirror test should have or can acquire a thought mechanism that can be referred to as the inner-voice, answering the original and long lasting question of Turing "Can machines think?" in a constructive manner still within the bounds of the Turing test. Moreover, it is possible that a successful self-recognition might pave way to stronger notions of self-awareness in artificial beings.
翻訳日:2023-01-03 12:48:53 公開日:2021-09-05
# 無線ネットワーク上でのエネルギー認識による効果的なフェデレーション学習

Communication Efficient Federated Learning with Energy Awareness over Wireless Networks ( http://arxiv.org/abs/2004.07351v3 )

ライセンス: Link先を確認
Richeng Jin, Xiaofan He and Huaiyu Dai(参考訳) federated learning(fl)では、パラメータサーバとモバイルデバイスが無線リンク上でトレーニングパラメータを共有するため、通信オーバーヘッドの低減が最も重要な課題の1つとなっている。 このような観点から、勾配の符号のみを交換するSignSGDの考え方を採用する。 さらに、既存の作業の多くは、移動体とパラメータサーバの両方で利用可能なチャネル状態情報(CSI)を前提としているため、移動体はチャネル容量によって規定される固定伝送レートを採用することができる。 本研究では,パラメータサーバ側のCSIのみを仮定し,停止時のチャネル容量を考慮した。 この場合、モバイル機器にとって重要な問題は、全体的な学習性能とエネルギー消費のバランスをとるために、適切なローカル処理と通信パラメータ(送信率を含む)を選択することである。 エネルギー消費要求に応じて学習性能を最適化する2つの最適化問題を定式化し,その逆も解決した。 さらに, モバイル端末間で, fl において非常に不均一な方法でデータを分散させることができることを考慮し, 確率的符号に基づくアルゴリズムを提案する。 提案手法の有効性を示すために,広範なシミュレーションを行った。

In federated learning (FL), reducing the communication overhead is one of the most critical challenges since the parameter server and the mobile devices share the training parameters over wireless links. With such consideration, we adopt the idea of SignSGD in which only the signs of the gradients are exchanged. Moreover, most of the existing works assume Channel State Information (CSI) available at both the mobile devices and the parameter server, and thus the mobile devices can adopt fixed transmission rates dictated by the channel capacity. In this work, only the parameter server side CSI is assumed, and channel capacity with outage is considered. In this case, an essential problem for the mobile devices is to select appropriate local processing and communication parameters (including the transmission rates) to achieve a desired balance between the overall learning performance and their energy consumption. Two optimization problems are formulated and solved, which optimize the learning performance given the energy consumption requirement, and vice versa. Furthermore, considering that the data may be distributed across the mobile devices in a highly uneven fashion in FL, a stochastic sign-based algorithm is proposed. Extensive simulations are performed to demonstrate the effectiveness of the proposed methods.
翻訳日:2022-12-13 03:14:49 公開日:2021-09-05
# AIBenchシナリオ:シナリオを蒸留するAIベンチマーク

AIBench Scenario: Scenario-distilling AI Benchmarking ( http://arxiv.org/abs/2005.03459v4 )

ライセンス: Link先を確認
Wanling Gao, Fei Tang, Jianfeng Zhan, Xu Wen, Lei Wang, Zheng Cao, Chuanxin Lan, Chunjie Luo, Xiaoli Liu, Zihan Jiang(参考訳) インターネットサービスのような現代の現実世界のアプリケーションシナリオは、AIと非AIモジュールの多様性と、巨大なコードサイズと長く複雑な実行パスで構成される。 AIコンポーネントやマイクロベンチマークのみを使用することで、エラーが発生しやすい結論につながる可能性がある。 本稿では,上記の課題を攻撃する手法を提案する。 我々は,実世界のアプリケーションシナリオを有向非循環グラフベースモデルとして定式化し,本質的なaiタスクと非aiタスクの順列に蒸留するルールを提案する。 17の業界パートナーとともに、9つの典型的なシナリオベンチマークを抽出する。 拡張可能で構成可能で柔軟なベンチマークフレームワークを設計、実装しています。 実世界の2つのアプリケーションシナリオのプロキシとして,このフレームワークに基づいた2つのインターネットサービスAIシナリオベンチマークを実装した。 シナリオ,コンポーネント,マイクロベンチマークを,評価に不可欠な3つの部分として捉えた。 我々の評価は、コンポーネントまたはマイクロAIベンチマークのみを使用する方法の利点を示している。 仕様、ソースコード、テストベッド、結果は \url{https://www.benchcouncil.org/aibench/scenario/} から公開されている。

Modern real-world application scenarios like Internet services consist of a diversity of AI and non-AI modules with huge code sizes and long and complicated execution paths, which raises serious benchmarking or evaluating challenges. Using AI components or micro benchmarks alone can lead to error-prone conclusions. This paper presents a methodology to attack the above challenge. We formalize a real-world application scenario as a Directed Acyclic Graph-based model and propose the rules to distill it into a permutation of essential AI and non-AI tasks, which we call a scenario benchmark. Together with seventeen industry partners, we extract nine typical scenario benchmarks. We design and implement an extensible, configurable, and flexible benchmark framework. We implement two Internet service AI scenario benchmarks based on the framework as proxies to two real-world application scenarios. We consider scenario, component, and micro benchmarks as three indispensable parts for evaluating. Our evaluation shows the advantage of our methodology against using component or micro AI benchmarks alone. The specifications, source code, testbed, and results are publicly available from \url{https://www.benchcouncil.org/aibench/scenario/}.
翻訳日:2022-12-06 06:07:15 公開日:2021-09-05
# グラフニューラルネットワークの高速トレーニングのための保証付き最小分散サンプリング

Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks ( http://arxiv.org/abs/2006.13866v2 )

ライセンス: Link先を確認
Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi(参考訳) サンプリング手法(ノードワイド、レイヤワイド、サブグラフなど)は、大規模グラフニューラルネットワーク(GNN)のトレーニングを高速化するために必要な戦略となっている。 しかし、既存のサンプリング手法は主にグラフ構造情報に基づいており、最適化の動的性を無視し、確率勾配を推定する際に高いばらつきをもたらす。 高分散問題は、非常に大きなグラフで非常に顕著に発音され、収束が遅く、一般化が低くなる。 本稿では, サンプリング手法の分散を理論的に解析し, 実験的リスクの複合構造により, サンプリング手法の分散を, より高速な収束率を得るために両種類の分散を緩和する必要のある後方段階において, サンプリング手法の分散を, 前方段階において textit{embedding approximation variance} と 後方段階において textit{stochastic gradient variance} に分解可能であることを示す。 本研究では,(近似)勾配情報を用いて最小分散のノードを適応的にサンプリングし,埋め込み近似による分散を明示的に低減する分散低減戦略を提案する。 提案手法は,小型バッチサイズが小さくても,収束速度が速く,従来の手法よりも一般化が進んでいることを理論的に実証的に示す。

Sampling methods (e.g., node-wise, layer-wise, or subgraph) has become an indispensable strategy to speed up training large-scale Graph Neural Networks (GNNs). However, existing sampling methods are mostly based on the graph structural information and ignore the dynamicity of optimization, which leads to high variance in estimating the stochastic gradients. The high variance issue can be very pronounced in extremely large graphs, where it results in slow convergence and poor generalization. In this paper, we theoretically analyze the variance of sampling methods and show that, due to the composite structure of empirical risk, the variance of any sampling method can be decomposed into \textit{embedding approximation variance} in the forward stage and \textit{stochastic gradient variance} in the backward stage that necessities mitigating both types of variance to obtain faster convergence rate. We propose a decoupled variance reduction strategy that employs (approximate) gradient information to adaptively sample nodes with minimal variance, and explicitly reduces the variance introduced by embedding approximation. We show theoretically and empirically that the proposed method, even with smaller mini-batch sizes, enjoys a faster convergence rate and entails a better generalization compared to the existing methods.
翻訳日:2022-11-17 09:34:07 公開日:2021-09-05
# ネット上でのヘイトとカウンタースピーチのインパクトとダイナミクス

Impact and dynamics of hate and counter speech online ( http://arxiv.org/abs/2009.08392v3 )

ライセンス: Link先を確認
Joshua Garland, Keyan Ghazi-Zahedi, Jean-Gabriel Young, Laurent H\'ebert-Dufresne, Mirta Galesic(参考訳) 市民が生成するカウンタースピーチは、ヘイトスピーチと戦い、平和で非分極的な談話を促進する有望な方法である。 しかし、ヘイトスピーチを減らす効果について、大規模な縦断的研究が欠如している。 この目的のために,ドイツのtwitter上で4年間にわたって実施した18,000の政治的会話を分析し,マクロおよびマイクロレベルの手法を用いて,カウンタースピーチの有効性を探索的に分析する。 ヘイトとカウンタースピーチの動的相互作用を時間とともに報告し,「古典的」いじめ状況において,オンライン談話の運営において,組織的努力が独立した個人よりも効果的であるかどうかについて考察する。 その結果,ネット上でのヘイトとカウンタースピーチのダイナミクスを多面的に表現した画像が得られた。 会話のダイナミクスが複雑であることから因果関係の主張はしないが、組織的なヘイトスピーチはパブリックな言論の変化と関連しており、特に組織化された場合にはカウンタースピーチはオンラインの言論におけるヘイトフルな修辞を阻害する可能性があることを示唆している。

Citizen-generated counter speech is a promising way to fight hate speech and promote peaceful, non-polarized discourse. However, there is a lack of large-scale longitudinal studies of its effectiveness for reducing hate speech. To this end, we perform an exploratory analysis of the effectiveness of counter speech using several different macro- and micro-level measures to analyze 180,000 political conversations that took place on German Twitter over four years. We report on the dynamic interactions of hate and counter speech over time and provide insights into whether, as in `classic' bullying situations, organized efforts are more effective than independent individuals in steering online discourse. Taken together, our results build a multifaceted picture of the dynamics of hate and counter speech online. While we make no causal claims due to the complexity of discourse dynamics, our findings suggest that organized hate speech is associated with changes in public discourse and that counter speech -- especially when organized -- may help curb hateful rhetoric in online discourse.
翻訳日:2022-10-17 23:27:27 公開日:2021-09-05
# 推薦システムにおけるオンライン行動のモデル化 : 時間的文脈の重要性

Modeling Online Behavior in Recommender Systems: The Importance of Temporal Context ( http://arxiv.org/abs/2009.08978v3 )

ライセンス: Link先を確認
Milena Filipovic, Blagoj Mitrevski, Diego Antognini, Emma Lejal Glaude, Boi Faltings, Claudiu Musat(参考訳) レコメンダシステムの研究は、オフラインおよびランダムにサンプリングされたターゲットでモデルパフォーマンスを評価する傾向があるが、同じシステムは、後に不定点からユーザの振る舞いを逐次予測するために使用される。 オンラインレコメンダシステムのパフォーマンスのシミュレーションは非常に難しく、オンラインとオフラインの動作の相違は、通常オフライン評価では考慮されない。 この格差により、モデルが運用環境にデプロイされるまでは、弱点に気付きません。 本稿では,まず,レコメンダシステムの性能評価における時間的文脈の省略が誤った自信をもたらすことを示す。 これを克服するために,オフライン評価プロトコルは,時間的文脈を考慮した場合にのみ実際のユースケースをモデル化できると仮定する。 次に,既存のモデルに時間的コンテキストを埋め込むためのトレーニング手順を提案する。 提案手法は,従来の時間認識型レコメンデータシステムに時間的コンテキストを導入し,その利点を評価プロトコルを用いて確認する。 最後に、この追加目的によって得られたPareto Frontsが、実世界の3つの公開データセットの精度にのみ最適化された最先端のモデルによって生成されたものを支配していることを検証する。 その結果、時間的目標を含めるとrecall@20を最大20%改善できることがわかった。

Recommender systems research tends to evaluate model performance offline and on randomly sampled targets, yet the same systems are later used to predict user behavior sequentially from a fixed point in time. Simulating online recommender system performance is notoriously difficult and the discrepancy between online and offline behaviors is typically not accounted for in offline evaluations. This disparity permits weaknesses to go unnoticed until the model is deployed in a production setting. In this paper, we first demonstrate how omitting temporal context when evaluating recommender system performance leads to false confidence. To overcome this, we postulate that offline evaluation protocols can only model real-life use-cases if they account for temporal context. Next, we propose a training procedure to further embed the temporal context in existing models. We use a multi-objective approach to introduce temporal context into traditionally time-unaware recommender systems and confirm its advantage via the proposed evaluation protocol. Finally, we validate that the Pareto Fronts obtained with the added objective dominate those produced by state-of-the-art models that are only optimized for accuracy on three real-world publicly available datasets. The results show that including our temporal objective can improve recall@20 by up to 20%.
翻訳日:2022-10-16 20:44:02 公開日:2021-09-05
# 予測擬似実用性最大化による平均変数効率強化学習

Mean-Variance Efficient Reinforcement Learning by Expected Quadratic Utility Maximization ( http://arxiv.org/abs/2010.01404v3 )

ライセンス: Link先を確認
Masahiro Kato and Kei Nakagawa and Kenshi Abe and Tetsuro Morimura(参考訳) リスク管理は意思決定において重要であり、平均分散(MV)トレードオフは最も一般的な基準の1つである。 しかし, 逐次決定のための強化学習(RL)では, 従来のMV制御法のほとんどは, 二重サンプリング問題に起因する計算困難に悩まされている。 本稿では、厳格なMV制御とは対照的に、MVトレードオフに関するパレート効率を達成するためのMV効率ポリシーの学習を検討する。 この目的を達成するため,金融・経済学におけるリスクマネジメントの共通目的である2次効用機能を最大化するためにエージェントを訓練する。 我々はこのアプローチをdirect expected quadratic utility maximization (equm)と呼ぶ。 EQUMは、分散の勾配推定を含まないため、二重サンプリングの問題に悩まされない。 EQUMの目的の最大化は、一定の条件下でのMV効率ポリシーと直接対応していることを確認する。 ベンチマーク設定で実験を行い,equmの有効性を実証した。

Risk management is critical in decision making, and mean-variance (MV) trade-off is one of the most common criteria. However, in reinforcement learning (RL) for sequential decision making under uncertainty, most of the existing methods for MV control suffer from computational difficulties caused by the double sampling problem. In this paper, in contrast to strict MV control, we consider learning MV efficient policies that achieve Pareto efficiency regarding MV trade-off. To achieve this purpose, we train an agent to maximize the expected quadratic utility function, a common objective of risk management in finance and economics. We call our approach direct expected quadratic utility maximization (EQUM). The EQUM does not suffer from the double sampling issue because it does not include gradient estimation of variance. We confirm that the maximizer of the objective in the EQUM directly corresponds to an MV efficient policy under a certain condition. We conduct experiments with benchmark settings to demonstrate the effectiveness of the EQUM.
翻訳日:2022-10-11 08:53:48 公開日:2021-09-05
# 人工知能(AI)の行動 : 自然言語処理によるCOVID-19パンデミックへの対応

Artificial Intelligence (AI) in Action: Addressing the COVID-19 Pandemic with Natural Language Processing (NLP) ( http://arxiv.org/abs/2010.16413v3 )

ライセンス: Link先を確認
Qingyu Chen, Robert Leaman, Alexis Allot, Ling Luo, Chih-Hsuan Wei, Shankai Yan, Zhiyong Lu(参考訳) 新型コロナウイルスのパンデミックは、新型コロナウイルスの深刻な健康影響と、感染拡大を遅らせるために実施された公衆衛生対策の両方から、社会に大きな影響を与えた。 これらの困難の多くは、基本的に情報ニーズであり、これらのニーズに対処する試みは、研究者と一般人の両方に情報過負荷を引き起こした。 人間の言語を解釈する人工知能の分野である自然言語処理(nlp)は、新型コロナウイルス(covid-19)パンデミックによって緊急になされた多くの情報に対処できる。 このレビューでは、約150のNLP研究と、新型コロナウイルスのパンデミックに対処する50以上のシステムとデータセットを調査します。 情報検索,名前付きエンティティ認識,文献に基づく発見,質問応答の4つの中核的NLPタスクについて詳述する。 また、トピックモデリング、感情分析、ケースロード予測、誤情報検出の4つのタスクを通じて、パンデミックの側面に直接対処する作業についても述べる。 最後に、観測可能な傾向と残る課題について論じる。

The COVID-19 pandemic has had a significant impact on society, both because of the serious health effects of COVID-19 and because of public health measures implemented to slow its spread. Many of these difficulties are fundamentally information needs; attempts to address these needs have caused an information overload for both researchers and the public. Natural language processing (NLP), the branch of artificial intelligence that interprets human language, can be applied to address many of the information needs made urgent by the COVID-19 pandemic. This review surveys approximately 150 NLP studies and more than 50 systems and datasets addressing the COVID-19 pandemic. We detail work on four core NLP tasks: information retrieval, named entity recognition, literature-based discovery, and question answering. We also describe work that directly addresses aspects of the pandemic through four additional tasks: topic modeling, sentiment and emotion analysis, caseload forecasting, and misinformation detection. We conclude by discussing observable trends and remaining challenges.
翻訳日:2022-10-09 04:56:37 公開日:2021-09-05
# exathlon: 時系列で説明可能な異常検出のためのベンチマーク

Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series ( http://arxiv.org/abs/2010.05073v3 )

ライセンス: Link先を確認
Vincent Jacob, Fei Song, Arnaud Stiegler, Bijan Rad, Yanlei Diao, Nesime Tatbul(参考訳) 高品質なデータリポジトリやベンチマークへのアクセスは、多くの実験研究領域における最先端技術の発展に寄与している。 時系列データによる高度な分析タスクが注目されている一方で、そのようなコミュニティリソースの欠如は科学的進歩を著しく制限している。 本稿では,高次元時系列データ上で説明可能な異常検出を行う最初の総合ベンチマークであるexathlonを提案する。 exathlonは、apache sparkクラスタで大規模ストリーム処理ジョブを繰り返し実行する実際のデータトレースに基づいて、体系的に構築されている。 これらの実行のいくつかは、6種類の異常なイベント(例えば、誤動作、リソース競合、プロセス障害)のインスタンスを導入することで意図的に妨げられた。 各異常インスタンスに対して、広い範囲の異常検出(ad)および説明発見(ed)タスクの開発と評価を支援するとともに、根本原因区間及び拡張効果区間の基底真理ラベルを提供する。 本稿では,Exathlon のデータセット,評価手法,エンドツーエンドデータサイエンスパイプライン設計の実用性を,AD と ED の3つの最先端技術を用いた実験により実証する。

Access to high-quality data repositories and benchmarks have been instrumental in advancing the state of the art in many experimental research domains. While advanced analytics tasks over time series data have been gaining lots of attention, lack of such community resources severely limits scientific progress. In this paper, we present Exathlon, the first comprehensive public benchmark for explainable anomaly detection over high-dimensional time series data. Exathlon has been systematically constructed based on real data traces from repeated executions of large-scale stream processing jobs on an Apache Spark cluster. Some of these executions were intentionally disturbed by introducing instances of six different types of anomalous events (e.g., misbehaving inputs, resource contention, process failures). For each of the anomaly instances, ground truth labels for the root cause interval as well as those for the extended effect interval are provided, supporting the development and evaluation of a wide range of anomaly detection (AD) and explanation discovery (ED) tasks. We demonstrate the practical utility of Exathlon's dataset, evaluation methodology, and end-to-end data science pipeline design through an experimental study with three state-of-the-art AD and ED techniques.
翻訳日:2022-10-08 23:28:26 公開日:2021-09-05
# SHAD3S: スケッチ、シェード、シャドウのモデル

SHAD3S: A model to Sketch, Shade and Shadow ( http://arxiv.org/abs/2011.06822v3 )

ライセンス: Link先を確認
Raghav B. Venkataramaiyer, Abhishek Joshi, Saisha Narang and Vinay P. Namboodiri(参考訳) ハッチングは、画家がスケッチの3次元を強調し、シーンを照らすために使う一般的な方法である。 我々のシステムSHAD3Sは、一般的な3次元形状(3D)をハッチする人間と競い合い、フォーム探索運動で彼女を助ける。 我々のアプローチの目新しさは、入力が3d形状を表わす以外は仮定しないという事実にあるが、照明とテクスチャの文脈情報を考えると、3dや疑似3dにアクセスすることなく、スケッチの上に正確なハッチパターンを合成する。 その過程で、私たちは貢献します a) タスクに関連する十分に大きな高忠実度データセットを合成する,安価で効果的な方法 b)条件付き生成敵ネットワーク(cgan)によるパイプラインの作成及び c) GIMPによるインタラクティブユーティリティの作成。これは、アーティストが自動ハッチやフォーム探索演習に参加するためのツールである。 このツールのユーザ評価は、モデルのパフォーマンスがスタイルと形状の両方において、多種多様な入力を満足できるほど一般化していることを示唆している。 インセプションスコアの単純な比較から、生成した分布は基底真理と同じくらい多様であることが示唆される。

Hatching is a common method used by artists to accentuate the third dimension of a sketch, and to illuminate the scene. Our system SHAD3S attempts to compete with a human at hatching generic three-dimensional (3D) shapes, and also tries to assist her in a form exploration exercise. The novelty of our approach lies in the fact that we make no assumptions about the input other than that it represents a 3D shape, and yet, given a contextual information of illumination and texture, we synthesise an accurate hatch pattern over the sketch, without access to 3D or pseudo 3D. In the process, we contribute towards a) a cheap yet effective method to synthesise a sufficiently large high fidelity dataset, pertinent to task; b) creating a pipeline with conditional generative adversarial network (CGAN); and c) creating an interactive utility with GIMP, that is a tool for artists to engage with automated hatching or a form-exploration exercise. User evaluation of the tool suggests that the model performance does generalise satisfactorily over diverse input, both in terms of style as well as shape. A simple comparison of inception scores suggest that the generated distribution is as diverse as the ground truth.
翻訳日:2022-09-26 00:28:46 公開日:2021-09-05
# 逆勾配注意を用いたロバストデータハイディング

Robust Data Hiding Using Inverse Gradient Attention ( http://arxiv.org/abs/2011.10850v4 )

ライセンス: Link先を確認
Honglei Zhang, Hu Wang, Yuanzhouhan Cao, Chunhua Shen, Yidong Li(参考訳) データ隠蔽は、必要な情報をカバー画像に符号化して潜在的なノイズに抵抗し、埋め込み画像が元のものとの知覚的摂動が少なくないことを保証する手順である。 近年,深層ニューラルネットワークが様々な分野において大きな成功を収めている中,ディープラーニングモデルを用いたデータ隠蔽の研究が注目されている。 データ隠蔽タスクでは、異なる許容性を持つため、カバー画像の各画素を別々に扱う必要がある。 各画素の感度を考慮することの無視は、情報隠蔽のモデルロバスト性に必然的に影響を及ぼす。 そこで本研究では, 逆勾配注意(逆勾配注意, 逆勾配注意, 逆勾配注意, 逆勾配注意)を用いた新しい深層データ隠蔽手法を提案する。 提案したコンポーネントでは、データ隠蔽のためにより堅牢なピクセルをスポットライトすることができる。 実験の結果,提案手法は,複数の評価条件において2つのデータセットの最先端手法よりも優れていることがわかった。 さらに,提案する逆勾配注意と画像内の高周波領域との関係についても検討した。

Data hiding is the procedure of encoding desired information into the cover image to resist potential noises while ensuring the embedded image has few perceptual perturbations from the original one. Recently, with the tremendous successes gained by deep neural networks in various fields, the researches of data hiding with deep learning models have attracted an increasing number of attentions. In the data hiding task, each pixel of cover images should be treated differently since they have divergent tolerabilities. The neglect of considering the sensitivity of each pixel will inevitably affect the model robustness for information hiding. Targeting this problem, we propose a novel deep data hiding scheme with Inverse Gradient Attention (IGA), combing the ideas of adversarial learning and attention mechanism to endow different sensitivities for different pixels. With the proposed component, the model can spotlight pixels with more robustness for data hiding. Empirically, extensive experiments show that the proposed model outperforms the state-of-the-art methods on two prevalent datasets under multiple evaluations. Besides, we further identify and discuss the connections between the proposed inverse gradient attention and high-frequency regions within images.
翻訳日:2022-09-22 23:33:28 公開日:2021-09-05
# 画像作物の解剖

Dissecting Image Crops ( http://arxiv.org/abs/2011.11831v4 )

ライセンス: Link先を確認
Basile Van Hoorick, Carl Vondrick(参考訳) クロッピングの基本的な操作は、データ拡張や翻訳の不変性から計算写真や表現学習まで、ほぼ全てのコンピュータビジョンシステムを支える。 本稿では,本操作で導入された微妙な痕跡について考察する。 例えば、カメラ光学の洗練にもかかわらず、レンズは特定の手がかり、特に色収差と粘着性を残している。 写真家はまた、画像美学やシーン構成に関する他の手がかりを残している。 本研究では,これらの痕跡の検出方法と,収穫が画像分布に与える影響について検討する。 私たちの目標は、空間作物の基本的な影響を解剖することですが、我々の研究には、欠陥のあるフォトジャーナリズムを明らかにしたり、ニューラルネットワークの研究者に近道学習をよりよく理解させるといった、多くの実践的な意味合いがあります。 コードはhttps://github.com/basilevh/dissecting-image-cropsで入手できる。

The elementary operation of cropping underpins nearly every computer vision system, ranging from data augmentation and translation invariance to computational photography and representation learning. This paper investigates the subtle traces introduced by this operation. For example, despite refinements to camera optics, lenses will leave behind certain clues, notably chromatic aberration and vignetting. Photographers also leave behind other clues relating to image aesthetics and scene composition. We study how to detect these traces, and investigate the impact that cropping has on the image distribution. While our aim is to dissect the fundamental impact of spatial crops, there are also a number of practical implications to our work, such as revealing faulty photojournalism and equipping neural network researchers with a better understanding of shortcut learning. Code is available at https://github.com/basilevh/dissecting-image-crops.
翻訳日:2022-09-21 13:20:27 公開日:2021-09-05
# DexRay: Bytecodeの画像表現に基づくAndroidのマルウェア検出のためのシンプルで効果的なディープラーニングアプローチ

DexRay: A Simple, yet Effective Deep Learning Approach to Android Malware Detection based on Image Representation of Bytecode ( http://arxiv.org/abs/2109.03326v1 )

ライセンス: Link先を確認
Nadia Daoudi, Jordan Samhi, Abdoul Kader Kabore, Kevin Allix, Tegawend\'e F. Bissyand\'e, and Jacques Klein(参考訳) コンピュータビジョンは近年、深層表現学習研究による前例のない業績でいくつかの進歩を目撃している。 これにより、画像の深層学習は、様々なマルウェアの変種に一般化した包括的な手作り機能の必要性を軽減する。 この研究の方向性がAndroidマルウェア検出の次のフロンティアになると仮定し、新しいアプローチが本当に新しい貢献をもたらすためには明確なロードマップが必要である。 画像に基づくマルウェア検出のためのベースラインパイプラインを,簡単なステップで開発し,評価することで,最初のビルディングブロックに貢献する。 本稿では,アプリケーションdexファイルのバイトコードをgrey-scale "vector" 画像に変換し,それらを1次元畳み込みニューラルネットワークモデルに供給するdexrayを提案する。 我々は、DexRayをデザイン選択の極めて基本的な性質から基礎的なものとみなし、マルウェア検出におけるイメージベースの学習によって得られる最小性能を推測する。 158k以上のアプリケーションで評価したDexRayの性能は,単純ながら高い検出率(F1-score=0.96)で有効であることを示す。 最後に, 時間減衰と画像の縮小がDexRayの性能に及ぼす影響について検討し, その難燃性を評価する。 本論文は,この領域を十分に発展させるために必要な多くの重大な疑問を対象とする,健全でシンプルで効果的なアプローチ(アーティファクトが利用可能な)を提供することによって,ディープラーニングに基づくマルウェア検出の領域に寄与する。

Computer vision has witnessed several advances in recent years, with unprecedented performance provided by deep representation learning research. Image formats thus appear attractive to other fields such as malware detection, where deep learning on images alleviates the need for comprehensively hand-crafted features generalising to different malware variants. We postulate that this research direction could become the next frontier in Android malware detection, and therefore requires a clear roadmap to ensure that new approaches indeed bring novel contributions. We contribute with a first building block by developing and assessing a baseline pipeline for image-based malware detection with straightforward steps. We propose DexRay, which converts the bytecode of the app DEX files into grey-scale "vector" images and feeds them to a 1-dimensional Convolutional Neural Network model. We view DexRay as foundational due to the exceedingly basic nature of the design choices, allowing to infer what could be a minimal performance that can be obtained with image-based learning in malware detection. The performance of DexRay evaluated on over 158k apps demonstrates that, while simple, our approach is effective with a high detection rate(F1-score= 0.96). Finally, we investigate the impact of time decay and image-resizing on the performance of DexRay and assess its resilience to obfuscation. This work-in-progress paper contributes to the domain of Deep Learning based Malware detection by providing a sound, simple, yet effective approach (with available artefacts) that can be the basis to scope the many profound questions that will need to be investigated to fully develop this domain.
翻訳日:2021-09-09 13:35:07 公開日:2021-09-05
# レコメンデーションフェアネス:静的から動的へ

Recommendation Fairness: From Static to Dynamic ( http://arxiv.org/abs/2109.03150v1 )

ライセンス: Link先を確認
Dell Zhang and Jun Wang(参考訳) ユーザの関心の高まりを捉え、長期的な経験を最適化する必要性によって、より多くの推奨システムは、マルコフ決定プロセスとして推奨をモデル化し、この問題に対処するために強化学習を採用するようになった。 推奨システムの公正性に関する研究は、静的評価とワンショット介入から動的監視、非ストップ制御まで、同じ傾向を辿るべきではないだろうか? 本稿では,まずレコメンダシステムにおける最近の展開を描き,その後,レコメンデーションのための強化学習手法に公平性を組み込む方法について論じる。 さらに,推薦公正性をさらに向上させるためには,確率ゲーム全般の枠組みにおいて,マルチエージェント(ゲーム理論)最適化,マルチオブジェクト(パレート)最適化,シミュレーションに基づく最適化を検討する必要がある。

Driven by the need to capture users' evolving interests and optimize their long-term experiences, more and more recommender systems have started to model recommendation as a Markov decision process and employ reinforcement learning to address the problem. Shouldn't research on the fairness of recommender systems follow the same trend from static evaluation and one-shot intervention to dynamic monitoring and non-stop control? In this paper, we portray the recent developments in recommender systems first and then discuss how fairness could be baked into the reinforcement learning techniques for recommendation. Moreover, we argue that in order to make further progress in recommendation fairness, we may want to consider multi-agent (game-theoretic) optimization, multi-objective (Pareto) optimization, and simulation-based optimization, in the general framework of stochastic games.
翻訳日:2021-09-08 14:45:14 公開日:2021-09-05
# (参考訳) 空腹ガチョウにおける深層学習法の探索

An Exploration of Deep Learning Methods in Hungry Geese ( http://arxiv.org/abs/2109.01954v1 )

ライセンス: CC BY 4.0
Nikzad Khani and Matthew Kluska(参考訳) ハングリー・ジーゼ(Hungry Geese)は、人気ゲームヘビのn-playerのバリエーションである。 本稿では,Deep Reinforcement Learning Value Methodsの現状について述べる。 本論文の目的は,価値に基づく手法の研究を集約し,他の環境に適用することである。 バニラディープqネットワーク、ダブルqネットワーク、デュエルqネットワークはいずれも、空腹のガチョウの環境で検討され、テストされた。 最も優れたモデルは、単純な状態表現とより小さなネットワーク構造のため、バニラディープqネットワークであった。 最適政策への収束は, ランダムガチョウの初期化と食物生成が原因で困難であることが判明した。 そこで,このような確率的環境に対して,ディープqネットワークが適切なモデルではない可能性を示し,さらに,より適切な環境モデルとともに実現可能な改良を提案する。

Hungry Geese is a n-player variation of the popular game snake. This paper looks at state of the art Deep Reinforcement Learning Value Methods. The goal of the paper is to aggregate research of value based methods and apply it as an exercise to other environments. A vanilla Deep Q Network, a Double Q-network and a Dueling Q-Network were all examined and tested with the Hungry Geese environment. The best performing model was the vanilla Deep Q Network due to its simple state representation and smaller network structure. Converging towards an optimal policy was found to be difficult due to random geese initialization and food generation. Therefore we show that Deep Q Networks may not be the appropriate model for such a stochastic environment and lastly we present improvements that can be made along with more suitable models for the environment.
翻訳日:2021-09-08 07:29:50 公開日:2021-09-05
# (参考訳) 因果推論のための最適輸送重み付け

Optimal transport weights for causal inference ( http://arxiv.org/abs/2109.01991v1 )

ライセンス: CC BY 4.0
Eric Dunipace(参考訳) 重み付け法は因果効果の推定を偏りなくするための一般的なツールである。 そして、異なるように見える方法が増えているが、その多くが一つの統一体制(因果的最適輸送)に折り畳むことができる。 本手法は, 処理群と制御群間の最適な輸送距離を最小化することにより, 直接分布バランスを目標とする。 我々のアプローチはモデルフリーであるが、研究者がバランスをとろうとするモーメントや他の重要な共変量関数を組み込むこともできる。 因果的最適輸送は、確率スコアと結果モデルの両方が誤特定された場合に競合する手法よりも優れており、一般的な重み付け法に対する堅牢な代替手段であることを示す。 以上の結果から,ミソプロストロールとオキシトシンの併用による出血後治療効果について検討した。

Weighting methods are a common tool to de-bias estimates of causal effects. And though there are an increasing number of seemingly disparate methods, many of them can be folded into one unifying regime: causal optimal transport. This new method directly targets distributional balance by minimizing optimal transport distances between treatment and control groups or, more generally, between a source and target population. Our approach is model-free but can also incorporate moments or any other important functions of covariates that the researcher desires to balance. We find that the causal optimal transport outperforms competitor methods when both the propensity score and outcome models are misspecified, indicating it is a robust alternative to common weighting methods. Finally, we demonstrate the utility of our method in an external control study examining the effect of misoprostol versus oxytocin for treatment of post-partum hemorrhage.
翻訳日:2021-09-08 07:23:08 公開日:2021-09-05
# (参考訳) リカレントニューラルネットワークによる画像圧縮と一般化分割正規化

Image Compression with Recurrent Neural Network and Generalized Divisive Normalization ( http://arxiv.org/abs/2109.01999v1 )

ライセンス: CC BY 4.0
Khawar Islam, L. Minh Dang, Sujin Lee, Hyeonjoon Moon(参考訳) 画像圧縮は、隣接画素間の空間的冗長性を除去し、高品質な画像の再構成を行う方法である。 近年, 深層学習は研究コミュニティから大きな注目を集め, 有望な画像再構成結果を生み出している。 そのため、近年の手法は、ネットワークの複雑さを大幅に増大させるより深い複雑なネットワークの開発に焦点を当てている。 本稿では、畳み込み層を用いた解析と合成ブロックと、可変レートエンコーダとデコーダ側における一般化分割正規化(GDN)の2つの有効な新しいブロックを開発する。 我々のネットワークは、量子化のためのピクセルRNNアプローチを利用している。 さらに,ネットワーク全体を改善するため,LSTMセルを用いて残像を符号化し,不要な情報を削減する。 実験の結果,新しいブロックを持つ可変レートフレームワークは,George の ~\cite{002} やJPEG など,既存の手法や標準画像コーデックよりも画像類似性が高いことがわかった。 プロジェクトページとコードとモデルはhttps://khawar512.github.io/cvpr/で入手できる。

Image compression is a method to remove spatial redundancy between adjacent pixels and reconstruct a high-quality image. In the past few years, deep learning has gained huge attention from the research community and produced promising image reconstruction results. Therefore, recent methods focused on developing deeper and more complex networks, which significantly increased network complexity. In this paper, two effective novel blocks are developed: analysis and synthesis block that employs the convolution layer and Generalized Divisive Normalization (GDN) in the variable-rate encoder and decoder side. Our network utilizes a pixel RNN approach for quantization. Furthermore, to improve the whole network, we encode a residual image using LSTM cells to reduce unnecessary information. Experimental results demonstrated that the proposed variable-rate framework with novel blocks outperforms existing methods and standard image codecs, such as George's ~\cite{002} and JPEG in terms of image similarity. The project page along with code and models are available at https://khawar512.github.io/cvpr/
翻訳日:2021-09-08 07:22:09 公開日:2021-09-05
# (参考訳) 周期整合生成逆数ネットワークを用いた2段階複合ネットワークによる音声強調

A Two-stage Complex Network using Cycle-consistent Generative Adversarial Networks for Speech Enhancement ( http://arxiv.org/abs/2109.02011v1 )

ライセンス: CC BY 4.0
Guochen Yu, Yutian Wang, Hui Wang, Qin Zhang, Chengshi Zheng(参考訳) cycle- consistent generative adversarial networks (cyclegan) は音声強調(se)に有望な性能を示しているが、cycleganベースのseシステムの難解な欠点は、ノイズ成分がサイクルを通じて伝播し完全に排除できないことである。 加えて、従来のCycleGANベースのSEシステムはスペクトルの大きさしか推定しないが、位相は変化しない。 本稿では,多段階学習の概念に動機づけられ,サイクルガンに基づく等級拡張ネットワークとそれに続く複雑なスペクトル精錬ネットワークを組み合わせた新しい二段階除算システムを提案する。 具体的には、第1段階では、CycleGANに基づくモデルが大きさのみを推定し、その後元の雑音相と結合して粗く拡張された複素スペクトルを得る。 その後、2段目は、複素2次元畳み込み/縮畳み込みと複素時間周波数注意ブロックからなる純粋な複素値ネットワークである複素スペクトルマッピングネットワークにより、残響成分をさらに抑制し、クリーン位相を推定する。 2つの公開データセットによる実験結果から,提案手法は従来の1段階のCycleGANや他の最先端のSEシステムを,特に背景雑音抑制の指標として一貫して上回っていることが示された。

Cycle-consistent generative adversarial networks (CycleGAN) have shown their promising performance for speech enhancement (SE), while one intractable shortcoming of these CycleGAN-based SE systems is that the noise components propagate throughout the cycle and cannot be completely eliminated. Additionally, conventional CycleGAN-based SE systems only estimate the spectral magnitude, while the phase is unaltered. Motivated by the multi-stage learning concept, we propose a novel two-stage denoising system that combines a CycleGAN-based magnitude enhancing network and a subsequent complex spectral refining network in this paper. Specifically, in the first stage, a CycleGAN-based model is responsible for only estimating magnitude, which is subsequently coupled with the original noisy phase to obtain a coarsely enhanced complex spectrum. After that, the second stage is applied to further suppress the residual noise components and estimate the clean phase by a complex spectral mapping network, which is a pure complex-valued network composed of complex 2D convolution/deconvolution and complex temporal-frequency attention blocks. Experimental results on two public datasets demonstrate that the proposed approach consistently surpasses previous one-stage CycleGANs and other state-of-the-art SE systems in terms of various evaluation metrics, especially in background noise suppression.
翻訳日:2021-09-08 07:15:49 公開日:2021-09-05
# (参考訳) 全地形自律農業ロボットのナビゲーション経路計画

Navigational Path-Planning For All-Terrain Autonomous Agricultural Robot ( http://arxiv.org/abs/2109.02015v1 )

ライセンス: CC BY 4.0
Vedant Ghodke(参考訳) 労働力不足とメンテナンスコストの増大により、多くの農夫は自動化され機械化されたアプローチに移行せざるを得なくなった。 自律システムの主要なコンポーネントは、使用するパス計画技術である。 被覆経路計画 (CPP) アルゴリズムは、農耕地を航行し、種苗、プラウイング、農薬や肥料の散布など様々な農業活動を行うために用いられる。 本稿では,農地の自律ナビゲーションのための新しいアルゴリズムの比較を行う。 航法制約の低減のために、インド環境に特有な高解像度グリッドマップ表現を考慮に入れた。 自由空間は、グリッドセルを覆い、探索されず、部分的に探索し、障害物の存在を区別することでカバーされる。 比較アルゴリズムの性能は、時間効率、空間効率、精度、環境の変化に対するロバスト性などの指標を用いて評価される。 ロボットオペレーティング・システム(ROS)、ダッソー・システムズ・エクスペリエンス・プラットフォーム(3DS Experience)、PythonのMATLABが比較アルゴリズムのシミュレーションに使用された。 その結果、自律的なフィールドナビゲーションのためのアルゴリズムの適用性とロボット経路計画の実現性が確認された。

The shortage of workforce and increasing cost of maintenance has forced many farm industrialists to shift towards automated and mechanized approaches. The key component for autonomous systems is the path planning techniques used. Coverage path planning (CPP) algorithm is used for navigating over farmlands to perform various agricultural operations such as seeding, ploughing, or spraying pesticides and fertilizers. This report paper compares novel algorithms for autonomous navigation of farmlands. For reduction of navigational constraints, a high-resolution grid map representation is taken into consideration specific to Indian environments. The free space is covered by distinguishing the grid cells as covered, unexplored, partially explored and presence of an obstacle. The performance of the compared algorithms is evaluated with metrics such as time efficiency, space efficiency, accuracy, and robustness to changes in the environment. Robotic Operating System (ROS), Dassault Systemes Experience Platform (3DS Experience), MATLAB along Python were used for the simulation of the compared algorithms. The results proved the applicability of the algorithms for autonomous field navigation and feasibility with robotic path planning.
翻訳日:2021-09-08 07:13:48 公開日:2021-09-05
# (参考訳) 分散機械学習における逆攻撃とビザンチン障害の許容

Tolerating Adversarial Attacks and Byzantine Faults in Distributed Machine Learning ( http://arxiv.org/abs/2109.02018v1 )

ライセンス: CC BY 4.0
Yusen Wu, Hao Chen, Xin Wang, Chao Liu, Phuong Nguyen, Yelena Yesha(参考訳) 敵攻撃は、大規模分散機械学習システムにおける人工知能と機械学習モデルのトレーニング、再訓練、活用を妨害しようとする。 これにより、その予測結果にセキュリティリスクが生じる。 例えば、攻撃者は不正確な表現データを提示するか、モデルのパラメータを変更してモデルを毒殺しようとする。 さらに、ソフトウェア、ハードウェア、ネットワークの問題を含むビザンチンの障害が分散システムで発生し、予測結果に悪影響を及ぼす。 本稿では,敵対的攻撃を防御し,ビザンツ断層を許容する分散学習アルゴリズムParSGDを提案する。 本アルゴリズムは,機械学習モデルとビザンチン断層の訓練段階での3つの共通敵攻撃に対して有効性を示す。 その結果,parsgdを用いたmlモデルでは,攻撃されていないか,あるいはノードのほぼ半分が侵害されたり,あるいは障害が発生した場合の障害発生を予測できることがわかった。 他のアルゴリズムと比較してparsgdの実験評価を報告する。

Adversarial attacks attempt to disrupt the training, retraining and utilizing of artificial intelligence and machine learning models in large-scale distributed machine learning systems. This causes security risks on its prediction outcome. For example, attackers attempt to poison the model by either presenting inaccurate misrepresentative data or altering the models' parameters. In addition, Byzantine faults including software, hardware, network issues occur in distributed systems which also lead to a negative impact on the prediction outcome. In this paper, we propose a novel distributed training algorithm, partial synchronous stochastic gradient descent (ParSGD), which defends adversarial attacks and/or tolerates Byzantine faults. We demonstrate the effectiveness of our algorithm under three common adversarial attacks again the ML models and a Byzantine fault during the training phase. Our results show that using ParSGD, ML models can still produce accurate predictions as if it is not being attacked nor having failures at all when almost half of the nodes are being compromised or failed. We will report the experimental evaluations of ParSGD in comparison with other algorithms.
翻訳日:2021-09-08 07:06:52 公開日:2021-09-05
# (参考訳) 変分物理学インフォームドニューラルネットワーク:二次関数とテスト関数の役割

Variational Physics Informed Neural Networks: the role of quadratures and test functions ( http://arxiv.org/abs/2109.02035v1 )

ライセンス: CC BY 4.0
Stefano Berrone, Claudio Canuto and Moreno Pintore(参考訳) 本研究では,異なる精度のガウスあるいはニュートン・コートの二次規則と,異なる次数の多項式テスト関数が,メッシュの洗練に関する変分物理学情報ニューラルネットワーク(VPINN)の収束率にどのように影響するかを,楕円境界値問題を解きながら解析する。 inf-sup条件に依存するpetrov-galerkinフレームワークを用いて、計算されたニューラルネットワークの適切な高次区分補間と厳密な解の間のエネルギーノルムにおけるa優先誤差推定を導出する。 数値実験により理論的予測が確定し、ニューラルネットワークが補間されていない場合の誤差崩壊が同じ挙動を辿ることを示す。 この結果から, 滑らかな解法において, 誤差の崩壊率の高い最適戦略は, 適度に高い精度の二次式を用いながら, 最小多項式の試験関数を選択することであることが示唆された。

In this work we analyze how Gaussian or Newton-Cotes quadrature rules of different precisions and piecewise polynomial test functions of different degrees affect the convergence rate of Variational Physics Informed Neural Networks (VPINN) with respect to mesh refinement, while solving elliptic boundary-value problems. Using a Petrov-Galerkin framework relying on an inf-sup condition, we derive an a priori error estimate in the energy norm between the exact solution and a suitable high-order piecewise interpolant of a computed neural network. Numerical experiments confirm the theoretical predictions, and also indicate that the error decay follows the same behavior when the neural network is not interpolated. Our results suggest, somehow counterintuitively, that for smooth solutions the best strategy to achieve a high decay rate of the error consists in choosing test functions of the lowest polynomial degree, while using quadrature formulas of suitably high precision.
翻訳日:2021-09-08 06:49:30 公開日:2021-09-05
# (参考訳) 話者照合自動検出のための複合損失機能付き高能率注意分岐ネットワーク

Efficient Attention Branch Network with Combined Loss Function for Automatic Speaker Verification Spoof Detection ( http://arxiv.org/abs/2109.02051v1 )

ライセンス: CC BY 4.0
Amir Mohammad Rostami, Mohammad Mehdi Homayounpour, Ahmad Nickabadi(参考訳) 多くの取り組みは、スプーフ攻撃に対してより堅牢にするために、自動話者検証(ASV)システムの強化として対策技術を開発しようとしてきた。 最新の ASVspoof 2019 対策の課題によって証明されているように、現在 ASV のタスク用に配備されているモデルは、最も良いことに、目に見えない攻撃に対して適切な一般化の度合いを欠いている。 提案手法のさらなる検討により,提案方式のより広範な3段階の視点が得られた。 分類器、特徴抽出フェーズ、およびモデル損失関数からなると、ある程度問題を減少させることができる。 そこで本研究では、一般化問題に対処するために、損失関数を組み合わせた効率的な注意分岐ネットワーク(EABN)アーキテクチャを提案する。

Many endeavors have sought to develop countermeasure techniques as enhancements on Automatic Speaker Verification (ASV) systems, in order to make them more robust against spoof attacks. As evidenced by the latest ASVspoof 2019 countermeasure challenge, models currently deployed for the task of ASV are, at their best, devoid of suitable degrees of generalization to unseen attacks. Upon further investigation of the proposed methods, it appears that a broader three-tiered view of the proposed systems. comprised of the classifier, feature extraction phase, and model loss function, may to some extent lessen the problem. Accordingly, the present study proposes the Efficient Attention Branch Network (EABN) modular architecture with a combined loss function to address the generalization problem...
翻訳日:2021-09-08 06:25:23 公開日:2021-09-05
# (参考訳) 人間行動認識におけるコントラスト学習のための再サンプリングによるセンサデータ拡張

Sensor Data Augmentation with Resampling for Contrastive Learning in Human Activity Recognition ( http://arxiv.org/abs/2109.02054v1 )

ライセンス: CC BY 4.0
Jinqiang Wang, Tao Zhu, Jingyuan Gan, Huansheng Ning and Yaping Wan(参考訳) ヒトの活動認識は、日常生活だけでなく、医療やリハビリテーションの分野でもますます重要な役割を担っている。 深層学習の発展は、人間の活動認識の発展にも寄与しているが、深層学習モデルの訓練に必要な大量のデータアノテーション作業は、人間の活動認識の発展の大きな障害である。 対照的な学習は、大規模なデータセットのラベル付けコストを回避する能力と、異なるインスタンスのサンプル表現を区別する能力から、センサベースのヒューマンアクティビティ認識の分野で使われ始めている。 その中でも、コントラスト学習の重要な部分であるデータ拡張は、モデルの有効性に大きな影響を及ぼすが、現在のデータ拡張方法は、ウェアラブルセンサーによるアクティビティ認識のためのコントラスト学習フレームワークでは、あまりうまく機能しない。 本稿では,コントラスト学習モデルの効果を最適化するために,センサのサンプリング周波数を調査し,サンプルデータ拡張手法を提案する。 また,人間行動認識に基づくコントラスト学習フレームワークを提案し,コントラスト学習のデータ増補フェーズにサンプル化強調法を適用した。 実験結果から, コントラスト学習を少量のラベル付きデータで微調整した場合, UCI HARでは9.88%, モーションセンサでは7.69%, 教師あり学習では9.88%に向上し, また, コントラスト学習フレームワークにおいてすべてのデータ拡張手法が肯定的な効果を持つわけではないことが明らかになった。 最後に,異なる強化法の組み合わせがコントラスト学習に与える影響について検討し,実験結果から,組み合わせ強化法が単強化法よりも優れていることが示された。

Human activity recognition plays an increasingly important role not only in our daily lives, but also in the medical and rehabilitation fields. The development of deep learning has also contributed to the advancement of human activity recognition, but the large amount of data annotation work required to train deep learning models is a major obstacle to the development of human activity recognition. Contrastive learning has started to be used in the field of sensor-based human activity recognition due to its ability to avoid the cost of labeling large datasets and its ability to better distinguish between sample representations of different instances. Among them, data augmentation, an important part of contrast learning, has a significant impact on model effectiveness, but current data augmentation methods do not perform too successfully in contrast learning frameworks for wearable sensor-based activity recognition. To optimize the effect of contrast learning models, in this paper, we investigate the sampling frequency of sensors and propose a resampling data augmentation method. In addition, we also propose a contrast learning framework based on human activity recognition and apply the resampling augmentation method to the data augmentation phase of contrast learning. The experimental results show that the resampling augmentation method outperforms supervised learning by 9.88% on UCI HAR and 7.69% on Motion Sensor in the fine-tuning evaluation of contrast learning with a small amount of labeled data, and also reveal that not all data augmentation methods will have positive effects in the contrast learning framework. Finally, we explored the influence of the combination of different augmentation methods on contrastive learning, and the experimental results showed that the effect of most combination augmentation methods was better than that of single augmentation.
翻訳日:2021-09-08 06:10:53 公開日:2021-09-05
# (参考訳) ロバストNLUトレーニングのためのエンドツーエンド自己劣化フレームワーク

End-to-End Self-Debiasing Framework for Robust NLU Training ( http://arxiv.org/abs/2109.02071v1 )

ライセンス: CC BY 4.0
Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh, Ahmad Rashid(参考訳) 既存の自然言語理解(NLU)モデルでは、データセットバイアスが組み込まれ、ID(In-distriion)テストセットのパフォーマンスは高いが、out-of-distriion(OOD)モデルのパフォーマンスは低いことが示されている。 本稿では,主モデルの浅い表現をバイアスモデルに導出し,両方のモデルを同時に訓練する,単純かつ効果的なデバイアスフレームワークを提案する。 我々は3つのよく研究されたNLUタスクについて,その単純さにもかかわらず,本手法が競合するOOD結果をもたらすことを示す。 2つのタスクにおいて、他のデバイアスのアプローチよりも大幅に優れています。

Existing Natural Language Understanding (NLU) models have been shown to incorporate dataset biases leading to strong performance on in-distribution (ID) test sets but poor performance on out-of-distribution (OOD) ones. We introduce a simple yet effective debiasing framework whereby the shallow representations of the main model are used to derive a bias model and both models are trained simultaneously. We demonstrate on three well studied NLU tasks that despite its simplicity, our method leads to competitive OOD results. It significantly outperforms other debiasing approaches on two tasks, while still delivering high in-distribution performance.
翻訳日:2021-09-08 05:55:59 公開日:2021-09-05
# (参考訳) Fusformer:ハイパースペクトル画像超解像のための変換器による融合手法

Fusformer: A Transformer-based Fusion Approach for Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2109.02079v1 )

ライセンス: CC BY 4.0
Jin-Fan Hu and Ting-Zhu Huang and Liang-Jian Deng(参考訳) スペクトル情報の豊富なため、ハイパースペクトル画像はますます重要になっている。 しかし,現在の撮像機構の限界により空間分解能は低下している。 近年,高スペクトル画像超解像問題に対して多くの畳み込みニューラルネットワークが提案されている。 しかし、畳み込みニューラルネットワーク(cnn)に基づく手法では、畳み込み動作における受容フィールドのカーネルサイズが制限されたグローバル情報ではなく、ローカル情報のみを考慮する。 本稿では,高分解能ハイパースペクトル画像と高分解能マルチスペクトル画像とを融合させて高分解能ハイパースペクトル画像を得るトランスフォーマに基づくネットワークを設計する。 トランスフォーマーの表現能力のおかげで、我々のアプローチは、機能の本質的な関係をグローバルに探求することができる。 さらに、LR-HSIが主スペクトル構造を持つことを考慮し、全データ再構成の負担から解放される空間的詳細推定に焦点を当てた。 これにより、提案するネットワークのマッピングスペースが削減され、最終的な性能が向上する。 様々な実験と品質指標は、他の最先端手法と比較してアプローチの優位性を示している。

Hyperspectral image has become increasingly crucial due to its abundant spectral information. However, It has poor spatial resolution with the limitation of the current imaging mechanism. Nowadays, many convolutional neural networks have been proposed for the hyperspectral image super-resolution problem. However, convolutional neural network (CNN) based methods only consider the local information instead of the global one with the limited kernel size of receptive field in the convolution operation. In this paper, we design a network based on the transformer for fusing the low-resolution hyperspectral images and high-resolution multispectral images to obtain the high-resolution hyperspectral images. Thanks to the representing ability of the transformer, our approach is able to explore the intrinsic relationships of features globally. Furthermore, considering the LR-HSIs hold the main spectral structure, the network focuses on the spatial detail estimation releasing from the burden of reconstructing the whole data. It reduces the mapping space of the proposed network, which enhances the final performance. Various experiments and quality indexes show our approach's superiority compared with other state-of-the-art methods.
翻訳日:2021-09-08 05:46:59 公開日:2021-09-05
# (参考訳) ディープ・パーソン・ジェネレーション:顔・ポーズ・布の合成からみた調査

Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis ( http://arxiv.org/abs/2109.02081v1 )

ライセンス: CC BY 4.0
Tong Sha, Wei Zhang, Tong Shen, Zhoujun Li, Tao Mei(参考訳) ディープ・パーソン・ジェネレーションは、仮想エージェント、ビデオ会議、オンラインショッピング、アート/映画制作に広く応用されているため、幅広い研究の注目を集めている。 深層学習の進展により、人像の視覚的外観(顔、ポーズ、布)を容易に生成したり、必要に応じて操作することができる。 本研究は,まず,人間生成のスコープを概観し,その後,ディープパーソン世代における最近の進歩と技術動向を体系的にレビューし,トーキングヘッド生成(face),ポーズ誘導型人生成(pose),衣服指向人生成(cloth)の3つの主なタスクをカバーした。 200以上の論文が概観のためにカバーされており、マイルストーンワークは技術的ブレークスルーを目撃するために強調されている。 これらの基本的なタスクに基づいて、仮想フィッティング、デジタルヒューマン、生成データ拡張など、多くのアプリケーションを調査します。 この調査が、ディープパーソン世代の将来的な展望に光を当て、デジタル人間への完全な応用のための有用な基盤を提供することを願っている。

Deep person generation has attracted extensive research attention due to its wide applications in virtual agents, video conferencing, online shopping and art/movie production. With the advancement of deep learning, visual appearances (face, pose, cloth) of a person image can be easily generated or manipulated on demand. In this survey, we first summarize the scope of person generation, and then systematically review recent progress and technical trends in deep person generation, covering three major tasks: talking-head generation (face), pose-guided person generation (pose) and garment-oriented person generation (cloth). More than two hundred papers are covered for a thorough overview, and the milestone works are highlighted to witness the major technical breakthrough. Based on these fundamental tasks, a number of applications are investigated, e.g., virtual fitting, digital human, generative data augmentation. We hope this survey could shed some light on the future prospects of deep person generation, and provide a helpful foundation for full applications towards digital human.
翻訳日:2021-09-08 05:38:19 公開日:2021-09-05
# (参考訳) (M)SLAe-Net:網膜血管セグメンテーションのためのマルチスケールマルチレベル注意組込みネットワーク

(M)SLAe-Net: Multi-Scale Multi-Level Attention embedded Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2109.02084v1 )

ライセンス: CC BY 4.0
Shreshth Saini, Geetika Agrawal(参考訳) セグメンテーションは診断において重要な役割を果たす。 基底画像からの網膜血管の研究は、糖尿病網膜症などの多くの重要な疾患の早期の兆候を特定するのに役立つ。 網膜血管の形状、大きさ、パターンが異なり、眼底画像のアーティファクトやノイズとともに、単段法では網膜血管を正確に分割することはできない。 本研究では、網膜血管の堅牢かつ正確なセグメンテーションのための多段階処理の課題に対処するため、マルチスケールでマルチレベルなCNNアーキテクチャ((M)SLAe-Net)を提案する。 私たちは、複数のスケールとネットワークの複数のレベルにある特徴を抽出し、モデルが局所的かつグローバルな特徴を段階的に抽出できるようにします。 動的拡張ピラミッドプール (D-DPP) モジュールを用いて, マルチスケールの特徴を抽出した。 また、すべてのネットワークレベルから機能を集約します。 これにより、様々な形状や工芸品の問題が効果的に解決され、複数のステージが必要になった。 Squeeze and Attention(SA)モジュールは、Squeeze and Excitation(SE)モジュールのスマートに適応したバージョンで、当社のネットワーク内のセグメンテーションタスクに使用し、ピクセルグループ注意を促す。 ネットワーク設計に特有なd-dppモジュールと,薄型容器のタスク固有損失機能により,クロスデータ性能が向上した。 DRIVE, STARE, HRF, CHASE-DB1の試験結果から, 本法の有用性が示された。

Segmentation plays a crucial role in diagnosis. Studying the retinal vasculatures from fundus images help identify early signs of many crucial illnesses such as diabetic retinopathy. Due to the varying shape, size, and patterns of retinal vessels, along with artefacts and noises in fundus images, no one-stage method can accurately segment retinal vessels. In this work, we propose a multi-scale, multi-level attention embedded CNN architecture ((M)SLAe-Net) to address the issue of multi-stage processing for robust and precise segmentation of retinal vessels. We do this by extracting features at multiple scales and multiple levels of the network, enabling our model to holistically extracts the local and global features. Multi-scale features are extracted using our novel dynamic dilated pyramid pooling (D-DPP) module. We also aggregate the features from all the network levels. These effectively resolved the issues of varying shapes and artefacts and hence the need for multiple stages. To assist in better pixel-level classification, we use the Squeeze and Attention(SA) module, a smartly adapted version of the Squeeze and Excitation(SE) module for segmentation tasks in our network to facilitate pixel-group attention. Our unique network design and novel D-DPP module with efficient task-specific loss function for thin vessels enabled our model for better cross data performance. Exhaustive experimental results on DRIVE, STARE, HRF, and CHASE-DB1 show the superiority of our method.
翻訳日:2021-09-08 05:37:11 公開日:2021-09-05
# (参考訳) 変分オートエンコーディングと周期整合逆ネットワークを用いた音色伝達

Timbre Transfer with Variational Auto Encoding and Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2109.02096v1 )

ライセンス: CC BY 4.0
Russell Sammut Bonnici, Charalampos Saitis, Martin Benning(参考訳) 本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。 提案手法は,変分オートエンコーダとジェネレーティブ・アドバーサリアル・ネットワークを組み合わせることで,音源の有意義な表現を構築し,ターゲット音声の現実的な世代を生成し,話者間で声帯を伝達するFlickr 8k Audioデータセットと楽器間で音色を伝達するURMPデータセットに適用する。 さらに、採用手法のバリエーションを訓練し、SSIM(Structural similarity Index)とFAD(Frech\'et Audio Distance)を用いて一般化性能を比較する。 多対多のアプローチは、復元能力の観点から1対1のアプローチに取って代わり、ボトルネック残余ブロック設計よりも基本の採用が潜在空間に関するコンテンツ情報を強化するのにより適していることが判明した。 また, 周期的損失が変分オートエンコーダやバニラオートエンコーダアプローチに負うか否かの決定は, モデルの再構成および対角翻訳面に有意な影響を及ぼさないことがわかった。

This research project investigates the application of deep learning to timbre transfer, where the timbre of a source audio can be converted to the timbre of a target audio with minimal loss in quality. The adopted approach combines Variational Autoencoders with Generative Adversarial Networks to construct meaningful representations of the source audio and produce realistic generations of the target audio and is applied to the Flickr 8k Audio dataset for transferring the vocal timbre between speakers and the URMP dataset for transferring the musical timbre between instruments. Furthermore, variations of the adopted approach are trained, and generalised performance is compared using the metrics SSIM (Structural Similarity Index) and FAD (Frech\'et Audio Distance). It was found that a many-to-many approach supersedes a one-to-one approach in terms of reconstructive capabilities, and that the adoption of a basic over a bottleneck residual block design is more suitable for enriching content information about a latent space. It was also found that the decision on whether cyclic loss takes on a variational autoencoder or vanilla autoencoder approach does not have a significant impact on reconstructive and adversarial translation aspects of the model.
翻訳日:2021-09-08 05:26:47 公開日:2021-09-05
# (参考訳) 実演による複雑なタスクの自己回帰型言語モデル指導

Teaching Autoregressive Language Models Complex Tasks By Demonstration ( http://arxiv.org/abs/2109.02102v1 )

ライセンス: CC BY 4.0
Gabriel Recchia(参考訳) 本稿では,ステップバイステップで適切に構成された自己回帰言語モデル(GPT-Neo)を微調整することにより,トランスフォーマー(長期変調演算)において従来困難であった数学的タスクの実行を比較的少数の例で行うことができることを示す。 具体的には、GPT-Neoを微調整し、DeepMindの数学データセットからNumber_div_remainderタスクを解く。 (arxiv:1904.01557) このタスクの精度は、200万のトレーニング例で40%以下である。 長い分割問題を解き,残余を報告する200個の適切に構成されたデモを微調整した結果,最小のGPT-Neoモデルで80%以上の精度が得られた。 これは、学習アルゴリズムを変更することなく、微調整に適したデータセットを構築することで達成される。 これらの結果から,機械学習のトレーニングを受けない個人が,複雑な多段階タスクを実行するために,微調整された自己回帰型言語モデルが有用なパラダイムである可能性が示唆された。

This paper demonstrates that by fine-tuning an autoregressive language model (GPT-Neo) on appropriately structured step-by-step demonstrations, it is possible to teach it to execute a mathematical task that has previously proved difficult for Transformers - longhand modulo operations - with a relatively small number of examples. Specifically, we fine-tune GPT-Neo to solve the numbers__div_remainder task from the DeepMind Mathematics Dataset; Saxton et al. (arXiv:1904.01557) reported below 40% accuracy on this task with 2 million training examples. We show that after fine-tuning on 200 appropriately structured demonstrations of solving long division problems and reporting the remainders, the smallest available GPT-Neo model achieves over 80% accuracy. This is achieved by constructing an appropriate dataset for fine-tuning, with no changes to the learning algorithm. These results suggest that fine-tuning autoregressive language models on small sets of well-crafted demonstrations may be a useful paradigm for enabling individuals without training in machine learning to coax such models to perform some kinds of complex multi-step tasks.
翻訳日:2021-09-08 05:11:04 公開日:2021-09-05
# (参考訳) CNNを用いた胸部X線画像を用いた新型コロナウイルスの認識

Recognition of COVID-19 Disease Utilizing X-Ray Imaging of the Chest Using CNN ( http://arxiv.org/abs/2109.02103v1 )

ライセンス: CC BY-SA 4.0
Md Gulzar Hussain, Ye Shiren(参考訳) このCOVID-19パンデミックが盛んになってから、RT-PCR検査に補完的なスクリーニング技術としてChest(CXR)のX線画像が利用されるようになり、その臨床利用が呼吸障害に繋がるようになる。 その結果、多くの新しいディープラーニングアプローチが発展した。 本研究の目的は、胸部X線画像を用いた新型コロナウイルスの診断のために、畳み込みニューラルネットワーク(CNN)を評価することである。 本研究では, 1層, 3層, 4層からなるCNNの性能評価を行った。 この研究には13,808枚のCXR写真が使用されている。 データセットを3分割したx線画像で評価すると、3層畳み込み層を持つcnnモデルが96%の精度で確実に検出できることを示す予備実験結果が得られた。 この事実は、covid-19の信頼できるスクリーニングのための提案モデルのコミットメントを示している。

Since this COVID-19 pandemic thrives, the utilization of X-Ray images of the Chest (CXR) as a complementary screening technique to RT-PCR testing grows to its clinical use for respiratory complaints. Many new deep learning approaches have developed as a consequence. The goal of this research is to assess the convolutional neural networks (CNNs) to diagnosis COVID-19 utisizing X-ray images of chest. The performance of CNN with one, three, and four convolution layers has been evaluated in this research. A dataset of 13,808 CXR photographs are used in this research. When evaluated on X-ray images with three splits of the dataset, our preliminary experimental results show that the CNN model with three convolution layers can reliably detect with 96 percent accuracy (precision being 96 percent). This fact indicates the commitment of our suggested model for reliable screening of COVID-19.
翻訳日:2021-09-08 05:01:43 公開日:2021-09-05
# (参考訳) 追跡による最先端物体検出によるドライバ電話利用違反の同定

Identification of Driver Phone Usage Violations via State-of-the-Art Object Detection with Tracking ( http://arxiv.org/abs/2109.02119v1 )

ライセンス: CC BY 4.0
Steven Carrell and Amir Atapour-Abarghouei(参考訳) 自動車運転における携帯電話の利用は、道路交通のインシデントにおいて大きな要因であり、そのような違反を捕捉するプロセスは、手間のかかる作業である。 現代のオブジェクト検出フレームワークと高性能ハードウェアの両方の進歩は、ビデオ監視に関してより自動化されたアプローチへの道を開いた。 そこで本研究では,道路カメラと協調して,人間の介入を必要とせず,運転者の携帯電話使用状況を把握するカスタム学習型物体検出装置を提案する。 提案手法はウインドスクリーンのグラアによって引き起こされる問題にも対処し、修正に必要な手順を導入する。 12の事前トレーニングされたモデルは、YOLO、SSD、Faster R-CNN、CenterNetの4つの一般的なオブジェクト検出方法を使用して、私たちのカスタムデータセットで微調整されます。 テストされたすべての物体検出器のうち、yoloは最大96%(ap10)の精度と最大30fpsのフレームレートを実現している。 deepsort object trackingアルゴリズムは、最もパフォーマンスの高いモデルに統合され、ユニークな違反のみの記録を収集し、提案手法により車両数を数えることができる。 提案した自動システムは、識別された違反の出力画像、各違反のタイムスタンプ、および総車両数を収集する。 データは、ユーザーインターフェイスを通じてアクセスすることができる。

The use of mobiles phones when driving have been a major factor when it comes to road traffic incidents and the process of capturing such violations can be a laborious task. Advancements in both modern object detection frameworks and high-performance hardware has paved the way for a more automated approach when it comes to video surveillance. In this work, we propose a custom-trained state-of-the-art object detector to work with roadside cameras to capture driver phone usage without the need for human intervention. The proposed approach also addresses the issues caused by windscreen glare and introduces the steps required to remedy this. Twelve pre-trained models are fine-tuned with our custom dataset using four popular object detection methods: YOLO, SSD, Faster R-CNN, and CenterNet. Out of all the object detectors tested, the YOLO yields the highest accuracy levels of up to 96% (AP10) and frame rates of up to ~30 FPS. DeepSort object tracking algorithm is also integrated into the best-performing model to collect records of only the unique violations, and enable the proposed approach to count the number of vehicles. The proposed automated system will collect the output images of the identified violations, timestamps of each violation, and total vehicle count. Data can be accessed via a purpose-built user interface.
翻訳日:2021-09-08 04:52:20 公開日:2021-09-05
# (参考訳) 確率的ニューラルラジアンス場:入射3次元表現の不確かさの定量化

Stochastic Neural Radiance Fields:Quantifying Uncertainty in Implicit 3D Representations ( http://arxiv.org/abs/2109.02123v1 )

ライセンス: CC BY 4.0
Jianxiong Shen, Adria Ruiz, Antonio Agudo, Francesc Moreno(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、暗黙の3次元表現を学習し、新規ビュー合成や深度マップ推定といった様々なタスクに対処するための一般的なフレームワークとなっている。 しかし,自動予測に基づく意思決定が必要な下流アプリケーションでは,モデル推定に関連する信頼度を活用することが重要である。 不確実性定量化は機械学習の長年の問題であるが、最近のNeRF文献ではほとんど見過ごされている。 そこで,本研究では,シーンをモデル化する全ての確率分布を学習する標準nerfの一般化である確率的神経放射場(s-nerf)を提案する。 この分布は、モデルが提供するシーン情報に関連する不確かさを定量化することができる。 S-NeRF最適化は変分推論フレームワークを用いて効率よく対処するベイズ学習問題として提案される。 ベンチマークデータセットに対する実験により、S-NeRFは他の領域における不確実性推定のためにこれまで提案された一般的なアプローチよりも信頼性の高い予測と信頼性値を提供できることが示された。

Neural Radiance Fields (NeRF) has become a popular framework for learning implicit 3D representations and addressing different tasks such as novel-view synthesis or depth-map estimation. However, in downstream applications where decisions need to be made based on automatic predictions, it is critical to leverage the confidence associated with the model estimations. Whereas uncertainty quantification is a long-standing problem in Machine Learning, it has been largely overlooked in the recent NeRF literature. In this context, we propose Stochastic Neural Radiance Fields (S-NeRF), a generalization of standard NeRF that learns a probability distribution over all the possible radiance fields modeling the scene. This distribution allows to quantify the uncertainty associated with the scene information provided by the model. S-NeRF optimization is posed as a Bayesian learning problem which is efficiently addressed using the Variational Inference framework. Exhaustive experiments over benchmark datasets demonstrate that S-NeRF is able to provide more reliable predictions and confidence values than generic approaches previously proposed for uncertainty estimation in other domains.
翻訳日:2021-09-08 04:37:59 公開日:2021-09-05
# (参考訳) 時間を考慮した深層強化学習

Temporal Aware Deep Reinforcement Learning ( http://arxiv.org/abs/2109.02145v1 )

ライセンス: CC BY 4.0
Deepak-George Thomas(参考訳) 従来の画像に基づくDeep Reinforcement Learning (DRL)アルゴリズムが採用する関数近似器は通常、時間的学習要素を欠き、代わりに空間成分の学習に集中する。 本研究では,時間的・空間的要素を共に学習する手法を提案する。 テストは汎用DQNで実施し,最大報酬およびサンプルの複雑さの観点から比較した。 このアルゴリズムは、ロボット工学とシーケンシャルな意思決定領域に影響を及ぼす。

The function approximators employed by traditional image based Deep Reinforcement Learning (DRL) algorithms usually lack a temporal learning component and instead focus on learning the spatial component. We propose a technique wherein both temporal as well as spatial components are jointly learned. Our tested was tested with a generic DQN and it outperformed it in terms of maximum rewards as well as sample complexity. This algorithm has implications in the robotics as well as sequential decision making domains.
翻訳日:2021-09-08 04:20:42 公開日:2021-09-05
# (参考訳) 最適ベイズ変換学習における誤り推定のためのロバスト重要サンプリング

Robust Importance Sampling for Error Estimation in the Context of Optimal Bayesian Transfer Learning ( http://arxiv.org/abs/2109.02150v1 )

ライセンス: CC BY 4.0
Omar Maddouri, Xiaoning Qian, Francis J. Alexander, Edward R. Dougherty, Byung-Jun Yoon(参考訳) 分類は、不確実性の下で意思決定を可能にするため、インテリジェントシステムを構築するための主要なタスクである。 分類器の設計は、機能ラベル分布を表すトレーニングデータからモデルを構築することを目的としている。 多くの科学や臨床において、訓練データは一般的に制限されており、正確な分類器の設計と分類誤差の評価は極めて困難である。 転送学習(TL)は、関連するソースドメインからのデータを組み込んで異なるターゲットドメインでの学習を改善することでこの問題を軽減することができるが、特にエラー推定においてパフォーマンス評価にはほとんど注目されていない。 本稿では,ベイズパラダイムにおける分類誤差推定の文脈における知識伝達可能性の検討により,このギャップを埋める。 本稿では,ベイズ最小平均二乗誤差(MMSE)を最適ベイズ変換学習(OBTL)に適用し,不確実性を考慮した分類誤差の厳密な評価を可能にする。 モンテカルロ重要度サンプリングを用いて,多種多様な学習能力にまたがる分類器の分類精度を評価するために,提案手法を用いた。 合成データと実世界のRNAシークエンシング(RNA-seq)データの両方に基づく実験結果から,提案したOBTLエラー推定手法は,他の関連ドメインからのデータを取り込むことで,特に小サンプル環境での標準誤差推定よりも明らかに優れていることが示された。

Classification has been a major task for building intelligent systems as it enables decision-making under uncertainty. Classifier design aims at building models from training data for representing feature-label distributions--either explicitly or implicitly. In many scientific or clinical settings, training data are typically limited, which makes designing accurate classifiers and evaluating their classification error extremely challenging. While transfer learning (TL) can alleviate this issue by incorporating data from relevant source domains to improve learning in a different target domain, it has received little attention for performance assessment, notably in error estimation. In this paper, we fill this gap by investigating knowledge transferability in the context of classification error estimation within a Bayesian paradigm. We introduce a novel class of Bayesian minimum mean-square error (MMSE) estimators for optimal Bayesian transfer learning (OBTL), which enables rigorous evaluation of classification error under uncertainty in a small-sample setting. Using Monte Carlo importance sampling, we employ the proposed estimator to evaluate the classification accuracy of a broad family of classifiers that span diverse learning capabilities. Experimental results based on both synthetic data as well as real-world RNA sequencing (RNA-seq) data show that our proposed OBTL error estimation scheme clearly outperforms standard error estimators, especially in a small-sample setting, by tapping into the data from other relevant domains.
翻訳日:2021-09-08 04:17:14 公開日:2021-09-05
# (参考訳) 非拘束手書きマラヤラム文字認識のための空間領域特徴抽出法

Spatial Domain Feature Extraction Methods for Unconstrained Handwritten Malayalam Character Recognition ( http://arxiv.org/abs/2109.02153v1 )

ライセンス: CC BY 4.0
Jomy John(参考訳) 手書き文字認識は、特にインド文字に対する積極的な研究課題である。 本論文は,手書きのマラヤラムを扱っており,基本文字,母音,子音記号,文字に含まれる複合文字の完全セットを扱っている。 本研究では,認識に適した空間領域特徴を選定する。 分類には k-NN, SVM, ELM を用いる。

Handwritten character recognition is an active research challenge,especially for Indian scripts. This paper deals with handwritten Malayalam, with a complete set of basic characters, vowel and consonant signs and compound characters that may be present in the script. Spatial domain features suitable for recognition are chosen in this work. For classification, k-NN, SVM and ELM are employed
翻訳日:2021-09-08 03:42:18 公開日:2021-09-05
# (参考訳) 都市消防署立地計画:需要予測とサービス品質指標を用いた体系的アプローチ

Urban Fire Station Location Planning: A Systematic Approach using Predicted Demand and Service Quality Index ( http://arxiv.org/abs/2109.02160v1 )

ライセンス: CC BY 4.0
Arnab Dey, Andrew Heger and Darin England(参考訳) 本稿では,消防署の立地計画のための体系的アプローチを提案する。 本研究では,需要予測のためのランダムフォレストに基づく機械学習モデルを構築し,さらに,都市環境における火災サービス品質測定のための一般化指標を定義する。 私たちのモデルは、複数の異なるソースから収集された空間データに基づいています。 適切な施設計画の有効性は、既存の駅と共に消防署を配置できる候補の選択に依存する。 また, 火災安全基準の維持には, 受験者から所要所までの所要時間も考慮する必要がある。 本稿では,適切な候補を特定するための旅行時間に基づくクラスタリング手法を提案する。 最後に,新しい消防署を設置する最善の場所を選択する最適化問題を開発する。 我々の最適化問題は整数計画に基づく最大カバレッジ問題に基づいている。 本研究は,アメリカ合衆国MNのビクトリア消防署と共同で実施した,提案手法の詳細な実験研究である。 需要予測モデルは70%の真正率と約22%の偽陽性率を達成している。 私たちはビクトリア消防署に、我々のアプローチで新しい消防署の場所を選ぶよう支援します。 本研究は,ビクトリア市に提案する新しい施設の選定による改善統計の詳細な結果を示す。

In this article, we propose a systematic approach for fire station location planning. We develop a machine learning model, based on Random Forest, for demand prediction and utilize the model further to define a generalized index to measure quality of fire service in urban settings. Our model is built upon spatial data collected from multiple different sources. Efficacy of proper facility planning depends on choice of candidates where fire stations can be located along with existing stations, if any. Also, the travel time from these candidates to demand locations need to be taken care of to maintain fire safety standard. Here, we propose a travel time based clustering technique to identify suitable candidates. Finally, we develop an optimization problem to select best locations to install new fire stations. Our optimization problem is built upon maximum coverage problem, based on integer programming. We present a detailed experimental study of our proposed approach in collaboration with city of Victoria Fire Department, MN, USA. Our demand prediction model achieves true positive rate of 70% and false positive rate of 22% approximately. We aid Victoria Fire Department to select a location for a new fire station using our approach. We present detailed results on improvement statistics by locating a new facility, as suggested by our methodology, in the city of Victoria.
翻訳日:2021-09-08 03:38:01 公開日:2021-09-05
# (参考訳) テキストコヒーレンス評価のためのトランスフォーマーモデル

Transformer Models for Text Coherence Assessment ( http://arxiv.org/abs/2109.02176v1 )

ライセンス: CC BY 4.0
Tushar Abhishek, Daksh Rawat, Manish Gupta, and Vasudeva Varma(参考訳) コヒーレンスはテキスト品質の重要な側面であり、その可読性を確保するために重要である。 要約,質問応答,機械翻訳,質問生成,テーブル・ツー・テキストなど,テキスト生成システムからの出力には必須である。 自動コヒーレンススコアリングモデルは、エッセイスコアリングや書き込みフィードバックの提供にも役立ちます。 これまでの多くの研究は、エンティティベースの手法、構文パターン、談話関係、さらに最近ではテキストコヒーレンスアセスメントのための従来のディープラーニングアーキテクチャを活用してきた。 これまでの作業では、長距離依存関係の処理不能、語彙外単語、モデルシーケンス情報といった欠点に苦しめられている。 コヒーレンス評価は認知的に複雑なタスクであり、より深いモデルが必要であり、他の関連するタスクの恩恵を受けることができると仮定する。 そこで本稿では,このタスクに対して,バニラトランス,階層的トランスフォーマ,マルチタスク学習ベースモデル,ファクトベース入力表現モデルという4種類のトランスフォーマアーキテクチャを提案する。 4つの異なるコヒーレンス評価タスクで、複数のドメインにまたがる人気のあるベンチマークデータセットを用いて実験を行い、既存のモデルよりも優れた結果が得られることを示した。

Coherence is an important aspect of text quality and is crucial for ensuring its readability. It is essential desirable for outputs from text generation systems like summarization, question answering, machine translation, question generation, table-to-text, etc. An automated coherence scoring model is also helpful in essay scoring or providing writing feedback. A large body of previous work has leveraged entity-based methods, syntactic patterns, discourse relations, and more recently traditional deep learning architectures for text coherence assessment. Previous work suffers from drawbacks like the inability to handle long-range dependencies, out-of-vocabulary words, or model sequence information. We hypothesize that coherence assessment is a cognitively complex task that requires deeper models and can benefit from other related tasks. Accordingly, in this paper, we propose four different Transformer-based architectures for the task: vanilla Transformer, hierarchical Transformer, multi-task learning-based model, and a model with fact-based input representation. Our experiments with popular benchmark datasets across multiple domains on four different coherence assessment tasks demonstrate that our models achieve state-of-the-art results outperforming existing models by a good margin.
翻訳日:2021-09-08 03:21:25 公開日:2021-09-05
# 時間的セット予測のためのグローバルローカルアイテム埋め込み

Global-Local Item Embedding for Temporal Set Prediction ( http://arxiv.org/abs/2109.02074v1 )

ライセンス: Link先を確認
Seungjae Jung, Young-Jin Park, Jisu Jeong, Kyung-Min Kim, Hiun Kim, Minkyu Kim, Hanock Kwak(参考訳) ショッピングバスケットの個人購入予測など、オンラインビジネスでレコメンデーションシステムを採用する企業が多くなり、時間的セット予測の重要性が高まっている。 これまでのほとんどのテクニックは、ユーザの履歴を活用することに重点を置いてきたが、それと他人の履歴を組み合わせる研究は、まだ未解決の可能性を秘めている。 本稿では,ユーザ全体およびユーザ内における集合の時間的特性を,二つの時間的パターンを識別するためのグローバル・ローカル情報として表現することで活用することを学ぶ,グローバル・ローカル・アイテム埋め込み(gloie)を提案する。 GLOIEは、変動オートエンコーダ(VAE)と動的グラフベースのモデルを使用して、グローバルおよびローカル情報をキャプチャし、結果のアイテム埋め込みを統合する。 さらに,VAE のデコーダに Tweedie 出力を用いることで,ガウス分布や多項分布よりも実世界の複数のデータ分布に適するゼロ膨張分布やロングテール分布を容易にモデル化できることを示す。 3つの公開ベンチマークで評価すると、ほとんどのランキング指標において、従来の最先端手法を一貫して上回っています。

Temporal set prediction is becoming increasingly important as many companies employ recommender systems in their online businesses, e.g., personalized purchase prediction of shopping baskets. While most previous techniques have focused on leveraging a user's history, the study of combining it with others' histories remains untapped potential. This paper proposes Global-Local Item Embedding (GLOIE) that learns to utilize the temporal properties of sets across whole users as well as within a user by coining the names as global and local information to distinguish the two temporal patterns. GLOIE uses Variational Autoencoder (VAE) and dynamic graph-based model to capture global and local information and then applies attention to integrate resulting item embeddings. Additionally, we propose to use Tweedie output for the decoder of VAE as it can easily model zero-inflated and long-tailed distribution, which is more suitable for several real-world data distributions than Gaussian or multinomial counterparts. When evaluated on three public benchmarks, our algorithm consistently outperforms previous state-of-the-art methods in most ranking metrics.
翻訳日:2021-09-07 17:28:12 公開日:2021-09-05
# ビッグデータと教師なし学習手法を用いたeコマースソーシャルネットワークにおける顧客品質予測手法の提案

Providing an Approach to Predicting Customer Quality in E-Commerce Social Networks Based on Big Data and Unsupervised Learning Method ( http://arxiv.org/abs/2109.02080v1 )

ライセンス: Link先を確認
Mohammad Arab(参考訳) あらゆるビジネス企業の目標の1つは、顧客の忠誠心を高めることです。 顧客ロイヤリティの度合いは顧客品質と呼ばれ、その予測は戦略的マーケティングプラクティスに影響を与える。 本研究の目的は,ビッグデータアルゴリズムと教師なし学習による大規模eコマースソーシャルネットワークの顧客品質の予測である。 この目的のために,Stanford Network Analysis Platform (SNAP) のコミュニティ検出にグラフベースのソーシャルネットワーク分析フレームワークを用いた。 そして、見つかったコミュニティでは、顧客の品質が予測された。 その結果、37.13%のインパクトを持つ様々な訪問は顧客品質に最も大きな影響を与え、他のパラメータの影響の順序は、頻繁な顧客訪問(28.56%)、ソーシャルネットワークにおける役割(28.37%)、間接取引(26.74%)、活動日(25.62%)、顧客ソーシャルネットワークのサイズ(25.06%)である。

One of the goals of every business enterprise is to increase customer loyalty. The degree of customer loyalty is called customer quality which its forecasting will affect strategic marketing practices. The purpose of this study is to predict the quality of customers of large e-commerce social networks by big data algorithms and unsupervised learning. For this purpose, a graph-based social network analysis framework was used for community detection in the Stanford Network Analysis Platform (SNAP). Then in the found communities, the quality of customers was predicted. The results showed that various visits with an impact of 37.13% can have the greatest impact on customer quality and the order of impact of other parameters were from highest to lowest: number of frequent customer visits (28.56%), role in social networks (28.37%), Indirect transactions (26.74%), activity days (25.62%) and customer social network size (25.06%).
翻訳日:2021-09-07 17:27:52 公開日:2021-09-05
# フィッシングURL検出のためのトランスフォーマーベースモデル

A Transformer-based Model to Detect Phishing URLs ( http://arxiv.org/abs/2109.02138v1 )

ライセンス: Link先を確認
Pingfan Xu(参考訳) フィッシング攻撃は、最近サイバーセキュリティコミュニティで大きな注目を集めているセキュリティ問題の1つだ。 フィッシングURL検出には数多くのアプローチがある。 しかし、攻撃者は新たな検出メカニズムを回避できるため、悪意のあるURL検出は依然として研究ホットスポットである。 本稿では,現在検出手法に匹敵する精度と精度を有する,トランスフォーマによる悪質なurl検出モデルを提案する。 実験を行い、既存の6つの古典的検出モデルと比較する。 実験により, トランスフォーマーモデルが最も優れたモデルであり, 検出精度は97.3%であることがわかった。

Phishing attacks are among emerging security issues that recently draws significant attention in the cyber security community. There are numerous existing approaches for phishing URL detection. However, malicious URL detection is still a research hotspot because attackers can bypass newly introduced detection mechanisms by changing their tactics. This paper will introduce a transformer-based malicious URL detection model, which has significant accuracy and outperforms current detection methods. We conduct experiments and compare them with six existing classical detection models. Experiments demonstrate that our transformer-based model is the best performing model from all perspectives among the seven models and achieves 97.3 % of detection accuracy.
翻訳日:2021-09-07 17:27:35 公開日:2021-09-05
# 翼上圧縮性乱流の高精度深層学習推定に向けて

Towards high-accuracy deep learning inference of compressible turbulent flows over aerofoils ( http://arxiv.org/abs/2109.02183v1 )

ライセンス: Link先を確認
Li-Wei Chen and Nils Thuerey(参考訳) 本研究では,Reynolds-averaged Navier-Stokes法を用いて,深層ニューラルネットワークを用いた2次元のエアロフォイル上における圧縮性流れの精度評価を行った。 提案手法は,正準空間への対応するマッピングのエンコードを提供することにより,体に適合した構造化グリッドの正確な流れ場を生成するネットワークを実現する。 ディープニューラルネットワークモデルをランダムに与えられた攻撃角とレイノルズ数での非圧縮性流れのベンチマークケースに適用し、以前の研究と比べて1桁以上の改善を実現した。 さらに, 超超音速流の場合, ディープニューラルネットモデルは, 衝撃波/境界層相互作用などのレイノルズ数の高い複雑な流れ挙動, 圧力係数, 皮膚摩擦係数, およびエアロフォイル下流のウェイクトータル圧力プロファイルなどの定量的分布を正確に予測する。 提案する深層学習法は, 流れ場の予測を著しく高速化し, 高速空力設計の実現を期待できる。

The present study investigates the accurate inference of Reynolds-averaged Navier-Stokes solutions for the compressible flow over aerofoils in two dimensions with a deep neural network. Our approach yields networks that learn to generate precise flow fields for varying body-fitted, structured grids by providing them with an encoding of the corresponding mapping to a canonical space for the solutions. We apply the deep neural network model to a benchmark case of incompressible flow at randomly given angles of attack and Reynolds numbers and achieve an improvement of more than an order of magnitude compared to previous work. Further, for transonic flow cases, the deep neural network model accurately predicts complex flow behaviour at high Reynolds numbers, such as shock wave/boundary layer interaction, and quantitative distributions like pressure coefficient, skin friction coefficient as well as wake total pressure profiles downstream of aerofoils. The proposed deep learning method significantly speeds up the predictions of flow fields and shows promise for enabling fast aerodynamic designs.
翻訳日:2021-09-07 17:27:11 公開日:2021-09-05
# Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description

The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description ( http://arxiv.org/abs/2109.02052v1 )

ライセンス: Link先を確認
Josef Slav\'i\v{c}ek and Albert Swart and Michal Kl\v{c}o and Niko Br\"ummer(参考訳) 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。 私たちのソリューションは、IDLabがVoxSRC-20で勝ったのと非常によく似ています。 モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。 続いて、疑似話者ラベルを割り当てるクラスタリングが数回実施され、教師付きインクリプタトレーニングに使用された。 最後に、5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。 また,コサインスコアではなく,DNN埋め込みではなくiベクターを組み込んだ解やPLDAについても簡潔に述べる。

We describe the Phonexia submission for the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC-21) in the unsupervised speaker verification track. Our solution was very similar to IDLab's winning submission for VoxSRC-20. An embedding extractor was bootstrapped using momentum contrastive learning, with input augmentations as the only source of supervision. This was followed by several iterations of clustering to assign pseudo-speaker labels that were then used for supervised embedding extractor training. Finally, a score fusion was done, by averaging the zt-normalized cosine scores of five different embedding extractors. We briefly also describe unsuccessful solutions involving i-vectors instead of DNN embeddings and PLDA instead of cosine scoring.
翻訳日:2021-09-07 17:23:24 公開日:2021-09-05
# 視覚と言語のための効率的マスキング言語モデリング

Data Efficient Masked Language Modeling for Vision and Language ( http://arxiv.org/abs/2109.02040v1 )

ライセンス: Link先を確認
Yonatan Bitton, Gabriel Stanovsky, Michael Elhadad, Roy Schwartz(参考訳) Masked Language Modeling (MLM)は、視覚言語事前学習における重要なサブタスクの1つである。 クロスモーダル設定では、文中のトークンはランダムにマスクされ、モデルは画像とテキストが与えられたマスクされたトークンを予測する。 本稿では,MLMのいくつかの重要な欠点について考察する。 まず、キャプションが短い傾向があるため、文の3分の1でトークンはサンプリングされない。 第二に、マスクされたトークンの大部分はストップワードと句読点であり、画像の活用不足につながる。 これらの欠点に対処し,学習表現におけるテキストと画像の融合を改善するために,クロスモーダル設定に特有のマスキング戦略について検討した。 LXMERTモデルの事前学習では、特に低リソース設定において、従来の3つの下流タスクにおけるマスキング戦略よりも、マスキング戦略が一貫して改善される。 さらに,画像オブジェクトを導出するプロンプトベースの探索タスクでは,事前学習アプローチがベースラインモデルを大きく上回っている。 これらの結果と分析は,本手法がトレーニングデータのより良い活用を可能にすることを示唆している。

Masked language modeling (MLM) is one of the key sub-tasks in vision-language pretraining. In the cross-modal setting, tokens in the sentence are masked at random, and the model predicts the masked tokens given the image and the text. In this paper, we observe several key disadvantages of MLM in this setting. First, as captions tend to be short, in a third of the sentences no token is sampled. Second, the majority of masked tokens are stop-words and punctuation, leading to under-utilization of the image. We investigate a range of alternative masking strategies specific to the cross-modal setting that address these shortcomings, aiming for better fusion of text and image in the learned representation. When pre-training the LXMERT model, our alternative masking strategies consistently improve over the original masking strategy on three downstream tasks, especially in low resource settings. Further, our pre-training approach substantially outperforms the baseline model on a prompt-based probing task designed to elicit image objects. These results and our analysis indicate that our method allows for better utilization of the training data.
翻訳日:2021-09-07 17:03:10 公開日:2021-09-05
# Sparse-MLP: 条件計算を備えたフルMLPアーキテクチャ

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation ( http://arxiv.org/abs/2109.02008v1 )

ライセンス: Link先を確認
Yuxuan Lou, Fuzhao Xue, Zangwei Zheng, Yang You(参考訳) 厳密な条件計算を伴うMoE(Mixture of Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャとして証明されている。 本稿では,最近のmlp-mixerモデルを疎moe層でスケーリングし,より計算効率の高いアーキテクチャを実現するsparse-mlpを提案する。 MLP-Mixerモデルの高密度なMLPブロックのサブセットをスパースブロックに置き換える。 各Sparseブロックでは、MLPの専門家が画像パッチ次元に沿ってチャネル内で情報を混合する手法と、MLP専門家がチャネル次元に沿ってパッチ内で情報を混合する手法の2つの段階をMoE層に適用する。 さらに、ルーティングの計算コストを削減し、専門家の能力を向上させるため、各Sparseブロックに再表現層を設計する。 これらの層は2つの単純かつ効果的な線形変換によって画像表現を再スケールする。 ImageNet-1kをMoCo v3アルゴリズムで事前トレーニングすることにより、我々のモデルは、複数の下流画像分類タスクにおいて、同等のパラメータと計算コストの少ない高密度MLPモデルより優れる。

Mixture of Experts (MoE) with sparse conditional computation has been proved an effective architecture for scaling attention-based models to more parameters with comparable computation cost. In this paper, we propose Sparse-MLP, scaling the recent MLP-Mixer model with sparse MoE layers, to achieve a more computation-efficient architecture. We replace a subset of dense MLP blocks in the MLP-Mixer model with Sparse blocks. In each Sparse block, we apply two stages of MoE layers: one with MLP experts mixing information within channels along image patch dimension, one with MLP experts mixing information within patches along the channel dimension. Besides, to reduce computational cost in routing and improve experts capacity, we design Re-represent layers in each Sparse block. These layers are to re-scale image representations by two simple but effective linear transformations. By pre-training on ImageNet-1k with MoCo v3 algorithm, our models can outperform dense MLP models with comparable parameters and less computational cost on several downstream image classification tasks.
翻訳日:2021-09-07 17:02:18 公開日:2021-09-05
# 人物をセンサとして用いたマルチエージェント変動咬合推定

Multi-Agent Variational Occlusion Inference Using People as Sensors ( http://arxiv.org/abs/2109.02173v1 )

ライセンス: Link先を確認
Masha Itkina, Ye-Ji Mun, Katherine Driggs-Campbell, and Mykel J. Kochenderfer(参考訳) 自動運転車は、過度に注意を払わずに安全を確保するために、都市環境における空間閉塞を推論する必要がある。 先行研究は道路エージェントの観察された社会的行動からの咬合推定を考察した。 エージェントの行動から占有率を推測することは本質的にマルチモーダルな問題であり、ドライバーは前もって異なる占有パターンに対して同じように振る舞うことができる(例えば、ドライバーは交通の一定速度で移動したり、公道で移動したりできる)。 しかし、過去の研究はこのマルチモダリティを考慮していないため、ドライバーの行動と環境の関係において、この不確実性の原因をモデル化することを怠っている。 本稿では,人間のエージェントの観察した動作をセンサ計測として特徴付け,標準センサースイートの動作と融合する咬合推定法を提案する。 そこで我々は,観測されたドライバ軌跡からドライバ前方のビューの占有グリッド表現へのマルチモーダルマッピングを学習するために,個別の遅延空間を持つ条件付き変分オートエンコーダを訓練する。 本手法はマルチエージェントシナリオを処理し,複数の観測ドライバからの計測値を組み合わせてセンサ融合問題を解く。 我々のアプローチは、実世界のデータセットで検証され、ベースラインを上回り、リアルタイムに有能なパフォーマンスを示す。 私たちのコードはhttps://github.com/sisl/MultiAgentVariationalOcclusionInferenceで利用可能です。

Autonomous vehicles must reason about spatial occlusions in urban environments to ensure safety without being overly cautious. Prior work explored occlusion inference from observed social behaviors of road agents. Inferring occupancy from agent behaviors is an inherently multimodal problem; a driver may behave in the same manner for different occupancy patterns ahead of them (e.g., a driver may move at constant speed in traffic or on an open road). Past work, however, does not account for this multimodality, thus neglecting to model this source of aleatoric uncertainty in the relationship between driver behaviors and their environment. We propose an occlusion inference method that characterizes observed behaviors of human agents as sensor measurements, and fuses them with those from a standard sensor suite. To capture the aleatoric uncertainty, we train a conditional variational autoencoder with a discrete latent space to learn a multimodal mapping from observed driver trajectories to an occupancy grid representation of the view ahead of the driver. Our method handles multi-agent scenarios, combining measurements from multiple observed drivers using evidential theory to solve the sensor fusion problem. Our approach is validated on a real-world dataset, outperforming baselines and demonstrating real-time capable performance. Our code is available at https://github.com/sisl/MultiAgentVariationalOcclusionInference .
翻訳日:2021-09-07 17:00:57 公開日:2021-09-05
# 偽否定を知る: 遠隔監視関係抽出のための逆学習法

Knowing False Negatives: An Adversarial Training Method for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2109.02099v1 )

ライセンス: Link先を確認
Kailong Hao and Botao Yu and Wei Hu(参考訳) 遠隔教師付き関係抽出(RE)は、知識ベース(KB)における非構造化テキストと関係インスタンスを自動的に調整する。 現在のKBの不完全性のため、ある関係を示す文はN/Aインスタンスとして注釈付けされ、いわゆる偽陰性(FN)問題を引き起こす。 現在のREメソッドは通常この問題を見落とし、トレーニングとテストの両方で不適切なバイアスを引き起こす。 この問題に対処するために,我々は二段階アプローチを提案する。 まず、深層ニューラルネットワークのメモリ機構をヒューリスティックに活用することで、fnサンプルを見つける。 そして、これらの未ラベルデータとトレーニングデータとを、擬似ラベルを割り当てる対向訓練により統合された特徴空間に整合させ、それらに含まれる情報をさらに活用する。 2つの大胆なベンチマークデータセットの実験は、我々のアプローチの有効性を実証している。

Distantly supervised relation extraction (RE) automatically aligns unstructured text with relation instances in a knowledge base (KB). Due to the incompleteness of current KBs, sentences implying certain relations may be annotated as N/A instances, which causes the so-called false negative (FN) problem. Current RE methods usually overlook this problem, inducing improper biases in both training and testing procedures. To address this issue, we propose a two-stage approach. First, it finds out possible FN samples by heuristically leveraging the memory mechanism of deep neural networks. Then, it aligns those unlabeled data with the training data into a unified feature space by adversarial training to assign pseudo labels and further utilize the information contained in them. Experiments on two wildly-used benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2021-09-07 17:00:10 公開日:2021-09-05
# 自信蒸留を用いた効率的な行動認識

Efficient Action Recognition Using Confidence Distillation ( http://arxiv.org/abs/2109.02137v1 )

ライセンス: Link先を確認
Shervin Manzuri Shalmani, Fei Chiang, Rong Zheng(参考訳) 現代のニューラルネットワークは強力な予測モデルです。 しかし、予測が間違っている可能性があると認識した場合は、パフォーマンスが悪くなります。 例えば、最も一般的なアクティベーション関数の1つであるReLUとその変種の場合、よく校正されたモデルでさえ、誤ったが高い信頼性の予測を生成することができる。 アクション認識のタスクでは、ほとんどの現行の分類法は、クリップレベルの分類器に基づいて、重複しない同じサイズのクリップに対して所定のビデオを密にサンプリングし、その結果を集約する(通常平均化)。 このアプローチは有効であることが示されているが、認識精度が最適であり、計算オーバーヘッドが高い。 これら2つの問題を緩和するために,教師の不確実性の表現を学生サンプルに教える信頼性蒸留フレームワークを提案し,学生と教師モデルの間で全映像予測のタスクを分割する。 3つの行動認識データセットについて広範な実験を行い,提案手法が行動認識精度(最大20%)と計算効率(40%以上)の大幅な改善を実現することを実証した。

Modern neural networks are powerful predictive models. However, when it comes to recognizing that they may be wrong about their predictions, they perform poorly. For example, for one of the most common activation functions, the ReLU and its variants, even a well-calibrated model can produce incorrect but high confidence predictions. In the related task of action recognition, most current classification methods are based on clip-level classifiers that densely sample a given video for non-overlapping, same-sized clips and aggregate the results using an aggregation function - typically averaging - to achieve video level predictions. While this approach has shown to be effective, it is sub-optimal in recognition accuracy and has a high computational overhead. To mitigate both these issues, we propose the confidence distillation framework to teach a representation of uncertainty of the teacher to the student sampler and divide the task of full video prediction between the student and the teacher models. We conduct extensive experiments on three action recognition datasets and demonstrate that our framework achieves significant improvements in action recognition accuracy (up to 20%) and computational efficiency (more than 40%).
翻訳日:2021-09-07 16:57:40 公開日:2021-09-05
# オンライン・マルチソース・ドメインの自動適応

Automatic Online Multi-Source Domain Adaptation ( http://arxiv.org/abs/2109.01996v1 )

ライセンス: Link先を確認
Renchunzi Xie, Mahardhika Pratama(参考訳) 複数のストリーミングプロセス間の知識伝達は、各ストリームの分布が異なるだけでなく、データストリームの急激な変化と絶え間ない環境のため、依然として困難な問題である。 この領域における研究成果の増大にもかかわらず、既存の研究の多くは、そのレジリエンスを制限して、概念のドリフトから素早く回復し、負の転送問題を避けるために、複数のソースドメインを活用するために有用である。 本稿では,マルチソースストリーミングプロセスに基づくオンラインドメイン適応手法であるautomated online multi-source domain adaptation (aomsda)を提案する。 AOMSDAのオンラインドメイン適応戦略は、中央モーメント不一致(CMD)ベースの正規化器を統合化して複数ソースドメインの存在を処理し、相補的な情報ソースを利用する、自動エンコーダ(DAE)の生成的および識別的アプローチで定式化される。 異なる期間に発生する非同期の概念ドリフトは、自己組織化構造とノード再重み付け戦略によって対処される。 本研究は,aomsdaが8例中5例で,aomsdaの成績を上回ることができ,一方,アブレーション研究では各学習成分の利点が示される。 さらに、AOMSDAは任意の数のソースストリームに対して一般的なものである。 AOMSDAのソースコードはhttps://github.com/Renchunzi-Xie/AOMSDA.gitで公開されている。

Knowledge transfer across several streaming processes remain challenging problem not only because of different distributions of each stream but also because of rapidly changing and never-ending environments of data streams. Albeit growing research achievements in this area, most of existing works are developed for a single source domain which limits its resilience to exploit multi-source domains being beneficial to recover from concept drifts quickly and to avoid the negative transfer problem. An online domain adaptation technique under multisource streaming processes, namely automatic online multi-source domain adaptation (AOMSDA), is proposed in this paper. The online domain adaptation strategy of AOMSDA is formulated under a coupled generative and discriminative approach of denoising autoencoder (DAE) where the central moment discrepancy (CMD)-based regularizer is integrated to handle the existence of multi-source domains thereby taking advantage of complementary information sources. The asynchronous concept drifts taking place at different time periods are addressed by a self-organizing structure and a node re-weighting strategy. Our numerical study demonstrates that AOMSDA is capable of outperforming its counterparts in 5 of 8 study cases while the ablation study depicts the advantage of each learning component. In addition, AOMSDA is general for any number of source streams. The source code of AOMSDA is shared publicly in https://github.com/Renchunzi-Xie/AOMSDA.git.
翻訳日:2021-09-07 16:56:20 公開日:2021-09-05
# 構造最適化はグラフの分類をシンプルかつ良くする

Structural Optimization Makes Graph Classification Simpler and Better ( http://arxiv.org/abs/2109.02027v1 )

ライセンス: Link先を確認
Junran Wu, Jianhao Li, Yicheng Pan, Ke Xu(参考訳) ディープニューラルネットワークでは、従来開発された基本モデルの複雑さを増大させることで、よりよい結果が得られることが多い。 しかし、そのようなモデルの複雑さを減らして性能を高める方法があるかどうかは不明である。 そこで本研究では,モデル学習プロセスを簡素化しつつ,グラフ分類性能の向上の可能性を検討する。 構造情報アセスメントの進歩に触発されて、グラフから木をコードするデータサンプルを最適化する。 特に、変換された符号化木の構造エントロピーを最小化し、グラフの基礎となるキー構造をデコードする。 この変換は構造最適化と呼ばれる。 さらに,木をエンコードするための新しい特徴結合スキームである階層的レポートを提案する。 このスキームでは、特徴をエンコーディングツリーの階層構造に従って葉ノードから根ノードに転送する。 次に,木カーネルと畳み込みネットワークにおけるスキームの実装を行い,グラフ分類を行う。 ツリーカーネルはWeisfeiler-Lehman(WL)サブツリーカーネルでラベルの伝搬に従うが、ランタイムの複雑さは$O(n)$である。 The convolutional network is a special implementation of our tree kernel in the Deep Learning field, is called Encoding Tree Learning (ETL)。 木カーネルと畳み込みネットワークをいくつかのグラフ分類ベンチマークで実証的に検証し,本手法が競合する手法よりも優れた性能と少ない計算消費を実現することを示す。

In deep neural networks, better results can often be obtained by increasing the complexity of previously developed basic models. However, it is unclear whether there is a way to boost performance by decreasing the complexity of such models. Here, based on an optimization method, we investigate the feasibility of improving graph classification performance while simplifying the model learning process. Inspired by progress in structural information assessment, we optimize the given data sample from graphs to encoding trees. In particular, we minimize the structural entropy of the transformed encoding tree to decode the key structure underlying a graph. This transformation is denoted as structural optimization. Furthermore, we propose a novel feature combination scheme, termed hierarchical reporting, for encoding trees. In this scheme, features are transferred from leaf nodes to root nodes by following the hierarchical structures of encoding trees. We then present an implementation of the scheme in a tree kernel and a convolutional network to perform graph classification. The tree kernel follows label propagation in the Weisfeiler-Lehman (WL) subtree kernel, but it has a lower runtime complexity $O(n)$. The convolutional network is a special implementation of our tree kernel in the deep learning field and is called Encoding Tree Learning (ETL). We empirically validate our tree kernel and convolutional network with several graph classification benchmarks and demonstrate that our methods achieve better performance and lower computational consumption than competing approaches.
翻訳日:2021-09-07 16:55:51 公開日:2021-09-05
# Multitask (Multitask) Gradient Boosted Tree のスケーラブルな特徴選択

Scalable Feature Selection for (Multitask) Gradient Boosted Trees ( http://arxiv.org/abs/2109.01965v1 )

ライセンス: Link先を確認
Cuize Han, Nikhil Rao, Daria Sorokina, Karthik Subbian(参考訳) gradient boosted decision tree (gbdts) は検索とレコメンデーションのランク付けと関連モデルの構築に広く使われている。 レイテンシや解釈可能性といった考慮事項は、これらのモデルをトレーニングするために可能な限り少数の機能を使用するように規定する。 gbdtモデルにおける特徴の選択は、通常、重要度によって特徴をヒューリスティックにランク付けし、上位数を選ぶか、完全な後方的特徴排除ルーチンを実行することによって行われる。 従来提案したオン・ザ・フライ特徴選択法は,高次元設定で顕著な特徴量に比例して拡張可能である。 GBDTのための拡張性のある前方特徴選択変種を,高次元で良好に動作し,理論性能と計算保証を良好に享受する新しいグループテスト手法により開発する。 提案手法は,パブリックデータセットとプロプライエタリデータセットの両方において,既存のgbdt法と同様,モデル性能指標の面での競争力が保たれながら,トレーニング時間の大幅な高速化が期待できることを示す。 また,マルチタスク設定にメソッドを拡張して,タスク間の共通機能の選択やタスク固有の機能の選択を可能にした。

Gradient Boosted Decision Trees (GBDTs) are widely used for building ranking and relevance models in search and recommendation. Considerations such as latency and interpretability dictate the use of as few features as possible to train these models. Feature selection in GBDT models typically involves heuristically ranking the features by importance and selecting the top few, or by performing a full backward feature elimination routine. On-the-fly feature selection methods proposed previously scale suboptimally with the number of features, which can be daunting in high dimensional settings. We develop a scalable forward feature selection variant for GBDT, via a novel group testing procedure that works well in high dimensions, and enjoys favorable theoretical performance and computational guarantees. We show via extensive experiments on both public and proprietary datasets that the proposed method offers significant speedups in training time, while being as competitive as existing GBDT methods in terms of model performance metrics. We also extend the method to the multitask setting, allowing the practitioner to select common features across tasks, as well as selecting task-specific features.
翻訳日:2021-09-07 16:53:55 公開日:2021-09-05
# ネットワーク量子化損失最小化のためのビットドロップによるクラスタプロモーティング量子化

Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss ( http://arxiv.org/abs/2109.02100v1 )

ライセンス: Link先を確認
Jung Hyun Lee, Jihun Yun, Sung Ju Hwang, Eunho Yang(参考訳) ネットワーク量子化(network quantization)は、ネットワークの重み付けとアクティベーションのビット長を削減することを目的としている。 近年の研究では、完全精度ネットワークの離散化に成功しているが、トレーニング後に大きな量子化エラーが発生するため、完全精度ネットワークと量子化ネットワークの間に大きなパフォーマンスギャップが生じる。 本研究では,ニューラルネットワークのための新しい量子化手法であるクラスタ・プロモーティング量子化(cpq)を提案する。 CPQのこの特性は, 異なる量子化を可能にする2つの主成分のおかげである: i) 後方パスにおける特定の確率的パラメトリゼーションによって設計されたカテゴリー分布の使用, i) 後方パスにおける提案した多クラスストレートスルー推定器(STE)。 第2のコンポーネントであるマルチクラスSTEは本質的にバイアスを受けているため、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ手法であるDropBitsも提案する。 DropBitsの自然な拡張として、DropBitsにさらなる正規化を加えることで、各層に対して適切なビット長を求めるための異種量子化レベルを学習する方法をさらに導入する。 本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証し,量子化の新しい仮説を支持した。

Network quantization, which aims to reduce the bit-lengths of the network weights and activations, has emerged for their deployments to resource-limited devices. Although recent studies have successfully discretized a full-precision network, they still incur large quantization errors after training, thus giving rise to a significant performance gap between a full-precision network and its quantized counterpart. In this work, we propose a novel quantization method for neural networks, Cluster-Promoting Quantization (CPQ) that finds the optimal quantization grids while naturally encouraging the underlying full-precision weights to gather around those quantization grids cohesively during training. This property of CPQ is thanks to our two main ingredients that enable differentiable quantization: i) the use of the categorical distribution designed by a specific probabilistic parametrization in the forward pass and ii) our proposed multi-class straight-through estimator (STE) in the backward pass. Since our second component, multi-class STE, is intrinsically biased, we additionally propose a new bit-drop technique, DropBits, that revises the standard dropout regularization to randomly drop bits instead of neurons. As a natural extension of DropBits, we further introduce the way of learning heterogeneous quantization levels to find proper bit-length for each layer by imposing an additional regularization on DropBits. We experimentally validate our method on various benchmark datasets and network architectures, and also support a new hypothesis for quantization: learning heterogeneous quantization levels outperforms the case using the same but fixed quantization levels from scratch.
翻訳日:2021-09-07 16:52:13 公開日:2021-09-05
# 移動可能な逆襲に対するメタサーロゲートモデルの訓練

Training Meta-Surrogate Model for Transferable Adversarial Attack ( http://arxiv.org/abs/2109.01983v1 )

ライセンス: Link先を確認
Yunxiao Qin, Yuanhao Xiong, Jinfeng Yi, Cho-Jui Hsieh(参考訳) クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。 この設定では、多くのメソッドがサーロゲートモデルを直接攻撃し、得られた逆の例をターゲットモデルを騙すために転送する。 以前の多くの研究で、サーロゲートモデルに対する攻撃がより転送可能な敵の例を生み出す可能性があるが、サーロゲートモデルとターゲットモデルとのミスマッチのため、その性能は依然として制限されている。 本稿では,この問題を新たな角度から解くこと -- オリジナルのサロゲートモデルを使う代わりに,このモデルへの攻撃が他のモデルに容易に伝達できるメタサーロゲートモデル(msm)を入手することができるか? 本研究は, この目標を2段階最適化問題として数学的に定式化し, 識別可能なアタッカーを設計し, 訓練を可能とした。 そこで本手法は,一組あるいは一組のサロゲートモデルを用いて,MSM 上で生成した逆例を有効利用可能な MSM を得る。 Cifar-10 と ImageNet の総合的な実験により、MSM を攻撃することにより、既存の手法よりもはるかに高い成功率で、敵に訓練されたものを含むブラックボックスモデルを騙すための、より強力な転送可能な敵の例が得られることを示した。 提案手法は深部モデルの重大なセキュリティ上の課題を明らかにし,ブラックボックス設定における深部モデルの堅牢性を評価するための最先端ベンチマークとして機能することを約束している。

We consider adversarial attacks to a black-box model when no queries are allowed. In this setting, many methods directly attack surrogate models and transfer the obtained adversarial examples to fool the target model. Plenty of previous works investigated what kind of attacks to the surrogate model can generate more transferable adversarial examples, but their performances are still limited due to the mismatches between surrogate models and the target model. In this paper, we tackle this problem from a novel angle -- instead of using the original surrogate models, can we obtain a Meta-Surrogate Model (MSM) such that attacks to this model can be easier transferred to other models? We show that this goal can be mathematically formulated as a well-posed (bi-level-like) optimization problem and design a differentiable attacker to make training feasible. Given one or a set of surrogate models, our method can thus obtain an MSM such that adversarial examples generated on MSM enjoy eximious transferability. Comprehensive experiments on Cifar-10 and ImageNet demonstrate that by attacking the MSM, we can obtain stronger transferable adversarial examples to fool black-box models including adversarially trained ones, with much higher success rates than existing methods. The proposed method reveals significant security challenges of deep models and is promising to be served as a state-of-the-art benchmark for evaluating the robustness of deep models in the black-box setting.
翻訳日:2021-09-07 16:49:38 公開日:2021-09-05
# 多元的部分観測環境のためのソフト階層グラフリカレントネットワーク

Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially Observable Environments ( http://arxiv.org/abs/2109.02032v1 )

ライセンス: Link先を確認
Zhenhui Ye, Xiaohong Jiang, Guanghua Song, Bowei Yang(参考訳) マルチエージェントディープ強化学習(MADRL)の最近の進歩により、現実のタスクではより実用的になるが、スケーラビリティが比較的低く、部分的に観察可能な制約がパフォーマンスとデプロイメントに課題をもたらす。 人間の社会は、近隣の人とコミュニケーションし、自身の経験を記憶する機能を持つ大規模な部分観測可能な環境とみなすことができるという直感的な観察に基づいて、部分観測性の下でのマルチエージェント協調のための階層グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。 具体的には,マルチエージェントシステムをグラフとして構築し,階層型グラフアテンションネットワーク(hgat)を用いて隣接エージェント間の通信を実現し,エージェントが履歴情報を記録できるようにする。 探索を奨励し、ロバスト性を向上させるために、設定可能なターゲットアクションエントロピーの確率的ポリシーを学習するための最大エントロピー学習法を設計する。 以上の技術に基づいて、Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと、SAC-HRGNというアクタクリティカルな変種を提案する。 3つの均質なタスクと1つの異質な環境に基づく実験結果から,提案手法が4つのベースラインと比較して明らかに改善されるだけでなく,提案モデルの解釈性,拡張性,転送性も示された。 アブレーション研究は各成分の機能と必要性を証明する。

The recent progress in multi-agent deep reinforcement learning(MADRL) makes it more practical in real-world tasks, but its relatively poor scalability and the partially observable constraints raise challenges to its performance and deployment. Based on our intuitive observation that the human society could be regarded as a large-scale partially observable environment, where each individual has the function of communicating with neighbors and remembering its own experience, we propose a novel network structure called hierarchical graph recurrent network(HGRN) for multi-agent cooperation under partial observability. Specifically, we construct the multi-agent system as a graph, use the hierarchical graph attention network(HGAT) to achieve communication between neighboring agents, and exploit GRU to enable agents to record historical information. To encourage exploration and improve robustness, we design a maximum-entropy learning method to learn stochastic policies of a configurable target action entropy. Based on the above technologies, we proposed a value-based MADRL algorithm called Soft-HGRN and its actor-critic variant named SAC-HRGN. Experimental results based on three homogeneous tasks and one heterogeneous environment not only show that our approach achieves clear improvements compared with four baselines, but also demonstrates the interpretability, scalability, and transferability of the proposed model. Ablation studies prove the function and necessity of each component.
翻訳日:2021-09-07 16:49:13 公開日:2021-09-05
# ホログラフィック還元表現による学習

Learning with Holographic Reduced Representations ( http://arxiv.org/abs/2109.02157v1 )

ライセンス: Link先を確認
Ashwinkumar Ganesan, Hang Gao, Sunil Gandhi, Edward Raff, Tim Oates, James Holt, Mark McLean(参考訳) Holographic Reduced Representations (HRR) は、各ベクトルを抽象的な概念に関連付け、ベクトルを古典的な記号オブジェクトのように操作する数学的操作を提供することにより、実数値ベクトルの上にシンボルAIを実行する方法である。 この方法は、古い象徴的なAI作業や認知科学以外ではほとんど使われていない。 私たちの目標は、ディープラーニングアーキテクチャの差別化可能なコンポーネントとして、学習へのハイブリッドニューラルシンボリックアプローチが有効かどうかを理解するために、このアプローチを再検討することにあります。 現在のHRRは数値的な不安定性のために微分可能解には有効ではなく、空間のよく振る舞う点にベクトルを強制する射影ステップを導入することで解決する。 これにより,HRRの検索効率を100\times$以上向上する。 マルチラベル分類を用いて,HRRのシンボル特性を活用して,効果的に学習可能な出力層と損失関数を開発する方法を示し,HRRのニューロシンボリック学習アプローチの長所と短所について検討する。

Holographic Reduced Representations (HRR) are a method for performing symbolic AI on top of real-valued vectors \cite{Plate1995} by associating each vector with an abstract concept, and providing mathematical operations to manipulate vectors as if they were classic symbolic objects. This method has seen little use outside of older symbolic AI work and cognitive science. Our goal is to revisit this approach to understand if it is viable for enabling a hybrid neural-symbolic approach to learning as a differentiable component of a deep learning architecture. HRRs today are not effective in a differentiable solution due to numerical instability, a problem we solve by introducing a projection step that forces the vectors to exist in a well behaved point in space. In doing so we improve the concept retrieval efficacy of HRRs by over $100\times$. Using multi-label classification we demonstrate how to leverage the symbolic HRR properties to develop an output layer and loss function that is able to learn effectively, and allows us to investigate some of the pros and cons of an HRR neuro-symbolic learning approach.
翻訳日:2021-09-07 16:48:47 公開日:2021-09-05
# FBCNN: ポータブルで高速な脳-コンピュータインタフェースのためのディープニューラルネットワークアーキテクチャ

FBCNN: A Deep Neural Network Architecture for Portable and Fast Brain-Computer Interfaces ( http://arxiv.org/abs/2109.02165v1 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi and Romis Attux(参考訳) 目的: フィルタバンク畳み込みニューラルネットワーク(FBCNN)である新しいディープニューラルネットワーク(DNN)アーキテクチャを提案し、小さなデータ長を持つシングルチャネルBCIにおけるSSVEP分類を改善する。 方法: FBCNN-2DとFBCNN-3Dの2つのモデルを提案する。 FBCNN-2Dはフィルタバンクを用いて脳波(EEG)信号のサブバンド成分を生成し、高速フーリエ変換(FFT)を用いて変換し、2D CNNで解析する。 FBCNN-3Dは、同じフィルタバンクを使用するが、サブバンドコンポーネントを短時間フーリエ変換(STFT)により分光器に変換し、3D CNNで解析する。 私たちは転校学習を利用した。 FBCNN-3Dを訓練するために,2次元DNNから3次元DNNへ知識を伝達する,相互伝達学習と呼ばれる新しい手法を提案した。 bciは最終ユーザからの校正を必要としないように考案されたため,試験対象データはトレーニングと検証から分離された。 結果: FBCCA-2Dは85.7%, FBCCA-3Dは85%であった。 平均F1スコアは0.858と0.853である。 代替分類法であるSVM、FBCCA、CNNはそれぞれ79.2%、80.1%、81.4%の精度であった。 結論: シミュレーションBCIでは, FBCNNが従来のSSVEP分類法をかなり上回り, 精度は5%向上した。 トランスファー学習と次元間トランスファー学習により、トレーニングの迅速化と予測性が向上した。 意義:我々は,携帯型および高速なBCIのためのSSVEP分類における標準手法よりも優れた性能を有する,新しいフレキシブルなDNNを提案した。

Objective: To propose a novel deep neural network (DNN) architecture -- the filter bank convolutional neural network (FBCNN) -- to improve SSVEP classification in single-channel BCIs with small data lengths. Methods: We propose two models: the FBCNN-2D and the FBCNN-3D. The FBCNN-2D utilizes a filter bank to create sub-band components of the electroencephalography (EEG) signal, which it transforms using the fast Fourier transform (FFT) and analyzes with a 2D CNN. The FBCNN-3D utilizes the same filter bank, but it transforms the sub-band components into spectrograms via short-time Fourier transform (STFT), and analyzes them with a 3D CNN. We made use of transfer learning. To train the FBCNN-3D, we proposed a new technique, called inter-dimensional transfer learning, to transfer knowledge from a 2D DNN to a 3D DNN. Our BCI was conceived so as not to require calibration from the final user: therefore, the test subject data was separated from training and validation. Results: The mean test accuracy was 85.7% for the FBCCA-2D and 85% for the FBCCA-3D. Mean F1-Scores were 0.858 and 0.853. Alternative classification methods, SVM, FBCCA and a CNN, had mean accuracy of 79.2%, 80.1% and 81.4%, respectively. Conclusion: The FBCNNs surpassed traditional SSVEP classification methods in our simulated BCI, by a considerable margin (about 5% higher accuracy). Transfer learning and inter-dimensional transfer learning made training much faster and more predictable. Significance: We proposed a new and flexible type of DNN, which had a better performance than standard methods in SSVEP classification for portable and fast BCIs.
翻訳日:2021-09-07 16:48:25 公開日:2021-09-05
# エンベロープ抽出・ピーク検出・クラスタリングのための時系列非パラメトリックエクストリーム解析

Nonparametric Extrema Analysis in Time Series for Envelope Extraction, Peak Detection and Clustering ( http://arxiv.org/abs/2109.02082v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本稿では,エンベロープ抽出,ピークバースト検出,時系列クラスタリングに使用できる非パラメトリック手法を提案する。 我々の問題定式化は、自然に定義された時系列の分割/フォークをもたらす。 階層的実装の可能性があるため、機械学習、信号処理、数学的ファイナンスといった様々な用途に使用できる。 入力信号から,累積$l_1$ドリフトを最小化することにより,2つの信号(1つの上限信号と1つの下限信号)を順次生成する。 最適除去ルールとともに,ビタビ様経路追跡アルゴリズムを用いて解を効率的に計算できることを示す。 我々は、アルゴリズムが線形に近い時間複雑性を持つ多くの興味深い設定を考える。

In this paper, we propose a nonparametric approach that can be used in envelope extraction, peak-burst detection and clustering in time series. Our problem formalization results in a naturally defined splitting/forking of the time series. With a possibly hierarchical implementation, it can be used for various applications in machine learning, signal processing and mathematical finance. From an incoming input signal, our iterative procedure sequentially creates two signals (one upper bounding and one lower bounding signal) by minimizing the cumulative $L_1$ drift. We show that a solution can be efficiently calculated by use of a Viterbi-like path tracking algorithm together with an optimal elimination rule. We consider many interesting settings, where our algorithm has near-linear time complexities.
翻訳日:2021-09-07 16:47:36 公開日:2021-09-05
# 視覚障害の軽減に先立つ深層塩分濃度

Deep Saliency Prior for Reducing Visual Distraction ( http://arxiv.org/abs/2109.01980v1 )

ライセンス: Link先を確認
Kfir Aberman, Junfeng He, Yossi Gandelsman, Inbar Mosseri, David E. Jacobs, Kai Kohlhoff, Yael Pritch, Michael Rubinstein(参考訳) 画像がどこにあるかを予測するためにトレーニングされたモデルのみを使用し、追加のトレーニングデータがないため、画像の歪みを減らすための強力な編集効果が生成される。 画像と編集対象領域を指定するマスクが与えられた場合、我々は最先端のサリエンシーモデルを介してバックプロパゲーションを行い、マスキング領域内のサリエンシーを減少させるように、差別化可能な編集演算子をパラメータ化する。 色変換を学習し、周囲に注意をそらす色変換を施す recoloring operator や、注意をそらすために画像領域を弱め、徐々にオブジェクトを自分自身に分解し、それらを効果的に除去する warping operator や、画像領域を完全に置き換えるためにセマンティクスを使用する gan operator など、いくつかの演算子を実演する。 結果として得られる効果は、人間の視覚システムに関する認知研究(例えば、色ミスマッチはサルエントであるため、再色操作者は、周囲の色と周囲の色を調和させることを学び、サルエンシーを減少させる)と一致し、最も重要なのは、事前訓練されたサルエンシーモデルの指導によってのみ、追加の監督なしで達成されることである。 本研究は,様々な自然画像について結果を提示し,原画像と編集結果との視線の変化を評価し,検証するための知覚研究を行う。

Using only a model that was trained to predict where people look at images, and no additional training data, we can produce a range of powerful editing effects for reducing distraction in images. Given an image and a mask specifying the region to edit, we backpropagate through a state-of-the-art saliency model to parameterize a differentiable editing operator, such that the saliency within the masked region is reduced. We demonstrate several operators, including: a recoloring operator, which learns to apply a color transform that camouflages and blends distractors into their surroundings; a warping operator, which warps less salient image regions to cover distractors, gradually collapsing objects into themselves and effectively removing them (an effect akin to inpainting); a GAN operator, which uses a semantic prior to fully replace image regions with plausible, less salient alternatives. The resulting effects are consistent with cognitive research on the human visual system (e.g., since color mismatch is salient, the recoloring operator learns to harmonize objects' colors with their surrounding to reduce their saliency), and, importantly, are all achieved solely through the guidance of the pretrained saliency model, with no additional supervision. We present results on a variety of natural images and conduct a perceptual study to evaluate and validate the changes in viewers' eye-gaze between the original images and our edited results.
翻訳日:2021-09-07 16:46:51 公開日:2021-09-05
# SideControl: 付加側ネットワークによるオープンドメイン対話生成制御

SideControl: Controlled Open-domain Dialogue Generation via Additive Side Networks ( http://arxiv.org/abs/2109.01958v1 )

ライセンス: Link先を確認
Wanyu Du, Yangfeng Ji(参考訳) トランスフォーマティブベースの事前学習言語モデルにより、オープンドメイン対話システムの性能が向上する。 先行研究はTransformerベースの事前学習言語モデルを利用して、2つの一般的なアプローチで所望の属性を持つテキストを生成する。 1) 勾配ベースのメソッド: 属性モデルからの勾配で事前学習されたモデルの潜在表現を更新する。 しかし、勾配に基づく手法は高い計算コストをもたらし、低分散ハイバイアス事前学習モデルにより重み付き復号法が本質的に制約される一方で、小さなトレーニングセットに容易に過度に適合する。 本研究では,トランスフォーマーをベースとした事前学習型言語モデルを生成するための新しい手法を提案する。SideControlフレームワークは,新しい制御属性の損失を利用して,有用な制御信号を組み込むことで,非常に限られたトレーニングサンプルで良好に動作することを示す。 提案手法を2つのベンチマークオープンドメイン対話データセットで評価した結果,SideControlフレームワークは既存の勾配ベースおよび重み付きデコードベースラインよりも制御性,生成品質,サンプル効率がよいことがわかった。

Transformer-based pre-trained language models boost the performance of open-domain dialogue systems. Prior works leverage Transformer-based pre-trained language models to generate texts with desired attributes in two general approaches: (1) gradient-based methods: updating all latent representations of pre-trained models with gradients from attribute models; (2) weighted-decoding methods: re-ranking beam candidates from pre-trained models with attribute functions. However, gradient-based methods lead to high computation cost and can easily get overfitted on small training sets, while weighted-decoding methods are inherently constrained by the low-variance high-bias pre-trained model. In this work, we propose a novel approach to control the generation of Transformer-based pre-trained language models: the SideControl framework, which leverages a novel control attributes loss to incorporate useful control signals, and is shown to perform well with very limited training samples. We evaluate our proposed method on two benchmark open-domain dialogue datasets, and results show that the SideControl framework has better controllability, higher generation quality and better sample-efficiency than existing gradient-based and weighted-decoding baselines.
翻訳日:2021-09-07 16:45:33 公開日:2021-09-05
# 説明可能なAIの事実評価

Counterfactual Evaluation for Explainable AI ( http://arxiv.org/abs/2109.01962v1 )

ライセンス: Link先を確認
Yingqiang Ge, Shuchang Liu, Zelong Li, Shuyuan Xu, Shijie Geng, Yunqi Li, Juntao Tan, Fei Sun, Yongfeng Zhang(参考訳) 近年、機械学習における様々な説明可能な方法の出現を目撃しているが、モデル予測の背後にある推論プロセス(つまり説明の忠実さ)がどの程度表現されているかは、まだ未解決の問題である。 忠実性を測定する一般的な方法は、 \textit{erasure-based} 基準である。 概念的には単純だが、消去に基づく基準は必然的にバイアスやアーティファクトをもたらす可能性がある。 本論文では,説明の忠実性を評価するための新しい手法として,原文の入力とそれに対応する偽文の出力を忠実な特徴で生成する手法を提案する。 特に,離散シナリオと連続シナリオの両方において適切な反事実を見つけるための2つのアルゴリズムを導入し,得られた反事実を用いて忠実性を測定する。 いくつかのデータセットの実証実験結果から,提案手法は既存の指標と比較すると,拡散下での地上の真理とトップ相関が得られることが示された。

While recent years have witnessed the emergence of various explainable methods in machine learning, to what degree the explanations really represent the reasoning process behind the model prediction -- namely, the faithfulness of explanation -- is still an open problem. One commonly used way to measure faithfulness is \textit{erasure-based} criteria. Though conceptually simple, erasure-based criterion could inevitably introduce biases and artifacts. We propose a new methodology to evaluate the faithfulness of explanations from the \textit{counterfactual reasoning} perspective: the model should produce substantially different outputs for the original input and its corresponding counterfactual edited on a faithful feature. Specially, we introduce two algorithms to find the proper counterfactuals in both discrete and continuous scenarios and then use the acquired counterfactuals to measure faithfulness. Empirical results on several datasets show that compared with existing metrics, our proposed counterfactual evaluation method can achieve top correlation with the ground truth under diffe
翻訳日:2021-09-07 16:45:10 公開日:2021-09-05
# 微分非決定論的スタックを用いた階層構造学習

Learning Hierarchical Structures with Differentiable Nondeterministic Stacks ( http://arxiv.org/abs/2109.01982v1 )

ライセンス: Link先を確認
Brian DuSell and David Chiang(参考訳) 単純なアルゴリズムパターンから自然言語まで、シーケンシャルなデータの階層構造を信頼性が高く一般化可能な方法で学習することは、ニューラルネットワークモデルにとって難しい問題です。 過去の研究によると、リカレントニューラルネットワーク(recurrent neural networks、rnn)は、監視や帰納的バイアスなしに、保持されたアルゴリズムや構文パターンの一般化に苦労している。 これを改善するために、多くの論文が有限オートマトンとプッシュダウンオートマトンを例に、様々な異なるスタックでRNNを増強することを検討した。 本稿では,最近提案されている非決定性スタックrnn(ns-rnn)に基づくスタックrnnモデルを提案する。これは5つのコンテキストフリー言語モデリングタスク(情報理論上の下界の0.05natsを含む)において,従来のスタックrnnベースラインよりも低いクロスエントロピーを実現する。 本モデルでは,確率ではなく任意の正の重み付けを重み付けし,これがトレーニングを改善する理由を解析する。 また,自然言語を用いた言語モデリングやPenn Treebank corpus での成果の提示に活用できるようにする NS-RNN の限定バージョンを提案する。

Learning hierarchical structures in sequential data -- from simple algorithmic patterns to natural language -- in a reliable, generalizable way remains a challenging problem for neural language models. Past work has shown that recurrent neural networks (RNNs) struggle to generalize on held-out algorithmic or syntactic patterns without supervision or some inductive bias. To remedy this, many papers have explored augmenting RNNs with various differentiable stacks, by analogy with finite automata and pushdown automata. In this paper, we present a stack RNN model based on the recently proposed Nondeterministic Stack RNN (NS-RNN) that achieves lower cross-entropy than all previous stack RNNs on five context-free language modeling tasks (within 0.05 nats of the information-theoretic lower bound), including a task in which the NS-RNN previously failed to outperform a deterministic stack RNN baseline. Our model assigns arbitrary positive weights instead of probabilities to stack actions, and we provide an analysis of why this improves training. We also propose a restricted version of the NS-RNN that makes it practical to use for language modeling on natural language and present results on the Penn Treebank corpus.
翻訳日:2021-09-07 16:44:54 公開日:2021-09-05
# 自己指導型学習によるオンライン会話の再エントリー予測

Re-entry Prediction for Online Conversations via Self-Supervised Learning ( http://arxiv.org/abs/2109.02020v1 )

ライセンス: Link先を確認
Lingzhi Wang, Xingshan Zeng, Huang Hu, Kam-Fai Wong, Daxin Jiang(参考訳) 近年,オンライン議論における世界ビジネスやソーシャルメディアでの意見共有が盛んになっている。 そのため、継続したい議論の追跡を支援するために、再突入予測タスクが提案されている。 それにもかかわらず、既存の作品はチャット履歴とコンテキスト情報のみを活用し、会話スレッドパターンやターゲットユーザーの繰り返しのエンゲージメントといった会話データの基礎となる有用な学習信号を無視し、会話中のターゲットユーザーの振る舞いをより理解するのに役立つ。 本稿では,再突入予測のための自己監督信号として,拡散パターン,反復ターゲットユーザ,ターンオーサシップという3つの興味深く,確立された補助タスクを提案する。 これらの補助タスクは、メインタスクとともにマルチタスクでトレーニングされる。 Twitter と Reddit から新たに収集した2つのデータセットによる実験結果から,本手法は従来手法よりも少ないパラメータと高速収束率で優れていた。 大規模な実験と分析は,提案モデルの有効性を示すとともに,自己指導型タスクの設計における重要なアイデアを指摘する。

In recent years, world business in online discussions and opinion sharing on social media is booming. Re-entry prediction task is thus proposed to help people keep track of the discussions which they wish to continue. Nevertheless, existing works only focus on exploiting chatting history and context information, and ignore the potential useful learning signals underlying conversation data, such as conversation thread patterns and repeated engagement of target users, which help better understand the behavior of target users in conversations. In this paper, we propose three interesting and well-founded auxiliary tasks, namely, Spread Pattern, Repeated Target user, and Turn Authorship, as the self-supervised signals for re-entry prediction. These auxiliary tasks are trained together with the main task in a multi-task manner. Experimental results on two datasets newly collected from Twitter and Reddit show that our method outperforms the previous state-of-the-arts with fewer parameters and faster convergence. Extensive experiments and analysis show the effectiveness of our proposed models and also point out some key ideas in designing self-supervised tasks.
翻訳日:2021-09-07 16:44:31 公開日:2021-09-05
# GTG-Shapley:フェデレートラーニングにおける効率的かつ正確な参加者貢献評価

GTG-Shapley: Efficient and Accurate Participant Contribution Evaluation in Federated Learning ( http://arxiv.org/abs/2109.02053v1 )

ライセンス: Link先を確認
Zelei Liu, Yuanyuan Chen, Han Yu, Yang Liu and Lizhen Cui(参考訳) Federated Learning(FL)は、コラボレーティブ機械学習とデータのプライバシ保護のギャップを埋めるものだ。 FLエコシステムの長期運用を維持するためには,高品質なデータ所有者を適切なインセンティブ方式で惹きつけることが重要である。 このようなインセンティブスキームの重要なビルディングブロックとして、個人データを公開せずに最終FLモデルの性能に対する参加者の貢献を適切に評価することが不可欠である。 FL参加者の貢献を公平に評価するために,共有価値(SV)に基づく技術が広く採用されている。 しかし、既存のアプローチでは計算コストが大きくなり、実際に適用するのは困難である。 本稿では,この課題に対処するために,GTG-Shapley(GTG-Shapley)アプローチを提案する。 FL参加者の異なる組み合わせで繰り返しトレーニングする代わりに、SV計算のための勾配更新からFLモデルを再構成する。 さらに,多様な現実的なデータ配信環境下での広範囲な実験を通じて,モンテカルロサンプリング手法と,内部および内部のトランケーションを併用して,モデル再構成と評価のさらなる削減を図る。 その結果,gtg-shapley は実際のシャプリー値と密接に近似できるが,特に非i.i.d 条件下では計算効率が著しく向上することが示された。 設定。

Federated Learning (FL) bridges the gap between collaborative machine learning and preserving data privacy. To sustain the long-term operation of an FL ecosystem, it is important to attract high quality data owners with appropriate incentive schemes. As an important building block of such incentive schemes, it is essential to fairly evaluate participants' contribution to the performance of the final FL model without exposing their private data. Shapley Value (SV)-based techniques have been widely adopted to provide fair evaluation of FL participant contributions. However, existing approaches incur significant computation costs, making them difficult to apply in practice. In this paper, we propose the Guided Truncation Gradient Shapley (GTG-Shapley) approach to address this challenge. It reconstructs FL models from gradient updates for SV calculation instead of repeatedly training with different combinations of FL participants. In addition, we design a guided Monte Carlo sampling approach combined with within-round and between-round truncation to further reduce the number of model reconstructions and evaluations required, through extensive experiments under diverse realistic data distribution settings. The results demonstrate that GTG-Shapley can closely approximate actual Shapley values, while significantly increasing computational efficiency compared to the state of the art, especially under non-i.i.d. settings.
翻訳日:2021-09-07 16:41:27 公開日:2021-09-05
# Visuomotor言語接地のためのモジュールフレームワーク

Modular Framework for Visuomotor Language Grounding ( http://arxiv.org/abs/2109.02161v1 )

ライセンス: Link先を確認
Kolby Nottingham, Litian Liang, Daeyun Shin, Charless C. Fowlkes, Roy Fox, Sameer Singh(参考訳) 自然言語に追従するタスクは、基礎言語とロボット研究のための貴重なテストベッドとして機能する。 しかし、これらのタスクのデータ収集は高価であり、エンドツーエンドのアプローチはデータ非効率に悩まされる。 我々は、言語、行動、視覚タスクを個別に訓練可能な別々のモジュールに構造化することを提案する。 言語、アクション、ビジョン(LAV)フレームワークを使用することで、データセットに従う命令に対するアクションとビジョンモジュールの依存が取り除かれ、トレーニングの効率が向上する。 また,視覚的およびインタラクティブな指導のためのALFREDタスク上でのLAVの予備評価を行った。

Natural language instruction following tasks serve as a valuable test-bed for grounded language and robotics research. However, data collection for these tasks is expensive and end-to-end approaches suffer from data inefficiency. We propose the structuring of language, acting, and visual tasks into separate modules that can be trained independently. Using a Language, Action, and Vision (LAV) framework removes the dependence of action and vision modules on instruction following datasets, making them more efficient to train. We also present a preliminary evaluation of LAV on the ALFRED task for visual and interactive instruction following.
翻訳日:2021-09-07 16:41:08 公開日:2021-09-05
# オブジェクトナビゲーションのための階層型オブジェクトツーゾーングラフ

Hierarchical Object-to-Zone Graph for Object Navigation ( http://arxiv.org/abs/2109.02066v1 )

ライセンス: Link先を確認
Sixian Zhang, Xinhang Song, Yubing Bai, Weijie Li, Yakui Chu, Shuqiang Jiang(参考訳) オブジェクトナビゲーションの目標は、目に見えない環境の視覚情報に従って、期待されるオブジェクトに到達することである。 従来の作業は通常、エージェントを訓練してリアルタイムでアクションを予測するディープモデルを実装する。 しかし、目に見えない環境では、対象のオブジェクトが自我中心の視点にない場合、エージェントはガイダンスの欠如により賢明な判断を下せない可能性がある。 本稿では,エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーン(HOZ)グラフを提案するとともに,新しい環境におけるリアルタイム観測に基づいてHOZを更新するためのオンライン学習機構も提案する。 特にHOZグラフはシーンノード、ゾーンノード、オブジェクトノードで構成されている。 事前学習したHOZグラフ、リアルタイム観測、目標目標を用いて、エージェントはゾーンからゾーンへの最適な経路を常に計画することができる。 推定された経路では、次のポテンシャルゾーンはサブゴールと見なされ、アクション予測のための深層強化学習モデルにも供給される。 提案手法はAI2-Thorシミュレータを用いて評価する。 また,広く用いられている評価指標srとsplに加えて,効果的な行動率に着目したsaeの新しい評価指標を提案する。 実験の結果,提案手法の有効性と有効性を示した。

The goal of object navigation is to reach the expected objects according to visual information in the unseen environments. Previous works usually implement deep models to train an agent to predict actions in real-time. However, in the unseen environment, when the target object is not in egocentric view, the agent may not be able to make wise decisions due to the lack of guidance. In this paper, we propose a hierarchical object-to-zone (HOZ) graph to guide the agent in a coarse-to-fine manner, and an online-learning mechanism is also proposed to update HOZ according to the real-time observation in new environments. In particular, the HOZ graph is composed of scene nodes, zone nodes and object nodes. With the pre-learned HOZ graph, the real-time observation and the target goal, the agent can constantly plan an optimal path from zone to zone. In the estimated path, the next potential zone is regarded as sub-goal, which is also fed into the deep reinforcement learning model for action prediction. Our methods are evaluated on the AI2-Thor simulator. In addition to widely used evaluation metrics SR and SPL, we also propose a new evaluation metric of SAE that focuses on the effective action rate. Experimental results demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2021-09-07 16:37:56 公開日:2021-09-05
# 光場を用いた水中3次元再構成

Underwater 3D Reconstruction Using Light Fields ( http://arxiv.org/abs/2109.02116v1 )

ライセンス: Link先を確認
Yuqi Ding, Yu Ji, Jingyi Yu, Jinwei Ye(参考訳) 水中3D再構成は、水面界面の光の屈折により困難である(ほとんどの電子機器は水に直接沈められない)。 本稿では,光電界カメラを用いた水中3次元再構成法を提案する。 まず,水-空気界面のカメラパラメータと形状を同時に推定する光電界カメラキャリブレーションアルゴリズムを開発した。 次に、3次元再構成のための新しい深度推定アルゴリズムを設計する。 具体的には,水屈折による曲線状エピポーラ線の対応を一致させる。 また、視界依存性のスペクトル反射は水中環境において非常に弱いため、光界の角検光線は均一な強度を持つ。 そこで我々は,深度最適化のための角の均一性制約を提案する。 また,非線形光路の存在下で角度パッチを探索する高速アルゴリズムを開発した。 広範囲な合成および実実験により, 水中3次元再構成を高精度に行うことができた。

Underwater 3D reconstruction is challenging due to the refraction of light at the water-air interface (most electronic devices cannot be directly submerged in water). In this paper, we present an underwater 3D reconstruction solution using light field cameras. We first develop a light field camera calibration algorithm that simultaneously estimates the camera parameters and the geometry of the water-air interface. We then design a novel depth estimation algorithm for 3D reconstruction. Specifically, we match correspondences on curved epipolar lines caused by water refraction. We also observe that the view-dependent specular reflection is very weak in the underwater environment, resulting the angularly sampled rays in light field has uniform intensity. We therefore propose an angular uniformity constraint for depth optimization. We also develop a fast algorithm for locating the angular patches in presence of non-linear light paths. Extensive synthetic and real experiments demonstrate that our method can perform underwater 3D reconstruction with high accuracy.
翻訳日:2021-09-07 16:37:36 公開日:2021-09-05
# gan生成顔のロバストな注意深層ニューラルネットワーク

Robust Attentive Deep Neural Network for Exposing GAN-generated Faces ( http://arxiv.org/abs/2109.02167v1 )

ライセンス: Link先を確認
Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang, Siwei Lyu(参考訳) 現実的な顔を生成し、合成するGANベースの技術は、深刻な社会的懸念とセキュリティ問題を引き起こしている。 GAN生成顔を検出する既存の方法は、限られた公開データセットでよく機能する。 しかしながら、既存の公開データセットからのイメージは、ビューのバリエーションやデータ分布(実際の顔が合成顔より圧倒的に多い)に関して、実世界のシナリオを十分に表現していない。 最先端の手法は実世界の問題ではうまく一般化せず、検出結果の解釈性に欠ける。 既存のGAN面検出モデルの性能は、不均衡なデータ分布に直面すると著しく低下する。 これらの欠点に対処するために,GAN生成顔の視線不整合を解析して検出できる頑健で注意深いエンドツーエンドネットワークを提案する。 具体的には,両眼間における虹彩アーチファクトの局所化と比較により,両眼間の不整合成分の同定を学習する。 我々は,AUCの損失と従来のクロスエントロピーの損失を共同で考慮し,不均衡な学習問題に対処する。 均衡シナリオと不均衡シナリオの両方の観点からffhqデータセットの包括的評価は,提案手法の優越性を示している。

GAN-based techniques that generate and synthesize realistic faces have caused severe social concerns and security problems. Existing methods for detecting GAN-generated faces can perform well on limited public datasets. However, images from existing public datasets do not represent real-world scenarios well enough in terms of view variations and data distributions (where real faces largely outnumber synthetic faces). The state-of-the-art methods do not generalize well in real-world problems and lack the interpretability of detection results. Performance of existing GAN-face detection models degrades significantly when facing imbalanced data distributions. To address these shortcomings, we propose a robust, attentive, end-to-end network that can spot GAN-generated faces by analyzing their eye inconsistencies. Specifically, our model learns to identify inconsistent eye components by localizing and comparing the iris artifacts between the two eyes automatically. Our deep network addresses the imbalance learning issues by considering the AUC loss and the traditional cross-entropy loss jointly. Comprehensive evaluations of the FFHQ dataset in terms of both balanced and imbalanced scenarios demonstrate the superiority of the proposed method.
翻訳日:2021-09-07 16:37:22 公開日:2021-09-05
# Sliding-Window Bundle Adjustment のための正方形ルートマージナリゼーション

Square Root Marginalization for Sliding-Window Bundle Adjustment ( http://arxiv.org/abs/2109.02182v1 )

ライセンス: Link先を確認
Nikolaus Demmel, David Schubert, Christiane Sommer, Daniel Cremers, Vladyslav Usenko(参考訳) 本稿では,実時間オドメトリー応用に適した新しい正方根スライディング・ウインドバンドル調整を提案する。 平方根の定式化は最適化に基づくスライディング・ウインドウ推定器の3つの主要な側面に及んでいる: バンドル調整のためには、ヌル空間射影を持つランドマーク変数を排除し、辺化を保存するためには、ヘッセンの行列平方根を用いる。 提案する正方根辺化は、ヘッシアン上のシュール補数 (sc) の従来の使用と代数的に等価であることを示す。 さらに、階数不足のヤコビアンをエレガントに扱い、ムーア=ペンローズ逆数を持つ SC と同値である。 実世界のデータセットにおける視覚および視覚慣性オドメトリの評価は,提案手法がベースラインよりも36%高速であることを示す。 さらに, 単一精度では, 従来のヘッセン系辺縁化は数値的故障を生じ, 精度を低下させることを示した。 正方根形式が同じ効果を及ぼさない理由を説明する前に、辺化の数値的性質を解析し、それゆえ優れた性能をもたらす。

In this paper we propose a novel square root sliding-window bundle adjustment suitable for real-time odometry applications. The square root formulation pervades three major aspects of our optimization-based sliding-window estimator: for bundle adjustment we eliminate landmark variables with nullspace projection; to store the marginalization prior we employ a matrix square root of the Hessian; and when marginalizing old poses we avoid forming normal equations and update the square root prior directly with a specialized QR decomposition. We show that the proposed square root marginalization is algebraically equivalent to the conventional use of Schur complement (SC) on the Hessian. Moreover, it elegantly deals with rank-deficient Jacobians producing a prior equivalent to SC with Moore-Penrose inverse. Our evaluation of visual and visual-inertial odometry on real-world datasets demonstrates that the proposed estimator is 36% faster than the baseline. It furthermore shows that in single precision, conventional Hessian-based marginalization leads to numeric failures and reduced accuracy. We analyse numeric properties of the marginalization prior to explain why our square root form does not suffer from the same effect and therefore entails superior performance.
翻訳日:2021-09-07 16:37:06 公開日:2021-09-05
# NAS-OoD: 分布外一般化のためのニューラルネットワーク探索

NAS-OoD: Neural Architecture Search for Out-of-Distribution Generalization ( http://arxiv.org/abs/2109.02038v1 )

ライセンス: Link先を確認
Haoyue Bai, Fengwei Zhou, Lanqing Hong, Nanyang Ye, S.-H. Gary Chan, Zhenguo Li(参考訳) out-of-distribution(ood)一般化の最近の進歩は、分布シフトに対するディープラーニングモデルの堅牢性を明らかにしている。 しかし、既存の研究は、リスク最小化やドメインの一般化、安定した学習といったOoDアルゴリズムに重点を置いており、深層モデルアーキテクチャがOoD一般化に与える影響を考慮せず、それが準最適性能をもたらす可能性がある。 ニューラルアーキテクチャサーチ(NAS)手法は、トレーニングデータに基づくアーキテクチャを探索し、OoDタスクの一般化が不十分になる可能性がある。 本研究では,OoD 一般化のための堅牢なニューラルアーキテクチャ探索 (NAS-OoD) を提案する。 具体的には、異なるニューラルネットワークで計算される損失を最大化することで、データジェネレータがoodデータを合成することを学び、アーキテクチャ探索の目的は、合成oodデータ損失を最小化する最適なアーキテクチャパラメータを見つけることである。 データジェネレータとニューラルアーキテクチャは、エンドツーエンドで共同最適化され、ミニマックストレーニングプロセスは、異なる分散シフトに対して適切に一般化される堅牢なアーキテクチャを効果的に発見する。 実験結果から,NAS-OoDは,パラメータ数がはるかに少ない深部モデルを用いた様々なOoD一般化ベンチマークにおいて,優れた性能を発揮することが示された。 さらに,実業界データセットでは,本手法の実用性を示すため,実業界で提案するnas-ood法は最先端手法と比較して誤差率を70%以上低減する。

Recent advances on Out-of-Distribution (OoD) generalization reveal the robustness of deep learning models against distribution shifts. However, existing works focus on OoD algorithms, such as invariant risk minimization, domain generalization, or stable learning, without considering the influence of deep model architectures on OoD generalization, which may lead to sub-optimal performance. Neural Architecture Search (NAS) methods search for architecture based on its performance on the training data, which may result in poor generalization for OoD tasks. In this work, we propose robust Neural Architecture Search for OoD generalization (NAS-OoD), which optimizes the architecture with respect to its performance on generated OoD data by gradient descent. Specifically, a data generator is learned to synthesize OoD data by maximizing losses computed by different neural architectures, while the goal for architecture search is to find the optimal architecture parameters that minimize the synthetic OoD data losses. The data generator and the neural architecture are jointly optimized in an end-to-end manner, and the minimax training process effectively discovers robust architectures that generalize well for different distribution shifts. Extensive experimental results show that NAS-OoD achieves superior performance on various OoD generalization benchmarks with deep models having a much fewer number of parameters. In addition, on a real industry dataset, the proposed NAS-OoD method reduces the error rate by more than 70% compared with the state-of-the-art method, demonstrating the proposed method's practicality for real applications.
翻訳日:2021-09-07 16:30:41 公開日:2021-09-05
# VARGAN:ネットワーク強化GANの分散化

VARGAN: Variance Enforcing Network Enhanced GAN ( http://arxiv.org/abs/2109.02117v1 )

ライセンス: Link先を確認
Sanaz Mohammadjafari, Mucahit Cevik, Ayse Basar(参考訳) generative adversarial network (gans) は最も広く使われている生成モデルの一つである。 GANは複雑なマルチモーダル分布を学習し、リアルライクなサンプルを生成することができる。 合成データ生成におけるgansの大きな成功にもかかわらず、それらは不安定なトレーニングプロセスとモード崩壊に苦しむ可能性がある。 本稿では,生成したサンプルに多様性を導入するために,第3のネットワークを組み込んだ分散型gan(vargan)と呼ばれる新しいganアーキテクチャを提案する。 第3のネットワークは生成したサンプルの多様性を測定し、低多様性サンプルに対するジェネレータの損失をペナルティ化するために使用される。 ネットワークは、利用可能なトレーニングデータと、モダリティに制限のある望ましくない分散に基づいて訓練される。 合成および実世界の画像データに基づいて、VARGANは最近の最先端モデルと比較してより多様なサンプルを生成する。 高多様性と低計算複雑性、および高速収束により、VARGANはモード崩壊を緩和する有望なモデルとなる。

Generative adversarial networks (GANs) are one of the most widely used generative models. GANs can learn complex multi-modal distributions, and generate real-like samples. Despite the major success of GANs in generating synthetic data, they might suffer from unstable training process, and mode collapse. In this paper, we introduce a new GAN architecture called variance enforcing GAN (VARGAN), which incorporates a third network to introduce diversity in the generated samples. The third network measures the diversity of the generated samples, which is used to penalize the generator's loss for low diversity samples. The network is trained on the available training data and undesired distributions with limited modality. On a set of synthetic and real-world image data, VARGAN generates a more diverse set of samples compared to the recent state-of-the-art models. High diversity and low computational complexity, as well as fast convergence, make VARGAN a promising model to alleviate mode collapse.
翻訳日:2021-09-07 16:30:15 公開日:2021-09-05
# 推薦のための協調指導による注意深い知識認識グラフ畳み込みネットワーク

Attentive Knowledge-aware Graph Convolutional Networks with Collaborative Guidance for Recommendation ( http://arxiv.org/abs/2109.02046v1 )

ライセンス: Link先を確認
Yankai Chen, Yaming Yang, Yujing Wang, Jing Bai, Xiangchen Song, Irwin King(参考訳) 近年,従来のレコメンデータシステム(RS)におけるデータ分散やコールドスタートの問題を緩和するために,補助情報を補うための知識グラフ(KG)の導入が注目されている。 しかし、現在のKGベースのRSモデルに単にKGを統合することは、必ずしも推奨性能を改善するための保証ではない。 これは、これらのkgsの構築が、歴史的ユーザ・テーマの相互作用の収集とは独立しているため、これらのkgs内の情報は、常にすべてのユーザへのレコメンデーションに役立つとは限らないためである。 本稿では,パーソナライズドレコメンデーション(cg-kgr)のための協調ガイダンスを用いて,知識認識型グラフ畳み込みネットワークを提案する。 CG-KGRは,提案した協調指導機構を通じて,KGとユーザ・イテムインタラクションの完全かつ一貫性のある学習を可能にする,知識認識型推薦モデルである。 具体的には、CG-KGRは、インタラクティブな情報要約に対する歴史的相互作用をカプセル化する。 そして、CG-KGRはKGから情報を抽出するためのガイダンスとして利用し、最終的にはより正確にパーソナライズされたレコメンデーションを提供する。 我々は,2つのレコメンデーションタスク,すなわちトップkレコメンデーションとクリックスルー率(ctr)予測について,実世界の4つのデータセットについて広範な実験を行う。 実験結果から、CG-KGRモデルは、Top-Kレコメンデーションのリコール基準とCTR予測のAUCにおいて、最新の最先端モデルの4.0-53.2%と0.4-3.2%を大きく上回っていることが示された。

To alleviate data sparsity and cold-start problems of traditional recommender systems (RSs), incorporating knowledge graphs (KGs) to supplement auxiliary information has attracted considerable attention recently. However, simply integrating KGs in current KG-based RS models is not necessarily a guarantee to improve the recommendation performance, which may even weaken the holistic model capability. This is because the construction of these KGs is independent of the collection of historical user-item interactions; hence, information in these KGs may not always be helpful for recommendation to all users. In this paper, we propose attentive Knowledge-aware Graph convolutional networks with Collaborative Guidance for personalized Recommendation (CG-KGR). CG-KGR is a novel knowledge-aware recommendation model that enables ample and coherent learning of KGs and user-item interactions, via our proposed Collaborative Guidance Mechanism. Specifically, CG-KGR first encapsulates historical interactions to interactive information summarization. Then CG-KGR utilizes it as guidance to extract information out of KGs, which eventually provides more precise personalized recommendation. We conduct extensive experiments on four real-world datasets over two recommendation tasks, i.e., Top-K recommendation and Click-Through rate (CTR) prediction. The experimental results show that the CG-KGR model significantly outperforms recent state-of-the-art models by 4.0-53.2% and 0.4-3.2%, in terms of Recall metric on Top-K recommendation and AUC on CTR prediction, respectively.
翻訳日:2021-09-07 16:27:16 公開日:2021-09-05
# ヘテロジニアスグラフからのコミュニティ検出:コンテキストパスに基づくグラフニューラルネットワークモデル

Detecting Communities from Heterogeneous Graphs: A Context Path-based Graph Neural Network Model ( http://arxiv.org/abs/2109.02058v1 )

ライセンス: Link先を確認
Linhao Luo, Yixiang Fang, Xin Cao, Xiaofeng Zhang, Wenjie Zhang(参考訳) グラフノードを深い内部接続を持つクラスタにグループ化することを目的としたコミュニティ検出は、基本的なグラフマイニングタスクである。 近年,複数種類のノードとエッジを含む異種グラフが研究されており,ノード間の高次関係をモデル化する上で大きな課題となっている。 グラフ埋め込み機構の急増に伴い、コミュニティ検出にも採用されている。 注目すべき作品群は、メタパスを使用してノード間の高次関係をキャプチャし、それらをノードの埋め込みに埋め込み、コミュニティ検出を容易にする。 しかし、有意義なメタパスを定義するには、多くのドメイン知識が必要である。 この問題を軽減するために,本稿では,ノード間の高次関係を捕捉するコンテキストパスを利用して,コンテキストパスに基づくグラフニューラルネットワーク(CP-GNN)モデルを構築することを提案する。 ノード間の高次関係を注意機構を組み込んだノードに再帰的に埋め込んで、異なる関係の重要性を識別する。 コンテキストパスによって接続されるノードの共起の期待を最大化することにより、ノード間の高次関係を良好に保ち、コミュニティ検出に役立つノードの埋め込みを学習することができる。 4つの実世界のデータセットに対する大規模な実験結果から、CP-GNNは最先端のコミュニティ検出方法よりも優れていることが示された。

Community detection, aiming to group the graph nodes into clusters with dense inner-connection, is a fundamental graph mining task. Recently, it has been studied on the heterogeneous graph, which contains multiple types of nodes and edges, posing great challenges for modeling the high-order relationship between nodes. With the surge of graph embedding mechanism, it has also been adopted to community detection. A remarkable group of works use the meta-path to capture the high-order relationship between nodes and embed them into nodes' embedding to facilitate community detection. However, defining meaningful meta-paths requires much domain knowledge, which largely limits their applications, especially on schema-rich heterogeneous graphs like knowledge graphs. To alleviate this issue, in this paper, we propose to exploit the context path to capture the high-order relationship between nodes, and build a Context Path-based Graph Neural Network (CP-GNN) model. It recursively embeds the high-order relationship between nodes into the node embedding with attention mechanisms to discriminate the importance of different relationships. By maximizing the expectation of the co-occurrence of nodes connected by context paths, the model can learn the nodes' embeddings that both well preserve the high-order relationship between nodes and are helpful for community detection. Extensive experimental results on four real-world datasets show that CP-GNN outperforms the state-of-the-art community detection methods.
翻訳日:2021-09-07 16:26:30 公開日:2021-09-05
# 短軸・長軸MRIからの情報遷移による右室分極

Right Ventricular Segmentation from Short- and Long-Axis MRIs via Information Transition ( http://arxiv.org/abs/2109.02171v1 )

ライセンス: Link先を確認
Lei Li, Wangbin Ding, Liqun Huang, and Xiahai Zhuang(参考訳) 磁気共鳴画像(MRI)からの右室分画は、心臓形態学および機能解析において重要なステップである。 しかし、MRIからの自動RVセグメンテーションは、主に異種強度、複雑な可変形状、不明瞭なRV境界のため、依然として困難である。 また,現在のRVセグメンテーション法は,MRIの基部および根尖部におけるパフォーマンス劣化に悩まされる傾向にある。 本研究では、長軸(LA)ビューからの情報を活用して、情報遷移による短軸(SA)ビューのセグメンテーションを支援する自動RVセグメンテーションフレームワークを提案する。 具体的には、LAビューから変換されたセグメンテーションを事前情報として、SAビューからROIを抽出し、セグメンテーションを改善する。 情報遷移は、SAビューの周囲の曖昧な領域を取り除くことを目的としている。 %,三尖弁領域など。 LAMRIとSAMRIの両方からなる360度マルチセンター,マルチベンダ,マルチディスリーズ対象のパブリックデータセット上で,我々のモデルを検証した。 実験の結果, LAビューを含めることで, SAセグメンテーションの精度を向上させることができることがわかった。 私たちのモデルはhttps://github.com/NanYoMy/MMs-2で公開されています。

Right ventricular (RV) segmentation from magnetic resonance imaging (MRI) is a crucial step for cardiac morphology and function analysis. However, automatic RV segmentation from MRI is still challenging, mainly due to the heterogeneous intensity, the complex variable shapes, and the unclear RV boundary. Moreover, current methods for the RV segmentation tend to suffer from performance degradation at the basal and apical slices of MRI. In this work, we propose an automatic RV segmentation framework, where the information from long-axis (LA) views is utilized to assist the segmentation of short-axis (SA) views via information transition. Specifically, we employed the transformed segmentation from LA views as a prior information, to extract the ROI from SA views for better segmentation. The information transition aims to remove the surrounding ambiguous regions in the SA views. %, such as the tricuspid valve regions. We tested our model on a public dataset with 360 multi-center, multi-vendor and multi-disease subjects that consist of both LA and SA MRIs. Our experimental results show that including LA views can be effective to improve the accuracy of the SA segmentation. Our model is publicly available at https://github.com/NanYoMy/MMs-2.
翻訳日:2021-09-07 16:22:57 公開日:2021-09-05
# (参考訳) travelbert: ドメイン固有の異種知識を統一表現に組み込んだ事前学習言語モデル

TravelBERT: Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation ( http://arxiv.org/abs/2109.01048v2 )

ライセンス: CC BY 4.0
Hongyin Zhu, Hao Peng, Zhiheng Lyu, Lei Hou, Juanzi Li, Jinghui Xiao(参考訳) 既存の技術は様々な観点からBERTを拡張している。 異なる事前トレーニングタスク、異なるセマンティックな粒度、異なるモデルアーキテクチャを設計する。 BERTを異なるテキストフォーマットから拡張することを検討するモデルは少ない。 本稿では,非構造化テキスト,半構造化テキスト,よく構造化されたテキストを含む,すべての形式のテキストに対する統合事前学習言語モデル(plm)であるヘテロジニアス知識言語モデル(hklm)を提案する。 これら多形式的知識の対応関係を捉えるために,単語知識の学習にはマスキング言語モデル目的,エンティティ知識とトピック知識の学習には3つの分類目標とタイトルマッチング目標を用いる。 上記の多形式テキストを得るため,観光領域にコーパスを構築し,観光NLPデータセット5種について実験を行った。 その結果,本手法はデータの1/4のみを用いて,プレーンテキストの事前学習よりも優れていた。 コード、データセット、コーパス、ナレッジグラフがリリースされる。

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (HKLM), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. The code, datasets, corpus and knowledge graph will be released.
翻訳日:2021-09-07 13:22:22 公開日:2021-09-05