このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210606となっている論文です。

PDF登録状況(公開日: 20210606)

TitleAuthorsAbstract論文公表日・翻訳日
# 幾何学的局所的浅層量子回路の出力確率の準多項時間近似

Quasi-polynomial time approximation of output probabilities of geometrically-local, shallow quantum circuits ( http://arxiv.org/abs/2012.05460v2 )

ライセンス: Link先を確認
Nolan J. Coble and Matthew Coudron(参考訳) n$ qubits に作用する任意の3次元幾何学的局所的多対数深さ量子回路 $c$ と任意のビット文字列 $x\in\{0,1\}^n$ に対して、|<x |c|0^{\otimes n}>|^2$ を準多項時間で任意の逆多項加法誤差内で計算できる古典的なアルゴリズムを提案する。 2-n^2}$加法誤差[Mov20, KMM21]の範囲内で同じ量を計算するのが$\#P$-hardであることが知られている。 この問題の最もよく知られたアルゴリズムは$o(2^{n^{1/3}}\text{poly}(1/\epsilon))$であり、加算誤差$\epsilon$ [bgm20]内で確率を計算するのに時間がかかった。 特に、[BGM20]論文は、この推定タスクを2D回路に限定するエレガントな多項式時間アルゴリズムを含んでおり、1D行列生成状態(MPS)を問題となる回路の2D幾何学に注意深く適合させる。 驚くべきことに、多項式時間で3d回路の場合に対処するためにこのmpsの使用を拡張できるかどうかは明らかではない。 このことは、3次元問題の計算複雑性が2次元問題よりも大幅に高いかどうかという自然な疑問を提起する。 本研究では,3次元ケースに対する準多項式時間アルゴリズムを用いてこの問題に対処する。 既知のテクニックが直面する技術的障壁を克服するために、私たちは新しいアプローチを追求せざるを得ません。 このアルゴリズムは分割・分割構造を持ち、同じ問題型の複数のインスタンス化を通じて所望の量を近似する方法を示し、それぞれが元の量子ビットの約半分に3dローカル回路を含む。 この分割ステップは再帰的に適用され、元の量をより小さな3d局所量子回路の重み付け結合として表現する。 中心的な技術的課題は、このような方法で生成された異なる回路 ``pieces' の間に生じる絡み合いから生じる相関を制御することである。

We present a classical algorithm that, for any 3D geometrically-local, polylogarithmic-depth quantum circuit $C$ acting on $n$ qubits, and any bit string $x\in\{0,1\}^n$, can compute the quantity $|< x |C|0^{\otimes n}>|^2$ to within any inverse-polynomial additive error in quasi-polynomial time. It is known that it is $\#P$-hard to compute this same quantity to within $2^{-n^2}$ additive error [Mov20, KMM21]. The previous best known algorithm for this problem used $O(2^{n^{1/3}}\text{poly}(1/\epsilon))$ time to compute probabilities to within additive error $\epsilon$ [BGM20]. Notably, the [BGM20] paper included an elegant polynomial time algorithm for this estimation task restricted to 2D circuits, which makes a novel use of 1D Matrix Product States (MPS) carefully tailored to the 2D geometry of the circuit in question. Surprisingly, it is not clear that it is possible to extend this use of MPS to address the case of 3D circuits in polynomial time. This raises a natural question as to whether the computational complexity of the 3D problem might be drastically higher than that of the 2D problem. In this work we address this question by exhibiting a quasi-polynomial time algorithm for the 3D case. In order to surpass the technical barriers encountered by previously known techniques we are forced to pursue a novel approach. Our algorithm has a Divide-and-Conquer structure, demonstrating how to approximate the desired quantity via several instantiations of the same problem type, each involving 3D-local circuits on about half the number of qubits as the original. This division step is then applied recursively, expressing the original quantity as a weighted combination of smaller and smaller 3D-local quantum circuits. A central technical challenge is to control correlations arising from entanglement that may exist between the different circuit ``pieces" produced this way.
翻訳日:2023-04-21 06:02:54 公開日:2021-06-06
# 3つの状態の$\mathcal{pt}$-symmetric quantum discrimination

$\mathcal{PT}$-Symmetric Quantum Discrimination of Three States ( http://arxiv.org/abs/2012.14897v2 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Manohar Raavi, Anatoliy Pinchuk and Sang-Yoon Chang(参考訳) この系が2つの非直交量子状態の1つ、$|\psi_1\rangle$ または $|\psi_2\rangle$ にあることが知られている場合、ユニタリティ制約のため単一の測定値で区別することは不可能である。 通常のエルミート量子力学では、成功度判定は確率$p < 1$で行うことができ、$\mathcal{PT}$-symmetric quantum mechanics a \textit{simulated single-measurement} 量子状態判別は成功率$p$で行うことができる。 3つの純粋量子状態、|\psi_1\rangle$, $|\psi_2\rangle$, $|\psi_3\rangle$の場合には、これらの状態の幾何と対称性に関する追加の制限なしに、$\mathcal{pt}$-symmetric quantum state discriminationアプローチを拡張する。 我々は,IBM量子プロセッサ上での$\mathcal{PT}$対称性の最近の実装とアプローチの関係について論じる。

If the system is known to be in one of two non-orthogonal quantum states, $|\psi_1\rangle$ or $|\psi_2\rangle$, it is not possible to discriminate them by a single measurement due to the unitarity constraint. In a regular Hermitian quantum mechanics, the successful discrimination is possible to perform with the probability $p < 1$, while in $\mathcal{PT}$-symmetric quantum mechanics a \textit{simulated single-measurement} quantum state discrimination with the success rate $p$ can be done. We extend the $\mathcal{PT}$-symmetric quantum state discrimination approach for the case of three pure quantum states, $|\psi_1\rangle$, $|\psi_2\rangle$ and $|\psi_3\rangle$ without any additional restrictions on the geometry and symmetry possession of these states. We discuss the relation of our approach with the recent implementation of $\mathcal{PT}$ symmetry on the IBM quantum processor.
翻訳日:2023-04-18 11:47:19 公開日:2021-06-06
# 横スイートスポット近傍に実装されたユニバーサル一重項量子ビット

Universal singlet-triplet qubits implemented near the transverse sweet spot ( http://arxiv.org/abs/2102.00406v2 )

ライセンス: Link先を確認
Wen-Xin Xie, Chengxian Zhang, Zheng-Yuan Xue(参考訳) 半導体ダブル量子ドット (dqd) におけるsinglet-triplet (st) 量子ビットに対するフォールトトレラント量子計算を実現する鍵は、高い忠実度を持つ単一および2量子ビットゲートの両方を操作することである。 この実現可能な方法は、逆スイーツスポット(TSS)の近くでキュービットを操作してノイズの先行順序を減少させ、ノイズに免疫する適切なパルスシーケンスを採用することである。 シングルキュービットゲートは、tss近傍のデチューニングにacドライブを導入することで実現できる。 TSSにおけるDQDの大きな双極子モーメントは、キュービットとキャビティ共振器の間の強い結合を可能にし、2キュービットのエンタングゲートにつながった。 適切な領域で動作し、控えめなパルスシーケンスを適用すると、シングルビットゲートと2ビットゲートの両方が99%以上の忠実度を持つ。 以上の結果から,TSS近傍の適切なパルスシーケンスを利用すれば,高忠実度ST量子ビットが得られることが示唆された。

The key to realizing fault-tolerant quantum computation for singlet-triplet (ST) qubits in semiconductor double quantum dot (DQD) is to operate both the single- and two-qubit gates with high fidelity. The feasible way includes operating the qubit near the transverse sweet spot (TSS) to reduce the leading order of the noise, as well as adopting the proper pulse sequences which are immune to noise. The single-qubit gates can be achieved by introducing an AC drive on the detuning near the TSS. The large dipole moment of the DQDs at the TSS has enabled strong coupling between the qubits and the cavity resonator, which leads to a two-qubit entangling gates. When operating in the proper region and applying modest pulse sequences, both single- and two-qubit gates are having fidelity higher than 99%. Our results suggest that taking advantage of the appropriate pulse sequences near the TSS can be effective to obtain high-fidelity ST qubits.
翻訳日:2023-04-13 05:08:57 公開日:2021-06-06
# アイランド遺伝的アルゴリズムによる量子回路の合成

Synthesis of Quantum Circuits with an Island Genetic Algorithm ( http://arxiv.org/abs/2106.03115v1 )

ライセンス: Link先を確認
Fernando T. Miranda, Pedro Paulo Balbi and Pedro C.S. Costa(参考訳) 量子ハードウェアの進歩は控えめなステップで起こるが、古典的なコンピュータで動くシミュレータは量子アルゴリズムを構築するための貴重なテストベッドを提供する。 ある操作を実行するユニタリ行列が与えられると、たとえ入力ユニタリの近似としても等価な量子回路を得ることは非自明なタスクであり、探索問題としてモデル化することができる。 本研究は、島モデルの概念に基づく進化的探索アルゴリズムを示し、その等価回路におけるユニタリ行列の分解を行う。 量子ウォーカーのコイン、トッフォリゲート、フレドキンゲートの3つの問題が研究されている。 提案したアルゴリズムは量子回路の分解に効率的であることが証明され、汎用的なアプローチとして利用可能な計算力によってのみ制限される。

While advances in quantum hardware occur in modest steps, simulators running on classical computers provide a valuable test bed for the construction of quantum algorithms. Given a unitary matrix that performs certain operation, obtaining the equivalent quantum circuit, even if as an approximation of the input unitary, is a non-trivial task and can be modeled as a search problem. This work presents an evolutionary search algorithm based on the island model concept, for the decomposition of unitary matrices in their equivalent circuit. Three problems are explored: the coin for the quantum walker, the Toffoli gate and the Fredkin gate. The algorithm proposed proved to be efficient in decomposition of quantum circuits, and as a generic approach, it is limited only by the available computational power.
翻訳日:2023-03-27 11:40:27 公開日:2021-06-06
# 時間依存摂動の量子推定

Quantum estimation of a time dependent perturbation ( http://arxiv.org/abs/2106.03101v1 )

ライセンス: Link先を確認
Claus Normann Madsen, Lia Valdetaro, Klaus M{\o}lmer(参考訳) 連続的に監視された量子システムに作用する時間依存摂動の推定を解析する。 隠れマルコフモデルを用いて摂動の時間的ゆらぎを記述し, 量子計測理論と古典フィルタ理論を, 時間発展するハイブリッド量子軌道と古典軌道に組み合わせる。 古典的隠れマルコフモデルの滑らかな推定を許容する前方後方解析は、逆行理論と過去の量子状態の理論に対応する。 特定の例として、我々のハイブリッド軌道と過去の量子状態理論を、単一量子スピンのマイクロ波的尋問による変動磁場の検出に適用する。

We analyze the estimation of a time dependent perturbation acting on a continuously monitored quantum system. We describe the temporal fluctuations of the perturbation by a Hidden Markov Model, and we combine quantum measurement theory and classical filter theory into a time evolving hybrid quantum and classical trajectory. The forward-backward analysis that permits smoothed estimates of classical Hidden Markov Models has a counterpart in the theory of retrodiction and Past Quantum States. As a specific example, we apply our hybrid trajectory and Past Quantum State theory to the sensing of a fluctuating magnetic field by microwave interrogation of a single quantum spin.
翻訳日:2023-03-27 11:40:15 公開日:2021-06-06
# 格子ゲージ理論に合致する冷原子

Cold atoms meet lattice gauge theory ( http://arxiv.org/abs/2106.03063v1 )

ライセンス: Link先を確認
Monika Aidelsburger, Luca Barbiero, Alejandro Bermudez, Titas Chanda, Alexandre Dauphin, Daniel Gonz\'alez-Cuadra, Przemys{\l}aw R. Grzybowski, Simon Hands, Fred Jendrzejewski, Johannes J\"unemann, Gediminas Juzeliunas, Valentin Kasper, Angelo Piga, Shi-Ju Ran, Matteo Rizzi, G\'erman Sierra, Luca Tagliacozzo, Emanuele Tirrito, Torsten V. Zache, Jakub Zakrzewski, Erez Zohar, Maciej Lewenstein(参考訳) このレビューの中心的な考え方は、粒子物理学に関連する量子場理論モデルを検討し、これらのモデルにおけるフェルミオン物質をボソニック物質に置き換えることである。 これは、ボソンがより「アクセシブル」であり、実験家にとって操作しやすいという事実が主な動機であるが、この「置換」は新しい物理学や新しい現象をもたらす。 これにより、閉じ込めや脱閉じ込め移行のダイナミクスについて、新たな情報を得ることができます。 したがって、ボソニック・シュウィンガーあるいはZ$2$ボース=Hubbardモデルに対応する動的格子のボソンを考える。 このレビューの別の中心的な考え方は、クロイツ・ハバード・はしごやグロス・ネヴェウ・ウィルソンやウィルソン・ハバード・モデルのような粒子物理学理論のパラダイムモデルに関する原子シミュレータに関するものである。 最後に, 粒子物理学に関連するモデルについて, 実験的にフレンドリーなシミュレータをデザインする試みについて概説する。

The central idea of this review is to consider quantum field theory models relevant for particle physics and replace the fermionic matter in these models by a bosonic one. This is mostly motivated by the fact that bosons are more ``accessible'' and easier to manipulate for experimentalists, but this ``substitution'' also leads to new physics and novel phenomena. It allows us to gain new information about among other things confinement and the dynamics of the deconfinement transition. We will thus consider bosons in dynamical lattices corresponding to the bosonic Schwinger or Z$_2$ Bose-Hubbard models. Another central idea of this review concerns atomic simulators of paradigmatic models of particle physics theory such as the Creutz-Hubbard ladder, or Gross-Neveu-Wilson and Wilson-Hubbard models. Finally, we will briefly describe our efforts to design experimentally friendly simulators of these and other models relevant for particle physics.
翻訳日:2023-03-27 11:39:14 公開日:2021-06-06
# Big-Five, MPTI, Eysenck, HEXACO:Personality-Aware Recommendation Systemsのための理想的パーソナリティモデル

Big-Five, MPTI, Eysenck or HEXACO: The Ideal Personality Model for Personality-aware Recommendation Systems ( http://arxiv.org/abs/2106.03060v1 )

ライセンス: Link先を確認
Sahraoui Dhelim, Liming Luke Chen, Nyothiri Aung, Wenyin Zhang, Huansheng Ning(参考訳) 性格認識レコメンデーションシステムは従来のレコメンデーションシステムに比べて高精度であることが証明されている。 それに加えて、パーソナライズ対応のレコメンデーションシステムは、コールドスタートとデータ空間の問題を軽減するのに役立つ。 既存の作品の多くは、ユーザの個性を表現するためにBig-Fiveパーソナリティモデルを使用しているが、これは心理学におけるBig-Fiveモデルの人気によるものである。 しかし、パーソナライズコンピューティングの観点からは、レコメンデーションアプリケーションとレコメンデーションコンテンツタイプの要件を満たす最も適切なパーソナリティモデルを選択するには、さらなる調査が必要である。 本稿では,人格特性理論からBig-Five,Eysenck,HEXACOの4つの人格モデルに基づく人格認識推薦システムと,人格型理論からMers-Briggs Type Indicator(MPTI)を比較した。 次に,パーソナリティ特性モデルとパーソナリティタイプモデルを組み合わせたハイブリッドパーソナリティモデルを提案する。 推奨データセットに関する広範な実験を通じて、提案モデルの有効性、特にコールドスタート設定において証明する。

Personality-aware recommendation systems have been proven to achieve high accuracy compared to conventional recommendation systems. In addition to that, personality-aware recommendation systems could help alleviate cold start and data sparsity problems. Most of the existing works use Big-Five personality model to represent the user's personality, this is due to the popularity of Big-Five model in the literature of psychology. However, from personality computing perspective, the choice of the most suitable personality model that satisfy the requirements of the recommendation application and the recommended content type still needs further investigation. In this paper, we study and compare four personality-aware recommendation systems based on different personality models, namely Big-Five, Eysenck and HEXACO from the personality traits theory, and Myers-Briggs Type Indicator (MPTI) from the personality types theory. Following that, we propose a hybrid personality model for recommendation that takes advantage of the personality traits models, as well as the personality types models. Through extensive experiments on recommendation dataset, we prove the efficiency of the proposed model, especially in cold start settings.
翻訳日:2023-03-27 11:38:52 公開日:2021-06-06
# 非エルミート擬似ギャップ

Non-Hermitian Pseudo-Gaps ( http://arxiv.org/abs/2106.02995v1 )

ライセンス: Link先を確認
Linhu Li, Ching Hua Lee(参考訳) バンドギャップの概念は、物質の特徴づけにおいてユビキタスである。 特に興味深いのは疑似ギャップであり、高温超伝導のような新しい現象と関連づけられた非常に低い状態密度の謎の領域である。 本研究では,格子に境界を導入する際に擬似ガップを誘導する非エルミート機構を新たに発見する。 これは2つ以上の非対称な励起チャネル間の干渉によって発生し、エルミート系ではアナログを持たない。 数学的には、複素エネルギー平面内のスペクトル流の発散によって、電導体の近くで鋭いエッジが発散電界を作る方法と類似した形で生成される。 非エルミート擬ギャップは通常の位相ギャップのように対称性に保護された中間ギャップモードをホストすることができるが、中間ギャップモードはエッジローカライズではなく拡張され、対称性破壊的な摂動に対して極端に感度を示す。 驚くべきことに、擬ギャップは、位相的な部分的巻線を持つにもかかわらず、位相遷移点の極端の場合において、整数数のエッジモードをホストすることもできる。 トポロジカルなバルク境界対応の概念やバンドの概念さえも、疑似ギャップは、分数的なチャーン絶縁体のような多体設定にまで及ぶ深い影響をポストする。

The notion of a band gap is ubiquitous in the characterization of matter. Particularly interesting are pseudo-gaps, which are enigmatic regions of very low density of states that have been linked to novel phenomena like high temperature superconductivity. In this work, we discover a new non-Hermitian mechanism that induces pseudo-gaps when boundaries are introduced in a lattice. It generically occurs due to the interference between two or more asymmetric pumping channels, and possess no analog in Hermitian systems. Mathematically, it can be visualized as being created by divergences of spectral flow in the complex energy plane, analogous to how sharp edges creates divergent electric fields near an electrical conductor. A non-Hermitian pseudo-gap can host symmetry-protected mid-gap modes like ordinary topological gaps, but the mid-gap modes are extended instead of edge-localized, and exhibit extreme sensitivity to symmetry-breaking perturbations. Surprisingly, pseudo-gaps can also host an integer number of edge modes even though the pseudo-bands possess fractional topological windings, or even no well-defined Chern number at all, in the marginal case of a phase transition point. Challenging conventional notions of topological bulk-boundary correspondences and even the very concept of a band, pseudo-gaps post profound implications that extend to many-body settings, such as fractional Chern insulators.
翻訳日:2023-03-27 11:38:28 公開日:2021-06-06
# 進化的アルゴリズムによるブロックチェーンシステム内マイナの選択とエネルギー最適化

Selecting Miners within Blockchain-based Systems Using Evolutionary Algorithms for Energy Optimisation ( http://arxiv.org/abs/2106.11916v1 )

ライセンス: Link先を確認
Akram Alofi, Mahmoud A. Bokhari, Robert Hendley, Rami Bahsoon(参考訳) 本稿では,ブロックチェーンベースのシステムにおけるマイナの選択問題をサブセット選択問題として表現する。 我々は,ブロックチェーンのエネルギー消費を最適化問題として,エネルギー消費と信頼という2つの相反する目標を定式化する。 提案手法は異なるアルゴリズムで比較し,その性能を示す。

In this paper, we represent the problem of selecting miners within a blockchain-based system as a subset selection problem. We formulate the problem of minimising blockchain energy consumption as an optimisation problem with two conflicting objectives: energy consumption and trust. The proposed model is compared across different algorithms to demonstrate its performance.
翻訳日:2023-03-27 11:31:44 公開日:2021-06-06
# 知覚の無意識的相互作用と感情的な色付けと他の意識的経験に対する量子的モデル

Quantum-like model for unconscious-conscious interaction and emotional coloring of perceptions and other conscious experiences ( http://arxiv.org/abs/2106.05191v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) 量子測定理論は、認知と感情のコヒーレントな生成の量子的モデリングや、一般に意識的な経験の感情的な着色に応用される。 量子論では、系は観測者から分離されるべきである。 脳は自己測定を行う。 それらをモデル化するために、脳を無意識と意識という2つのサブシステムに分割する。 それらはシステムとオブザーバに対応します。 知覚状態と感情状態は、無意識状態空間のテンソル積分解を通じて記述され、同様に、知覚と感情を意識的に経験するための2つの観察可能なクラスが存在する。 感情的な色付けは、量子的な文脈性と結合する。 このような文脈化は無意識状態の退化を減少させる。 量子的なアプローチは、脳内の真の量子物理過程(ペンローズとハメロフ)の考慮と区別されるべきである。 我々のアプローチでは、脳は情報処理を量子論の形式論によって記述できるマクロシステムである。

Quantum measurement theory is applied to quantum-like modeling of coherent generation of perceptions and emotions and generally for emotional coloring of conscious experiences. In quantum theory, a system should be separated from an observer. The brain performs self-measurements. To model them, we split the brain into two subsystems, unconsciousness and consciousness. They correspond to a system and an observer. The states of perceptions and emotions are described through the tensor product decomposition of the unconscious state space; similarly, there are two classes of observables, for conscious experiencing of perceptions and emotions, respectively. Emotional coloring is coupled to quantum contextuality: emotional observables determine contexts. Such contextualization reduces degeneration of unconscious states. The quantum-like approach should be distinguished from consideration of the genuine quantum physical processes in the brain (cf. Penrose and Hameroff). In our approach the brain is a macroscopic system which information processing can be described by the formalism of quantum theory.
翻訳日:2023-03-27 11:31:39 公開日:2021-06-06
# カオスアインシュタイン-ポドルスキー-ローゼン対、測定および時間反転

Chaotic Einstein-Podolsky-Rosen pairs, measurements and time reversal ( http://arxiv.org/abs/2106.03248v1 )

ライセンス: Link先を確認
Klaus M. Frahm and Dima L. Shepelyansky(参考訳) 我々は、古典的極限における量子カオス状態において、絡み合ったアインシュタイン-ポドルスキー-ローゼン対(EPR)の進化が起こる状況を考える。 この状況は、量子チリコフ標準写像によって記述されたカオス対ダイナミクスの例として研究される。 小さな誤差が存在すると、指数的カオス不安定によって引き起こされるエラーの指数的増加によって古典力学の時間反転が破られるとしても、時間進化は可逆である。 しかし、量子力学不安定性は対数的に短いエーレンフェスト時間スケールにのみ存在するため、量子進化は可逆である。 EPR対の絡み合いにより、ある粒子の逆転時点における測定が、近似時間逆転しか示さない別の粒子の正確な時間逆転を破ることが示される。 この結果はシュミット分解とファインマン経路積分による量子力学の定式化の枠組みで解釈される。 この系における時間反転は、エンタングルメントや測定の欠如により、蹴り光学格子内の冷たい原子によって既に実現されている。 得られた結果に基づいて, カオスEPR対の時間反転に関する実験的研究は, 現在の寒冷原子能の範囲内にあると論じる。

We consider a situation when evolution of an entangled Einstein-Podolsky-Rosen (EPR) pair takes place in a regime of quantum chaos being chaotic in the classical limit. This situation is studied on an example of chaotic pair dynamics described by the quantum Chirikov standard map. The time evolution is reversible even if a presence of small errors breaks time reversal of classical dynamics due to exponential growth of errors induced by exponential chaos instability. However, the quantum evolution remains reversible since a quantum dynamics instability exists only on a logarithmically short Ehrenfest time scale. We show that due to EPR pair entanglement a measurement of one particle at the moment of time reversal breaks exact time reversal of another particle which demonstrates only an approximate time reversibility. This result is interpreted in the framework of the Schmidt decomposition and Feynman path integral formulation of quantum mechanics. The time reversal in this system has already been realized with cold atoms in kicked optical lattices in absence of entanglement and measurements. On the basis of the obtained results we argue that the experimental investigations of time reversal of chaotic EPR pairs is within reach of present cold atom capabilities.
翻訳日:2023-03-27 11:31:13 公開日:2021-06-06
# 長距離相互作用をもつ電子輸送問題に対する投影型還元順序法

A Projection-based Reduced-order Method for Electron Transport Problems with Long-range Interactions ( http://arxiv.org/abs/2106.03240v1 )

ライセンス: Link先を確認
Weiqi Chu and Xiantao Li(参考訳) 長距離相互作用は電子輸送において中心的な役割を果たす。 同時に彼らは、クーロンポテンシャルを正確に計算するために、浴槽の大部分を計算に含まなければならないので、直接計算機シミュレーションの課題を提示している。 本稿では, 縮密度行列に対する開量子モデルを導出することにより, 減階法を提案する。 過渡的ダイナミクスを扱うために、問題は低次フレームワークに置かれる。 リウヴィル・フォン・ノイマン方程式によって記述された力学はペトロフ・ゲーラーキン射影を用いて部分空間に射影される。 クーロンポテンシャルを計算するための手段としてのグローバル電子密度プロファイルを復元するため,計算領域は対数格子を用いて選択された浴のセグメントも含む領域分解手法を提案する。 このアプローチは、有効ハミルトニアンに入る多成分自己エネルギーをもたらす。 本研究では, リチウム鎖から構築した分子接合を用いて, 還元モデルの精度を示す。

Long-range interactions play a central role in electron transport. At the same time, they present a challenge for direct computer simulations, since sufficiently large portions of the bath have to be included in the computation to accurately compute the Coulomb potential. This article presents a reduced-order approach, by deriving an open quantum model for the reduced density-matrix. To treat the transient dynamics, the problem is placed in a reduced-order framework. The dynamics, described by the Liouville von Neumann equation, is projected to subspaces using a Petrov-Galerkin projection. In order to recover the global electron density profile as a vehicle to compute the Coulomb potential, we propose a domain decomposition approach, where the computational domain also includes segments of the bath that are selected using logarithmic grids. This approach leads to a multi-component self-energy that enters the effective Hamiltonian. We demonstrate the accuracy of the reduced model using a molecular junction built from a Lithium chains.
翻訳日:2023-03-27 11:30:56 公開日:2021-06-06
# QUBO問題の解法における平均場近似

Mean Field Approximation for solving QUBO problems ( http://arxiv.org/abs/2106.03238v1 )

ライセンス: Link先を確認
M\'at\'e Tibor Veszeli and G\'abor Vattay(参考訳) 擬似非拘束バイナリ最適化(QUBO)問題はNPが難しいため、今のところ効率よく解くアルゴリズムは存在しない。 より小さな問題に対する分岐・境界アルゴリズムのような厳密な方法があり、より大きな問題に対しては、離散変数に対する確率的シミュレートアニーリングや連続変数の平均場アニーリングのような多くの良い近似がある。 本稿では, 平均場焼鈍における統計物理学的アプローチと量子力学的アプローチが, 同じ結果をもたらすことを示す。 我々は,QUBO問題に代わる定式化であるIsing問題を検討した。 提案手法は連続変数を持つ単純な勾配に基づく最小化からなるため,シミュレーションが容易である。 我々はg集合による最大カット問題の解法をベンチマークした。 多くのグラフでは、最もよく知られたカット値が得られる。

The Quadratic Unconstrained Binary Optimization (QUBO) problems are NP hard; thus, so far, there are no algorithms to solve them efficiently. There are exact methods like the Branch-and-Bound algorithm for smaller problems, and for larger ones, many good approximations like stochastic simulated annealing for discrete variables or the mean field annealing for continuous variables. This paper will show that the statistical physics approach and the quantum mechanical approach in the mean field annealing give the same result. We examined the Ising problem, which is an alternative formulation of the QUBO problem. Our methods consist of a set of simple gradient-based minimizations with continuous variables, thus easy to simulate. We benchmarked our methods with solving the Maximum Cut problem with the G-sets. In many graphs, we could achieve the best-known Cut Value.
翻訳日:2023-03-27 11:30:44 公開日:2021-06-06
# Mucino-Okon-Sudarskyによる関係量子力学の評価

A response to the Mucino-Okon-Sudarsky's Assessment of Relational Quantum Mechanics ( http://arxiv.org/abs/2106.03205v1 )

ライセンス: Link先を確認
Carlo Rovelli(参考訳) mucino, okon, sudarskyによる最近の論文は、量子力学の関連解釈の評価を試みている。 この論文は、関係解釈において正確に疑問視される仮定を前提として、評価の価値を損なう。

A recent paper by Mucino, Okon and Sudarsky attempts an assessment of the Relational Interpretation of quantum mechanics. The paper presupposes assumptions that are precisely those questioned in the Relational Interpretation, thus undermining the value of the assessment.
翻訳日:2023-03-27 11:29:55 公開日:2021-06-06
# スパース分類器の学習:連続および混合整数最適化の視点

Learning Sparse Classifiers: Continuous and Mixed Integer Optimization Perspectives ( http://arxiv.org/abs/2001.06471v2 )

ライセンス: Link先を確認
Antoine Dedieu, Hussein Hazimeh, Rahul Mazumder(参考訳) スパース分類器を学習するための離散最適化の定式化について検討し、その結果は少数の特徴集合の線形結合に依存する。 最近の研究で、混合整数計画法(MIP)は、従来考えられていたよりもはるかに大きいスケールで(最適に)$\ell_0$-regularized回帰問題を解けることが示されている。 その有用性にもかかわらず、MIPベースのグローバル最適化アプローチは、非凸正規化問題に対する$\ell_1$-regularizationとヒューリスティックスの比較的成熟したアルゴリズムと比較して、大幅に遅い。 このギャップを計算時間で埋めるために,$\ell_0$-regularized 分類のための新しい MIP ベースのアルゴリズムを開発する。 数分で$p\approx 50,000$の機能を処理できる正確なアルゴリズムと、$p\approx 10^6$のインスタンスを高速な$\ell_1$のアルゴリズムに匹敵する速さで処理できる近似アルゴリズムの2つのクラスを提案する。 我々の正確なアルゴリズムは、少数のバイナリ変数を含む混合整数プログラムの列を通じて元の問題を($$p$のバイナリ変数で)解決する「textsl{integrality generation}」という新しいアイデアに基づいている。 近似アルゴリズムは座標降下と局所組合せ探索に基づいている。 さらに、$\ell_0$-regularized estimatorのクラスに対する新しい推定誤差境界を提案する。 実データおよび合成データを用いた実験により,本手法は競合手法と比較して,統計的性能(特に変数選択)が著しく向上したモデルに導かれることが示された。

We consider a discrete optimization formulation for learning sparse classifiers, where the outcome depends upon a linear combination of a small subset of features. Recent work has shown that mixed integer programming (MIP) can be used to solve (to optimality) $\ell_0$-regularized regression problems at scales much larger than what was conventionally considered possible. Despite their usefulness, MIP-based global optimization approaches are significantly slower compared to the relatively mature algorithms for $\ell_1$-regularization and heuristics for nonconvex regularized problems. We aim to bridge this gap in computation times by developing new MIP-based algorithms for $\ell_0$-regularized classification. We propose two classes of scalable algorithms: an exact algorithm that can handle $p\approx 50,000$ features in a few minutes, and approximate algorithms that can address instances with $p\approx 10^6$ in times comparable to the fast $\ell_1$-based algorithms. Our exact algorithm is based on the novel idea of \textsl{integrality generation}, which solves the original problem (with $p$ binary variables) via a sequence of mixed integer programs that involve a small number of binary variables. Our approximate algorithms are based on coordinate descent and local combinatorial search. In addition, we present new estimation error bounds for a class of $\ell_0$-regularized estimators. Experiments on real and synthetic data demonstrate that our approach leads to models with considerably improved statistical performance (especially, variable selection) when compared to competing methods.
翻訳日:2023-01-10 10:08:02 公開日:2021-06-06
# 潜在ブロックモデルの選択的推論

Selective Inference for Latent Block Models ( http://arxiv.org/abs/2005.13273v5 )

ライセンス: Link先を確認
Chihiro Watanabe, Taiji Suzuki(参考訳) 潜在ブロックモデルにおけるモデル選択は、統計学の分野では難しいが重要な課題である。 具体的には、特定のクラスタリングアルゴリズムを有限サイズ行列に適用することにより得られたブロック構造上のテストを構築する際に大きな課題が生じる。 この場合、ブロック構造における選択バイアス、すなわち、クラスタリングアルゴリズムによるいくつかの基準に基づいて、ブロック構造が全ての可能なクラスタメンバシップから選択されることを考えることが重要である。 この問題に対処するため,本研究では潜在ブロックモデルの選択的推論法を提案する。 具体的には,二乗剰余最小化アルゴリズムによって与えられる潜在ブロックモデルの行および列クラスタメンバシップのセット上での統計的テストを構築する。 提案するテストは、その性質上、行と列のクラスタ番号のセットのテストとして使用することも可能である。 また, 最適ブロック構造の探索において組合せ爆発を避けるため, シミュレート・アニーリングに基づく近似版を提案する。 その結果, 選択バイアスを考慮に入れない単純試験と比較して, 提案した精度および近似試験が効果的に動作することがわかった。

Model selection in latent block models has been a challenging but important task in the field of statistics. Specifically, a major challenge is encountered when constructing a test on a block structure obtained by applying a specific clustering algorithm to a finite size matrix. In this case, it becomes crucial to consider the selective bias in the block structure, that is, the block structure is selected from all the possible cluster memberships based on some criterion by the clustering algorithm. To cope with this problem, this study provides a selective inference method for latent block models. Specifically, we construct a statistical test on a set of row and column cluster memberships of a latent block model, which is given by a squared residue minimization algorithm. The proposed test, by its nature, includes and thus can also be used as the test on the set of row and column cluster numbers. We also propose an approximated version of the test based on simulated annealing to avoid combinatorial explosion in searching the optimal block structure. The results show that the proposed exact and approximated tests work effectively, compared to the naive test that did not take the selective bias into account.
翻訳日:2022-11-28 08:10:01 公開日:2021-06-06
# 凹凸とクナプサック設定における制約付きエピソード強化学習

Constrained episodic reinforcement learning in concave-convex and knapsack settings ( http://arxiv.org/abs/2006.05051v2 )

ライセンス: Link先を確認
Kiant\'e Brantley, Miroslav Dudik, Thodoris Lykouris, Sobhan Miryoosefi, Max Simchowitz, Aleksandrs Slivkins, Wen Sun(参考訳) 本稿では,制約付き表層強化学習のためのアルゴリズムを提案する。 我々は,コンケーブ報酬や凸制約のある設定,ハード制約のある設定(knapsacks)に対して,強い理論的保証を持つモジュラー解析を提供する。 制約付き強化学習におけるこれまでの作業のほとんどは線形制約に限られており、残りの作業は1回で実現可能な質問や設定に重点を置いている。 実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。

We propose an algorithm for tabular episodic reinforcement learning with constraints. We provide a modular analysis with strong theoretical guarantees for settings with concave rewards and convex constraints, and for settings with hard constraints (knapsacks). Most of the previous work in constrained reinforcement learning is limited to linear constraints, and the remaining work focuses on either the feasibility question or settings with a single episode. Our experiments demonstrate that the proposed algorithm significantly outperforms these approaches in existing constrained episodic environments.
翻訳日:2022-11-23 13:14:59 公開日:2021-06-06
# ディエンス対応による3次元メッシュ回帰

3D Human Mesh Regression with Dense Correspondence ( http://arxiv.org/abs/2006.05734v2 )

ライセンス: Link先を確認
Wang Zeng, Wanli Ouyang, Ping Luo, Wentao Liu, Xiaogang Wang(参考訳) 単一の2D画像から人体の3Dメッシュを推定することは、拡張現実や人間とロボットのインタラクションといった多くのアプリケーションにおいて重要なタスクである。 しかし、先行研究は、畳み込みニューラルネットワーク(CNN)を用いて抽出した大域的画像特徴から3Dメッシュを再構成し、メッシュ表面と画像画素との密接な対応が欠落し、最適下解をもたらす。 本稿では,3次元メッシュのテクスチャマッピングに使用される2次元空間であるUV空間におけるメッシュと局所像特徴との密接な対応性を明確にしたモデルフリーな3次元メッシュ推定フレームワークであるDecoMRを提案する。 DecoMRはまず、画像空間から紫外線空間へ局所的な特徴を伝達するピクセル間密度対応マップ(IUV画像)を予測する。 そして、転送されたローカル画像特徴をUV空間で処理して、転送された特徴に整合した位置マップを回帰する。 最後に,レグレッシブ・ロケーション・マップから予め定義されたマッピング機能を用いて3次元ヒューマン・メッシュを再構成する。 また,既存の不連続UVマップはネットワーク学習に不都合であることも確認した。 そこで本研究では,メッシュ表面上の隣接関係のほとんどを維持できる新しいuvマップを提案する。 実験により,提案する局所機能アライメントと連続uvマップが,複数の公開ベンチマークで既存の3dメッシュベースの手法を上回っていることを示す。 コードはhttps://github.com/zengwang430521/DecoMRで利用可能になる。

Estimating 3D mesh of the human body from a single 2D image is an important task with many applications such as augmented reality and Human-Robot interaction. However, prior works reconstructed 3D mesh from global image feature extracted by using convolutional neural network (CNN), where the dense correspondences between the mesh surface and the image pixels are missing, leading to suboptimal solution. This paper proposes a model-free 3D human mesh estimation framework, named DecoMR, which explicitly establishes the dense correspondence between the mesh and the local image features in the UV space (i.e. a 2D space used for texture mapping of 3D mesh). DecoMR first predicts pixel-to-surface dense correspondence map (i.e., IUV image), with which we transfer local features from the image space to the UV space. Then the transferred local image features are processed in the UV space to regress a location map, which is well aligned with transferred features. Finally we reconstruct 3D human mesh from the regressed location map with a predefined mapping function. We also observe that the existing discontinuous UV map are unfriendly to the learning of network. Therefore, we propose a novel UV map that maintains most of the neighboring relations on the original mesh surface. Experiments demonstrate that our proposed local feature alignment and continuous UV map outperforms existing 3D mesh based methods on multiple public benchmarks. Code will be made available at https://github.com/zengwang430521/DecoMR
翻訳日:2022-11-23 05:50:46 公開日:2021-06-06
# 不変および同変グラフニューラルネットワークの表現力

Expressive Power of Invariant and Equivariant Graph Neural Networks ( http://arxiv.org/abs/2006.15646v3 )

ライセンス: Link先を確認
Wa\"iss Azizian, Marc Lelarge(参考訳) グラフニューラルネットワーク(gnn)の様々なクラスが提案され、グラフ構造化データを用いた幅広いアプリケーションで成功していることが示されている。 本稿では,これらのGNNアーキテクチャの表現力を比較するための理論的枠組みを提案する。 現在の普遍性定理は、GNNの難解類にのみ適用される。 ここでは,実用的なGNNに対する最初の近似保証を証明し,それらの一般化をよりよく理解するための道を開く。 我々の理論的結果は,グラフ埋め込み(入力グラフのノードの置換は出力に影響を与えない)とノードの埋め込み(入力の置換は出力に影響を及ぼす)を演算する同変GNNに対して証明される。 行列乗算を付加したテンソルベースGNNであるFolklore Graph Neural Networks (FGNN) が, 与えられたテンソル次数に対して提案されている最も表現力のあるアーキテクチャであることを示す。 本稿では、FGNNが既存のアルゴリズム(スペクトル、SDP、その他のGNNアーキテクチャに基づく)よりもずっと優れた平均性能を実現することができることを示すことにより、擬似代入問題(NP-Hard組合せ問題)について述べる。 実用的側面として,様々な大きさのグラフのバッチを扱うためのマスクテンソルも実装している。

Various classes of Graph Neural Networks (GNN) have been proposed and shown to be successful in a wide range of applications with graph structured data. In this paper, we propose a theoretical framework able to compare the expressive power of these GNN architectures. The current universality theorems only apply to intractable classes of GNNs. Here, we prove the first approximation guarantees for practical GNNs, paving the way for a better understanding of their generalization. Our theoretical results are proved for invariant GNNs computing a graph embedding (permutation of the nodes of the input graph does not affect the output) and equivariant GNNs computing an embedding of the nodes (permutation of the input permutes the output). We show that Folklore Graph Neural Networks (FGNN), which are tensor based GNNs augmented with matrix multiplication are the most expressive architectures proposed so far for a given tensor order. We illustrate our results on the Quadratic Assignment Problem (a NP-Hard combinatorial problem) by showing that FGNNs are able to learn how to solve the problem, leading to much better average performances than existing algorithms (based on spectral, SDP or other GNNs architectures). On a practical side, we also implement masked tensors to handle batches of graphs of varying sizes.
翻訳日:2022-11-16 02:24:47 公開日:2021-06-06
# 発話中の舌運動の共通および主語特異的機能単位を同定するための深部関節スパース非負行列因子化フレームワーク

A Deep Joint Sparse Non-negative Matrix Factorization Framework for Identifying the Common and Subject-specific Functional Units of Tongue Motion During Speech ( http://arxiv.org/abs/2007.04865v2 )

ライセンス: Link先を確認
Jonghye Woo, Fangxu Xing, Jerry L. Prince, Maureen Stone, Arnold Gomez, Timothy G. Reese, Van J. Wedeen, Georges El Fakhri(参考訳) インテリジェント音声は、組織的および協調的な方法で生成される様々な内部の局所的な筋肉群、すなわち機能単位を作成することによって生成される。 機能ユニットのキャラクタリゼーションと分析には2つの大きな課題がある。 まず,舌の構造と機能の複雑で複雑な性質から,音声中の複雑な筋の協調パターンを正確にデコードする手法を開発することが重要である。 第二に、その実質的な変動性のために、被験者間で機能単位を特定することは困難である。 本研究では,これらの課題に対処するために,発話中の舌運動の共通的・主題特異的機能単位を識別する深層学習フレームワークを開発した。 tagged Magnetic Resonance Imaging による変位から得られる運動量を用いて,NMF (Joint Deep Graph-regularized sparse non- negative matrix factorization) を用いた。 具体的には,Sparse および Graph regularization を用いて NMF を,Iterative Shrinkage-Thresholding Algorithm の展開により,深いニューラルネットワークに似たモジュラーアーキテクチャに変換し,解釈可能なビルディングブロックと関連する重み付けマップを学習する。 次に、スペクトルクラスタリングを共通および主観的重み付けマップに適用し、共通および主観的機能単位を共同で決定する。 シミュレーションデータセットを用いて実験を行った結果,提案手法は比較法よりもクラスタリング性能が優れていることがわかった。 in vivoの舌運動データを用いて行った実験により, 提案手法は, 解釈性の向上, サイズ変動の低減とともに, 共通および対象特異的な機能単位を決定することができた。

Intelligible speech is produced by creating varying internal local muscle groupings -- i.e., functional units -- that are generated in a systematic and coordinated manner. There are two major challenges in characterizing and analyzing functional units.~First, due to the complex and convoluted nature of tongue structure and function, it is of great importance to develop a method that can accurately decode complex muscle coordination patterns during speech. Second, it is challenging to keep identified functional units across subjects comparable due to their substantial variability. In this work, to address these challenges, we develop a new deep learning framework to identify common and subject-specific functional units of tongue motion during speech.~Our framework hinges on joint deep graph-regularized sparse non-negative matrix factorization (NMF) using motion quantities derived from displacements by tagged Magnetic Resonance Imaging. More specifically, we transform NMF with sparse and graph regularizations into modular architectures akin to deep neural networks by means of unfolding the Iterative Shrinkage-Thresholding Algorithm to learn interpretable building blocks and associated weighting map. We then apply spectral clustering to common and subject-specific weighting maps from which we jointly determine the common and subject-specific functional units. Experiments carried out with simulated datasets show that the proposed method achieved on par or better clustering performance over the comparison methods. Experiments carried out with in vivo tongue motion data show that the proposed method can determine the common and subject-specific functional units with increased interpretability and decreased size variability.
翻訳日:2022-11-12 05:09:54 公開日:2021-06-06
# tinytl: 効率的なオンデバイス学習のためのトレーニングパラメータではなく、アクティベーションの削減

TinyTL: Reduce Activations, Not Trainable Parameters for Efficient On-Device Learning ( http://arxiv.org/abs/2007.11622v5 )

ライセンス: Link先を確認
Han Cai, Chuang Gan, Ligeng Zhu, Song Han(参考訳) デバイス上での学習により、エッジデバイスは、エッジデバイスの厳しいメモリ制約に適合するために、小さなメモリフットプリントを必要とする、AIモデルを新しいデータに継続的に適用することができる。 既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。 しかし、大きなボトルネックはアクティベーションであり、パラメータではないため、これはメモリセーブに直接変換しない。 本稿では,メモリ効率のよいオンデバイス学習のためのtinytl(tinytl)を提案する。 TinyTLは重みを凍結し、バイアスモジュールのみを学習するので、中間活性化を格納する必要はない。 適応能力を維持するため,メモリオーバーヘッドを3.8%加える小さな残像マップを学習して特徴抽出器を改良する,メモリ効率のよい新しい残像モジュールであるライト残像モジュールを導入する。 大規模な実験により、TinyTLは全ネットワークを微調整するよりも、メモリ(最大6.5倍)を大幅に節約できることがわかった。 最後のレイヤの微調整と比較すると、TinyTLはメモリオーバーヘッドが少なく、大幅な精度の改善(最大34.1%)を提供する。 さらに、機能抽出器の適応と組み合わせて、tinytlは7.3-12.9倍のメモリセーブを提供する。

On-device learning enables edge devices to continually adapt the AI models to new data, which requires a small memory footprint to fit the tight memory constraint of edge devices. Existing work solves this problem by reducing the number of trainable parameters. However, this doesn't directly translate to memory saving since the major bottleneck is the activations, not parameters. In this work, we present Tiny-Transfer-Learning (TinyTL) for memory-efficient on-device learning. TinyTL freezes the weights while only learns the bias modules, thus no need to store the intermediate activations. To maintain the adaptation capacity, we introduce a new memory-efficient bias module, the lite residual module, to refine the feature extractor by learning small residual feature maps adding only 3.8% memory overhead. Extensive experiments show that TinyTL significantly saves the memory (up to 6.5x) with little accuracy loss compared to fine-tuning the full network. Compared to fine-tuning the last layer, TinyTL provides significant accuracy improvements (up to 34.1%) with little memory overhead. Furthermore, combined with feature extractor adaptation, TinyTL provides 7.3-12.9x memory saving without sacrificing accuracy compared to fine-tuning the full Inception-V3.
翻訳日:2022-11-07 22:22:03 公開日:2021-06-06
# それぞれの部分: 地域パターンが地理的局所化を促進する

Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization ( http://arxiv.org/abs/2008.11646v3 )

ライセンス: Link先を確認
Tingyu Wang, Zhedong Zheng, Chenggang Yan, Jiyong Zhang, Yaoqi Sun, Bolun Zheng, and Yi Yang(参考訳) クロスビュージオローカライゼーション(クロスビュージオローカライゼーション)とは、異なるプラットフォーム、例えばドローンビューカメラや衛星から同じ地理的ターゲットの画像を見つけることである。 極端な視点の変化による大きな視覚的外見の変化は困難である。 既存の手法は通常、画像センタ内の地理的ターゲットの細かな特徴をマイニングすることに集中するが、隣接する地域の文脈情報を過小評価する。 本研究では,隣接領域を補助情報として活用し,地理的局所化のための識別的手がかりを豊かにすることを提案する。 具体的には,エンド・ツー・エンドでコンテキスト情報を活用するために,ローカルパターンネットワーク(lpn)と呼ばれる,シンプルで効果的なディープニューラルネットワークを導入する。 余分な部分推定器を使わずに、LPNは、画像中心への距離に応じて注意を与える正方形リング特徴分割戦略を採用する。 パートマッチングが簡単になり、パートワイドな表現学習が可能になる。 正方形リング分割設計のため、提案したLPNは回転変動に優れたスケーラビリティを有し、University-1652、CVUSA、CVACTの3つの主要なベンチマークで競合する結果が得られる。 さらに,提案するLPNを他のフレームワークに簡単に組み込むことで,パフォーマンスをさらに向上できることを示す。

Cross-view geo-localization is to spot images of the same geographic target from different platforms, e.g., drone-view cameras and satellites. It is challenging in the large visual appearance changes caused by extreme viewpoint variations. Existing methods usually concentrate on mining the fine-grained feature of the geographic target in the image center, but underestimate the contextual information in neighbor areas. In this work, we argue that neighbor areas can be leveraged as auxiliary information, enriching discriminative clues for geolocalization. Specifically, we introduce a simple and effective deep neural network, called Local Pattern Network (LPN), to take advantage of contextual information in an end-to-end manner. Without using extra part estimators, LPN adopts a square-ring feature partition strategy, which provides the attention according to the distance to the image center. It eases the part matching and enables the part-wise representation learning. Owing to the square-ring partition design, the proposed LPN has good scalability to rotation variations and achieves competitive results on three prevailing benchmarks, i.e., University-1652, CVUSA and CVACT. Besides, we also show the proposed LPN can be easily embedded into other frameworks to further boost performance.
翻訳日:2022-10-24 21:10:55 公開日:2021-06-06
# 人物再同定のための多重解像度特徴を持つハイブリッド注意誘導ネットワーク

Hybrid-Attention Guided Network with Multiple Resolution Features for Person Re-Identification ( http://arxiv.org/abs/2009.07536v2 )

ライセンス: Link先を確認
Guoqing Zhang, Junchuan Yang, Yuhui Zheng, Yi Wu, Shengyong Chen(参考訳) 効果的かつ判別的な特徴の抽出は、挑戦的な人物再識別(re-id)タスクに取り組む上で非常に重要である。 一般的な深層畳み込みニューラルネットワーク(CNN)は通常、歩行者を特定するために高レベルな特徴を使用する。 しかし,訓練段階におけるパディングやプール操作などにより,高レベルな特徴を学ぶ際に,形状やテクスチャ,色彩といった低レベルな特徴に存在する重要な空間情報は失われる。 また、既存のリID手法のほとんどは、画像が正確に整列された手作業バウンディングボックスに基づいている。 悪用されたオブジェクト検出アルゴリズムは、しばしば不正確なバウンディングボックスを生成するため、実用用途では非現実的である。 これは必然的に既存のアルゴリズムのパフォーマンスを低下させる。 これらの問題に対処するため,我々は,高次特徴学習に伴う情報損失を低減するために,高次・低次埋め込みを融合した新しい人物再IDモデルを提案する。 そして,複数の部分に分けて再接続し,グローバルな特徴とより重要な局所的な特徴を得ることにより,不正確な境界ボックスによる影響を軽減する。 また,本モデルでは,対象に関するより識別的な特徴をマイニングすることを目的とした,空間的およびチャネル的注意機構についても紹介する。 最後に,モデルがよりリッチでロバストな機能を得ることができるように,特徴抽出器を再構築する。 大規模な実験は、既存のアプローチと比較して、我々のアプローチの優位性を示している。 私たちのコードはhttps://github.com/libraflower/MutipleFeature-for-PRIDで利用可能です。

Extracting effective and discriminative features is very important for addressing the challenging person re-identification (re-ID) task. Prevailing deep convolutional neural networks (CNNs) usually use high-level features for identifying pedestrian. However, some essential spatial information resided in low-level features such as shape, texture and color will be lost when learning the high-level features, due to extensive padding and pooling operations in the training stage. In addition, most existing person re-ID methods are mainly based on hand-craft bounding boxes where images are precisely aligned. It is unrealistic in practical applications, since the exploited object detection algorithms often produce inaccurate bounding boxes. This will inevitably degrade the performance of existing algorithms. To address these problems, we put forward a novel person re-ID model that fuses high- and low-level embeddings to reduce the information loss caused in learning high-level features. Then we divide the fused embedding into several parts and reconnect them to obtain the global feature and more significant local features, so as to alleviate the affect caused by the inaccurate bounding boxes. In addition, we also introduce the spatial and channel attention mechanisms in our model, which aims to mine more discriminative features related to the target. Finally, we reconstruct the feature extractor to ensure that our model can obtain more richer and robust features. Extensive experiments display the superiority of our approach compared with existing approaches. Our code is available at https://github.com/libraflower/MutipleFeature-for-PRID.
翻訳日:2022-10-18 00:22:17 公開日:2021-06-06
# 蒸留1発混合学習

Distilled One-Shot Federated Learning ( http://arxiv.org/abs/2009.07999v3 )

ライセンス: Link先を確認
Yanlin Zhou, George Pu, Xiyao Ma, Xiaolin Li, Dapeng Wu(参考訳) 現在のフェデレーション学習アルゴリズムは、理想的な状況下で不利なモデル重みを送信し、データが分散しない数百の通信ラウンドを必要とする。 近年のデータセット蒸留と分散ワンショット学習に触発され,同等の性能を実現しつつ通信コストを大幅に削減するために,dosfl(single-shot federated learning)を提案する。 たった1ラウンドで、各クライアントはプライベートデータセットを蒸留し、合成データ(画像や文など)をサーバに送信し、総合的にグローバルモデルをトレーニングする。 蒸留されたデータはノイズのように見え、モデルの更新後に役に立たなくなる特定のモデル重みにのみ役立ちます。 この軽量で勾配のない設計により、dosflの通信コストはfedavgよりも最大で3桁小さくなり、一方、集中型通信システムの性能は93%から99%に抑えられている。 その後、クライアントはFedAvgのような従来のメソッドに切り替えて、最後の数パーセントを微調整して、パーソナライズされたローカルモデルをローカルデータセットに適合させることができる。 包括的な実験を通して,CNN,LSTM,Transformerなどの異なるモデルを用いた視覚・言語タスクにおけるDOSFLの精度と通信性能を示す。 盗難攻撃者は, 初期モデルの重みを知らずに, 流出した蒸留データを用いて適切なモデルを訓練できないことを示す。 DOSFLは、従来の手法の通信コストが0.1%未満のパフォーマンス事前訓練モデルに迅速に収束するための安価な方法である。

Current federated learning algorithms take tens of communication rounds transmitting unwieldy model weights under ideal circumstances and hundreds when data is poorly distributed. Inspired by recent work on dataset distillation and distributed one-shot learning, we propose Distilled One-Shot Federated Learning (DOSFL) to significantly reduce the communication cost while achieving comparable performance. In just one round, each client distills their private dataset, sends the synthetic data (e.g. images or sentences) to the server, and collectively trains a global model. The distilled data look like noise and are only useful to the specific model weights, i.e., become useless after the model updates. With this weight-less and gradient-less design, the total communication cost of DOSFL is up to three orders of magnitude less than FedAvg while preserving between 93% to 99% performance of a centralized counterpart. Afterwards, clients could switch to traditional methods such as FedAvg to finetune the last few percent to fit personalized local models with local datasets. Through comprehensive experiments, we show the accuracy and communication performance of DOSFL on both vision and language tasks with different models including CNN, LSTM, Transformer, etc. We demonstrate that an eavesdropping attacker cannot properly train a good model using the leaked distilled data, without knowing the initial model weights. DOSFL serves as an inexpensive method to quickly converge on a performant pre-trained model with less than 0.1% communication cost of traditional methods.
翻訳日:2022-10-17 07:58:11 公開日:2021-06-06
# No MCMC for me:Amortized sample for fast and stable training of energy-based models

No MCMC for me: Amortized sampling for fast and stable training of energy-based models ( http://arxiv.org/abs/2010.04230v3 )

ライセンス: Link先を確認
Will Grathwohl, Jacob Kelly, Milad Hashemi, Mohammad Norouzi, Kevin Swersky, David Duvenaud(参考訳) エネルギーベースモデル(EBM)は、不確実性を表す柔軟で魅力的な方法である。 近年の進歩にもかかわらず、最先端のアプローチはコストが高く不安定であり、うまく適用するにはかなりのチューニングとドメインの専門知識が必要であるため、高次元データに対するEMMの訓練は難しい問題である。 本稿では,ebm訓練で一般的に使用されるmcmcサンプリングを償却するために,エントロピー正規化生成器を用いたebmを大規模に訓練するための簡易な方法を提案する。 高速変動近似を用いたMCMCに基づくエントロピー正規化法の改良を行った。 提案手法は, 導出可能性モデルの訓練に利用することで, 有効性を示す。 次に、最近提案されたジョイント・エナジー・モデル(JEM)に推定器を適用し、元の性能と高速で安定したトレーニングとを一致させる。 これにより、さまざまな連続ドメインから表データ上の半教師付き分類にjemモデルを拡張できる。

Energy-Based Models (EBMs) present a flexible and appealing way to represent uncertainty. Despite recent advances, training EBMs on high-dimensional data remains a challenging problem as the state-of-the-art approaches are costly, unstable, and require considerable tuning and domain expertise to apply successfully. In this work, we present a simple method for training EBMs at scale which uses an entropy-regularized generator to amortize the MCMC sampling typically used in EBM training. We improve upon prior MCMC-based entropy regularization methods with a fast variational approximation. We demonstrate the effectiveness of our approach by using it to train tractable likelihood models. Next, we apply our estimator to the recently proposed Joint Energy Model (JEM), where we match the original performance with faster and stable training. This allows us to extend JEM models to semi-supervised classification on tabular data from a variety of continuous domains.
翻訳日:2022-10-09 11:21:26 公開日:2021-06-06
# エネルギーベース潜在変数モデルにおけるスコア関数の変分的(勾配)推定

Variational (Gradient) Estimate of the Score Function in Energy-based Latent Variable Models ( http://arxiv.org/abs/2010.08258v3 )

ライセンス: Link先を確認
Fan Bao, Kun Xu, Chongxuan Li, Lanqing Hong, Jun Zhu, Bo Zhang(参考訳) エネルギーに基づく潜在変数モデル(EBLVM)の学習と評価は、構造的仮定を含まないため、真の後続関数とそのようなモデルの分割関数は一般に難解である。 本稿では,VaES と VaGES と呼ばれる一般的な EBLVM のモデルパラメータに対するスコア関数とその勾配の変動推定について述べる。 変分後部は真のモデル後部への偏差を最小限に抑えるために訓練され、両推定の偏差は理論的に偏差によって境界づけられる。 最小限のモデル仮定で、VaESとVaGESは、EBLVMを学習するためのカーネル化されたSteindisrepancy(KSD)およびスコアマッチング(SM)ベースのメソッドに適用できる。 さらに、VaESはデータと一般的なEBLVM間の正確なフィッシャーの偏差を推定するためにも使用できる。

The learning and evaluation of energy-based latent variable models (EBLVMs) without any structural assumptions are highly challenging, because the true posteriors and the partition functions in such models are generally intractable. This paper presents variational estimates of the score function and its gradient with respect to the model parameters in a general EBLVM, referred to as VaES and VaGES respectively. The variational posterior is trained to minimize a certain divergence to the true model posterior and the bias in both estimates can be bounded by the divergence theoretically. With a minimal model assumption, VaES and VaGES can be applied to the kernelized Stein discrepancy (KSD) and score matching (SM)-based methods to learn EBLVMs. Besides, VaES can also be used to estimate the exact Fisher divergence between the data and general EBLVMs.
翻訳日:2022-10-06 20:21:59 公開日:2021-06-06
# グラフ・コンボリューション・トラストの隣人? 単純な因果推論法

Should Graph Convolution Trust Neighbors? A Simple Causal Inference Method ( http://arxiv.org/abs/2010.11797v2 )

ライセンス: Link先を確認
Fuli Feng, Weiran Huang, Xiangnan He, Xin Xin, Qifan Wang, Tat-Seng Chua(参考訳) グラフ畳み込みネットワーク(GCN)は情報検索(IR)アプリケーションのための新興技術である。 GCNはグラフのホモフィリーの性質を仮定するが、実世界のグラフは完璧ではない。 これにより、GCNモデリングにおける局所構造の不一致を考慮せざるを得ない。 既存の作業では、グラフアテンションなどの追加モジュールを導入することでこの問題に対処している。 しかし、そのようなモジュールは、特にラベル付きデータが小さい場合など、監視信号がない場合は、期待通りに動作しない。 さらに、既存の手法では、トレーニングデータのノードのモデリングに重点を置いており、テストノードのローカル構造の不一致を考慮することは決してない。 本研究は,ノードテストにおける局所構造不一致の問題に焦点をあてる。 因果関係の新たな観点から,GCNはそのラベルを予測する際に,テストノードの局所構造を信頼すべきかどうかを検討する。 そこで本研究では,gcnの動作機構を因果グラフで解析し,予測のためのノードの局所構造の因果効果を推定する。 訓練されたgcnモデルが与えられたら、まずグラフ構造をブロックして予測を介入し、その後、元の予測と介入された予測を比較して、局所構造の予測に対する因果効果を評価する。 これにより,局所構造の不一致の影響を解消し,より正確な予測を行うことができる。 7つのノード分類データセットに対する大規模な実験により,本手法はGCNの推論段階を効果的に向上させることが示された。

Graph Convolutional Network (GCN) is an emerging technique for information retrieval (IR) applications. While GCN assumes the homophily property of a graph, real-world graphs are never perfect: the local structure of a node may contain discrepancy, e.g., the labels of a node's neighbors could vary. This pushes us to consider the discrepancy of local structure in GCN modeling. Existing work approaches this issue by introducing an additional module such as graph attention, which is expected to learn the contribution of each neighbor. However, such module may not work reliably as expected, especially when there lacks supervision signal, e.g., when the labeled data is small. Moreover, existing methods focus on modeling the nodes in the training data, and never consider the local structure discrepancy of testing nodes. This work focuses on the local structure discrepancy issue for testing nodes, which has received little scrutiny. From a novel perspective of causality, we investigate whether a GCN should trust the local structure of a testing node when predicting its label. To this end, we analyze the working mechanism of GCN with causal graph, estimating the causal effect of a node's local structure for the prediction. The idea is simple yet effective: given a trained GCN model, we first intervene the prediction by blocking the graph structure; we then compare the original prediction with the intervened prediction to assess the causal effect of the local structure on the prediction. Through this way, we can eliminate the impact of local structure discrepancy and make more accurate prediction. Extensive experiments on seven node classification datasets show that our method effectively enhances the inference stage of GCN.
翻訳日:2022-10-04 05:39:30 公開日:2021-06-06
# 差別化可能なオープンエンドコモンセンス推論

Differentiable Open-Ended Commonsense Reasoning ( http://arxiv.org/abs/2010.14439v2 )

ライセンス: Link先を確認
Bill Yuchen Lin, Haitian Sun, Bhuwan Dhingra, Manzil Zaheer, Xiang Ren, William W. Cohen(参考訳) 現在のコモンセンス推論研究は、複数の質問に答えるためにコモンセンス知識を使用するモデルの開発に焦点を当てている。 しかし、複数の質問に答えるために設計されたシステムは、選択すべき候補の小さなリストを提供していないアプリケーションでは役に立たないかもしれない。 コモンセンス推論研究をより現実的なものにするためのステップとして,自然言語で書かれたコモンセンス事実のコーパスのみを用いて,open-ended commonsense reasoning (opencsr) を提案する。 OpenCSRは、大きな意思決定スペースと多くの質問が暗黙のマルチホップ推論を必要とするため、難しい。 OpenCSRへのアプローチとして、知識ファクトに対するマルチホップ推論のための効率的な微分可能なモデルDrFactを提案する。 OpenCSRの手法を評価するために、いくつかの一般的なコモンセンス推論ベンチマークを適用し、クラウドソーシングを通じて各テスト問題に対する複数の新しい回答を収集する。 実験により、ドルファクトは強いベースラインメソッドを大きなマージンで上回っていることが示されている。

Current commonsense reasoning research focuses on developing models that use commonsense knowledge to answer multiple-choice questions. However, systems designed to answer multiple-choice questions may not be useful in applications that do not provide a small list of candidate answers to choose from. As a step towards making commonsense reasoning research more realistic, we propose to study open-ended commonsense reasoning (OpenCSR) -- the task of answering a commonsense question without any pre-defined choices -- using as a resource only a corpus of commonsense facts written in natural language. OpenCSR is challenging due to a large decision space, and because many questions require implicit multi-hop reasoning. As an approach to OpenCSR, we propose DrFact, an efficient Differentiable model for multi-hop Reasoning over knowledge Facts. To evaluate OpenCSR methods, we adapt several popular commonsense reasoning benchmarks, and collect multiple new answers for each test question via crowd-sourcing. Experiments show that DrFact outperforms strong baseline methods by a large margin.
翻訳日:2022-10-03 11:52:11 公開日:2021-06-06
# 単一ニューロンを用いたディープニューラルネットワーク:フィードバック変調遅延ループを用いたフォールドインタイムアーキテクチャ

Deep Neural Networks using a Single Neuron: Folded-in-Time Architecture using Feedback-Modulated Delay Loops ( http://arxiv.org/abs/2011.10115v2 )

ライセンス: Link先を確認
Florian Stelzer (1, 2 and 4), Andr\'e R\"ohm (3), Raul Vicente (4), Ingo Fischer (3), Serhiy Yanchuk (1) ((1) Institute of Mathematics, Technische Universit\"at Berlin, Germany, (2) Department of Mathematics, Humboldt-Universit\"at zu Berlin, Germany, (3) Instituto de F\'isica Interdisciplinar y Sistemas Complejos, IFISC (UIB-CSIC), Spain, (4) Institute of Computer Science, University of Tartu, Estonia)(参考訳) ディープニューラルネットワークは、幅広いタスクにおいて優れたパフォーマンスを示す最も広く使われている機械学習ツールの一つである。 本稿では,任意の大きさの深層ニューラルネットワークを,複数の時間遅延フィードバックループを持つ単一ニューロンに折り畳む手法を提案する。 この単一神経深層ニューラルネットワークは、単一の非線形性のみと、フィードバック信号の適切に調整された変調とからなる。 ネットワーク状態は、ニューロンのダイナミクスの時間的展開として時間内に現れる。 ループ内のフィードバック変調を調整することで、ネットワークの接続重みに適応する。 これらの接続重みは、遅延によるネットワーク接続とローカルネットワーク接続の両方を考慮したバックプロパゲーションアルゴリズムによって決定される。 我々のアプローチは、標準のディープニューラルネットワーク(DNN)を完全に表現し、スパースDNNを包含し、動的システムの実装に向けてDNNの概念を拡張します。 Folded-in-time DNN(Fit-DNN)と呼ばれる新しい手法は、ベンチマークタスクのセットで有望な性能を示す。

Deep neural networks are among the most widely applied machine learning tools showing outstanding performance in a broad range of tasks. We present a method for folding a deep neural network of arbitrary size into a single neuron with multiple time-delayed feedback loops. This single-neuron deep neural network comprises only a single nonlinearity and appropriately adjusted modulations of the feedback signals. The network states emerge in time as a temporal unfolding of the neuron's dynamics. By adjusting the feedback-modulation within the loops, we adapt the network's connection weights. These connection weights are determined via a back-propagation algorithm, where both the delay-induced and local network connections must be taken into account. Our approach can fully represent standard Deep Neural Networks (DNN), encompasses sparse DNNs, and extends the DNN concept toward dynamical systems implementations. The new method, which we call Folded-in-time DNN (Fit-DNN), exhibits promising performance in a set of benchmark tasks.
翻訳日:2022-09-23 20:14:27 公開日:2021-06-06
# 直列区間の登録:地上真理の歪みに基づく評価法

Registration of serial sections: An evaluation method based on distortions of the ground truths ( http://arxiv.org/abs/2011.11060v2 )

ライセンス: Link先を確認
Oleg Lobachev, Takuya Funatomi, Alexander Pfaffenroth, Reinhold F\"orster, Lars Knudsen, Christoph Wrede, Michael Guthe, David Haberth\"ur, Ruslan Hlushchuk, Thomas Salaets, Jaan Toelen, Simone Gaffling, Christian M\"uhlfeld, Roman Grothausmann(参考訳) 組織学的シリアルセクションの登録は難しい課題である。 シリアルセクションは、断面の歪みと損傷を示す。 切断前に組織がどのように見えるかを見逃すことで、2D登録の現実的な検証は非常に困難になる。 本研究は, 地盤構造に基づく登録評価手法を提案する。 まず,登録のためのテストデータを生成する手法を提案する。 連続断面の切削歪に類似した方法で,固有に登録された画像スタックを歪ませる。 テストケースは、既存の3dデータセットから生成されるため、基礎的な真実が知られている。 第二に, 既知の真理を持つ登録について, テスト事例生成の前提評価を行う。 このような評価手法の方法論は他の手法と区別する。 過剰登録と過剰登録の両方が我々の評価で明らかになる。 既存の検証の取り組みについても調査する。 動物肺の歪んだ3Dデータセットに適用した6種類の登録方法のフルシリーズ評価を行った。 我々の歪んだ真実のデータセットは公開されています。

Registration of histological serial sections is a challenging task. Serial sections exhibit distortions and damage from sectioning. Missing information on how the tissue looked before cutting makes a realistic validation of 2D registrations extremely difficult. This work proposes methods for ground-truth-based evaluation of registrations. Firstly, we present a methodology to generate test data for registrations. We distort an innately registered image stack in the manner similar to the cutting distortion of serial sections. Test cases are generated from existing 3D data sets, thus the ground truth is known. Secondly, our test case generation premises evaluation of the registrations with known ground truths. Our methodology for such an evaluation technique distinguishes this work from other approaches. Both under- and over-registration become evident in our evaluations. We also survey existing validation efforts. We present a full-series evaluation across six different registration methods applied to our distorted 3D data sets of animal lungs. Our distorted and ground truth data sets are made publicly available.
翻訳日:2022-09-22 12:10:48 公開日:2021-06-06
# (参考訳) 言語学習の理論

A Theory of Language Learning ( http://arxiv.org/abs/2106.14612v1 )

ライセンス: CC BY 4.0
Robert Worden(参考訳) 特徴構造(スクリプト)とスクリプト関数のベイズ的帰納法を用いた言語学習の理論について述べる。 言語における各単語感覚は、単語のすべての構文と意味を具現化したm-scriptによって精神的に表現される。 M-scriptは、アダルト言語をサポートすることができる完全に語彙化された統一文法を形成する。 それぞれの単語 m-script は、およそ6つの学習例からしっかりと学習することができる。 この理論はゼロ語彙から言語をブートストラップ学習できるコンピュータモデルとして実装されている。 ベイズ学習機構は,(1)任意に複雑な意味や構文構造を学習する能力,(2)素早い:いくつかの例からこれらの構造を学習する能力,(3)ロバスト:無関係な雑音の存在下での学習,(4)自己修復:暗黙的な否定的証拠を習得し,例外を学習する能力である。 子どもの学習言語は明らかに(1)-(4)であり、接続論は(1)と(2)で失敗し、記号論は(3)と(4)で失敗している。 この理論は他の理論に問題のある事実を含む多くの言語習得の重要な事実とよく一致している。 ほぼすべてのケースにおいて、余分な仮定なしで強制的合意を与える場合において、語彙、句構造、形態、補足と制御、助詞、動詞の引数構造、ギャップ、ムーブメントの獲得に関する100以上の重要な言語横断的発見と比較される。

A theory of language learning is described, which uses Bayesian induction of feature structures (scripts) and script functions. Each word sense in a language is mentally represented by an m-script, a script function which embodies all the syntax and semantics of the word. M-scripts form a fully-lexicalised unification grammar, which can support adult language. Each word m-script can be learnt robustly from about six learning examples. The theory has been implemented as a computer model, which can bootstrap-learn a language from zero vocabulary. The Bayesian learning mechanism is (1) Capable: to learn arbitrarily complex meanings and syntactic structures; (2) Fast: learning these structures from a few examples each; (3) Robust: learning in the presence of much irrelevant noise, and (4) Self-repairing: able to acquire implicit negative evidence, using it to learn exceptions. Children learning language are clearly all of (1) - (4), whereas connectionist theories fail on (1) and (2), and symbolic theories fail on (3) and (4). The theory is in good agreement with many key facts of language acquisition, including facts which are problematic for other theories. It is compared with over 100 key cross-linguistic findings about acquisition of the lexicon, phrase structure, morphology, complementation and control, auxiliaries, verb argument structures, gaps and movement - in nearly all cases giving unforced agreement without extra assumptions.
翻訳日:2021-07-05 00:37:34 公開日:2021-06-06
# (参考訳) モバイルデバイス上での高速かつ正確なマルチパーソンポース推定に向けて

Towards Fast and Accurate Multi-Person Pose Estimation on Mobile Devices ( http://arxiv.org/abs/2106.15304v1 )

ライセンス: CC BY 4.0
Xuan Shen, Geng Yuan, Wei Niu, Xiaolong Ma, Jiexiong Guan, Zhengang Li, Bin Ren and Yanzhi Wang(参考訳) 自律運転、異常行動検出、行動認識の急速な発展により、多人数のポーズ推定に基づくアプリケーション、特にモバイルプラットフォームへの需要が高まっている。 しかし、高い精度を達成するために、最先端の手法は大きなモデルサイズと複雑な後処理アルゴリズムを持つ傾向があり、高い計算と長いエンドツーエンドのレイテンシがかかる。 そこで本研究では,モバイルデバイス上での多人数ポーズ推定を高速化するアーキテクチャ最適化と重み付けフレームワークを提案する。 最適化フレームワークにより、代表的軽量多人数ポーズ推定器に比べて精度の高いモデル推論速度を最大2.51倍に向上する。

The rapid development of autonomous driving, abnormal behavior detection, and behavior recognition makes an increasing demand for multi-person pose estimation-based applications, especially on mobile platforms. However, to achieve high accuracy, state-of-the-art methods tend to have a large model size and complex post-processing algorithm, which costs intense computation and long end-to-end latency. To solve this problem, we propose an architecture optimization and weight pruning framework to accelerate inference of multi-person pose estimation on mobile devices. With our optimization framework, we achieve up to 2.51x faster model inference speed with higher accuracy compared to representative lightweight multi-person pose estimator.
翻訳日:2021-07-05 00:36:09 公開日:2021-06-06
# 人-コンピュータインタラクションによる対話型多段階音声言語理解システム

An Adversarial Learning based Multi-Step Spoken Language Understanding System through Human-Computer Interaction ( http://arxiv.org/abs/2106.14611v1 )

ライセンス: Link先を確認
Yu Wang, Yilin Shen, Hongxia Jin(参考訳) 既存の音声言語理解システムの多くは、単一ラウンドのユーザクエリに基づいてセマンティックフレーム解析のみを実行することができる。 ユーザとのマルチラウンドインタラクションを通じて、スロット値の更新/追加/削除にユーザのフィードバックを取ることはできない。 本稿では,マルチラウンドユーザのフィードバックを利用してスロット値の更新を行う,逆学習に基づく新しい多段階音声言語理解システムを提案する。 ベンチマークatisデータセットで2つの実験を行い、新しいシステムは1ラウンドのフィードバックだけで、f1の観点で少なくとも$2.5\%$でパース性能を向上させることができることを実証した。 フィードバックのラウンド数が増加すると、改善はさらに大きくなる。 さらに,本システムと最先端の対話状態追跡システムを比較し,スロットレベルと文レベルの精度で多言語言語理解タスクにおいて,対話型システムがより優れていることを示す。

Most of the existing spoken language understanding systems can perform only semantic frame parsing based on a single-round user query. They cannot take users' feedback to update/add/remove slot values through multiround interactions with users. In this paper, we introduce a novel multi-step spoken language understanding system based on adversarial learning that can leverage the multiround user's feedback to update slot values. We perform two experiments on the benchmark ATIS dataset and demonstrate that the new system can improve parsing performance by at least $2.5\%$ in terms of F1, with only one round of feedback. The improvement becomes even larger when the number of feedback rounds increases. Furthermore, we also compare the new system with state-of-the-art dialogue state tracking systems and demonstrate that the new interactive system can perform better on multiround spoken language understanding tasks in terms of slot- and sentence-level accuracy.
翻訳日:2021-07-04 19:38:46 公開日:2021-06-06
# 知識グラフを用いたテンプレートとMLによるユーザ可読テキスト生成の評価

An evaluation of template and ML-based generation of user-readable text from a knowledge graph ( http://arxiv.org/abs/2106.14613v1 )

ライセンス: Link先を確認
Zola Mahlaza and C. Maria Keet and Jarryd Dunn and Matthew Poulter(参考訳) 知識グラフの典型的なユーザフレンドリーなレンダリングは、可視化と自然言語テキストである。 後者のHCIソリューションアプローチでは、データ駆動自然言語生成システムは注目度が高まるが、コンテンツドロップや幻覚、反復といったエラーに悩まされているため、テンプレートベースのシステムでは性能が向上することが多い。 いずれの誤りが、テキストを対象とする人間による低品質判断と有意な関連があるのかは不明であり、人間の評価改善への影響に基づいてエラーに対処することを妨げる。 提案手法は,人文テキスト,テンプレート生成テキスト,シーケンス・ツー・シーケンス・モデル生成テキストについて,専門家とクラウドソースによる評価を併用した実験と関係性を検討した。 その結果,人文の誤りと人文の自然性・質判断の低さとの間に有意な関連性は認められなかった。 また, 切り落されたスロットや幻覚付きスロットを持つ機械学習生成テキストと, 自然性や品質の低い人間の判断との間に有意な相関は認められなかった。 したがって、どちらのアプローチも知識グラフの自然言語インタフェースを設計するための選択肢となる。

Typical user-friendly renderings of knowledge graphs are visualisations and natural language text. Within the latter HCI solution approach, data-driven natural language generation systems receive increased attention, but they are often outperformed by template-based systems due to suffering from errors such as content dropping, hallucination, or repetition. It is unknown which of those errors are associated significantly with low quality judgements by humans who the text is aimed for, which hampers addressing errors based on their impact on improving human evaluations. We assessed their possible association with an experiment availing of expert and crowdsourced evaluations of human authored text, template generated text, and sequence-to-sequence model generated text. The results showed that there was no significant association between human authored texts with errors and the low human judgements of naturalness and quality. There was also no significant association between machine learning generated texts with dropped or hallucinated slots and the low human judgements of naturalness and quality. Thus, both approaches appear to be viable options for designing a natural language interface for knowledge graphs.
翻訳日:2021-07-04 19:38:33 公開日:2021-06-06
# DNNからGANへ:ディープラーニングのための効率的なハードウェアアーキテクチャのレビュー

From DNNs to GANs: Review of efficient hardware architectures for deep learning ( http://arxiv.org/abs/2107.00092v1 )

ライセンス: Link先を確認
Gaurab Bhattacharya(参考訳) 近年、超大規模集積(VLSI)産業のトレンドは多次元的であり、例えば、エネルギー消費の削減、少ない空間の占有率、正確な結果、消費電力の減少、応答の高速化などである。 これらのニーズを満たすため、ハードウェアアーキテクチャはこれらの問題に対して信頼性と堅牢性を持つべきである。 近年, ニューラルネットワークとディープラーニングが, 数百万の順序のパラメータ, 活性化のための非線形関数, 特徴抽出のための畳み込み操作, 分類のための回帰, 生成的敵ネットワークからなる研究パラダイムに大きく影響し始めている。 これらの操作には膨大な計算とメモリオーバーヘッドが伴う。 現在利用可能なDSPプロセッサはこれらの操作を実行できないため、主にメモリオーバーヘッド、性能低下、精度の低下といった問題に直面している。 さらに、巨大なシリコン領域が並列計算を用いて動作を加速するために電力を供給された場合、ICは相当な熱発生のために燃え尽きる可能性が高い。 したがって、新しいダークシリコン制約が開発され、精度を犠牲にすることなく放熱を減らすことができる。 同様に、異なるアルゴリズムが、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサの設計に適合している。 本稿では,性能を向上したディープラーニングネットワークの効率的な実装を高速化するハードウェアの開発について述べる。 本稿では,高性能計算のためのハードウェア最適化に関する今後の研究課題について述べる。

In recent times, the trend in very large scale integration (VLSI) industry is multi-dimensional, for example, reduction of energy consumption, occupancy of less space, precise result, less power dissipation, faster response. To meet these needs, the hardware architecture should be reliable and robust to these problems. Recently, neural network and deep learning has been started to impact the present research paradigm significantly which consists of parameters in the order of millions, nonlinear function for activation, convolutional operation for feature extraction, regression for classification, generative adversarial networks. These operations involve huge calculation and memory overhead. Presently available DSP processors are incapable of performing these operations and they mostly face the problems, for example, memory overhead, performance drop and compromised accuracy. Moreover, if a huge silicon area is powered to accelerate the operation using parallel computation, the ICs will be having significant chance of burning out due to the considerable generation of heat. Hence, novel dark silicon constraint is developed to reduce the heat dissipation without sacrificing the accuracy. Similarly, different algorithms have been adapted to design a DSP processor compatible for fast performance in neural network, activation function, convolutional neural network and generative adversarial network. In this review, we illustrate the recent developments in hardware for accelerating the efficient implementation of deep learning networks with enhanced performance. The techniques investigated in this review are expected to direct future research challenges of hardware optimization for high-performance computations.
翻訳日:2021-07-04 19:36:14 公開日:2021-06-06
# 訓練された機械学習モデルに対するほぼ最適アルゴリズム

A Near-Optimal Algorithm for Debiasing Trained Machine Learning Models ( http://arxiv.org/abs/2106.12887v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin and Mario Lucic(参考訳) 我々は、深層ニューラルネットワーク(DNN)を含む訓練されたモデルのバイアス軽減のためのスケーラブルな後処理アルゴリズムを提案する。 我々は、古典的アルゴリズムと現代のDNNアーキテクチャの両方にわたる標準ベンチマークデータセットにおけるその利点を実証的に検証し、従来の後処理手法よりも優れた性能を示しながら、インプロセッシングと同等の性能を発揮した。 さらに,提案アルゴリズムは,ポストプロセッシングが自然かつ実用的な選択肢である大規模モデルにおいて,特に有効であることを示す。

We present a scalable post-processing algorithm for debiasing trained models, including deep neural networks (DNNs), which we prove to be near-optimal by bounding its excess Bayes risk. We empirically validate its advantages on standard benchmark datasets across both classical algorithms as well as modern DNN architectures and demonstrate that it outperforms previous post-processing methods while performing on par with in-processing. In addition, we show that the proposed algorithm is particularly effective for models trained at scale where post-processing is a natural and practical choice.
翻訳日:2021-06-27 09:03:37 公開日:2021-06-06
# (参考訳) 自己障害型コントラスト学習

Self-Damaging Contrastive Learning ( http://arxiv.org/abs/2106.02990v1 )

ライセンス: CC BY 4.0
Ziyu Jiang, Tianlong Chen, Bobak Mortazavi, Zhangyang Wang(参考訳) 対照的な学習によって達成された最近のブレークスルーは、教師なしトレーニングを現実世界のデータアプリケーションに展開するペースを加速させる。 しかし、実際のラベル付きデータは一般に不均衡であり、長い尾の分布を示しており、最新のコントラスト学習手法が現実的なシナリオでどの程度頑健であるかは明らかでない。 本稿では,自傷的コントラスト学習(self-damaging contrastive learning, sdclr)と呼ばれる原則フレームワークを用いて,クラスを知らずに表現学習を自動的にバランスさせる手法を提案する。 我々の主なインスピレーションは、ディープモデルがサンプルを記憶し難いこと、そしてそれらがネットワークプルーニングによって露呈されることを最近の発見から得ている。 さらに、ロングテールサンプルは、不十分な例のためにモデルがうまく学習するのは難しいと仮定するのも自然である。 したがって、SDCLRの重要な革新は、ターゲットモデルとは対照的に、動的自己競合モデルを作ることである。 トレーニング中、2つのモデルを対比することで、現在のターゲットモデルにとって最も簡単に忘れられるサンプルのオンラインマイニングが適応され、対照的な損失が暗黙的に強調される。 複数のデータセットにわたる大規模な実験と不均衡設定により、SDCLRは全体的な精度だけでなく、フルショット設定と少数ショット設定の線形評価においても、バランス性も大幅に向上することが示された。 私たちのコードは、https://github.com/VITA-Group/SDCLR.comで利用可能です。

The recent breakthrough achieved by contrastive learning accelerates the pace for deploying unsupervised training on real-world data applications. However, unlabeled data in reality is commonly imbalanced and shows a long-tail distribution, and it is unclear how robustly the latest contrastive learning methods could perform in the practical scenario. This paper proposes to explicitly tackle this challenge, via a principled framework called Self-Damaging Contrastive Learning (SDCLR), to automatically balance the representation learning without knowing the classes. Our main inspiration is drawn from the recent finding that deep models have difficult-to-memorize samples, and those may be exposed through network pruning. It is further natural to hypothesize that long-tail samples are also tougher for the model to learn well due to insufficient examples. Hence, the key innovation in SDCLR is to create a dynamic self-competitor model to contrast with the target model, which is a pruned version of the latter. During training, contrasting the two models will lead to adaptive online mining of the most easily forgotten samples for the current target model, and implicitly emphasize them more in the contrastive loss. Extensive experiments across multiple datasets and imbalance settings show that SDCLR significantly improves not only overall accuracies but also balancedness, in terms of linear evaluation on the full-shot and few-shot settings. Our code is available at: https://github.com/VITA-Group/SDCLR.
翻訳日:2021-06-13 23:32:52 公開日:2021-06-06
# (参考訳) ニューラルネットワークの因果的抽象化

Causal Abstractions of Neural Networks ( http://arxiv.org/abs/2106.02997v1 )

ライセンス: CC BY 4.0
Atticus Geiger, Hanson Lu, Thomas Icard, Christopher Potts(参考訳) 構造分析手法(例えば、探索と特徴帰属)は、ニューラルネットワーク分析にとってますます重要なツールである。 本稿では,モデル-内部表現とその入出力行動における役割のリッチなキャラクタリゼーションを提供する, \textit{causal abstraction} の形式理論に基づく新しい構造解析手法を提案する。 この方法では、ニューラル表現は解釈可能な因果モデルにおける変数と整列し、その後、ニューラル表現がそれらの整列した変数の因果特性を持つかどうかを実験的に検証する。 本手法を,木構造自然論理因果モデルを用いて構築した高度に複雑なnliデータセットであるmqnli(multiply quantified natural language inference)コーパスで学習したニューラルネットワークの解析に応用する。 本研究では,最先端性能を持つBERTモデルにおいて,自然論理因果モデルの近似因果構造の実現に成功しているのに対し,より単純なベースラインモデルではそのような構造を示さず,ニューラル表現がMQNLIの例の構成構造を符号化していることを示す。

Structural analysis methods (e.g., probing and feature attribution) are increasingly important tools for neural network analysis. We propose a new structural analysis method grounded in a formal theory of \textit{causal abstraction} that provides rich characterizations of model-internal representations and their roles in input/output behavior. In this method, neural representations are aligned with variables in interpretable causal models, and then \textit{interchange interventions} are used to experimentally verify that the neural representations have the causal properties of their aligned variables. We apply this method in a case study to analyze neural models trained on Multiply Quantified Natural Language Inference (MQNLI) corpus, a highly complex NLI dataset that was constructed with a tree-structured natural logic causal model. We discover that a BERT-based model with state-of-the-art performance successfully realizes the approximate causal structure of the natural logic causal model, whereas a simpler baseline model fails to show any such structure, demonstrating that neural representations encode the compositional structure of MQNLI examples.
翻訳日:2021-06-13 23:10:02 公開日:2021-06-06
# (参考訳) Wristband Sensorsとコンテキスト特徴を用いた高齢者の機械学習による不安検出

Machine Learning Based Anxiety Detection in Older Adults using Wristband Sensors and Context Feature ( http://arxiv.org/abs/2106.03019v1 )

ライセンス: CC BY 4.0
Rajdeep Kumar Nath and Himanshu Thapliyal(参考訳) 本稿では,高齢者の脳波活動 (eda) やフォトプレチスモグラム (ppg) などの簡易なリストバンドセンサを用いた新しい不安検出法と文脈に基づく特徴について検討する。 提案手法は,単一生理的信号の特徴と実験的な文脈に基づく特徴を組み合わせることで,不安検出モデルの性能を向上させる。 本研究のための実験データは,tsst(trier social stress test)プロトコルにおける平均年齢73.36+-5.25の60~80歳帯の健常高齢者41名(女性26名,男性15名)を対象とした1年間の実験から得られた。 不安レベル基底の真理は、意識的不安を測定するための金の基準とされる国家不安指数(STAI)から得られた。 EDAと血液量パルス(BVP)の信号はそれぞれ手首のEDAとPSGセンサーを用いて記録された。 47の特徴をeda信号とbvp信号から算出し,その分析結果から24個の特徴が有意な相関関係を示した。 実験のフェーズは、文脈特徴ベクトルを生成するためにユニークな整数として符号化される。 単一センサとコンテキスト特徴ベクトルからの特徴の組み合わせは、不安状態と不安でない状態の区別のために機械学習モデルをトレーニングするために使用される。 結果と分析の結果、文脈特徴と生理的特徴を組み合わせたEDAとBVPの機械学習モデルは、生理的特徴のみを使用したモデルよりもそれぞれ3.37%と6.41%高い精度を示した。 さらに,EDAおよびBVP信号のエンドツーエンド処理をリアルタイムな不安レベル検出のためにシミュレーションした。 本研究は,低価格家電を用いた高齢者の不安の長期モニタリングを容易にするための不安検出手法の実用性を示す。

This paper explores a novel method for anxiety detection in older adults using simple wristband sensors such as Electrodermal Activity (EDA) and Photoplethysmogram (PPG) and a context-based feature. The proposed method for anxiety detection combines features from a single physiological signal with an experimental context-based feature to improve the performance of the anxiety detection model. The experimental data for this work is obtained from a year-long experiment on 41 healthy older adults (26 females and 15 males) in the age range 60-80 with mean age 73.36+-5.25 during a Trier Social Stress Test (TSST) protocol. The anxiety level ground truth was obtained from State-Trait Anxiety Inventory (STAI), which is regarded as the gold standard to measure perceived anxiety. EDA and Blood Volume Pulse (BVP) signals were recorded using a wrist-worn EDA and PPG sensor respectively. 47 features were computed from EDA and BVP signal, out of which a final set of 24 significantly correlated features were selected for analysis. The phases of the experimental study are encoded as unique integers to generate the context feature vector. A combination of features from a single sensor with the context feature vector is used for training a machine learning model to distinguish between anxious and not-anxious states. Results and analysis showed that the EDA and BVP machine learning models that combined the context feature along with the physiological features achieved 3.37% and 6.41% higher accuracy respectively than the models that used only physiological features. Further, end-to-end processing of EDA and BVP signals was simulated for real-time anxiety level detection. This work demonstrates the practicality of the proposed anxiety detection method in facilitating long-term monitoring of anxiety in older adults using low-cost consumer devices.
翻訳日:2021-06-13 22:35:42 公開日:2021-06-06
# (参考訳) SADRNet:ロバスト3次元高密度顔アライメントと再構成のための自己調整デュアル顔レグレッションネットワーク

SADRNet: Self-Aligned Dual Face Regression Networks for Robust 3D Dense Face Alignment and Reconstruction ( http://arxiv.org/abs/2106.03021v1 )

ライセンス: CC BY 4.0
Zeyu Ruan, Changqing Zou, Longhai Wu, Gangshan Wu, Limin Wang(参考訳) 野生の3次元顔の濃密なアライメントと再構成は、オクルード画像や大きなポーズ画像では部分的な顔情報が欠落しているため、難しい問題である。 大頭のポーズの変化も解空間を増加させ、モデリングを難しくする。 私たちのキーとなるアイデアは、オクルージョンをモデル化し、この困難なタスクを比較的管理しやすいいくつかのサブタスクに分解するポーズを取ることです。 そこで本研究では,姿勢依存の顔,ポーズ非依存顔を予測する自己整合型デュアルフェイスレグレッションネットワーク(sadrnet)と呼ばれるエンドツーエンドフレームワークを提案する。 それらは咬合認識自己調整によって結合され、最終的な3d顔を生成する。 AFLW2000-3D と Florence の2つのベンチマークにおいて,提案手法が既存の最先端手法よりも優れた性能を発揮することを示す。

Three-dimensional face dense alignment and reconstruction in the wild is a challenging problem as partial facial information is commonly missing in occluded and large pose face images. Large head pose variations also increase the solution space and make the modeling more difficult. Our key idea is to model occlusion and pose to decompose this challenging task into several relatively more manageable subtasks. To this end, we propose an end-to-end framework, termed as Self-aligned Dual face Regression Network (SADRNet), which predicts a pose-dependent face, a pose-independent face. They are combined by an occlusion-aware self-alignment to generate the final 3D face. Extensive experiments on two popular benchmarks, AFLW2000-3D and Florence, demonstrate that the proposed method achieves significant superior performance over existing state-of-the-art methods.
翻訳日:2021-06-13 22:19:12 公開日:2021-06-06
# (参考訳) コレントロピー誘導損失を用いた深部粒子状物質予測モデル

Deep Particulate Matter Forecasting Model Using Correntropy-Induced Loss ( http://arxiv.org/abs/2106.03032v1 )

ライセンス: CC BY-SA 4.0
Jongsu Kim and Changhoon Lee(参考訳) 韓国における粒子状物質(PM)濃度の予測は、人命に強い負の影響を与えるため、緊急に必要となっている。 ほとんどの統計学や機械学習では、ガウス分布のような独立分布と同一分布のデータが仮定されるが、大気汚染や気象データのような時系列はこの仮定を満たさない。 本研究では,大気汚染と気象データの統計的特性の解析において,回帰損失の最大コレントロピー基準(MCCR)を用いた。 大気汚染と気象データの厳密な季節調整は,その複雑な季節性パターンと,季節変動後のデータ分布の重み付けにより行った。 MCCR損失は、従来の統計モデルや最先端機械学習モデルを含む複数のモデルに適用された。 その結果,MCCR損失は従来の平均2乗誤差損失よりも極値予測に適していることがわかった。

Forecasting the particulate matter (PM) concentration in South Korea has become urgently necessary owing to its strong negative impact on human life. In most statistical or machine learning methods, independent and identically distributed data, for example, a Gaussian distribution, are assumed; however, time series such as air pollution and weather data do not meet this assumption. In this study, the maximum correntropy criterion for regression (MCCR) loss is used in an analysis of the statistical characteristics of air pollution and weather data. Rigorous seasonality adjustment of the air pollution and weather data was performed because of their complex seasonality patterns and the heavy-tailed distribution of data even after deseasonalization. The MCCR loss was applied to multiple models including conventional statistical models and state-of-the-art machine learning models. The results show that the MCCR loss is more appropriate than the conventional mean squared error loss for forecasting extreme values.
翻訳日:2021-06-13 21:55:20 公開日:2021-06-06
# (参考訳) 4次元光場からの奥行きの教師なし学習

Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields ( http://arxiv.org/abs/2106.03043v1 )

ライセンス: CC BY 4.0
Jing Jin and Junhui Hou(参考訳) 深さ推定は4次元光場処理と解析の基本的な問題である。 最近の教師付き学習ベース光深度推定法は,従来の最適化ベース光の精度と効率を大幅に向上させたが,実世界の光深度データの取得や入手が困難な地表面深度マップを用いた光深度データのトレーニングに頼っている。 さらに、実世界のデータと合成データの間に必然的なギャップ(ドメイン差)があるため、合成データで訓練されたモデルを実世界のデータに一般化する際に、深刻なパフォーマンス劣化に悩まされる可能性がある。 そこで本研究では,教師なしの学習ベース手法を提案する。 具体的には,光界データの特異な幾何学構造に関する基礎知識に基づいて,光界ビューのサブセット間の角的コヒーレンスを探索し,初期深度マップを推定し,制約のない損失を利用して最終深度予測の信頼性を学習するオクルージョン・アウェア戦略を提案する。 さらに, テクスチャレス領域を扱うために, 重み付き平滑性損失を有するマルチスケールネットワークを採用する。 合成データを用いた実験結果から,提案手法は従来の教師なし手法と教師なし手法との性能ギャップを著しく縮小し,計算コストを低減した従来の手法と同等の精度で深度マップを作成できることがわかった。 さらに,実世界のデータセットを用いた実験により,教師付き手法におけるドメインシフト問題を回避することができ,本手法の大きな可能性を示す。

Depth estimation is a fundamental issue in 4-D light field processing and analysis. Although recent supervised learning-based light field depth estimation methods have significantly improved the accuracy and efficiency of traditional optimization-based ones, these methods rely on the training over light field data with ground-truth depth maps which are challenging to obtain or even unavailable for real-world light field data. Besides, due to the inevitable gap (or domain difference) between real-world and synthetic data, they may suffer from serious performance degradation when generalizing the models trained with synthetic data to real-world data. By contrast, we propose an unsupervised learning-based method, which does not require ground-truth depth as supervision during training. Specifically, based on the basic knowledge of the unique geometry structure of light field data, we present an occlusion-aware strategy to improve the accuracy on occlusion areas, in which we explore the angular coherence among subsets of the light field views to estimate initial depth maps, and utilize a constrained unsupervised loss to learn their corresponding reliability for final depth prediction. Additionally, we adopt a multi-scale network with a weighted smoothness loss to handle the textureless areas. Experimental results on synthetic data show that our method can significantly shrink the performance gap between the previous unsupervised method and supervised ones, and produce depth maps with comparable accuracy to traditional methods with obviously reduced computational cost. Moreover, experiments on real-world datasets show that our method can avoid the domain shift problem presented in supervised methods, demonstrating the great potential of our method.
翻訳日:2021-06-13 21:31:30 公開日:2021-06-06
# (参考訳) 資金はどうやって得たの? 科学的成果の自動同定

How Did This Get Funded?! Automatically Identifying Quirky Scientific Achievements ( http://arxiv.org/abs/2106.03048v1 )

ライセンス: CC BY-SA 4.0
Chen Shani, Nadav Borenstein, Dafna Shahaf(参考訳) 覚醒は重要な社会現象であり、複雑な社会的・心理的機能に寄与する。 しかし、ミレニアムのユーモアについて研究されているにもかかわらず、計算的にはあまり理解されておらず、しばしばAI完全問題と見なされる。 本研究では,ユーモアマイニングにおいて,面白い科学論文を自動的に検出する新しい設定を提案する。 igノーベル賞(イグノーベル賞、英: ig nobel prize)は、科学的な功績を称えるために毎年授与される風刺賞である。 この課題には、特に自動学習に適したユニークな特徴がある。 我々は、何千もの面白い論文を含むデータセットを構築し、それを分類器の学習に利用し、心理学と言語学の知見と最近のNLPの進歩を組み合わせた。 当社のモデルは,63万以上の記事からなる大規模なデータセットで,潜在的に面白い論文を特定するために使用しています。 その結果,本手法の可能性を実証し,より広範に従来の分野からの洞察と最先端のNLP手法を統合することの有用性を示した。

Humor is an important social phenomenon, serving complex social and psychological functions. However, despite being studied for millennia humor is computationally not well understood, often considered an AI-complete problem. In this work, we introduce a novel setting in humor mining: automatically detecting funny and unusual scientific papers. We are inspired by the Ig Nobel prize, a satirical prize awarded annually to celebrate funny scientific achievements (example past winner: "Are cows more likely to lie down the longer they stand?"). This challenging task has unique characteristics that make it particularly suitable for automatic learning. We construct a dataset containing thousands of funny papers and use it to learn classifiers, combining findings from psychology and linguistics with recent advances in NLP. We use our models to identify potentially funny papers in a large dataset of over 630,000 articles. The results demonstrate the potential of our methods, and more broadly the utility of integrating state-of-the-art NLP methods with insights from more traditional disciplines.
翻訳日:2021-06-13 21:12:09 公開日:2021-06-06
# (参考訳) 超解像空間学習のための騒音条件流れモデル

Noise Conditional Flow Model for Learning the Super-Resolution Space ( http://arxiv.org/abs/2106.04428v1 )

ライセンス: CC BY 4.0
Younggeun Kim, Donghee Son(参考訳) 多くの高分解能画像から低分解能画像を得ることができるため、基本的に超解像は不適切な問題である。 近年の超解像研究では、様々な超解像画像が作成できない。 SRFlowは、低解像度画像の複数の高解像度画像を予測することで、超高解像度の誤った性質を説明しようとしたが、多様性と視覚的品質を改善する余地がある。 本稿では,超解像のためのノイズ条件フローモデルであるncsrを提案する。 より多様なデータ分布を学習するために、トレーニングデータにノイズを加えます。 しかし、低画質の画像はノイズの増加によって生じる。 この現象を克服するための雑音条件層を提案する。 ノイズ条件層により、我々のモデルは、他の作品よりも視覚的品質の高い、より多様な画像を生成する。 さらに,この層は,フローモデルの正規化時に発生するデータ分散ミスマッチを克服できることを示した。 これらの利点により、NCSRは多様性と視覚的品質のベースラインを上回り、従来のGANモデルよりも優れた視覚的品質を達成する。 また、ntire 2021 challengeのスコアを上回っています。

Fundamentally, super-resolution is ill-posed problem because a low-resolution image can be obtained from many high-resolution images. Recent studies for super-resolution cannot create diverse super-resolution images. Although SRFlow tried to account for ill-posed nature of the super-resolution by predicting multiple high-resolution images given a low-resolution image, there is room to improve the diversity and visual quality. In this paper, we propose Noise Conditional flow model for Super-Resolution, NCSR, which increases the visual quality and diversity of images through noise conditional layer. To learn more diverse data distribution, we add noise to training data. However, low-quality images are resulted from adding noise. We propose the noise conditional layer to overcome this phenomenon. The noise conditional layer makes our model generate more diverse images with higher visual quality than other works. Furthermore, we show that this layer can overcome data distribution mismatch, a problem that arises in normalizing flow models. With these benefits, NCSR outperforms baseline in diversity and visual quality and achieves better visual quality than traditional GAN-based models. We also get outperformed scores at NTIRE 2021 challenge.
翻訳日:2021-06-13 20:56:27 公開日:2021-06-06
# (参考訳) トレーニングサンプル記憶:大規模競争によるベンチマーク生成モデルからの教訓

On Training Sample Memorization: Lessons from Benchmarking Generative Modeling with a Large-scale Competition ( http://arxiv.org/abs/2106.03062v1 )

ライセンス: CC BY 4.0
Ching-Yuan Bai, Hsuan-Tien Lin, Colin Raffel, and Wendy Chih-wen Kan(参考訳) 自然画像の生成モデルに関する最近の多くの研究は、真の分布から小さなサンプルを記憶したり、モデルを直接訓練することで容易にゲーム化できる、ヒューリスティックな動機付けのメトリクスに依存している。 本研究では,生成的モデリングコンペティタの設計と展開を通じて,これらのメトリクスのゲーム性を評価する。 コンペには1万1000以上の応募モデルが集まった。 参加者間の競争力は,生成モデルにおける意図的記憶と意図的記憶の両方を調査することができた。 意図的な暗記を検出するため,新たな暗記基準および設計ベンチマーク手法として,'Memorization-Informed Fr\'echet Inception Distance'' (MiFID) を提案する。 さらに、1000のトップパフォーマンスモデルのコードを手作業で検査し、異なる記憶形態を理解しラベル付けする。 解析の結果,意図しない記憶は一般的な生成モデルでは深刻な問題であることがわかった。 これらのモデルの生成したイメージと記憶ラベル、およびmifidを計算するコードのリリースにより、ベンチマーク生成モデルの将来の研究が容易になる。

Many recent developments on generative models for natural images have relied on heuristically-motivated metrics that can be easily gamed by memorizing a small sample from the true distribution or training a model directly to improve the metric. In this work, we critically evaluate the gameability of these metrics by designing and deploying a generative modeling competition. Our competition received over 11000 submitted models. The competitiveness between participants allowed us to investigate both intentional and unintentional memorization in generative modeling. To detect intentional memorization, we propose the ``Memorization-Informed Fr\'echet Inception Distance'' (MiFID) as a new memorization-aware metric and design benchmark procedures to ensure that winning submissions made genuine improvements in perceptual quality. Furthermore, we manually inspect the code for the 1000 top-performing models to understand and label different forms of memorization. Our analysis reveals that unintentional memorization is a serious and common issue in popular generative models. The generated images and our memorization labels of those models as well as code to compute MiFID are released to facilitate future studies on benchmarking generative models.
翻訳日:2021-06-13 20:46:14 公開日:2021-06-06
# (参考訳) セマンティクスエンハンスド説明可能なオープンドメイン対話の微調整

Semantic-Enhanced Explainable Finetuning for Open-Domain Dialogues ( http://arxiv.org/abs/2106.03065v1 )

ライセンス: CC BY 4.0
Chen Henry Wu, Yinhe Zheng, Yida Wang, Zhenyu Yang, Minlie Huang(参考訳) 本稿では,事前学習された言語モデルとモジュール型対話パラダイムを組み合わせたオープンドメイン対話モデルを提案する。 本手法は,言語モデルの微調整タスクとして,会話理解,計画,応答生成をインスタンス化する。 推論において、各モジュールのサンプリングメソッドと制約を別々に指定することで、意味とトークンのバリエーションを分離する。 トレーニングと評価のために,感情,DA,話題語の自動アノテーションを備えた中国語マルチターンオープンドメイン対話データセットであるX-Weiboを提案する。 実験により、セマンティックエンハンスされた微調整は、非セマンティクスおよびセマンティクスメトリクスの強いベースラインを上回り、人間評価の妥当性、コヒーレンス、インフォメーション性を改善し、セマンティクス変数よりも相当な制御可能性を示すことが示されている。

In this paper, we propose to combine pretrained language models with the modular dialogue paradigm for open-domain dialogue modeling. Our method, semantic-enhanced finetuning, instantiates conversation understanding, planning, and response generation as a language model finetuning task. At inference, we disentangle semantic and token variations by specifying sampling methods and constraints for each module separately. For training and evaluation, we present X-Weibo, a Chinese multi-turn open-domain dialogue dataset with automatic annotation for emotions, DAs, and topical words. Experiments show that semantic-enhanced finetuning outperforms strong baselines on non-semantic and semantic metrics, improves the human-evaluated relevance, coherence, and informativeness, and exhibits considerable controllability over semantic variables.
翻訳日:2021-06-13 20:32:07 公開日:2021-06-06
# (参考訳) バイリンガル語彙誘導のための静的単語埋め込みと文脈表現の組み合わせ

Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction ( http://arxiv.org/abs/2106.03084v1 )

ライセンス: CC BY 4.0
Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin Shi, Weihua Luo(参考訳) バイリンガル語彙誘導(BLI)は、ある言語の単語を別の言語の単語にマッピングすることを目的としており、典型的には単言語的な単語表現空間を整列させるために線形射影を学習する。 単語表現は静的な単語埋め込みと文脈表現の2つのクラスがBLIのために研究されているが、両方を組み合わせる研究は行われていない。 本稿では,静的な単語埋め込みと文脈表現を組み合わせることで,両方のパラダイムの利点を活用できる,シンプルで効果的なメカニズムを提案する。 教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で組み合わせのメカニズムをテストする。 実験により,教師付き設定の3.2点,教師なし設定の3.1点を平均的に改善することにより,すべての言語ペアにおけるロバストbliベースラインのパフォーマンスを一貫して改善することを示した。

Bilingual Lexicon Induction (BLI) aims to map words in one language to their translations in another, and are typically through learning linear projections to align monolingual word representation spaces. Two classes of word representations have been explored for BLI: static word embeddings and contextual representations, but there is no studies to combine both. In this paper, we propose a simple yet effective mechanism to combine the static word embeddings and the contextual representations to utilize the advantages of both paradigms. We test the combination mechanism on various language pairs under the supervised and unsupervised BLI benchmark settings. Experiments show that our mechanism consistently improves performances over robust BLI baselines on all language pairs by averagely improving 3.2 points in the supervised setting, and 3.1 points in the unsupervised setting.
翻訳日:2021-06-13 20:00:42 公開日:2021-06-06
# (参考訳) 空間パターンを持つ単一画像からのニューラルインプシット3次元形状

Neural Implicit 3D Shapes from Single Images with Spatial Patterns ( http://arxiv.org/abs/2106.03087v1 )

ライセンス: CC BY 4.0
Yixin Zhuang and Yunzhe Liu and Baoquan Chen(参考訳) 単一画像からの3次元形状復元はコンピュータビジョンにおいて長年の課題となっている。 この問題は、画像キャプチャ中に起きた情報損失と閉塞のため、不適切かつ極めて困難である。 従来の全体的形状事前学習法とは対照的に,暗黙的な形状表現における各3dサンプルは,手作りの3dマッピングによって生成された点の集合と,その局所的な画像特徴とを関連付けた空間的パターン事前学習法を提案する。 提案する空間パターンはより有益であり,可視領域と遮蔽領域の両方に特有な記述がある。 最も重要なことは、我々の研究の鍵となるのは、形状をまたいだ空間パターンのユビキタス性であり、それによって、下層の物体の見えない部分を推論し、閉塞問題を大いに軽減することができる。 本研究では,空間パターン表現を統合したニューラルネットワークを考案し,提案手法の優位性を示す。

3D shape reconstruction from a single image has been a long-standing problem in computer vision. The problem is ill-posed and highly challenging due to the information loss and occlusion that occurred during the imagery capture. In contrast to previous methods that learn holistic shape priors, we propose a method to learn spatial pattern priors for inferring the invisible regions of the underlying shape, wherein each 3D sample in the implicit shape representation is associated with a set of points generated by hand-crafted 3D mappings, along with their local image features. The proposed spatial pattern is significantly more informative and has distinctive descriptions on both visible and occluded locations. Most importantly, the key to our work is the ubiquitousness of the spatial patterns across shapes, which enables reasoning invisible parts of the underlying objects and thus greatly mitigates the occlusion issue. We devise a neural network that integrates spatial pattern representations and demonstrate the superiority of the proposed method on widely used metrics.
翻訳日:2021-06-13 19:46:29 公開日:2021-06-06
# (参考訳) ディープマッチング事前: ディエンス対応のためのテスト時間最適化

Deep Matching Prior: Test-Time Optimization for Dense Correspondence ( http://arxiv.org/abs/2106.03090v1 )

ライセンス: CC BY 4.0
Sunghwan Hong, Seungryong Kim(参考訳) 視覚的または意味的に類似したイメージにまたがる密接な対応を確立する従来の手法は、モデル化が難しいタスク固有のマッチングを事前に設計することに焦点を当てていた。 これを克服するために、近年の学習ベース手法では、大規模トレーニングデータに基づいてモデル自体の事前マッチングを学習しようと試みている。 パフォーマンスの改善は明らかだったが、十分なトレーニングデータと集中学習の必要性は、その適用性を妨げている。 さらに、テスト時に固定モデルを使用することは、一対のイメージが独自の事前を必要とする可能性があるという事実を考慮しないため、パフォーマンスが制限され、未確認画像への一般化が不十分である。 本稿では,入力された画像に対して,未学習のマッチングネットワークのみを最適化することで,画像ペア固有のプリエントをキャプチャできることを示す。 密接な対応のためのテストタイム最適化のために調整された、残差マッチングネットワークと信頼度対応コントラスト損失を提示し、有意義な収束を保証する。 実験によると、我々のフレームワークはdeep matching prior(dmp)と呼ばれ、大きなトレーニングデータや集中学習を必要としないにもかかわらず、幾何マッチングやセマンティクスマッチングのベンチマークで最新の学習ベースの手法と競合している。 ネットワークの事前トレーニングにより、DMPはすべてのベンチマークで最先端のパフォーマンスを達成する。

Conventional techniques to establish dense correspondences across visually or semantically similar images focused on designing a task-specific matching prior, which is difficult to model. To overcome this, recent learning-based methods have attempted to learn a good matching prior within a model itself on large training data. The performance improvement was apparent, but the need for sufficient training data and intensive learning hinders their applicability. Moreover, using the fixed model at test time does not account for the fact that a pair of images may require their own prior, thus providing limited performance and poor generalization to unseen images. In this paper, we show that an image pair-specific prior can be captured by solely optimizing the untrained matching networks on an input pair of images. Tailored for such test-time optimization for dense correspondence, we present a residual matching network and a confidence-aware contrastive loss to guarantee a meaningful convergence. Experiments demonstrate that our framework, dubbed Deep Matching Prior (DMP), is competitive, or even outperforms, against the latest learning-based methods on several benchmarks for geometric matching and semantic matching, even though it requires neither large training data nor intensive learning. With the networks pre-trained, DMP attains state-of-the-art performance on all benchmarks.
翻訳日:2021-06-13 19:34:18 公開日:2021-06-06
# (参考訳) 連合学習における非真の自己知識蒸留によるグローバル知識の保存

Preservation of the Global Knowledge by Not-True Self Knowledge Distillation in Federated Learning ( http://arxiv.org/abs/2106.03097v1 )

ライセンス: CC BY 4.0
Gihun Lee, Yongjin Shin, Minchan Jeong, Se-Young Yun(参考訳) フェデレーション学習(fl)では、クライアントのローカルトレーニングされたモデルを集約することで、強力なグローバルモデルが協調的に学習される。 これにより、クライアントのデータに直接アクセスする必要がないが、グローバルモデルの収束はしばしばデータの不均一性に苦しむ。 本論文は, 忘れがグローバル収束のボトルネックとなる可能性を示唆する。 偏りのある局所分布への適合は、グローバル分布の特徴をシフトさせ、グローバルな知識を忘れることになる。 我々は,この現象を連続学習の類推とみなし,新たなタスク分布に合わせると破滅的な忘れ目が生じる。 この結果から, 局所訓練における忘れを解くことは, データの不均一性の問題に頼っていると仮定した。 そこで本研究では,ローカルデータに対するグローバルな知識を活用した,シンプルで効果的なフェデレーションローカル自己蒸留(FedLSD)を提案する。 ローカルデータに対するグローバルな視点に従うことで、federsdは学習した機能をグローバル知識の保存と、ローカルモデル間の一貫性のあるビューを持つことを奨励し、データのプライバシを損なうことなく収束性を改善する。 我々は、FedLSDをFedLS-NTDに拡張し、非真のクラス信号のみを考慮し、グローバルモデルのノイズ予測を補う。 我々は,FedLSDとFedLS-NTDの両者が,様々な設定において標準FLベンチマークの性能を著しく向上することを確認した。

In Federated Learning (FL), a strong global model is collaboratively learned by aggregating the clients' locally trained models. Although this allows no need to access clients' data directly, the global model's convergence often suffers from data heterogeneity. This paper suggests that forgetting could be the bottleneck of global convergence. We observe that fitting on biased local distribution shifts the feature on global distribution and results in forgetting of global knowledge. We consider this phenomenon as an analogy to Continual Learning, which also faces catastrophic forgetting when fitted on the new task distribution. Based on our findings, we hypothesize that tackling down the forgetting in local training relives the data heterogeneity problem. To this end, we propose a simple yet effective framework Federated Local Self-Distillation (FedLSD), which utilizes the global knowledge on locally available data. By following the global perspective on local data, FedLSD encourages the learned features to preserve global knowledge and have consistent views across local models, thus improving convergence without compromising data privacy. Under our framework, we further extend FedLSD to FedLS-NTD, which only considers the not-true class signals to compensate noisy prediction of the global model. We validate that both FedLSD and FedLS-NTD significantly improve the performance in standard FL benchmarks in various setups, especially in the extreme data heterogeneity cases.
翻訳日:2021-06-13 19:14:11 公開日:2021-06-06
# (参考訳) マルチニューロン緩和に基づく対向ロバスト性認証のプライマー

A Primer on Multi-Neuron Relaxation-based Adversarial Robustness Certification ( http://arxiv.org/abs/2106.03099v1 )

ライセンス: CC BY 4.0
Kevin Roth(参考訳) 深層ニューラルネットワークが現実世界に展開されるとき、敵の例の存在は真の危険をもたらす。 この脆弱性を定量化するゴート戦略は、特定の攻撃アルゴリズムに対してモデルを評価することだ。 しかし、このアプローチは本質的に限定的であり、評価に含まれないより強力な攻撃に対するモデルの堅牢性についてはほとんど言及していない。 本研究では,緩和に基づくロバスト性評価手法を統一的な数学的枠組みで記述し,敵に固有のロバスト性評価を超越し,敵の攻撃に対して証明可能なロバスト性保証を提供する。 単一ニューロン緩和による基本的限界について論じ,Singhらの最近の「k-ReLU」多ニューロン緩和フレームワークについて述べる。 (2019) ニューロン群間の関係性制約を利用して、より緊密な相関認識アクティベーション境界を得る。 具体的には,アクティベーション前のバウンダリを対応するポストアクティベーションバウンダリにマップする方法と,より強固なロバスト性証明書を取得するためにそれらを使用する方法を示す。 また,様々なリラクゼーションベースの認証方法を直感的に可視化する手法を提案する。 複数の非線形性を別々に近似することにより、k-ReLU法は単一ニューロンの緩和によって引き起こされる凸障壁をバイパスすることができる。

The existence of adversarial examples poses a real danger when deep neural networks are deployed in the real world. The go-to strategy to quantify this vulnerability is to evaluate the model against specific attack algorithms. This approach is however inherently limited, as it says little about the robustness of the model against more powerful attacks not included in the evaluation. We develop a unified mathematical framework to describe relaxation-based robustness certification methods, which go beyond adversary-specific robustness evaluation and instead provide provable robustness guarantees against attacks by any adversary. We discuss the fundamental limitations posed by single-neuron relaxations and show how the recent ``k-ReLU'' multi-neuron relaxation framework of Singh et al. (2019) obtains tighter correlation-aware activation bounds by leveraging additional relational constraints among groups of neurons. Specifically, we show how additional pre-activation bounds can be mapped to corresponding post-activation bounds and how they can in turn be used to obtain tighter robustness certificates. We also present an intuitive way to visualize different relaxation-based certification methods. By approximating multiple non-linearities jointly instead of separately, the k-ReLU method is able to bypass the convex barrier imposed by single neuron relaxations.
翻訳日:2021-06-13 18:22:41 公開日:2021-06-06
# (参考訳) マルチタスク学習によるマルチラベルテキスト分類におけるラベル相関フィードバックの強化

Enhancing Label Correlation Feedback in Multi-Label Text Classification via Multi-Task Learning ( http://arxiv.org/abs/2106.03103v1 )

ライセンス: CC BY 4.0
Ximing Zhang, Qian-Wen Zhang, Zhao Yan, Ruifang Liu and Yunbo Cao(参考訳) multi-label text classification (mltc)では、各ドキュメントは関連するラベルのセットに関連付けられる。 ラベル相関をキャプチャするため、従来の分類器チェーンおよびシーケンスツーシーケンスモデルはmltcをシーケンス予測タスクに変換する。 しかし、ラベル順序依存性、ラベルの組み合わせによる過剰フィッティング、エラー伝播の問題に苦しむ傾向がある。 これらの問題に対処するために,マルチタスク学習によるラベル相関フィードバック向上のための新しいアプローチを提案する。 まず,共同埋め込み(JE)機構を用いてテキストとラベルの表現を同時に取得する。 MLTCタスクでは、より識別性の高い文書表現を生成するために文書ラベル横断注意(CA)機構を採用する。 さらに,ラベル相関学習を支援する補助ラベル共起予測タスクとして,1)ペアワイズラベル共起予測(plcp),2)条件ラベル共起予測(clcp)を提案する。 AAPDとRCV1-V2データセットの実験結果から,本手法は競争ベースラインよりも大きなマージンで優れていた。 ラベル相関学習における低周波ラベル性能,ラベル依存性,ラベル組合せの多様性,カバー速度を解析し,提案手法の有効性を示す。

In multi-label text classification (MLTC), each given document is associated with a set of correlated labels. To capture label correlations, previous classifier-chain and sequence-to-sequence models transform MLTC to a sequence prediction task. However, they tend to suffer from label order dependency, label combination over-fitting and error propagation problems. To address these problems, we introduce a novel approach with multi-task learning to enhance label correlation feedback. We first utilize a joint embedding (JE) mechanism to obtain the text and label representation simultaneously. In MLTC task, a document-label cross attention (CA) mechanism is adopted to generate a more discriminative document representation. Furthermore, we propose two auxiliary label co-occurrence prediction tasks to enhance label correlation learning: 1) Pairwise Label Co-occurrence Prediction (PLCP), and 2) Conditional Label Co-occurrence Prediction (CLCP). Experimental results on AAPD and RCV1-V2 datasets show that our method outperforms competitive baselines by a large margin. We analyze low-frequency label performance, label dependency, label combination diversity and coverage speed to show the effectiveness of our proposed method on label correlation learning.
翻訳日:2021-06-13 17:48:29 公開日:2021-06-06
# (参考訳) 雑音ラベル学習のための非対称損失関数

Asymmetric Loss Functions for Learning with Noisy Labels ( http://arxiv.org/abs/2106.03110v1 )

ライセンス: CC BY 4.0
Xiong Zhou, Xianming Liu, Junjun Jiang, Xin Gao, Xiangyang Ji(参考訳) ロバストな損失関数は、ノイズラベルの存在下でより一般化力のあるディープニューラルネットワークのトレーニングに不可欠である。 対称損失関数はラベルノイズに対して頑健であることが確認される。 しかし、対称条件は過度に制限的である。 そこで本研究では,様々なノイズに対するノイズラベルを用いた学習に頑健な,新しい損失関数のクラスである「textit{asymmetric loss function」を提案する。 分類校正,過剰リスク境界,耐雑音性を含む非対称損失関数の一般理論的特性について検討する。 一方,損失関数の非対称性を測定するために非対称性比を導入する。 実験の結果,高い比では耐雑音性が向上することがわかった。 さらに,よく使われる損失関数をいくつか修正し,それらの非対称化に必要な十分条件を定式化する。 ベンチマークデータセットの実験的結果は、非対称損失関数が最先端のメソッドを上回ることを示している。 コードは \href{https://github.com/hitcszx/ALFs}{https://github.com/hitcszx/ALFs} で公開されている。

Robust loss functions are essential for training deep neural networks with better generalization power in the presence of noisy labels. Symmetric loss functions are confirmed to be robust to label noise. However, the symmetric condition is overly restrictive. In this work, we propose a new class of loss functions, namely \textit{asymmetric loss functions}, which are robust to learning with noisy labels for various types of noise. We investigate general theoretical properties of asymmetric loss functions, including classification calibration, excess risk bound, and noise tolerance. Meanwhile, we introduce the asymmetry ratio to measure the asymmetry of a loss function. The empirical results show that a higher ratio would provide better noise tolerance. Moreover, we modify several commonly-used loss functions and establish the necessary and sufficient conditions for them to be asymmetric. Experimental results on benchmark datasets demonstrate that asymmetric loss functions can outperform state-of-the-art methods. The code is available at \href{https://github.com/hitcszx/ALFs}{https://github.com/hitcszx/ALFs}
翻訳日:2021-06-13 17:34:10 公開日:2021-06-06
# (参考訳) レキシカルセマンティックな変化発見

Lexical Semantic Change Discovery ( http://arxiv.org/abs/2106.03111v1 )

ライセンス: CC BY 4.0
Sinan Kurtyigit, Maike Park, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde(参考訳) 語彙的意味変化検出の分野では、多くの研究が行われているが、既存のモデルの標準ベンチマーク評価を超えるアプローチはごくわずかである。 本稿では,変化検出から変化発見への焦点のシフト,すなわち,コーパス語彙全体から時間とともに新たな単語認識の発見を提案する。 最近公開されたドイツのデータに対して,型ベースおよびトークンベースのアプローチを高度に微調整することにより,両モデルが変化を意味づける新しい単語の発見に成功できることを実証する。 さらに,評価と発見の両方のために,ほぼ完全に自動化されたフレームワークを提供する。

While there is a large amount of research in the field of Lexical Semantic Change Detection, only few approaches go beyond a standard benchmark evaluation of existing models. In this paper, we propose a shift of focus from change detection to change discovery, i.e., discovering novel word senses over time from the full corpus vocabulary. By heavily fine-tuning a type-based and a token-based approach on recently published German data, we demonstrate that both models can successfully be applied to discover new words undergoing meaning change. Furthermore, we provide an almost fully automated framework for both evaluation and discovery.
翻訳日:2021-06-13 16:44:34 公開日:2021-06-06
# (参考訳) 画像から画像への推論作業のためのエンド・ツー・エンドニューロシンボリックアーキテクチャ

End-to-End Neuro-Symbolic Architecture for Image-to-Image Reasoning Tasks ( http://arxiv.org/abs/2106.03121v1 )

ライセンス: CC BY 4.0
Ananye Agarwal, Pradeep Shenoy, Mausam(参考訳) ニューラルモデルとシンボリックアルゴリズムは、認識と推論の両方を必要とするタスクに最近組み合わせられている。 ニューラルネットワークは、古典的推論アルゴリズムを適用して出力を生成する概念語彙への知覚入力を基礎とする。 鍵となる制限は、そのようなニューラル・トゥ・シンボリックモデルは、出力空間がシンボリックであるタスクに対してエンドツーエンドでしか訓練できないことである。 本稿では,画像入力(例えば部分充填した数独)から画像出力(例えば完成した数独の画像)への変換を必要とするタスクを推論するためのニューラルシンボリックニューラルモデルについて検討する。 このような3段階のハイブリッドアーキテクチャを設計するのは簡単かも知れませんが、重要な技術的課題はエンドツーエンドのトレーニングです。 画像再構成損失を新しい出力エンコーダと組み合わせてオーバシリ信号を生成するアーキテクチャであるNSNnetを提案し、監視のためのポリシー勾配手法を活用する更新アルゴリズムを開発し、新しいサブサンプリングヒューリスティックを用いて損失を最適化する。 本稿では,視覚的迷路解決タスクと視覚的スドゥーク解決タスクという,記号的アルゴリズムの特定が容易な問題設定を実験的に検討する。 実験では、純粋に神経的なアプローチに比べて、データの精度が著しく低い。

Neural models and symbolic algorithms have recently been combined for tasks requiring both perception and reasoning. Neural models ground perceptual input into a conceptual vocabulary, on which a classical reasoning algorithm is applied to generate output. A key limitation is that such neural-to-symbolic models can only be trained end-to-end for tasks where the output space is symbolic. In this paper, we study neural-symbolic-neural models for reasoning tasks that require a conversion from an image input (e.g., a partially filled sudoku) to an image output (e.g., the image of the completed sudoku). While designing such a three-step hybrid architecture may be straightforward, the key technical challenge is end-to-end training -- how to backpropagate without intermediate supervision through the symbolic component. We propose NSNnet, an architecture that combines an image reconstruction loss with a novel output encoder to generate a supervisory signal, develops update algorithms that leverage policy gradient methods for supervision, and optimizes loss using a novel subsampling heuristic. We experiment on problem settings where symbolic algorithms are easily specified: a visual maze solving task and a visual Sudoku solver where the supervision is in image form. Experiments show high accuracy with significantly less data compared to purely neural approaches.
翻訳日:2021-06-13 16:27:19 公開日:2021-06-06
# (参考訳) 深部強化学習による3次元UAV軌道とデータ収集最適化

3D UAV Trajectory and Data Collection Optimisation via Deep Reinforcement Learning ( http://arxiv.org/abs/2106.03129v1 )

ライセンス: CC BY 4.0
Khoi Khac Nguyen and Trung Q. Duong and Tan Do-Duy and Holger Claussen and and Lajos Hanzo(参考訳) 無人航空機(UAV)は現在、無線通信におけるネットワーク性能とカバレッジを高めるために配備され始めている。 しかし、搭載電力と飛行時間に制限があるため、UAV支援IoT(Internet of Things)のための最適な資源割り当て方式を得ることは困難である。 本稿では,UAVの最も短い飛行経路に依存しつつ,IoTデバイスから収集したデータ量を最大化しながら,新しいUAV支援IoTシステムを設計する。 そして、特定のカバレッジ領域における最適軌道とスループットを求めるために、深層強化学習に基づく手法を考案する。 トレーニング後、UAVは、使用したリソースを最小化しながら、ユーザノードからすべてのデータを大幅な総和レート改善で自律的に収集する能力を持つ。 数値的な結果から,我々の手法が達成したスループットと軌道,費やした時間とのバランスにどうぶつかるかが示される。 より具体的には、UAV軌道、期待報酬、総和率の観点から、達成可能な性能を特徴付ける。

Unmanned aerial vehicles (UAVs) are now beginning to be deployed for enhancing the network performance and coverage in wireless communication. However, due to the limitation of their on-board power and flight time, it is challenging to obtain an optimal resource allocation scheme for the UAV-assisted Internet of Things (IoT). In this paper, we design a new UAV-assisted IoT systems relying on the shortest flight path of the UAVs while maximising the amount of data collected from IoT devices. Then, a deep reinforcement learning-based technique is conceived for finding the optimal trajectory and throughput in a specific coverage area. After training, the UAV has the ability to autonomously collect all the data from user nodes at a significant total sum-rate improvement while minimising the associated resources used. Numerical results are provided to highlight how our techniques strike a balance between the throughput attained, trajectory, and the time spent. More explicitly, we characterise the attainable performance in terms of the UAV trajectory, the expected reward and the total sum-rate.
翻訳日:2021-06-13 16:03:30 公開日:2021-06-06
# (参考訳) 半リーマングラフ畳み込みネットワーク

Semi-Riemannian Graph Convolutional Networks ( http://arxiv.org/abs/2106.03134v1 )

ライセンス: CC BY 4.0
Bo Xiong, Shichao Zhu, Nico Potyka, Shirui Pan, Chuan Zhou, Steffen Staab(参考訳) グラフ畳み込みネットワーク(GCN)は通常ユークリッド幾何学のレンズを通して研究される。 非ユークリッドリーマン多様体は階層的あるいは球面的なデータを埋め込むための特定の帰納的バイアスを与えるが、混合トポロジーのデータとうまく一致しない。 ハイパーボロイドと球面を一般化する不定距離を持つ半リーマン多様体のより大きいクラスとそれらの部分多様体を考える。 我々は,ニューラルネットワーク操作を測地的に非連結な半リーマン多様体に拡張できる新しい測地ツールを開発した。 その結果、グラフニューラルネットワークの文脈で、定数非零曲率の半リーマン多様体でデータを最初にモデル化する原理付き半リーマン gcn が導出される。 本手法は,階層型グラフのような混合ヘテロジニアストポロジーをサイクルでモデル化するのに十分柔軟である幾何学的帰納バイアスを与える。 実験の結果, 複素位相のグラフを埋め込む場合, 本手法はリーマン法よりも優れていることがわかった。

Graph Convolutional Networks (GCNs) are typically studied through the lens of Euclidean geometry. Non-Euclidean Riemannian manifolds provide specific inductive biases for embedding hierarchical or spherical data, but cannot align well with data of mixed topologies. We consider a larger class of semi-Riemannian manifolds with indefinite metric that generalize hyperboloid and sphere as well as their submanifolds. We develop new geodesic tools that allow for extending neural network operations into geodesically disconnected semi-Riemannian manifolds. As a consequence, we derive a principled Semi-Riemannian GCN that first models data in semi-Riemannian manifolds of constant nonzero curvature in the context of graph neural networks. Our method provides a geometric inductive bias that is sufficiently flexible to model mixed heterogeneous topologies like hierarchical graphs with cycles. Empirical results demonstrate that our method outperforms Riemannian counterparts when embedding graphs of complex topologies.
翻訳日:2021-06-13 16:02:30 公開日:2021-06-06
# (参考訳) 交通状態推定と基本図発見のための物理モデルによる深層学習パラダイム

A Physics-Informed Deep Learning Paradigm for Traffic State Estimation and Fundamental Diagram Discovery ( http://arxiv.org/abs/2106.03142v1 )

ライセンス: CC BY 4.0
Rongye Shi, Zhaobin Mo, Kuang Huang, Xuan Di, Qiang Du(参考訳) トラフィック状態推定(traffic state estimation, tse)は、モデル駆動型とデータ駆動型(機械学習、ml)の2つの主要なカテゴリに分岐する。 これらの制限を緩和するために、最近の研究は、モデル駆動とデータ駆動の両方を含む物理インフォームドディープラーニング(PIDL)のようなハイブリッド手法を導入した。 本稿では,基本ダイアグラム学習器(pidl+fdl)を用いて,モデル駆動コンポーネントにml用語を統合し,基本ダイアグラム(fd)の機能形式,すなわち交通密度から流れや速度へのマッピングを学ぶ,物理にインフォームされたディープラーニングという改良パラダイムを提案する。 提案するPIDL+FDLは,TSE学習,モデルパラメータ発見,FD発見を同時に行うという利点がある。 本稿では,交通密度や速度を交通変数として用いて,ループ検出器からの観測データを用いた高速道路TSEに焦点を当てた。 本稿では, PIDL+FDLを用いて, 人気のある1次・2次交通流モデルとFD関係の再構築とFD項以外のモデルパラメータの再構築を行う。 次に、NGSIMデータセットを用いてPIDL+FDLベースのTSEを評価する。 実験の結果,pidl+fdlの精度は,先進的なベースラインtse法よりも精度が向上し,データ効率が向上し,未知のfd関係を適切に学習できることがわかった。

Traffic state estimation (TSE) bifurcates into two main categories, model-driven and data-driven (e.g., machine learning, ML) approaches, while each suffers from either deficient physics or small data. To mitigate these limitations, recent studies introduced hybrid methods, such as physics-informed deep learning (PIDL), which contains both model-driven and data-driven components. This paper contributes an improved paradigm, called physics-informed deep learning with a fundamental diagram learner (PIDL+FDL), which integrates ML terms into the model-driven component to learn a functional form of a fundamental diagram (FD), i.e., a mapping from traffic density to flow or velocity. The proposed PIDL+FDL has the advantages of performing the TSE learning, model parameter discovery, and FD discovery simultaneously. This paper focuses on highway TSE with observed data from loop detectors, using traffic density or velocity as traffic variables. We demonstrate the use of PIDL+FDL to solve popular first-order and second-order traffic flow models and reconstruct the FD relation as well as model parameters that are outside the FD term. We then evaluate the PIDL+FDL-based TSE using the Next Generation SIMulation (NGSIM) dataset. The experimental results show the superiority of the PIDL+FDL in terms of improved estimation accuracy and data efficiency over advanced baseline TSE methods, and additionally, the capacity to properly learn the unknown underlying FD relation.
翻訳日:2021-06-13 14:57:12 公開日:2021-06-06
# (参考訳) メタスタイル音声 : 多話者適応テキスト音声生成

Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation ( http://arxiv.org/abs/2106.03153v1 )

ライセンス: CC BY 4.0
Dongchan Min, Dong Bok Lee, Eunho Yang, Sung Ju Hwang(参考訳) neural text-to-speech (tts)モデルの急速な進歩により、パーソナライズされた音声生成が多くのアプリケーションで高需要となっている。 実用的な適用性のために、ttsモデルは、与えられた話者から少数の音声サンプルだけで高品質な音声を生成する必要がある。 しかし、既存の手法では、モデルを微調整するか、あるいは微調整なしで低い適応品質を達成する必要がある。 本稿では,高品質な音声を合成するだけでなく,新しい話者に効果的に適応する新しいttsモデルであるstylespeechを提案する。 具体的には、参照音声から抽出したスタイルに応じてテキスト入力の利得とバイアスを調整するスタイル適応層正規化(SALN)を提案する。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。 さらに,新しい話者の発話に対するスタイルピーチの適応性を高めるために,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソディクス訓練を行うことにより,メタスタイルスピーチに拡張した。 実験結果から, 話者の音声を1~3秒の短い音声で正確に追従する高品質な音声が生成され, ベースラインを著しく上回ることがわかった。

With rapid progress in neural text-to-speech (TTS) models, personalized speech generation is now in high demand for many applications. For practical applicability, a TTS model should generate high-quality speech with only a few audio samples from the given speaker, that are also short in length. However, existing methods either require to fine-tune the model or achieve low adaptation quality without fine-tuning. In this work, we propose StyleSpeech, a new TTS model which not only synthesizes high-quality speech but also effectively adapts to new speakers. Specifically, we propose Style-Adaptive Layer Normalization (SALN) which aligns gain and bias of the text input according to the style extracted from a reference speech audio. With SALN, our model effectively synthesizes speech in the style of the target speaker even from single speech audio. Furthermore, to enhance StyleSpeech's adaptation to speech from new speakers, we extend it to Meta-StyleSpeech by introducing two discriminators trained with style prototypes, and performing episodic training. The experimental results show that our models generate high-quality speech which accurately follows the speaker's voice with single short-duration (1-3 sec) speech audio, significantly outperforming baselines.
翻訳日:2021-06-13 14:29:24 公開日:2021-06-06
# (参考訳) 模倣学習のためのSoftDICE:オフ・ポリティクスの分布マッチングを再考する

SoftDICE for Imitation Learning: Rethinking Off-policy Distribution Matching ( http://arxiv.org/abs/2106.03155v1 )

ライセンス: CC BY 4.0
Mingfei Sun, Anuj Mahajan, Katja Hofmann, Shimon Whiteson(参考訳) 我々は、模倣学習のための最先端のパフォーマンスを実現するSoftDICEを提案する。 SoftDICEは、サンプル効率の模倣学習のためのオフ政治分布マッチングアプローチであるValueDICEにおいて、いくつかの重要な問題を解決する。 具体的には、ValueDICEの目的は、最小バッチ勾配推定が常にバイアスされる期待の対数と指数を含んでいる。 第二に、ValueDICEは、専門家によるデモンストレーションが制限された場合にバッファサンプルを再生することで目的を正規化します。 第三に、オフポリシーの目的を導出するために使われる再パラメータ化のトリックは、トレーニングでほとんど持たない暗黙の仮定に依存している。 本稿では,分散マッチングの新たな定式化を活用し,エントロピー正規化オフポリシー目標を考察し,softdice と呼ばれる完全オフラインアルゴリズムを提案する。 実験結果から,softdiceは1つのデモ軌跡とそれ以上のオン・ポリシー/オフ・ポリシーサンプルで専門家の方針を回復することを示した。 SoftDICEはまた、Mujocoベンチマークタスクのサンプル効率という点で、ValueDICEや他のベースラインを安定して上回る。

We present SoftDICE, which achieves state-of-the-art performance for imitation learning. SoftDICE fixes several key problems in ValueDICE, an off-policy distribution matching approach for sample-efficient imitation learning. Specifically, the objective of ValueDICE contains logarithms and exponentials of expectations, for which the mini-batch gradient estimate is always biased. Second, ValueDICE regularizes the objective with replay buffer samples when expert demonstrations are limited in number, which however changes the original distribution matching problem. Third, the re-parametrization trick used to derive the off-policy objective relies on an implicit assumption that rarely holds in training. We leverage a novel formulation of distribution matching and consider an entropy-regularized off-policy objective, which yields a completely offline algorithm called SoftDICE. Our empirical results show that SoftDICE recovers the expert policy with only one demonstration trajectory and no further on-policy/off-policy samples. SoftDICE also stably outperforms ValueDICE and other baselines in terms of sample efficiency on Mujoco benchmark tasks.
翻訳日:2021-06-13 13:52:20 公開日:2021-06-06
# (参考訳) 自己監督型ルービックキューブ溶液

Self-supervised Rubik's Cube Solver ( http://arxiv.org/abs/2106.03157v1 )

ライセンス: CC BY 4.0
Kyo Takano(参考訳) この研究は、ディープニューラルネットワーク(DNN)が、自己教師付き学習によってのみ組合せ問題を解くことを実証している。 研究者は、組合せ問題に取り組むために明示論理、ヒューリスティック、強化学習を取り入れているが、そのような手法は、しばしば複雑で、実装にコストがかかり、多くの知識、コーディング、調整が必要となる。 そこで本研究では,組合せ問題を解くための自己教師あり学習のロバストで簡単な手法を提案する。 具体的には、ルビックキューブを例として、DNNがランダムに生成された組合せから最適な選択の複雑な確率分布を暗黙的に学習できることを示す。 1000ドルのrubikのキューブインスタンスでテストしたところ、dnnはこれらすべてをほぼ最適に解決できた。 提案手法はルービックキューブでのみ検証されるが, 単純性, 安定性, 堅牢性を有する他の問題や実世界の応用に有用である可能性がある。

This work demonstrates that deep neural networks (DNNs) can solve a combinatorial problem merely through self-supervised learning. While researchers have employed explicit logic, heuristics, and reinforcement learning to tackle combinatorial problems, such methods are often complex and costly to implement, requiring lots of knowledge, coding, and adjustments. Hence, in the present study, I propose a robust and straightforward method of self-supervised learning to solve a combinatorial problem. Specifically, taking Rubik's Cube as an example, this work shows that a DNN can implicitly learn convoluted probability distributions of optimal choices from randomly generated combinations. Tested on $1,000$ Rubik's Cube instances, a DNN successfully solved all of them near-optimally. Although the proposed method is validated only on Rubik's Cube, it is potentially useful for other problems and real-world applications with its simplicity, stability, and robustness.
翻訳日:2021-06-13 13:35:58 公開日:2021-06-06
# (参考訳) テキスト中のポピュリスト段落の識別:機械学習によるアプローチ

Identifying Populist Paragraphs in Text: A machine-learning approach ( http://arxiv.org/abs/2106.03161v1 )

ライセンス: CC BY 4.0
Jogil\.e Ulinkskait\.e and Lukas Pukelis(参考訳) 要約:本稿では,テキスト中のポピュリストコンテンツの識別を可能にするテキスト分類モデルの開発について述べる。 開発されたBERTベースのモデルは、テキスト中のポピュリストコンテンツを特定することに大きく成功し、最小限の偽否定しか生成しないため、コンテンツ分析自動化ツールとして好適であり、人間の検証に関連のあるコンテンツをショートリスト化する。

Abstract: In this paper we present an approach to develop a text-classification model which would be able to identify populist content in text. The developed BERT-based model is largely successful in identifying populist content in text and produces only a negligible amount of False Negatives, which makes it well-suited as a content analysis automation tool, which shortlists potentially relevant content for human validation.
翻訳日:2021-06-13 13:16:57 公開日:2021-06-06
# (参考訳) FlexParser -- 変化する世界における継続的な結果のための適応ログファイルパーサ

FlexParser -- the adaptive log file parser for continuous results in a changing world ( http://arxiv.org/abs/2106.03170v1 )

ライセンス: CC BY 4.0
Nadine Ruecker, Andreas Maier(参考訳) 最新のシステムはログファイルと呼ばれるイベントをファイルに書き込む。 これらは様々な分析対象となる重要な情報を含んでいる。 例えば、サイバーセキュリティ、利用分析による侵入検知、トラブルシューティングなどがある。 データ分析が可能になる前に、必要な情報を半構造化ログメッセージから抽出する必要がある。 state of the artイベント解析は、静的なログイベントを想定することが多い。 しかし、最新のシステムは一貫して更新され、更新とともにログファイル構造も変更できる。 これらの変化を「変異」と呼び、異なる変異例のパース性能について研究する。 しかし、最近の研究では、死後の異常検出による突然変異は、実際の継続的な解析をカバーしていない。 そこで我々は,ログメッセージの段階的変化にもかかわらず所望の値を抽出できるflexparserと呼ばれる新しいフレキシブルパーサを提案する。 これは、基本的なテキストの前処理と教師付きディープラーニングの方法を意味する。 データセット毎にひとつのイベントを解析する上で、ステートフルなLSTMをトレーニングします。 ステートフルネスは、複数のメッセージにわたるログメッセージ構造を学習するモデルを強制する。 我々のモデルは7つの異なる公開ログファイルデータセットと様々な変異でテストされた。 平均F1スコアは0.98で、他のDeep Learningメソッドや最先端の教師なしパーサーよりも優れている。

Any modern system writes events into files, called log files. Those contain crucial information which are subject to various analyses. Examples range from cybersecurity, intrusion detection over usage analyses to trouble shooting. Before data analysis is possible, desired information needs to be extracted first out of the semi-structured log messages. State of the art event parsing often assumes static log events. However, any modern system is updated consistently and with updates also log file structures can change. We call those changes 'mutations' and study parsing performance for different mutation cases. Latest research discovers mutations using anomaly detection post mortem, however, does not cover actual continuous parsing. Thus, we propose a novel, flexible parser, called FlexParser which can extract desired values despite gradual changes in the log messages. It implies basic text preprocessing followed by a supervised Deep Learning method. We train a stateful LSTM on parsing one event per data set. Statefulness enforces the model to learn log message structures across several messages. Our model was tested on seven different, publicly available log file data sets and various kinds of mutations. Exhibiting an average F1-Score of 0.98, it outperforms other Deep Learning methods as well as state-of-the-art unsupervised parsers.
翻訳日:2021-06-13 13:03:45 公開日:2021-06-06
# (参考訳) 因果関係情報に基づく経路特異的効果

Path-specific Effects Based on Information Accounts of Causality ( http://arxiv.org/abs/2106.03178v1 )

ライセンス: CC BY 4.0
Heyang Gong, Ke Zhu(参考訳) 仲介分析における経路特異的な効果は、主にネストした反事実に基づく公正分析に有用なツールである。 しかし、「操作なしの因果関係」は、特定の介入によって経路特異的な効果が引き起こされる可能性を示唆している。 本稿では,因果関係情報に着想を得た新たな経路介入法を提案し,対応する介入図と$\pi$-formula を開発した。 Robinsらの介入主義的アプローチと比較する。 (2020) は, ネスト反事実に基づいて, 簡単な情報伝達解釈による構造因果モデルの操作を明示的に記述し, 経路固有の効果を識別するために, 再証人の存在を必要としない。 したがって、メディア分析に有用なコミュニケーションと理論的焦点を提供することができる。

Path-specific effects in mediation analysis provide a useful tool for fairness analysis, which is mostly based on nested counterfactuals. However, the dictum ``no causation without manipulation'' implies that path-specific effects might be induced by certain interventions. This paper proposes a new path intervention inspired by information accounts of causality, and develops the corresponding intervention diagrams and $\pi$-formula. Compared with the interventionist approach of Robins et al.(2020) based on nested counterfactuals, our proposed path intervention method explicitly describes the manipulation in structural causal model with a simple information transferring interpretation, and does not require the non-existence of recanting witness to identify path-specific effects. Hence, it could serve useful communications and theoretical focus for mediation analysis.
翻訳日:2021-06-13 12:50:17 公開日:2021-06-06
# (参考訳) 畳み込みニューラルネットワークにおけるトランスフォーマー

Transformer in Convolutional Neural Networks ( http://arxiv.org/abs/2106.03180v1 )

ライセンス: CC BY 4.0
Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool(参考訳) マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。 この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。 具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。 そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。 このプロセスを繰り返してトークンの数を徐々に減らします。 H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。 我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。 実験により、TransCNNは画像認識の最先端の精度を達成することが示された。 コードと事前訓練されたモデルはhttps://github.com/yun-liu/TransCNN.comで入手できる。 このテクニカルレポートは、さらなる実験を追加して更新を続ける。

We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at https://github.com/yun-liu/TransCNN. This technical report will keep updating by adding more experiments.
翻訳日:2021-06-13 11:59:27 公開日:2021-06-06
# (参考訳) BERTにおける過渡カオス

Transient Chaos in BERT ( http://arxiv.org/abs/2106.03181v1 )

ライセンス: CC BY 4.0
Katsuma Inoue, Soh Ohara, Yasuo Kuniyoshi, and Kohei Nakajima(参考訳) 言語は複雑で動的な人間の相互作用の結果であり、自然言語処理(NLP)の技術は人間の言語活動に基づいて構築される。 Bidirectional Encoder Representations from Transformers (BERT)は、最近、いくつかのNLPベンチマークで最先端のスコアを確立することで人気を博している。 Lite BERT(ALBERT)は、文字通りBERTの軽量版として特徴付けられ、Transformerのエンコーダ層と呼ばれる同じニューラルネットワークを繰り返し適用することでBERTパラメータの数を削減できる。 パラメータを大量の自然言語データで事前学習することにより、ALBERTは入力文を多目的な高次元ベクトルに変換し、複数のNLPタスクを解くことができる。 その意味では、アルバートはトランスフォーマーのエンコーダであるようなよく設計された高次元力学系と見なすことができ、したがって人間の言語の本質的な構造はその力学にカプセル化されることが期待される。 本研究では,ALBERTの組込み特性について検討し,NLPタスクの動的利用による効果的解法を明らかにする。 そこで我々は,NLPモデルの動的表現から人間の言語の性質を探究することを目的とした。 我々の短期分析により, 事前学習モデルでは, NLPタスクに必要な表現能力を高めるために, 高次元の軌道が安定的に得られることが明らかとなった。 また, 経時的カオスを内在的に示し, 経時的カオスのみを呈する典型的な非線形現象であり, 事前学習したALBERTモデルでは, ランダムに初期化したモデルに比べて, カオス軌道がかなり長い傾向が見られた。 その結果,局所的カオス性はnlp性能の向上に寄与し,人間の言語行動におけるカオスダイナミクスの役割における新たな側面を明らかにすることができた。

Language is an outcome of our complex and dynamic human-interactions and the technique of natural language processing (NLP) is hence built on human linguistic activities. Bidirectional Encoder Representations from Transformers (BERT) has recently gained its popularity by establishing the state-of-the-art scores in several NLP benchmarks. A Lite BERT (ALBERT) is literally characterized as a lightweight version of BERT, in which the number of BERT parameters is reduced by repeatedly applying the same neural network called Transformer's encoder layer. By pre-training the parameters with a massive amount of natural language data, ALBERT can convert input sentences into versatile high-dimensional vectors potentially capable of solving multiple NLP tasks. In that sense, ALBERT can be regarded as a well-designed high-dimensional dynamical system whose operator is the Transformer's encoder, and essential structures of human language are thus expected to be encapsulated in its dynamics. In this study, we investigated the embedded properties of ALBERT to reveal how NLP tasks are effectively solved by exploiting its dynamics. We thereby aimed to explore the nature of human language from the dynamical expressions of the NLP model. Our short-term analysis clarified that the pre-trained model stably yields trajectories with higher dimensionality, which would enhance the expressive capacity required for NLP tasks. Also, our long-term analysis revealed that ALBERT intrinsically shows transient chaos, a typical nonlinear phenomenon showing chaotic dynamics only in its transient, and the pre-trained ALBERT model tends to produce the chaotic trajectory for a significantly longer time period compared to a randomly-initialized one. Our results imply that local chaoticity would contribute to improving NLP performance, uncovering a novel aspect in the role of chaotic dynamics in human language behaviors.
翻訳日:2021-06-13 11:00:49 公開日:2021-06-06
# (参考訳) 浅層学習の力について

On the Power of Shallow Learning ( http://arxiv.org/abs/2106.03186v1 )

ライセンス: CC BY 4.0
James B. Simon, Sajant Anand, Michael R. DeWeese(参考訳) 最近の研究の成果は、幅広いニューラルネットワークとカーネルメソッドの等価性を探求している。 中心的なテーマは、与えられた広いネットワークアーキテクチャに対応するカーネルを解析的に見つけることができることであるが、アーキテクチャ設計に大きな影響があるにもかかわらず、これまでは、カーネルがそれを実現するネットワークを見つけることができるのか? 我々は、完全に接続されたアーキテクチャに対して、この質問に答え、達成可能なカーネルの空間を完全に特徴づける。 さらに,隠れた層と特別に設計されたポイントワイド・アクティベーション機能を持つネットワークでも,広く,深く,完全に接続されたネットワークの任意のカーネルが達成可能であることを示す。 我々は本手法を実験的に検証し,アクティベーション関数を選択するだけで,広範かつ深いネットワークの一般化性能を模倣した,広い浅層ネットワークを設計できることを実証する。

A deluge of recent work has explored equivalences between wide neural networks and kernel methods. A central theme is that one can analytically find the kernel corresponding to a given wide network architecture, but despite major implications for architecture design, no work to date has asked the converse question: given a kernel, can one find a network that realizes it? We affirmatively answer this question for fully-connected architectures, completely characterizing the space of achievable kernels. Furthermore, we give a surprising constructive proof that any kernel of any wide, deep, fully-connected net can also be achieved with a network with just one hidden layer and a specially-designed pointwise activation function. We experimentally verify our construction and demonstrate that, by just choosing the activation function, we can design a wide shallow network that mimics the generalization performance of any wide, deep, fully-connected network.
翻訳日:2021-06-13 10:38:56 公開日:2021-06-06
# (参考訳) 接続予測による暗黙的談話関係分類のための遠隔監視

Let's be explicit about that: Distant supervision for implicit discourse relation classification via connective prediction ( http://arxiv.org/abs/2106.03192v1 )

ライセンス: CC BY 4.0
Murathan Kurfal{\i} and Robert \"Ostling(参考訳) 暗黙的談話関係分類では,隣接文間の関係を,重複した談話接続が存在しない場合に予測したい。 これは人間にとっても困難であり、注釈付きデータの不足につながり、教師付き機械学習アプローチではタスクがさらに困難になる。 本研究では,ラベル付き暗黙的関係に頼らずに,暗黙的談話関係分類を行う。 暗黙の関係を明示することでデータの欠如を回避し、タスクを2つのサブプロブレム(言語モデリングと明示的な談話関係の分類)に削減します。 実験結果から,本手法は同等性能の代替モデルよりも遥かに単純であるにもかかわらず,最先端技術よりもはるかに優れていることが示された。 さらに, ゼロショット実験では, 完全に異なる領域において, 達成された性能がドメイン間で堅牢であることが示唆された。 このことは、近年の言語モデリングの進歩により、言語モデルが明示的な談話マーカーの助けなしに、文間関係を捉えるのに十分適していることを示している。

In implicit discourse relation classification, we want to predict the relation between adjacent sentences in the absence of any overt discourse connectives. This is challenging even for humans, leading to shortage of annotated data, a fact that makes the task even more difficult for supervised machine learning approaches. In the current study, we perform implicit discourse relation classification without relying on any labeled implicit relation. We sidestep the lack of data through explicitation of implicit relations to reduce the task to two sub-problems: language modeling and explicit discourse relation classification, a much easier problem. Our experimental results show that this method can even marginally outperform the state-of-the-art, in spite of being much simpler than alternative models of comparable performance. Moreover, we show that the achieved performance is robust across domains as suggested by the zero-shot experiments on a completely different domain. This indicates that recent advances in language modeling have made language models sufficiently good at capturing inter-sentence relations without the help of explicit discourse markers.
翻訳日:2021-06-13 10:21:46 公開日:2021-06-06
# (参考訳) 深層学習に基づくボリュームMRI系列の型同定

Deep Learning-based Type Identification of Volumetric MRI Sequences ( http://arxiv.org/abs/2106.03208v1 )

ライセンス: CC BY 4.0
Jean Pablo Vieira de Mello, Thiago M. Paix\~ao, Rodrigo Berriel, Mauricio Reyes, Claudine Badue, Alberto F. De Souza, Thiago Oliveira-Santos(参考訳) 磁気共鳴イメージング(MRI)解析により、臨床専門家は脳腫瘍の進行をモニターできる。 脳の容積MRI解析の自動化への関心が高まるにつれて、各シーケンスを適切に識別することが便利になる。 しかしながら、mriシーケンスの非標準化命名により、自動システムでは識別が難しくなり、機械学習研究のためのデータセットの生成や使用が難しくなる。 そこで本研究では,深層学習に基づく脳mriシーケンスのタイプを同定するシステムを提案する。 このシステムは18層ResNetアーキテクチャに基づく畳み込みニューラルネットワーク(CNN)をトレーニングすることにより、ボリューム脳MRIをFLAIR、T1、T1c、T2配列に分類することができる。 ネットワークは、事前処理(BraTSデータセット)と非前処理(TCGA-GBMデータセット)の両方からなる公開データセット、多様な取得プロトコルを備えたイメージタイプ、トレーニングのためにボリュームのほんの数スライスしか必要とせずに評価された。 我々のシステムは96.81%の精度でシーケンスタイプを分類できる。

The analysis of Magnetic Resonance Imaging (MRI) sequences enables clinical professionals to monitor the progression of a brain tumor. As the interest for automatizing brain volume MRI analysis increases, it becomes convenient to have each sequence well identified. However, the unstandardized naming of MRI sequences makes their identification difficult for automated systems, as well as makes it difficult for researches to generate or use datasets for machine learning research. In the face of that, we propose a system for identifying types of brain MRI sequences based on deep learning. By training a Convolutional Neural Network (CNN) based on 18-layer ResNet architecture, our system can classify a volumetric brain MRI as a FLAIR, T1, T1c or T2 sequence, or whether it does not belong to any of these classes. The network was evaluated on publicly available datasets comprising both, pre-processed (BraTS dataset) and non-pre-processed (TCGA-GBM dataset), image types with diverse acquisition protocols, requiring only a few slices of the volume for training. Our system can classify among sequence types with an accuracy of 96.81%.
翻訳日:2021-06-13 10:09:31 公開日:2021-06-06
# (参考訳) 分散学習と時系列予測への応用

Distributed Learning and its Application for Time-Series Prediction ( http://arxiv.org/abs/2106.03211v1 )

ライセンス: CC BY 4.0
Nhuong V. Nguyen and Sybille Legitime(参考訳) 極度の出来事は、規模とポテンシャルが人、インフラ、環境に大きなダメージを与える出来事である。 新型コロナウイルス(covid-19)のパンデミックに苦しむ現在の世界の健康環境の極端な性質に動機づけられ、極端な出来事の理解とモデル化をより深めたいと考えています。 極端なイベントのモデリングは、実際には一般的であり、時系列予測アプリケーションにおいて重要な役割を果たす。 目的は,複数の計算ノード間で非同期局所確率勾配Descent(SGD)フレームワークを実装することにより,現実的にどの手法が実用的なのかを探索するための,いくつかの極端なイベントモデリング手法の効果を比較し,検討することである。 分散極端なイベントモデリングを検証するため、標準のリカレントニューラルネットワークを用いて、ストックデータセットS\&P500上で提案したフレームワークを評価する。 私たちの直感は、分散ディープラーニング環境でうまく機能する(最高の)エクストリームイベントモデリング方法を探求することです。 さらに、非同期分散学習を用いることで、ほぼすべての分散学習フレームワークの主なボトルネックである計算ノードと中央サーバ間の通信コストを大幅に削減することを目指している。 我々は,提案手法を実装し,s\&p500 株などの代表的なデータセット上での5年間の性能評価を行った。 実験結果は,設計原理の正しさを検証し,ベースラインの単一計算ノードと比較して,最大8ドルまでのトレーニング期間を短縮した。 また,提案手法は,ベースライン設定と同等の精度で検証できることを示した。

Extreme events are occurrences whose magnitude and potential cause extensive damage on people, infrastructure, and the environment. Motivated by the extreme nature of the current global health landscape, which is plagued by the coronavirus pandemic, we seek to better understand and model extreme events. Modeling extreme events is common in practice and plays an important role in time-series prediction applications. Our goal is to (i) compare and investigate the effect of some common extreme events modeling methods to explore which method can be practical in reality and (ii) accelerate the deep learning training process, which commonly uses deep recurrent neural network (RNN), by implementing the asynchronous local Stochastic Gradient Descent (SGD) framework among multiple compute nodes. In order to verify our distributed extreme events modeling, we evaluate our proposed framework on a stock data set S\&P500, with a standard recurrent neural network. Our intuition is to explore the (best) extreme events modeling method which could work well under the distributed deep learning setting. Moreover, by using asynchronous distributed learning, we aim to significantly reduce the communication cost among the compute nodes and central server, which is the main bottleneck of almost all distributed learning frameworks. We implement our proposed work and evaluate its performance on representative data sets, such as S\&P500 stock in $5$-year period. The experimental results validate the correctness of the design principle and show a significant training duration reduction upto $8$x, compared to the baseline single compute node. Our results also show that our proposed work can achieve the same level of test accuracy, compared to the baseline setting.
翻訳日:2021-06-13 09:53:04 公開日:2021-06-06
# (参考訳) 好熱グラフにおける局所凝集について

On Local Aggregation in Heterophilic Graphs ( http://arxiv.org/abs/2106.03213v1 )

ライセンス: CC BY 4.0
Hesham Mostafa, Marcel Nassar, Somdeb Majumdar(参考訳) 最近の多くの研究は、グラフホモフィリーの文脈におけるグラフニューラルネットワーク(gnns)の性能について研究している。 従来のGNNはグラフ内のノードの隣人からの情報を集約することでノード埋め込みを生成する。 ノード分類タスクの最近の結果は、この局所集約アプローチが低ホモフィリーグラフ(ヘテロ親和性グラフ)では不十分であることを示している。 マルチホップアグリゲーションや遠く離れたノードからの長距離アグリゲーションを通じて、GNN層のアグリゲーション範囲を拡大することにより、そのようなグラフ上のGNNの精度を向上させるためのいくつかのメカニズムが提案されている。 本稿では,従来のgnnと多層パーセプトロンの適正な調整が,最近のヘテロ親和性グラフの長距離凝集法の精度を上回ったことを示す。 そこで本研究では,長距離GNNアグリゲーションメカニズムをベンチマークする代替データセットの必要性を強調した。 また, ホモフィリーは, ノードの局所的近傍における情報の粗悪な尺度であることを示すとともに, 新たな情報理論グラフ計量である近辺情報コンテンツ(NIC)メトリクスを提案する。 我々は NIC が GNN で用いられるような局所集約手法に関係していると主張している。 実験により,ノード分類タスクにおけるGNNの精度がホモフィリーよりも優れていることを示す。

Many recent works have studied the performance of Graph Neural Networks (GNNs) in the context of graph homophily - a label-dependent measure of connectivity. Traditional GNNs generate node embeddings by aggregating information from a node's neighbors in the graph. Recent results in node classification tasks show that this local aggregation approach performs poorly in graphs with low homophily (heterophilic graphs). Several mechanisms have been proposed to improve the accuracy of GNNs on such graphs by increasing the aggregation range of a GNN layer, either through multi-hop aggregation, or through long-range aggregation from distant nodes. In this paper, we show that properly tuned classical GNNs and multi-layer perceptrons match or exceed the accuracy of recent long-range aggregation methods on heterophilic graphs. Thus, our results highlight the need for alternative datasets to benchmark long-range GNN aggregation mechanisms. We also show that homophily is a poor measure of the information in a node's local neighborhood and propose the Neighborhood Information Content(NIC) metric, which is a novel information-theoretic graph metric. We argue that NIC is more relevant for local aggregation methods as used by GNNs. We show that, empirically, it correlates better with GNN accuracy in node classification tasks than homophily.
翻訳日:2021-06-13 09:40:15 公開日:2021-06-06
# (参考訳) PreferenceNet: 深層学習によるオークションデザインにおける人間の嗜好の符号化

PreferenceNet: Encoding Human Preferences in Auction Design with Deep Learning ( http://arxiv.org/abs/2106.03215v1 )

ライセンス: CC BY 4.0
Neehar Peri, Michael J. Curry, Samuel Dooley, John P. Dickerson(参考訳) 最適オークションのデザインは、経済学、ゲーム理論、コンピュータ科学における関心の問題である。 何十年もの努力にもかかわらず、戦略を守り、収益を最大化するオークションデザインは、まだ制限された設定以外では知られていない。 しかし、近年のディープラーニングを用いた手法は、最適なオークションを近似し、いくつかの既知のソリューションを回復し、最適なオークションが不明な場合に強いベースラインを上回り、いくつかの成功を示している。 収益を最大化することに加えて、オークションメカニズムは、割り当て公平性や多様性といった社会的に望ましい制約を奨励することを求めることもある。 しかし、これらの哲学的概念は標準化や形式的定義を広く受け入れていない。 本稿では,既存のニューラルネットワークベースのオークション機構を拡張したPreferenceNetを提案する。 さらに,このような社会的に望ましい制約に対するオークション割り当ての遵守度を評価するための新しい指標を導入し,提案手法が現在のニューラルネットワークに基づくオークション設計と競合していることを示す。 我々は,人間の主観的研究を通じてアプローチを検証し,実際の人間の嗜好を効果的に捉えることができることを示す。 私たちのコードはhttps://github.com/neeharperi/PreferenceNetで利用可能です。

The design of optimal auctions is a problem of interest in economics, game theory and computer science. Despite decades of effort, strategyproof, revenue-maximizing auction designs are still not known outside of restricted settings. However, recent methods using deep learning have shown some success in approximating optimal auctions, recovering several known solutions and outperforming strong baselines when optimal auctions are not known. In addition to maximizing revenue, auction mechanisms may also seek to encourage socially desirable constraints such as allocation fairness or diversity. However, these philosophical notions neither have standardization nor do they have widely accepted formal definitions. In this paper, we propose PreferenceNet, an extension of existing neural-network-based auction mechanisms to encode constraints using (potentially human-provided) exemplars of desirable allocations. In addition, we introduce a new metric to evaluate an auction allocations' adherence to such socially desirable constraints and demonstrate that our proposed method is competitive with current state-of-the-art neural-network based auction designs. We validate our approach through human subject research and show that we are able to effectively capture real human preferences. Our code is available at https://github.com/neeharperi/PreferenceNet
翻訳日:2021-06-13 09:23:38 公開日:2021-06-06
# (参考訳) PYROBOCOP : 操作・衝突回避のためのPythonベースのロボット制御・最適化パッケージ

PYROBOCOP : Python-based Robotic Control & Optimization Package for Manipulation and Collision Avoidance ( http://arxiv.org/abs/2106.03220v1 )

ライセンス: CC BY 4.0
Arvind U. Raghunathan, Devesh K. Jha, Diego Romeres(参考訳) PYROBOCOPは、非線形微分代数方程式(DAE)によって記述されるロボットシステムの制御と最適化のための軽量Pythonベースのパッケージである。 特に、パッケージは相補性制約によって記述される接触を持つシステムを扱うことができ、障害物回避制約を特定するための一般的なフレームワークを提供する。 このパッケージは、有限要素上の直交コロケーションを実行することにより、DAEを一連の非線形方程式に直接転写する。 結果の最適化問題は相補性制約付き数学プログラム(MPCC)のクラスに属する。 MPCCは一般的に想定される制約条件を満たすことができず、NonLinear Program (NLP)ソルバがそれらを効果的に解決するためには、補性制約の特別な扱いが必要となる。 PYROBOCOPは、NLPソルバがロボットシステムの最適化を行えるように、相補性の制約を自動的に修正する。 パッケージは、自動微分によりスパース誘導体を得るためのADOLCと、最適化を行うためのIPOPTとでインターフェースされている。 スピードと柔軟性の観点から、我々のアプローチの有効性を実証する。 本稿では, 衝突回避型ロボットシステムと, 相補性制約を用いた接触制約の数値例を示す。 casadiやpyomoといった他のオープンソース最適化パッケージと比較します。

PYROBOCOP is a lightweight Python-based package for control and optimization of robotic systems described by nonlinear Differential Algebraic Equations (DAEs). In particular, the package can handle systems with contacts that are described by complementarity constraints and provides a general framework for specifying obstacle avoidance constraints. The package performs direct transcription of the DAEs into a set of nonlinear equations by performing orthogonal collocation on finite elements. The resulting optimization problem belongs to the class of Mathematical Programs with Complementarity Constraints (MPCCs). MPCCs fail to satisfy commonly assumed constraint qualifications and require special handling of the complementarity constraints in order for NonLinear Program (NLP) solvers to solve them effectively. PYROBOCOP provides automatic reformulation of the complementarity constraints that enables NLP solvers to perform optimization of robotic systems. The package is interfaced with ADOLC for obtaining sparse derivatives by automatic differentiation and IPOPT for performing optimization. We demonstrate the effectiveness of our approach in terms of speed and flexibility. We provide several numerical examples for several robotic systems with collision avoidance as well as contact constraints represented using complementarity constraints. We provide comparisons with other open source optimization packages like CasADi and Pyomo .
翻訳日:2021-06-13 09:07:32 公開日:2021-06-06
# (参考訳) 暗黙的勾配をもつメタラーニングに基づく医用画像のマイナショットセグメンテーション

Few-shot segmentation of medical images based on meta-learning with implicit gradients ( http://arxiv.org/abs/2106.03223v1 )

ライセンス: CC BY 4.0
Rabindra Khadga, Debesh Jha, Sharib Ali, Steven Hicks, Vajira Thambawita, Michael A. Riegler, and P{\aa}l Halvorsen(参考訳) 一般的に使用される古典的な教師付きメソッドは、多くのトレーニングサンプルの要求に苦しむことが多く、見当たらないデータセットの一般化ができない。 その結果、トレーニングされたモデルの適用範囲は、臨床環境では非常に限られている。 しかし、少ないショットのアプローチは、労働集約的かつ高価である巨大な信頼できる根拠ラベルの必要性を最小限に抑えることができる。 そこで本研究では,医用画像セグメンテーションのための数ショット設定において,最適化に基づく暗黙的メタ学習(iMAML)アルゴリズムを活用することを提案する。 このアプローチでは、さまざまなトレーニングサンプルから学んだ重みを活用でき、新しい未知のデータセットにデプロイすることができます。 古典的な数ショット学習手法とは異なり,本手法は一般化能力を改善した。 私たちの知る限り、医療画像のセグメンテーションにiMAMLを利用するのはこれが初めてです。 皮膚およびポリプデータセットの定量的解析結果から,提案手法は,有意な教師付きベースラインモデルと最近の2つのショットセグメンテーション手法よりも高い性能を示した。

Classical supervised methods commonly used often suffer from the requirement of an abudant number of training samples and are unable to generalize on unseen datasets. As a result, the broader application of any trained model is very limited in clinical settings. However, few-shot approaches can minimize the need for enormous reliable ground truth labels that are both labor intensive and expensive. To this end, we propose to exploit an optimization-based implicit model agnostic meta-learning {iMAML} algorithm in a few-shot setting for medical image segmentation. Our approach can leverage the learned weights from a diverse set of training samples and can be deployed on a new unseen dataset. We show that unlike classical few-shot learning approaches, our method has improved generalization capability. To our knowledge, this is the first work that exploits iMAML for medical image segmentation. Our quantitative results on publicly available skin and polyp datasets show that the proposed method outperforms the naive supervised baseline model and two recent few-shot segmentation approaches by large margins.
翻訳日:2021-06-13 08:45:06 公開日:2021-06-06
# (参考訳) ニューラル言語モデルと人間におけるインクリメンタル処理の目標評価

A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans ( http://arxiv.org/abs/2106.03232v1 )

ライセンス: CC BY 4.0
Ethan Gotlieb Wilcox, Pranali Vani, Roger P. Levy(参考訳) 本研究では,16種類の構文テストスイートを対象としたバイワード反応時間データ収集による,人間とニューラル言語モデルにおけるインクリメンタル処理の大規模化比較を行った。 人間の反応時間データは、Interpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。 人間の反応時間と、4つの現代言語モデルに対するバイワード確率を異なるアーキテクチャで比較し、さまざまなデータセットサイズで訓練する。 多くの現象を通して、人間と言語モデルの両方が、人間とモデル「正確性」スコア(la marvinとlinzen(2018))がほぼ等しい非文法文領域で処理困難度が増大していることが分かる。 しかし,言語モデルの出力は人間の方向と一致しているが,文法文と非文法文の漸進的処理困難度の差を系統的に過小評価している。 特に、モデルが構文的違反に遭遇すると、人間のデータで観察された長い反応時間を正確に予測することができない。 これらの結果は、現代言語モデルが構文違反に対する感受性のために人間のようなパフォーマンスに近づいているかどうかを問うものである。

We present a targeted, scaled-up comparison of incremental processing in humans and neural language models by collecting by-word reaction time data for sixteen different syntactic test suites across a range of structural phenomena. Human reaction time data comes from a novel online experimental paradigm called the Interpolated Maze task. We compare human reaction times to by-word probabilities for four contemporary language models, with different architectures and trained on a range of data set sizes. We find that across many phenomena, both humans and language models show increased processing difficulty in ungrammatical sentence regions with human and model `accuracy' scores (a la Marvin and Linzen(2018)) about equal. However, although language model outputs match humans in direction, we show that models systematically under-predict the difference in magnitude of incremental processing difficulty between grammatical and ungrammatical sentences. Specifically, when models encounter syntactic violations they fail to accurately predict the longer reaction times observed in the human data. These results call into question whether contemporary language models are approaching human-like performance for sensitivity to syntactic violations.
翻訳日:2021-06-13 08:35:18 公開日:2021-06-06
# (参考訳) ソーシャルネットワークにおける距離予測のための事前学習oracle

A Pre-training Oracle for Predicting Distances in Social Networks ( http://arxiv.org/abs/2106.03233v1 )

ライセンス: CC BY 4.0
Gunjan Mahindre and Randy Paffenroth and Anura Jayasumana and Rasika Karkare(参考訳) 本稿では,実世界のソーシャルネットワークにおける距離予測手法を提案する。 欠落距離の予測は難しい問題であるので、2段階のアプローチを取る。 合成ネットワークファミリーの構造パラメータは、まず実世界のネットワークの小さな測定セットから推定され、これらの合成ネットワークは予測ニューラルネットワークを事前訓練するために使用される。 モデルではまず,任意に大規模なトレーニングデータセットを生成するために,最も適切な合成グラフパラメータを探索するので,我々はこの手法を"Oracle Search Pre-training" (OSP) と呼ぶ。 例えば、多くの現実世界のネットワークはノードの次数分布にパワーロー構造を示すため、適切なパワーローグラフパラメータを推定できるならば、パワーローモデルは所望のオラクルの基盤を提供して合成事前学習ネットワークを生成することができる。 そこで,本研究では,実世界のfacebook,eメール,および爆弾ネットワークのトレーニング実験を行い,ospが事前トレーニングを行わずにモデルを上回ること,不正確なパラメータで事前トレーニングされたモデル,および低ランク行列補完などの距離予測スキームを示す。 特に,ソーシャルネットワークからのサンプル距離の1%しか持たない1ホップ未満の予測誤差を達成する。 OSPは、合成トレーニングデータを生成する適切なモデルを選択することで、ランダムネットワークなどの他のドメインに容易に拡張することができ、多くの異なるネットワーク学習問題に影響を与えることを約束する。

In this paper, we propose a novel method to make distance predictions in real-world social networks. As predicting missing distances is a difficult problem, we take a two-stage approach. Structural parameters for families of synthetic networks are first estimated from a small set of measurements of a real-world network and these synthetic networks are then used to pre-train the predictive neural networks. Since our model first searches for the most suitable synthetic graph parameters which can be used as an "oracle" to create arbitrarily large training data sets, we call our approach "Oracle Search Pre-training" (OSP). For example, many real-world networks exhibit a Power law structure in their node degree distribution, so a Power law model can provide a foundation for the desired oracle to generate synthetic pre-training networks, if the appropriate Power law graph parameters can be estimated. Accordingly, we conduct experiments on real-world Facebook, Email, and Train Bombing networks and show that OSP outperforms models without pre-training, models pre-trained with inaccurate parameters, and other distance prediction schemes such as Low-rank Matrix Completion. In particular, we achieve a prediction error of less than one hop with only 1% of sampled distances from the social network. OSP can be easily extended to other domains such as random networks by choosing an appropriate model to generate synthetic training data, and therefore promises to impact many different network learning problems.
翻訳日:2021-06-13 08:19:50 公開日:2021-06-06
# (参考訳) 不変リスク最小化のためのより良いユニットテストの呼び出し

A call for better unit testing for invariant risk minimisation ( http://arxiv.org/abs/2106.03234v1 )

ライセンス: CC BY 4.0
Chunyang Xiao, Pranava Madhyastha(参考訳) 本稿では,Arjovskyらによって導入された線形化IRM(IRMv1)フレームワークに関する制御研究について述べる。 (2020). IRMv1(とその変種)フレームワークは、最適回帰器の小さな変更で不安定になる可能性がある。 これは、すべてのトレーニング環境が混ざり合った場合のグローバル最小値に単純に収束するermと比較しても、新しい環境への一般化を悪化させる可能性がある。 IRMv1セットアップにおけるスケーリングの状況についても強調する。 これらの観察は、irmへの進歩を測定する上で、厳密な評価とユニットテストの重要性を強調している。

In this paper we present a controlled study on the linearized IRM framework (IRMv1) introduced in Arjovsky et al. (2020). We show that IRMv1 (and its variants) framework can be potentially unstable under small changes to the optimal regressor. This can, notably, lead to worse generalisation to new environments, even compared with ERM which converges simply to the global minimum for all training environments mixed up all together. We also highlight the isseus of scaling in the the IRMv1 setup. These observations highlight the importance of rigorous evaluation and importance of unit-testing for measuring progress towards IRM.
翻訳日:2021-06-13 08:06:53 公開日:2021-06-06
# (参考訳) CNNにおける研究バイアスと二酸化炭素排出量削減の重要性

Highlighting the Importance of Reducing Research Bias and Carbon Emissions in CNNs ( http://arxiv.org/abs/2106.03242v1 )

ライセンス: CC BY 4.0
Ahmed Badar, Arnav Varma, Adrian Staniec, Mahmoud Gamal, Omar Magdy, Haris Iqbal, Elahe Arani and Bahram Zonooz(参考訳) 畳み込みニューラルネットワーク(cnns)は,コンピュータビジョンにおける大きな課題に対処する上で,一般的である。 研究者は新しいcnnアーキテクチャを考案するだけでなく、既存のアーキテクチャのパフォーマンスを改善するためのさまざまな技術も研究している。 しかし、単純さ、汎用性、比較の公正性、エネルギー効率といった重要な変数を無視しながら、性能改善を過度に強調する傾向がある。 建築設計と評価においてこれらの変数を見渡すことは、研究バイアスと環境影響を著しく否定する結果となった。 さらに、これは、ディープラーニングモデルを使用して気候変動に取り組む研究のポジティブな影響を弱める可能性がある。 本稿では,各手法のセグメンテーションと分類における有用性を評価するため,提案手法の多岐にわたる公平な実証研究を行う。 私たちの発見は、モデル設計(occamのrazor)の複雑さよりも単純さを優先することの重要性を裏付けています。 さらに, 簡易な標準化により, 環境への影響が著しく減少し, 性能が低下することが示唆された。 我々は、研究バイアスや二酸化炭素排出量の問題を緩和するために、CNNの設計と評価を再考する必要があることを強調する。

Convolutional neural networks (CNNs) have become commonplace in addressing major challenges in computer vision. Researchers are not only coming up with new CNN architectures but are also researching different techniques to improve the performance of existing architectures. However, there is a tendency to over-emphasize performance improvement while neglecting certain important variables such as simplicity, versatility, the fairness of comparisons, and energy efficiency. Overlooking these variables in architectural design and evaluation has led to research bias and a significantly negative environmental impact. Furthermore, this can undermine the positive impact of research in using deep learning models to tackle climate change. Here, we perform an extensive and fair empirical study of a number of proposed techniques to gauge the utility of each technique for segmentation and classification. Our findings restate the importance of favoring simplicity over complexity in model design (Occam's Razor). Furthermore, our results indicate that simple standardized practices can lead to a significant reduction in environmental impact with little drop in performance. We highlight that there is a need to rethink the design and evaluation of CNNs to alleviate the issue of research bias and carbon emissions.
翻訳日:2021-06-13 08:00:23 公開日:2021-06-06
# (参考訳) パフォーマンス保証によるニューラルアクティブラーニング

Neural Active Learning with Performance Guarantees ( http://arxiv.org/abs/2106.03243v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Christoph Dann, Claudio Gentile, Ayush Sekhari, Zhilei Wang(参考訳) 本研究では,非パラメトリック環境におけるストリーミング環境におけるアクティブラーニングの問題点について検討する。 我々は最近提案されたニューラル・タンジェント・カーネル(NTK)近似ツールを用いて、アルゴリズムが操作する特徴空間と学習したモデルを上から計算する適切なニューラル埋め込みを構築する。 ラベル要求しきい値の形状は学習する関数の複雑さと密接に関連しているため、事前の知識に依存しないアルゴリズムのバージョンも導出する。 このアルゴリズムは、結果として生じるオンラインモデル選択問題を解決するために後悔のバランスの仕組みに依存しており、計算効率が高い。 ラベル付け関数の複雑さに依存する累積的後悔と要求されたラベル数に関する共同保証を実証する。 線形の場合、これらは標準統計学習環境におけるラベル複雑性の関数として一般化誤差の既知のミニマックス結果の回復を保証する。

We investigate the problem of active learning in the streaming setting in non-parametric regimes, where the labels are stochastically generated from a class of functions on which we make no assumptions whatsoever. We rely on recently proposed Neural Tangent Kernel (NTK) approximation tools to construct a suitable neural embedding that determines the feature space the algorithm operates on and the learned model computed atop. Since the shape of the label requesting threshold is tightly related to the complexity of the function to be learned, which is a-priori unknown, we also derive a version of the algorithm which is agnostic to any prior knowledge. This algorithm relies on a regret balancing scheme to solve the resulting online model selection problem, and is computationally efficient. We prove joint guarantees on the cumulative regret and number of requested labels which depend on the complexity of the labeling function at hand. In the linear case, these guarantees recover known minimax results of the generalization error as a function of the label complexity in a standard statistical learning setting.
翻訳日:2021-06-13 07:33:09 公開日:2021-06-06
# (参考訳) ウィンドウラベルランキングを用いた抽出研究スライド生成

Extractive Research Slide Generation Using Windowed Labeling Ranking ( http://arxiv.org/abs/2106.03246v1 )

ライセンス: CC0 1.0
Athar Sefid, Jian Wu, Prasenjit Mitra, Lee Giles(参考訳) 科学論文や技術論文の内容を説明するプレゼンテーションスライドは、その作品を提示するための効率的かつ効果的な方法です。 しかし、手動でプレゼンテーションスライドを生成するのは労力がかかります。 本研究では,会議報告サイトから編集された5,000組の紙スリッドペアのコーパスに基づいて,科学論文のスライドを自動生成する手法を提案する。 本手法の文ラベリングモジュールは,抽出要約のためのニューラルネットワークモデルであるsummarunnerに基づいている。 本アルゴリズムは,文書全体の意味的類似性に基づいて文をランク付けする代わりに,文ウィンドウ内の意味的特徴と語彙的特徴を組み合わせることにより,文の重要性と新しさを測定する。 提案手法は,ROUGEスコアにおいて有意差でSummaRuNNerを含むいくつかのベースライン手法より優れている。

Presentation slides describing the content of scientific and technical papers are an efficient and effective way to present that work. However, manually generating presentation slides is labor intensive. We propose a method to automatically generate slides for scientific papers based on a corpus of 5000 paper-slide pairs compiled from conference proceedings websites. The sentence labeling module of our method is based on SummaRuNNer, a neural sequence model for extractive summarization. Instead of ranking sentences based on semantic similarities in the whole document, our algorithm measures importance and novelty of sentences by combining semantic and lexical features within a sentence window. Our method outperforms several baseline methods including SummaRuNNer by a significant margin in terms of ROUGE score.
翻訳日:2021-06-13 06:48:05 公開日:2021-06-06
# (参考訳) Tabular Data: ディープラーニングは必要なすべてではない

Tabular Data: Deep Learning is Not All You Need ( http://arxiv.org/abs/2106.03253v1 )

ライセンス: CC BY 4.0
Ravid Shwartz-Ziv and Amitai Armon(参考訳) AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。 表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。 しかし、最近、いくつかのユースケースでXGBoostより優れていると主張する表型データのためのディープラーニングモデルが提案されている。 本稿では,新しい深層モデルと各種データセットのxgboostを厳密に比較することにより,これらの深層モデルが表データに推奨される選択肢であるかどうかを検討する。 その精度を体系的に比較するだけでなく、チューニングや計算も検討する。 我々の研究によると、XGBoostは、深層モデルを提案する論文で使用されるデータセットを含む、これらの深層モデルよりも優れている。 また、XGBoostはずっと少ないチューニングを必要とします。 ポジティブな側面として、深層モデルとxgboostのアンサンブルは、xgboost単独よりもこれらのデータセットで優れたパフォーマンスを示す。

A key element of AutoML systems is setting the types of models that will be used for each type of task. For classification and regression problems with tabular data, the use of tree ensemble models (like XGBoost) is usually recommended. However, several deep learning models for tabular data have recently been proposed, claiming to outperform XGBoost for some use-cases. In this paper, we explore whether these deep models should be a recommended option for tabular data, by rigorously comparing the new deep models to XGBoost on a variety of datasets. In addition to systematically comparing their accuracy, we consider the tuning and computation they require. Our study shows that XGBoost outperforms these deep models across the datasets, including datasets used in the papers that proposed the deep models. We also demonstrate that XGBoost requires much less tuning. On the positive side, we show that an ensemble of the deep models and XGBoost performs better on these datasets than XGBoost alone.
翻訳日:2021-06-13 06:41:26 公開日:2021-06-06
# (参考訳) 列変換における潜在アライメントのモデル化のための構造的順序付け

Structured Reordering for Modeling Latent Alignments in Sequence Transduction ( http://arxiv.org/abs/2106.03257v1 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) 多くのドメインで成功しているにもかかわらず、ニューラルモデルは、異なるディストリビューションから列車とテスト例が引き出される設定で苦労している。 特に、人間とは対照的に、従来のシーケンシャル・ツー・シークエンス(seq2seq)モデルは、訓練で見られる概念(例えばテキストセグメント)の新しい組み合わせを表す文を体系的に一般化することができない。 伝統的な文法形式は、入力セグメントと出力セグメントの間のアライメントを暗黙的にエンコードすることでこのような設定で優れているが、スケールや保守は困難である。 文法を設計する代わりに、セグメント間アライメントを直接、ニューラルセク2セックモデル内の離散構造付き潜在変数としてモデル化する。 アライメントの大きな空間を効率的に探究するために、中央コンポーネントが"it separable} 置換を生成する神経再順序付けモジュールであるリオーダーファーストアライメント・アライメント・アライメント・アライメント・アライメントフレームワークを導入する。 本稿では,分離可能な置換の正確な辺縁推論を行う効率的な動的プログラミングアルゴリズムを提案する。 結果のSeq2seqモデルは、合成問題やNLPタスク(セマンティックパーシングや機械翻訳)の標準モデルよりも体系的な一般化が優れている。

Despite success in many domains, neural models struggle in settings where train and test examples are drawn from different distributions. In particular, in contrast to humans, conventional sequence-to-sequence (seq2seq) models fail to generalize systematically, i.e., interpret sentences representing novel combinations of concepts (e.g., text segments) seen in training. Traditional grammar formalisms excel in such settings by implicitly encoding alignments between input and output segments, but are hard to scale and maintain. Instead of engineering a grammar, we directly model segment-to-segment alignments as discrete structured latent variables within a neural seq2seq model. To efficiently explore the large space of alignments, we introduce a reorder-first align-later framework whose central component is a neural reordering module producing {\it separable} permutations. We present an efficient dynamic programming algorithm performing exact marginal inference of separable permutations, and, thus, enabling end-to-end differentiable training of our model. The resulting seq2seq model exhibits better systematic generalization than standard models on synthetic problems and NLP tasks (i.e., semantic parsing and machine translation).
翻訳日:2021-06-13 06:15:45 公開日:2021-06-06
# 知らない時を知る: 知覚に基づく分析タスクのためのベイズ連続学習

Knowing when we do not know: Bayesian continual learning for sensing-based analysis tasks ( http://arxiv.org/abs/2106.05872v1 )

ライセンス: Link先を確認
Sandra Servia-Rodriguez, Cecilia Mascolo and Young D. Kwon(参考訳) 従来の機械学習モデルが獲得した知識を忘れることなく、タスクやデータ分布を連続的に学習することを可能にすることを目的とした多くの研究にもかかわらず、いくつかのタスクを正確に学習することが以前の知識を忘れるより重要になるような現実的状況を説明することには、ほとんど努力が払われていない。 本稿では,事前学習したタスクの記憶や新しいタスクの学習を優先するために調整可能な,実世界のセンシングに基づく分析タスクのセットを継続的に学習するベイズ推論に基づくフレームワークを提案する。 本実験は,学習モデルのロバスト性と信頼性を,変化するセンシング環境に適応することを示すとともに,その信頼性を評価するために予測の不確実性を用いることが適切であることを示す。

Despite much research targeted at enabling conventional machine learning models to continually learn tasks and data distributions sequentially without forgetting the knowledge acquired, little effort has been devoted to account for more realistic situations where learning some tasks accurately might be more critical than forgetting previous ones. In this paper we propose a Bayesian inference based framework to continually learn a set of real-world, sensing-based analysis tasks that can be tuned to prioritize the remembering of previously learned tasks or the learning of new ones. Our experiments prove the robustness and reliability of the learned models to adapt to the changing sensing environment, and show the suitability of using uncertainty of the predictions to assess their reliability.
翻訳日:2021-06-11 14:13:29 公開日:2021-06-06
# 因果グラフ構造を識別するメタ学習手法

A Meta Learning Approach to Discerning Causal Graph Structure ( http://arxiv.org/abs/2106.05859v1 )

ライセンス: Link先を確認
Justin Wong and Dominik Damjakob(参考訳) 分布の単純度を最適化することにより,変数間の因果方向を導出するためのメタラーニングの活用について検討する。 潜在変数を含む確率グラフ表現を導入し、より一般化性とグラフ構造表現を可能にする。 我々のモデルは、潜在共同設立者の影響にもかかわらず、複雑なグラフ構造の因果方向インジケータを学習することができる。 さらに,分布的仮定とデータ不足の違反に関して,本手法の堅牢性について検討する。 我々のモデルは、特に控えめなデータ不足に対して堅牢であるが、分布の変化に対して堅牢ではない。 モデル予測を確率的事象として解釈することにより,偏りのある事象の平均として結果変動を減少させる単純なアンサンブル手法の分類法を提案する。 この方法論は、データ分布間の因果関係の方向だけでなく、その存在を推測する能力を示す。

We explore the usage of meta-learning to derive the causal direction between variables by optimizing over a measure of distribution simplicity. We incorporate a stochastic graph representation which includes latent variables and allows for more generalizability and graph structure expression. Our model is able to learn causal direction indicators for complex graph structures despite effects of latent confounders. Further, we explore robustness of our method with respect to violations of our distributional assumptions and data scarcity. Our model is particularly robust to modest data scarcity, but is less robust to distributional changes. By interpreting the model predictions as stochastic events, we propose a simple ensemble method classifier to reduce the outcome variability as an average of biased events. This methodology demonstrates ability to infer the existence as well as the direction of a causal relationship between data distributions.
翻訳日:2021-06-11 14:04:00 公開日:2021-06-06
# (参考訳) 視覚表現のためのコントラスト学習法を理解し,改善する:レビュー

Understand and Improve Contrastive Learning Methods for Visual Representation: A Review ( http://arxiv.org/abs/2106.03259v1 )

ライセンス: CC BY 4.0
Ran Liu(参考訳) 従来の教師付き学習手法は、高価な手動ラベル付きデータに依存することと、一般化能力の制限や敵の攻撃に対する脆弱性といった弱点により、ボトルネックに直面している。 教師なし学習の一種としての有望な自己教師型学習は、手動ラベリングなしで効果的なデータ表現を学習できる可能性から人気を集めている。 自己教師付き学習アルゴリズムの中で、コントラスト学習はいくつかの研究分野で最先端のパフォーマンスを達成した。 本論文は,自己監督学習の重要な構成要素と限界を理解するための研究者の努力について,最新の分析を行うことを目的としている。

Traditional supervised learning methods are hitting a bottleneck because of their dependency on expensive manually labeled data and their weaknesses such as limited generalization ability and vulnerability to adversarial attacks. A promising alternative, self-supervised learning, as a type of unsupervised learning, has gained popularity because of its potential to learn effective data representations without manual labeling. Among self-supervised learning algorithms, contrastive learning has achieved state-of-the-art performance in several fields of research. This literature review aims to provide an up-to-date analysis of the efforts of researchers to understand the key components and the limitations of self-supervised learning.
翻訳日:2021-06-11 13:57:06 公開日:2021-06-06
# (参考訳) 制約充足問題解決のためのハイブリッドAPM-CPGSOアプローチ:リモートセンシングへの応用

A Hybrid APM-CPGSO Approach for Constraint Satisfaction Problem Solving: Application to Remote Sensing ( http://arxiv.org/abs/2106.05193v1 )

ライセンス: CC BY 4.0
Zouhayra Ayadi, Wadii Boulila, Imed Riadh Farah(参考訳) 制約満足度問題(CSP)は、様々な複雑な実世界の問題のモデル化と解決に積極的に用いられている。 しかし,cspの効率的な解法,特に大問題の解法の開発は困難かつ困難であることが証明されている。 既存の問題解決手法は多くの場合不適切である。 そのため,過去数十年間,ハイブリッドCSPによる問題解決手法が注目されている。 本稿では,不完全かつ完全なCSP手法を組み合わせた問題解決手法を提案する。 提案手法は,群探索アルゴリズム(GSO)と制約伝搬法(CP)を利用して,リモートセンシング分野に関連する問題を解決する。 本研究は,GSOの改良版とCPのハイブリッド化を,複雑な制約に基づく問題の解法として提案する最初の研究である。 衛星画像における物体認識問題の解決のための実験が行われた。 その結果,提案手法の収束時間と実行時間の点で,従来手法と比較して優れた性能を示した。

Constraint satisfaction problem (CSP) has been actively used for modeling and solving a wide range of complex real-world problems. However, it has been proven that developing efficient methods for solving CSP, especially for large problems, is very difficult and challenging. Existing complete methods for problem-solving are in most cases unsuitable. Therefore, proposing hybrid CSP-based methods for problem-solving has been of increasing interest in the last decades. This paper aims at proposing a novel approach that combines incomplete and complete CSP methods for problem-solving. The proposed approach takes advantage of the group search algorithm (GSO) and the constraint propagation (CP) methods to solve problems related to the remote sensing field. To the best of our knowledge, this paper represents the first study that proposes a hybridization between an improved version of GSO and CP in the resolution of complex constraint-based problems. Experiments have been conducted for the resolution of object recognition problems in satellite images. Results show good performances in terms of convergence and running time of the proposed CSP-based method compared to existing state-of-the-art methods.
翻訳日:2021-06-11 13:44:23 公開日:2021-06-06
# (参考訳) 下流認識・無知事前学習のためのメタラーニング

Meta-learning for downstream aware and agnostic pretraining ( http://arxiv.org/abs/2106.03270v1 )

ライセンス: CC BY 4.0
Hongyin Luo, Shuyan Dong, Yung-Sung Chuang, Shang-Wen Li(参考訳) ニューラルネットワークの事前学習は、自然言語処理アプリケーションにおける優れた性能のために注目を集めている。 しかしながら、事前学習は通常、定義済みのタスクシーケンスを利用して、一般的な言語的手がかりを学ぶ。 事前訓練中に適切なタスクを選択するメカニズムの欠如は、学習と知識のコーディングを非効率にする。 そこで我々はメタラーニングを用いて,事前学習の各エピソードにおいて最も情報に富む学習信号を提供するタスクを選択することを提案する。 提案手法では,性能を維持しつつ,事前学習プロセスと結果として得られるネットワークの計算効率とメモリ使用率の向上を目標とする。 本稿では,本手法とその2つの変種である下流認識と下流認識事前学習のアルゴリズムについて検討する。 実験計画もまとめられ、実験結果が今後の作業で共有されます。

Neural network pretraining is gaining attention due to its outstanding performance in natural language processing applications. However, pretraining usually leverages predefined task sequences to learn general linguistic clues. The lack of mechanisms in choosing proper tasks during pretraining makes the learning and knowledge encoding inefficient. We thus propose using meta-learning to select tasks that provide the most informative learning signals in each episode of pretraining. With the proposed method, we aim to achieve better efficiency in computation and memory usage for the pretraining process and resulting networks while maintaining the performance. In this preliminary work, we discuss the algorithm of the method and its two variants, downstream-aware and downstream-agnostic pretraining. Our experiment plan is also summarized, while empirical results will be shared in our future works.
翻訳日:2021-06-11 13:31:07 公開日:2021-06-06
# (参考訳) 目的の数を増やしたらどうなるでしょう? 多目的最適化の理論的および実証的含意

What if we Increase the Number of Objectives? Theoretical and Empirical Implications for Many-objective Optimization ( http://arxiv.org/abs/2106.03275v1 )

ライセンス: CC BY 4.0
Richard Allmendinger, Andrzej Jaszkiewicz, Arnaud Liefooghe, Christiane Tammer(参考訳) 多目的最適化問題の解決の難しさは最適化対象の個数に影響される。 多くの目的が存在することは通常、最適化アルゴリズムの選択/設計に影響を与える多くの課題をもたらす。 本稿では,これらの課題の要因を,問題特性に対する対象数の影響,および,多くの目的に対応するための一般的な手順やアルゴリズムの実用的行動,という2つの角度から検討する。 様々なドライバのレビューに加えて,複数のドライバの定量化や,マルチ目的nkランドスケープおよび他の典型的なベンチマーク実験によって,ドライバを経験的に検証することにより,理論的に寄与する。 そこで我々は,アルゴリズム設計を支援するための実用的な勧告を導出するために,理論的および実証的な知見を利用する。 最後に,多目的・多目的最適化分野における今後の研究機会と理論ギャップについて考察する。

The difficulty of solving a multi-objective optimization problem is impacted by the number of objectives to be optimized. The presence of many objectives typically introduces a number of challenges that affect the choice/design of optimization algorithms. This paper investigates the drivers of these challenges from two angles: (i) the influence of the number of objectives on problem characteristics and (ii) the practical behavior of commonly used procedures and algorithms for coping with many objectives. In addition to reviewing various drivers, the paper makes theoretical contributions by quantifying some drivers and/or verifying these drivers empirically by carrying out experiments on multi-objective NK landscapes and other typical benchmarks. We then make use of our theoretical and empirical findings to derive practical recommendations to support algorithm design. Finally, we discuss remaining theoretical gaps and opportunities for future research in the area of multi- and many-objective optimization.
翻訳日:2021-06-11 13:25:48 公開日:2021-06-06
# DPER:ランダム欠落データの効率的なパラメータ推定

DPER: Efficient Parameter Estimation for Randomly Missing Data ( http://arxiv.org/abs/2106.05190v1 )

ライセンス: Link先を確認
Thu Nguyen, Khoi Minh Nguyen-Duy, Duy Ho Minh Nguyen, Binh T. Nguyen, and Bruce Alan Wade(参考訳) データ不足問題は過去数十年にわたって広く研究され、統計学やバイオインフォマティクスなど様々な分野に応用されている。 この課題に取り組むために多くの方法が開発されているが、そのほとんどは収束する前にデータを通して複数のイテレーションを必要とするインプテーション技術である。 さらに、そのようなアプローチは推定パラメータに余分なバイアスやノイズをもたらす可能性がある。 本研究では,軽度仮定の下で1クラス/複数クラスのランダムに欠落したデータセットの最大推定値(mles)を求める新しいアルゴリズムを提案する。 計算は命令を使わずに直接的に行われるため、我々のアルゴリズムは複数の反復をデータを通して必要とせず、優れた推定性能を維持しつつ、他の手法よりも時間を要することを約束する。 このような主張を,さまざまなサイズのデータセット上で実証的な結果として検証し,githubリポジトリ内のすべてのコードをリリースして,この問題に関連する研究コミュニティに寄与する。

The missing data problem has been broadly studied in the last few decades and has various applications in different areas such as statistics or bioinformatics. Even though many methods have been developed to tackle this challenge, most of those are imputation techniques that require multiple iterations through the data before yielding convergence. In addition, such approaches may introduce extra biases and noises to the estimated parameters. In this work, we propose novel algorithms to find the maximum likelihood estimates (MLEs) for a one-class/multiple-class randomly missing data set under some mild assumptions. As the computation is direct without any imputation, our algorithms do not require multiple iterations through the data, thus promising to be less time-consuming than other methods while maintaining superior estimation performance. We validate these claims by empirical results on various data sets of different sizes and release all codes in a GitHub repository to contribute to the research community related to this problem.
翻訳日:2021-06-10 15:16:21 公開日:2021-06-06
# (参考訳) 機能からmdpを学習する:強化学習による逐次的決定問題の予測最適化

Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning ( http://arxiv.org/abs/2106.03279v1 )

ライセンス: CC BY 4.0
Kai Wang, Sanket Shat, Haipeng Chen, Andrew Perrault, Finale Doshi-Velez, Milind Tambe(参考訳) 本研究の目的は,予測モデルを学習し,環境特徴から最適化問題のパラメータにマッピングすることで,最適化が解決された際の意思決定品質を最大化することである。 近年の意思決定中心学習の研究は、学習パイプラインに最適化問題を埋め込むことで、予測品質を評価するための中間損失関数に依存するよりも、意思決定品質を向上し、見つからないタスクを一般化できることを示している。 我々は,強化学習によって解決される逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討する。 特に、我々は環境機能と訓練mdpsからの一連の軌道が与えられ、これは軌道を持たないテストmdpsを一般化する予測モデルを訓練するために使用される。 1)大きな状態と行動空間は、MDP問題を通して差別化するための既存の技術にとって実現不可能であり、(2)ニューラルネットワークによってパラメータ化された高次元のポリシー空間は、ポリシーを通じて差別化を高くする。 本稿では, 確率的に不偏微分をサンプリングし, 最適条件により近似・微分し, 第二の課題を高次元サンプルベース微分への低ランク近似を用いて解決する。 我々は,パラメータの欠如を伴う3つの異なるmdp問題に対して,ベルマン型学習と政策勾配型意思決定型学習の両方を実装した。

In the predict-then-optimize framework, the objective is to train a predictive model, mapping from environment features to parameters of an optimization problem, which maximizes decision quality when the optimization is subsequently solved. Recent work on decision-focused learning shows that embedding the optimization problem in the training pipeline can improve decision quality and help generalize better to unseen tasks compared to relying on an intermediate loss function for evaluating prediction quality. We study the predict-then-optimize framework in the context of sequential decision problems (formulated as MDPs) that are solved via reinforcement learning. In particular, we are given environment features and a set of trajectories from training MDPs, which we use to train a predictive model that generalizes to unseen test MDPs without trajectories. Two significant computational challenges arise in applying decision-focused learning to MDPs: (i) large state and action spaces make it infeasible for existing techniques to differentiate through MDP problems, and (ii) the high-dimensional policy space, as parameterized by a neural network, makes differentiating through a policy expensive. We resolve the first challenge by sampling provably unbiased derivatives to approximate and differentiate through optimality conditions, and the second challenge by using a low-rank approximation to the high-dimensional sample-based derivatives. We implement both Bellman--based and policy gradient--based decision-focused learning on three different MDP problems with missing parameters, and show that decision-focused learning performs better in generalization to unseen tasks.
翻訳日:2021-06-10 14:41:34 公開日:2021-06-06
# (参考訳) DIPS-Plus:インターフェース予測のための相互作用タンパク質構造データベース

DIPS-Plus: The Enhanced Database of Interacting Protein Structures for Interface Prediction ( http://arxiv.org/abs/2106.04362v1 )

ライセンス: CC BY 4.0
Alex Morehead, Chen Chen, Ada Sedova, Jianlin Cheng(参考訳) タンパク質が相互にどのように相互作用するかは、最終的に他の様々な生物学的プロセスとともにタンパク質の機能に影響を及ぼす。 このように、タンパク質界面予測(PIP)の正確な計算手法は、薬物の発見と設計、およびタンパク質の機能解析において大きな進歩をもたらす可能性があるため、特に求められている。 しかしながら、このタスクの従来のベンチマークデータセットであるDocking Benchmark 5 (DB5)は、異なる機械学習アルゴリズムのトレーニング、検証、テストのためのパトリー230複合体のみを含む。 本研究は,最近導入されたタンパク質構造データベース(DIPS)から,タンパク質界面の幾何学的深層学習のための42,112複合体からなる機能豊富なデータセットであるDIPS-Plusへの拡張を行った。 以前のバージョンのDIPSは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含むが、DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列特徴を含む新しい残基レベルの特徴が多数含まれている。

How and where proteins interface with one another can ultimately impact the proteins' functions along with a range of other biological processes. As such, precise computational methods for protein interface prediction (PIP) come highly sought after as they could yield significant advances in drug discovery and design as well as protein function analysis. However, the traditional benchmark dataset for this task, Docking Benchmark 5 (DB5), contains only a paltry 230 complexes for training, validating, and testing different machine learning algorithms. In this work, we expand on a dataset recently introduced for this task, the Database of Interacting Protein Structures (DIPS), to present DIPS-Plus, an enhanced, feature-rich dataset of 42,112 complexes for geometric deep learning of protein interfaces. The previous version of DIPS contains only the Cartesian coordinates and types of the atoms comprising a given protein complex, whereas DIPS-Plus now includes a plethora of new residue-level features including protrusion indices, half-sphere amino acid compositions, and new profile hidden Markov model (HMM)-based sequence features for each amino acid, giving researchers a large, well-curated feature bank for training protein interface prediction methods.
翻訳日:2021-06-10 14:16:34 公開日:2021-06-06
# DisTop:多様性と報酬のスキルを学ぶためのトポロジカル表現の発見

DisTop: Discovering a Topological representation to learn diverse and rewarding skills ( http://arxiv.org/abs/2106.03853v1 )

ライセンス: Link先を確認
Arthur Aubret, Laetitia matignon and Salima Hassas(参考訳) 深層強化学習(DRL)エージェントが探索する最適な方法は、状態の均一な分布を達成するための一連のスキルを学ぶことである。 これに続いて,多様なスキルを習得し,報酬スキルの向上に重点を置く,新たなモデルであるdistopを紹介する。 DisTopは、教師なしのコントラスト損失、成長するネットワーク、目標条件付きポリシーを用いて、環境の離散的なトポロジを段階的に構築する。 このトポロジーを使用して、状態に依存しない階層ポリシーは、エージェントが状態空間でスキルを発見する必要がある場所を選択することができる。 新たに訪れた状態によって学習表現が改善され、学習ループが継続される。 実験では、distopは基底状態表現に無依存であり、エージェントは状態が高次元のバイナリデータ、画像、あるいは固有入力であるかどうかに関わらず、その環境のトポロジーを発見できることを強調した。 このパラダイムは、シングルタスクの高密度報酬と多様なスキル発見の両面で、最先端のアルゴリズムとMuJoCoベンチマークの競合性を示す。 これらの2つの側面を組み合わせることで、報酬が不足している場合、Distopは階層的強化学習(HRL)と比較して最先端のパフォーマンスを達成することを示す。 DisTopは、ボトムアップスキル発見と表現学習を組み合わせることで、DRLの探索課題を解き放つことができることを示すことで、新たな視点を開拓すると考えている。

The optimal way for a deep reinforcement learning (DRL) agent to explore is to learn a set of skills that achieves a uniform distribution of states. Following this,we introduce DisTop, a new model that simultaneously learns diverse skills and focuses on improving rewarding skills. DisTop progressively builds a discrete topology of the environment using an unsupervised contrastive loss, a growing network and a goal-conditioned policy. Using this topology, a state-independent hierarchical policy can select where the agent has to keep discovering skills in the state space. In turn, the newly visited states allows an improved learnt representation and the learning loop continues. Our experiments emphasize that DisTop is agnostic to the ground state representation and that the agent can discover the topology of its environment whether the states are high-dimensional binary data, images, or proprioceptive inputs. We demonstrate that this paradigm is competitiveon MuJoCo benchmarks with state-of-the-art algorithms on both single-task dense rewards and diverse skill discovery. By combining these two aspects, we showthat DisTop achieves state-of-the-art performance in comparison with hierarchical reinforcement learning (HRL) when rewards are sparse. We believe DisTop opens new perspectives by showing that bottom-up skill discovery combined with representation learning can unlock the exploration challenge in DRL.
翻訳日:2021-06-09 15:50:12 公開日:2021-06-06
# CAPE: 連続拡張位置埋め込みによる相対位置の符号化

CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings ( http://arxiv.org/abs/2106.03143v1 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Qiantong Xu, Ronan Collobert, Gabriel Synnaeve, Alex Rogozhnikov(参考訳) 位置情報がないと、注意に基づくトランスフォーマーニューラルネットワークは置換不変である。 絶対的または相対的な位置埋め込みは、トランスフォーマーモデルの位置情報を供給するための最も一般的な方法である。 絶対的な位置埋め込みは実装が簡単であるが、トレーニング時に見られるものと異なる長さのシーケンスを評価する際に一般化の問題に悩まされる。 相対的な位置は長さの変化に対してより堅牢であるが、劣るモデルのスループットの実装と出力がより複雑である。 本稿では,絶対位置埋め込みと相対位置埋め込み(より一般化)の両方の利点を保ちつつ,絶対位置埋め込みのための拡張ベースアプローチ(cape)を提案する。 さらに,機械翻訳,画像,音声認識における最先端モデルに対する経験的評価から,capaは一般化性能の向上と,ハイパーパラメータのトレーニングにおける安定性の向上につながることが示された。

Without positional information, attention-based transformer neural networks are permutation-invariant. Absolute or relative positional embeddings are the most popular ways to feed transformer models positional information. Absolute positional embeddings are simple to implement, but suffer from generalization issues when evaluating on sequences of different length than those seen at training time. Relative positions are more robust to length change, but are more complex to implement and yield inferior model throughput. In this paper, we propose an augmentation-based approach (CAPE) for absolute positional embeddings, which keeps the advantages of both absolute (simplicity and speed) and relative position embeddings (better generalization). In addition, our empirical evaluation on state-of-the-art models in machine translation, image and speech recognition demonstrates that CAPE leads to better generalization performance as well as increased stability with respect to training hyper-parameters.
翻訳日:2021-06-08 18:50:36 公開日:2021-06-06
# 関数空間における信頼できる事前学習

Meta-Learning Reliable Priors in the Function Space ( http://arxiv.org/abs/2106.03195v1 )

ライセンス: Link先を確認
Jonas Rothfuss, Dominique Heyn, Jinfan Chen, Andreas Krause(参考訳) Meta-Learningは、関連する学習タスクから以前の経験を活用することで、よりデータ効率の高い推論を可能にする。 既存のメタラーニング手法は、データの不足に直面した予測の精度を向上させるのに役立ちますが、信頼性の高い不確実性推定は提供できません。 これらの欠点に対処するために,メタ学習を確率的プロセスとして扱うF-PACOHという新しいメタ学習フレームワークを導入し,関数空間内で直接メタレベル正規化を行う。 これにより、メタ学習データ不足領域における高い認識不確実性に向けて、メタ学習者の確率的予測を直接制御し、十分な不確実性推定を得ることができる。 最後に,信頼性の高い不確実性定量化が不可欠である逐次的意思決定と,我々のアプローチをどのように統合できるかを示す。 ベイズ最適化(BO)のメタラーニングに関するベンチマーク研究において、F-PACOHは他のメタラーナーや標準ベースラインよりも優れていた。 最適化タスクが一度に1つずつ到着し,メタラーナーが情報的事前知識を段階的に構築する必要がある,長寿命のBO設定においても,提案手法は強い肯定的伝達を示す。

Meta-Learning promises to enable more data-efficient inference by harnessing previous experience from related learning tasks. While existing meta-learning methods help us to improve the accuracy of our predictions in face of data scarcity, they fail to supply reliable uncertainty estimates, often being grossly overconfident in their predictions. Addressing these shortcomings, we introduce a novel meta-learning framework, called F-PACOH, that treats meta-learned priors as stochastic processes and performs meta-level regularization directly in the function space. This allows us to directly steer the probabilistic predictions of the meta-learner towards high epistemic uncertainty in regions of insufficient meta-training data and, thus, obtain well-calibrated uncertainty estimates. Finally, we showcase how our approach can be integrated with sequential decision making, where reliable uncertainty quantification is imperative. In our benchmark study on meta-learning for Bayesian Optimization (BO), F-PACOH significantly outperforms all other meta-learners and standard baselines. Even in a challenging lifelong BO setting, where optimization tasks arrive one at a time and the meta-learner needs to build up informative prior knowledge incrementally, our proposed method demonstrates strong positive transfer.
翻訳日:2021-06-08 18:50:22 公開日:2021-06-06
# デッドライン下のPACベストアーム識別

PAC Best Arm Identification Under a Deadline ( http://arxiv.org/abs/2106.03221v1 )

ライセンス: Link先を確認
Brijen Thananjeyan, Kirthevasan Kandasamy, Ion Stoica, Michael I. Jordan, Ken Goldberg, Joseph E. Gonzalez(参考訳) 我々は、$(\epsilon, \delta)$-PACベストアーム識別を研究し、意思決定者は、少なくとも1 - \delta$の確率で$\epsilon$-optimal armを識別し、アームプルの数を最小化する(サンプル)。 このトピックに関するほとんどの作業はシーケンシャルな設定で行われており、そのようなアームを特定するために使われる \emph{time} に制約はない。 この作業では、意思決定者はt$ラウンドの期限が与えられ、各ラウンドにおいて、どのアームを引くか、何回引くかを適応的に選択することができる。 このような状況は、テスト対象の数を最小化しながら、期限付きで有望な治療を特定できる臨床試験や、シミュレーションベースの研究をクラウド上で実行し、仮想マシンの数を弾力的にスケールアップまたは縮小して、私たちが望む限り多くの実験を行うことができるが、使用したリソース時間に対して支払う必要がある、という臨床試験で発生します。 意思決定者は、t$の意思決定しかできないので、あらゆる可能な問題にうまく取り組むためには、シーケンシャルなアルゴリズムに対して過度に手を差し伸べる必要があるかもしれない。 この難易度を2つの難易度で定式化し、逐次的な設定とは異なり、難易度に適応する能力は有限の期限によって制約されることを示した。 本稿では,この設定のための新しいアルゴリズムであるElastic Batch Racing (EBR)を提案する。 本研究では,この設定におけるERRの評価を行い,数桁の精度でベースラインを上回ります。

We study $(\epsilon, \delta)$-PAC best arm identification, where a decision-maker must identify an $\epsilon$-optimal arm with probability at least $1 - \delta$, while minimizing the number of arm pulls (samples). Most of the work on this topic is in the sequential setting, where there is no constraint on the \emph{time} taken to identify such an arm; this allows the decision-maker to pull one arm at a time. In this work, the decision-maker is given a deadline of $T$ rounds, where, on each round, it can adaptively choose which arms to pull and how many times to pull them; this distinguishes the number of decisions made (i.e., time or number of rounds) from the number of samples acquired (cost). Such situations occur in clinical trials, where one may need to identify a promising treatment under a deadline while minimizing the number of test subjects, or in simulation-based studies run on the cloud, where we can elastically scale up or down the number of virtual machines to conduct as many experiments as we wish, but need to pay for the resource-time used. As the decision-maker can only make $T$ decisions, she may need to pull some arms excessively relative to a sequential algorithm in order to perform well on all possible problems. We formalize this added difficulty with two hardness results that indicate that unlike sequential settings, the ability to adapt to the problem difficulty is constrained by the finite deadline. We propose Elastic Batch Racing (EBR), a novel algorithm for this setting and bound its sample complexity, showing that EBR is optimal with respect to both hardness results. We present simulations evaluating EBR in this setting, where it outperforms baselines by several orders of magnitude.
翻訳日:2021-06-08 18:49:58 公開日:2021-06-06
# 命令微分を用いた制御指向モデルベース強化学習

Control-Oriented Model-Based Reinforcement Learning with Implicit Differentiation ( http://arxiv.org/abs/2106.03273v1 )

ライセンス: Link先を確認
Evgenii Nikishin, Romina Abachi, Rishabh Agarwal, Pierre-Luc Bacon(参考訳) モデルベース強化学習の文脈における最大確率推定の欠点は、多くの論文で強調されている。 モデルクラスが誤って指定されたり、表現能力に制限がある場合、高い可能性のモデルパラメータは、下流制御タスクにおいてエージェントのハイパフォーマンスをもたらすとは限らない。 この問題を緩和するため,本研究では,暗黙差分法を用いて期待値を直接最適化するモデル学習のためのエンドツーエンドアプローチを提案する。 モデルによって誘導されるベルマン最適性作用素をモデルパラメータの暗黙的な関数として満足する値関数を扱い、その関数を区別する方法を示す。 モデルミス特定方式におけるアプローチの利点を,確率に基づく手法と比較した理論的,実証的な証拠を提供する。

The shortcomings of maximum likelihood estimation in the context of model-based reinforcement learning have been highlighted by an increasing number of papers. When the model class is misspecified or has a limited representational capacity, model parameters with high likelihood might not necessarily result in high performance of the agent on a downstream control task. To alleviate this problem, we propose an end-to-end approach for model learning which directly optimizes the expected returns using implicit differentiation. We treat a value function that satisfies the Bellman optimality operator induced by the model as an implicit function of model parameters and show how to differentiate the function. We provide theoretical and empirical evidence highlighting the benefits of our approach in the model misspecification regime compared to likelihood-based methods.
翻訳日:2021-06-08 18:49:25 公開日:2021-06-06
# DAMSL:ドメインに依存しないメタスコアベースの学習

DAMSL: Domain Agnostic Meta Score-based Learning ( http://arxiv.org/abs/2106.03041v1 )

ライセンス: Link先を確認
John Cai, Bill Cai, Shengmei Shen(参考訳) 本稿では,ドメインに依存しないメタスコアベース学習(DAMSL)を提案する。 我々は,従来のメタ学習手法がソースドメインに過度に適合する点と,サポートセットの構造を応用した過去のトランスファー学習手法の問題点を同定する。 提案手法の中核となる考え方は、細調整された特徴エンコーダのスコアを直接使用する代わりに、これらのスコアを使用して、ドメインに依存しない計量空間の入力座標を生成することである。 グラフニューラルネットワークを用いてこれらの座標上の埋め込みと関係関数を学習し、支持セットのスコア分布に含まれる全ての情報を処理する。 我々は,確立されたCD-FSLベンチマークと新しいドメインの両方でモデルを検証し,従来のメタラーニングおよびトランスファーラーニング手法の限界を克服し,より小さなドメインシフトと大きなドメインシフトの両方で精度を大幅に向上させることを示す。

In this paper, we propose Domain Agnostic Meta Score-based Learning (DAMSL), a novel, versatile and highly effective solution that delivers significant out-performance over state-of-the-art methods for cross-domain few-shot learning. We identify key problems in previous meta-learning methods over-fitting to the source domain, and previous transfer-learning methods under-utilizing the structure of the support set. The core idea behind our method is that instead of directly using the scores from a fine-tuned feature encoder, we use these scores to create input coordinates for a domain agnostic metric space. A graph neural network is applied to learn an embedding and relation function over these coordinates to process all information contained in the score distribution of the support set. We test our model on both established CD-FSL benchmarks and new domains and show that our method overcomes the limitations of previous meta-learning and transfer-learning methods to deliver substantial improvements in accuracy across both smaller and larger domain shifts.
翻訳日:2021-06-08 18:47:20 公開日:2021-06-06
# 効率的な宝くじ発見:データが少ない方が多い

Efficient Lottery Ticket Finding: Less Data is More ( http://arxiv.org/abs/2106.03225v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Xuxi Chen, Tianlong Chen, Zhangyang Wang(参考訳) 抽選券仮説(LTH)は、密集ネットワークに対する当選券(少ないが重要なサブネット)の存在を明らかにし、後者の精度に合わせるためにランダム初期化から独立して訓練することができる。 しかし、入場券を見つけるには、特に大規模なデータセット(例えばImageNet)において、列車のプルー・リトラクションプロセスにおいて負担のかかる計算が必要となる。 そこで本稿では,Pruning-Aware critical set (PrAC set) と呼ばれる特別な選択されたデータのみを用いて,抽選券の発見を効率化する新たな視点について検討する。 pracセットの概念は、深層ネットワークがトレーニング中に記憶しにくいか、刈り取り時に忘れやすいサンプルを持っているという最近の観測から着想を得ている。 したがって、PrAC集合は、高密度モデルの最も困難で有益な例を捉えることができると仮定される。 我々は,非常にコンパクトなPrACセット上で,高品位な入賞券をトレーニングおよびプルーニングすることで,チケット発見プロセスのトレーニングイテレーションを大幅に短縮することができることを観察した。 広範な実験により、さまざまなデータセットとネットワークアーキテクチャにまたがる提案が検証される。 具体的には、CIFAR-10、CIFAR-100、Tiny ImageNetでは、トレーニングセットサイズの35.32%~78.19%に有効なPrACセットを配置する。 その上、対応する密集したネットワークで同じ競争勝利チケットを入手できますが、82.85%~92.77%、63.54%~74.92%、76.14%~86.56%のトレーニングイテレーションを節約できます。 重要なことは,PrACセットは異なるネットワークアーキテクチャで再利用可能であることを示し,PrACセットの発見に要する余分なコストを減らし,より効率的な宝くじの発見のための実用的な仕組みをもたらす。

The lottery ticket hypothesis (LTH) reveals the existence of winning tickets (sparse but critical subnetworks) for dense networks, that can be trained in isolation from random initialization to match the latter's accuracies. However, finding winning tickets requires burdensome computations in the train-prune-retrain process, especially on large-scale datasets (e.g., ImageNet), restricting their practical benefits. This paper explores a new perspective on finding lottery tickets more efficiently, by doing so only with a specially selected subset of data, called Pruning-Aware Critical set (PrAC set), rather than using the full training set. The concept of PrAC set was inspired by the recent observation, that deep networks have samples that are either hard to memorize during training, or easy to forget during pruning. A PrAC set is thus hypothesized to capture those most challenging and informative examples for the dense model. We observe that a high-quality winning ticket can be found with training and pruning the dense network on the very compact PrAC set, which can substantially save training iterations for the ticket finding process. Extensive experiments validate our proposal across diverse datasets and network architectures. Specifically, on CIFAR-10, CIFAR-100, and Tiny ImageNet, we locate effective PrAC sets at 35.32%~78.19% of their training set sizes. On top of them, we can obtain the same competitive winning tickets for the corresponding dense networks, yet saving up to 82.85%~92.77%, 63.54%~74.92%, and 76.14%~86.56% training iterations, respectively. Crucially, we show that a PrAC set found is reusable across different network architectures, which can amortize the extra cost of finding PrAC sets, yielding a practical regime for efficient lottery ticket finding.
翻訳日:2021-06-08 18:47:00 公開日:2021-06-06
# 感情認識チャットマシン:人間のような感情インタラクションのための自動感情応答生成

Emotion-aware Chat Machine: Automatic Emotional Response Generation for Human-like Emotional Interaction ( http://arxiv.org/abs/2106.03044v1 )

ライセンス: Link先を確認
Wei Wei, Jiayi Liu, Xianling Mao, Guibing Guo, Feida Zhu, Pan Zhou, Yuchong Hu(参考訳) 意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。 しかし、ほとんどのアプローチは、反応を生成しながら投稿が伝える感情情報を無視しているため、この課題は文献ではうまく解決されていない。 本稿は,感情を適切に表現し,よりインテリジェントな応答を生成するための投稿において,意味論と感情を同時にエンコードすることが可能な,エンドツーエンドのニューラルネットワークを提案することで,この問題に対処します。 実世界データに対する広範囲な実験により,提案手法が,コンテンツの一貫性と感情の適切性という観点から,最先端手法よりも優れていることが示された。

The consistency of a response to a given post at semantic-level and emotional-level is essential for a dialogue system to deliver human-like interactions. However, this challenge is not well addressed in the literature, since most of the approaches neglect the emotional information conveyed by a post while generating responses. This article addresses this problem by proposing a unifed end-to-end neural architecture, which is capable of simultaneously encoding the semantics and the emotions in a post for generating more intelligent responses with appropriately expressed emotions. Extensive experiments on real-world data demonstrate that the proposed method outperforms the state-of-the-art methods in terms of both content coherence and emotion appropriateness.
翻訳日:2021-06-08 18:45:11 公開日:2021-06-06
# 逆推論による言語理解の強化

Empowering Language Understanding with Counterfactual Reasoning ( http://arxiv.org/abs/2106.03046v1 )

ライセンス: Link先を確認
Fuli Feng, Jizhi Zhang, Xiangnan He, Hanwang Zhang, Tat-Seng Chua(参考訳) 現在、言語理解手法は機械学習によってテキストのパターンを認識できる並外れた能力を示している。 しかし、既存の手法では、テストフェーズで認識されたパターンを無差別に使用し、例えば、ハードテストのサンプルを検査するために、反事実的思考を持つ米国人間とは本質的に異なる。 そこで本研究では,反現実的思考を模倣した反現実的推論モデルを提案する。 特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。 感情分析(SA)と自然言語推論(NLI)の大規模な実験により,本手法の有効性が検証された。

Present language understanding methods have demonstrated extraordinary ability of recognizing patterns in texts via machine learning. However, existing methods indiscriminately use the recognized patterns in the testing phase that is inherently different from us humans who have counterfactual thinking, e.g., to scrutinize for the hard testing samples. Inspired by this, we propose a Counterfactual Reasoning Model, which mimics the counterfactual thinking by learning from few counterfactual samples. In particular, we devise a generation module to generate representative counterfactual samples for each factual sample, and a retrospective module to retrospect the model prediction by comparing the counterfactual and factual samples. Extensive experiments on sentiment analysis (SA) and natural language inference (NLI) validate the effectiveness of our method.
翻訳日:2021-06-08 18:45:00 公開日:2021-06-06
# 低リソース・多言語機械翻訳のためのFLORES-101評価ベンチマーク

The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation ( http://arxiv.org/abs/2106.03193v1 )

ライセンス: Link先を確認
Naman Goyal, Cynthia Gao, Vishrav Chaudhary, Peng-Jen Chen, Guillaume Wenzek, Da Ju, Sanjana Krishnan, Marc'Aurelio Ranzato, Francisco Guzman, Angela Fan(参考訳) 低リソースおよび多言語機械翻訳の進歩を妨げる最大の課題の1つは、優れた評価ベンチマークの欠如である。 現在の評価ベンチマークでは、低リソース言語のカバレッジが不足しているか、制限されたドメインのみを考慮するか、半自動的な手順で構築されているため品質が低いかのどちらかである。 本研究では、英語ウィキペディアから抽出された3001文と、さまざまなトピックやドメインをカバーするFLORES-101評価ベンチマークを紹介する。 これらの文は、注意深く制御されたプロセスを通じて、プロの翻訳者によって101言語で翻訳された。 その結果得られたデータセットは、多対多の多言語翻訳システムの評価を含む、低リソース言語のロングテールにおけるモデル品質のより良い評価を可能にする。 このような高品質で高カバレッジなデータセットを一般公開することで、機械翻訳コミュニティの進歩を後押ししたいと思っています。

One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.
翻訳日:2021-06-08 18:44:47 公開日:2021-06-06
# 歩行周期を用いた3次元畳み込みニューラルネットワークによる人物識別

3D Convolution Neural Network based Person Identification using Gait cycles ( http://arxiv.org/abs/2106.03136v1 )

ライセンス: Link先を確認
Ravi Shekhar Tiwari, Supraja P, Rijo Jackson Tom(参考訳) 人間の識別はセキュリティにおいて顕著な役割を果たす。 現代では、セキュリティは個人や国、特に内外の脅威に直面している国にとって重要な用語になりつつある。 歩行分析は、人間の機関車の系統的研究として解釈される。 個人の正確な歩行特徴を抽出するために使用できる。 歩行の特徴は生物や物体の物理的特徴に依存するため、個々の個体に固有のものである。 本研究では、個人を特定するために歩行特徴を用いる。 ステップには、オブジェクト検出、背景サブトラクション、シルエット抽出、スケルトン化、およびこれらの歩行特徴に対する3d畳み込みニューラルネットワークのトレーニングが含まれる。 CASIA B Gaitは、バッグやコートなどの物体を運ぶ11の異なる角度から撮影された124人の歩行パターンの15,000の動画で構成されている。 提案手法は, 膝と大腿の角度, 股関節角度, 接触角度, その他の特徴を抽出するために, より下半身に焦点をあてる。 実験結果は,トレーニング用データセットとしてのシルエットとトレーニングデータとしての骨格画像の比較を行った。 その結果,スケルトン化データから情報を抽出すると精度が向上した。

Human identification plays a prominent role in terms of security. In modern times security is becoming the key term for an individual or a country, especially for countries which are facing internal or external threats. Gait analysis is interpreted as the systematic study of the locomotive in humans. It can be used to extract the exact walking features of individuals. Walking features depends on biological as well as the physical feature of the object; hence, it is unique to every individual. In this work, gait features are used to identify an individual. The steps involve object detection, background subtraction, silhouettes extraction, skeletonization, and training 3D Convolution Neural Network on these gait features. The model is trained and evaluated on the dataset acquired by CASIA B Gait, which consists of 15000 videos of 124 subjects walking pattern captured from 11 different angles carrying objects such as bag and coat. The proposed method focuses more on the lower body part to extract features such as the angle between knee and thighs, hip angle, angle of contact, and many other features. The experimental results are compared with amongst accuracies of silhouettes as datasets for training and skeletonized image as training data. The results show that extracting the information from skeletonized data yields improved accuracy.
翻訳日:2021-06-08 18:42:35 公開日:2021-06-06
# Persistent Homology を用いた深部ニューラルネットワークの位相計測

Topological Measurement of Deep Neural Networks Using Persistent Homology ( http://arxiv.org/abs/2106.03016v1 )

ライセンス: Link先を確認
Satoru Watanabe, Hayato Yamana(参考訳) ディープニューラルネットワーク(DNN)の内部表現は解読不可能であり、DNNモデルのチューニングやトレーニングプロセスの制御、出力の解釈が困難になる。 本稿では,DNNの内部表現をトポロジカルデータ解析(TDA)を用いて研究する手法を提案する。 TDAにおける優れた手法の一つである持続ホモロジー(PH)は、訓練されたDNNの複雑さを調べるために採用された。 トレーニングDNN上に斜交錯体を構築し,DNNの1次元PHを計算した。 phは異なる解像度でdnnの複数のニューロンの組み合わせ効果を示し、phを使わずに捕獲することは困難である。 MNISTとCIFAR-10データセットに基づいて、FCNと畳み込みニューラルネットワーク(CNN)を組み合わせた完全接続ネットワーク(FCN)とネットワークを用いて評価を行った。 評価の結果、DNNのPHは神経細胞の過剰と問題難易度の両方を反映しており、DNNの内部表現を調査するための重要な方法の1つとなっている。

The inner representation of deep neural networks (DNNs) is indecipherable, which makes it difficult to tune DNN models, control their training process, and interpret their outputs. In this paper, we propose a novel approach to investigate the inner representation of DNNs through topological data analysis (TDA). Persistent homology (PH), one of the outstanding methods in TDA, was employed for investigating the complexities of trained DNNs. We constructed clique complexes on trained DNNs and calculated the one-dimensional PH of DNNs. The PH reveals the combinational effects of multiple neurons in DNNs at different resolutions, which is difficult to be captured without using PH. Evaluations were conducted using fully connected networks (FCNs) and networks combining FCNs and convolutional neural networks (CNNs) trained on the MNIST and CIFAR-10 data sets. Evaluation results demonstrate that the PH of DNNs reflects both the excess of neurons and problem difficulty, making PH one of the prominent methods for investigating the inner representation of DNNs.
翻訳日:2021-06-08 18:39:51 公開日:2021-06-06
# 原子干渉による協調因果発見

Collaborative Causal Discovery with Atomic Interventions ( http://arxiv.org/abs/2106.03028v1 )

ライセンス: Link先を確認
Raghavendra Addanki, Shiva Prasad Kasiviswanathan(参考訳) 我々は,それぞれの因果グラフを持つ複数の独立したエンティティを持つ共通シナリオをモデル化し,これらすべての因果グラフを同時に学習することを目的とする,新たなコラボレーティブ因果発見問題を導入する。 我々は、因果グラフをモデル化するために、最大アンセストラルグラフ(MAG)を用いて因果グラフを仮定せずにこの問題を研究し、エンティティに対して独立した単一の頂点(または原子)介入を活発に行うことができると仮定する。 実体の根底にある(未知の)因果グラフがクラスタリングの自然な概念を満足するならば、この性質を利用し、エンティティごとの原子介入数$M$の約対数を用いてすべての因果グラフを復元するアルゴリズムを与える。 これらは、各因果グラフを個別に学習するために必要とされるエンティティ毎の$n$原子介入よりも大幅に少ない。 我々は,より低い境界で結果を補完し,協調環境の様々な拡張について考察する。

We introduce a new Collaborative Causal Discovery problem, through which we model a common scenario in which we have multiple independent entities each with their own causal graph, and the goal is to simultaneously learn all these causal graphs. We study this problem without the causal sufficiency assumption, using Maximal Ancestral Graphs (MAG) to model the causal graphs, and assuming that we have the ability to actively perform independent single vertex (or atomic) interventions on the entities. If the $M$ underlying (unknown) causal graphs of the entities satisfy a natural notion of clustering, we give algorithms that leverage this property and recovers all the causal graphs using roughly logarithmic in $M$ number of atomic interventions per entity. These are significantly fewer than $n$ atomic interventions per entity required to learn each causal graph separately, where $n$ is the number of observable nodes in the causal graph. We complement our results with a lower bound and discuss various extensions of our collaborative setting.
翻訳日:2021-06-08 18:39:32 公開日:2021-06-06
# 非拘束単調ニューラルネットワークによる分散強化学習

Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks ( http://arxiv.org/abs/2106.03228v1 )

ライセンス: Link先を確認
Thibaut Th\'eate, Antoine Wehenkel, Adrien Bolland, Gilles Louppe and Damien Ernst(参考訳) 分布強化学習(RL)アプローチは、予測をモデル化するだけでなく、ランダムリターンの完全な確率分布を表現することを提唱している。 分布RLアルゴリズムは、分布の表現とパラメータ化と損失を定義する確率測度という2つの主要成分によって特徴づけられる。 本研究では,連続単調関数の普遍近似であるunconstrained monotonic neural network (umnn)アーキテクチャを考察し,分布の異なる表現(pdf, cdf, quantile function)のモデル化に特に適している。 この性質により、関数近似器のクラスの効果を確率計量のクラスから切り離すことができる。 本稿ではまず,ランダム回帰分布の異なる表現を学習するための方法論を紹介する。 次に、制約のない単調深度Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを示す。 最後に、この新しいアルゴリズムに照らして、kullback-leibler divergence, cramer distance, wasserstein distanceという3つの確率準メトリック間の経験的比較を行う。 この結果は、最近の出版物におけるワッサースタイン距離の支配とは対照的な分布 rl における全ての確率指標の再考を求めるものである。

The distributional reinforcement learning (RL) approach advocates for representing the complete probability distribution of the random return instead of only modelling its expectation. A distributional RL algorithm may be characterised by two main components, namely the representation and parameterisation of the distribution and the probability metric defining the loss. This research considers the unconstrained monotonic neural network (UMNN) architecture, a universal approximator of continuous monotonic functions which is particularly well suited for modelling different representations of a distribution (PDF, CDF, quantile function). This property enables the decoupling of the effect of the function approximator class from that of the probability metric. The paper firstly introduces a methodology for learning different representations of the random return distribution. Secondly, a novel distributional RL algorithm named unconstrained monotonic deep Q-network (UMDQN) is presented. Lastly, in light of this new algorithm, an empirical comparison is performed between three probability quasimetrics, namely the Kullback-Leibler divergence, Cramer distance and Wasserstein distance. The results call for a reconsideration of all probability metrics in distributional RL, which contrasts with the dominance of the Wasserstein distance in recent publications.
翻訳日:2021-06-08 18:39:15 公開日:2021-06-06
# 自動生成質問によるオンライン学習者のリアルタイム認知評価

Real-Time Cognitive Evaluation of Online Learners through Automatically Generated Questions ( http://arxiv.org/abs/2106.03036v1 )

ライセンス: Link先を確認
Ritu Gala, Revathi Vijayaraghavan, Valmik Nikam, Arvind Kiwelekar(参考訳) eラーニングプラットフォームの普及に伴い、オンライン学習者を授業を通して参加させることは困難である。 この課題に取り組む1つのアプローチは、定期的に質問することで学習者を調査することだ。 本稿では,ビデオ講義から質問を自動的に生成する手法を提案する。 生成した質問は、学習者の下位レベルの認知能力を評価することを目的としている。 このアプローチは、ビデオ講義からテキストを自動的に抽出し、質問をたくさん生成する。 学習者が回答に応答すると、提案手法はさらに反応を評価し、フィードバックを提供する。 学習者のエンゲージメントを高めることに加えて、このアプローチの主な利点は、インストラクタがトピックの理解をチェックするために設計質問から解放されることである。 したがって、インストラクターはこの時間を他の活動に生産的に費やすことができる。

With the increased adoption of E-learning platforms, keeping online learners engaged throughout a lesson is challenging. One approach to tackle this challenge is to probe learn-ers periodically by asking questions. The paper presents an approach to generate questions from a given video lecture automatically. The generated questions are aimed to evaluate learners' lower-level cognitive abilities. The approach automatically extracts text from video lectures to generates wh-kinds of questions. When learners respond with an answer, the proposed approach further evaluates the response and provides feedback. Besides enhancing learner's engagement, this approach's main benefits are that it frees instructors from design-ing questions to check the comprehension of a topic. Thus, instructors can spend this time productively on other activities.
翻訳日:2021-06-08 18:38:01 公開日:2021-06-06
# 参加と選択:マイクロブログハッシュタグ生成のためのセグメント注目に基づく選択機構

Attend and Select: A Segment Attention based Selection Mechanism for Microblog Hashtag Generation ( http://arxiv.org/abs/2106.03151v1 )

ライセンス: Link先を確認
Qianren Mao, Xi Li, Hao Peng, Bang Liu, Shu Guo, Jianxin Li, Lihong Wang, Philip S. Yu(参考訳) 自動マイクロブログハッシュタグ生成は、マイクロブログポストの臨界内容の理解や処理を、より高速に行うのに役立つ。 従来のシーケンス・ツー・シーケンス生成手法はフレーズレベルのハッシュタグを生成でき、このタスクで顕著なパフォーマンスを実現した。 しかし、セカンダリ情報をフィルタリングすることはできず、重要なトークン間の不連続なセマンティクスを捉えることができない。 ハッシュタグは、原文の様々な断片的な部分に由来するトークンやフレーズによって形成される。 本研究では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。 モデルは、不連続なセマンティックセグメントをソーステキストからハッシュタグのシーケンスに変換する。 具体的には、フレーズレベルのハッシュタグ生成に適したセグメント表現を得るために、Transformer用の新しいセグメント選択機構(SSM)を導入する。 また,中国のweiboと英語twitterから新たに収集した2つのハッシュタグ生成データセットを紹介する。 2つのデータセットの大規模な評価は、抽出と生成ベースラインを大幅に改善したアプローチの優位性を明らかにする。 コードとデータセットは \url{https://github.com/OpenSUM/HashtagGen} で公開されている。

Automatic microblog hashtag generation can help us better and faster understand or process the critical content of microblog posts. Conventional sequence-to-sequence generation methods can produce phrase-level hashtags and have achieved remarkable performance on this task. However, they are incapable of filtering out secondary information and not good at capturing the discontinuous semantics among crucial tokens. A hashtag is formed by tokens or phrases that may originate from various fragmentary segments of the original text. In this work, we propose an end-to-end Transformer-based generation model which consists of three phases: encoding, segments-selection, and decoding. The model transforms discontinuous semantic segments from the source text into a sequence of hashtags. Specifically, we introduce a novel Segments Selection Mechanism (SSM) for Transformer to obtain segmental representations tailored to phrase-level hashtag generation. Besides, we introduce two large-scale hashtag generation datasets, which are newly collected from Chinese Weibo and English Twitter. Extensive evaluations on the two datasets reveal our approach's superiority with significant improvements to extraction and generation baselines. The code and datasets are available at \url{https://github.com/OpenSUM/HashtagGen}.
翻訳日:2021-06-08 18:37:52 公開日:2021-06-06
# pid-gan:不確実性定量化のための物理形判別器に基づくganフレームワーク

PID-GAN: A GAN Framework based on a Physics-informed Discriminator for Uncertainty Quantification with Physics ( http://arxiv.org/abs/2106.02993v1 )

ライセンス: Link先を確認
Arka Daw, M. Maruf, Anuj Karpatne(参考訳) 深層学習(DL)の応用が重要な科学的ユースケースに浸透し続けている中、DLによる不確実性定量化(UQ)の実行の重要性は、これまで以上に強くなっている。 科学的応用においては、物理の知識でDLモデルの学習を伝え、物理的に一貫した一般化された解を生成することも重要である。 これを物理情報深層学習(PIDL)の新興分野と呼ぶ。 我々は, uq も実行できる pidl 定式化の開発の問題を考える。 この目的のために, pid-ganと呼ばれる新しい物理形ganアーキテクチャを提案する。そこでは, 生成器と判別器の両方のモデルの学習に物理学の知識を用い, ラベルなしのデータインスタンスを多用する。 提案するPID-GANフレームワークは,複数損失項からのジェネレータ勾配の不均衡に悩まされないことを示す。 また、ベンチマーク物理に基づくPDEと不完全な物理を含む様々なケーススタディにおいて、提案フレームワークの有効性を実証的に実証した。 この研究で使用されたすべてのコードとデータセットは、このリンクで利用可能である。

As applications of deep learning (DL) continue to seep into critical scientific use-cases, the importance of performing uncertainty quantification (UQ) with DL has become more pressing than ever before. In scientific applications, it is also important to inform the learning of DL models with knowledge of physics of the problem to produce physically consistent and generalized solutions. This is referred to as the emerging field of physics-informed deep learning (PIDL). We consider the problem of developing PIDL formulations that can also perform UQ. To this end, we propose a novel physics-informed GAN architecture, termed PID-GAN, where the knowledge of physics is used to inform the learning of both the generator and discriminator models, making ample use of unlabeled data instances. We show that our proposed PID-GAN framework does not suffer from imbalance of generator gradients from multiple loss terms as compared to state-of-the-art. We also empirically demonstrate the efficacy of our proposed framework on a variety of case studies involving benchmark physics-based PDEs as well as imperfect physics. All the code and datasets used in this study have been made available on this link : https://github.com/arkadaw9/PID-GAN.
翻訳日:2021-06-08 18:35:26 公開日:2021-06-06
# 確率深さResNetにおける正規化

Regularization in ResNet with Stochastic Depth ( http://arxiv.org/abs/2106.03091v1 )

ライセンス: Link先を確認
Soufiane Hayou, Fadhel Ayed(参考訳) 正規化は現代のディープラーニングにおいて重要な役割を果たす。 L1,L2のような古典的な手法やDropoutのようなノイズベースの手法から、正規化はオーバーフィッティングを避けることでより良い一般化特性をもたらす。 近年,残留ニューラルネットワーク(ResNets)の代替正規化手法としてStochastic Depth(SD)が登場し,多くのタスク(Huang et al., 2016)におけるResNetの性能向上が証明されている。 近年のSDの成功にもかかわらず、理論的な観点からこの技術についてはほとんど知られていない。 本稿では,sdの異なる正規化効果について,摂動解析と信号伝搬を組み合わせたハイブリッド解析を行う。 本分析により,SDのトレーニングに使用する生存率を選択するための原則的ガイドラインを導出できる。

Regularization plays a major role in modern deep learning. From classic techniques such as L1,L2 penalties to other noise-based methods such as Dropout, regularization often yields better generalization properties by avoiding overfitting. Recently, Stochastic Depth (SD) has emerged as an alternative regularization technique for residual neural networks (ResNets) and has proven to boost the performance of ResNet on many tasks [Huang et al., 2016]. Despite the recent success of SD, little is known about this technique from a theoretical perspective. This paper provides a hybrid analysis combining perturbation analysis and signal propagation to shed light on different regularization effects of SD. Our analysis allows us to derive principled guidelines for choosing the survival rates used for training with SD.
翻訳日:2021-06-08 18:35:09 公開日:2021-06-06
# Sparse Linear Regression の微細結晶硬さ

The Fine-Grained Hardness of Sparse Linear Regression ( http://arxiv.org/abs/2106.03131v1 )

ライセンス: Link先を確認
Aparna Gupte and Vinod Vaikuntanathan(参考訳) スパース線形回帰 (sparse linear regression) とは、設計行列 $\mathbf{a} \in \mathbb{r}^{m\times n}$ と応答ベクトル $\mathbf{b} \in \mathbb{r}^m$ が与えられるよく研究された推論問題であり、目的は、$k$-スパース(つまり、最大$k$非零座標を持つ)である解 $\mathbf{x} \in \mathbb{r}^{n}$ を見つけ、予測誤差 $||\mathbf{a} \mathbf{x} - \mathbf{b}|_2$ を最小化することである。 一方、問題は $\mathcal{NP}$-hard であることが知られており、$\mathcal{P} = \mathcal{NP}$ でない限り多項式時間アルゴリズムは存在しない。 一方、この問題の最もよく知られたアルゴリズムは、$N^k$の確率でブルートフォース探索を行う。 本研究では,細粒度複雑性の領域から重み付けされた$k$-clique 予想や,数幾何から最も近いベクトル問題の硬さなど,様々な一般的な予想のどれかのいずれかを仮定し,力より優れたアルゴリズムは存在しないことを示す。 また, 予測誤差が他の$\ell_p$ノルムで測定された場合, 強い指数時間仮説を仮定すると, 力より優れたアルゴリズムは不可能であることを示す。

Sparse linear regression is the well-studied inference problem where one is given a design matrix $\mathbf{A} \in \mathbb{R}^{M\times N}$ and a response vector $\mathbf{b} \in \mathbb{R}^M$, and the goal is to find a solution $\mathbf{x} \in \mathbb{R}^{N}$ which is $k$-sparse (that is, it has at most $k$ non-zero coordinates) and minimizes the prediction error $||\mathbf{A} \mathbf{x} - \mathbf{b}||_2$. On the one hand, the problem is known to be $\mathcal{NP}$-hard which tells us that no polynomial-time algorithm exists unless $\mathcal{P} = \mathcal{NP}$. On the other hand, the best known algorithms for the problem do a brute-force search among $N^k$ possibilities. In this work, we show that there are no better-than-brute-force algorithms, assuming any one of a variety of popular conjectures including the weighted $k$-clique conjecture from the area of fine-grained complexity, or the hardness of the closest vector problem from the geometry of numbers. We also show the impossibility of better-than-brute-force algorithms when the prediction error is measured in other $\ell_p$ norms, assuming the strong exponential-time hypothesis.
翻訳日:2021-06-08 18:34:57 公開日:2021-06-06
# オフラインデータによる模倣学習における共変量変化の軽減

Mitigating Covariate Shift in Imitation Learning via Offline Data Without Great Coverage ( http://arxiv.org/abs/2106.03207v1 )

ライセンス: Link先を確認
Jonathan D. Chang, Masatoshi Uehara, Dhruv Sreenivas, Rahul Kidambi, Wen Sun(参考訳) 本稿では,エージェントがオンライン環境を介さずに専門家を模倣することを学ぶオフライン模倣学習(il)について述べる。 その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。 オフラインデータ(MILO: Model-based IL from Offline data)は,静的データセットを用いて,理論上も現実的にも,オフラインのIL問題を解決するアルゴリズムフレームワークである。 理論的には, 行動方針が専門家と比較して極めて準最適であったとしても, 行動方針のデータが専門家の行動トレースを十分に網羅している限り(かつ, 国家行動空間全体をグローバルに網羅する必要はない)、MILOはILの共変量シフト問題に確実に対処できることを示す。 また,提案手法の実践的実装により,ベンチマークMuJoCo連続制御タスクにおける共変量シフトが軽減されることを示す。 専門家の半数以下である行動ポリシーでは、MILOは依然として極めて低い数の専門家状態-アクションペアを模倣し、従来のオフラインIL手法である行動クローニング(BC)は完全に失敗することを示した。 ソースコードはhttps://github.com/jdchang1/miloで提供されている。

This paper studies offline Imitation Learning (IL) where an agent learns to imitate an expert demonstrator without additional online environment interactions. Instead, the learner is presented with a static offline dataset of state-action-next state transition triples from a potentially less proficient behavior policy. We introduce Model-based IL from Offline data (MILO): an algorithmic framework that utilizes the static dataset to solve the offline IL problem efficiently both in theory and in practice. In theory, even if the behavior policy is highly sub-optimal compared to the expert, we show that as long as the data from the behavior policy provides sufficient coverage on the expert state-action traces (and with no necessity for a global coverage over the entire state-action space), MILO can provably combat the covariate shift issue in IL. Complementing our theory results, we also demonstrate that a practical implementation of our approach mitigates covariate shift on benchmark MuJoCo continuous control tasks. We demonstrate that with behavior policies whose performances are less than half of that of the expert, MILO still successfully imitates with an extremely low number of expert state-action pairs while traditional offline IL method such as behavior cloning (BC) fails completely. Source code is provided at https://github.com/jdchang1/milo.
翻訳日:2021-06-08 18:34:16 公開日:2021-06-06
# ニューラルネットワークにおける良性過剰の理解に向けて

Towards an Understanding of Benign Overfitting in Neural Networks ( http://arxiv.org/abs/2106.03212v1 )

ライセンス: Link先を確認
Zhu Li, Zhi-Hua Zhou, Arthur Gretton(参考訳) 現代の機械学習モデルは、多くのパラメータを使用し、一般的にトレーニング損失ゼロに最適化されているが、驚くべきことに、それらは最適に近い予測性能を持ち、古典的学習理論と矛盾する。 サンプル共変数がノイズで崩壊する2層ニューラルネットワークにおいて,これらの良性過剰フィッティング現象がどのように発生するかを検討する。 我々は、データ次元$d$が、データポイント数$n$で成長する高次元構造に対処する。 本解析では, バイアス上の上限と, 補間器(データを補間する推定器)の分散上の上限とを組み合わせる。 これらの結果から,補間器の過剰な学習リスクは軽度条件下で低下することが示唆された。 さらに、この2層ReLUネットワーク補間器が、そのようなネットワークに対する最初の一般化結果である極小最適学習率を達成可能であることを示す。 最後に、我々の理論は、パラメータs$が$O(n^2)$を超えると、過剰な学習リスクが増加し始めることを予測し、最近の経験的発見と一致する。

Modern machine learning models often employ a huge number of parameters and are typically optimized to have zero training loss; yet surprisingly, they possess near-optimal prediction performance, contradicting classical learning theory. We examine how these benign overfitting phenomena occur in a two-layer neural network setting where sample covariates are corrupted with noise. We address the high dimensional regime, where the data dimension $d$ grows with the number $n$ of data points. Our analysis combines an upper bound on the bias with matching upper and lower bounds on the variance of the interpolator (an estimator that interpolates the data). These results indicate that the excess learning risk of the interpolator decays under mild conditions. We further show that it is possible for the two-layer ReLU network interpolator to achieve a near minimax-optimal learning rate, which to our knowledge is the first generalization result for such networks. Finally, our theory predicts that the excess learning risk starts to increase once the number of parameters $s$ grows beyond $O(n^2)$, matching recent empirical findings.
翻訳日:2021-06-08 18:33:53 公開日:2021-06-06
# 確率的深部生成モデルの記憶について

On Memorization in Probabilistic Deep Generative Models ( http://arxiv.org/abs/2106.03216v1 )

ライセンス: Link先を確認
Gerrit J. J. van den Burg, Christopher K. I. Williams(参考訳) 深層生成モデルの最近の進歩は、様々なアプリケーションドメインで印象的な結果をもたらした。 深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。 本研究では,教師なし学習のための記憶尺度(feldman, 2019)を教師なし密度推定問題に拡張し,それに伴う推定を単純化する。 次に,変分オートエンコーダなどの確率的深層生成モデルにおいて,記憶がいかに生じるかを示す探索的研究を行う。 このことは、これらのモデルが受容可能な記憶形式が、モード崩壊と過剰適合とは根本的に異なることを示している。 最後に,実際に記憶を制限できるいくつかの戦略について考察する。

Recent advances in deep generative models have led to impressive results in a variety of application domains. Motivated by the possibility that deep learning models might memorize part of the input data, there have been increased efforts to understand how memorization can occur. In this work, we extend a recently proposed measure of memorization for supervised learning (Feldman, 2019) to the unsupervised density estimation problem and simplify the accompanying estimator. Next, we present an exploratory study that demonstrates how memorization can arise in probabilistic deep generative models, such as variational autoencoders. This reveals that the form of memorization to which these models are susceptible differs fundamentally from mode collapse and overfitting. Finally, we discuss several strategies that can be used to limit memorization in practice.
翻訳日:2021-06-08 18:33:36 公開日:2021-06-06
# 取引コストを考慮したforex市場のオンライン取引モデル

Online Trading Models in the Forex Market Considering Transaction Costs ( http://arxiv.org/abs/2106.03035v1 )

ライセンス: Link先を確認
Koya Ishikawa and Kazuhide Nakata(参考訳) 近年、人工知能を用いた幅広い投資モデルが作成されている。 人工知能による自動取引は、1日に24時間運行する能力や高周波で取引する能力など、取引方法の範囲を広げることができる。 自動取引は、過去のデータを十分に考慮すれば、人間が利用できる以上の情報で取引することも期待できる。 本稿では,人工知能モデルである深層強化学習モデルに基づく投資エージェントを提案する。 このモデルは、実際の取引に関わる取引コストを考慮し、単一の取引で大きな利益を得られるように、長期間にわたって取引するためのフレームワークを作成する。 そうすることで、取引コストを低く保ちながら利益を最大化できます。 また,実際の運用を考慮した場合,静的データを学習する代わりに,最新のオンラインデータを常に更新することで学習を続けることができる。 これにより、常に現在の市場トレンド情報を組み込むことで、非定常金融市場での取引が可能になる。

In recent years, a wide range of investment models have been created using artificial intelligence. Automatic trading by artificial intelligence can expand the range of trading methods, such as by conferring the ability to operate 24 hours a day and the ability to trade with high frequency. Automatic trading can also be expected to trade with more information than is available to humans if it can sufficiently consider past data. In this paper, we propose an investment agent based on a deep reinforcement learning model, which is an artificial intelligence model. The model considers the transaction costs involved in actual trading and creates a framework for trading over a long period of time so that it can make a large profit on a single trade. In doing so, it can maximize the profit while keeping transaction costs low. In addition, in consideration of actual operations, we use online learning so that the system can continue to learn by constantly updating the latest online data instead of learning with static data. This makes it possible to trade in non-stationary financial markets by always incorporating current market trend information.
翻訳日:2021-06-08 18:26:32 公開日:2021-06-06
# バイアスのないセルフプレイ

Unbiased Self-Play ( http://arxiv.org/abs/2106.03007v1 )

ライセンス: Link先を確認
Shohei Ohsawa(参考訳) 我々は,創発的信念状態表現のための汎用最適化フレームワークを提案する。 マルチエージェント強化学習とコミュニケーションの共通構成を用いて,各エージェントの知識を活用して,環境の探索範囲を改善する。 本稿では,共有重み付きリカレントニューラルネット(RNN)が,その非協調性のため,部分的に観測可能な環境において非常に偏りが強いことを示す。 そこで我々は,ベイズ・ナッシュ均衡における偏りのない知識を明らかにするために,リバースゲーム理論(reverse game theory)としても知られる機構設計による自己遊びの偏りのないバージョンを選定した。 鍵となるアイデアは、ピア予測機構、すなわち分散環境で情報を相互に批判するメカニズムを使って、想像上の報酬を追加することである。 最大20のエージェントと市販のRNNによるStarCraft探索タスクを含む数値解析は、最先端のパフォーマンスを実証している。

We present a general optimization framework for emergent belief-state representation without any supervision. We employed the common configuration of multiagent reinforcement learning and communication to improve exploration coverage over an environment by leveraging the knowledge of each agent. In this paper, we obtained that recurrent neural nets (RNNs) with shared weights are highly biased in partially observable environments because of their noncooperativity. To address this, we designated an unbiased version of self-play via mechanism design, also known as reverse game theory, to clarify unbiased knowledge at the Bayesian Nash equilibrium. The key idea is to add imaginary rewards using the peer prediction mechanism, i.e., a mechanism for mutually criticizing information in a decentralized environment. Numerical analyses, including StarCraft exploration tasks with up to 20 agents and off-the-shelf RNNs, demonstrate the state-of-the-art performance.
翻訳日:2021-06-08 18:24:13 公開日:2021-06-06
# 非パラメトリックポアソン混合物を用いたfisher-pitman置換試験と単一細胞ゲノミクスへの応用

Fisher-Pitman permutation tests based on nonparametric Poisson mixtures with application to single cell genomics ( http://arxiv.org/abs/2106.03022v1 )

ライセンス: Link先を確認
Zhen Miao, Weihao Kong, Ramya Korlakai Vinayak, Wei Sun, and Fang Han(参考訳) 本稿では,未知ポアソン混合分布の等価性を評価するためのフィッシャー・ピットマン型置換試験の理論的および経験的性能について検討する。 混合分布の非パラメトリック極大推定器(NPMLE)上に構築されたこれらの試験は、理論上はカウントデータの複雑な不特定構造に適応し、対応するANOVA型の代替品と矛盾することが示され、後者はロビンソン(Robinson, 1973)の古典的な主張と平行な結果である。 研究方法は、自閉症の被験者の脳サンプルから得られた異なる細胞型から得られた単一細胞RNA配列データに適用され、実験的に、自閉症とコントロール対象の間で差分に発現する遺伝子が、共通のテストで見逃される。 それらの使用を正当化するために、NPMLEsの速度最適性は非パラメトリックガウス(Wu and Yang, 2020a)や二項混合(Tian et al., 2017; Vinayak et al., 2019)と同様の設定で確立されている。

This paper investigates the theoretical and empirical performance of Fisher-Pitman-type permutation tests for assessing the equality of unknown Poisson mixture distributions. Building on nonparametric maximum likelihood estimators (NPMLEs) of the mixing distribution, these tests are theoretically shown to be able to adapt to complicated unspecified structures of count data and also consistent against their corresponding ANOVA-type alternatives; the latter is a result in parallel to classic claims made by Robinson (Robinson, 1973). The studied methods are then applied to a single-cell RNA-seq data obtained from different cell types from brain samples of autism subjects and healthy controls; empirically, they unveil genes that are differentially expressed between autism and control subjects yet are missed using common tests. For justifying their use, rate optimality of NPMLEs is also established in settings similar to nonparametric Gaussian (Wu and Yang, 2020a) and binomial mixtures (Tian et al., 2017; Vinayak et al., 2019).
翻訳日:2021-06-08 18:23:59 公開日:2021-06-06
# ニューラルタンジェントカーネル最大値の相違

Neural Tangent Kernel Maximum Mean Discrepancy ( http://arxiv.org/abs/2106.03227v1 )

ライセンス: Link先を確認
Xiuyuan Cheng, Yao Xie(参考訳) ニューラル・タンジェント・カーネル(NTK)とMDD統計との接続を同定し,新しいニューラルネットワークの最大平均離散性(MMD)統計量を示す。 この接続により、mmd統計を計算し、ニューラルネットワークに基づく2つのサンプルテストを実行するための計算効率とメモリ効率のよい手法を開発し、mmd統計の長年の課題と計算の複雑さに対処することができる。 理論的には、2サンプルテストを実行するためのType-Iエラーやテスト能力など、カーネルMDDの分析ツールを活用することで、新しいテスト統計量の性質を理解することができる。 合成および実世界のデータセットに関する数値実験により、提案したNTK-MMD統計学の有効性が検証された。

We present a novel neural network Maximum Mean Discrepancy (MMD) statistic by identifying a connection between neural tangent kernel (NTK) and MMD statistic. This connection enables us to develop a computationally efficient and memory-efficient approach to compute the MMD statistic and perform neural network based two-sample tests towards addressing the long-standing challenge of memory and computational complexity of the MMD statistic, which is essential for online implementation to assimilate new samples. Theoretically, such a connection allows us to understand the properties of the new test statistic, such as Type-I error and testing power for performing the two-sample test, by leveraging analysis tools for kernel MMD. Numerical experiments on synthetic and real-world datasets validate the theory and demonstrate the effectiveness of the proposed NTK-MMD statistic.
翻訳日:2021-06-08 18:23:37 公開日:2021-06-06
# 教師なし深度補完のための合成データからの学習トポロジー

Learning Topology from Synthetic Data for Unsupervised Depth Completion ( http://arxiv.org/abs/2106.02994v1 )

ライセンス: Link先を確認
Alex Wong, Safa Cicek, and Stefano Soatto(参考訳) 本稿では,画像から濃厚な深さマップを推定する方法を提案する。合成データを利用して,濃密な雲と濃密な自然形状の関係を学習し,画像を用いて予測した奥行きマップを検証する。 自然形状の学習前処理は画像ではなく入力としてスパース深さのみを使用するため,学習モデルを合成データから実データに転送しようとする場合の共変量シフトには影響しない。 これにより、豊富な合成データを用いて、トポロジー推定である再構成過程の最も難しいコンポーネントを学習し、この画像を用いて光度証拠に基づく予測を洗練することができる。 提案手法では,従来の手法よりもパラメータが少ないが,室内および屋外のベンチマークデータセット上での手法の状態を達成している。 コードはhttps://github.com/alexklwong/learning-topology-synthetic-data。

We present a method for inferring dense depth maps from images and sparse depth measurements by leveraging synthetic data to learn the association of sparse point clouds with dense natural shapes, and using the image as evidence to validate the predicted depth map. Our learned prior for natural shapes uses only sparse depth as input, not images, so the method is not affected by the covariate shift when attempting to transfer learned models from synthetic data to real ones. This allows us to use abundant synthetic data with ground truth to learn the most difficult component of the reconstruction process, which is topology estimation, and use the image to refine the prediction based on photometric evidence. Our approach uses fewer parameters than previous methods, yet, achieves the state of the art on both indoor and outdoor benchmark datasets. Code available at: https://github.com/alexklwong/learning-topology-synthetic-data.
翻訳日:2021-06-08 18:21:40 公開日:2021-06-06
# 教師なし深度補完学習のための適応的フレームワーク

An Adaptive Framework for Learning Unsupervised Depth Completion ( http://arxiv.org/abs/2106.03010v1 )

ライセンス: Link先を確認
Alex Wong, Xiaohan Fei, Byung-Woo Hong, and Stefano Soatto(参考訳) カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。 私たちの大きな貢献は、協調可視性(排他性、排他性)を決定するためのアニーリングプロセスの設計と、モデルに課す正規化の程度にあります。 正規化と協調可視性は,データに対するモデルの適合性(再現性)によって関連し,学習プロセスを改善するための単一のフレームワークに統一できることを示す。 本手法は,(i)ソフト可視性マスクの推定と(ii)正規化量を決定するための訓練ステップ毎に各画素位置の残差を測定することにより,最適化を導く適応重み付けスキームである。 提案手法は,近年の教師なし深度補完手法に適用し,トレーニング可能なパラメータの追加や推論時間の増加を伴わずに,公開ベンチマークデータセット上での性能を向上させることで,本手法の有効性を実証する。 コード提供はhttps://github.com/alexklwong/adaframe-depth-completion。

We present a method to infer a dense depth map from a color image and associated sparse depth measurements. Our main contribution lies in the design of an annealing process for determining co-visibility (occlusions, disocclusions) and the degree of regularization to impose on the model. We show that regularization and co-visibility are related via the fitness (residual) of model to data and both can be unified into a single framework to improve the learning process. Our method is an adaptive weighting scheme that guides optimization by measuring the residual at each pixel location over each training step for (i) estimating a soft visibility mask and (ii) determining the amount of regularization. We demonstrate the effectiveness our method by applying it to several recent unsupervised depth completion methods and improving their performance on public benchmark datasets, without incurring additional trainable parameters or increase in inference time. Code available at: https://github.com/alexklwong/adaframe-depth-completion.
翻訳日:2021-06-08 18:21:26 公開日:2021-06-06
# schedulenet:強化学習によるマルチエージェントスケジューリング問題の解法を学ぶ

ScheduleNet: Learn to solve multi-agent scheduling problems with reinforcement learning ( http://arxiv.org/abs/2106.03051v1 )

ライセンス: Link先を確認
Junyoung Park, Sanjar Bakhtiyar, Jinkyoo Park(参考訳) 様々なタイプのマルチエージェントスケジューリング問題を解決するためのrlベースのリアルタイムスケジューラである schedulenet を提案する。 我々は,これらの問題を擬似報酬付きセミMDP(makespan)として定式化し,複数のエージェントを効果的に協調してタスクを完了させる分散型意思決定ポリシーであるScheduleNetを学習する。 スケジュールネットの意思決定手順は、(1)エージェントタスクグラフによるスケジューリング問題の状態を表現し、(2)エージェントとタスクノードのノード埋め込みを抽出し、(2)エージェントとタスク間の重要な関係情報を、タイプ認識グラフ注意(TGA)を用いて、(3)計算ノード埋め込みによる割り当て確率を計算する。 本稿では,マルチセールスマン旅行問題 (mtsp) やジョブショップスケジューリング問題 (jsp) など多種多様なマルチエージェントスケジューリング課題を解決するための汎用学習型スケジューラとして schedulenet の有効性を検証する。

We propose ScheduleNet, a RL-based real-time scheduler, that can solve various types of multi-agent scheduling problems. We formulate these problems as a semi-MDP with episodic reward (makespan) and learn ScheduleNet, a decentralized decision-making policy that can effectively coordinate multiple agents to complete tasks. The decision making procedure of ScheduleNet includes: (1) representing the state of a scheduling problem with the agent-task graph, (2) extracting node embeddings for agent and tasks nodes, the important relational information among agents and tasks, by employing the type-aware graph attention (TGA), and (3) computing the assignment probability with the computed node embeddings. We validate the effectiveness of ScheduleNet as a general learning-based scheduler for solving various types of multi-agent scheduling tasks, including multiple salesman traveling problem (mTSP) and job shop scheduling problem (JSP).
翻訳日:2021-06-08 18:19:59 公開日:2021-06-06
# ランダムスケーリングによる確率的勾配Descentによる高速かつロバストなオンライン推論

Fast and Robust Online Inference with Stochastic Gradient Descent via Random Scaling ( http://arxiv.org/abs/2106.03156v1 )

ライセンス: Link先を確認
Sokbae Lee, Yuan Liao, Myung Hwan Seo, Youngki Shin(参考訳) 本稿では,確率勾配勾配(SGD)アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。 エコノメトリにおける時系列回帰からの洞察を活用し、ランダムスケーリングによる漸近的ピボット統計を構築する。 我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。 提案手法は既存手法に対していくつかの利点がある。 まず、SGDのみを反復したオンライン方式でテスト統計を計算し、再サンプリング法を使わずに臨界値を得ることができるため、大規模なオンラインデータに適した効率的な実装が可能となる。 第2に、漸近分散を推定する必要はなく、合成データを用いたシミュレーション実験において、sgdアルゴリズムのチューニングパラメータの変化に対してロバストな推論手法が示されている。

We develop a new method of online inference for a vector of parameters estimated by the Polyak-Ruppert averaging procedure of stochastic gradient descent (SGD) algorithms. We leverage insights from time series regression in econometrics and construct asymptotically pivotal statistics via random scaling. Our approach is fully operational with online data and is rigorously underpinned by a functional central limit theorem. Our proposed inference method has a couple of key advantages over the existing methods. First, the test statistic is computed in an online fashion with only SGD iterates and the critical values can be obtained without any resampling methods, thereby allowing for efficient implementation suitable for massive online data. Second, there is no need to estimate the asymptotic variance and our inference method is shown to be robust to changes in the tuning parameters for SGD algorithms in simulation experiments with synthetic data.
翻訳日:2021-06-08 18:18:45 公開日:2021-06-06
# 非ユークリッド縮約によるロバストインシシットネットワーク

Robust Implicit Networks via Non-Euclidean Contractions ( http://arxiv.org/abs/2106.03194v1 )

ライセンス: Link先を確認
Saber Jafarpour, Alexander Davydov, Anton V. Proskurnikov, Francesco Bullo(参考訳) 入射ニューラルネットワーク(英: Implicit Neural Network, 英: Deep equilibrium Network)は、固定点方程式を解くことによって関数評価を行う暗黙の深層学習モデルである。 彼らは古典的なフィードフォワードモデルを一般化し、無限の重み付けフィードフォワードネットワークと等価である。 暗黙のモデルでは精度が向上し、メモリ消費が大幅に減少するが、不適切さと収束不安定さに苦しむことがある。 本稿では、非ユークリッドノルム$\ell_\infty$ の縮約理論に基づく、適切で堅牢な暗黙的ニューラルネットワークを設計するための新しい枠組みを提供する。 この枠組みは, (i) 片側リプシッツ定数に基づく well-posedness の新たな条件, (ii) 固定点を計算する平均イテレーション, (iii) 入出力リプシッツ定数の明示的な推定を含む。 さらに,入力出力のリプシッツ定数を正規化器として,適性条件と平均反復を制約としてトレーニング問題を設計し,頑健なモデルを実現する。 我々の$\ell_\infty$ well-posedness条件は、既存の条件よりも大きなポリトピー訓練探索空間をもたらし、平均的な反復は加速収束を楽しむ。 最後に,MNISTデータセットを用いて関数推定と数値分類の数値実験を行った。 その結果,より小さな入力出力リプシッツ境界を持つ暗黙モデルの精度とロバスト性が向上した。

Implicit neural networks, a.k.a., deep equilibrium networks, are a class of implicit-depth learning models where function evaluation is performed by solving a fixed point equation. They generalize classic feedforward models and are equivalent to infinite-depth weight-tied feedforward networks. While implicit models show improved accuracy and significant reduction in memory consumption, they can suffer from ill-posedness and convergence instability. This paper provides a new framework to design well-posed and robust implicit neural networks based upon contraction theory for the non-Euclidean norm $\ell_\infty$. Our framework includes (i) a novel condition for well-posedness based on one-sided Lipschitz constants, (ii) an average iteration for computing fixed-points, and (iii) explicit estimates on input-output Lipschitz constants. Additionally, we design a training problem with the well-posedness condition and the average iteration as constraints and, to achieve robust models, with the input-output Lipschitz constant as a regularizer. Our $\ell_\infty$ well-posedness condition leads to a larger polytopic training search space than existing conditions and our average iteration enjoys accelerated convergence. Finally, we perform several numerical experiments for function estimation and digit classification through the MNIST data set. Our numerical results demonstrate improved accuracy and robustness of the implicit models with smaller input-output Lipschitz bounds.
翻訳日:2021-06-08 18:18:32 公開日:2021-06-06
# 曖昧さを受け入れる:NLIモデルのトレーニングターゲットの転換

Embracing Ambiguity: Shifting the Training Target of NLI Models ( http://arxiv.org/abs/2106.03020v1 )

ライセンス: Link先を確認
Johannes Mario Meissner, Napat Thumwanit, Saku Sugawara, Akiko Aizawa(参考訳) 自然言語推論(nli)データセットは、高度にあいまいなラベルを持つ例を含んでいる。 多くの研究がこの事実にはあまり注意を払っていないが、UNLIやChaosNLIのような曖昧さの存在を認め、受け入れるための最近の試みがいくつか行われている。 本論文では,このあいまいさ分布に基づく学習損失を用いて,NLIタスクにおけるアノテータのラベル分布を推定して直接トレーニングするオプションについて検討する。 我々は,手軽に利用可能な情報源から得られる試行データセットであるAmbiNLIを作成し,このデータを微調整した場合にChaosNLIのばらつきスコアを低減することができることを示す。 さらに,同じ量のデータに対するトレーニングでは,ゴールドラベルではなくあいまいな分布を目標とすることで,より高いパフォーマンスを達成し,下流タスクの表現を学習できるモデルが得られることを示した。

Natural Language Inference (NLI) datasets contain examples with highly ambiguous labels. While many research works do not pay much attention to this fact, several recent efforts have been made to acknowledge and embrace the existence of ambiguity, such as UNLI and ChaosNLI. In this paper, we explore the option of training directly on the estimated label distribution of the annotators in the NLI task, using a learning loss based on this ambiguity distribution instead of the gold-labels. We prepare AmbiNLI, a trial dataset obtained from readily available sources, and show it is possible to reduce ChaosNLI divergence scores when finetuning on this data, a promising first step towards learning how to capture linguistic ambiguity. Additionally, we show that training on the same amount of data but targeting the ambiguity distribution instead of gold-labels can result in models that achieve higher performance and learn better representations for downstream tasks.
翻訳日:2021-06-08 18:16:47 公開日:2021-06-06
# 文法的誤り訂正モデルは文法的一般化を実現するか?

Do Grammatical Error Correction Models Realize Grammatical Generalization? ( http://arxiv.org/abs/2106.03031v1 )

ライセンス: Link先を確認
Masato Mita and Hitomi Yanaka(参考訳) 擬似データを用いた文法的誤り訂正(GEC)へのデータ生成手法への関心が高まっている。 しかし、これらのアプローチは、大量のトレーニングデータを要求するなど、現実世界のデプロイメントに不便ないくつかの問題に苦しんでいる。 一方、文法規則に基づくいくつかの誤りは、GECモデルが文法的一般化を実現できる場合、必ずしも大量のデータを必要としない場合がある。 本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。 本稿では,モデルが未知の誤りに一般化できるかどうかを評価するために,制御語彙を持つ合成および実GECデータセットを用いた解析手法を提案する。 現在の標準トランスフォーマーベースのgecモデルでは,語彙や構文が限定された単純な設定であっても文法的一般化は実現できず,トレーニング例による誤り訂正に必要な一般化能力が不足していることが判明した。

There has been an increased interest in data generation approaches to grammatical error correction (GEC) using pseudo data. However, these approaches suffer from several issues that make them inconvenient for real-world deployment including a demand for large amounts of training data. On the other hand, some errors based on grammatical rules may not necessarily require a large amount of data if GEC models can realize grammatical generalization. This study explores to what extent GEC models generalize grammatical knowledge required for correcting errors. We introduce an analysis method using synthetic and real GEC datasets with controlled vocabularies to evaluate whether models can generalize to unseen errors. We found that a current standard Transformer-based GEC model fails to realize grammatical generalization even in simple settings with limited vocabulary and syntax, suggesting that it lacks the generalization ability required to correct errors from provided training examples.
翻訳日:2021-06-08 18:16:31 公開日:2021-06-06
# 事前学習された言語モデル適応に対するアダプタベースのチューニングの有効性について

On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation ( http://arxiv.org/abs/2106.03164v1 )

ライセンス: Link先を確認
Ruidan He, Linlin Liu, Hai Ye, Qingyu Tan, Bosheng Ding, Liying Cheng, Jia-Wei Low, Lidong Bing, Luo Si(参考訳) 適応型チューニングがファインチューニングの代替として最近登場した。 事前訓練された言語モデル(PrLM)に軽量なアダプタモジュールを追加し、下流タスクで学習する時にのみアダプタモジュールのパラメータを更新する。 そのため、新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。 以前の研究では、アダプタベースのチューニングは、しばしば微調整に匹敵する結果が得られることが示されている。 しかし、既存の研究は、アダプタベースのチューニングのパラメータ効率の側面にのみ焦点をあて、その効果についてさらなる研究を欠いている。 本稿では,後者について検討する。 まず,アダプタベースのチューニングは,初期prlmが生成した表現から逸脱した表現を生じさせるため,微調整よりも忘れられる問題を緩和する。 次に、下流のNLPタスクと設定における2つのチューニング手法を実証的に比較する。 1) 適応型チューニングは,低リソースタスクや多言語タスクの微調整よりも優れており,2) 過度に適合し,学習率の変化に敏感ではない。

Adapter-based tuning has recently arisen as an alternative to fine-tuning. It works by adding light-weight adapter modules to a pretrained language model (PrLM) and only updating the parameters of adapter modules when learning on a downstream task. As such, it adds only a few trainable parameters per new task, allowing a high degree of parameter sharing. Prior studies have shown that adapter-based tuning often achieves comparable results to fine-tuning. However, existing work only focuses on the parameter-efficient aspect of adapter-based tuning while lacking further investigation on its effectiveness. In this paper, we study the latter. We first show that adapter-based tuning better mitigates forgetting issues than fine-tuning since it yields representations with less deviation from those generated by the initial PrLM. We then empirically compare the two tuning methods on several downstream NLP tasks and settings. We demonstrate that 1) adapter-based tuning outperforms fine-tuning on low-resource and cross-lingual tasks; 2) it is more robust to overfitting and less sensitive to changes in learning rates.
翻訳日:2021-06-08 18:16:18 公開日:2021-06-06
# Itihasa:サンスクリット語訳のための大規模なコーパス

Itihasa: A large-scale corpus for Sanskrit to English translation ( http://arxiv.org/abs/2106.03269v1 )

ライセンス: Link先を確認
Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders S{\o}gaard(参考訳) この研究は、93,000対のサンスクリット・スロカとその英訳を含む大規模な翻訳データセットであるイティハサを紹介した。 シュロカは2つのインド叙事詩『ラマーヤナ』と『マハーバーラタ』から抽出される。 まず、このようなデータセットのキュレーションの背景にある動機を説明し、そのニュアンスを引き出すために経験的分析を追従する。 そして、このコーパスで標準翻訳モデルのパフォーマンスをベンチマークし、最先端のトランスフォーマーアーキテクチャでさえも性能が悪く、データセットの複雑さが強調されることを示した。

This work introduces Itihasa, a large-scale translation dataset containing 93,000 pairs of Sanskrit shlokas and their English translations. The shlokas are extracted from two Indian epics viz., The Ramayana and The Mahabharata. We first describe the motivation behind the curation of such a dataset and follow up with empirical analysis to bring out its nuances. We then benchmark the performance of standard translation models on this corpus and show that even state-of-the-art transformer architectures perform poorly, emphasizing the complexity of the dataset.
翻訳日:2021-06-08 18:16:02 公開日:2021-06-06
# 骨格型人物再同定のための構造協調関係学習を用いたマルチレベルグラフ符号化

Multi-Level Graph Encoding with Structural-Collaborative Relation Learning for Skeleton-Based Person Re-Identification ( http://arxiv.org/abs/2106.03069v1 )

ライセンス: Link先を確認
Haocong Rao, Shihao Xu, Xiping Hu, Jun Cheng, Bin Hu(参考訳) Skeletonベースの人物再識別(Re-ID)は、安全クリティカルなアプリケーションに優れた価値を提供する、新たなオープントピックである。 既存の方法は、典型的には手作りの特徴やモデル骨格力学を身体関節の軌跡から抽出するが、身体構造や運動に含まれる貴重な関係情報を探索することは滅多にない。 人体関係を網羅的に調べるために,人骨を異なるレベルからモデル化するグラフを構築し,人体のRe-IDの識別グラフ特徴を符号化する構造協調関係学習(MG-SCR)を用いたマルチレベルグラフ符号化手法を初めて提案する。 具体的には,骨格において構造的に連結された体成分が高い相関関係にあることを考慮し,グラフ内の隣接する体成分ノードの異なる関係を学習するための多頭構造関係層を提案する。 第2に,歩行における体-成分の協調は通常認識可能なパターンを伝達するという事実に触発されて,異なるレベル成分間の協調を推測するクロスレベル協調関係層を提案し,より識別的なスケルトングラフの特徴を捉える。 最後に,個人用Re-IDの高レベルグラフセマンティクスの符号化を容易にするモデル事前学習のための,自己教師付きスパース逐次予測タスクを提案する。 MG-SCRは最先端のスケルトンベースの手法より優れており、追加のRGBや深度機能を利用する多くのマルチモーダル手法よりも優れた性能を発揮する。 私たちのコードはhttps://github.com/Kali-Hac/MG-SCRで公開しています。

Skeleton-based person re-identification (Re-ID) is an emerging open topic providing great value for safety-critical applications. Existing methods typically extract hand-crafted features or model skeleton dynamics from the trajectory of body joints, while they rarely explore valuable relation information contained in body structure or motion. To fully explore body relations, we construct graphs to model human skeletons from different levels, and for the first time propose a Multi-level Graph encoding approach with Structural-Collaborative Relation learning (MG-SCR) to encode discriminative graph features for person Re-ID. Specifically, considering that structurally-connected body components are highly correlated in a skeleton, we first propose a multi-head structural relation layer to learn different relations of neighbor body-component nodes in graphs, which helps aggregate key correlative features for effective node representations. Second, inspired by the fact that body-component collaboration in walking usually carries recognizable patterns, we propose a cross-level collaborative relation layer to infer collaboration between different level components, so as to capture more discriminative skeleton graph features. Finally, to enhance graph dynamics encoding, we propose a novel self-supervised sparse sequential prediction task for model pre-training, which facilitates encoding high-level graph semantics for person Re-ID. MG-SCR outperforms state-of-the-art skeleton-based methods, and it achieves superior performance to many multi-modal methods that utilize extra RGB or depth features. Our codes are available at https://github.com/Kali-Hac/MG-SCR.
翻訳日:2021-06-08 18:07:55 公開日:2021-06-06
# スイッチブル正規化によるRGBと近赤外画像の特徴ばらつきの低減

Reducing the feature divergence of RGB and near-infrared images using Switchable Normalization ( http://arxiv.org/abs/2106.03088v1 )

ライセンス: Link先を確認
Siwei Yang, Shaozuo Yu, Bingchen Zhao, Yin Wang(参考訳) 農業地域における視覚パターン認識は航空画像処理の重要な応用である。 本稿では, 農業用空中画像のマルチモーダル性について考察し, 特徴のばらつきを考慮せずに, 異なるモダリティを相乗的に組み合わせることで, 準最適結果が得られることを示す。 そこで我々は,DeepLabV3セグメンテーションモデルにスイッチ可能な正規化ブロックを適用し,特徴分散を緩和する。 一般的な対称Kulback Leibler分散測定を用いて、我々のモデルはRGBと近赤外チャネルのばらつきを大幅に低減できることを示す。 このモデルでは, ハイブリッド損失関数とともに, これまでに公表したベースラインよりも平均IoUが10倍近く改善されている。

Visual pattern recognition over agricultural areas is an important application of aerial image processing. In this paper, we consider the multi-modality nature of agricultural aerial images and show that naively combining different modalities together without taking the feature divergence into account can lead to sub-optimal results. Thus, we apply a Switchable Normalization block to our DeepLabV3 segmentation model to alleviate the feature divergence. Using the popular symmetric Kullback Leibler divergence measure, we show that our model can greatly reduce the divergence between RGB and near-infrared channels. Together with a hybrid loss function, our model achieves nearly 10\% improvements in mean IoU over previously published baseline.
翻訳日:2021-06-08 18:07:28 公開日:2021-06-06
# Referring Transformer:マルチタスク視覚グラウンドへのワンステップアプローチ

Referring Transformer: A One-step Approach to Multi-task Visual Grounding ( http://arxiv.org/abs/2106.03089v1 )

ライセンス: Link先を確認
Muchen Li, Leonid Sigal(参考訳) 視覚的推論への重要なステップとして、視覚的根拠付け(例えば、フレーズのローカライゼーション、表現理解/セグメンテーションを参照)は、表現理解(REC)またはセグメンテーション(RES)を参照するための従来のアプローチは、2段階のセットアップのために限られたパフォーマンスに苦しむか、複雑なタスク固有のワンステージアーキテクチャの設計を必要とする。 本稿では,視覚的グラウンドタスクのためのシンプルなワンステージマルチタスクフレームワークを提案する。 具体的には、視覚言語エンコーダで2つのモダリティが融合されるトランスフォーマティブアーキテクチャを利用する。 デコーダでは、モデルがコンテキスト化されたリンガルクエリを生成し、それをデコードし、境界ボックスを直接レグレッションし、対応する参照領域に対してセグメンテーションマスクを生成する。 この単純だが文脈が高度であるモデルでは、RECとRESの両方のタスクにおいて、最先端のメソッドよりも大きなマージンで性能が向上する。 また、単純な事前トレーニングスケジュール(外部データセット)がパフォーマンスをさらに向上することを示す。 大規模な実験と改善は、私たちのモデルがコンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示している。

As an important step towards visual reasoning, visual grounding (e.g., phrase localization, referring expression comprehension/segmentation) has been widely explored Previous approaches to referring expression comprehension (REC) or segmentation (RES) either suffer from limited performance, due to a two-stage setup, or require the designing of complex task-specific one-stage architectures. In this paper, we propose a simple one-stage multi-task framework for visual grounding tasks. Specifically, we leverage a transformer architecture, where two modalities are fused in a visual-lingual encoder. In the decoder, the model learns to generate contextualized lingual queries which are then decoded and used to directly regress the bounding box and produce a segmentation mask for the corresponding referred regions. With this simple but highly contextualized model, we outperform state-of-the-arts methods by a large margin on both REC and RES tasks. We also show that a simple pre-training schedule (on an external dataset) further improves the performance. Extensive experiments and ablations illustrate that our model benefits greatly from contextualized information and multi-task training.
翻訳日:2021-06-08 18:07:16 公開日:2021-06-06
# Uformer:画像復元のための一般的なU字型トランス

Uformer: A General U-Shaped Transformer for Image Restoration ( http://arxiv.org/abs/2106.03106v1 )

ライセンス: Link先を確認
Zhendong Wang, Xiaodong Cun, Jianmin Bao, Jianzhuang Liu(参考訳) 本稿では, トランスフォーマーブロックを用いた階層型エンコーダデコーダネットワークを構築し, 画像復元を行う, 効率的なトランスフォーマーベースアーキテクチャであるUformerを提案する。 Uformerには、このタスクに適した2つのコア設計がある。 第1のキー要素はローカルエンハンスウィンドウトランスブロックで、オーバーラップしないウィンドウベースのセルフアテンションを使用して計算要件を低減し、フィードフォワードネットワークの奥行き方向畳み込みを利用して、ローカルコンテキストをキャプチャする可能性をさらに向上します。 第2の鍵となる要素は、エンコーダからデコーダに情報を効果的に届ける3つのスキップ接続方式を探索することである。 これら2つの設計により、uformerは画像復元に有用な依存関係をキャプチャする能力が高い。 いくつかの画像復元タスクに関する大規模な実験は、画像のデノイング、デライニング、デブロアリング、デレジアリングなど、Uformerの優位性を示している。 低レベルのビジョンタスクのためのTransformerベースのアーキテクチャについて、さらなる研究が期待できる。 コードとモデルはhttps://github.com/zhendongwang6/uformerで入手できる。

In this paper, we present Uformer, an effective and efficient Transformer-based architecture, in which we build a hierarchical encoder-decoder network using the Transformer block for image restoration. Uformer has two core designs to make it suitable for this task. The first key element is a local-enhanced window Transformer block, where we use non-overlapping window-based self-attention to reduce the computational requirement and employ the depth-wise convolution in the feed-forward network to further improve its potential for capturing local context. The second key element is that we explore three skip-connection schemes to effectively deliver information from the encoder to the decoder. Powered by these two designs, Uformer enjoys a high capability for capturing useful dependencies for image restoration. Extensive experiments on several image restoration tasks demonstrate the superiority of Uformer, including image denoising, deraining, deblurring and demoireing. We expect that our work will encourage further research to explore Transformer-based architectures for low-level vision tasks. The code and models will be available at https://github.com/ZhendongWang6/Uformer.
翻訳日:2021-06-08 18:06:54 公開日:2021-06-06
# 物体検出のためのスクラッチからのトレーニング再考

Rethinking Training from Scratch for Object Detection ( http://arxiv.org/abs/2106.03112v1 )

ライセンス: Link先を確認
Yang Li, Hong Zhang, Yu Zhang(参考訳) imagenet pre-training initializationはオブジェクト検出のデファクトスタンダードである。 など。 検知器をスクラッチ(ランダム初期化)からトレーニングすることは可能であり、適切な正規化技術でより長いトレーニングスケジュールを必要とする。 本稿では,オブジェクト検出のためのターゲットデータセットを直接事前学習する。 このような状況下では,大規模なリサイズ戦略が広く採用されている。 1333, 800)へのリサイズは微調整には重要ですが、事前トレーニングには必要ありません。 具体的には,対象データセット内の低分解能画像を利用して事前学習し,高分解能画像で微調整する,オブジェクト検出のための新しいトレーニングパイプラインを提案する。 この戦略では、事前トレーニング中に大きなバスサイズを持つバッチ正規化(BN)を使用できるが、非常に限られたGPUメモリ(11G)を持つマシンに適用できるメモリ効率も高い。 我々はこれを直接検出事前訓練と呼び、また略して直接事前訓練を使用する。 実験の結果、直接事前トレーニングはcocoデータセット上で11倍以上の事前トレーニングフェーズを加速し、一方、imagenetの事前トレーニングと比較すると+1.8mapであることがわかった。 さらに、直接事前トレーニングはトランスフォーマーベースのバックボーンにも適用できることがわかった。 Swin Transformer コードは利用可能だ。

The ImageNet pre-training initialization is the de-facto standard for object detection. He et al. found it is possible to train detector from scratch(random initialization) while needing a longer training schedule with proper normalization technique. In this paper, we explore to directly pre-training on target dataset for object detection. Under this situation, we discover that the widely adopted large resizing strategy e.g. resize image to (1333, 800) is important for fine-tuning but it's not necessary for pre-training. Specifically, we propose a new training pipeline for object detection that follows `pre-training and fine-tuning', utilizing low resolution images within target dataset to pre-training detector then load it to fine-tuning with high resolution images. With this strategy, we can use batch normalization(BN) with large bath size during pre-training, it's also memory efficient that we can apply it on machine with very limited GPU memory(11G). We call it direct detection pre-training, and also use direct pre-training for short. Experiment results show that direct pre-training accelerates the pre-training phase by more than 11x on COCO dataset while with even +1.8mAP compared to ImageNet pre-training. Besides, we found direct pre-training is also applicable to transformer based backbones e.g. Swin Transformer. Code will be available.
翻訳日:2021-06-08 18:06:34 公開日:2021-06-06
# MOC-GAN:リアル画像を生成するためのオブジェクトとキャプションの混合

MOC-GAN: Mixing Objects and Captions to Generate Realistic Images ( http://arxiv.org/abs/2106.03128v1 )

ライセンス: Link先を確認
Tao Ma, Yikang Li(参考訳) 近年,条件付き画像の生成への関心が高まっている。 しかし、既存の条件入力は、構造化されていない形式(キャプション)または限られた情報と高価なラベリング(シーングラフ)に悩まされている。 ターゲットとなるシーンでは、中核となるアイテムやオブジェクトは通常明確であり、相互作用は柔軟で明確に定義するのは難しい。 そこで、より合理的な設定を導入し、オブジェクトやキャプションから現実的な画像を生成する。 この設定では、オブジェクトはターゲット画像における重要な役割を明示的に定義し、キャプションはそのリッチな属性とコネクションを暗黙的に記述する。 それに対応して、2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。 まず、キャプションからオブジェクトペア間の暗黙の関係を推論し、隠れ状態のシーングラフを構築する。 そのため、シーングラフがシーンの構造を提供し、キャプションが画像レベルのガイダンスを提供する、オブジェクト、関係、キャプションを含む多層表現が構築される。 そして、キャプション内の最も関連性の高い単語に注意を払って、フレーズパッチを粗大に生成するカスケード注意生成ネットワークを設計する。 さらに, きめ細かいフレーズ・パッチ整合性を改善するために, DAMSMというフレーズワイドなDAMSMを提案する。 COCOデータセットでは、高い視覚的品質を維持しつつ、インセプションスコアとFIDの両方で最先端の手法より優れている。 広範な実験により,提案手法の特徴を実証した。

Generating images with conditional descriptions gains increasing interests in recent years. However, existing conditional inputs are suffering from either unstructured forms (captions) or limited information and expensive labeling (scene graphs). For a targeted scene, the core items, objects, are usually definite while their interactions are flexible and hard to clearly define. Thus, we introduce a more rational setting, generating a realistic image from the objects and captions. Under this setting, objects explicitly define the critical roles in the targeted images and captions implicitly describe their rich attributes and connections. Correspondingly, a MOC-GAN is proposed to mix the inputs of two modalities to generate realistic images. It firstly infers the implicit relations between object pairs from the captions to build a hidden-state scene graph. So a multi-layer representation containing objects, relations and captions is constructed, where the scene graph provides the structures of the scene and the caption provides the image-level guidance. Then a cascaded attentive generative network is designed to coarse-to-fine generate phrase patch by paying attention to the most relevant words in the caption. In addition, a phrase-wise DAMSM is proposed to better supervise the fine-grained phrase-patch consistency. On COCO dataset, our method outperforms the state-of-the-art methods on both Inception Score and FID while maintaining high visual quality. Extensive experiments demonstrate the unique features of our proposed method.
翻訳日:2021-06-08 18:06:14 公開日:2021-06-06
# Go with the Flows: 点雲生成と再構成のための正規化フローの混合

Go with the Flows: Mixtures of Normalizing Flows for Point Cloud Generation and Reconstruction ( http://arxiv.org/abs/2106.03135v1 )

ライセンス: Link先を確認
Janis Postels, Mengya Liu, Riccardo Spezialetti, Luc Van Gool, Federico Tombari(参考訳) 近年の正規化フロー (NFs) は3次元点雲のモデリングにおける最先端の性能を示し, 推論時に任意の解像度のサンプリングが可能となった。 しかし、これらのフローベースモデルは、複雑なジオメトリを表現するために長いトレーニング時間と大きなモデルを必要とする。 この研究は、点雲にNFの混合物を適用することで、それらの表現力を高める。 このより一般的なフレームワークでは、各コンポーネントは、完全に教師なしの方法でオブジェクトの特定のサブリージョンを専門化する。 各混合成分を比較的小さなNFでインスタンス化することにより、パラメータが少なく、推論ランタイムを大幅に削減しながら、単一フローモデルと比較して細部の改善された点雲を生成する。 さらに、データ拡張を追加することで、個々の混合コンポーネントが意味論的に意味のある方法で専門化できることを実証する。 shapenetデータセットに基づいて,生成,自動エンコーディング,単一ビュー再構成におけるnfsの混合物を評価する。

Recently normalizing flows (NFs) have demonstrated state-of-the-art performance on modeling 3D point clouds while allowing sampling with arbitrary resolution at inference time. However, these flow-based models still require long training times and large models for representing complicated geometries. This work enhances their representational power by applying mixtures of NFs to point clouds. We show that in this more general framework each component learns to specialize in a particular subregion of an object in a completely unsupervised fashion. By instantiating each mixture component with a comparatively small NF we generate point clouds with improved details compared to single-flow-based models while using fewer parameters and considerably reducing the inference runtime. We further demonstrate that by adding data augmentation, individual mixture components can learn to specialize in a semantically meaningful manner. We evaluate mixtures of NFs on generation, autoencoding and single-view reconstruction based on the ShapeNet dataset.
翻訳日:2021-06-08 18:05:52 公開日:2021-06-06
# トランスフォーマによる指向性物体検出

Oriented Object Detection with Transformer ( http://arxiv.org/abs/2106.03146v1 )

ライセンス: Link先を確認
Teli Ma, Mingyuan Mao, Honghui Zheng, Peng Gao, Xiaodi Wang, Shumin Han, Errui Ding, Baochang Zhang, David Doermann(参考訳) Transformers (DETR) による物体検出は、より高速なR-CNNのような従来の検出器よりも競争力がある。 しかし、detrのポテンシャルは、任意指向オブジェクト検出問題のより困難な課題に対して、ほとんど未検討のままである。 エンドツーエンドネットワークをベースとしたTRansformer($\bf O^2DETR$)によるオブジェクト指向オブジェクト検出の実装を試みた。 The contributions of $\rm O^2DETR$ include: 1) we provide a new insight into oriented object detection, by applying Transformer to directly and efficiently localize objects without a tedious process of rotated anchors as in conventional detectors; 2) we design a simple but highly efficient encoder for Transformer by replacing the attention mechanism with depthwise separable convolution, which can significantly reduce the memory and computational cost of using multi-scale features in the original Transformer; 3) our $\rm O^2DETR$ can be another new benchmark in the field of oriented object detection, which achieves up to 3.85 mAP improvement over Faster R-CNN and RetinaNet. 単純に、ケースドアーキテクチャで$\rm O^2DETR$にマウントされたヘッドを微調整し、DOTAデータセットのSOTAよりも競合的なパフォーマンスを実現する。

Object detection with Transformers (DETR) has achieved a competitive performance over traditional detectors, such as Faster R-CNN. However, the potential of DETR remains largely unexplored for the more challenging task of arbitrary-oriented object detection problem. We provide the first attempt and implement Oriented Object DEtection with TRansformer ($\bf O^2DETR$) based on an end-to-end network. The contributions of $\rm O^2DETR$ include: 1) we provide a new insight into oriented object detection, by applying Transformer to directly and efficiently localize objects without a tedious process of rotated anchors as in conventional detectors; 2) we design a simple but highly efficient encoder for Transformer by replacing the attention mechanism with depthwise separable convolution, which can significantly reduce the memory and computational cost of using multi-scale features in the original Transformer; 3) our $\rm O^2DETR$ can be another new benchmark in the field of oriented object detection, which achieves up to 3.85 mAP improvement over Faster R-CNN and RetinaNet. We simply fine-tune the head mounted on $\rm O^2DETR$ in a cascaded architecture and achieve a competitive performance over SOTA in the DOTA dataset.
翻訳日:2021-06-08 18:05:39 公開日:2021-06-06
# 大規模非教師なし意味セグメンテーション

Large-scale Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2106.03149v1 )

ライセンス: Link先を確認
Shang-Hua Gao and Zhong-Yu Li and Ming-Hsuan Yang and Ming-Ming Cheng and Junwei Han and Philip Torr(参考訳) ImageNetデータセットによって、大規模データに対する教師なし学習は、分類タスクに大きな進歩をもたらした。 セグメンテーションタスクには,このような魅力的な学習モダリティを実現するための大きな課題が2つある。すなわち,アルゴリズムを評価するための大規模なベンチマークが欠落している;i)教師なしの形状表現学習は難しい。 本稿では,研究の進展を追跡するためのベンチマークデータセットを用いて,大規模非教師なしセマンティクスセグメンテーション(luss)の新たな問題を提案する。 imagenetデータセットに基づいて、120万のトレーニングイメージと40kの高品質なセマンティクスセグメンテーションアノテーションを備えたimagenet-sデータセットを提案する。 私たちのベンチマークは、高いデータ多様性と明確なタスク目標を持っています。 また,LUSSに対して驚くほど有効である簡易かつ効果的なベースライン法を提案する。 さらに,LUSSの課題と今後の方向性を特定するために,関連する非弱弱教師付き手法をベンチマークした。

Powered by the ImageNet dataset, unsupervised learning on large-scale data has made significant advances for classification tasks. There are two major challenges to allow such an attractive learning modality for segmentation tasks: i) a large-scale benchmark for assessing algorithms is missing; ii) unsupervised shape representation learning is difficult. We propose a new problem of large-scale unsupervised semantic segmentation (LUSS) with a newly created benchmark dataset to track the research progress. Based on the ImageNet dataset, we propose the ImageNet-S dataset with 1.2 million training images and 40k high-quality semantic segmentation annotations for evaluation. Our benchmark has a high data diversity and a clear task objective. We also present a simple yet effective baseline method that works surprisingly well for LUSS. In addition, we benchmark related un/weakly supervised methods accordingly, identifying the challenges and possible directions of LUSS.
翻訳日:2021-06-08 18:05:24 公開日:2021-06-06
# 技術報告 : 時間的集合表現

Technical Report: Temporal Aggregate Representations ( http://arxiv.org/abs/2106.03152v1 )

ライセンス: Link先を確認
Fadime Sener, Dibyadip Chatterjee, Angela Yao(参考訳) このテクニカルレポートは、[9]で示された仕事をさらに実験で拡張します。 9]では,過去や将来の観測から推論を必要とする長期的映像理解に取り組み,いくつかの根本的な疑問を提起する。 時間的あるいはシーケンシャルな関係はどのようにモデル化されるべきか? 情報とコンテキストの時間的範囲はどのような処理が必要か? どのような時間スケールで導出すべきか? 9] 柔軟な多粒性時間集約フレームワークでこれらの疑問に対処する。 本稿では,このフレームワークをさまざまなタスクでさらに実験し,新しいデータセットEPIC-KITCHENS-100を提案する。

This technical report extends our work presented in [9] with more experiments. In [9], we tackle long-term video understanding, which requires reasoning from current and past or future observations and raises several fundamental questions. How should temporal or sequential relationships be modelled? What temporal extent of information and context needs to be processed? At what temporal scale should they be derived? [9] addresses these questions with a flexible multi-granular temporal aggregation framework. In this report, we conduct further experiments with this framework on different tasks and a new dataset, EPIC-KITCHENS-100.
翻訳日:2021-06-08 18:05:09 公開日:2021-06-06
# テキストからビデオモデルを学ぶ: 手続き行動のゼロショット予測

Learning Video Models from Text: Zero-Shot Anticipation for Procedural Actions ( http://arxiv.org/abs/2106.03158v1 )

ライセンス: Link先を確認
Fadime Sener, Rishabh Saraf, Angela Yao(参考訳) ロボットに、これまで見たことのない活動の認識と予測を教えることができるだろうか? テキストからビデオのモデルを学習することでこの問題に対処する。 本稿では,大規模テキストコーパスから指導知識を一般化し,映像に伝達する階層モデルを提案する。 インストラクショナルビデオの一部が与えられたとき、我々のモデルは、未来への複数のステップ、すべて豊かな自然言語で、一貫性と正当なアクションを認識し、予測します。 このモデルの能力を示すために,ゼロショット学習,認識,予測のための4022のレシピ集である \emph{tasty videos dataset v2} を紹介する。 各種評価指標を用いた広範囲な実験により,訓練モデルの限られたビデオデータから,本手法の一般化の可能性を示した。

Can we teach a robot to recognize and make predictions for activities that it has never seen before? We tackle this problem by learning models for video from text. This paper presents a hierarchical model that generalizes instructional knowledge from large-scale text-corpora and transfers the knowledge to video. Given a portion of an instructional video, our model recognizes and predicts coherent and plausible actions multiple steps into the future, all in rich natural language. To demonstrate the capabilities of our model, we introduce the \emph{Tasty Videos Dataset V2}, a collection of 4022 recipes for zero-shot learning, recognition and anticipation. Extensive experiments with various evaluation metrics demonstrate the potential of our method for generalization, given limited video data for training models.
翻訳日:2021-06-08 18:05:00 公開日:2021-06-06
# 映像の映像変換のための変換ROI

Transformed ROIs for Capturing Visual Transformations in Videos ( http://arxiv.org/abs/2106.03162v1 )

ライセンス: Link先を確認
Abhinav Rai, Fadime Sener, Angela Yao(参考訳) アクションがシーンにもたらした視覚的な変化のモデル化は、ビデオ理解に不可欠です。 現在、CNNは1回に1つの地区を処理しているため、長い範囲にわたる文脈的関係は学習可能であるが間接的である。 我々は、CNNのプラグイン・アンド・プレイモジュールであるTROIを紹介し、それ以外は空間と時間で区切られている中レベルの特徴表現を推論する。 このモジュールは、手や対話するオブジェクトなどの局所的な視覚エンティティを関連付け、畳み込み層の特徴マップに直接、それらの対応する領域を変換する。 TROIでは,大規模データセットである something-Something-V2 と Epic-Kitchens-100 の動作認識結果が得られる。

Modeling the visual changes that an action brings to a scene is critical for video understanding. Currently, CNNs process one local neighbourhood at a time, so contextual relationships over longer ranges, while still learnable, are indirect. We present TROI, a plug-and-play module for CNNs to reason between mid-level feature representations that are otherwise separated in space and time. The module relates localized visual entities such as hands and interacting objects and transforms their corresponding regions of interest directly in the feature maps of convolutional layers. With TROI, we achieve state-of-the-art action recognition results on the large-scale datasets Something-Something-V2 and Epic-Kitchens-100.
翻訳日:2021-06-08 18:04:47 公開日:2021-06-06
# 領域一般化のための特徴ベーススタイルランダム化

Feature-based Style Randomization for Domain Generalization ( http://arxiv.org/abs/2106.03171v1 )

ライセンス: Link先を確認
Yue Wang, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) 最近の注目に値するトピックとして、ドメイン一般化(DG)は、まず複数のソースドメイン上のジェネリックモデルを学習し、その後、追加の適応なしに任意の未確認ターゲットドメインに直接一般化することを目的としている。 従来のDGモデルでは、観測されたソースドメインを補完する仮想データを生成することで、データ拡張に基づく手法の有効性が示されている。 見えない領域をシミュレートするために、その多くは画像レベルの変換によって元のデータの多様性を高める。 しかし,本研究では,参照スタイルが限定されているため,潜在的なスタイルを網羅的に説明することは困難であり,必ずしも多様性を保証できない。 本稿では,画像レベルの拡張とは違って,特徴レベルの拡張を実現するための,シンプルで効果的な特徴ベースのランダム化モジュールを開発し,ランダムノイズを元のスタイルに統合することでランダムなスタイルを生成できる。 既存の画像レベルの拡張と比較して、我々の機能レベルの拡張は、よりゴール指向でサンプル多様性の方法を好む。 さらに,提案モジュールの有効性を十分に検討するために,ネットワークの全パラメータを十分に訓練できるように,新たなプログレッシブトレーニング戦略を設計する。 PACS、VLCS、Office-Homeという3つの標準ベンチマークデータセットに対する大規模な実験は、最先端の手法と比較して、我々の手法の優位性を強調している。

As a recent noticeable topic, domain generalization (DG) aims to first learn a generic model on multiple source domains and then directly generalize to an arbitrary unseen target domain without any additional adaption. In previous DG models, by generating virtual data to supplement observed source domains, the data augmentation based methods have shown its effectiveness. To simulate the possible unseen domains, most of them enrich the diversity of original data via image-level style transformation. However, we argue that the potential styles are hard to be exhaustively illustrated and fully augmented due to the limited referred styles, leading the diversity could not be always guaranteed. Unlike image-level augmentation, we in this paper develop a simple yet effective feature-based style randomization module to achieve feature-level augmentation, which can produce random styles via integrating random noise into the original style. Compared with existing image-level augmentation, our feature-level augmentation favors a more goal-oriented and sample-diverse way. Furthermore, to sufficiently explore the efficacy of the proposed module, we design a novel progressive training strategy to enable all parameters of the network to be fully trained. Extensive experiments on three standard benchmark datasets, i.e., PACS, VLCS and Office-Home, highlight the superiority of our method compared to the state-of-the-art methods.
翻訳日:2021-06-08 18:04:36 公開日:2021-06-06
# パノプティカルセグメンテーションの組合せ最適化:エンドツーエンドのトレーニング可能なアプローチ

Combinatorial Optimization for Panoptic Segmentation: An End-to-End Trainable Approach ( http://arxiv.org/abs/2106.03188v1 )

ライセンス: Link先を確認
Ahmed Abbas, Paul Swoboda(参考訳) 同時意味とインスタンスセグメンテーションのためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。 畳み込みニューラルネットワークと非対称マルチウェイカット問題解決器からなるpanoptic segmentation)。 後者は、意味的および境界的予測をエレガントに組み込んでパンオプティカルなラベリングを生成する組合せ最適化問題を解く。 我々の定式化により、最適化問題を通じて勾配をバックプロパゲートすることで、パノプティカル・クオリティ・メトリックのスムーズなサロゲートを直接最大化することができる。 エンド・ツー・エンド学習w.r.t.の改善効果に関する実験的検討 CityscapesやCOCOデータセットに匹敵するアプローチ。 全体として,本手法は,大規模実世界の課題におけるディープラーニングと組み合わせた組合せ最適化の利用の有用性を示し,このようなアーキテクチャをエンドツーエンドでトレーニングする上でのメリットと洞察を示す。

We propose an end-to-end trainable architecture for simultaneous semantic and instance segmentation (a.k.a. panoptic segmentation) consisting of a convolutional neural network and an asymmetric multiway cut problem solver. The latter solves a combinatorial optimization problem that elegantly incorporates semantic and boundary predictions to produce a panoptic labeling. Our formulation allows to directly maximize a smooth surrogate of the panoptic quality metric by backpropagating the gradient through the optimization problem. Experimental evaluation shows improvement of end-to-end learning w.r.t. comparable approaches on Cityscapes and COCO datasets. Overall, our approach shows the utility of using combinatorial optimization in tandem with deep learning in a challenging large scale real-world problem and showcases benefits and insights into training such an architecture end-to-end.
翻訳日:2021-06-08 18:04:12 公開日:2021-06-06
# ポートレートマット化のための単一入力によるアルファマット生成

Alpha Matte Generation from Single Input for Portrait Matting ( http://arxiv.org/abs/2106.03210v1 )

ライセンス: Link先を確認
Dogucan Yaman and Haz{\i}m Kemal Ekenel and Alexander Waibel(参考訳) ポートレート・マッティングは、ビデオ会議アプリ、画像/ビデオ編集、ポストプロダクションなど、幅広いアプリケーションにおいて重要な研究課題である。 目標は、各ピクセルが前景の被写体に与える影響を識別するアルファマットを予測することである。 従来のアプローチや既存の作品の多くは、アルファマットの予測にtrimap、バックグラウンドイメージなどの追加入力を利用した。 しかし、追加入力を提供することは必ずしも実用的ではない。 さらに、モデルはこれらの追加入力に敏感すぎる。 本稿では,GAN(Generative Adversarial Nets)を用いたポートレートマッチングを行うための追加の入力不要アプローチを提案する。 メインタスクを2つのサブタスクに分割します。 そこで本研究では,人物分割のためのセグメンテーションネットワークと,アルファ行列予測のためのアルファ生成ネットワークを提案する。 セグメンテーションネットワークは入力画像を取得して粗いセグメンテーションマップを生成するが、アルファ生成ネットワークは同じ入力画像と、セグメンテーションネットワークによって生成された粗いセグメンテーションマップを利用してアルファマットを予測する。 さらに,粗いセグメンテーションマップをダウンサンプル化するためのセグメンテーション符号化ブロックを提案し,残余ブロックに特徴表現を提供する。 さらに, 被写体の境界のみを個別に罰する境界損失を提案し, また, ポートレート・マッティングの知覚損失にも適応する。 提案システムのトレーニングには,2つの一般的なトレーニングデータセットを組み合わせることで,データの量と多様性を改善し,推論時間におけるドメインシフト問題に対処する。 我々は,adobe image matting dataset, portrait matting dataset, distinguisheds datasetという,3つのベンチマークデータセットでモデルをテストした。 提案手法は単一の入力を受信するMODNet法よりも優れていた。

Portrait matting is an important research problem with a wide range of applications, such as video conference app, image/video editing, and post-production. The goal is to predict an alpha matte that identifies the effect of each pixel on the foreground subject. Traditional approaches and most of the existing works utilized an additional input, e.g., trimap, background image, to predict alpha matte. However, providing additional input is not always practical. Besides, models are too sensitive to these additional inputs. In this paper, we introduce an additional input-free approach to perform portrait matting using Generative Adversarial Nets (GANs). We divide the main task into two subtasks. For this, we propose a segmentation network for the person segmentation and the alpha generation network for alpha matte prediction. While the segmentation network takes an input image and produces a coarse segmentation map, the alpha generation network utilizes the same input image as well as a coarse segmentation map that is produced by the segmentation network to predict the alpha matte. Besides, we present a segmentation encoding block to downsample the coarse segmentation map and provide feature representation to the residual block. Furthermore, we propose border loss to penalize only the borders of the subject separately which is more likely to be challenging and we also adapt perceptual loss for portrait matting. To train the proposed system, we combine two different popular training datasets to improve the amount of data as well as diversity to address domain shift problems in the inference time. We tested our model on three different benchmark datasets, namely Adobe Image Matting dataset, Portrait Matting dataset, and Distinctions dataset. The proposed method outperformed the MODNet method that also takes a single input.
翻訳日:2021-06-08 18:03:59 公開日:2021-06-06
# out-of-distribution detectionの限界を探る

Exploring the Limits of Out-of-Distribution Detection ( http://arxiv.org/abs/2106.03004v1 )

ライセンス: Link先を確認
Stanislav Fort, Jie Ren, Balaji Lakshminarayanan(参考訳) 奥行き検出(OOD)は、ディープニューラルネットワークにおいて大きな課題である。 我々は、大規模事前学習型トランスフォーマーが、様々なデータモダリティにまたがる近OODタスクにおける最先端(SOTA)を大幅に改善できることを実証した。 例えば、CIFAR-100とCIFAR-10のOOD検出では、ImageNet-21kで事前トレーニングされたビジョントランスフォーマーを使用して、AUROCを85%(現在のSOTA)から96%以上改善する。 挑戦的ゲノミクスOOD検出ベンチマークでは、トランスフォーマーと教師なし事前学習を用いて、AUROCを66%から77%改善する。 さらに性能向上のために,アウトリーバークラスの例を数例挙げた,少数ショットのアウトリーバー露光設定について検討し,プリトレーニングトランスフォーマは特にアウトリーバー露光に適しており,cifar-100対cifar-10におけるood検出のaurocは,oodクラスあたり1イメージで98.7%,oodクラス毎に10イメージで99.46%改善できることを示した。 CLIPのようなマルチモーダルな画像テキスト事前学習型トランスフォーマーでは、外部クラスの名前のみを付随する画像のない情報のソースとして使用する新たな方法を探り、標準ビジョンOODベンチマークタスクにおいて、従来のSOTAよりも優れていることを示す。

Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.
翻訳日:2021-06-08 17:52:51 公開日:2021-06-06
# マルチタスクと継続的学習のためのモデル動物園の強化

Boosting a Model Zoo for Multi-Task and Continual Learning ( http://arxiv.org/abs/2106.03027v1 )

ライセンス: Link先を確認
Rahul Ramesh, Pratik Chaudhari(参考訳) 一度に、あるいは漸進的に、複数のタスクからデータを活用して1つのモデルを学習することは、マルチタスクと継続的学習の方法の中心にあるアイデアです。 理想的には、そのようなモデルはタスクが単独でトレーニングされた場合よりも、各タスクを正確に予測する。 統計的学習理論 (i) におけるツールの利用について, 特定のタスクを含むタスクが与えられたタスクの精度を低下させることができること, (ii) 与えられたタスクでうまく機能するために一緒に訓練すべきタスクの理想的なセットが異なること, について述べる。 従来のベンチマークデータセットでこのような競合を発見する手法を開発し,すべてのタスクでのトレーニングがパフォーマンスをテーブルに残していることを示唆する。 これは、モデルのアンサンブルを構築するブースティングベースのアルゴリズムであり、それぞれは非常に小さく、より小さなタスクでトレーニングされます。 Model Zooは、マルチタスクおよび連続学習における様々な既存のベンチマークにおける最先端の手法と比較して、予測精度を大幅に向上させ、また、我々の創造のより困難なものも達成します。 また、全てのタスクに対して独立に訓練されたモデルでさえ、既存のマルチタスクや連続的な学習方法よりも優れていることを示す。

Leveraging data from multiple tasks, either all at once, or incrementally, to learn one model is an idea that lies at the heart of multi-task and continual learning methods. Ideally, such a model predicts each task more accurately than if the task were trained in isolation. We show using tools in statistical learning theory (i) how tasks can compete for capacity, i.e., including a particular task can deteriorate the accuracy on a given task, and (ii) that the ideal set of tasks that one should train together in order to perform well on a given task is different for different tasks. We develop methods to discover such competition in typical benchmark datasets which suggests that the prevalent practice of training with all tasks leaves performance on the table. This motivates our "Model Zoo", which is a boosting-based algorithm that builds an ensemble of models, each of which is very small, and it is trained on a smaller set of tasks. Model Zoo achieves large gains in prediction accuracy compared to state-of-the-art methods across a variety of existing benchmarks in multi-task and continual learning, as well as more challenging ones of our creation. We also show that even a model trained independently on all tasks outperforms all existing multi-task and continual learning methods.
翻訳日:2021-06-08 17:52:22 公開日:2021-06-06
# multi-facet context bandits: a neural network perspective

Multi-facet Contextual Bandits: A Neural Network Perspective ( http://arxiv.org/abs/2106.03039v1 )

ライセンス: Link先を確認
Yikun Ban, Jingrui He, Curtiss B. Cook(参考訳) コンテキスト多重武装バンディットはレコメンデーションシステムにおいて効果的なツールであることが示されている。 本稿では,一面的な側面からユーザのニーズを特徴付ける,一群の盗賊を含む多面的盗賊の新たな問題について検討する。 各ラウンドでは、与えられたユーザに対して、各バンディットから1つのアームを選択し、すべてのアームの組み合わせが最終的な報酬を最大化する。 この問題は、Eコマースやヘルスケアなどにすぐに応用できる。 この問題に対処するために,組立ニューラルネットワークを用いて複数の帯域の報酬関数を協調的に学習する,MuFasaという新しいアルゴリズムを提案する。 エクスプロイトと探査のバランスをとるために期待される報酬と結びついたアッパー信頼境界(UCB)を推定する。 軽微な仮定では、MuFasaの後悔の分析を提供する。 ほぼ最適の$\widetilde{ \mathcal{O}}((K+1)\sqrt{T})$ regret bound ここで$K$は盗賊の数、$T$は遊びラウンドの数である。 さらに、MuFasaが実世界のデータセット上で強いベースラインを上回ることを示す広範な実験を行った。

Contextual multi-armed bandit has shown to be an effective tool in recommender systems. In this paper, we study a novel problem of multi-facet bandits involving a group of bandits, each characterizing the users' needs from one unique aspect. In each round, for the given user, we need to select one arm from each bandit, such that the combination of all arms maximizes the final reward. This problem can find immediate applications in E-commerce, healthcare, etc. To address this problem, we propose a novel algorithm, named MuFasa, which utilizes an assembled neural network to jointly learn the underlying reward functions of multiple bandits. It estimates an Upper Confidence Bound (UCB) linked with the expected reward to balance between exploitation and exploration. Under mild assumptions, we provide the regret analysis of MuFasa. It can achieve the near-optimal $\widetilde{ \mathcal{O}}((K+1)\sqrt{T})$ regret bound where $K$ is the number of bandits and $T$ is the number of played rounds. Furthermore, we conduct extensive experiments to show that MuFasa outperforms strong baselines on real-world data sets.
翻訳日:2021-06-08 17:51:58 公開日:2021-06-06
# 二重アクターと正規化批評家による効率的な連続制御

Efficient Continuous Control with Double Actors and Regularized Critics ( http://arxiv.org/abs/2106.03050v1 )

ライセンス: Link先を確認
Jiafei Lyu, Xiaoteng Ma, Jiangpeng Yan, Xiu Li(参考訳) 強化学習(Reinforcement Learning, RL)において, 優れた価値推定方法が問題となっている。 DDPGやTD3のような現在の値推定法は、不要な過大評価バイアスや過小評価バイアスに悩まされる。 本稿では,長期にわたって無視されてきた二重アクターの可能性について検討し,連続設定における価値関数の推定について検討する。 まず, DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため, シングル批評家とダブル批評家に二重アクターを構築することで, 二重アクターのバイアス緩和特性を明らかにし, 実証する。 次に、二重アクターがエージェントの探索能力を向上させることが興味深い。 最後に,ダブルアクタによる評価の不確実性を軽減するため,ダブルアクタアーキテクチャの下での批判ネットワークの正則化が提案され,二重アクタ正則化批評家(darc)アルゴリズムが提案されている。 挑戦的連続制御タスクに対する大規模な実験結果から, DARCは試料効率が高く, 最先端の手法よりも優れていた。

How to obtain good value estimation is one of the key problems in Reinforcement Learning (RL). Current value estimation methods, such as DDPG and TD3, suffer from unnecessary over- or underestimation bias. In this paper, we explore the potential of double actors, which has been neglected for a long time, for better value function estimation in continuous setting. First, we uncover and demonstrate the bias alleviation property of double actors by building double actors upon single critic and double critics to handle overestimation bias in DDPG and underestimation bias in TD3 respectively. Next, we interestingly find that double actors help improve the exploration ability of the agent. Finally, to mitigate the uncertainty of value estimate from double critics, we further propose to regularize the critic networks under double actors architecture, which gives rise to Double Actors Regularized Critics (DARC) algorithm. Extensive experimental results on challenging continuous control tasks show that DARC significantly outperforms state-of-the-art methods with higher sample efficiency.
翻訳日:2021-06-08 17:51:42 公開日:2021-06-06
# 非線形システム同定のための新しいディープニューラルネットワークアーキテクチャ

A novel Deep Neural Network architecture for non-linear system identification ( http://arxiv.org/abs/2106.03078v1 )

ライセンス: Link先を確認
Luca Zancato, Alessandro Chiuso(参考訳) 非線形システム識別のための新しいDeep Neural Network (DNN)アーキテクチャを提案する。 DNN表現力の制約により一般化を促進する。 そのために,メモリのフェージングに触発されて,帰納バイアス(アーキテクチャ上)と正規化(損失関数上)を導入する。 このアーキテクチャにより、利用可能なデータのみに基づいた自動複雑性選択が可能となり、これにより、ユーザが選択しなければならないハイパーパラメータの数が削減される。 高度に並列化可能なDNNフレームワーク(確率最適化法に基づく)を発明し,大規模データセットに適用した。

We present a novel Deep Neural Network (DNN) architecture for non-linear system identification. We foster generalization by constraining DNN representational power. To do so, inspired by fading memory systems, we introduce inductive bias (on the architecture) and regularization (on the loss function). This architecture allows for automatic complexity selection based solely on available data, in this way the number of hyper-parameters that must be chosen by the user is reduced. Exploiting the highly parallelizable DNN framework (based on Stochastic optimization methods) we successfully apply our method to large scale datasets.
翻訳日:2021-06-08 17:51:25 公開日:2021-06-06
# tabularnet: 表データの意味構造を理解するニューラルネットワークアーキテクチャ

TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data ( http://arxiv.org/abs/2106.03096v1 )

ライセンス: Link先を確認
Lun Du, Fei Gao, Xu Chen, Ran Jia, Junshan Wang, Shi Han and Dongmei Zhang(参考訳) 表データはテーブルの広範にわたる応用においてユビキタスであり、それゆえ、基礎となる情報を抽出する研究者の注目を集めている。 表データマイニングにおける重要な問題の1つは、それらの固有の意味構造を自動的に理解する方法である。 既存の研究では、表構造の空間情報をモデル化するために畳み込みニューラルネットワーク(CNN)を採用しているが、階層的およびパラタクティックな関係のような細胞間のより多様な関係情報を無視している。 テーブルから空間情報と関係情報を同時に抽出するために,新しいニューラルネットワークアーキテクチャであるtabularnetを提案する。 TabularNetの空間エンコーダは、行/列レベルのプーリングと双方向Gated Recurrent Unit(Bi-GRU)を用いて、それぞれ統計情報と局所位置相関をキャプチャする。 リレーショナル情報のために,WordNet木に基づく新しいグラフ構築手法を設計し,階層的およびパラタクティックなセル間の関係に着目したグラフ畳み込みネットワーク(GCN)ベースのエンコーダを採用する。 私たちのニューラルネットワークアーキテクチャは、異なる理解タスクのための統一されたニューラルネットワークバックボーンとなり、マルチタスクシナリオで利用できます。 2つの実世界のスプレッドシートデータセットを用いて3つの分類タスクを広範囲に実験し,提案手法の有効性を実証した。

Tabular data are ubiquitous for the widespread applications of tables and hence have attracted the attention of researchers to extract underlying information. One of the critical problems in mining tabular data is how to understand their inherent semantic structures automatically. Existing studies typically adopt Convolutional Neural Network (CNN) to model the spatial information of tabular structures yet ignore more diverse relational information between cells, such as the hierarchical and paratactic relationships. To simultaneously extract spatial and relational information from tables, we propose a novel neural network architecture, TabularNet. The spatial encoder of TabularNet utilizes the row/column-level Pooling and the Bidirectional Gated Recurrent Unit (Bi-GRU) to capture statistical information and local positional correlation, respectively. For relational information, we design a new graph construction method based on the WordNet tree and adopt a Graph Convolutional Network (GCN) based encoder that focuses on the hierarchical and paratactic relationships between cells. Our neural network architecture can be a unified neural backbone for different understanding tasks and utilized in a multitask scenario. We conduct extensive experiments on three classification tasks with two real-world spreadsheet data sets, and the results demonstrate the effectiveness of our proposed TabularNet over state-of-the-art baselines.
翻訳日:2021-06-08 17:51:16 公開日:2021-06-06
# ゲーム理論とディープラーニングを用いたスマートグリッド攻撃の逆分類

Adversarial Classification of the Attacks on Smart Grids Using Game Theory and Deep Learning ( http://arxiv.org/abs/2106.03209v1 )

ライセンス: Link先を確認
Kian Hamedani, Lingjia Liu, Jithin Jagannath, Yang (Cindy) Yi(参考訳) スマートグリッドはサイバー攻撃に弱い。 本稿では,攻撃者によるパワー測定の変動を評価するゲーム理論的手法を提案する。 広告主はスマートグリッドのメーターを操作することで経済的利益を得ることができる。 一方、メーターの精度を維持しようとするディフェンダーが存在する。 ゼロサムゲームはアタッカーとディフェンダーの相互作用をモデル化するために使用される。 本稿では,2つのディフェンダーを用いて,異なるシナリオにおける各ディフェンダーの有効性を評価する。 マルチ層パーセプトロン(MLP)と従来の状態推定器は,本稿で研究した2つのディフェンダーである。 ディフェンダーの効用は、敵意識及び敵意識のない状況においても検討される。 シミュレーションにより, MLP をディフェンダーとして使用すると, 敵から得られる効用が著しく低下することが示唆された。 ディフェンダーのユーティリティは、使用されているディフェンダーに基づいて、異なるシナリオで変形していることが示される。 最終的に、このゼロサムゲームは純粋な戦略ではなく、ゲームの混合戦略が計算されることを示す。

Smart grids are vulnerable to cyber-attacks. This paper proposes a game-theoretic approach to evaluate the variations caused by an attacker on the power measurements. Adversaries can gain financial benefits through the manipulation of the meters of smart grids. On the other hand, there is a defender that tries to maintain the accuracy of the meters. A zero-sum game is used to model the interactions between the attacker and defender. In this paper, two different defenders are used and the effectiveness of each defender in different scenarios is evaluated. Multi-layer perceptrons (MLPs) and traditional state estimators are the two defenders that are studied in this paper. The utility of the defender is also investigated in adversary-aware and adversary-unaware situations. Our simulations suggest that the utility which is gained by the adversary drops significantly when the MLP is used as the defender. It will be shown that the utility of the defender is variant in different scenarios, based on the defender that is being used. In the end, we will show that this zero-sum game does not yield a pure strategy, and the mixed strategy of the game is calculated.
翻訳日:2021-06-08 17:50:55 公開日:2021-06-06
# 条件付き自己回帰モデルによるグラフ2グラフ学習

Graph2Graph Learning with Conditional Autoregressive Models ( http://arxiv.org/abs/2106.03236v1 )

ライセンス: Link先を確認
Guan Wang, Francois Bernard Lauze, Aasa Feragen(参考訳) 本稿では,グラフ間学習問題を解決するためのグラフニューラルネットワークモデルを提案する。 グラフ上の多くの深い学習は、グラフ分類や実数値グラフ特性の回帰といった「単純な」問題を考える。 そのようなタスクでは、データの中間表現の主な要件は、出力に必要な構造、すなわち、クラスを分離したり、レグレッサーによって指示された順序を維持することである。 しかし、グラフ値出力の回帰、生成モデル、グラフオートエンコーダなどの学習タスクは、グラフ構造化出力の予測を目的としている。 これを成功させるためには、学習された表現はもっと多くの構造を保存する必要がある。 本稿では,グラフ・ツー・グラフ学習のための条件付き自己回帰モデルを提案し,グラフアルゴリズムからの挑戦的な部分グラフ予測,グラフの再構築と可視化のためのグラフオートエンコーダ,限定ラベル付きデータによるグラフ分類を可能にする事前学習表現などによる表現能力を示す。

We present a graph neural network model for solving graph-to-graph learning problems. Most deep learning on graphs considers ``simple'' problems such as graph classification or regressing real-valued graph properties. For such tasks, the main requirement for intermediate representations of the data is to maintain the structure needed for output, i.e., keeping classes separated or maintaining the order indicated by the regressor. However, a number of learning tasks, such as regressing graph-valued output, generative models, or graph autoencoders, aim to predict a graph-structured output. In order to successfully do this, the learned representations need to preserve far more structure. We present a conditional auto-regressive model for graph-to-graph learning and illustrate its representational capabilities via experiments on challenging subgraph predictions from graph algorithmics; as a graph autoencoder for reconstruction and visualization; and on pretraining representations that allow graph classification with limited labeled data.
翻訳日:2021-06-08 17:50:40 公開日:2021-06-06
# ランキング損失を伴うカスケードネットワークを用いたmriによる脳年齢推定

Brain Age Estimation From MRI Using Cascade Networks with Ranking Loss ( http://arxiv.org/abs/2106.03052v1 )

ライセンス: Link先を確認
Jian Cheng, Ziyang Liu, Hao Guan, Zhenzhou Wu, Haogang Zhu, Jiyang Jiang, Wei Wen, Dacheng Tao, Tao Liu(参考訳) 神経画像データからディープニューラルネットを用いて,健常成人の年齢を正確に予測することができ,老化関連疾患の検出のためのバイオマーカーとして脳年齢を予測することができる。 本稿では,T1強調MRIデータから脳年齢を推定するために,TSAN( two-stage-age-network)と呼ばれる新しい3次元畳み込みネットワークを提案する。 既存の方法と比較して、TSANには以下の改善がある。 まず、TSANは2段階のカスケードネットワークアーキテクチャを使用し、第1段階のネットワークは荒い脳年齢を推定し、第2段階のネットワークは第1段階のネットワークによって識別された脳年齢からより正確に脳年齢を推定する。 第二に、TSANは、従来の平均二乗誤差(MSE)の損失とともに、脳年齢推定における新しいランキングの損失を適用した最初の研究である。 第三に密連結な経路は、特徴写像を異なるスケールで組み合わせるために用いられる。 6,586ドルMRIを用いた実験では、TSANは正確な脳年齢推定が可能であり、平均絶対誤差(MAE)は2428ドル、ピアソンの相関係数(PCC)は0.985ドルであった。 さらに、脳年齢と慢性年齢の脳年齢差をバイオマーカーとして用いて、アルツハイマー病(AD)とミルド認知障害(MCI)を、支持ベクトルマシン(SVM)による健常者(HC)と区別することができる。 AD/HCとMCI/HCの分類AUCはそれぞれ0.904$と0.823$であった。 脳年齢差は認知症のリスクに関連する効果的なバイオマーカーであり、早期認知症リスクスクリーニングの可能性を示唆した。 GitHubでは、コードとトレーニングされたモデルがリリースされた。

Chronological age of healthy people is able to be predicted accurately using deep neural networks from neuroimaging data, and the predicted brain age could serve as a biomarker for detecting aging-related diseases. In this paper, a novel 3D convolutional network, called two-stage-age-network (TSAN), is proposed to estimate brain age from T1-weighted MRI data. Compared with existing methods, TSAN has the following improvements. First, TSAN uses a two-stage cascade network architecture, where the first-stage network estimates a rough brain age, then the second-stage network estimates the brain age more accurately from the discretized brain age by the first-stage network. Second, to our knowledge, TSAN is the first work to apply novel ranking losses in brain age estimation, together with the traditional mean square error (MSE) loss. Third, densely connected paths are used to combine feature maps with different scales. The experiments with $6586$ MRIs showed that TSAN could provide accurate brain age estimation, yielding mean absolute error (MAE) of $2.428$ and Pearson's correlation coefficient (PCC) of $0.985$, between the estimated and chronological ages. Furthermore, using the brain age gap between brain age and chronological age as a biomarker, Alzheimer's disease (AD) and Mild Cognitive Impairment (MCI) can be distinguished from healthy control (HC) subjects by support vector machine (SVM). Classification AUC in AD/HC and MCI/HC was $0.904$ and $0.823$, respectively. It showed that brain age gap is an effective biomarker associated with risk of dementia, and has potential for early-stage dementia risk screening. The codes and trained models have been released on GitHub: https://github.com/Milan-BUAA/TSAN-brain-age-estimation.
翻訳日:2021-06-08 17:43:32 公開日:2021-06-06
# GANを使ってクラウドイメージセグメンテーションタスクのデータを増やす

Using GANs to Augment Data for Cloud Image Segmentation Task ( http://arxiv.org/abs/2106.03064v1 )

ライセンス: Link先を確認
Mayank Jain, Conor Meegan, and Soumyabrata Dev(参考訳) クラウド/スカイイメージセグメンテーションは現実世界の広範なアプリケーションを持っているが、タスクを実行するために高精度なモデルを訓練するには大量のラベル付きデータが必要である。 このような雲/スキー画像の体積と、それに対応する接地構造二元写像は、そのような複雑な画像セグメンテーションモデルの訓練を非常に困難にしている。 本稿では,GAN(Generative Adversarial Networks)を用いて,画像セグメンテーションモデルの予測精度を高めるために,トレーニングセットを増強するためのデータ生成の有効性を示す。 さらに,gan生成画像の地中バイナリマップを推定し,その拡張画像としての利用を容易にする方法を提案する。 最後に,様々な統計的手法を用いて検証を行う。

While cloud/sky image segmentation has extensive real-world applications, a large amount of labelled data is needed to train a highly accurate models to perform the task. Scarcity of such volumes of cloud/sky images with corresponding ground-truth binary maps makes it highly difficult to train such complex image segmentation models. In this paper, we demonstrate the effectiveness of using Generative Adversarial Networks (GANs) to generate data to augment the training set in order to increase the prediction accuracy of image segmentation model. We further present a way to estimate ground-truth binary maps for the GAN-generated images to facilitate their effective use as augmented images. Finally, we validate our work with different statistical techniques.
翻訳日:2021-06-08 17:42:55 公開日:2021-06-06
# 状態空間分割としてコンテキストツリーを用いた時系列の階層ベイズ混合モデル

Hierarchical Bayesian Mixture Models for Time Series Using Context Trees as State Space Partitions ( http://arxiv.org/abs/2106.03023v1 )

ライセンス: Link先を確認
Ioannis Papageorgiou, Ioannis Kontoyiannis(参考訳) 実数値時系列との混合モデリングと推論のための一般ベイズフレームワークが導入された。 トップレベルでは、状態空間は離散的なコンテキストツリーの選択によって分割され、結果として生じる分割は最新のサンプルの値に依存する。 下位レベルでは、分割の各領域に異なるモデルが関連付けられている。 これは非常にリッチで柔軟な混合モデルのクラスを定義し、効率よく正確なベイズ推定を可能にするアルゴリズムを提供する。 特に,最大後生確率(MAP)モデル(MAPコンテキストツリー分割を含む)が,その正確な後生確率とともに正確に識別可能であることを示す。 この汎用フレームワークの実用性は、異なる自己回帰(AR)モデルが各状態空間で使用されるときに詳細に説明され、結果として混合ARモデルクラスとなる。 関連するアルゴリズムツールの性能は、シミュレーションデータと実世界のデータの両方においてモデル選択と予測の問題で実証され、その結果が最先端の手法よりも優れているか優れているかが示されている。

A general Bayesian framework is introduced for mixture modelling and inference with real-valued time series. At the top level, the state space is partitioned via the choice of a discrete context tree, so that the resulting partition depends on the values of some of the most recent samples. At the bottom level, a different model is associated with each region of the partition. This defines a very rich and flexible class of mixture models, for which we provide algorithms that allow for efficient, exact Bayesian inference. In particular, we show that the maximum a posteriori probability (MAP) model (including the relevant MAP context tree partition) can be precisely identified, along with its exact posterior probability. The utility of this general framework is illustrated in detail when a different autoregressive (AR) model is used in each state-space region, resulting in a mixture-of-AR model class. The performance of the associated algorithmic tools is demonstrated in the problems of model selection and forecasting on both simulated and real-world data, where they are found to provide results as good or better than state-of-the-art methods.
翻訳日:2021-06-08 17:38:41 公開日:2021-06-06
# 可逆ニューラルネットワークを用いた2次元材料の逆設計

Inverse design of two-dimensional materials with invertible neural networks ( http://arxiv.org/abs/2106.03013v1 )

ライセンス: Link先を確認
Victor Fung, Jiaxin Zhang, Guoxiang Hu, P. Ganesh, Bobby G. Sumpter(参考訳) 機能性のある新しい材料をオンデマンドで設計する能力は、材料発見の次のフロンティアである。 しかし、設計空間全体を計算可能な方法で徹底的かつ効率的にサンプリングすることは、非常に難しい課題である。 この問題に対処するために、設計空間と対象特性の間の前と逆のプロセスの両方をマッピングできる可逆ニューラルネットワークを利用した逆設計フレームワーク(MatDesINNe)を提案する。 このアプローチは、指定された資産の材料候補を生成するために使用することができ、従って、高度に要求される逆設計の目標を満たすことができる。 次に、この枠組みをMoS2から始まる2次元材料におけるバンドギャップ工学の課題に適用する。 加圧引張,圧縮およびせん断ひずみおよび外部電界の6自由度を含む設計空間において, この枠組みは, 新規で高い忠実度, およびほぼ化学的精度で多種多様な候補を生成可能であることを示す。 ブルート力スクリーニングでは不可能なMoS2において、金属絶縁体転移に関する洞察を提供するために、この生成能力をさらに拡張する。 このアプローチは一般的であり、他の材料とその対応する設計空間とターゲット特性に直接拡張することができる。

The ability to readily design novel materials with chosen functional properties on-demand represents a next frontier in materials discovery. However, thoroughly and efficiently sampling the entire design space in a computationally tractable manner remains a highly challenging task. To tackle this problem, we propose an inverse design framework (MatDesINNe) utilizing invertible neural networks which can map both forward and reverse processes between the design space and target property. This approach can be used to generate materials candidates for a designated property, thereby satisfying the highly sought-after goal of inverse design. We then apply this framework to the task of band gap engineering in two-dimensional materials, starting with MoS2. Within the design space encompassing six degrees of freedom in applied tensile, compressive and shear strain plus an external electric field, we show the framework can generate novel, high fidelity, and diverse candidates with near-chemical accuracy. We extend this generative capability further to provide insights regarding metal-insulator transition, important for memristive neuromorphic applications among others, in MoS2 which is not otherwise possible with brute force screening. This approach is general and can be directly extended to other materials and their corresponding design spaces and target properties.
翻訳日:2021-06-08 17:35:06 公開日:2021-06-06
# Graph Belief Propagation Networks

Graph Belief Propagation Networks ( http://arxiv.org/abs/2106.03033v1 )

ライセンス: Link先を確認
Junteng Jia, Cenk Baykal, Vamsi K. Potluru, Austin R. Benson(参考訳) 複雑な関係データの広帯域化により、グラフにおける半教師付きノード分類が中心的な機械学習問題となっている。 グラフニューラルネットワークは、ノードの近傍にある特徴をラベルにマッピングする、この問題の訓練が容易で正確な方法の最近のクラスであるが、推論中のラベル相関を無視し、それらの予測は解釈が難しい。 一方、集合分類は、ラベル相関を明示的にモデル化する解釈可能なグラフィカルモデルに基づく従来の手法である。 本稿では,これら2つの手法の利点を組み合わせたモデルを紹介し,集合的分類に類似した条件付き確率場における限界確率を計算し,確率場のポテンシャルをグラフニューラルネットワークと同様のエンドツーエンドトレーニングによって学習する。 我々のモデルでは、各ノードのポテンシャルはそのノードの特徴のみに依存し、エッジポテンシャルは結合行列を介して学習される。 この構造は、解釈可能なパラメータによる単純なトレーニングを可能にし、大きなネットワークにスケールし、推論時にトレーニングラベルを自然に組み込む。 我々のアプローチは、解釈可能なメッセージパスグラフニューラルネットワークか、より高いキャパシティと近代化されたトレーニングを備えた集団分類手法とみなすことができる。

With the wide-spread availability of complex relational data, semi-supervised node classification in graphs has become a central machine learning problem. Graph neural networks are a recent class of easy-to-train and accurate methods for this problem that map the features in the neighborhood of a node to its label, but they ignore label correlation during inference and their predictions are difficult to interpret. On the other hand, collective classification is a traditional approach based on interpretable graphical models that explicitly model label correlations. Here, we introduce a model that combines the advantages of these two approaches, where we compute the marginal probabilities in a conditional random field, similar to collective classification, and the potentials in the random field are learned through end-to-end training, akin to graph neural networks. In our model, potentials on each node only depend on that node's features, and edge potentials are learned via a coupling matrix. This structure enables simple training with interpretable parameters, scales to large networks, naturally incorporates training labels at inference, and is often more accurate than related approaches. Our approach can be viewed as either an interpretable message-passing graph neural network or a collective classification method with higher capacity and modernized training.
翻訳日:2021-06-08 17:34:44 公開日:2021-06-06
# 確率的非スムース非凸最適化のためのミニバッチと運動量モデルに基づく手法

Minibatch and Momentum Model-based Methods for Stochastic Non-smooth Non-convex Optimization ( http://arxiv.org/abs/2106.03034v1 )

ライセンス: Link先を確認
Qi Deng and Wenzhi Gao(参考訳) 確率モデルに基づく手法は,非スムース非凸最適化のためのステップズ選択への強固さと証明可能な効率保証により,近年注目を集めている。 確率モデルに基づく手法の性能をさらに向上するため,2つの重要な拡張を行った。 まず,各イテレーションのモデル関数を近似するために,サンプルの集合を用いる新しいミニバッチアルゴリズムを提案する。 まず,非滑らか・非凸問題においても,確率的アルゴリズムがバッチサイズよりも線形高速化を実現することを示す。 そこで本研究では,各アルゴリズムの反復にかかわる近位写像の感度解析法を開発した。 我々の分析は、より一般的な設定において独立した関心を持つことができる。 第二に, 凸最適化のための運動量手法の成功に動機づけられ, 非スムースおよび非凸設定の収束性を改善するための新しい確率的外挿モデルベース手法を提案する。 我々は、かなりフレキシブルな外挿項の複雑性を保証する。 また,提案手法の実証的優位性を示す実験を行った。

Stochastic model-based methods have received increasing attention lately due to their appealing robustness to the stepsize selection and provable efficiency guarantee for non-smooth non-convex optimization. To further improve the performance of stochastic model-based methods, we make two important extensions. First, we propose a new minibatch algorithm which takes a set of samples to approximate the model function in each iteration. For the first time, we show that stochastic algorithms achieve linear speedup over the batch size even for non-smooth and non-convex problems. To this end, we develop a novel sensitivity analysis of the proximal mapping involved in each algorithm iteration. Our analysis can be of independent interests in more general settings. Second, motivated by the success of momentum techniques for convex optimization, we propose a new stochastic extrapolated model-based method to possibly improve the convergence in the non-smooth and non-convex setting. We obtain complexity guarantees for a fairly flexible range of extrapolation term. In addition, we conduct experiments to show the empirical advantage of our proposed methods.
翻訳日:2021-06-08 17:34:24 公開日:2021-06-06
# ムラナ:確率変数再現最適化のためのジェネリックフレームワーク

MURANA: A Generic Framework for Stochastic Variance-Reduced Optimization ( http://arxiv.org/abs/2106.03056v1 )

ライセンス: Link先を確認
Laurent Condat and Peter Richt\'arik(参考訳) 本稿では,数個のスムーズな関数と正規化器の和を逐次的あるいは分散的に最小化するために,MUltiple RANdomized Algorithm (MURANA) と呼ぶ汎用分散還元アルゴリズムを提案する。 本手法は一般確率作用素で定式化されており,計算量を減らすための様々な戦略をモデル化できる。 例えば、Muranaはグラデーションのスパースアクティベーションをサポートし、更新ベクターの圧縮による通信負荷の低減もサポートしている。 この汎用性により、Muranaは統一されたフレームワーク内の多くの既存のランダム化メカニズムをカバーできる。 しかし、村名も特例として新法を定めている。 ELVIRAと呼ばれるその1つを強調し、Loopless SVRGで改善されていることを示す。

We propose a generic variance-reduced algorithm, which we call MUltiple RANdomized Algorithm (MURANA), for minimizing a sum of several smooth functions plus a regularizer, in a sequential or distributed manner. Our method is formulated with general stochastic operators, which allow us to model various strategies for reducing the computational complexity. For example, MURANA supports sparse activation of the gradients, and also reduction of the communication load via compression of the update vectors. This versatility allows MURANA to cover many existing randomization mechanisms within a unified framework. However, MURANA also encodes new methods as special cases. We highlight one of them, which we call ELVIRA, and show that it improves upon Loopless SVRG.
翻訳日:2021-06-08 17:34:09 公開日:2021-06-06
# DL-DDA -- UXとゲームプレイ制約によるディープラーニングに基づく動的困難調整

DL-DDA -- Deep Learning based Dynamic Difficulty Adjustment with UX and Gameplay constraints ( http://arxiv.org/abs/2106.03075v1 )

ライセンス: Link先を確認
Dvir Ben Or, Michael Kolomenkin, Gil Shabat(参考訳) 動的難易度調整(dda$)は、ユーザエクスペリエンスの最適化のためにゲーム難易度を自動的に変更するプロセスである。 ほぼ全ての現代ゲームにおいて重要な要素である。 既存のDDAアプローチのほとんどは、他のプレイヤーを見ることなくプレイヤーの経験に集中している。 ゲームによって課される他のプレイヤーやマクロ制約を考慮して,ユーザエクスペリエンスを自動的に最適化する手法を提案する。 この手法はディープニューラルネットワークアーキテクチャに基づいており、ほとんどのサポートにおいて勾配がゼロのカウントロス制約を含む。 この損失関数を最適化し,その性能を理論的に解析する手法を提案する。 最後に,ゲーム設計の専門家による手動ヒューリスティックスよりも優れ,20万ドルのプレイヤーに対して行われた内部実験の実証結果について報告する。

Dynamic difficulty adjustment ($DDA$) is a process of automatically changing a game difficulty for the optimization of user experience. It is a vital part of almost any modern game. Most existing DDA approaches concentrate on the experience of a player without looking at the rest of the players. We propose a method that automatically optimizes user experience while taking into consideration other players and macro constraints imposed by the game. The method is based on deep neural network architecture that involves a count loss constraint that has zero gradients in most of its support. We suggest a method to optimize this loss function and provide theoretical analysis for its performance. Finally, we provide empirical results of an internal experiment that was done on $200,000$ players and was found to outperform the corresponding manual heuristics crafted by game design experts.
翻訳日:2021-06-08 17:33:56 公開日:2021-06-06
# タラグランドの不等式T1の下での定常変分勾配の複雑度解析

Complexity Analysis of Stein Variational Gradient Descent Under Talagrand's Inequality T1 ( http://arxiv.org/abs/2106.03076v1 )

ライセンス: Link先を確認
Adil Salim and Lukang Sun and Peter Richt\'arik(参考訳) 我々は,$\pi(x) \propto \exp(-f(x))$ where $f$ smooth および nonconvex からサンプルを得るためのアルゴリズムであるstein variational gradient descent (svgd) の複雑さについて検討する。 問題である$d$ の次元と所望の精度である$\varepsilon$ の関数として、stein fisher情報(または2乗核化steinの不一致)の観点から、svgd の人口制限におけるクリーンな複雑さを提供する。 既存の研究とは異なり、アルゴリズムの軌道については何も仮定しない。 代わりに、ターゲット分布がタラグランの不等式 t1 を満たすと仮定する。

We study the complexity of Stein Variational Gradient Descent (SVGD), which is an algorithm to sample from $\pi(x) \propto \exp(-F(x))$ where $F$ smooth and nonconvex. We provide a clean complexity bound for SVGD in the population limit in terms of the Stein Fisher Information (or squared Kernelized Stein Discrepancy), as a function of the dimension of the problem $d$ and the desired accuracy $\varepsilon$. Unlike existing work, we do not make any assumption on the trajectory of the algorithm. Instead, our key assumption is that the target distribution satisfies Talagrand's inequality T1.
翻訳日:2021-06-08 17:33:42 公開日:2021-06-06
# ModelCI-e:Deep Learning Serving Systemにおける継続的学習の実現

ModelCI-e: Enabling Continual Learning in Deep Learning Serving Systems ( http://arxiv.org/abs/2106.03122v1 )

ライセンス: Link先を確認
Yizheng Huang, Huaizheng Zhang, Yonggang Wen, Peng Sun, Nguyen Binh Duong TA(参考訳) MLOpsは、実験的なMLモデルを本番環境、すなわち実際のユーザに提供することを目的としている。 残念ながら、既存のMLサービスシステムは、オンラインデータがオフラインのトレーニングデータから分岐する動的な環境を適切に扱えないため、面倒なモデルの更新とデプロイが動作します。 本稿では,この問題を解決するために,ModelCI-e(継続的インテグレーションと進化)と呼ばれる軽量MLOpsプラグインを実装した。 具体的には、継続学習(CL)とMLデプロイメント技術を採用し、エンジンのカスタマイズを行なわずに、モデルの更新とバリデーションをエンドツーエンドでサポートする。 ModelCI-eは、1)CL研究者がCLモデルのプロトタイプとベンチマークを容易に行うことができるモデルファクトリ、2)CLバックエンドでモデルの自動およびオーケストレーションを効率的に行うこと、3)MLチームがCLサービスを共同で管理するためのWebインターフェースを含む。 予備結果は,modelci-eの有用性を示し,モデル更新と推論ワークロードの干渉の排除がシステム効率向上に不可欠であることを示す。

MLOps is about taking experimental ML models to production, i.e., serving the models to actual users. Unfortunately, existing ML serving systems do not adequately handle the dynamic environments in which online data diverges from offline training data, resulting in tedious model updating and deployment works. This paper implements a lightweight MLOps plugin, termed ModelCI-e (continuous integration and evolution), to address the issue. Specifically, it embraces continual learning (CL) and ML deployment techniques, providing end-to-end supports for model updating and validation without serving engine customization. ModelCI-e includes 1) a model factory that allows CL researchers to prototype and benchmark CL models with ease, 2) a CL backend to automate and orchestrate the model updating efficiently, and 3) a web interface for an ML team to manage CL service collaboratively. Our preliminary results demonstrate the usability of ModelCI-e, and indicate that eliminating the interference between model updating and inference workloads is crucial for higher system efficiency.
翻訳日:2021-06-08 17:33:29 公開日:2021-06-06
# 零半群の分類に関する学習証明

Learning proofs for the classification of nilpotent semigroups ( http://arxiv.org/abs/2106.03015v1 )

ライセンス: Link先を確認
Carlos Simpson(参考訳) 機械学習は 4-nilpotent semigroup の分類のための小または小数のノードの証明を見つけるために用いられる。

Machine learning is applied to find proofs, with smaller or smallest numbers of nodes, for the classification of 4-nilpotent semigroups.
翻訳日:2021-06-08 17:23:43 公開日:2021-06-06
# ディープニューラルネットワークとメトロポリスサンプリングによる量子ポテンシャルの予測

Predicting Quantum Potentials by Deep Neural Network and Metropolis Sampling ( http://arxiv.org/abs/2106.03126v1 )

ライセンス: Link先を確認
Rui Hong, Peng-Fei Zhou, Bin Xi, Jie Hu, An-Chun Ji and Shi-Ju Ran(参考訳) 機械学習と量子物理学のハイブリッド化は、両方の分野において方法論に本質的な影響をもたらした。 本稿では, 量子ポテンシャルニューラルネットワークに着想を得て, 固有状態のシュロディンガー方程式のポテンシャルを, メトロポリスサンプリングとディープニューラルネットワークを組み合わせることで解くことを提案する。 損失関数は、その正確な評価のために最適化にエネルギーを明示的に関与させる。 調和振動子と水素原子をベンチマークすると、MPNNはシュロディンガー方程式を満たすポテンシャルだけでなく固有エネルギーも予測する上で優れた精度と安定性を示す。 我々の提案は、ab-initioシミュレーションに応用でき、逆微分方程式を物理学以降で解くことができる。

The hybridizations of machine learning and quantum physics have caused essential impacts to the methodology in both fields. Inspired by quantum potential neural network, we here propose to solve the potential in the Schrodinger equation provided the eigenstate, by combining Metropolis sampling with deep neural network, which we dub as Metropolis potential neural network (MPNN). A loss function is proposed to explicitly involve the energy in the optimization for its accurate evaluation. Benchmarking on the harmonic oscillator and hydrogen atom, MPNN shows excellent accuracy and stability on predicting not just the potential to satisfy the Schrodinger equation, but also the eigen-energy. Our proposal could be potentially applied to the ab-initio simulations, and to inversely solving other partial differential equations in physics and beyond.
翻訳日:2021-06-08 17:23:40 公開日:2021-06-06
# ピア情報による出席評価

Assessing Attendance by Peer Information ( http://arxiv.org/abs/2106.03148v1 )

ライセンス: Link先を確認
Pan Deng, Jianjun Zhou, Jing Lyu, Zitong Zhao(参考訳) 学生の学習モチベーション,行動,心理的地位の指標として,授業登録の違いや混合学習環境におけるオンライン/オフラインの違いによる学生の出席率の不均一性は,出席率の比較を困難にしている。 本稿では,学生の出席率を測定するための相対出席率(rai)と呼ばれる新しい方法を提案する。 伝統的な出席は一人またはコースの記録に焦点をあてるが、相対的出席は関連する個人またはコースのピア出席情報を強調し、参加者の比較をより正当化する。 実生活データによる実験の結果、raiは学生のエンゲージメントをよりよく反映できることがわかった。

Attendance rate is an important indicator of students' study motivation, behavior and Psychological status; However, the heterogeneous nature of student attendance rates due to the course registration difference or the online/offline difference in a blended learning environment makes it challenging to compare attendance rates. In this paper, we propose a novel method called Relative Attendance Index (RAI) to measure attendance rates, which reflects students' efforts on attending courses. While traditional attendance focuses on the record of a single person or course, relative attendance emphasizes peer attendance information of relevant individuals or courses, making the comparisons of attendance more justified. Experimental results on real-life data show that RAI can indeed better reflect student engagement.
翻訳日:2021-06-08 17:23:27 公開日:2021-06-06
# 共通雑音を持つ平均場競技におけるDeep Fictitious Play

Signatured Deep Fictitious Play for Mean Field Games with Common Noise ( http://arxiv.org/abs/2106.03272v1 )

ライセンス: Link先を確認
Ming Min, Ruimeng Hu(参考訳) 平均場ゲーム(MFG)を共通のノイズで解くための既存のディープラーニング手法は、サンプリングされた共通のノイズパスを固定し、対応するMFGを解く。 これにより、共通のノイズパスの数百万のシミュレーションを持つネストされたループ構造が、正確な解を生み出すため、計算コストを制限し、アプリケーションを広範囲に制限する。 本稿では,大まかな経路理論を基礎として,固定されていない共有雑音設定と協調してネストされたループ構造を回避し,計算複雑性を著しく低減する,署名付き深層実演という新しい単一ループアルゴリズムを提案する。 提案アルゴリズムは、既存の機械学習アルゴリズムで必要とされるように、ニューラルネットワークのさらなるトレーニングをすることなく、平均場平衡に対する共通不確実性の変化の影響を正確に捉えることができる。 効率性は線形四角形MFG、平均場ポートフォリオゲーム、最適消費と投資の平均場ゲームを含む3つのアプリケーションによって支えられている。 全体として, 粗い経路理論からの新たな視点を提供し, 高い効率と広範囲の応用により, 共通の雑音を伴うmfgsの解法を提案する。 さらに,拡張MFG(状態と制御の両方による平均場相互作用)を共通の雑音で扱うための,最初の深層学習作業について報告する。

Existing deep learning methods for solving mean-field games (MFGs) with common noise fix the sampling common noise paths and then solve the corresponding MFGs. This leads to a nested-loop structure with millions of simulations of common noise paths in order to produce accurate solutions, which results in prohibitive computational cost and limits the applications to a large extent. In this paper, based on the rough path theory, we propose a novel single-loop algorithm, named signatured deep fictitious play, by which we can work with the unfixed common noise setup to avoid the nested-loop structure and reduce the computational complexity significantly. The proposed algorithm can accurately capture the effect of common uncertainty changes on mean-field equilibria without further training of neural networks, as previously needed in the existing machine learning algorithms. The efficiency is supported by three applications, including linear-quadratic MFGs, mean-field portfolio game, and mean-field game of optimal consumption and investment. Overall, we provide a new point of view from the rough path theory to solve MFGs with common noise with significantly improved efficiency and an extensive range of applications. In addition, we report the first deep learning work to deal with extended MFGs (a mean-field interaction via both the states and controls) with common noise.
翻訳日:2021-06-08 17:23:16 公開日:2021-06-06
# 特異な動的モード分解

Singular Dynamic Mode Decompositions ( http://arxiv.org/abs/2106.02639v1 )

ライセンス: Link先を確認
Joel A. Rosenfeld, Rushikesh Kamalapurkar(参考訳) この写本は、クープマン解析の適用において、動的モード分解の長期的制限に対処することを目的としている。 これらの制限の原則は、関連する動的モード分解アルゴリズムの収束とクープマンモードの存在である。 これらの制限に対処するため、クープマン作用素はリウヴィル作用素(特別の場合ではクープマン生成子と呼ばれる)の光による解析から取り除かれ、これらの作用素は作用素の領域と範囲として独立に選択されたヒルベルト空間のある種の対に対してコンパクトであることが示されている。 この分析では固有関数は破棄されるが、実現可能な再構成アルゴリズムがまだ実証されており、固有関数の犠牲は、他の文脈ではまだ達成されていないMDD解析の理論的目標を実現する。 この原稿は、データから生じる占有カーネルの密集したコレクションが解析に利用されたときに収束する動的モード分解アルゴリズムの説明で締めくくっている。

This manuscript is aimed at addressing several long standing limitations of dynamic mode decompositions in the application of Koopman analysis. Principle among these limitations are the convergence of associated Dynamic Mode Decomposition algorithms and the existence of Koopman modes. To address these limitations, two major modifications are made, where Koopman operators are removed from the analysis in light of Liouville operators (known as Koopman generators in special cases), and these operators are shown to be compact for certain pairs of Hilbert spaces selected separately as the domain and range of the operator. While eigenfunctions are discarded in this analysis, a viable reconstruction algorithm is still demonstrated, and the sacrifice of eigenfunctions realizes the theoretical goals of DMD analysis that have yet to be achieved in other contexts. The manuscript concludes with the description of a Dynamic Mode Decomposition algorithm that converges when a dense collection of occupation kernels, arising from the data, are leveraged in the analysis.
翻訳日:2021-06-08 17:20:39 公開日:2021-06-06
# (参考訳) 大規模確率回帰のための確率勾配昇降機

Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic Regression ( http://arxiv.org/abs/2106.01682v2 )

ライセンス: CC BY 4.0
Olivier Sprangers, Sebastian Schelter, Maarten de Rijke(参考訳) グラフデータ問題を解決するために、GBM(Gradient Boosting Machines)は非常に人気がある。 しかし、実践者は点予測だけでなく、予測の不確実性を定量化する確率予測にも興味を持っている。 このような確率的予測を作成することは、既存のGBMベースのソリューションでは困難である。 本稿では,決定木を単一のアンサンブルで計算効率良く確率的予測を行う手法であるpgbm(probabilistic gradient boosting machines)を提案する。 PGBMは決定木の葉重量をランダム変数として近似し、確率木アンサンブル更新方程式を用いてデータセット内の各サンプルの平均と分散を近似する。 これらの学習モーメントは、トレーニング後に特定のディストリビューションからサンプルをサンプリングすることを可能にする。 We empirically demonstrate the advantages of PGBM compared to existing state-of-the-art methods: (i) PGBM enables probabilistic estimates without compromising on point performance in a single model, (ii) PGBM learns probabilistic estimates via a single model only (and without requiring multi-parameter boosting), and thereby offers a speedup of up to several orders of magnitude over existing state-of-the-art methods on large datasets, and (iii) PGBM achieves accurate probabilistic estimates in tasks with complex differentiable loss functions, such as hierarchical time series problems, where we observed up to 10% improvement in point forecasting performance and up to 300% improvement in probabilistic forecasting performance.

Gradient Boosting Machines (GBM) are hugely popular for solving tabular data problems. However, practitioners are not only interested in point predictions, but also in probabilistic predictions in order to quantify the uncertainty of the predictions. Creating such probabilistic predictions is difficult with existing GBM-based solutions: they either require training multiple models or they become too computationally expensive to be useful for large-scale settings. We propose Probabilistic Gradient Boosting Machines (PGBM), a method to create probabilistic predictions with a single ensemble of decision trees in a computationally efficient manner. PGBM approximates the leaf weights in a decision tree as a random variable, and approximates the mean and variance of each sample in a dataset via stochastic tree ensemble update equations. These learned moments allow us to subsequently sample from a specified distribution after training. We empirically demonstrate the advantages of PGBM compared to existing state-of-the-art methods: (i) PGBM enables probabilistic estimates without compromising on point performance in a single model, (ii) PGBM learns probabilistic estimates via a single model only (and without requiring multi-parameter boosting), and thereby offers a speedup of up to several orders of magnitude over existing state-of-the-art methods on large datasets, and (iii) PGBM achieves accurate probabilistic estimates in tasks with complex differentiable loss functions, such as hierarchical time series problems, where we observed up to 10% improvement in point forecasting performance and up to 300% improvement in probabilistic forecasting performance.
翻訳日:2021-06-08 16:14:57 公開日:2021-06-06