このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201109となっている論文です。

PDF登録状況(公開日: 20201109)

TitleAuthorsAbstract論文公表日・翻訳日
# バリューアラインシステムへのステップ

Steps Towards Value-Aligned Systems ( http://arxiv.org/abs/2002.05672v2 )

ライセンス: Link先を確認
Osonde A. Osoba, Benjamin Boudreaux, Douglas Yeung(参考訳) AI/MLを含む)アルゴリズムによる意思決定アーティファクトは、私たちの意思決定エコシステムの確立され成長している部分です。 複雑な世界で効果的な意思決定を行うために必要な情報の洪水を管理するために必要なツールです。 現在の文献には、個々のアーティファクトが社会的規範や期待(公正性、プライバシー、安全基準の違反など)にどのように違反するかの例がたくさんある。 この背景から、この議論は、AIを備えた社会技術システムにおける価値の相違を評価する文献において、あまり強調されていない視点を強調している。 価値のミスアライメントに関する研究は、個々の技術アーチファクトの振る舞いに強く焦点を当てている。 この議論は、社会工学システムにおける価値評価のためのより構造化されたシステムレベルのアプローチを論じている。 我々は議論をより具体的にするために、主に公正性の研究に頼っている。 そして、この機会を利用して、システムパースペクティブの採用が、価値の誤用をよりよく説明し対処する能力をどのように改善するかを強調します。 私たちの議論は、個々のアーティファクトだけでなく、システム全体の価値アライメントを保証することを望む優先度の高い質問の探索で終わります。

Algorithmic (including AI/ML) decision-making artifacts are an established and growing part of our decision-making ecosystem. They are indispensable tools for managing the flood of information needed to make effective decisions in a complex world. The current literature is full of examples of how individual artifacts violate societal norms and expectations (e.g. violations of fairness, privacy, or safety norms). Against this backdrop, this discussion highlights an under-emphasized perspective in the literature on assessing value misalignment in AI-equipped sociotechnical systems. The research on value misalignment has a strong focus on the behavior of individual tech artifacts. This discussion argues for a more structured systems-level approach for assessing value-alignment in sociotechnical systems. We rely primarily on the research on fairness to make our arguments more concrete. And we use the opportunity to highlight how adopting a system perspective improves our ability to explain and address value misalignments better. Our discussion ends with an exploration of priority questions that demand attention if we are to assure the value alignment of whole systems, not just individual artifacts.
翻訳日:2023-06-04 01:37:44 公開日:2020-11-09
# 光ブラックホールレーザーの不安定性

Instabilities in an optical black-hole laser ( http://arxiv.org/abs/2002.08835v2 )

ライセンス: Link先を確認
Juan David Rincon-Estrada and David Bermudez(参考訳) 非線形分散ファイバにおける光学場のハミルトニアンについて研究する。 量子場のゆらぎはアナログホーキング効果によって光学事象地平線に近い自然発生的に生成される。 最も単純なモデルは光ブラックホールレーザーであり、ホーキング放射はブラックホールとブラックホールの2つの水平線で形成された空洞の中で発生し増幅される。 共鳴ホーキング放射は地平線から離れた不安定性とトンネルの離散的な集合に由来することが判明した。 最後に, 数値計算結果を共振条件と不安定条件と比較し, 現象モデルを構築し, 明確な物理像を与える。

The Hamiltonian of optical fields in a nonlinear dispersive fiber is studied. Quantum field fluctuations are spontaneously created close to an optical event horizon through the analog Hawking effect. The simplest model is considered for an optical black-hole laser, where the Hawking radiation is produced and amplified inside a cavity formed by two horizons: a black hole and a white hole. It is found that resonant Hawking radiation originates from a discrete set of instabilities and tunnels out of the horizons. Finally, the numerical results are compared with the resonance and instability conditions and a phenomenological model is developed to give a clear physical picture.
翻訳日:2023-06-03 02:53:25 公開日:2020-11-09
# ECCOLA - 倫理的なAIシステムを実装する方法

ECCOLA -- a Method for Implementing Ethically Aligned AI Systems ( http://arxiv.org/abs/2004.08377v2 )

ライセンス: Link先を確認
Ville Vakkuri, Kai-Kristian Kemell, Pekka Abrahamsson(参考訳) 近年の人工知能(AI)のシステム障害は、そのいくつかが世界的な話題となり、これらのシステムの問題点を浮き彫りにした。 これらの失敗により、より倫理的なAIシステムが様々な利害関係者への影響を考慮に入れられるようになった。 しかし、AI倫理を実践することはまだ進行中の課題である。 政府や民間団体が考案したハイレベルなガイドラインは存在するが、開発者には実用性がない。 この問題に対処するために,本稿では,AI倫理を実装する方法を提案する。 本手法は循環行動設計研究手法を用いて反復的に開発されている。 この方法は、ハイレベルなAI倫理原則をより実用的なものにすることを目的としており、開発者が実際にそれらをより簡単に実装できるようにする。

Various recent Artificial Intelligence (AI) system failures, some of which have made the global headlines, have highlighted issues in these systems. These failures have resulted in calls for more ethical AI systems that better take into account their effects on various stakeholders. However, implementing AI ethics into practice is still an on-going challenge. High-level guidelines for doing so exist, devised by governments and private organizations alike, but lack practicality for developers. To address this issue, in this paper, we present a method for implementing AI ethics. The method, ECCOLA, has been iteratively developed using a cyclical action design research approach. The method aims at making the high-level AI ethics principles more practical, making it possible for developers to more easily implement them in practice.
翻訳日:2023-05-23 04:27:23 公開日:2020-11-09
# 量子コンピュータにおける群空間決定によるグルーオン場拡散

Gluon Field Digitization via Group Space Decimation for Quantum Computers ( http://arxiv.org/abs/2005.14221v3 )

ライセンス: Link先を確認
Yao Ji, Henry Lamm, Shuchen Zhu (for the NuQS Collaboration)(参考訳) ゲージ理論の量子シミュレーションには効率的な数値化が必要である。 離散部分群に基づくスキームは、体系的エラーのコストでより少ないキュービットを使用する。 一般連続ゲージ群を近似するための単一プラーペット作用を場ゆらぎを積分して導出することにより,このアプローチを体系化する。 これにより、これらの近似の有効性と、どのように改善されるかが分かる。 我々は、最大離散部分群である$su(3)$から3階までの純粋ゲージのシミュレーションにより、このスキームを随伴する。

Efficient digitization is required for quantum simulations of gauge theories. Schemes based on discrete subgroups use fewer qubits at the cost of systematic errors. We systematize this approach by deriving a single plaquette action for approximating general continuous gauge groups through integrating out field fluctuations. This provides insight into the effectiveness of these approximations, and how they could be improved. We accompany the scheme by simulations of pure gauge over the largest discrete subgroup of $SU(3)$ up to the third order.
翻訳日:2023-05-18 02:52:35 公開日:2020-11-09
# 量子ガーブル回路

Quantum Garbled Circuits ( http://arxiv.org/abs/2006.01085v2 )

ライセンス: Link先を確認
Zvika Brakerski, Henry Yuen(参考訳) 本稿では,量子回路のガーリング方式を提案する。これにより,量子計算のための非可解なランダム化符号化方式を実現する。 具体的には、与えられた量子回路と量子入力のエンコードを計算する方法を示し、そこから計算の出力を導出することができる。 古典的な設定では、garbled回路(および一般にランダムエンコーディング)は、セキュアなマルチパーティ計算、デリゲート計算、暗号プリミティブの深さ還元、複雑性低バウンドなど、多くのアプリケーションで使用される多用途な暗号ツールである。 しかし、この研究以前には一般回路の量子アナログは知られていなかった。 我々は、量子ランダム化符号化スキームが量子コンピューティングや暗号の応用にも役立つことを望んでいる。 量子ランダム化符号化の有用性を説明するために、複雑性クラス $\mathbf{QMA}$ に対する概念的に単純なゼロ知識(ZK)証明システムを設計する。 私たちのプロトコルは、シングルビットチャレンジのいわゆる$\sigma$フォーマットを持ち、入力を最終ラウンドまで遅らせることができます。 以前に知られていたZK $\Sigma$-protocol for $\mathbf{QMA}$は、前述の性質を持たないBroadbent and Grilo (FOCS 2020)によるものである。

We present a garbling scheme for quantum circuits, thus achieving a decomposable randomized encoding scheme for quantum computation. Specifically, we show how to compute an encoding of a given quantum circuit and quantum input, from which it is possible to derive the output of the computation and nothing else. In the classical setting, garbled circuits (and randomized encodings in general) are a versatile cryptographic tool with many applications such as secure multiparty computation, delegated computation, depth-reduction of cryptographic primitives, complexity lower-bounds, and more. However, a quantum analogue for garbling general circuits was not known prior to this work. We hope that our quantum randomized encoding scheme can similarly be useful for applications in quantum computing and cryptography. To illustrate the usefulness of quantum randomized encoding, we use it to design a conceptually-simple zero-knowledge (ZK) proof system for the complexity class $\mathbf{QMA}$. Our protocol has the so-called $\Sigma$ format with a single-bit challenge, and allows the inputs to be delayed to the last round. The only previously-known ZK $\Sigma$-protocol for $\mathbf{QMA}$ is due to Broadbent and Grilo (FOCS 2020), which does not have the aforementioned properties.
翻訳日:2023-05-17 11:19:20 公開日:2020-11-09
# 量子領域におけるガウス熱状態の熱交換とゆらぎ

Heat exchange and fluctuation in Gaussian thermal states in the quantum realm ( http://arxiv.org/abs/2007.04255v4 )

ライセンス: Link先を確認
A R Usha Devi, Sudha, A. K. Rajagopal and A. M. Jayannavar(参考訳) 温度平衡の異なる2つの系間の熱交換について、Jarzynski と W\'ozcik (Phys Rev. Lett. 92, 230602 (2004)) によって提唱された有名な交換変動定理は、熱平衡の量子ガウス状態に対して研究されている。 量子状態に対するウィグナー分布関数の定式化は、この定理に到達するために、古典位相空間の軌跡記述と近い類似性を示す。 2つの異なる温度で熱平衡状態にあるガウス状態が一定期間互いに接触し合う場合、量子ジャジンスキー-W'ozcik の定理は、対応する古典的な結果の極限 \hbar->0 と一致することを示す。

The celebrated exchange fluctuation theorem -- proposed by Jarzynski and W\'ozcik, (Phys Rev. Lett. 92, 230602 (2004)) for heat exchange between two systems in thermal equilibrium at different temperatures -- is explored here for quantum Gaussian states in thermal equilibrium. We employ Wigner distribution function formalism for quantum states, which exhibits close resemblance with the classcial phase-space trajectory description, to arrive at this theorem. For two Gaussian states in thermal equilibrium at two different temperatures kept in contact with each other for a fixed duration of time we show that the quantum Jarzyinski-W\'ozcik theorem agrees with the corresponding classical result in the limit \hbar->0.
翻訳日:2023-05-10 23:31:12 公開日:2020-11-09
# QAOAを用いた量子コンピュータ上の重み付きMAX k-CUTの効率的な符号化

Efficient encoding of the weighted MAX k-CUT on a quantum computer using QAOA ( http://arxiv.org/abs/2009.01095v3 )

ライセンス: Link先を確認
Franz Georg Fuchs, Herman {\O}ie Kolden, Niels Henrik Aase, and Giorgio Sartor(参考訳) 重み付きMAX k-CUT問題は、与えられた重み付き無向グラフ G(V,E) の k 分割を見つけ、交差エッジの重みの和を最大化する。 問題は、多くの実用的な応用があるため、特に興味深い。 本稿では、ノイズのある中間スケール量子(NISQ)デバイス上で量子近似最適化アルゴリズム(QAOA)を実行するのに適した重み付きMAX k-CUTの定式化について述べる。 新しい定式化は、|V|log_2(k) 量子ビットのみを必要とするバイナリエンコーディングを使用する。 本論文の貢献は以下のとおりである。 i) k > 2 の最大 k-カット問題に対して、基底ゲートへのバイナリエンコーディングに基づく位相分離演算子の新規な分解を提供する。 二 異なる符号化を比較した一組のテストケースの数値シミュレーションを行う。 三 異なる符号化の資源(キュービット数、cxゲート数)の分析を行う。 四 定式化及びシミュレーションを重み付きグラフの場合まで拡張する。 k が 2 のパワーでない場合、k が 2 のパワーでない場合、我々のアルゴリズムは NISQ デバイスに量子的優位性を示す候補となる。

The weighted MAX k-CUT problem consists of finding a k-partition of a given weighted undirected graph G(V,E) such that the sum of the weights of the crossing edges is maximized. The problem is of particular interest as it has a multitude of practical applications. We present a formulation of the weighted MAX k-CUT suitable for running the quantum approximate optimization algorithm (QAOA) on noisy intermediate scale quantum (NISQ)-devices to get approximate solutions. The new formulation uses a binary encoding that requires only |V|log_2(k) qubits. The contributions of this paper are as follows: i) A novel decomposition of the phase separation operator based on the binary encoding into basis gates is provided for the MAX k-CUT problem for k >2. ii) Numerical simulations on a suite of test cases comparing different encodings are performed. iii) An analysis of the resources (number of qubits, CX gates) of the different encodings is presented. iv) Formulations and simulations are extended to the case of weighted graphs. For small k and with further improvements when k is not a power of two, our algorithm is a possible candidate to show quantum advantage on NISQ devices.
翻訳日:2023-05-04 01:03:19 公開日:2020-11-09
# トレース力学と分割代数 : 量子重力と統一に向けて

Trace dynamics and division algebras: towards quantum gravity and unification ( http://arxiv.org/abs/2009.05574v4 )

ライセンス: Link先を確認
Tejinder P. Singh(参考訳) 我々は最近,重力場,yang-mills場,フェルミオンの統一のために,プランクスケールにおけるトレースダイナミクスにおけるラグランジアンを提案した。 動的変数は奇階数(フェルミオン)と偶階数(ボソニック)グラスマン行列によって記述される。 進化はコンネス時代に起こる。 プランクスケールよりもはるかに低いエネルギーでは、トレースダイナミクスは量子場理論に還元される。 本稿では,スピンの正しい理解には8次元オクトニオン空間の理論を定式化する必要があることを述べる。 最小の例外リー群 $g_2$ に属するオクタニオン代数の自己同型は、時空微分同相写像と内部ゲージ変換を置き換え、共通の統一折りたたみの下でそれらをもたらす。 分割代数に関する他の研究者による以前の研究に基づいて、我々はプランクスケールでのローレンツ弱統一(英語版)(Lorentz-weak unification)を提案し、対称性群はオクトニオン内の四元数の安定化群である。 これは$g_2$の2つの極大部分群のうちの1つであり、もう1つはオクタニオンの要素保存群である$su(3)$である。 この後者の群は$U(1)_{em}$と組み合わされ、フレイが先に示したように、電気色対称性を記述する。 我々は、実験で探すべき新しい質量を持たないスピン1ボソン[ローレンツボソン]を予測する。 我々のラグランジアンは、例外的なリー群$F_4$に埋め込まれた群$G_2$の3つのコピーを通して、3つのフェルミオン世代を正しく記述する。 これは4つの基本的な相互作用の統一群であり、例外的ジョルダン代数の自己同型群でもある。 重力は創発的な古典現象である。 プランクスケールでは、ローレンツ対称性の量子化バージョンがあり、ローレンツ粒子が仲介している。 我々は、サブプランクスケールでは、オクトニオントレース力学の自己随伴部分が11次元の弦理論と関係を持つと主張する。

We have recently proposed a Lagrangian in trace dynamics at the Planck scale, for unification of gravitation, Yang-Mills fields, and fermions. Dynamical variables are described by odd-grade (fermionic) and even-grade (bosonic) Grassmann matrices. Evolution takes place in Connes time. At energies much lower than Planck scale, trace dynamics reduces to quantum field theory. In the present paper we explain that the correct understanding of spin requires us to formulate the theory in 8-D octonionic space. The automorphisms of the octonion algebra, which belong to the smallest exceptional Lie group $G_2$, replace space-time diffeomorphisms and internal gauge transformations, bringing them under a common unified fold. Building on earlier work by other researchers on division algebras, we propose the Lorentz-weak unification at the Planck scale, the symmetry group being the stabiliser group of the quaternions inside the octonions. This is one of the two maximal subgroups of $G_2$, the other one being $SU(3)$, the element preserver group of octonions. This latter group, coupled with $U(1)_{em}$, describes the electro-colour symmetry, as shown earlier by Furey. We predict a new massless spin one boson [the Lorentz boson] which should be looked for in experiments. Our Lagrangian correctly describes three fermion generations, through three copies of the group $G_2$, embedded in the exceptional Lie group $F_4$. This is the unification group for the four fundamental interactions, and it also happens to be the automorphism group of the exceptional Jordan algebra. Gravitation is shown to be an emergent classical phenomenon. Whereas at the Planck scale, there is present a quantised version of the Lorentz symmetry, mediated by the Lorentz boson. We argue that at sub-Planck scales, the self-adjoint part of the octonionic trace dynamics bears a relationship with string theory in eleven dimensions.
翻訳日:2023-05-03 00:28:28 公開日:2020-11-09
# 量子アニールにおけるゆらぎ誘導探索

Fluctuation guided search in quantum annealing ( http://arxiv.org/abs/2009.06335v3 )

ライセンス: Link先を確認
Nicholas Chancellor(参考訳) 量子アニールは、組合せ最適化問題を解くために量子力学を活用することに非常に有望である。 しかし、この約束を実現するためには、基礎となる物理学を適切に活用する必要がある。 この精神の中で、量子アニールのよく知られた傾向として、よりフレキシブルな解を持つための合成問題への解の最適性をトレードオフするために、より量子ゆらぎが許容される解を求める方法について考察する。 このトレードオフは、D-Wave Systems QPUという逆アニーリング機能を用いて、全てのバイナリ変数からなる問題と、高次2値の離散変数を含むものの両方に対して実験的に実証する。 さらに、量子ビットの局所的な制御が、変動のレベルを制御し、探索を導くためにどのように使用できるかを実証する。 このトレードオフを活用することが事実上重要である場所について論じる。例えばハイブリッドアルゴリズムでは、一部のペナルティをアニールに直接実装することができず、これらのアルゴリズムがどのように機能するかの実証的な証拠を提供する。

Quantum annealing has great promise in leveraging quantum mechanics to solve combinatorial optimisation problems. However, to realize this promise to it's fullest extent we must appropriately leverage the underlying physics. In this spirit, I examine how the well known tendency of quantum annealers to seek solutions where more quantum fluctuations are allowed can be used to trade off optimality of the solution to a synthetic problem for the ability to have a more flexible solution, where some variables can be changed at little or no cost. I demonstrate this tradeoff experimentally using the reverse annealing feature a D-Wave Systems QPU for both problems composed of all binary variables, and those containing some higher-than-binary discrete variables. I further demonstrate how local controls on the qubits can be used to control the levels of fluctuations and guide the search. I discuss places where leveraging this tradeoff could be practically important, namely in hybrid algorithms where some penalties cannot be directly implemented on the annealer and provide some proof-of-concept evidence of how these algorithms could work.
翻訳日:2023-05-02 06:34:46 公開日:2020-11-09
# 2次元電子分光法における3次応答関数のオンザフライ半古典的評価

On-the-fly ab initio semiclassical evaluation of third-order response functions for two-dimensional electronic spectroscopy ( http://arxiv.org/abs/2010.03044v3 )

ライセンス: Link先を確認
Tomislav Begu\v{s}i\'c and Ji\v{r}\'i Van\'i\v{c}ek(参考訳) 二次元電子スペクトルのab initio計算は膨張場であり、実験を説明するためにしばしば用いられる単純な数次元モデルの改善が目的である。 本稿では,単軌跡半古典的解きガウス近似に基づく,高精度で計算可能な2次元電子スペクトル評価手法を提案する。 重要なことは、モード変位、モード周波数の変化、モード間カップリング(ドーチンスキー効果)を含む任意の調和ポテンシャルに対して正確であるが、部分的には関連するポテンシャルエネルギー表面の非調和性も考慮できる。 モデルモースポテンシャルのセットでその精度をテストし、フェノールの線形および二次元電子スペクトルに対する非調和性とデュシャンスキー効果の研究に使用する。 この分子では、無調和効果は弱いが、デュシンスキーの回転とモード周波数の変化は正確なシミュレーションに含めなければならない。 対照的に、広く使われている変位調和振動子モデルは、問題の基本的な物理のみをキャプチャするが、正しい振動線形状を再現することができない。

Ab initio computation of two-dimensional electronic spectra is an expanding field, whose goal is improving upon simple, few-dimensional models often employed to explain experiments. Here, we propose an accurate and computationally affordable approach, based on the single-trajectory semiclassical thawed Gaussian approximation, to evaluate two-dimensional electronic spectra. Importantly, the method is exact for arbitrary harmonic potentials with mode displacement, changes in the mode frequencies, and inter-mode coupling (Duschinsky effect), but can also account partially for the anharmonicity of the involved potential energy surfaces. We test its accuracy on a set of model Morse potentials and use it to study anharmonicity and Duschinsky effects on the linear and two-dimensional electronic spectra of phenol. We find that in this molecule, the anharmonicity effects are weak, whereas the Duschinsky rotation and the changes in the mode frequencies must be included in accurate simulations. In contrast, the widely used displaced harmonic oscillator model captures only the basic physics of the problem but fails to reproduce the correct vibronic lineshape.
翻訳日:2023-04-29 20:04:59 公開日:2020-11-09
# 2電子還元密度行列の幾何学的制約

Geometric Constraints on Two-electron Reduced Density Matrices ( http://arxiv.org/abs/2010.09669v4 )

ライセンス: Link先を確認
Yimin Li(参考訳) 多電子系では、二階還元密度行列(2-RDM)は、全エネルギー、磁気学、量子相関、絡み合いから長距離オーダーまで、物理学や化学におけるそれらの性質を特徴づける十分な情報を提供する。 2-RDMの構造的性質の理論的予測は、量子化学、凝縮物質物理学、より最近では量子計算において不可欠な試みである。 1960年代以降、RDMに基づく電子構造理論の開発と、分子構造と様々な材料の機械的・電気的・光学的特性の予測における大規模計算応用において、大きな進歩が見られた。 しかし、高温超伝導体、遷移金属系生体触媒、解離限界付近の複雑な化学結合のような強い相関系では、現在最も洗練されたアプローチで正確な近似が到達できない。 この制限は、多電子系における量子相関を決定する2-RDMの構造的特徴を強調している。 ここでは、ヒルベルト空間の基本幾何学的性質と作用素の可換関係に基づく2-rdm上の制約の集合を示す。 変分2-RDMによるこれらの制約の顕著な違反を示す数値的な例を提供する。 強相関モデル系では、制約違反が基底状態エネルギーの変動誤差のかなりの部分の原因となることが示されている。 その結果,多電子2-RDMの構造的微妙さに関する新たな知見が得られた。

For many-electron systems, the second-order reduced density matrix (2-RDM) provides sufficient information for characterizing their properties of interests in physics and chemistry, ranging from total energy, magnetism, quantum correlation and entanglement to long-range orders. Theoretical prediction of the structural properties of 2-RDM is an essential endeavor in quantum chemistry, condensed matter physics and, more recently, in quantum computation. Since 1960s, enormous progresses have been made in developing RDM-based electronic structure theories and their large-scale computational applications in predicting molecular structure and mechanical, electrical and optical properties of various materials. However, for strongly correlated systems, such as high-temperature superconductors, transition-metal-based biological catalysts and complex chemical bonds near dissociation limit, accurate approximation is still out of reach by currently most sophisticated approaches. This limitation highlights the elusive structural feature of 2-RDM that determines quantum correlation in many-electron system. Here, we present a set of constraints on 2-RDM based on the basic geometric property of Hilbert space and the commutation relations of operators. Numerical examples are provided to demonstrate the pronounced violation of these constraints by the variational 2-RDMs. It is shown that, for a strongly correlated model system, the constraint violation may be responsible for a considerable portion of the variational error in ground state energy. Our findings provide new insights into the structural subtlety of many-electron 2-RDMs.
翻訳日:2023-04-28 08:02:42 公開日:2020-11-09
# ハイブリッド量子ビットを用いた高光子損失耐性量子コンピューティング

Highly photon loss tolerant quantum computing using hybrid qubits ( http://arxiv.org/abs/2011.04209v1 )

ライセンス: Link先を確認
S. Omkar and Y. S. Teo and Seung-Woo Lee and H. Jeong(参考訳) 我々は,光学ハイブリッド量子ビットを用いたトポロジカル量子コンピューティングのスキームを調査し,従来の全光学スキームとの比較を行った。 omkar {\it et al} によって報告された光子損失しきい値を示す。 [Phys. Rev. 125, 060501 (2020)]は、ポストセレクションとマルチベル状態測定に基づくエンタングル演算を用いて、トポロジカル量子計算のためのラッセンドルフ格子と呼ばれる特別なクラスター状態を生成することにより、さらに改善することができる。 特に、光子損失閾値は5.7\times10^{-3}$に引き上げられ、これは妥当な誤差モデルが与えられた最も高い値である。 この改善は、前述の参照のスキームと比較して、より多くのリソースを桁違いに消費する価格で得られる。 このスキームは、フォールトトレラント量子計算のための他の既知の光学スキームと比べて資源効率が良い。

We investigate a scheme for topological quantum computing using optical hybrid qubits and make an extensive comparison with previous all-optical schemes. We show that the photon loss threshold reported by Omkar {\it et al}. [Phys. Rev. Lett. 125, 060501 (2020)] can be improved further by employing postselection and multi-Bell-state-measurement based entangling operation to create a special cluster state, known as Raussendorf lattice for topological quantum computation. In particular, the photon loss threshold is enhanced up to $5.7\times10^{-3}$, which is the highest reported value given a reasonable error model. This improvement is obtained at the price of consuming more resources by an order of magnitude, compared to the scheme in the aforementioned reference. Neverthless, this scheme remains resource-efficient compared to other known optical schemes for fault-tolerant quantum computation.
翻訳日:2023-04-24 21:34:46 公開日:2020-11-09
# 確率的復調環境における凍結不協和音

Frozen discord in stochastic dephasing environment ( http://arxiv.org/abs/2011.04180v1 )

ライセンス: Link先を確認
Bin Yi(参考訳) 量子コヒーレンスを保つことは、量子計算の分野における根本的な課題である。 本稿では,古典的環境において局所的不感を経験するキュービットの凍結ディスコド現象と非マルコフ性について検討する。 確率的ガウス場と独立に相互作用するある初期二部状態の量子的不協和は有限時間凍結することができる。 不一致の保存は、環境からの情報のバックフローと密接な関係があることが示されている。 量子デファスメント環境における関連する結果を比較する。

Preserving quantum coherence is fundamental challenge in the field of quantum computation. Here, I investigate the frozen discord phenomenon and non-Markovianity for qubits experiencing local dephasing in a classical environment. The quantum discord of a certain initial bipartite state, independently interacting with stochastic Gaussian fields, can be frozen for a finite time. The preservation of discord is shown to be intimately related to the backflow of information from the environment. The relevant result for quantum dephasing environment is compared.
翻訳日:2023-04-24 21:34:29 公開日:2020-11-09
# 雑音イオンを用いた量子トモグラフィー

Quantum tomography of noisy ion-based qudits ( http://arxiv.org/abs/2011.04179v1 )

ライセンス: Link先を確認
B. I. Bantysh, Yu. I. Bogdanov(参考訳) 量子トモグラフィーにより、量子コンピュータの特定の論理要素に関する包括的な情報を得ることができる。 この点において、量子コンピュータをデバッグするための有望なツールである。 しかし、トモグラフィーの実用的応用は、体系的な測定誤差によって制限されている。 主な原因は、量子状態の準備と測定手順における誤差である。 本研究では,イオンベースのクイディットの場合,これらの誤差を抑える可能性を検討する。 まず、各測定回路に1つの量子演算しか含まない量子計測プロトコルを構築することができることを示す。 このようなプロトコルは、相互に偏りのないベースでの測定よりもエラーに対してより頑健であり、クディット次元の二乗に比例して演算数が増加する。 その後、状態初期化と読み出しエラーを判定し、計算する可能性を示す。 これらと合わせて、実際のイオンベースの量子トモグラフィーの精度を大幅に向上させることができる。

Quantum tomography makes it possible to obtain comprehensive information about certain logical elements of a quantum computer. In this regard, it is a promising tool for debugging quantum computers. The practical application of tomography, however, is still limited by systematic measurement errors. Their main source are errors in the quantum state preparation and measurement procedures. In this work, we investigate the possibility of suppressing these errors in the case of ion-based qudits. First, we will show that one can construct a quantum measurement protocol that contains no more than a single quantum operation in each measurement circuit. Such a protocol is more robust to errors than the measurements in mutually unbiased bases, where the number of operations increases in proportion to the square of the qudit dimension. After that, we will demonstrate the possibility of determining and accounting for the state initialization and readout errors. Together, the measures described can significantly improve the accuracy of quantum tomography of real ion-based qudits.
翻訳日:2023-04-24 21:34:19 公開日:2020-11-09
# 光非線形過程における重テールの推定

Estimation of heavy tails in optical non-linear processes ( http://arxiv.org/abs/2011.04429v1 )

ライセンス: Link先を確認
\'Eva R\'acz, L\'aszl\'o Ruppert, Radim Filip(参考訳) 光学的非線形過程ではローグ波が観測され、重尾分布によって数学的に記述できる。 これらの分布は、非常に高い強度を登録する確率が、統計光学や量子光学において最もよく見られる指数分布よりも著しく高いため、特別なものである。 現状の写本では,重み付き分布に関する一般統計ツールキットの概要を概説し,非線形光学に特有の問題に対処する手法を提案する。 我々は、すでにローグ波が観測されている超連続体生成について詳しく調べる。 本研究では, 検出器飽和に対処するためのヒル推定器の改良と, 明るい圧縮真空によるプロセス励起による補正を提案する。 提案手法は, 非線形光学, ナノ光学, 原子, 固体プロセス, 光学における重尾分布の統計的に信頼性の高い観察を容易にする。

In optical non-linear processes rogue waves can be observed, which can be mathematically described by heavy-tailed distributions. These distributions are special due to the fact that the probability of registering extremely high intensities is significantly higher than for the exponential distribution, which is most commonly observed in statistical and quantum optics. The current manuscript gives a practical overview of the generic statistics toolkit concerning heavy-tailed distributions and proposes methods to deal with issues specific to non-linear optics. We take a closer look at supercontinuum generation, where rogue waves were already observed. We propose modifications to the Hill estimator to deal with detector saturation as well as corrections introduced by pumping the process by bright squeezed vacuum. The suggested methodology facilitates statistically reliable observation of heavy-tailed distribution in non-linear optics, nanooptics, atomic, solid-state processes and optomechanics.
翻訳日:2023-04-24 21:28:48 公開日:2020-11-09
# 量子クラウドコンピューティングにおける信頼サーバに基づく量子k平均アルゴリズム

Quantum k-means algorithm based on Trusted server in Quantum Cloud Computing ( http://arxiv.org/abs/2011.04402v1 )

ライセンス: Link先を確認
Changqing Gong, Zhaoyang Dong, Abdullah Gani, Han Qi(参考訳) 本稿では,量子クラウドコンピューティングに基づく量子k平均アルゴリズムを提案し,クライアントが大規模なトレーニングサンプルに直面して同じ量子サブルーチンを繰り返し実行できない問題を効果的に解決する。 量子k平均アルゴリズムでは、コアサブルーチンは量子最小化アルゴリズム(groveroptim)であり、クライアントは、新しいクラスタリングセンターを見つけるために各イテレーションで最小値を見つけるために複数のグローバー探索を繰り返す必要があるため、量子準同型暗号化スキーム(qhe)を使用してデータを暗号化し、コンピューティングのためにクラウドにアップロードする。 計算後、サーバは、計算結果をクライアントに返す。 クライアントは暗号解読にキーを使い、プレーンテキストの結果を得る。 これにより、クライアントが同じ操作を繰り返すためのコンピューティングプレッシャーが減少する。 さらに、クラウドで実行する場合、サーバにおけるT-gateのキーアップデートは必然的で複雑である。 そこで本稿では,量子暗号文環境における信頼サーバに基づくtゲート更新方式を提案する。 この方式では、サーバは信頼サーバと半信頼サーバに分割される。 半信頼サーバは、計算処理を完了し、回路内でTゲートが実行されると、信頼サーバは、半信頼サーバを支援してTゲートを計算し、ランダムにキーを生成し、半信頼サーバにアップロードする。 信頼されたサーバは、クライアントがキー更新操作を完了するのを補助し、再びクライアントの圧力を低減し、量子同型暗号方式の効率を向上させる。 そしてこのスキームに基づいて、この実験はibm qiskitを用いて量子k-平均のサブルーチンを与える。 実験結果から,セキュリティ確保を前提として,対応する計算機能を実現することができることがわかった。

We propose a quantum k-means algorithm based on quantum cloud computing that effectively solves the problem that the client can not afford to execute the same quantum subroutine repeatedly in the face of large training samples. In the quantum k-means algorithm, the core subroutine is the Quantum minimization algorithm (GroverOptim), the client needs to repeat several Grover searches to find the minimum value in each iteration to find a new clustering center, so we use quantum homomorphic encryption scheme (QHE) to encrypt the data and upload it to the cloud for computing. After calculation, the server returns the calculation result to the client. The client uses the key to decrypt to get the plaintext result. It reduces the computing pressure for the client to repeat the same operation. In addition, when executing in the cloud, the key update of T-gate in the server is inevitable and complex. Therefore, this paper also proposes a T-gate update scheme based on trusted server in quantum ciphertext environment. In this scheme, the server is divided into trusted server and semi-trusted server. The semi-trusted server completes the calculation operation, and when the T-gate is executed in the circuit, the trusted server assists the semi-trusted server to calculate the T-gate, and then randomly generates a key and uploads it to the semi-trusted server. The trusted server assists the client to complete the key update operation, which once again reduces the pressure on the client and improves the efficiency of the quantum homomorphic encryption scheme. And on the basis of this scheme, the experiment is given by using IBM Qiskit to give the subroutine of quantum k-means. The experimental results show that the scheme can realize the corresponding computing function on the premise of ensuring security.
翻訳日:2023-04-24 21:28:05 公開日:2020-11-09
# 自由空間連続可変セキュア量子通信のためのフェーディングチャネル推定

Fading channel estimation for free-space continuous-variable secure quantum communication ( http://arxiv.org/abs/2011.04386v1 )

ライセンス: Link先を確認
L\'aszl\'o Ruppert, Christian Peuntinger, Bettina Heim, Kevin G\"unthner, Vladyslav C. Usenko, Dominique Elser, Gerd Leuchs, Radim Filip, Christoph Marquardt(参考訳) 変動チャネルの推定と連続可変量子鍵分布のセキュリティへの影響について検討する。 本稿では,推定された透過率データのクラスタ化に基づく新しい推定手法を提案する。 送信が固定されているかどうかの不確実性により、キーレートが低下することを示す。 しかし, 実測値の総数が大きい場合, 高精度な変動チャネルであっても, 非変動チャネルに類似したキーレートが得られる。 また,大気量子チャネルからの実験的データを用いて理論的仮定を検証する。 したがって, 本手法は, 強い変動を伴う大気チャネル上でのセキュアな量子通信に有望である。

We investigate estimation of fluctuating channels and its effect on security of continuous-variable quantum key distribution. We propose a novel estimation scheme which is based on the clusterization of the estimated transmittance data. We show that uncertainty about whether the transmittance is fixed or not results in a lower key rate. However, if the total number of measurements is large, one can obtain using our method a key rate similar to the non-fluctuating channel even for highly fluctuating channels. We also verify our theoretical assumptions using experimental data from an atmospheric quantum channel. Our method is therefore promising for secure quantum communication over strongly fluctuating turbulent atmospheric channels.
翻訳日:2023-04-24 21:27:37 公開日:2020-11-09
# 摂動限界を超えた二次元分光:有限パルスと検出モードの影響

Two-dimensional spectroscopy beyond the perturbative limit: the influence of finite pulses and detection modes ( http://arxiv.org/abs/2011.04343v1 )

ライセンス: Link先を確認
Andr\'e Anda, Jared H. Cole(参考訳) 超高速・多次元分光法は分子系の力学に強力なガラスを与える。 特に二次元電子分光法 (2des) はコヒーレンスと量子系内のエネルギーの流れのプローブを提供するが、従来の手法では不可能である。 ヘテロダイン検出(HD)2DESはますます一般的になっているが、より最近の蛍光検出(FD)2DESは単一分子実験を含む新しい機会を提供する。 しかし、どちらの手法でも、信号を支配する経路を明確に特定することは困難である。 したがって、2DESの数値モデリングの利用は極めて重要であり、その場合はパルシングスキームをある程度近似する必要がある。 本研究では,2des信号に対する有限パルス幅と振幅の影響を調べるために,非パーキュベーティブ時間発展を用いる。 そこで我々は,HDおよびFD検出方式の応答と,信号が不要なアーティファクトによって隠蔽されるパラメータ空間の領域に,重要な違いを同定する。 このようにパラメータ空間をマッピングすることは、実験条件を選択するためのガイドとなり、通常の理論近似の限界がうまく機能し、より洗練されたアプローチが必要となることを示す。

Ultra-fast and multi-dimensional spectroscopy gives a powerful looking glass into the dynamics of molecular systems. In particular two-dimensional electronic spectroscopy (2DES) provides a probe of coherence and the flow of energy within quantum systems which is not possible with more conventional techniques. While heterodyne-detected (HD) 2DES is increasingly common, more recently fluorescence-detected (FD) 2DES offers new opportunities, including single-molecule experiments. However in both techniques it can be difficult to unambiguously identify the pathways which dominate the signal. Therefore the use of numerically modelling of 2DES is vitally important, which in turn requires approximating the pulsing scheme to some degree. Here we employ non-pertubative time evolution to investigate the effects of finite pulse width and amplitude on 2DES signals. In doing so we identify key differences in the response of HD and FD detection schemes, as well as the regions of parameter space where the signal is obscured by unwanted artefacts in either technique. Mapping out parameter space in this way provides a guide to choosing experimental conditions and also shows in which limits the usual theoretical approximations work well and which limits more sophisticated approaches are required.
翻訳日:2023-04-24 21:26:48 公開日:2020-11-09
# 操作計測による非ガウス状態の認定

Certification of non-Gaussian states with operational measurements ( http://arxiv.org/abs/2011.04320v1 )

ライセンス: Link先を確認
Ulysse Chabaud, Gana\"el Roeland, Mattia Walschaers, Fr\'ed\'eric Grosshans, Valentina Parigi, Damian Markham and Nicolas Treps(参考訳) 二重ホモダイン検出を用いた量子状態の非ガウス的特徴の実験的証明のための理論的枠組みを導出する。 我々は最近定義された恒星階層に従って実験的な非ガウス国家をランク付けし、実用的なウィグナー負性証人を提案する。 我々は, 忠実度推定からwigner negativityの目撃まで, 様々なユースケースをシミュレートする。 さらに,非ガウシアン状態の恒星階層のロバスト性に関する結果も拡張した。 本研究は,連続変数量子状態に関する情報を取得するための実測手法として,二重ホモダイン検出の有用性を示す。

We derive a theoretical framework for the experimental certification of non-Gaussian features of quantum states using double homodyne detection. We rank experimental non-Gaussian states according to the recently defined stellar hierarchy and we propose practical Wigner negativity witnesses. We simulate various use-cases ranging from fidelity estimation to witnessing Wigner negativity. Moreover, we extend results on the robustness of the stellar hierarchy of non-Gaussian states. Our results illustrate the usefulness of double homodyne detection as a practical measurement scheme for retrieving information about continuous variable quantum states.
翻訳日:2023-04-24 21:25:58 公開日:2020-11-09
# 量子通信理論の原理 : 現代的アプローチ

Principles of Quantum Communication Theory: A Modern Approach ( http://arxiv.org/abs/2011.04672v1 )

ライセンス: Link先を確認
Sumeet Khatri and Mark M. Wilde(参考訳) これは量子通信の理論に関する書籍の予備版である。 我々は、過去10年(およびそれ以前の)の量子通信理論における基本的な結果を包括的に説明し、この分野における現在の最先端研究の多くを根底に置く現代の一発的漸近的アプローチに重点を置いている。 第1部では、数学の序文を取り上げ、情報理論の観点から量子力学の詳細な研究を行う。 我々はまた、量子エントロピー動物園の広範囲かつ徹底的なレビューを行い、エンタングルメント対策の研究に全章を割いた。 本研究は,これらの重要なツールを具備し,古典的コミュニケーション(絡み合いの助けなしに),絡み合い蒸留,量子通信,秘密鍵蒸留,私的コミュニケーションについて検討する。 パートIIIでは、量子および古典的フィードバック支援通信、LOCC支援量子通信、秘密鍵合意など、フィードバック支援コミュニケーションタスクの最新の展開について述べる。

This is a preliminary version of a book in progress on the theory of quantum communication. We adopt an information-theoretic perspective throughout and give a comprehensive account of fundamental results in quantum communication theory from the past decade (and earlier), with an emphasis on the modern one-shot-to-asymptotic approach that underlies much of today's state-of-the-art research in this field. In Part I, we cover mathematical preliminaries and provide a detailed study of quantum mechanics from an information-theoretic perspective. We also provide an extensive and thorough review of the quantum entropy zoo, and we devote an entire chapter to the study of entanglement measures. Equipped with these essential tools, in Part II we study classical communication (with and without entanglement assistance), entanglement distillation, quantum communication, secret key distillation, and private communication. In Part III, we cover the latest developments in feedback-assisted communication tasks, such as quantum and classical feedback-assisted communication, LOCC-assisted quantum communication, and secret key agreement.
翻訳日:2023-04-24 21:19:49 公開日:2020-11-09
# 批判的書籍作成と書評の長距離秩序

Long-range order for critical Book-Ising and Book-percolation ( http://arxiv.org/abs/2011.04644v1 )

ライセンス: Link先を確認
Hugo Duminil-Copin and Christophe Garban and Vincent Tassion(参考訳) 本稿では,半平面に同型なページを持つ書籍上での統計物理モデルの挙動について検討する。 我々は,$\mathbb z^2$ 上で連続的な相転移を行うモデルであっても,ページ数が十分大きいと,相転移が不連続になることを示す。 特に、3ページの本のイジングモデルが不連続な相転移を持っていることを証明している(もしページが接着された線に沿って大きな結合定数を考えることができるなら)。 本研究は、再正規化群、共形場理論、数値([car91,itb91,smp10])に依存する理論物理学における予測を確認し、それらのいくつかは、ある量子スピン系のレーニーエントロピーの解析によって動機付けられたものである。

In this paper, we investigate the behaviour of statistical physics models on a book with pages that are isomorphic to half-planes. We show that even for models undergoing a continuous phase transition on $\mathbb Z^2$, the phase transition becomes discontinuous as soon as the number of pages is sufficiently large. In particular, we prove that the Ising model on a three pages book has a discontinuous phase transition (if one allows oneself to consider large coupling constants along the line on which pages are glued). Our work confirms predictions in theoretical physics which relied on renormalization group, conformal field theory and numerics ([Car91,ITB91,SMP10]) some of which were motivated by the analysis of the Renyi entropy of certain quantum spin systems.
翻訳日:2023-04-24 21:18:53 公開日:2020-11-09
# 時間外オーダーの相関器と量子キックトップのLoschmidtエコーは、どれくらい低いのか?

Out-of-time-ordered correlators and the Loschmidt echo in the quantum kicked top: How low can we go? ( http://arxiv.org/abs/2011.04641v1 )

ライセンス: Link先を確認
Sreeram PG, Vaibhav Madhok, Arul Lakshminarayan(参考訳) out-of-time-ordered correlators(otoc)とloschmidt echo(ロスシュミットエコー)は、複雑な量子システムにおいて摂動や情報スクランブルに対する感度を特徴付けるために現在広く研究されている2つの尺度である。 キックトップとしてモデル化された少数の量子ビットシステムについて検討し、正確に3ビットと4ビットのケースを解き、OTOCとLoschmidtエコーの分析結果を得た。 このような少数の体系が半古典的特徴を示すことは期待できないかもしれないが、適切な状態において4キュービット以下のシステムであっても、OTOCの指数的な成長の兆候は明らかであり、実験的な測定が可能となる。 我々は、不動点や周期軌道のような古典位相空間構造がこれらの量にどのように影響するかを定性的に説明し、大スピンキックトップモデルと比較する。 最後に、量子古典対応の境界において、任意の量子ビットに対して解けるが、初等形式の指数感度の符号を持つ特異なケースを指摘する。

The out-of-time-ordered correlators (OTOC) and the Loschmidt echo are two measures that are now widely being explored to characterize sensitivity to perturbations and information scrambling in complex quantum systems. Studying few qubits systems collectively modelled as a kicked top, we solve exactly the three- and four- qubit cases, giving analytical results for the OTOC and the Loschmidt echo. While we may not expect such few-body systems to display semiclassical features, we find that there are clear signatures of the exponential growth of OTOC even in systems with as low as 4 qubits in appropriate regimes, paving way for possible experimental measurements. We explain qualitatively how classical phase space structures like fixed points and periodic orbits have an influence on these quantities and how our results compare to the large-spin kicked top model. Finally we point to a peculiar case at the border of quantum-classical correspondence which is solvable for any number of qubits and yet has signatures of exponential sensitivity in a rudimentary form.
翻訳日:2023-04-24 21:18:39 公開日:2020-11-09
# オープン量子システムのための普遍的リンドブラッド方程式」への反応

Response to "Comment on Universal Lindblad Equation for open quantum systems" ( http://arxiv.org/abs/2011.04574v1 )

ライセンス: Link先を確認
Frederik Nathan, Mark S. Rudner(参考訳) リーとヨーは最近のコメントで、ギブス状態は我々がPhysで開発した普遍リンドブラッド方程式(ULE)の正確な定常状態ではないことを示した。 a b 102, 115109 (2020)。 この非論争的な観測は、遷移速度がシステムのレベル間隔と同等かそれ以上であるような有限系バス結合を持つオープン量子系に対して、正確には期待されている。 したがって、リーとヨーのコメントは、ULEが定常状態への寄与を捉えるのは、回転する波動近似に依存するマスター方程式の範囲を超える有限な系-バス結合のためである。 本研究では,解析的および数値的結果の性質をさらに明らかにする。

In a recent comment, Lee and Yeo show that the Gibbs state is not generically an exact steady state of the Universal Lindblad Equation (ULE) that we developed in Phys. Rev. B 102, 115109 (2020). This non-controversial observation is precisely as expected for open quantum systems with finite system-bath coupling, where transition rates may be comparable to or larger than the level spacing of the system, and we made no claim to the contrary in our paper. The comment by Lee and Yeo hence highlights that the ULE captures contributions to the steady state due to finite system-bath coupling that are beyond the reach of master equations that rely on rotating wave approximations. In this response we further clarify the nature of our analytical and numerical results.
翻訳日:2023-04-24 21:18:09 公開日:2020-11-09
# 異質なプロファイルを持つ教師を対象とした,単一のcs教育プログラムは,どのような価値があるのでしょう?

What's the worth of having a single CS teacher program aimed at teachers with heterogeneous profiles? ( http://arxiv.org/abs/2011.04480v1 )

ライセンス: Link先を確認
Hern\'an Czemerinski, Mart\'in Scasso, Fernando Schapachnik(参考訳) 公式学校のカリキュラムにおけるコンピュータ科学(cs)の関連性については合意がある。 しかし、授業を効果的に指導できる十分な訓練を受けた教師がいなければ、この規律を大規模に教えることはできない。 本稿では,K-12教師を対象にアルゼンチンで行われた400時間の教員養成プログラムの結果について述べる。 サインアップする唯一の要件は、サービス内教師であることであり、そのため、コースに出席する様々な教師のプロファイルがあった。 本研究の目的は,教師にCSの内容や具体的教育を指導する上で,教師の教育プログラムが有効であるかどうかを理解することである。 また,教師が学習内容に対して何を期待するかを検討する。 これらの質問を評価するため、匿名の試験とアンケートを行い、講義参加者にインタビューを行った。 多数派はcsの内容と教育に関する最低限の基準に達したが、cs教育におけるキャリア機会に関する自己認識には大きな差が見られる。 本研究の結論は,幅広いプロファイルを対象としたcs教員養成がcsコンテンツの促進に有効であることにある。 しかし、教師がCS科目を教える自信を高めることが目的であれば、より制限されたプロファイルの選択に焦点を当てたプログラムを持つことがより良い戦略となる。

There is consensus regarding the relevance of including Computer Science (CS) in official school curricula. However, this discipline cannot be taught on a large scale until there are enough trained teachers who can effectively lead a class. In this article, we discuss the results of a 400-hour teacher training program conducted in Argentina aimed at K-12 teachers with no CS background. The only requirement to sign up was to be an in-service teacher, and therefore there were a plethora of different teacher profiles that attended the courses. Our research aims at understanding whether a single teacher training program can be effective in teaching CS contents and specific pedagogy to teachers with very heterogeneous profiles. Also, we investigate what teachers expect to do with the contents they learn. To assess these questions anonymous examinations and questionnaires were given and interviews were conducted with course attendees. Even though the majority reached the expected minimum bar regarding CS contents and pedagogy, significant differences appear in their self-perception as regards career opportunities in CS teaching. Our conclusion is that carrying out CS teacher training for a broad spectrum of profiles may be effective for promoting CS contents. However, if the goal is to boost teachers' confidence in teaching a CS subject, then having a program which focuses on a more restricted selection of profiles would be a better strategy.
翻訳日:2023-04-24 21:17:20 公開日:2020-11-09
# 量子センサによるナノスケール電界イメージングと環境条件下における電荷状態制御

Nanoscale electric-field imaging based on a quantum sensor and its charge-state control under ambient condition ( http://arxiv.org/abs/2011.04473v1 )

ライセンス: Link先を確認
Ke Bian, Wentian Zheng, Xianzhe Zeng, Xiakun Chen, Rainer Stohr, Andrej Denisenko, Sen Yang, Joerg Wrachtrup and Ying Jiang(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、ナノスケールの解像度で磁場を撮像する量子センサーとして用いられる。 しかし,NVと電場との結合強度が比較的弱いため,ナノスケールの電場マッピングは実現されていない。 ここでは、個々の浅いNVを用いて、qPlusベースの原子間力顕微鏡(AFM)の鋭い先端から電場の輪郭を定量的に撮像し、約10nmの空間分解能を得た。 このような局所電界を通して、我々は5nm以下の精度でNVの電荷状態の電気的制御を実証した。 この研究は、単一量子センサーに基づくナノスケールの走査電気測定への第一歩であり、ナノスケールの幅広い機能性材料において局所電荷、電気分極、誘電体応答を定量的にマッピングする新たな可能性を開く可能性がある。

Nitrogen-vacancy (NV) centers in diamond can be used as quantum sensors to image the magnetic field with nanoscale resolution. However, nanoscale electric-field mapping has not been achieved so far because of the relatively weak coupling strength between NV and electric field. Using individual shallow NVs, here we succeeded to quantitatively image the contours of electric field from a sharp tip of a qPlus-based atomic force microscope (AFM), and achieved a spatial resolution of ~10 nm. Through such local electric fields, we demonstrated electric control of NV's charge state with sub-5 nm precision. This work represents the first step towards nanoscale scanning electrometry based on a single quantum sensor and may open up new possibility of quantitatively mapping local charge, electric polarization, and dielectric response in a broad spectrum of functional materials at nanoscale.
翻訳日:2023-04-24 21:16:58 公開日:2020-11-09
# Eternal Adiabaticity

Eternal Adiabaticity ( http://arxiv.org/abs/2011.04713v1 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Hiromichi Nakazato, Saverio Pascazio, Kazuya Yuasa(参考訳) 有限次元量子系の強結合極限に対して最近定式化された断熱定理を反復的に適用する。 これにより、量子ゼノダイナミクスと断熱除去に基づく標準近似を超えて、摂動力学への近似を改善することができる。 近似進化を記述する有効発生器は、生成器の非摂動部分と同じブロック構造を有しており、断熱進化を示す。 この反復的断熱定理は、断熱性が永遠に保たれること、すなわち、系は生成体の未摂動部分の各固有空間内で進化し、エラーは時間内に$O(1/\gamma)$で一様に制限され、そこで$\gamma$は生成体の未摂動部分の強度を特徴づける。 反復断熱定理がユニタリの場合においてブロッホの摂動理論を再現し、したがって開系への完全一般化であることを示す。 さらに、ユニタリの場合におけるシュリーファー=ウルフとデ・クロワソーのアプローチの同値性を証明し、両者を任意の開系に一般化し、それらが永遠の断熱性を共有し、明示的な誤差境界を与えることを示した。 最後に, 有効断熱発生器の物理的構造を考察し, 開放系に対する理想的有効発生器は一般に存在しないことを示した。

We iteratively apply a recently formulated adiabatic theorem for the strong-coupling limit in finite-dimensional quantum systems. This allows us to improve approximations to a perturbed dynamics, beyond the standard approximation based on quantum Zeno dynamics and adiabatic elimination. The effective generators describing the approximate evolutions are endowed with the same block structure as the unperturbed part of the generator, and exhibit adiabatic evolutions. This iterative adiabatic theorem reveals that adiabaticity holds eternally, that is, the system evolves within each eigenspace of the unperturbed part of the generator, with an error bounded by $O(1/\gamma)$ uniformly in time, where $\gamma$ characterizes the strength of the unperturbed part of the generator. We prove that the iterative adiabatic theorem reproduces Bloch's perturbation theory in the unitary case, and is therefore a full generalization to open systems. We furthermore prove the equivalence of the Schrieffer-Wolff and des Cloiseaux approaches in the unitary case and generalize both to arbitrary open systems, showing that they share the eternal adiabaticity, and providing explicit error bounds. Finally we discuss the physical structure of the effective adiabatic generators and show that ideal effective generators for open systems do not exist in general.
翻訳日:2023-04-24 21:09:15 公開日:2020-11-09
# フラットバンドジェネレータ

Flatband generators ( http://arxiv.org/abs/2011.04710v1 )

ライセンス: Link先を確認
Wulayimu Maimaiti(参考訳) フラットバンド(FBs)は、翻訳不変のタイトバインディングネットワークの単一粒子スペクトルにおける分散のないエネルギーバンドである。 fbは破壊的干渉によって発生し、コンパクト局在状態 (clss) と呼ばれる有限個の単位細胞に存在する巨視的に縮退する固有状態を引き起こす。 このようなマクロな縮退は一般的に摂動に非常に敏感であり、わずかな摂動でさえ縮退を解き放ち、様々な興味深い物理現象を引き起こす。 本論文では,fbハミルトニアンを1次元,2次元エルミート系,および1次元非エルミート系で同定し,構築する手法を開発した。 まず、それらのCLS特性によるFB格子の体系的な分類を導入し、与えられたCRS特性を持つFBを持つ強結合ハミルトン多様体を生成するスキームを提案する。 このFBジェネレータを1Dシステムに適用し、任意のバンド数とCLSサイズを持つ1D格子の可能なFBハミルトニアンを全て同定する。 1Dアプローチを拡張して、2D FBハミルトニアンのためのFBジェネレータを構築し、最大4つの単位セルを2ドル2セントのプラケットで占有する。 この手法を非エルミティアオン系に応用し, 2バンドの非エルミティアンの1次元格子に対してfb生成器を実現する。 最終的に,マイクロ波フォトニック結晶のスペクトル特性を説明する密結合モデルを提案する。 本論文における結果と手法は,fb格子とそのclsの特性をさらに理解し,実験におけるfb格子設計の柔軟性を高め,今後の研究に新たな道を開く。

Flatbands (FBs) are dispersionless energy bands in the single-particle spectrum of a translational invariant tight-binding network. The FBs occur due to destructive interference, resulting in macroscopically degenerate eigenstates living in a finite number of unit cells, which are called compact localized states (CLSs). Such macroscopic degeneracy is in general highly sensitive to perturbations, such that even slight perturbation lifts the degeneracy and leads to various interesting physical phenomena. In this thesis, we develop an approach to identify and construct FB Hamiltonians in 1D, 2D Hermitian, and 1D non-Hermitian systems. First, we introduce a systematic classification of FB lattices by their CLS properties, and propose a scheme to generate tight-binding Hamiltonians having FBs with given CLS properties---a FB generator. Applying this FB generator to a 1D system, we identify all possible FB Hamiltonians of 1D lattices with arbitrary numbers of bands and CLS sizes. Extending the 1D approach, we establish a FB generator for 2D FB Hamiltonians that have CLSs occupying a maximum of four unit cells in a $2\times2$ plaquette. Employing this approach in the non-Hermitiaon regime, we realize a FB generator for a 1D non-Hermitian lattice with two bands. Ultimately, we apply our methods to propose a tight-binding model that explains the spectral properties of a microwave photonic crystal. Our results and methods in this thesis further our understanding of the properties of FB lattices and their CLSs, provide more flexibility to design FB lattices in experiments, and open new avenues for future research.
翻訳日:2023-04-24 21:08:52 公開日:2020-11-09
# 3フェミオントポロジカル量子計算

3-Fermion topological quantum computation ( http://arxiv.org/abs/2011.04693v1 )

ライセンス: Link先を確認
Sam Roberts, Dominic J. Williamson(参考訳) 本稿では,3-フェルミオン・アノン理論における対称性欠陥のクリフォード完全分岐と融合に基づく普遍トポロジカル量子計算のためのスキームについて述べる。 対称欠陥を持つ3フェルミオン・エノン理論に対するウォーカー・ワンモデルの基底状態を用いた格子上のこの計算スキームのフォールトトレラントな測定に基づく実現法を定式化する。 ウォーカー・ワン計測に基づく位相量子計算パラダイムは、熱的に安定な対称性が保護された位相秩序を持つ計算資源状態の一般的な構成を提供する。 また、bomb\'{i}n による2次元サブシステムコードにおいて、3-フェルミオン・アノン理論の対称性の欠陥がいかに実現できるかを実証し、コード変形による3-フェルミオン欠陥計算方式の代替実装について述べる。

We present a scheme for universal topological quantum computation based on Clifford complete braiding and fusion of symmetry defects in the 3-Fermion anyon theory, supplemented with magic state injection. We formulate a fault-tolerant measurement-based realisation of this computational scheme on the lattice using ground states of the Walker--Wang model for the 3-Fermion anyon theory with symmetry defects. The Walker--Wang measurement-based topological quantum computation paradigm that we introduce provides a general construction of computational resource states with thermally stable symmetry-protected topological order. We also demonstrate how symmetry defects of the 3-Fermion anyon theory can be realized in a 2D subsystem code due to Bomb\'{i}n -- pointing to an alternative implementation of our 3-Fermion defect computation scheme via code deformations.
翻訳日:2023-04-24 21:08:01 公開日:2020-11-09
# xxx$中心スピン模型における絡み合った量子状態のデコヒーレンスダイナミクス

Decoherence dynamics of entangled quantum states in the $XXX$ central spin model ( http://arxiv.org/abs/2001.04772v2 )

ライセンス: Link先を確認
Qing-Kun Wan, Hai-Long Shi, Xu Zhou, Xiao-Hui Wang, Wen-Li Yang(参考訳) 量子ビットのコヒーレンスを維持することは、実際に大規模な量子コンピュータを実現する上で極めて重要である。 本研究では, xxx$ central spin model (csm) における中心スピンデコヒーレンス問題を研究し,初期絡み合いの異なる量子状態,すなわち内部絡み合いや系の絡み合いに着目した。 我々は、その忠実性、絡み合い、量子コヒーレンスの進化を解析的に得る。 最初の入浴スピンが$N$粒子の絡み合った状態(グリーンベルガー=ホルン=ゼーリンガーバスまたは$W$バス)を構成するとき、それらの忠実度進化の主振幅はともに$\mathcal O(1/N)$であり、これは完全に分極された浴の場合と同じである。 しかし、中心スピンがバススピンの1つと最大に絡み合っているとき、その忠実度進化の振幅スケーリングは$\mathcal O(1/N)$から$\mathcal O(1/N^2)$へと減少する。 これは、適切な初期系バスの絡み合いが中心スピンのデコヒーレンスを抑制するための帰結であることを意味する。 さらに,システムバスの絡み合いの助けを借りて,浴槽の絡み合いの消費が中心となる中心スピンに対する量子コヒーレンス強化力学を実現する。

Maintaining coherence of a qubit is of vital importance for realizing a large-scale quantum computer in practice. In this work, we study the central spin decoherence problem in the $XXX$ central spin model (CSM) and focus on the quantum states with different initial entanglement, namely intra-bath entanglement or system-bath entanglement. We analytically obtain their evolutions of fidelity, entanglement, and quantum coherence. When the initial bath spins constitute an $N$-particle entangled state (the Greenberger-Horne-Zeilinger-bath or the $W$-bath), the leading amplitudes of their fidelity evolutions both scale as $\mathcal O(1/N)$, which is the same as the case of a fully polarized bath. However, when the central spin is maximally entangled with one of the bath spins, the amplitude scaling of its fidelity evolution declines from $\mathcal O(1/N)$ to $\mathcal O(1/N^2)$. That implies appropriate initial system-bath entanglement is contributive to suppress central spin decoherence. In addition, with the help of system-bath entanglement, we realize quantum coherence-enhanced dynamics for the central spin where the consumption of bath entanglement is shown to play a central role.
翻訳日:2023-01-11 13:11:10 公開日:2020-11-09
# BCを用いたGAILの効率的な模擬学習

Augmenting GAIL with BC for sample efficient imitation learning ( http://arxiv.org/abs/2001.07798v4 )

ライセンス: Link先を確認
Rohit Jena, Changliu Liu, Katia Sycara(参考訳) 模倣学習は、報酬信号にアクセスせずに専門家ポリシーを回復する問題である。 行動クローニングとGAILは模倣学習を行うために広く使われている方法である。 振舞いのクローンは数イテレーションで収束するが、状態-振舞いの分布に関する本質的にのiid仮定のため、ピーク性能を達成できない。 GAILはエージェントと専門家の間の状態分散マッチングを実行する際に、時間的依存関係を考慮し、この問題に対処する。 GAILは専門家の軌道数ではサンプリング効率がよいが、政策の収束に必要な環境相互作用の観点からは、まだあまりサンプリング効率が良くない。 両手法の相補的な利点を考慮し,安定学習とサンプル学習を両手法を組み合わせるための簡易かつエレガントな手法を提案する。 我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。 本研究では,低次元制御タスクやグリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。

Imitation learning is the problem of recovering an expert policy without access to a reward signal. Behavior cloning and GAIL are two widely used methods for performing imitation learning. Behavior cloning converges in a few iterations but doesn't achieve peak performance due to its inherent iid assumption about the state-action distribution. GAIL addresses the issue by accounting for the temporal dependencies when performing a state distribution matching between the agent and the expert. Although GAIL is sample efficient in the number of expert trajectories required, it is still not very sample efficient in terms of the environment interactions needed for convergence of the policy. Given the complementary benefits of both methods, we present a simple and elegant method to combine both methods to enable stable and sample efficient learning. Our algorithm is very simple to implement and integrates with different policy gradient algorithms. We demonstrate the effectiveness of the algorithm in low dimensional control tasks, gridworlds and in high dimensional image-based tasks.
翻訳日:2023-01-07 23:35:15 公開日:2020-11-09
# 量子回路の擬次元

Pseudo-dimension of quantum circuits ( http://arxiv.org/abs/2002.01490v3 )

ライセンス: Link先を確認
Matthias C. Caro and Ishaun Datta(参考訳) 量子回路の表現力に擬次元(確率的概念クラスにおける複雑性の尺度)を特徴付ける。 我々は、量子回路の出力確率分布に擬似次元境界を証明し、上界は回路深さとゲート数における多項式である。 これらの境界を用いて、少なくとも一方が指数関数的な状態複雑性を持つ回路出力状態のクラスを示し、さらに、既知の多項式サイズと深さの量子回路がPAC学習可能であることを示す。

We characterize the expressive power of quantum circuits with the pseudo-dimension, a measure of complexity for probabilistic concept classes. We prove pseudo-dimension bounds on the output probability distributions of quantum circuits; the upper bounds are polynomial in circuit depth and number of gates. Using these bounds, we exhibit a class of circuit output states out of which at least one has exponential state complexity, and moreover demonstrate that quantum circuits of known polynomial size and depth are PAC-learnable.
翻訳日:2023-01-04 03:34:42 公開日:2020-11-09
# 気をつけろ! 深層ニューラルネットワークのビジョンを振り返る「モーション」

Watch out! Motion is Blurring the Vision of Your Deep Neural Networks ( http://arxiv.org/abs/2002.03500v3 )

ライセンス: Link先を確認
Qing Guo and Felix Juefei-Xu and Xiaofei Xie and Lei Ma and Jian Wang and Bing Yu and Wei Feng and Yang Liu(参考訳) 最先端のディープニューラルネットワーク(DNN)は、付加的なランダムなノイズ摂動を伴う敵の例に対して脆弱である。 このような例は物理的にはほとんど見られないが、物体の動きによる画像のぼやけ効果は、実際には一般的に発生しており、特に広く採用されているリアルタイム画像処理タスク(物体検出、追跡など)において非常に重要である。 本稿では,物体の動きによるdnnのぼやけ効果の潜在的危険性を包括的に調査する第1ステップを開始する。 本研究では,視覚的に自然な動きを呈する対向攻撃法,ABBA(Motion-based adversarial blur attack)を提案する。 そこで,我々はまず,入力画像が画素単位でカーネルと畳み込まれているカーネル予測に基づく攻撃を定式化し,カーネル重みをチューニングすることで誤分類能力を達成する。 さらに,視覚的により自然かつ妥当な例を生成するために,サルエント領域が移動対象として機能し,予測されたカーネルを正規化し,自然に視覚効果が得られるサルジェンシー正規化逆向核予測を提案する。 さらに、オブジェクトとバックグラウンドの翻訳を適応的に調整することで、攻撃をさらに強化する。 NeurIPS'17敵競合データセットの包括的な評価は、様々なカーネルサイズ、翻訳、領域を考慮してABBAの有効性を示す。 さらに,本手法は,他のぼやけた方法と比較して,最先端のGANベースのデブロワーリング機構に対して,より効果的に浸透することを示す。 コードをhttps://github.com/tsingqguo/ABBAにリリースします。

The state-of-the-art deep neural networks (DNNs) are vulnerable against adversarial examples with additive random-like noise perturbations. While such examples are hardly found in the physical world, the image blurring effect caused by object motion, on the other hand, commonly occurs in practice, making the study of which greatly important especially for the widely adopted real-time image processing tasks (e.g., object detection, tracking). In this paper, we initiate the first step to comprehensively investigate the potential hazards of the blur effect for DNN, caused by object motion. We propose a novel adversarial attack method that can generate visually natural motion-blurred adversarial examples, named motion-based adversarial blur attack (ABBA). To this end, we first formulate the kernel-prediction-based attack where an input image is convolved with kernels in a pixel-wise way, and the misclassification capability is achieved by tuning the kernel weights. To generate visually more natural and plausible examples, we further propose the saliency-regularized adversarial kernel prediction, where the salient region serves as a moving object, and the predicted kernel is regularized to achieve naturally visual effects. Besides, the attack is further enhanced by adaptively tuning the translations of object and background. A comprehensive evaluation on the NeurIPS'17 adversarial competition dataset demonstrates the effectiveness of ABBA by considering various kernel sizes, translations, and regions. The in-depth study further confirms that our method shows more effective penetrating capability to the state-of-the-art GAN-based deblurring mechanisms compared with other blurring methods. We release the code to https://github.com/tsingqguo/ABBA.
翻訳日:2023-01-02 08:09:07 公開日:2020-11-09
# 任意正のシフトによる正・未ラベルデータからの学習

Learning from Positive and Unlabeled Data with Arbitrary Positive Shift ( http://arxiv.org/abs/2002.10261v4 )

ライセンス: Link先を確認
Zayd Hammoudeh and Daniel Lowd(参考訳) Positive-Unlabeled (PU) 学習は、正および未ラベルのデータのみを使用してバイナリ分類器を訓練する。 一般的な単純化の前提は、正のデータが対象の正のクラスを表すことである。 この仮定は、時間的ドリフト、ドメインシフト、および/または逆操作のために、現実にはめったに当てはまらない。 本稿では,未ラベルデータと対象分布の任意の非表現正データであってもPU学習が可能であることを示す。 私たちの重要な洞察は、負のクラスの分布のみを固定する必要があるということです。 1つのアプローチは負のラベルのない学習とラベルなしの学習を組み合わせたもので、もう1つは新しい再帰的リスク推定器を使っています。 実験の結果,実世界のデータセットと正のバイアスの形式にまたがって提案手法の有効性が実証された。 さらに,puリスク推定のオーバーフィットに対処するための,汎用的で簡易なアプローチを提案する。

Positive-unlabeled (PU) learning trains a binary classifier using only positive and unlabeled data. A common simplifying assumption is that the positive data is representative of the target positive class. This assumption rarely holds in practice due to temporal drift, domain shift, and/or adversarial manipulation. This paper shows that PU learning is possible even with arbitrarily non-representative positive data given unlabeled data from the source and target distributions. Our key insight is that only the negative class's distribution need be fixed. We integrate this into two statistically consistent methods to address arbitrary positive bias - one approach combines negative-unlabeled learning with unlabeled-unlabeled learning while the other uses a novel, recursive risk estimator. Experimental results demonstrate our methods' effectiveness across numerous real-world datasets and forms of positive bias, including disjoint positive class-conditional supports. Additionally, we propose a general, simplified approach to address PU risk estimation overfitting.
翻訳日:2022-12-29 03:12:42 公開日:2020-11-09
# BERTologyのプライマー:BERTの仕組みについて知っておくべきこと

A Primer in BERTology: What we know about how BERT works ( http://arxiv.org/abs/2002.12327v3 )

ライセンス: Link先を確認
Anna Rogers, Olga Kovaleva, Anna Rumshisky(参考訳) トランスフォーマーベースのモデルは、NLPの多くの領域で最先端を推し進めていますが、その成功の背後にあるものに対する私たちの理解はまだ限られています。 本論文は,人気のBERTモデルに関する150以上の研究の最初の調査である。 我々は、bertの動作方法、学習する情報の種類、その表現方法、トレーニング目標とアーキテクチャの一般的な変更、オーバーパラメータの問題、圧縮へのアプローチに関する知識の現状についてレビューする。 その後、今後の研究の方向性を概説する。

Transformer-based models have pushed state of the art in many areas of NLP, but our understanding of what is behind their success is still limited. This paper is the first survey of over 150 studies of the popular BERT model. We review the current state of knowledge about how BERT works, what kind of information it learns and how it is represented, common modifications to its training objectives and architecture, the overparameterization issue and approaches to compression. We then outline directions for future research.
翻訳日:2022-12-28 08:41:34 公開日:2020-11-09
# word2vecのスペクトル基盤

The Spectral Underpinning of word2vec ( http://arxiv.org/abs/2002.12317v2 )

ライセンス: Link先を確認
Ariel Jaffe, Yuval Kluger, Ofir Lindenbaum, Jonathan Patsenker, Erez Peterfreund, Stefan Steinerberger(参考訳) word2vec は mikolov \textit{et al.} による。 } (2013) は自然言語処理に広く用いられている単語埋め込み手法である。 その大きな成功と頻繁な使用にもかかわらず、理論的な正当性はまだ欠落している。 本稿では,Word2vecの高非線形関数の厳密な解析法を提案する。 以上の結果から,word2vecは主にスペクトル法によって駆動される可能性が示唆された。 この洞察は word2vec の証明可能な保証を得るための扉を開くかもしれない。 数値シミュレーションによりこれらの知見を裏付ける。 興味深い疑問の一つは、スペクトル法で捉えられていない word2vec の非線形特性が、どんなメカニズムによっても有益であるかどうかである。

word2vec due to Mikolov \textit{et al.} (2013) is a word embedding method that is widely used in natural language processing. Despite its great success and frequent use, theoretical justification is still lacking. The main contribution of our paper is to propose a rigorous analysis of the highly nonlinear functional of word2vec. Our results suggest that word2vec may be primarily driven by an underlying spectral method. This insight may open the door to obtaining provable guarantees for word2vec. We support these findings by numerical simulations. One fascinating open question is whether the nonlinear properties of word2vec that are not captured by the spectral method are beneficial and, if so, by what mechanism.
翻訳日:2022-12-28 07:47:31 公開日:2020-11-09
# 悪化から改善する: 拡張的な袋詰めと、さまざまな重要性の警告的物語

Getting Better from Worse: Augmented Bagging and a Cautionary Tale of Variable Importance ( http://arxiv.org/abs/2003.03629v2 )

ライセンス: Link先を確認
Lucas Mentch and Siyu Zhou(参考訳) データの規模、複雑さ、可用性が拡大するにつれて、科学者たちは、最小限のプリオリモデル仕様で正確な予測を提供するブラックボックス学習アルゴリズムに依存している。 ランダムな森林のようなツールには、既成の成功の実績があり、変数間の基礎となる関係を分析するための様々な戦略も提供している。 ここでは、近年の無作為な森林行動の洞察に動機付けられ、古典的なバグやランダムな森林と同じような方法で機能する拡張バッジ(AugBagg)という単純なアイデアを導入し、さらにランダムに発生する雑音の特徴を含む拡張された空間で機能する手法を紹介した。 驚くべきことに、このモデルに余分なノイズ変数を含む単純な行為は、サンプル外の予測精度を劇的に改善し、時には最適に調整された伝統的なランダムフォレストを上回っている。 その結果、モデル精度の向上に基づく変数の重要性の直感的な概念は、純粋にランダムなノイズであっても統計的に重要なものとして定期的に登録できるため、深刻な欠陥がある。 実データと合成データの両方に関する多数のデモンストレーションが提案されたソリューションと共に提供されている。

As the size, complexity, and availability of data continues to grow, scientists are increasingly relying upon black-box learning algorithms that can often provide accurate predictions with minimal a priori model specifications. Tools like random forests have an established track record of off-the-shelf success and even offer various strategies for analyzing the underlying relationships among variables. Here, motivated by recent insights into random forest behavior, we introduce the simple idea of augmented bagging (AugBagg), a procedure that operates in an identical fashion to classical bagging and random forests, but which operates on a larger, augmented space containing additional randomly generated noise features. Surprisingly, we demonstrate that this simple act of including extra noise variables in the model can lead to dramatic improvements in out-of-sample predictive accuracy, sometimes outperforming even an optimally tuned traditional random forest. As a result, intuitive notions of variable importance based on improved model accuracy may be deeply flawed, as even purely random noise can routinely register as statistically significant. Numerous demonstrations on both real and synthetic data are provided along with a proposed solution.
翻訳日:2022-12-25 19:11:54 公開日:2020-11-09
# 分散マルチエージェントランデブーのためのモデルベース強化学習

Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous ( http://arxiv.org/abs/2003.06906v2 )

ライセンス: Link先を確認
Rose E. Wang, J. Chase Kew, Dennis Lee, Tsang-Wei Edward Lee, Tingnan Zhang, Brian Ichter, Jie Tan, Aleksandra Faust(参考訳) 協力するには、エージェントが目標を順守する必要がある。 目標を他のエージェントと協調する人間の能力の基盤は、他人の意図を予測し、積極的に自身の計画を更新できる能力である。 分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。 事前訓練された単一エージェント対ポイントナビゲーションポリシから始まり、ライダーのようなノイズの多い高次元センサー入力を使用して、まず、チームのすべてのエージェントの自己超越動作予測を通じて学習する。 次に、HPPは予測モデルを用いて、エージェント間の明示的なコミュニケーションなしでランデブータスクを完了するためのナビゲーションサブゴールの提案と評価を行う。 hppは, 複雑化と障害数の増加を伴い, 未発見の環境のスイートで評価する。 hppは,難易度の高い非知覚環境において,代替強化学習,経路計画,ヒューリスティックベースベースラインよりも優れていることを示す。 実世界の実験では、追加の微調整なしでsimから実世界への予測モデルの転送に成功した。 さらに、HPPはモデルベースのRLと推論メソッドを組み合わせることで、マルチエージェントシステムにおける集中演算子の必要性を排除し、エージェントが計画の動的整合を可能にする。

Collaboration requires agents to align their goals on the fly. Underlying the human ability to align goals with other agents is their ability to predict the intentions of others and actively update their own plans. We propose hierarchical predictive planning (HPP), a model-based reinforcement learning method for decentralized multiagent rendezvous. Starting with pretrained, single-agent point to point navigation policies and using noisy, high-dimensional sensor inputs like lidar, we first learn via self-supervision motion predictions of all agents on the team. Next, HPP uses the prediction models to propose and evaluate navigation subgoals for completing the rendezvous task without explicit communication among agents. We evaluate HPP in a suite of unseen environments, with increasing complexity and numbers of obstacles. We show that HPP outperforms alternative reinforcement learning, path planning, and heuristic-based baselines on challenging, unseen environments. Experiments in the real world demonstrate successful transfer of the prediction models from sim to real world without any additional fine-tuning. Altogether, HPP removes the need for a centralized operator in multiagent systems by combining model-based RL and inference methods, enabling agents to dynamically align plans.
翻訳日:2022-12-23 08:37:27 公開日:2020-11-09
# acnmp: 表現共有による実演と強化学習からの学習によるスキル伝達とタスク外挿

ACNMP: Skill Transfer and Task Extrapolation through Learning from Demonstration and Reinforcement Learning via Representation Sharing ( http://arxiv.org/abs/2003.11334v3 )

ライセンス: Link先を確認
M.Tuluhan Akbulut, Erhan Oztop, M.Yunus Seker, Honghu Xue, Ahmet E. Tekden and Emre Ugur(参考訳) ロボットに巧妙なスキルを付与するためには、まずデモレーション(LfD)から学び、次に強化学習(RL)を介して自己探索により改善させることが効果的である。 本稿では,新しい環境における効率的な政策改善と異なるエージェント間の効果的なスキル伝達を可能にする新しいlfd+rlフレームワーク,adaptive conditional neural movement primitives (acnmp)を提案する。 これは、基礎となる条件付きニューラルプロセス(CNP)モデルで学習した潜在表現を活用し、そのモデルと教師付き学習(SL)を同時トレーニングして、新しい軌道探索のためのRLを用いて達成される。 シミュレーション実験を通して (i)ACNMPは、純粋なLfDが失敗する状況への外挿を可能にする。 二 SL及びRLによるシステムの同時訓練は、双方の学習者が使用する共有表現により、新しい状況に適応しつつ、デモンストレーションの形状を保ちます。 3 ACNMPは、既存のアプローチと比較して、到達タスクの補間において、オーダーオブマグニチュードサンプル効率のRLを可能にする。 (iv)acnmpは、異なる形態を持つロボット間のスキル伝達を実現するために使用することができ、競争力のある学習速度を持ち、最先端のアプローチに比べて仮定の数が少ないことが重要である。 最後に, 障害物回避, ピック・アンド・プレース, 注水動作を含む実ロボット実験を通じて, acnmpの現実世界的適合性を示す。

To equip robots with dexterous skills, an effective approach is to first transfer the desired skill via Learning from Demonstration (LfD), then let the robot improve it by self-exploration via Reinforcement Learning (RL). In this paper, we propose a novel LfD+RL framework, namely Adaptive Conditional Neural Movement Primitives (ACNMP), that allows efficient policy improvement in novel environments and effective skill transfer between different agents. This is achieved through exploiting the latent representation learned by the underlying Conditional Neural Process (CNP) model, and simultaneous training of the model with supervised learning (SL) for acquiring the demonstrated trajectories and via RL for new trajectory discovery. Through simulation experiments, we show that (i) ACNMP enables the system to extrapolate to situations where pure LfD fails; (ii) Simultaneous training of the system through SL and RL preserves the shape of demonstrations while adapting to novel situations due to the shared representations used by both learners; (iii) ACNMP enables order-of-magnitude sample-efficient RL in extrapolation of reaching tasks compared to the existing approaches; (iv) ACNMPs can be used to implement skill transfer between robots having different morphology, with competitive learning speeds and importantly with less number of assumptions compared to the state-of-the-art approaches. Finally, we show the real-world suitability of ACNMPs through real robot experiments that involve obstacle avoidance, pick and place and pouring actions.
翻訳日:2022-12-20 03:06:58 公開日:2020-11-09
# 補助タスクによるマルチターン応答生成のための単純かつ効果的なモデル学習

Learning a Simple and Effective Model for Multi-turn Response Generation with Auxiliary Tasks ( http://arxiv.org/abs/2004.01972v2 )

ライセンス: Link先を確認
Yufan Zhao, Can Xu, Wei Wu, Lei Yu(参考訳) オープンドメイン対話におけるマルチターン応答生成について検討する。 既存の最先端技術は、ディープ・ニューラル・アーキテクチャの問題に対処する。 これらのモデルは応答品質を改善したが、その複雑さは実際のシステムにおけるモデルの適用を妨げる。 本研究では,応答生成に会話コンテキストを効果的に活用できる単純な構造を持つモデルを追求する。 そこで本研究では, 単語順回復, 発話順回復, マスキング語回復, マスキング発話回復の4つの補助課題を提案し, それらの課題の目的を最適化し, 生成可能性の最大化を図る。 これにより、文脈理解に関連する補助タスクは、生成モデルの学習をガイドし、より良い局所的最適を達成することができる。 3つのベンチマークによる実証研究により、我々のモデルは自動評価と人的判断の両方における応答品質において、最先端の生成モデルを大幅に上回り、同時により高速な復号処理を享受できることが示されている。

We study multi-turn response generation for open-domain dialogues. The existing state-of-the-art addresses the problem with deep neural architectures. While these models improved response quality, their complexity also hinders the application of the models in real systems. In this work, we pursue a model that has a simple structure yet can effectively leverage conversation contexts for response generation. To this end, we propose four auxiliary tasks including word order recovery, utterance order recovery, masked word recovery, and masked utterance recovery, and optimize the objectives of these tasks together with maximizing the likelihood of generation. By this means, the auxiliary tasks that relate to context understanding can guide the learning of the generation model to achieve a better local optimum. Empirical studies with three benchmarks indicate that our model can significantly outperform state-of-the-art generation models in terms of response quality on both automatic evaluation and human judgment, and at the same time enjoys a much faster decoding process.
翻訳日:2022-12-16 23:11:15 公開日:2020-11-09
# エキスパート・デモからの学習制御障壁関数

Learning Control Barrier Functions from Expert Demonstrations ( http://arxiv.org/abs/2004.03315v3 )

ライセンス: Link先を確認
Alexander Robey, Haimin Hu, Lars Lindemann, Hanwen Zhang, Dimos V. Dimarogonas, Stephen Tu, Nikolai Matni(参考訳) 最適制御によるエキスパート行動の再現における模倣と逆強化学習の成功に触発され,制御障壁関数(cbfs)に基づく安全制御合成への学習ベースのアプローチを提案する。 我々は、既知の非線形制御アフィン力学系の設定を考慮し、専門家が生成する安全な軌跡にアクセスできると仮定する。そのような設定の実践例は、人間の運転者が生成する安全な軌跡(例えば、環境の障害物との衝突を避けるための軌跡)を持つ自動運転車の運動モデルである。 次に,基盤となる力学系上の適切なリプシッツ平滑性仮定の下で証明可能な安全性保証を享受するcbf学習のための最適化に基づくアプローチを提案し,解析する。 我々のアプローチの強みは、そのような関数のリプシッツ定数が効率的に有界であることだけを仮定して、CBFを表すのに使われるパラメータ化に非依存であることである。 さらに、cbfパラメータ化が凸であれば、穏やかな仮定の下では、学習プロセスもそうである。 CBFのランダム特徴とディープニューラルネットワークパラメタライゼーションの両方を用いて, 平面的, 実例的両方の結果について, 広範囲に数値評価を行った。 私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。

Inspired by the success of imitation and inverse reinforcement learning in replicating expert behavior through optimal control, we propose a learning based approach to safe controller synthesis based on control barrier functions (CBFs). We consider the setting of a known nonlinear control affine dynamical system and assume that we have access to safe trajectories generated by an expert - a practical example of such a setting would be a kinematic model of a self-driving vehicle with safe trajectories (e.g., trajectories that avoid collisions with obstacles in the environment) generated by a human driver. We then propose and analyze an optimization-based approach to learning a CBF that enjoys provable safety guarantees under suitable Lipschitz smoothness assumptions on the underlying dynamical system. A strength of our approach is that it is agnostic to the parameterization used to represent the CBF, assuming only that the Lipschitz constant of such functions can be efficiently bounded. Furthermore, if the CBF parameterization is convex, then under mild assumptions, so is our learning process. We end with extensive numerical evaluations of our results on both planar and realistic examples, using both random feature and deep neural network parameterizations of the CBF. To the best of our knowledge, these are the first results that learn provably safe control barrier functions from data.
翻訳日:2022-12-16 00:59:41 公開日:2020-11-09
# SSP: 単一ショットの将来の軌道予測

SSP: Single Shot Future Trajectory Prediction ( http://arxiv.org/abs/2004.05846v2 )

ライセンス: Link先を確認
Isht Dwivedi, Srikanth Malla, Behzad Dariush, Chiho Choi(参考訳) 我々は,高度に混雑した環境下で自律的なエージェントに適用可能な,将来の軌道予測に対する堅牢な解を提案する。 このため,本稿では特に3つの側面を取り上げている。 まず,複合フィールドを用いて単発の道路エージェントの将来の位置を予測し,シーン内のエージェント数によらず一定の時間的複雑さをもたらす。 第二に、エージェント間の相互作用は非局所的な応答としてモデル化され、異なる位置間の空間的関係も時間的に捉えることができる(時空間的相互作用)。 第3に、シーンの意味的コンテキストをモデル化し、将来の動きに影響を与える可能性のある環境制約を考慮する。 この目的のために、ETH、UCY、SDDデータセットを用いて提案手法のロバスト性を検証し、現在の最先端手法と比較して実用性を強調した。

We propose a robust solution to future trajectory forecast, which can be practically applicable to autonomous agents in highly crowded environments. For this, three aspects are particularly addressed in this paper. First, we use composite fields to predict future locations of all road agents in a single-shot, which results in a constant time complexity, regardless of the number of agents in the scene. Second, interactions between agents are modeled as a non-local response, enabling spatial relationships between different locations to be captured temporally as well (i.e., in spatio-temporal interactions). Third, the semantic context of the scene are modeled and take into account the environmental constraints that potentially influence the future motion. To this end, we validate the robustness of the proposed approach using the ETH, UCY, and SDD datasets and highlight its practical functionality compared to the current state-of-the-art methods.
翻訳日:2022-12-13 23:42:14 公開日:2020-11-09
# 最適ランダム特徴を用いた学習:スポーザリティと低ランク推定を伴わない量子機械学習による指数的高速化

Learning with Optimized Random Features: Exponential Speedup by Quantum Machine Learning without Sparsity and Low-Rank Assumptions ( http://arxiv.org/abs/2004.10756v2 )

ライセンス: Link先を確認
Hayata Yamasaki, Sathyawageeswar Subramanian, Sho Sonoda, Masato Koashi(参考訳) ランダムな機能を備えたカーネルメソッドは、ビッグデータから学習するためのスケーラブルなアルゴリズムを提供する。 しかし、データに最適化された確率分布に従ってランダムな特徴をサンプリングすることは計算的に困難であり、学習を所望の精度で達成するための必要な特徴の数が最小化されている。 そこで我々は,この最適化された特徴量分布から,入力データの次元$D$で線形な実行時$O(D)$でサンプリングする量子アルゴリズムを開発した。 我々のアルゴリズムは、このサンプリングタスクの既知の古典的アルゴリズムと比較して、D$の指数的な高速化を実現している。 既存の量子機械学習アルゴリズムとは対照的に、我々のアルゴリズムはスパーシリティと低ランクの仮定を回避し、広い適用性を持つ。 また,これらの特徴を確率勾配降下による回帰と組み合わせることで,指数的高速化をキャンセルすることなく学習を実現できることを示す。 最適化されたランダムな特徴をサンプリングしたアルゴリズムは、量子コンピュータを利用する機械学習の高速化フレームワークに繋がる。

Kernel methods augmented with random features give scalable algorithms for learning from big data. But it has been computationally hard to sample random features according to a probability distribution that is optimized for the data, so as to minimize the required number of features for achieving the learning to a desired accuracy. Here, we develop a quantum algorithm for sampling from this optimized distribution over features, in runtime $O(D)$ that is linear in the dimension $D$ of the input data. Our algorithm achieves an exponential speedup in $D$ compared to any known classical algorithm for this sampling task. In contrast to existing quantum machine learning algorithms, our algorithm circumvents sparsity and low-rank assumptions and thus has wide applicability. We also show that the sampled features can be combined with regression by stochastic gradient descent to achieve the learning without canceling out our exponential speedup. Our algorithm based on sampling optimized random features leads to an accelerated framework for machine learning that takes advantage of quantum computers.
翻訳日:2022-12-10 17:46:23 公開日:2020-11-09
# 摂動を伴う映像理解ネットワークの視覚的説明に向けて

Towards Visually Explaining Video Understanding Networks with Perturbation ( http://arxiv.org/abs/2005.00375v2 )

ライセンス: Link先を確認
Zhenqiang Li, Weimin Wang, Zuoyue Li, Yifei Huang, Yoichi Sato(参考訳) 「ブラックボックスモデルの説明可能」は深層学習ネットワークの発展に伴う重要な問題である。 視覚情報を入力として取るネットワークでは、ネットワークの予測を支配する入力画素/領域を識別・可視化することが基本だが難解な説明方法である。 しかし、既存の研究の多くは、単一の画像を入力として扱うネットワークの説明に重点を置いており、ビデオに存在する時間的関係を考慮していない。 ビデオ理解ネットワークの多様な構造に適用可能な、使い易いビジュアル説明方法の提供は、いまだに未解決の課題である。 本稿では,映像理解ネットワークを視覚的に説明するための汎用摂動法について検討する。 さらに,空間次元と時間次元の両面において,結果の滑らかさを制限し,その手法を強化する新たな損失関数を提案する。 本手法により,異なるネットワーク構造間の説明結果の比較が可能となり,また,映像入力に対する病理的敵意的説明の発生を回避できる。 実験の結果,本手法の有効性が検証された。

''Making black box models explainable'' is a vital problem that accompanies the development of deep learning networks. For networks taking visual information as input, one basic but challenging explanation method is to identify and visualize the input pixels/regions that dominate the network's prediction. However, most existing works focus on explaining networks taking a single image as input and do not consider the temporal relationship that exists in videos. Providing an easy-to-use visual explanation method that is applicable to diversified structures of video understanding networks still remains an open challenge. In this paper, we investigate a generic perturbation-based method for visually explaining video understanding networks. Besides, we propose a novel loss function to enhance the method by constraining the smoothness of its results in both spatial and temporal dimensions. The method enables the comparison of explanation results between different network structures to become possible and can also avoid generating the pathological adversarial explanations for video inputs. Experimental comparison results verified the effectiveness of our method.
翻訳日:2022-12-08 00:14:28 公開日:2020-11-09
# 金融市場における無向グラフの学習

Learning Undirected Graphs in Financial Markets ( http://arxiv.org/abs/2005.09958v4 )

ライセンス: Link先を確認
Jos\'e Vin\'icius de Miranda Cardoso and Daniel P. Palomar(参考訳) 金融市場データの観点から,ラプラシアン構造制約下での非指向的グラフィカルモデル学習の問題点を考察する。 ラプラシアン制約は、市場指標因子および株価間の条件付き相関に関連する有意義な物理的解釈を持つことを示す。 これらの解釈は、金融市場でグラフを見積もる際にユーザーが気付くべきガイドラインのセットにつながります。 さらに,非定常性やストッククラスタリングといった財務データに固有の特徴やタスクを考慮に入れた非方向性グラフの学習アルゴリズムを提案する。

We investigate the problem of learning undirected graphical models under Laplacian structural constraints from the point of view of financial market data. We show that Laplacian constraints have meaningful physical interpretations related to the market index factor and to the conditional correlations between stocks. Those interpretations lead to a set of guidelines that users should be aware of when estimating graphs in financial markets. In addition, we propose algorithms to learn undirected graphs that account for stylized facts and tasks intrinsic to financial data such as non-stationarity and stock clustering.
翻訳日:2022-12-01 06:05:37 公開日:2020-11-09
# AutoMSC:数学科目分類ラベルの自動割り当て

AutoMSC: Automatic Assignment of Mathematics Subject Classification Labels ( http://arxiv.org/abs/2005.12099v2 )

ライセンス: Link先を確認
Moritz Schubotz and Philipp Scharpf and Olaf Teschke and Andreas Kuehnemund and Corinna Breitinger and Bela Gipp(参考訳) 数学、その他の数学の分野の研究論文の著者は、一般的に関連する文献を検索するために数学の主題分類(MSC)方式を用いる。 MSCは、図書館員が出版物の1つまたは複数のコードを指定することができる階層的な数字分類スキームである。 数学におけるデジタルライブラリや、zbmathやmathematical reviews(mr)などのレビューサービスも、これらのmscラベルに依存しており、抽象化とレビューのプロセスを組織化している。 特に、粗粒度分類は、実際のレビュープロセスに責任を持つ被写体編集者を決定する。 本稿では,マルチクラス分類機械学習タスクとしての問題に関して,MSC方式を用いて粗粒度一次分類を自動的に割り当てる可能性を検討する。 本手法は,zbmath と mr ((f_1)-score の約 81% に非常に近い 77% 以上の (f_1)-score が得られることがわかった。 また,本手法の信頼度スコアは,自動分類記事の精度を81%維持しつつ,手作業による粗粒分類よりも86%削減できることがわかった。

Authors of research papers in the fields of mathematics, and other math-heavy disciplines commonly employ the Mathematics Subject Classification (MSC) scheme to search for relevant literature. The MSC is a hierarchical alphanumerical classification scheme that allows librarians to specify one or multiple codes for publications. Digital Libraries in Mathematics, as well as reviewing services, such as zbMATH and Mathematical Reviews (MR) rely on these MSC labels in their workflows to organize the abstracting and reviewing process. Especially, the coarse-grained classification determines the subject editor who is responsible for the actual reviewing process. In this paper, we investigate the feasibility of automatically assigning a coarse-grained primary classification using the MSC scheme, by regarding the problem as a multi-class classification machine learning task. We find that our method achieves an (F_1)-score of over 77%, which is remarkably close to the agreement of zbMATH and MR ((F_1)-score of 81%). Moreover, we find that the method's confidence score allows for reducing the effort by 86% compared to the manual coarse-grained classification effort while maintaining a precision of 81% for automatically classified articles.
翻訳日:2022-11-29 06:31:27 公開日:2020-11-09
# 条件付き可逆ニューラルネットワークによるネットワーク間翻訳

Network-to-Network Translation with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2005.13580v2 )

ライセンス: Link先を確認
Robin Rombach and Patrick Esser and Bj\"orn Ommer(参考訳) 現代の機械学習モデルの計算コストがますます高まる中、私たちはこれらのエキスパートモデルを再利用し、その作成に投資されたリソースを活用する新しい方法を見つける必要があります。 最近の研究は、これらの巨大なモデルの力は、彼らが学習した表現によって捉えられることを示唆している。 そこで本研究では,既存の表現を相互に関連付けるモデルを求め,条件付き可逆ネットワークを用いて解くことを提案する。 このネットワークは、その能力を示す (i)多様なドメイン間の汎用的な転送を提供する。 (ii)他の領域の変更を可能とし、制御されたコンテンツ合成を可能にすること。 (iii)画像などの解釈可能な領域に翻訳することにより、既存の表現の診断を容易にする。 ドメイン転送ネットワークは、学習や微調整をすることなく、固定表現を変換できます。 これによってユーザは、膨大な計算リソースでトレーニングされた文献から、さまざまな既存のドメイン固有のエキスパートモデルを利用することができる。 多様な条件付き画像合成タスクの実験、競合画像修正結果、画像・画像・テキスト・画像生成実験は、我々のアプローチの汎用性を示している。 例えば、BERTとBigGAN、最先端のテキストとイメージモデルを変換して、どちらの専門家も単独で実行できないテキスト・ツー・イメージ生成を提供する。

Given the ever-increasing computational costs of modern machine learning models, we need to find new ways to reuse such expert models and thus tap into the resources that have been invested in their creation. Recent work suggests that the power of these massive models is captured by the representations they learn. Therefore, we seek a model that can relate between different existing representations and propose to solve this task with a conditionally invertible network. This network demonstrates its capability by (i) providing generic transfer between diverse domains, (ii) enabling controlled content synthesis by allowing modification in other domains, and (iii) facilitating diagnosis of existing representations by translating them into interpretable domains such as images. Our domain transfer network can translate between fixed representations without having to learn or finetune them. This allows users to utilize various existing domain-specific expert models from the literature that had been trained with extensive computational resources. Experiments on diverse conditional image synthesis tasks, competitive image modification results and experiments on image-to-image and text-to-image generation demonstrate the generic applicability of our approach. For example, we translate between BERT and BigGAN, state-of-the-art text and image models to provide text-to-image generation, which neither of both experts can perform on their own.
翻訳日:2022-11-28 08:19:46 公開日:2020-11-09
# 不変政策最適化:強化学習におけるより強固な一般化に向けて

Invariant Policy Optimization: Towards Stronger Generalization in Reinforcement Learning ( http://arxiv.org/abs/2006.01096v3 )

ライセンス: Link先を確認
Anoopkumar Sonar, Vincent Pacelli, and Anirudha Majumdar(参考訳) 強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。 エージェントは、この表現の上に構築されたアクション予測器が存在し、同時に全ての訓練領域で最適であるような表現を見つけなければならない。 直感的には、結果として生じる不変ポリシーは、成功した行動の原因を見つけることによって一般化を促進する。 本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。 本手法を標準的なポリシー勾配法と比較し,線形二次レギュレータとグリッドワールド問題に対する非シード領域の一般化性能と,ロボットが様々な物理特性を持つドアを開くことを学ばなければならない例を示す。

A fundamental challenge in reinforcement learning is to learn policies that generalize beyond the operating domains experienced during training. In this paper, we approach this challenge through the following invariance principle: an agent must find a representation such that there exists an action-predictor built on top of this representation that is simultaneously optimal across all training domains. Intuitively, the resulting invariant policy enhances generalization by finding causes of successful actions. We propose a novel learning algorithm, Invariant Policy Optimization (IPO), that implements this principle and learns an invariant policy during training. We compare our approach with standard policy gradient methods and demonstrate significant improvements in generalization performance on unseen domains for linear quadratic regulator and grid-world problems, and an example where a robot must learn to open doors with varying physical properties.
翻訳日:2022-11-26 05:57:05 公開日:2020-11-09
# 生成前駆によるスパイクマトリックス回復の非漸近的保証

Nonasymptotic Guarantees for Spiked Matrix Recovery with Generative Priors ( http://arxiv.org/abs/2006.07953v2 )

ライセンス: Link先を確認
Jorio Cocola, Paul Hand, Vladislav Voroninski(参考訳) 統計学や機械学習における多くの問題は、ノイズデータからランク1信号行列を再構築する必要がある。 ランク1コンポーネントの事前情報の追加を強制することが、回復性能の保証の鍵となることが多い。 低ランク成分に先行する1つは、疎度であり、スパース主成分分析問題を引き起こす。 残念ながら、この問題が基本的な計算と統計のギャップに悩まされているという強い証拠がある。 本研究では,低ランク成分が訓練された生成ネットワークの範囲内にある代替品について検討する。 本研究では, 対数的因子まで, 対数的因子まで, 拡張ガウスネットワーク下でのランクワン行列回復のための最適なサンプル複雑性を持つ非漸近解析を行う。 具体的には、生成モデルへの入力の寸法の順にサンプルの個数がある場合、非線形最小二乗目的に対して好適なグローバルな最適化環境を確立する。 この結果から, 生成前駆体は有限データ, 非漸近的状態において, 構造化ランク1行列回復のための計算と統計のギャップを持たないことが示唆された。 本稿では,wishart と wigner のスパイク行列モデルを用いて解析を行う。

Many problems in statistics and machine learning require the reconstruction of a rank-one signal matrix from noisy data. Enforcing additional prior information on the rank-one component is often key to guaranteeing good recovery performance. One such prior on the low-rank component is sparsity, giving rise to the sparse principal component analysis problem. Unfortunately, there is strong evidence that this problem suffers from a computational-to-statistical gap, which may be fundamental. In this work, we study an alternative prior where the low-rank component is in the range of a trained generative network. We provide a non-asymptotic analysis with optimal sample complexity, up to logarithmic factors, for rank-one matrix recovery under an expansive-Gaussian network prior. Specifically, we establish a favorable global optimization landscape for a nonlinear least squares objective, provided the number of samples is on the order of the dimensionality of the input to the generative model. This result suggests that generative priors have no computational-to-statistical gap for structured rank-one matrix recovery in the finite data, nonasymptotic regime. We present this analysis in the case of both the Wishart and Wigner spiked matrix models.
翻訳日:2022-11-21 12:56:12 公開日:2020-11-09
# HyNet: ハイブリッド類似度測定とトリプルト損失によるローカル記述子学習

HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss ( http://arxiv.org/abs/2006.10202v3 )

ライセンス: Link先を確認
Yurun Tian, Axel Barroso-Laguna, Tony Ng, Vassileios Balntas, Krystian Mikolajczyk(参考訳) 近年の研究では、L2正規化による局所記述子学習の利点が示されているが、この効果の詳細な分析は文献に欠けている。 本稿では,l2正規化がトレーニング中のバックプロパゲーションディスクリプタ勾配に与える影響について検討する。 そこで我々は,HyNetを提案する。HyNetは局所的な記述子で,マッチングの最先端結果をもたらす。 hynetは、三重項マージン損失のためのハイブリッド類似性尺度、ディスクリプタノルムを制限する正規化項、およびすべての中間特徴マップと出力ディスクリプタのl2正規化を実行する新しいネットワークアーキテクチャを導入する。 HyNetは、パッチマッチング、検証、検索、そして3D再構成タスクにおける完全なエンドツーエンドメソッドよりも優れたパフォーマンスを含む標準ベンチマークにおいて、従来の手法をはるかに上回っている。

Recent works show that local descriptor learning benefits from the use of L2 normalisation, however, an in-depth analysis of this effect lacks in the literature. In this paper, we investigate how L2 normalisation affects the back-propagated descriptor gradients during training. Based on our observations, we propose HyNet, a new local descriptor that leads to state-of-the-art results in matching. HyNet introduces a hybrid similarity measure for triplet margin loss, a regularisation term constraining the descriptor norm, and a new network architecture that performs L2 normalisation of all intermediate feature maps and the output descriptors. HyNet surpasses previous methods by a significant margin on standard benchmarks that include patch matching, verification, and retrieval, as well as outperforming full end-to-end methods on 3D reconstruction tasks.
翻訳日:2022-11-19 21:12:46 公開日:2020-11-09
# 固有状態準備のための変分量子アルゴリズム

Certified variational quantum algorithms for eigenstate preparation ( http://arxiv.org/abs/2006.13222v2 )

ライセンス: Link先を確認
Andrey Kardashin and Alexey Uvarov and Dmitry Yudin and Jacob Biamonte(参考訳) 多体問題に対する解は、しばしば難解な数の自由を伴い、一般に知られている近似は認めない。 実際には、利用可能な数値法、特に変分モンテカルロシミュレーションに基づくハミルトニアンの量子力学状態を表現することは、システムサイズを増やすことで指数関数的に困難になる。 近年,このようなシミュレーションを高速化するために,変分モデルとして実装された量子アルゴリズムが提案されている。 変分アンザッツ状態は、局所的な測定によってエミュレートされる与えられたハミルトニアンの期待値を最小限にするために考案されたパラメータの多項式数によって特徴づけられる。 本研究では,変分アルゴリズムの終了を証明する手法を開発した。 逆場イジングモデル、競合する相互作用を持つ1次元スピンレスフェルミオンのモデル、量子電磁力学のシュウィンガーモデルという3つのモデルに適用することで、我々のアプローチを実証する。 比較により,本手法はこれらのモデルにおける臨界点に近い性能を示す。 そこで我々は,応用性の向上と変分量子シミュレータの結果の検証に向けて,さらなる一歩を踏み出した。

Solutions to many-body problem instances often involve an intractable number of degrees of freedom and admit no known approximations in general form. In practice, representing quantum-mechanical states of a given Hamiltonian using available numerical methods, in particular those based on variational Monte Carlo simulations, become exponentially more challenging with increasing system size. Recently quantum algorithms implemented as variational models have been proposed to accelerate such simulations. The variational ansatz states are characterized by a polynomial number of parameters devised in a way to minimize the expectation value of a given Hamiltonian, which is emulated by local measurements. In this study, we develop a means to certify the termination of variational algorithms. We demonstrate our approach by applying it to three models: the transverse field Ising model, the model of one-dimensional spinless fermions with competing interactions, and the Schwinger model of quantum electrodynamics. By means of comparison, we observe that our approach shows better performance near critical points in these models. We hence take a further step to improve the applicability and to certify the results of variational quantum simulators.
翻訳日:2022-11-18 00:01:10 公開日:2020-11-09
# 適応型スムージングとゲームエンコーディングによるトレーニング可能な事前設計のためのフレキシブルフレームワーク

A Flexible Framework for Designing Trainable Priors with Adaptive Smoothing and Game Encoding ( http://arxiv.org/abs/2006.14859v2 )

ライセンス: Link先を確認
Bruno Lecouat, Jean Ponce, Julien Mairal(参考訳) 本稿では,非滑らかな凸最適化問題として前方通過を解釈し,最適化アルゴリズムからアーキテクチャを導出するニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを提案する。 グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。 このアプローチは、トレーニング可能なディープモデル内の古典的なイメージプリエントをエンドツーエンドで使用可能にするため、画像問題を解決する上で魅力的なものだ。 このプレゼンテーションで使用された前者は、全変量、ラプラシア正規化、両側フィルタリング、学習辞書でのスパースコーディング、非局所的な自己類似性などである。 我々のモデルはパラメータとデータを効率的に解釈できる。 本実験は,fMRIの撮像と圧縮センシングから,高密度ステレオマッチングに至るまで,様々なタスクにおいて有効性を示す。

We introduce a general framework for designing and training neural network layers whose forward passes can be interpreted as solving non-smooth convex optimization problems, and whose architectures are derived from an optimization algorithm. We focus on convex games, solved by local agents represented by the nodes of a graph and interacting through regularization functions. This approach is appealing for solving imaging problems, as it allows the use of classical image priors within deep models that are trainable end to end. The priors used in this presentation include variants of total variation, Laplacian regularization, bilateral filtering, sparse coding on learned dictionaries, and non-local self similarities. Our models are fully interpretable as well as parameter and data efficient. Our experiments demonstrate their effectiveness on a large diversity of tasks ranging from image denoising and compressed sensing for fMRI to dense stereo matching.
翻訳日:2022-11-16 21:59:21 公開日:2020-11-09
# 関連:構造化潜在空間を用いた物理的に妥当な多目的シーン合成

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces ( http://arxiv.org/abs/2007.01272v2 )

ライセンス: Link先を確認
Sebastien Ehrhardt and Oliver Groth and Aron Monszpart and Martin Engelcke and Ingmar Posner and Niloy Mitra and Andrea Vedaldi(参考訳) RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。 他の生成アプローチと同様に、RELATEは生のラベルなしのデータに基づいてエンドツーエンドで訓練される。 RELATEは、オブジェクト中心のGAN定式化と、個々のオブジェクト間の相関を明示的に説明するモデルを組み合わせる。 これにより、物理的に解釈可能なパラメータ化からリアルなシーンやビデオを生成することができる。 さらに,物体の位置とアイデンティティを乱す学習には,物体相関のモデル化が必要であることを示す。 RELATEは、物理的にリアルなシーン編集にも適しており、合成(CLEVR、ShapeStacks)と実世界のデータ(車)の両方において、オブジェクト中心のシーン生成において、先行技術よりも著しく優れています。 加えて、オブジェクト中心生成モデリングにおける最先端のメソッドとは対照的に、relationは動的シーンにも自然に拡張され、高い視覚忠実度を持つビデオを生成する。 ソースコード、データセット、その他の結果はhttp://geometry.cs.ucl.ac.uk/projects/2020/relate/で入手できる。

We present RELATE, a model that learns to generate physically plausible scenes and videos of multiple interacting objects. Similar to other generative approaches, RELATE is trained end-to-end on raw, unlabeled data. RELATE combines an object-centric GAN formulation with a model that explicitly accounts for correlations between individual objects. This allows the model to generate realistic scenes and videos from a physically-interpretable parameterization. Furthermore, we show that modeling the object correlation is necessary to learn to disentangle object positions and identity. We find that RELATE is also amenable to physically realistic scene editing and that it significantly outperforms prior art in object-centric scene generation in both synthetic (CLEVR, ShapeStacks) and real-world data (cars). In addition, in contrast to state-of-the-art methods in object-centric generative modeling, RELATE also extends naturally to dynamic scenes and generates videos of high visual fidelity. Source code, datasets and more results are available at http://geometry.cs.ucl.ac.uk/projects/2020/relate/.
翻訳日:2022-11-14 14:27:01 公開日:2020-11-09
# レーン検出のための合成領域適応

Synthetic-to-Real Domain Adaptation for Lane Detection ( http://arxiv.org/abs/2007.04023v2 )

ライセンス: Link先を確認
Noa Garnett, Roy Uziel, Netalee Efrat, Dan Levi(参考訳) 自動運転の重要な実現手段である正確な車線検出は、現在、大規模で多様なラベル付きトレーニングデータセットを取得することに依存している。 本研究では,多量のランダムな合成データから学習し,ラベルなしあるいは部分的にラベル付けされた対象ドメインデータとともに学習する。 ランダムに生成された合成データはレーンの幾何学や照明において可変性を制御しているが、フォトリアリズムでは制限されている。 これは、非現実的な合成領域で学んだモデルを実画像に適応させることの課題である。 そこで我々は,特定の画像と一致しない合成ラベルを用いて対象領域データに適応する,新しいオートエンコーダベースの手法を開発した。 さらに,画像翻訳や自己スーパービジョンなどの既存の領域適応手法を探索し,車線検出タスクに適応させる。 対象のドメインラベルが存在しない教師なし領域適応設定と、対象画像のごく一部をラベル付けする半教師なし領域適応設定において、全てのアプローチをテストする。 3つの異なるデータセットを用いた広範囲な実験で、ターゲットとなるドメインラベリングのコストを節約する可能性を実証する。 例えば、ラマとtuSimpleレーンのデータセットに対する提案したオートエンコーダアプローチを使用して、ラベル付きデータの10%で完全に教師付きされた精度をほぼ回復できる。 さらに,本手法は,半教師付きドメイン適応シナリオにおいて,他の手法よりも優れる。

Accurate lane detection, a crucial enabler for autonomous driving, currently relies on obtaining a large and diverse labeled training dataset. In this work, we explore learning from abundant, randomly generated synthetic data, together with unlabeled or partially labeled target domain data, instead. Randomly generated synthetic data has the advantage of controlled variability in the lane geometry and lighting, but it is limited in terms of photo-realism. This poses the challenge of adapting models learned on the unrealistic synthetic domain to real images. To this end we develop a novel autoencoder-based approach that uses synthetic labels unaligned with particular images for adapting to target domain data. In addition, we explore existing domain adaptation approaches, such as image translation and self-supervision, and adjust them to the lane detection task. We test all approaches in the unsupervised domain adaptation setting in which no target domain labels are available and in the semi-supervised setting in which a small portion of the target images are labeled. In extensive experiments using three different datasets, we demonstrate the possibility to save costly target domain labeling efforts. For example, using our proposed autoencoder approach on the llamas and tuSimple lane datasets, we can almost recover the fully supervised accuracy with only 10% of the labeled data. In addition, our autoencoder approach outperforms all other methods in the semi-supervised domain adaptation scenario.
翻訳日:2022-11-12 13:14:16 公開日:2020-11-09
# 階調ラプラシアンに基づく識別不可能な特徴選択

Differentiable Unsupervised Feature Selection based on a Gated Laplacian ( http://arxiv.org/abs/2007.04728v3 )

ライセンス: Link先を確認
Ofir Lindenbaum, Uri Shaham, Jonathan Svirsky, Erez Peterfreund, Yuval Kluger(参考訳) 科学的な観察は、多くの変数(特徴)から構成される。 有意義な特徴のサブセットを特定することは教師なし学習では無視されることが多いが、周囲の空間に隠された明確なパターンを解き放つ可能性を秘めている。 本稿では,教師なし特徴選択手法を提案するとともに,クラスタリングタスクにおけるその利用例を示す。 低周波特性を好むラプラシアンスコアと特徴選択のためのゲーティング機構を組み合わせた微分可能損失関数を提案する。 特徴のサブセット上で計算されたゲート付き変種に置き換えることで、ラプラシアンスコアを改善する。 この部分集合はベルヌーイ変数の連続近似を用いて得られ、そのパラメータは全特徴空間をゲートするように訓練される。 我々は,提案手法を数学的に動機付け,高雑音条件下では,全特徴集合ではなく,ゲート入力上でラプラシアンを計算することが重要であることを示す。 実例を用いて,提案手法の有効性と,現在のベースラインよりも優れていることを示す実験実験を行った。

Scientific observations may consist of a large number of variables (features). Identifying a subset of meaningful features is often ignored in unsupervised learning, despite its potential for unraveling clear patterns hidden in the ambient space. In this paper, we present a method for unsupervised feature selection, and we demonstrate its use for the task of clustering. We propose a differentiable loss function that combines the Laplacian score, which favors low-frequency features, with a gating mechanism for feature selection. We improve the Laplacian score, by replacing it with a gated variant computed on a subset of features. This subset is obtained using a continuous approximation of Bernoulli variables whose parameters are trained to gate the full feature space. We mathematically motivate the proposed approach and demonstrate that in the high noise regime, it is crucial to compute the Laplacian on the gated inputs, rather than on the full feature set. Experimental demonstration of the efficacy of the proposed approach and its advantage over current baselines is provided using several real-world examples.
翻訳日:2022-11-12 03:32:22 公開日:2020-11-09
# 神経構成: 複数のモデルから生成する学習

Neural Composition: Learning to Generate from Multiple Models ( http://arxiv.org/abs/2007.16013v2 )

ライセンス: Link先を確認
Denis Filimonov, Ravi Teja Gadde, Ariya Rastrow(参考訳) モデルを複数のコンポーネントに分割することは、言語モデリング(lm)のような多くのアプリケーションにおいて非常に重要である。 伝統的に、言語モデルの文脈的およびパーソナライズされた適応は、クラスアノテートデータを必要とするクラスベースの分解や、規模が制限された個々のフレーズへの偏りによって達成される。 本稿では,各コンポーネントから生成プロセスをアクティベートするタイミングを学習し,ラベルなしテキストデータから直接,各コンポーネントからの確率分布を結合する方法を学習することにより,モデル定義コンポーネントを組み合わせるシステムを提案する。

Decomposing models into multiple components is critically important in many applications such as language modeling (LM) as it enables adapting individual components separately and biasing of some components to the user's personal preferences. Conventionally, contextual and personalized adaptation for language models, are achieved through class-based factorization, which requires class-annotated data, or through biasing to individual phrases which is limited in scale. In this paper, we propose a system that combines model-defined components, by learning when to activate the generation process from each individual component, and how to combine probability distributions from each component, directly from unlabeled text data.
翻訳日:2022-11-11 20:48:39 公開日:2020-11-09
# 領域適応における低バイアス, 変動を考慮したトランスファブルキャリブレーション

Transferable Calibration with Lower Bias and Variance in Domain Adaptation ( http://arxiv.org/abs/2007.08259v2 )

ライセンス: Link先を確認
Ximei Wang, Mingsheng Long, Jianmin Wang, and Michael I. Jordan(参考訳) ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインへの学習マシンの転送を可能にする。 注目すべき進歩はあったが、既存のdaメソッドのほとんどは推論のターゲット精度の向上に重点を置いている。 DAモデルの予測的不確実性を推定する方法は、安全クリティカルなシナリオにおける意思決定に不可欠だが、探求すべき境界は依然として残っている。 本稿では,daにおけるキャリブレーションのオープンな問題について考察する。これは領域シフトとターゲットラベルの欠如が共存していることから,非常に困難である。 まず,daモデルが高い確率を犠牲にして高い精度を学習するというジレンマを明らかにする。 そこで本研究では,超パラメータフリーな最適化フレームワークにおいて,より高精度なバイアスと分散のキャリブレーションを実現するためのトランスファブルキャリブレーション(transcal)を提案する。 一般的なポストホック校正法として、TransCalは既存のDA法の校正に容易に適用できる。 その効果は理論的にも実証的にも正当化されている。

Domain Adaptation (DA) enables transferring a learning machine from a labeled source domain to an unlabeled target one. While remarkable advances have been made, most of the existing DA methods focus on improving the target accuracy at inference. How to estimate the predictive uncertainty of DA models is vital for decision-making in safety-critical scenarios but remains the boundary to explore. In this paper, we delve into the open problem of Calibration in DA, which is extremely challenging due to the coexistence of domain shift and the lack of target labels. We first reveal the dilemma that DA models learn higher accuracy at the expense of well-calibrated probabilities. Driven by this finding, we propose Transferable Calibration (TransCal) to achieve more accurate calibration with lower bias and variance in a unified hyperparameter-free optimization framework. As a general post-hoc calibration method, TransCal can be easily applied to recalibrate existing DA methods. Its efficacy has been justified both theoretically and empirically.
翻訳日:2022-11-09 22:13:36 公開日:2020-11-09
# 実行時画像認識のための分解能スイッチブルネットワーク

Resolution Switchable Networks for Runtime Efficient Image Recognition ( http://arxiv.org/abs/2007.09558v3 )

ライセンス: Link先を確認
Yikai Wang, Fuchun Sun, Duo Li, Anbang Yao(参考訳) 本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークの訓練方法を提案する。 これにより、様々な計算資源限界を満たすために実行速度を選択することができる。 提案手法でトレーニングされたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。 基本的なトレーニングフレームワークは、解像度が異なるイメージを扱うためのネットワークパラメータを共有している。 設計においてパラメータ効率は高いが、異なる解像度で不整合な精度の変動をもたらし、列車テスト認識の不一致の側面から詳細な分析を行う。 マルチレゾリューション・アンサンブル蒸留はさらに設計され、教師は解像度の重み付けアンサンブルとしてオンザフライで学習される。 アンサンブルと知識蒸留により、RS-Netは個々の訓練されたモデルと比較して幅広い解像度で精度の向上を享受する。 ImageNetデータセットに関する大規模な実験を行い、量子化問題についても検討する。 コードとモデルはhttps://github.com/yikaiw/rs-netsで入手できる。

We propose a general method to train a single convolutional neural network which is capable of switching image resolutions at inference. Thus the running speed can be selected to meet various computational resource limits. Networks trained with the proposed method are named Resolution Switchable Networks (RS-Nets). The basic training framework shares network parameters for handling images which differ in resolution, yet keeps separate batch normalization layers. Though it is parameter-efficient in design, it leads to inconsistent accuracy variations at different resolutions, for which we provide a detailed analysis from the aspect of the train-test recognition discrepancy. A multi-resolution ensemble distillation is further designed, where a teacher is learnt on the fly as a weighted ensemble over resolutions. Thanks to the ensemble and knowledge distillation, RS-Nets enjoy accuracy improvements at a wide range of resolutions compared with individually trained models. Extensive experiments on the ImageNet dataset are provided, and we additionally consider quantization problems. Code and models are available at https://github.com/yikaiw/RS-Nets.
翻訳日:2022-11-09 00:15:12 公開日:2020-11-09
# gpuを用いた高結合スパイク皮質モデルの高速シミュレーション

Fast simulations of highly-connected spiking cortical models using GPUs ( http://arxiv.org/abs/2007.14236v3 )

ライセンス: Link先を確認
Bruno Golosio, Gianmarco Tiddia, Chiara De Luca, Elena Pastorelli, Francesco Simula, Pier Stanislao Paolucci(参考訳) 過去10年間で、スパイキングニューロンの大規模ネットワークをシミュレートする並列ハードウェアシステムの開発への関心が高まっている。 他の高並列システムと比較すると、GPUアクセラレーションソリューションは、CUDA-C/C++プログラミング言語を使用する可能性にもとづいて、比較的低コストで優れた汎用性を持つ。 NeuronGPUは、C++およびCUDA-C++プログラミング言語で書かれたスパイクニューラルネットワークモデルの大規模なシミュレーションのためのGPUライブラリである。 このライブラリには、単純なlif(leaky-integrate-and-fire)ニューロンモデルと複数のマルチシナプスadex(adaptive-exponential-integrate-and-fire)ニューロンモデルが含まれている。 AdExモデルの力学の微分方程式の数値解は、適応的なステップサイズ制御を持つ5階のRunge-Kutta法のCUDA-C++で記述された並列実装によって実行される。 本研究では, LIFニューロンと電流ベースシナプスをベースとした皮質微小循環モデルのシミュレーションと, AdExニューロンとコンダクタンスベースシナプスを用いて, 興奮ニューロンと抑制ニューロンのバランスの取れたネットワーク上での性能を評価する。 これらのモデルを用いて,生物活動の1秒あたりのシミュレーション時間の観点から,提案ライブラリが最先端のパフォーマンスを達成することを示す。 特に、NVIDIA GeForce RTX 2080 Tiの1つのGPUボードを使用すると、約77,000のニューロンと3ドルの10^8$接続を含むフルスケールの皮質-マイクロ回路モデルは、リアルタイムに非常に近い速度でシミュレートできる。

Over the past decade there has been a growing interest in the development of parallel hardware systems for simulating large-scale networks of spiking neurons. Compared to other highly-parallel systems, GPU-accelerated solutions have the advantage of a relatively low cost and a great versatility, thanks also to the possibility of using the CUDA-C/C++ programming languages. NeuronGPU is a GPU library for large-scale simulations of spiking neural network models, written in the C++ and CUDA-C++ programming languages, based on a novel spike-delivery algorithm. This library includes simple LIF (leaky-integrate-and-fire) neuron models as well as several multisynapse AdEx (adaptive-exponential-integrate-and-fire) neuron models with current or conductance based synapses, user definable models and different devices. The numerical solution of the differential equations of the dynamics of the AdEx models is performed through a parallel implementation, written in CUDA-C++, of the fifth-order Runge-Kutta method with adaptive step-size control. In this work we evaluate the performance of this library on the simulation of a cortical microcircuit model, based on LIF neurons and current-based synapses, and on a balanced network of excitatory and inhibitory neurons, using AdEx neurons and conductance-based synapses. On these models, we will show that the proposed library achieves state-of-the-art performance in terms of simulation time per second of biological activity. In particular, using a single NVIDIA GeForce RTX 2080 Ti GPU board, the full-scale cortical-microcircuit model, which includes about 77,000 neurons and $3 \cdot 10^8$ connections, can be simulated at a speed very close to real time, while the simulation time of a balanced network of 1,000,000 AdEx neurons with 1,000 connections per neuron was about 70 s per second of biological activity.
翻訳日:2022-11-06 02:19:23 公開日:2020-11-09
# BIRAFFE2実験。 AIシステムのための感情に基づくパーソナライズのためのバイオリアクションと顔に関する研究

The BIRAFFE2 Experiment. Study in Bio-Reactions and Faces for Emotion-based Personalization for AI Systems ( http://arxiv.org/abs/2007.15048v2 )

ライセンス: Link先を確認
Krzysztof Kutt (1), Dominika Dr\k{a}\.zyk (1), Maciej Szel\k{a}\.zek (2), Szymon Bobek (1), Grzegorz J. Nalepa (1) ((1) Jagiellonian University, Poland, (2) AGH University of Science and Technology, Poland)(参考訳) BIRAFFE2データセットは、感情の分類と認識のためのコンピュータモデルを開発することを目的とした、2019年から2020年にかけて行われた感情コンピューティング実験の結果である。 このような研究は、自然とAIの相互作用の新しい手法を開発する上で重要である。 我々は、感情のモデルがデザインによってパーソナライズされるべきであると信じているため、個々の個性の違いを考慮して、異なる人の感情的反応を捉えることができる統一パラダイムを提案する。 我々は,コンピュータゲームプレイヤの観察に基づく感情応答収集の古典心理学的パラダイムと,より新しいアプローチを組み合わせる。 心理生理学的反応(ECG, EDA信号記録), 表情の模倣(表情認識), 主観的原子価覚醒的バランス評価(ウィジェット評価), ゲームプレイ進行(加速度計, スクリーンキャスト記録)を捉えることにより, 機械学習手法のために容易に利用し, 開発できる枠組みを提供する。

The paper describes BIRAFFE2 data set, which is a result of an affective computing experiment conducted between 2019 and 2020, that aimed to develop computer models for classification and recognition of emotion. Such work is important to develop new methods of natural Human-AI interaction. As we believe that models of emotion should be personalized by design, we present an unified paradigm allowing to capture emotional responses of different persons, taking individual personality differences into account. We combine classical psychological paradigms of emotional response collection with the newer approach, based on the observation of the computer game player. By capturing ones psycho-physiological reactions (ECG, EDA signal recording), mimic expressions (facial emotion recognition), subjective valence-arousal balance ratings (widget ratings) and gameplay progression (accelerometer and screencast recording), we provide a framework that can be easily used and developed for the purpose of the machine learning methods.
翻訳日:2022-11-05 20:02:07 公開日:2020-11-09
# コンテキスト認識型文献マイニングによる新型コロナウイルス治療ターゲット発見

COVID-19 therapy target discovery with context-aware literature mining ( http://arxiv.org/abs/2007.15681v2 )

ライセンス: Link先を確認
Matej Martinc, Bla\v{z} \v{S}krlj, Sergej Pirkmajer, Nada Lavra\v{c}, Bojan Cestnik, Martin Marzidov\v{s}ek, Senja Pollak(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに関連する文献の豊富さは、1人の専門家の手作業による検査を超えている。 何万もの学術出版物を自動処理して、既存の実証的証拠を文献に基づく協会に集約するシステムの開発は、困難かつ重要である。 本研究では,covid-19関連文献のコーパスから表現を学ぶエンティティ間の関係を近似し,経験的表現データの文脈化システムを提案する。 本研究では,学術出版物の多分野に事前学習したSciBERT言語モデルを利用して,CORD-19データセット上でのドメイン適応を微調整した新しい埋め込み生成手法を提案する。 本手法は, 医療専門家による手作業による評価と, 関連研究で特定された治療対象に基づく定量的評価により, 新型コロナウイルス治療対象の発見に成功し, ベースラインのFastText法よりも高い成績を示した。

The abundance of literature related to the widespread COVID-19 pandemic is beyond manual inspection of a single expert. Development of systems, capable of automatically processing tens of thousands of scientific publications with the aim to enrich existing empirical evidence with literature-based associations is challenging and relevant. We propose a system for contextualization of empirical expression data by approximating relations between entities, for which representations were learned from one of the largest COVID-19-related literature corpora. In order to exploit a larger scientific context by transfer learning, we propose a novel embedding generation technique that leverages SciBERT language model pretrained on a large multi-domain corpus of scientific publications and fine-tuned for domain adaptation on the CORD-19 dataset. The conducted manual evaluation by the medical expert and the quantitative evaluation based on therapy targets identified in the related work suggest that the proposed method can be successfully employed for COVID-19 therapy target discovery and that it outperforms the baseline FastText method by a large margin.
翻訳日:2022-11-05 14:43:09 公開日:2020-11-09
# overnet: オーバースケーリングネットワークを備えた軽量なマルチスケールスーパーレゾリューション

OverNet: Lightweight Multi-Scale Super-Resolution with Overscaling Network ( http://arxiv.org/abs/2008.02382v2 )

ライセンス: Link先を確認
Parichehr Behjati, Pau Rodriguez, Armin Mehri, Isabelle Hupont, Jordi Gonzalez, Carles Fernandez Tena(参考訳) 超解像(SR)は、深層畳み込みニューラルネットワーク(CNN)の開発によって大きな成功を収めた。 しかし、ネットワークの深さと幅が大きくなるにつれて、CNNベースのSR手法は計算複雑性の課題に直面している。 さらに、ターゲットの解像度ごとに専用モデルをトレーニングし、汎用性を失い、メモリ要件が増加する。 これらの制限に対処するために、単一モデルで任意のスケールファクタでSISRを解決するための、深いが軽量な畳み込みネットワークであるOverNetを導入する。 まず、スキップと密接な接続の新たな再帰構造を通じて、情報の効率的な再利用を実現する軽量な再帰的特徴抽出器を導入する。 第2に,特徴抽出器の性能を最大化するために,オーバースケールな特徴マップから高精度な高解像度画像を生成する再構成モジュールを提案する。 第3に,スケール全体の一般化を実現するために,マルチスケール損失関数を導入する。 広範な実験を通じて,本ネットワークは,従来の手法よりもパラメータを少なくしながら,標準ベンチマークの結果を上回っていることを実証した。

Super-resolution (SR) has achieved great success due to the development of deep convolutional neural networks (CNNs). However, as the depth and width of the networks increase, CNN-based SR methods have been faced with the challenge of computational complexity in practice. Moreover, most of them train a dedicated model for each target resolution, losing generality and increasing memory requirements. To address these limitations we introduce OverNet, a deep but lightweight convolutional network to solve SISR at arbitrary scale factors with a single model. We make the following contributions: first, we introduce a lightweight recursive feature extractor that enforces efficient reuse of information through a novel recursive structure of skip and dense connections. Second, to maximize the performance of the feature extractor we propose a reconstruction module that generates accurate high-resolution images from overscaled feature maps and can be independently used to improve existing architectures. Third, we introduce a multi-scale loss function to achieve generalization across scales. Through extensive experiments, we demonstrate that our network outperforms previous state-of-the-art results in standard benchmarks while using fewer parameters than previous approaches.
翻訳日:2022-11-02 18:48:11 公開日:2020-11-09
# 複素観測のためのコントラスト変動強化学習

Contrastive Variational Reinforcement Learning for Complex Observations ( http://arxiv.org/abs/2008.02430v2 )

ライセンス: Link先を確認
Xiao Ma, Siwei Chen, David Hsu, Wee Sun Lee(参考訳) 深層強化学習(drl)は,操作やナビゲーションなど,さまざまなロボットタスクで大きな成功を収めている。 しかし、自然環境における複雑な視覚観察は依然として大きな課題である。 本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。 cvrlは、対比学習を通じて潜在状態と観測の間の相互情報を最大化し、対比変動モデルを学ぶ。 一般的に使用される生成観測モデルがしばしば行うように、複雑な観測空間のモデル化は不要であり、より堅牢である。 CVRLは、標準的なMujocoタスクにおける最先端のモデルベースDRLメソッドと同等のパフォーマンスを実現する。 自然のムジョコタスクや、ダイナミックシャドウのような複雑な観察を伴うロボットボックスプッシュタスクで、これらを著しく上回っている。 CVRLコードはhttps://github.com/Yusufma03/CVRLで公開されている。

Deep reinforcement learning (DRL) has achieved significant success in various robot tasks: manipulation, navigation, etc. However, complex visual observations in natural environments remains a major challenge. This paper presents Contrastive Variational Reinforcement Learning (CVRL), a model-based method that tackles complex visual observations in DRL. CVRL learns a contrastive variational model by maximizing the mutual information between latent states and observations discriminatively, through contrastive learning. It avoids modeling the complex observation space unnecessarily, as the commonly used generative observation model often does, and is significantly more robust. CVRL achieves comparable performance with state-of-the-art model-based DRL methods on standard Mujoco tasks. It significantly outperforms them on Natural Mujoco tasks and a robot box-pushing task with complex observations, e.g., dynamic shadows. The CVRL code is available publicly at https://github.com/Yusufma03/CVRL.
翻訳日:2022-11-02 06:34:36 公開日:2020-11-09
# R-MNet:イメージペイントのための知覚的敵対ネットワーク

R-MNet: A Perceptual Adversarial Network for Image Inpainting ( http://arxiv.org/abs/2008.04621v3 )

ライセンス: Link先を確認
Jireh Jam and Connah Kendrick and Vincent Drouard and Kevin Walker and Gee-Sern Hsu and Moi Hoon Yap(参考訳) 顔画像のインパインティングは広く研究されている問題であり、近年は生成的広告ネットワークの導入によってこの分野が改善されている。 残念なことに、特に欠けているピクセルと見えるピクセルをブレンドする場合、いくつかの問題は継続する。 本稿では,Warsserstein GANとReverse Masking Network(Reverse Masking Network, R-MNet)を組み合わせた画像インペイントの対角線ネットワークを提案する。 逆マスクオペレータは、逆マスク画像をエンコーダ−デコーダネットワークの終端に転送し、有効画素のみを塗り込む。 さらに,有効な画素のみを対象とする特徴空間で計算した新たな損失関数と,逆訓練を提案する。 これにより、データ分布をキャプチャし、出力画像上で達成されたリアリズム(現実的かつコヒーレント)を備えたトレーニングデータに類似した画像を生成する。 本手法を公開データセット上で評価し,最新手法との比較を行った。 本手法は,高精細化タスクに一般化できると同時に,最先端の手法と比較して,人間の視覚システムに対してより現実的なアウトプットを提示できることを示す。

Facial image inpainting is a problem that is widely studied, and in recent years the introduction of Generative Adversarial Networks, has led to improvements in the field. Unfortunately some issues persists, in particular when blending the missing pixels with the visible ones. We address the problem by proposing a Wasserstein GAN combined with a new reverse mask operator, namely Reverse Masking Network (R-MNet), a perceptual adversarial network for image inpainting. The reverse mask operator transfers the reverse masked image to the end of the encoder-decoder network leaving only valid pixels to be inpainted. Additionally, we propose a new loss function computed in feature space to target only valid pixels combined with adversarial training. These then capture data distributions and generate images similar to those in the training data with achieved realism (realistic and coherent) on the output images. We evaluate our method on publicly available dataset, and compare with state-of-the-art methods. We show that our method is able to generalize to high-resolution inpainting task, and further show more realistic outputs that are plausible to the human visual system when compared with the state-of-the-art methods.
翻訳日:2022-10-31 11:44:26 公開日:2020-11-09
# SMPLpix:3次元人間モデルからのニューラルアバター

SMPLpix: Neural Avatars from 3D Human Models ( http://arxiv.org/abs/2008.06872v2 )

ライセンス: Link先を確認
Sergey Prokudin, Michael J. Black, Javier Romero(参考訳) 深部生成モデルの最近の進歩は、ヒトの合成生成画像に対する前例のないレベルの現実主義をもたらした。 しかし、これらのモデルの基本的限界の1つは、被写体アイデンティティを維持しながらカメラと人間のポーズを変更するなど、生成過程を柔軟に制御できる能力である。 同時に、SMPLのような変形可能な人体モデルとその後継モデルは、ポーズと形状を完全に制御するが、レンダリングには古典的なコンピュータグラフィックスパイプラインに依存する。 このようなレンダリングパイプラインは明示的なメッシュラスタ化を必要とします。 (a)元の3d幾何学におけるアーティファクトやリアリズムの欠如を修正する可能性をもたない。 (b)最近まで、ディープラーニングフレームワークに完全には組み込まれていなかった。 本研究では,従来の幾何学的レンダリングと画素空間で動作する最新の生成ネットワークとのギャップを埋めることを提案する。 3dメッシュ頂点のスパースセットをフォトリアリスティックなイメージに変換するネットワークをトレーニングし、従来のラスタライズメカニズムの必要性を緩和します。 我々は、人間の3Dモデルとそれに対応する実写画像の大きなコーパスでモデルをトレーニングし、フォトリアリズムのレベルとレンダリング効率の両面で従来の微分可能なレンダラーよりも有利であることを示す。

Recent advances in deep generative models have led to an unprecedented level of realism for synthetically generated images of humans. However, one of the remaining fundamental limitations of these models is the ability to flexibly control the generative process, e.g.~change the camera and human pose while retaining the subject identity. At the same time, deformable human body models like SMPL and its successors provide full control over pose and shape but rely on classic computer graphics pipelines for rendering. Such rendering pipelines require explicit mesh rasterization that (a) does not have the potential to fix artifacts or lack of realism in the original 3D geometry and (b) until recently, were not fully incorporated into deep learning frameworks. In this work, we propose to bridge the gap between classic geometry-based rendering and the latest generative networks operating in pixel space. We train a network that directly converts a sparse set of 3D mesh vertices into photorealistic images, alleviating the need for traditional rasterization mechanism. We train our model on a large corpus of human 3D models and corresponding real photos, and show the advantage over conventional differentiable renderers both in terms of the level of photorealism and rendering efficiency.
翻訳日:2022-10-28 11:41:10 公開日:2020-11-09
# 自律運転のためのアクションベース表現学習

Action-Based Representation Learning for Autonomous Driving ( http://arxiv.org/abs/2008.09417v2 )

ライセンス: Link先を確認
Yi Xiao, Felipe Codevilla, Christopher Pal, Antonio M. Lopez(参考訳) 人間のドライバーは膨大なデータを生成し、原則として、自動運転システムを改善するために使用できる。 残念ながら、センサーデータを直接駆動行動にマッピングするエンドツーエンド駆動モデルを作成するための一見単純なアプローチは、解釈可能性の観点から問題があり、典型的には突発的な相関を扱うのに重大な困難がある。 また,このような行動に基づく運転データを学習表現に用いることを提案する。 本実験により,本手法により事前学習した空き時間に基づく運転モデルでは,比較的少量の弱い注釈付き画像と純粋なエンドツーエンド運転モデルに勝るものの,解釈性は高い。 さらに,この戦略が,逆動力学モデルに基づく従来の手法や,重人間の監督に基づく他の手法よりも優れていることを示す。

Human drivers produce a vast amount of data which could, in principle, be used to improve autonomous driving systems. Unfortunately, seemingly straightforward approaches for creating end-to-end driving models that map sensor data directly into driving actions are problematic in terms of interpretability, and typically have significant difficulty dealing with spurious correlations. Alternatively, we propose to use this kind of action-based driving data for learning representations. Our experiments show that an affordance-based driving model pre-trained with this approach can leverage a relatively small amount of weakly annotated imagery and outperform pure end-to-end driving models, while being more interpretable. Further, we demonstrate how this strategy outperforms previous methods based on learning inverse dynamics models as well as other methods based on heavy human supervision (ImageNet).
翻訳日:2022-10-26 21:28:46 公開日:2020-11-09
# 大規模教師なし画像クラスタリングのための自己教師付き学習

Self-Supervised Learning for Large-Scale Unsupervised Image Clustering ( http://arxiv.org/abs/2008.10312v2 )

ライセンス: Link先を確認
Evgenii Zheltonozhskii, Chaim Baskin, Alex M. Bronstein, Avi Mendelson(参考訳) 教師なし学習は、常に機械学習の研究者や実践者にアピールしており、データのラベル付けの費用がかかる複雑なプロセスを避けることができる。 しかし、複雑なデータの教師なし学習は困難であり、最良のアプローチでさえ、教師付きデータよりもはるかに弱い性能を示している。 自己教師付きディープラーニングは,コンピュータビジョンにおける表現学習の強力な手段となっている。 しかし、これらの手法は完全に教師なしの設定では評価されていない。 本稿では,自己教師付き表現に基づく教師なし分類のための簡単なスキームを提案する。 提案手法を,近年の自己教師あり方式で評価し,イメージネット分類における競合結果(39%の精度,1000クラスタ,46%の過クラスタ化)を実現した。 自己教師型学習のための標準ベンチマークに教師なし評価を加えることを提案する。 コードはhttps://github.com/Randl/kmeans_selfsuperで入手できる。

Unsupervised learning has always been appealing to machine learning researchers and practitioners, allowing them to avoid an expensive and complicated process of labeling the data. However, unsupervised learning of complex data is challenging, and even the best approaches show much weaker performance than their supervised counterparts. Self-supervised deep learning has become a strong instrument for representation learning in computer vision. However, those methods have not been evaluated in a fully unsupervised setting. In this paper, we propose a simple scheme for unsupervised classification based on self-supervised representations. We evaluate the proposed approach with several recent self-supervised methods showing that it achieves competitive results for ImageNet classification (39% accuracy on ImageNet with 1000 clusters and 46% with overclustering). We suggest adding the unsupervised evaluation to a set of standard benchmarks for self-supervised learning. The code is available at https://github.com/Randl/kmeans_selfsuper
翻訳日:2022-10-25 09:15:37 公開日:2020-11-09
# 局所微分プライベートデータに対するカーネル密度推定と回帰の解法

Deconvoluting Kernel Density Estimation and Regression for Locally Differentially Private Data ( http://arxiv.org/abs/2008.12466v2 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) ローカルな差分プライバシーは、プライバシー保護の方法で機密性の高い個々のデータポイントを収集または公開するためのプライバシー文学のゴールドスタンダードとなっている。 しかし、局所微分データは、プライバシを確保するために使用される付加ノイズのためにデータの確率密度をゆがめることができる。 実際、プライバシ保存データの密度(収集したサンプル数にかかわらず)は、プライバシ保存ノイズ密度関数との畳み込みによる元のデータポイントの密度関数と比較して常に平坦である。 この効果は、ラプラスノイズのようなプライバシ保存ノイズが遅い場合に特に顕著である。 これはヘビーヒットを過大評価する可能性がある。 これは、米国の2020年国勢調査における差分プライバシーの使用により、社会科学者が直面する重要な課題である。 本稿では,スムージングカーネルを用いた密度推定手法を提案する。 我々は,プライバシ保存ノイズの影響を取り除くために,カーネル密度推定器をデコンボリュートする枠組みを用いる。 このアプローチにより,非パラメータ回帰の結果を可変変数で適用し,局所的な微分プライベートデータに基づく回帰モデルを構築することもできる。 本研究では,金融データおよび人口統計データを用いた開発手法の性能を示す。

Local differential privacy has become the gold-standard of privacy literature for gathering or releasing sensitive individual data points in a privacy-preserving manner. However, locally differential data can twist the probability density of the data because of the additive noise used to ensure privacy. In fact, the density of privacy-preserving data (no matter how many samples we gather) is always flatter in comparison with the density function of the original data points due to convolution with privacy-preserving noise density function. The effect is especially more pronounced when using slow-decaying privacy-preserving noises, such as the Laplace noise. This can result in under/over-estimation of the heavy-hitters. This is an important challenge facing social scientists due to the use of differential privacy in the 2020 Census in the United States. In this paper, we develop density estimation methods using smoothing kernels. We use the framework of deconvoluting kernel density estimators to remove the effect of privacy-preserving noise. This approach also allows us to adapt the results from non-parameteric regression with errors-in-variables to develop regression models based on locally differentially private data. We demonstrate the performance of the developed methods on financial and demographic datasets.
翻訳日:2022-10-24 02:05:44 公開日:2020-11-09
# $\beta$-Cores:outliersの存在下でのロバストな大規模ベイズデータ要約

$\beta$-Cores: Robust Large-Scale Bayesian Data Summarization in the Presence of Outliers ( http://arxiv.org/abs/2008.13600v2 )

ライセンス: Link先を確認
Dionysis Manousakas and Cecilia Mascolo(参考訳) 現代の機械学習アプリケーションは、大規模な現実世界のデータセットに対する推論よりも生じる固有の課題に対処できなければならない。 ベイズ的手法の複数の利点(不確実性認識予測、専門家知識の取り込み、階層的モデリングなど)にもかかわらず、古典的ベイズ的推論の品質は、観測が実際に保証できない仮定データ生成モデルに適合するかどうかに批判的に依存する。 本研究では,大規模データセットに同時スケール可能な変分推定法を提案し,観測データにおける異常値の存在に関して,推定された後方の強固化を行う。 ベイズ定理を$\beta$-divergence で再構成すると、推論のターゲットとして強固化された擬ベイズ後部を仮定する。 さらに,スケーラブルベイズ推論のためのリーマン中心集合の最近の定式化に依拠して,ロバスト化後段の分散変分近似と,それを構成する効率的な確率的ブラックボックスアルゴリズムを提案する。 全体的な方法では,構造化データ破損などのシナリオで広く適用可能なクリーンなデータ要約を公開できる。 本稿では,シミュレーションおよび実データ集合と,ガウス平均推論,ロジスティック回帰,神経線形回帰を含む様々な統計モデルを用いて,既存のベイズ総和法に対して,異常値の存在下でその優越性を示す。

Modern machine learning applications should be able to address the intrinsic challenges arising over inference on massive real-world datasets, including scalability and robustness to outliers. Despite the multiple benefits of Bayesian methods (such as uncertainty-aware predictions, incorporation of experts knowledge, and hierarchical modeling), the quality of classic Bayesian inference depends critically on whether observations conform with the assumed data generating model, which is impossible to guarantee in practice. In this work, we propose a variational inference method that, in a principled way, can simultaneously scale to large datasets, and robustify the inferred posterior with respect to the existence of outliers in the observed data. Reformulating Bayes theorem via the $\beta$-divergence, we posit a robustified pseudo-Bayesian posterior as the target of inference. Moreover, relying on the recent formulations of Riemannian coresets for scalable Bayesian inference, we propose a sparse variational approximation of the robustified posterior and an efficient stochastic black-box algorithm to construct it. Overall our method allows releasing cleansed data summaries that can be applied broadly in scenarios including structured data corruption. We illustrate the applicability of our approach in diverse simulated and real datasets, and various statistical models, including Gaussian mean inference, logistic and neural linear regression, demonstrating its superiority to existing Bayesian summarization methods in the presence of outliers.
翻訳日:2022-10-23 06:26:36 公開日:2020-11-09
# 文脈に基づく深層強化学習による危機パターンの検出と適応

Detecting and adapting to crisis pattern with context based Deep Reinforcement Learning ( http://arxiv.org/abs/2009.07200v2 )

ライセンス: Link先を確認
Eric Benhamou, David Saltiel, Jean-Jacques Ohana, and Jamal Atif(参考訳) 深層強化学習(DRL)は、ゲーム問題解決(Goと自動運転)のような複雑なタスクにおいて、超人間レベルに達した。 しかし、DRLが金融問題への応用、特にパターン危機の検出、そしてその結果の非投資において、人間レベルに達することができるかどうかには疑問が残る。 本稿では,2つのサブネットワークにそれぞれ,過去のポートフォリオ戦略と標準偏差と追加のコンテキスト特徴を付与した,革新的なdrlフレームワークを提案する。 第2のサブネットワークは、リスク回避、経済的サプライズ指数、コンテキストベースの情報を考慮した資産間の相関といった一般的な金融指標の依存関係をキャプチャする上で、重要な役割を果たす。 我々は、ネットワークの複雑さを減らすために畳み込み層を使用する異なるネットワークアーキテクチャと、時間依存性をキャプチャするためのLSTMブロックと、モデリングにおいて以前のアロケーションが重要であるかどうかを比較する。 最終モデルをより堅牢にするために、敵のトレーニングも使用しています。 テストセットの結果、このアプローチはMarkowitzのような従来のポートフォリオ最適化手法を大幅に上回っており、現在のCovidのような危機を検出し予測することができる。

Deep reinforcement learning (DRL) has reached super human levels in complex tasks like game solving (Go and autonomous driving). However, it remains an open question whether DRL can reach human level in applications to financial problems and in particular in detecting pattern crisis and consequently dis-investing. In this paper, we present an innovative DRL framework consisting in two sub-networks fed respectively with portfolio strategies past performances and standard deviations as well as additional contextual features. The second sub network plays an important role as it captures dependencies with common financial indicators features like risk aversion, economic surprise index and correlations between assets that allows taking into account context based information. We compare different network architectures either using layers of convolutions to reduce network's complexity or LSTM block to capture time dependency and whether previous allocations is important in the modeling. We also use adversarial training to make the final model more robust. Results on test set show this approach substantially over-performs traditional portfolio optimization methods like Markowitz and is able to detect and anticipate crisis like the current Covid one.
翻訳日:2022-10-21 02:48:30 公開日:2020-11-09
# 深層強化学習によるヘッジ時間

Time your hedge with Deep Reinforcement Learning ( http://arxiv.org/abs/2009.14136v2 )

ライセンス: Link先を確認
Eric Benhamou, David Saltiel, Sandrine Ungari, Abhishek Mukhopadhyay(参考訳) 資産運用担当者は、市場条件を考慮したヘッジ戦略の最適なタイミングを計画できるか? Markowitzなどの高度な金融ルールに基づく標準的なアプローチは、予想されるリターンとリスクにより、最高のポートフォリオアロケーションを見つけることを目的としているが、市場状況と戦略決定のヘッジに完全に関連しない。 対照的に、深層強化学習(drl)は、市場情報と戦略割り当ての決定をヘッジすることで、この課題に対処できる。 本稿では,現実的で拡張されたDRLフレームワークについて述べる。 (i)追加の文脈情報を用いて行動を決定する。 (ii)普通資産運用者のヘッジ再均衡の1日遅れを考慮し、観察と行動の間には1つの期間遅れがある。 (iii) アンカード・ウォークフォワード・トレーニング(anchored walk forward training)と呼ばれる反復列車試験法によって、安定性とロバスト性の観点から完全にテストされている。 (iv)ヘッジ戦略の活用管理を可能にします。 ヘッジファンドの規模とタイミングに関心のある拡張資産運用者に対する実験は、我々のアプローチが優れたリターンと低いリスクを達成することを示している。

Can an asset manager plan the optimal timing for her/his hedging strategies given market conditions? The standard approach based on Markowitz or other more or less sophisticated financial rules aims to find the best portfolio allocation thanks to forecasted expected returns and risk but fails to fully relate market conditions to hedging strategies decision. In contrast, Deep Reinforcement Learning (DRL) can tackle this challenge by creating a dynamic dependency between market information and hedging strategies allocation decisions. In this paper, we present a realistic and augmented DRL framework that: (i) uses additional contextual information to decide an action, (ii) has a one period lag between observations and actions to account for one day lag turnover of common asset managers to rebalance their hedge, (iii) is fully tested in terms of stability and robustness thanks to a repetitive train test method called anchored walk forward training, similar in spirit to k fold cross validation for time series and (iv) allows managing leverage of our hedging strategy. Our experiment for an augmented asset manager interested in sizing and timing his hedges shows that our approach achieves superior returns and lower risk.
翻訳日:2022-10-17 23:46:49 公開日:2020-11-09
# MFIF-GAN - マルチフォーカス画像融合のための新しい生成逆ネットワーク

MFIF-GAN: A New Generative Adversarial Network for Multi-Focus Image Fusion ( http://arxiv.org/abs/2009.09718v4 )

ライセンス: Link先を確認
Yicheng Wang, Shuang Xu, Junmin Liu, Zixiang Zhao, Chunxia Zhang, Jiangshe Zhang(参考訳) マルチフォーカス画像融合(mfif)は、視覚ニーズを満たすオールインフォーカス画像を得るための有望な画像拡張技術であり、他のコンピュータビジョンタスクの前提条件である。 MFIFの研究動向の1つは、フォーカス/デフォーカス境界(FDB)周辺のデフォーカス拡散効果(DSE)を回避することである。 本稿では,前景領域が対応する対象よりも正確に大きい焦点マップを生成することにより,DSEを減衰させるMFIF-GANというネットワークを提案する。 ネットワークにはSqueeze and Excitation Residualモジュールが使用されている。 トレーニング条件の事前知識を組み合わせることで、このネットワークは {\alpha}-matteモデルに基づいた合成データセットに基づいてトレーニングされる。 さらに、損失関数に再構成項と勾配正規化項を組み合わせ、境界の詳細を高め、融合画像の品質を向上させる。 広汎な実験により、MFIF-GANは視覚知覚、定量的分析および効率性においていくつかの最先端(SOTA)手法より優れていることが示された。 さらに,まずエッジ拡散・縮小モジュールを提案し,本手法で生成したフォーカスマップが画素レベルで正確であることを検証した。

Multi-Focus Image Fusion (MFIF) is a promising image enhancement technique to obtain all-in-focus images meeting visual needs and it is a precondition of other computer vision tasks. One of the research trends of MFIF is to avoid the defocus spread effect (DSE) around the focus/defocus boundary (FDB). In this paper,we propose a network termed MFIF-GAN to attenuate the DSE by generating focus maps in which the foreground region are correctly larger than the corresponding objects. The Squeeze and Excitation Residual module is employed in the network. By combining the prior knowledge of training condition, this network is trained on a synthetic dataset based on an {\alpha}-matte model. In addition, the reconstruction and gradient regularization terms are combined in the loss functions to enhance the boundary details and improve the quality of fused images. Extensive experiments demonstrate that the MFIF-GAN outperforms several state-of-the-art (SOTA) methods in visual perception, quantitative analysis as well as efficiency. Moreover, the edge diffusion and contraction module is firstly proposed to verify that focus maps generated by our method are accurate at the pixel level.
翻訳日:2022-10-16 05:08:51 公開日:2020-11-09
# 注意的特徴融合

Attentional Feature Fusion ( http://arxiv.org/abs/2009.14082v2 )

ライセンス: Link先を確認
Yimian Dai and Fabian Gieseke and Stefan Oehmcke and Yiquan Wu and Kobus Barnard(参考訳) 機能融合(Feature fusion)とは、異なるレイヤやブランチの機能の組み合わせであり、現代のネットワークアーキテクチャの全体像である。 要約や結合といった単純な操作で実装されることが多いが、これは最善の選択ではないかもしれない。 本研究では,短距離および長距離のスキップ接続によって引き起こされる特徴融合やインセプション層内で発生する特徴融合など,最も一般的なシナリオに適用可能な,一様かつ一般的なスキーム,すなわち注意的特徴融合を提案する。 一貫性のないセマンティクスとスケールの機能を融合させるため,異なるスケールの機能を融合する場合に発生する問題に対処するマルチスケールチャネルアテンションモジュールを提案する。 また,機能マップの初期の統合がボトルネックになり得ること,また,これを反復的注目的特徴融合と呼ぶ新たなレベルの注意を加えることで,この問題を緩和できることを実証した。 CIFAR-100とImageNetのデータセットでは、レイヤーやパラメータが少ないため、私たちのモデルは最先端のネットワークよりも優れています。 私たちのコードとトレーニングされたモデルはオンラインで利用可能です。

Feature fusion, the combination of features from different layers or branches, is an omnipresent part of modern network architectures. It is often implemented via simple operations, such as summation or concatenation, but this might not be the best choice. In this work, we propose a uniform and general scheme, namely attentional feature fusion, which is applicable for most common scenarios, including feature fusion induced by short and long skip connections as well as within Inception layers. To better fuse features of inconsistent semantics and scales, we propose a multi-scale channel attention module, which addresses issues that arise when fusing features given at different scales. We also demonstrate that the initial integration of feature maps can become a bottleneck and that this issue can be alleviated by adding another level of attention, which we refer to as iterative attentional feature fusion. With fewer layers or parameters, our models outperform state-of-the-art networks on both CIFAR-100 and ImageNet datasets, which suggests that more sophisticated attention mechanisms for feature fusion hold great potential to consistently yield better results compared to their direct counterparts. Our codes and trained models are available online.
翻訳日:2022-10-13 06:36:36 公開日:2020-11-09
# 人間行動認識のための逐次ネットワーク圧縮のための変分情報ボトルネックに基づく手法

A Variational Information Bottleneck Based Method to Compress Sequential Networks for Human Action Recognition ( http://arxiv.org/abs/2010.01343v2 )

ライセンス: Link先を確認
Ayush Srivastava, Oshin Dutta, Prathosh AP, Sumeet Agarwal, Jigyasa Gupta(参考訳) ここ数年、深層ニューラルネットワークの圧縮は、機械学習とコンピュータビジョン研究の重要な一糸となっている。 ディープモデルは、例えばビデオからのヒューマンアクション認識(HAR)に使用する場合、計算の複雑さとストレージが大きくなる必要があるため、エッジデバイスにデプロイするのは不適当である。 本稿では,HAR に使用される Gated Recurrent Units (GRU) や Long-Short-Term-Memory Units (LSTM) などのリカレントニューラルネットワーク (RNN) を効果的に圧縮する手法を提案する。 変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。 さらに,本手法と特定のグループラッソ正則化手法を組み合わせることで,圧縮を著しく改善する。 提案手法は,モデルパラメータとメモリフットプリントを潜在表現から削減し,推定速度を数倍に増やしながら検証精度をほとんど,あるいは全く低下させる。 広く使われている3つの行動認識データセット、vizについて実験を行った。 ucf11、hmdb51、utf101は、我々のアプローチを検証する。 提案手法は,UCF11における動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。

In the last few years, compression of deep neural networks has become an important strand of machine learning and computer vision research. Deep models require sizeable computational complexity and storage, when used for instance for Human Action Recognition (HAR) from videos, making them unsuitable to be deployed on edge devices. In this paper, we address this issue and propose a method to effectively compress Recurrent Neural Networks (RNNs) such as Gated Recurrent Units (GRUs) and Long-Short-Term-Memory Units (LSTMs) that are used for HAR. We use a Variational Information Bottleneck (VIB) theory-based pruning approach to limit the information flow through the sequential cells of RNNs to a small subset. Further, we combine our pruning method with a specific group-lasso regularization technique that significantly improves compression. The proposed techniques reduce model parameters and memory footprint from latent representations, with little or no reduction in the validation accuracy while increasing the inference speed several-fold. We perform experiments on the three widely used Action Recognition datasets, viz. UCF11, HMDB51, and UCF101, to validate our approach. It is shown that our method achieves over 70 times greater compression than the nearest competitor with comparable accuracy for the task of action recognition on UCF11.
翻訳日:2022-10-11 09:02:04 公開日:2020-11-09
# 内部の絵画:進行段階学習による双方向配置によるエッジガイド画像出力

Painting Outside as Inside: Edge Guided Image Outpainting via Bidirectional Rearrangement with Progressive Step Learning ( http://arxiv.org/abs/2010.01810v2 )

ライセンス: Link先を確認
Kyunghun Kim, Yeohun Yun, Keon-Woo Kang, Kyeongbo Kong, Siyeong Lee, Suk-Ju Kang(参考訳) 画像の外部を画像のコンテキストとして考慮して連続的に満たすことができるので、画像の露光は非常に興味深い問題である。 この課題には2つの大きな課題がある。 1つ目は、生成した領域の内容と元の入力の空間的一貫性を維持することである。 2つ目は、隣接する情報の少ない高品質な大画像を生成することである。 従来の画像露光法は不整合、ぼやけ、繰り返し画素を生成する。 そこで本研究では,2方向境界領域再配置を用いた新しい画像アウトペイント法を提案する。 我々は,より指向性のある情報を反映することにより,絵の具現化作業から利益を得るように画像を再構成する。 この双方向境界領域再構成により、画像塗装作業と類似した双方向情報を用いた欠落領域の生成が可能となり、従来の一方向情報を用いた方法よりも高品質となる。 さらに、画像を構造情報による独自の入力とみなし、未知領域のエッジを幻覚して画像を生成するエッジマップ生成器を用いる。 提案手法は, 定性的, 定量的に, 他の最先端の塗装工法と比較した。 さらに,非参照画像品質評価(IQA)指標の一つであるBRISQUEを用いて評価を行い,その自然性を評価する。 本手法は他の手法よりも優れており,360{\deg}パノラマ特性を持つ新しい画像を生成する。

Image outpainting is a very intriguing problem as the outside of a given image can be continuously filled by considering as the context of the image. This task has two main challenges. The first is to maintain the spatial consistency in contents of generated regions and the original input. The second is to generate a high-quality large image with a small amount of adjacent information. Conventional image outpainting methods generate inconsistent, blurry, and repeated pixels. To alleviate the difficulty of an outpainting problem, we propose a novel image outpainting method using bidirectional boundary region rearrangement. We rearrange the image to benefit from the image inpainting task by reflecting more directional information. The bidirectional boundary region rearrangement enables the generation of the missing region using bidirectional information similar to that of the image inpainting task, thereby generating the higher quality than the conventional methods using unidirectional information. Moreover, we use the edge map generator that considers images as original input with structural information and hallucinates the edges of unknown regions to generate the image. Our proposed method is compared with other state-of-the-art outpainting and inpainting methods both qualitatively and quantitatively. We further compared and evaluated them using BRISQUE, one of the No-Reference image quality assessment (IQA) metrics, to evaluate the naturalness of the output. The experimental results demonstrate that our method outperforms other methods and generates new images with 360{\deg}panoramic characteristics.
翻訳日:2022-10-10 22:17:48 公開日:2020-11-09
# MRIデータの正規圧縮:関節再構成と符号化のモジュール最適化

Regularized Compression of MRI Data: Modular Optimization of Joint Reconstruction and Coding ( http://arxiv.org/abs/2010.04065v2 )

ライセンス: Link先を確認
Veronica Corona, Yehuda Dar, Guy Williams, Carola-Bibiane Sch\"onlieb(参考訳) 磁気共鳴イメージング(MRI)処理チェーンは、診断のための画像の再構築のための生データを提供する重要な取得段階から始まる。 このフローは通常、デジタルストレージおよび/またはバイナリ形式の送信を可能にする、ほぼロスレスなデータ圧縮段階を含む。 本研究では,MRI再構成と損失圧縮の協調最適化のためのフレームワークを提案し,高品質とビットレートのトレードオフを改善するための医用画像の圧縮表現を生成する。 さらに,ロスレス圧縮に基づく設定と比較して,ロスレス圧縮により復元品質が向上することを示す。 本手法は,乗算器法 (ADMM) の交互方向法と最先端画像圧縮法 (BPG) を用いて,ブラックボックスモジュールを反復的に適用したモジュラー最適化構造を有する。 これにより、損失のある圧縮標準と互換性のある医療データ圧縮アプローチが確立される。 提案アルゴリズムの主な新規性は、モジュラー圧縮プロセスに追加される全変分正規化であり、圧縮段階以降に追加処理を行わずに高品質の圧縮画像が得られる。 実験の結果,関節MRI再建と圧縮に対する正規化に基づくアプローチは,関節の非正規化ソリューションと比較して,高ビットレートで4~9dBのPSNRゲインを達成できることがわかった。 正規化法と比較すると,PSNRの高ビットレートでの利得は0.5~1dBであり,医用画像圧縮の関心範囲である。

The Magnetic Resonance Imaging (MRI) processing chain starts with a critical acquisition stage that provides raw data for reconstruction of images for medical diagnosis. This flow usually includes a near-lossless data compression stage that enables digital storage and/or transmission in binary formats. In this work we propose a framework for joint optimization of the MRI reconstruction and lossy compression, producing compressed representations of medical images that achieve improved trade-offs between quality and bit-rate. Moreover, we demonstrate that lossy compression can even improve the reconstruction quality compared to settings based on lossless compression. Our method has a modular optimization structure, implemented using the alternating direction method of multipliers (ADMM) technique and the state-of-the-art image compression technique (BPG) as a black-box module iteratively applied. This establishes a medical data compression approach compatible with a lossy compression standard of choice. A main novelty of the proposed algorithm is in the total-variation regularization added to the modular compression process, leading to decompressed images of higher quality without any additional processing at/after the decompression stage. Our experiments show that our regularization-based approach for joint MRI reconstruction and compression often achieves significant PSNR gains between 4 to 9 dB at high bit-rates compared to non-regularized solutions of the joint task. Compared to regularization-based solutions, our optimization method provides PSNR gains between 0.5 to 1 dB at high bit-rates, which is the range of interest for medical image compression.
翻訳日:2022-10-09 13:02:04 公開日:2020-11-09
# 英語感情刺激検出のためのToken Sequence Labeling vs. Clause Classification

Token Sequence Labeling vs. Clause Classification for English Emotion Stimulus Detection ( http://arxiv.org/abs/2010.07557v3 )

ライセンス: Link先を確認
Laura Oberl\"ander, Roman Klinger(参考訳) 感情刺激検出は、感情分析のターゲットまたはアスペクト検出と同様に、テキスト記述における感情の原因を見つけるタスクである。 以前の研究は、(1)テキスト分類から、予め定義された可能な刺激のインベントリ(刺激カテゴリーaかbか)、(2)トークンのシーケンスラベリング(刺激を表すトークンはどれか)、(3)節分類(この節は感情刺激を含むか)の3つの方法でこれをアプローチした。 今のところ、set (3) は mandarin と (2) 英語で広く評価されているが、比較はされていない。 そこで本研究では,英語の感情刺激検出に,節分類やシーケンスラベリングが適しているかどうかを問う。 そこで我々は,2つの異なるアプローチを比較検討し,マンダリンの最先端アプローチにインスパイアされたモデルを実装し,異なるドメインの4つの英語データセット上でテストする統合フレームワークを提案する。 その結果,4つのデータセットのうち3つよりもシーケンスラベルが優れていることがわかった。 節分類が優れている唯一のケースは、節アノテーションの密度の高いデータセットである。 我々の誤り分析は、節が英語の適切な刺激単位ではないことを定量的かつ質的に確認する。

Emotion stimulus detection is the task of finding the cause of an emotion in a textual description, similar to target or aspect detection for sentiment analysis. Previous work approached this in three ways, namely (1) as text classification into an inventory of predefined possible stimuli ("Is the stimulus category A or B?"), (2) as sequence labeling of tokens ("Which tokens describe the stimulus?"), and (3) as clause classification ("Does this clause contain the emotion stimulus?"). So far, setting (3) has been evaluated broadly on Mandarin and (2) on English, but no comparison has been performed. Therefore, we aim to answer whether clause classification or sequence labeling is better suited for emotion stimulus detection in English. To accomplish that, we propose an integrated framework which enables us to evaluate the two different approaches comparably, implement models inspired by state-of-the-art approaches in Mandarin, and test them on four English data sets from different domains. Our results show that sequence labeling is superior on three out of four datasets, in both clause-based and sequence-based evaluation. The only case in which clause classification performs better is one data set with a high density of clause annotations. Our error analysis further confirms quantitatively and qualitatively that clauses are not the appropriate stimulus unit in English.
翻訳日:2022-10-07 03:52:49 公開日:2020-11-09
# KADID-10kデータベースを用いた非参照画像品質評価アルゴリズムの総合評価

Comprehensive evaluation of no-reference image quality assessment algorithms on KADID-10k database ( http://arxiv.org/abs/2010.09414v2 )

ライセンス: Link先を確認
Domonkos Varga(参考訳) 目的画像品質評価の主な目的は、主観評価と一貫して知覚画像品質を予測できる計算的数学的モデルを考案することである。 客観的画像品質評価アルゴリズムの評価は、公開ベンチマークデータベース上で実施した実験に基づいている。 本研究の目的は、最近公開されたベンチマークデータベースであるKADID-10kデータベースを用いて、元のソースコードをオンラインで利用できるノン参照画像品質評価アルゴリズムを網羅的に評価することである。 具体的には平均PLCC, SROCC, KROCCを100回以上の無作為列車試験で測定した。 さらに、データベースは列車(アパッチ)に分割された。 画像の80\%)および基準画像に関するテストセット(画像の20%)。 したがって、この2つのセットの間に意味的な内容は重複しなかった。 評価結果は,最先端のno-reference画像品質評価手法の理解を深める上で有用であると考えられる。

The main goal of objective image quality assessment is to devise computational, mathematical models which are able to predict perceptual image quality consistently with subjective evaluations. The evaluation of objective image quality assessment algorithms is based on experiments conducted on publicly available benchmark databases. In this study, our goal is to give a comprehensive evaluation about no-reference image quality assessment algorithms, whose original source codes are available online, using the recently published KADID-10k database which is one of the largest available benchmark databases. Specifically, average PLCC, SROCC, and KROCC are reported which were measured over 100 random train-test splits. Furthermore, the database was divided into a train (appx. 80\% of images) and a test set (appx. 20% of images) with respect to the reference images. So no semantic content overlap was between these two sets. Our evaluation results may be helpful to obtain a clear understanding about the status of state-of-the-art no-reference image quality assessment methods.
翻訳日:2022-10-05 23:02:17 公開日:2020-11-09
# NADI 2020:アラビア語の方言を識別する最初のタスク

NADI 2020: The First Nuanced Arabic Dialect Identification Shared Task ( http://arxiv.org/abs/2010.11334v3 )

ライセンス: Link先を確認
Muhammad Abdul-Mageed, Chiyu Zhang, Houda Bouamor and Nizar Habash(参考訳) 本稿では,第1回Nuanced Arabic Dialect Identification Shared Task(NADI)の結果と結果を紹介する。 この共有タスクには、国レベルの方言識別(Subtask 1)と州レベルの方言識別(Subtask2)の2つのサブタスクが含まれる。 共有タスクのデータは、アラブ21カ国から合計100か国をカバーし、Twitterドメインから収集されている。 このように、NADIは、サブカントリーレベルで自然にきめ細かい方言テキストをターゲットとする最初の共有タスクである。 25か国から61チームが参加しており、この地域のコミュニティの関心を反映している。 私たちは18チームからSubtask 1への47の応募、9チームからSubtask 2への9の応募を受け取りました。

We present the results and findings of the First Nuanced Arabic Dialect Identification Shared Task (NADI). This Shared Task includes two subtasks: country-level dialect identification (Subtask 1) and province-level sub-dialect identification (Subtask 2). The data for the shared task covers a total of 100 provinces from 21 Arab countries and are collected from the Twitter domain. As such, NADI is the first shared task to target naturally-occurring fine-grained dialectal text at the sub-country level. A total of 61 teams from 25 countries registered to participate in the tasks, thus reflecting the interest of the community in this area. We received 47 submissions for Subtask 1 from 18 teams and 9 submissions for Subtask 2 from 9 teams.
翻訳日:2022-10-04 22:48:46 公開日:2020-11-09
# 説明可能な協調状況理解のための実験プラットフォーム

An Experimentation Platform for Explainable Coalition Situational Understanding ( http://arxiv.org/abs/2010.14388v2 )

ライセンス: Link先を確認
Katie Barrett-Powell, Jack Furby, Liam Hiley, Marc Roig Vilamala, Harrison Taylor, Federico Cerutti, Alun Preece, Tianwei Xing, Luis Garcia, Mani Srivastava, Dave Braines(参考訳) 本稿では、AI/ML(AI/ML)と、イベント処理のための象徴的およびサブシンボル的AI/MLアプローチの統合の能力を強調した連立状況理解研究のための実験プラットフォームを提案する。 situational Understanding Explorer (SUE)プラットフォームは軽量で、実験やデモンストレーションを容易にし、オープンにするために設計されている。 我々は,密集した都市部におけるアセット・インターオペラビリティとアドホックな人間と機械の連携を重視した連立多ドメイン運用支援の要件について論じる。 インターフェース機能について説明し、連立状況理解タスクに適用したSUEの例を示す。

We present an experimentation platform for coalition situational understanding research that highlights capabilities in explainable artificial intelligence/machine learning (AI/ML) and integration of symbolic and subsymbolic AI/ML approaches for event processing. The Situational Understanding Explorer (SUE) platform is designed to be lightweight, to easily facilitate experiments and demonstrations, and open. We discuss our requirements to support coalition multi-domain operations with emphasis on asset interoperability and ad hoc human-machine teaming in a dense urban terrain setting. We describe the interface functionality and give examples of SUE applied to coalition situational understanding tasks.
翻訳日:2022-10-02 12:16:24 公開日:2020-11-09
# ドメイン用語がミーティングの要約性能にどのように影響するか

How Domain Terminology Affects Meeting Summarization Performance ( http://arxiv.org/abs/2011.00692v2 )

ライセンス: Link先を確認
Jia Jin Koay and Alexander Roustai and Xiaojin Dai and Dillon Burns and Alec Kerrigan and Fei Liu(参考訳) 現代の組織には会議が不可欠です。 多くの会議が開催され、毎日記録されている。 原稿から有能な発話を識別し、会議時間を自動生成する会議要約システムに役立てることができる。 ユーザーは大規模なミーティングのコレクションを素早く検索して共有できる。 これまでのところ、会議はドメイン知識に富んでいるにもかかわらず、ドメイン用語が会議要約のパフォーマンスに与える影響は検討されていない。 本稿では,大規模なミーティングコーパス上に,ドメイン用語のためのゴールド標準アノテーションを作成し,それをジャーゴン用語と呼ぶ。 次に,会議要約システムの性能を,ジャーゴン用語と無関係に解析する。 以上の結果から,ドメイン用語は要約性能に大きな影響を与えることが判明した。 要約を満たす研究を進めるために、すべてのドメイン用語を公開します。

Meetings are essential to modern organizations. Numerous meetings are held and recorded daily, more than can ever be comprehended. A meeting summarization system that identifies salient utterances from the transcripts to automatically generate meeting minutes can help. It empowers users to rapidly search and sift through large meeting collections. To date, the impact of domain terminology on the performance of meeting summarization remains understudied, despite that meetings are rich with domain knowledge. In this paper, we create gold-standard annotations for domain terminology on a sizable meeting corpus; they are known as jargon terms. We then analyze the performance of a meeting summarization system with and without jargon terms. Our findings reveal that domain terminology can have a substantial impact on summarization performance. We publicly release all domain terminology to advance research in meeting summarization.
翻訳日:2022-09-30 11:47:57 公開日:2020-11-09
# SMT問題に対するニューラルネットワークパラメータ初期化の低減

Reducing Neural Network Parameter Initialization Into an SMT Problem ( http://arxiv.org/abs/2011.01191v3 )

ライセンス: Link先を確認
Mohamad H. Danesh(参考訳) ニューラルネットワーク(NN)のトレーニングは、初期重みに限らず、複数の要因に依存する。 本稿では,ランダムな初期化やゼロ初期化と比較して,より良く機能するように,深層nnパラメータの初期化に注目する。 我々は、初期化のプロセスをSMTソルバに還元することでこれを行う。 以前の研究では、小さなnn上の特定のアクティベーション関数を検討したが、研究されたnnは、異なるアクティベーション関数を持つディープネットワークである。 提案手法は,ランダム初期化ネットワークと比較して性能が向上することを示す。

Training a neural network (NN) depends on multiple factors, including but not limited to the initial weights. In this paper, we focus on initializing deep NN parameters such that it performs better, comparing to random or zero initialization. We do this by reducing the process of initialization into an SMT solver. Previous works consider certain activation functions on small NNs, however the studied NN is a deep network with different activation functions. Our experiments show that the proposed approach for parameter initialization achieves better performance comparing to randomly initialized networks.
翻訳日:2022-09-30 11:29:00 公開日:2020-11-09
# 言語対応音響単位発見のための階層的部分空間モデル

A Hierarchical Subspace Model for Language-Attuned Acoustic Unit Discovery ( http://arxiv.org/abs/2011.03115v2 )

ライセンス: Link先を確認
Bolaji Yusuf, Lucas Ondel, Lukas Burget, Jan Cernocky, Murat Saraclar(参考訳) 本研究では,音響単位発見のための階層的部分空間モデルを提案する。 提案手法では,低次元音韻部分空間への埋め込みの学習としてタスクをフレーム化し,その部分空間自体をハイパー部分空間への埋め込みとして指定する。 我々は、一連の転写言語でハイパーサブスペースをトレーニングし、ターゲット言語に転送する。 対象言語では、言語とユニット埋め込みの両方を教師なしの方法で推測し、それによって、その言語に固有のユニットのサブスペースとそれに依存するユニットを同時に学習します。 我々はTIMITとMboshiとYorubaの2つの低リソース言語について実験を行った。 その結果,本モデルはクラスタリング品質とセグメンテーション精度の両面で,主要な音響ユニット発見技術より優れていることがわかった。

In this work, we propose a hierarchical subspace model for acoustic unit discovery. In this approach, we frame the task as one of learning embeddings on a low-dimensional phonetic subspace, and simultaneously specify the subspace itself as an embedding on a hyper-subspace. We train the hyper-subspace on a set of transcribed languages and transfer it to the target language. In the target language, we infer both the language and unit embeddings in an unsupervised manner, and in so doing, we simultaneously learn a subspace of units specific to that language and the units that dwell on it. We conduct our experiments on TIMIT and two low-resource languages: Mboshi and Yoruba. Results show that our model outperforms major acoustic unit discovery techniques, both in terms of clustering quality and segmentation accuracy.
翻訳日:2022-09-29 23:24:59 公開日:2020-11-09
# 細い物体検出のためのFPNの有効融合係数

Effective Fusion Factor in FPN for Tiny Object Detection ( http://arxiv.org/abs/2011.02298v2 )

ライセンス: Link先を確認
Yuqi Gong, Xuehui Yu, Yao Ding, Xiaoke Peng, Jian Zhao, Zhenjun Han(参考訳) FPNベースの検出器は、MS COCOやPASCALVOCといった一般的な物体検出において大きな進歩を遂げている。 しかし、これらの検出器は、例えば小さな物体検出のような特定の応用シナリオで失敗する。 本稿では,FPNの隣接層間のトップダウン接続が,小さな物体検出に2面の影響をもたらすことを論じる。 我々は,FPNを微小物体検出に適用するために,深層が浅い層に届ける情報を制御するための新しい概念である融合係数を提案する。 一連の実験と分析の後、統計的手法により特定のデータセットに対する融合係数の有効値を推定する方法を検討する。 見積もりは各レイヤに分散したオブジェクトの数に依存する。 包括的実験は、小さな物体検出データセット(例えば、tinypersonとtiny citypersons)で行われます。 その結果、FPNを適切な融合係数で設定すると、ネットワークは小さなオブジェクト検出データセット上でベースラインよりも大きな性能向上を達成できることがわかった。 コードとモデルがリリースされます。

FPN-based detectors have made significant progress in general object detection, e.g., MS COCO and PASCAL VOC. However, these detectors fail in certain application scenarios, e.g., tiny object detection. In this paper, we argue that the top-down connections between adjacent layers in FPN bring two-side influences for tiny object detection, not only positive. We propose a novel concept, fusion factor, to control information that deep layers deliver to shallow layers, for adapting FPN to tiny object detection. After series of experiments and analysis, we explore how to estimate an effective value of fusion factor for a particular dataset by a statistical method. The estimation is dependent on the number of objects distributed in each layer. Comprehensive experiments are conducted on tiny object detection datasets, e.g., TinyPerson and Tiny CityPersons. Our results show that when configuring FPN with a proper fusion factor, the network is able to achieve significant performance gains over the baseline on tiny object detection datasets. Codes and models will be released.
翻訳日:2022-09-29 22:22:22 公開日:2020-11-09
# カーネル依存ネットワーク

Kernel Dependence Network ( http://arxiv.org/abs/2011.03320v2 )

ライセンス: Link先を確認
Chieh Wu, Aria Masoomi, Arthur Gretton, Jennifer Dy(参考訳) 我々は,多クラス分類のためのディープネットワークをスペクトル的に訓練するための欲求戦略を提案する。 各層は、活性化関数として作用するガウス核の特徴写像を持つ線形重みの合成として定義される。 各層において、ヒルベルト・シュミット独立基準(hsic)を用いて、出力層とラベル間の依存性を最大化することにより線形重みを学習する。 stiefel多様体上の解空間を制約することにより、我々のネットワーク構成(カーネル依存ネットワークまたはknet)が、固有値を利用してネットワークの幅と深さを自動的に見つけながらスペクトル的にどのように解決できるかを実証する。 我々は,理論上,グローバルな最適解の存在を保証し,ネットワークの一般化能力に関する洞察を提供する。

We propose a greedy strategy to spectrally train a deep network for multi-class classification. Each layer is defined as a composition of linear weights with the feature map of a Gaussian kernel acting as the activation function. At each layer, the linear weights are learned by maximizing the dependence between the layer output and the labels using the Hilbert Schmidt Independence Criterion (HSIC). By constraining the solution space on the Stiefel Manifold, we demonstrate how our network construct (Kernel Dependence Network or KNet) can be solved spectrally while leveraging the eigenvalues to automatically find the width and the depth of the network. We theoretically guarantee the existence of a solution for the global optimum while providing insight into our network's ability to generalize.
翻訳日:2022-09-29 21:39:02 公開日:2020-11-09
# 補助タスクによるrnnトランスデューサベースasrの改善

Improving RNN Transducer Based ASR with Auxiliary Tasks ( http://arxiv.org/abs/2011.03109v2 )

ライセンス: Link先を確認
Chunxi Liu, Frank Zhang, Duc Le, Suyoun Kim, Yatharth Saraf, Geoffrey Zweig(参考訳) 単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは,最近,従来のハイブリッド音声認識と比較して最先端の結果が示された。 特に、recurrent neural network transducer (rnn-t)は様々なベンチマークで競合asr性能を示している。 本研究では,RNN-Tが補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。 提案します 一 一次RNN-T ASRタスクと同じ補助タスクの使用、及び (ii)従来のハイブリッドモデルのように文脈依存のグラフ状態予測を行う。 トレーニングデータサイズの異なるソーシャルメディアビデオの翻訳では,まずルーマニア語,トルコ語,ドイツ語の3言語でストリーミングASRのパフォーマンスを評価する。 両手法が一貫した改善をもたらすことがわかった。 次に,rnn-t基準の深層トランスフォーマエンコーダの学習において,両方の補助タスクが有効であることを確認し,先行実行モデルと比較して,librispeech test-clean/otherにおける2.0%/4.2% werの競合結果を得た。

End-to-end automatic speech recognition (ASR) models with a single neural network have recently demonstrated state-of-the-art results compared to conventional hybrid speech recognizers. Specifically, recurrent neural network transducer (RNN-T) has shown competitive ASR performance on various benchmarks. In this work, we examine ways in which RNN-T can achieve better ASR accuracy via performing auxiliary tasks. We propose (i) using the same auxiliary task as primary RNN-T ASR task, and (ii) performing context-dependent graphemic state prediction as in conventional hybrid modeling. In transcribing social media videos with varying training data size, we first evaluate the streaming ASR performance on three languages: Romanian, Turkish and German. We find that both proposed methods provide consistent improvements. Next, we observe that both auxiliary tasks demonstrate efficacy in learning deep transformer encoders for RNN-T criterion, thus achieving competitive results - 2.0%/4.2% WER on LibriSpeech test-clean/other - as compared to prior top performing models.
翻訳日:2022-09-29 12:43:32 公開日:2020-11-09
# pubsqueezer - 非構造化ドキュメントを構造化データに変換するテキストマイニングwebツール

PubSqueezer: A Text-Mining Web Tool to Transform Unstructured Documents into Structured Data ( http://arxiv.org/abs/2011.03123v2 )

ライセンス: Link先を確認
Alberto Calderone(参考訳) 毎日発行される科学論文の量は、途方もなく増え続けている。 文学に追いつくことは挑戦である。 もし新しいトピックを探求し始めるなら、多くの記事を読むことなく全体像を得るのは難しい。 さらに、文献を読む際には、新たな質問をすることで、発見につながる可能性がある。 本研究では、テキストマイニング戦略を用いて、非構造化バイオメディカル物品の大規模なコレクションを構造化データに変換するウェブツールを提案する。 生成された結果は、明示的に報告されていない情報を提案できる複雑なトピックに関する簡単な概要を提供する。 特に、2つのデータサイエンス分析を示します。 まず,本ツールを用いた文献ベースのまれな疾患ネットワーク構築について述べる。 次に,PubSqueezer を用いた文献分析により,SARS-CoV-2 に関する既知の事実を記述できることを示す。 1つの文では、pubsqueezerで生成されたデータは、機械学習や自然言語処理など、あらゆる計算分析で科学的な読み書きを簡単に利用できます。 利用可能: http://www.pubsqueezer.com

The amount of scientific papers published every day is daunting and constantly increasing. Keeping up with literature represents a challenge. If one wants to start exploring new topics it is hard to have a big picture without reading lots of articles. Furthermore, as one reads through literature, making mental connections is crucial to ask new questions which might lead to discoveries. In this work, I present a web tool which uses a Text Mining strategy to transform large collections of unstructured biomedical articles into structured data. Generated results give a quick overview on complex topics which can possibly suggest not explicitly reported information. In particular, I show two Data Science analyses. First, I present a literature based rare diseases network build using this tool in the hope that it will help clarify some aspects of these less popular pathologies. Secondly, I show how a literature based analysis conducted with PubSqueezer results allows to describe known facts about SARS-CoV-2. In one sentence, data generated with PubSqueezer make it easy to use scientific literate in any computational analysis such as machine learning, natural language processing etc. Availability: http://www.pubsqueezer.com
翻訳日:2022-09-29 12:43:16 公開日:2020-11-09
# NUAA-QMUL at SemEval-2020 Task 8: using BERT and DenseNet for Internet Meme Emotion Analysis

NUAA-QMUL at SemEval-2020 Task 8: Utilizing BERT and DenseNet for Internet Meme Emotion Analysis ( http://arxiv.org/abs/2011.02788v2 )

ライセンス: Link先を確認
Xiaoyu Guo, Jing Ma, Arkaitz Zubiaga(参考訳) 本稿では,SemEval 2020 Task 8: Memotion Analysisへの貢献について述べる。 本システムでは,テキストと画像からマルチモーダル埋め込みを学習し,インターネットミームを感情的に分類する。 我々のモデルはBERTを用いてテキスト埋め込みを学習し、DenseNetで画像から特徴を抽出し、結合によって両方の特徴を組み合わせる。 また、DenseNet、ResNet、BERT、BERT-ResNetによる結果と比較する。 DenseNetはResNetよりも優れており,画像分類モデルがミームの分類に役立つ可能性が示唆された。 しかし、テキスト機能の追加は、Memotion Analysisにとって必ずしも役に立たない。

This paper describes our contribution to SemEval 2020 Task 8: Memotion Analysis. Our system learns multi-modal embeddings from text and images in order to classify Internet memes by sentiment. Our model learns text embeddings using BERT and extracts features from images with DenseNet, subsequently combining both features through concatenation. We also compare our results with those produced by DenseNet, ResNet, BERT, and BERT-ResNet. Our results show that image classification models have the potential to help classifying memes, with DenseNet outperforming ResNet. Adding text features is however not always helpful for Memotion Analysis.
翻訳日:2022-09-29 11:58:04 公開日:2020-11-09
# 部分不可能エンコーダ・デコーダコスト関数による照明正規化

Illumination Normalization by Partially Impossible Encoder-Decoder Cost Function ( http://arxiv.org/abs/2011.03428v2 )

ライセンス: Link先を確認
Steve Dias Da Cruz, Bertram Taetz, Thomas Stifter, Didier Stricker(参考訳) コンピュータビジョンベースのシステムの寿命中に記録された画像は、トレーニング済みの機械学習モデルの信頼性に影響を与える幅広い照明と環境条件下で記録される。 したがって、画像の正規化はモデルの堅牢性を高める貴重な前処理コンポーネントである。 この目的のために,エンコーダ・デコーダネットワークのコスト関数定式化のための新しい戦略を導入し,入力画像中の重要でない情報(例えば,環境特徴や照明変化)を平均化し,健全な特徴(例えば,クラスインスタンス)の再構築に注力する。 本手法では,異なる照明条件と環境条件下で同一の景観を利用可能とし,部分的に不可能となる復元対象を定式化する。 適用性は3つの公開データセットで評価される。 潜在空間表現における正規化子として三重項損失と近辺探索を組み合わせることにより、非知覚照度やクラスインスタンスへの一般化を改善する。 上記の後処理の重要性は、自動車アプリケーションで強調される。 この目的のために、我々は3つの異なる乗客区画のシーンの合成データセットをリリースし、各シーンは10の異なる照明と環境条件の下でレンダリングされる。

Images recorded during the lifetime of computer vision based systems undergo a wide range of illumination and environmental conditions affecting the reliability of previously trained machine learning models. Image normalization is hence a valuable preprocessing component to enhance the models' robustness. To this end, we introduce a new strategy for the cost function formulation of encoder-decoder networks to average out all the unimportant information in the input images (e.g. environmental features and illumination changes) to focus on the reconstruction of the salient features (e.g. class instances). Our method exploits the availability of identical sceneries under different illumination and environmental conditions for which we formulate a partially impossible reconstruction target: the input image will not convey enough information to reconstruct the target in its entirety. Its applicability is assessed on three publicly available datasets. We combine the triplet loss as a regularizer in the latent space representation and a nearest neighbour search to improve the generalization to unseen illuminations and class instances. The importance of the aforementioned post-processing is highlighted on an automotive application. To this end, we release a synthetic dataset of sceneries from three different passenger compartments where each scenery is rendered under ten different illumination and environmental conditions: see https://sviro.kl.dfki.de
翻訳日:2022-09-29 05:08:29 公開日:2020-11-09
# 何が新しいの? 科学文献における貢献の要約

What's New? Summarizing Contributions in Scientific Literature ( http://arxiv.org/abs/2011.03161v2 )

ライセンス: Link先を確認
Hiroaki Hayashi, Wojciech Kry\'sci\'nski, Bryan McCann, Nazneen Rajani, Caiming Xiong(参考訳) 何千もの学術論文が毎日共有されているため、最新の科学的発見に追随することはますます困難になっている。 この課題を克服するために,論文の投稿と作業の文脈について個別の要約を生成し,論文で共有される重要な知見の識別を容易にするために,論文要約を分割するタスクを新たに導入する。 この目的のために、経済学から心理学まで幅広い分野にまたがる学術論文のs2orcコーパスを拡張し、異質な「帰属」と「文脈」の参照ラベルを追加する。 データセットとともに、3つのベースラインアプローチを導入し分析する。 1) 入力コードプレフィックスによって制御される統一モデル 2 異種出力の生成に特化した別個の生成ヘッドを有するモデル、及び 3)インバウンドおよびアウトバウンドの引用から来る追加の監督を用いてモデルを指導するトレーニング戦略。 また,生成された出力の関連性,新規性,乱れを報告する総合的な自動評価プロトコルを提案する。 専門家による人間による研究により、79%のケースにおいて、新しいタスクは従来の科学論文の要約よりも有用であると考えられた。

With thousands of academic articles shared on a daily basis, it has become increasingly difficult to keep up with the latest scientific findings. To overcome this problem, we introduce a new task of disentangled paper summarization, which seeks to generate separate summaries for the paper contributions and the context of the work, making it easier to identify the key findings shared in articles. For this purpose, we extend the S2ORC corpus of academic articles, which spans a diverse set of domains ranging from economics to psychology, by adding disentangled "contribution" and "context" reference labels. Together with the dataset, we introduce and analyze three baseline approaches: 1) a unified model controlled by input code prefixes, 2) a model with separate generation heads specialized in generating the disentangled outputs, and 3) a training strategy that guides the model using additional supervision coming from inbound and outbound citations. We also propose a comprehensive automatic evaluation protocol which reports the relevance, novelty, and disentanglement of generated outputs. Through a human study involving expert annotators, we show that in 79%, of cases our new task is considered more helpful than traditional scientific paper summarization.
翻訳日:2022-09-29 04:50:17 公開日:2020-11-09
# 位相に基づくDOA推定のための効率的なトレーニングデータ生成

Efficient Training Data Generation for Phase-Based DOA Estimation ( http://arxiv.org/abs/2011.04456v1 )

ライセンス: Link先を確認
Fabian H\"ubner, Wolfgang Mack, Emanu\"el A. P. Habets(参考訳) 深層学習(DL)に基づく到着方向推定(DOA)は活発な研究課題であり、現在最先端技術である。 通常、DLベースのDOA推定器は、記録データまたは計算に高価な生成データで訓練される。 両方のデータタイプは、それぞれレコードや生成にかなりのストレージと過剰な時間を必要とする。 位相ベースの特徴入力でDLモデルを訓練するための低複雑性なオンラインデータ生成手法を提案する。 データ生成方法は、直接経路に対する決定論的モデルと、室内伝達関数の遅延残響に関する統計モデルを用いて、周波数領域におけるマイクロホン信号の位相をモデル化する。 実験室のインパルス応答から得られたデータを用いて,提案したトレーニングデータ生成手法を用いてトレーニングしたモデルが,ソースイメージ法に基づいてトレーニングしたモデルと相容れない性能を示すことを示した。

Deep learning (DL) based direction of arrival (DOA) estimation is an active research topic and currently represents the state-of-the-art. Usually, DL-based DOA estimators are trained with recorded data or computationally expensive generated data. Both data types require significant storage and excessive time to, respectively, record or generate. We propose a low complexity online data generation method to train DL models with a phase-based feature input. The data generation method models the phases of the microphone signals in the frequency domain by employing a deterministic model for the direct path and a statistical model for the late reverberation of the room transfer function. By an evaluation using data from measured room impulse responses, we demonstrate that a model trained with the proposed training data generation method performs comparably to models trained with data generated based on the source-image method.
翻訳日:2022-09-28 02:46:38 公開日:2020-11-09
# 強化学習によるサイバー物理システムの自動逆エミュレーション

Automated Adversary Emulation for Cyber-Physical Systems via Reinforcement Learning ( http://arxiv.org/abs/2011.04635v1 )

ライセンス: Link先を確認
Arnab Bhattacharya, Thiagarajan Ramachandran, Sandeep Banik, Chase P. Dowling, Shaunak D. Bopardikar(参考訳) 敵対的エミュレーション(adversary emulation)は、サイバー攻撃に対するシステムのレジリエンスを包括的に評価する攻撃的エクササイズである。 しかしながら、敵エミュレーションは典型的には手動のプロセスであり、複雑なダイナミクス、脆弱性、運用上の不確実性を備えたサイバー物理システム(CPS)への展開が高価かつ困難である。 本稿では,CPSの敵エミュレーションに対するドメイン認識の自動化手法を提案する。 我々はマルコフ決定過程(MDP)モデルを定式化し、サイバー(離散)と物理的(連続)成分と関連する物理力学を持つハイブリッド攻撃グラフ上で最適な攻撃シーケンスを決定する。 モデルベースおよびモデルフリー強化学習(RL)を用いて,離散連続型MDPを抽出可能な方法で解く。 ベースラインとして、グリーディ攻撃アルゴリズムを開発し、RLプロシージャと比較する。 本研究は,建物内におけるセンサ偽装攻撃の数値的研究を通じて,提案アルゴリズムの性能と解の質を比較した。

Adversary emulation is an offensive exercise that provides a comprehensive assessment of a system's resilience against cyber attacks. However, adversary emulation is typically a manual process, making it costly and hard to deploy in cyber-physical systems (CPS) with complex dynamics, vulnerabilities, and operational uncertainties. In this paper, we develop an automated, domain-aware approach to adversary emulation for CPS. We formulate a Markov Decision Process (MDP) model to determine an optimal attack sequence over a hybrid attack graph with cyber (discrete) and physical (continuous) components and related physical dynamics. We apply model-based and model-free reinforcement learning (RL) methods to solve the discrete-continuous MDP in a tractable fashion. As a baseline, we also develop a greedy attack algorithm and compare it with the RL procedures. We summarize our findings through a numerical study on sensor deception attacks in buildings to compare the performance and solution quality of the proposed algorithms.
翻訳日:2022-09-28 02:46:16 公開日:2020-11-09
# 線形二次平均場チームに対するトンプソンサンプリング

Thompson sampling for linear quadratic mean-field teams ( http://arxiv.org/abs/2011.04686v1 )

ライセンス: Link先を確認
Mukul Gagrani, Sagar Sudhakara, Aditya Mahajan, Ashutosh Nayyar and Yi Ouyang(参考訳) 我々は、未知のマルチエージェント線形二次系(lq)システムの最適制御について検討し、状態と制御の平均場(すなわち経験平均)を通じて、ダイナミクスとコストをエージェント間で結合する。 このようなモデルで単一エージェントLQ学習アルゴリズムを直接使用すると、エージェントの数が多項式的に増加することを後悔する。 我々は,システムモデルの構造を生かした新しいトンプソンサンプリングベースの学習アルゴリズムを提案するとともに,提案するアルゴリズムが推定されるベイズ的後悔を時間軸で異なる型を持つシステムに対して示す。$t$は$\tilde{\mathcal{o}} \big( |m|^{1.5} \sqrt{t} \big)$ エージェントの総数に関係なく,$\tilde{\mathcal{o}}$記法が$t$の対数因子を隠蔽する。 本稿では,提案アルゴリズムの健全な特徴を説明するための数値実験について述べる。

We consider optimal control of an unknown multi-agent linear quadratic (LQ) system where the dynamics and the cost are coupled across the agents through the mean-field (i.e., empirical mean) of the states and controls. Directly using single-agent LQ learning algorithms in such models results in regret which increases polynomially with the number of agents. We propose a new Thompson sampling based learning algorithm which exploits the structure of the system model and show that the expected Bayesian regret of our proposed algorithm for a system with agents of $|M|$ different types at time horizon $T$ is $\tilde{\mathcal{O}} \big( |M|^{1.5} \sqrt{T} \big)$ irrespective of the total number of agents, where the $\tilde{\mathcal{O}}$ notation hides logarithmic factors in $T$. We present detailed numerical experiments to illustrate the salient features of the proposed algorithm.
翻訳日:2022-09-28 02:45:38 公開日:2020-11-09
# 新型コロナウイルスパンデミックがエネルギー需要に与える影響の分析--イタリア北部を事例として

Analyzing the Effects of COVID-19 Pandemic on the Energy Demand: the Case of Northern Italy ( http://arxiv.org/abs/2103.15654v1 )

ライセンス: Link先を確認
Paolo Scarabaggio, Massimo La Scala, Raffaele Carli, Mariagrazia Dotoli(参考訳) 新型コロナウイルス(COVID-19)危機は、世界各国政府による規制措置により、世界経済の枠組みに大きな影響を与えている。 この影響を正しく定量化するためにリアルタイムデータを見つけることは非常に重要だが、それほど簡単ではない。 それでも、電力需要プロファイルの分析は、全体的な経済動向に関する洞察を与えてくれる。 エネルギー消費パターンの変化を正確に把握するため,本研究では,イタリア北部(パンデミックの影響が最も大きいヨーロッパ地域)における電力需要の推計を,新型コロナウイルスの緊急事態発生時に計算する多層フィードフォワードニューラルネットワークを用いた。 予測モデルの信頼性を評価した後,実測値と実測値を比較し,消費電力の変動を定量化する。 さらに,この変動は,google mobility reportデータを用いて,ロックダウン期間中の移動行動の変化と相関する。 この予期せぬ、前例のない状況から、電力系統のマクロ構造とその全体の移動性との関係に関する直観を得る。

The COVID-19 crisis is profoundly influencing the global economic framework due to restrictive measures adopted by governments worldwide. Finding real-time data to correctly quantify this impact is very significant but not as straightforward. Nevertheless, an analysis of the power demand profiles provides insight into the overall economic trends. To accurately assess the change in energy consumption patterns, in this work we employ a multi-layer feed-forward neural network that calculates an estimation of the aggregated power demand in the north of Italy, (i.e, in one of the European areas that were most affected by the pandemics) in the absence of the COVID-19 emergency. After assessing the forecasting model reliability, we compare the estimation with the ground truth data to quantify the variation in power consumption. Moreover, we correlate this variation with the change in mobility behaviors during the lockdown period by employing the Google mobility report data. From this unexpected and unprecedented situation, we obtain some intuition regarding the power system macro-structure and its relation with the overall people's mobility.
翻訳日:2022-09-28 02:44:49 公開日:2020-11-09
# 電気泳動によるアブレーションのためのマルチモーダル画像におけるパッチベースフィールド・オブ・ビューマッチング

Patch-based field-of-view matching in multi-modal images for electroporation-based ablations ( http://arxiv.org/abs/2011.11759v1 )

ライセンス: Link先を確認
Luc Lafitte, R\'emi Giraud, Cornel Zachiu, Mario Ries, Olivier Sutter, Antoine Petit, Olivier Seror, Clair Poignard, Baudouin Denis de Senneville(参考訳) 様々なマルチモーダルイメージングセンサーは現在、介入的治療の作業フローの異なる段階に関与している。 コーンビームCT(CBCT)、CT(CT)、MR(MR)画像は、標的領域と臓器の相補的機能および/または構造情報を危険にさらす。 この情報を統合するには、取得した画像間の観測された解剖の正確な空間的アライメントに依存する。 これはDIR(Multi-modal deformable Image registration)を用いて実現でき、複数の撮像装置が取得した画像間の密度と弾性の変形を推定できることを示した。 しかし、様々な画像モダリティでサンプリングされる典型的に異なる視野(FOV)のため、そのようなアルゴリズムは満足できる解を見つけるのにひどく失敗する可能性がある。 本研究は,マルチモーダルな3次元医用画像にFOVを配向させる高速な手法を提案する。 この目的のために、パッチベースのアプローチと最先端のマルチモーダル画像類似度メトリクスを組み合わせることで、マルチモーダル医療画像に対処する。 空間方向毎に推定パッチシフトの発生を算出し、最大発生のシフト値を選択してビューの視野を調整する。 また,voxelパッチを用いた地域登録アプローチは,voxel-wiseアプローチと"global shifts"アプローチの間に良好な構造的妥協をもたらすことを示す。 その結果, CBCT と MRI と CBCT の登録作業, 特に画像FOV が高度に異なる場合には, CT と CBCT の登録作業に有用であった。 また、CBCTおよびMRIに対するCTの利点をCBCT画像登録に応用し、経皮的針挿入によるアーティファクトの影響を含め分析した。 さらに, オンライン手続きの実用例において, 計算ニーズと臨床制約との相性が示された。

Various multi-modal imaging sensors are currently involved at different steps of an interventional therapeutic work-flow. Cone beam computed tomography (CBCT), computed tomography (CT) or Magnetic Resonance (MR) images thereby provides complementary functional and/or structural information of the targeted region and organs at risk. Merging this information relies on a correct spatial alignment of the observed anatomy between the acquired images. This can be achieved by the means of multi-modal deformable image registration (DIR), demonstrated to be capable of estimating dense and elastic deformations between images acquired by multiple imaging devices. However, due to the typically different field-of-view (FOV) sampled across the various imaging modalities, such algorithms may severely fail in finding a satisfactory solution. In the current study we propose a new fast method to align the FOV in multi-modal 3D medical images. To this end, a patch-based approach is introduced and combined with a state-of-the-art multi-modal image similarity metric in order to cope with multi-modal medical images. The occurrence of estimated patch shifts is computed for each spatial direction and the shift value with maximum occurrence is selected and used to adjust the image field-of-view. We show that a regional registration approach using voxel patches provides a good structural compromise between the voxel-wise and "global shifts" approaches. The method was thereby beneficial for CT to CBCT and MRI to CBCT registration tasks, especially when highly different image FOVs are involved. Besides, the benefit of the method for CT to CBCT and MRI to CBCT image registration is analyzed, including the impact of artifacts generated by percutaneous needle insertions. Additionally, the computational needs are demonstrated to be compatible with clinical constraints in the practical case of on-line procedures.
翻訳日:2022-09-28 02:41:10 公開日:2020-11-09
# 適応型安全動作計画のための不確実性を考慮した制約学習

Uncertainty-Aware Constraint Learning for Adaptive Safe Motion Planning from Demonstrations ( http://arxiv.org/abs/2011.04141v1 )

ライセンス: Link先を確認
Glen Chou, Necmiye Ozay, Dmitry Berenson(参考訳) 本稿では,実証から不確実な制約を満たすための学習方法を提案する。 提案手法は,実演と整合した潜在的無限の制約の集合に対する信念を得るために頑健な最適化を用いて,その制約を満たすために性能をトレードオフするトラジェクトリを計画する。 我々はこれらのトラジェクトリをクローズドループポリシーで使用し、実行中に収集されたデータを組み込んだ信頼更新を用いて実行および計画を行う。 我々は,制約信念の正確さと計画の安全性に関する確率的保証を導出する。 提案手法は, 高次元(最大30D)の不確実な制約を満たすことを学習し, 安全性と効率の基準線より優れていることを示す。

We present a method for learning to satisfy uncertain constraints from demonstrations. Our method uses robust optimization to obtain a belief over the potentially infinite set of possible constraints consistent with the demonstrations, and then uses this belief to plan trajectories that trade off performance with satisfying the possible constraints. We use these trajectories in a closed-loop policy that executes and replans using belief updates, which incorporate data gathered during execution. We derive guarantees on the accuracy of our constraint belief and probabilistic guarantees on plan safety. We present results on a 7-DOF arm and 12D quadrotor, showing our method can learn to satisfy high-dimensional (up to 30D) uncertain constraints, and outperforms baselines in safety and efficiency.
翻訳日:2022-09-28 02:40:23 公開日:2020-11-09
# ユークリッド$k$-Medianの近似の硬さ

Hardness of Approximation of Euclidean $k$-Median ( http://arxiv.org/abs/2011.04221v1 )

ライセンス: Link先を確認
Anup Bhattacharya, Dishant Goyal, Ragesh Jaiswal(参考訳) ユークリッドの$k$-median問題は次の方法で定義される: $\mathcal{x}$ of $n$ points in $\mathbb{r}^{d}$, and an integer $k$, if a set $c \subset \mathbb{r}^{d}$ of $k$ points (いわゆるセンター) であり、コスト関数 $\phi(c,\mathcal{x}) \equiv \sum_{x \in \mathcal{x}} \min_{c \in c} \|x-c\|_{2}$ は最小である。 ユークリッド$k$-平均問題は、コスト関数において距離を2乗距離に置き換えることで同様に定義される。 近似結果の様々な困難さはユークリッドの$k$-means問題で知られている。 しかし、近似結果の難しさはユークリッドの$k$-median問題では知られていなかった。 この研究において、一意ゲーム予想 (UGC) を仮定すると、ユークリッド$k$-中間問題に対して近似結果の最初の硬度を与える。 さらに、アルゴリズムが$k$中心以上を選択できるbi-criteria設定におけるユークリッド問題である$k$-means/$k$-median問題の近似の難しさについて検討する。 すなわち、bi-criteria approximationアルゴリズムは、$\beta k$center(定数$\beta>1$)を出力することができ、最適な$k$-means/$k$-medianコストに対して近似比を算出する。 この設定では、UGCを仮定して任意の$\beta <1.015$に対してユークリッド$k$-median問題に対する近似結果の最初の困難さを示す。 また、ugc を仮定して、より強い値が $\beta < 1.28$ であるユークリッド問題に対する近似結果の類似の双ユークリッド硬さを示す。

The Euclidean $k$-median problem is defined in the following manner: given a set $\mathcal{X}$ of $n$ points in $\mathbb{R}^{d}$, and an integer $k$, find a set $C \subset \mathbb{R}^{d}$ of $k$ points (called centers) such that the cost function $\Phi(C,\mathcal{X}) \equiv \sum_{x \in \mathcal{X}} \min_{c \in C} \|x-c\|_{2}$ is minimized. The Euclidean $k$-means problem is defined similarly by replacing the distance with squared distance in the cost function. Various hardness of approximation results are known for the Euclidean $k$-means problem. However, no hardness of approximation results were known for the Euclidean $k$-median problem. In this work, assuming the unique games conjecture (UGC), we provide the first hardness of approximation result for the Euclidean $k$-median problem. Furthermore, we study the hardness of approximation for the Euclidean $k$-means/$k$-median problems in the bi-criteria setting where an algorithm is allowed to choose more than $k$ centers. That is, bi-criteria approximation algorithms are allowed to output $\beta k$ centers (for constant $\beta>1$) and the approximation ratio is computed with respect to the optimal $k$-means/$k$-median cost. In this setting, we show the first hardness of approximation result for the Euclidean $k$-median problem for any $\beta < 1.015$, assuming UGC. We also show a similar bi-criteria hardness of approximation result for the Euclidean $k$-means problem with a stronger bound of $\beta < 1.28$, again assuming UGC.
翻訳日:2022-09-28 02:39:09 公開日:2020-11-09
# 大規模自動運転システム展開のための学習型チューンフリー制御フレームワーク

A Learning-Based Tune-Free Control Framework for Large Scale Autonomous Driving System Deployment ( http://arxiv.org/abs/2011.04250v1 )

ライセンス: Link先を確認
Yu Wang, Shu Jiang, Weiman Lin, Yu Cao, Longtao Lin, Jiangtao Hu, Jinghao Miao and Qi Luo(参考訳) 本稿では,様々な車両や運転環境に展開する大規模自律走行システムの高速化を目的とした,チューニング不要な制御フレームワークの設計について述べる。 The framework consists of three machine-learning-based procedures, which jointly automate the control parameter tuning for autonomous driving, including: a learning-based dynamic modeling procedure, to enable the control-in-the-loop simulation with highly accurate vehicle dynamics for parameter tuning; a learning-based open-loop mapping procedure, to solve the feedforward control parameters tuning; and more significantly, a Bayesian-optimization-based closed-loop parameter tuning procedure, to automatically tune feedback control (PID, LQR, MRAC, MPC, etc.) parameters in simulation environment. シミュレーションと道路試験の両方において,パラメータ調整効率が大幅に向上し,制御性能が向上したことを示す。 この枠組みは米国と中国の異なる車両で検証されている。

This paper presents the design of a tune-free (human-out-of-the-loop parameter tuning) control framework, aiming at accelerating large scale autonomous driving system deployed on various vehicles and driving environments. The framework consists of three machine-learning-based procedures, which jointly automate the control parameter tuning for autonomous driving, including: a learning-based dynamic modeling procedure, to enable the control-in-the-loop simulation with highly accurate vehicle dynamics for parameter tuning; a learning-based open-loop mapping procedure, to solve the feedforward control parameters tuning; and more significantly, a Bayesian-optimization-based closed-loop parameter tuning procedure, to automatically tune feedback control (PID, LQR, MRAC, MPC, etc.) parameters in simulation environment. The paper shows an improvement in control performance with a significant increase in parameter tuning efficiency, in both simulation and road tests. This framework has been validated on different vehicles in US and China.
翻訳日:2022-09-28 02:38:21 公開日:2020-11-09
# 鉄道ビデオサーベイランスにおける侵入検知のためのFew-shot学習の強化

Enhanced Few-shot Learning for Intrusion Detection in Railway Video Surveillance ( http://arxiv.org/abs/2011.04254v1 )

ライセンス: Link先を確認
Xiao Gong, Xi Chen, Wei Chen(参考訳) 近年、鉄道侵入検知を支援するためにビデオ監視が人気を集めている。 しかし, 効率的かつ高精度な侵入検出は, 課題である。 (a)限定サンプル数:侵入型ビデオフレームの小さなサンプルサイズ(または一部)のみ利用可能。 (b)低いシーン間相違:様々な鉄道線路エリアのシーンを異なる地形に設置したカメラで撮影する。 (c)シーン内類似度が高い:個々のカメラが捉えたビデオフレームは同じバックガンドを共有している。 本稿では,上記の問題に対処するために,効率的な数発学習ソリューションを開発した。 特に、拡張されたモデル非依存メタリーナーは、ビデオから抽出されたトラックエリアのオリジナルビデオフレームとセグメンテッドマスクの両方を使用して訓練される。 さらに,メタモデル訓練段階での類似度の高い映像フレームに対処するために,理論的解析と工学的解を提供する。 提案手法は現実的な鉄道ビデオデータセットで検証される。 数値的な結果から,拡張メタラーナーはビデオフレームのサンプルを少数集めて未確認シーンに適応し,侵入検出精度はランダムに初期化された教師付き学習よりも優れていた。

Video surveillance is gaining increasing popularity to assist in railway intrusion detection in recent years. However, efficient and accurate intrusion detection remains a challenging issue due to: (a) limited sample number: only small sample size (or portion) of intrusive video frames is available; (b) low inter-scene dissimilarity: various railway track area scenes are captured by cameras installed in different landforms; (c) high intra-scene similarity: the video frames captured by an individual camera share a same backgound. In this paper, an efficient few-shot learning solution is developed to address the above issues. In particular, an enhanced model-agnostic meta-learner is trained using both the original video frames and segmented masks of track area extracted from the video. Moreover, theoretical analysis and engineering solutions are provided to cope with the highly similar video frames in the meta-model training phase. The proposed method is tested on realistic railway video dataset. Numerical results show that the enhanced meta-learner successfully adapts unseen scene with only few newly collected video frame samples, and its intrusion detection accuracy outperforms that of the standard randomly initialized supervised learning.
翻訳日:2022-09-28 02:38:09 公開日:2020-11-09
# ディープニューラルネットワークによる逆問題の解法 -ロバスト性?

Solving Inverse Problems With Deep Neural Networks -- Robustness Included? ( http://arxiv.org/abs/2011.04268v1 )

ライセンス: Link先を確認
Martin Genzel and Jan Macdonald and Maximilian M\"arz(参考訳) 過去5年間で、ディープラーニングの手法は様々な逆問題を解く最先端の手法になっている。 このようなアプローチが安全クリティカルな分野に適用される前に、信頼性の検証が必須である。 近年の研究では、複数の画像再構成タスクにおけるディープニューラルネットワークの不安定性が指摘されている。 分類における敵対的攻撃と類似して、入力領域のわずかな歪みが深刻な成果物を引き起こす可能性が示された。 本稿では,不確定な逆問題を解くためのディープラーニングアルゴリズムのロバスト性に関する広範囲な研究を行い,この問題に新たな光を当てる。 これは、ガウス計測による圧縮センシングとフーリエおよびラドン測定からの画像回復、および(nyu-fastmriデータセットを用いた)実世界の磁気共鳴イメージングのシナリオを含む。 我々の主な焦点は、再構成誤差を最大化する測定の逆転摂動の計算である。 本手法の特筆すべき特徴は,全変量最小化に対する定量的かつ定性的な比較である。 従来の知見とは対照的に, 標準のエンドツーエンドネットワークアーキテクチャは, 統計的ノイズに対する耐性だけでなく, 対向的摂動に対する耐性も示している。 考慮されたネットワークはすべて、高度な防御戦略なしで、共通のディープラーニング技術で訓練されている。

In the past five years, deep learning methods have become state-of-the-art in solving various inverse problems. Before such approaches can find application in safety-critical fields, a verification of their reliability appears mandatory. Recent works have pointed out instabilities of deep neural networks for several image reconstruction tasks. In analogy to adversarial attacks in classification, it was shown that slight distortions in the input domain may cause severe artifacts. The present article sheds new light on this concern, by conducting an extensive study of the robustness of deep-learning-based algorithms for solving underdetermined inverse problems. This covers compressed sensing with Gaussian measurements as well as image recovery from Fourier and Radon measurements, including a real-world scenario for magnetic resonance imaging (using the NYU-fastMRI dataset). Our main focus is on computing adversarial perturbations of the measurements that maximize the reconstruction error. A distinctive feature of our approach is the quantitative and qualitative comparison with total-variation minimization, which serves as a provably robust reference method. In contrast to previous findings, our results reveal that standard end-to-end network architectures are not only resilient against statistical noise, but also against adversarial perturbations. All considered networks are trained by common deep learning techniques, without sophisticated defense strategies.
翻訳日:2022-09-28 02:37:48 公開日:2020-11-09
# STOI-Net: 深層学習に基づく非侵入的音声明瞭度評価モデル

STOI-Net: A Deep Learning based Non-Intrusive Speech Intelligibility Assessment Model ( http://arxiv.org/abs/2011.04292v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Szu-Wei Fu, Chiou-Shann Fuh, Yu Tsao, Hsin-Min Wang(参考訳) 最も客観的な音声明瞭度評価指標の計算には、参照としてクリーンな音声が必要である。 このような要件は、現実世界のシナリオでこれらのメトリクスの適用性を制限する可能性がある。 この制限を克服するために,深層学習に基づく非侵入的音声明瞭度評価モデル,すなわちSTOI-Netを提案する。 STOI-Netの入力と出力はそれぞれ音声スペクトルの特徴と予測されたSTOIスコアである。 このモデルは、畳み込みニューラルネットワークと双方向長短期記憶(CNN-BLSTM)アーキテクチャと乗法的注意機構を組み合わせることで構成される。 実験結果から,STOI-Netで推定したSTOIスコアと実STOIスコアとの相関が良好であった。 この相関値は、見掛けた試験条件(試験話者と騒音タイプは訓練セットに関係している)と、見当たらない試験条件(試験話者と騒音タイプは訓練セットに関係しない)についてそれぞれ0.97及び0.83である。 その結果,STOI-Netがクリーン音声を参照することなく,STOIスコアを正確に予測できることが確認された。

The calculation of most objective speech intelligibility assessment metrics requires clean speech as a reference. Such a requirement may limit the applicability of these metrics in real-world scenarios. To overcome this limitation, we propose a deep learning-based non-intrusive speech intelligibility assessment model, namely STOI-Net. The input and output of STOI-Net are speech spectral features and predicted STOI scores, respectively. The model is formed by the combination of a convolutional neural network and bidirectional long short-term memory (CNN-BLSTM) architecture with a multiplicative attention mechanism. Experimental results show that the STOI score estimated by STOI-Net has a good correlation with the actual STOI score when tested with noisy and enhanced speech utterances. The correlation values are 0.97 and 0.83, respectively, for the seen test condition (the test speakers and noise types are involved in the training set) and the unseen test condition (the test speakers and noise types are not involved in the training set). The results confirm the capability of STOI-Net to accurately predict the STOI scores without referring to clean speech.
翻訳日:2022-09-28 02:37:25 公開日:2020-11-09
# 電話品質音声データからのcovid-19患者検出

COVID-19 Patient Detection from Telephone Quality Speech Data ( http://arxiv.org/abs/2011.04299v1 )

ライセンス: Link先を確認
Kotra Venkata Sai Ritwik, Shareef Babu Kalluri, Deepu Vijayasenan(参考訳) 本稿では,スピーチデータにおけるcovid-19病に関する手がかりの存在について検討する。 我々は話者認識に類似したアプローチを用いる。 各文は、各音素に対する短期メルフィルタバンク特徴のスーパーベクトルとして表現される。 これらの特徴は、新型コロナウイルスの音声を正常から分離する2クラス分類器を学ぶために使用される。 YouTubeビデオから収集された小さなデータセットの実験によると、このデータセット上のSVM分類器は88.6%の精度とF1スコア92.7%の精度を達成することができる。 さらなる調査により、鼻音、停止音、中母音などの一部の電話クラスが、他のクラスよりもよく区別できることが判明した。

In this paper, we try to investigate the presence of cues about the COVID-19 disease in the speech data. We use an approach that is similar to speaker recognition. Each sentence is represented as super vectors of short term Mel filter bank features for each phoneme. These features are used to learn a two-class classifier to separate the COVID-19 speech from normal. Experiments on a small dataset collected from YouTube videos show that an SVM classifier on this dataset is able to achieve an accuracy of 88.6% and an F1-Score of 92.7%. Further investigation reveals that some phone classes, such as nasals, stops, and mid vowels can distinguish the two classes better than the others.
翻訳日:2022-09-28 02:37:06 公開日:2020-11-09
# 衛星モザイクにおける極低検出のための機械学習手法:主な課題とその解決法

Machine learning methods for the detection of polar lows in satellite mosaics: major issues and their solutions ( http://arxiv.org/abs/2011.04811v1 )

ライセンス: Link先を確認
Mikhail Krinitskiy, Polina Verezemskaya, Svyatoslav Elizarov, Sergey Gulev(参考訳) 極性メソサイクロン(PMCs)とその強大なサブクラス極性低気圧(PLs)は比較的小さな大気渦であり、主に高緯度で海洋上に形成される。 plsは強い表面風と熱流束と関連しているため、深海水形成に強い影響を与える。 PLの検出と追跡は,PLの気候動態の理解と,それらが気候系の他の構成要素に与える影響の分析に不可欠である。 同時に、PLの視覚的追跡は、専門家の知識とソースデータの広範な検査を必要とする非常に時間を要する手順である。 深層畳み込みニューラルネットワーク(deep convolutional neural network:dcnns)は、高画質な検出を示す再分析データにおいて、大規模な大気現象を検出するための手法である。 しかし、再分析とは異なり、衛星製品は大気渦の全てのスケールを登録するため、これらの手順を直接衛星データに適用することはできない。 dcnnはもともとスケール不変な設計であったことも知られている。 これは検出された事象の規模をフィルタリングする問題につながる。 衛星データの低信号対雑音比や、衛星データセット内の負(plsなし)の非平衡数、正(plが提示される場所)クラスなど、解決すべき問題は他にもある。 本研究では,クラス不均衡とスケールフィルタリング問題に対処するリモートセンシングデータにおけるplsとpmcsの検出のための深層学習手法を提案する。 また、他の問題に対する潜在的な解決策と、提案されたアプローチの有望な改善についても概説する。

Polar mesocyclones (PMCs) and their intense subclass polar lows (PLs) are relatively small atmospheric vortices that form mostly over the ocean in high latitudes. PLs can strongly influence deep ocean water formation since they are associated with strong surface winds and heat fluxes. Detection and tracking of PLs are crucial for understanding the climatological dynamics of PLs and for the analysis of their impacts on other components of the climatic system. At the same time, visual tracking of PLs is a highly time-consuming procedure that requires expert knowledge and extensive examination of source data. There are known procedures involving deep convolutional neural networks (DCNNs) for the detection of large-scale atmospheric phenomena in reanalysis data that demonstrate a high quality of detection. However, one cannot apply these procedures to satellite data directly since, unlike reanalyses, satellite products register all the scales of atmospheric vortices. It is also known that DCNNs were originally designed to be scale-invariant. This leads to the problem of filtering the scale of detected phenomena. There are other problems to be solved, such as a low signal-to-noise ratio of satellite data and an unbalanced number of negative (without PLs) and positive (where a PL is presented) classes in a satellite dataset. In our study, we propose a deep learning approach for the detection of PLs and PMCs in remote sensing data, which addresses class imbalance and scale filtering problems. We also outline potential solutions for other problems, along with promising improvements to the presented approach.
翻訳日:2022-09-28 02:30:53 公開日:2020-11-09
# 分子偽物を用いた深層グラフネットワークの解明

Explaining Deep Graph Networks with Molecular Counterfactuals ( http://arxiv.org/abs/2011.05134v1 )

ライセンス: Link先を確認
Danilo Numeroso, Davide Bacciu(参考訳) 本稿では,MEG (Molecular Explanation Generator) と呼ばれる分子特性予測タスクの文脈におけるディープグラフネットワークの説明可能性に挑戦する新しい手法を提案する。 我々は, 構造的類似度が高く, 予測特性の異なる(有意)化合物の形で, 特定の予測に対する情報的反実的説明を生成する。 モデルが非ML専門家に分子近傍の学習モデルに対する重要な洞察を伝達する方法を示す予備的な結果について議論する。

We present a novel approach to tackle explainability of deep graph networks in the context of molecule property prediction tasks, named MEG (Molecular Explanation Generator). We generate informative counterfactual explanations for a specific prediction under the form of (valid) compounds with high structural similarity and different predicted properties. We discuss preliminary results showing how the model can convey non-ML experts with key insights into the learning model focus in the neighborhood of a molecule.
翻訳日:2022-09-28 02:30:28 公開日:2020-11-09
# 遺伝子発現データを用いた全身性エリテマトーデス患者の特異的免疫経路の検索

Stratification of Systemic Lupus Erythematosus Patients Using Gene Expression Data to Reveal Expression of Distinct Immune Pathways ( http://arxiv.org/abs/2011.05143v1 )

ライセンス: Link先を確認
Aditi Deokar(参考訳) 全身性エリテマトーデス(英:systemic lupus erythematosus, SLE)は、アメリカ合衆国で15歳から24歳の女性の死因である。 SLE患者に発現する症状や免疫経路の多様性は、新しい臨床試験と同様に、SLEの治療に困難を引き起こす。 本研究では、成人SLE患者の遺伝子発現データを教師なし学習を用いて、患者をクラスターに分けた。 遺伝子発現データの寸法を3つの異なる方法(pca, umap, a simple linear autoencoder)で削減し, それぞれの方法からk-meansクラスタリングを用いた6つのクラスターに分離した。 SLEを発症したSLE患者には3つの免疫経路が認められた。 これらの経路は,(1)インターフェロンレベル,(2)自己抗体レベル,(3)ミトコンドリアアポトーシス経路の異常であった。 最初の2つの経路はSLEで広く研究されている。 しかし、ミトコンドリアアポトーシスは、自己抗体産生とは無関係に、SLEの単独原因としての私たちの知る限り、これまで研究されていないため、今後の研究においてミトコンドリアタンパク質がSLEの新たな治療標的となる可能性が示唆された。

Systemic lupus erythematosus (SLE) is the tenth leading cause of death in females 15-24 years old in the US. The diversity of symptoms and immune pathways expressed in SLE patients causes difficulties in treating SLE as well as in new clinical trials. This study used unsupervised learning on gene expression data from adult SLE patients to separate patients into clusters. The dimensionality of the gene expression data was reduced by three separate methods (PCA, UMAP, and a simple linear autoencoder) and the results from each of these methods were used to separate patients into six clusters with k-means clustering. The clusters revealed three separate immune pathways in the SLE patients that caused SLE. These pathways were: (1) high interferon levels, (2) high autoantibody levels, and (3) dysregulation of the mitochondrial apoptosis pathway. The first two pathways have been extensively studied in SLE. However, mitochondrial apoptosis has not been investigated before to the best of our knowledge as a standalone cause of SLE, independent of autoantibody production, indicating that mitochondrial proteins could lead to a new set of therapeutic targets for SLE in future research.
翻訳日:2022-09-28 02:29:47 公開日:2020-11-09
# ソーシャルメディアからのライブ知識集約による急激なエピデミック情報伝達の課題と機会

Challenges and Opportunities in Rapid Epidemic Information Propagation with Live Knowledge Aggregation from Social Media ( http://arxiv.org/abs/2011.05416v1 )

ライセンス: Link先を確認
Calton Pu, Abhijit Suprem, and Rodrigo Alves Lima(参考訳) 新型コロナウイルス(COVID-19)のパンデミックのような急速に発展している状況は、予測不可能なため、AI/MLモデルにとって重要な課題である。 %) で, 感染拡大の最も確実な指標は, 検査陽性例数であった。 しかし、テストは(無症状の場合によって)不完全であり、遅い(最初の接触イベントからの遅延、症状の悪化、テスト結果)。 ソーシャルメディアは、より高速で高いカバレッジのために物理的なテストデータを補完することができるが、ノイズ、誤報、偽情報など、異なる課題を提示する。 2つの条件が満たされれば、ソーシャルメディアはパンデミックの指標になり得ると我々は信じている。 第1話(True Novelty)は、予測不可能な進化の状況から新しい未知の情報を取得することである。 第2の(Fact vs. Fiction)は、検証可能な事実と誤報と偽情報の区別である。 これら2つの条件を満たすソーシャルメディア情報は、ライブナレッジと呼ばれる。 我々は,証拠に基づく知識獲得(EBKA)アプローチを適用し,ソーシャルメディアソースと権威ソースの統合を通じて生の知識を収集し,フィルタリングし,更新する。 限られた量ではあるが、信頼できる情報源からの訓練データにより、偽情報のフィルタリングと真に新しい情報を取得することができる。 EBKAを実装したEDNA/LITMUSツールについて,TwitterやFacebookなどのソーシャルメディアをWHOやCDCなどの権威ソースと統合し,新型コロナウイルスのパンデミックに関するライブ知識を作成し,更新する。

A rapidly evolving situation such as the COVID-19 pandemic is a significant challenge for AI/ML models because of its unpredictability. %The most reliable indicator of the pandemic spreading has been the number of test positive cases. However, the tests are both incomplete (due to untested asymptomatic cases) and late (due the lag from the initial contact event, worsening symptoms, and test results). Social media can complement physical test data due to faster and higher coverage, but they present a different challenge: significant amounts of noise, misinformation and disinformation. We believe that social media can become good indicators of pandemic, provided two conditions are met. The first (True Novelty) is the capture of new, previously unknown, information from unpredictably evolving situations. The second (Fact vs. Fiction) is the distinction of verifiable facts from misinformation and disinformation. Social media information that satisfy those two conditions are called live knowledge. We apply evidence-based knowledge acquisition (EBKA) approach to collect, filter, and update live knowledge through the integration of social media sources with authoritative sources. Although limited in quantity, the reliable training data from authoritative sources enable the filtering of misinformation as well as capturing truly new information. We describe the EDNA/LITMUS tools that implement EBKA, integrating social media such as Twitter and Facebook with authoritative sources such as WHO and CDC, creating and updating live knowledge on the COVID-19 pandemic.
翻訳日:2022-09-28 02:29:27 公開日:2020-11-09
# 新型コロナウイルスの隔離ベッドの緊急時キャパシティ制約の予測

Forecasting Emergency Department Capacity Constraints for COVID Isolation Beds ( http://arxiv.org/abs/2011.06058v1 )

ライセンス: Link先を確認
Erik Drysdale, Devin Singh, Anna Goldenberg(参考訳) 病院における患者数予測は、時系列予測のよく研究された応用である。 既存のツールは通常、人員要件の計画を支援するために、毎日または毎週のレベルで予測を行う。 当院の救急医療部門では,新たに新型コロナウイルス関連の容量制限が課せられ,24時間にわたって予測を行うための予測ツールを開発した。 これらの予測は病院に十分な時間を与え、容量の拡大とスタッフの増員(例えば病棟の転換や、電話で医師を連れてくるなど)に資する。 GPR(Gaussian Process Regressions) を用いて, 病院の容量の基準値(平均精度/リコール率82%/74%)を予測する際に, 点数予測(平均R-2乗82%)と分類精度の両立を図った。 従来の回帰アプローチと比較して、GPRは一貫して高いパフォーマンスを得るだけでなく、2020年を通じて発生したデータセットシフトにも堅牢である。 病院の利害関係者は結果の強さに励まされ、現在、医療従事者の能力向上を目標に、ツールをリアルタイムな環境に移行する作業を行っています。

Predicting patient volumes in a hospital setting is a well-studied application of time series forecasting. Existing tools usually make forecasts at the daily or weekly level to assist in planning for staffing requirements. Prompted by new COVID-related capacity constraints placed on our pediatric hospital's emergency department, we developed an hourly forecasting tool to make predictions over a 24 hour window. These forecasts would give our hospital sufficient time to be able to martial resources towards expanding capacity and augmenting staff (e.g. transforming wards or bringing in physicians on call). Using Gaussian Process Regressions (GPRs), we obtain strong performance for both point predictions (average R-squared: 82%) as well as classification accuracy when predicting the ordinal tiers of our hospital's capacity (average precision/recall: 82%/74%). Compared to traditional regression approaches, GPRs not only obtain consistently higher performance, but are also robust to the dataset shifts that have occurred throughout 2020. Hospital stakeholders are encouraged by the strength of our results, and we are currently working on moving our tool to a real-time setting with the goal of augmenting the capabilities of our healthcare workers.
翻訳日:2022-09-28 02:29:00 公開日:2020-11-09
# superdeconfuse: 金融取引システムのための教師付き深層畳み込み変換に基づく融合フレームワーク

SuperDeConFuse: A Supervised Deep Convolutional Transform based Fusion Framework for Financial Trading Systems ( http://arxiv.org/abs/2011.04364v1 )

ライセンス: Link先を確認
Pooja Gupta, Angshul Majumdar, Emilie Chouzenoux, Giovanni Chierchia(参考訳) 本研究では,金融株取引のための多チャンネル時系列学習フレームワークを提案する。 この領域では近年、多くのディープラーニングモデルが提案されているが、そのほとんどは株式取引時系列データを2次元画像データとして扱うが、その真の性質は1次元時系列データである。 ストックトレーディングシステムはマルチチャネルデータであるため、1次元時系列データとして扱う多くの既存の手法は、複数のチャネルが持つ情報を効果的に融合させる手法を示唆していない。 これらの欠点を両立するために,我々は,以前に確立された(教師なし)畳み込み変換学習フレームワークに着想を得た,エンドツーエンドの教師付き学習フレームワークを提案する。 我々のアプローチは、データチャネルを別々の1次元畳み込み層で処理し、出力を一連の完全連結層で融合し、最終的にsoftmax分類層を適用することで成り立っている。 フレームワークSuperDeConFuse(SDCF)の特徴は、マルチチャネル畳み込み層と完全連結層の間に位置する非線形活性化と、後者と出力層の間に位置する非線型活性化を除去することである。 学習段階では,上記の層出力とフィルタに適切な正則化を導入することで,この除去を補う。 具体的には、層フィルタに対数行列正則化を適用し、学習した変換の対称性と力の多様性を損なう一方、層出力に非負性制約を適用し、死んだニューロンの問題を緩和する。 これにより、標準的な畳み込みニューラルネットワークに関して、よりリッチな特徴とフィルタのセットを効果的に学習することができる。 数値実験により,提案モデルにより,ストックトレーディングの現実問題に対する最先端のディープラーニング技術よりもかなり優れた結果が得られることを確認した。

This work proposes a supervised multi-channel time-series learning framework for financial stock trading. Although many deep learning models have recently been proposed in this domain, most of them treat the stock trading time-series data as 2-D image data, whereas its true nature is 1-D time-series data. Since the stock trading systems are multi-channel data, many existing techniques treating them as 1-D time-series data are not suggestive of any technique to effectively fusion the information carried by the multiple channels. To contribute towards both of these shortcomings, we propose an end-to-end supervised learning framework inspired by the previously established (unsupervised) convolution transform learning framework. Our approach consists of processing the data channels through separate 1-D convolution layers, then fusing the outputs with a series of fully-connected layers, and finally applying a softmax classification layer. The peculiarity of our framework - SuperDeConFuse (SDCF), is that we remove the nonlinear activation located between the multi-channel convolution layers and the fully-connected layers, as well as the one located between the latter and the output layer. We compensate for this removal by introducing a suitable regularization on the aforementioned layer outputs and filters during the training phase. Specifically, we apply a logarithm determinant regularization on the layer filters to break symmetry and force diversity in the learnt transforms, whereas we enforce the non-negativity constraint on the layer outputs to mitigate the issue of dead neurons. This results in the effective learning of a richer set of features and filters with respect to a standard convolutional neural network. Numerical experiments confirm that the proposed model yields considerably better results than state-of-the-art deep learning techniques for real-world problem of stock trading.
翻訳日:2022-09-28 02:21:49 公開日:2020-11-09
# ジェネレーティブ・ディバイサル・ネットワークを用いたリアルタイム位置空間価格予測

Real-time Locational Marginal Price Forecasting Using Generative Adversarial Network ( http://arxiv.org/abs/2011.04717v1 )

ライセンス: Link先を確認
Zhongxia Zhang, Meng Wu(参考訳) 本稿では,電力市場におけるrtlmps(real-time locational marginal price)予測のためのモデルフリー非教師なし学習手法を提案する。 RTLMPデータを時系列行列からなる3次元テンソルに整理することにより、RTLMP予測問題を、時系列RTLMPテンソルを与えられた予測されたRTLMPを用いて次の行列を生成する問題として定式化し、RTLMP予測のための生成逆ネットワーク(GAN)モデルを提案する。 提案手法は, システム全体のRTLMP間の時空間相関を, 歴史的RTLMPテンソルの形式で保存する。 提案モデルでは, 歴史的RTLMPテンソルを用いて時空間相関を学習し, 統計的に類似し, 時間的に一致するRTLMPを生成する。 提案手法では,システムパラメータやトポロジー,運用条件などのシステムモデルの機密情報を含まず,公開価格データのみを用いてシステム全体のrtlmpsを予測する。 提案手法の有効性は,南西電力プール(SPP)の歴史的RTLMPデータを用いたケーススタディにより検証した。

In this paper, we propose a model-free unsupervised learning approach to forecast real-time locational marginal prices (RTLMPs) in wholesale electricity markets. By organizing system-wide hourly RTLMP data into a 3-dimensional (3D) tensor consisting of a series of time-indexed matrices, we formulate the RTLMP forecasting problem as a problem of generating the next matrix with forecasted RTLMPs given the historical RTLMP tensor, and propose a generative adversarial network (GAN) model to forecast RTLMPs. The proposed formulation preserves the spatio-temporal correlations among system-wide RTLMPs in the format of historical RTLMP tensor. The proposed GAN model learns the spatio-temporal correlations using the historical RTLMP tensors and generate RTLMPs that are statistically similar and temporally coherent to the historical RTLMP tensor. The proposed approach forecasts system-wide RTLMPs using only publicly available historical price data, without involving confidential information of system model, such as system parameters, topology, or operating conditions. The effectiveness of the proposed approach is verified through case studies using historical RTLMP data in Southwest Power Pool (SPP).
翻訳日:2022-09-28 02:20:32 公開日:2020-11-09
# TrimTuner: サブサンプリングによるクラウド上の機械学習ジョブの効率的な最適化

TrimTuner: Efficient Optimization of Machine Learning Jobs in the Cloud via Sub-Sampling ( http://arxiv.org/abs/2011.04726v1 )

ライセンス: Link先を確認
Pedro Mendes, Maria Casimiro, Paolo Romano, David Garlan(参考訳) この研究は、クラウド上で機械学習ジョブを最適化する最初のシステムであるTrimTunerを導入し、サブサンプリング技術を利用して、ユーザの指定した制約を考慮しつつ、最適化プロセスのコストを削減する。 trimtunerはクラウドとアプリケーション固有のパラメータを共同で最適化し、state of the art works for cloud optimizationとは異なり、新しい構成がサンプル化されるたびに、フルトレーニングセットでモデルをトレーニングする必要がなくなる。 実際,従来のものよりも60倍小さいサブサンプリング技術とデータセットを活用することで,最適化プロセスのコストを最大50倍に削減できることを示す。 さらに,サブサンプリング技術を用いたハイパーパラメータ最適化技術の現状に関して,TrimTunerは推奨プロセスを65倍高速化する。 この改善の理由は2つあります 一 取得機能を評価する必要のある構成の数を減少させる新規なドメイン固有ヒューリスティック 二 推薦プロセスの速度を一等級に向上させることができる決定ツリーの集合体の採用

This work introduces TrimTuner, the first system for optimizing machine learning jobs in the cloud to exploit sub-sampling techniques to reduce the cost of the optimization process while keeping into account user-specified constraints. TrimTuner jointly optimizes the cloud and application-specific parameters and, unlike state of the art works for cloud optimization, eschews the need to train the model with the full training set every time a new configuration is sampled. Indeed, by leveraging sub-sampling techniques and data-sets that are up to 60x smaller than the original one, we show that TrimTuner can reduce the cost of the optimization process by up to 50x. Further, TrimTuner speeds-up the recommendation process by 65x with respect to state of the art techniques for hyper-parameter optimization that use sub-sampling techniques. The reasons for this improvement are twofold: i) a novel domain specific heuristic that reduces the number of configurations for which the acquisition function has to be evaluated; ii) the adoption of an ensemble of decision trees that enables boosting the speed of the recommendation process by one additional order of magnitude.
翻訳日:2022-09-28 02:19:50 公開日:2020-11-09
# バッチワイズ確率的インクリメンタルデータクリーニング

Batchwise Probabilistic Incremental Data Cleaning ( http://arxiv.org/abs/2011.04730v1 )

ライセンス: Link先を確認
Paulo H. Oliveira, Daniel S. Kaster, Caetano Traina-Jr., Ihab F. Ilyas(参考訳) データとデータの品質の問題の欠如は、多くの組織で人工知能がさらなる採用を妨げ、データサイエンティストが分析的な質問に答える前にデータのクリーニングに時間を費やすという、大きなボトルネックの1つだ。 したがって、より効率的で効率的なデータクリーニングソリューションが必要である。 本報告は,逐次バッチで取得した固定ルールセットと進化するカテゴリリレーショナルデータセットを考慮し,総括的データのクリーニングを段階的に行う問題に対処する。 私たちの知識を最大限に活用するために、私たちの貢献はデータをクリーン化する最初のインクリメンタルフレームワークを構成する。 i) ユーザの介入とは独立して (二 属性ごとのクラス数等の入ってくるデータセットについての知識を必要とせず (iii)階層的に複数のエラータイプを同時に修復できるため、相反する修正を避けることができる。 広範な実験の結果,我々のアプローチは,修復品質,実行時間,メモリ消費に関して,競合製品よりも優れています。

Lack of data and data quality issues are among the main bottlenecks that prevent further artificial intelligence adoption within many organizations, pushing data scientists to spend most of their time cleaning data before being able to answer analytical questions. Hence, there is a need for more effective and efficient data cleaning solutions, which, not surprisingly, is rife with theoretical and engineering problems. This report addresses the problem of performing holistic data cleaning incrementally, given a fixed rule set and an evolving categorical relational dataset acquired in sequential batches. To the best of our knowledge, our contributions compose the first incremental framework that cleans data (i) independently of user interventions, (ii) without requiring knowledge about the incoming dataset, such as the number of classes per attribute, and (iii) holistically, enabling multiple error types to be repaired simultaneously, and thus avoiding conflicting repairs. Extensive experiments show that our approach outperforms the competitors with respect to repair quality, execution time, and memory consumption.
翻訳日:2022-09-28 02:19:35 公開日:2020-11-09
# MPRNet:軽量画像超解像のためのマルチパス残像ネットワーク

MPRNet: Multi-Path Residual Network for Lightweight Image Super Resolution ( http://arxiv.org/abs/2011.04566v1 )

ライセンス: Link先を確認
Armin Mehri, Parichehr B.Ardakani, Angel D.Sappa(参考訳) 軽量超解像ネットワークは現実世界のアプリケーションにとって極めて重要である。 近年、記憶と計算コストを犠牲にすることで、卓越した実績を持つSRディープラーニングアプローチがいくつか導入されている。 この問題を解決するために,軽量srにおけるsota性能を向上し,計算コストの高いネットワークとほぼ同様の性能を実現する,新しい軽量スーパーレゾリューションネットワークを提案する。 適応的な残差ブロックを積み重ねたマルチパス残差ネットワーク設計:(i$) 情報的特徴を適応的に抽出し、より表現力のある空間的コンテキスト情報を学ぶ;(ii$) アップサンプリングステージの前にマルチレベル表現をよりよく活用する;(iii$) ネットワーク内の効率的な情報と勾配フローを可能にする。 提案アーキテクチャには新たなアテンション機構であるTwo-Fold Attention Moduleが含まれており,モデルの表現能力を最大化することができる。 我々のモデルが他のSOTA SRアプローチよりも優れていることを示す大規模な実験を行った。

Lightweight super resolution networks have extremely importance for real-world applications. In recent years several SR deep learning approaches with outstanding achievement have been introduced by sacrificing memory and computational cost. To overcome this problem, a novel lightweight super resolution network is proposed, which improves the SOTA performance in lightweight SR and performs roughly similar to computationally expensive networks. Multi-Path Residual Network designs with a set of Residual concatenation Blocks stacked with Adaptive Residual Blocks: ($i$) to adaptively extract informative features and learn more expressive spatial context information; ($ii$) to better leverage multi-level representations before up-sampling stage; and ($iii$) to allow an efficient information and gradient flow within the network. The proposed architecture also contains a new attention mechanism, Two-Fold Attention Module, to maximize the representation ability of the model. Extensive experiments show the superiority of our model against other SOTA SR approaches.
翻訳日:2022-09-28 02:12:43 公開日:2020-11-09
# 高速フーリエ固有ネットワーク

Fast Fourier Intrinsic Network ( http://arxiv.org/abs/2011.04612v1 )

ライセンス: Link先を確認
Yanlin Qian and Miaojing Shi and Joni-Kristian K\"am\"ar\"ainen and Jiri Matas(参考訳) イメージをアルベドとシェーディングに分解する問題に対処する。 本稿では、スペクトル領域で動作し、入力を複数のスペクトル帯域に分割する高速フーリエ固有ネットワークであるffi-netを提案する。 ffi-netの重みはスペクトル領域で最適化され、より低い誤差に高速に収束できる。 ffi-netは軽量で、トレーニングに補助ネットワークは必要ない。 ネットワークは、ネットワーク予測と対応する地上真実とのグローバル距離を測定する新しいスペクトル損失でエンドツーエンドに訓練される。 FFI-Netは、MPI-Sintel、MIT Intrinsic、IIWデータセット上で最先端のパフォーマンスを達成する。

We address the problem of decomposing an image into albedo and shading. We propose the Fast Fourier Intrinsic Network, FFI-Net in short, that operates in the spectral domain, splitting the input into several spectral bands. Weights in FFI-Net are optimized in the spectral domain, allowing faster convergence to a lower error. FFI-Net is lightweight and does not need auxiliary networks for training. The network is trained end-to-end with a novel spectral loss which measures the global distance between the network prediction and corresponding ground truth. FFI-Net achieves state-of-the-art performance on MPI-Sintel, MIT Intrinsic, and IIW datasets.
翻訳日:2022-09-28 02:12:24 公開日:2020-11-09
# 胸部CTスキャンとディープラーニングを用いた説明可能な新型コロナウイルス検出

Explainable COVID-19 Detection Using Chest CT Scans and Deep Learning ( http://arxiv.org/abs/2011.05317v1 )

ライセンス: Link先を確認
Hammam Alshazly and Christoph Linse and Erhardt Barth and Thomas Martinetz(参考訳) 本稿では,胸部CT画像に基づいて訓練した深層学習モデルが,迅速かつ自動化されたプロセスで新型コロナウイルス感染者の診断に有効かを検討する。 この目的のために,高度なディープネットワークアーキテクチャを採用し,各ディープアーキテクチャ用にカスタマイズされたカスタムサイズ入力を用いた転送学習戦略を提案する。 我々は2つのCT画像データセット、SARS-CoV-2 CTスキャンとCOVID19-CTで広範囲に実験を行った。 その結果,sars-cov-2データセットの平均精度,精度,感度,特異性,f1スコアは99.4%,99.6%,99.8%,99.6%,99.4%,99.4%,92.9%,91.3%,93.7%,92.2%,92.5%であった。 さらに,モデルの予測に視覚的説明を与えるために2つの可視化手法を適用した。 可視化された画像は、他の肺疾患からのcovid-19のct画像と、covid-19関連領域の正確な局在を示す。

This paper explores how well deep learning models trained on chest CT images can diagnose COVID-19 infected people in a fast and automated process. To this end, we adopt advanced deep network architectures and propose a transfer learning strategy using custom-sized input tailored for each deep architecture to achieve the best performance. We conduct extensive sets of experiments on two CT image datasets, namely the SARS-CoV-2 CT-scan and the COVID19-CT. The obtained results show superior performances for our models compared with previous studies, where our best models achieve average accuracy, precision, sensitivity, specificity and F1 score of 99.4%, 99.6%, 99.8%, 99.6% and 99.4% on the SARS-CoV-2 dataset; and 92.9%, 91.3%, 93.7%, 92.2% and 92.5% on the COVID19-CT dataset, respectively. Furthermore, we apply two visualization techniques to provide visual explanations for the models' predictions. The visualizations show well-separated clusters for CT images of COVID-19 from other lung diseases, and accurate localizations of the COVID-19 associated regions.
翻訳日:2022-09-28 02:11:57 公開日:2020-11-09
# DoWhy: 因果推論のためのエンドツーエンドライブラリ

DoWhy: An End-to-End Library for Causal Inference ( http://arxiv.org/abs/2011.04216v1 )

ライセンス: Link先を確認
Amit Sharma, Emre Kiciman(参考訳) 治療効果の効率的な統計的推定器に加えて、因果推論の成功した応用には、観測されたデータの基礎となるメカニズムや、それらが有効かどうか、そしてどの程度の程度かの仮定が要求される。 しかし、因果推論のためのほとんどのライブラリは、強力な統計推定子を提供するタスクのみに焦点を当てている。 因果仮定を特定してテストするための因果グラフの形式的フレームワークに基づいて、因果仮定を第一級市民として構築したオープンソースのPythonライブラリであるDoWhyについて説明する。 do why presented a api for the four steps with any causal analysis---1) 因果グラフと構造的仮定を使ってデータをモデル化する。 2 因果モデルにおいて、所望の効果が推定可能か否かの特定。 3)統計的推定器を用いて効果を推定し,最後に 4)ロバストネスチェックと感度分析により得られた推定値に反論する。 特にdowhyは、placeboテスト、ブートストラップテスト、unoberved confoundingのテストなど、数多くの堅牢性チェックを実装している。 DoWhyは、見積もりステップのためのEconMLやCausalMLなど、他の実装との相互運用性をサポートする拡張可能なライブラリである。 このライブラリはhttps://github.com/microsoft/dowhyで入手できる。

In addition to efficient statistical estimators of a treatment's effect, successful application of causal inference requires specifying assumptions about the mechanisms underlying observed data and testing whether they are valid, and to what extent. However, most libraries for causal inference focus only on the task of providing powerful statistical estimators. We describe DoWhy, an open-source Python library that is built with causal assumptions as its first-class citizens, based on the formal framework of causal graphs to specify and test causal assumptions. DoWhy presents an API for the four steps common to any causal analysis---1) modeling the data using a causal graph and structural assumptions, 2) identifying whether the desired effect is estimable under the causal model, 3) estimating the effect using statistical estimators, and finally 4) refuting the obtained estimate through robustness checks and sensitivity analyses. In particular, DoWhy implements a number of robustness checks including placebo tests, bootstrap tests, and tests for unoberved confounding. DoWhy is an extensible library that supports interoperability with other implementations, such as EconML and CausalML for the the estimation step. The library is available at https://github.com/microsoft/dowhy
翻訳日:2022-09-28 02:11:37 公開日:2020-11-09
# POMDPのマルチエージェントロールアウトとポリシーイテレーションとマルチロボット修理問題への応用

Multiagent Rollout and Policy Iteration for POMDP with Application to Multi-Robot Repair Problems ( http://arxiv.org/abs/2011.04222v1 )

ライセンス: Link先を確認
Sushmita Bhattacharya, Siva Kailas, Sahil Badyal, Stephanie Gil, Dimitri Bertsekas(参考訳) 本稿では,有限状態と制御空間,部分状態の観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題について考察する。 マルチステップのルックアヘッド、既知の基本方針による切り抜きロールアウト、端末コスト関数近似を用いてエージェントの制御を同時にあるいは逐次最適化するアルゴリズムについて検討・比較する。 本手法は, 部分可観測マルチエージェント問題の計算課題を特に解決する。 特に 1) 標準ロールアウト法の主なコスト改善特性を維持しつつ, 必要な計算量を大幅に削減するロールアウトアルゴリズムを検討する。 我々のメソッドのステップごとの計算要件は、標準ロールアウトの$O(C^m)$と比較して$O(C^m)$であり、$C$は各エージェントの制御コンポーネントの制約セットの最大濃度であり、$m$はエージェントの数である。 2)本手法は,複数のロボットが協調して部分的な情報に基づいてシステムを検査・修復するロボット修復問題を含む,グラフ構造の問題に適用可能であることを示す。 3)本手法を既存の手法と比較したシミュレーション研究を行い,より大きく複雑な部分観測可能なマルチエージェント問題(状態空間サイズ10^{37}$,制御空間サイズ10^{7}$)を扱い得ることを示す。 最後に,我々のマルチエージェントロールアウトアルゴリズムを,ニューラルネットワーク分類器を用いて連続的なロールアウトポリシーを近似する近似ポリシー反復スキームのビルディングブロックとして組み込む。 このスキームは厳密なオフライン実装を必要とするが、計算実験ではうまく動作し、単一のオンラインロールアウトイテレーションメソッドよりも大幅にパフォーマンスが向上する。

In this paper we consider infinite horizon discounted dynamic programming problems with finite state and control spaces, partial state observations, and a multiagent structure. We discuss and compare algorithms that simultaneously or sequentially optimize the agents' controls by using multistep lookahead, truncated rollout with a known base policy, and a terminal cost function approximation. Our methods specifically address the computational challenges of partially observable multiagent problems. In particular: 1) We consider rollout algorithms that dramatically reduce required computation while preserving the key cost improvement property of the standard rollout method. The per-step computational requirements for our methods are on the order of $O(Cm)$ as compared with $O(C^m)$ for standard rollout, where $C$ is the maximum cardinality of the constraint set for the control component of each agent, and $m$ is the number of agents. 2) We show that our methods can be applied to challenging problems with a graph structure, including a class of robot repair problems whereby multiple robots collaboratively inspect and repair a system under partial information. 3) We provide a simulation study that compares our methods with existing methods, and demonstrate that our methods can handle larger and more complex partially observable multiagent problems (state space size $10^{37}$ and control space size $10^{7}$, respectively). Finally, we incorporate our multiagent rollout algorithms as building blocks in an approximate policy iteration scheme, where successive rollout policies are approximated by using neural network classifiers. While this scheme requires a strictly off-line implementation, it works well in our computational experiments and produces additional significant performance improvement over the single online rollout iteration method.
翻訳日:2022-09-28 02:11:19 公開日:2020-11-09
# エッジ上でのナノ孔ベースコール

Nanopore Base Calling on the Edge ( http://arxiv.org/abs/2011.04312v1 )

ライセンス: Link先を確認
Peter Pere\v{s}\'ini, Vladim\'ir Bo\v{z}a, Bro\v{n}a Brejov\'a, Tom\'a\v{s} Vina\v{r}(参考訳) 我々は,小型のUSB接続ハードウェアアクセラレータであるCoral Edge Tensor Processing Unitで動作するように最適化された,ナノ孔シークエンシングのための新しいベースコールのDeepNano-coralを開発した。 この目的を達成するために,我々は,畳み込みニューラルネットワークで音声認識とベース呼び出しに使用される2つの重要なコンポーネントの新バージョンを設計した。 提案するコンポーネントでは,コンボリューション全体を小さな操作に分解する新たな手法を提案し,メモリアクセス操作を減少させ,メモリアクセスをこのデバイスにおけるボトルネックとすることを提案する。 deepnano-coralは、シークエンシング中のリアルタイムベース呼び出しを、guppyベース呼び出しの高速モードよりもわずかに精度良く達成し、10wの電力しか使わず、非常にエネルギー効率が良い。 利用可能: https://github.com/fmfi-compbio/coral-basecaller

We developed a new base caller DeepNano-coral for nanopore sequencing, which is optimized to run on the Coral Edge Tensor Processing Unit, a small USB-attached hardware accelerator. To achieve this goal, we have designed new versions of two key components used in convolutional neural networks for speech recognition and base calling. In our components, we propose a new way of factorization of a full convolution into smaller operations, which decreases memory access operations, memory access being a bottleneck on this device. DeepNano-coral achieves real-time base calling during sequencing with the accuracy slightly better than the fast mode of the Guppy base caller and is extremely energy efficient, using only 10W of power. Availability: https://github.com/fmfi-compbio/coral-basecaller
翻訳日:2022-09-28 02:10:06 公開日:2020-11-09
# フーリエペアのベイズ的再建

Bayesian Reconstruction of Fourier Pairs ( http://arxiv.org/abs/2011.04585v1 )

ライセンス: Link先を確認
Felipe Tobar and Lerko Araya-Hern\'andez and Pablo Huijse and Petar M. Djuri\'c(参考訳) 不整脈の検出、干渉法、オーディオ圧縮など、多くのデータ駆動型アプリケーションにおいて、観測は時間または周波数領域において不連続に取得される:時間的観察により信号のスペクトル内容(音声など)の研究が可能となり、周波数領域の観測は時間的/空間的データ(MRIなど)の再構成に使用される。 スペクトル分析の古典的なアプローチはどちらかに依存する 一 時間領域及び周波数領域の離散化であって、ファストフーリエ変換が既成資源の \textit{de facto} として際立っているもの、又は 二 閉形式スペクトルを有するひもつきパラメトリックモデル しかし、一般文献では観測の欠如やノイズに満ちたデータに対応できない。 我々の目的は、時間領域と周波数領域において、不連続に取得されたデータの原則的処理が欠如していることに対処することであり、また、モデルが効果的に不確実であることである。 この目的を達成するために、まず、信号の時間的およびスペクトル的表現のための連立確率モデルを定義し、観測結果からベイズモデルの更新を行い、完全な(相対的な)時間と周波数表現を共同で再構築する。 提案モデルは古典的スペクトル解析の観点から分析され,その実装は直観的な例で示される。 最後に,提案手法は,実世界の音声,医療,天文学の信号の同時時間と周波数の再構成を可能とし,不確実性(ノイズ)を自然に処理し,スペクトル推定のための古典的手法と現代的手法の両方に対抗できることを示す。

In a number of data-driven applications such as detection of arrhythmia, interferometry or audio compression, observations are acquired indistinctly in the time or frequency domains: temporal observations allow us to study the spectral content of signals (e.g., audio), while frequency-domain observations are used to reconstruct temporal/spatial data (e.g., MRI). Classical approaches for spectral analysis rely either on i) a discretisation of the time and frequency domains, where the fast Fourier transform stands out as the \textit{de facto} off-the-shelf resource, or ii) stringent parametric models with closed-form spectra. However, the general literature fails to cater for missing observations and noise-corrupted data. Our aim is to address the lack of a principled treatment of data acquired indistinctly in the temporal and frequency domains in a way that is robust to missing or noisy observations, and that at the same time models uncertainty effectively. To achieve this aim, we first define a joint probabilistic model for the temporal and spectral representations of signals, to then perform a Bayesian model update in the light of observations, thus jointly reconstructing the complete (latent) time and frequency representations. The proposed model is analysed from a classical spectral analysis perspective, and its implementation is illustrated through intuitive examples. Lastly, we show that the proposed model is able to perform joint time and frequency reconstruction of real-world audio, healthcare and astronomy signals, while successfully dealing with missing data and handling uncertainty (noise) naturally against both classical and modern approaches for spectral estimation.
翻訳日:2022-09-28 02:04:00 公開日:2020-11-09
# ロバスト終端音声認識のための統合学習フレームワークを用いたGated Recurrent Fusion

Gated Recurrent Fusion with Joint Training Framework for Robust End-to-End Speech Recognition ( http://arxiv.org/abs/2011.04249v1 )

ライセンス: Link先を確認
Cunhang Fan, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Bin Liu, Zhengqi Wen(参考訳) 音声強調・認識のための合同学習フレームワークは,頑健なエンドツーエンド自動音声認識 (asr) のための優れた性能を得た。 しかし,これらの手法は,音声歪み問題の影響を受けやすい音声認識成分の入力としてのみ,拡張機能を利用する。 この問題に対処するために,ロバストなエンドツーエンドASRのための共同トレーニングフレームワークを備えたゲートリカレント融合(GRF)手法を提案する。 GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。 したがって、grfは、拡張特徴からノイズ信号を除去するだけでなく、ノイズ特徴から生の微細構造を学習することにより、音声歪みを緩和することができる。 提案手法は, 音声強調, GRF, 音声認識からなる。 まず、マスクベースの音声強調ネットワークを適用して、入力音声を強化する。 次に、GRFを適用して、音声歪み問題に対処する。 第3に,ASRの性能向上のために,音声認識コンポーネントとして最先端の音声トランスフォーマーアルゴリズムを用いる。 最後に、これら3つのコンポーネントを同時に最適化するために、ジョイントトレーニングフレームワークを利用する。 実験はAISHELL-1と呼ばれるオープンソースのマンダリン音声コーパスを用いて行った。 実験結果から,提案手法は従来の関節拡張・変圧器法よりも10.04\%の相対的文字誤り率(CER)の低減を実現していることがわかった。 特に低信号対雑音比 (0 db) の場合, 提案手法は 12.67 % cer 削減による性能向上を達成できるため, 提案手法の可能性を示唆する。

The joint training framework for speech enhancement and recognition methods have obtained quite good performances for robust end-to-end automatic speech recognition (ASR). However, these methods only utilize the enhanced feature as the input of the speech recognition component, which are affected by the speech distortion problem. In order to address this problem, this paper proposes a gated recurrent fusion (GRF) method with joint training framework for robust end-to-end ASR. The GRF algorithm is used to dynamically combine the noisy and enhanced features. Therefore, the GRF can not only remove the noise signals from the enhanced features, but also learn the raw fine structures from the noisy features so that it can alleviate the speech distortion. The proposed method consists of speech enhancement, GRF and speech recognition. Firstly, the mask based speech enhancement network is applied to enhance the input speech. Secondly, the GRF is applied to address the speech distortion problem. Thirdly, to improve the performance of ASR, the state-of-the-art speech transformer algorithm is used as the speech recognition component. Finally, the joint training framework is utilized to optimize these three components, simultaneously. Our experiments are conducted on an open-source Mandarin speech corpus called AISHELL-1. Experimental results show that the proposed method achieves the relative character error rate (CER) reduction of 10.04\% over the conventional joint enhancement and transformer method only using the enhanced features. Especially for the low signal-to-noise ratio (0 dB), our proposed method can achieves better performances with 12.67\% CER reduction, which suggests the potential of our proposed method.
翻訳日:2022-09-28 02:03:28 公開日:2020-11-09
# オートエンコーダとadversarial trainingを用いた話者識別システム

Speaker De-identification System using Autoencoders and Adversarial Training ( http://arxiv.org/abs/2011.04696v1 )

ライセンス: Link先を確認
Fernando M. Espinoza-Cuadros, Juan M. Perero-Codosero, Javier Ant\'on-Mart\'in, Luis A. Hern\'andez-G\'omez(参考訳) ユーザーから個人データを収集するウェブサービスやモバイルアプリの急速な増加は、プライバシーが深刻な侵害を受けるリスクを増大させる。 特に、ディープラーニングの目覚ましいブレークスルーによって強化された、さまざまな音声言語インターフェースと音声アシスタントは、euにおいて音声データのプライバシを維持するための重要な懸念を招いている。 例えば、攻撃者はユーザーからの音声を録音し、音声識別を必要とするシステムへのアクセスを偽造することができる。 音声信号から話者、言語(方言など)、およびパラ言語的特徴(年齢など)を抽出する既存の技術によって、ユーザから話者プロファイルをハックすることも可能である。 そこで本稿では,これらの弱点を軽減すべく,音声からの話者・性別・アクセント情報を抑制するために,敵対的訓練と自動エンコーダに基づく話者識別システムを提案する。 実験結果から, 対向学習とオートエンコーダの併用は, 匿名化音声コンテンツの可知性を保ちながら, 話者検証システムの等価な誤り率を増大させることが示された。

The fast increase of web services and mobile apps, which collect personal data from users, increases the risk that their privacy may be severely compromised. In particular, the increasing variety of spoken language interfaces and voice assistants empowered by the vertiginous breakthroughs in Deep Learning are prompting important concerns in the European Union to preserve speech data privacy. For instance, an attacker can record speech from users and impersonate them to get access to systems requiring voice identification. Hacking speaker profiles from users is also possible by means of existing technology to extract speaker, linguistic (e.g., dialect) and paralinguistic features (e.g., age) from the speech signal. In order to mitigate these weaknesses, in this paper, we propose a speaker de-identification system based on adversarial training and autoencoders in order to suppress speaker, gender, and accent information from speech. Experimental results show that combining adversarial learning and autoencoders increase the equal error rate of a speaker verification system while preserving the intelligibility of the anonymized spoken content.
翻訳日:2022-09-28 02:02:28 公開日:2020-11-09
# 視覚慣性局在を補助する幾何学的構造

Geometric Structure Aided Visual Inertial Localization ( http://arxiv.org/abs/2011.04173v1 )

ライセンス: Link先を確認
Huaiyang Huang, Haoyang Ye, Jianhao Jiao, Yuxiang Sun, Ming Liu(参考訳) 視覚局在は自律ナビゲーションにおいて必須の要素である。 既存のアプローチはSLAM/SfMの視覚構造や密集写像の幾何学構造に基づいている。 本研究の利点を両立させるために,ハイブリッドマップ表現に基づく完全視覚慣性局所化システムを提案し,計算コストの低減と位置決め精度の向上を図る。 特に,データアソシエーションとバッチ最適化のための2つのモジュールを提案する。 この目的のために,地図成分と局所特徴を関連付ける効率的なデータアソシエーションモジュールを開発し,時間的ランドマークを生成するのにわずか2$msしかかからない。 バッチ最適化では,視覚的な要因を使わずに,瞬間的局所化結果より先にポーズを推定し,ポーズを制約するモジュールを開発した。 EuRoC MAVデータセットの実験結果は、芸術の状況と比較して競争力のある性能を示している。 特に,本システムは平均位置誤差を1.7cmとし,100%リコールを行う。 提案したモジュールは計算コストを20~30%削減する。 実装はhttp://github.com/hyhuang1995/gmmlocでオープンソースにします。

Visual Localization is an essential component in autonomous navigation. Existing approaches are either based on the visual structure from SLAM/SfM or the geometric structure from dense mapping. To take the advantages of both, in this work, we present a complete visual inertial localization system based on a hybrid map representation to reduce the computational cost and increase the positioning accuracy. Specially, we propose two modules for data association and batch optimization, respectively. To this end, we develop an efficient data association module to associate map components with local features, which takes only $2$ms to generate temporal landmarks. For batch optimization, instead of using visual factors, we develop a module to estimate a pose prior from the instant localization results to constrain poses. The experimental results on the EuRoC MAV dataset demonstrate a competitive performance compared to the state of the arts. Specially, our system achieves an average position error in 1.7 cm with 100% recall. The timings show that the proposed modules reduce the computational cost by 20-30%. We will make our implementation open source at http://github.com/hyhuang1995/gmmloc.
翻訳日:2022-09-28 02:02:08 公開日:2020-11-09
# PAMS:パラメータ化最大スケールによる量子化超解法

PAMS: Quantized Super-Resolution via Parameterized Max Scale ( http://arxiv.org/abs/2011.04212v1 )

ライセンス: Link先を確認
Huixia Li, Chenqian Yan, Shaohui Lin, Xiawu Zheng, Yuchao Li, Baochang Zhang, Fan Yang, Rongrong Ji(参考訳) 深部畳み込みニューラルネットワーク(DCNN)は,超解像処理(SR)において優位な性能を示した。 しかし、そのメモリコストと計算オーバーヘッドは、主に浮動小数点記憶と重みとアクティベーションの間の操作から生じるリソース制限されたデバイスへの実際の展開を著しく制限する。 従来は固定点演算が主だったが、重みとアクティベーションの両方を固定符号長で定量化することは、特に低ビットでは大幅な性能低下を引き起こす可能性がある。 具体的には、バッチ正規化のない最先端のSRモデルの多くは、大きな動的量子化範囲を持ち、性能低下の原因でもある。 そこで本研究では,この2つの問題に対処するために,学習可能な切断パラメータを適応的に量子化範囲の上界を探索するために,パラメータ化maxスケール (pams) と呼ばれる新しい量子化スキームを提案する。 最後に、構造化知識転送(skt)損失を導入し、量子化ネットワークを微調整する。 大規模な実験により,提案手法がEDSRやRDNといった既存のSRモデルを適切に圧縮・加速できることが示されている。 特に8ビットPAMS-EDSRは、Set5ベンチマークのPSNRを32.095dBから32.124dBに2.42$\times$圧縮比で改善した。

Deep convolutional neural networks (DCNNs) have shown dominant performance in the task of super-resolution (SR). However, their heavy memory cost and computation overhead significantly restrict their practical deployments on resource-limited devices, which mainly arise from the floating-point storage and operations between weights and activations. Although previous endeavors mainly resort to fixed-point operations, quantizing both weights and activations with fixed coding lengths may cause significant performance drop, especially on low bits. Specifically, most state-of-the-art SR models without batch normalization have a large dynamic quantization range, which also serves as another cause of performance drop. To address these two issues, we propose a new quantization scheme termed PArameterized Max Scale (PAMS), which applies the trainable truncated parameter to explore the upper bound of the quantization range adaptively. Finally, a structured knowledge transfer (SKT) loss is introduced to fine-tune the quantized network. Extensive experiments demonstrate that the proposed PAMS scheme can well compress and accelerate the existing SR models such as EDSR and RDN. Notably, 8-bit PAMS-EDSR improves PSNR on Set5 benchmark from 32.095dB to 32.124dB with 2.42$\times$ compression ratio, which achieves a new state-of-the-art.
翻訳日:2022-09-28 02:01:51 公開日:2020-11-09
# 頻繁なアイテムセットマイニングのためのトランザクションデータベースの特徴付け

Characterizing Transactional Databases for Frequent Itemset Mining ( http://arxiv.org/abs/2011.04378v1 )

ライセンス: Link先を確認
Christian Lezcano, Marta Arias(参考訳) 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。 このような特徴付けは、一般的にこれらのデータベースで動くデータマイニングアルゴリズムのベンチマークと理解に使われてきた。 本研究の目的は,これらのベンチマークデータベースがいかに多様で代表的であるかを,文献にみられる特定の経験的研究の文脈において,概して示すことにある。 提案するメトリクスリストには,文献で見られる既存のメトリクスと,新たなメトリクスが含まれている。 我々の研究は、我々のメトリクスのリストがデータセットの内部の複雑さの多くを捉えることができ、トランザクションデータセットのキャラクタリゼーションに良い基礎を提供することを示している。 最後に、安全ベンチマークとして使用可能な特徴に基づく代表データセットのセットを提供する。

This paper presents a study of the characteristics of transactional databases used in frequent itemset mining. Such characterizations have typically been used to benchmark and understand the data mining algorithms working on these databases. The aim of our study is to give a picture of how diverse and representative these benchmarking databases are, both in general but also in the context of particular empirical studies found in the literature. Our proposed list of metrics contains many of the existing metrics found in the literature, as well as new ones. Our study shows that our list of metrics is able to capture much of the datasets' inner complexity and thus provides a good basis for the characterization of transactional datasets. Finally, we provide a set of representative datasets based on our characterization that may be used as a benchmark safely.
翻訳日:2022-09-28 01:55:10 公開日:2020-11-09
# MatRec: 高スキューデータセットの行列分解

MatRec: Matrix Factorization for Highly Skewed Dataset ( http://arxiv.org/abs/2011.04395v1 )

ライセンス: Link先を確認
Hao Wang, Bing Ruan(参考訳) recommender systemsは、インターネット協力において最も成功したai技術の1つである。 TikTok、Amazon、YouTubeなどの人気のインターネット製品は、いずれもコア製品機能として推奨システムを統合している。 推奨システムは大きな成功を収めているが、高度に歪んだデータセットでよく知られているが、エンジニアや研究者は、適切な結果を得るために特定の問題に取り組む方法を調整する必要がある。 高度に歪んだデータセットを扱うことができないと、通常、ビッグデータクラスタのハードコンピュート問題や、顧客にとって不満足な結果が発生する。 本稿では,行列分解の枠組みにおける問題を解く新しいアルゴリズムを提案する。 計算式を容易に解釈し、実装し易いアプローチの理論的モデリングにおけるデータ歪率因子をモデル化する。 提案手法は,Learning to Rank,Alternating Least Squares,Deep Matrix Factorizationといった,一般的な推薦システムアルゴリズムを用いて,比較可能な好結果を生成する。

Recommender systems is one of the most successful AI technologies applied in the internet cooperations. Popular internet products such as TikTok, Amazon, and YouTube have all integrated recommender systems as their core product feature. Although recommender systems have received great success, it is well known for highly skewed datasets, engineers and researchers need to adjust their methods to tackle the specific problem to yield good results. Inability to deal with highly skewed dataset usually generates hard computational problems for big data clusters and unsatisfactory results for customers. In this paper, we propose a new algorithm solving the problem in the framework of matrix factorization. We model the data skewness factors in the theoretic modeling of the approach with easy to interpret and easy to implement formulas. We prove in experiments our method generates comparably favorite results with popular recommender system algorithms such as Learning to Rank , Alternating Least Squares and Deep Matrix Factorization.
翻訳日:2022-09-28 01:54:58 公開日:2020-11-09
# 鏡の中のロボット : 鏡自己認識の具体化計算モデルに向けて

Robot in the mirror: toward an embodied computational model of mirror self-recognition ( http://arxiv.org/abs/2011.04485v1 )

ライセンス: Link先を確認
Matej Hoffmann, Shengzhi Wang, Vojtech Outrata, Elisabet Alzueta, Pablo Lanillos(参考訳) 自己認識または自己認識は、典型的には人間や他の少数の種にのみ帰属する能力である。 これらの概念の定義は様々であり、その背後にあるメカニズムについてはほとんど知られていない。 しかし、チューリングテストのようなベンチマークがある:鏡の自己認識は、テスト対象者の顔に秘密裏にマークを付け、彼女を鏡の前に置き、反応を観察している。 この作業では、まず、このテストに合格するために必要なコンポーネントの機械的分解、すなわちプロセスモデルを提供します。 これらをもとに,実証研究への提案を行う。 特に、我々の見解では、幼児や動物がマークに到達する方法は、詳細に研究されるべきである。 第2に,ヒューマノイドロボットであるnaoがテストに合格するモデルを開発した。 我々の技術貢献の核心は、深層自己エンコーダで顔の生成モデルを学習し、予測誤差を利用して外観表現と視覚的新規性検出を学習することである。 マークは顔のサルエント領域として識別され、以前に学習した腕関節角度へのマッピングに依存して、到達動作がトリガーされる。 アーキテクチャは、まったく異なる顔を持つ2つのロボットでテストされる。

Self-recognition or self-awareness is a capacity attributed typically only to humans and few other species. The definitions of these concepts vary and little is known about the mechanisms behind them. However, there is a Turing test-like benchmark: the mirror self-recognition, which consists in covertly putting a mark on the face of the tested subject, placing her in front of a mirror, and observing the reactions. In this work, first, we provide a mechanistic decomposition, or process model, of what components are required to pass this test. Based on these, we provide suggestions for empirical research. In particular, in our view, the way the infants or animals reach for the mark should be studied in detail. Second, we develop a model to enable the humanoid robot Nao to pass the test. The core of our technical contribution is learning the appearance representation and visual novelty detection by means of learning the generative model of the face with deep auto-encoders and exploiting the prediction error. The mark is identified as a salient region on the face and reaching action is triggered, relying on a previously learned mapping to arm joint angles. The architecture is tested on two robots with a completely different face.
翻訳日:2022-09-28 01:54:43 公開日:2020-11-09
# 少数の端末でシュタイナー木問題を解決する

Solving the Steiner Tree Problem with few Terminals ( http://arxiv.org/abs/2011.04593v1 )

ライセンス: Link先を確認
Johannes K. Fichte, Markus Hecher, Andre Schidler(参考訳) シュタイナー木問題は、ネットワーク設計、ルーティング、vlsi設計においてよく知られた問題である。 グラフ、エッジコスト、専用の頂点(終点)が与えられたとき、シュタイナーツリー問題は、最小コストですべての端末を接続するサブグラフを出力するように要求する。 動的計画法によってシュタイナー木問題を解決するための最先端のアルゴリズムはダイクストラ-シュタイナーアルゴリズムである。 このアルゴリズムは、端末のサブセットに基づいて小さなインスタンスを体系的に検索し、これらの小さなインスタンスにSteinerツリーを組み合わせることで、インスタンス全体のSteinerツリーを構築する。 検索は、検索空間を損なうために、導くヒューリスティックな機能に大きく依存している。 しかし、正確性を確保するため、このアルゴリズムは限定的なヒューリスティック関数、すなわちいわゆる一貫性条件を満たす関数のみを許容する。 本稿では,Dijkstra-Steinerアルゴリズムを強化し,DS*と呼ばれる再検討アルゴリズムを確立する。 DS*アルゴリズムは、ヒューリスティック関数の前の条件を緩和するヒューリスティックスとして任意の下界を許容する。 特に、線形プログラミングベースの下限が使えるようになりました。 さらに, 許容可能性と呼ばれる条件下でのヒューリスティック関数に対する新たな要件を捉えた。 そこで本研究では,DS*アルゴリズムの適合性は一貫性よりも弱いことを示し,許容ヒューリスティック関数を用いた場合の正当性を確立する。 我々はDS*を実装し、それを現代的な前処理と組み合わせることで、オープンソースソルバ(DS* Solve)を実現する。 最後に、標準ベンチマークのパフォーマンスを比較し、競争行動を観察する。

The Steiner tree problem is a well-known problem in network design, routing, and VLSI design. Given a graph, edge costs, and a set of dedicated vertices (terminals), the Steiner tree problem asks to output a sub-graph that connects all terminals at minimum cost. A state-of-the-art algorithm to solve the Steiner tree problem by means of dynamic programming is the Dijkstra-Steiner algorithm. The algorithm builds a Steiner tree of the entire instance by systematically searching for smaller instances, based on subsets of the terminals, and combining Steiner trees for these smaller instances. The search heavily relies on a guiding heuristic function in order to prune the search space. However, to ensure correctness, this algorithm allows only for limited heuristic functions, namely, those that satisfy a so-called consistency condition. In this paper, we enhance the Dijkstra-Steiner algorithm and establish a revisited algorithm, called DS*. The DS* algorithm allows for arbitrary lower bounds as heuristics relaxing the previous condition on the heuristic function. Notably, we can now use linear programming based lower bounds. Further, we capture new requirements for a heuristic function in a condition, which we call admissibility. We show that admissibility is indeed weaker than consistency and establish correctness of the DS* algorithm when using an admissible heuristic function. We implement DS* and combine it with modern preprocessing, resulting in an open-source solver (DS* Solve). Finally, we compare its performance on standard benchmarks and observe a competitive behavior.
翻訳日:2022-09-28 01:54:25 公開日:2020-11-09
# 階層的強化学習による交差点における行動計画

Behavior Planning at Urban Intersections through Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2011.04697v1 )

ライセンス: Link先を確認
Zhiqian Qiao, Jeff Schneider and John M. Dolan(参考訳) 自動運転車では、エゴカーの安全性を確保するためには効果的な行動計画が不可欠である。 多くの都市シナリオでは、特に新しい人間のドライバーが困難であるような挑戦的なシナリオに対して、十分に一般的なヒューリスティックなルールを作成するのは難しい。 本研究では,シミュレーション都市環境において階層構造を持つ自律車両行動計画が可能な強化学習(rl)に基づく行動計画構造を提案する。 階層構造の適用により、行動計画システムの様々な層を満足させることができる。 提案アルゴリズムは,車線閉塞やエゴ車前方の遅延による交差点に近づく際に,車線変更が可能な車線変更が可能な車線間を左折するといった,ヒューリスティックルールに基づく選択決定法よりも優れている。 このような行動は正しくも正しくも評価するのは難しいが、攻撃的な専門家の人間ドライバーはそのようなシナリオを効果的に迅速に扱う。 一方,従来のRL法と比較して,本アルゴリズムは学習過程において,ハイブリッド報酬機構とヒューリスティック探索を用いることにより,よりサンプリング効率がよい。 また,提案手法は従来のRL法よりも高速に最適方針に収束することを示した。

For autonomous vehicles, effective behavior planning is crucial to ensure safety of the ego car. In many urban scenarios, it is hard to create sufficiently general heuristic rules, especially for challenging scenarios that some new human drivers find difficult. In this work, we propose a behavior planning structure based on reinforcement learning (RL) which is capable of performing autonomous vehicle behavior planning with a hierarchical structure in simulated urban environments. Application of the hierarchical structure allows the various layers of the behavior planning system to be satisfied. Our algorithms can perform better than heuristic-rule-based methods for elective decisions such as when to turn left between vehicles approaching from the opposite direction or possible lane-change when approaching an intersection due to lane blockage or delay in front of the ego car. Such behavior is hard to evaluate as correct or incorrect, but for some aggressive expert human drivers handle such scenarios effectively and quickly. On the other hand, compared to traditional RL methods, our algorithm is more sample-efficient, due to the use of a hybrid reward mechanism and heuristic exploration during the training process. The results also show that the proposed method converges to an optimal policy faster than traditional RL methods.
翻訳日:2022-09-28 01:53:28 公開日:2020-11-09
# 自己運転のための強化学習を用いた安全軌道計画

Safe Trajectory Planning Using Reinforcement Learning for Self Driving ( http://arxiv.org/abs/2011.04702v1 )

ライセンス: Link先を確認
Josiah Coad, Zhiqian Qiao, John M. Dolan(参考訳) 自動運転車は、多様で難しい環境でインテリジェントに行動できなければならず、高次元の状態空間、無数の最適化目標、複雑な行動が特徴である。 伝統的に、古典的な最適化と探索技術は自動運転の問題に応用されてきたが、高次元状態や複雑な振る舞いを持つ環境での操作を完全には扱っていない。 近年,自動運転の課題として模倣学習が提案されているが,十分なトレーニングデータを得るためには労力を要する。 強化学習は車を直接制御する方法として提案されているが、これは安全性と快適性に懸念がある。 自動運転車の軌道計画段階におけるモデルフリー強化学習を提案し,本手法により,自動運転作業に必要な安全で汎用的で快適な運転が可能となることを示す。

Self-driving vehicles must be able to act intelligently in diverse and difficult environments, marked by high-dimensional state spaces, a myriad of optimization objectives and complex behaviors. Traditionally, classical optimization and search techniques have been applied to the problem of self-driving; but they do not fully address operations in environments with high-dimensional states and complex behaviors. Recently, imitation learning has been proposed for the task of self-driving; but it is labor-intensive to obtain enough training data. Reinforcement learning has been proposed as a way to directly control the car, but this has safety and comfort concerns. We propose using model-free reinforcement learning for the trajectory planning stage of self-driving and show that this approach allows us to operate the car in a more safe, general and comfortable manner, required for the task of self driving.
翻訳日:2022-09-28 01:53:05 公開日:2020-11-09
# 階層型強化学習による自動運転車の軌道計画

Trajectory Planning for Autonomous Vehicles Using Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2011.04752v1 )

ライセンス: Link先を確認
Kaleb Ben Naveed, Zhiqian Qiao and John M. Dolan(参考訳) 不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。 RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には適していない。 模倣学習のような教師付き学習方法は一般化や安全性の保証が欠如している。 これらの問題に対処し,ロバストな枠組みを確保するため,軌道計画のための階層的強化学習(hrl)構造と比例積分型導出型(pid)コントローラを提案する。 HRLは、自動運転のタスクをサブゴールに分割し、高レベルのオプションと低レベルのトラジェクティブプランナーの選択のポリシーを学ぶためのネットワークをサポートする。 サブゴールの導入は収束時間を短縮し、学習したポリシーを他のシナリオで再利用できるようにする。 さらに、スムーズな軌跡を保証し、エゴカーの騒音知覚システムを扱うことにより、提案したプランナを堅牢化する。 PIDコントローラはウェイポイントを追跡するのに使われ、スムーズな軌跡を確保できる。 不完全な観測の問題は、ネットワーク内のLong-Short-Term-Memory (LSTM)層を用いて処理される。 高忠実度carlaシミュレータによる結果は,提案手法が収束時間を短縮し,より滑らかな軌道を生成し,動的環境や騒音観測を処理できることを示す。

Planning safe trajectories under uncertain and dynamic conditions makes the autonomous driving problem significantly complex. Current sampling-based methods such as Rapidly Exploring Random Trees (RRTs) are not ideal for this problem because of the high computational cost. Supervised learning methods such as Imitation Learning lack generalization and safety guarantees. To address these problems and in order to ensure a robust framework, we propose a Hierarchical Reinforcement Learning (HRL) structure combined with a Proportional-Integral-Derivative (PID) controller for trajectory planning. HRL helps divide the task of autonomous vehicle driving into sub-goals and supports the network to learn policies for both high-level options and low-level trajectory planner choices. The introduction of sub-goals decreases convergence time and enables the policies learned to be reused for other scenarios. In addition, the proposed planner is made robust by guaranteeing smooth trajectories and by handling the noisy perception system of the ego-car. The PID controller is used for tracking the waypoints, which ensures smooth trajectories and reduces jerk. The problem of incomplete observations is handled by using a Long-Short-Term-Memory (LSTM) layer in the network. Results from the high-fidelity CARLA simulator indicate that the proposed method reduces convergence time, generates smoother trajectories, and is able to handle dynamic surroundings and noisy observations.
翻訳日:2022-09-28 01:52:51 公開日:2020-11-09
# 人間とロボットのインタラクションにおける信頼のモデリング

Modeling Trust in Human-Robot Interaction: A Survey ( http://arxiv.org/abs/2011.04796v1 )

ライセンス: Link先を確認
Zahra Rezaei Khavas, Reza Ahmadzadeh, Paul Robinette(参考訳) ロボットシステムの自律性と能力が増加するにつれて、彼らはツールよりもチームメイトの役割を担い、より現実的な方法で人間の協力者と対話し、より人間的な関係を生み出すことが期待される。 人間-ロボット相互作用(HRI)における信頼の影響を考えると、ロボット協調者に対する適切な信頼は、人間-ロボット相互作用のパフォーマンスに影響を及ぼす主要な要因の1つである。 限られた経験に基づいてロボットを軽視したり誤用したりすることで、適切にロボットを信頼しなければ、チームのパフォーマンスは低下する可能性がある。 したがって、HRIに対する信頼を最大化するのではなく適切に調整し、人間の協力者に対する適切な信頼のレベルを形成する必要がある。 HRIの信頼性校正には、まず信頼をモデル化する必要がある。 HRIの信頼に影響を及ぼす要因については、多くのレビューがあるが、異なる信頼モデルに注目するレビューは存在しないため、本論文では、HRIにおける信頼モデリングのための様々な技術や手法についてレビューする。 また,今後,人間とロボットの信頼モデリングにおいて取り組むべき課題について,今後の研究の方向性と今後の課題について紹介する。

As the autonomy and capabilities of robotic systems increase, they are expected to play the role of teammates rather than tools and interact with human collaborators in a more realistic manner, creating a more human-like relationship. Given the impact of trust observed in human-robot interaction (HRI), appropriate trust in robotic collaborators is one of the leading factors influencing the performance of human-robot interaction. Team performance can be diminished if people do not trust robots appropriately by disusing or misusing them based on limited experience. Therefore, trust in HRI needs to be calibrated properly, rather than maximized, to let the formation of an appropriate level of trust in human collaborators. For trust calibration in HRI, trust needs to be modeled first. There are many reviews on factors affecting trust in HRI, however, as there are no reviews concentrated on different trust models, in this paper, we review different techniques and methods for trust modeling in HRI. We also present a list of potential directions for further research and some challenges that need to be addressed in future work on human-robot trust modeling.
翻訳日:2022-09-28 01:52:25 公開日:2020-11-09
# ランダムな幾何学的摂動に対するコミュニティ検出のロバスト性

Robustness of Community Detection to Random Geometric Perturbations ( http://arxiv.org/abs/2011.04298v1 )

ライセンス: Link先を確認
Sandrine Peche and Vianney Perchet(参考訳) 我々は,頂点間の接続が潜在的(かつ観測されていない)ランダムな幾何グラフによって摂動される確率ブロックモデルを考える。 目的は、スペクトル法がランダムグラフの存在(あるいはそうでない)に非依存であっても、この種のノイズに対して堅牢であることを証明することである。 隣接行列の第2固有ベクトルが真のコミュニティベクトルと強く相関している(したがって、弱い/正確なリカバリが可能である)明示的なレギュレーションを提供する。 これは潜在ランダムグラフのスペクトルの詳細な分析によって可能であり、それ自体が興味を持っている。

We consider the stochastic block model where connection between vertices is perturbed by some latent (and unobserved) random geometric graph. The objective is to prove that spectral methods are robust to this type of noise, even if they are agnostic to the presence (or not) of the random graph. We provide explicit regimes where the second eigenvector of the adjacency matrix is highly correlated to the true community vector (and therefore when weak/exact recovery is possible). This is possible thanks to a detailed analysis of the spectrum of the latent random graph, of its own interest.
翻訳日:2022-09-28 01:45:06 公開日:2020-11-09
# confuse:マルチチャネルデータ解析のための畳み込み変換学習融合フレームワーク

ConFuse: Convolutional Transform Learning Fusion Framework For Multi-Channel Data Analysis ( http://arxiv.org/abs/2011.04317v1 )

ライセンス: Link先を確認
Pooja Gupta, Jyoti Maggu, Angshul Majumdar, Emilie Chouzenoux, Giovanni Chierchia(参考訳) 本研究は,マルチチャネル時系列データ % の解析問題に対処する。 本稿では,最近提案された畳み込み変換学習の%に基づいて,教師なしの融合フレームワークを提案する。 各チャネルは独立した1次元畳み込み変換によって処理され、すべてのチャネルの出力は変換学習の完全連結層によって融合される。 訓練手順は、活性化関数の近位解釈を利用する。 株の予測と取引のための多チャンネル財務データに開発フレームワークを適用した。 提案手法をベンチマークディープ時系列解析ネットワークと比較する。 その結果,本手法は比較した手法よりもかなり優れた結果が得られることがわかった。

This work addresses the problem of analyzing multi-channel time series data %. In this paper, we by proposing an unsupervised fusion framework based on %the recently proposed convolutional transform learning. Each channel is processed by a separate 1D convolutional transform; the output of all the channels are fused by a fully connected layer of transform learning. The training procedure takes advantage of the proximal interpretation of activation functions. We apply the developed framework to multi-channel financial data for stock forecasting and trading. We compare our proposed formulation with benchmark deep time series analysis networks. The results show that our method yields considerably better results than those compared against.
翻訳日:2022-09-28 01:44:54 公開日:2020-11-09
# DeConFuse : 深層畳み込み変換に基づく教師なし核融合フレームワーク

DeConFuse : A Deep Convolutional Transform based Unsupervised Fusion Framework ( http://arxiv.org/abs/2011.04337v1 )

ライセンス: Link先を確認
Pooja Gupta, Jyoti Maggu, Angshul Majumdar, Emilie Chouzenoux, Giovanni Chierchia(参考訳) 本稿では,深い畳み込み変換学習に基づく教師なし融合フレームワークを提案する。 データ解析のための畳み込みフィルタの優れた学習能力が認められている。 畳み込み機能の成功は、畳み込みニューラルネットワーク(CNN)によるものである。 しかし、CNNは教師なしの方法で学習タスクを実行することはできない。 最近の研究では、畳み込みフィルタを教師なしの方法で学習する畳み込み変換学習(ctl)アプローチを採用することで、このような欠点に対処できることを示した。 本稿の目的は i) CTLのより深いバージョンを提案すること (ii)提案されている深層ctl表現を利用した教師なし核融合製剤の提案 (iii)学習タスクを実行するための数学的に健全な最適化戦略の開発。 ストック予測とトレーディングの問題に対して,提案手法であるDeConFuseを適用した。 CNNと長期記憶ネットワークをベースとした最先端手法との比較により,信頼性の高い特徴抽出を行う手法の優位性を示した。

This work proposes an unsupervised fusion framework based on deep convolutional transform learning. The great learning ability of convolutional filters for data analysis is well acknowledged. The success of convolutive features owes to convolutional neural network (CNN). However, CNN cannot perform learning tasks in an unsupervised fashion. In a recent work, we show that such shortcoming can be addressed by adopting a convolutional transform learning (CTL) approach, where convolutional filters are learnt in an unsupervised fashion. The present paper aims at (i) proposing a deep version of CTL; (ii) proposing an unsupervised fusion formulation taking advantage of the proposed deep CTL representation; (iii) developing a mathematically sounded optimization strategy for performing the learning task. We apply the proposed technique, named DeConFuse, on the problem of stock forecasting and trading. Comparison with state-of-the-art methods (based on CNN and long short-term memory network) shows the superiority of our method for performing a reliable feature extraction.
翻訳日:2022-09-28 01:44:46 公開日:2020-11-09
# 分散データにおける解釈可能な協調データ解析

Interpretable collaborative data analysis on distributed data ( http://arxiv.org/abs/2011.04437v1 )

ライセンス: Link先を確認
Akira Imakura, Hiroaki Inaba, Yukihiko Okada, Tetsuya Sakurai(参考訳) 本稿では,分散データ分析の新たな技術であるフェデレーション学習システムの一つとして,非モデル共有協調データ分析手法を提案する。 分散データの分析は、プライバシや機密性の懸念による医療、財務、製造などの多くのアプリケーションにおいて不可欠である。 さらに、得られたモデルの解釈可能性は、連合学習システムの実用化に重要な役割を果たす。 それぞれのパーティで個別に構築された中間表現を集中化することにより,各パーティに分散した個々のデータや学習モデルを明らかにすることなく,協調的な分析を行うことができる。 数値実験により, 提案手法は, 個人分析よりも, 実世界の問題に対する認識性能の向上を図っている。

This paper proposes an interpretable non-model sharing collaborative data analysis method as one of the federated learning systems, which is an emerging technology to analyze distributed data. Analyzing distributed data is essential in many applications such as medical, financial, and manufacturing data analyses due to privacy, and confidentiality concerns. In addition, interpretability of the obtained model has an important role for practical applications of the federated learning systems. By centralizing intermediate representations, which are individually constructed in each party, the proposed method obtains an interpretable model, achieving a collaborative analysis without revealing the individual data and learning model distributed over local parties. Numerical experiments indicate that the proposed method achieves better recognition performance for artificial and real-world problems than individual analysis.
翻訳日:2022-09-28 01:44:13 公開日:2020-11-09
# ms患者軌跡の縦断モデルによる障害進行予測の改善

Longitudinal modeling of MS patient trajectories improves predictions of disability progression ( http://arxiv.org/abs/2011.04749v1 )

ライセンス: Link先を確認
Edward De Brouwer, Thijs Becker, Yves Moreau, Eva Kubala Havrdova, Maria Trojano, Sara Eichau, Serkan Ozakbas, Marco Onofrj, Pierre Grammond, Jens Kuhle, Ludwig Kappos, Patrizia Sola, Elisabetta Cartechini, Jeannette Lechner-Scott, Raed Alroughani, Oliver Gerlach, Tomas Kalincik, Franco Granella, Francois GrandMaison, Roberto Bergamaschi, Maria Jose Sa, Bart Van Wijmeersch, Aysun Soysal, Jose Luis Sanchez-Menoyo, Claudio Solaro, Cavit Boz, Gerardo Iuliano, Katherine Buzzard, Eduardo Aguera-Morales, Murat Terzi, Tamara Castillo Trivio, Daniele Spitaleri, Vincent Van Pesch, Vahid Shaygannej, Fraser Moore, Celia Oreja Guevara, Davide Maimone, Riadh Gouider, Tunde Csepany, Cristina Ramo-Tello, Liesbet Peeters(参考訳) 多発性硬化症(ms)の研究は最近、実世界の臨床データから知識を抽出することに重点を置いている。 この種のデータは、臨床試験中に生成されたデータよりも豊富であり、実際の臨床実践についてより有益である可能性がある。 しかし、これは、キュレーションとコントロールの少ないデータセットのコストが伴う。 本研究では, 散発的サンプリング問題に着目し, 実世界における縦断的患者データから情報を最適抽出する課題について述べる。 msbaseレジストリを用いて, 再帰ニューラルネットワークやテンソル因子化といった, 患者軌跡モデリングに適した機械学習手法を用いて, roc-auc 0.86 で2年経過した患者の障害進行を予測できることを示し, 臨床的特徴を用いた基準法と比較して, ランキングペア誤差 (1-auc) が33%減少することを示す。 文献で利用可能なモデルと比較すると,本研究はms疾患進行予測に最も完全な患者歴を用いる。

Research in Multiple Sclerosis (MS) has recently focused on extracting knowledge from real-world clinical data sources. This type of data is more abundant than data produced during clinical trials and potentially more informative about real-world clinical practice. However, this comes at the cost of less curated and controlled data sets. In this work, we address the task of optimally extracting information from longitudinal patient data in the real-world setting with a special focus on the sporadic sampling problem. Using the MSBase registry, we show that with machine learning methods suited for patient trajectories modeling, such as recurrent neural networks and tensor factorization, we can predict disability progression of patients in a two-year horizon with an ROC-AUC of 0.86, which represents a 33% decrease in the ranking pair error (1-AUC) compared to reference methods using static clinical features. Compared to the models available in the literature, this work uses the most complete patient history for MS disease progression prediction.
翻訳日:2022-09-28 01:43:48 公開日:2020-11-09
# 曲率認識勾配フィルタリングを用いた自己チューニング確率最適化

Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering ( http://arxiv.org/abs/2011.04803v1 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Dami Choi, Lukas Balles, David Duvenaud, Philipp Hennig(参考訳) 標準の1次確率最適化アルゴリズムは、平均的なミニバッチ勾配のみに基づいて更新を行い、曲率などの追加量の追跡は、一般的なハイパーパラメータの非感度化に役立つことが示されている。 この直観に基づき、サンプル毎のヘッセンベクトル積と勾配を用いて、自己チューニングおよびハイパーパラメータフリーなオプティマイザを構築する。 勾配の動的モデルに基づいて、曲率補正された雑音適応オンライン勾配推定につながる過程を導出する。 アップデートのスムーズさにより、単純なステップサイズの選択スキームがより快適になり、見積もりの量にも基づきます。 モデルに基づく手続きがうるさい二次設定に収束することを示す。 ディープラーニングタスクでは同じようなメリットは見られませんが、よく調整されたオプティマイザのパフォーマンスと一致します。

Standard first-order stochastic optimization algorithms base their updates solely on the average mini-batch gradient, and it has been shown that tracking additional quantities such as the curvature can help de-sensitize common hyperparameters. Based on this intuition, we explore the use of exact per-sample Hessian-vector products and gradients to construct optimizers that are self-tuning and hyperparameter-free. Based on a dynamics model of the gradient, we derive a process which leads to a curvature-corrected, noise-adaptive online gradient estimate. The smoothness of our updates makes it more amenable to simple step size selection schemes, which we also base off of our estimates quantities. We prove that our model-based procedure converges in the noisy quadratic setting. Though we do not see similar gains in deep learning tasks, we can match the performance of well-tuned optimizers and ultimately, this is an interesting step for constructing self-tuning optimizers.
翻訳日:2022-09-28 01:43:31 公開日:2020-11-09
# 弱改良セマンティックセグメンテーションにおけるエンド・ツー・エンド逆消去法

Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2011.04626v1 )

ライセンス: Link先を確認
Erik Stammes, Tom F.H. Runia, Michael Hofmann, Mohsen Ghafoorian(参考訳) セマンティクスセグメンテーションは伝統的にピクセルレベルの基底真理ラベルの大規模なデータセットを必要とするタスクであり、時間と費用がかかる。 近年の弱教師付き設定の進歩により、画像レベルラベルのみを用いて合理的な性能が得られるようになった。 分類はしばしば、注目マップを抽出するディープニューラルネットワークをトレーニングするためのプロキシタスクとして使用される。 しかし、分類タスクは予測を行うために最小の証拠のみを必要とするため、最も識別可能な対象領域に焦点を当てている。 この問題を克服するために,注目マップの逆消去の新たな定式化を提案する。 従来の敵対的消去手法とは対照的に,ある準最適戦略の要件を排除した2つのネットワークを最適化する。例えば,訓練過程を複雑化する複数のトレーニングステップや,異なる分散上で動作しているネットワーク間の重み共有ポリシが,性能に最適である可能性がある。 提案手法はサリエンシマスクを必要とせず, 注意マップの識別対象領域への拡散を防止するために, 正規化損失を用いる。 パスカルVOCデータセットを用いた実験により, 従来と比べ2.1mIoU, 1.0mIoUのセグメンテーション性能が向上することが示された。

Semantic segmentation is a task that traditionally requires a large dataset of pixel-level ground truth labels, which is time-consuming and expensive to obtain. Recent advancements in the weakly-supervised setting show that reasonable performance can be obtained by using only image-level labels. Classification is often used as a proxy task to train a deep neural network from which attention maps are extracted. However, the classification task needs only the minimum evidence to make predictions, hence it focuses on the most discriminative object regions. To overcome this problem, we propose a novel formulation of adversarial erasing of the attention maps. In contrast to previous adversarial erasing methods, we optimize two networks with opposing loss functions, which eliminates the requirement of certain suboptimal strategies; for instance, having multiple training steps that complicate the training process or a weight sharing policy between networks operating on different distributions that might be suboptimal for performance. The proposed solution does not require saliency masks, instead it uses a regularization loss to prevent the attention maps from spreading to less discriminative object regions. Our experiments on the Pascal VOC dataset demonstrate that our adversarial approach increases segmentation performance by 2.1 mIoU compared to our baseline and by 1.0 mIoU compared to previous adversarial erasing approaches.
翻訳日:2022-09-28 01:37:18 公開日:2020-11-09
# 画像におけるオントロジー駆動イベントタイプ分類

Ontology-driven Event Type Classification in Images ( http://arxiv.org/abs/2011.04714v1 )

ライセンス: Link先を確認
Eric M\"uller-Budack, Matthias Springstein, Sherzod Hakimov, Kevin Mrutzek, Ralph Ewerth(参考訳) イベント分類は、セマンティック検索やニュースにおける事実検証の重要トピックに価値ある情報を追加することができる。 これまでのところ、自然災害、スポーツイベント、選挙など、ニュース価値の高いイベントタイプの画像分類を扱うアプローチはごくわずかである。 以前の作業では、限られた数のイベントタイプのみを区別し、トレーニングのためにかなり小さなデータセットに依存している。 本稿では,画像中のイベントタイプを分類するためのオントロジー駆動型アプローチを提案する。 まず、ほとんどのイベントタイプを含むwikidataをベースにしたオントロジーを作成します。 第2に,Webクローリングによって得られた新しい大規模データセットを提案する。 知識グラフの構造化情報を活用し、ディープニューラルネットワークを使用して関連する事象関係を学習することを目的としたオントロジ駆動学習アプローチなど、いくつかのベースラインが提案されている。 既存および新しいベンチマークデータセットに対する実験結果は、提案したオントロジー駆動アプローチの優位性を示している。

Event classification can add valuable information for semantic search and the increasingly important topic of fact validation in news. So far, only few approaches address image classification for newsworthy event types such as natural disasters, sports events, or elections. Previous work distinguishes only between a limited number of event types and relies on rather small datasets for training. In this paper, we present a novel ontology-driven approach for the classification of event types in images. We leverage a large number of real-world news events to pursue two objectives: First, we create an ontology based on Wikidata comprising the majority of event types. Second, we introduce a novel large-scale dataset that was acquired through Web crawling. Several baselines are proposed including an ontology-driven learning approach that aims to exploit structured information of a knowledge graph to learn relevant event relations using deep neural networks. Experimental results on existing as well as novel benchmark datasets demonstrate the superiority of the proposed ontology-driven approach.
翻訳日:2022-09-28 01:36:51 公開日:2020-11-09
# 3次元形状編集のための意味パラメータ推定の学習

Learning to Infer Semantic Parameters for 3D Shape Editing ( http://arxiv.org/abs/2011.04755v1 )

ライセンス: Link先を確認
Fangyin Wei, Elena Sizikova, Avneesh Sud, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) 3d形状設計と拡張の多くの応用では、オブジェクトの意味パラメータ(例えば、人の腕のポーズや飛行機の翼の長さ)に特定の編集を行いながら、できるだけ多くの詳細を保存できる機能が必要である。 本稿では,入力形状の意味パラメータを推定し,そのパラメータをユーザが操作できるようにするディープネットワークの学習を提案する。 ネットワークは、補助的な合成テンプレートとラベルなしの現実的なモデルからの形状を共同で訓練し、可変性を保証し、リアルな模範をラベル付けする必要性を緩和する。 テスト時に、パラメータ空間内での編集は元の形状に適用される変形を駆動し、詳細を保存しながら意味的に意味のある操作を提供する。 これは、限られた潜在空間次元を持つオートエンコーダを使用し、任意の詳細を保存することができず、またはケージのような純粋に幾何学的な制御で変形を駆動し、局所部分領域を更新する能力を失う以前の方法とは対照的である。 椅子,飛行機,人体のデータセットを用いた実験により,従来の作業よりも自然に編集できることを示す。

Many applications in 3D shape design and augmentation require the ability to make specific edits to an object's semantic parameters (e.g., the pose of a person's arm or the length of an airplane's wing) while preserving as much existing details as possible. We propose to learn a deep network that infers the semantic parameters of an input shape and then allows the user to manipulate those parameters. The network is trained jointly on shapes from an auxiliary synthetic template and unlabeled realistic models, ensuring robustness to shape variability while relieving the need to label realistic exemplars. At testing time, edits within the parameter space drive deformations to be applied to the original shape, which provides semantically-meaningful manipulation while preserving the details. This is in contrast to prior methods that either use autoencoders with a limited latent-space dimensionality, failing to preserve arbitrary detail, or drive deformations with purely-geometric controls, such as cages, losing the ability to update local part regions. Experiments with datasets of chairs, airplanes, and human bodies demonstrate that our method produces more natural edits than prior work.
翻訳日:2022-09-28 01:36:39 公開日:2020-11-09
# ディープニューラルネットワークを用いたテキスト中の数学的定義の自動発見

Automated Discovery of Mathematical Definitions in Text with Deep Neural Networks ( http://arxiv.org/abs/2011.04521v1 )

ライセンス: Link先を確認
Natalia Vanetik, Marina Litvak, Sergey Shevchuk, and Lior Reznik(参考訳) テキストからの自動定義抽出は、要約、科学文書の分析、自動分類法生成、オントロジー生成、概念同定、質問応答など、いくつかの自然言語処理分野において多くの応用がある重要なタスクである。 単一文に含まれる定義については、この問題は文を定義と非定義に二分分類したものと見なすことができる。 本稿では,周辺テキストから切り離すのが難しい数学的テキストにおける一文定義の自動検出に焦点を当てる。 文の構文構造や単語の埋め込みを含む複数のデータ表現を実験し,CNN(Convolutional Neural Network)やLSTM(Long Short-Term Memory Network)といった深層学習手法を用いて数学的定義を同定する。 本実験は,CNNとLSTMの組み合わせの優位性を,構文的にリッチな入力表現に適用した場合に示すものである。 また,数理テキストから定義を抽出するための新しいデータセットを提案する。 このデータセットは数学的定義の抽出を目的とした教師付きモデルのトレーニングに有用であることを示す。 異なる領域での実験により、数学的定義は特別な処理を必要とし、そのタスクにクロスドメイン学習を使うことは非効率であることが証明された。

Automatic definition extraction from texts is an important task that has numerous applications in several natural language processing fields such as summarization, analysis of scientific texts, automatic taxonomy generation, ontology generation, concept identification, and question answering. For definitions that are contained within a single sentence, this problem can be viewed as a binary classification of sentences into definitions and non-definitions. In this paper, we focus on automatic detection of one-sentence definitions in mathematical texts, which are difficult to separate from surrounding text. We experiment with several data representations, which include sentence syntactic structure and word embeddings, and apply deep learning methods such as the Convolutional Neural Network (CNN) and the Long Short-Term Memory network (LSTM), in order to identify mathematical definitions. Our experiments demonstrate the superiority of CNN and its combination with LSTM, when applied on the syntactically-enriched input representation. We also present a new dataset for definition extraction from mathematical texts. We demonstrate that this dataset is beneficial for training supervised models aimed at extraction of mathematical definitions. Our experiments with different domains demonstrate that mathematical definitions require special treatment, and that using cross-domain learning is inefficient for that task.
翻訳日:2022-09-28 01:36:02 公開日:2020-11-09
# 逆意味衝突

Adversarial Semantic Collisions ( http://arxiv.org/abs/2011.04743v1 )

ライセンス: Link先を確認
Congzheng Song, Alexander M. Rush, Vitaly Shmatikov(参考訳) 意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。 我々は,意味的衝突を生成するための勾配に基づくアプローチを開発し,文章の意味と類似性(パラフレーズ識別,文書検索,応答提案,抽出要約など)の分析に依存する多くのタスクの最先端モデルが意味的衝突に対して脆弱であることを示す。 例えば、ターゲットクエリが与えられた場合、非関連文書にクラフト衝突を挿入すると、検索ランクが1000からトップ3にシフトする。 パープレキシティに基づくフィルタリングを回避する意味的衝突を発生させる方法を示し、他の潜在的な緩和について論じる。 私たちのコードはhttps://github.com/csong27/collision-bertで利用可能です。

We study semantic collisions: texts that are semantically unrelated but judged as similar by NLP models. We develop gradient-based approaches for generating semantic collisions and demonstrate that state-of-the-art models for many tasks which rely on analyzing the meaning and similarity of texts-- including paraphrase identification, document retrieval, response suggestion, and extractive summarization-- are vulnerable to semantic collisions. For example, given a target query, inserting a crafted collision into an irrelevant document can shift its retrieval rank from 1000 to top 3. We show how to generate semantic collisions that evade perplexity-based filtering and discuss other potential mitigations. Our code is available at https://github.com/csong27/collision-bert.
翻訳日:2022-09-28 01:35:42 公開日:2020-11-09
# CNNシフト不変性はどのようなものか? 可視化研究

What Does CNN Shift Invariance Look Like? A Visualization Study ( http://arxiv.org/abs/2011.04127v1 )

ライセンス: Link先を確認
Jake Lee, Junfeng Yang, Zhangyang Wang(参考訳) 畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。 これらの表現はグローバルな画像の内容を捉えようとしており、理想的には幾何学的変換とは独立していなければならない。 市販のcnnモデルから抽出した特徴のシフト不変性の測定と可視化に重点を置いている。 画像フレーム全体での局所的不変性(画素数個)と大域的不変性(画像フレーム全体)の両面から,数百万枚の画像の表現を指数関数的にシフトしたオブジェクトと比較した3つの実験結果を示す。 人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散内にバイアスやアーティファクトが存在すると結論付けている。 さらに, アンチエイリアスモデルが局所不変性を著しく改善するが, グローバル不分散には影響しないことを示す。 最後に、実験再現のためのコードリポジトリと、https://jakehlee.github.io/visualize-invarianceで結果とやり取りするwebサイトを提供します。

Feature extraction with convolutional neural networks (CNNs) is a popular method to represent images for machine learning tasks. These representations seek to capture global image content, and ideally should be independent of geometric transformations. We focus on measuring and visualizing the shift invariance of extracted features from popular off-the-shelf CNN models. We present the results of three experiments comparing representations of millions of images with exhaustively shifted objects, examining both local invariance (within a few pixels) and global invariance (across the image frame). We conclude that features extracted from popular networks are not globally invariant, and that biases and artifacts exist within this variance. Additionally, we determine that anti-aliased models significantly improve local invariance but do not impact global invariance. Finally, we provide a code repository for experiment reproduction, as well as a website to interact with our results at https://jakehlee.github.io/visualize-invariance.
翻訳日:2022-09-28 01:35:29 公開日:2020-11-09
# Lossy Label-Invariant Transformations を用いた分類信頼度の向上

Improving Classifier Confidence using Lossy Label-Invariant Transformations ( http://arxiv.org/abs/2011.04182v1 )

ライセンス: Link先を確認
Sooyong Jang, Insup Lee, James Weimer(参考訳) 信頼できるモデル不確実性推定を提供することは、自律エージェントや人間による堅牢な意思決定を可能にする上で不可欠である。 近年、訓練モデルの信頼性校正は大幅に進歩しているが、ほとんどの校正モデルでは校正が不十分な例が続いている。 その結果、入力のラベル不変変換(例えば入力多様体)を利用して最悪のケースの信頼性校正を改善する複数の手法が提案されている。 しかし、多様体ベースの信頼度校正技術は一般に、大きな入力空間(例:imagenet)を持つモデルに適用する場合、スケールしたり、高価な再訓練が必要となる。 本稿では、モデル再訓練を必要とせず、再帰的にグループ化(および校正)するために識別情報の損失を誘導する入力のラベル不変変換を利用する再帰的損失ラベル不変キャリブレーション(ReCal)手法を提案する。 ReCalは複数のデータセット、特にImageNetのような大規模データセットにおいて、他のキャリブレーション手法よりも優れていることを示す。

Providing reliable model uncertainty estimates is imperative to enabling robust decision making by autonomous agents and humans alike. While recently there have been significant advances in confidence calibration for trained models, examples with poor calibration persist in most calibrated models. Consequently, multiple techniques have been proposed that leverage label-invariant transformations of the input (i.e., an input manifold) to improve worst-case confidence calibration. However, manifold-based confidence calibration techniques generally do not scale and/or require expensive retraining when applied to models with large input spaces (e.g., ImageNet). In this paper, we present the recursive lossy label-invariant calibration (ReCal) technique that leverages label-invariant transformations of the input that induce a loss of discriminatory information to recursively group (and calibrate) inputs - without requiring model retraining. We show that ReCal outperforms other calibration methods on multiple datasets, especially, on large-scale datasets such as ImageNet.
翻訳日:2022-09-28 01:34:54 公開日:2020-11-09
# スパース行列再構成とインクリメンタルアプローチによる高速・高精度擬似逆解析

Fast and Accurate Pseudoinverse with Sparse Matrix Reordering and Incremental Approach ( http://arxiv.org/abs/2011.04235v1 )

ライセンス: Link先を確認
Jinhong Jung and Lee Sael(参考訳) 最適化問題を解くためにスパース特徴行列の擬逆を効率的に正確に計算する方法 pseudoinverseは行列逆の一般化であり、機械学習における線形システムを解くための基本的な構築ブロックとして広く利用されている。 しかし、擬似逆の正確な計算は、その要求される時間的複雑さのために非常に時間がかかり、大きなデータに適用されることが制限される。 本稿では,スパース行列に対する新たなインクリメンタル特異値分解法であるFastPI(Fast Pseudo Inverse)を提案する。 多くの実世界の特徴行列がスパースで高度に歪んでいるという観測に基づいて、FastPIは特徴行列を並べ替えて分割し、分割されたコンポーネントから低ランクSVDを漸進的に計算する。 提案手法の有効性を示すために,実世界の多ラベル線形回帰問題に適用する。 実験により,FastPIは精度を損なうことなく,他の近似手法よりも高速に擬似逆計算を行うことを示した。 %と、フルランクSVDベースのアプローチに比べてはるかに少ないメモリを使用する。 その結果,既存の手法では時間と空間が制限されない大小行列の低ランク擬似逆数を効率的に計算できることが示唆された。

How can we compute the pseudoinverse of a sparse feature matrix efficiently and accurately for solving optimization problems? A pseudoinverse is a generalization of a matrix inverse, which has been extensively utilized as a fundamental building block for solving linear systems in machine learning. However, an approximate computation, let alone an exact computation, of pseudoinverse is very time-consuming due to its demanding time complexity, which limits it from being applied to large data. In this paper, we propose FastPI (Fast PseudoInverse), a novel incremental singular value decomposition (SVD) based pseudoinverse method for sparse matrices. Based on the observation that many real-world feature matrices are sparse and highly skewed, FastPI reorders and divides the feature matrix and incrementally computes low-rank SVD from the divided components. To show the efficacy of proposed FastPI, we apply them in real-world multi-label linear regression problems. Through extensive experiments, we demonstrate that FastPI computes the pseudoinverse faster than other approximate methods without loss of accuracy. %and uses much less memory compared to full-rank SVD based approach. Results imply that our method efficiently computes the low-rank pseudoinverse of a large and sparse matrix that other existing methods cannot handle with limited time and space.
翻訳日:2022-09-28 01:34:36 公開日:2020-11-09
# sketch-inspector: 猫の高品質スケッチ生成のための深層混合モデル

Sketch-Inspector: a Deep Mixture Model for High-Quality Sketch Generation of Cats ( http://arxiv.org/abs/2011.04280v1 )

ライセンス: Link先を確認
Yunkui Pang, Zhiqing Pan, Ruiyang Sun, Shuchong Wang(参考訳) 人工知能(AI)の関与により、スケッチは特定のトピックの下で自動的に生成される。 この分野では以前の研究でブレークスルーが行われていたが、生成された数字の比較的高い割合は認識できないほど抽象的であり、aisは描画時に対象オブジェクトの一般的なパターンを学ばないことを示している。 本稿では,脳卒中発生過程の監視がより正確なスケッチ解釈につながることを示唆する。 そこで本論文では,次のストロークの形状を示唆する,畳み込みニューラルネットワーク(cnn)予測器を用いたスケッチ生成システムを提案する。 さらに、CNNに基づく識別器を導入し、最終製品の認識可能性を判断する。 ベースラインモデルはマルチクラスのスケッチを生成するのに有効ではないため、モデルを1つのカテゴリに制限する。 猫の画像は識別が容易であるため,quickdrawデータセットから選択した猫スケッチを考察する。 本稿では,提案モデルとオリジナルのSketch-RNNを75Kの猫のスケッチで比較する。 その結果,本モデルは人間のスケッチよりも高品質なスケッチを生成することがわかった。

With the involvement of artificial intelligence (AI), sketches can be automatically generated under certain topics. Even though breakthroughs have been made in previous studies in this area, a relatively high proportion of the generated figures are too abstract to recognize, which illustrates that AIs fail to learn the general pattern of the target object when drawing. This paper posits that supervising the process of stroke generation can lead to a more accurate sketch interpretation. Based on that, a sketch generating system with an assistant convolutional neural network (CNN) predictor to suggest the shape of the next stroke is presented in this paper. In addition, a CNN-based discriminator is introduced to judge the recognizability of the end product. Since the base-line model is ineffective at generating multi-class sketches, we restrict the model to produce one category. Because the image of a cat is easy to identify, we consider cat sketches selected from the QuickDraw data set. This paper compares the proposed model with the original Sketch-RNN on 75K human-drawn cat sketches. The result indicates that our model produces sketches with higher quality than human's sketches.
翻訳日:2022-09-28 01:28:44 公開日:2020-11-09
# FACEGAN: Facial Attribute Controllable rEenactment GAN

FACEGAN: Facial Attribute Controllable rEenactment GAN ( http://arxiv.org/abs/2011.04439v1 )

ライセンス: Link先を確認
Soumya Tripathy, Juho Kannala and Esa Rahtu(参考訳) 顔再現法(face reenactment)は、人物の身元を音源画像から、顔の動きを駆動画像から取り出す一般的な顔アニメーション法である。 最近の研究は、顔のランドマークに基づく動き表現と生成的敵ネットワークを組み合わせることで、高品質な結果を示している。 これらのモデルは、ソースとドライブイメージが同一人物を描いたり、あるいは顔の構造が非常に似通っている場合に最もよく機能する。 しかし、同一性が異なっても、駆動する顔面構造は再現結果を歪ませる出力に漏れる。 本稿では,行動単位(AU)表現を介して運転顔から顔の動きを伝達するFACEGAN(Facial Attribute Controllable rEenactment GAN)を提案する。 顔のランドマークとは異なり、AUは顔の構造から独立しており、アイデンティティの漏洩を防ぐ。 さらに、AUは再現を制御するための人間の解釈可能な方法を提供する。 FACEGANは、最適化された出力品質のためにバックグラウンドとフェイス領域を別々に処理する。 大規模な量的および質的な比較は、単一のソース再実行タスクにおける最先端よりも明らかに改善されている。 その結果は補充材料に提供される再現ビデオで最もよく示されている。 ソースコードは、論文の公開時に公開される予定だ。

The face reenactment is a popular facial animation method where the person's identity is taken from the source image and the facial motion from the driving image. Recent works have demonstrated high quality results by combining the facial landmark based motion representations with the generative adversarial networks. These models perform best if the source and driving images depict the same person or if the facial structures are otherwise very similar. However, if the identity differs, the driving facial structures leak to the output distorting the reenactment result. We propose a novel Facial Attribute Controllable rEenactment GAN (FACEGAN), which transfers the facial motion from the driving face via the Action Unit (AU) representation. Unlike facial landmarks, the AUs are independent of the facial structure preventing the identity leak. Moreover, AUs provide a human interpretable way to control the reenactment. FACEGAN processes background and face regions separately for optimized output quality. The extensive quantitative and qualitative comparisons show a clear improvement over the state-of-the-art in a single source reenactment task. The results are best illustrated in the reenactment video provided in the supplementary material. The source code will be made available upon publication of the paper.
翻訳日:2022-09-28 01:26:53 公開日:2020-11-09
# DynaVSR:動的適応ブラインドビデオスーパーリゾリューション

DynaVSR: Dynamic Adaptive Blind Video Super-Resolution ( http://arxiv.org/abs/2011.04482v1 )

ライセンス: Link先を確認
Suyoung Lee, Myungsub Choi, Kyoung Mu Lee(参考訳) 従来のスーパーレゾリューション(SR)アルゴリズムは、高解像度(HR)データを固定されたカーネルでダウンスケールすることで低解像度(LR)データが得られると仮定するが、そのような仮定は実際のシナリオでは成立しないことが多い。 最近のブラインドSRアルゴリズムは、入力LR画像ごとに異なるダウンスケーリングカーネルを推定するために提案されている。 しかし、計算のオーバーヘッドが重く、ビデオに直接適用することは不可能である。 本研究では,DynaVSRを提案する。DynaVSRは,リアルタイムビデオSRのための新しいメタラーニングベースのフレームワークで,効率的なダウンスケーリングモデル推定と現在の入力への適応を可能にする。 具体的には、様々なタイプの合成ぼかしカーネルを備えたマルチフレームダウンスケーリングモジュールを訓練し、入力認識適応のためのビデオsrネットワークとシームレスに結合する。 実験結果から,DynaVSRは,既存のブラインドSRアプローチに比べてはるかに高速な推論時間で,最先端の映像SRモデルの性能を大きなマージンで一貫して改善することが示された。

Most conventional supervised super-resolution (SR) algorithms assume that low-resolution (LR) data is obtained by downscaling high-resolution (HR) data with a fixed known kernel, but such an assumption often does not hold in real scenarios. Some recent blind SR algorithms have been proposed to estimate different downscaling kernels for each input LR image. However, they suffer from heavy computational overhead, making them infeasible for direct application to videos. In this work, we present DynaVSR, a novel meta-learning-based framework for real-world video SR that enables efficient downscaling model estimation and adaptation to the current input. Specifically, we train a multi-frame downscaling module with various types of synthetic blur kernels, which is seamlessly combined with a video SR network for input-aware adaptation. Experimental results show that DynaVSR consistently improves the performance of the state-of-the-art video SR models by a large margin, with an order of magnitude faster inference time compared to the existing blind SR approaches.
翻訳日:2022-09-28 01:26:12 公開日:2020-11-09
# MinkLoc3D:ポイントクラウドによる大規模位置認識

MinkLoc3D: Point Cloud Based Large-Scale Place Recognition ( http://arxiv.org/abs/2011.04530v1 )

ライセンス: Link先を確認
Jacek Komorowski(参考訳) 本稿では,位置認識のための識別型3Dポイントクラウド記述子を学習ベースで計算する手法を提案する。 PointNetVLADのような既存のメソッドは、未順序のポイントクラウド表現に基づいている。 彼らはPointNetを最初の処理ステップとして、ローカル機能を抽出し、後にグローバルディスクリプタに集約する。 PointNetアーキテクチャは、局所的な幾何学構造を捉えるのに適していない。 したがって、最先端の手法はグラフ畳み込みネットワークや手作りの機能といったローカルなコンテキスト情報をキャプチャする異なるメカニズムを追加することで、バニラポイントネットアーキテクチャを強化する。 我々は、sparse voxelized point cloud表現とsparse 3d convolutionsに基づいて、識別可能な3d point cloudディスクリプタを計算するためのminkloc3dという別のアプローチを提案する。 提案手法は単純で効率的なアーキテクチャを有する。 標準ベンチマークの評価は、MinkLoc3Dが現在の最先端よりも優れていることを証明している。 私たちのコードはプロジェクトウェブサイトで公開されている。 https://github.com/jac99/minkloc3d。

The paper presents a learning-based method for computing a discriminative 3D point cloud descriptor for place recognition purposes. Existing methods, such as PointNetVLAD, are based on unordered point cloud representation. They use PointNet as the first processing step to extract local features, which are later aggregated into a global descriptor. The PointNet architecture is not well suited to capture local geometric structures. Thus, state-of-the-art methods enhance vanilla PointNet architecture by adding different mechanism to capture local contextual information, such as graph convolutional networks or using hand-crafted features. We present an alternative approach, dubbed MinkLoc3D, to compute a discriminative 3D point cloud descriptor, based on a sparse voxelized point cloud representation and sparse 3D convolutions. The proposed method has a simple and efficient architecture. Evaluation on standard benchmarks proves that MinkLoc3D outperforms current state-of-the-art. Our code is publicly available on the project website: https://github.com/jac99/MinkLoc3D
翻訳日:2022-09-28 01:25:51 公開日:2020-11-09
# 多数投票機構に基づくスパース表現を用いたマスケ顔画像分類

Masked Face Image Classification with Sparse Representation based on Majority Voting Mechanism ( http://arxiv.org/abs/2011.04556v1 )

ライセンス: Link先を確認
Han Wang(参考訳) スパース近似(英: sparse approximation)とは、信号処理や圧縮センシングにおいて広く適用される冗長辞書からの信号の最もスパースな線形結合を見つける問題である。 本プロジェクトでは,ompアルゴリズムとsparse representation-based classification (src)アルゴリズムを実装し,多数決でマスキング画像分類のタスクを完了させる。 この実験はarデータセットの指標であり、srcアルゴリズムと組み合わせたompアルゴリズムが98.4%の精度でマスクされた顔画像分類よりも優れていることを示した。

Sparse approximation is the problem to find the sparsest linear combination for a signal from a redundant dictionary, which is widely applied in signal processing and compressed sensing. In this project, I manage to implement the Orthogonal Matching Pursuit (OMP) algorithm and Sparse Representation-based Classification (SRC) algorithm, then use them to finish the task of masked image classification with majority voting. Here the experiment was token on the AR data-set, and the result shows the superiority of OMP algorithm combined with SRC algorithm over masked face image classification with an accuracy of 98.4%.
翻訳日:2022-09-28 01:25:37 公開日:2020-11-09
# 画像勾配拡大のためのスパイクvcselニューロンを用いた全光学的二元畳み込み

All-optical neuromorphic binary convolution with a spiking VCSEL neuron for image gradient magnitudes ( http://arxiv.org/abs/2011.04438v1 )

ライセンス: Link先を確認
Yahui Zhang, Joshua Robertson, Shuiying Xiang, Mat\v{E}J Hejda, Juli\'An Bueno, and Antonio Hurtado(参考訳) 光発振垂直キャビティ表面発光レーザー(VCSEL)ニューロンを用いた全光二元共畳法を提案し,実験を行った。 デジタル画像から抽出され、矩形パルスを用いて時間的に符号化された光入力がvcselニューロンに注入され、高速(100ps)のスパイクが発射される。 実験および数値計算により、単一スパイクVCSELニューロンでバイナリ畳み込みが成功し、全光二畳み込みを用いて画像勾配の等級を計算し、エッジ特徴を検出し、ソース画像内の垂直成分と水平成分を分離できることが示されている。 また,この全光学式2重畳み込みシステムは雑音に対して頑健であり,高分解能画像で動作可能であることを示す。 さらに、提案システムは、超高速、高エネルギー効率、簡単なハードウェア実装などの重要な利点を提供し、高速なニューロモルフィック画像処理システムや将来のフォトニックスパイク畳み込みニューラルネットワークに対する光ニックVCSELニューロンの可能性を強調している。

All-optical binary convolution with a photonic spiking vertical-cavity surface-emitting laser (VCSEL) neuron is proposed and demonstrated experimentally for the first time. Optical inputs, extracted from digital images and temporally encoded using rectangular pulses, are injected in the VCSEL neuron which delivers the convolution result in the number of fast (<100 ps long) spikes fired. Experimental and numerical results show that binary convolution is achieved successfully with a single spiking VCSEL neuron and that all-optical binary convolution can be used to calculate image gradient magnitudes to detect edge features and separate vertical and horizontal components in source images. We also show that this all-optical spiking binary convolution system is robust to noise and can operate with high-resolution images. Additionally, the proposed system offers important advantages such as ultrafast speed, high energy efficiency and simple hardware implementation, highlighting the potentials of spiking photonic VCSEL neurons for high-speed neuromorphic image processing systems and future photonic spiking convolutional neural networks.
翻訳日:2022-09-28 01:19:11 公開日:2020-11-09
# 深層学習に基づく単眼深度予測:データセット,方法,応用

Deep Learning based Monocular Depth Prediction: Datasets, Methods and Applications ( http://arxiv.org/abs/2011.04123v1 )

ライセンス: Link先を確認
Qing Li, Jiasong Zhu, Jun Liu, Rui Cao, Qingquan Li, Sen Jia, Guoping Qiu(参考訳) RGB画像から深度を推定することは、屋内のローカライゼーション、高さ推定、同時ローカライゼーションとマッピング(SLAM)など、多くのコンピュータビジョンタスクを促進する。 近年,深層学習技術の急速な発展により,単眼深度推定が大きな進歩を遂げている。 精度とスピードの点で、従来の機械学習ベースの手法をはるかに上回る。 このトピックの急速な進歩にもかかわらず、現在の進捗を要約し、今後の方向性を提供するために必要な包括的なレビューが欠如している。 本調査では,まず深度推定のためのデータセットを紹介するとともに,教師あり学習法,教師なし学習法,スパースサンプル誘導法という3つの視点から手法を総合的に紹介する。 さらに、進歩の恩恵を受ける下流アプリケーションも説明されている。 最後に,今後の方向性を指摘し,論文をまとめる。

Estimating depth from RGB images can facilitate many computer vision tasks, such as indoor localization, height estimation, and simultaneous localization and mapping (SLAM). Recently, monocular depth estimation has obtained great progress owing to the rapid development of deep learning techniques. They surpass traditional machine learning-based methods by a large margin in terms of accuracy and speed. Despite the rapid progress in this topic, there are lacking of a comprehensive review, which is needed to summarize the current progress and provide the future directions. In this survey, we first introduce the datasets for depth estimation, and then give a comprehensive introduction of the methods from three perspectives: supervised learning-based methods, unsupervised learning-based methods, and sparse samples guidance-based methods. In addition, downstream applications that benefit from the progress have also been illustrated. Finally, we point out the future directions and conclude the paper.
翻訳日:2022-09-28 01:18:34 公開日:2020-11-09
# 人物画像生成のための2ストリーム表示伝達ネットワーク

Two-Stream Appearance Transfer Network for Person Image Generation ( http://arxiv.org/abs/2011.04181v1 )

ライセンス: Link先を確認
Chengkang Shen, Peiyan Wang and Wei Tang(参考訳) ポーズ誘導人物画像生成手段は、入力された人物画像と所望のポーズとを条件としたフォトリアリスティックな人物画像を生成する。 このタスクは、ターゲットポーズに応じてソースイメージを空間的に操作する必要がある。 しかし、画像生成や翻訳に広く使われる生成逆ネットワーク(gans)は、大きな画像変形を処理できない畳み込み、プール、アンプールといった空間的局所的および翻訳等価作用素に依存する。 本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。 ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。 各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。 前者は、2つのストリームの特徴マップ間の密接な対応を見つけ、その出現情報をソースストリームからターゲットストリームに転送する。 後者は2つのストリーム間でローカル情報を交換し、非ローカルな外観転送を補完する。 定量的および定性的な結果は、提案した2s-ATNが外観の詳細を維持しながら、大きな空間的変形と閉塞を効果的に処理できることを示している。 これは、広く使われている2つのベンチマークにおいて、以前の技術の状態を上回っている。

Pose guided person image generation means to generate a photo-realistic person image conditioned on an input person image and a desired pose. This task requires spatial manipulation of the source image according to the target pose. However, the generative adversarial networks (GANs) widely used for image generation and translation rely on spatially local and translation equivariant operators, i.e., convolution, pooling and unpooling, which cannot handle large image deformation. This paper introduces a novel two-stream appearance transfer network (2s-ATN) to address this challenge. It is a multi-stage architecture consisting of a source stream and a target stream. Each stage features an appearance transfer module and several two-stream feature fusion modules. The former finds the dense correspondence between the two-stream feature maps and then transfers the appearance information from the source stream to the target stream. The latter exchange local information between the two streams and supplement the non-local appearance transfer. Both quantitative and qualitative results indicate the proposed 2s-ATN can effectively handle large spatial deformation and occlusion while retaining the appearance details. It outperforms prior states of the art on two widely used benchmarks.
翻訳日:2022-09-28 01:18:20 公開日:2020-11-09
# バランスの取れたシーングラフ生成のためのデュアルResGCN

Dual ResGCN for Balanced Scene GraphGeneration ( http://arxiv.org/abs/2011.04234v1 )

ライセンス: Link先を確認
Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yanbo Fan, Fumin Shen and Heng Tao Shen(参考訳) ビジュアルシーングラフ生成は難しいタスクです。 以前の作品は大きな進歩を遂げているが、ほとんどの作品はシーングラフ生成におけるクラス不均衡の問題を明確に考慮していない。 クラスの不均衡を考慮せずに学習したモデルは、多数派クラスを予測しがちであり、単純な頻繁な述語では良いパフォーマンスをもたらすが、有益でない述語ではパフォーマンスが低くなる。 しかしながら、マイノリティクラスの述語は、より意味的で正確な情報~(\textit{e.g.}, \emph{`on'} v.s \emph{`parked on'})を持っていることが多い。 %であり, 高いリコール率を得たが, 平均リコール率の低かった。 クラス不均衡の影響を軽減するため,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルである「textit{dual ResGCN}」を提案する。 2つのネットワークは互いに補完的です。 前者はオブジェクト間の接続をオブジェクトレベルのコンテキスト情報であるtextit{i.e.}をキャプチャする。 本稿では,オブジェクトの特徴を横断的に拡張するResGCNを提案する。 さらに,不均衡問題を緩和し,予測の多様性を高めるために,複数の文脈係数を積み重ねる。 後者は、関係レベルのコンテキスト情報 \textit{i} を、関係間の接続を明示的にキャプチャするように慎重に設計されている。 本稿では,関係ペアの共起をグラフに組み込むことにより,クラス不均衡問題を軽減することを提案する。 大規模データベースVG上で3つのタスクの大規模評価を行い,提案手法の優位性を実証した。

Visual scene graph generation is a challenging task. Previous works have achieved great progress, but most of them do not explicitly consider the class imbalance issue in scene graph generation. Models learned without considering the class imbalance tend to predict the majority classes, which leads to a good performance on trivial frequent predicates, but poor performance on informative infrequent predicates. However, predicates of minority classes often carry more semantic and precise information~(\textit{e.g.}, \emph{`on'} v.s \emph{`parked on'}). % which leads to a good score of recall, but a poor score of mean recall. To alleviate the influence of the class imbalance, we propose a novel model, dubbed \textit{dual ResGCN}, which consists of an object residual graph convolutional network and a relation residual graph convolutional network. The two networks are complementary to each other. The former captures object-level context information, \textit{i.e.,} the connections among objects. We propose a novel ResGCN that enhances object features in a cross attention manner. Besides, we stack multiple contextual coefficients to alleviate the imbalance issue and enrich the prediction diversity. The latter is carefully designed to explicitly capture relation-level context information \textit{i.e.,} the connections among relations. We propose to incorporate the prior about the co-occurrence of relation pairs into the graph to further help alleviate the class imbalance issue. Extensive evaluations of three tasks are performed on the large-scale database VG to demonstrate the superiority of the proposed method.
翻訳日:2022-09-28 01:17:35 公開日:2020-11-09
# オーディオとビデオの両方を用いたサッカーのアクションスポッティングの改善

Improved Soccer Action Spotting using both Audio and Video Streams ( http://arxiv.org/abs/2011.04258v1 )

ライセンス: Link先を確認
Bastien Vanderplaetse, St\'ephane Dupont(参考訳) 本稿では,サッカービデオにおけるマルチモーダル・アクションスポッティングと分類について検討する。 アクションスポッティングと分類は、ビデオ内のイベントの時間的アンカーを見つけ、それらがどのイベントであるかを判断するタスクである。 これは一般的な活動理解の重要な応用である。 本稿では,ディープニューラルネットワークアーキテクチャの異なる段階における音声情報と映像情報の組み合わせに関する実験的検討を行う。 我々は、Big Five European Leaguesの500のサッカーゲームビデオの注釈付きイベントを含む、 SoccerNetベンチマークデータセットを使用した。 本研究では,ビデオのみに基づくアーキテクチャにオーディオストリームを統合するいくつかの方法を評価する。 平均平均精度(map)測定値の平均絶対値が、アクション分類タスクで7.43\%$、アクションスポッティングタスクで4.19\%$であるのを観察した。

In this paper, we propose a study on multi-modal (audio and video) action spotting and classification in soccer videos. Action spotting and classification are the tasks that consist in finding the temporal anchors of events in a video and determine which event they are. This is an important application of general activity understanding. Here, we propose an experimental study on combining audio and video information at different stages of deep neural network architectures. We used the SoccerNet benchmark dataset, which contains annotated events for 500 soccer game videos from the Big Five European leagues. Through this work, we evaluated several ways to integrate audio stream into video-only-based architectures. We observed an average absolute improvement of the mean Average Precision (mAP) metric of $7.43\%$ for the action classification task and of $4.19\%$ for the action spotting task.
翻訳日:2022-09-28 01:17:05 公開日:2020-11-09
# 統計的正のサンプル生成と学習によるロバストな視覚追跡

Robust Visual Tracking via Statistical Positive Sample Generation and Gradient Aware Learning ( http://arxiv.org/abs/2011.04260v1 )

ライセンス: Link先を確認
Lijian Lin, Haosheng Chen, Yanjie Liang, Yan Yan, Hanzi Wang(参考訳) 近年、畳み込みニューラルネットワーク(CNN)ベースのトラッカーは、複数のベンチマークデータセットで最先端のパフォーマンスを達成した。 これらのトラッカーのほとんどは、ターゲットとバックグラウンドを区別するためにバイナリ分類器を訓練する。 しかし、2つの制限がある。 第一に、これらのトラッカーは、正のサンプルの数が限られているため、顕著な外観変化を効果的に扱えない。 第二に、容易なサンプルとハードなサンプルの間には、勾配の計算が容易なサンプルが支配されるような、勾配の寄与の著しい不均衡が存在する。 本稿では,上記の2つの制約に対処するために,統計的正のサンプル生成と勾配認識学習(spga)を用いたロバストな追跡手法を提案する。 正のサンプルの多様性を高めるために,特徴空間における正のサンプルを生成するための有効かつ効率的な統計的正のサンプル生成アルゴリズムを提案する。 さらに, 簡易試料と硬試料の不均衡問題に対処するため, 簡易試料と硬試料との勾配寄与を調和させる勾配感度損失を提案する。 OTB50、OCB100、VOT2016を含む3つの挑戦的なベンチマークデータセットに対する大規模な実験は、提案されたSPGAがいくつかの最先端トラッカーに対して好意的に機能することを示した。

In recent years, Convolutional Neural Network (CNN) based trackers have achieved state-of-the-art performance on multiple benchmark datasets. Most of these trackers train a binary classifier to distinguish the target from its background. However, they suffer from two limitations. Firstly, these trackers cannot effectively handle significant appearance variations due to the limited number of positive samples. Secondly, there exists a significant imbalance of gradient contributions between easy and hard samples, where the easy samples usually dominate the computation of gradient. In this paper, we propose a robust tracking method via Statistical Positive sample generation and Gradient Aware learning (SPGA) to address the above two limitations. To enrich the diversity of positive samples, we present an effective and efficient statistical positive sample generation algorithm to generate positive samples in the feature space. Furthermore, to handle the issue of imbalance between easy and hard samples, we propose a gradient sensitive loss to harmonize the gradient contributions between easy and hard samples. Extensive experiments on three challenging benchmark datasets including OTB50, OTB100 and VOT2016 demonstrate that the proposed SPGA performs favorably against several state-of-the-art trackers.
翻訳日:2022-09-28 01:16:50 公開日:2020-11-09
# 中国語イディオム読解のための同義語知識強化読解器

Synonym Knowledge Enhanced Reader for Chinese Idiom Reading Comprehension ( http://arxiv.org/abs/2011.04499v1 )

ライセンス: Link先を確認
Siyu Long and Ran Wang and Kun Tao and Jiali Zeng and Xin-Yu Dai(参考訳) 機械読解(英語: machine reading comprehension、mrc)は、与えられた文脈に基づいてマシンに質問するタスクである。 中国語のmrcでは、非言語的・非言語的意味的特徴のため、中国語のイディオムは機械に特有の課題をもたらす。 以前の研究では、イディオムを別々に扱う傾向があり、両者の関係を十分に活用していない。 本稿では,まず,中国語のイディオムにおける意味論と意味論の一貫性を測定するために,リテラル意味のカバレッジの概念を定義した。 この定義により、多くのイディオムのリテラル意味がそれらの意味論に遠く及ばないことを証明するとともに、同義関係がこの矛盾を緩和し、イディオム理解に有益であることを示す。 さらに,同義語関係を完全に活用するために,同義語知識強化読者を提案する。 具体的には、各イディオムに対して、まず、高品質な同義語辞書のアノテーションや、事前訓練されたイディオム埋め込みのコサイン類似性に基づいて同義語グラフを構築し、グラフ注意ネットワークとゲート機構を組み込んでグラフを符号化する。 大規模な中国語イディオム読解データセットであるChIDの実験結果から,我々のモデルが最先端の性能を達成することを示す。

Machine reading comprehension (MRC) is the task that asks a machine to answer questions based on a given context. For Chinese MRC, due to the non-literal and non-compositional semantic characteristics, Chinese idioms pose unique challenges for machines to understand. Previous studies tend to treat idioms separately without fully exploiting the relationship among them. In this paper, we first define the concept of literal meaning coverage to measure the consistency between semantics and literal meanings for Chinese idioms. With the definition, we prove that the literal meanings of many idioms are far from their semantics, and we also verify that the synonymic relationship can mitigate this inconsistency, which would be beneficial for idiom comprehension. Furthermore, to fully utilize the synonymic relationship, we propose the synonym knowledge enhanced reader. Specifically, for each idiom, we first construct a synonym graph according to the annotations from a high-quality synonym dictionary or the cosine similarity between the pre-trained idiom embeddings and then incorporate the graph attention network and gate mechanism to encode the graph. Experimental results on ChID, a large-scale Chinese idiom reading comprehension dataset, show that our model achieves state-of-the-art performance.
翻訳日:2022-09-28 01:10:17 公開日:2020-11-09
# VisBERT: トランスフォーマーの隠れた状態可視化

VisBERT: Hidden-State Visualizations for Transformers ( http://arxiv.org/abs/2011.04507v1 )

ライセンス: Link先を確認
Betty van Aken, Benjamin Winter, Alexander L\"oser, Felix A. Gers(参考訳) 説明可能性(Explainability)と解釈可能性(Interpretability)は2つの重要な概念である。 同時に、彼らは、最先端の結果を達成する大きなブラックボックスモデルに組み込むのが難しく、多くのnlpタスクが発生します。 Bidirectional Encoder Representations from Transformers (BERT) はそのようなブラックボックスモデルである。 多くの異なるNLPタスクを解決するための基本的なアーキテクチャとなり、多くの関連するTransformerモデルに影響を与えた。 これらのモデルがどのように結論を引き出すかを理解することは、改善と応用の両方に不可欠です。 VisBERTは,質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。 注意重みを分析する代わりに、bertモデル内の各エンコーダブロックから生じる隠れた状態に焦点を当てます。 このようにして、モデルの層を通して意味表現がどのように変換されるかを見ることができます。 VisBERTを使えば、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探ることができる。 このツールは、従来のNLPパイプラインに似たBERTの変換の異なるフェーズを特定し、失敗した予測の間に洞察を提供する。

Explainability and interpretability are two important concepts, the absence of which can and should impede the application of well-performing neural networks to real-world problems. At the same time, they are difficult to incorporate into the large, black-box models that achieve state-of-the-art results in a multitude of NLP tasks. Bidirectional Encoder Representations from Transformers (BERT) is one such black-box model. It has become a staple architecture to solve many different NLP tasks and has inspired a number of related Transformer models. Understanding how these models draw conclusions is crucial for both their improvement and application. We contribute to this challenge by presenting VisBERT, a tool for visualizing the contextual token representations within BERT for the task of (multi-hop) Question Answering. Instead of analyzing attention weights, we focus on the hidden states resulting from each encoder block within the BERT model. This way we can observe how the semantic representations are transformed throughout the layers of the model. VisBERT enables users to get insights about the model's internal state and to explore its inference steps or potential shortcomings. The tool allows us to identify distinct phases in BERT's transformations that are similar to a traditional NLP pipeline and offer insights during failed predictions.
翻訳日:2022-09-28 01:09:53 公開日:2020-11-09
# CLAR:セマンティックロールラベリングのための言語間引数正規化器

CLAR: A Cross-Lingual Argument Regularizer for Semantic Role Labeling ( http://arxiv.org/abs/2011.04732v1 )

ライセンス: Link先を確認
Ishan Jindal, Yunyao Li, Siddhartha Brahma, and Huaiyu Zhu(参考訳) 意味的役割ラベル付け(SRL)は、ある文中の述語-代名詞構造を識別する。 異なる言語には異なる引数アノテーションがあるが、複数の言語で1つのモデルをトレーニングする多言語訓練(Polyglot training)は、以前はモノリンガルベースライン(特に低リソース言語)よりも優れていた。 実際、データの単純な組み合わせでさえも、共有表現空間における遠隔語彙を表現することで多言語訓練に有効であることが示されている。 一方、言語間の引数アノテーションの相違にもかかわらず、特定の引数ラベルは言語間で共通の意味を共有している(例えば、副詞は言語間でほぼ同様の意味を持っている)。 言語間のアノテーション空間におけるこのような類似性を活用するために,CLAR (Cross-Lingual Argument Regularizer) と呼ばれる手法を提案する。 CLARは言語間でそのような言語アノテーションの類似性を識別し、この情報を利用してターゲット言語引数を、ソース言語引数が属する空間の変換を用いてマッピングする。 これにより、CLARは低リソース言語に対するモノリンガルおよびポリグロットベースラインよりも、複数の言語でのSRL性能を一貫して改善することを示す。

Semantic role labeling (SRL) identifies predicate-argument structure(s) in a given sentence. Although different languages have different argument annotations, polyglot training, the idea of training one model on multiple languages, has previously been shown to outperform monolingual baselines, especially for low resource languages. In fact, even a simple combination of data has been shown to be effective with polyglot training by representing the distant vocabularies in a shared representation space. Meanwhile, despite the dissimilarity in argument annotations between languages, certain argument labels do share common semantic meaning across languages (e.g. adjuncts have more or less similar semantic meaning across languages). To leverage such similarity in annotation space across languages, we propose a method called Cross-Lingual Argument Regularizer (CLAR). CLAR identifies such linguistic annotation similarity across languages and exploits this information to map the target language arguments using a transformation of the space on which source language arguments lie. By doing so, our experimental results show that CLAR consistently improves SRL performance on multiple languages over monolingual and polyglot baselines for low resource languages.
翻訳日:2022-09-28 01:09:26 公開日:2020-11-09
# アテンションネットワークによるeコマース問合せセグメンテーションの遠隔監視

Distant Supervision for E-commerce Query Segmentation via Attention Network ( http://arxiv.org/abs/2011.04166v1 )

ライセンス: Link先を確認
Zhao Li, Donghui Ding, Pengcheng Zou, Yu Gong, Xi Chen, Ji Zhang, Jianliang Gao, Youxi Wu and Yucong Duan(参考訳) オンライン電子商取引プラットフォームは、消費者の製品要求を満たすセグメントクエリに非常に正確なアプローチを要求する。 近年の研究では、教師付き手法、特にディープラーニングに基づく手法が、クエリのセグメンテーション問題において、よりよいパフォーマンスを達成する上で魅力的であることが示されている。 しかし、ディープセグメンテーションネットワークのトレーニングにおいてラベル付きデータの欠如は依然として大きな課題であり、アウトオブボキャブラリ(OOV)の問題もクエリセグメンテーションのパフォーマンスに悪影響を及ぼす。 オープンドメインのクエリセグメンテーションタスクとは異なり、eコマースシナリオはこれらのクエリに密接に関連する外部ドキュメントを提供することができる。 そこで,この2つの課題に対処するために,外部文書の文脈を探索し,それらの文脈から特徴を抽出するための新しい手法を設計・設計する。 本研究では,自然に効果的に活用できる外部コンテキスト情報などの外部特徴を符号化するアテンションモジュールを備えたBiLSTM-CRFモデルを提案する。 2つのデータセットにおける実験は、複数のベースラインと比較して、我々のアプローチの有効性を示している。

The booming online e-commerce platforms demand highly accurate approaches to segment queries that carry the product requirements of consumers. Recent works have shown that the supervised methods, especially those based on deep learning, are attractive for achieving better performance on the problem of query segmentation. However, the lack of labeled data is still a big challenge for training a deep segmentation network, and the problem of Out-of-Vocabulary (OOV) also adversely impacts the performance of query segmentation. Different from query segmentation task in an open domain, e-commerce scenario can provide external documents that are closely related to these queries. Thus, to deal with the two challenges, we employ the idea of distant supervision and design a novel method to find contexts in external documents and extract features from these contexts. In this work, we propose a BiLSTM-CRF based model with an attention module to encode external features, such that external contexts information, which can be utilized naturally and effectively to help query segmentation. Experiments on two datasets show the effectiveness of our approach compared with several kinds of baselines.
翻訳日:2022-09-28 01:08:53 公開日:2020-11-09
# 動的DAGスケジューリングのための幾何学的深部強化学習

Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling ( http://arxiv.org/abs/2011.04333v1 )

ライセンス: Link先を確認
Nathan Grinsztajn, Olivier Beaumont, Emmanuel Jeannot, Philippe Preux(参考訳) 実際、非決定性や動的性とともに不確実性を含む組合せ最適化問題に直面することは極めて一般的である。 これら3つの特性は適切なアルゴリズムを必要とし、強化学習(RL)はそれらを非常に自然な方法で処理している。 今日、いくつかの努力にもかかわらず、現実の組合せ最適化問題は強化学習アルゴリズムの範囲外である。 本稿では,現実的なスケジューリング問題を解くための強化学習手法を提案し,高性能コンピューティングコミュニティで一般的に実行されるアルゴリズムであるcholesky factorizationに適用する。 並列実行開始前に所定の順序でタスクをプロセッサに割り当てる静的スケジューリングとは対照的に、我々のメソッドは動的である:タスク割り当てとその実行順序は、システム状態と予期しないイベントに基づいて実行時に決定される。 そこで本アルゴリズムでは,グラフニューラルネットワークとアクタ-クリティックアルゴリズム(a2c)を組み合わせることで,問題の適応表現をオンザフライで構築する。 このアプローチは、高性能コンピューティングランタイムシステムで使用される最先端のヒューリスティックと競合することを示す。 さらに,このアルゴリズムは環境の明示的なモデルを必要としないが,追加知識が組み込まれやすく,性能が向上することを示す。 また、このRLアプローチで提供される重要な特性を示し、他のインスタンスへの転送能力について検討する。

In practice, it is quite common to face combinatorial optimization problems which contain uncertainty along with non-determinism and dynamicity. These three properties call for appropriate algorithms; reinforcement learning (RL) is dealing with them in a very natural way. Today, despite some efforts, most real-life combinatorial optimization problems remain out of the reach of reinforcement learning algorithms. In this paper, we propose a reinforcement learning approach to solve a realistic scheduling problem, and apply it to an algorithm commonly executed in the high performance computing community, the Cholesky factorization. On the contrary to static scheduling, where tasks are assigned to processors in a predetermined ordering before the beginning of the parallel execution, our method is dynamic: task allocations and their execution ordering are decided at runtime, based on the system state and unexpected events, which allows much more flexibility. To do so, our algorithm uses graph neural networks in combination with an actor-critic algorithm (A2C) to build an adaptive representation of the problem on the fly. We show that this approach is competitive with state-of-the-art heuristics used in high-performance computing runtime systems. Moreover, our algorithm does not require an explicit model of the environment, but we demonstrate that extra knowledge can easily be incorporated and improves performance. We also exhibit key properties provided by this RL approach, and study its transfer abilities to other instances.
翻訳日:2022-09-28 01:08:35 公開日:2020-11-09
# CxGBERT:BERTがコンストラクション文法に到達

CxGBERT: BERT meets Construction Grammar ( http://arxiv.org/abs/2011.04134v1 )

ライセンス: Link先を確認
Harish Tayyar Madabushi, Laurence Romain, Dagmar Divjak, Petar Milin(参考訳) lexico-semanticエレメントは間違いなく大量の言語情報をキャプチャするが、それらはテキストに含まれるすべての情報をキャプチャしていないと論じられている。 この仮定は言語に対する建設主義的なアプローチの中心であり、言語は構成、形式と関数の学習されたペアリング、あるいはその構成要素から予測できない意味を持つ意味から成り立っていると主張している。 BERTの訓練目的は、大量のレキシコ・セマンティック情報にアクセスでき、BERTologyは、BERTが特定の重要な言語的次元を捉えていることを示しているが、BERTが構築情報にどの程度アクセスできるかを調査する研究は行われていない。 この研究では、いくつかのプローブを設計し、この質問に答えるための広範な実験を行う。 我々の結果は、BERTが実際にかなりの量の情報にアクセスでき、言語学者が一般的に建設情報と呼ぶことができると結論付けるのに役立ちます。 この観察の影響は、深層学習法がテキストから何を学ぶかについての洞察を提供するとともに、構築物に含まれる情報が余分にレキシコ・セマンティックスにエンコードされていることを示すため、潜在的に遠ざかっている。

While lexico-semantic elements no doubt capture a large amount of linguistic information, it has been argued that they do not capture all information contained in text. This assumption is central to constructionist approaches to language which argue that language consists of constructions, learned pairings of a form and a function or meaning that are either frequent or have a meaning that cannot be predicted from its component parts. BERT's training objectives give it access to a tremendous amount of lexico-semantic information, and while BERTology has shown that BERT captures certain important linguistic dimensions, there have been no studies exploring the extent to which BERT might have access to constructional information. In this work we design several probes and conduct extensive experiments to answer this question. Our results allow us to conclude that BERT does indeed have access to a significant amount of information, much of which linguists typically call constructional information. The impact of this observation is potentially far-reaching as it provides insights into what deep learning methods learn from text, while also showing that information contained in constructions is redundantly encoded in lexico-semantics.
翻訳日:2022-09-28 01:00:56 公開日:2020-11-09
# 「それはどういう意味ですか。」 テキストからSQLへの相互依存型対話的アプローチ

"What Do You Mean by That?" A Parser-Independent Interactive Approach for Enhancing Text-to-SQL ( http://arxiv.org/abs/2011.04151v1 )

ライセンス: Link先を確認
Yuntao Li, Bei Chen, Qian Liu, Yan Gao, Jian-Guang Lou, Yan Zhang, Dongmei Zhang(参考訳) 自然言語インタフェースとデータベースシステムでは、自然言語の質問を使ってデータベースを問合せすることができる。 この領域では最近大きな進歩が見られたが、ほとんどのパーサーは実際のシステムにデプロイされた時に不足する可能性がある。 主な理由は、ユーザの自然言語の質問を完全に理解することの難しさにある。 本稿では,人間をループに含め,複数質問を用いてユーザと対話し,任意のパーサで簡単に作業可能な,新しいパーサ非依存型インタラクティブアプローチ(PIIA)を提案する。 WikiSQLとより複雑なSpiderという2つのクロスドメインデータセットに対して、5つの最先端パーサーで実験が行われた。 これらの結果から、PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとSQLのパフォーマンスを向上させることができることを示した。

In Natural Language Interfaces to Databases systems, the text-to-SQL technique allows users to query databases by using natural language questions. Though significant progress in this area has been made recently, most parsers may fall short when they are deployed in real systems. One main reason stems from the difficulty of fully understanding the users' natural language questions. In this paper, we include human in the loop and present a novel parser-independent interactive approach (PIIA) that interacts with users using multi-choice questions and can easily work with arbitrary parsers. Experiments were conducted on two cross-domain datasets, the WikiSQL and the more complex Spider, with five state-of-the-art parsers. These demonstrated that PIIA is capable of enhancing the text-to-SQL performance with limited interaction turns by using both simulation and human evaluation.
翻訳日:2022-09-28 01:00:34 公開日:2020-11-09
# chapter captor: 小説におけるテキストセグメンテーション

Chapter Captor: Text Segmentation in Novels ( http://arxiv.org/abs/2011.04163v1 )

ライセンス: Link先を確認
Charuta Pethe, Allen Kim, Steven Skiena(参考訳) 典型的には、本は章と章に分けられ、コヒーレントなサブナラティブやトピックを表す。 長いテキストを分割する一般的なタスクの代理として、章の境界を予測するタスクについて検討する。 ニューラル推論とルールマッチングを組み合わせるハイブリッド手法を用いて,9,126冊の英小説からなるプロジェクト・グーテンベルクの章のセグメンテーションデータセットを構築し,本書の章のタイトルヘッダを認識する。 この注釈付きデータを構造的手がかりを取り除いた上での真理として用いて,本文書の正確な破壊予測を行う上で,F1スコアの0.453を達成し,カットベースおよびニューラル手法を提案する。 最後に,小説の章構造に興味深い歴史的傾向を示す。

Books are typically segmented into chapters and sections, representing coherent subnarratives and topics. We investigate the task of predicting chapter boundaries, as a proxy for the general task of segmenting long texts. We build a Project Gutenberg chapter segmentation data set of 9,126 English novels, using a hybrid approach combining neural inference and rule matching to recognize chapter title headers in books, achieving an F1-score of 0.77 on this task. Using this annotated data as ground truth after removing structural cues, we present cut-based and neural methods for chapter segmentation, achieving an F1-score of 0.453 on the challenging task of exact break prediction over book-length documents. Finally, we reveal interesting historical trends in the chapter structure of novels.
翻訳日:2022-09-28 01:00:19 公開日:2020-11-09
# ソースコード中の関数名生成のためのサブワードへの指示

Pointing to Subwords for Generating Function Names in Source Code ( http://arxiv.org/abs/2011.04241v1 )

ライセンス: Link先を確認
Shogo Fujita, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura(参考訳) ソースコードから関数名を自動的に生成するタスクに取り組む。 既存のジェネレータは、低頻度または大語彙のサブワードを生成するのが困難である。 本稿では,入力中の低周波または大語彙のサブワードを複写する2つの手法を提案する。 我々の最高のパフォーマンスモデルは、修正されたF1と、Java小およびJava大データセットの正確性の観点から、従来の方法よりも改善されたことを示している。

We tackle the task of automatically generating a function name from source code. Existing generators face difficulties in generating low-frequency or out-of-vocabulary subwords. In this paper, we propose two strategies for copying low-frequency or out-of-vocabulary subwords in inputs. Our best performing model showed an improvement over the conventional method in terms of our modified F1 and accuracy on the Java-small and Java-large datasets.
翻訳日:2022-09-28 00:59:58 公開日:2020-11-09
# BERT-JAM: BERT-Enhanced Neural Machine Translation with Joint Attention

BERT-JAM: Boosting BERT-Enhanced Neural Machine Translation with Joint Attention ( http://arxiv.org/abs/2011.04266v1 )

ライセンス: Link先を確認
Zhebin Zhang, Sai Wu, Dawei Jiang, Gang Chen(参考訳) BERTエンハンスニューラルネットワーク翻訳(NMT)は、BERTエンコードされた表現を翻訳タスクに活用することを目的としている。 最近提案されたアプローチでは、Transformerのエンコーダ層とデコーダ層をBERTの最後の層表現で融合し、性能の向上を示す。 しかし、BERT表現とエンコーダ/デコーダ表現の間の注意の柔軟な分布は許されていない。 本研究では,既存のモデルを2つの側面から改善する新しいBERT拡張NMTモデルであるBERT-JAMを提案する。 1)BERT-JAMは、エンコーダ/デコーダ層が異なる表現間の注意を動的に割り当てられるように、ジョイントアテンションモジュールを使用する。 2) BERT-JAM では,エンコーダ/デコーダ層が BERT の中間表現をゲート線形単位 (GLU) を用いて構成することで利用することができる。 我々は,BERT-JAMの異なる成分を段階的に凍結する新しい3相最適化戦略でBERT-JAMを訓練する。 実験の結果,BERT-JAM は複数の翻訳タスクにおいて SOTA BLEU スコアを達成できた。

BERT-enhanced neural machine translation (NMT) aims at leveraging BERT-encoded representations for translation tasks. A recently proposed approach uses attention mechanisms to fuse Transformer's encoder and decoder layers with BERT's last-layer representation and shows enhanced performance. However, their method doesn't allow for the flexible distribution of attention between the BERT representation and the encoder/decoder representation. In this work, we propose a novel BERT-enhanced NMT model called BERT-JAM which improves upon existing models from two aspects: 1) BERT-JAM uses joint-attention modules to allow the encoder/decoder layers to dynamically allocate attention between different representations, and 2) BERT-JAM allows the encoder/decoder layers to make use of BERT's intermediate representations by composing them using a gated linear unit (GLU). We train BERT-JAM with a novel three-phase optimization strategy that progressively unfreezes different components of BERT-JAM. Our experiments show that BERT-JAM achieves SOTA BLEU scores on multiple translation tasks.
翻訳日:2022-09-28 00:59:52 公開日:2020-11-09
# BERT時代においても文字レベルの表現はDRSに基づく意味解析を改善する

Character-level Representations Improve DRS-based Semantic Parsing Even in the Age of BERT ( http://arxiv.org/abs/2011.04308v1 )

ライセンス: Link先を確認
Rik van Noord, Antonio Toral, Johan Bos(参考訳) 文字レベルと文脈言語モデル表現を組み合わせて、談話表現構造解析の性能を向上させる。 文字表現は、1つのエンコーダまたは完全に独立したエンコーダのシーケンスからシーケンスへのモデルに簡単に追加でき、異なる言語モデル、言語、データセットにロバストな改善が加えられる。 英語では、これらの改善は個々の言語情報ソースの追加や非文脈埋め込みの追加よりも大きい。 セマンティックタグに基づく新しい解析手法により,選択したセマンティックな現象のサブセット間で,文字レベルの表現により性能が向上することを示す。

We combine character-level and contextual language model representations to improve performance on Discourse Representation Structure parsing. Character representations can easily be added in a sequence-to-sequence model in either one encoder or as a fully separate encoder, with improvements that are robust to different language models, languages and data sets. For English, these improvements are larger than adding individual sources of linguistic information or adding non-contextual embeddings. A new method of analysis based on semantic tags demonstrates that the character-level representations improve performance across a subset of selected semantic phenomena.
翻訳日:2022-09-28 00:59:35 公開日:2020-11-09
# ニューラルNLPモデルの低リソース適応

Low-Resource Adaptation of Neural NLP Models ( http://arxiv.org/abs/2011.04372v1 )

ライセンス: Link先を確認
Farhad Nooralahzadeh(参考訳) 自然言語処理(NLP)の現実的な応用は困難である。 NLPモデルは教師付き機械学習に大きく依存しており、大量の注釈付きデータを必要とする。 これらのリソースは、英語のnewswireなど、多量の言語データに基づいていることが多い。 しかしながら、NLPの現実的な応用においては、テキストリソースは言語、方言、トピック、ジャンルなど、様々な次元にまたがる。 十分な量と品質の注釈付きデータを見つけることは困難である。 本論文の目的は,情報抽出や自然言語理解において,このような低リソースシナリオを扱う方法を検討することである。 そこで本研究では,様々な低リソース環境における遠隔指導と逐次転送学習について検討する。 ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。

Real-world applications of natural language processing (NLP) are challenging. NLP models rely heavily on supervised machine learning and require large amounts of annotated data. These resources are often based on language data available in large quantities, such as English newswire. However, in real-world applications of NLP, the textual resources vary across several dimensions, such as language, dialect, topic, and genre. It is challenging to find annotated data of sufficient amount and quality. The objective of this thesis is to investigate methods for dealing with such low-resource scenarios in information extraction and natural language understanding. To this end, we study distant supervision and sequential transfer learning in various low-resource settings. We develop and adapt neural NLP models to explore a number of research questions concerning NLP tasks with minimal or no training data.
翻訳日:2022-09-28 00:59:22 公開日:2020-11-09
# pi-VAEを用いた高次元神経活動の学習可能・解釈可能潜在モデル

Learning identifiable and interpretable latent models of high-dimensional neural activity using pi-VAE ( http://arxiv.org/abs/2011.04798v1 )

ライセンス: Link先を確認
Ding Zhou, Xue-Xin Wei(参考訳) 脳内の数百のニューロンから同時に活動を記録する能力は、そのようなデータを分析するための適切な統計技術を開発する必要性が高まっている。 近年,神経集団応答に適合する深層生成モデルが提案されている。 これらの手法は柔軟で表現力があるが、欠点は解釈や識別が難しいことである。 この問題に対処するために,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。 提案手法であるpi-vaeは,神経科学の応用に適するように適応した,同定可能な変分オートエンコーダの最近の進歩に触発されたものである。 具体的には、潜在変数とタスク変数(感覚、運動、その他の外部観測可能な状態など)の関係を同時にモデル化しながら、神経活動の潜在変数モデルを構築することを提案する。 タスク変数の組み込みは、より制約されたモデルをもたらすだけでなく、解釈可能性と識別可能性の質的改善を示す。 合成データを用いてpi-vaeを検証し,ラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。 我々は、pi-VAEがデータに適合するだけでなく、ニューラルネットワークの構造に関する予期せぬ新しい洞察を提供することを示した。

The ability to record activities from hundreds of neurons simultaneously in the brain has placed an increasing demand for developing appropriate statistical techniques to analyze such data. Recently, deep generative models have been proposed to fit neural population responses. While these methods are flexible and expressive, the downside is that they can be difficult to interpret and identify. To address this problem, we propose a method that integrates key ingredients from latent models and traditional neural encoding models. Our method, pi-VAE, is inspired by recent progress on identifiable variational auto-encoder, which we adapt to make appropriate for neuroscience applications. Specifically, we propose to construct latent variable models of neural activity while simultaneously modeling the relation between the latent and task variables (non-neural variables, e.g. sensory, motor, and other externally observable states). The incorporation of task variables results in models that are not only more constrained, but also show qualitative improvements in interpretability and identifiability. We validate pi-VAE using synthetic data, and apply it to analyze neurophysiological datasets from rat hippocampus and macaque motor cortex. We demonstrate that pi-VAE not only fits the data better, but also provides unexpected novel insights into the structure of the neural codes.
翻訳日:2022-09-28 00:53:54 公開日:2020-11-09
# 脳MR画像におけるウェーブレット領域の超解像のための微視的GAN

Fine Perceptive GANs for Brain MR Image Super-Resolution in Wavelet Domain ( http://arxiv.org/abs/2011.04145v1 )

ライセンス: Link先を確認
Senrong You and Yong Liu and Baiying Lei and Shuqiang Wang(参考訳) 磁気共鳴イメージングは、コンピュータ支援診断と脳探索において重要な役割を果たす。 しかし、ハードウェア、走査時間、コストによって制限されているため、高分解能(HR)磁気共鳴(MR)画像を臨床的に取得することは困難である。 本稿では,低分解能画像からHR MR画像を生成するために,FP-GAN(perceptive generative adversarial network)を提案する。 既存の超解像モデルの細部非敏感な問題を分割分解的に扱うことができる。 具体的には、FP-GANはまずMR画像をウェーブレット領域の低周波大域近似と高周波解剖学的テクスチャに分割する。 そして、各サブバンド生成対向ネットワーク(サブバンドGAN)は、各サブバンド画像の超分解能手順を征服する。 一方、グローバル情報とテクスチャ情報の間に焦点を合わせるためにサブバンドアテンションが配置される。 FP-GANの解剖学的再構成能力をさらに強化するために、特徴マップの代わりにサブバンド画像にフォーカスすることができる。 さらに、逆離散ウェーブレット変換(IDWT)を画像全体の再構成を考慮したモデルに統合する。 MultiRes_7Tデータセットの実験により、FP-GANsは競合する手法よりも定量的に質的に優れていることが示された。

Magnetic resonance imaging plays an important role in computer-aided diagnosis and brain exploration. However, limited by hardware, scanning time and cost, it's challenging to acquire high-resolution (HR) magnetic resonance (MR) image clinically. In this paper, fine perceptive generative adversarial networks (FP-GANs) is proposed to produce HR MR images from low-resolution counterparts. It can cope with the detail insensitive problem of the existing super-resolution model in a divide-and-conquer manner. Specifically, FP-GANs firstly divides an MR image into low-frequency global approximation and high-frequency anatomical texture in wavelet domain. Then each sub-band generative adversarial network (sub-band GAN) conquers the super-resolution procedure of each single sub-band image. Meanwhile, sub-band attention is deployed to tune focus between global and texture information. It can focus on sub-band images instead of feature maps to further enhance the anatomical reconstruction ability of FP-GANs. In addition, inverse discrete wavelet transformation (IDWT) is integrated into model for taking the reconstruction of whole image into account. Experiments on MultiRes_7T dataset demonstrate that FP-GANs outperforms the competing methods quantitatively and qualitatively.
翻訳日:2022-09-28 00:53:34 公開日:2020-11-09
# 深部生成核融合によるランドサット反射予測

Predicting Landsat Reflectance with Deep Generative Fusion ( http://arxiv.org/abs/2011.04762v1 )

ライセンス: Link先を確認
Shahine Bouabid, Maxim Chernetskiy, Maxime Rischard and Jevgenij Gamper(参考訳) 公共の衛星ミッションは、通常、空間的解像度と時間的解像度のトレードオフに結びついている。 これは植生のモニタリングや人道的行動を支援する可能性を阻害し、迅速かつ詳細な地表変化を検出する必要がある。 本研究では,空間的・時間的特性の異なる製品を用いて,高分解能光画像を生成するための深部生成モデルの可能性を探究する。 そこで我々は,モデレート分解能イメージング分光計(MODIS)とランドサット表面反射率時系列のデータセットを導入し,粗い日次反射率情報を低ペースの微細化にブレンドできることを実証した。 提案手法を最新反射率融合アルゴリズムと比較した。

Public satellite missions are commonly bound to a trade-off between spatial and temporal resolution as no single sensor provides fine-grained acquisitions with frequent coverage. This hinders their potential to assist vegetation monitoring or humanitarian actions, which require detecting rapid and detailed terrestrial surface changes. In this work, we probe the potential of deep generative models to produce high-resolution optical imagery by fusing products with different spatial and temporal characteristics. We introduce a dataset of co-registered Moderate Resolution Imaging Spectroradiometer (MODIS) and Landsat surface reflectance time series and demonstrate the ability of our generative model to blend coarse daily reflectance information into low-paced finer acquisitions. We benchmark our proposed model against state-of-the-art reflectance fusion algorithms.
翻訳日:2022-09-28 00:53:17 公開日:2020-11-09
# Frontier Development LabとSpaceMLから学ぶ -- NASAとESAのためのAIアクセラレータ

Learnings from Frontier Development Lab and SpaceML -- AI Accelerators for NASA and ESA ( http://arxiv.org/abs/2011.04776v1 )

ライセンス: Link先を確認
Siddha Ganju, Anirudh Koul, Alexander Lavin, Josh Veitch-Michaelis, Meher Kasam, James Parr(参考訳) AIとML技術を用いた研究は、しばしば非同期の目標とタイムラインを持つさまざまな環境で活動している。学術研究所や政府機関は、長期的な価値のある発見に焦点を当てた、オープンな研究を追求している。 研究から製品への旅は、しばしば暗黙またはアドホックであり、技術移行の失敗を引き起こし、研究と開発が組織間および学際的であるときにさらに悪化する。 さらに、結果を生成する能力の多くは、個々の研究者のプライベートリポジトリやノウハウに閉じ込められており、将来の研究への影響を遅らせ、再現性におけるMLコミュニティの課題に寄与している。 研究組織は爆発的な分野に焦点を合わせ、学際的な研究の引き継ぎと成熟の機会を減らした。 これらの緊張によって、より良いコラボレーション、再現性の向上、より速い進歩、より信頼できる結果を得るために、開発中の研究の正確性、影響、関連性を測定することの必要性が生まれています。 我々は、NASAとESAの民間パートナーシップの下で、AIアクセラレータであるFrontier Development Lab(FDL)のケーススタディを実行する。 FDL研究は、AI研究の責任を負う開発、実行、普及に基礎を置いている原則に従っており、NASAのTechnology Readiness Levelsを通じて測定された学際的および組織間研究プロジェクトを成功させることを可能にする。 これは、市民科学者の間で広く採用されているデプロイ可能なプロジェクトへのFDLの研究の加速と移行を支援するものです。

Research with AI and ML technologies lives in a variety of settings with often asynchronous goals and timelines: academic labs and government organizations pursue open-ended research focusing on discoveries with long-term value, while research in industry is driven by commercial pursuits and hence focuses on short-term timelines and return on investment. The journey from research to product is often tacit or ad hoc, resulting in technology transition failures, further exacerbated when research and development is interorganizational and interdisciplinary. Even more, much of the ability to produce results remains locked in the private repositories and know-how of the individual researcher, slowing the impact on future research by others and contributing to the ML community's challenges in reproducibility. With research organizations focused on an exploding array of fields, opportunities for the handover and maturation of interdisciplinary research reduce. With these tensions, we see an emerging need to measure the correctness, impact, and relevance of research during its development to enable better collaboration, improved reproducibility, faster progress, and more trusted outcomes. We perform a case study of the Frontier Development Lab (FDL), an AI accelerator under a public-private partnership from NASA and ESA. FDL research follows principled practices that are grounded in responsible development, conduct, and dissemination of AI research, enabling FDL to churn successful interdisciplinary and interorganizational research projects, measured through NASA's Technology Readiness Levels. We also take a look at the SpaceML Open Source Research Program, which helps accelerate and transition FDL's research to deployable projects with wide spread adoption amongst citizen scientists.
翻訳日:2022-09-28 00:53:03 公開日:2020-11-09
# 結局のところ、最後のニューロンだけ:マルチモーダル核融合関数によるシーングラフ生成の比較

After All, Only The Last Neuron Matters: Comparing Multi-modal Fusion Functions for Scene Graph Generation ( http://arxiv.org/abs/2011.04779v1 )

ライセンス: Link先を確認
Mohamed Karim Belaid(参考訳) オブジェクトのセグメンテーションから単語ベクトル表現まで、シーングラフ生成(sgg)は多くの研究結果を基にした複雑なタスクとなった。 本稿では,このモデルの最後のモジュールである融合関数に焦点をあてる。 後者の役割は、3つの隠れた状態を組み合わせることである。 異なる実装を比較するためにアブレーションテストを実施します。 まず、SUMとGATE関数を用いて最先端の結果を再現する。 次に、DIST の適応版と MFB と GATE の混合版というモデルに依存しない関数を追加することで、元の解を拡張する。 state-of-the-art構成に基づいて、distはbest recall @ kを実行した。

From object segmentation to word vector representations, Scene Graph Generation (SGG) became a complex task built upon numerous research results. In this paper, we focus on the last module of this model: the fusion function. The role of this latter is to combine three hidden states. We perform an ablation test in order to compare different implementations. First, we reproduce the state-of-the-art results using SUM, and GATE functions. Then we expand the original solution by adding more model-agnostic functions: an adapted version of DIST and a mixture between MFB and GATE. On the basis of the state-of-the-art configuration, DIST performed the best Recall @ K, which makes it now part of the state-of-the-art.
翻訳日:2022-09-28 00:52:32 公開日:2020-11-09
# 普遍的学習の理論

A Theory of Universal Learning ( http://arxiv.org/abs/2011.04483v1 )

ライセンス: Link先を確認
Olivier Bousquet, Steve Hanneke, Shay Moran, Ramon van Handel, Amir Yehudayoff(参考訳) 特定の概念のクラスが例からどのくらい早く学べるのか? 教師付き機械学習アルゴリズムの「学習曲線」、すなわち、訓練例の数の関数としての誤差率の減衰をプロットすることにより、その性能を測定するのが一般的である。 しかしながら、学習可能性を理解するための古典的な理論的枠組みであるVapnik-ChervonenkisとValiantのPACモデルは、学習曲線の振る舞いを説明していない。 これは、典型的にはデータソースが任意のシナリオで固定される機械学習の実践と一致しないが、学習者は計算資源や所望の精度といった要因に基づいて、トレーニングサンプルの数を選択することができる。 本稿では,機械学習の実用的側面をよりよく捉えるための代替学習モデルについて検討するが,それでもpacモデルの精神における学習可能性の完全な理論を導出する。 より正確には、各データ分布における学習アルゴリズムの性能を理解することを目的とした普遍学習の問題を考えるが、分布の均一性は必要としない。 この論文の主な結果は注目すべき三分法である: 普遍学習の確率は3つしかない。 より正確には、任意の概念クラスの学習曲線が指数関数的、線形的、あるいは任意に遅い速度で崩壊することを示す。 さらに,これら各ケースは適切な組合せパラメータによって完全に特徴付けられ,各ケースにおいて最適な学習率が得られる最適学習アルゴリズムを示す。 具体的には、本論文では実現可能なケースのみを考えるが、類似した結果はより一般的な学習シナリオにまで拡張されることが期待される。

How quickly can a given class of concepts be learned from examples? It is common to measure the performance of a supervised machine learning algorithm by plotting its "learning curve", that is, the decay of the error rate as a function of the number of training examples. However, the classical theoretical framework for understanding learnability, the PAC model of Vapnik-Chervonenkis and Valiant, does not explain the behavior of learning curves: the distribution-free PAC model of learning can only bound the upper envelope of the learning curves over all possible data distributions. This does not match the practice of machine learning, where the data source is typically fixed in any given scenario, while the learner may choose the number of training examples on the basis of factors such as computational resources and desired accuracy. In this paper, we study an alternative learning model that better captures such practical aspects of machine learning, but still gives rise to a complete theory of the learnable in the spirit of the PAC model. More precisely, we consider the problem of universal learning, which aims to understand the performance of learning algorithms on every data distribution, but without requiring uniformity over the distribution. The main result of this paper is a remarkable trichotomy: there are only three possible rates of universal learning. More precisely, we show that the learning curves of any given concept class decay either at an exponential, linear, or arbitrarily slow rates. Moreover, each of these cases is completely characterized by appropriate combinatorial parameters, and we exhibit optimal learning algorithms that achieve the best possible rate in each case. For concreteness, we consider in this paper only the realizable case, though analogous results are expected to extend to more general learning scenarios.
翻訳日:2022-09-28 00:51:40 公開日:2020-11-09
# マルチトーカー環境におけるDNNに基づく音声強調のための視覚的特徴の実証的研究

An Empirical Study of Visual Features for DNN based Audio-Visual Speech Enhancement in Multi-talker Environments ( http://arxiv.org/abs/2011.04359v1 )

ライセンス: Link先を確認
Shrishti Saha Shetu, Soumitro Chakrabarty and Emanu\"el A. P. Habets(参考訳) 音声・視覚的音声強調法 (AVSE) は, 音声・視覚的特徴を用いた音声強調法と, 視覚的特徴の利用が, 多話者シナリオにおいて特に有効であることが示されている。 ディープニューラルネットワーク(DNN)ベースのAVSE手法の大多数では、オーディオと視覚データは、まず異なるサブネットワークを使用して別々に処理され、その後、学習された特徴は融合して、両方のモダリティの情報を利用する。 適切な音声入力機能とネットワークアーキテクチャについて様々な研究がなされてきたが、我々の知る限り、この特定のタスクに最適な視覚的特徴を調査する研究は発表されていない。 本研究では,dnnベースのavseにおいて最も一般的に使用される視覚特徴,これらの特徴に対する前処理要件について経験的研究を行い,その性能への影響について検討する。 本研究は,組込み型機能の全体的な性能向上にもかかわらず,計算集約的な前処理が低リソースシステムでの使用を困難にしていることを示す。 このようなシステムでは、光学フローや生画素ベースの機能がより適しているかもしれない。

Audio-visual speech enhancement (AVSE) methods use both audio and visual features for the task of speech enhancement and the use of visual features has been shown to be particularly effective in multi-speaker scenarios. In the majority of deep neural network (DNN) based AVSE methods, the audio and visual data are first processed separately using different sub-networks, and then the learned features are fused to utilize the information from both modalities. There have been various studies on suitable audio input features and network architectures, however, to the best of our knowledge, there is no published study that has investigated which visual features are best suited for this specific task. In this work, we perform an empirical study of the most commonly used visual features for DNN based AVSE, the pre-processing requirements for each of these features, and investigate their influence on the performance. Our study shows that despite the overall better performance of embedding-based features, their computationally intensive pre-processing make their use difficult in low resource systems. For such systems, optical flow or raw pixels-based features might be better suited.
翻訳日:2022-09-28 00:50:50 公開日:2020-11-09
# 何時ですか。 小説の時間的分析

What time is it? Temporal Analysis of Novels ( http://arxiv.org/abs/2011.04124v1 )

ライセンス: Link先を確認
Allen Kim, Charuta Pethe, Steven Skiena(参考訳) ストーリー内の時間の流れを認識することは、それを理解する上で重要な側面です。 時間に関する先行研究は主に時間表現の同定や事象の相対的シーケンシングに重点を置いてきたが,本稿では,明示的な時間記述句の欠如にもかかわらず,各行にウォールクロックタイムを付して計算的に注釈する手法を提案する。 そこで我々は,52,183冊の架空の書籍から時間毎のフレーズのデータセットを構築した。 次に、平均誤差2.27時間を達成する日時分類モデルを構築する。 さらに、ブレークポイントの動的プログラミングを用いて本全体を解析することにより、本を特定の日時に対応するセグメントに大まかに分割できることを示す。 このアプローチはベースラインを2時間以上改善する。 最後に,歴史の異なる時期に分類された文献のコーパスにモデルを適用し,過去を通じての時間的活動の興味深い傾向を示す。 幾つかの観測では、電気電球や街灯の出現に伴う1880年以降の10P.Mを超える出来事はごくわずかである。

Recognizing the flow of time in a story is a crucial aspect of understanding it. Prior work related to time has primarily focused on identifying temporal expressions or relative sequencing of events, but here we propose computationally annotating each line of a book with wall clock times, even in the absence of explicit time-descriptive phrases. To do so, we construct a data set of hourly time phrases from 52,183 fictional books. We then construct a time-of-day classification model that achieves an average error of 2.27 hours. Furthermore, we show that by analyzing a book in whole using dynamic programming of breakpoints, we can roughly partition a book into segments that each correspond to a particular time-of-day. This approach improves upon baselines by over two hours. Finally, we apply our model to a corpus of literature categorized by different periods in history, to show interesting trends of hourly activity throughout the past. Among several observations we find that the fraction of events taking place past 10 P.M jumps past 1880 - coincident with the advent of the electric light bulb and city lights.
翻訳日:2022-09-28 00:50:30 公開日:2020-11-09
# 改良型深部マルコフモデルと自動取引への応用

Reinforced Deep Markov Models With Applications in Automatic Trading ( http://arxiv.org/abs/2011.04391v1 )

ライセンス: Link先を確認
Tadeu A. Ferreira(参考訳) 深層生成モデルの開発に触発されて,自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合するために,RDMM(Reinforced Deep Markov Model)と呼ばれるモデルベースRLアプローチを提案する。 ネットワークアーキテクチャにより、マーケットダイナミクスが部分的に見え、エージェントのアクションによって変更される可能性がある。 RDMMは不完全でノイズの多いデータをフィルタし、RL計画のためのより良い振る舞いの入力データを生成する。 政策探索の最適化も国家の不確実性を適切に考慮している。 RKDFモデルアーキテクチャの複雑さのため、我々はアプローチの個々のコンポーネントの貢献をよりよく理解するためにアブレーション研究を行った。 RDMMの財務性能をテストするために、Q-Learning、DynaQ-ARIMA、DynaQ-LSTMアルゴリズムの亜種を用いてポリシーを実装している。 実験の結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、経済的利益が得られることがわかった。 Facebook、Intel、Vodafone、Microsoftのリミットオーダーブックの実際のデータセットを使用して、価格ダイナミクスがより複雑になると、パフォーマンスの改善がより顕著になる。

Inspired by the developments in deep generative models, we propose a model-based RL approach, coined Reinforced Deep Markov Model (RDMM), designed to integrate desirable properties of a reinforcement learning algorithm acting as an automatic trading system. The network architecture allows for the possibility that market dynamics are partially visible and are potentially modified by the agent's actions. The RDMM filters incomplete and noisy data, to create better-behaved input data for RL planning. The policy search optimisation also properly accounts for state uncertainty. Due to the complexity of the RKDF model architecture, we performed ablation studies to understand the contributions of individual components of the approach better. To test the financial performance of the RDMM we implement policies using variants of Q-Learning, DynaQ-ARIMA and DynaQ-LSTM algorithms. The experiments show that the RDMM is data-efficient and provides financial gains compared to the benchmarks in the optimal execution problem. The performance improvement becomes more pronounced when price dynamics are more complex, and this has been demonstrated using real data sets from the limit order book of Facebook, Intel, Vodafone and Microsoft.
翻訳日:2022-09-28 00:43:28 公開日:2020-11-09
# コミュニティ検出における二重正規化ラプラシアスペクトルクラスタリング法

Dual regularized Laplacian spectral clustering methods on community detection ( http://arxiv.org/abs/2011.04392v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) スペクトルクラスタリング法は、コミュニティ検出のためのネットワーク内のクラスタの検出に広く用いられているが、グラフラプラシア行列の小さな変更は劇的な改善をもたらす可能性がある。 本稿では,2重正則化グラフラプラシアン行列を提案し,次数補正確率ブロックモデルに基づく3つの古典的スペクトルクラスタリングアプローチに適用する。 コミュニティの数が$K$であるなら、$K$以上の固有ベクトルを導いて、それに対応する固有値をスペクトルクラスタリング手順で重み付けして性能を向上させる。 3つの改良されたスペクトルクラスタリング法は、二重正則スペクトルクラスタリング(DRSC)法、二重正則スペクトルクラスタリング(DRSCORE)法、二重正則ラプラシア逆行列(DRSLIM)法である。 DRSC と DRSLIM の理論的解析により、穏やかな条件下では DRSC と DRSLIM は安定した一貫したコミュニティ検出をもたらすことが示されている。 DRSC, DRSCORE, DRSLIMの性能を, 実空間ネットワーク8つの実空間ネットワークによるスペクトル法と比較した。

Spectral clustering methods are widely used for detecting clusters in networks for community detection, while a small change on the graph Laplacian matrix could bring a dramatic improvement. In this paper, we propose a dual regularized graph Laplacian matrix and then employ it to three classical spectral clustering approaches under the degree-corrected stochastic block model. If the number of communities is known as $K$, we consider more than $K$ leading eigenvectors and weight them by their corresponding eigenvalues in the spectral clustering procedure to improve the performance. Three improved spectral clustering methods are dual regularized spectral clustering (DRSC) method, dual regularized spectral clustering on Ratios-of-eigenvectors (DRSCORE) method, and dual regularized symmetrized Laplacian inverse matrix (DRSLIM) method. Theoretical analysis of DRSC and DRSLIM show that under mild conditions DRSC and DRSLIM yield stable consistent community detection, moreover, DRSCORE returns perfect clustering under the ideal case. We compare the performances of DRSC, DRSCORE and DRSLIM with several spectral methods by substantial simulated networks and eight real-world networks.
翻訳日:2022-09-28 00:43:06 公開日:2020-11-09
# 粒子から部分微分方程式へ

Particles to Partial Differential Equations Parsimoniously ( http://arxiv.org/abs/2011.04517v1 )

ライセンス: Link先を確認
Hassan Arbabi and Ioannis Kevrekidis(参考訳) 物理化学過程を司る方程式は、通常、微視的な空間スケールで知られているが、偏微分方程式(pdes)のような方程式が存在し、より粗い、メソまたはマクロな長さスケールで系の進化を説明することができる。 これらの粗い有効PDEを発見することで、予測や制御といった計算集約的なタスクが大幅に削減される可能性がある。 本研究では, ニューラルネットワークとマルチスケール計算を, 方程式のない数値の形で組み合わせた枠組みを提案し, 顕微鏡シミュレーションから直接, そのようなマクロスケールPDEを効率的に発見する。 方程式のない数値は、時空領域のスパースサブセットでのみ動作することにより、より微妙なトレーニングデータの収集を可能にする。 また,データ駆動型PDEの発見に適したマクロスケール依存変数を特定するために,多様体学習と分布の非正規化最適輸送に基づくデータ駆動型手法を提案する。 このアプローチは、物理的に動機付けられた候補変数の相関や、より粗い有効PDEを定式化できる新しいデータ駆動変数の導入が可能である。 本研究では,事前未知のマクロスケール変数を用いた粒子シミュレーションから粗粒度進化方程式を抽出し,必要なデータ収集量を大幅に削減する手法を提案する。

Equations governing physico-chemical processes are usually known at microscopic spatial scales, yet one suspects that there exist equations, e.g. in the form of Partial Differential Equations (PDEs), that can explain the system evolution at much coarser, meso- or macroscopic length scales. Discovering those coarse-grained effective PDEs can lead to considerable savings in computation-intensive tasks like prediction or control. We propose a framework combining artificial neural networks with multiscale computation, in the form of equation-free numerics, for efficient discovery of such macro-scale PDEs directly from microscopic simulations. Gathering sufficient microscopic data for training neural networks can be computationally prohibitive; equation-free numerics enable a more parsimonious collection of training data by only operating in a sparse subset of the space-time domain. We also propose using a data-driven approach, based on manifold learning and unnormalized optimal transport of distributions, to identify macro-scale dependent variable(s) suitable for the data-driven discovery of said PDEs. This approach can corroborate physically motivated candidate variables, or introduce new data-driven variables, in terms of which the coarse-grained effective PDE can be formulated. We illustrate our approach by extracting coarse-grained evolution equations from particle-based simulations with a priori unknown macro-scale variable(s), while significantly reducing the requisite data collection computational effort.
翻訳日:2022-09-28 00:42:30 公開日:2020-11-09
# 深層学習による高次元コルモゴロフ偏微分方程式のパラメトリックファミリーの数値解法

Numerically Solving Parametric Families of High-Dimensional Kolmogorov Partial Differential Equations via Deep Learning ( http://arxiv.org/abs/2011.04602v1 )

ライセンス: Link先を確認
Julius Berner, Markus Dablander, Philipp Grohs(参考訳) 本稿では,高次元線形コルモゴロフ偏微分方程式(pdes)のパラメトリックファミリーの数値解に対する深層学習アルゴリズムを提案する。 本手法は,Fynman-Kac式を用いた1つの統計的学習問題として,コルモゴロフPDE全体の数値近似を再構成した。 熱方程式およびアフィン-線形係数関数でパラメータ化したブラック・スコールのオプション価格モデルにおいて,提案アルゴリズムの機能と効率を実証的に検証した。 シミュレーションデータに基づいてトレーニングされた1つのディープニューラルネットワークが、全時空領域のPDEファミリー全体の解関数を学習可能であることを示す。 最も注目すべきは、我々の数値観測と理論的結果は、提案手法が次元の呪いを被っていないことを示し、pdesのほとんどすべての標準数値手法と区別している。

We present a deep learning algorithm for the numerical solution of parametric families of high-dimensional linear Kolmogorov partial differential equations (PDEs). Our method is based on reformulating the numerical approximation of a whole family of Kolmogorov PDEs as a single statistical learning problem using the Feynman-Kac formula. Successful numerical experiments are presented, which empirically confirm the functionality and efficiency of our proposed algorithm in the case of heat equations and Black-Scholes option pricing models parametrized by affine-linear coefficient functions. We show that a single deep neural network trained on simulated data is capable of learning the solution functions of an entire family of PDEs on a full space-time region. Most notably, our numerical observations and theoretical results also demonstrate that the proposed method does not suffer from the curse of dimensionality, distinguishing it from almost all standard numerical methods for PDEs.
翻訳日:2022-09-28 00:42:05 公開日:2020-11-09
# ゼロポテンシャル (q=0) を持つ特異ストーム・リウヴィル問題と特異スロー特徴解析

Singular Sturm-Liouville Problems with Zero Potential (q=0) and Singular Slow Feature Analysis ( http://arxiv.org/abs/2011.04765v1 )

ライセンス: Link先を確認
Stefan Richthofer, Laurenz Wiskott(参考訳) Sturm-Liouville 問題 ("\lambda wy=(ry')'+qy$) は、その領域が非有界であるか、境界で $r$ または $w$ が消えるとき特異である。 すると、正規ストゥルム・リウヴィル理論の深い結果が当てはまるかどうかを判断することは困難である。 既存の基準は、例えば解関数の項で定式化されているため、適用が難しいことが多い。 ニューマン境界条件下では、ポテンシャル q$ が 0 であり、係数関数のみを用いて単純かつ明示的な基準を与え、正規の場合の様々な性質が適用できるかどうかを評価する特別な場合について検討する。 具体的には、これらの性質はスペクトル(BD)の離散性、自己随伴性、発振(i$thの解は0)、およびi$thの固有値はi$thの解のSFAデルタ値(総エネルギー)と等しい。 さらに、各解の定常点がその零点と厳密に交わる(境界条件によらず特異あるいは正則の場合、ゼロポテンシャルに対して、あるいは$q < \lambda w$ が至る所にある場合)。 もし$\frac{r}{w}$ が有界で有界な変動であれば、この基準は特異な境界点で$\frac{|w'|}{w} \to \infty$ を必要とする。 この研究は、高次元入力信号から最も遅い非相関信号を抽出するデータ処理アルゴリズムであるslow feature analysis(sfa)に動機づけられ、コンピュータビジョン、計算神経科学、ブラインドソース分離において顕著な成功を収めている。 SFAの解析的定式化は、[Sprekeler et al., 2014] から重要なシナリオ(統計的に独立な入力)のクラスにおいて、ゼロポテンシャルとノイマン境界条件を持つSturm-Liouville問題に還元されることが知られている。 これまでのところ、数学SFA理論は、エルミート多項式によって解かれる特別なケースを除いて、通常のケースのみを考慮してきた。 この研究は SFA 理論を特異ケース、すなわち開空間シナリオに一般化する。

A Sturm-Liouville problem ($\lambda wy=(ry')'+qy$) is singular if its domain is unbounded or if $r$ or $w$ vanish at the boundary. Then it is difficult to tell whether profound results from regular Sturm-Liouville theory apply. Existing criteria are often difficult to apply, e.g. because they are formulated in terms of the solution function. We study the special case that the potential $q$ is zero under Neumann boundary conditions and give simple and explicit criteria, solely in terms of the coefficient functions, to assess whether various properties of the regular case apply. Specifically, these properties are discreteness of the spectrum (BD), self-adjointness, oscillation ($i$th solution has $i$ zeros) and that the $i$th eigenvalue equals the SFA delta value (the total energy) of the $i$th solution. We further prove that stationary points of each solution strictly interlace with its zeros (in singular or regular case, regardless of the boundary condition, for zero potential or if $q < \lambda w$ everywhere). If $\frac{r}{w}$ is bounded and of bounded variation, the criterion simplifies to requiring $\frac{|w'|}{w} \to \infty$ at singular boundary points. This research is motivated by Slow Feature Analysis (SFA), a data processing algorithm that extracts the slowest uncorrelated signals from a high-dimensional input signal and has notable success in computer vision, computational neuroscience and blind source separation. From [Sprekeler et al., 2014] it is known that for an important class of scenarios (statistically independent input), an analytic formulation of SFA reduces to a Sturm-Liouville problem with zero potential and Neumann boundary conditions. So far, the mathematical SFA theory has only considered the regular case, except for a special case that is solved by Hermite Polynomials. This work generalizes SFA theory to the singular case, i.e. open-space scenarios.
翻訳日:2022-09-28 00:41:50 公開日:2020-11-09
# 多ラベル因果変数発見:共通因果変数とラベル固有因果変数を学習する

Multi-label Causal Variable Discovery: Learning Common Causal Variables and Label-specific Causal Variables ( http://arxiv.org/abs/2011.04176v1 )

ライセンス: Link先を確認
Xingyu Wu, Bingbing Jiang, Yan Zhong, Huanhuan Chen(参考訳) マルコフ境界(MB)における因果変数は、広範な単一ラベルタスクに広く応用されている。 複雑な因果関係によるマルチラベルデータにおける因果変数の発見に焦点を当てた研究は少ない。 本稿では,複数のラベルの因果変数発見の問題と,複数のラベルが共有する共通因果変数と,複数のラベルに関連付けられたラベル固有の因果変数との区別について検討する。 非正の関節確率分布下での複数のMBを考慮し、共通因果変数と等価情報現象の関係を探索し、その解がラベル因果性の有無にかかわらず異なるメカニズムに従う等価情報に影響されることを見出した。 これらのメカニズムを解析し,これら2種類の変数を識別するために探索・識別アルゴリズムが設計された共通因果変数の理論的性質を示す。 シングルラベル問題と同様に、複数のラベルに対する因果変数も広範な応用可能性を持っている。 そこで本研究では,提案手法をマルチラベル特徴選択に適用し,最小冗長性と最大妥当性を実現するための解釈可能なアルゴリズムを提案する。 広範な実験がこれらの貢献の有効性を実証している。

Causal variables in Markov boundary (MB) have been widely applied in extensive single-label tasks. While few researches focus on the causal variable discovery in multi-label data due to the complex causal relationships. Since some variables in multi-label scenario might contain causal information about multiple labels, this paper investigates the problem of multi-label causal variable discovery as well as the distinguishing between common causal variables shared by multiple labels and label-specific causal variables associated with some single labels. Considering the multiple MBs under the non-positive joint probability distribution, we explore the relationships between common causal variables and equivalent information phenomenon, and find that the solutions are influenced by equivalent information following different mechanisms with or without existence of label causality. Analyzing these mechanisms, we provide the theoretical property of common causal variables, based on which the discovery and distinguishing algorithm is designed to identify these two types of variables. Similar to single-label problem, causal variables for multiple labels also have extensive application prospects. To demonstrate this, we apply the proposed causal mechanism to multi-label feature selection and present an interpretable algorithm, which is proved to achieve the minimal redundancy and the maximum relevance. Extensive experiments demonstrate the efficacy of these contributions.
翻訳日:2022-09-28 00:34:29 公開日:2020-11-09
# リワード条件付きニューラルムーブメントプリミティブによる人口変動政策最適化

Reward Conditioned Neural Movement Primitives for Population Based Variational Policy Optimization ( http://arxiv.org/abs/2011.04282v1 )

ライセンス: Link先を確認
M.Tuluhan Akbulut, Utku Bozdogan, Ahmet Tekden and Emre Ugur(参考訳) 本研究の目的は,教師付き学習手法における報酬に基づく政策探索問題の検討と,ロボットが報酬設定や検索空間に挑戦する複雑な行動軌跡を形成できるようにすることである。 この目的のために、実証された軌道からブートストラップできるこのロボットの経験は、ニューラルネットワークベースの新しいディープネットワークを訓練するために使われ、その潜在空間からサンプルを採取し、必要な軌道を生成する。 我々のフレームワークは、高い報酬景観からそれらをサンプリングすることで、徐々に改善された軌道を生成することができる。 変分推論は確率的潜在空間を作成し、様々な軌道をサンプリングし、目的の報酬を与えられた軌道の集団を生成する。 我々は進化的戦略の恩恵を受け、個別政策の自己組織的潜在空間に適用される新たなクロスオーバー操作を提案し、報酬関数の異なる要因に対処する個人をブレンドできるようにする。 本研究では,複数の点に逐次到達するか,オブジェクト間のギャップを通過する必要があるタスクを多数使用することにより,ロボット強化学習法に比べて,安定した学習進捗と有意なサンプル効率が得られた。 最後に,障害物回避を伴う実ロボットの実行を通して,本手法の現実的適合性を示す。

The aim of this paper is to study the reward based policy exploration problem in a supervised learning approach and enable robots to form complex movement trajectories in challenging reward settings and search spaces. For this, the experience of the robot, which can be bootstrapped from demonstrated trajectories, is used to train a novel Neural Processes-based deep network that samples from its latent space and generates the required trajectories given desired rewards. Our framework can generate progressively improved trajectories by sampling them from high reward landscapes, increasing the reward gradually. Variational inference is used to create a stochastic latent space to sample varying trajectories in generating population of trajectories given target rewards. We benefit from Evolutionary Strategies and propose a novel crossover operation, which is applied in the self-organized latent space of the individual policies, allowing blending of the individuals that might address different factors in the reward function. Using a number of tasks that require sequential reaching to multiple points or passing through gaps between objects, we showed that our method provides stable learning progress and significant sample efficiency compared to a number of state-of-the-art robotic reinforcement learning methods. Finally, we show the real-world suitability of our method through real robot execution involving obstacle avoidance.
翻訳日:2022-09-28 00:34:07 公開日:2020-11-09
# 大規模ウェアラブルデータから一般化した生理学的表現の学習

Learning Generalizable Physiological Representations from Large-scale Wearable Data ( http://arxiv.org/abs/2011.04601v1 )

ライセンス: Link先を確認
Dimitris Spathis, Ignacio Perez-Pozuelo, Soren Brage, Nicholas J. Wareham and Cecilia Mascolo(参考訳) これまで、センサを搭載したモバイルデバイスの研究は主に、人間の活動認識(歩行、ランニングなど)の純粋に監督されたタスクに重点を置いており、加速度などの低レベルの信号からハイレベルな健康成果を推測することに成功した。 そこで本研究では,意味ラベルのない活動と心拍(HR)信号を用いた自己教師付き表現学習手法を提案する。 深層ニューラルネットワークでは,活動データの監視信号としてHR応答を設定し,その基礎となる生理的関係を活用する。 我々は,我々のモデルを,280,000時間以上の手首加速度計およびウェアラブル心電図データを含む)最大自由生活複合センシングデータセットで評価し,線形分類器を用いた伝達学習,生理学的に有意かつパーソナライズされた情報の収集を通じて,様々な下流タスクに埋め込みが一般化可能であることを示す。 例えば、個人の健康、フィットネス、人口統計の特徴に関連する変数(70以上のAUC)を予測し、教師なしのオートエンコーダや一般的なバイオマーカーよりも優れています。 総じて,大規模健康とライフスタイルモニタリングに影響を及ぼす行動・生理データに対する,最初のマルチモーダル自己教師あり手法を提案する。

To date, research on sensor-equipped mobile devices has primarily focused on the purely supervised task of human activity recognition (walking, running, etc), demonstrating limited success in inferring high-level health outcomes from low-level signals, such as acceleration. Here, we present a novel self-supervised representation learning method using activity and heart rate (HR) signals without semantic labels. With a deep neural network, we set HR responses as the supervisory signal for the activity data, leveraging their underlying physiological relationship. We evaluate our model in the largest free-living combined-sensing dataset (comprising more than 280,000 hours of wrist accelerometer & wearable ECG data) and show that the resulting embeddings can generalize in various downstream tasks through transfer learning with linear classifiers, capturing physiologically meaningful, personalized information. For instance, they can be used to predict (higher than 70 AUC) variables associated with individuals' health, fitness and demographic characteristics, outperforming unsupervised autoencoders and common bio-markers. Overall, we propose the first multimodal self-supervised method for behavioral and physiological data with implications for large-scale health and lifestyle monitoring.
翻訳日:2022-09-28 00:33:43 公開日:2020-11-09
# 微分可能な物理エンジンによるスプリングロッドシステムの同定

Spring-Rod System Identification via Differentiable Physics Engine ( http://arxiv.org/abs/2011.04910v1 )

ライセンス: Link先を確認
Kun Wang, Mridul Aanjaneya and Kostas Bekris(参考訳) 複雑なスプリングロッドアセンブリのシステム同定のための新しい微分可能な物理エンジンを提案する。 力学系 \emph{and} のパラメータを学習するためのブラックボックスデータ駆動手法とは異なり、従来の物理エンジンと類似した運動方程式の離散形式を用いて、我々のエンジンの設計をモジュール化する。 さらに,各モジュールの次元を3次元から1次元に減らし,線形回帰を用いたシステムパラメータの効率的な学習を可能にする。 回帰パラメータはバネ剛性やロッドの質量などの物理量に対応しており、パイプラインを説明可能である。 このアプローチは、必要なトレーニングデータの量を大幅に削減し、データサンプリングとモデルトレーニングの反復的識別を回避する。 提案するエンジンの性能を従来のソリューションと比較し,nasaのicosahedronのようなテンセグリティシステムの有効性を実証した。

We propose a novel differentiable physics engine for system identification of complex spring-rod assemblies. Unlike black-box data-driven methods for learning the evolution of a dynamical system \emph{and} its parameters, we modularize the design of our engine using a discrete form of the governing equations of motion, similar to a traditional physics engine. We further reduce the dimension from 3D to 1D for each module, which allows efficient learning of system parameters using linear regression. The regression parameters correspond to physical quantities, such as spring stiffness or the mass of the rod, making the pipeline explainable. The approach significantly reduces the amount of training data required, and also avoids iterative identification of data sampling and model training. We compare the performance of the proposed engine with previous solutions, and demonstrate its efficacy on tensegrity systems, such as NASA's icosahedron.
翻訳日:2022-09-28 00:32:34 公開日:2020-11-09
# 動的ディスパッチにおける深層強化学習の適用の課題

Challenges of Applying Deep Reinforcement Learning in Dynamic Dispatching ( http://arxiv.org/abs/2011.05570v1 )

ライセンス: Link先を確認
Hamed Khorasgani, Haiyan Wang, Chetan Gupta(参考訳) 動的ディスパッチは、適切なタイミングで適切なリソースを適切に割り当てることを目的としています。 動的ディスパッチは鉱業における運用最適化の核となる問題の一つである。 理論的には、深層強化学習(RL)はこの問題を解決するのに自然に適している。 しかし、業界はヒューリスティックスや人間の直観にも依存しており、それらはしばしば近視的かつ最適のソリューションである。 本稿では,鉱業における動的ディスパッチ問題に,深部RLを用いて対処する上での課題について概説する。

Dynamic dispatching aims to smartly allocate the right resources to the right place at the right time. Dynamic dispatching is one of the core problems for operations optimization in the mining industry. Theoretically, deep reinforcement learning (RL) should be a natural fit to solve this problem. However, the industry relies on heuristics or even human intuitions, which are often short-sighted and sub-optimal solutions. In this paper, we review the main challenges in using deep RL to address the dynamic dispatching problem in the mining industry.
翻訳日:2022-09-28 00:25:50 公開日:2020-11-09
# 選択バイアスに影響を及ぼす健康関連対因果予測タスクの安定予測--テストセットの特徴を解消する必要性

Stable predictions for health related anticausal prediction tasks affected by selection biases: the need to deconfound the test set features ( http://arxiv.org/abs/2011.04128v1 )

ライセンス: Link先を確認
Elias Chaibub Neto, Phil Snyder, Solveig K Sieberts, Larsson Omberg(参考訳) 健康関連機械学習アプリケーションでは、トレーニングデータはしばしば、学習者が配置される対象集団からの非表現的なサンプルに対応する。 反因果予測タスクでは、選択バイアスは、共同創設者と異なるターゲット環境における結果変数の関連を不安定にすることが多い。 その結果, 学習者の予測は不安定であり, シフトテスト環境での一般化に失敗する可能性がある。 安定した予測手法は、未知のテスト環境で安定な予測を生成することでこの問題を解決することを目的としている。 しかし、これらのアプローチは時々トレーニングデータのみに適用され、基礎のないモデルをトレーニングすることで、シフトしたテストセットで安定した予測を生成するのに十分であることを期待している。 ここでは,テストセットの機能をデコンファクトすることで,安定性の向上が実現可能であることを示す。 モバイル健康調査から得られた合成データと実世界データの両方を用いて,これらの観測を行った。

In health related machine learning applications, the training data often corresponds to a non-representative sample from the target populations where the learners will be deployed. In anticausal prediction tasks, selection biases often make the associations between confounders and the outcome variable unstable across different target environments. As a consequence, the predictions from confounded learners are often unstable, and might fail to generalize in shifted test environments. Stable prediction approaches aim to solve this problem by producing predictions that are stable across unknown test environments. These approaches, however, are sometimes applied to the training data alone with the hope that training an unconfounded model will be enough to generate stable predictions in shifted test sets. Here, we show that this is insufficient, and that improved stability can be achieved by deconfounding the test set features as well. We illustrate these observations using both synthetic data and real world data from a mobile health study.
翻訳日:2022-09-28 00:25:43 公開日:2020-11-09
# 生成モデルに対するシンクホーン自然勾配

Sinkhorn Natural Gradient for Generative Models ( http://arxiv.org/abs/2011.04162v1 )

ライセンス: Link先を確認
Zebang Shen and Zhenfu Wang and Alejandro Ribeiro and Hamed Hassani(参考訳) 本稿では,パラメータ化がプッシュフォワード構造によって特徴づけられるパラメトリックな確率測度に対して関数を最小化する問題を考える。 この問題の重要な応用は、生成的敵ネットワークのトレーニングである。 本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。 我々は,SiNGのキーコンポーネントであるシンクホーン情報行列(SIM)が明示的な表現を持ち,所望の精度で対数的にスケールする複雑性を正確に評価できることを示した。 これは、およそしか実行できない既存の自然勾配法とは対照的である。 さらに,モンテカルロ型統合のみの実用化においては,SIMの実証的推定器を設計し,安定性解析を行う。 本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。

We consider the problem of minimizing a functional over a parametric family of probability measures, where the parameterization is characterized via a push-forward structure. An important application of this problem is in training generative adversarial networks. In this regard, we propose a novel Sinkhorn Natural Gradient (SiNG) algorithm which acts as a steepest descent method on the probability space endowed with the Sinkhorn divergence. We show that the Sinkhorn information matrix (SIM), a key component of SiNG, has an explicit expression and can be evaluated accurately in complexity that scales logarithmically with respect to the desired accuracy. This is in sharp contrast to existing natural gradient methods that can only be carried out approximately. Moreover, in practical applications when only Monte-Carlo type integration is available, we design an empirical estimator for SIM and provide the stability analysis. In our experiments, we quantitatively compare SiNG with state-of-the-art SGD-type solvers on generative tasks to demonstrate its efficiency and efficacy of our method.
翻訳日:2022-09-28 00:25:26 公開日:2020-11-09
# 非可換空間における最適輸送への貢献

A contribution to Optimal Transport on incomparable spaces ( http://arxiv.org/abs/2011.04447v1 )

ライセンス: Link先を確認
Titouan Vayer(参考訳) 最適輸送(Optimal Transport)は、確率分布間の距離の幾何学的概念を定義し、点の集合間の対応、関係を見つけることができる理論である。 多くの機械学習アプリケーションは、数学と最適化の最前線でこの理論から導かれる。 この論文は、異なるデータが非可換空間に属する複雑なシナリオを研究することを提案する。 グラフ間の最適な転送をどのように定義し、適用するか。 データが変化し、同じメートル法空間に埋め込まれていない場合、どのように適応できるか? この論文は、これらの異なるケースに対して最適なトランスポートツールセットを提案する。 重要な部分はグロモフ・ワッサーシュタイン距離の研究に特化しており、その性質は非可換空間上の興味深い輸送問題を定義できる。 より広い範囲において,提案手法の数学的特性を解析し,それらの計算のためのアルゴリズム的解法を確立し,その適用性について,特に分類,単純化,構造化データの分割,異種領域適応などをカバーする多数の機械学習scenariiについて検討した。

Optimal Transport is a theory that allows to define geometrical notions of distance between probability distributions and to find correspondences, relationships, between sets of points. Many machine learning applications are derived from this theory, at the frontier between mathematics and optimization. This thesis proposes to study the complex scenario in which the different data belong to incomparable spaces. In particular we address the following questions: how to define and apply Optimal Transport between graphs, between structured data? How can it be adapted when the data are varied and not embedded in the same metric space? This thesis proposes a set of Optimal Transport tools for these different cases. An important part is notably devoted to the study of the Gromov-Wasserstein distance whose properties allow to define interesting transport problems on incomparable spaces. More broadly, we analyze the mathematical properties of the various proposed tools, we establish algorithmic solutions to compute them and we study their applicability in numerous machine learning scenarii which cover, in particular, classification, simplification, partitioning of structured data, as well as heterogeneous domain adaptation.
翻訳日:2022-09-28 00:24:52 公開日:2020-11-09
# 安定したサンプル圧縮スキーム:新しいアプリケーションと最適なSVMマージン境界

Stable Sample Compression Schemes: New Applications and an Optimal SVM Margin Bound ( http://arxiv.org/abs/2011.04586v1 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich(参考訳) 本研究では, 安定なサンプル圧縮スキームに基づく教師付き学習アルゴリズム群を解析し, 圧縮セットに選択されていないトレーニングセットから点を除去しても, 結果の分類が変更されないことを考慮した。 この手法を用いて,様々な学習アルゴリズムにおけるデータ依存一般化境界を導出する。 特に、SVMの新たなマージンを証明し、ログファクタを削除します。 新しい境界は確実に最適である。 このことは、SVM によって達成可能な PAC マージン境界に関する長年の未解決問題を解決する。

We analyze a family of supervised learning algorithms based on sample compression schemes that are stable, in the sense that removing points from the training set which were not selected for the compression set does not alter the resulting classifier. We use this technique to derive a variety of novel or improved data-dependent generalization bounds for several learning algorithms. In particular, we prove a new margin bound for SVM, removing a log factor. The new bound is provably optimal. This resolves a long-standing open question about the PAC margin bounds achievable by SVM.
翻訳日:2022-09-28 00:24:16 公開日:2020-11-09
# 深ベイズ非パラメトリック因子解析

Deep Bayesian Nonparametric Factor Analysis ( http://arxiv.org/abs/2011.04770v1 )

ライセンス: Link先を確認
Arunesh Mittal, Paul Sajda, John Paisley(参考訳) 本稿では,遅延符号上の複素非因子分布を近似できる,ベータプロセス前の深部生成因子分析モデルを提案する。 このモデルの特定のインスタンス化において,スケーラブルな推論のための確率的EMアルゴリズムの概要と予備的な結果を示す。

We propose a deep generative factor analysis model with beta process prior that can approximate complex non-factorial distributions over the latent codes. We outline a stochastic EM algorithm for scalable inference in a specific instantiation of this model and present some preliminary results.
翻訳日:2022-09-28 00:24:06 公開日:2020-11-09
# 平衡逆順応を用いた複雑な場面における位置決め

Localising In Complex Scenes Using Balanced Adversarial Adaptation ( http://arxiv.org/abs/2011.04122v1 )

ライセンス: Link先を確認
Gil Avraham, Yan Zuo and Tom Drummond(参考訳) ドメイン適応と生成モデリングは、シミュレーション環境における正確なラベル付きデータの豊富さを活用することで、データ収集とラベリングの費用対効果を和らげる。 本研究では,シミュレーション環境のローカライズに最適化された表現と実環境におけるそのような表現の適用との間に存在する性能ギャップについて検討する。 本手法はシミュレーションと実環境の共通幾何学的類似性を生かしつつ,視覚的な差異に対する不均一性を維持しながら活用する。 これは、表現抽出器を最適化して、シミュレーションと実表現の両方を共有表現空間に投影することで達成される。 提案手法では,表現抽出器が特徴を抽出した領域を隠蔽し,局所化に有用なソースとターゲットドメイン間のロバストな属性を同時に保持する。 本研究では,屋内ハビタットシミュレーション環境 (Matterport3D, Replica) に最適化された表現を実環境屋内環境 (Active Vision Dataset) に適応させることにより,本手法の評価を行った。

Domain adaptation and generative modelling have collectively mitigated the expensive nature of data collection and labelling by leveraging the rich abundance of accurate, labelled data in simulation environments. In this work, we study the performance gap that exists between representations optimised for localisation on simulation environments and the application of such representations in a real-world setting. Our method exploits the shared geometric similarities between simulation and real-world environments whilst maintaining invariance towards visual discrepancies. This is achieved by optimising a representation extractor to project both simulated and real representations into a shared representation space. Our method uses a symmetrical adversarial approach which encourages the representation extractor to conceal the domain that features are extracted from and simultaneously preserves robust attributes between source and target domains that are beneficial for localisation. We evaluate our method by adapting representations optimised for indoor Habitat simulated environments (Matterport3D and Replica) to a real-world indoor environment (Active Vision Dataset), showing that it compares favourably against fully-supervised approaches.
翻訳日:2022-09-28 00:24:01 公開日:2020-11-09
# ワンショット物体検出における一般化ギャップの閉鎖

Closing the Generalization Gap in One-Shot Object Detection ( http://arxiv.org/abs/2011.04267v1 )

ライセンス: Link先を確認
Claudio Michaelis, Matthias Bethge, Alexander S. Ecker(参考訳) トレーニングされたモデルには、トレーニング中に使用されるオブジェクトカテゴリが、新しいものよりもはるかに確実に検出されるような、実質的な一般化ギャップがあります。 ここでは、トレーニング中に使用されるオブジェクトカテゴリの数を増やすことで、この一般化ギャップをほぼ閉ざすことができることを示す。 この結果から,各カテゴリを記憶するモデルから,カテゴリ分布上のオブジェクト類似性を学ぶモデルに切り換えた結果,テスト時に強い一般化が可能となった。 この体制では、より強力なバックボーンやより長いトレーニングスケジュールのようなオブジェクト検出モデルを改善するための標準手法もまた、新しいカテゴリの恩恵を受けており、COCOのような小さなデータセットには当てはまらない。 以上の結果から, 高度なメトリクス学習アプローチではなく, カテゴリの規模を拡大する上で, 強力な数点検出モデルの鍵となることが示唆された。 それゆえ、将来のデータアノテーションの取り組みは、カテゴリごとにより多くの画像やインスタンスを集めるのではなく、より広いデータセットに焦点をあて、より多くのカテゴリに注釈を付けるべきである。

Despite substantial progress in object detection and few-shot learning, detecting objects based on a single example - one-shot object detection - remains a challenge: trained models exhibit a substantial generalization gap, where object categories used during training are detected much more reliably than novel ones. Here we show that this generalization gap can be nearly closed by increasing the number of object categories used during training. Our results show that the models switch from memorizing individual categories to learning object similarity over the category distribution, enabling strong generalization at test time. Importantly, in this regime standard methods to improve object detection models like stronger backbones or longer training schedules also benefit novel categories, which was not the case for smaller datasets like COCO. Our results suggest that the key to strong few-shot detection models may not lie in sophisticated metric learning approaches, but instead in scaling the number of categories. Future data annotation efforts should therefore focus on wider datasets and annotate a larger number of categories rather than gathering more images or instances per category.
翻訳日:2022-09-28 00:23:40 公開日:2020-11-09
# MAGNeto:抽出タグ要約問題に対する効率的なディープラーニング手法

MAGNeto: An Efficient Deep Learning Method for the Extractive Tags Summarization Problem ( http://arxiv.org/abs/2011.04349v1 )

ライセンス: Link先を確認
Hieu Trong Phung (1 and 2), Anh Tuan Vu (1), Tung Dinh Nguyen (1), Lam Thanh Do (1 and 2), Giang Nam Ngo (1), Trung Thanh Tran (1) and Ngoc C. L\^e (1 and 2) ((1) PIXTA Vietnam, Hanoi, Vietnam. (2) Hanoi University of Science and Technology, Ha Noi, Viet Nam.)(参考訳) 本研究では,抽出タグ要約(ETS)と呼ばれる新しい画像アノテーションタスクについて検討する。 ゴールは、画像とその対応するタグに横たわるコンテキストから重要なタグを抽出することである。 視覚情報とテキスト情報の両方を活用するために,最先端のディープラーニングモデルをいくつか調整する。 提案手法は, 畳み込み層や自己アテンション層など, 広く使用されているブロックで構成され, 補助損失関数とゲーティング機構を組み合わせることで, 基本成分を接着・高め, 統一アーキテクチャを形成する。 さらに,トレーニングデータの不均衡を軽減することを目的とした損失関数と,最終結果に対する外れ値の影響を軽減するための簡易かつ効果的なデータ拡張手法を導入する。 最後に、利用可能な大量のラベルのないデータを利用することで、モデルの性能をさらに向上するための教師なし事前学習戦略を検討する。 我々のモデルは、公開NUS-WIDEベンチマークで90%$F_\text{1}$スコア、ノイズの多い大規模実世界のプライベートデータセットで50%$F_\text{1}$スコアを示す。 実験を再現するためのソースコードは、https://github.com/pixta-dev/labteamで公開されている。

In this work, we study a new image annotation task named Extractive Tags Summarization (ETS). The goal is to extract important tags from the context lying in an image and its corresponding tags. We adjust some state-of-the-art deep learning models to utilize both visual and textual information. Our proposed solution consists of different widely used blocks like convolutional and self-attention layers, together with a novel idea of combining auxiliary loss functions and the gating mechanism to glue and elevate these fundamental components and form a unified architecture. Besides, we introduce a loss function that aims to reduce the imbalance of the training data and a simple but effective data augmentation technique dedicated to alleviates the effect of outliers on the final results. Last but not least, we explore an unsupervised pre-training strategy to further boost the performance of the model by making use of the abundant amount of available unlabeled data. Our model shows the good results as 90% $F_\text{1}$ score on the public NUS-WIDE benchmark, and 50% $F_\text{1}$ score on a noisy large-scale real-world private dataset. Source code for reproducing the experiments is publicly available at: https://github.com/pixta-dev/labteam
翻訳日:2022-09-28 00:17:18 公開日:2020-11-09
# 効率的な多目的進化フレームワークを用いたニューラルアーキテクチャ探索

Neural Architecture Search with an Efficient Multiobjective Evolutionary Framework ( http://arxiv.org/abs/2011.04463v1 )

ライセンス: Link先を確認
Maria Baldeon Calisto and Susana Lai-Yuen(参考訳) ディープラーニング手法は、画像分類やセグメンテーション、音声認識、機械翻訳など、多くの複雑なタスクを解くことに成功している。 それでも、ニューラルネットワークを特定の問題のために手動で設計するのは、巨大なハイパーパラメータ検索スペース、長いトレーニング時間、ハイパーパラメータ選択のための技術的なガイドラインの欠如など、非常に困難で時間を要する。 さらに、ほとんどのネットワークは複雑で、タスク固有であり、過度にパラメータ化されている。 近年,正確かつ効率的なアーキテクチャの設計を自動化するために,多目的ニューラルアーキテクチャ探索法が提案されている。 しかし、アンセットされたハイパーパラメータを手動で定義する必要のあるアーキテクチャのマクロ構造かマイクロ構造のみを最適化し、最適化プロセス中に生成された情報を検索の効率を高めるために使用しない。 本研究では,ネットワークの精度とサイズを最適化しつつ,ニューラルネットワークの自動設計のための効率的な多目的ニューラルネットワーク探索フレームワークであるemonasを提案する。 EMONASは、アーキテクチャのマクロ構造とマイクロ構造の両方を考慮した探索空間と、ランダムフォレストサロゲートを用いて最適なハイパーパラメータを効率的に探索し、選択確率を誘導するサロゲート支援多目的進化ベースアルゴリズムで構成されている。 疾患診断,リスク評価,治療決定に欠かせないMICCAI ACDCチャレンジからの3D心筋セグメンテーションを課題として評価した。 EMONASで発見されたアーキテクチャは、すべての評価指標における課題のトップ10にランクインし、検索時間を50%以上削減し、パラメータ数がかなり少なくなるとともに、他のアプローチに匹敵するパフォーマンスを実現している。

Deep learning methods have become very successful at solving many complex tasks such as image classification and segmentation, speech recognition and machine translation. Nevertheless, manually designing a neural network for a specific problem is very difficult and time-consuming due to the massive hyperparameter search space, long training times, and lack of technical guidelines for the hyperparameter selection. Moreover, most networks are highly complex, task specific and over-parametrized. Recently, multiobjective neural architecture search (NAS) methods have been proposed to automate the design of accurate and efficient architectures. However, they only optimize either the macro- or micro-structure of the architecture requiring the unset hyperparameters to be manually defined, and do not use the information produced during the optimization process to increase the efficiency of the search. In this work, we propose EMONAS, an Efficient MultiObjective Neural Architecture Search framework for the automatic design of neural architectures while optimizing the network's accuracy and size. EMONAS is composed of a search space that considers both the macro- and micro-structure of the architecture, and a surrogate-assisted multiobjective evolutionary based algorithm that efficiently searches for the best hyperparameters using a Random Forest surrogate and guiding selection probabilities. EMONAS is evaluated on the task of 3D cardiac segmentation from the MICCAI ACDC challenge, which is crucial for disease diagnosis, risk evaluation, and therapy decision. The architecture found with EMONAS is ranked within the top 10 submissions of the challenge in all evaluation metrics, performing better or comparable to other approaches while reducing the search time by more than 50% and having considerably fewer number of parameters.
翻訳日:2022-09-28 00:16:58 公開日:2020-11-09
# 機械学習モデルのリスクアセスメント

Risk Assessment for Machine Learning Models ( http://arxiv.org/abs/2011.04328v1 )

ライセンス: Link先を確認
Paul Schwerdtner, Florens Gre{\ss}ner, Nikhil Kapoor, Felix Assion, Ren\'e Sass, Wiebke G\"unther, Fabian H\"uger, and Peter Schlicht(参考訳) 本稿では,機械学習モデルを特定の環境にデプロイする際のリスクを評価するためのフレームワークを提案する。 そのため、意思決定理論から機械学習まで、リスク定義を継承します。 デプロイシナリオを定義し,各シナリオで指定された条件下で機械学習モデルをテストし,テスト対象の機械学習モデルの出力に伴う損傷を推定する手法を開発し,実装する。 各シナリオの確率と推定されたダメージを用いて、機械学習モデルのemph{key risk indicators}を定義する。 シナリオの定義とその可能性による重み付けにより、複数のアプリケーション領域にわたる機械学習における標準化されたリスク評価が可能になる。 特に、我々のフレームワークでは、ランダムな入力汚職に対する機械学習モデルの堅牢性、環境の変化による分布変化、および逆の摂動を評価することができる。

In this paper we propose a framework for assessing the risk associated with deploying a machine learning model in a specified environment. For that we carry over the risk definition from decision theory to machine learning. We develop and implement a method that allows to define deployment scenarios, test the machine learning model under the conditions specified in each scenario, and estimate the damage associated with the output of the machine learning model under test. Using the likelihood of each scenario together with the estimated damage we define \emph{key risk indicators} of a machine learning model. The definition of scenarios and weighting by their likelihood allows for standardized risk assessment in machine learning throughout multiple domains of application. In particular, in our framework, the robustness of a machine learning model to random input corruptions, distributional shifts caused by a changing environment, and adversarial perturbations can be assessed.
翻訳日:2022-09-28 00:15:49 公開日:2020-11-09
# 温度予測のためのARIMAとディープラーニングモデルの比較

Comparison between ARIMA and Deep Learning Models for Temperature Forecasting ( http://arxiv.org/abs/2011.04452v1 )

ライセンス: Link先を確認
Eranga De Saa and Lochandaka Ranathunga(参考訳) 天気予報は、農業従事者や収穫する作物から航空会社まで、様々な方法で便を予定している。 気象予報は大気のカオス的な性質のために難しい課題である。 そのため、気象予報の課題を克服するために、多くの研究が注目されている。 本稿では,ARIMA(Auto Regressive Integrated Average)モデルとディープラーニングモデルを比較し,温度を推定する。 深層学習モデルは,空間的特徴を抽出する1次元畳み込み層と時間的特徴を抽出するLSTM層から構成される。 どちらのモデルも、szegedとhungryの時間毎の温度データに適用される。 実験結果によると,ディープラーニングモデルは従来のARIMA手法よりも優れた性能を示した。

Weather forecasting benefits us in various ways from farmers in cultivation and harvesting their crops to airlines to schedule their flights. Weather forecasting is a challenging task due to the chaotic nature of the atmosphere. Therefore lot of research attention has drawn to obtain the benefits and to overcome the challenges of weather forecasting. This paper compares ARIMA (Auto Regressive Integrated Moving Average) model and deep learning models to forecast temperature. The deep learning model consists of one dimensional convolutional layers to extract spatial features and LSTM layers to extract temporal features. Both of these models are applied to hourly temperature data set from Szeged, Hungry. According to the experimental results deep learning model was able to perform better than the traditional ARIMA methodology.
翻訳日:2022-09-28 00:15:38 公開日:2020-11-09
# グラフニューラルネットワークのためのパラメータ化説明器

Parameterized Explainer for Graph Neural Network ( http://arxiv.org/abs/2011.04573v1 )

ライセンス: Link先を確認
Dongsheng Luo, Wei Cheng, Dongkuan Xu, Wenchao Yu, Bo Zong, Haifeng Chen, Xiang Zhang(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩にもかかわらず、GNNによる予測を説明することは難しい問題である。 先行する手法は、GNNモデルが単一インスタンス(例えばノードやグラフ)の予測を行う理由を解釈するために、局所的な説明(重要なサブグラフ構造とノードの特徴)を独立に扱う。 その結果、生成された説明は各インスタンスに対して辛抱強くカスタマイズされる。 各インスタンスを独立に解釈するユニークな説明は、学習したGNNモデルのグローバルな理解を提供するには不十分であり、一般化性の欠如と帰納的設定での使用を妨げる。 さらに、単一のインスタンスを説明するように設計されているため、一連のインスタンス(例えば、あるクラスのグラフ)を自然に説明することは困難である。 本研究では、これらの課題に対処し、GNNのためのパラメータ化説明器PGExplainerを提案する。 PGExplainerは、説明の生成プロセスをパラメータ化するためにディープニューラルネットワークを採用しており、PGExplainerは複数のインスタンスをまとめて説明する自然なアプローチを可能にする。 既存の作業と比較して、pgexplainerはより良い一般化能力を持ち、インダクティブな設定で簡単に利用できる。 合成データセットと実時間データセットの両方の実験では、リードベースライン上でグラフ分類を説明するaucの相対的改善が最大24.7\%と高い競合性を示している。

Despite recent progress in Graph Neural Networks (GNNs), explaining predictions made by GNNs remains a challenging open problem. The leading method independently addresses the local explanations (i.e., important subgraph structure and node features) to interpret why a GNN model makes the prediction for a single instance, e.g. a node or a graph. As a result, the explanation generated is painstakingly customized for each instance. The unique explanation interpreting each instance independently is not sufficient to provide a global understanding of the learned GNN model, leading to a lack of generalizability and hindering it from being used in the inductive setting. Besides, as it is designed for explaining a single instance, it is challenging to explain a set of instances naturally (e.g., graphs of a given class). In this study, we address these key challenges and propose PGExplainer, a parameterized explainer for GNNs. PGExplainer adopts a deep neural network to parameterize the generation process of explanations, which enables PGExplainer a natural approach to explaining multiple instances collectively. Compared to the existing work, PGExplainer has better generalization ability and can be utilized in an inductive setting easily. Experiments on both synthetic and real-life datasets show highly competitive performance with up to 24.7\% relative improvement in AUC on explaining graph classification over the leading baseline.
翻訳日:2022-09-28 00:15:27 公開日:2020-11-09
# タスクオラクルなしでの生涯学習

Lifelong Learning Without a Task Oracle ( http://arxiv.org/abs/2011.04783v1 )

ライセンス: Link先を確認
Amanda Rios and Laurent Itti(参考訳) 監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。 継続的学習に対する最先端のソリューションの多くは、連続的なタスクを段階的に順応するためのモデルの偏りや分割に依存しています。 しかし、これらのメソッドは、モデルが完全に実行できないことなく、各テストサンプルにタスクidを割り当てるタスクoracleの可用性に大きく依存している。 この欠点に対処するために,(1)最寄りの手段,ガウス混合モデル,あるいはファジィアートバックボーンを用いたインクリメンタルな非教師付きプロトタイプ割り当て,(2)高速なファジィアートマップによるインクリメンタルプロトタイプ割り当て,(3)動的コアセットでトレーニングされた浅いパーセプトロンといった,メモリオーバーヘッドの少ないタスク割り当てマッパーを提案し,比較する。 提案するモデル変種は,事前訓練された特徴抽出器あるいは主分類器ネットワークのタスク依存特徴埋め込みから訓練される。 これらのパイプライン変種を連続学習ベンチマークに適用し、複数のデータセットのシーケンスまたは1つのデータセット内で構成する。 全体として、これらの手法は、単純さとコンパクトさにもかかわらず、特にデータセット間タスク割り当ての実験において、基礎となる真理託に非常に近い性能を発揮する。 さらに、ベストパフォーマンスの変種は平均1.7%のパラメータメモリ増加しか課さない。

Supervised deep neural networks are known to undergo a sharp decline in the accuracy of older tasks when new tasks are learned, termed "catastrophic forgetting". Many state-of-the-art solutions to continual learning rely on biasing and/or partitioning a model to accommodate successive tasks incrementally. However, these methods largely depend on the availability of a task-oracle to confer task identities to each test sample, without which the models are entirely unable to perform. To address this shortcoming, we propose and compare several candidate task-assigning mappers which require very little memory overhead: (1) Incremental unsupervised prototype assignment using either nearest means, Gaussian Mixture Models or fuzzy ART backbones; (2) Supervised incremental prototype assignment with fast fuzzy ARTMAP; (3) Shallow perceptron trained via a dynamic coreset. Our proposed model variants are trained either from pre-trained feature extractors or task-dependent feature embeddings of the main classifier network. We apply these pipeline variants to continual learning benchmarks, comprised of either sequences of several datasets or within one single dataset. Overall, these methods, despite their simplicity and compactness, perform very close to a ground truth oracle, especially in experiments of inter-dataset task assignment. Moreover, best-performing variants only impose an average cost of 1.7% parameter memory increase.
翻訳日:2022-09-28 00:15:06 公開日:2020-11-09
# AIストーリー: 子どものための対話型ナラティブシステム

AI Stories: An Interactive Narrative System for Children ( http://arxiv.org/abs/2011.04242v1 )

ライセンス: Link先を確認
Ben Burtenshaw(参考訳) AI Storiesは、子供たちが会話を通じて物語の世界を共同創造できる対話型対話システムである。 今後3年間で、このシステムは小児病棟内で開発され、テストされ、教育と遊びのギャップの間の有用なリソースを提供する。 物語を語り、作り上げることは言語遊びの基本的な部分であり、その会話性や非感覚的な性質は重要である。 本稿では,本プロジェクトの現状について,より実験的かつ一般的な観点から紹介する。 対話を通じた概念的なストーリーテリングは、ストーリーが実行的、時間的、社会的であった静的、直線的な媒体を超えて、ストーリーのプレプリント解釈に関係している。

AI Stories is a proposed interactive dialogue system, that lets children co-create narrative worlds through conversation. Over the next three years this system will be developed and tested within pediatric wards, where it offers a useful resource between the gap of education and play. Telling and making stories is a fundamental part of language play, and its chatty and nonsensical qualities are important; therefore, the prologued usage an automated system offers is a benefit to children. In this paper I will present the current state of this project, in its more experimental and general guise. Conceptually story-telling through dialogue relates to the preprint interpretation of story, beyond the static and linear medium, where stories were performative, temporal, and social.
翻訳日:2022-09-28 00:07:20 公開日:2020-11-09
# CapWAP: 目的のカプセル化

CapWAP: Captioning with a Purpose ( http://arxiv.org/abs/2011.04264v1 )

ライセンス: Link先を確認
Adam Fisch, Kenton Lee, Ming-Wei Chang, Jonathan H. Clark, Regina Barzilay(参考訳) 従来の画像キャプションタスクでは、一般的な参照キャプションを使用して画像に関するテキスト情報を提供する。 しかし、異なるユーザー人口は画像の異なる視覚的な側面を気にする。 本稿では,新しい課題であるCaptioning with a Purpose (CapWAP)を提案する。 我々のゴールは、画像に関する一般的な情報を提供するのではなく、目的とする人口の情報ニーズに合ったシステムを開発することです。 本課題では,質問応答(QA)ペアを,参照キャプションではなく,ユーザからの情報要求の自然な表現として使用し,トレーニングと推論後の評価を行う。 そこで本研究では,質問応答モデルを用いてユーザの質問に対する正しい回答を提示する出力を報奨することで,強化学習を用いて意図した情報に直接最適化できることを示す。 我々は、いくつかの視覚的質問応答データセットをCapWAPデータセットに変換するとともに、キャプションのみをコンテキストとして使用する場合のユーザ質問に対するQAパフォーマンスから、目的のキャプションシステムが、汎用のキャプションよりも特定の情報のニーズを予測し、満たすために学習する様々なシナリオを実証する。

The traditional image captioning task uses generic reference captions to provide textual information about images. Different user populations, however, will care about different visual aspects of images. In this paper, we propose a new task, Captioning with a Purpose (CapWAP). Our goal is to develop systems that can be tailored to be useful for the information needs of an intended population, rather than merely provide generic information about an image. In this task, we use question-answer (QA) pairs---a natural expression of information need---from users, instead of reference captions, for both training and post-inference evaluation. We show that it is possible to use reinforcement learning to directly optimize for the intended information need, by rewarding outputs that allow a question answering model to provide correct answers to sampled user questions. We convert several visual question answering datasets into CapWAP datasets, and demonstrate that under a variety of scenarios our purposeful captioning system learns to anticipate and fulfill specific information needs better than its generic counterparts, as measured by QA performance on user questions from unseen images, when using the caption alone as context.
翻訳日:2022-09-28 00:07:07 公開日:2020-11-09
# 参照、再利用、縮小:ビジュアルおよび会話コンテキストにおける後続参照の生成

Refer, Reuse, Reduce: Generating Subsequent References in Visual and Conversational Contexts ( http://arxiv.org/abs/2011.04554v1 )

ライセンス: Link先を確認
Ece Takmaz, Mario Giulianelli, Sandro Pezzelle, Arabella Sinclair, Raquel Fern\'andez(参考訳) 対話参加者は会話の中でしばしば実体や状況を参照し、その結束性に寄与する。 その後の参照は、インターロカクタによって蓄積された共通の基盤を活用し、それゆえいくつかの興味深い特性を持っている。 本稿では,視覚対話における第1および第2の参照の生成に取り組む。 本稿では,視覚と会話の文脈に基づいた参照発話を生成する生成モデルを提案する。 また,出力の参照効率を評価するために,参照解像度システムを実装した。 実験と分析の結果,対話の文脈にないモデルよりも,より優れた,より効果的な発話を参照し,人間に似た言語パターンを示す後続の参照を生成することがわかった。

Dialogue participants often refer to entities or situations repeatedly within a conversation, which contributes to its cohesiveness. Subsequent references exploit the common ground accumulated by the interlocutors and hence have several interesting properties, namely, they tend to be shorter and reuse expressions that were effective in previous mentions. In this paper, we tackle the generation of first and subsequent references in visually grounded dialogue. We propose a generation model that produces referring utterances grounded in both the visual and the conversational context. To assess the referring effectiveness of its output, we also implement a reference resolution system. Our experiments and analyses show that the model produces better, more effective referring utterances than a model not grounded in the dialogue context, and generates subsequent references that exhibit linguistic patterns akin to humans.
翻訳日:2022-09-28 00:06:46 公開日:2020-11-09
# ヒューマン・ゲイズによる逐次クロスモーダルアライメントによる画像記述の生成

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze ( http://arxiv.org/abs/2011.04592v1 )

ライセンス: Link先を確認
Ece Takmaz, Sandro Pezzelle, Lisa Beinborn, Raquel Fern\'andez(参考訳) 話者が画像を記述するとき、それらに言及する前にオブジェクトを見る傾向がある。 本稿では,画像記述生成過程をコンピュータでモデル化することにより,このような逐次的相互アライメントを考察する。 我々は,最先端の画像キャプションシステムの出発点として,言語生成中に記録された人間の視線パターンからの情報を利用するモデル変異をいくつも開発する。 特に,視覚処理を$\textit{sequentially}$でモデル化した画像記述生成への最初のアプローチを提案する。 実験と分析により,視線による注意を生かし,人間の認知過程に光を当てることで,視線モダリティと言語生産との相性を比較することにより,より良い説明が得られることを確認した。 注視データの処理は、話者が生成した記述とより一致し、より多様で、より自然な${-}$(特に、注視が専用の再帰成分で符号化される場合)につながることが判明した。

When speakers describe an image, they tend to look at objects before mentioning them. In this paper, we investigate such sequential cross-modal alignment by modelling the image description generation process computationally. We take as our starting point a state-of-the-art image captioning system and develop several model variants that exploit information from human gaze patterns recorded during language production. In particular, we propose the first approach to image description generation where visual processing is modelled $\textit{sequentially}$. Our experiments and analyses confirm that better descriptions can be obtained by exploiting gaze-driven attention and shed light on human cognitive processes by comparing different ways of aligning the gaze modality with language production. We find that processing gaze data sequentially leads to descriptions that are better aligned to those produced by speakers, more diverse, and more natural${-}$particularly when gaze is encoded with a dedicated recurrent component.
翻訳日:2022-09-28 00:06:29 公開日:2020-11-09
# トランスフォーマーを用いたバングラ語テキスト分類

Bangla Text Classification using Transformers ( http://arxiv.org/abs/2011.04446v1 )

ライセンス: Link先を確認
Tanvirul Alam, Akib Khan and Firoj Alam(参考訳) テキスト分類はNLPの最も初期の問題の一つである。 時間とともに、アプリケーション領域の範囲は拡大し、新しい領域(例えば、騒がしいソーシャルメディアコンテンツ)を扱うことの難しさが増した。 問題解決戦略は、古典的な機械学習からディープラーニングアルゴリズムに切り替わった。 最近のディープニューラルネットワークアーキテクチャの1つはtransformerである。 このタイプのネットワークで設計されたモデルとその変種は、最近、下流の自然言語処理タスク、特に英語などリソース豊富な言語で成功している。 しかし、これらのモデルはBanglaテキスト分類タスクのために完全には研究されていない。 本研究では,感情分析,感情検出,ニュース分類,著者属性など,さまざまな領域におけるBanglaテキスト分類タスクの多言語変換モデルを微調整する。 6つのベンチマークデータセットにおける技術結果の状態を把握し,各タスクの精度を5~29%向上させた。

Text classification has been one of the earliest problems in NLP. Over time the scope of application areas has broadened and the difficulty of dealing with new areas (e.g., noisy social media content) has increased. The problem-solving strategy switched from classical machine learning to deep learning algorithms. One of the recent deep neural network architecture is the Transformer. Models designed with this type of network and its variants recently showed their success in many downstream natural language processing tasks, especially for resource-rich languages, e.g., English. However, these models have not been explored fully for Bangla text classification tasks. In this work, we fine-tune multilingual transformer models for Bangla text classification tasks in different domains, including sentiment analysis, emotion detection, news categorization, and authorship attribution. We obtain the state of the art results on six benchmark datasets, improving upon the previous results by 5-29% accuracy across different tasks.
翻訳日:2022-09-28 00:06:14 公開日:2020-11-09
# 隠れマルコフ言語モデルのスケーリング

Scaling Hidden Markov Language Models ( http://arxiv.org/abs/2011.04640v1 )

ライセンス: Link先を確認
Justin T. Chiu and Alexander M. Rush(参考訳) 隠れマルコフモデル(HMM)は、隠された状態と放出構造をきれいに分離するシーケンスモデリングの基本的なツールである。 しかし、この分離により、HMMを現在のNLPの大規模データセットに適合させることが難しくなり、完全に観測されたモデルに比べて非常に性能が劣っているため、使用が不可能になった。 この研究は、HMMを言語モデリングデータセットにスケールするという課題を再考し、ニューラルモデリングへの最近のアプローチからアイデアを取り入れている。 本稿では,効率的な正確な推論,コンパクトパラメータ化,効果的な正規化を維持しつつ,hmmを大規模状態空間にスケールする方法を提案する。 実験によると、このアプローチは従来のHMMやn-gramベースの手法よりも正確で、最先端のニューラルモデルの性能向上につながる。

The hidden Markov model (HMM) is a fundamental tool for sequence modeling that cleanly separates the hidden state from the emission structure. However, this separation makes it difficult to fit HMMs to large datasets in modern NLP, and they have fallen out of use due to very poor performance compared to fully observed models. This work revisits the challenge of scaling HMMs to language modeling datasets, taking ideas from recent approaches to neural modeling. We propose methods for scaling HMMs to massive state spaces while maintaining efficient exact inference, a compact parameterization, and effective regularization. Experiments show that this approach leads to models that are more accurate than previous HMM and n-gram-based methods, making progress towards the performance of state-of-the-art neural models.
翻訳日:2022-09-28 00:05:59 公開日:2020-11-09
# プリズムによる言語:マルチスケール言語表現のためのスペクトルアプローチ

Language Through a Prism: A Spectral Approach for Multiscale Language Representations ( http://arxiv.org/abs/2011.04823v1 )

ライセンス: Link先を確認
Alex Tamkin, Dan Jurafsky, Noah Goodman(参考訳) 言語は、サブワードから単語、文、段落、文書まで、さまざまなスケールで構造を示す。 深層モデルは、これらのスケールで情報をどの程度キャプチャし、この階層全体の構造をよりよく捉えるように強制できるか? 我々は、個々のニューロンに注目し、異なる時間スケールでの活性化の挙動を分析することで、この問題にアプローチする。 信号処理は、スケールをまたいで構造を分離する自然な枠組みを提供するので、 1)既存組込みにおけるスケール固有情報の不等角化 2)特定のスケールについてもっと学ぶためのトレーニングモデル。 具体的には,音声タグ付け(単語レベル),対話行動分類(発話レベル),トピック分類(文書レベル),その他のタスクでは不十分なフィルタ埋め込みを生成することで,入力を横断するニューロンの活性化にスペクトルフィルタを適用する。 また,様々なニューロンを制約して異なるスケールで構造をモデル化する,スペクトルフィルタを用いたトレーニングモデルのためのプリズム層を提案する。 提案したBERT + Prism モデルは,長距離コンテキストを用いてマスク付きトークンを予測し,発話および文書レベルのタスクにおいてより優れた処理を行うマルチスケール表現を生成する。 本手法は汎用的であり,画像,音声,映像などの言語以外の領域にも容易に適用できる。

Language exhibits structure at different scales, ranging from subwords to words, sentences, paragraphs, and documents. To what extent do deep models capture information at these scales, and can we force them to better capture structure across this hierarchy? We approach this question by focusing on individual neurons, analyzing the behavior of their activations at different timescales. We show that signal processing provides a natural framework for separating structure across scales, enabling us to 1) disentangle scale-specific information in existing embeddings and 2) train models to learn more about particular scales. Concretely, we apply spectral filters to the activations of a neuron across an input, producing filtered embeddings that perform well on part of speech tagging (word-level), dialog speech acts classification (utterance-level), or topic classification (document-level), while performing poorly on the other tasks. We also present a prism layer for training models, which uses spectral filters to constrain different neurons to model structure at different scales. Our proposed BERT + Prism model can better predict masked tokens using long-range context and produces multiscale representations that perform better at utterance- and document-level tasks. Our methods are general and readily applicable to other domains besides language, such as images, audio, and video.
翻訳日:2022-09-28 00:05:45 公開日:2020-11-09
# 低次元ランダムベースにおけるニューラルネットワークトレーニングの改善

Improving Neural Network Training in Low Dimensional Random Bases ( http://arxiv.org/abs/2011.04720v1 )

ライセンス: Link先を確認
Frithjof Gressmann, Zach Eaton-Rosen, Carlo Luschi(参考訳) Stochastic Gradient Descent (SGD) は、常に大きなパラメータを使用するディープニューラルネットワークの最適化に極めて有効であることが証明されている。 しかし、大規模な最適化の効率性の向上は依然として重要かつ活発な研究領域である。 近年の研究では、ディープニューラルネットワークは、ネイティブパラメータ空間よりもはるかに小さな次元のランダムに投影された部分空間で最適化できることが示されている。 このようなトレーニングは、より効率的でスケーラブルな最適化スキームを約束する一方で、その実用的応用は、劣った最適化性能によって制限される。 ここでは、近年のランダム部分空間のアプローチを次のように改善する。 まず、トレーニング中にランダムなプロジェクションを固定し続けることが最適化に有害であることを示す。 本稿では,各ステップにおけるランダム部分空間の再描画を提案する。 ネットワークの異なる部分に独立な投影を適用することでさらなる改善を実現し、ネットワーク次元が大きくなるにつれて近似をより効率的にする。 これらの実験を実施するために、ハードウェアアクセラレーションによる擬似ランダム数生成を活用し、各最適化ステップでランダムな予測をオンデマンドに構築し、ランダムなシードを共有する複数の作業者間で独立なランダムな方向の計算を分散する。 これによりメモリが大幅に削減され、問題となるワークロードの最大10倍高速になる。

Stochastic Gradient Descent (SGD) has proven to be remarkably effective in optimizing deep neural networks that employ ever-larger numbers of parameters. Yet, improving the efficiency of large-scale optimization remains a vital and highly active area of research. Recent work has shown that deep neural networks can be optimized in randomly-projected subspaces of much smaller dimensionality than their native parameter space. While such training is promising for more efficient and scalable optimization schemes, its practical application is limited by inferior optimization performance. Here, we improve on recent random subspace approaches as follows: Firstly, we show that keeping the random projection fixed throughout training is detrimental to optimization. We propose re-drawing the random subspace at each step, which yields significantly better performance. We realize further improvements by applying independent projections to different parts of the network, making the approximation more efficient as network dimensionality grows. To implement these experiments, we leverage hardware-accelerated pseudo-random number generation to construct the random projections on-demand at every optimization step, allowing us to distribute the computation of independent random directions across multiple workers with shared random seeds. This yields significant reductions in memory and is up to 10 times faster for the workloads in question.
翻訳日:2022-09-27 23:59:54 公開日:2020-11-09
# Glyph-aware Disentangled Character EmbeddingとSemantic Sub-character Augmentationによるテキスト分類

Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation ( http://arxiv.org/abs/2011.04184v1 )

ライセンス: Link先を確認
Takumi Aoki and Shunsuke Kitada and Hitoshi Iyatomi(参考訳) 中国語や日本語などの非言語言語を対象とした文字ベーステキスト分類フレームワークを提案する。 我々のフレームワークは変分文字エンコーダ(VCE)と文字レベルのテキスト分類器で構成される。 VCE は$\beta$-variational auto-encoder (\beta$-VAE) で構成されており、提案されているグリフ対応のアンタングル文字埋め込み (GDCE) を学習する。 我々のGDCEは、次元的に独立なゼロ平均単位分散文字埋め込みを提供するので、解釈可能なデータ拡張、すなわちセマンティックサブ文字拡張(SSA)に適用できる。 本稿では,日本語のテキスト分類タスクを文書・文レベルで評価した。 我々は,GDCEとSSAが組込み解釈性を提供するだけでなく,分類性能も向上したことを確認した。 提案手法は,最先端モデルと競合する結果を得た一方で,モデル解釈性も提供した。 私たちのコードはhttps://github.com/IyatomiLab/GDCE-SSAで利用可能です。

We propose a new character-based text classification framework for non-alphabetic languages, such as Chinese and Japanese. Our framework consists of a variational character encoder (VCE) and character-level text classifier. The VCE is composed of a $\beta$-variational auto-encoder ($\beta$-VAE) that learns the proposed glyph-aware disentangled character embedding (GDCE). Since our GDCE provides zero-mean unit-variance character embeddings that are dimensionally independent, it is applicable for our interpretable data augmentation, namely, semantic sub-character augmentation (SSA). In this paper, we evaluated our framework using Japanese text classification tasks at the document- and sentence-level. We confirmed that our GDCE and SSA not only provided embedding interpretability but also improved the classification performance. Our proposal achieved a competitive result to the state-of-the-art model while also providing model interpretability. Our code is available on https://github.com/IyatomiLab/GDCE-SSA
翻訳日:2022-09-27 23:59:33 公開日:2020-11-09
# 医用トリアージのための人工知能決定支援

Artificial Intelligence Decision Support for Medical Triage ( http://arxiv.org/abs/2011.04548v1 )

ライセンス: Link先を確認
Chiara Marchiori, Douglas Dykeman, Ivan Girardi, Adam Ivankay, Kevin Thandiackal, Mario Zusag, Andrea Giovannini, Daniel Karpati, Henri Saenz(参考訳) 約100万件のテレコンサルテーション記録に最先端の機械学習と自然言語処理を適用し,ヨーロッパ最大の遠隔医療プロバイダで認証・使用されているトリアージシステムを開発した。 本システムはモバイルアプリケーションを介して患者とのインタラクションを通じてケア代替案を評価する。 最初の一連の症状に基づいて、トリアージアプリケーションはAIを利用したパーソナライズされた質問を生成し、問題をより正確に識別し、相談のための最も適切なケアポイントと時間枠を推奨する。 基盤となる技術は、パフォーマンス、透明性、ユーザの受け入れと使いやすさ、AIベースの意思決定支援システムの採用の中心的な側面を満たすために開発された。 ケアの連鎖の始めにこのような遠隔指導を提供することは、コスト効率、患者の経験、成果を改善する大きな可能性を秘めている。 リモートで、常に利用可能で、高度にスケーラブルなこのサービスは、現在の新型コロナウイルスの流行など、需要の高い状況において基本である。

Applying state-of-the-art machine learning and natural language processing on approximately one million of teleconsultation records, we developed a triage system, now certified and in use at the largest European telemedicine provider. The system evaluates care alternatives through interactions with patients via a mobile application. Reasoning on an initial set of provided symptoms, the triage application generates AI-powered, personalized questions to better characterize the problem and recommends the most appropriate point of care and time frame for a consultation. The underlying technology was developed to meet the needs for performance, transparency, user acceptance and ease of use, central aspects to the adoption of AI-based decision support systems. Providing such remote guidance at the beginning of the chain of care has significant potential for improving cost efficiency, patient experience and outcomes. Being remote, always available and highly scalable, this service is fundamental in high demand situations, such as the current COVID-19 outbreak.
翻訳日:2022-09-27 23:59:14 公開日:2020-11-09
# 対話型AIエージェントにおけるパーソナライズドクエリ書き換え

Personalized Query Rewriting in Conversational AI Agents ( http://arxiv.org/abs/2011.04748v1 )

ライセンス: Link先を確認
Alireza Roshan-Ghias, Clint Solomon Mathialagan, Pragaash Ponnusamy, Lambert Mathias, Chenlei Guo(参考訳) 会話型AIエージェントの音声言語理解(SLU)システムは、音声認識(ASR)や自然言語理解(NLU)のセマンティックギャップによる誤認識の形でエラーを経験することが多い。 これらのエラーはユーザのフラストレーション、特にアプライアンスを定期的にトグしたり、頻繁なコンタクトを呼び出すなど、繰り返し発生するイベントに簡単に対応します。 本研究では,ユーザの歴史的に成功したインタラクションをメモリとして活用し,クエリ書き換え手法を提案する。 ニューラルネットワークモデルとポインタジェネレータネットワークに階層的な注意を払い、上述したユーザ記憶を用いたクエリ書き換えタスクにおいて、より優れた性能を発揮することを示す。 また,提案モデルを用いたアプローチが,asrのアウトプットの構造的および意味的多様性をユーザの意図の回復に活用する方法についても強調する。

Spoken language understanding (SLU) systems in conversational AI agents often experience errors in the form of misrecognitions by automatic speech recognition (ASR) or semantic gaps in natural language understanding (NLU). These errors easily translate to user frustrations, particularly so in recurrent events e.g. regularly toggling an appliance, calling a frequent contact, etc. In this work, we propose a query rewriting approach by leveraging users' historically successful interactions as a form of memory. We present a neural retrieval model and a pointer-generator network with hierarchical attention and show that they perform significantly better at the query rewriting task with the aforementioned user memories than without. We also highlight how our approach with the proposed models leverages the structural and semantic diversity in ASR's output towards recovering users' intents.
翻訳日:2022-09-27 23:58:58 公開日:2020-11-09
# Winograd-Styleタスクにおけるデータセットオーバーラップの解析

An Analysis of Dataset Overlap on Winograd-Style Tasks ( http://arxiv.org/abs/2011.04767v1 )

ライセンス: Link先を確認
Ali Emami, Adam Trischler, Kaheer Suleman and Jackie Chi Kit Cheung(参考訳) Winograd Schema Challenge (WSC)とそれに触発された変種は、常識推論(CSR)の重要なベンチマークとなっている。 WSCのモデル性能は、巨大なコーパスで訓練されたニューラルネットワークモデルを使用して、チャンスレベルからほぼ人間に急速に進歩している。 本稿では,wsc型タスクにおけるトレーニングコーパスとテストインスタンスの重なりの程度の違いが与える影響について分析する。 多くのテストインスタンスが、最先端モデルが(事前)訓練されているコーパスとかなり重なり合っており、最小重なりのインスタンス上でモデルを評価すると、分類精度が著しく低下することがわかった。 これらの結果をもとに, web データから抽出した 60k 代名詞不曖昧化問題からなる knowref-60k データセットを開発した。 knowref-60kは、wscスタイルのコモンセンス推論でこれまでで最大のコーパスであり、現在のプレトレーニングコーパスとの重なりがかなり低い。

The Winograd Schema Challenge (WSC) and variants inspired by it have become important benchmarks for common-sense reasoning (CSR). Model performance on the WSC has quickly progressed from chance-level to near-human using neural language models trained on massive corpora. In this paper, we analyze the effects of varying degrees of overlap between these training corpora and the test instances in WSC-style tasks. We find that a large number of test instances overlap considerably with the corpora on which state-of-the-art models are (pre)trained, and that a significant drop in classification accuracy occurs when we evaluate models on instances with minimal overlap. Based on these results, we develop the KnowRef-60K dataset, which consists of over 60k pronoun disambiguation problems scraped from web data. KnowRef-60K is the largest corpus to date for WSC-style common-sense reasoning and exhibits a significantly lower proportion of overlaps with current pretraining corpora.
翻訳日:2022-09-27 23:58:42 公開日:2020-11-09
# リニア学習者に基づく反因果予測課題における線形残差の代替としての因果性を考慮した反事実結合調整

Causality-aware counterfactual confounding adjustment as an alternative to linear residualization in anticausal prediction tasks based on linear learners ( http://arxiv.org/abs/2011.04605v1 )

ライセンス: Link先を確認
Elias Chaibub Neto(参考訳) 線形残差化は機械学習(ML)アプリケーションにおいて、共起調整の一般的な方法である。 近年,コーカサリティを意識した予測モデルが,共同設立者の調整のための代替因果関係に基づくアプローチとして提案されている。 基本的な考え方は、観測された共同設立者が生み出した刺激的な関連性から解放された反事実データをシミュレートすることである。 本稿では,反因果予測タスクにおける因果関係認識共起調整に対する線形残差化アプローチを比較し,線形学習者の予測性能において因果関係認識アプローチが(漸近的に)残差化調整より優れていることを示す。 重要なことは、真のモデルが線型でない場合でも、我々の結果は引き続き成り立つ。 本稿では, 線形回帰モデルを再同定する合成データ実験において, 因果認識と残差化のアプローチを平均二乗誤差と分類精度を用いて比較し, 線形回帰モデルが正しく特定された場合にも比較した。 さらに,共同創設者と結果変数の共分散におけるデータセットシフトに関して,因果認識アプローチが残留化よりも安定であることを示す。

Linear residualization is a common practice for confounding adjustment in machine learning (ML) applications. Recently, causality-aware predictive modeling has been proposed as an alternative causality-inspired approach for adjusting for confounders. The basic idea is to simulate counterfactual data that is free from the spurious associations generated by the observed confounders. In this paper, we compare the linear residualization approach against the causality-aware confounding adjustment in anticausal prediction tasks, and show that the causality-aware approach tends to (asymptotically) outperform the residualization adjustment in terms of predictive performance in linear learners. Importantly, our results still holds even when the true model is not linear. We illustrate our results in both regression and classification tasks, where we compared the causality-aware and residualization approaches using mean squared errors and classification accuracy in synthetic data experiments where the linear regression model is mispecified, as well as, when the linear model is correctly specified. Furthermore, we illustrate how the causality-aware approach is more stable than residualization with respect to dataset shifts in the joint distribution of the confounders and outcome variables.
翻訳日:2022-09-27 23:58:28 公開日:2020-11-09
# 未来予測は絵画を完成させるようなものです!

Predicting the Future is like Completing a Painting! ( http://arxiv.org/abs/2011.04750v1 )

ライセンス: Link先を確認
Nadir Maaroufi, Mehdi Najib, Mohamed Bakhouya(参考訳) 本稿は, 科学的予測に対するより大きな研究枠組みに向けた入門研究である。 科学と科学の哲学の混合であり、科学の実験哲学について語ることができる。 まず,画像の完成度に基づく新たな予測手法であるfm2i(image inpainting)を提案する。 実際、時系列予測は完全な画像および信号ベースの処理手順に変換される。 時系列データを対応する画像に変換すると、データ予測の問題は本質的に画像の塗装問題、すなわち画像の欠落したデータを補完する問題となる。 有名なm3-competitionによって提案された大規模データセットを用いて広範な実験評価を行った。 その結果,FM2Iは時系列予測のための効率的かつ堅牢なツールであることがわかった。 精度で顕著な結果が得られ、最高のM3予測法よりも優れています。

This article is an introductory work towards a larger research framework relative to Scientific Prediction. It is a mixed between science and philosophy of science, therefore we can talk about Experimental Philosophy of Science. As a first result, we introduce a new forecasting method based on image completion, named Forecasting Method by Image Inpainting (FM2I). In fact, time series forecasting is transformed into fully images- and signal-based processing procedures. After transforming a time series data into its corresponding image, the problem of data forecasting becomes essentially a problem of image inpainting problem, i.e., completing missing data in the image. An extensive experimental evaluation is conducted using a large dataset proposed by the well-known M3-competition. Results show that FM2I represents an efficient and robust tool for time series forecasting. It has achieved prominent results in terms of accuracy and outperforms the best M3 forecasting methods.
翻訳日:2022-09-27 23:57:50 公開日:2020-11-09