このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211001となっている論文です。

PDF登録状況(公開日: 20211001)

TitleAuthorsAbstract論文公表日・翻訳日
# エントロピー特異点が量子透過を引き起こす

Entropic singularities give rise to quantum transmission ( http://arxiv.org/abs/2003.10367v2 )

ライセンス: Link先を確認
Vikesh Siddhu(参考訳) ノイズのない量子情報はいつノイズの多い量子デバイスに送信できるのか? 最大レートは? これらの疑問は量子技術の核心にあるが、非付加性のため未解決のままである。量子デバイス(別名量子チャネル)が期待以上に多くの情報を送ることを可能にする基本的なシナジーである。 従来, 完全チャネルよりもコヒーレントな情報を持つ非常にノイズの多いチャネルでは, 非付加性が存在することが知られていたが, 単純な低雑音チャネルでは, 非付加性を示す。 我々の結果はさらに長引く。 チャネルのコヒーレント情報の肯定性に関する一般的な定理を証明する。 この定理の系は、チャネルの容量に対する単純な次元のテストを与える。 この論理を適用すれば、補体がゼロではない全てのキュービットチャネルを特徴付けることにより、オープンな問題を解決できる。 別の応用は、量子情報の送信において不完全な消去チャネルを補助できる広範囲なゼロ量子容量量子ビットチャネルを示す。 これらの結果は、von-Neumannエントロピーの対数特異点と量子伝達の結びつきから生じる: この特異性によって引き起こされるエントロピーの変化は、コヒーレント情報の肯定性と非付加性の両方の原因となるメカニズムである。 このような特異点の解析は、他の物理学問題において有用である。

When can noiseless quantum information be sent across noisy quantum devices? And at what maximum rate? These questions lie at the heart of quantum technology, but remain unanswered because of non-additivity -- a fundamental synergy which allows quantum devices (aka quantum channels) to send more information than expected. Previously, non-additivity was known to occur in very noisy channels with coherent information much smaller than that of a perfect channel; but, our work shows non-additivity in a simple low-noise channel. Our results extend even further. We prove a general theorem concerning positivity of a channel's coherent information. A corollary of this theorem gives a simple dimensional test for a channel's capacity. Applying this corollary solves an open problem by characterizing all qubit channels whose complement has non-zero capacity. Another application shows a wide class of zero quantum capacity qubit channels can assist an incomplete erasure channel in sending quantum information. These results arise from introducing and linking logarithmic singularities in the von-Neumann entropy with quantum transmission: changes in entropy caused by this singularity are a mechanism responsible for both positivity and non-additivity of the coherent information. Analysis of such singularities may be useful in other physics problems.
翻訳日:2023-05-28 07:36:03 公開日:2021-10-01
# 量子PUFを用いたクライアントサーバ識別プロトコル

Client-Server Identification Protocols with Quantum PUF ( http://arxiv.org/abs/2006.04522v2 )

ライセンス: Link先を確認
Mina Doosti, Niraj Kumar, Mahshid Delavar, and Elham Kashefi(参考訳) 近年,量子インターネットの実現に向けて,古典的・難解な幅広い応用を実現するための大きな進展がみられている。 デリゲート量子計算のようなアプリケーションは、セキュアな通信を提供するために低リソースと高リソースの間でセキュアな識別プロトコルを実行する必要がある。 そこで本研究では,新たなハードウェアセキュリティソリューションである量子物理無閉関数(qPUF)に基づく2つの識別プロトコルを提案する。 第1のプロトコルは、低リソースのパーティがそのidを高リソースのパーティに証明することを可能にし、第2のプロトコルでは、それは逆である。 特定の攻撃群に対するセキュリティに依存した、量子読み取りPUFに基づく既存の識別プロトコルとは異なり、我々のプロトコルは、リソース効率の高い相手を持つ量子多項式時間に対する証明可能な指数的セキュリティを提供する。 提案する2つのプロトコルを,量子メモリや両当事者に必要な計算能力,通信オーバーヘッドといったリソースの観点から包括的に比較する。

Recently, major progress has been made towards the realisation of quantum internet to enable a broad range of classically intractable applications. These applications such as delegated quantum computation require running a secure identification protocol between a low-resource and a high-resource party to provide secure communication. In this work, we propose two identification protocols based on the emerging hardware secure solutions, the quantum Physical Unclonable Functions (qPUFs). The first protocol allows a low-resource party to prove its identity to a high-resource party and in the second protocol, it is vice-versa. Unlike existing identification protocols based on Quantum Read-out PUFs which rely on the security against a specific family of attacks, our protocols provide provable exponential security against any Quantum Polynomial-Time adversary with resource-efficient parties. We provide a comprehensive comparison between the two proposed protocols in terms of resources such as quantum memory and computing ability required in both parties as well as the communication overhead between them.
翻訳日:2023-05-16 07:07:53 公開日:2021-10-01
# シリコンナノ構造の孔間及びバンド内クーロン相互作用

Inter- and intra-band Coulomb interactions between holes in silicon nanostructures ( http://arxiv.org/abs/2010.01332v2 )

ライセンス: Link先を確認
Andrea Secchi, Laura Bellentani, Andrea Bertoni, and Filippo Troiani(参考訳) 我々は6バンド包絡関数スキーム内のシリコンのホールに対する相互作用ハミルトニアンの完全な導出を示し、これは$\boldsymbol{\gamma}$ pointに近い価数帯を適切に記述する。 単一ホール固有状態の完全な構造は、ブロッホ部分を含む考慮される。 クーロン相互作用による散乱過程はバンド内およびバンド間の両方であり、後者はほとんど短距離である。 漸近的長距離限界では、有効ポテンシャルはスクリーニングされたクーロンポテンシャルに傾向があり、以前のモデルで仮定された純粋にバンド内になる。 原型シリコン量子ドットにおける2つの相互作用するホールの励起スペクトルの計算に本モデルを適用し,異なる誘電環境を考慮した。 高い遮蔽状態下では, バルクシリコン結晶以外のスクリーニングがなければ, 短距離相互作用(バンド内相互作用とバンド間相互作用の両方)は非常に重要であり, 重要度が低下することが示されている。 後者の場合、ホールウィグナー分子の形成を予測する。

We present a full derivation of the interaction Hamiltonian for holes in silicon within the six-band envelope-function scheme, which appropriately describes the valence band close to the $\boldsymbol{\Gamma}$ point. The full structure of the single-hole eigenstates is taken into account, including the Bloch part. The scattering processes caused by the Coulomb interaction are shown to be both intraband and interband, the latter being mostly short-ranged. In the asymptotic long-range limit, the effective potential tends to the screened Coulomb potential, and becomes purely intraband, as assumed in previous models. We apply our model to compute the excitation spectra of two interacting holes in prototypical silicon quantum dots, taking into account different dielectric environments. It is shown that, in the highly screened regime, short-range interactions (both intra- and inter-band) can be very relevant, while they lose importance when there is no screening other than the one proper of the bulk silicon crystal. In the latter case, we predict the formation of hole Wigner molecules.
翻訳日:2023-04-30 02:16:56 公開日:2021-10-01
# 特異性と協調問題:2020年からのパンデミック教訓

Singularity and Coordination Problems: Pandemic Lessons from 2020 ( http://arxiv.org/abs/2010.07018v2 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea and Nythamar De Oliveira(参考訳) 技術的特異性が地平線上にあるという兆候はありますか? これらの質問に答えようと、著者らは人工知能における安全研究の領域について小さな紹介を行った。 著者らは自律的インテリジェントシステム開発における現在のパラダイムのいくつかをレビューし、技術的特異性の可能性を示す証拠を探す。 最後に著者らは、新型コロナウイルスのパンデミック(COVID-19)によるリフレクションを提示し、世界社会が現実的なリスクを管理する上で最大の問題は、世界社会としてのコーディネーションスキルの欠如であることを示した。

Are there any indications that a Technological Singularity may be on the horizon? In trying to answer these questions, the authors made a small introduction to the area of safety research in artificial intelligence. The authors review some of the current paradigms in the development of autonomous intelligent systems, searching for evidence that may indicate the coming of a possible Technological Singularity. Finally, the authors present a reflection using the COVID-19 pandemic, something that showed that global society biggest problem in managing existential risks is its lack of coordination skills as a global society.
翻訳日:2023-04-29 17:39:27 公開日:2021-10-01
# ボース・アインシュタイン凝縮体の3体損失による量子感度の崩壊

Decay of quantum sensitivity due to three-body loss in Bose-Einstein condensates ( http://arxiv.org/abs/2101.05312v3 )

ライセンス: Link先を確認
Dennis R\"atzel and Ralf Sch\"utzhold(参考訳) 多数の原子のコヒーレントな性質を考えると、ボース=アインシュタイン凝縮体(BEC)はセンサー応用に高い可能性を秘めている。 いくつかの提案では、BECにおけるフォノンのような集合励起を量子メートル法における量子増強センシングに使用する。 しかし、関連する非古典的状態は、デコヒーレンスに対して非常に脆弱である傾向がある。 本稿では,BECにおける3体損失の一様過程による脱コヒーレンスの影響について検討する。 幅広いパラメータに対する強い制約を見つけ、これらの制限を制限する可能性について議論する。

In view of the coherent properties of a large number of atoms, Bose-Einstein Condensates (BECs) have a high potential for sensing applications. Several proposals have been put forward to use collective excitations such as phonons in BECs for quantum enhanced sensing in quantum metrology. However, the associated highly non-classical states tend to be very vulnerable to decoherence. In this article, we investigate the effect of decoherence due to the omnipresent process of three-body loss in BECs. We find strong restrictions for a wide range of parameters and we discuss possibilities to limit these restrictions.
翻訳日:2023-04-15 17:21:51 公開日:2021-10-01
# 光学系におけるフォノンのFr\ "{o}hlich Condensate

Fr\"{o}hlich Condensate of Phonons in Optomechanical Systems ( http://arxiv.org/abs/2101.07723v4 )

ライセンス: Link先を確認
Xu Zheng and Baowen Li(参考訳) 我々は、光力学系がフォノンのfr\"{o}hlich condensateを実装する潜在的なプラットフォームとなることを提案する。 二次相互作用によりキャビティ場に結合した1次元膜を考察し,キャビティを外部レーザーで励起する。 解析的および数値的結果は, 駆動レーザの変形, 光学的強度, 温度に応じて, 最低又は最高メカニカルモードのフォノン占有率が達成可能であることを予測した。 Fr\"{o}hlich縮合体の脱コヒーレンスは、多くの膜によって大きく抑制される。 その結果,狭線幅フォノンレーザー,エネルギー変換/転送,高効率マルチモード冷却に光を照射した。

We propose that the optomechanical systems can be potential platforms to implement the Fr\"{o}hlich condensate of phonons. We consider a one-dimensional array of membranes coupled to the cavity field via a quadratic interaction, and the cavity is pumped by an external laser. Analytical and numerical results predict that the high phonon occupancy of the lowest or highest mechanical mode is achievable depending on the detuning of the driving laser, the optomechnical strength, and the temperature. The decoherence of the Fr\"{o}hlich condensate can be largely suppressed by the large number of membranes. Our results shed light on narrow-linewidth phonon laser, energy conversion/transfer, and efficient multimode cooling.
翻訳日:2023-04-14 18:01:46 公開日:2021-10-01
# 旅行セールスマン問題最適化のための多項目表現

Many-Qudit representation for the Travelling Salesman Problem Optimisation ( http://arxiv.org/abs/2102.13298v3 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on and Nicolas Parra-A. and Herbert Vinck-Posada and Fabio A. Gonz\'alez(参考訳) 本稿では,NP完全組合せ最適化タスクであるトラベリングセールスマン問題(TSP)から,多変量系の基底状態への写像を提案する。 従来、TSPは、Isingマシンで解決できる2次非制約バイナリ最適化(QUBO)問題にキャストされる。 対応する物理系のヒルベルト空間のサイズは 2^{N^2}$ であり、ここでは$N$ は TSP で考慮される都市の数である。 本提案では,通常のQUBO写像から得られる系のヒルベルト空間の次元よりもかなり小さい,次元2^{N\log_2N}$のヒルベルト空間を持つ多量子系を提案する。 この削減は量子コンピュータや古典コンピュータにおいて大きなスピードアップをもたらす可能性がある。 変動型モンテカルロをニューラルネットワーク状態とし、最大100都市までの線形レイアウトでTSPを解くことで、私たちの提案をシミュレートし、検証する。

We present a map from the travelling salesman problem (TSP), a prototypical NP-complete combinatorial optimisation task, to the ground state associated with a system of many-qudits. Conventionally, the TSP is cast into a quadratic unconstrained binary optimisation (QUBO) problem, that can be solved on an Ising machine. The size of the corresponding physical system's Hilbert space is $2^{N^2}$, where $N$ is the number of cities considered in the TSP. Our proposal provides a many-qudit system with a Hilbert space of dimension $2^{N\log_2N}$, which is considerably smaller than the dimension of the Hilbert space of the system resulting from the usual QUBO map. This reduction can yield a significant speedup in quantum and classical computers. We simulate and validate our proposal using variational Monte Carlo with a neural quantum state, solving the TSP in a linear layout for up to almost 100 cities.
翻訳日:2023-04-09 20:49:26 公開日:2021-10-01
# 非エルミート行列と散逸量子カオスのスペクトル統計

Spectral Statistics of Non-Hermitian Matrices and Dissipative Quantum Chaos ( http://arxiv.org/abs/2103.05001v2 )

ライセンス: Link先を確認
Jiachen Li, Toma\v{z} Prosen, Amos Chan(参考訳) 我々は、非エルミート行列(および非ユニタリ行列)のスペクトル統計を特徴付けるために、散逸スペクトル形式因子(dsff)と呼ばれる測度を提案する。 DSFFは散逸性量子カオスの診断に成功し,任意のエネルギー(および時間)スケールまでの複素固有値の実部と虚部との相関を明らかにする。 具体的には, 散逸量子カオス系と可積分系の最小モデルとして, ginue と poisson 確率スペクトル (poisson) に対する dsff の厳密な解を与える。 散逸的な量子カオス系に対して、DSFFは複素時間論において正確な回転対称性を示す。 GUE のスペクトル形状因子 (SFF) の振る舞いに類似して、GinUE の DSFF は $|\tau|$: DSFF の ``dip-ramp-plateau'' の振る舞いを示す。 注目すべきは、大きな行列サイズの場合、GinUE の DSFF の ``ramp'' は、エルミートアンサンブルの SFF の線型ランプとは対照的に、$|\tau|$ で二次的に増加することである。 散逸性量子可積分系に対して、DSFFは固有値密度に依存する複素時間領域を除いて一定の値を取ることを示す。 数値的には、実および四元実ジニブルアンサンブルのdsffは、大行列サイズの極限における測度 0 の複素時間平面内の領域を除いて、ギンウエの挙動と一致することを示す。 物理的な例として、量子キックトップモデルは散逸を伴い、ジニブル普遍性クラスに属することを示し、ポアソンは'kick'がオンまたはオフになっていることを示す。 最後に、ランダムな古典確率行列のアンサンブルのスペクトル統計を調査し、これらのモデルがジニブレ普遍性クラスに属することを示す。

We propose a measure, which we call the dissipative spectral form factor (DSFF), to characterize the spectral statistics of non-Hermitian (and non-Unitary) matrices. We show that DSFF successfully diagnoses dissipative quantum chaos, and reveals correlations between real and imaginary parts of the complex eigenvalues up to arbitrary energy (and time) scale. Specifically, we provide the exact solution of DSFF for the GinUE and for a Poissonian random spectrum (Poisson) as minimal models of dissipative quantum chaotic and integrable systems respectively. For dissipative quantum chaotic systems, we show that DSFF exhibits an exact rotational symmetry in its complex time argument $\tau$. Analogous to the spectral form factor (SFF) behaviour for GUE, DSFF for GinUE shows a ``dip-ramp-plateau'' behavior in $|\tau|$: DSFF initially decreases, increases at intermediate time scales, and saturates after a generalized Heisenberg time which scales as the inverse mean level spacing. Remarkably, for large matrix size, the ``ramp'' of DSFF for GinUE increases quadratically in $|\tau|$, in contrast to the linear ramp in SFF for Hermitian ensembles. For dissipative quantum integrable systems, we show that DSFF takes a constant value except for a region in complex time whose size and behavior depends on the eigenvalue density. Numerically, we verify the above claims and show that DSFF for real and quaternion real Ginibre ensembles coincides with the GinUE behaviour except for a region in complex time plane of measure zero in the limit of large matrix size. As a physical example, we consider the quantum kicked top model with dissipation, and show that it falls under the Ginibre universality class and Poisson as the `kick' is switched on or off. Lastly, we study spectral statistics of ensembles of random classical stochastic matrices, and show that these models fall under the Ginibre universality class.
翻訳日:2023-04-08 18:13:58 公開日:2021-10-01
# 量子アンフォージェビリティのための統一フレームワーク

A Unified Framework For Quantum Unforgeability ( http://arxiv.org/abs/2103.13994v2 )

ライセンス: Link先を確認
Mina Doosti, Mahshid Delavar, Elham Kashefi, and Myrto Arapinis(参考訳) 本稿では,CRYPTO 2013 および EUROCRYPT 2013 において,古典的メッセージ認証符号や古典的デジタル署名スキームに対して,量子敵に対する非鍛造性の概念を正式に定義するBoneh と Zhandry の取り組みを継続する。 我々は,古典的構成と量子的構成の両方に対してunforgeabilityを統一する汎用的でパラメータ化された量子ゲームベースのセキュリティモデルを開発し,unforgeabilityに対する完全な量子暗号解析フレームワークを初めて提示する。 特に、我々の定義は、よりきめ細かい敵モデルを考慮して、重ね合わせ攻撃の全スペクトルを捉えながら、どのように前者を仮定するかを証明します。 ここでの微妙さは偽造の性格化にある。 我々は,従来クエリされていたメッセージが偽造であると考えられる場合に限り,最強の非偽造性,すなわち存在非偽造性を実現することができることを示す。 特に、forgedメッセージと以前問い合わせたメッセージの重複が許されている場合、非自明な攻撃を示す。 さらに、決定論的構成は、そのような制限された敵に対して選択的に忘れられないという弱い概念しか達成できないが、一般の量子敵(一般的な重ね合わせ攻撃が可能)が考慮されると選択的に忘れられなくなることを示した。 一方,PRFは完全量子対向に対して選択不可能な古典的プリミティブを構築するのに十分であることを示す。 さらに、量子プリミティブに対する疑似ランダムユニタリ (pru) に依存する同様の正の結果を示す。 これらの結果は,本論文で分析した事例以外のプリミティブに適用可能なフレームワークの汎用性を示すものである。

In this paper, we continue the line of work initiated by Boneh and Zhandry at CRYPTO 2013 and EUROCRYPT 2013 in which they formally define the notion of unforgeability against quantum adversaries specifically, for classical message authentication codes and classical digital signatures schemes. We develop a general and parameterised quantum game-based security model unifying unforgeability for both classical and quantum constructions allowing us for the first time to present a complete quantum cryptanalysis framework for unforgeability. In particular, we prove how our definitions subsume previous ones while considering more fine-grained adversarial models, capturing the full spectrum of superposition attacks. The subtlety here resides in the characterisation of a forgery. We show that the strongest level of unforgeability, namely existential unforgeability, can only be achieved if only orthogonal to previously queried messages are considered to be forgeries. In particular, we present a non-trivial attack if any overlap between the forged message and previously queried ones is allowed. We further show that deterministic constructions can only achieve the weaker notion of unforgeability, that is selective unforgeability, against such restricted adversaries, but that selective unforgeability breaks if general quantum adversaries (capable of general superposition attacks) are considered. On the other hand, we show that PRF is sufficient for constructing a selective unforgeable classical primitive against full quantum adversaries. Moreover, we show similar positive results relying on Pseudorandom Unitaries (PRU) for quantum primitives. These results demonstrate the generality of our framework that could be applicable to other primitives beyond the cases analysed in this paper.
翻訳日:2023-04-06 21:23:21 公開日:2021-10-01
# 閉輪相互作用スキームにおける二重光学的透過性の静的合成ゲージ場制御

Static synthetic gauge field control of double optomechanically induced transparency in a closed-contour interaction scheme ( http://arxiv.org/abs/2104.04014v3 )

ライセンス: Link先を確認
Beyza S\"utl\"uo\u{g}lu and Ceyhun Bulutay(参考訳) 理論的には、光学キャビティとパリティ時間($\mathcal{PT}$)対称なメカニカル共振器のペアについて検討し、すべての発振器がペア結合され、閉凸相互作用を持つオプトロメカニカルシステムを形成する。 ゲインとフィードバックの両方が存在するため、その安定性と根の軌跡を幅広い結合範囲で探究する。 レッドサイドバンドポンプといわゆる $\mathcal{PT}$-unbroken フェーズでは、実験的に実現可能なパラメータセットに対して二重光学的誘導透過(OMIT)を表示する。 伝送振幅とグループ遅延の両方を、時間反転対称性を破り、静的な合成ゲージ場を導入するループ結合位相により、下側送信窓から上側へ連続的に操舵可能であることを示す。 $\mathcal{PT}$-unbroken 相では、ゲインバンド幅と遅延バンド幅の積は制御相の全範囲にわたって一定である。 伝送と帯域幅の可変性は、$\mathcal{PT}$-breakken フェーズで依然として優位である。 本質的には、有効な$\mathcal{PT}$-symmetric optomechanical systemにおける単一および二重OMIT現象の結合位相依存制御を与える単純なスキームを提案する。

We study theoretically an optical cavity and a parity-time ($\mathcal{PT}$)-symmetric pair of mechanical resonators, where all oscillators are pairwise coupled, forming an optomechanical system with a closed-contour interaction. Due to the presence of both gain and feedback, we explore its stability and the root loci over a wide coupling range. Under the red-sideband pumping and for the so-called $\mathcal{PT}$-unbroken phase it displays a double optomechanically induced transparency (OMIT) for an experimentally realizable parameter set. We show that both the transmission amplitude and the group delay can be continuously steered from the lower transmission window to the upper one by the loop coupling phase which breaks the time-reversal symmetry and introduces a static synthetic gauge field. In the $\mathcal{PT}$-unbroken phase both the gain-bandwidth and delay-bandwidth products remain constant over the full range of the controlling phase. Tunability in transmission and bandwidth still prevails in the $\mathcal{PT}$-broken phase, albeit over a reduced range. In essence, we suggest a simple scheme that grants coupling phase-dependent control of the single and double OMIT phenomena within an effective $\mathcal{PT}$-symmetric optomechanical system.
翻訳日:2023-04-04 11:56:18 公開日:2021-10-01
# 不確実性によるイベント生成ネットワークの理解

Understanding Event-Generation Networks via Uncertainties ( http://arxiv.org/abs/2104.04543v2 )

ライセンス: Link先を確認
Marco Bellagente, Manuel Hau{\ss}mann, Michel Luchmann, and Tilman Plehn(参考訳) LHCシミュレーションにおける生成ニューラルネットワークの成功に続いて、重要な疑問は、どのようにネットワークを制御し、イベント出力に不確実性を割り当てるかである。 ベイズ正規化フローや非可逆ネットワークがトレーニングから不確実性を捕捉し、イベント重みに関する不確実性に変換する方法を示す。 基本的に、密度と不確実性の推定の間の相互作用は、これらのネットワークがバイナリ化されたイベントカウントではなくパラメータフィットに類似した関数を学習することを示している。

Following the growing success of generative neural networks in LHC simulations, the crucial question is how to control the networks and assign uncertainties to their event output. We show how Bayesian normalizing flow or invertible networks capture uncertainties from the training and turn them into an uncertainty on the event weight. Fundamentally, the interplay between density and uncertainty estimates indicates that these networks learn functions in analogy to parameter fits rather than binned event counts.
翻訳日:2023-04-04 07:23:37 公開日:2021-10-01
# 古典的予熱による物質の浮遊相

Floquet Phases of Matter via Classical Prethermalization ( http://arxiv.org/abs/2104.13927v3 )

ライセンス: Link先を確認
Bingtian Ye, Francisco Machado, Norman Y. Yao(参考訳) 古典多体系における周期駆動(フロッケ)の前熱的レジームが物質の非平衡相をホストできることを実証する。 特に、この記述を単一の軌道レベルで分解したにもかかわらず、古典的軌道のアンサンブルのダイナミクスを捉える効果的なハミルトニアンが存在することを示す。 さらに、実効ハミルトニアンがドライブの離散時間変換対称性によって保護される創発対称性をホストできることを証明する。 このような創発的対称性の自発的破れは、時間結晶次数の特徴であるサブハーモニック応答につながり、ドライブの周波数で指数関数的に遅い時間に持続する。 この目的のために、異なる次元と相互作用範囲を持つ系における古典的予熱時間結晶の存在を数値的に示す。 また,高次および分数時間結晶の拡張についても考察した。

We demonstrate that the prethermal regime of periodically driven (Floquet), classical many-body systems can host nonequilibrium phases of matter. In particular, we show that there exists an effective Hamiltonian that captures the dynamics of ensembles of classical trajectories despite the breakdown of this description at the single trajectory level. In addition, we prove that the effective Hamiltonian can host emergent symmetries protected by the discrete time-translation symmetry of the drive. The spontaneous breaking of such an emergent symmetry leads to a subharmonic response, characteristic of time crystalline order, that survives to exponentially late times in the frequency of the drive. To this end, we numerically demonstrate the existence of classical prethermal time crystals in systems with different dimensionalities and ranges of interaction. Extensions to higher order and fractional time crystals are also discussed.
翻訳日:2023-04-02 04:21:30 公開日:2021-10-01
# ディラック・ハミルトンの位相を量子幾何学に関連付ける:量子計量がチャーン数と巻数を決定するとき

Relating the topology of Dirac Hamiltonians to quantum geometry: When the quantum metric dictates Chern numbers and winding numbers ( http://arxiv.org/abs/2106.00800v5 )

ライセンス: Link先を確認
Bruno Mera, Anwei Zhang, Nathan Goldman(参考訳) 量子幾何学は量子科学において中心的でユビキタスな概念として現れ、量子力学や多体量子物理学に直接影響している。 この文脈では、2つの基本的な幾何学的量が相補的な役割を果たすことが知られている:フビニ・スタディ計量(英語版)(Fubini-Study metric)は、パラメータ空間上で定義された量子状態間の距離の概念を導入する。 事実、最近の研究はこれらの2つの重要な量の間の直接的な関係を明らかにし、トポロジカルな性質が特に量子計量から導出できることを示唆している。 本研究では、量子計量と一般ディラックハミルトニアンの位相不変量の間の一般的および厳密な関係を確立する。 特に、トポロジカル指標(チャーン数または巻数)が量子計量によって決定される量子体積によって束縛されていることを示す。 我々の理論フレームワークはディラック行列のクリフォード代数に基づいており、任意の空間次元のトポロジカル絶縁体や半金属にカイラル対称性の有無で適用できる。 この研究は、物質のトポロジカルな状態におけるフビニ・スタディ計量の役割を明らかにし、量子工学系の幅広いクラスにおける探索されていないトポロジカル反応とメトロジー的応用を示唆している。

Quantum geometry has emerged as a central and ubiquitous concept in quantum sciences, with direct consequences on quantum metrology and many-body quantum physics. In this context, two fundamental geometric quantities are known to play complementary roles: the Fubini-Study metric, which introduces a notion of distance between quantum states defined over a parameter space, and the Berry curvature associated with Berry-phase effects and topological band structures. In fact, recent studies have revealed direct relations between these two important quantities, suggesting that topological properties can, in special cases, be deduced from the quantum metric. In this work, we establish general and exact relations between the quantum metric and the topological invariants of generic Dirac Hamiltonians. In particular, we demonstrate that topological indices (Chern numbers or winding numbers) are bounded by the quantum volume determined by the quantum metric. Our theoretical framework, which builds on the Clifford algebra of Dirac matrices, is applicable to topological insulators and semimetals of arbitrary spatial dimensions, with or without chiral symmetry. This work clarifies the role of the Fubini-Study metric in topological states of matter, suggesting unexplored topological responses and metrological applications in a broad class of quantum-engineered systems.
翻訳日:2023-03-28 03:21:32 公開日:2021-10-01
# Trigger Hamiltonian による量子アニーリング: 2-SAT および非確率問題への応用

Quantum Annealing with Trigger Hamiltonians: Application to 2-SAT and Nonstoquastic Problems ( http://arxiv.org/abs/2106.04864v2 )

ライセンス: Link先を確認
Vrinda Mehta, Fengping Jin, Hans De Raedt, and Kristel Michielsen(参考訳) 本研究では,Ising型ハミルトニアンに代表される2-サフタビリティ(2-SAT)問題と,2-SAT問題ハミルトニアンに余分なカップリングを加えて得られる非確率問題という2つの問題に対する量子アニールの性能について検討する。 さらに、第3項の量子アニーリングに用いられる横イジング型ハミルトニアン(強磁性または反強磁性カップリングを持つトリガーハミルトニアン)に加え、アニーリングプロセスの開始と終了時に消失する。 また, 進化中のエネルギースペクトル, 平均エネルギー, 状態の重なりと, ハミルトニアンの瞬時低起伏固有状態を用いていくつかの問題を解析し, 量子熱処理の性能を高める非断熱機構を同定する。

We study the performance of quantum annealing for two sets of problems, namely, 2-satisfiability (2-SAT) problems represented by Ising-type Hamiltonians, and nonstoquastic problems which are obtained by adding extra couplings to the 2-SAT problem Hamiltonians. In addition, we add to the transverse Ising-type Hamiltonian used for quantum annealing a third term, the trigger Hamiltonian with ferromagnetic or antiferromagnetic couplings, which vanishes at the beginning and end of the annealing process. We also analyze some problem instances using the energy spectrum, average energy or overlap of the state during the evolution with the instantaneous low lying eigenstates of the Hamiltonian, and identify some non-adiabatic mechanisms which can enhance the performance of quantum annealing.
翻訳日:2023-03-27 04:28:03 公開日:2021-10-01
# 局所操作と古典通信による騒音ベル状態判別の絡み合いコスト

Entanglement cost of discriminating noisy Bell states by local operations and classical communication ( http://arxiv.org/abs/2106.08721v3 )

ライセンス: Link先を確認
Somshubhro Bandyopadhyay, Vincent Russo(参考訳) 絡み合った状態は、局所演算と古典通信(LOCC)による量子状態の識別に役立つ。 例えば、ベル状態は、loccによって3つまたは4つのベル状態の組を完全に判別するために必要(かつ十分な)である。 本稿では,ベル状態と任意の2ビット状態と非ゼロ確率とを混合した状態から,与えられたアンサンブルが構成される雑音のベル状態のLOCC判別の課題について考察する。 ベル状態がLOCCによる最適判別のために必要であることが証明されているが、アンサンブルは一般に、最大絡み状態や特定の場合において、いかなる絡み状態も含まない。

Entangled states can help in quantum state discrimination by local operations and classical communication (LOCC). For example, a Bell state is necessary (and sufficient) to perfectly discriminate a set of either three or four Bell states by LOCC. In this paper, we consider the task of LOCC discrimination of the states of noisy Bell ensembles, where a given ensemble consists of the states obtained by mixing the Bell states with an arbitrary two-qubit state with nonzero probabilities. It is proved that a Bell state is required for optimal discrimination by LOCC, even though the ensembles do not contain, in general, any maximally entangled state, and in specific instances, any entangled state.
翻訳日:2023-03-26 13:19:19 公開日:2021-10-01
# グローバー探索の再検討 : 画像パターンマッチングへの応用

Grover search revisited; application to image pattern matching ( http://arxiv.org/abs/2108.10854v2 )

ライセンス: Link先を確認
Hiroyuki Tezuka, Kouhei Nakaji, Takahiko Satoh and Naoki Yamamoto(参考訳) 振幅増幅のためのランドマークグローバーアルゴリズムは、様々なタイプの量子アルゴリズムにおいて必須サブルーチンとなり、クエリ複雑性の量子スピードアップが保証される。 しかし,データローディングと振幅増幅処理を効率的に実装することの技術的難しさから,アルゴリズムの原動機的応用,すなわちデータベース探索,あるいはより広くパターンマッチングを実践的に実現するための提案は行われていない。 本稿では,groverデータベース探索あるいはパターンマッチングアルゴリズム全体を概ね実行する量子アルゴリズムを提案する。 鍵となる考え方は、最近提案された近似振幅符号化法を浅量子回路に使用し、クエリデータに類似した投影量子状態を実現するための簡単なインバージョンテスト演算と、ターゲットデータインデックスとは独立な振幅増幅演算を併用することである。 本稿では,画像パターンマッチング問題におけるアルゴリズムの徹底的な実演を行う。

The landmark Grover algorithm for amplitude amplification serves as an essential subroutine in various type of quantum algorithms, with guaranteed quantum speedup in query complexity. However, there have been no proposal to realize the original motivating application of the algorithm, i.e., the database search or more broadly the pattern matching in a practical setting, mainly due to the technical difficulty in efficiently implementing the data loading and amplitude amplification processes. In this paper, we propose a quantum algorithm that approximately executes the entire Grover database search or pattern matching algorithm. The key idea is to use the recently proposed approximate amplitude encoding method on a shallow quantum circuit, together with the easily implementable inversion-test operation for realizing the projected quantum state having similarity to the query data, followed by the amplitude amplification operation that is independent to the target data index. We provide a thorough demonstration of the algorithm in the problem of image pattern matching.
翻訳日:2023-03-17 07:28:16 公開日:2021-10-01
# TQFTのガロア軌道:対称性とユニタリティ

Galois Orbits of TQFTs: Symmetries and Unitarity ( http://arxiv.org/abs/2109.02766v2 )

ライセンス: Link先を確認
Matthew Buican and Rajath Radhakrishnan(参考訳) ガロア作用を2+1$Dのトポロジカル量子論(TQFT)上で研究し、理論分解、ゲージング、ギャップ境界と双対性の構造、0-形式対称性、1-形式対称性、および2-群との相互作用を特徴付ける。 ガロア作用をより物理的に理解するために,ユニタリティーの保存に十分な条件が得られた。 次に、様々な分類のユニタリtqftのガロア軌道をマップアウトする。 最も単純な軌道は自明な(例えばトーリック・コード、ダブル・セミオン(英語版)、および3-フェルミオン・モデル(英語版)のような物理的興味の様々な理論)であり、ユニタリな「ガロア固定点 TQFTs 」のような理論を指す。 これらの不動点理論から, ガロア不変量の保存条件を0-形式および1-形式対称性(およびより一般的なアノン凝縮条件)で検討した。 文学における予想を仮定すると、任意のユニタリガロアの不動点 TQFT は、あるアーベル TQFT のデリグネ積から構築された理論の 0-形式対称性を測ることによって構築できることが証明される。

We study Galois actions on $2+1$D topological quantum field theories (TQFTs), characterizing their interplay with theory factorization, gauging, the structure of gapped boundaries and dualities, 0-form symmetries, 1-form symmetries, and 2-groups. In order to gain a better physical understanding of Galois actions, we prove sufficient conditions for the preservation of unitarity. We then map out the Galois orbits of various classes of unitary TQFTs. The simplest such orbits are trivial (e.g., as in various theories of physical interest like the Toric Code, Double Semion, and 3-Fermion Model), and we refer to such theories as unitary "Galois fixed point TQFTs." Starting from these fixed point theories, we study conditions for preservation of Galois invariance under gauging 0-form and 1-form symmetries (as well as under more general anyon condensation). Assuming a conjecture in the literature, we prove that all unitary Galois fixed point TQFTs can be engineered by gauging 0-form symmetries of theories built from Deligne products of certain abelian TQFTs.
翻訳日:2023-03-16 00:41:28 公開日:2021-10-01
# ジョージ・フロイド抗議者による反人種差別運動の支持者と反対者の動的感情

Dynamic Emotions of Supporters and Opponents of Anti-racism Movement from George Floyd Protests ( http://arxiv.org/abs/2109.14269v2 )

ライセンス: Link先を確認
Jaihyun Park(参考訳) ソーシャルメディアは市民に声を上げる権限を与え、市民の怒りが社会を変えるための集団行動へと繋がる。 ソーシャルメディアは政治的イデオロギーや視点に関わらず誰でも歓迎するので、ソーシャルメディアは特定の問題の支持者や反対者が議論する場所である。 本研究では、ジョージ・フロイドの死から始まった最近の反人種差別運動を、姿勢予測とアスペクトベース感情分析(ABSA)のレンズで実証的に検証する。 第一に、この調査はツイートのスタンスとユーザーが抗議活動の過程で変化していることを見出した。 さらに、スタンスを維持しているユーザーに比べて、スタンスを変えたユーザーも増えている。 第2に、反対派と反対派は、9つの抽出された側面でよりネガティブな感情を表現した。 これは、支持者と反対者の感情に有意な差はなく、その感情に基づく姿勢の予測に注意を喚起したことを示している。 その研究の貢献は2倍だ。 第一に、absaは計算社会科学の文脈で探求され、第二に、スタンス予測は大規模に試みられた。

Social media empowers citizens to raise the voice and expressed civil outrage leads to collective action to change the society. Since social media welcomes anyone regardless of the political ideology or perspectives, social media is where the supporters and opponents of specific issue discuss. This study attempts to empirically examine a recent anti-racism movement initiated by the death of George Floyd with the lens of stance prediction and aspect-based sentiment analysis (ABSA). First, this study found the stance of the tweet and users do change over the course of the protest. Furthermore, there are more users who shifted the stance compared to those who maintained the stance. Second, both supporters and opponents expressed negative sentiment more on nine extracted aspects. This indicates that there was no significant difference of sentiment among supporters and opponents and raise a caution in predicting stance based on the sentiment. The contribution of the study is two-fold. First, ABSA was explored in the context of computational social science and second, stance prediction was first attempted at scale.
翻訳日:2023-03-13 05:18:33 公開日:2021-10-01
# 一般位相検索可能なマトリックスフレームのリプシッツ解析

Lipschitz Analysis of Generalized Phase Retrievable Matrix Frames ( http://arxiv.org/abs/2109.14522v2 )

ライセンス: Link先を確認
Radu Balan, Chris B. Dock(参考訳) 古典位相探索問題は、音声認識からX線結晶学、量子状態トモグラフィーまで幅広い文脈で発生する。 行列フレームへの一般化は、不純状態の量子トモグラフィーに対応するという意味で自然である。 準線形解析写像 $\beta$ に対する計算可能な大域的安定性境界と、鍵空間の微分幾何学の観点から関連する問題を理解するための経路を与える。 特に、低いランクの正半定値行列のホイットニー成層化を示し、大域的安定性境界の計算を ` `stratify' することができる。 不純な状態の場合、そのような大域的安定性境界は、ある自然距離測度に関して、非線形解析写像 $\alpha$ に対して得られないことを示す。 最後に、$\beta$ 解析写像に対する大域的な下方リプシッツ定数の計算は、フレームが一般化された位相検索可能な新しい条件を提供する。

The classical phase retrieval problem arises in contexts ranging from speech recognition to x-ray crystallography and quantum state tomography. The generalization to matrix frames is natural in the sense that it corresponds to quantum tomography of impure states. We provide computable global stability bounds for the quasi-linear analysis map $\beta$ and a path forward for understanding related problems in terms of the differential geometry of key spaces. In particular, we manifest a Whitney stratification of the positive semidefinite matrices of low rank which allows us to ``stratify'' the computation of the global stability bound. We show that for the impure state case no such global stability bounds can be obtained for the non-linear analysis map $\alpha$ with respect to certain natural distance metrics. Finally, our computation of the global lower Lipschitz constant for the $\beta$ analysis map provides novel conditions for a frame to be generalized phase retrievable.
翻訳日:2023-03-13 04:59:40 公開日:2021-10-01
# 量子粒子との環境相互作用の条件波理論

Conditional wave theory of environmental interactions with a quantum particle ( http://arxiv.org/abs/2110.00248v1 )

ライセンス: Link先を確認
Rory van Geleuken and Andrew V. Martin(参考訳) 本稿では、元来分子物理学(正確な分解法)で開発された条件波理論(CWT)を用いた量子デコヒーレンス理論の別の定式化について述べる。 長波長で処理された環境粒子と自由粒子の衝突脱コヒーレンスの古典モデルのCWTを定式化する。 一般に、粒子の運動のCWT方程式は非線形であり、非線型性はCWTゲージ場を介して入ってくる。 ガウス波束の場合、CWT方程式の解析解は密度行列形式から得られるものと正確に一致している。 粒子の限界波動関数のダイナミクスを決定するCWTゲージ項は、粒子の減少密度行列のテイラー級数展開と関連していることを示す。 これらの方程式に対する近似解は、コヒーレンス長さの長期的挙動を再現することに加えて、短時間と長時間の両方の限界におけるアンサンブル幅を再現する線形時間近似をもたらす。 この近似により、粒子の辺波関数の非線形運動方程式は対数Schr\"odinger方程式の形で記述できる。 CWT形式は、マスター方程式を介して密度行列を進化させるのではなく、波動関数レベル項を扱うため、計算的に効率的な量子デコヒーレンスの計算につながる可能性がある。

We present an alternative formulation of quantum decoherence theory using conditional wave theory (CWT), which was originally developed in molecular physics (also known as exact factorisation methods). We formulate a CWT of a classic model of collisional decoherence of a free particle with environmental particles treated in a long-wavelength limit. In general, the CWT equation of motion for the particle is non-linear, where the non-linearity enters via the CWT gauge fields. For Gaussian wave packets the analytic solutions of the CWT equations are in exact agreement with those from the density matrix formalism. We show that CWT gauge terms that determine the dynamics of the particle's marginal wave function are related to a Taylor series expansion of the particle's reduced density matrix. Approximate solutions to these equations lead to a linear-time approximation that reproduces the ensemble width in the limits of both short and long times, in addition to reproducing the long-term behaviour of the coherence length. With this approximation, the non-linear equation of motion for the particle's marginal wave function can be written in the form of the logarithmic Schr\"odinger equation. The CWT formalism may lead to computationally efficient calculations of quantum decoherence, since it involves working with wave-function level terms instead of evolving a density matrix via a master equation.
翻訳日:2023-03-12 20:05:37 公開日:2021-10-01
# 縮退位相に基づく量子算術:誤差伝播と資源削減

Truncated phase-based quantum arithmetic: error propagation and resource reduction ( http://arxiv.org/abs/2110.00217v1 )

ライセンス: Link先を確認
G. A. L. White, C. D. Hill, and L. C. L. Hollenberg(参考訳) 大規模量子アルゴリズムの実現には、ハードウェアの改善とアルゴリズムコンポーネントの要求するリソース要件の削減という、2つの重要な、潜在的相互接続方法がある。 後者に焦点を合わせると、多くの追従応用にとって重要なサブルーチンが量子加算器である。 様々な実装があり、idiosyncratic pros と cons がある。 ドレイパー量子フーリエ加算器(draper quantum fourier adder)は、加算器の最小量子ビット数を提供するが、かなりの数のゲートと非常に細かい回転を必要とする。 そこで本研究では,小角回転を高度に粗いレベルまで除去するドラッパー加算器の修正を行い,戦略的な補正を行った。 これにより、qubitの節約を犠牲にすることなく、ハードウェア要件を削減できる。 忠実度を継承した損失は、計算における搬送率と借入率によって直接与えられる。 回路のゲートレベルの行列積状態シミュレーションを補完してこれを予測するための公式を導出する。 さらに,確率的制御誤差の影響を解析的に記述する。 本稿では,このアプローチをshorのアルゴリズムの文脈で詳細に解析し,rsa-2048の因子分解に着目した。 驚くべきことに、7\times 10^7$の量子フーリエ変換のそれぞれが$\pi/64$に切り下げられ、加法回転はわずかに微妙に残されている。 この結果は以前実現したよりもはるかに効率的である。 論理資源と生マジック状態の両方の観点から貯蓄量を定量化し、位相加算器がトフォリに基づく構成と競合できることを示す。

There are two important, and potentially interconnecting, avenues to the realisation of large-scale quantum algorithms: improvement of the hardware, and reduction of resource requirements demanded by algorithm components. In focusing on the latter, one crucial subroutine to many sought-after applications is the quantum adder. A variety of different implementations exist with idiosyncratic pros and cons. One of these, the Draper quantum Fourier adder, offers the lowest qubit count of any adder, but requires a substantial number of gates as well as extremely fine rotations. In this work, we present a modification of the Draper adder which eliminates small-angle rotations to highly coarse levels, matched with some strategic corrections. This reduces hardware requirements without sacrificing the qubit saving. We show that the inherited loss of fidelity is directly given by the rate of carry and borrow bits in the computation. We derive formulae to predict this, complemented by complete gate-level matrix product state simulations of the circuit. Moreover, we analytically describe the effects of possible stochastic control error. We present an in-depth analysis of this approach in the context of Shor's algorithm, focusing on the factoring of RSA-2048. Surprisingly, we find that each of the $7\times 10^7$ quantum Fourier transforms may be truncated down to $\pi/64$, with additive rotations left only slightly finer. This result is much more efficient than previously realised. We quantify savings both in terms of logical resources and raw magic states, demonstrating that phase adders can be competitive with Toffoli-based constructions.
翻訳日:2023-03-12 20:04:59 公開日:2021-10-01
# 遠隔結合光力学系における非局所非弾性散乱:強化および無ノイズ信号

Nonlocal inelastic scattering of light: Enhanced and noiseless signals in remote-coupled optomechanical systems ( http://arxiv.org/abs/2110.00193v1 )

ライセンス: Link先を確認
Sho Tamaki, Tomohiro Yokoyama, Hajime Ishihara(参考訳) ラマン散乱のような物質系の非弾性散乱は共鳴周波数のような機械的振動に関する豊富な情報を含んでいるため、例えば特定の分子に対するセンサーのような様々な応用につながる。 しかし、非弾性信号は本質的に弱く、強い入力によって妨害されるため、出力信号の観測には感度の高いセットアップが必要である。 本研究では,エミッタから分離して出力信号を大幅に増強することにより,入力の有害な影響を回避する物理手法を理論的に検討する。 2つの物体が機械的に結合され、直接光通信が禁じられた場合、非局所非弾性散乱信号は著しく増強される。 この機構を2体相互作用の強さを制御可能な典型例として結合光力学系を考えることで実証する。 その結果,無ノイズおよび純信号に対する非局所非弾性散乱を促進させる汎用的な手法が得られた。

The inelastic scatterings of matter systems, such as Raman scattering, contain rich information on mechanical vibrations like as resonant frequencies, which lead to various applications, for example, a sensor for specific molecules. However, observing output signals requires a sensitive setup because an inelastic signal is inherently weak and is disturbed by strong input. In this study, we theoretically investigate a physical scheme to avoid detrimental impact of the input by distancing it from the emitter and greatly enhancing the output signals. If two bodies are coupled mechanically and direct optical communication is forbidden, the nonlocal inelastic scattering signals can be considerably boosted. We demonstrate this mechanism by considering coupled optomechanical systems as a typical example that enables control of the two-body interaction strength. The results present a general scheme to boost nonlocal inelastic scattering for noiseless and pure signals.
翻訳日:2023-03-12 20:04:23 公開日:2021-10-01
# n$-レベル量子角運動量系のロバスト安定化制御のための適応パラメータチューニングの提案

A proposal of adaptive parameter tuning for robust stabilizing control of $N$--level quantum angular momentum systems ( http://arxiv.org/abs/2110.00172v1 )

ライセンス: Link先を確認
Shoju Enami and Kentaro Ohki(参考訳) 制御合成の安定化は制御理論と工学の中心的な主題の1つであり、実際には避けられない不確実性を扱う必要がある。 本研究では,[liang, amini, and mason, siam j. control optim., 59 (2021), pp. 669-692] によって提案されたロバストな安定化制御器を用いて,n$ 量子角運動量系の量子フィードバック制御をロバストに安定化する適応パラメータチューニングアルゴリズムを提案する。 提案手法は対象状態への局所収束を保証する。 さらに、学習パラメータが適切に決定された場合、数値実験はその大域収束を示す。

Stabilizing control synthesis is one of the central subjects in control theory and engineering, and it always has to deal with unavoidable uncertainties in practice. In this study, we propose an adaptive parameter tuning algorithm for robust stabilizing quantum feedback control of $N$-level quantum angular momentum systems with a robust stabilizing controller proposed by [Liang, Amini, and Mason, SIAM J. Control Optim., 59 (2021), pp. 669-692]. The proposed method ensures local convergence to the target state. Besides, numerical experiments indicate its global convergence if the learning parameters are adequately determined.
翻訳日:2023-03-12 20:03:41 公開日:2021-10-01
# 一般化信頼性冗長配置問題に対する新しい簡易Swarm最適化法

A Novel Simplified Swarm Optimization for Generalized Reliability Redundancy Allocation Problem ( http://arxiv.org/abs/2110.00133v1 )

ライセンス: Link先を確認
Zhenyao Liu, Jen-Hsuan Chen, Shi-Yi Tan, Wei-Chang Yeh(参考訳) ネットワークシステムは、電力網、IoT(Internet of Things)、ガスネットワークなど、様々な分野で一般的に使われている。 信頼性冗長性割当問題(RRAP)は、シリーズ並列構造からより一般的なネットワーク構造へ拡張する際に開発する必要がある信頼性設計ツールである。 そこで本研究では,ネットワークシステムに適用可能な新しいRRAPであるGeneral RRAP(GRRAP)を提案する。 Binary Addition Tree Algorithm (BAT) は、ネットワークの信頼性を解決するために用いられる。 GRRAPはNP-hard問題であるため,Binary-addition Simple Swarm Optimization (BSSO)と呼ばれる新しいアルゴリズムも提案されている。 BSSOは、BATの精度とSSOの効率を組み合わせ、解空間を効果的に削減し、高品質な解を見つける時間を短縮することができる。 実験の結果、BSSOは、遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、およびSwarm Optimization(SSO)の3つのよく知られたアルゴリズムを6つのネットワークベンチマークで比較した。

Network systems are commonly used in various fields, such as power grid, Internet of Things (IoT), and gas networks. Reliability redundancy allocation problem (RRAP) is a well-known reliability design tool, which needs to be developed when the system is extended from the series-parallel structure to a more general network structure. Therefore, this study proposes a novel RRAP called General RRAP (GRRAP) to be applied to network systems. The Binary Addition Tree Algorithm (BAT) is used to solve the network reliability. Since GRRAP is an NP-hard problem, a new algorithm called Binary-addition simplified swarm optimization (BSSO) is also proposed in this study. BSSO combines the accuracy of the BAT with the efficiency of SSO, which can effectively reduce the solution space and speed up the time to find high-quality solutions. The experimental results show that BSSO outperforms three well-known algorithms, Genetic Algorithm (GA), Particle Swarm Optimization (PSO), and Swarm Optimization (SSO), on six network benchmarks.
翻訳日:2023-03-12 20:03:27 公開日:2021-10-01
# 絶対安定なオープンタイム結晶

An absolutely stable open time crystal ( http://arxiv.org/abs/2110.00585v1 )

ライセンス: Link先を確認
Quntao Zhuang, Francisco Machado, Norman Y. Yao, Michael P. Zaletel(参考訳) ランジュバン浴場に結合した局所相互作用型周期駆動(フロッケ)ハミルトニアンダイナミクスは,無限自己相関時間を持つ有限温度離散時間結晶をサポートする。 時間結晶秩序は、基礎となる駆動の時間変換対称性を破るものを含む任意の摂動に対して安定である。 提案手法は,確率的セルオートマトン(PCA)から古典的なフロケシステムへの一般的なマッピングを利用する。 この写像を ``$\pi$-Toom PCA''' をダブした Toom セルオートマトンに応用すると、有限温度周期双曲相転移を持つ 2次元フロケハミルトニアンが得られる。 この遷移の存在の数値的な証拠を提供し、有限温度変動の統計を解析する。 最後に、確率的セルオートマトンから得られる一般的な結果は、すべての次元における離散時間結晶の存在を示唆する$D \geq 1$。

We show that locally-interacting, periodically-driven (Floquet) Hamiltonian dynamics coupled to a Langevin bath support finite-temperature discrete time crystals with an infinite auto-correlation time. The time crystalline order is stable to arbitrary perturbations, including those that break the time translation symmetry of the underlying drive. Our approach utilizes a general mapping from probabilistic cellular automata (PCA) to open classical Floquet systems. Applying this mapping to a variant of the Toom cellular automata, which we dub the ``$\pi$-Toom PCA'', leads to a 2D Floquet Hamiltonian with a finite-temperature period-doubling phase transition. We provide numerical evidence for the existence of this transition, and analyze the statistics of the finite temperature fluctuations. Finally, we discuss how general results from the field of probabilistic cellular automata imply the existence of discrete time crystals in all dimensions, $D \geq 1$.
翻訳日:2023-03-12 19:56:06 公開日:2021-10-01
# 遠隔ユーザ間のデバイス非依存量子鍵分布の実験

Experimental device-independent quantum key distribution between distant users ( http://arxiv.org/abs/2110.00575v1 )

ライセンス: Link先を確認
Wei Zhang, Tim van Leent, Kai Redeker, Robert Garthoff, Rene Schwonnek, Florian Fertig, Sebastian Eppelt, Valerio Scarani, Charles C.-W. Lim, and Harald Weinfurter(参考訳) デバイス非依存量子鍵分布(DIQKD)は、信頼できないチャネル上の秘密鍵を確立するために信頼できないデバイスを使用する技術である。 今のところ、DIQKDの実際の実装は大きな課題であり、セキュアな鍵交換を確保するために、非常に高品質な絡み合いを持つ2つの遠隔地でループホールのないベルテストのデモンストレーションが必要である。 ここでは,400m離れた2ユーザ間のデバイスに依存しない方法で,漸近的なセキュリティ推定に基づくセキュアキーの配布を初めて実証する。 この実験は、2つの独立に閉じ込められた1つのルビジウム87原子間のヘラルド絡み合いに基づいている。 堅牢なDIQKDプロトコルの実装は、絡み合い発生イベント当たりの秘密鍵レートが r=0.07 であり、確率誤差が 3% である r>0 であることを示す。 さらに,集合攻撃に対する有限サイズのセキュリティを持つ秘密鍵を配布する実験の能力を分析する。

Device-independent quantum key distribution (DIQKD) is the art of using untrusted devices to establish secret keys over an untrusted channel. So far, the real-world implementation of DIQKD remains a major challenge, as it requires the demonstration of a loophole-free Bell test across two remote locations with very high quality entanglement to ensure secure key exchange. Here, we demonstrate for the first time the distribution of a secure key -- based on asymptotic security estimates -- in a fully device-independent way between two users separated by 400 metres. The experiment is based on heralded entanglement between two independently trapped single Rubidium 87 atoms. The implementation of a robust DIQKD protocol indicates an expected secret key rate of r=0.07 per entanglement generation event and r>0 with a probability error of 3%. Furthermore, we analyse the experiment's capability to distribute a secret key with finite-size security against collective attacks.
翻訳日:2023-03-12 19:55:47 公開日:2021-10-01
# 小さな量子デバイス上の大きなpepsテンソルネットワークのシミュレーション

Simulating Large PEPs Tensor Networks on Small Quantum Devices ( http://arxiv.org/abs/2110.00507v1 )

ライセンス: Link先を確認
Ian MacCormack, Alexey Galda, Adam L. Lyon(参考訳) 低結合のpepsテンソルネットワークを量子回路に体系的にマッピングする。 量子ビットの測定と再利用により、任意の$M$に対する$N \times M$ square-lattice PEPsネットワークのシミュレーションを、$N+2$ qubitsを用いて行うことができることを示した。 本手法は,3-times 3$ PEPsテンソルネットワークを5-qubit量子回路にマッピングし,ハネウェル系H1-1トラップイオンデバイス上で実行することにより,トポロジカルウェンプラケットモデルで観測可能な長距離ループの値を計算する。 このシステムサイズでは、ウェンモデルがハミルトニアンの磁場項によって摂動されるので、ノイズの観測可能な値は位相的対自明な順序の診断に十分であることが分かる。 実験手順の概要と結果について報告する。 次に,2次元テンソルネットワークを量子回路にマッピングする手法とそのスケーリング特性について詳しく説明する。 この結果は、小さな量子デバイス上で大きな2次元量子システムをシミュレートするための測度・リユース手法の有用性の証明となる。

We systematically map low-bond-dimension PEPs tensor networks to quantum circuits. By measuring and reusing qubits, we demonstrate that a simulation of an $N \times M$ square-lattice PEPs network, for arbitrary $M$, of bond dimension $2$ can be performed using $N+2$ qubits. We employ this approach to calculate the values of a long-range loop observable in the topological Wen plaquette model by mapping a $3\times 3$ PEPs tensor network to a 5-qubit quantum circuit and executing it on the Honeywell System Model H1-1 trapped-ion device. We find that, for this system size, the noisy observable values are sufficient for diagnosing topological vs. trivial order, as the Wen model is perturbed by a magnetic field term in the Hamiltonian. We provide an overview of the experimental procedure and its results. We then explain in greater detail our method for mapping 2D tensor networks to quantum circuits and its scaling properties. Our results serve as a proof-of-concept of the utility of the measure-and-reuse approach for simulating large two-dimensional quantum systems on small quantum devices.
翻訳日:2023-03-12 19:55:15 公開日:2021-10-01
# 回路量子音響力学の強い分散状態におけるパリティ測定

Parity measurement in the strong dispersive regime of circuit quantum acoustodynamics ( http://arxiv.org/abs/2110.00263v1 )

ライセンス: Link先を確認
Uwe von L\"upke, Yu Yang, Marius Bild, Laurent Michaud, Matteo Fadel, Yiwen Chu(参考訳) メカニカル共振器は量子科学と技術にとって重要な新しいプラットフォームとして発展しつつある。 量子情報を保存、処理、転送するためにそれらを使用する多くの提案は、量子構造における機械的運動を制御するためのますます洗練された技術の開発を動機付けている。 超伝導回路で機械共振器を対向させることで、回路量子音響力学(cQAD)は運動量子状態の操作と測定に様々な重要なツールを利用できる。 ここでは、非古典力学状態のフォノン数分布とパリティを直接測定する。 我々は、超伝導量子ビットを用いてフォノンフォック状態の分光分解を行う強力な分散系でシステムを操作することでこれを実現している。 これらの測定は、音響量子メモリとプロセッサを構築するための基本的な構成要素である。 さらに,量子誤り訂正やマルチモード演算などの機械システムを用いて,より複雑な量子アルゴリズムを実現するための扉を開く。

Mechanical resonators are emerging as an important new platform for quantum science and technologies. A large number of proposals for using them to store, process, and transduce quantum information motivates the development of increasingly sophisticated techniques for controlling mechanical motion in the quantum regime. By interfacing mechanical resonators with superconducting circuits, circuit quantum acoustodynamics (cQAD) can make a variety of important tools available for manipulating and measuring motional quantum states. Here we demonstrate direct measurements of the phonon number distribution and parity of nonclassical mechanical states. We do this by operating our system in the strong dispersive regime, where a superconducting qubit can be used to spectroscopically resolve phonon Fock states. These measurements are some of the basic building blocks for constructing acoustic quantum memories and processors. Furthermore, our results open the door to performing even more complex quantum algorithms using mechanical systems, such as quantum error correction and multi-mode operations.
翻訳日:2023-03-12 19:54:02 公開日:2021-10-01
# 未来のための財団:人工知能ガバナンスのための機関ビル

Foundations for the Future: Institution building for the purpose of Artificial Intelligence governance ( http://arxiv.org/abs/2110.09238v1 )

ライセンス: Link先を確認
Charlotte Stix(参考訳) 人工知能(ai)のガバナンスの取り組みは、ますます具体的になりつつあり、厳しい規制から標準化まで、リスクの高いaiシステムからの課題を軽減しようとする様々なアプローチや手段を描いている。 これらとその他の取り組みを実施するためには、国内外のレベルで新たな機関を設立する必要がある。 本稿では,これらの機関の青写真をスケッチし,将来のAIガバナンス機関の3つの重要な構成要素を詳細に調査し,そのメリットと欠点を探求する。(1) 機関の全体的な目標と作業範囲,あるいは委任事項に関する目的,(2) 参加や管轄範囲に関する地理,(3) 施設のインフラ・人的構成に関する能力,である。 その後、欧州の文脈にこれらの議論を置き、欧州のai機関のさまざまなイテレーションを提案することで、制度目的に関する質問に関する様々な機関の役割の注目すべき側面を強調する。 最後に、結論と今後の研究方向を提案する。

Governance efforts for artificial intelligence (AI) are taking on increasingly more concrete forms, drawing on a variety of approaches and instruments from hard regulation to standardisation efforts, aimed at mitigating challenges from high-risk AI systems. To implement these and other efforts, new institutions will need to be established on a national and international level. This paper sketches a blueprint of such institutions, and conducts in-depth investigations of three key components of any future AI governance institutions, exploring benefits and associated drawbacks: (1) purpose, relating to the institution's overall goals and scope of work or mandate; (2) geography, relating to questions of participation and the reach of jurisdiction; and (3) capacity, the infrastructural and human make-up of the institution. Subsequently, the paper highlights noteworthy aspects of various institutional roles specifically around questions of institutional purpose, and frames what these could look like in practice, by placing these debates in a European context and proposing different iterations of a European AI Agency. Finally, conclusions and future research directions are proposed.
翻訳日:2023-03-12 19:47:37 公開日:2021-10-01
# グローバーアルゴリズムの原理に基づく量子ニューラルネットワークの開発と学習

Development and Training of Quantum Neural Networks, Based on the Principles of Grover's Algorithm ( http://arxiv.org/abs/2110.01443v1 )

ライセンス: Link先を確認
Cesar Borisovich Pronin, Andrey Vladimirovich Ostroukh(参考訳) 本稿では、Groverの検索アルゴリズムによってトレーニングされた量子ニューラルネットワークを作成する可能性を強調する。 本研究の目的は、グローバーのアルゴリズムの原理に基づいて行われるニューラルネットワークの訓練過程と、そのニューラルネットワークの機能構造を量子回路として解釈する概念を提案することである。 ニューラルネットワークの単純な例として、概念を示すために、1つの訓練可能なパラメータを持つパーセプトロン(隠されたニューロンに接続されたシナプスの重さ)がある。

This paper highlights the possibility of creating quantum neural networks that are trained by Grover's Search Algorithm. The purpose of this work is to propose the concept of combining the training process of a neural network, which is performed on the principles of Grover's algorithm, with the functional structure of that neural network, interpreted as a quantum circuit. As a simple example of a neural network, to showcase the concept, a perceptron with one trainable parameter - the weight of a synapse connected to a hidden neuron.
翻訳日:2023-03-12 19:46:57 公開日:2021-10-01
# センサペイロードを制限した自律型水中車両のデッドリクッキングナビゲーションへのディープラーニングアプローチ

A Deep Learning Approach To Dead-Reckoning Navigation For Autonomous Underwater Vehicles With Limited Sensor Payloads ( http://arxiv.org/abs/2110.00661v1 )

ライセンス: Link先を確認
Ivar Bj{\o}rgo Saksvik, Alex Alcocer, Vahid Hassani(参考訳) 本稿では,限られたセンサスイートを用いたデッドレコンディング(DR)ナビゲーションを支援するための深層学習手法を提案する。 リカレントニューラルネットワーク(RNN)は、IMU、圧力センサ、制御入力のデータを用いて自律水中車両(AUV)の相対水平速度を予測するために開発された。 RNNネットワークは、ドップラー速度ロガー(DVL)が地上の真理速度を提供する実験データを用いて訓練される。 相対速度の予測は、北と東の位置を近似するデッドレコンディングアルゴリズムで実施された。 本報告では, ロングランジAUVの実験データについて検討した。 カリフォルニア州モントレー湾(英語版)での一連の調査のデータは、RNNネットワークの訓練と試験に使用された。 二 第二の研究では、自律水中グライダーを模擬したデータセットを探索する。 実際の海洋条件を反映するために, 海洋電流などの環境変数がシミュレーションで実装された。 DRナビゲーションに対する提案したニューラルネットワークアプローチは、オンボードナビゲーションシステムと地上真実シミュレーション位置と比較された。

This paper presents a deep learning approach to aid dead-reckoning (DR) navigation using a limited sensor suite. A Recurrent Neural Network (RNN) was developed to predict the relative horizontal velocities of an Autonomous Underwater Vehicle (AUV) using data from an IMU, pressure sensor, and control inputs. The RNN network is trained using experimental data, where a doppler velocity logger (DVL) provided ground truth velocities. The predictions of the relative velocities were implemented in a dead-reckoning algorithm to approximate north and east positions. The studies in this paper were twofold I) Experimental data from a Long-Range AUV was investigated. Datasets from a series of surveys in Monterey Bay, California (U.S) were used to train and test the RNN network. II) The second study explore datasets generated by a simulated autonomous underwater glider. Environmental variables e.g ocean currents were implemented in the simulation to reflect real ocean conditions. The proposed neural network approach to DR navigation was compared to the on-board navigation system and ground truth simulated positions.
翻訳日:2023-03-12 19:46:48 公開日:2021-10-01
# 詳細ゆらぎ定理は第二法則の明らかな違反を限定する

Detailed fluctuation theorem bounds apparent violations of the second law ( http://arxiv.org/abs/2110.00630v1 )

ライセンス: Link先を確認
Domingos S. P. Salazar(参考訳) 熱力学の第二の法則はエントロピー生成の統計について、$\langle \Sigma \rangle \geq 0$である。 小さな系では、エントロピー生成は確率変数であり、いくつかの実験で負の値(\sigma < 0$)が観測されることが知られている。 この状況は、しばしば第二法違反と呼ばれる。 この意味で、第2法はどの程度の頻度で違反するのか? 与えられた平均$\langle \Sigma \rangle $ に対して、強い詳細なゆらぎ定理は第二法則の明らかな違反に対してより低い厳密な境界を示すことを示す。 その結果, 弱結合近似におけるボソニックモード, 浮遊ナノ粒子, 古典粒子を媒介とする2つの貯留層間の熱交換問題において生じるエントロピーに対して, 境界が満たされていることが確認された。

The second law of thermodynamics is a statement about the statistics of the entropy production, $\langle \Sigma \rangle \geq 0$. For small systems, it is known that the entropy production is a random variable and negative values ($\Sigma < 0$) might be observed in some experiments. This situation is sometimes called apparent violation of the second law. In this sense, how often is the second law violated? For a given average $\langle \Sigma \rangle $, we show that the strong detailed fluctuation theorem implies a lower tight bound for the apparent violations of the second law. As applications, we verify that the bound is satisfied for the entropy produced in the heat exchange problem between two reservoirs mediated by a bosonic mode in the weak coupling approximation, a levitated nanoparticle and a classical particle in a box.
翻訳日:2023-03-12 19:46:01 公開日:2021-10-01
# 過激主義イデオロギーの認知科学

The Cognitive Science of Extremist Ideologies Online ( http://arxiv.org/abs/2110.00626v1 )

ライセンス: Link先を確認
Chloe Perry and Simon DeDeo(参考訳) 過激派イデオロギーはオンラインフォーラムで新しい家を見つけています。 これらは真の信者のための場所であり、好奇心をそそる新参者のための募集場でもある。 To understand how newcomers learn ideology online, we study the Reddit archives of a novel sexist ideology known as the "the Red Pill''. Matching a longstanding hypothesis in the social sciences, our methods resolve the ideology into two components: a "behavioral'' dimension, concerned with correcting behavior towards the self and others, and an "explanatory'' dimension, of unifying explanations for the worldview. We then build a model of how newcomers to the group navigate the underlying conceptual structure. This reveals a large population of "tourists'', who leave quickly, and a smaller group of "residents'' who join the group and remain for orders of magnitude longer. 新参者は行動的要素に惹かれ、食事、運動、中毒などの自己啓発的なトピックの形で表現される。 しかし、説明はそこに留まり、観光客を住民に変える。 説明の採用は、中程度のエンゲージメントの期間を2倍以上にし、ハイパワーエンゲージメントの長いテールの出現を説明することができる。 最も頑丈な説明は、最も長いエンゲージメントを予測するもので、ステータス階層に関するものです。

Extremist ideologies are finding new homes in online forums. These serve as both places for true believers, and recruiting-grounds for curious newcomers. To understand how newcomers learn ideology online, we study the Reddit archives of a novel sexist ideology known as the "the Red Pill''. Matching a longstanding hypothesis in the social sciences, our methods resolve the ideology into two components: a "behavioral'' dimension, concerned with correcting behavior towards the self and others, and an "explanatory'' dimension, of unifying explanations for the worldview. We then build a model of how newcomers to the group navigate the underlying conceptual structure. This reveals a large population of "tourists'', who leave quickly, and a smaller group of "residents'' who join the group and remain for orders of magnitude longer. Newcomers are attracted by the behavioral component, in the form of self-help topics such as diet, exercise, and addiction. Explanations, however, keep them there, turning tourists into residents. They have powerful effects: explanation adoption can more than double the duration of median engagement, and can explain the emergence of a long-tail of high-power engagers. The most sticky explanations, that predict the longest engagement, are about status hierarchies.
翻訳日:2023-03-12 19:45:45 公開日:2021-10-01
# 最大エントロピーサンプリング問題に対する最適部分行列選択:スケーラブルアルゴリズムと性能保証

Best Principal Submatrix Selection for the Maximum Entropy Sampling Problem: Scalable Algorithms and Performance Guarantees ( http://arxiv.org/abs/2001.08537v2 )

ライセンス: Link先を確認
Yongchun Li, Weijun Xie(参考訳) 本稿では,共分散行列から所定のサイズの最も有益な主部分行列を選択することを目的とした,古典的最大エントロピーサンプリング問題(mesp)について述べる。 MESPは医療、電力システム、製造、データサイエンスなど多くの分野に広く応用されている。 ラグランジアン双対と原始的性質を調べることにより、MESPのための新しい凸整数プログラムを導出し、その連続緩和がほぼ最適解をもたらすことを示す。 その結果, 効率的なサンプリングアルゴリズムの研究とMESPの近似法の開発が動機となり, 文献の最もよく知られた境界を改良する。 そして、同じ近似境界を持つサンプリングアルゴリズムの効率的な決定論的実装を提供する。 特異行列の新しい数学的ツールを開発し,提案した凸整数プログラムのラグランジアン双対を解析することにより,広く使われている局所探索アルゴリズムを検証し,MESPに対する最初の近似を証明した。 証明手法は局所探索アルゴリズムの効率的な実装にさらに刺激を与えてくれる。 数値実験により,これらの近似アルゴリズムは,中規模および大規模インスタンスをほぼ最適に効率的に解けることを示した。 提案アルゴリズムは,オープンソースソフトウェアとして実装・リリースされている。 最後に、分析をA-Optimal MESP(A-MESP)に拡張し、選択された主部分行列の逆のトレースを最小限にすることを目的とする。

This paper studies a classic maximum entropy sampling problem (MESP), which aims to select the most informative principal submatrix of a prespecified size from a covariance matrix. MESP has been widely applied to many areas, including healthcare, power system, manufacturing and data science. By investigating its Lagrangian dual and primal characterization, we derive a novel convex integer program for MESP and show that its continuous relaxation yields a near-optimal solution. The results motivate us to study an efficient sampling algorithm and develop its approximation bound for MESP, which improves the best-known bound in literature. We then provide an efficient deterministic implementation of the sampling algorithm with the same approximation bound. By developing new mathematical tools for the singular matrices and analyzing the Lagrangian dual of the proposed convex integer program, we investigate the widely-used local search algorithm and prove its first-known approximation bound for MESP. The proof techniques further inspire us with an efficient implementation of the local search algorithm. Our numerical experiments demonstrate that these approximation algorithms can efficiently solve medium-sized and large-scale instances to near-optimality. Our proposed algorithms are coded and released as open-source software. Finally, we extend the analyses to the A-Optimal MESP (A-MESP), where the objective is to minimize the trace of the inverse of the selected principal submatrix.
翻訳日:2023-01-07 12:47:10 公開日:2021-10-01
# 条件付き深いガウス過程:多要素カーネル学習

Conditional Deep Gaussian Processes: multi-fidelity kernel learning ( http://arxiv.org/abs/2002.02826v3 )

ライセンス: Link先を確認
Chi-Ken Lu, Patrick Shafto(参考訳) 深いガウス過程(dgps)は、不確かさの数学的接地推定が可能な表現的ベイズモデルとして提案されている。 DPGの表現性は、構成特性だけでなく、階層内の分布伝播からも生じる。 近年, dgpの階層構造は, 高精度で低忠実度な観測量の多いスパース観測を行い, マルチ忠実度回帰のモデル化に好適であることが示唆された。 固定された低忠実度データにより遅延GPを直接支持する条件付きDGPモデルを提案する。 次に、 [2] におけるモーメントマッチング法を適用し、条件付き DGP の辺先をGP で近似する。 得られた有効カーネルは低忠実度データの暗黙の関数であり、階層内の分布伝播による表現性を示す。 ハイパーパラメータは、近似限界確率を最適化することで学習される。 合成および高次元データを用いた実験は、他の多要素回帰法、変分推論、多出力GPと同等の性能を示す。 低忠実度データと階層DGP構造により、実効カーネルは[3,4]で議論された構成の自由度を許容する真の関数に対する帰納バイアスを符号化する。

Deep Gaussian Processes (DGPs) were proposed as an expressive Bayesian model capable of a mathematically grounded estimation of uncertainty. The expressivity of DPGs results from not only the compositional character but the distribution propagation within the hierarchy. Recently, [1] pointed out that the hierarchical structure of DGP well suited modeling the multi-fidelity regression, in which one is provided sparse observations with high precision and plenty of low fidelity observations. We propose the conditional DGP model in which the latent GPs are directly supported by the fixed lower fidelity data. Then the moment matching method in [2] is applied to approximate the marginal prior of conditional DGP with a GP. The obtained effective kernels are implicit functions of the lower-fidelity data, manifesting the expressivity contributed by distribution propagation within the hierarchy. The hyperparameters are learned via optimizing the approximate marginal likelihood. Experiments with synthetic and high dimensional data show comparable performance against other multi-fidelity regression methods, variational inference, and multi-output GP. We conclude that, with the low fidelity data and the hierarchical DGP structure, the effective kernel encodes the inductive bias for true function allowing the compositional freedom discussed in [3,4].
翻訳日:2023-01-03 04:27:43 公開日:2021-10-01
# 非線形状態空間モデルに対するガウス変分状態推定

Gaussian Variational State Estimation for Nonlinear State-Space Models ( http://arxiv.org/abs/2002.02620v4 )

ライセンス: Link先を確認
Jarrad Courts, Adrian Wills and Thomas B. Sch\"on(参考訳) 本稿では,非線形状態空間モデルに対して,フィルタリングと平滑化の両方の文脈において状態推定の問題を考える。 モデルの非線形性のため、一般の非線形関数の積分を含む状態推定問題は一般に難解であり、フィルタされた状態分布は閉形式解を持たない。 したがって、状態推定問題を近似することが一般的である。 本稿では,変分推論に基づく仮定ガウス解を開発し,所望の分布を近似する機構として,フレキシブルだが原理的な鍵となる利点を提供する。 我々の主な貢献は、状態推定問題を最適化問題として新しい定式化することであり、それは完全な一階および二階微分を用いる標準最適化ルーチンを用いて解くことができる。 結果として生じる状態推定アプローチは最小限の仮定を伴い、ガウス的および非ガウス的確率モデルの両方で非線形系に直接適用される。 本手法の性能は,いくつかの例で実証されている: 挑戦的なスカラーシステム,単純なロボットシステムのモデル,およびvon mises-fisher分布を用いた目標追跡問題。

In this paper, the problem of state estimation, in the context of both filtering and smoothing, for nonlinear state-space models is considered. Due to the nonlinear nature of the models, the state estimation problem is generally intractable as it involves integrals of general nonlinear functions and the filtered and smoothed state distributions lack closed-form solutions. As such, it is common to approximate the state estimation problem. In this paper, we develop an assumed Gaussian solution based on variational inference, which offers the key advantage of a flexible, but principled, mechanism for approximating the required distributions. Our main contribution lies in a new formulation of the state estimation problem as an optimisation problem, which can then be solved using standard optimisation routines that employ exact first- and second-order derivatives. The resulting state estimation approach involves a minimal number of assumptions and applies directly to nonlinear systems with both Gaussian and non-Gaussian probabilistic models. The performance of our approach is demonstrated on several examples; a challenging scalar system, a model of a simple robotic system, and a target tracking problem using a von Mises-Fisher distribution and outperforms alternative assumed Gaussian approaches to state estimation.
翻訳日:2023-01-03 03:41:38 公開日:2021-10-01
# 協調型MARLのためのQ学習による平均場制御:収束と複雑度解析

Mean-Field Controls with Q-learning for Cooperative MARL: Convergence and Complexity Analysis ( http://arxiv.org/abs/2002.04131v6 )

ライセンス: Link先を確認
Haotian Gu, Xin Guo, Xiaoli Wei, Renyuan Xu(参考訳) マルチエージェント強化学習(MARL)はその人気と経験的成功にもかかわらず、次元性の呪いに悩まされている。 本稿では、平均場制御(MFC)アプローチにより協調MARLを近似する数学的枠組みを構築し、近似誤差が$\mathcal{O}(\frac{1}{\sqrt{N}})$であることを示す。 値関数とQ関数の両方に対して動的プログラミング原理の適切な形式を確立することにより、MFC問題に対する線形収束率を持つモデルフリーカーネルベースのQ-ラーニングアルゴリズム(MFC-K-Q)を提案する。 さらに、MFC-K-Qの収束率とサンプルの複雑さは、学習環境における$N$エージェントによるMARL問題に対する$\mathcal{O}(\frac{1}{\sqrt{N}})$近似を提供するエージェント数$N$とは独立であることを示す。 ネットワークトラフィックの混雑問題に対する実証的研究により、MFC-K-Qは、例えば$N>50$が大きければ既存のMARLアルゴリズムよりも優れることを示した。

Multi-agent reinforcement learning (MARL), despite its popularity and empirical success, suffers from the curse of dimensionality. This paper builds the mathematical framework to approximate cooperative MARL by a mean-field control (MFC) approach, and shows that the approximation error is of $\mathcal{O}(\frac{1}{\sqrt{N}})$. By establishing an appropriate form of the dynamic programming principle for both the value function and the Q function, it proposes a model-free kernel-based Q-learning algorithm (MFC-K-Q), which is shown to have a linear convergence rate for the MFC problem, the first of its kind in the MARL literature. It further establishes that the convergence rate and the sample complexity of MFC-K-Q are independent of the number of agents $N$, which provides an $\mathcal{O}(\frac{1}{\sqrt{N}})$ approximation to the MARL problem with $N$ agents in the learning environment. Empirical studies for the network traffic congestion problem demonstrate that MFC-K-Q outperforms existing MARL algorithms when $N$ is large, for instance when $N>50$.
翻訳日:2023-01-02 08:38:21 公開日:2021-10-01
# 生成ニューラルネットワークを用いた多変量時系列モデリング

Multivariate time-series modeling with generative neural networks ( http://arxiv.org/abs/2002.10645v4 )

ライセンス: Link先を確認
Marius Hofert, Avinash Prasad, Mu Zhu(参考訳) 多変量時系列(MTS)の連立革新分布の依存モデルとして生成モーメントマッチングネットワーク(GMMN)を導入する。 依存するmtsデータをモデル化する一般的なcopula-garchアプローチに従い,gmmn-garchアプローチに基づくフレームワークを提案する。 まず、ARMA-GARCHモデルを用いて、各単変量境界時系列内のシリアル依存をキャプチャする。 第二に、境界時系列の数が大きければ、主成分分析(PCA)が次元還元ステップとして用いられる。 最後に、残りの断面積依存は、この研究の主な貢献であるGMMNを介してモデル化される。 GMMNは非常に柔軟でシミュレートが容易であり、コプラ-GARCHアプローチに対する大きな利点である。 収率曲線モデリングと外国為替レートのリターン分析を含む応用は、gmmn-garchアプローチの有用性を示しており、特に、より優れた経験的予測分布を生成し、より良い確率的予測を行うという点で有用である。

Generative moment matching networks (GMMNs) are introduced as dependence models for the joint innovation distribution of multivariate time series (MTS). Following the popular copula-GARCH approach for modeling dependent MTS data, a framework based on a GMMN-GARCH approach is presented. First, ARMA-GARCH models are utilized to capture the serial dependence within each univariate marginal time series. Second, if the number of marginal time series is large, principal component analysis (PCA) is used as a dimension-reduction step. Last, the remaining cross-sectional dependence is modeled via a GMMN, the main contribution of this work. GMMNs are highly flexible and easy to simulate from, which is a major advantage over the copula-GARCH approach. Applications involving yield curve modeling and the analysis of foreign exchange-rate returns demonstrate the utility of the GMMN-GARCH approach, especially in terms of producing better empirical predictive distributions and making better probabilistic forecasts.
翻訳日:2022-12-28 21:12:07 公開日:2021-10-01
# 浮動小数点数値誤差による検証ニューラルネットワークの活用

Exploiting Verified Neural Networks via Floating Point Numerical Error ( http://arxiv.org/abs/2003.03021v4 )

ライセンス: Link先を確認
Kai Jia, Martin Rinard(参考訳) 研究者たちは、ディープニューラルネットワークの堅牢性を特徴づける必要性から、ニューラルネットワーク検証アルゴリズムを開発した。 検証者は、ニューラルネットワークが空間内の全ての入力に対して特定の特性を保証するかどうかに答えようとする。 しかし、多くの検証者は浮動小数点演算を不正確にモデル化しているが、結果について十分に議論していない。 浮動小数点誤差の無視は,実際にシステム的に悪用できる不健全な検証につながることを示す。 事前学習されたニューラルネットワークに対して,完全検証器によるロバスト性クレームの誤認の証人として入力を効率的に検索する手法を提案する。 また,不完全検証者の誤った結果を引き起こすニューラルネットワークアーキテクチャと重み付けを構築する手法を提案する。 この結果から,ニューラルネットワークの信頼性の高い検証を実現するためには,ネットワーク推論や検証システムにおける浮動小数点演算の効果を正確に(あるいは保守的に)モデル化する必要がある。

Researchers have developed neural network verification algorithms motivated by the need to characterize the robustness of deep neural networks. The verifiers aspire to answer whether a neural network guarantees certain properties with respect to all inputs in a space. However, many verifiers inaccurately model floating point arithmetic but do not thoroughly discuss the consequences. We show that the negligence of floating point error leads to unsound verification that can be systematically exploited in practice. For a pretrained neural network, we present a method that efficiently searches inputs as witnesses for the incorrectness of robustness claims made by a complete verifier. We also present a method to construct neural network architectures and weights that induce wrong results of an incomplete verifier. Our results highlight that, to achieve practically reliable verification of neural networks, any verification system must accurately (or conservatively) model the effects of any floating point computations in the network inference or verification system.
翻訳日:2022-12-26 01:02:31 公開日:2021-10-01
# pfpn:パーティクルフィルタリング・ポリシー・ネットワークを用いた物理シミュレーションキャラクタの連続制御

PFPN: Continuous Control of Physically Simulated Characters using Particle Filtering Policy Network ( http://arxiv.org/abs/2003.06959v4 )

ライセンス: Link先を確認
Pei Xu and Ioannis Karamouzas(参考訳) 強化学習を用いた物理ベースのキャラクタ制御のためのデータ駆動手法が,高品質な動作の生成に有効である。 しかし、既存のアプローチは一般的に行動ポリシーを表現するためにガウス分布に依存しており、高調波文字に対する高次元連続制御問題を解く際には、早い段階で最適な行動にコミットすることができる。 本稿では,物理系文字制御器の学習性能を向上させるために,粒子系アクションポリシーをガウス政策の代替とみなす枠組みを提案する。 粒子フィルタリングを利用して, 作用空間を動的に探索し, 識別し, 混合分布として表される後方政策を追跡する。 結果として得られたポリシーは、ポリシー最適化に使用される強化学習アルゴリズムの基盤となるモデルアーキテクチャを変更することなく、文字制御問題の根幹をなす一元的なガウスポリシーを置き換えることができる。 提案手法が様々なモーションキャプチャ模倣タスクに適用可能であることを示す。 我々のパーティクルベースのポリシーを用いたベースラインは、ガウスを用いた実装と比較して、より優れた模倣性能と収束速度を実現し、文字制御中の外部摂動に対してより堅牢である。 関連コードはhttps://motion-lab.github.io/pfpn.com/。

Data-driven methods for physics-based character control using reinforcement learning have been successfully applied to generate high-quality motions. However, existing approaches typically rely on Gaussian distributions to represent the action policy, which can prematurely commit to suboptimal actions when solving high-dimensional continuous control problems for highly-articulated characters. In this paper, to improve the learning performance of physics-based character controllers, we propose a framework that considers a particle-based action policy as a substitute for Gaussian policies. We exploit particle filtering to dynamically explore and discretize the action space, and track the posterior policy represented as a mixture distribution. The resulting policy can replace the unimodal Gaussian policy which has been the staple for character control problems, without changing the underlying model architecture of the reinforcement learning algorithm used to perform policy optimization. We demonstrate the applicability of our approach on various motion capture imitation tasks. Baselines using our particle-based policies achieve better imitation performance and speed of convergence as compared to corresponding implementations using Gaussians, and are more robust to external perturbations during character control. Related code is available at: https://motion-lab.github.io/PFPN.
翻訳日:2022-12-23 02:56:09 公開日:2021-10-01
# アドバンテージベース強化学習アルゴリズムのスカラー化問題の解法

Solving the scalarization issues of Advantage-based Reinforcement Learning Algorithms ( http://arxiv.org/abs/2004.04120v4 )

ライセンス: Link先を確認
Federico A. Galatolo, Mario G.C.A. Cimino, Gigliola Vaglini(参考訳) 本研究では,Advantage Actor Critic (A2C) 強化学習アルゴリズムにおいて,多目的最適化問題のスカラー化から生じる問題について検討する。 この論文は、ナイーブなスカラー化によって勾配が重なり合うことを示す。 さらに、エントロピー正規化項が制御不能雑音の源となる可能性についても論じる。 上記の問題については、同じ損失定式化を維持しつつ、勾配重なりを避ける手法が提案されている。 さらに、所望の最小エントロピーで分布から動作をサンプリングすることで、制御不能な騒音を避ける方法を検討した。 提案手法がトレーニングをいかにスピードアップさせるかを示すパイロット実験が実施された。 提案手法は,Advantage-based Reinforcement Learningアルゴリズムに適用可能である。

In this research, some of the issues that arise from the scalarization of the multi-objective optimization problem in the Advantage Actor Critic (A2C) reinforcement learning algorithm are investigated. The paper shows how a naive scalarization can lead to gradients overlapping. Furthermore, the possibility that the entropy regularization term can be a source of uncontrolled noise is discussed. With respect to the above issues, a technique to avoid gradient overlapping is proposed, while keeping the same loss formulation. Moreover, a method to avoid the uncontrolled noise, by sampling the actions from distributions with a desired minimum entropy, is investigated. Pilot experiments have been carried out to show how the proposed method speeds up the training. The proposed approach can be applied to any Advantage-based Reinforcement Learning algorithm.
翻訳日:2022-12-15 08:17:48 公開日:2021-10-01
# リアルに有用な合成データ -- 微分プライベートな合成データの品質を評価するためのフレームワーク

Really Useful Synthetic Data -- A Framework to Evaluate the Quality of Differentially Private Synthetic Data ( http://arxiv.org/abs/2004.07740v2 )

ライセンス: Link先を確認
Christian Arnold and Marcel Neunhoeffer(参考訳) ディファレンシャルプライバシなどのプライバシ保護の原則的な方法を追加するための合成データ生成の最近の進歩は、プライバシ保護方法で統計情報を共有するための重要なステップである。 しかし、プライバシーの保証に焦点が当てられているが、結果として得られるプライベートな合成データは、元のデータから統計情報を運ぶ場合にのみ有用である。 データプライバシとデータ品質の間の固有のトレードオフをさらに最適化するには、後者についてよく考える必要がある。 データアナリストが望むものは何か? 本研究では,データ品質が主観的概念であることを認め,応用研究者の視点から差分プライベートな合成データの質を評価する枠組みを開発する。 データ品質は2次元で測定できる。 第一に、合成データの質は、トレーニングデータや基礎となる人口に対して評価することができる。 第二に、合成データの品質は分布の一般的な類似性や推論や予測のような特定のタスクに依存する。 一度にすべての目標を順守することは、非常に難しい課題であることは明らかです。 私たちは学術コミュニティに、プライバシー品質のフロンティアを共同で進めるよう呼びかけます。

Recent advances in generating synthetic data that allow to add principled ways of protecting privacy -- such as Differential Privacy -- are a crucial step in sharing statistical information in a privacy preserving way. But while the focus has been on privacy guarantees, the resulting private synthetic data is only useful if it still carries statistical information from the original data. To further optimise the inherent trade-off between data privacy and data quality, it is necessary to think closely about the latter. What is it that data analysts want? Acknowledging that data quality is a subjective concept, we develop a framework to evaluate the quality of differentially private synthetic data from an applied researcher's perspective. Data quality can be measured along two dimensions. First, quality of synthetic data can be evaluated against training data or against an underlying population. Second, the quality of synthetic data depends on general similarity of distributions or specific tasks such as inference or prediction. It is clear that accommodating all goals at once is a formidable challenge. We invite the academic community to jointly advance the privacy-quality frontier.
翻訳日:2022-12-12 21:12:23 公開日:2021-10-01
# 旅行販売者問題のための旅行の多角的セットの展開

Evolving Diverse Sets of Tours for the Travelling Salesperson Problem ( http://arxiv.org/abs/2004.09188v2 )

ライセンス: Link先を確認
Anh Viet Do, Jakob Bossek, Aneta Neumann, Frank Neumann(参考訳) 近年,様々な高品質なソリューションが発展し,進化的計算文学への関心が高まっている。 本稿では,古典的トラベリングセールスパーソン問題(TSP)の進化的多様性最適化アプローチを検討することで,この研究領域に貢献する。 本研究は,あるツアーのセットに対して異なる多様性尺度を用いることによる影響と,これらの手法を採用する際の多様な高品質なソリューションを得るための進化的アルゴリズムの能力について検討する。 本研究は,多種多様な高品質ツアーを,我々のアプローチを用いて実現可能であることを示す。 さらに, 進化的多様性最適化アルゴリズムによって得られた, 理論的な性質と旅行の最終セットを比較検討した。

Evolving diverse sets of high quality solutions has gained increasing interest in the evolutionary computation literature in recent years. With this paper, we contribute to this area of research by examining evolutionary diversity optimisation approaches for the classical Traveling Salesperson Problem (TSP). We study the impact of using different diversity measures for a given set of tours and the ability of evolutionary algorithms to obtain a diverse set of high quality solutions when adopting these measures. Our studies show that a large variety of diverse high quality tours can be achieved by using our approaches. Furthermore, we compare our approaches in terms of theoretical properties and the final set of tours obtained by the evolutionary diversity optimisation algorithm.
翻訳日:2022-12-11 18:11:38 公開日:2021-10-01
# VPR-Bench: 定量的視点と外観変化を備えたオープンソースの視覚的位置認識評価フレームワーク

VPR-Bench: An Open-Source Visual Place Recognition Evaluation Framework with Quantifiable Viewpoint and Appearance Change ( http://arxiv.org/abs/2005.08135v2 )

ライセンス: Link先を確認
Mubariz Zaffar and Sourav Garg and Michael Milford and Julian Kooij and David Flynn and Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 視覚位置認識(英: visual place recognition、vpr)は、視覚情報を用いて、しばしば様々な外観条件や視点の変化や計算上の制約の下で、以前訪れた場所を認識する過程である。 vprは、ローカライズ、ループクロージャ、画像検索の概念と関連しており、自動運転車からドローン、コンピュータビジョンシステムまで、多くの自律ナビゲーションシステムの重要な要素である。 場所認識の概念は長年にわたって存在してきたが、カメラハードウェアの改良とディープラーニング技術の可能性により、VPRの研究はここ10年間で急速に成長し、コンピュータビジョンとロボティクスのコミュニティの両方で広く研究されている。 しかし、この成長は、特に性能評価に関する分野での断片化と標準化の欠如につながった。 さらに、vpr技術の視点と照明不変性の概念は、過去には質的かつ曖昧に評価されてきた。 本稿では,VPR技術の性能を評価するためのオープンソースフレームワーク「VPR-Bench」を通じて,これらのギャップに対処する。 VPR-Bench(オープンソース:https://github.com/MubarizZaffar/VPR-Bench)は、VPR研究者に最も必要とされている2つの機能を紹介している。 コンピュータビジョンとロボティクスの両コミュニティから、VPRの一般的な評価基準を適用し、分析し、基礎となるアプリケーションやシステム要件に応じて、これらのメトリクスが相互に補完し、置き換える方法について論じる。

Visual Place Recognition (VPR) is the process of recognising a previously visited place using visual information, often under varying appearance conditions and viewpoint changes and with computational constraints. VPR is related to the concepts of localisation, loop closure, image retrieval and is a critical component of many autonomous navigation systems ranging from autonomous vehicles to drones and computer vision systems. While the concept of place recognition has been around for many years, VPR research has grown rapidly as a field over the past decade due to improving camera hardware and its potential for deep learning-based techniques, and has become a widely studied topic in both the computer vision and robotics communities. This growth however has led to fragmentation and a lack of standardisation in the field, especially concerning performance evaluation. Moreover, the notion of viewpoint and illumination invariance of VPR techniques has largely been assessed qualitatively and hence ambiguously in the past. In this paper, we address these gaps through a new comprehensive open-source framework for assessing the performance of VPR techniques, dubbed "VPR-Bench". VPR-Bench (Open-sourced at: https://github.com/MubarizZaffar/VPR-Bench) introduces two much-needed capabilities for VPR researchers: firstly, it contains a benchmark of 12 fully-integrated datasets and 10 VPR techniques, and secondly, it integrates a comprehensive variation-quantified dataset for quantifying viewpoint and illumination invariance. We apply and analyse popular evaluation metrics for VPR from both the computer vision and robotics communities, and discuss how these different metrics complement and/or replace each other, depending upon the underlying applications and system requirements.
翻訳日:2022-12-02 05:34:31 公開日:2021-10-01
# 繰り返しニューラルネットワークとしての隠れマルコフモデル-アルツハイマー病への応用

Hidden Markov models as recurrent neural networks: an application to Alzheimer's disease ( http://arxiv.org/abs/2006.03151v4 )

ライセンス: Link先を確認
Matt Baucum, Anahita Khojandi, Theodore Papamarkou(参考訳) 隠れマルコフモデル(HMM)は、真の患者の健康状態が完全には分かっていないときに、疾患進行モデリングに一般的に使用される。 HMMは一般に複数の局所最適値を持つため、追加の患者共変分を組み込むことでパラメータ推定と予測性能が向上する。 これを可能にするために,隠れマルコフ再帰ニューラルネットワーク(HMRNN)を開発した。これは,ニューラルネットワークの柔軟性とHMMの解釈可能性を組み合わせた,リカレントニューラルネットワークの特殊な例である。 HMRNNは、同一の仮説関数とパラメータ解釈を持つ標準的なHMMに還元できるが、HMMと他の予測ニューラルネットワークを組み合わせて、患者情報を入力として取ることもできる。 HMRNNは勾配降下によって全てのパラメータを同時に推定する。 アルツハイマー病患者のデータセットを用いて、HMRNNがHMMと他の予測ニューラルネットワークを組み合わせることで、疾患予測を改善し、予測最大化によってトレーニングされた標準HMMと比較して、新しい臨床解釈を提供する方法を示す。

Hidden Markov models (HMMs) are commonly used for disease progression modeling when the true patient health state is not fully known. Since HMMs typically have multiple local optima, incorporating additional patient covariates can improve parameter estimation and predictive performance. To allow for this, we develop hidden Markov recurrent neural networks (HMRNNs), a special case of recurrent neural networks that combine neural networks' flexibility with HMMs' interpretability. The HMRNN can be reduced to a standard HMM, with an identical likelihood function and parameter interpretations, but it can also combine an HMM with other predictive neural networks that take patient information as input. The HMRNN estimates all parameters simultaneously via gradient descent. Using a dataset of Alzheimer's disease patients, we demonstrate how the HMRNN can combine an HMM with other predictive neural networks to improve disease forecasting and to offer a novel clinical interpretation compared with a standard HMM trained via expectation-maximization.
翻訳日:2022-11-25 09:51:38 公開日:2021-10-01
# シーングラフ予測のための生成的構成拡張

Generative Compositional Augmentations for Scene Graph Prediction ( http://arxiv.org/abs/2007.05756v3 )

ライセンス: Link先を確認
Boris Knyazev, Harm de Vries, C\u{a}t\u{a}lina Cangea, Graham W. Taylor, Aaron Courville, Eugene Belilovsky(参考訳) 画像から物体とその関係をシーングラフとして推測することは、視覚と言語の交点にある多くのアプリケーションで有用である。 本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。 現在のシーングラフ生成モデルは、例えば<cup, on, table>のような最も頻繁な構成に対応する分布のごく一部に基づいて訓練される。 しかし,テスト画像には<cup, on, surf>など,オブジェクトとリレーションシップのゼロショットとマイショットの合成が含まれている可能性がある。 対象のカテゴリと述語(例えば'on')が訓練データに頻繁に含まれているにもかかわらず、モデルはしばしばそのような見当たらない、または稀な構成を適切に理解できていない。 一般化を改善するために、訓練分布の多様性を増大させることが自然である。 しかし、グラフ領域ではこれは自明ではない。 そこで本研究では,リアルグラフを摂動することで,希少かつ可塑性なシーングラフを合成する手法を提案する。 次に,条件付き生成逆数ネットワーク(GAN)に基づくモデルを提案し,実験的に研究し,乱れたシーングラフの視覚的特徴を生成し,それらを共同で学習する。 Visual Genomeデータセットで評価すると、我々のアプローチはゼロショットと少数ショットのメトリクスを極端に改善するが、一貫した改善をもたらす。 今後の研究に期待できる方向性を示すアプローチの限界を分析する。

Inferring objects and their relationships from an image in the form of a scene graph is useful in many applications at the intersection of vision and language. We consider a challenging problem of compositional generalization that emerges in this task due to a long tail data distribution. Current scene graph generation models are trained on a tiny fraction of the distribution corresponding to the most frequent compositions, e.g. <cup, on, table>. However, test images might contain zero- and few-shot compositions of objects and relationships, e.g. <cup, on, surfboard>. Despite each of the object categories and the predicate (e.g. 'on') being frequent in the training data, the models often fail to properly understand such unseen or rare compositions. To improve generalization, it is natural to attempt increasing the diversity of the training distribution. However, in the graph domain this is non-trivial. To that end, we propose a method to synthesize rare yet plausible scene graphs by perturbing real ones. We then propose and empirically study a model based on conditional generative adversarial networks (GANs) that allows us to generate visual features of perturbed scene graphs and learn from them in a joint fashion. When evaluated on the Visual Genome dataset, our approach yields marginal, but consistent improvements in zero- and few-shot metrics. We analyze the limitations of our approach indicating promising directions for future research.
翻訳日:2022-11-11 12:49:30 公開日:2021-10-01
# 正規化された線形オートエンコーダは、最終的に主成分を回復する

Regularized linear autoencoders recover the principal components, eventually ( http://arxiv.org/abs/2007.06731v2 )

ライセンス: Link先を確認
Xuchan Bao, James Lucas, Sushant Sachdeva, Roger Grosse(参考訳) 近年,ニューラルネットワークによる入力-出力関係の理解は急速に向上しているが,線形オートエンコーダ(LAE)の単純な場合においても,基礎となる表現の収束についてはほとんど分かっていない。 適切な正規化で訓練すると、RAEは順序付けられた軸整列主成分の最適な表現を直接学習できることを示す。 非一様$\ell_2$正規化とネストしたドロップアウトの決定論的変種 [rippel et al, icml' 2014] を解析した。 どちらの正規化スキームも最適表現に収束するが、この収束は潜伏次元の増加に伴って悪化する条件条件のため遅い。 最適な表現を学ぶことの非効率さは避けられないことを示し、勾配降下更新に簡単な修正を加え、経験的収束を大幅にスピードアップさせる。

Our understanding of learning input-output relationships with neural nets has improved rapidly in recent years, but little is known about the convergence of the underlying representations, even in the simple case of linear autoencoders (LAEs). We show that when trained with proper regularization, LAEs can directly learn the optimal representation -- ordered, axis-aligned principal components. We analyze two such regularization schemes: non-uniform $\ell_2$ regularization and a deterministic variant of nested dropout [Rippel et al, ICML' 2014]. Though both regularization schemes converge to the optimal representation, we show that this convergence is slow due to ill-conditioning that worsens with increasing latent dimension. We show that the inefficiency of learning the optimal representation is not inevitable -- we present a simple modification to the gradient descent update that greatly speeds up convergence empirically.
翻訳日:2022-11-10 23:15:49 公開日:2021-10-01
# 野生マルチメディアの家族:親族認識のためのマルチモーダルデータベース

Families In Wild Multimedia: A Multimodal Database for Recognizing Kinship ( http://arxiv.org/abs/2007.14509v6 )

ライセンス: Link先を確認
Joseph P. Robinson, Zaid Khan, Yu Yin, Ming Shao, Yun Fu(参考訳) Kinshipは、メディアで検出可能な軟式バイオメトリックーであり、無数のユースケースに基本である。 親族関係を検出することの難しさにもかかわらず、静止画像を用いた年次データ課題は一貫してパフォーマンスを改善し、新しい研究者を惹きつけた。 現在、システムは10年前に予期せぬパフォーマンスレベルに達しており、実際にデプロイできるパフォーマンスを閉じています。 他のバイオメトリックタスクと同様に、システムは他のモダリティから助けを受けることができると期待しています。 静止画像のみを持つFIWにモダリティを加えることで性能が向上すると仮定する。 したがって、研究と現実の間のギャップを狭め、キンシップ認識システムのパワーを高めるために、fiwをマルチメディアデータ(すなわち、ビデオ、オーディオ、テキストキャプション)で拡張する。 具体的には、初めて公開されたマルチタスクmm kinshipデータセットを紹介します。 FIW MMを構築するために,人間の入力が最小限で費用がかからないデータを自動的に収集,注釈,作成する装置を開発した。 提案したMMコーパスにより,問題文をよりリアルなテンプレートベースのプロトコルにすることができる。 追加のモダリティにより,すべてのベンチマークで大幅な改善が見られた。 結果は、異なる改善領域で将来の研究を刺激するエッジケースを強調する。 FIW MMは、MMの親交を検出する自動化システムの可能性を高めるために必要なデータを提供する。 また、様々な分野の専門家が新しい方法で協力できる。

Kinship, a soft biometric detectable in media, is fundamental for a myriad of use-cases. Despite the difficulty of detecting kinship, annual data challenges using still-images have consistently improved performances and attracted new researchers. Now, systems reach performance levels unforeseeable a decade ago, closing in on performances acceptable to deploy in practice. Like other biometric tasks, we expect systems can receive help from other modalities. We hypothesize that adding modalities to FIW, which has only still-images, will improve performance. Thus, to narrow the gap between research and reality and enhance the power of kinship recognition systems, we extend FIW with multimedia (MM) data (i.e., video, audio, and text captions). Specifically, we introduce the first publicly available multi-task MM kinship dataset. To build FIW MM, we developed machinery to automatically collect, annotate, and prepare the data, requiring minimal human input and no financial cost. The proposed MM corpus allows the problem statements to be more realistic template-based protocols. We show significant improvements in all benchmarks with the added modalities. The results highlight edge cases to inspire future research with different areas of improvement. FIW MM supplies the data needed to increase the potential of automated systems to detect kinship in MM. It also allows experts from diverse fields to collaborate in novel ways.
翻訳日:2022-11-06 02:38:05 公開日:2021-10-01
# 階層型ニューラルレンダリングによる動画の人物推定

Layered Neural Rendering for Retiming People in Video ( http://arxiv.org/abs/2009.07833v2 )

ライセンス: Link先を確認
Erika Lu, Forrester Cole, Tali Dekel, Weidi Xie, Andrew Zisserman, David Salesin, William T. Freeman, Michael Rubinstein(参考訳) そこで本研究では,通常の自然映像において,映像中の個人の動きの異なる時刻を操作・編集する手法を提案する。 異なる動きを時間的に調整したり、特定のアクションの速度を変えたり(スピードを上げたり下げたり、完全に「凍らせたり」したり)、ビデオから選択した人々を"erase"にしたりできます。 ビデオ内の各フレームを別々のRGBA層に分解し、ビデオ内の異なる人物の外観を表現する。 私たちのモデルの重要な特性は、入力されたビデオ内の各人の直接動作を乱すだけでなく、それぞれの人物が生成するシーンの変化(影、反射、ゆるい衣服の動作など)と自動的に関連付けることです。 レイヤーを個別にリタイムし、新しいビデオに再結合することで、複雑なアクションを描写した実世界のビデオのリアルで高品質なリモーティング効果のレンダリングを実現し、ダンス、トランポリンジャンプ、グループランニングを含む複数の個人を巻き込むことができます。

We present a method for retiming people in an ordinary, natural video -- manipulating and editing the time in which different motions of individuals in the video occur. We can temporally align different motions, change the speed of certain actions (speeding up/slowing down, or entirely "freezing" people), or "erase" selected people from the video altogether. We achieve these effects computationally via a dedicated learning-based layered video representation, where each frame in the video is decomposed into separate RGBA layers, representing the appearance of different people in the video. A key property of our model is that it not only disentangles the direct motions of each person in the input video, but also correlates each person automatically with the scene changes they generate -- e.g., shadows, reflections, and motion of loose clothing. The layers can be individually retimed and recombined into a new video, allowing us to achieve realistic, high-quality renderings of retiming effects for real-world videos depicting complex actions and involving multiple individuals, including dancing, trampoline jumping, or group running.
翻訳日:2022-10-18 00:48:03 公開日:2021-10-01
# aegd:エネルギーによる適応勾配降下

AEGD: Adaptive Gradient Descent with Energy ( http://arxiv.org/abs/2010.05109v2 )

ライセンス: Link先を確認
Hailiang Liu and Xuping Tian(参考訳) 動的に更新されたエネルギー変数に基づく非凸目的関数の1次勾配に基づく最適化アルゴリズムであるAEGDを提案する。 この方法は、ステップサイズに関係なく、無条件にエネルギー安定であることが示されている。 AEGDの非凸と凸の両目標に対するエネルギー依存収束率を証明し, バッチ勾配降下に対する所望の収束率を適宜小さいステップサイズで回収する。 また、確率的非凸設定におけるAEGDの定常収束にエネルギー依存的境界を与える。 このメソッドは実装が簡単で、ハイパーパラメータのチューニングがほとんど必要ありません。 実験結果から,AEGDは初期データに対して頑健であり,初期処理を迅速に行うことができるという,様々な最適化問題に対して有効であることが示された。 確率的AIGDは、ディープニューラルネットワークの運動量を持つSGDと同等で、しばしばより良い一般化性能を示す。

We propose AEGD, a new algorithm for first-order gradient-based optimization of non-convex objective functions, based on a dynamically updated energy variable. The method is shown to be unconditionally energy stable, irrespective of the step size. We prove energy-dependent convergence rates of AEGD for both non-convex and convex objectives, which for a suitably small step size recovers desired convergence rates for the batch gradient descent. We also provide an energy-dependent bound on the stationary convergence of AEGD in the stochastic non-convex setting. The method is straightforward to implement and requires little tuning of hyper-parameters. Experimental results demonstrate that AEGD works well for a large variety of optimization problems: it is robust with respect to initial data, capable of making rapid initial progress. The stochastic AEGD shows comparable and often better generalization performance than SGD with momentum for deep neural networks.
翻訳日:2022-10-08 23:03:06 公開日:2021-10-01
# エンド・ツー・エンドトレーニングによるニューラルネットワークのコンパクト化:自動ランク決定によるベイズテンソルアプローチ

Towards Compact Neural Networks via End-to-End Training: A Bayesian Tensor Approach with Automatic Rank Determination ( http://arxiv.org/abs/2010.08689v3 )

ライセンス: Link先を確認
Cole Hawkins, Xing Liu, Zheng Zhang(参考訳) トレーニング後のモデル圧縮はディープニューラルネットワークの推論コストを大幅に削減するが、非圧縮トレーニングは依然として膨大なハードウェアリソース、実行時間、エネルギーを消費する。 少ないメモリと低い計算コストで、コンパクトニューラルネットワークをスクラッチから直接トレーニングすることが非常に望ましい。 低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。 しかしながら、低ランクのテンソル化ニューラルネットワークを直接トレーニングするのは、トレーニングプロセスにおけるモデル複雑性と圧縮比を制御する適切なテンソルランクを決定することが難しいため、非常に難しい作業である。 本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。 まず、ニューラルネットワークパラメータをトレーニング時に圧縮する様々な低ランクテンソル形式(CP、タッカー、テンソルトレイン、テンソルトレインマトリックスなど)を扱える柔軟なベイズモデルを開発する。 このモデルは、既存のベイズテンソル法の能力を超える非線形フォワードモデル内のテンソルランクを自動的に決定することができる。 さらに,大規模問題の後方密度を推定するために,スケーラブルな確率変動推論法を開発した。 我々の研究は、エンドツーエンドのテンソル化トレーニングのための、初めての汎用的なランク適応フレームワークを提供する。 様々なニューラルネットワークアーキテクチャにおける数値計算結果から,学習過程において桁違いなパラメータ低減と精度の低下(あるいは精度向上)がみられた。 特に、4.2\times 10^9$モデルパラメータを超える非常に大きなディープラーニング推奨システムでは、トレーニングプロセスで自動的に変数を1.6\times 10^5$に減らすことができる(つまり、2.6\times 10^4$ times)。

While post-training model compression can greatly reduce the inference cost of a deep neural network, uncompressed training still consumes a huge amount of hardware resources, run-time and energy. It is highly desirable to directly train a compact neural network from scratch with low memory and low computational cost. Low-rank tensor decomposition is one of the most effective approaches to reduce the memory and computing requirements of large-size neural networks. However, directly training a low-rank tensorized neural network is a very challenging task because it is hard to determine a proper tensor rank {\it a priori}, which controls the model complexity and compression ratio in the training process. This paper presents a novel end-to-end framework for low-rank tensorized training of neural networks. We first develop a flexible Bayesian model that can handle various low-rank tensor formats (e.g., CP, Tucker, tensor train and tensor-train matrix) that compress neural network parameters in training. This model can automatically determine the tensor ranks inside a nonlinear forward model, which is beyond the capability of existing Bayesian tensor methods. We further develop a scalable stochastic variational inference solver to estimate the posterior density of large-scale problems in training. Our work provides the first general-purpose rank-adaptive framework for end-to-end tensorized training. Our numerical results on various neural network architectures show orders-of-magnitude parameter reduction and little accuracy loss (or even better accuracy) in the training process. Specifically, on a very large deep learning recommendation system with over $4.2\times 10^9$ model parameters, our method can reduce the variables to only $1.6\times 10^5$ automatically in the training process (i.e., by $2.6\times 10^4$ times) while achieving almost the same accuracy.
翻訳日:2022-10-06 09:11:04 公開日:2021-10-01
# オンデマンド交通サービスのための解釈可能なデータ駆動需要モデリング

Interpretable Data-Driven Demand Modelling for On-Demand Transit Services ( http://arxiv.org/abs/2010.15673v3 )

ライセンス: Link先を確認
Nael Alsaleh and Bilal Farooq(参考訳) 近年、情報通信技術の進歩に伴い、オンデマンド交通(ODT)、モビリティオンデマンド交通(MOD)、クラウドソーシングモビリティサービスといった低密度領域における革新的なソリューションとして、新たなオンデマンド共有モビリティサービスが導入されている。 しかし、その幼少期のため、これらのサービスの需要を理解し、モデル化する必要がある。 本研究では、4つの機械学習アルゴリズム(ランダムフォレスト(RF)、バギング、人工ニューラルネットワーク(ANN)、ディープニューラルネットワーク(DNN))を用いて、分散領域(DA)レベルでのODTサービスの旅行生成と配信モデルを開発した。 モデリングプロセスで使用されるデータは、ベルヴィルのODT運用データと2016年の国勢調査データから取得された。 ベイズ最適化アプローチは、採用アルゴリズムの最適アーキテクチャを見つけるために用いられた。 さらに,ポストホックモデルを用いて予測を解釈し,説明変数の重要性を検討した。 その結果, 土地利用型は旅行生産モデルにおいて最も重要な変数であった。 一方,旅行目的地の人口統計特性は旅行分布モデルにおいて最も重要な変数であった。 さらに, 商業・工業用地利用型と高密度住宅用地利用型との間には, より高い旅行分布レベルが期待できることがわかった。 以上の結果から, ODT サービスの性能をさらに向上できる可能性が示唆された。 (a)商業・工業用土地利用及び周辺におけるアイドル車両の配置 b) 本研究で得られた時空間需要モデルを用いて、運用車両の規模を継続的に更新する。

In recent years, with the advancements in information and communication technology, different emerging on-demand shared mobility services have been introduced as innovative solutions in the low-density areas, including on-demand transit (ODT), mobility on-demand (MOD) transit, and crowdsourced mobility services. However, due to their infancy, there is a strong need to understand and model the demand for these services. In this study, we developed trip production and distribution models for ODT services at Dissemination areas (DA) level using four machine learning algorithms: Random Forest (RF), Bagging, Artificial Neural Network (ANN) and Deep Neural Network (DNN). The data used in the modelling process were acquired from Belleville's ODT operational data and 2016 census data. Bayesian optimalization approach was used to find the optimal architecture of the adopted algorithms. Moreover, post-hoc model was employed to interpret the predictions and examine the importance of the explanatory variables. The results showed that the land-use type was the most important variable in the trip production model. On the other hand, the demographic characteristics of the trip destination were the most important variables in the trip distribution model. Moreover, the results revealed that higher trip distribution levels are expected between dissemination areas with commercial/industrial land-use type and dissemination areas with high-density residential land-use. Our findings suggest that the performance of ODT services can be further enhanced by (a) locating idle vehicles in the neighbourhoods with commercial/industrial land-use and (b) using the spatio-temporal demand models obtained in this work to continuously update the operating fleet size.
翻訳日:2022-10-02 13:19:14 公開日:2021-10-01
# エッジにおけるリアルタイム分散知識伝達

Real-Time Decentralized knowledge Transfer at the Edge ( http://arxiv.org/abs/2011.05961v4 )

ライセンス: Link先を確認
Orpaz Goldstein, Mohammad Kachuee, Derek Shiell, Majid Sarrafzadeh(参考訳) エッジネットワークの増殖は、ローカルなデータストリームを扱う学習エージェントの島を作り出します。 プライベートデータを公開せずにエージェント間の知識をリアルタイムで転送することで、学習時間を短縮し、モデルの信頼性を高めることができる。 ローカルモデルが見たことのないデータから知識を組み込むことで、ローカルモデルをデバイアスしたり、これまで見たことのないデータの分類能力を追加することができる。 知識を選択的に分散したアプローチに移すことで、モデルがローカルな洞察を保持し、機械学習モデルのローカルなフレーバーを可能にする。 このアプローチは、ローカルエッジノードが同様のデータに遭遇する可能性のある学習エージェントのコミュニティを提供するため、エッジネットワークの分散アーキテクチャに適合する。 そこで本研究では,非音声認識データを用いたモデルから,知識伝達パイプラインの知識蒸留を行い,他の一般的な知識伝達手法と比較する手法を提案する。 さらに,知識伝達ネットワーク構築の異なるシナリオを検証し,本手法の実用性を示す。 本実験は, 実時間転送シナリオにおいて, 標準手法よりも優れた知識伝達を示す。

The proliferation of edge networks creates islands of learning agents working on local streams of data. Transferring knowledge between these agents in real-time without exposing private data allows for collaboration to decrease learning time and increase model confidence. Incorporating knowledge from data that a local model did not see creates an ability to debias a local model or add to classification abilities on data never before seen. Transferring knowledge in a selective decentralized approach enables models to retain their local insights, allowing for local flavors of a machine learning model. This approach suits the decentralized architecture of edge networks, as a local edge node will serve a community of learning agents that will likely encounter similar data. We propose a method based on knowledge distillation for pairwise knowledge transfer pipelines from models trained on non-i.i.d. data and compare it to other popular knowledge transfer methods. Additionally, we test different scenarios of knowledge transfer network construction and show the practicality of our approach. Our experiments show knowledge transfer using our model outperforms standard methods in a real-time transfer scenario.
翻訳日:2022-09-27 00:34:51 公開日:2021-10-01
# (参考訳) バイオメディカル領域における意味的類似性推定のためのニューラル文埋め込みモデル

Neural sentence embedding models for semantic similarity estimation in the biomedical domain ( http://arxiv.org/abs/2110.15708v1 )

ライセンス: CC BY 4.0
Kathrin Blagec, Hong Xu, Asan Agibetov, Matthias Samwald(参考訳) BACKGROUND: 本研究は, 生物医学文献からの文の意味的類似性推定のための, 最先端のニューラル文埋め込みモデルの有効性を検討した。 PubMed Open Accessデータセットから170万記事の異なるニューラルネットワーク埋め込みモデルをトレーニングし、人間の専門家が注釈付けした100の文対と、元のベンチマークセットから派生した小さな矛盾部分からなるバイオメディカルベンチマークセットに基づいて評価した。 結果: pearson相関は0.819であり, パラグラフベクトル分散メモリアルゴリズムに基づく最善の教師なしモデルは, biossのバイオメディカルベンチマークで得られた先行研究結果よりも優れていた。 さらに,Pearson's r (r=0.871) on the biomedical benchmark setにおいて,異なる文字列ベース類似度指標とニューラル埋め込みモデルを組み合わせた教師付きモデルを提案する。 オリジナルのベンチマークの有望な結果とは対照的に、より小さな矛盾部分集合での最高のモデルのパフォーマンスは貧弱であることが分かりました。 結論:本研究では,生物医学領域における意味的類似度推定のためのニューラルネットワークベースのモデルの価値を強調し,バイオメディカル・ベンチマーク・セットで評価した場合に,精査されたオントロジの可用性に依存する,従来の意味的類似度推定手法に追随し,さらにそれを超えることができることを示した。 しかし、生物医学的な文章の矛盾や否定を捉えることは、さらなる研究に欠かせない領域として現れた。

BACKGROUND: In this study, we investigated the efficacy of current state-of-the-art neural sentence embedding models for semantic similarity estimation of sentences from biomedical literature. We trained different neural embedding models on 1.7 million articles from the PubMed Open Access dataset, and evaluated them based on a biomedical benchmark set containing 100 sentence pairs annotated by human experts and a smaller contradiction subset derived from the original benchmark set. RESULTS: With a Pearson correlation of 0.819, our best unsupervised model based on the Paragraph Vector Distributed Memory algorithm outperforms previous state-of-the-art results achieved on the BIOSSES biomedical benchmark set. Moreover, our proposed supervised model that combines different string-based similarity metrics with a neural embedding model surpasses previous ontology-dependent supervised state-of-the-art approaches in terms of Pearson's r (r=0.871) on the biomedical benchmark set. In contrast to the promising results for the original benchmark, we found our best models' performance on the smaller contradiction subset to be poor. CONCLUSIONS: In this study we highlighted the value of neural network-based models for semantic similarity estimation in the biomedical domain by showing that they can keep up with and even surpass previous state-of-the-art approaches for semantic similarity estimation that depend on the availability of laboriously curated ontologies when evaluated on a biomedical benchmark set. Capturing contradictions and negations in biomedical sentences, however, emerged as an essential area for further work.
翻訳日:2021-11-07 17:16:49 公開日:2021-10-01
# (参考訳) 認知情報通信のための自然計算アーキテクチャ

Natural Computational Architectures for Cognitive Info-Communication ( http://arxiv.org/abs/2110.06339v1 )

ライセンス: CC BY 4.0
Gordana Dodig-Crnkovic(参考訳) 認知アーキテクチャに関する40年間の研究の概観(Kotseruba と Tsotsos 2020)は、人間の中核的な認知能力のモデリングを評価するが、自然計算に基づく生物学的に妥当なアプローチには限界がある。 このミニレビューは、生物学的により現実的な認知アーキテクチャの開発に繋がる、生物学的にインスパイアされた最近の計算モデルの発展を形作る視点とアプローチのセットを提示する。 基礎細胞から人間レベルの認知まで、自然認知アーキテクチャの連続性を記述するために、自然・物理的・形態的計算がますます複雑な認知システムの進化につながる進化的情報計算の枠組みを用いる。 40年前、最初の認知アーキテクチャが提案されたとき、認知、体格、進化の理解は異なっていた。 情報物理学、バイオインフォマティクス、情報化学、計算神経科学、複雑性理論、自己組織化、進化論、情報および計算の分野の最先端であった。 新たな発展は、様々なレベルの組織構成員間の相互作用が、エージェンシーの複雑化と認知能力の増大につながる、コンピューティング自然の文脈における認知アーキテクチャのための建設的な学際的枠組みをサポートする。 我々は、自然における認知の理解を高め、認知技術の新たな発展を促すことができる、さらなる調査のための重要な研究課題をいくつか挙げる。 近年、基礎細胞認識は、医学、新しいコンピューティング技術、およびマイクロ・ナノロボット工学に応用される可能性があることで多くの関心を集めている。

Recent comprehensive overview of 40 years of research in cognitive architectures, (Kotseruba and Tsotsos 2020), evaluates modelling of the core cognitive abilities in humans, but only marginally addresses biologically plausible approaches based on natural computation. This mini review presents a set of perspectives and approaches which have shaped the development of biologically inspired computational models in the recent past that can lead to the development of biologically more realistic cognitive architectures. For describing continuum of natural cognitive architectures, from basal cellular to human-level cognition, we use evolutionary info-computational framework, where natural/ physical/ morphological computation leads to evolution of increasingly complex cognitive systems. Forty years ago, when the first cognitive architectures have been proposed, understanding of cognition, embodiment and evolution was different. So was the state of the art of information physics, bioinformatics, information chemistry, computational neuroscience, complexity theory, self-organization, theory of evolution, information and computation. Novel developments support a constructive interdisciplinary framework for cognitive architectures in the context of computing nature, where interactions between constituents at different levels of organization lead to complexification of agency and increased cognitive capacities. We identify several important research questions for further investigation that can increase understanding of cognition in nature and inspire new developments of cognitive technologies. Recently, basal cell cognition attracted a lot of interest for its possible applications in medicine, new computing technologies, as well as micro- and nanorobotics.
翻訳日:2021-10-17 15:54:48 公開日:2021-10-01
# (参考訳) 1つの時間ステップ:超低レイテンシでスパイクニューラルネットワークを訓練する

One Timestep is All You Need: Training Spiking Neural Networks with Ultra Low Latency ( http://arxiv.org/abs/2110.05929v1 )

ライセンス: CC BY 4.0
Sayeed Shafayet Chowdhury, Nitin Rathi and Kaushik Roy(参考訳) スパイキングニューラルネットワーク(SNN)は、一般的に使用されるディープニューラルネットワーク(DNN)のエネルギー効率の良い代替手段である。 イベント駆動の情報処理により、SNNはDNNの高価な計算要求を大幅に削減し、同等のパフォーマンスを実現する。 しかし、高い推論レイテンシは、ディープSNNのエッジ展開に重大な障害となる。 複数の時間ステップでの計算によってレイテンシが増大するだけでなく、オペレーション数の増加による全体のエネルギー予算が増大するだけでなく、膜電位をフェッチするメモリアクセスのオーバーヘッドが発生し、snsのエネルギー効率が低下する。 このボトルネックを克服し、SNNの潜在能力を最大限活用するために、時間軸での単発推論を行うために、SNNの反復初期化と再学習法を提案する。 このメソッドは、TタイムステップでトレーニングされたSNN(T>1)から始まる。 そして、遅延低減の各段階において、より高い時間ステップでトレーニングされた前段階のネットワークを、低時間ステップでトレーニングを行うための初期化として利用する。 これは、ネットワークが時間領域で徐々に縮小するため、圧縮方法として機能する。 本稿では、直接入力エンコーディングを用いてt=5を選択する。文献によれば、imagenetで十分な性能を達成するのに必要な遅延は最小である。 提案手法により,単体待ち時間でSNNを得ることができ,推論中に1つの前方通過が必要となる。 vgg16を用いたcifar-10,cifar-100,imagenetでは,トップ1の精度が93.05%,70.15%,67.71%であった。 さらに、IIR-SNNは、他の最先端のSNNと比較して5-2500倍のレイテンシで推論を行い、同等かそれ以上の精度を維持している。 さらに、標準のDNNと比較して、提案したIIR-SNNは25-33倍のエネルギー効率を提供するが、分類性能は同等である。

Spiking Neural Networks (SNNs) are energy efficient alternatives to commonly used deep neural networks (DNNs). Through event-driven information processing, SNNs can reduce the expensive compute requirements of DNNs considerably, while achieving comparable performance. However, high inference latency is a significant hindrance to the edge deployment of deep SNNs. Computation over multiple timesteps not only increases latency as well as overall energy budget due to higher number of operations, but also incurs memory access overhead of fetching membrane potentials, both of which lessen the energy benefits of SNNs. To overcome this bottleneck and leverage the full potential of SNNs, we propose an Iterative Initialization and Retraining method for SNNs (IIR-SNN) to perform single shot inference in the temporal axis. The method starts with an SNN trained with T timesteps (T>1). Then at each stage of latency reduction, the network trained at previous stage with higher timestep is utilized as initialization for subsequent training with lower timestep. This acts as a compression method, as the network is gradually shrunk in the temporal domain. In this paper, we use direct input encoding and choose T=5, since as per literature, it is the minimum required latency to achieve satisfactory performance on ImageNet. The proposed scheme allows us to obtain SNNs with up to unit latency, requiring a single forward pass during inference. We achieve top-1 accuracy of 93.05%, 70.15% and 67.71% on CIFAR-10, CIFAR-100 and ImageNet, respectively using VGG16, with just 1 timestep. In addition, IIR-SNNs perform inference with 5-2500X reduced latency compared to other state-of-the-art SNNs, maintaining comparable or even better accuracy. Furthermore, in comparison with standard DNNs, the proposed IIR-SNNs provide25-33X higher energy efficiency, while being comparable to them in classification performance.
翻訳日:2021-10-17 15:36:30 公開日:2021-10-01
# (参考訳) jesterデータセットのクラスタ分析:レビュー

Cluster Analysis on Jester Dataset: A Review ( http://arxiv.org/abs/2110.02740v1 )

ライセンス: CC BY-SA 4.0
Navoneel Chakrabarty(参考訳) 非教師なし機械学習パラダイムは、ターゲットラベルやアノテーションが存在しないパターン認識タスクを前提として、依存する唯一の方法論であることが多い。 このようなシナリオでは、教師なしパラダイムが可能な限り完璧に動作するように、データ準備は実行すべき重要なステップである。 しかし、データセットの各インスタンスに十分なデータや不足データがない場合、データの準備自体が課題となる。 そのようなケーススタディの1つは、100のジョークのセットにジョークリーダーが与える評価値が欠けているjesterデータセットである。 このようなデータセット上でクラスタ分析を行うには、不足している評価値を適切な値で満たし、教師なしmlパラダイムを用いてクラスタ分析を行う必要がある。 本研究では、Jokes の Jester Dataset に関するクラスタ分析に関わる最も最近の研究をレビューし、修正と将来のスコープで検証する。

Unsupervised Machine Learning Paradigms are often the only methodology to rely on, given a Pattern Recognition Task with no target label or annotations being present. In such scenarios, data preparation is a crucial step to be performed so that the Unsupervised Paradigms work with as much perfection as possible. But, when there is no sufficient or missing data being present in each and every instance of a dataset, data preparation becomes a challenge itself. One such case-study is the Jester Dataset that has missing values which are basically ratings given by Joke-Readers to a specified set of 100 jokes. In order to perform a Cluster Analysis on such a dataset, the data preparation step should involve filling the missing ratings with appropriate values followed by cluster analysis using an Unsupervised ML Paradigm. In this study, the most recent and probably the only work that involves Cluster Analysis on the Jester Dataset of Jokes is reviewed and validated with corrections and future scope.
翻訳日:2021-10-10 11:55:26 公開日:2021-10-01
# コスト分子特性に対するサロゲート基ブラックボックス最適化法

Surrogate-Based Black-Box Optimization Method for Costly Molecular Properties ( http://arxiv.org/abs/2110.03522v1 )

ライセンス: Link先を確認
Jules Leguy, Thomas Cauchy, Beatrice Duval, Benoit Da Mota(参考訳) AIによる分子最適化は非常に活発な研究分野であり、次世代の医薬品や分子材料の提供が期待されている。 重要な困難は、最適化されるプロパティがコスト評価に依存することである。 機械学習手法はこれらの特性を予測するのに成功しているが、化学空間のあまり知られていない領域の一般化問題を示す。 そこで本研究では,サロゲートを用いたブラックボックス最適化手法を提案する。 進化的アルゴリズムを用いて分子特性のサロゲートの改善を最適化する。 シュロゲートはガウス過程回帰(GPR)モデルとして定義され、最適化されるプロパティに関して検索空間の関連領域で学習される。 提案手法は, 純粋にメタヒューリスティックなアプローチよりもはるかに高速に, 利害関係のコスト特性を最適化できることを示す。

AI-assisted molecular optimization is a very active research field as it is expected to provide the next-generation drugs and molecular materials. An important difficulty is that the properties to be optimized rely on costly evaluations. Machine learning methods are investigated with success to predict these properties, but show generalization issues on less known areas of the chemical space. We propose here a surrogate-based black box optimization method, to tackle jointly the optimization and machine learning problems. It consists in optimizing the expected improvement of the surrogate of a molecular property using an evolutionary algorithm. The surrogate is defined as a Gaussian Process Regression (GPR) model, learned on a relevant area of the search space with respect to the property to be optimized. We show that our approach can successfully optimize a costly property of interest much faster than a purely metaheuristic approach.
翻訳日:2021-10-10 09:17:18 公開日:2021-10-01
# (参考訳) CUDAにおける並列簡易Swarm最適化の実装

Implementation of Parallel Simplified Swarm Optimization in CUDA ( http://arxiv.org/abs/2110.01470v1 )

ライセンス: CC0 1.0
Wei-Chang Yeh, Zhenyao Liu, Shi-Yi Tan, Shang-Ke Huang(参考訳) グラフィックス処理ユニット(GPU)の取得コストが減少するにつれて、パーソナルコンピュータ(PC)が最適化問題に対処できるようになった。 最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。 しかし、GPUベースのSimplified Swarm Optimization Algorithmは提案されていない。 そこで本稿では,計算能力と汎用性を考慮したCUDAプラットフォームに基づくParallel Simplified Swarm Optimization (PSSO)を提案する。 PSSO では、フィットネス関数の時間複雑性の理論値は O (tNm) である。 t 反復と N 適合関数があり、それぞれが m 倍のペア比較を必要とする。 pBestsとgBestsは、以前の研究で更新する際に、リソースプリエンプションを持つ。 実験結果が示すように、時間複雑性はマグニチュードNの順に減少し、資源プリエンプションの問題は完全に回避された。

As the acquisition cost of the graphics processing unit (GPU) has decreased, personal computers (PC) can handle optimization problems nowadays. In optimization computing, intelligent swarm algorithms (SIAs) method is suitable for parallelization. However, a GPU-based Simplified Swarm Optimization Algorithm has never been proposed. Accordingly, this paper proposed Parallel Simplified Swarm Optimization (PSSO) based on the CUDA platform considering computational ability and versatility. In PSSO, the theoretical value of time complexity of fitness function is O (tNm). There are t iterations and N fitness functions, each of which required pair comparisons m times. pBests and gBest have the resource preemption when updating in previous studies. As the experiment results showed, the time complexity has successfully reduced by an order of magnitude of N, and the problem of resource preemption was avoided entirely.
翻訳日:2021-10-07 08:01:42 公開日:2021-10-01
# (参考訳) 人工ニューラルネットワークとその蒸留への応用研究の進展

Artificial Neural Network and its Application Research Progress in Distillation ( http://arxiv.org/abs/2110.01449v1 )

ライセンス: CC BY 4.0
Jing Sun, Qi Tang(参考訳) ニューラルネットワークは様々な規則やアルゴリズムを学び、様々な方法で情報を処理し、様々な化学プロセスで広く使われている。 このうち、整流化技術の発展により、その生産規模は拡大し続け、計算要件も厳密であり、ニューラルネットワークは自己学習、連想記憶、最適化解の高速探索の利点があるため、整流処理のための高精度シミュレーション予測が可能となり、整流化化学分野で広く用いられている。 本稿では,人工ニューラルネットワークの基礎的概要を説明し,国内外の蒸留における人工ニューラルネットワークの応用研究について紹介する。

Artificial neural networks learn various rules and algorithms to form different ways of processing information, and have been widely used in various chemical processes. Among them, with the development of rectification technology, its production scale continues to expand, and its calculation requirements are also more stringent, because the artificial neural network has the advantages of self-learning, associative storage and high-speed search for optimized solutions, it can make high-precision simulation predictions for rectification operations, so it is widely used in the chemical field of rectification. This article gives a basic overview of artificial neural networks, and introduces the application research of artificial neural networks in distillation at home and abroad.
翻訳日:2021-10-07 07:51:19 公開日:2021-10-01
# (参考訳) ニューラル常微分方程式を用いた辞書学習による拡張動的モード分解

Extended dynamic mode decomposition with dictionary learning using neural ordinary differential equations ( http://arxiv.org/abs/2110.01450v1 )

ライセンス: CC BY 4.0
Hiroaki Terao, Sho Shirasaka and Hideyuki Suzuki(参考訳) 非線形現象は作用素理論のアプローチを用いて線形手法で解析することができる。 非線形現象に付随するクープマン作用素を近似した拡張動的モード分解法(EDMD)とその変種は,機械学習を応用して急速に発展してきた。 階層の連続体を持ち、パラメータとメモリ効率が高いニューラルネットワークであるニューラル常微分方程式(ノード)が提案されている。 本論文では,NODEを用いてEDMDを実行するアルゴリズムを提案する。 NODE は、クープマン作用素のよい有限次元近似を提供するパラメータ係数辞書を見つけるために用いられる。 数値実験により,提案手法のパラメータ効率が優れていることを示す。

Nonlinear phenomena can be analyzed via linear techniques using operator-theoretic approaches. Data-driven method called the extended dynamic mode decomposition (EDMD) and its variants, which approximate the Koopman operator associated with the nonlinear phenomena, have been rapidly developing by incorporating machine learning methods. Neural ordinary differential equations (NODEs), which are a neural network equipped with a continuum of layers, and have high parameter and memory efficiencies, have been proposed. In this paper, we propose an algorithm to perform EDMD using NODEs. NODEs are used to find a parameter-efficient dictionary which provides a good finite-dimensional approximation of the Koopman operator. We show the superiority of the parameter efficiency of the proposed method through numerical experiments.
翻訳日:2021-10-07 07:44:52 公開日:2021-10-01
# (参考訳) 最適輸送によるラベル伝播

Label Propagation Through Optimal Transport ( http://arxiv.org/abs/2110.01446v1 )

ライセンス: CC BY 4.0
Mourad El Hamri, Youn\`es Bennani, Issam Falih(参考訳) 本稿では,vapnikの原理に従って与えられたラベルなしデータポイントのラベル予測を得ることを目的とした,半教師付き半教師あり学習問題に取り組む。 提案手法は,様々な機械学習問題に対処するための数学的理論である最適輸送に基づいており,半教師付き学習コミュニティに新たな関心を集め始めている。 提案手法である Optimal Transport Propagation (OTP) は、ラベル付きデータとラベル付きデータに定義された経験的測度間の最適な輸送計画から親和性行列を構築した完全二部グラフのエッジを通るラベル伝搬をインクリメンタルなプロセスで行う。 OTPはシャノンのエントロピーに基づく確実性スコアを用いて伝播過程を制御することにより高い予測精度を確保する。 また,アルゴリズムの収束解析も提供する。 実験タスクは、最先端技術に対する提案手法の優位性を示す。 コードを公開しています。

In this paper, we tackle the transductive semi-supervised learning problem that aims to obtain label predictions for the given unlabeled data points according to Vapnik's principle. Our proposed approach is based on optimal transport, a mathematical theory that has been successfully used to address various machine learning problems, and is starting to attract renewed interest in semi-supervised learning community. The proposed approach, Optimal Transport Propagation (OTP), performs in an incremental process, label propagation through the edges of a complete bipartite edge-weighted graph, whose affinity matrix is constructed from the optimal transport plan between empirical measures defined on labeled and unlabeled data. OTP ensures a high degree of predictions certitude by controlling the propagation process using a certainty score based on Shannon's entropy. We also provide a convergence analysis of our algorithm. Experiments task show the superiority of the proposed approach over the state-of-the-art. We make our code publicly available.
翻訳日:2021-10-07 07:32:39 公開日:2021-10-01
# (参考訳) オートエンコーダ再構成と異常検出を用いたリアルタイム予測メンテナンス

Real-Time Predictive Maintenance using Autoencoder Reconstruction and Anomaly Detection ( http://arxiv.org/abs/2110.01447v1 )

ライセンス: CC BY 4.0
Sean Givnan, Carl Chalmers, Paul Fergus, Sandra Ortega and Tom Whalley(参考訳) ロータリーマシンの故障検知システムは時代遅れであり、故障を発見するために定期的なテストに依存する。 これは費用がかかり、自然界ではしばしば反応する。 リアルタイム監視は、手動による観察を必要とせずに障害を検出するソリューションを提供する。 しかし、閾値異常検出のマニュアル解釈は、しばしば主観的であり、産業の専門家によって異なる。 このアプローチは隆起し、多数の偽陽性を引き起こす傾向がある。 この問題に対処するために,通常の作業動作をモデル化し,異常を検出する機械学習(ML)アプローチを提案する。 このアプローチは、既知の正常操作を表す信号から機械の動作をモデル化する信号から重要な特徴を抽出し、自動的に異常を識別する。 MLは一般化を学び、故障重大度に基づいてしきい値を生成する。 これはエンジニアに、グリーンが通常の行動であり、アンバーが心配し、赤が機械の故障を示す交通信号システムを提供する。 このスケールにより、エンジニアは適切なタイミングで早期介入措置を実施できる。 このアプローチは、正常および異常な動作を観察するために、ウィンドウ付き実機センサデータで評価される。 その結果, 機械故障前に異常を検出し, 警報を発生させることが可能であることがわかった。

Rotary machine breakdown detection systems are outdated and dependent upon routine testing to discover faults. This is costly and often reactive in nature. Real-time monitoring offers a solution for detecting faults without the need for manual observation. However, manual interpretation for threshold anomaly detection is often subjective and varies between industrial experts. This approach is ridged and prone to a large number of false positives. To address this issue, we propose a Machine Learning (ML) approach to model normal working operation and detect anomalies. The approach extracts key features from signals representing known normal operation to model machine behaviour and automatically identify anomalies. The ML learns generalisations and generates thresholds based on fault severity. This provides engineers with a traffic light system were green is normal behaviour, amber is worrying and red signifies a machine fault. This scale allows engineers to undertake early intervention measures at the appropriate time. The approach is evaluated on windowed real machine sensor data to observe normal and abnormal behaviour. The results demonstrate that it is possible to detect anomalies within the amber range and raise alarms before machine failure.
翻訳日:2021-10-07 07:18:30 公開日:2021-10-01
# (参考訳) Twitterにおける単語共起ネットワークの知覚と構造

Sentiment and structure in word co-occurrence networks on Twitter ( http://arxiv.org/abs/2110.00587v1 )

ライセンス: CC BY 4.0
Mikaela Irene Fudolig, Thayer Alshaabi, Michael V. Arnold, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 本研究では,ネットワーク内のノードが単語であり,エッジの重みは2つの接続語が共起するコーパス内のつぶやき数である。 特に、ハッシュタグ#imwithherと#crookedhillaryのツイートは、どちらも2016年のヒラリー・クリントンの大統領候補指名に関連している。 次に,ネットワーク構造とスコア分布の影響を分離するために,ヌルモデルとの比較を行い,単語スコアと組み合わせてネットワーク特性を解析した。 中性語は支配的であり、極性にかかわらずほとんどの語は中性語と共起する傾向がある。 ポジティブな単語とネガティブな単語の間のスコアの相同性は観測しない。 しかし,ネットワークバックボンディングを行うと,コミュニティ検出の結果,意味のあるナラティブを持つ単語群が出現し,各グループの単語の幸福スコアがそれぞれのテーマに対応する。 したがって、ノードやエッジレベルでの幸福スコアと共起の関係は明らかではないが、コミュニティ中心のアプローチはコーパス内の競合感情のテーマを分離することができる。

We explore the relationship between context and happiness scores in political tweets using word co-occurrence networks, where nodes in the network are the words, and the weight of an edge is the number of tweets in the corpus for which the two connected words co-occur. In particular, we consider tweets with hashtags #imwithher and #crookedhillary, both relating to Hillary Clinton's presidential bid in 2016. We then analyze the network properties in conjunction with the word scores by comparing with null models to separate the effects of the network structure and the score distribution. Neutral words are found to be dominant and most words, regardless of polarity, tend to co-occur with neutral words. We do not observe any score homophily among positive and negative words. However, when we perform network backboning, community detection results in word groupings with meaningful narratives, and the happiness scores of the words in each group correspond to its respective theme. Thus, although we observe no clear relationship between happiness scores and co-occurrence at the node or edge level, a community-centric approach can isolate themes of competing sentiments in a corpus.
翻訳日:2021-10-07 06:44:37 公開日:2021-10-01
# (参考訳) 多スケール分布サンプリングのための遅延拒絶ハミルトンモンテカルロ

Delayed rejection Hamiltonian Monte Carlo for sampling multiscale distributions ( http://arxiv.org/abs/2110.00610v1 )

ライセンス: CC BY 4.0
Chirag Modi, Alex Barnett and Bob Carpenter(参考訳) ハミルトンモンテカルロ (hmc) の効率は、高曲率領域の安定性に必要な小さなステップサイズが他の場所では非効率であるため、幅広い長さスケールの分布をサンプリングする場合に発生する。 初期hmc軌道が拒否された場合、各ステップのサイズを最後のステップよりも幾何的に小さくして、後続の提案を一つ以上行う。 我々は、リトライの確率が前の提案を受け入れる確率に依存するようにすることで、標準の遅延拒絶フレームワークを拡張する。 neal's funnel などのマルチスケールモデル分布や統計応用など,いくつかのサンプリングタスクでこのスキームをテストした。 遅延拒絶は、最適な調整されたhmcよりも最大5倍の性能向上を可能にする。 より単純な分布であっても、遅延拒絶はステップサイズの不特定化に対して堅牢性を高める。 その過程で,HMCの詳細なバランスについて,アクセス可能ながら厳密なレビューを行う。

The efficiency of Hamiltonian Monte Carlo (HMC) can suffer when sampling a distribution with a wide range of length scales, because the small step sizes needed for stability in high-curvature regions are inefficient elsewhere. To address this we present a delayed rejection variant: if an initial HMC trajectory is rejected, we make one or more subsequent proposals each using a step size geometrically smaller than the last. We extend the standard delayed rejection framework by allowing the probability of a retry to depend on the probability of accepting the previous proposal. We test the scheme in several sampling tasks, including multiscale model distributions such as Neal's funnel, and statistical applications. Delayed rejection enables up to five-fold performance gains over optimally-tuned HMC, as measured by effective sample size per gradient evaluation. Even for simpler distributions, delayed rejection provides increased robustness to step size misspecification. Along the way, we provide an accessible but rigorous review of detailed balance for HMC.
翻訳日:2021-10-07 06:43:40 公開日:2021-10-01
# (参考訳) 確率変数の最大値の期待検証性能と推定

Expected Validation Performance and Estimation of a Random Variable's Maximum ( http://arxiv.org/abs/2110.00613v1 )

ライセンス: CC BY 4.0
Jesse Dodge, Suchin Gururangan, Dallas Card, Roy Schwartz, Noah A. Smith(参考訳) NLPの研究は、しばしば実験結果によって支持され、そのような結果の報告の改善は、より良い理解と再現可能な科学をもたらす。 本稿では,計算予算(ハイパーパラメータチューニング実験数)の関数として,性能(精度など)を報告するツールとして,予測された検証性能の統計的推定器を3つ分析する。 このような推定器がバイアスに焦点をあてた以前の研究では、分散と平均二乗誤差(MSE)についても検討した。 合成と現実の両方のシナリオにおいて、3つの推定器を評価し、バイアスのない推定器が最もばらつきが大きいこと、最小の分散を持つ推定器が最大のバイアスを持つこと、最小のMSEを持つ推定器がバイアスとばらつきのバランスをとり、古典的なバイアスとばらつきのトレードオフを示す。 予測バリデーション性能を用いて、異なるモデルの比較を行い、各推定器がどのモデルが最もよく機能するかの誤った結論を導出する頻度を分析する。 この2つの偏差推定器は, 分散とMSEの最小化の重要性を示唆する最少の誤った結論を導いた。

Research in NLP is often supported by experimental results, and improved reporting of such results can lead to better understanding and more reproducible science. In this paper we analyze three statistical estimators for expected validation performance, a tool used for reporting performance (e.g., accuracy) as a function of computational budget (e.g., number of hyperparameter tuning experiments). Where previous work analyzing such estimators focused on the bias, we also examine the variance and mean squared error (MSE). In both synthetic and realistic scenarios, we evaluate three estimators and find the unbiased estimator has the highest variance, and the estimator with the smallest variance has the largest bias; the estimator with the smallest MSE strikes a balance between bias and variance, displaying a classic bias-variance tradeoff. We use expected validation performance to compare between different models, and analyze how frequently each estimator leads to drawing incorrect conclusions about which of two models performs best. We find that the two biased estimators lead to the fewest incorrect conclusions, which hints at the importance of minimizing variance and MSE.
翻訳日:2021-10-07 06:42:39 公開日:2021-10-01
# (参考訳) 凸プログラミングの差によるマルチマルジナル最適輸送における因子結合

Factored couplings in multi-marginal optimal transport via difference of convex programming ( http://arxiv.org/abs/2110.00629v1 )

ライセンス: CC BY 4.0
Quang Huy Tran, Hicham Janati, Ievgen Redko, R\'emi Flamary and Nicolas Courty(参考訳) 最適輸送(OT)理論は、生成モデリング、伝達学習、情報検索といった幅広いタスクを従来から解決してきた多くの新興機械学習(ML)手法に基づいている。 しかしながら、後者の作業は通常、2つの分布を持つ伝統的なOT構成の上に構築される。 本稿では,Multi-marginal OT (MMOT) 問題について検討し,結合に関する構造情報の促進により,その傘の下にいくつかの一般的なOT手法を統合する。 このような構造情報をmmotに組み込むことで、異なるconvex(dc)プログラミング問題を数値的に解くことができることを示す。 後者の手順の計算コストが高いにもかかわらず、DC最適化によって提供される解は通常、現在使われている最適化方式と同じ質的である。

Optimal transport (OT) theory underlies many emerging machine learning (ML) methods nowadays solving a wide range of tasks such as generative modeling, transfer learning and information retrieval. These latter works, however, usually build upon a traditional OT setup with two distributions, while leaving a more general multi-marginal OT formulation somewhat unexplored. In this paper, we study the multi-marginal OT (MMOT) problem and unify several popular OT methods under its umbrella by promoting structural information on the coupling. We show that incorporating such structural information into MMOT results in an instance of a different of convex (DC) programming problem allowing us to solve it numerically. Despite high computational cost of the latter procedure, the solutions provided by DC optimization are usually as qualitative as those obtained using currently employed optimization schemes.
翻訳日:2021-10-07 06:32:20 公開日:2021-10-01
# (参考訳) マルチエージェントアルゴリズムリコース

Multi-Agent Algorithmic Recourse ( http://arxiv.org/abs/2110.00673v1 )

ライセンス: CC BY 4.0
Andrew O'Brien, Edward Kim(参考訳) 最近、現実世界の意思決定におけるツールとしての機械学習の採用は、これらの決定がどのように行われるかを理解することに関心を喚起している。 Counterfactual Explanationsは、代替入力が与えられた場合、機械学習モデルがどのように振る舞うかを理解することを目的とした、一般的な解釈可能な機械学習技術である。 多くの説明は、さらに前進し、モデルからより望ましいアウトプットを得るために個人が行うアクションを推奨しようとする。 これらのリコメンデーションはアルゴリズムリコースとして知られている。 過去の研究は、アルゴリズム的リコースが1つのエージェントに与える影響に主に焦点を当ててきた。 本研究では, 単一エージェント環境の仮定が緩和された場合, アルゴリズム・リコースへの現在のアプローチは, 倫理的に望ましい性質を保証できないことを示す。 そこで我々は,これらの特性を保証したマルチエージェント環境において,新たなゲーム理論にインスパイアされたフレームワークを提案する。

The recent adoption of machine learning as a tool in real world decision making has spurred interest in understanding how these decisions are being made. Counterfactual Explanations are a popular interpretable machine learning technique that aims to understand how a machine learning model would behave if given alternative inputs. Many explanations attempt to go further and recommend actions an individual could take to obtain a more desirable output from the model. These recommendations are known as algorithmic recourse. Past work has largely focused on the effect algorithmic recourse has on a single agent. In this work, we show that when the assumption of a single agent environment is relaxed, current approaches to algorithmic recourse fail to guarantee certain ethically desirable properties. Instead, we propose a new game theory inspired framework for providing algorithmic recourse in a multi-agent environment that does guarantee these properties.
翻訳日:2021-10-07 06:05:44 公開日:2021-10-01
# (参考訳) SOUL: エネルギー効率のよいオンライン学習シーズーア検出分類器

SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection Classifier ( http://arxiv.org/abs/2110.02169v1 )

ライセンス: CC BY 4.0
Adelson Chua, Michael I. Jordan, and Rikky Muller(参考訳) 神経活動を記録して発作を検出するインプラントデバイスは、てんかん発作を抑制するために警告を発したり、神経刺激を引き起こすために採用されている。 典型的な発作検出システムは、長時間にわたって発作パターンが変化した場合に手動で再訓練を必要とする、高精度なオフライントレーニングされた機械学習分類器に依存している。 移植可能な発作検出システムにおいて、低消費電力で最先端のオンライン学習アルゴリズムを用いて、神経信号のドリフトに動的に適応し、外部介入なしに高い精度を維持することができる。 本研究は,Stochastic-gradient-descent-based Online Unsupervised Logistic regression Classificationifierを提案する。 最初のオフライントレーニングフェーズの後、連続的なオンライン教師なし分類器のアップデートが適用され、ドリフト発作の特徴を持つ患者の感度が向上する。 SOULは2つのヒト脳波(EEG)データセット、CHB-MIT頭皮脳波データセット、長い(>100時間)NeuroVista頭蓋内脳波データセットで試験された。 2つのデータセットの平均感度は 97.5% と 97.9% で、95% 以上の特異性で達成できた。 一般的な発作検出分類器と比較して、長期データでは感度が8.2%向上した。 SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。

Implantable devices that record neural activity and detect seizures have been adopted to issue warnings or trigger neurostimulation to suppress epileptic seizures. Typical seizure detection systems rely on high-accuracy offline-trained machine learning classifiers that require manual retraining when seizure patterns change over long periods of time. For an implantable seizure detection system, a low power, at-the-edge, online learning algorithm can be employed to dynamically adapt to the neural signal drifts, thereby maintaining high accuracy without external intervention. This work proposes SOUL: Stochastic-gradient-descent-based Online Unsupervised Logistic regression classifier. After an initial offline training phase, continuous online unsupervised classifier updates are applied in situ, which improves sensitivity in patients with drifting seizure features. SOUL was tested on two human electroencephalography (EEG) datasets: the CHB-MIT scalp EEG dataset, and a long (>100 hours) NeuroVista intracranial EEG dataset. It was able to achieve an average sensitivity of 97.5% and 97.9% for the two datasets respectively, at >95% specificity. Sensitivity improved by at most 8.2% on long-term data when compared to a typical seizure detection classifier. SOUL was fabricated in TSMC's 28 nm process occupying 0.1 mm2 and achieves 1.5 nJ/classification energy efficiency, which is at least 24x more efficient than state-of-the-art.
翻訳日:2021-10-07 05:59:35 公開日:2021-10-01
# (参考訳) 全員のための音声技術:トランスファー学習を用いた非母国語英語の自動音声認識

Speech Technology for Everyone: Automatic Speech Recognition for Non-Native English with Transfer Learning ( http://arxiv.org/abs/2110.00678v1 )

ライセンス: CC BY 4.0
Toshiko Shibano (1), Xinyi Zhang (1), Mia Taige Li (1), Haejin Cho (1), Peter Sullivan (1), Muhammad Abdul-Mageed (1) ((1) University of British Columbia)(参考訳) L2 英語話者における英語 ASR モデルの性能ギャップに対処するため, 英語以外の言語コーパス (Zhao et al., 2018) である L2-ARCTIC 上で, 事前訓練した wav2vec 2.0 モデル (Baevski et al., 2020; Xu et al., 2021) の微調整を行った。 我々は \textbf{ (a)} アクセントと特定のアクセントのみを訓練したアクセントと \textbf{ の組み合わせで訓練したモデル。 (b) 異なる単一明度モデルによる結果である。 実験では,L2学習データが少ない場合や,言語モデルなしでも,非ネイティブな英語話者を対象としたASRモデルの開発を実証した。 私たちのモデルは、複数のL2データセットでトレーニングし、盲目的のL2テストセットでテストするゼロショット設定でも優れています。

To address the performance gap of English ASR models on L2 English speakers, we evaluate fine-tuning of pretrained wav2vec 2.0 models (Baevski et al., 2020; Xu et al., 2021) on L2-ARCTIC, a non-native English speech corpus (Zhao et al., 2018) under different training settings. We compare \textbf{(a)} models trained with a combination of diverse accents to ones trained with only specific accents and \textbf{(b)} results from different single-accent models. Our experiments demonstrate the promise of developing ASR models for non-native English speakers, even with small amounts of L2 training data and even without a language model. Our models also excel in the zero-shot setting where we train on multiple L2 datasets and test on a blind L2 test set.
翻訳日:2021-10-07 05:45:33 公開日:2021-10-01
# (参考訳) 人気言語構築への対話モデルのロバスト性の検討

Investigating Robustness of Dialog Models to Popular Figurative Language Constructs ( http://arxiv.org/abs/2110.00687v1 )

ライセンス: CC BY 4.0
Harsh Jhamtani, Varun Gangal, Eduard Hovy and Taylor Berg-Kirkpatrick(参考訳) 人間は対話システムとの対話を含む、コミュニケーションにおいて比喩的な言語を使用することが多い。 したがって、現実世界のダイアログシステムでは、メタファーやシミュラといった一般的な図形言語構造を扱えることが重要である。 本研究では,入力ダイアログコンテキストがフィギュラティブ言語の使用を示す状況において,既存のダイアログモデルの性能を分析する。 2つのオープンドメインダイアログデータセット上でモデルを評価する際に、図形言語を扱う際の大きなギャップを観察する。 図形言語からなる対話コンテキストに直面すると、図形言語を持たない文脈と比較して非常に大きな性能低下を示すモデルもある。 我々は,対話モデルにおける将来的な研究を奨励し,実世界の利用に関連するモデル機能をテストするために,図形言語の結果を別々に分析し,報告する。 最後に,既存のモデルが図形言語に対してより堅牢になるための軽量なソリューションを提案し,その意味を最大限に保ちつつ,図形言語をリテラル(非図形)形式に変換するために外部リソースを単純に使用した。

Humans often employ figurative language use in communication, including during interactions with dialog systems. Thus, it is important for real-world dialog systems to be able to handle popular figurative language constructs like metaphor and simile. In this work, we analyze the performance of existing dialog models in situations where the input dialog context exhibits use of figurative language. We observe large gaps in handling of figurative language when evaluating the models on two open domain dialog datasets. When faced with dialog contexts consisting of figurative language, some models show very large drops in performance compared to contexts without figurative language. We encourage future research in dialog modeling to separately analyze and report results on figurative language in order to better test model capabilities relevant to real-world use. Finally, we propose lightweight solutions to help existing models become more robust to figurative language by simply using an external resource to translate figurative language to literal (non-figurative) forms while preserving the meaning to the best extent possible.
翻訳日:2021-10-07 05:30:55 公開日:2021-10-01
# CCS-GAN : 正のトレーニング画像がほとんどないCOVID-19 CTスキャン分類

CCS-GAN: COVID-19 CT-scan classification with very few positive training images ( http://arxiv.org/abs/2110.01605v1 )

ライセンス: Link先を確認
Sumeet Menon, Jayalakshmi Mangalagiri, Josh Galita, Michael Morris, Babak Saboury, Yaacov Yesha, Yelena Yesha, Phuong Nguyen, Aryya Gangopadhyay, David Chapman(参考訳) そこで本研究では,CT Scanスライスから新型コロナウイルス肺炎を分類するアルゴリズムを提案する。 このアルゴリズムは、最大10個の正のトレーニングスライス(10個の正のケースから)を使用して、高い分類精度を達成することができる。 新型コロナウイルス(covid-19)のパンデミックの間、非常に少ない正のトレーニングボリュームを持つディープラーニングは非常に難しい問題であり、非常に長い間、トレーニングのために大量の新型コロナウイルスの正のイメージを得ることが困難だったため、重要なトピックとなっている。 少数の例を使って病気のスクリーニングを学べるアルゴリズムは、重要な研究分野である。 本稿では,Cycle Consistent Segmentation Generative Adversarial Network (CCS-GAN)を提案する。 CCS-GANは、分類性能を向上させるために、より大量の合成陽性画像を作成するために、肺分画と陰性画像からの関連転写学習を併用する。 VGG-19分類器とCCS-GANの性能は、少なくとも50点から10点までの正のCTスキャン画像の小さなサンプルを用いて訓練された。 CCS-GANは、陽性画像が少なく高い精度を実現し、新型コロナウイルスの診断分類器を訓練するために、大規模なトレーニングボリュームを取得する障壁を大幅に低減する。

We present a novel algorithm that is able to classify COVID-19 pneumonia from CT Scan slices using a very small sample of training images exhibiting COVID-19 pneumonia in tandem with a larger number of normal images. This algorithm is able to achieve high classification accuracy using as few as 10 positive training slices (from 10 positive cases), which to the best of our knowledge is one order of magnitude fewer than the next closest published work at the time of writing. Deep learning with extremely small positive training volumes is a very difficult problem and has been an important topic during the COVID-19 pandemic, because for quite some time it was difficult to obtain large volumes of COVID-19 positive images for training. Algorithms that can learn to screen for diseases using few examples are an important area of research. We present the Cycle Consistent Segmentation Generative Adversarial Network (CCS-GAN). CCS-GAN combines style transfer with pulmonary segmentation and relevant transfer learning from negative images in order to create a larger volume of synthetic positive images for the purposes of improving diagnostic classification performance. The performance of a VGG-19 classifier plus CCS-GAN was trained using a small sample of positive image slices ranging from at most 50 down to as few as 10 COVID-19 positive CT-scan images. CCS-GAN achieves high accuracy with few positive images and thereby greatly reduces the barrier of acquiring large training volumes in order to train a diagnostic classifier for COVID-19.
翻訳日:2021-10-06 14:19:00 公開日:2021-10-01
# opad - ドキュメントコンテンツ分析に最適化されたポリシベースのアクティブラーニングフレームワーク

OPAD: An Optimized Policy-based Active Learning Framework for Document Content Analysis ( http://arxiv.org/abs/2110.02069v1 )

ライセンス: Link先を確認
Sumit Shekhar, Bhanu Prakash Reddy Guda, Ashutosh Chaubey, Ishan Jindal, Avanish Jain(参考訳) ドキュメントは多くのビジネスシステムの中心であり、フォーム、レポート、契約、請求書、購入命令を含む。 ドキュメントの情報は典型的には自然言語であるが、様々なレイアウトやフォーマットで整理できる。 近年,新たなディープラーニングアーキテクチャによる文書の内容理解への関心が高まっている。 しかし、文書理解タスクには、拡張と一般化にコストがかかる密集した情報アノテーションが必要である。 基礎となるディープラーニングモデルのパフォーマンスを維持しながら、アノテーションの全体的な予算を削減するために、いくつかのアクティブな学習技術が提案されている。 しかし、これらの手法のほとんどは分類問題にのみ適用される。 しかし、コンテンツ検出はより複雑なタスクであり、アクティブな学習文献ではあまり研究されていない。 本稿では,文書の内容検出タスクにおけるアクティブラーニングのための強化ポリシーを用いた新しいフレームワークである \textit{opad} を提案する。 提案フレームワークは,タスクが通常持つパフォーマンス指標を最適化しながら,選択するサンプルを決定するための取得関数を学習する。 さらに、弱いラベリングシナリオにまで拡張し、アノテーションのコストを大幅に削減します。 本稿では,アノテーションインタフェースにおけるクラス不均衡とユーザフィードバックを考慮し,アクティブな学習方法を改善するための新たな報酬を提案する。 提案する \textit{opad} フレームワークは,レイアウト解析やオブジェクト検出,名前付きエンティティ認識など,文書理解に関連するさまざまなタスクをアクティブに学習する上で優れた性能を示す。 人間のフィードバックとクラス不均衡の報酬に対するアブレーション研究と、異なるアプローチに対する注釈時間の比較を行った。

Documents are central to many business systems, and include forms, reports, contracts, invoices or purchase orders. The information in documents is typically in natural language, but can be organized in various layouts and formats. There have been recent spurt of interest in understanding document content with novel deep learning architectures. However, document understanding tasks need dense information annotations, which are costly to scale and generalize. Several active learning techniques have been proposed to reduce the overall budget of annotation while maintaining the performance of the underlying deep learning model. However, most of these techniques work only for classification problems. But content detection is a more complex task, and has been scarcely explored in active learning literature. In this paper, we propose \textit{OPAD}, a novel framework using reinforcement policy for active learning in content detection tasks for documents. The proposed framework learns the acquisition function to decide the samples to be selected while optimizing performance metrics that the tasks typically have. Furthermore, we extend to weak labelling scenarios to further reduce the cost of annotation significantly. We propose novel rewards to account for class imbalance and user feedback in the annotation interface, to improve the active learning method. We show superior performance of the proposed \textit{OPAD} framework for active learning for various tasks related to document understanding like layout parsing, object detection and named entity recognition. Ablation studies for human feedback and class imbalance rewards are presented, along with a comparison of annotation times for different approaches.
翻訳日:2021-10-06 14:09:17 公開日:2021-10-01
# エンド・ツー・エンドトレーニングネットベース畳み込みネットワークを用いた乳腺癌の診断

Breast Cancer Diagnosis in Two-View Mammography Using End-to-End Trained EfficientNet-Based Convolutional Network ( http://arxiv.org/abs/2110.01606v1 )

ライセンス: Link先を確認
Daniel G.P. Petrini, Carlos Shimizu, Rosimeire A. Roela, Gabriel V. Valente, Maria A.A.K. Folgueira, Hae Yong Kim(参考訳) 最近の研究では、乳がんを診断するための深層畳み込みニューラルネットワークが、ヒトの専門家と同等またはそれ以上の性能を持つマンモグラムで報告されている。 shen et al. (2019)は、2つの転送学習からなる最高のテクニックの1つである。 最初は自然画像にトレーニングされたモデルを使用して、小さなサブイメージを分類する"パッチ分類器"を作成する。 2つ目はパッチ分類器を使用してマンモグラム全体をスキャンし、"single-view whole-image classificationifier"を作成する。 本研究は, 両側頭蓋骨と中側斜視の2つの乳房像を用いた「2視点分類器」を得るための第3の転置学習法を提案する。 私たちはモデルの基礎としてmodern efficientnetを使用します。 CBIS-DDSMデータセットを使ってシステム全体を"エンドツーエンド"でトレーニングします。 統計的にロバスト性を確保するために、システムを2回テストします。 (a)5倍のクロス検証、及び (b)データセットの本来のトレーニング/テスト部門。 本手法は5倍のクロスバリデーションを用いて0.934のAUCに到達した(感度と特異性はROCと同じ誤差率85.13%)。 もともとのデータセット分割を用いて、我々の技術は、我々が知る限り最大のAUCである0.8483のAUCを達成した。

Some recent studies have described deep convolutional neural networks to diagnose breast cancer in mammograms with similar or even superior performance to that of human experts. Shen et al. (2019) present one of the best techniques that consists of two transfer learnings. The first uses a model trained on natural images to create a "patch classifier" that categorizes small subimages. The second uses the patch classifier to scan the whole mammogram and create the "single-view whole-image classifier". We propose to make a third transfer learning to obtain a "two-view classifier" to use the two mammographic views: bilateral craniocaudal and mediolateral oblique. We use modern EfficientNet as the basis of our model. We "end-to-end" train the entire system using CBIS-DDSM dataset. To ensure statistical robustness, we test our system twice using: (a) 5-fold cross validation; and (b) the original training/test division of the dataset. Our technique reached an AUC of 0.934 using 5-fold cross validation (sensitivity and specificity are 85.13% at the equal error rate of ROC). Using the original dataset division, our technique achieved an AUC of 0.8483, the largest AUC reported for this problem, as far as we know.
翻訳日:2021-10-06 14:04:52 公開日:2021-10-01
# 不確実性推定を含む可変顧客ポートフォリオのエネルギー消費予測

Prediction of Energy Consumption for Variable Customer Portfolios Including Aleatoric Uncertainty Estimation ( http://arxiv.org/abs/2110.02166v1 )

ライセンス: Link先を確認
Oliver Mey, Andr\'e Schneider, Olaf Enge-Rosenblatt, Yesnier Bravo, Pit Stenzel(参考訳) スマートメーターによって記録された時間毎のエネルギー消費データを使用して、小売業者は顧客ポートフォリオの日毎のエネルギー消費を見積もることができる。 深層ニューラルネットワークはこのタスクに特に適しており、モデルトレーニングに使用するスマートメーター記録から大量の歴史的消費データが利用可能である。 確率層はさらに消費予測の不確実性の推定を可能にする。 そこで本研究では,アレータリック不確実性の推定を含む,時間ごとの日頭エネルギー消費予測を計算する手法を提案する。 エネルギー消費値の統計的性質を考慮し、深層ニューラルネットワークでパラメータを計算した対数正規分布を用いてアレタリック不確かさをモデル化する。 その結果、ニューラルネットワークからの出力として得られる対数正規分布から引き出されたランダム変数により、単一顧客の1日当たりのエネルギー消費の予測を行う。 さらに、単一顧客に対応するこれらのランダム変数が、任意の構成の顧客ポートフォリオの確率的予測にどのように集約できるかを示す。

Using hourly energy consumption data recorded by smart meters, retailers can estimate the day-ahead energy consumption of their customer portfolio. Deep neural networks are especially suited for this task as a huge amount of historical consumption data is available from smart meter recordings to be used for model training. Probabilistic layers further enable the estimation of the uncertainty of the consumption forecasts. Here, we propose a method to calculate hourly day-ahead energy consumption forecasts which include an estimation of the aleatoric uncertainty. To consider the statistical properties of energy consumption values, the aleatoric uncertainty is modeled using lognormal distributions whose parameters are calculated by deep neural networks. As a result, predictions of the hourly day-ahead energy consumption of single customers are represented by random variables drawn from lognormal distributions obtained as output from the neural network. We further demonstrate, how these random variables corresponding to single customers can be aggregated to probabilistic forecasts of customer portfolios of arbitrary composition.
翻訳日:2021-10-06 13:54:41 公開日:2021-10-01
# 画像検索のためのロバストで分解可能な平均精度

Robust and Decomposable Average Precision for Image Retrieval ( http://arxiv.org/abs/2110.01445v1 )

ライセンス: Link先を確認
Elias Ramzi (CNAM, CEDRIC - VERTIGO), Nicolas Thome (CNAM, CEDRIC - VERTIGO), Cl\'ement Rambour (CNAM, CEDRIC - VERTIGO), Nicolas Audebert (CNAM, CEDRIC - VERTIGO), Xavier Bitot(参考訳) 画像検索において、標準評価指標はスコアランキング(例えば平均精度(ap))に依存する。 本稿では,apを用いたディープニューラルネットワークのエンドツーエンドトレーニングにおける2つの大きな課題に対して,ロバストで分解可能な平均精度(roadmap)を提案する。 まず,ap損失の上界を提供し,堅牢なトレーニングを保証するランク関数の新たな微分可能近似を提案する。 第二に、トレーニングセット全体のapと平均バッチ近似との間の非可逆性ギャップを減らすために、単純かつ効果的な損失関数を設計し、理論的な保証を提供する。 3つの画像検索データセットで行った大規模な実験により、ROADMAPは最近のAP近似法よりも優れており、2つのコントリビューションの重要性を強調している。 最後に、深層モデルのトレーニングにロードマップを使用することで、非常に優れたパフォーマンスが得られる。

In image retrieval, standard evaluation metrics rely on score ranking, e.g. average precision (AP). In this paper, we introduce a method for robust and decomposable average precision (ROADMAP) addressing two major challenges for end-to-end training of deep neural networks with AP: non-differentiability and non-decomposability. Firstly, we propose a new differentiable approximation of the rank function, which provides an upper bound of the AP loss and ensures robust training. Secondly, we design a simple yet effective loss function to reduce the decomposability gap between the AP in the whole training set and its averaged batch approximation, for which we provide theoretical guarantees. Extensive experiments conducted on three image retrieval datasets show that ROADMAP outperforms several recent AP approximation methods and highlight the importance of our two contributions. Finally, using ROADMAP for training deep models yields very good performances, outperforming state-of-the-art results on the three datasets.
翻訳日:2021-10-05 16:01:40 公開日:2021-10-01
# 文脈化言語モデルにおける低周波名称のバイアスと過剰性

Low Frequency Names Exhibit Bias and Overfitting in Contextualizing Language Models ( http://arxiv.org/abs/2110.00672v1 )

ライセンス: Link先を確認
Robert Wolfe and Aylin Caliskan(参考訳) 我々は、性別や人種グループに基づくラベル付き米国ファーストネームのデータセットを用いて、BERT、GPT-2、T5、XLNetのトークン化、文脈化、初期表現との類似性、バイアスに対するコーパスの訓練頻度の影響を調べる。 これらの4言語モデルのトレーニングコーパスでは,主に女性名や非白人名が少なくなっている。 頻度と自己相似性の間のスピアマンのrは-.763である。 頻度と線形中心核アライメント(CKA)の間のスピアマンの r は、初期表現に .702 まで類似している。 さらに、.492 の BERT における人種バイアスと名前周波数の間のスピアマンのrは、低頻度の少数民族の名前が不快さとより関連していることを示している。 希少な名前の表現は、より多くの処理を行うが、より自己相似であり、モデルは観測される少数の文脈に過度に適合する、まれな名前とマイノリティな名前のより少ない文脈情報表現に依存していることを示している。

We use a dataset of U.S. first names with labels based on predominant gender and racial group to examine the effect of training corpus frequency on tokenization, contextualization, similarity to initial representation, and bias in BERT, GPT-2, T5, and XLNet. We show that predominantly female and non-white names are less frequent in the training corpora of these four language models. We find that infrequent names are more self-similar across contexts, with Spearman's r between frequency and self-similarity as low as -.763. Infrequent names are also less similar to initial representation, with Spearman's r between frequency and linear centered kernel alignment (CKA) similarity to initial representation as high as .702. Moreover, we find Spearman's r between racial bias and name frequency in BERT of .492, indicating that lower-frequency minority group names are more associated with unpleasantness. Representations of infrequent names undergo more processing, but are more self-similar, indicating that models rely on less context-informed representations of uncommon and minority names which are overfit to a lower number of observed contexts.
翻訳日:2021-10-05 16:00:54 公開日:2021-10-01
# albu:ldaによる小さなデータセットのパフォーマンス向上のための近似ループ型信念メッセージパッシングアルゴリズム

ALBU: An approximate Loopy Belief message passing algorithm for LDA to improve performance on small data sets ( http://arxiv.org/abs/2110.00635v1 )

ライセンス: Link先を確認
Rebecca M.C. Taylor and Johan A. du Preez(参考訳) 遅延ディリクレアロケーション (LDA) に適用される変分ベイズ (VB) はアスペクトモデリングにおける最も一般的なアルゴリズムとなっている。 大規模なコーパスからテキストトピック抽出に十分な成功を収める一方で、VBは限られたデータの存在下での側面を特定することにはあまり成功していない。 我々は, 潜在ディリクレ割当(lda)に適用した新しい変分メッセージパッシングアルゴリズムを提案し, 金標準vbと崩壊ギブスサンプリングとの比較を行った。 余分化が非共役メッセージにつながる状況では、サンプリングのアイデアを使って近似更新方程式を導出する。 共謀がある場合、ループ信条更新(lbu、lauritzen-spiegelhalterとも呼ばれる)が使用される。 我々のアルゴリズムであるALBU (approximate LBU) は、変分メッセージパッシング (VMP) と強い類似性を持っている(VBのメッセージパッシング変種である)。 限られたデータが存在する場合のアルゴリズムの性能を比較するために、ツイートとニュースグループからなるデータセットを使用する。 さらに,よりきめ細かい評価と比較を行うために,kullback-leibler divergence (kld) による基底真理との比較を可能にするシミュレーションを用いる。 テキストコーパスとKLDのコヒーレンス測定とシミュレーションを用いて、ALBUは、特に小さなデータセットにおいて、VBよりも正確な潜伏分布を学習することを示す。

Variational Bayes (VB) applied to latent Dirichlet allocation (LDA) has become the most popular algorithm for aspect modeling. While sufficiently successful in text topic extraction from large corpora, VB is less successful in identifying aspects in the presence of limited data. We present a novel variational message passing algorithm as applied to Latent Dirichlet Allocation (LDA) and compare it with the gold standard VB and collapsed Gibbs sampling. In situations where marginalisation leads to non-conjugate messages, we use ideas from sampling to derive approximate update equations. In cases where conjugacy holds, Loopy Belief update (LBU) (also known as Lauritzen-Spiegelhalter) is used. Our algorithm, ALBU (approximate LBU), has strong similarities with Variational Message Passing (VMP) (which is the message passing variant of VB). To compare the performance of the algorithms in the presence of limited data, we use data sets consisting of tweets and news groups. Additionally, to perform more fine grained evaluations and comparisons, we use simulations that enable comparisons with the ground truth via Kullback-Leibler divergence (KLD). Using coherence measures for the text corpora and KLD with the simulations we show that ALBU learns latent distributions more accurately than does VB, especially for smaller data sets.
翻訳日:2021-10-05 15:58:43 公開日:2021-10-01
# 極端マルチラベルテキスト分類のための高速マルチレゾルトランス微調整

Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2110.00685v1 )

ライセンス: Link先を確認
Jiong Zhang, Wei-cheng Chang, Hsiang-fu Yu, Inderjit S. Dhillon(参考訳) エクストリームマルチラベルテキスト分類(XMC)は、与えられたテキスト入力に対して、非常に大きなラベルコレクションから関連するラベルを見つけようとする。 多くの現実世界のアプリケーションは、レコメンデーションシステム、文書タグ付け、セマンティック検索など、XMC問題として定式化することができる。 近年、X-TransformerやLightXMLのようなトランスフォーマーベースのXMCメソッドは、他のXMCメソッドよりも大幅に改善されている。 テキスト表現に事前訓練されたトランスフォーマーモデルを活用するにもかかわらず、大きなラベル空間上のトランスフォーマーモデルの微調整手順は、強力なGPUでさえも長い計算時間を持つ。 本稿では,xmcの目的関数に関連する一連のマルチレゾリューション目標に対して,再帰的に微調整されたトランスフォーマモデルを用いて手順を高速化する新しい再帰的アプローチであるxr-transformerを提案する。 実験の結果、XR-Transformerは、他の変圧器ベースのXMCモデルに比べてトレーニング時間を大幅に短縮し、最先端の結果が得られた。 特に、300万のラベルを持つパブリックなAmazon-3Mデータセットでは、XR-TransformerはX-Transformerの20倍高速であるだけでなく、Precision@1を51%から54%改善している。

Extreme multi-label text classification (XMC) seeks to find relevant labels from an extreme large label collection for a given text input. Many real-world applications can be formulated as XMC problems, such as recommendation systems, document tagging and semantic search. Recently, transformer based XMC methods, such as X-Transformer and LightXML, have shown significant improvement over other XMC methods. Despite leveraging pre-trained transformer models for text representation, the fine-tuning procedure of transformer models on large label space still has lengthy computational time even with powerful GPUs. In this paper, we propose a novel recursive approach, XR-Transformer to accelerate the procedure through recursively fine-tuning transformer models on a series of multi-resolution objectives related to the original XMC objective function. Empirical results show that XR-Transformer takes significantly less training time compared to other transformer-based XMC models while yielding better state-of-the-art results. In particular, on the public Amazon-3M dataset with 3 million labels, XR-Transformer is not only 20x faster than X-Transformer but also improves the Precision@1 from 51% to 54%.
翻訳日:2021-10-05 15:58:21 公開日:2021-10-01
# GAN(Generative Adversarial Networks)の医療・遠隔センシング分野への応用

A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines -- From Medical to Remote Sensing ( http://arxiv.org/abs/2110.01442v1 )

ライセンス: Link先を確認
Ankan Dash, Junyi Ye, Guiling Wang(参考訳) 我々は、gan(generative adversarial network)、その一般的な変種、および多くの分野における応用について検討する。 GANはゼロサムゲーム理論を用いて互いに競合する2つのニューラルネットワークを組み合わせて、より簡潔で離散的な出力を生成する。 GANは画像処理、ビデオ生成、予測、その他のコンピュータビジョンアプリケーションの実行に使用できる。 ganは、タンパク質工学、天文学データ処理、リモートセンシング画像デハジング、結晶構造合成など、様々な科学関連の活動にも利用できる。 GANが獲得した他の注目すべき分野は、金融、マーケティング、ファッションデザイン、スポーツ、音楽である。 そこで本稿では,様々な分野におけるgansの応用について概観する。 まず、GAN、GAN変種、およびGANを評価するための指標を支持する理論について述べる。 次に,GANとその変種を,天文学や生物学などのSTEM分野から,マーケティングや金融などのビジネス分野,音楽などの芸術分野まで,12分野に適用する方法について述べる。 結果として、他の分野の研究者はganの働きを把握し、それらを自身の研究に適用することができる。 我々の知る限り、この記事は異なる分野におけるGANのアプリケーションに関する最も包括的な調査を提供する。

We look into Generative Adversarial Network (GAN), its prevalent variants and applications in a number of sectors. GANs combine two neural networks that compete against one another using zero-sum game theory, allowing them to create much crisper and discrete outputs. GANs can be used to perform image processing, video generation and prediction, among other computer vision applications. GANs can also be utilised for a variety of science-related activities, including protein engineering, astronomical data processing, remote sensing image dehazing, and crystal structure synthesis. Other notable fields where GANs have made gains include finance, marketing, fashion design, sports, and music. Therefore in this article we provide a comprehensive overview of the applications of GANs in a wide variety of disciplines. We first cover the theory supporting GAN, GAN variants, and the metrics to evaluate GANs. Then we present how GAN and its variants can be applied in twelve domains, ranging from STEM fields, such as astronomy and biology, to business fields, such as marketing and finance, and to arts, such as music. As a result, researchers from other fields may grasp how GANs work and apply them to their own study. To the best of our knowledge, this article provides the most comprehensive survey of GAN's applications in different fields.
翻訳日:2021-10-05 15:57:09 公開日:2021-10-01
# 限局性前立腺癌治療後の勃起障害の予測

Predicting erectile dysfunction after treatment for localized prostate cancer ( http://arxiv.org/abs/2110.00615v1 )

ライセンス: Link先を確認
Hajar Hasannejadasl, Cheryl Roumen, Henk van der Poel, Ben Vanneste, Joep van Roermund, Katja Aben, Petros Kalendralis, Biche Osong, Lambertus Kiemeney, Inge Van Oort, Renee Verwey, Laura Hochstenbach, Esther J. Bloemen- van Gurp, Andre Dekker, Rianne R.R. Fijten(参考訳) 限局性前立腺癌患者に対する10年間の生存率は非常に良い(>98%)が、治療の副作用は生活の質を著しく制限する可能性がある。 勃起障害 (ed) は、老化や前立腺がんの治療に伴う一般的な負担である。 前立腺癌治療後の勃起障害(ED)に影響を及ぼす要因について多くの研究が行われてきたが、治療開始前にEDを予測できるかどうかについては限られた研究しか研究されていない。 腫瘍学における機械学習(ML)ベースの予測ツールの出現は、予測精度とケア品質を改善するための有望なアプローチを提供する。 edの予測は、特定の治療の利点と欠点を明確にすることで、意思決定の共有に役立ち、個々の患者のために調整された治療を選択することができる。 本研究は,診断時の患者統計,臨床データ,患者報告結果(PROM)に基づいて,1年と2年でEDを予測することを目的とした。

While the 10-year survival rate for localized prostate cancer patients is very good (>98%), side effects of treatment may limit quality of life significantly. Erectile dysfunction (ED) is a common burden associated with increasing age as well as prostate cancer treatment. Although many studies have investigated the factors affecting erectile dysfunction (ED) after prostate cancer treatment, only limited studies have investigated whether ED can be predicted before the start of treatment. The advent of machine learning (ML) based prediction tools in oncology offers a promising approach to improve accuracy of prediction and quality of care. Predicting ED may help aid shared decision making by making the advantages and disadvantages of certain treatments clear, so that a tailored treatment for an individual patient can be chosen. This study aimed to predict ED at 1-year and 2-year post-diagnosis based on patient demographics, clinical data and patient-reported outcomes (PROMs) measured at diagnosis.
翻訳日:2021-10-05 15:53:46 公開日:2021-10-01
# 識別マスキング(dam)を用いたニューラルネットワークのコンパクト表現の学習

Learning Compact Representations of Neural Networks using DiscriminAtive Masking (DAM) ( http://arxiv.org/abs/2110.00684v1 )

ライセンス: Link先を確認
Jie Bu, Arka Daw, M. Maruf, Anuj Karpatne(参考訳) ディープラーニングにおける中心的な目標は、ニューラルネットワークのすべての層における機能のコンパクトな表現を学習することであり、教師なし表現学習と構造化ネットワークプルーニングの両方に有用である。 構造化プルーニングには多くの仕事があるが、現在の最先端の手法には2つの重要な制限がある。 (i)訓練中の不安定さ、及び (ii)資源集約的な微調整の新たなステップが必要である。 これらの制限の中核は、単一のステージでのトレーニング中に重みを共同で訓練し、洗練する体系的なアプローチが欠如しており、最先端のパフォーマンスを達成するために収束の微調整は不要である。 本稿では, 識別マスク (dam) と呼ばれる新しい単段構造プルーニング法を提案する。 DAMの背後にある重要な直感は、他のニューロンを徐々に隠蔽しながら、訓練の過程で洗練されるニューロンのいくつかを差別的に選好することである。 提案手法は,次元低減,レコメンデーションシステム,グラフ表現学習,画像分類のための構造化プルーニングなど,様々なアプリケーションに対して非常に優れた性能を示す。 また,DAMの学習目的がマスク層のL0ノルムの最小化に直接関係していることも理論的に示す。

A central goal in deep learning is to learn compact representations of features at every layer of a neural network, which is useful for both unsupervised representation learning and structured network pruning. While there is a growing body of work in structured pruning, current state-of-the-art methods suffer from two key limitations: (i) instability during training, and (ii) need for an additional step of fine-tuning, which is resource-intensive. At the core of these limitations is the lack of a systematic approach that jointly prunes and refines weights during training in a single stage, and does not require any fine-tuning upon convergence to achieve state-of-the-art performance. We present a novel single-stage structured pruning method termed DiscriminAtive Masking (DAM). The key intuition behind DAM is to discriminatively prefer some of the neurons to be refined during the training process, while gradually masking out other neurons. We show that our proposed DAM approach has remarkably good performance over various applications, including dimensionality reduction, recommendation system, graph representation learning, and structured pruning for image classification. We also theoretically show that the learning objective of DAM is directly related to minimizing the L0 norm of the masking layer.
翻訳日:2021-10-05 15:53:31 公開日:2021-10-01
# グラフとシーケンスの最適化のためのシミュレーションアニーリング

Simulated annealing for optimization of graphs and sequences ( http://arxiv.org/abs/2110.01384v1 )

ライセンス: Link先を確認
Xianggen Liu, Pengyong Li, Fandong Meng, Hao Zhou, Huasong Zhong, Jie Zhou, Lili Mou and Sen Song(参考訳) 離散構造の最適化は、既存の構造よりも優れた性質を持つ新しい構造を生成することを目的としている。 連続最適化とは異なり、離散的最適化(例えばテキスト生成)の現実的な応用は、構文と意味論の両方を含む複雑で長距離の制約のために、離散的構造において非常に困難である。 本稿では,グラフとシーケンス最適化のための新しいアニーリングフレームワークであるSAGSを紹介する。 鍵となる考え方は、強力なニューラルネットワークをメタヒューリスティック(例えば、シミュレートされたアニール、SA)に統合し、離散最適化において探索空間を制限することである。 まず、興味の特性と事前定義された制約(例えば文法の妥当性)を含む洗練された客観的関数を定義する。 SAGSはこの目的に向かって離散的な空間から探索し、局所的な編集を行い、深層生成ニューラルネットワークが編集内容を提案し、編集の質を制御できる。 パラフレーズ生成と分子生成に関するSAGSを,それぞれシーケンス最適化とグラフ最適化のために評価した。 提案手法は, 従来のパラフレーズ生成手法と比較して, 自動評価と人的評価の両面で, 最先端の性能を達成できることを示す。 さらに、SAGSは分子生成におけるこれまでの手法を著しく上回っている。

Optimization of discrete structures aims at generating a new structure with the better property given an existing one, which is a fundamental problem in machine learning. Different from the continuous optimization, the realistic applications of discrete optimization (e.g., text generation) are very challenging due to the complex and long-range constraints, including both syntax and semantics, in discrete structures. In this work, we present SAGS, a novel Simulated Annealing framework for Graph and Sequence optimization. The key idea is to integrate powerful neural networks into metaheuristics (e.g., simulated annealing, SA) to restrict the search space in discrete optimization. We start by defining a sophisticated objective function, involving the property of interest and pre-defined constraints (e.g., grammar validity). SAGS searches from the discrete space towards this objective by performing a sequence of local edits, where deep generative neural networks propose the editing content and thus can control the quality of editing. We evaluate SAGS on paraphrase generation and molecule generation for sequence optimization and graph optimization, respectively. Extensive results show that our approach achieves state-of-the-art performance compared with existing paraphrase generation methods in terms of both automatic and human evaluations. Further, SAGS also significantly outperforms all the previous methods in molecule generation.
翻訳日:2021-10-05 15:51:38 公開日:2021-10-01
# ML4C:潜伏ウイルスによる因果関係

ML4C: Seeing Causality Through Latent Vicinity ( http://arxiv.org/abs/2110.00637v1 )

ライセンス: Link先を確認
Haoyue Dai, Rui Ding, Yuanyuan Jiang, Shi Han, Dongmei Zhang(参考訳) Supervised Causal Learning (SCL) は、地上の真理因果関係に関連するデータセットにアクセスすることによって、観測データから因果関係を学習することを目的としている。 本稿では,基本的な問題に対する最初の試みとして,監督によるメリットと,そのメリットについて述べる。 学習対象が事前認識可能でない場合,SCLがランダムな推測よりも優れているという認識から始めて,構造識別可能性を明確に考慮して,SCLの2相パラダイムを提案する。 このパラダイムに従うと、離散データにおけるSCLの問題に取り組み、ML4Cを提案する。 ML4Cの中核は、新しい学習目標を持つ二項分類器であり、unshielded Triple(UT)がv構造であるか否かを分類する。 対応するスケルトンが与えられた入力データセットから始めると、ml4cはv構造に分類されると各utを向き付けする。 これらのv構造は、最終的な出力を構成するために一緒に使用される。 SCLの基本的問題に対処するため、我々は、所定のUT(例えば、骨格中のUTの隣人)の近傍を利用して、その近傍における条件依存性と構造的絡みを考慮し特徴を導出するML4C成果化の原理的手法を提案する。 さらに、ML4Cは漸近的に完璧であることを示す。 最後に、ベンチマークデータセット上で実施された徹底的な実験は、ML4Cが精度、堅牢性、耐性、転送可能性という点で他の最先端アルゴリズムよりも著しく優れていることを示している。 まとめると、ML4Cは、因果学習における監督の有効性を検証するための有望な結果を示す。

Supervised Causal Learning (SCL) aims to learn causal relations from observational data by accessing previously seen datasets associated with ground truth causal relations. This paper presents a first attempt at addressing a fundamental question: What are the benefits from supervision and how does it benefit? Starting from seeing that SCL is not better than random guessing if the learning target is non-identifiable a priori, we propose a two-phase paradigm for SCL by explicitly considering structure identifiability. Following this paradigm, we tackle the problem of SCL on discrete data and propose ML4C. The core of ML4C is a binary classifier with a novel learning target: it classifies whether an Unshielded Triple (UT) is a v-structure or not. Starting from an input dataset with the corresponding skeleton provided, ML4C orients each UT once it is classified as a v-structure. These v-structures are together used to construct the final output. To address the fundamental question of SCL, we propose a principled method for ML4C featurization: we exploit the vicinity of a given UT (i.e., the neighbors of UT in skeleton), and derive features by considering the conditional dependencies and structural entanglement within the vicinity. We further prove that ML4C is asymptotically perfect. Last but foremost, thorough experiments conducted on benchmark datasets demonstrate that ML4C remarkably outperforms other state-of-the-art algorithms in terms of accuracy, robustness, tolerance and transferability. In summary, ML4C shows promising results on validating the effectiveness of supervision for causal learning.
翻訳日:2021-10-05 15:50:15 公開日:2021-10-01
# 政策最適化のためのバッチサイズ不変性

Batch size-invariance for policy optimization ( http://arxiv.org/abs/2110.00641v1 )

ライセンス: Link先を確認
Jacob Hilton, Karl Cobbe, John Schulman(参考訳) バッチサイズの変更が他のハイパーパラメータの変更によって大きく補償できる場合、アルゴリズムはバッチサイズ不変である、と私たちは主張する。 確率勾配降下は、学習速度によって、この性質を小さなバッチサイズで持つことが知られている。 しかしながら、いくつかのポリシー最適化アルゴリズム(PPOなど)は、ポリシー更新のサイズを制御する方法のため、この特性を持っていない。 本稿では,これらのアルゴリズムをバッチサイズ不変にする方法を示す。 私たちの重要な洞察は、近位政策(政策更新の制御に使われる)と行動政策(オフポリシーの修正に使われる)を分離することです。 私たちの実験は、これらのアルゴリズムがなぜ動作するのかを説明するのに役立ちます。

We say an algorithm is batch size-invariant if changes to the batch size can largely be compensated for by changes to other hyperparameters. Stochastic gradient descent is well-known to have this property at small batch sizes, via the learning rate. However, some policy optimization algorithms (such as PPO) do not have this property, because of how they control the size of policy updates. In this work we show how to make these algorithms batch size-invariant. Our key insight is to decouple the proximal policy (used for controlling policy updates) from the behavior policy (used for off-policy corrections). Our experiments help explain why these algorithms work, and additionally show how they can make more efficient use of stale data.
翻訳日:2021-10-05 15:49:46 公開日:2021-10-01
# スパースディープラーニング: ローカルトラップとミスキャリブレーションの影響を受けない新しいフレームワーク

Sparse Deep Learning: A New Framework Immune to Local Traps and Miscalibration ( http://arxiv.org/abs/2110.00653v1 )

ライセンス: Link先を確認
Yan Sun, Wenjun Xiong, Faming Liang(参考訳) ディープラーニングは最近の人工知能(AI)の成功を支えている。 しかし、ディープラーニングの基本モデルであるディープニューラルネットワークは、ローカルトラップやミスカバリといった問題に苦しめられている。 本稿では,上記の問題に対してコヒーレントな方法で対処した,スパース深層学習のための新しいフレームワークを提案する。 特に,スパース深層学習のための理論的基礎を定め,スパースニューラルネットワークを学習するための事前アニーリングアルゴリズムを提案する。 前者はスパースディープニューラルネットワークを統計的モデリングの枠組みに適合させ、予測の不確かさを正確に定量化することに成功した。 後者は漸近的にグローバル最適に収束することが保証され、ダウンストリーム統計推論の有効性が保証される。 数値結果は,提案手法が既存手法と比較して優れていることを示す。

Deep learning has powered recent successes of artificial intelligence (AI). However, the deep neural network, as the basic model of deep learning, has suffered from issues such as local traps and miscalibration. In this paper, we provide a new framework for sparse deep learning, which has the above issues addressed in a coherent way. In particular, we lay down a theoretical foundation for sparse deep learning and propose prior annealing algorithms for learning sparse neural networks. The former has successfully tamed the sparse deep neural network into the framework of statistical modeling, enabling prediction uncertainty correctly quantified. The latter can be asymptotically guaranteed to converge to the global optimum, enabling the validity of the down-stream statistical inference. Numerical result indicates the superiority of the proposed method compared to the existing ones.
翻訳日:2021-10-05 15:49:35 公開日:2021-10-01
# 医療・医療におけるAIのアルゴリズムフェアネス

Algorithm Fairness in AI for Medicine and Healthcare ( http://arxiv.org/abs/2110.00603v1 )

ライセンス: Link先を確認
Richard J. Chen, Tiffany Y. Chen, Jana Lipkova, Judy J. Wang, Drew F.K. Williamson, Ming Y. Lu, Sharifa Sahai, and Faisal Mahmood(参考訳) 医療における多くの人工知能(AI)システムの開発と展開において、アルゴリズムの公平性は、公平なケアを提供する上で難しい問題である。 人種のサブ人口にまたがるAIモデルの最近の評価は、患者がどのように診断され、治療を受け、医療費を請求されるかに大きな不平等が明らかになっている。 本稿では,医療における現在の課題の文脈を通して,機械学習における公平性の交叉領域を概説し,現在の臨床ワークフローとその結果生じる医療格差において,アルゴリズムバイアス(画像取得,遺伝的変異,オブザーバ内ラベリング変動など)がどのように発生するかを概説する。 最後に,分散学習,絡み合い,モデル説明可能性によるバイアス軽減のための新たな戦略について検討する。

In the current development and deployment of many artificial intelligence (AI) systems in healthcare, algorithm fairness is a challenging problem in delivering equitable care. Recent evaluation of AI models stratified across race sub-populations have revealed enormous inequalities in how patients are diagnosed, given treatments, and billed for healthcare costs. In this perspective article, we summarize the intersectional field of fairness in machine learning through the context of current issues in healthcare, outline how algorithmic biases (e.g. - image acquisition, genetic variation, intra-observer labeling variability) arise in current clinical workflows and their resulting healthcare disparities. Lastly, we also review emerging strategies for mitigating bias via decentralized learning, disentanglement, and model explainability.
翻訳日:2021-10-05 15:48:51 公開日:2021-10-01
# モーメントムを用いた非凸最適化のための分散確率 Descent の高速化

Accelerate Distributed Stochastic Descent for Nonconvex Optimization with Momentum ( http://arxiv.org/abs/2110.00625v1 )

ライセンス: Link先を確認
Guojing Cong and Tianyi Liu(参考訳) モーメント法はディープラーニングの最適化に広く使われている。 最近の研究では、kステップ平均化による分散トレーニングには多くの優れた特性があることが示されている。 このようなモデル平均化手法のモーメント法を提案する。 各学習者レベルでは従来の確率勾配を適用する。 メタレベル(グローバルラーナーレベル)では、モーメント項が1つ適用され、ブロックモーメントと呼ばれる。 このような運動量法の収束とスケーリング特性を解析した。 実験の結果,ブロックモーメントはトレーニングを加速するだけでなく,より良い結果が得られることがわかった。

Momentum method has been used extensively in optimizers for deep learning. Recent studies show that distributed training through K-step averaging has many nice properties. We propose a momentum method for such model averaging approaches. At each individual learner level traditional stochastic gradient is applied. At the meta-level (global learner level), one momentum term is applied and we call it block momentum. We analyze the convergence and scaling properties of such momentum methods. Our experimental results show that block momentum not only accelerates training, but also achieves better results.
翻訳日:2021-10-05 15:45:44 公開日:2021-10-01
# 最適化と機械学習のための二段階確率法:二段階確率降下とDARTS

Bilevel stochastic methods for optimization and machine learning: Bilevel stochastic descent and DARTS ( http://arxiv.org/abs/2110.00604v1 )

ライセンス: Link先を確認
Tommaso Giovannelli, Griffin Kent, Luis Nunes Vicente(参考訳) 2段階確率最適化の定式化は、ニューラルアーキテクチャ検索、連続学習、対角学習、ハイパーパラメータチューニングなど、多くの機械学習コンテキストにおいて重要なものとなっている。 確率的二段階最適化問題は、変数の数が多い場合や制約がある場合の最適化や学習において困難になる。 この論文の目標は二つある。 まず, 大規模学習における二階最適化の促進を目標とし, 低レベル二階微分や系を必要としない実用的二階確率勾配法(bsg-1)を導入する。 私たちのbsg-1メソッドは一階の原則に近いので、dartのようなそうでないものよりもパフォーマンスが向上します。 第二に,低次制約を持つ二段階問題に対する二段階確率勾配降下法を開発し,二段階勾配計算の特異性から,制約のないケースと制約のないケースを極力抽象化する収束理論を導入する。

Two-level stochastic optimization formulations have become instrumental in a number of machine learning contexts such as neural architecture search, continual learning, adversarial learning, and hyperparameter tuning. Practical stochastic bilevel optimization problems become challenging in optimization or learning scenarios where the number of variables is high or there are constraints. The goal of this paper is twofold. First, we aim at promoting the use of bilevel optimization in large-scale learning and we introduce a practical bilevel stochastic gradient method (BSG-1) that requires neither lower level second-order derivatives nor system solves (and dismisses any matrix-vector products). Our BSG-1 method is close to first-order principles, which allows it to achieve a performance better than those that are not, such as DARTS. Second, we develop bilevel stochastic gradient descent for bilevel problems with lower level constraints, and we introduce a convergence theory that covers the unconstrained and constrained cases and abstracts as much as possible from the specifics of the bilevel gradient calculation.
翻訳日:2021-10-05 15:44:43 公開日:2021-10-01
# 過パラメータニューラルネットワークにおける非定型'相転移'による学習

Learning through atypical ''phase transitions'' in overparameterized neural networks ( http://arxiv.org/abs/2110.00683v1 )

ライセンス: Link先を確認
Carlo Baldassi, Clarissa Lauditi, Enrico M. Malatesta, Rosalba Pacelli, Gabriele Perugini, Riccardo Zecchina(参考訳) 現在のディープニューラルネットワークは、超過パラメータ(数十億の接続重み)と非線形である。 しかし、データはほぼ完全に勾配降下アルゴリズムの変種を通して適合し、過度に適合することなく予測精度の予期せぬレベルを達成することができる。 これらの結果は統計的学習のバイアス分散予測を回避し、非凸最適化のための概念的課題を提起する。 本稿では,非凸ニューラルネットワークモデルにおける過度パラメータ化の計算フォールアウトを解析的に研究するために,障害系の統計物理学からの手法を用いる。 接続重みの数が増加するにつれて、誤り損失関数の異なるミニマの幾何学的構造の変化に追従し、学習と一般化のパフォーマンスに関連付ける。 我々は、解が存在するSAT/UNSAT補間遷移と、アルゴリズムが解を見つけ始める点、すなわちアクセス可能な解が現れる点の間にギャップがあることを発見した。 この第二相転移は、局所的に非常にエントロピーな非定型解の不連続な出現、すなわち、特に解度が高く、一般化特性が良い重み空間の平坦な領域と一致する。 典型的な解(より狭く、非常にサンプリングが難しい)に比べて指数関数的に珍しいが、エントロピック解は学習に使用されるアルゴリズムにアクセスできる。 異なる解の一般化誤差を特徴付け、構造的に異なるネットワークから生成されたデータに対してベイズ予測を最適化することができる。 理論によって示唆される可観測性に関する数値的なテストでは、シナリオが現実的なディープネットワークに拡張されていることが確認できる。

Current deep neural networks are highly overparameterized (up to billions of connection weights) and nonlinear. Yet they can fit data almost perfectly through variants of gradient descent algorithms and achieve unexpected levels of prediction accuracy without overfitting. These are formidable results that escape the bias-variance predictions of statistical learning and pose conceptual challenges for non-convex optimization. In this paper, we use methods from statistical physics of disordered systems to analytically study the computational fallout of overparameterization in nonconvex neural network models. As the number of connection weights increases, we follow the changes of the geometrical structure of different minima of the error loss function and relate them to learning and generalisation performance. We find that there exist a gap between the SAT/UNSAT interpolation transition where solutions begin to exist and the point where algorithms start to find solutions, i.e. where accessible solutions appear. This second phase transition coincides with the discontinuous appearance of atypical solutions that are locally extremely entropic, i.e., flat regions of the weight space that are particularly solution-dense and have good generalization properties. Although exponentially rare compared to typical solutions (which are narrower and extremely difficult to sample), entropic solutions are accessible to the algorithms used in learning. We can characterize the generalization error of different solutions and optimize the Bayesian prediction, for data generated from a structurally different network. Numerical tests on observables suggested by the theory confirm that the scenario extends to realistic deep networks.
翻訳日:2021-10-05 15:44:25 公開日:2021-10-01
# UCCAに基づく意味的パーシングのための自己認識的構成的パーシング

Self-Attentive Constituency Parsing for UCCA-based Semantic Parsing ( http://arxiv.org/abs/2110.00621v1 )

ライセンス: Link先を確認
Necva B\"ol\"uc\"u, Burcu Can(参考訳) 意味構文解析は、機械によって理解される可能性のあるテキストの意味構造を抽出する手段を提供する。 要約や質問応答などのテキスト理解を必要とする様々なNLPアプリケーションで利用されている。 グラフベースの表現は、テキストの意味構造を表現する意味表現のアプローチの1つである。 このような表現は、表現豊かで適切なグラフベースのターゲット構造を生成する。 本稿では主にUCCAグラフに基づく意味表現に焦点を当てる。 本論文は,UCCA表現に提案されている既存のアプローチだけでなく,UCCA表現のための新しい自己注意型ニューラルパーシングモデルも提案する。 低リソース言語に対するゼロショット学習と少数ショット学習を用いた単一言語タスクとクロスランガルタスクの両方の結果を示す。

Semantic parsing provides a way to extract the semantic structure of a text that could be understood by machines. It is utilized in various NLP applications that require text comprehension such as summarization and question answering. Graph-based representation is one of the semantic representation approaches to express the semantic structure of a text. Such representations generate expressive and adequate graph-based target structures. In this paper, we focus primarily on UCCA graph-based semantic representation. The paper not only presents the existing approaches proposed for UCCA representation, but also proposes a novel self-attentive neural parsing model for the UCCA representation. We present the results for both single-lingual and cross-lingual tasks using zero-shot and few-shot learning for low-resource languages.
翻訳日:2021-10-05 15:40:16 公開日:2021-10-01
# SPEC:推定カメラで野生の人々を見る

SPEC: Seeing People in the Wild with an Estimated Camera ( http://arxiv.org/abs/2110.00620v1 )

ライセンス: Link先を確認
Muhammed Kocabas, Chun-Hao P. Huang, Joachim Tesch, Lea M\"uller, Otmar Hilliges, and Michael J. Black(参考訳) カメラパラメータ情報がないため、既存の3次元ポーズアンドシェイプ(HPS)推定法は、弱いパースペクティブ・プロジェクション、大きな定焦点長、カメラ回転のゼロといった、いくつかの単純化された仮定を行う。 これらの仮定はしばしば持たず、定量的かつ定性的に、再構成された3d形状とポーズの誤りを引き起こすことを示した。 そこで本研究では,1枚の画像からパースペクティブカメラを推定し,より正確に3d人体を再構築する最初の3d hps法であるspecを提案する。 %regress 3d human bodyであった。 まず、入力された画像の視野、カメラピッチ、ロールを推定するためにニューラルネットワークを訓練する。 従来の作業よりも校正精度を向上させる新たな損失を導入する。 次に、カメラキャリブレーションを画像の特徴に結合する新しいネットワークをトレーニングし、これらを組み合わせて3Dボディ形状とポーズを再現する。 SPECは、標準ベンチマーク(3DPW)の以前の技術よりも正確で、より困難なカメラビューとさまざまな焦点距離を持つ2つの新しいデータセットである。 具体的には、地上の真実を3Dで表現した新しいフォトリアリスティック合成データセット(SPEC-SYN)と、キャリブレーションと高品質な参照ボディを備えた新しいインザワイルドデータセット(SPEC-MTP)を作成する。 質的および定量的分析の両方が、推論の回帰中にカメラパラメータを知ることは、人体をより良くすることを確認した。 コードとデータセットは、https://spec.is.tue.mpg.deで研究目的に利用できる。

Due to the lack of camera parameter information for in-the-wild images, existing 3D human pose and shape (HPS) estimation methods make several simplifying assumptions: weak-perspective projection, large constant focal length, and zero camera rotation. These assumptions often do not hold and we show, quantitatively and qualitatively, that they cause errors in the reconstructed 3D shape and pose. To address this, we introduce SPEC, the first in-the-wild 3D HPS method that estimates the perspective camera from a single image and employs this to reconstruct 3D human bodies more accurately. %regress 3D human bodies. First, we train a neural network to estimate the field of view, camera pitch, and roll given an input image. We employ novel losses that improve the calibration accuracy over previous work. We then train a novel network that concatenates the camera calibration to the image features and uses these together to regress 3D body shape and pose. SPEC is more accurate than the prior art on the standard benchmark (3DPW) as well as two new datasets with more challenging camera views and varying focal lengths. Specifically, we create a new photorealistic synthetic dataset (SPEC-SYN) with ground truth 3D bodies and a novel in-the-wild dataset (SPEC-MTP) with calibration and high-quality reference bodies. Both qualitative and quantitative analysis confirm that knowing camera parameters during inference regresses better human bodies. Code and datasets are available for research purposes at https://spec.is.tue.mpg.de.
翻訳日:2021-10-05 15:35:38 公開日:2021-10-01
# RoomStructNet: 単一視点から非立方体ルームレイアウトのランク付けを学ぶ

RoomStructNet: Learning to Rank Non-Cuboidal Room Layouts From Single View ( http://arxiv.org/abs/2110.00644v1 )

ライセンス: Link先を確認
Xi Zhang, Chun-Kai Wang, Kenan Deng, Tomas Yago-Vicente, Himanshu Arora(参考訳) 本稿では,部屋のレイアウトを単一の画像から推定する新しい手法を提案する。 このタスクの最近のアプローチでは、データから学んだ堅牢な機能を使っているが、最終的なレイアウトを検出する最適化に頼っている。 学習した頑健な機能に加えて,最適化ではなく最終レイアウトを推定するためのランキング関数も提案する。 このランキング関数を学習するために,最大構造コストを用いてCNNを訓練するフレームワークを提案する。 また,ほとんどの手法は立方体レイアウトの検出を目標としているが,本手法では,レイアウト複雑性パラメータを明示的に推定する非立方体レイアウトを検出する。 これらのパラメータを用いてレイアウト候補を新しい方法で提案する。 提案手法は,主に立方体レイアウトを持つ標準データセットの最先端の結果を示し,非立方体レイアウトの部屋を含むデータセット上でも良好に機能する。

In this paper, we present a new approach to estimate the layout of a room from its single image. While recent approaches for this task use robust features learnt from data, they resort to optimization for detecting the final layout. In addition to using learnt robust features, our approach learns an additional ranking function to estimate the final layout instead of using optimization. To learn this ranking function, we propose a framework to train a CNN using max-margin structure cost. Also, while most approaches aim at detecting cuboidal layouts, our approach detects non-cuboidal layouts for which we explicitly estimates layout complexity parameters. We use these parameters to propose layout candidates in a novel way. Our approach shows state-of-the-art results on standard datasets with mostly cuboidal layouts and also performs well on a dataset containing rooms with non-cuboidal layouts.
翻訳日:2021-10-05 15:35:10 公開日:2021-10-01
# ブースト決定木を用いた時系列データの分類

Classification of Time-Series Data Using Boosted Decision Trees ( http://arxiv.org/abs/2110.00581v1 )

ライセンス: Link先を確認
Erfan Aasi, Cristian Ioan Vasile, Mahroo Bahreinian, Calin Belta(参考訳) 時系列データ分類は、ロボットや自動運転車のような自律システムの分析と制御の中心である。 このようなデータの分類器として,時間論理に基づく学習アルゴリズムが最近提案されている。 しかし、現在のフレームワークは、自律運転のような現実世界のアプリケーションでは不正確か、あるいは解釈不可能な長く複雑な公式を生成する。 これらの制約に対処するため、信号時間論理(STL)式として表されるバイナリ分類器を生成するための新しい学習手法、Boosted Concise Decision Trees (BCDTs)を導入する。 本アルゴリズムは, 精度決定木(CDT)のアンサンブルを利用して分類性能を向上し, それぞれのCDTは, より単純な式を生成し, 解釈可能性を向上させるための一連の技術によって強化された決定木である。 本アルゴリズムの有効性と分類性能は, 海上監視と都市運転のケーススタディで評価した。

Time-series data classification is central to the analysis and control of autonomous systems, such as robots and self-driving cars. Temporal logic-based learning algorithms have been proposed recently as classifiers of such data. However, current frameworks are either inaccurate for real-world applications, such as autonomous driving, or they generate long and complicated formulae that lack interpretability. To address these limitations, we introduce a novel learning method, called Boosted Concise Decision Trees (BCDTs), to generate binary classifiers that are represented as Signal Temporal Logic (STL) formulae. Our algorithm leverages an ensemble of Concise Decision Trees (CDTs) to improve the classification performance, where each CDT is a decision tree that is empowered by a set of techniques to generate simpler formulae and improve interpretability. The effectiveness and classification performance of our algorithm are evaluated on naval surveillance and urban-driving case studies.
翻訳日:2021-10-05 15:27:38 公開日:2021-10-01
# Calibrated Adversarial Training

Calibrated Adversarial Training ( http://arxiv.org/abs/2110.00623v1 )

ライセンス: Link先を確認
Tianjin Huang, Vlado Menkovski, Yulong Pei and Mykola Pechenizkiy(参考訳) 敵意トレーニング(英: adversarial training)とは、敵意攻撃に対するモデルの堅牢性を高めるためのアプローチである。 逆向きの例を生成する際の大きな課題のひとつは、モデルの出力をひっくり返すための十分な摂動を例に含むことであり、例の意味的内容に重大な変化を起こさないことである。 意味的内容の変更は、例の本当のラベルを変更する可能性もあります。 このような例をトレーニングセットに追加すると、悪影響が生じる。 本稿では,対人訓練における意味摂動の悪影響を低減する手法であるCalibrated Adversarial Trainingを提案する。 この方法は,新しい校正ロバスト誤差に基づいて,摂動に対する画素レベルの適応を生成する。 校正されたロバスト誤差の理論的解析を行い,その上限を導出する。 実験の結果,多数の公開データセットに対して,校正適応訓練の優れた性能を示した。

Adversarial training is an approach of increasing the robustness of models to adversarial attacks by including adversarial examples in the training set. One major challenge of producing adversarial examples is to contain sufficient perturbation in the example to flip the model's output while not making severe changes in the example's semantical content. Exuberant change in the semantical content could also change the true label of the example. Adding such examples to the training set results in adverse effects. In this paper, we present the Calibrated Adversarial Training, a method that reduces the adverse effects of semantic perturbations in adversarial training. The method produces pixel-level adaptations to the perturbations based on novel calibrated robust error. We provide theoretical analysis on the calibrated robust error and derive an upper bound for it. Our empirical results show a superior performance of the Calibrated Adversarial Training over a number of public datasets.
翻訳日:2021-10-05 15:27:22 公開日:2021-10-01
# マルチビューSA-LAネット:多視点心筋MR画像におけるRVの同時分割のためのフレームワーク

Multi-view SA-LA Net: A framework for simultaneous segmentation of RV on multi-view cardiac MR Images ( http://arxiv.org/abs/2110.00682v1 )

ライセンス: Link先を確認
Sana Jabbar, Syed Talha Bukhari, and Hassan Mohy-ud-Din(参考訳) 短軸(SA)および長軸(LA)心MR画像上でのRVの同時分割のための多視点SA-LAモデルを提案した。 マルチビューSA-LAモデルは、U-Netモデルに基づくマルチエンコーダ、マルチデコーダU-Netアーキテクチャである。 1つのエンコーダ/デコーダペアは、RVをSA画像に、もう1つのペアをLA画像にセグメントする。 マルチビューSA-LAモデルは、一致したSAとLA心筋MR画像から得られた特徴マップを組み合わせることで、エンコーダブランチの根元にある非常に豊富な相乗的特徴集合を組み立てる。 セグメンテーション性能は,(1)LVの空間的文脈を先行として,(2)デコーダ分岐の最後の3層で深い監督を行うことによりさらに向上する。 マルチビューSA-LAモデルはMICCAI 2021 MultiDisease, Multi-View, Multi- Centre RV Segmentation Challenge データセット (M&Ms-2021) で広く評価された。 M&Ms-2021データセットは、3つの異なるベンダーと4つの臨床センターで取得された360人の被験者の多相多視点心筋MR画像からなる。 チャレンジコホート (160名) において, 提案する多視点sa-laモデルは, 短軸画像では91%, ハウスドルフ距離11.2mm, 長軸画像では89.6%, ハウスドルフ距離8.1mmを達成した。 さらに,多視点SA-LAモデルでは,低分散 (std_DSC: SA <5%, LA<6%, LA<6%) のDilated Right Ventricle (DSC: SA 91.41%, LA 89.63%) やTricuspidal Regurgitation (DSC: SA 91.40%, LA 90.40%) などのRV関連疾患に対する強い一般化が見られた。

We proposed a multi-view SA-LA model for simultaneous segmentation of RV on the short-axis (SA) and long-axis (LA) cardiac MR images. The multi-view SA-LA model is a multi-encoder, multi-decoder U-Net architecture based on the U-Net model. One encoder-decoder pair segments the RV on SA images and the other pair on LA images. Multi-view SA-LA model assembles an extremely rich set of synergistic features, at the root of the encoder branch, by combining feature maps learned from matched SA and LA cardiac MR images. Segmentation performance is further enhanced by: (1) incorporating spatial context of LV as a prior and (2) performing deep supervision in the last three layers of the decoder branch. Multi-view SA-LA model was extensively evaluated on the MICCAI 2021 Multi- Disease, Multi-View, and Multi- Centre RV Segmentation Challenge dataset (M&Ms-2021). M&Ms-2021 dataset consists of multi-phase, multi-view cardiac MR images of 360 subjects acquired at four clinical centers with three different vendors. On the challenge cohort (160 subjects), the proposed multi-view SA-LA model achieved a Dice Score of 91% and Hausdorff distance of 11.2 mm on short-axis images and a Dice Score of 89.6% and Hausdorff distance of 8.1 mm on long-axis images. Moreover, multi-view SA-LA model exhibited strong generalization to unseen RV related pathologies including Dilated Right Ventricle (DSC: SA 91.41%, LA 89.63%) and Tricuspidal Regurgitation (DSC: SA 91.40%, LA 90.40%) with low variance (std_DSC: SA <5%, LA<6%).
翻訳日:2021-10-05 15:20:18 公開日:2021-10-01
# STRONG:非ガウス雑音下での同期および非同期RObustネットワークローカライゼーション

STRONG: Synchronous and asynchronous RObust Network localization, under Non-Gaussian noise ( http://arxiv.org/abs/2110.00594v1 )

ライセンス: Link先を確認
Claudia Soares, Jo\~ao Gomes(参考訳) 現実世界のネットワークアプリケーションは、故障したノード、悪意のある攻撃、あるいは破損したデータに直面しているノードに対処しなければならない。 本研究は,技術文献の豊富さにもかかわらず,先行研究が異常データと見なされることがほとんどないセンサネットワークローカライズ問題の範囲において,これらの懸念に対処している。 本研究では,高出力雑音に耐性があるだけでなく,正規ガウス雑音下でも高精度なロバスト,高速,分散ネットワークローカライゼーションアルゴリズムを提案する。 フーバー m-推定器を用いてロバストな(しかし凸でない)最適化問題を得る。 我々は,分散ロバストなローカライズアルゴリズムを実現するために,最適な収束率を持つ同期分散手法と,コンバージェンス保証が証明された非同期分散手法を凸化して変更する。 私たちの貢献の大きな特徴は、証明可能な分散計算には精度も通信コストも収束速度もかからない、という事実にあります。 提案手法は, 重付加的・乗算的外周雑音下においても, 分散的, 集中的に, 代替手法の精度を上回り, 正規ガウス雑音下においても, アルゴリズムの優れた性能を示す。

Real-world network applications must cope with failing nodes, malicious attacks, or nodes facing corrupted data - data classified as outliers. Our work addresses these concerns in the scope of the sensor network localization problem where, despite the abundance of technical literature, prior research seldom considered outlier data. We propose robust, fast, and distributed network localization algorithms, resilient to high-power noise, but also precise under regular Gaussian noise. We use a Huber M-estimator, thus obtaining a robust (but nonconvex) optimization problem. We convexify and change the problem representation, to allow for distributed robust localization algorithms: a synchronous distributed method that has optimal convergence rate and an asynchronous one with proven convergence guarantees. A major highlight of our contribution lies on the fact that we pay no price for provable distributed computation neither in accuracy, nor in communication cost or convergence speed. Simulations showcase the superior performance of our algorithms, both in the presence of outliers and under regular Gaussian noise: our method exceeds the accuracy of alternative approaches, distributed and centralized, even under heavy additive and multiplicative outlier noise.
翻訳日:2021-10-05 15:15:25 公開日:2021-10-01
# 運転しない方法:デモから運転制限を学ぶ

How To Not Drive: Learning Driving Constraints from Demonstration ( http://arxiv.org/abs/2110.00645v1 )

ライセンス: Link先を確認
Kasra Rezaee, Peyman Yadmellat(参考訳) 人間の運転軌道から運動計画制約を学習する新しい手法を提案する。 行動計画と行動計画は、自律運転システムにおいて重要な要素である。 行動計画は、交通規則に従い、他の道路参加者と対話するために必要な高いレベルの意思決定に責任を負う。 運動プランナーの役割は、自動運転車が従うための実用的で安全な軌道を作り出すことである。 トラジェクトリは、スムーズ性、運動性、快適性に関連する指標に基づいてコスト関数を最適化する最適化スキームを通じて生成され、計画された行動、安全考慮、実現可能性から導かれる一連の制約を受ける。 一般的なプラクティスは、コスト関数と制約を手動で設計することだ。 近年、人間の運転デモからコスト関数を学習する研究が進められている。 効果的ではあるが、こうしたアプローチの実際的な応用は、自動運転において依然として疑わしい。 対照的に本論文では,既存の自動運転ソリューションのアドオンモジュールとして使用可能な,運転制約の学習に注目した。 制約を学習するために、計画問題は制約付きマルコフ決定過程として定式化され、その要素は制約を除いて知られていると仮定される。 制約は、専門家の軌跡分布を学習し、学習された分布に属する最適軌跡の確率を推定することによって学習される。 提案手法はNGSIMデータセットを用いて評価され, 学習制約が最適化に基づく運動プランナで使用される場合, 衝突速度が1\%未満で, 路外操作を行う。

We propose a new scheme to learn motion planning constraints from human driving trajectories. Behavioral and motion planning are the key components in an autonomous driving system. The behavioral planning is responsible for high-level decision making required to follow traffic rules and interact with other road participants. The motion planner role is to generate feasible, safe trajectories for a self-driving vehicle to follow. The trajectories are generated through an optimization scheme to optimize a cost function based on metrics related to smoothness, movability, and comfort, and subject to a set of constraints derived from the planned behavior, safety considerations, and feasibility. A common practice is to manually design the cost function and constraints. Recent work has investigated learning the cost function from human driving demonstrations. While effective, the practical application of such approaches is still questionable in autonomous driving. In contrast, this paper focuses on learning driving constraints, which can be used as an add-on module to existing autonomous driving solutions. To learn the constraint, the planning problem is formulated as a constrained Markov Decision Process, whose elements are assumed to be known except the constraints. The constraints are then learned by learning the distribution of expert trajectories and estimating the probability of optimal trajectories belonging to the learned distribution. The proposed scheme is evaluated using NGSIM dataset, yielding less than 1\% collision rate and out of road maneuvers when the learned constraints is used in an optimization-based motion planner.
翻訳日:2021-10-05 15:15:03 公開日:2021-10-01
# オープンエアペロブスカイト太陽電池製造におけるプロセス最適化のための知識制約付き機械学習

Machine Learning with Knowledge Constraints for Process Optimization of Open-Air Perovskite Solar Cell Manufacturing ( http://arxiv.org/abs/2110.01387v1 )

ライセンス: Link先を確認
Zhe Liu, Nicholas Rolston, Austin C. Flick, Thomas Colburn, Zekun Ren, Reinhold H. Dauskardt, Tonio Buonassisi(参考訳) 太陽光発電(PV)は、実験室規模の小型デバイスの電力変換効率の観点から、過去10年間に急速に発展してきたが、商業化にはまだ、低コストでスケーラブルで高スループットな製造技術をさらに発展させる必要がある。 新しい製造技術を開発する上で重要な課題の1つは高次元パラメータ空間であり、機械学習(ML)はペロブスカイトPVスケーリングの高速化に利用できる。 本稿では,製造プロセス最適化のための逐次学習のMLフレームワークを提案する。 本手法は環境条件下でペロブスカイト薄膜の高速溶射プラズマ処理(rspp)技術に適用する。 100条件プロセス条件のスクリーニングに関する実験予算が限られていたため、最良装置の効率が18.5%に向上し、17%以上の効率で最高性能の装置を製造するための10の条件が得られた。 私たちのモデルは3つのイノベーションによって実現されます a) 先行実験データからのデータをソフト制約として組み込むことによる実験プロセス間の柔軟な知識伝達 b) 次の実験を選択する際に、主観的人間の観察とMLの知見の両方を取り入れること。 c)まずベイズ最適化を用いて関心領域を同定し、次に高効率デバイスのための局所探索を行う適応戦略。 仮想ベンチマークでは,従来の1変数・アズ・ア・タイムサンプリング法よりも限られた実験予算で高速な改善を実現している。 さらに、このフレームワークは、ML誘導最適化ループにおける研究者のドメイン知識を可能にすることが示されており、従って、PV製造をペロブスカイトするスケーリングにおけるMLの広範な採用を促進する可能性がある。

Photovoltaics (PV) have achieved rapid development in the past decade in terms of power conversion efficiency of lab-scale small-area devices; however, successful commercialization still requires further development of low-cost, scalable, and high-throughput manufacturing techniques. One of the key challenges to the development of a new fabrication technique is the high-dimensional parameter space, and machine learning (ML) can be used to accelerate perovskite PV scaling. Here, we present an ML framework of sequential learning for manufacturing process optimization. We apply our methodology to the Rapid Spray Plasma Processing (RSPP) technique for perovskite thin films in ambient conditions. With a limited experimental budget of screening 100 conditions process conditions, we demonstrated an efficiency improvement to 18.5% for the best performing device, and found 10 conditions to produce the top-performing devices of higher than 17% efficiency. Our model is enabled by three innovations: (a) flexible knowledge transfer between experimental processes by incorporating data from prior experimental data as a soft constraint; (b) incorporation of both subjective human observations and ML insights when selecting next experiments; (c) adaptive strategy of locating the region of interest using Bayesian optimization first, and then conducting local exploration for high-efficiency devices. In virtual benchmarking, our framework achieves faster improvements with limited experimental budgets than traditional design-of-experiments methods (e.g., one-variable-at-a-time sampling). In addition, this framework is shown to enable researchers' domain knowledge in the ML-guided optimization loop; therefore, it has the potential to facilitate the wider adoption of ML in scaling to perovskite PV manufacturing.
翻訳日:2021-10-05 15:11:49 公開日:2021-10-01
# 再生カーネル反復による特徴写像からの群ウェーブレット変換の再構成

Reconstructing group wavelet transform from feature maps with a reproducing kernel iteration ( http://arxiv.org/abs/2110.00600v1 )

ライセンス: Link先を確認
Davide Barbieri(参考訳) 本稿では,単純細胞受容野の古典モデルと一次視覚野における特徴的嗜好写像に動機づけられた,その$se(2)$ wavelet変換の空間でダウンサンプリングされた画像を再構成する問題を考察する。 課題が解決可能であれば,基本計画によって再構築が得られ,群構造から生じる再生核に基づく反復スキームを置き換えることができ,実画像上で数値的な結果を示すことができる。

In this paper we consider the problem of reconstructing an image that is downsampled in the space of its $SE(2)$ wavelet transform, which is motivated by classical models of simple cells receptive fields and feature preference maps in primary visual cortex. We prove that, whenever the problem is solvable, the reconstruction can be obtained by an elementary project and replace iterative scheme based on the reproducing kernel arising from the group structure, and show numerical results on real images.
翻訳日:2021-10-05 15:08:41 公開日:2021-10-01
# グラフ構造コストによる最適輸送問題の複雑性について

On the complexity of the optimal transport problem with graph-structured cost ( http://arxiv.org/abs/2110.00627v1 )

ライセンス: Link先を確認
Jiaojiao Fan, Isabel Haasler, Johan Karlsson, Yongxin Chen(参考訳) multi-marginal optimal transport (mot) は、複数の辺への最適輸送の一般化である。 最適なトランスポートは、多くの機械学習アプリケーションで重要なツールへと進化し、そのマルチマルジナル拡張は、機械学習の分野における新たな課題に対処するために開いている。 しかし、MOTの使用は、その計算複雑性によって大きく妨げられ、限界数で指数関数的にスケールする。 幸いなことに、バリセンタや補間問題などの多くのアプリケーションでは、コスト関数は構造に依存しており、これは近年、効率的な計算方法の開発に利用されてきた。 この研究では、これらの手法の計算限界を導出する。 m$ の辺分布が$n$ の点でサポートされたとき、直径 $d(G)$ のツリーと関係があるとき、$$$ epsilon$-精度に対して$ \mathcal{\tilde O}(d(G)m n^2\epsilon^{-2})$ が与えられる。 星の形をした木に対応するワッサーシュタイン・バリセンタ問題の特別な場合、我々の境界はそれに対応する既存の複雑さと一致している。

Multi-marginal optimal transport (MOT) is a generalization of optimal transport to multiple marginals. Optimal transport has evolved into an important tool in many machine learning applications, and its multi-marginal extension opens up for addressing new challenges in the field of machine learning. However, the usage of MOT has been largely impeded by its computational complexity which scales exponentially in the number of marginals. Fortunately, in many applications, such as barycenter or interpolation problems, the cost function adheres to structures, which has recently been exploited for developing efficient computational methods. In this work we derive computational bounds for these methods. With $m$ marginal distributions supported on $n$ points, we provide a $ \mathcal{\tilde O}(d(G)m n^2\epsilon^{-2})$ bound for a $\epsilon$-accuracy when the problem is associated with a tree with diameter $d(G)$. For the special case of the Wasserstein barycenter problem, which corresponds to a star-shaped tree, our bound is in alignment with the existing complexity bound for it.
翻訳日:2021-10-05 15:08:32 公開日:2021-10-01
# 強化学習を用いた不確実性を考慮した自律走行車の運動計画

Motion Planning for Autonomous Vehicles in the Presence of Uncertainty Using Reinforcement Learning ( http://arxiv.org/abs/2110.00640v1 )

ライセンス: Link先を確認
Kasra Rezaee, Peyman Yadmellat, Simon Chamorro(参考訳) 不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。 本研究では, 視野, 咬合, 知覚範囲の制限による知覚・知覚の不確実性に注目した。 この問題は、受動的安全性を保証するために、遮蔽領域や感知範囲を超えた仮説上の隠れ物体を考えることでしばしば解決される。 しかし、これは保守的な計画と高価な計算、特に多くの仮説上の対象を考える必要がある場合に生じる。 最悪の事例を最適化して不確実性を管理するための強化学習(RL)に基づくソリューションを提案する。 このアプローチは、エージェントが期待される平均的な報酬を最大化しようとする従来のRLとは対照的である。 提案手法は分布rlの上に構築され,その政策最適化により確率的結果の下限を最大化する。 この修正は、様々なRLアルゴリズムに適用できる。 概念実証として、この手法は2つの異なるRLアルゴリズム、Soft Actor-CriticとDQNに適用される。 このアプローチは、狭視野の閉塞道路と曲がりくねった道路を横断する歩行者の2つの困難なシナリオに対して評価される。 このアルゴリズムはSUMOトラフィックシミュレータを用いて訓練および評価を行う。 提案手法は従来のrlアルゴリズムよりもはるかに優れた動作計画動作を示し,人間の運転スタイルと同等に振る舞う。

Motion planning under uncertainty is one of the main challenges in developing autonomous driving vehicles. In this work, we focus on the uncertainty in sensing and perception, resulted from a limited field of view, occlusions, and sensing range. This problem is often tackled by considering hypothetical hidden objects in occluded areas or beyond the sensing range to guarantee passive safety. However, this may result in conservative planning and expensive computation, particularly when numerous hypothetical objects need to be considered. We propose a reinforcement learning (RL) based solution to manage uncertainty by optimizing for the worst case outcome. This approach is in contrast to traditional RL, where the agents try to maximize the average expected reward. The proposed approach is built on top of the Distributional RL with its policy optimization maximizing the stochastic outcomes' lower bound. This modification can be applied to a range of RL algorithms. As a proof-of-concept, the approach is applied to two different RL algorithms, Soft Actor-Critic and DQN. The approach is evaluated against two challenging scenarios of pedestrians crossing with occlusion and curved roads with a limited field of view. The algorithm is trained and evaluated using the SUMO traffic simulator. The proposed approach yields much better motion planning behavior compared to conventional RL algorithms and behaves comparably to humans driving style.
翻訳日:2021-10-05 15:08:09 公開日:2021-10-01
# 階層的計画と強化学習を用いたマルチレーンクルーティング

Multi-lane Cruising Using Hierarchical Planning and Reinforcement Learning ( http://arxiv.org/abs/2110.00650v1 )

ライセンス: Link先を確認
Kasra Rezaee, Peyman Yadmellat, Masoud S. Nosrati, Elmira Amirloo Abolfathi, Mohammed Elmahgiubi, Jun Luo(参考訳) 有能なマルチレーン巡航には、車線変更と車線内操作を使用して、良好な速度と安全性を維持する必要がある。 本稿では,階層型強化学習フレームワークと新しい状態動作空間抽象化を組み合わせた自律型マルチレーンクルーティングの設計を提案する。 提案手法は行動決定, 行動計画, 制御の古典的階層に従うが, 高レベルな行動決定に従って状態-行動空間を識別するために, 運動プランナ内の重要な中間抽象概念を導入する。 この設計は、モノリシックな動作のクローン化や手書きのルールの大きなセットを使用するのとは対照的に、動作計画の原則的拡張を可能にする。 さらに,この状態-動作空間の抽象化により,シミュレーション環境から動的に再トレーニングすることなく,よりリアルなダイナミクスを持つ環境へ,トレーニングされたモデルを移行できることを実証する。 これらの結果から,提案する階層型アーキテクチャは,実世界の複雑なマルチレーン巡航に強化学習を適用するための有望な方法であることが示唆された。

Competent multi-lane cruising requires using lane changes and within-lane maneuvers to achieve good speed and maintain safety. This paper proposes a design for autonomous multi-lane cruising by combining a hierarchical reinforcement learning framework with a novel state-action space abstraction. While the proposed solution follows the classical hierarchy of behavior decision, motion planning and control, it introduces a key intermediate abstraction within the motion planner to discretize the state-action space according to high level behavioral decisions. We argue that this design allows principled modular extension of motion planning, in contrast to using either monolithic behavior cloning or a large set of hand-written rules. Moreover, we demonstrate that our state-action space abstraction allows transferring of the trained models without retraining from a simulated environment with virtually no dynamics to one with significantly more realistic dynamics. Together, these results suggest that our proposed hierarchical architecture is a promising way to allow reinforcement learning to be applied to complex multi-lane cruising in the real world.
翻訳日:2021-10-05 15:07:48 公開日:2021-10-01
# ハイブリッド機械学習と分類器の組み合わせによる家庭用睡眠時無呼吸のオンライン検出

Online Obstructive Sleep Apnea Detection Based on Hybrid Machine Learning And Classifier Combination For Home-based Applications ( http://arxiv.org/abs/2110.00660v1 )

ライセンス: Link先を確認
Hosna Ghandeharioun(参考訳) 閉塞型睡眠時無呼吸症候群(OSA)の自動検出が要求されている。 OSAは現在の世紀で最も一般的な病気の1つであり、コビッド19との共生を確立した。 OSAは、睡眠中に完全にまたは相対的な呼吸停止を特徴とする。 医学的な観察によると、OSAが認識されず、治療を受けていない場合、身体的および精神的な合併症を引き起こす可能性がある。 osaの重症度をスコアするゴールドスタンダードは、時間と費用のかかるポリソムノグラフィ(psg)である。 OSAのオンラインホームベースの監視というアイデアは歓迎される。 睡眠クリニックへの患者の検出と参照を促進させる効果的な方法として機能する。 また、治療・補助装置の自動制御も行うことができる。 本稿では,オンラインOSA検出のためのいくつかの構成を提案する。 最高の構成では、ECG信号とSpO2信号の両方を特徴抽出に使用し、特徴量削減にMI分析を使用する。 教師あり機械学習の様々な手法を分類に活用する。 最後に、最良の結果に達するために、感度と特異性において最も成功した分類器は、4つの異なる組み合わせ方法を持つ3人のメンバーのグループに結合される。 提案手法は, 生体信号の使用制限, 自動検出, オンライン作業計画, 均一かつ許容可能な全データベースの性能(85%以上) などの利点を有する。 これらの利点は、以前の公開メソッドには統合されていない。

Automatic detection of obstructive sleep apnea (OSA) is in great demand. OSA is one of the most prevalent diseases of the current century and established comorbidity to Covid-19. OSA is characterized by complete or relative breathing pauses during sleep. According to medical observations, if OSA remained unrecognized and un-treated, it may lead to physical and mental complications. The gold standard of scoring OSA severity is the time-consuming and expensive method of polysomnography (PSG). The idea of online home-based surveillance of OSA is welcome. It serves as an effective way for spurred detection and reference of patients to sleep clinics. In addition, it can perform automatic control of the therapeutic/assistive devices. In this paper, several configurations for online OSA detection are proposed. The best configuration uses both ECG and SpO2 signals for feature extraction and MI analysis for feature reduction. Various methods of supervised machine learning are exploited for classification. Finally, to reach the best result, the most successful classifiers in sensitivity and specificity are combined in groups of three members with four different combination methods. The proposed method has advantages like limited use of biological signals, automatic detection, online working scheme, and uniform and acceptable performance (over 85%) in all the employed databases. These advantages have not been integrated in previous published methods.
翻訳日:2021-10-05 15:07:28 公開日:2021-10-01
# 単細胞RNAシークエンシングデータを用いた細胞型分類法の体系的評価

A systematic evaluation of methods for cell phenotype classification using single-cell RNA sequencing data ( http://arxiv.org/abs/2110.00681v1 )

ライセンス: Link先を確認
Xiaowen Cao, Li Xing, Elham Majd, Hua He, Junhua Gu, Xuekui Zhang(参考訳) 背景: 単細胞RNAシークエンシング(scRNA-seq)は遺伝子発現に関する貴重な洞察を与え、複雑な組織細胞組成について重要な情報を与える。 単細胞rnaシークエンシングの解析において、細胞サブタイプのアノテーションはしばしば手動で行われ、これは時間消費であり、再現不可能である。 garnettは、elastic netメソッドに基づいたセル型のアノテーションソフトウェアである。 細胞型アノテーションの他に、教師付き機械学習手法はゲノムデータから他の細胞表現型を予測するためにも応用できる。 このような応用が普及しているにもかかわらず、これらの教師付きアルゴリズムの性能を様々なサイズのscRNA-seqデータセットで体系的に研究する研究は存在しない。 方法と結果: 本研究は,13種類の教師付き機械学習アルゴリズムを評価し,細胞サイズの異なる実データとシミュレーションデータセットを用いて細胞表現型を分類する。 ベンチマークには2つの部分が含まれていた。 まず,一般的な教師付きアルゴリズムの計算速度とセル表現型分類性能を評価するために,実データを用いた。 分類性能はAUC統計,F1スコア,精度,リコール,偽陽性率を用いて評価した。 第2部では、既知の実遺伝子リストを持つシミュレーションデータセットを用いて、遺伝子選択性能の評価を行った。 結論: 調査の結果、ElasticNetと相互作用は、中小のデータセットで最もよく機能したことがわかった。 NBは媒体データセットの別の適切な方法であった。 大きなデータセットでは、xgbは素晴らしい働きをします。 アンサンブルアルゴリズムは個々の機械学習手法にはあまり優れていなかった。 ElasticNetへのインタラクションの追加は有効であり、小さなデータセットでは改善が重要だった。

Background: Single-cell RNA sequencing (scRNA-seq) yields valuable insights about gene expression and gives critical information about complex tissue cellular composition. In the analysis of single-cell RNA sequencing, the annotations of cell subtypes are often done manually, which is time-consuming and irreproducible. Garnett is a cell-type annotation software based the on elastic net method. Besides cell-type annotation, supervised machine learning methods can also be applied to predict other cell phenotypes from genomic data. Despite the popularity of such applications, there is no existing study to systematically investigate the performance of those supervised algorithms in various sizes of scRNA-seq data sets. Methods and Results: This study evaluates 13 popular supervised machine learning algorithms to classify cell phenotypes, using published real and simulated data sets with diverse cell sizes. The benchmark contained two parts. In the first part, we used real data sets to assess the popular supervised algorithms' computing speed and cell phenotype classification performance. The classification performances were evaluated using AUC statistics, F1-score, precision, recall, and false-positive rate. In the second part, we evaluated gene selection performance using published simulated data sets with a known list of real genes. Conclusion: The study outcomes showed that ElasticNet with interactions performed best in small and medium data sets. NB was another appropriate method for medium data sets. In large data sets, XGB works excellent. Ensemble algorithms were not significantly superior to individual machine learning methods. Adding interactions to ElasticNet can help, and the improvement was significant in small data sets.
翻訳日:2021-10-05 15:07:07 公開日:2021-10-01
# 非線形安定解析と学習ベース制御のための契約理論:チュートリアル概要

Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview ( http://arxiv.org/abs/2110.00675v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Soon-Jo Chung and Jean-Jacques Slotine(参考訳) 縮約理論は、一様正の定値行列で定義される縮約計量の下で定義される非自発的(すなわち時変)非線形系の微分力学を研究する解析的ツールであり、その存在は、互いに、複数の解軌道の漸進的指数的安定性の必要十分かつ十分なキャラクタリゼーションをもたらす。 二乗微分長をリアプノフ様函数として用いることにより、その非線形安定性解析は、線形行列不等式として表される安定性条件を満たす適切な収縮計量を見つけ、よく知られた線形系理論と非線形系の収縮理論の間に多くの平行性を引き出すことができることを示す。 さらに、収縮理論は、比較補題と合わせて用いられる指数的安定性の優れた堅牢性を利用する。 これにより、入力から状態への安定性に一様漸近安定性を用いるより複雑な手法を使わずに、ニューラルネットワークベースの制御と推定スキームの安全性と安定性を保証することができる。 このような特徴により、凸最適化による収縮計量の体系的な構成が可能となり、時間変化目標軌道と外乱や学習誤差により外乱した解軌道との間の距離に明示的な指数境界が得られる。 そこで本研究では, 決定論的・確率論的システムの非線形安定性解析における制約理論とその優位性を概説し, 各種学習法およびデータ駆動自動制御法における形式的堅牢性と安定性保証の導出に着目した。 特に,ディープニューラルネットワークを用いた縮尺計測と関連する制御・推定則の発見手法について,詳細なレビューを行う。

Contraction theory is an analytical tool to study differential dynamics of a non-autonomous (i.e., time-varying) nonlinear system under a contraction metric defined with a uniformly positive definite matrix, the existence of which results in a necessary and sufficient characterization of incremental exponential stability of multiple solution trajectories with respect to each other. By using a squared differential length as a Lyapunov-like function, its nonlinear stability analysis boils down to finding a suitable contraction metric that satisfies a stability condition expressed as a linear matrix inequality, indicating that many parallels can be drawn between well-known linear systems theory and contraction theory for nonlinear systems. Furthermore, contraction theory takes advantage of a superior robustness property of exponential stability used in conjunction with the comparison lemma. This yields much-needed safety and stability guarantees for neural network-based control and estimation schemes, without resorting to a more involved method of using uniform asymptotic stability for input-to-state stability. Such distinctive features permit systematic construction of a contraction metric via convex optimization, thereby obtaining an explicit exponential bound on the distance between a time-varying target trajectory and solution trajectories perturbed externally due to disturbances and learning errors. The objective of this paper is therefore to present a tutorial overview of contraction theory and its advantages in nonlinear stability analysis of deterministic and stochastic systems, with an emphasis on deriving formal robustness and stability guarantees for various learning-based and data-driven automatic control methods. In particular, we provide a detailed review of techniques for finding contraction metrics and associated control and estimation laws using deep neural networks.
翻訳日:2021-10-05 15:03:38 公開日:2021-10-01
# 風速予測のための多スケールグラフウェーブネット

Multi Scale Graph Wavenet for Wind Speed Forecasting ( http://arxiv.org/abs/2109.15239v2 )

ライセンス: Link先を確認
Neetesh Rathore, Pradeep Rathore, Arghya Basak, Sri Harsha Nistala, Venkataramana Runkana(参考訳) 幾何学的深層学習は、任意の構造を表現する本質的な能力のため、学術と産業の両方で大きな注目を集めている。 再生可能エネルギー、特に風力エネルギーへの関心が指数関数的に高まり、正確な風速予測は非常に重要になっている。 . 本稿では,風速予測のための新しいディープラーニングアーキテクチャであるマルチスケールグラフウェーブネットを提案する。 グラフ畳み込みニューラルネットワークに基づき、風速予測のための多変量時系列気象データにおける空間的・時間的関係をキャプチャする。 特に,拡張畳み込みやスキップ接続,インセプションネットワークから着想を得て,時間的関係とグラフ畳み込みネットワークを捉え,空間的関係を捉えた。 デンマークの異なる都市で観測された実風速データについて実験を行い,最先端のベースラインモデルと比較した。 我々の新しいアーキテクチャは、複数の予測地平線に対する風速予測の最先端手法を4-5%向上させた。

Geometric deep learning has gained tremendous attention in both academia and industry due to its inherent capability of representing arbitrary structures. Due to exponential increase in interest towards renewable sources of energy, especially wind energy, accurate wind speed forecasting has become very important. . In this paper, we propose a novel deep learning architecture, Multi Scale Graph Wavenet for wind speed forecasting. It is based on a graph convolutional neural network and captures both spatial and temporal relationships in multivariate time series weather data for wind speed forecasting. We especially took inspiration from dilated convolutions, skip connections and the inception network to capture temporal relationships and graph convolutional networks for capturing spatial relationships in the data. We conducted experiments on real wind speed data measured at different cities in Denmark and compared our results with the state-of-the-art baseline models. Our novel architecture outperformed the state-of-the-art methods on wind speed forecasting for multiple forecast horizons by 4-5%.
翻訳日:2021-10-05 09:14:36 公開日:2021-10-01
# 深層ネットワークにおける自己指導型学習のための生物プラウジブルトレーニング機構

Biologically Plausible Training Mechanisms for Self-Supervised Learning in Deep Networks ( http://arxiv.org/abs/2109.15089v2 )

ライセンス: Link先を確認
Mufeng Tang, Yibo Yang, Yali Amit(参考訳) 我々は,深層ネットワークにおける自己教師付き学習(SSL)のための生物学的に妥当なトレーニング機構を開発する。 SSLは、ラベル付きデータを必要とせず、摂動に対する堅牢性がより適応可能な埋め込みをもたらすため、対照的な損失がある。 さらに、動作中の物体を観察し、時間とともに変動した照明で、SSLの正のペアを作成するために必要なデータの摂動を自然環境において容易に生成する。 本稿では,本論文で採用されている標準的なコントラスト的損失とは対照的に,単純な局所計算を伴う逆ヒンジに基づく損失を,比と内積を含む複雑な計算によるネットワークアーキテクチャの実装に容易には適用できないことを示す。 さらに,バックプロパゲーションの2つの選択肢の1つを用いて学習を行うことができることを示す。 1つ目は差動目標伝播(DTP)であり、これは標的に基づく局所的損失を用いてネットワークパラメータを訓練し、ヘビアン学習規則を用いて、逆伝播において生物学的に不確実な対称重み問題に打ち勝つ。 2つ目は単にレイヤ学習であり、各レイヤは損失エラーを計算するレイヤに直接接続される。 それぞれのトレーニングステージは、単一の隠れレイヤネットワークを含む、グリーディなスタイル(gll)またはランダム順序(rll)で順次更新される。 それぞれのネットワークに必要な1ステップのバックプロパゲーションは、lillicrap et al. (2016) で提案されたように、固定されたランダムなフィードバック重みで変更するか、あるいは amit (2019) で更新されたランダムフィードバックを使用して変更することができる。 どちらの方法も、バックプロパゲーションの対称重み問題に代わるものである。 SSL, DTP, GLL, RLLによる畳み込みニューラルネットワーク(CNN)のトレーニングにより, 提案するフレームワークは, 線形評価と伝達学習の両タスクにおいて, 予測できないような性能を達成できることがわかった。

We develop biologically plausible training mechanisms for self-supervised learning (SSL) in deep networks. SSL, with a contrastive loss, is more natural as it does not require labelled data and its robustness to perturbations yields more adaptable embeddings. Moreover the perturbation of data required to create positive pairs for SSL is easily produced in a natural environment by observing objects in motion and with variable lighting over time. We propose a contrastive hinge based loss whose error involves simple local computations as opposed to the standard contrastive losses employed in the literature, which do not lend themselves easily to implementation in a network architecture due to complex computations involving ratios and inner products. Furthermore we show that learning can be performed with one of two more plausible alternatives to backpropagation. The first is difference target propagation (DTP), which trains network parameters using target-based local losses and employs a Hebbian learning rule, thus overcoming the biologically implausible symmetric weight problem in backpropagation. The second is simply layer-wise learning, where each layer is directly connected to a layer computing the loss error. The layers are either updated sequentially in a greedy fashion (GLL) or in random order (RLL), and each training stage involves a single hidden layer network. The one step backpropagation needed for each such network can either be altered with fixed random feedback weights as proposed in Lillicrap et al. (2016), or using updated random feedback as in Amit (2019). Both methods represent alternatives to the symmetric weight issue of backpropagation. By training convolutional neural networks (CNNs) with SSL and DTP, GLL or RLL, we find that our proposed framework achieves comparable performance to its implausible counterparts in both linear evaluation and transfer learning tasks.
翻訳日:2021-10-05 09:14:22 公開日:2021-10-01
# (参考訳) useridentifier: シンプルで効果的なパーソナライズ感情分析のための暗黙のユーザ表現

UserIdentifier: Implicit User Representations for Simple and Effective Personalized Sentiment Analysis ( http://arxiv.org/abs/2110.00135v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Vaishnavi Shrivastava, Milad Shokouhi, Taylor Berg-Kirkpatrick, Robert Sim, Dimitrios Dimitriadis(参考訳) グローバルモデルは可能な限り一般化可能であるように訓練されており、モデルが複数のユーザ間で共有されるため、ユーザの不変性は望ましいと考えられる。 したがって、これらのモデルは、データに基づいて個々のユーザに対してパーソナライズされた応答を生成できないことが多い。 少人数の学習に基づくパーソナライズ手法とは対照的に,全ユーザを対象とした1つの共有モデルをトレーニングするための新しいスキームであるUserIdentifierを提案する。 提案手法は,入力データに固定された非トレーニング可能なユーザ識別子を追加することで,パーソナライズされた応答を生成する。 我々は,提案手法が感情分析データセットのスイート上で,プレフィックスチューニングに基づく最先端のアプローチを最大13%上回っていることを実証的に示す。 また,従来の作業とは異なり,この手法では追加のモデルパラメータや数発の微調整の余分なラウンドは不要であることを示す。

Global models are trained to be as generalizable as possible, with user invariance considered desirable since the models are shared across multitudes of users. As such, these models are often unable to produce personalized responses for individual users, based on their data. Contrary to widely-used personalization techniques based on few-shot learning, we propose UserIdentifier, a novel scheme for training a single shared model for all users. Our approach produces personalized responses by adding fixed, non-trainable user identifiers to the input data. We empirically demonstrate that this proposed method outperforms the prefix-tuning based state-of-the-art approach by up to 13%, on a suite of sentiment analysis datasets. We also show that, unlike prior work, this method needs neither any additional model parameters nor any extra rounds of few-shot fine-tuning.
翻訳日:2021-10-05 02:43:20 公開日:2021-10-01
# (参考訳) フィリピンにおける可読性評価モデルの解釈

Under the Microscope: Interpreting Readability Assessment Models for Filipino ( http://arxiv.org/abs/2110.00157v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 可読性評価(英: Readability Assessment)とは、あるテキストの読みやすさや難易度を特定する過程である。 機械学習アルゴリズムを用いて訓練されたより複雑なパターン認識モデルへの算術式の使用から進化してきた。 これらのアプローチは競争的な結果をもたらすが、言語変数がモデル推論に定量的にどのように影響するかを分析することは限られている。 本研究では,フィリピンにおける機械学習に基づく可読性評価モデルについて,様々な言語的特徴の寄与を理解するためにグローバルおよびローカルモデル解釈を行い,その意味をフィリピン語の文脈で論じる。 その結果,大域的解釈から上位特徴を学習したモデルを用いて,スピアマン相関を用いたモデルよりも高い性能を示した。 また, 局所的特徴量境界を用いて, 極めて微細なレベルで読み難さを識別し, 値が乱れれば対応する効果を実証した。

Readability assessment is the process of identifying the level of ease or difficulty of a certain piece of text for its intended audience. Approaches have evolved from the use of arithmetic formulas to more complex pattern-recognizing models trained using machine learning algorithms. While using these approaches provide competitive results, limited work is done on analyzing how linguistic variables affect model inference quantitatively. In this work, we dissect machine learning-based readability assessment models in Filipino by performing global and local model interpretation to understand the contributions of varying linguistic features and discuss its implications in the context of the Filipino language. Results show that using a model trained with top features from global interpretation obtained higher performance than the ones using features selected by Spearman correlation. Likewise, we also empirically observed local feature weight boundaries for discriminating reading difficulty at an extremely fine-grained level and their corresponding effects if values are perturbed.
翻訳日:2021-10-05 02:34:57 公開日:2021-10-01
# (参考訳) 自己と半教師付き学習による大規模ASRドメイン適応

Large-scale ASR Domain Adaptation by Self- and Semi-supervised Learning ( http://arxiv.org/abs/2110.00165v1 )

ライセンス: CC BY 4.0
Dongseong Hwang, Ananya Misra, Zhouyuan Huo, Nikhil Siddhartha, Shefali Garg, David Qiu, Khe Chai Sim, Trevor Strohman, Fran\c{c}oise Beaufays, Yanzhang He(参考訳) ラベル付きトレーニングデータの削減やモデル性能の向上のために,自己指導型・半教師型学習法が積極的に研究されている。 しかしこのアプローチは主に、パブリックデータセットのドメイン内パフォーマンスに重点を置いている。 本研究では,オンラインASRモデルのための大規模生産環境において,自己学習と半教師あり学習を組み合わせることで,未確認領域適応問題を解決する。 このアプローチは、ターゲットドメインデータのごく一部(3%)のソースドメインデータを使用することで、完全なデータベースラインと比較してパフォーマンスギャップを回復できることを示しています。

Self- and Semi-supervised learning methods have been actively investigated to reduce labeled training data or enhance the model performance. However, the approach mostly focus on in-domain performance for public datasets. In this study, we utilize the combination of self- and semi-supervised learning methods to solve unseen domain adaptation problem in a large-scale production setting for online ASR model. This approach demonstrates that using the source domain data with a small fraction of the target domain data (3%) can recover the performance gap compared to a full data baseline: relative 13.5% WER improvement for target domain data.
翻訳日:2021-10-05 02:24:32 公開日:2021-10-01
# (参考訳) 液滴衝突結果の予測のための機械学習モデル

Machine learning models for prediction of droplet collision outcomes ( http://arxiv.org/abs/2110.00167v1 )

ライセンス: CC BY 4.0
Arpit Agarwal(参考訳) 液滴衝突の結果を予測することは広く研究されている現象であるが、結果を予測するための現在の物理モデルは貧弱である(約43\%$)。 これらのモデルの鍵となる弱点は、複雑さの制限である。 それらは3つの機能しか説明していないが、もっと関連性の高い機能が数多くある。 従来のモデルのこの制限は、問題の機械学習モデリングによって容易に克服できる。 ML設定では、この問題は4つのクラスを持つ分類問題に直接変換される。 ここでは、大きなラベル付きデータセットをコンパイルし、このデータセット上で異なるML分類器をチューニングする。 分類器の精度と堅牢性を評価する。 精度が90%を超えるML分類器は、物理モデルよりも大幅に優れている。 この論文では、物理モデルに関する既存の知識がML分類器の精度を高めるために活用できるかどうか、もう1つの重要な疑問に答えようとしている。 この知識は小さなデータセットの精度を極端に向上させるが、より大きなデータセットを使用してモデルをトレーニングしても精度は向上しない。

Predicting the outcome of liquid droplet collisions is an extensively studied phenomenon but the current physics based models for predicting the outcomes are poor (accuracy $\approx 43\%$). The key weakness of these models is their limited complexity. They only account for 3 features while there are many more relevant features that go unaccounted for. This limitation of traditional models can be easily overcome through machine learning modeling of the problem. In an ML setting this problem directly translates to a classification problem with 4 classes. Here we compile a large labelled dataset and tune different ML classifiers over this dataset. We evaluate the accuracy and robustness of the classifiers. ML classifiers, with accuracies over 90\%, significantly outperform the physics based models. Another key question we try to answer in this paper is whether existing knowledge of the physics based models can be exploited to boost the accuracy of the ML classifiers. We find that while this knowledge improves the accuracy marginally for small datasets, it does not improve accuracy with if larger datasets are used for training the models.
翻訳日:2021-10-05 02:15:08 公開日:2021-10-01
# (参考訳) 新型コロナウイルス予測モデルの実証的定量分析

Empirical Quantitative Analysis of COVID-19 Forecasting Models ( http://arxiv.org/abs/2110.00174v1 )

ライセンス: CC BY 4.0
Yun Zhao, Yuqing Wang, Junfeng Liu, Haotian Xia, Zhenni Xu, Qinghang Hong, Zhiyang Zhou, Linda Petzold(参考訳) 新型コロナウイルスは2020年初め以降、国際的に懸念される公衆衛生上の緊急事態となっている。 この病気の影響を減らすには信頼できる予測が不可欠である。 これまで,統計モデル,コンパートメンタルモデル,ディープラーニングモデルなど,さまざまな予測モデルが提案されてきた。 しかし、経済や政府政策など、様々な地域をまたがるさまざまな不確定な要因から、全てのシナリオにおいて予測モデルが最善のものとは思えない。 本稿では,米国各地域で確認された症例と死亡の予測を,予測の地平線によって定量的に分析し,モデル選択,ハイパーパラメータチューニング,トレーニングに必要な時系列の長さといった評価指標を用いて,以下の3次元が予測性能(改善と変動)に与える影響を定量的に評価する。 ディメンションがパフォーマンス向上をもたらすならば、十分に調整されていない場合には、パフォーマンス上のペナルティもより厳しくなります。 さらに、モデル選択が予測性能を決定する主要な要因である。 さまざまな領域にわたる予測タスクにおいて、最大の改善と最大のパフォーマンス変化の両方を担っている。 実践者は実際により複雑な時系列分析を行うことができるが、モデル選択のような重要な決定について十分な洞察があれば、合理的な結果が得られるべきである。

COVID-19 has been a public health emergency of international concern since early 2020. Reliable forecasting is critical to diminish the impact of this disease. To date, a large number of different forecasting models have been proposed, mainly including statistical models, compartmental models, and deep learning models. However, due to various uncertain factors across different regions such as economics and government policy, no forecasting model appears to be the best for all scenarios. In this paper, we perform quantitative analysis of COVID-19 forecasting of confirmed cases and deaths across different regions in the United States with different forecasting horizons, and evaluate the relative impacts of the following three dimensions on the predictive performance (improvement and variation) through different evaluation metrics: model selection, hyperparameter tuning, and the length of time series required for training. We find that if a dimension brings about higher performance gains, if not well-tuned, it may also lead to harsher performance penalties. Furthermore, model selection is the dominant factor in determining the predictive performance. It is responsible for both the largest improvement and the largest variation in performance in all prediction tasks across different regions. While practitioners may perform more complicated time series analysis in practice, they should be able to achieve reasonable results if they have adequate insight into key decisions like model selection.
翻訳日:2021-10-05 02:08:19 公開日:2021-10-01
# (参考訳) DualNet: 継続的な学習,高速,スロー

DualNet: Continual Learning, Fast and Slow ( http://arxiv.org/abs/2110.00175v1 )

ライセンス: CC BY 4.0
Quang Pham, Chenghao Liu, Steven Hoi(参考訳) 神経科学における補足学習システム (cls) の理論 〜\citep{mcclelland1995there} によれば、人間は2つの補足的なシステムを通して効果的な \emph{continual learning} を行う。 この理論により、特定のタスクからパターン分離表現の教師付き学習を行う高速学習システムと、自己監視学習(SSL)技術を用いてタスク非依存の汎用表現の教師なし学習を行う遅い学習システムとからなる、新しい連続学習フレームワーク「DualNet」を提案する。 2つの高速で遅い学習システムは相補的で、総合的な連続学習フレームワークでシームレスに動作します。 CORE50とminiImageNetの2つの挑戦的連続学習ベンチマークに関する広範な実験により、DualNetは最先端の連続学習方法よりも大きなマージンで優れていることが示された。 さらに,デュアルネットの有効性,ロバスト性,スケーラビリティを検証するために,異なるssl目標のアブレーション研究を行う。 コードは受理次第利用可能になる。

According to Complementary Learning Systems (CLS) theory~\citep{mcclelland1995there} in neuroscience, humans do effective \emph{continual learning} through two complementary systems: a fast learning system centered on the hippocampus for rapid learning of the specifics and individual experiences, and a slow learning system located in the neocortex for the gradual acquisition of structured knowledge about the environment. Motivated by this theory, we propose a novel continual learning framework named "DualNet", which comprises a fast learning system for supervised learning of pattern-separated representation from specific tasks and a slow learning system for unsupervised representation learning of task-agnostic general representation via a Self-Supervised Learning (SSL) technique. The two fast and slow learning systems are complementary and work seamlessly in a holistic continual learning framework. Our extensive experiments on two challenging continual learning benchmarks of CORE50 and miniImageNet show that DualNet outperforms state-of-the-art continual learning methods by a large margin. We further conduct ablation studies of different SSL objectives to validate DualNet's efficacy, robustness, and scalability. Code will be made available upon acceptance.
翻訳日:2021-10-05 01:48:23 公開日:2021-10-01
# (参考訳) エネルギー市場における需要予測の改善

Improving Load Forecast in Energy Markets During COVID-19 ( http://arxiv.org/abs/2110.00181v1 )

ライセンス: CC BY 4.0
Ziyun Wang and Hao Wang(参考訳) 新型コロナウイルスのパンデミック(COVID-19)の急激な流行は、2020年で最も重要な出来事であり、世界中で深刻な影響が続いた。 エネルギー市場の研究は、新型コロナウイルスによるエネルギー需要の減少とエネルギー消費行動の変化を観察した。 しかし、システム運用の不可欠な部分として、covid-19による負荷予測の実施方法については、よく分かっていない。 本稿では,covid-19の負荷予測性能を改善するためのモデルや機能を体系的に評価することで,研究のギャップを埋めることを目的とする。 ニューヨーク独立系オペレーターの現実世界のデータを使って、3つのディープラーニングモデルを採用し、新しい新型コロナウイルス関連機能と古典的な気象関連機能の両方を採用した。 また,自宅待機状況と自宅待機前の週末データとのシミュレーションを行い,covid-19時の負荷予測精度の向上効果を実証する。

The abrupt outbreak of the COVID-19 pandemic was the most significant event in 2020, which had profound and lasting impacts across the world. Studies on energy markets observed a decline in energy demand and changes in energy consumption behaviors during COVID-19. However, as an essential part of system operation, how the load forecasting performs amid COVID-19 is not well understood. This paper aims to bridge the research gap by systematically evaluating models and features that can be used to improve the load forecasting performance amid COVID-19. Using real-world data from the New York Independent System Operator, our analysis employs three deep learning models and adopts both novel COVID-related features as well as classical weather-related features. We also propose simulating the stay-at-home situation with pre-stay-at-home weekend data and demonstrate its effectiveness in improving load forecasting accuracy during COVID-19.
翻訳日:2021-10-05 01:31:34 公開日:2021-10-01
# (参考訳) 新型コロナ患者の遮蔽を予想する研究

Predicting COVID-19 Patient Shielding: A Comprehensive Study ( http://arxiv.org/abs/2110.00183v1 )

ライセンス: CC BY 4.0
Vithya Yogarajan and Jacob Montiel and Tony Smith and Bernhard Pfahringer(参考訳) 新型コロナウイルス(COVID-19)のパンデミック対策には、予測、リスク管理、診断、予防など、機械学習とビッグデータ分析がさまざまな方法で使用されている。 本研究は、臨床的に極めて脆弱な患者を識別し、保護する新型コロナウイルス患者の遮蔽を予測することに焦点を当てている。 本研究は,医学文献のマルチラベル分類に使用する手法に注目した。 英国nhsと世界保健機関(who)が公表した情報を用いて、新型コロナウイルス患者の遮蔽をマルチラベル分類問題として予測する新しい手法を提案する。 実験にはicu医療用テキストデータを公開して公開しています。 ラベルは、新型コロナウイルス(covid-19)患者の遮蔽データに由来する。 ニューラルネットワークと最新のトランスフォーマーとの単純なバイナリ関連性から,12のマルチラベル分類器の比較を行った。 我々の知る限りでは、このような医学テキストの多ラベル分類器を考慮に入れた初めての総合的研究である。 我々は様々なアプローチの利点を強調し、目の前のタスクでは予測精度と処理時間の両方が不可欠であると主張する。

There are many ways machine learning and big data analytics are used in the fight against the COVID-19 pandemic, including predictions, risk management, diagnostics, and prevention. This study focuses on predicting COVID-19 patient shielding -- identifying and protecting patients who are clinically extremely vulnerable from coronavirus. This study focuses on techniques used for the multi-label classification of medical text. Using the information published by the United Kingdom NHS and the World Health Organisation, we present a novel approach to predicting COVID-19 patient shielding as a multi-label classification problem. We use publicly available, de-identified ICU medical text data for our experiments. The labels are derived from the published COVID-19 patient shielding data. We present an extensive comparison across 12 multi-label classifiers from the simple binary relevance to neural networks and the most recent transformers. To the best of our knowledge this is the first comprehensive study, where such a range of multi-label classifiers for medical text are considered. We highlight the benefits of various approaches, and argue that, for the task at hand, both predictive accuracy and processing time are essential.
翻訳日:2021-10-05 01:24:29 公開日:2021-10-01
# (参考訳) ユニットグラデーションの更新

Update in Unit Gradient ( http://arxiv.org/abs/2110.00199v1 )

ライセンス: CC BY 4.0
Ching-Hsun. Tseng, Liu-Hsueh. Cheng, Shin-Jye. Lee, Xiaojun Zeng(参考訳) 機械学習では、主に勾配降下法を用いて損失の最小値を求めることで最適化が行われている。 しかし、特に深層学習において、非凸損失関数から高次元空間を横断する大域的最小値を見つけることは、非常に難しい課題である。 近年,画像分類タスクにおいて,一般化学習アルゴリズム SAM (Sharpness-Aware Minimization) が大きな成功を収めている。 凸空間の作成における優れた性能にもかかわらず、SAMによって導かれる適切な方向はまだ不明である。 そこで我々は,線形代数の数学的本能だけでなく,適応勾配アルゴリズムの利点も持つSAMにおける単位ベクトル空間の創出を提案する。 さらに、SAMを単位勾配に適用すると、CIFAR - {10, 100} のような画像分類データセットにおいて、競合する性能が得られる。 実験の結果、SAMよりも優れた、より堅牢な性能を示した。

In Machine Learning, optimization mostly has been done by using a gradient descent method to find the minimum value of the loss. However, especially in deep learning, finding a global minimum from a nonconvex loss function across a high dimensional space is an extraordinarily difficult task. Recently, a generalization learning algorithm, Sharpness-Aware Minimization (SAM), has made a great success in image classification task. Despite the great performance in creating convex space, proper direction leading by SAM is still remained unclear. We, thereby, propose a creating a Unit Vector space in SAM, which not only consisted of the mathematical instinct in linear algebra but also kept the advantages of adaptive gradient algorithm. Moreover, applying SAM in unit gradient brings models competitive performances in image classification datasets, such as CIFAR - {10, 100}. The experiment showed that it performed even better and more robust than SAM.
翻訳日:2021-10-05 01:13:22 公開日:2021-10-01
# (参考訳) 格子分割アフィン表現による明示線形mpcの誤差のない近似

Error-free approximation of explicit linear MPC through lattice piecewise affine expression ( http://arxiv.org/abs/2110.00201v1 )

ライセンス: CC0 1.0
Jun Xu(参考訳) 本稿では, 特異線形モデル予測制御 (MPC) の分解的および結合的格子分割アフィン (PWA) 近似を提案する。 訓練データは、格子pwa近似を構築した状態サンプルと対応するアフィン制御則とからなる関心領域において一様に生成される。 また、格子PWA近似が、サンプル点を内点とする一順(UO)領域における明示的なMPC制御則と同一であることを保証するために、データの再サンプリングも提案されている。 さらに、穏やかな仮定の下では、2つの格子 PWA 近似の等価性は、関心領域における近似が誤りのないことを保証している。 明示線形MPCに対する統計的誤差のない近似を導出するアルゴリズムを提案し, サンプル数に対する多項式である全手順の複雑さを解析した。 提案手法の性能は2つのシミュレーション例を用いて検証し, サンプル点数を適度に増やすことで, 特異線型MPCの最適制御則と等価な格子PWA近似を構築することができることを示した。

In this paper, the disjunctive and conjunctive lattice piecewise affine (PWA) approximations of explicit linear model predictive control (MPC) are proposed. The training data is generated uniformly in the domain of interest, consisting of the state samples and corresponding affine control laws, based on which the lattice PWA approximations are constructed. Resampling of data is also proposed to guarantee that the lattice PWA approximations are identical to the explicit MPC control law in unique order (UO) regions containing the sample points as interior points. Besides, under mild assumptions, the equivalence of the 2 lattice PWA approximations guarantees the approximations are error-free in the domain of interest. The algorithms for deriving statistical error-free approximation to the explicit linear MPC is proposed and the complexity of the whole procedure is analyzed, which is polynomial with respect to the number of samples. The performance of the proposed approximation strategy is tested through 2 simulation examples, and the result shows that with a moderate number of sample points, we can construct lattice PWA approximations that are equivalent to optimal control law of the explicit linear MPC.
翻訳日:2021-10-05 01:01:00 公開日:2021-10-01
# (参考訳) Q-Net: 血液クロマトーシスにおける脳鉄沈着の鑑別診断のための定量的サセプティビリティマッピングに基づくディープニューラルネットワーク

Q-Net: A Quantitative Susceptibility Mapping-based Deep Neural Network for Differential Diagnosis of Brain Iron Deposition in Hemochromatosis ( http://arxiv.org/abs/2110.00203v1 )

ライセンス: CC BY 4.0
Soheil Zabihi, Elahe Rahimian, Soumya Sharma, Sean K. Sethi, Sara Gharabaghi, Amir Asif, E. Mark Haacke, Mandar S. Jog, Arash Mohammadi(参考訳) 脳の鉄沈着、特に深い灰白質核は老化とともに増加する。 遺伝性ヘモクロマトーシス(HH)は、ヨーロッパ人や最近の研究では、ヘモクロマトーシス患者では高い脳の鉄蓄積が報告されている。 本研究では,脳内の鉄の分布を研究するために確立された磁気共鳴イメージング(MRI)技術である量的感受性マッピング(QSM)を用いて,人工知能(AI)を用いた脳内鉄沈着の鑑別診断に着目する。 本研究の目的は,ヘモクロマトーシス患者を健康管理グループと正確にかつ効率的に区別する,ai駆動フレームワークの可能性を検討することである。 より具体的には、マルチエコ勾配エコー画像データとT1重画像の解剖学的情報から得られた脳内の鉄沈着情報を処理するデータ駆動モデルであるQ-Netフレームワークを開発した。 Q-Netフレームワークは、画像の可視化だけでは不可能な、同じ年齢のHHとHealthy Control(HC)の区別を支援することができる。 この研究は、HHと47HCの52人の被験者から収集されたユニークなデータセットに基づいて行われた。 Q-Netは、それぞれスキャンレベルと画像レベルの分類において、83.16%と80.37%の差分診断精度を提供する。

Brain iron deposition, in particular deep gray matter nuclei, increases with advancing age. Hereditary Hemochromatosis (HH) is the most common inherited disorder of systemic iron excess in Europeans and recent studies claimed high brain iron accumulation in patient with Hemochromatosis. In this study, we focus on Artificial Intelligence (AI)-based differential diagnosis of brain iron deposition in HH via Quantitative Susceptibility Mapping (QSM), which is an established Magnetic Resonance Imaging (MRI) technique to study the distribution of iron in the brain. Our main objective is investigating potentials of AI-driven frameworks to accurately and efficiently differentiate individuals with Hemochromatosis from those of the healthy control group. More specifically, we developed the Q-Net framework, which is a data-driven model that processes information on iron deposition in the brain obtained from multi-echo gradient echo imaging data and anatomical information on T1-Weighted images of the brain. We illustrate that the Q-Net framework can assist in differentiating between someone with HH and Healthy control (HC) of the same age, something that is not possible by just visualizing images. The study is performed based on a unique dataset that was collected from 52 subjects with HH and 47 HC. The Q-Net provides a differential diagnosis accuracy of 83.16% and 80.37% in the scan-level and image-level classification, respectively.
翻訳日:2021-10-05 00:38:53 公開日:2021-10-01
# (参考訳) 条件付きWGAN-gpを用いたスムーズ翼の逆翼設計法

Inverse airfoil design method for generating varieties of smooth airfoils using conditional WGAN-gp ( http://arxiv.org/abs/2110.00212v1 )

ライセンス: CC BY 4.0
Kazuo Yonekura, Nozomu Miyamoto, Katsuyuki Suzuki(参考訳) 近年, 翼形状生成に機械学習モデルが用いられている。 昇降係数を満足する翼形状を得ることが望まれる。 generative adversarial networks (gan) は合理的な翼形を出力する。 しかし, 正規GANモデルから得られる形状は滑らかではなく, 流動解析に先立って平滑化が必要である。 したがって、モデルをベジエ曲線や他の平滑化法と結合して滑らかな形状を得る必要がある。 平滑な方法で形状を生成することは難しい。 本研究では, 勾配ペナルティ(CWGAN-GP)を有する条件付きワッサースタインGANを用いて翼形状を生成し, 得られた形状は平滑化法と同等に滑らかである。 提案手法では, 翼生成に新たな平滑化法は不要である。 さらに,提案モデルでは,リフト係数要求を満たす形状を出力する。

Machine learning models are recently utilized for airfoil shape generation methods. It is desired to obtain airfoil shapes that satisfies required lift coefficient. Generative adversarial networks (GAN) output reasonable airfoil shapes. However, shapes obtained from ordinal GAN models are not smooth, and they need smoothing before flow analysis. Therefore, the models need to be coupled with Bezier curves or other smoothing methods to obtain smooth shapes. Generating shapes without any smoothing methods is challenging. In this study, we employed conditional Wasserstein GAN with gradient penalty (CWGAN-GP) to generate airfoil shapes, and the obtained shapes are as smooth as those obtained using smoothing methods. With the proposed method, no additional smoothing method is needed to generate airfoils. Moreover, the proposed model outputs shapes that satisfy the lift coefficient requirements.
翻訳日:2021-10-05 00:21:33 公開日:2021-10-01
# (参考訳) 量子化に基づく教師なしハッシュのための周辺保存変換

Beyond Neighbourhood-Preserving Transformations for Quantization-Based Unsupervised Hashing ( http://arxiv.org/abs/2110.00216v1 )

ライセンス: CC BY 4.0
Sobhan Hemati, H.R. Tizhoosh(参考訳) 効果的な教師なしハッシュアルゴリズムは、データの近傍構造を可能な限り保存するコンパクトなバイナリコードをもたらす。 教師なしハッシュの最も確立されたスキームの1つは、データの次元を減らし、量子化誤差を減少させる厳密な(近傍保存)変換を見つけることである。 剛体変換は有効であるが、量子化損失を究極の限界まで減らすことはできない。 同様に、2つの別々のステップで次元と量子化損失を減らすことは、準最適である。 これらの欠点により、量子化誤差と次元性を同時に低減するために、剛性および非剛性変換の両方を採用することを提案する。 我々はPCA形式における射影の直交性制約を緩和し、これを量子化項で正規化する。 非剛性投影行列と回転行列はともに量子化損失の最小化に寄与するが、異なる方法で寄与することを示した。 この混合整数最適化問題を最適化するために,スケーラブルなネスト座標降下法を提案する。 提案手法は,約50万の画像を提供する5つの公開ベンチマークデータセットで評価した。 比較の結果,提案手法は最先端の線形手法よりも優れており,エンドツーエンドのディープソリューションと競合することがわかった。

An effective unsupervised hashing algorithm leads to compact binary codes preserving the neighborhood structure of data as much as possible. One of the most established schemes for unsupervised hashing is to reduce the dimensionality of data and then find a rigid (neighbourhood-preserving) transformation that reduces the quantization error. Although employing rigid transformations is effective, we may not reduce quantization loss to the ultimate limits. As well, reducing dimensionality and quantization loss in two separate steps seems to be sub-optimal. Motivated by these shortcomings, we propose to employ both rigid and non-rigid transformations to reduce quantization error and dimensionality simultaneously. We relax the orthogonality constraint on the projection in a PCA-formulation and regularize this by a quantization term. We show that both the non-rigid projection matrix and rotation matrix contribute towards minimizing quantization loss but in different ways. A scalable nested coordinate descent approach is proposed to optimize this mixed-integer optimization problem. We evaluate the proposed method on five public benchmark datasets providing almost half a million images. Comparative results indicate that the proposed method mostly outperforms state-of-art linear methods and competes with end-to-end deep solutions.
翻訳日:2021-10-05 00:13:25 公開日:2021-10-01
# (参考訳) ドメイン適応物体検出のための自己学習と逆学習の相乗効果

Synergizing between Self-Training and Adversarial Learning for Domain Adaptive Object Detection ( http://arxiv.org/abs/2110.00249v1 )

ライセンス: CC BY 4.0
Muhammad Akhtar Munir, Muhammad Haris Khan, M. Saquib Sarfraz, Mohsen Ali(参考訳) 本研究では,物体の外観,視点,背景の有意な変化を示す未確認領域に対する訓練対象検出器の適用について検討した。 現在のほとんどのメソッドは、画像またはインスタンスレベルの特徴アライメントを使用してドメインをアライメントする。 これはしばしば望ましくない背景の存在と、クラス固有のアライメントが欠如しているためである。 クラスレベルのアライメントを促進する一般的な対策は、ラベルなしドメインの信頼度の高い予測を擬似ラベルとして使うことである。 これらの高い信頼度予測は、モデルがドメインシフトの下でのキャリブレーションが不十分であるため、しばしば誤る。 本稿では,モデル予測の不確実性を利用して,対向的特徴アライメントとクラスレベルのアライメントの適切なバランスを打つことを提案する。 具体的には,クラス割り当てと境界ボックス予測の予測不確実性を測定する。 低不確実性モデル予測は自己超越性のための擬似ラベルを生成するのに用いられ、高不確実性モデル予測は対向的特徴アライメントステージのためのタイルを生成するために使用される。 不確定なオブジェクト領域を取り囲むタイリングと、非常に特定のオブジェクト領域から擬似ラベルを生成するこの相乗効果により、モデル適応段階で画像とインスタンスレベルのコンテキストの両方をキャプチャできる。 さまざまなドメインシフトシナリオをカバーする広範な実験を行う。 我々のアプローチは、既存の最先端のメソッドを目に見えるマージンで改善する。

We study adapting trained object detectors to unseen domains manifesting significant variations of object appearance, viewpoints and backgrounds. Most current methods align domains by either using image or instance-level feature alignment in an adversarial fashion. This often suffers due to the presence of unwanted background and as such lacks class-specific alignment. A common remedy to promote class-level alignment is to use high confidence predictions on the unlabelled domain as pseudo labels. These high confidence predictions are often fallacious since the model is poorly calibrated under domain shift. In this paper, we propose to leverage model predictive uncertainty to strike the right balance between adversarial feature alignment and class-level alignment. Specifically, we measure predictive uncertainty on class assignments and the bounding box predictions. Model predictions with low uncertainty are used to generate pseudo-labels for self-supervision, whereas the ones with higher uncertainty are used to generate tiles for an adversarial feature alignment stage. This synergy between tiling around the uncertain object regions and generating pseudo-labels from highly certain object regions allows us to capture both the image and instance level context during the model adaptation stage. We perform extensive experiments covering various domain shift scenarios. Our approach improves upon existing state-of-the-art methods with visible margins.
翻訳日:2021-10-04 23:58:10 公開日:2021-10-01
# (参考訳) 承認に基づくマルチウィンナー投票ルールの学習の複雑さ

The Complexity of Learning Approval-Based Multiwinner Voting Rules ( http://arxiv.org/abs/2110.00254v1 )

ライセンス: CC BY 4.0
Ioannis Caragiannis and Karl Fehrs(参考訳) マルチウィンナー投票におけるPAC学習可能性について検討し,ABCSルールのクラスに着目した。 これらは、各投票者が候補者の幾らかを承認する、承認投票を伴うプロファイルに適用される投票規則である。 abcsルールは、k$の候補者の各委員会が各投票者から得票数を収集し、投票者のサイズと委員会との交点の大きさに依存すると仮定することで、シングルウィンナー投票におけるポジションスコアルールを適合させる。 そして、最高得点の委員会が勝利者となる。 我々の目標は、少数のサンプルプロファイルの勝者委員会に関する情報を用いて、目標ルール(すなわち、対応するスコアリング関数を学習すること)を学習することである。 単勝選挙と比較して指数関数的に多くの結果が存在するにもかかわらず、サンプルの複雑さは依然として低い: 多項式数のサンプルは、高い信頼と正確さでターゲット委員会を学ぶのに十分な情報を持っている。 残念ながら、これらのサンプルから学ぶのに必要な単純なタスクでさえ難解です。 我々は、ある委員会が与えられたプロファイルに勝つようなABCSルールが存在するかどうかを判断することは、計算的に難しい問題であることを示す。 我々の結果は、その単純さから注目を集めているシーケンシャルなTieleルールのクラスにまで及んでいる。

We study the PAC learnability of multiwinner voting, focusing on the class of approval-based committee scoring (ABCS) rules. These are voting rules applied on profiles with approval ballots, where each voter approves some of the candidates. ABCS rules adapt positional scoring rules in single-winner voting by assuming that each committee of $k$ candidates collects from each voter a score, that depends on the size of the voter's ballot and on the size of its intersection with the committee. Then, committees of maximum score are the winning ones. Our goal is to learn a target rule (i.e., to learn the corresponding scoring function) using information about the winning committees of a small number of sampled profiles. Despite the existence of exponentially many outcomes compared to single-winner elections, we show that the sample complexity is still low: a polynomial number of samples carries enough information for learning the target committee with high confidence and accuracy. Unfortunately, even simple tasks that need to be solved for learning from these samples are intractable. We prove that deciding whether there exists some ABCS rule that makes a given committee winning in a given profile is a computationally hard problem. Our results extend to the class of sequential Thiele rules, which have received attention due to their simplicity.
翻訳日:2021-10-04 23:39:47 公開日:2021-10-01
# (参考訳) SLAMから状況認識へ:課題と調査

From SLAM to Situational Awareness: Challenges and Survey ( http://arxiv.org/abs/2110.00273v1 )

ライセンス: CC BY 4.0
Hriday Bavle, Jose Luis Sanchez-Lopez, Eduardo F. Schmidt, Holger Voos(参考訳) インテリジェントで自律的な移動ロボットが自分自身と環境、すなわち状況から得ることができる知識は、その推論、意思決定、実行スキルを、効率的に安全に複雑なミッションを実行するために制限する。 状況認識は、心理学、軍事、航空宇宙学、教育などの分野で深く研究されてきた人間の基本的な能力であるが、センシング、知覚、センサー融合、状態推定、ローカライゼーションとマッピング、空間aiなどのアイデアに焦点を当てたロボティクスでは、ほとんど考慮されていない。 本研究では,状況認識に関する多分野の既存知識を,移動ロボット工学の分野と結びつけた。 本稿では,最先端のロボティクスアルゴリズムを調査し,それらがカバーした状況認識の側面を分析し,その欠落点について考察する。 既存のロボットアルゴリズムには、状況認識の重要な側面がまだ欠けていることがわかった。 その結果、これらの欠落した特徴はロボットの状況認識の性能を制限するものであり、この課題を克服するにはさらなる研究が必要であると結論づける。 これを機会と捉え、ロボットの状況認識に関する今後の研究のビジョンを提供する。

The knowledge that an intelligent and autonomous mobile robot has and is able to acquire of itself and the environment, namely the situation, limits its reasoning, decision-making, and execution skills to efficiently and safely perform complex missions. Situational awareness is a basic capability of humans that has been deeply studied in fields like Psychology, Military, Aerospace, Education, etc., but it has barely been considered in robotics, which has focused on ideas such as sensing, perception, sensor fusion, state estimation, localization and mapping, spatial AI, etc. In our research, we connected the broad multidisciplinary existing knowledge on situational awareness with its counterpart in mobile robotics. In this paper, we survey the state-of-the-art robotics algorithms, we analyze the situational awareness aspects that have been covered by them, and we discuss their missing points. We found out that the existing robotics algorithms are still missing manifold important aspects of situational awareness. As a consequence, we conclude that these missing features are limiting the performance of robotic situational awareness, and further research is needed to overcome this challenge. We see this as an opportunity, and provide our vision for future research on robotic situational awareness.
翻訳日:2021-10-04 23:07:40 公開日:2021-10-01
# (参考訳) TyXe:Pytorchのためのピロベースベイズニューラルネットワーク

TyXe: Pyro-based Bayesian neural nets for Pytorch ( http://arxiv.org/abs/2110.00276v1 )

ライセンス: CC BY 4.0
Hippolyt Ritter, Theofanis Karaletsos(参考訳) 我々は,pytorchとpyro上に構築されたベイジアンニューラルネットワークライブラリtyxeを紹介する。 私たちの主要な設計原則は、アーキテクチャ、事前、推論、可能性仕様をきれいに分離し、ユーザがこれらのコンポーネントの組み合わせをすばやくイテレーションできる柔軟なワークフローを可能にすることです。 既存のパッケージとは対照的に、TyXeはいかなるレイヤクラスも実装せず、代わりに一般的なPytorchコードで定義されたアーキテクチャに依存している。 するとTyXeは、標準の事前、変分ガイド、推論技術、特定のアーキテクチャのベイズ的処理のための層選択に対するモジュラー選択を提供する。 局所的なパラメータ化やフリップアウトのような分散低減のためのサンプリングトリックはエフェクトハンドラとして実装され、他の仕様とは独立して適用できる。 我々はTyXeを使って、純粋なPytorchニューラルネットワークによるおもちゃの回帰、トーチビジョンResNetによる大規模画像分類、DGLに基づくグラフニューラルネットワーク、Pytorch3D上に構築されたニューラルネットワークなど、さまざまなライブラリから人気のあるモデルのベイズ版を簡単に探索する。 最後に,変分連続学習のための便利な抽象化を提供する。 あらゆるケースにおいて、決定論からベイズ的ニューラルネットワークへの変化は、既存のコードへの最小限の変更によってもたらされる。 ライブラリはhttps://github.com/TyXe-BDL/TyXeで入手できる。

We introduce TyXe, a Bayesian neural network library built on top of Pytorch and Pyro. Our leading design principle is to cleanly separate architecture, prior, inference and likelihood specification, allowing for a flexible workflow where users can quickly iterate over combinations of these components. In contrast to existing packages TyXe does not implement any layer classes, and instead relies on architectures defined in generic Pytorch code. TyXe then provides modular choices for canonical priors, variational guides, inference techniques, and layer selections for a Bayesian treatment of the specified architecture. Sampling tricks for variance reduction, such as local reparameterization or flipout, are implemented as effect handlers, which can be applied independently of other specifications. We showcase the ease of use of TyXe to explore Bayesian versions of popular models from various libraries: toy regression with a pure Pytorch neural network; large-scale image classification with torchvision ResNets; graph neural networks based on DGL; and Neural Radiance Fields built on top of Pytorch3D. Finally, we provide convenient abstractions for variational continual learning. In all cases the change from a deterministic to a Bayesian neural network comes with minimal modifications to existing code, offering a broad range of researchers and practitioners alike practical access to uncertainty estimation techniques. The library is available at https://github.com/TyXe-BDL/TyXe.
翻訳日:2021-10-04 22:23:50 公開日:2021-10-01
# (参考訳) 機械学習支援最適潮流における電力グリッドトポロジーの活用

Leveraging power grid topology in machine learning assisted optimal power flow ( http://arxiv.org/abs/2110.00306v1 )

ライセンス: CC BY 4.0
Thomas Falconer and Letif Mones(参考訳) 機械学習支援最適電力フロー(OPF)は、高価な(オンライン)最適化をオフライントレーニングに割り当てることによって、これらの非線形および非凸制約最適化問題の計算複雑性を低減することを目的としている。 この分野の作業の大部分は、一般的に完全に接続されたニューラルネットワーク(FCNN)を使用している。 しかし、近年、畳み込みニューラルネットワーク(cnn)とグラフニューラルネットワーク(gnn)も、電力グリッド内のトポロジ情報を活用するために研究されている。 有望な結果が得られたが、文献全体を通してこれらのアーキテクチャの体系的な比較は得られていない。 そこで我々は,機械学習支援OPFの2つの基本的なアプローチとして,回帰(最適ジェネレータ設定点の予測)と分類(アクティブ制約セットの予測)について,さまざまなFCNN,CNN,GNNモデルの性能を評価する。 相互接続されたユーティリティを持ついくつかの合成格子に対して,特徴変数と対象変数の間の局所性特性は乏しく,したがって,この一連の問題に対してNNモデルで位相情報を利用するメリットは限られている。

Machine learning assisted optimal power flow (OPF) aims to reduce the computational complexity of these non-linear and non-convex constrained optimisation problems by consigning expensive (online) optimisation to offline training. The majority of work in this area typically employs fully-connected neural networks (FCNN). However, recently convolutional (CNN) and graph (GNN) neural networks have been also investigated, in effort to exploit topological information within the power grid. Although promising results have been obtained, there lacks a systematic comparison between these architectures throughout literature. Accordingly, we assess the performance of a variety of FCNN, CNN and GNN models for two fundamental approaches to machine learning assisted OPF: regression (predicting optimal generator set-points) and classification (predicting the active set of constraints). For several synthetic grids with interconnected utilities, we show that locality properties between feature and target variables are scarce, hence find limited merit of harnessing topological information in NN models for this set of problems.
翻訳日:2021-10-04 21:59:59 公開日:2021-10-01
# (参考訳) DCTによるHDRI用可変露光画像の融合

DCT based Fusion of Variable Exposure Images for HDRI ( http://arxiv.org/abs/2110.00312v1 )

ライセンス: CC BY 4.0
Vivek Ramakarishnan, Dnyaneshwar Jageshwar Pete(参考訳) 異なる露出設定で画像を組み合わせることは、計算写真の分野で最も重要なことです。 変換領域アプローチとフィルタリングに基づくアプローチは、複数の露光画像を融合させ、十分に露光された画像を得ることができる。 複数の露光画像を融合する離散コサイン変換(DCT)手法を提案する。 入力画像スタックを平均化操作により変換領域で処理し、複数の露光画像の融合を生成する平均画像に対して逆変換を行う。 実験により, 得られたDCT係数は, 従来の露光融合法で規定された, 高い露光度, コントラスト, 飽和度を測定するパラメータの指標であり, 平均化は, 多重露光スタックを融合するための非パラメトリックおよび非ピラミッド的アプローチにおいて, DCT係数に割り当てられた等しい重みを示す。

Combining images with different exposure settings are of prime importance in the field of computational photography. Both transform domain approach and filtering based approaches are possible for fusing multiple exposure images, to obtain the well-exposed image. We propose a Discrete Cosine Transform (DCT-based) approach for fusing multiple exposure images. The input image stack is processed in the transform domain by an averaging operation and the inverse transform is performed on the averaged image obtained to generate the fusion of multiple exposure image. The experimental observation leads us to the conjecture that the obtained DCT coefficients are indicators of parameters to measure well-exposedness, contrast and saturation as specified in the traditional exposure fusion based approach and the averaging performed indicates equal weights assigned to the DCT coefficients in this non-parametric and non pyramidal approach to fuse the multiple exposure stack.
翻訳日:2021-10-04 21:11:15 公開日:2021-10-01
# (参考訳) 高次元シャープ化次元縮小による視覚クラスタ分離

Visual Cluster Separation Using High-Dimensional Sharpened Dimensionality Reduction ( http://arxiv.org/abs/2110.00317v1 )

ライセンス: CC BY 4.0
Youngjoo Kim, Alexandru C. Telea, Scott C. Trager, Jos B. T. M. Roerdink(参考訳) 大規模な高次元データセットに次元還元(DR)を適用することは、探索解析のための2次元プロジェクションにおいて、基礎となる高次元データクラスタを区別する場合に困難である。 局所勾配クラスタリング (LGC) を用いて, DRステップに先立って, 元の高次元データのクラスタを高速化することで, この問題に対処する。 次に,ユーザ選択DR法により,高次元空間から2次元へのシャープ化データを投影する。 シャープニングステップは、2次元射影におけるクラスタの分離を保存するためにこの方法を支援する。 提案手法では,各クラスタにラベルを付けることで,ラベルのないデータセットをさらに分析することができる。 高次元シャープ化drm(hd-sdr)法は合成データと実世界のデータの両方でテストされ,クラスタ分離の貧弱なdrm法に好適であり,シャープ化を伴わないこれらのdrm法よりも優れた視覚的クラスタ分離を実現する。 提案手法は,高品質(品質指標による測定)を達成し,大規模高次元データを用いて計算精度よくスケールする。 具体的な応用を説明するため,近年の天文カタログにHD-SDRを適用した。

Applying dimensionality reduction (DR) to large, high-dimensional data sets can be challenging when distinguishing the underlying high-dimensional data clusters in a 2D projection for exploratory analysis. We address this problem by first sharpening the clusters in the original high-dimensional data prior to the DR step using Local Gradient Clustering (LGC). We then project the sharpened data from the high-dimensional space to 2D by a user-selected DR method. The sharpening step aids this method to preserve cluster separation in the resulting 2D projection. With our method, end-users can label each distinct cluster to further analyze an otherwise unlabeled data set. Our `High-Dimensional Sharpened DR' (HD-SDR) method, tested on both synthetic and real-world data sets, is favorable to DR methods with poor cluster separation and yields a better visual cluster separation than these DR methods with no sharpening. Our method achieves good quality (measured by quality metrics) and scales computationally well with large high-dimensional data. To illustrate its concrete applications, we further apply HD-SDR on a recent astronomical catalog.
翻訳日:2021-10-04 21:01:59 公開日:2021-10-01
# (参考訳) 平滑な正規化流れ

Smooth Normalizing Flows ( http://arxiv.org/abs/2110.00351v1 )

ライセンス: CC BY 4.0
Jonas K\"ohler, Andreas Kr\"amer, Frank No\'e(参考訳) 正規化フローは物理系の確率分布をモデル化するための有望なツールである。 最先端の流れは正確に分布とエネルギーを近似するが、物理学の応用は計算力や高次微分に滑らかなエネルギーを必要とする。 さらに、そのような密度はしばしば非自明な位相上で定義される。 最近の例は、ペプチドと小タンパク質の3D構造を生成するボルツマン・ジェネレータである。 これらの生成モデルは、ハイパートリとコンパクト区間の積である内部座標(二面体、角、結合)の空間を利用する。 本研究では,コンパクト区間とハイパートリ領域の両方で動作する滑らかな混合変換のクラスを導入する。 混合変換は、実際にそれらを逆転させるルートフィンディング法を用いており、これまでのところ双方向フロートレーニングを妨げている。 この目的のために,そのような逆関数のパラメータ勾配と力は,逆関数定理を用いて前方評価から計算可能であることを示す。 このような滑らかな流れの2つの利点を実証する: シミュレーションデータと力を合わせることでトレーニングを可能にし、分子動力学シミュレーションのポテンシャルとして使用できる。

Normalizing flows are a promising tool for modeling probability distributions in physical systems. While state-of-the-art flows accurately approximate distributions and energies, applications in physics additionally require smooth energies to compute forces and higher-order derivatives. Furthermore, such densities are often defined on non-trivial topologies. A recent example are Boltzmann Generators for generating 3D-structures of peptides and small proteins. These generative models leverage the space of internal coordinates (dihedrals, angles, and bonds), which is a product of hypertori and compact intervals. In this work, we introduce a class of smooth mixture transformations working on both compact intervals and hypertori. Mixture transformations employ root-finding methods to invert them in practice, which has so far prevented bi-directional flow training. To this end, we show that parameter gradients and forces of such inverses can be computed from forward evaluations via the inverse function theorem. We demonstrate two advantages of such smooth flows: they allow training by force matching to simulation data and can be used as potentials in molecular dynamics simulations.
翻訳日:2021-10-04 20:26:01 公開日:2021-10-01
# (参考訳) パッキング問題に対する予測を伴うオンライン原始アルゴリズム

Online Primal-Dual Algorithms with Predictions for Packing Problems ( http://arxiv.org/abs/2110.00391v1 )

ライセンス: CC BY 4.0
Nguyen Kim Thang and Christoph Durr(参考訳) 予測を伴うオンラインアルゴリズムのドメインは、スケジューリング、キャッシュ(ページング)、クラスタリング、スキーレンタルなど、さまざまなアプリケーションで広く研究されている。 近年,統一手法をめざすBamasらは,線形被覆問題に対する原始双対の枠組みを提供している。 彼らは、最悪のケース分析以上のパフォーマンスを達成するために、予測を組み込むことで、オンライン原始的手法を拡張した。 本稿では,この研究ラインを考察し,非線形パッキング問題に対する予測を伴うアルゴリズム設計フレームワークを提案する。 準モジュラー最大化における我々のフレームワークの適用性、特に最適境界が与えられ、支援実験が提供される吸着最大化について説明する。

The domain of online algorithms with predictions has been extensively studied for different applications such as scheduling, caching (paging), clustering, ski rental, etc. Recently, Bamas et al., aiming for an unified method, have provided a primal-dual framework for linear covering problems. They extended the online primal-dual method by incorporating predictions in order to achieve a performance beyond the worst-case case analysis. In this paper, we consider this research line and present a framework to design algorithms with predictions for non-linear packing problems. We illustrate the applicability of our framework in submodular maximization and in particular ad-auction maximization in which the optimal bound is given and supporting experiments are provided.
翻訳日:2021-10-04 19:57:46 公開日:2021-10-01
# (参考訳) tree in tree: 決定木から決定グラフへ

Tree in Tree: from Decision Trees to Decision Graphs ( http://arxiv.org/abs/2110.00392v1 )

ライセンス: CC BY 4.0
Bingzhao Zhu, Mahsa Shoaran(参考訳) 決定木は、軽量で解釈可能な決定プロセスのおかげで、多くの機械学習アプリケーションで分類器として広く使われている。 本稿では、従来の決定木をより汎用的で強力な非巡回グラフに拡張するフレームワークであるTree in Tree decision graph (TnT)を紹介する。 TnTは、内部または葉ノード内で再帰的に成長する決定木によって決定グラフを構築する。 TnTの時間複雑性はグラフ内のノード数に線形であり、大きなデータセット上の決定グラフを構築することができる。 決定木と比較すると,TnTは単独の分類器として,また,バッグング/AdaBoostアンサンブルの基底推定器として,モデルサイズを小さくすることで,より良い分類性能が得られることを示す。 提案するモデルは,広く用いられている決定木に代わる,新しい,より効率的かつ正確な代替手段である。

Decision trees have been widely used as classifiers in many machine learning applications thanks to their lightweight and interpretable decision process. This paper introduces Tree in Tree decision graph (TnT), a framework that extends the conventional decision tree to a more generic and powerful directed acyclic graph. TnT constructs decision graphs by recursively growing decision trees inside the internal or leaf nodes instead of greedy training. The time complexity of TnT is linear to the number of nodes in the graph, and it can construct decision graphs on large datasets. Compared to decision trees, we show that TnT achieves better classification performance with reduced model size, both as a stand-alone classifier and as a base estimator in bagging/AdaBoost ensembles. Our proposed model is a novel, more efficient, and accurate alternative to the widely-used decision trees.
翻訳日:2021-10-04 19:40:28 公開日:2021-10-01
# (参考訳) モバイル顔認証シナリオにおける顔埋め込みの保護に向けて

Towards Protecting Face Embeddings in Mobile Face Verification Scenarios ( http://arxiv.org/abs/2110.00434v1 )

ライセンス: CC BY 4.0
Vedrana Krivoku\'ca Hahn and S\'ebastien Marcel(参考訳) 本稿では,ニューラルネットワークを用いた顔認証システムにおいて,顔のセンシティブな埋め込みを保護する手法であるpolyprotectを提案する。 polyprotectは、ユーザ固有の係数と指数によってパラメータ化された多変量多項式に基づくマッピングを使用して、顔埋め込みをよりセキュアなテンプレートに変換する。 この研究において、polyprotectはモバイルアプリケーションコンテキストにおける2つのオープンソースの顔認証システム上で評価され、システムとそのパラメータに関する完全な知識を持つ完全なインフォームドアタッカーを想定する最も厳しい脅威モデルの下で評価される。 以上の結果から,ポリプロテクト顔認証システムの認識精度とポリプロテクトテンプレートの可逆性とのトレードオフを満足できるようポリプロテクトを調整可能であることが示された。 さらに、PolyProtectedテンプレートは、特にPolyProtectマッピングで使用されるユーザ固有のパラメータが非ネイティブな方法で選択されている場合、効果的にリンクできないことが示されている。 本評価は,実際に顔埋め込み保護スキームとして,本手法のロバスト性に関する現実的な洞察を与えるために,具体的結果を伴う実践的手法を用いて実施する。 この作業を完全に再現するコードは、https://gitlab.idiap.ch/bob/bob.paper.poly Protect_2021で公開されている。

This paper proposes PolyProtect, a method for protecting the sensitive face embeddings that are used to represent people's faces in neural-network-based face verification systems. PolyProtect transforms a face embedding to a more secure template, using a mapping based on multivariate polynomials parameterised by user-specific coefficients and exponents. In this work, PolyProtect is evaluated on two open-source face verification systems in a mobile application context, under the toughest threat model that assumes a fully-informed attacker with complete knowledge of the system and all its parameters. Results indicate that PolyProtect can be tuned to achieve a satisfactory trade-off between the recognition accuracy of the PolyProtected face verification system and the irreversibility of the PolyProtected templates. Furthermore, PolyProtected templates are shown to be effectively unlinkable, especially if the user-specific parameters employed in the PolyProtect mapping are selected in a non-naive manner. The evaluation is conducted using practical methodologies with tangible results, to present realistic insight into the method's robustness as a face embedding protection scheme in practice. The code to fully reproduce this work is available at: https://gitlab.idiap.ch/bob/bob.paper.polyprotect_2021.
翻訳日:2021-10-04 19:25:01 公開日:2021-10-01
# (参考訳) 微分ロボットシミュレータによる進化戦略の導出

Guiding Evolutionary Strategies by Differentiable Robot Simulators ( http://arxiv.org/abs/2110.00438v1 )

ライセンス: CC BY 4.0
Vladislav Kurenkov and Bulat Maksudov(参考訳) 近年、進化戦略は、強化学習アルゴリズムの簡単な代替手段を提供するため、ポリシー探索のためのロボットタスクで積極的に研究されている。 しかし、このアルゴリズムのクラスは、非常にサンプル効率が悪いとしばしば主張される。 一方,識別可能なロボットシミュレータ(DRS)への関心が高まっている。 しかし、結果として得られる勾配は、一階最適化に必ずしも役に立たない。 本研究では,進化的戦略とDSS勾配をどのように併用できるかを示す。 予備的な結果は、この組み合わせがシミュレーションと現実世界の両方で進化戦略のサンプルの複雑さを3倍から5倍に減らすことを示唆している。

In recent years, Evolutionary Strategies were actively explored in robotic tasks for policy search as they provide a simpler alternative to reinforcement learning algorithms. However, this class of algorithms is often claimed to be extremely sample-inefficient. On the other hand, there is a growing interest in Differentiable Robot Simulators (DRS) as they potentially can find successful policies with only a handful of trajectories. But the resulting gradient is not always useful for the first-order optimization. In this work, we demonstrate how DRS gradient can be used in conjunction with Evolutionary Strategies. Preliminary results suggest that this combination can reduce sample complexity of Evolutionary Strategies by 3x-5x times in both simulation and the real world.
翻訳日:2021-10-04 18:49:42 公開日:2021-10-01
# (参考訳) 非凸追従器を用いた勾配二値最適化に向けて

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond ( http://arxiv.org/abs/2110.00455v1 )

ライセンス: CC BY 4.0
Risheng Liu, Yaohua Liu, Shangzhi Zeng, Jin Zhang(参考訳) 近年、BLO(Bi-Level Optimization)技術は、学習コミュニティと視覚コミュニティの両方から大きな注目を集めている。 複雑で実践的なタスクにおける様々なBLOモデルは、自然界における非凸追従構造(略して低レベル凸構造 LLC)である。 しかし、この難解なBLOのクラスは、効率的な解法戦略と確固たる理論的保証の両方に関する開発の欠如である。 本研究では,この問題を部分的に解決するために,IAPTT-GM(Initialization Auxiliary and Pessimistic Trajectory Truncated Gradient Method)という新しいアルゴリズムフレームワークを提案する。 特に,最適化力学を導出する補助的な初期化を導入し,悲観的トラジェクトリトランケーション演算を設計することにより,LLC仮説を欠いた元のBLOの信頼性の高い近似バージョンを構築する。 我々の理論的研究は、IAPTT-GMがLLCのない元のBLOの解に対する解の収束を確立する。 追加のボーナスとして、ネステロフの加速力学をLLCの下で組み込んだIAPTT-GMの品質を理論的に正当化する。 実験結果から,LLCを含まないアルゴリズムの収束と,LLCによる理論的結果が確認できた。

In recent years, Bi-Level Optimization (BLO) techniques have received extensive attentions from both learning and vision communities. A variety of BLO models in complex and practical tasks are of non-convex follower structure in nature (a.k.a., without Lower-Level Convexity, LLC for short). However, this challenging class of BLOs is lack of developments on both efficient solution strategies and solid theoretical guarantees. In this work, we propose a new algorithmic framework, named Initialization Auxiliary and Pessimistic Trajectory Truncated Gradient Method (IAPTT-GM), to partially address the above issues. In particular, by introducing an auxiliary as initialization to guide the optimization dynamics and designing a pessimistic trajectory truncation operation, we construct a reliable approximate version of the original BLO in the absence of LLC hypothesis. Our theoretical investigations establish the convergence of solutions returned by IAPTT-GM towards those of the original BLO without LLC. As an additional bonus, we also theoretically justify the quality of our IAPTT-GM embedded with Nesterov's accelerated dynamics under LLC. The experimental results confirm both the convergence of our algorithm without LLC, and the theoretical findings under LLC.
翻訳日:2021-10-04 18:43:46 公開日:2021-10-01
# (参考訳) スコアベース生成分類器

Score-Based Generative Classifiers ( http://arxiv.org/abs/2110.00473v1 )

ライセンス: CC BY 4.0
Roland S. Zimmermann, Lukas Schott, Yang Song, Benjamin A. Dunn, David A. Klindt(参考訳) 近年の生成モデルの成功は、分類を行うのにも使えるかどうかという疑問を提起している。 生成モデルはmnistのような単純なデータセット上では敵対的にロバストな分類器として使われてきたが、cifar-10のようなより複雑なデータセットではこのロバスト性は観測されていない。 さらに、自然画像データセットでは、過去の結果から、データの可能性と分類精度のトレードオフが示唆されている。 本研究では,自然画像の分類器としてスコアベース生成モデルを検討する。 我々は,これらのモデルが競合確率値を得るだけでなく,CIFAR-10における生成型分類器の最先端の分類精度も同時に達成できることを示した。 それにもかかわらず、これらのモデルは、一般的なイメージの腐敗に基づく分散タスクにおける差別的ベースラインモデルよりも、ほんの少しだけ強固なだけであることがわかった。 同様に, 先行結果とは対照的に, スコアベースは逆摂動の形で, 最悪の場合分布シフトを起こしやすいことがわかった。 我々の研究は、スコアベース生成モデルが標準的な識別モデルと比較して分類精度のギャップを埋めていることを強調している。 彼らはまだ敵意とドメイン外ロバスト性の約束を達成していないが、さらなる研究を保証している分類に対する別のアプローチを提供している。

The tremendous success of generative models in recent years raises the question whether they can also be used to perform classification. Generative models have been used as adversarially robust classifiers on simple datasets such as MNIST, but this robustness has not been observed on more complex datasets like CIFAR-10. Additionally, on natural image datasets, previous results have suggested a trade-off between the likelihood of the data and classification accuracy. In this work, we investigate score-based generative models as classifiers for natural images. We show that these models not only obtain competitive likelihood values but simultaneously achieve state-of-the-art classification accuracy for generative classifiers on CIFAR-10. Nevertheless, we find that these models are only slightly, if at all, more robust than discriminative baseline models on out-of-distribution tasks based on common image corruptions. Similarly and contrary to prior results, we find that score-based are prone to worst-case distribution shifts in the form of adversarial perturbations. Our work highlights that score-based generative models are closing the gap in classification accuracy compared to standard discriminative models. While they do not yet deliver on the promise of adversarial and out-of-domain robustness, they provide a different approach to classification that warrants further research.
翻訳日:2021-10-04 18:25:48 公開日:2021-10-01
# (参考訳) オンラインフードデリバリー産業における消費者購入決定の予測

Predicting Consumer Purchasing Decision in The Online Food Delivery Industry ( http://arxiv.org/abs/2110.00502v1 )

ライセンス: CC BY 4.0
Batool Madani and Hussam Alshraideh(参考訳) 近年、食品配達ビジネスからオンラインプラットフォームへの移行が注目されている。 これは、注文エクスペリエンスのカスタマイズ、支払い方法の容易化、迅速なデリバリなどによるものだ。 オンラインフードデリバリープロバイダ間の競争は、より広い範囲の顧客を獲得するために激化している。 したがって、顧客のニーズをよりよく理解し、購入決定を予測すべきである。 機械学習は企業の利益に重大な影響を与える。 ビッグデータに依存し、迅速かつ効果的に評価するシステムを必要とする業界において、モデルや戦略を構築するために使用される。 予測モデリング(英: Predictive Modeling)とは、様々な回帰アルゴリズム、分析、統計を用いて発生確率を推定する機械学習の一種である。 予測モデルの導入は、オンライン食品デリバリープロバイダーが顧客を理解するのに役立つ。 本研究では,インドのバンガロールで388人の消費者から収集したデータセットを用いて,購入決定の予測を行った。 CARTとC4.5決定木、ランダム森林、ルールベース分類器の4つの予測モデルが検討され、それらの精度が正しいクラスラベルを提供する。 これらの結果から、全てのモデルで同様の性能が得られたが、C4.5は91.67%の精度で性能に優れていた。

This transformation of food delivery businesses to online platforms has gained high attention in recent years. This due to the availability of customizing ordering experiences, easy payment methods, fast delivery, and others. The competition between online food delivery providers has intensified to attain a wider range of customers. Hence, they should have a better understanding of their customers' needs and predict their purchasing decisions. Machine learning has a significant impact on companies' bottom line. They are used to construct models and strategies in industries that rely on big data and need a system to evaluate it fast and effectively. Predictive modeling is a type of machine learning that uses various regression algorithms, analytics, and statistics to estimate the probability of an occurrence. The incorporation of predictive models helps online food delivery providers to understand their customers. In this study, a dataset collected from 388 consumers in Bangalore, India was provided to predict their purchasing decisions. Four prediction models are considered: CART and C4.5 decision trees, random forest, and rule-based classifiers, and their accuracies in providing the correct class label are evaluated. The findings show that all models perform similarly, but the C4.5 outperforms them all with an accuracy of 91.67%.
翻訳日:2021-10-04 18:12:01 公開日:2021-10-01
# (参考訳) ash: 3次元知覚における並列空間ハッシュの現代的枠組み

ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception ( http://arxiv.org/abs/2110.00511v1 )

ライセンス: CC BY 4.0
Wei Dong, Yixing Lao, Michael Kaess, Vladlen Koltun(参考訳) ASHは,GPU上の並列空間ハッシュのための,現代的で高性能なフレームワークである。 既存のGPUハッシュマップ実装と比較して、ASHは高いパフォーマンスを実現し、よりリッチな機能をサポートし、ボリューム幾何学的再構成から差別化可能な外観再構成に至るまで、空間的に変化する操作を実装する際に、コード行数(LoC)を少なくする。 既存のGPUハッシュマップとは異なり、ASHフレームワークは多様なテンソルインターフェースを提供し、ユーザから低レベルの詳細を隠蔽する。 さらに、内部ハッシュデータ構造とキー値データをバッファに分離することにより、インデックスを介して空間的に変化するデータに直接アクセスし、PyTorchのような現代的なライブラリへのシームレスな統合を可能にする。 これを達成するために 1) 低レベルハッシュマップの実装から格納されたキー値データ。 2) ポインタファーストの低レベルデータ構造をインデックスヒープを介してインデックスファーストの高レベルテンソルインターフェースにブリッジする。 3) 汎用的および非汎用的な整数専用ハッシュマップの実装をバックエンドとして適用し、多次元キーで操作する。 最初にハッシュマップを合成データ上の最先端のハッシュマップと照合して、このアーキテクチャによるパフォーマンス向上を示す。 次に,様々な大規模3次元知覚タスクにおいて,複数の応用例を示し,より少ないlocで一貫して高い性能が得られることを示す。 1)点雲ボクセル化 2)密集体積スラム 3)非剛性点雲の登録と体積変形 4)空間的な形状変化と外観改善。 ASHとそのサンプルアプリケーションはOpen3D (http://www.open3d.org)でオープンソース化されている。

We present ASH, a modern and high-performance framework for parallel spatial hashing on GPU. Compared to existing GPU hash map implementations, ASH achieves higher performance, supports richer functionality, and requires fewer lines of code (LoC) when used for implementing spatially varying operations from volumetric geometry reconstruction to differentiable appearance reconstruction. Unlike existing GPU hash maps, the ASH framework provides a versatile tensor interface, hiding low-level details from the users. In addition, by decoupling the internal hashing data structures and key-value data in buffers, we offer direct access to spatially varying data via indices, enabling seamless integration to modern libraries such as PyTorch. To achieve this, we 1) detach stored key-value data from the low-level hash map implementation; 2) bridge the pointer-first low level data structures to index-first high-level tensor interfaces via an index heap; 3) adapt both generic and non-generic integer-only hash map implementations as backends to operate on multi-dimensional keys. We first profile our hash map against state-of-the-art hash maps on synthetic data to show the performance gain from this architecture. We then show that ASH can consistently achieve higher performance on various large-scale 3D perception tasks with fewer LoC by showcasing several applications, including 1) point cloud voxelization, 2) dense volumetric SLAM, 3) non-rigid point cloud registration and volumetric deformation, and 4) spatially varying geometry and appearance refinement. ASH and its example applications are open sourced in Open3D (http://www.open3d.org).
翻訳日:2021-10-04 18:01:40 公開日:2021-10-01
# (参考訳) コントラスト学習による一貫した説明

Consistent Explanations by Contrastive Learning ( http://arxiv.org/abs/2110.00527v1 )

ライセンス: CC BY 4.0
Vipin Pillai, Soroush Abbasi Koohpayegani, Ashley Ouligian, Dennis Fong, Hamed Pirsiavash(参考訳) ニューラルネットワークの判断を理解し説明することは、ブラックボックスアルゴリズムではなく、信頼を構築する上で重要である。 grad-camなどのポストホック評価技術は、特定のネットワーク決定に関連する空間領域を人間が検査できるようにする。 しかし,このような説明は,画像変換間の一貫性など,必ずしも人間の事前説明と一致しないことが示された。 Grad-CAMのような解釈アルゴリズムが与えられた場合、より一貫性のある説明を生成するためにモデルをトレーニングするための新しいトレーニング手法を導入する。 所望のモデル解釈のための基礎的真理を得ることは、十分に定義されたタスクではないので、コントラスト的な自己教師型学習の考えを採用し、それを埋め込みよりもモデルの解釈に適用する。 ネットワークをより合理的に解釈するように訓練し、その後にそれらの解釈を評価することで、ネットワークを信頼する能力を高める。 本手法は,比較型grad-cam一貫性 (cgc) により,人間のアノテーションと一貫性のあるgrad-cam解釈ヒートマップが得られるが,同等の分類精度が得られている。 さらに,本手法は,限定データきめ細かな分類設定において正則化器の形式と見なせるので,Caltech-Birds,Stanford Cars,VGG Flowers,FGVC-Aircraftデータセットのベースライン分類精度より優れている。 さらに,本手法はアノテーションに依存しないため,ラベルなしデータのトレーニングへの組み込みが可能となり,モデルのより優れた一般化が可能となった。 私たちのコードは公開されています。

Understanding and explaining the decisions of neural networks are critical to building trust, rather than relying on them as black box algorithms. Post-hoc evaluation techniques, such as Grad-CAM, enable humans to inspect the spatial regions responsible for a particular network decision. However, it is shown that such explanations are not always consistent with human priors, such as consistency across image transformations. Given an interpretation algorithm, e.g., Grad-CAM, we introduce a novel training method to train the model to produce more consistent explanations. Since obtaining the ground truth for a desired model interpretation is not a well-defined task, we adopt ideas from contrastive self-supervised learning and apply them to the interpretations of the model rather than its embeddings. Explicitly training the network to produce more reasonable interpretations and subsequently evaluating those interpretations will enhance our ability to trust the network. We show that our method, Contrastive Grad-CAM Consistency (CGC), results in Grad-CAM interpretation heatmaps that are consistent with human annotations while still achieving comparable classification accuracy. Moreover, since our method can be seen as a form of regularizer, on limited-data fine-grained classification settings, our method outperforms the baseline classification accuracy on Caltech-Birds, Stanford Cars, VGG Flowers, and FGVC-Aircraft datasets. In addition, because our method does not rely on annotations, it allows for the incorporation of unlabeled data into training, which enables better generalization of the model. Our code is publicly available.
翻訳日:2021-10-04 17:10:21 公開日:2021-10-01
# (参考訳) 公正な機械学習のためのデータセットに関する調査

A survey on datasets for fairness-aware machine learning ( http://arxiv.org/abs/2110.00530v1 )

ライセンス: CC BY 4.0
Tai Le Quy, Arjun Roy, Vasileios Iosifidis, Eirini Ntoutsi(参考訳) 意思決定は機械学習と(大きな)データにますます依存しているため、データ駆動型AIシステムの公正性の問題は、研究と産業の両方から注目を集めている。 データ、学習アルゴリズム、および/またはモデル出力にフェアネスに関連する介入を提案する、さまざまなフェアネス対応機械学習ソリューションが提案されている。 しかし、新しいアプローチを提案する上で重要な部分は、現実的で多様な設定を表すベンチマークデータセットでそれらを実証的に評価することである。 そこで本稿では,フェアネス認識機械学習に使用される実世界のデータセットについて概説する。 公正な機械学習のための最も一般的なデータ表現として表型データに焦点を当てる。 我々はベイズネットワークを用いて,異なる属性,特にw.r.t. protected属性とクラス属性間の関係を同定し,分析を開始する。 データセットのバイアスと公平性についてより深く理解するために、探索分析を用いて興味深い関係を考察する。

As decision-making increasingly relies on machine learning and (big) data, the issue of fairness in data-driven AI systems is receiving increasing attention from both research and industry. A large variety of fairness-aware machine learning solutions have been proposed which propose fairness-related interventions in the data, learning algorithms and/or model outputs. However, a vital part of proposing new approaches is evaluating them empirically on benchmark datasets that represent realistic and diverse settings. Therefore, in this paper, we overview real-world datasets used for fairness-aware machine learning. We focus on tabular data as the most common data representation for fairness-aware machine learning. We start our analysis by identifying relationships among the different attributes, particularly w.r.t. protected attributes and class attributes, using a Bayesian network. For a deeper understanding of bias and fairness in the datasets, we investigate the interesting relationships using exploratory analysis.
翻訳日:2021-10-04 16:56:57 公開日:2021-10-01
# (参考訳) fed-lamb:層別および次元別局所適応最適化アルゴリズム

Fed-LAMB: Layerwise and Dimensionwise Locally Adaptive Optimization Algorithm ( http://arxiv.org/abs/2110.00532v1 )

ライセンス: CC BY 4.0
Belhal Karimi, Xiaoyun Li, Ping Li(参考訳) フェデレーション学習(fl)の新たなパラダイムでは、モバイルデバイスのような大量のクライアントが、それぞれのデータ上で高次元モデルをトレーニングするために使用される。 モバイルデバイスの帯域幅が低いため、分散最適化手法では、プライバシと合理的な通信コストを保ちながら、計算負荷をクライアントから計算サーバに移す必要がある。 本稿では,階層型ニューラルネットワークのように,fl設定下での深層学習に注目する。 本稿では,局所モデルの階層的および次元的更新に基づく新しいフェデレーション学習手法であるFed-LAMBを提案する。 本稿では,Fed-LAMBにおける有限時間収束解析の高速化について述べる。 我々は,我々の理論だけでなく,最先端技術よりも高速な収束性を示すために,iidおよび非id設定による実験結果を提供する。

In the emerging paradigm of federated learning (FL), large amount of clients, such as mobile devices, are used to train possibly high-dimensional models on their respective data. Due to the low bandwidth of mobile devices, decentralized optimization methods need to shift the computation burden from those clients to the computation server while preserving privacy and reasonable communication cost. In this paper, we focus on the training of deep, as in multilayered, neural networks, under the FL settings. We present Fed-LAMB, a novel federated learning method based on a layerwise and dimensionwise updates of the local models, alleviating the nonconvexity and the multilayered nature of the optimization task at hand. We provide a thorough finite-time convergence analysis for Fed-LAMB characterizing how fast its gradient decreases. We provide experimental results under iid and non-iid settings to corroborate not only our theory, but also exhibit the faster convergence of our method, compared to the state-of-the-art.
翻訳日:2021-10-04 16:55:07 公開日:2021-10-01
# (参考訳) TEACh: チャットするタスク駆動型体操エージェント

TEACh: Task-driven Embodied Agents that Chat ( http://arxiv.org/abs/2110.00534v1 )

ライセンス: CC BY-SA 4.0
Aishwarya Padmakumar, Jesse Thomason, Ayush Shrivastava, Patrick Lange, Anjali Narayan-Chen, Spandana Gella, Robinson Piramithu, Gokhan Tur, Dilek Hakkani-Tur(参考訳) 人間の空間で動くロボットは、人間との自然言語の対話、指示の理解と実行、あいまいさの解消と失敗からの回復のために会話を利用する必要がある。 そこで本研究では,3000人以上の人間-人間-対話的対話のデータセットであるTEAChを紹介する。 タスクに関するoracleの情報にアクセスするコマンダーは、自然言語でフォロワと通信する。 フォロワは、"make coffee"から"prepare breakfast"まで、複雑性の異なるタスクを完了するために環境をナビゲートし、対話します。 TEAChを用いた3つのベンチマークを行い,対話理解,言語基盤,タスク実行における初期モデルの能力を評価する。

Robots operating in human spaces must be able to engage in natural language interaction with people, both understanding and executing instructions, and using conversation to resolve ambiguity and recover from mistakes. To study this, we introduce TEACh, a dataset of over 3,000 human--human, interactive dialogues to complete household tasks in simulation. A Commander with access to oracle information about a task communicates in natural language with a Follower. The Follower navigates through and interacts with the environment to complete tasks varying in complexity from "Make Coffee" to "Prepare Breakfast", asking questions and getting additional information from the Commander. We propose three benchmarks using TEACh to study embodied intelligence challenges, and we evaluate initial models' abilities in dialogue understanding, language grounding, and task execution.
翻訳日:2021-10-04 16:22:57 公開日:2021-10-01
# (参考訳) ダイナミックスを解釈しながらの自己監督的分解, 絡み合い, 映像系列の予測:クープマンの視点から

Self-Supervised Decomposition, Disentanglement and Prediction of Video Sequences while Interpreting Dynamics: A Koopman Perspective ( http://arxiv.org/abs/2110.00547v1 )

ライセンス: CC BY-SA 4.0
Armand Comas, Sandesh Ghimire, Haolin Li, Mario Sznaier, Octavia Camps(参考訳) 世界の人間の解釈は、感覚入力を分類し、それらを階層的に構成するシンボルの使用を含んでいる。 コンピュータビジョンと人工知能の長期的な目的の1つは、世界を構造化し解釈する能力を持つ機械を養うことである。 この目的に向けて、近年の手法では、映像列を分解し、それらの合成オブジェクトとダイナミクスに分解することに成功した。 しかし、シーンのダイナミクスを解釈する努力は乏しい。 本稿では,動画を移動物体とその属性に分解し,コップマン埋め込みを用いた線形システム同定ツールを用いて各物体のダイナミクスをモデル化する手法を提案する。 これにより、koopman演算子kを使用することで、異なるオブジェクトのダイナミクスの解釈、操作、外挿が可能になる。

Human interpretation of the world encompasses the use of symbols to categorize sensory inputs and compose them in a hierarchical manner. One of the long-term objectives of Computer Vision and Artificial Intelligence is to endow machines with the capacity of structuring and interpreting the world as we do. Towards this goal, recent methods have successfully been able to decompose and disentangle video sequences into their composing objects and dynamics, in a self-supervised fashion. However, there has been a scarce effort in giving interpretation to the dynamics of the scene. We propose a method to decompose a video into moving objects and their attributes, and model each object's dynamics with linear system identification tools, by means of a Koopman embedding. This allows interpretation, manipulation and extrapolation of the dynamics of the different objects by employing the Koopman operator K. We test our method in various synthetic datasets and successfully forecast challenging trajectories while interpreting them.
翻訳日:2021-10-04 15:49:49 公開日:2021-10-01
# (参考訳) 論理ゲームに対する自然言語理解

Natural language understanding for logical games ( http://arxiv.org/abs/2110.00558v1 )

ライセンス: CC BY 4.0
Adrian Groza and Cristian Nitu(参考訳) 自然言語の論理パズルを自動的に解けるシステムを開発した。 私たちのソリューションはパーサと推論モジュールで構成されています。 パーサはテキストを一階述語論理(fol)に変換し、一方mace4モデルファインダは与えられたfol理論のモデルを計算するために使われる。 私たちはまた、ソフトウェアエージェントに、各パズルに関連する自然言語質問に対してyes/noの回答を提供する能力を与えます。 さらに、Explainalbe Artificial Intelligence (XAI) に従って、エージェントはその答えをバックアップし、証明のグラフィカルな表現を提供する。 機械学習の代わりに自然言語理解(NLU)の推論を利用する利点は、ユーザが推論チェーンの説明を得ることができることである。 このシステムは,382人の騎士やナイフパズルを含む,さまざまな種類の自然言語パズルでどのように機能するかを説明する。 これらの特徴と全体的な性能は 80.89\% であり、パズル領域における自然言語理解のための類似解法の改良である。

We developed a system able to automatically solve logical puzzles in natural language. Our solution is composed by a parser and an inference module. The parser translates the text into first order logic (FOL), while the MACE4 model finder is used to compute the models of the given FOL theory. We also empower our software agent with the capability to provide Yes/No answers to natural language questions related to each puzzle. Moreover, in line with Explainalbe Artificial Intelligence (XAI), the agent can back its answer, providing a graphical representation of the proof. The advantage of using reasoning for Natural Language Understanding (NLU) instead of Machine learning is that the user can obtain an explanation of the reasoning chain. We illustrate how the system performs on various types of natural language puzzles, including 382 knights and knaves puzzles. These features together with the overall performance rate of 80.89\% makes the proposed solution an improvement upon similar solvers for natural language understanding in the puzzles domain.
翻訳日:2021-10-04 15:33:07 公開日:2021-10-01
# (参考訳) 条件付き深いガウス過程:経験的ベイズハイパーデータ学習

Conditional Deep Gaussian Processes: empirical Bayes hyperdata learning ( http://arxiv.org/abs/2110.00568v1 )

ライセンス: CC BY 4.0
Chi-Ken Lu and Patrick Shafto(参考訳) 深層学習の表現力とガウス過程(GP)を1つの表現力のあるベイズ学習モデルで組み合わせることが望ましい。 [1]で提案された深層カーネル学習は、機能抽出にディープネットワークを採用することに成功し、続いてgpが関数モデルとして使用された。 近年, [2] は, 特徴抽出器の決定論的性質が過剰に適合し, ベイズネットワークへの置換がそれを解消する可能性が示唆された。 本稿では,階層構成における中間GPをハイパーデータでサポートし,露出したGPを平均ゼロとする条件付きディープガウス過程(DGP)を提案する。 スパースgpの誘導点に動機づけられ、ハイパーデータは機能サポートの役割も果たすが、確率変数ではなくハイパーパラメータである。 モーメントマッチング法[3]を用いて,実効カーネルを持つGPを用いて条件付きDGPの限界事前を近似する。 したがって、経験ベイズのように、ハイパーデータはカーネルを介してハイパーデータに暗黙的に依存する近似限界確率を最適化することによって学習される。 潜時空間における高密度ハイパーデータ限界における深層カーネル学習の等価性を示す。 しかし、条件付きDGPとそれに対応する近似推論は、深いカーネル学習よりもベイズ的であることの利点を享受する。 予備補間の結果は,提案モデルがGPカーネル構成,DGP変分推論,深層カーネル学習と比較して表現力を示す。 また、我々のモデルにおける非ガウス的側面とベイズ推論にアップグレードする方法についても触れる。

It is desirable to combine the expressive power of deep learning with Gaussian Process (GP) in one expressive Bayesian learning model. Deep kernel learning proposed in [1] showed success in adopting a deep network for feature extraction followed by a GP used as function model. Recently, [2] suggested that the deterministic nature of feature extractor may lead to overfitting while the replacement with a Bayesian network seemed to cure it. Here, we propose the conditional Deep Gaussian Process (DGP) in which the intermediate GPs in hierarchical composition are supported by the hyperdata and the exposed GP remains zero mean. Motivated by the inducing points in sparse GP, the hyperdata also play the role of function supports, but are hyperparameters rather than random variables. We use the moment matching method [3] to approximate the marginal prior for conditional DGP with a GP carrying an effective kernel. Thus, as in empirical Bayes, the hyperdata are learned by optimizing the approximate marginal likelihood which implicitly depends on the hyperdata via the kernel. We shall show the equivalence with the deep kernel learning in the limit of dense hyperdata in latent space. However, the conditional DGP and the corresponding approximate inference enjoy the benefit of being more Bayesian than deep kernel learning. Preliminary extrapolation results demonstrate expressive power of the proposed model compared with GP kernel composition, DGP variational inference, and deep kernel learning. We also address the non-Gaussian aspect of our model as well as way of upgrading to a full Bayes inference.
翻訳日:2021-10-04 15:19:43 公開日:2021-10-01
# パワープロパゲーション:ウェイトレパラメトリゼーションを誘導するスパーシティ

Powerpropagation: A sparsity inducing weight reparameterisation ( http://arxiv.org/abs/2110.00296v1 )

ライセンス: Link先を確認
Jonathan Schwarz and Siddhant M. Jayakumar and Razvan Pascanu and Peter E. Latham and Yee Whye Teh(参考訳) スパースニューラルネットワークのトレーニングは、トレーニングと評価におけるモデルの計算フットプリントを削減し、モデルの効果的なスケールアップを可能にするための、ますます重要なツールになりつつある。 長年にわたる多くの作業がプルーニング技術に特化されてきたが、勾配に基づくトレーニングがモデル空間に与える影響にはほとんど注意が払われていない。 本研究では,ニューラルネットワークの新しい重みパラメータ化手法であるPowerpropagationを導入する。 勾配降下の挙動をエクスプロイトすることにより,「豊かに富む」ダイナミックさを示す重み更新が生じ,低マグニチュードパラメータは学習の影響を受けない。 この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。 パワープロパゲーションは一般的に、直感的で、安価で実装が容易で、他の様々な技術と組み合わせることができる。 その汎用性を強調するために、我々は2つの異なる設定で検討する。 まず、最近の作業に従って、リソース制約された設定のスパーストレーニングにその影響について調査する。 ここでは,従来の重み付け手法と,最新の最先端のスパース・ツー・スパースアルゴリズムを組み合わせることで,imagenetベンチマークで優れた性能を示す。 第二に, 圧縮された表現により, モデルキャパシティに多数のタスクを収容することが可能な, 破滅的忘れを克服するための疎結合の活用を提唱する。 いずれの場合も、再パラメータ化はオフザシェルフ法の有効性を著しく向上させる。

The training of sparse neural networks is becoming an increasingly important tool for reducing the computational footprint of models at training and evaluation, as well enabling the effective scaling up of models. Whereas much work over the years has been dedicated to specialised pruning techniques, little attention has been paid to the inherent effect of gradient based training on model sparsity. In this work, we introduce Powerpropagation, a new weight-parameterisation for neural networks that leads to inherently sparse models. Exploiting the behaviour of gradient descent, our method gives rise to weight updates exhibiting a "rich get richer" dynamic, leaving low-magnitude parameters largely unaffected by learning. Models trained in this manner exhibit similar performance, but have a distribution with markedly higher density at zero, allowing more parameters to be pruned safely. Powerpropagation is general, intuitive, cheap and straight-forward to implement and can readily be combined with various other techniques. To highlight its versatility, we explore it in two very different settings: Firstly, following a recent line of work, we investigate its effect on sparse training for resource-constrained settings. Here, we combine Powerpropagation with a traditional weight-pruning technique as well as recent state-of-the-art sparse-to-sparse algorithms, showing superior performance on the ImageNet benchmark. Secondly, we advocate the use of sparsity in overcoming catastrophic forgetting, where compressed representations allow accommodating a large number of tasks at fixed model capacity. In all cases our reparameterisation considerably increases the efficacy of the off-the-shelf methods.
翻訳日:2021-10-04 14:49:47 公開日:2021-10-01
# 現実世界の医療連帯学習のための個人化レトログレッシブフレームワーク

Personalized Retrogress-Resilient Framework for Real-World Medical Federated Learning ( http://arxiv.org/abs/2110.00394v1 )

ライセンス: Link先を確認
Zhen Chen, Meilu Zhu, Chen Yang, Yixuan Yuan(参考訳) 近年,大規模データセットを用いたディープラーニング手法は,コンピュータ支援診断に有用である。 しかし、プライバシーと倫理上の懸念はますます深刻化しており、複数の機関から大量のデータを収集することは困難である。 Federated Learning (FL)は、プライベートデータの代わりにクライアントモデルを交換することで、モデルを協調的にトレーニングするための有望な分散ソリューションを提供する。 しかし、既存のFL手法のサーバアグリゲーションは、現実の医療用FL設定におけるモデル性能を劣化させるのが観察される。 この問題に対処するため,我々は,クライアント毎に優れたパーソナライズモデルを作成するための,パーソナライズされたレトログレッシブなフレームワークを提案する。 具体的には、サーバにプログレッシブ・フーリエ・アグリゲーション(PFA)を作成し、低周波から高周波へのクライアントモデルの統合により、より安定的で効果的なグローバル知識収集を実現する。 さらに、統合サーバモデルを受け取るための副モデルを導入することで、クライアントで副送信(det)戦略を設計し、グローバル知識をスムーズに転送することでパーソナライズされたローカルモデルを改善する3つのステップを実行する。 実世界のdermoscopic flデータセットに関する広範囲な実験により、我々のパーソナライズされたretrogress-resilient frameworkが、最先端のflメソッドや分散コホートの一般化よりも優れていることが証明された。 コードとデータセットはhttps://github.com/CityU-AIM-Group/PRR-FLで公開されている。

Nowadays, deep learning methods with large-scale datasets can produce clinically useful models for computer-aided diagnosis. However, the privacy and ethical concerns are increasingly critical, which make it difficult to collect large quantities of data from multiple institutions. Federated Learning (FL) provides a promising decentralized solution to train model collaboratively by exchanging client models instead of private data. However, the server aggregation of existing FL methods is observed to degrade the model performance in real-world medical FL setting, which is termed as retrogress. To address this problem, we propose a personalized retrogress-resilient framework to produce a superior personalized model for each client. Specifically, we devise a Progressive Fourier Aggregation (PFA) at the server to achieve more stable and effective global knowledge gathering by integrating client models from low-frequency to high-frequency gradually. Moreover, with an introduced deputy model to receive the aggregated server model, we design a Deputy-Enhanced Transfer (DET) strategy at the client and conduct three steps of Recover-Exchange-Sublimate to ameliorate the personalized local model by transferring the global knowledge smoothly. Extensive experiments on real-world dermoscopic FL dataset prove that our personalized retrogress-resilient framework outperforms state-of-the-art FL methods, as well as the generalization on an out-of-distribution cohort. The code and dataset are available at https://github.com/CityU-AIM-Group/PRR-FL.
翻訳日:2021-10-04 14:49:20 公開日:2021-10-01
# 自己教師と教師付きメソッドは類似した視覚的表現を学ぶか?

Do Self-Supervised and Supervised Methods Learn Similar Visual Representations? ( http://arxiv.org/abs/2110.00528v1 )

ライセンス: Link先を確認
Tom George Grigg, Dan Busbridge, Jason Ramapuram, Russ Webb(参考訳) 近年の視覚自己監視深層学習技術の成功にもかかわらず、最終的には学習される表現に関する調査は限られている。 ニューラル表現の比較における最近の進歩を利用して、コンストラシティブな自己教師付きアルゴリズム(SimCLR)を比較し、共通アーキテクチャにおける単純な画像データの監視を行う。 両手法は相似的な方法で類似の中間表現を学習し,最後の数層で表現が急速に発散することがわかった。 本研究は,これらの層が学習目的に強く適合していることから,この相違について検討する。 また、SimCLRの目的が中間層で監督対象に暗黙的に適合していることが分かるが、その逆は真ではない。 本研究は,学習中の中間表現の重要性を強調し,補助タスク設計の重要な疑問を提起する。

Despite the success of a number of recent techniques for visual self-supervised deep learning, there remains limited investigation into the representations that are ultimately learned. By using recent advances in comparing neural representations, we explore in this direction by comparing a constrastive self-supervised algorithm (SimCLR) to supervision for simple image data in a common architecture. We find that the methods learn similar intermediate representations through dissimilar means, and that the representations diverge rapidly in the final few layers. We investigate this divergence, finding that it is caused by these layers strongly fitting to the distinct learning objectives. We also find that SimCLR's objective implicitly fits the supervised objective in intermediate layers, but that the reverse is not true. Our work particularly highlights the importance of the learned intermediate representations, and raises important questions for auxiliary task design.
翻訳日:2021-10-04 14:48:08 公開日:2021-10-01
# 事前学習モデルの知識向上に関する調査

A Survey of Knowledge Enhanced Pre-trained Models ( http://arxiv.org/abs/2110.00269v1 )

ライセンス: Link先を確認
Jian Yang, Gang Xiao, Yulong Shen, Wei Jiang, Xinyu Hu, Ying Zhang, Jinghui Peng(参考訳) 事前学習モデルでは,自己教師あり学習法によって,大規模テキストコーパス上で文脈化単語表現を学習する。 しかし、これらのモデルは頑健さと解釈性の欠如に苦しむ。 知識注入を用いた事前学習モデルは、知識強化事前学習モデル(KEPTM)と呼ばれ、深い理解と論理的推論を持ち、ある程度の解釈可能性を導入している。 本稿では,自然言語処理のためのKEPTMについて概観する。 まず,事前学習モデルと知識表現学習の進歩を紹介する。 次に,既存のKEPTMを3つの異なる視点から分類する。 最後に,今後の研究に向けたKEPTMの可能性について概説する。

Pre-trained models learn contextualized word representations on large-scale text corpus through a self-supervised learning method, which has achieved promising performance after fine-tuning. These models, however, suffer from poor robustness and lack of interpretability. Pre-trained models with knowledge injection, which we call knowledge enhanced pre-trained models (KEPTMs), possess deep understanding and logical reasoning and introduce interpretability to some extent. In this survey, we provide a comprehensive overview of KEPTMs for natural language processing. We first introduce the progress of pre-trained models and knowledge representation learning. Then we systematically categorize existing KEPTMs from three different perspectives. Finally, we outline some potential directions of KEPTMs for future research.
翻訳日:2021-10-04 14:47:54 公開日:2021-10-01
# アメリカ手話における音韻認識

Phonology Recognition in American Sign Language ( http://arxiv.org/abs/2110.00453v1 )

ライセンス: Link先を確認
Federico Tavella, Aphrodite Galata, Angelo Cangelosi(参考訳) 近年の自然言語処理の発展に触発されて,アメリカの手話利用者が検証した音韻特性に基づく手話処理への新しいアプローチを提案する。 音韻データと手話話者によるデータセットを活用することで,メッシュ再構成に基づく事前学習された深層モデルを用いて,シグナーキーポイントの3次元座標を抽出する。 そこで我々は,座標の各時間列に音韻クラスを割り当てるために,標準統計モデルと深層機械学習モデルを訓練する。 本稿では,手話利用者が手動で割り当てられた音韻的特性を利用して,3Dメッシュを回帰することで手話の映像を分類する手法を提案する。 725の異なる記号の統計分布に基づいて,この問題の新たなベースラインを確立する。 統計的および深層学習アルゴリズムを用いたマイクロ平均f1-scoreは,35%と39%のベースラインと比較して,平均f1-scoreが58%,手話タイプが70%であった。

Inspired by recent developments in natural language processing, we propose a novel approach to sign language processing based on phonological properties validated by American Sign Language users. By taking advantage of datasets composed of phonological data and people speaking sign language, we use a pretrained deep model based on mesh reconstruction to extract the 3D coordinates of the signers keypoints. Then, we train standard statistical and deep machine learning models in order to assign phonological classes to each temporal sequence of coordinates. Our paper introduces the idea of exploiting the phonological properties manually assigned by sign language users to classify videos of people performing signs by regressing a 3D mesh. We establish a new baseline for this problem based on the statistical distribution of 725 different signs. Our best-performing models achieve a micro-averaged F1-score of 58% for the major location class and 70% for the sign type using statistical and deep learning algorithms, compared to their corresponding baselines of 35% and 39%.
翻訳日:2021-10-04 14:47:45 公開日:2021-10-01
# 識別の相互依存系を解き放つ:断面レンズによるNLP系におけるアブレストバイアス

Unpacking the Interdependent Systems of Discrimination: Ableist Bias in NLP Systems through an Intersectional Lens ( http://arxiv.org/abs/2110.00521v1 )

ライセンス: Link先を確認
Saad Hassan and Matt Huenerfauth and Cecilia Ovesdotter Alm(参考訳) 世界の人口の多くは、生涯に何らかの障害を経験している。 自然言語処理(nlp)システムを設計する際には、障害のある人、すなわち典型的な能力を持つ人を好む偏見に対して、システムが不注意に能力主義的な偏見を持続させないよう注意する必要がある。 大規模BERT言語モデルの単語予測に基づく各種解析について報告する。 統計的に有意な結果は障害者が不利であることを示している。 また、性や人種のアイデンティティが相互に関連した差別の重なり合いについても研究している。

Much of the world's population experiences some form of disability during their lifetime. Caution must be exercised while designing natural language processing (NLP) systems to prevent systems from inadvertently perpetuating ableist bias against people with disabilities, i.e., prejudice that favors those with typical abilities. We report on various analyses based on word predictions of a large-scale BERT language model. Statistically significant results demonstrate that people with disabilities can be disadvantaged. Findings also explore overlapping forms of discrimination related to interconnected gender and race identities.
翻訳日:2021-10-04 14:47:28 公開日:2021-10-01
# 概念と操作の校正 : 実像のシンボリック推論に向けて

Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images ( http://arxiv.org/abs/2110.00519v1 )

ライセンス: Link先を確認
Zhuowan Li, Elias Stengel-Eskin, Yixiao Zhang, Cihang Xie, Quan Tran, Benjamin Van Durme, Alan Yuille(参考訳) ニューラルシンボリックメソッドは、合成画像に対する視覚的質問応答において印象的なパフォーマンスを示すが、実際の画像ではそのパフォーマンスが損なわれる。 実データにおいて、視覚的概念のロングテール分布と推論ステップの不等さは、モデルの実世界のポテンシャルを制限する2つの重要な障害である。 これらの課題に対処するために,ニューラルシンボリックモデルが基盤となるデータ特性をキャプチャし,階層的重要度を持つ推論を可能にする,概念と操作のキャリブレーション(cco)という新しいパラダイムを提案する。 具体的には,分散不均衡を扱うための学習可能な概念を組み込んだエグゼキュータと,重要な操作を強調表示し冗長な動作を抑制する操作キャリブレータを提案する。 実験の結果,CCOは実画像上でのニューラルシンボル法の性能を大幅に向上させることがわかった。 実世界のデータセットgqaのモデルを評価することによって、ccoは、ニューラルネットワークのシンボリックメソッドnsclが、そのバニラを9.1%上回る(47.0%から56.1%)。 さらに,実画像のモデル性能をよりよく理解し,分析するための摂動テストセットを作成する。 コードはhttps://github.com/Lizw14/CaliCO.gitで入手できる。

While neural symbolic methods demonstrate impressive performance in visual question answering on synthetic images, their performance suffers on real images. We identify that the long-tail distribution of visual concepts and unequal importance of reasoning steps in real data are the two key obstacles that limit the models' real-world potentials. To address these challenges, we propose a new paradigm, Calibrating Concepts and Operations (CCO), which enables neural symbolic models to capture underlying data characteristics and to reason with hierarchical importance. Specifically, we introduce an executor with learnable concept embedding magnitudes for handling distribution imbalance, and an operation calibrator for highlighting important operations and suppressing redundant ones. Our experiments show CCO substantially boosts the performance of neural symbolic methods on real images. By evaluating models on the real world dataset GQA, CCO helps the neural symbolic method NSCL outperforms its vanilla counterpart by 9.1% (from 47.0% to 56.1%); this result also largely reduces the performance gap between symbolic and non-symbolic methods. Additionally, we create a perturbed test set for better understanding and analyzing model performance on real images. Code is available at https://github.com/Lizw14/CaliCO.git .
翻訳日:2021-10-04 14:47:17 公開日:2021-10-01
# ヒューマンアクティビティ認識のためのフェデレーション設定における軽量トランス

Lightweight Transformer in Federated Setting for Human Activity Recognition ( http://arxiv.org/abs/2110.00244v1 )

ライセンス: Link先を確認
Ali Raza, Kim Phuc Tran, Ludovic Koehl, Shujun Li, Xianyi Zeng, and Khaled Benzaidi(参考訳) 人間活動認識(HAR)は難しい問題だが、解決する必要がある。 主に、IoT(Internet of Things)など他のテクノロジと統合する際の補助技術として、老人医療やヘルスケアに使用される。 HARは、センサー、スマートフォン、画像の助けを借りて実現できる。 ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワークといったディープニューラルネットワーク技術は、集中型と連合型の両方でharで使用されている。 しかし、これらの技術には一定の制限がある。 RNNは並列化の制限があり、CNNSはシーケンス長の制限があり、計算コストが高い。 本稿では,技術課題に対処するために,人間活動認識のためのRNNとCNNの両方の利点を生かした,慣性センサを用いた新しい1つのパッチトランスフォーマを提案する。 また、リアルタイムな人的活動データ収集のためのテストベッドを設計する。 収集されたデータは、提案されたトランスのトレーニングとテストにさらに使用される。 実験により,提案するトランスフォーマは,フェデレーション設定と集中設定の両方において,アートcnnおよびrnnベースの分類器よりも優れることを示した。 さらに,既存のart cnnやrnnベースの分類器に比べ,パラメータが極めて少ないため,提案するトランスフォーマーは計算量的に安価である。 したがって、より少ないコミュニケーションと計算コストを提供するため、連合学習に適している。

Human Activity Recognition (HAR) has been a challenging problem yet it needs to be solved. It will mainly be used for eldercare and healthcare as an assistive technology when ensemble with other technologies like Internet of Things(IoT). HAR can be achieved with the help of sensors, smartphones or images. Deep neural network techniques like artificial neural networks, convolutional neural networks and recurrent neural networks have been used in HAR, both in centralized and federated setting. However, these techniques have certain limitations. RNNs have limitation of parallelization, CNNS have the limitation of sequence length and they are computationally expensive. In this paper, to address the state of art challenges, we present a inertial sensors-based novel one patch transformer which gives the best of both RNNs and CNNs for Human activity recognition. We also design a testbed to collect real-time human activity data. The data collected is further used to train and test the proposed transformer. With the help of experiments, we show that the proposed transformer outperforms the state of art CNN and RNN based classifiers, both in federated and centralized setting. Moreover, the proposed transformer is computationally inexpensive as it uses very few parameter compared to the existing state of art CNN and RNN based classifier. Thus its more suitable for federated learning as it provides less communication and computational cost.
翻訳日:2021-10-04 14:46:53 公開日:2021-10-01
# インスタンスセグメンテーションチャレンジトラック技術報告, vipriors workshop at iccv 2021: task-specific copy-paste data augmentation method for instance segmentation

Instance Segmentation Challenge Track Technical Report, VIPriors Workshop at ICCV 2021: Task-Specific Copy-Paste Data Augmentation Method for Instance Segmentation ( http://arxiv.org/abs/2110.00470v1 )

ライセンス: Link先を確認
Jahongir Yunusov, Shohruh Rakhmatov, Abdulaziz Namozov, Abdulaziz Gaybulayev and Tae-Hyong Kim(参考訳) Copy-Pasteは、モデルの一般化を改善するインスタンスセグメンテーションのための非常に効果的なデータ拡張であることが証明されている。 我々は,タスク固有のCopy-Pasteデータ拡張手法を用いて,第2回VIPriorsワークショップチャレンジのインスタンスセグメンテーショントラックの性能を向上した。 randaugmentやgridmaskといった追加のデータ拡張技術も適用しました。 本誌のセグメンテーションモデルは、CBSwin-BのHTC検出器でCBFPNに微調整を加えている。 このモデルは6倍のスケジュールでランダムサンプリングによりマルチスケールモードで訓練され、シングルスケールモードでテストされた。 これらの手法を組み合わせることで、検証セットで0.398 ap@0.50:0.95、テストセットで 0.433 ap@0.50:0.95 を達成した。 最後に、トレーニングデータに検証セットを追加することで、テストセットで0.477 ap@0.50:0.95に達した。 ソースコードはhttps://github.com/jahongir7174/vip2021。

Copy-Paste has proven to be a very effective data augmentation for instance segmentation which can improve the generalization of the model. We used a task-specific Copy-Paste data augmentation method to achieve good performance on the instance segmentation track of the 2nd VIPriors workshop challenge. We also applied additional data augmentation techniques including RandAugment and GridMask. Our segmentation model is the HTC detector on the CBSwin-B with CBFPN with some tweaks. This model was trained at the multi-scale mode by a random sampler on the 6x schedule and tested at the single-scale mode. By combining these techniques, we achieved 0.398 AP@0.50:0.95 with the validation set and 0.433 AP@0.50:0.95 with the test set. Finally, we reached 0.477 AP@0.50:0.95 with the test set by adding the validation set to the training data. Source code is available at https://github.com/jahongir7174/VIP2021.
翻訳日:2021-10-04 14:46:30 公開日:2021-10-01
# 逆モデルに基づくイマジネーションを用いたオフライン強化学習

Offline Reinforcement Learning with Reverse Model-based Imagination ( http://arxiv.org/abs/2110.00188v1 )

ライセンス: Link先を確認
Jianhao Wang, Wenzhe Li, Haozhe Jiang, Guangxiang Zhu, Siyuan Li, Chongjie Zhang(参考訳) オフライン強化学習(オフラインrl)において、主な課題の1つは、学習ポリシーと与えられたデータセットの分散シフトに対処することだ。 この問題に対処するために、最近のオフラインRL手法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようと試みている。 モデルフリーなアプローチは、保守的な正規化や特別なネットワーク構造を使って、これらのバイアスをポリシーや価値関数の学習に直接エンコードするが、その制約付きポリシー検索はオフラインデータセットを超えて一般化を制限している。 モデルに基づくアプローチは、保守主義の定量化を伴うフォワードダイナミクスモデルを学び、続いて仮想軌道を生成してオフラインデータセットを拡張する。 しかしながら、オフラインデータセットのサンプルが限られているため、保守的定量化はサポート外領域での過大化に苦しむことが多い。 信頼できない保守的措置は、モデルに基づく想像力を望ましくない地域に向け、過度に攻撃的な行動を引き起こす。 より保守性を高めるために,Reverse Offline Model-based Imagination (ROMI) と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。 我々は、新しいリバースポリシーとともにリバースダイナミクスモデルを学び、オフラインデータセット内でターゲット目標状態につながるロールアウトを生成することができる。 これらの逆イマジネーションは、モデルフリーなポリシー学習のためのインフォームドデータ拡張を提供し、オフラインデータセットを超えて保守的な一般化を可能にする。 ROMIは市販のモデルフリーアルゴリズムと効果的に組み合わせて、モデルベース一般化と適切な保守性を実現する。 実験の結果,本手法はより保守的な動作を生成でき,オフラインRLベンチマークタスクの最先端性能を実現することができることがわかった。

In offline reinforcement learning (offline RL), one of the main challenges is to deal with the distributional shift between the learning policy and the given dataset. To address this problem, recent offline RL methods attempt to introduce conservatism bias to encourage learning on high-confidence areas. Model-free approaches directly encode such bias into policy or value function learning using conservative regularizations or special network structures, but their constrained policy search limits the generalization beyond the offline dataset. Model-based approaches learn forward dynamics models with conservatism quantifications and then generate imaginary trajectories to extend the offline datasets. However, due to limited samples in offline dataset, conservatism quantifications often suffer from overgeneralization in out-of-support regions. The unreliable conservative measures will mislead forward model-based imaginations to undesired areas, leading to overaggressive behaviors. To encourage more conservatism, we propose a novel model-based offline RL framework, called Reverse Offline Model-based Imagination (ROMI). We learn a reverse dynamics model in conjunction with a novel reverse policy, which can generate rollouts leading to the target goal states within the offline dataset. These reverse imaginations provide informed data augmentation for the model-free policy learning and enable conservative generalization beyond the offline dataset. ROMI can effectively combine with off-the-shelf model-free algorithms to enable model-based generalization with proper conservatism. Empirical results show that our method can generate more conservative behaviors and achieve state-of-the-art performance on offline RL benchmark tasks.
翻訳日:2021-10-04 14:45:52 公開日:2021-10-01
# SMATE:多変量時系列に基づく半教師付き時空間表現学習

SMATE: Semi-Supervised Spatio-Temporal Representation Learning on Multivariate Time Series ( http://arxiv.org/abs/2110.00578v1 )

ライセンス: Link先を確認
Jingwei Zuo, Karine Zeitouni and Yehia Taher(参考訳) 多変量時系列(MTS)からの学習は近年広く注目を集めている。 特に、ラベル不足は、複雑な次元およびシーケンシャルなデータ構造を考えると、MSS上の分類タスクにとって真の課題である。 本稿では,距離に基づく分類器に依存する自己学習や正の非ラベル学習とは異なり,弱いラベル付きMSSから解釈可能な時空間表現を学習するための半教師付きモデルSMATEを提案する。 UEA MTSアーカイブから22の公開データセットの学習表現を実証的に検証した。 完全な教師付きタスクでは13の最先端のベースラインメソッド,半教師付きタスクでは4つのベースラインと比較した。 その結果,提案手法の信頼性と効率性を示した。

Learning from Multivariate Time Series (MTS) has attracted widespread attention in recent years. In particular, label shortage is a real challenge for the classification task on MTS, considering its complex dimensional and sequential data structure. Unlike self-training and positive unlabeled learning that rely on distance-based classifiers, in this paper, we propose SMATE, a novel semi-supervised model for learning the interpretable Spatio-Temporal representation from weakly labeled MTS. We validate empirically the learned representation on 22 public datasets from the UEA MTS archive. We compare it with 13 state-of-the-art baseline methods for fully supervised tasks and four baselines for semi-supervised tasks. The results show the reliability and efficiency of our proposed method.
翻訳日:2021-10-04 14:45:26 公開日:2021-10-01
# SimとReal: より良く連携する

Sim and Real: Better Together ( http://arxiv.org/abs/2110.00445v1 )

ライセンス: Link先を確認
Shirli Di Castro Shashua, Dotan Di~Castro, Shie Mannor(参考訳) シミュレーションは自律システム、特にロボット操作で広く使われている。 これまでのところ、最も一般的なアプローチは、シミュレーションでコントローラをトレーニングし、それを実際のシステムの開始点として使うことである。 シミュレーションと実環境とのインタラクションの両方から同時に学習する方法を実証する。 本研究では,高スループットだがシミュレーション精度の低い多数のサンプルと,実環境からの低スループット・高忠実・高コストサンプルのバランスをとるアルゴリズムを提案する。 エージェントが相互作用する環境ごとにリプレイバッファを維持させることで、これを実現する。 このようなマルチ環境相互作用を理論的に解析し,新しい理論リプレイバッファ解析により収束特性を提供する。 実環境における本手法の有効性を実証する。

Simulation is used extensively in autonomous systems, particularly in robotic manipulation. By far, the most common approach is to train a controller in simulation, and then use it as an initial starting point for the real system. We demonstrate how to learn simultaneously from both simulation and interaction with the real environment. We propose an algorithm for balancing the large number of samples from the high throughput but less accurate simulation and the low-throughput, high-fidelity and costly samples from the real environment. We achieve that by maintaining a replay buffer for each environment the agent interacts with. We analyze such multi-environment interaction theoretically, and provide convergence properties, through a novel theoretical replay buffer analysis. We demonstrate the efficacy of our method on a sim-to-real environment.
翻訳日:2021-10-04 14:45:15 公開日:2021-10-01
# 異常検出のための確率的ロバストオートエンコーダ

Probabilistic Robust Autoencoders for Anomaly Detection ( http://arxiv.org/abs/2110.00494v1 )

ライセンス: Link先を確認
Yariv Aizenbud, Ofir Lindenbaum, Yuval Kluger(参考訳) 経験的な観察は、しばしばデータを汚染する異常(または異常値)から構成される。 下流データ解析タスクの成功には異常サンプルの正確な同定が不可欠である。 異常を自動的に識別するために,確率ロバストオートエンコーダ(PRAE)と呼ばれる新しいタイプのオートエンコーダを提案する。 PRAEは、同時に外れ値を取り除き、低次元のサンプルを識別するように設計されている。 まず、ロバストAE(RAE)を、低次元表現がAEを介して学習される不規則なサンプルと、低次元表現に適合しないとして除外される異常なサンプルにデータを分割することを目的としたモデルとして記述する。 ロバストAEは、できるだけ多くの観測を取り入れようと試みながら、AEの再構築を最小化する。 これは、選択された観測回数を数える$\ell_0$ノルムの再構成項から引いて実現できる。 $\ell_0$ ノルムは微分不可能であるため、RAE アプローチに対して2つの確率的緩和を提案し、異常を効果的に識別できることを実証する。 PRAEの解法がRAEの解と等価であることを証明し、PRAEが異常検出の最先端手法と同等であることを示す。

Empirical observations often consist of anomalies (or outliers) that contaminate the data. Accurate identification of anomalous samples is crucial for the success of downstream data analysis tasks. To automatically identify anomalies, we propose a new type of autoencoder (AE) which we term Probabilistic Robust autoencoder (PRAE). PRAE is designed to simultaneously remove outliers and identify a low-dimensional representation for the inlier samples. We first describe Robust AE (RAE) as a model that aims to split the data to inlier samples from which a low dimensional representation is learned via an AE, and anomalous (outlier) samples that are excluded as they do not fit the low dimensional representation. Robust AE minimizes the reconstruction of the AE while attempting to incorporate as many observations as possible. This could be realized by subtracting from the reconstruction term an $\ell_0$ norm counting the number of selected observations. Since the $\ell_0$ norm is not differentiable, we propose two probabilistic relaxations for the RAE approach and demonstrate that they can effectively identify anomalies. We prove that the solution to PRAE is equivalent to the solution of RAE and demonstrate using extensive simulations that PRAE is at par with state-of-the-art methods for anomaly detection.
翻訳日:2021-10-04 14:45:03 公開日:2021-10-01
# 分布強化学習における非交叉分位回帰のクレーム距離視点

A Cram\'er Distance perspective on Non-crossing Quantile Regression in Distributional Reinforcement Learning ( http://arxiv.org/abs/2110.00535v1 )

ライセンス: Link先を確認
Alix Lh\'eritier and Nicolas Bondoux(参考訳) 分散強化学習(DRL)は、深い畳み込みネットワークを用いて、平均値のみではなく将来のリターンに対する完全な分布を近似し、よりリッチな信号を提供することにより、性能の向上につながる。 QR-DQNのような量子ベースの手法は、1-ワッサーシュタイン距離を最小化して階段分布のパラメトリック部分集合に任意の分布を投影するが、勾配のバイアスのため、量子回帰損失は代わりにトレーニングに使われ、同じ最小化を保証し、不偏勾配を楽しむ。 近年,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されている。 この研究の貢献は、固定量子レベルの設定であり、2倍である。 まず, 1-wasserstein と一致する射影と, 1-wasserstein と一致する射影と, 単調性制約下では, 四角形空間と四角形回帰損失はコリニア勾配を生じさせ, これらの重要な要素間の接続に光をあてる。 第2に,新しいアルゴリズムを用いてClam\'er距離を計算し,標準のAtari 2600ベンチマークの多くのゲームにおいてQR-DQNよりも大幅に改善された非交差ニューラルネットワークを提案する。

Distributional reinforcement learning (DRL) extends the value-based approach by using a deep convolutional network to approximate the full distribution over future returns instead of the mean only, providing a richer signal that leads to improved performances. Quantile-based methods like QR-DQN project arbitrary distributions onto a parametric subset of staircase distributions by minimizing the 1-Wasserstein distance, however, due to biases in the gradients, the quantile regression loss is used instead for training, guaranteeing the same minimizer and enjoying unbiased gradients. Recently, monotonicity constraints on the quantiles have been shown to improve the performance of QR-DQN for uncertainty-based exploration strategies. The contribution of this work is in the setting of fixed quantile levels and is twofold. First, we prove that the Cram\'er distance yields a projection that coincides with the 1-Wasserstein one and that, under monotonicity constraints, the squared Cram\'er and the quantile regression losses yield collinear gradients, shedding light on the connection between these important elements of DRL. Second, we propose a novel non-crossing neural architecture that allows a good training performance using a novel algorithm to compute the Cram\'er distance, yielding significant improvements over QR-DQN in a number of games of the standard Atari 2600 benchmark.
翻訳日:2021-10-04 14:44:40 公開日:2021-10-01
# 学生支援教員:自己認識蒸留による教師の進化

Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation ( http://arxiv.org/abs/2110.00329v1 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Lingfeng Zhang, Jian Yang, Zhigeng Pan(参考訳) 知識蒸留は、通常、知識を事前訓練された教師ネットワークから、古典的教師・教師・学生のパラダイムに従うコンパクトな学生ネットワークに移す。 このパラダイムに基づいて、従来の手法は主に、より良い学生ネットワークをデプロイするために効率的にトレーニングする方法に重点を置いている。 そこで,本稿では,従来の実践と異なり,構造的バックボーンを共有することによって,対象教師(展開)が複数の階層的学生の助けを借りて学習される,自己知識蒸留による教師進化(teacher evolution via self-knowledge distillation,teskd)という新しい式を提案する。 複数の学生からの多様なフィードバックにより、教師は共有した特徴表現を通じて自らを改善できる。 提案手法の有効性は,CIFAR-100 と ImageNet の2つの標準ベンチマークにおいて,様々なネットワーク設定による広範な実験により実証された。 特に,提案手法を併用したトレーニングでは,CIFAR-100とImageNetで79.15%,71.14%の精度を達成し,それぞれ4.74%,1.43%のベースライン結果を上回った。 コードはhttps://github.com/zhengli427/teskdで入手できる。

Knowledge distillation usually transfers the knowledge from a pre-trained cumbersome teacher network to a compact student network, which follows the classical teacher-teaching-student paradigm. Based on this paradigm, previous methods mostly focus on how to efficiently train a better student network for deployment. Different from the existing practices, in this paper, we propose a novel student-helping-teacher formula, Teacher Evolution via Self-Knowledge Distillation (TESKD), where the target teacher (for deployment) is learned with the help of multiple hierarchical students by sharing the structural backbone. The diverse feedback from multiple students allows the teacher to improve itself through the shared feature representations. The effectiveness of our proposed framework is demonstrated by extensive experiments with various network settings on two standard benchmarks including CIFAR-100 and ImageNet. Notably, when trained together with our proposed method, ResNet-18 achieves 79.15% and 71.14% accuracy on CIFAR-100 and ImageNet, outperforming the baseline results by 4.74% and 1.43%, respectively. The code is available at: https://github.com/zhengli427/TESKD.
翻訳日:2021-10-04 14:44:12 公開日:2021-10-01
# PhiNets:エッジでの低消費電力AIのためのスケーラブルなバックボーン

PhiNets: a scalable backbone for low-power AI at the edge ( http://arxiv.org/abs/2110.00337v1 )

ライセンス: Link先を確認
Francesco Paissan, Alberto Ancilotto, and Elisabetta Farella(参考訳) モノのインターネット(Internet of Things,モノのインターネット)の時代は、多くの相互接続型で異質なモバイルおよび固定されたスマートデバイスが登場し、クラウドからエッジへインテリジェンスを分散させる必要がある。 限られた計算能力と通信能力、低メモリと限られたエネルギー予算のため、センサーネットワークのエンドノードのような周辺機器に人工知能アルゴリズムをもたらすことは困難な課題であり、革新的な方法の設計を必要とする。 本稿では,リソース制約のあるプラットフォーム上で,ディープラーニングベースの画像処理に最適化された新しいスケーラブルなバックボーンであるphinetsを提案する。 PhiNetは計算コスト、動作メモリ、パラメータメモリを分離するために特別に設計された逆残差ブロックに基づいており、利用可能なリソースをすべて活用している。 YoloV2検出ヘッドとSimple Online and Realtime Trackingにより、提案アーキテクチャは最先端の成果を得た。 i)COCOおよびVOC2012ベンチマークにおける検出、及び (ii)MOT15ベンチマークの追跡。 PhiNets は従来の最先端モデル (EfficientNetv1, MobileNetv2) に対して 87% から 93% のパラメータ数を削減し、計算コストを削減した。 さらに,2MBの内部フラッシュと1MBのRAMを備えたSTM32H743マイクロコントローラ(MCU)をベースとしたプロトタイプノードを試作し,10mWの電力要求を実現する。 PhiNetsのコードはGitHubで公開されている。

In the Internet of Things era, where we see many interconnected and heterogeneous mobile and fixed smart devices, distributing the intelligence from the cloud to the edge has become a necessity. Due to limited computational and communication capabilities, low memory and limited energy budget, bringing artificial intelligence algorithms to peripheral devices, such as the end-nodes of a sensor network, is a challenging task and requires the design of innovative methods. In this work, we present PhiNets, a new scalable backbone optimized for deep-learning-based image processing on resource-constrained platforms. PhiNets are based on inverted residual blocks specifically designed to decouple the computational cost, working memory, and parameter memory, thus exploiting all the available resources. With a YoloV2 detection head and Simple Online and Realtime Tracking, the proposed architecture has achieved the state-of-the-art results in (i) detection on the COCO and VOC2012 benchmarks, and (ii) tracking on the MOT15 benchmark. PhiNets reduce the parameter count of 87% to 93% with respect to previous state-of-the-art models (EfficientNetv1, MobileNetv2) and achieve better performance with lower computational cost. Moreover, we demonstrate our approach on a prototype node based on a STM32H743 microcontroller (MCU) with 2MB of internal Flash and 1MB of RAM and achieve power requirements in the order of 10 mW. The code for the PhiNets is publicly available on GitHub.
翻訳日:2021-10-04 14:43:49 公開日:2021-10-01
# カプセルオートエンコーダを用いた教師なし運動表現学習

Unsupervised Motion Representation Learning with Capsule Autoencoders ( http://arxiv.org/abs/2110.00529v1 )

ライセンス: Link先を確認
Ziwei Xu, Xudong Shen, Yongkang Wong, Mohan S Kankanhalli(参考訳) 本研究では,運動表現の教師なし学習における重要な課題である変換不変性に対処するモーションカプセルオートエンコーダ(mcae)を提案する。 MCAEは2レベル階層の動作をモデル化する。 下層では、時空間運動信号はショート、ローカル、セマンティック非依存のスニペットに分割される。 より高いレベルでは、スニペットは集約され、完全な意味認識セグメントを形成する。 両レベルにおいて、新しい設計のカプセルオートエンコーダを用いて、学習された変換不変テンプレートと対応する幾何変換を用いて動きを表現する。 これは、視点変化の堅牢で効率的なエンコーディングにつながる。 MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。 特に、教師なしのスケルトンベースのアクション認識タスクでのパラメーターと最先端のパフォーマンスが大幅に少ないtraves20のベースラインよりも優れた結果が得られる。

We propose the Motion Capsule Autoencoder (MCAE), which addresses a key challenge in the unsupervised learning of motion representations: transformation invariance. MCAE models motion in a two-level hierarchy. In the lower level, a spatio-temporal motion signal is divided into short, local, and semantic-agnostic snippets. In the higher level, the snippets are aggregated to form full-length semantic-aware segments. For both levels, we represent motion with a set of learned transformation invariant templates and the corresponding geometric transformations by using capsule autoencoders of a novel design. This leads to a robust and efficient encoding of viewpoint changes. MCAE is evaluated on a novel Trajectory20 motion dataset and various real-world skeleton-based human action datasets. Notably, it achieves better results than baselines on Trajectory20 with considerably fewer parameters and state-of-the-art performance on the unsupervised skeleton-based action recognition task.
翻訳日:2021-10-04 14:43:24 公開日:2021-10-01
# MonoCinIS:インスタンスセグメンテーションを用いたカメラ独立型単眼物体検出

MonoCInIS: Camera Independent Monocular 3D Object Detection using Instance Segmentation ( http://arxiv.org/abs/2110.00464v1 )

ライセンス: Link先を確認
Jonas Heylen, Mark De Wolf, Bruno Dawagne, Marc Proesmans, Luc Van Gool, Wim Abbeloos, Hazem Abdelkawy, Daniel Olmeda Reino(参考訳) 単眼の3dオブジェクト検出は、最近有望な結果を示しているが、依然として課題がある。 その1つは、異なるカメラ固有のパラメータに対する不変性の欠如であり、異なる3Dオブジェクトデータセット間で観測できる。 不均一な3Dオブジェクトデータセットの組み合わせを利用する努力はほとんど行われていない。 一般的な直観とは対照的に、大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータが自動的により良いパフォーマンスを保証するのではなく、"カメラ独立"の度合いを持つ必要がある。 本稿では、カメラ独立幾何学的推論を用いて、異なるデータセットの様々なカメラ視点と内在性に対処するカテゴリレベルのポーズ推定手法を提案する。 インスタンスの各ピクセルはオブジェクトの次元を予測し、2D画像空間に投影される3Dオブジェクト参照ポイントと、任意に局所的な視野角を予測します。 カメラの内在性は、予測された2D参照ポイントを3Dに上げるために学習ネットワークの外部でのみ使用される。 難解なkitti3dベンチマークでは,カメラ独立法を上回り,カメラ依存法と比較して重要な利点を示す。

Monocular 3D object detection has recently shown promising results, however there remain challenging problems. One of those is the lack of invariance to different camera intrinsic parameters, which can be observed across different 3D object datasets. Little effort has been made to exploit the combination of heterogeneous 3D object datasets. In contrast to general intuition, we show that more data does not automatically guarantee a better performance, but rather, methods need to have a degree of 'camera independence' in order to benefit from large and heterogeneous training data. In this paper we propose a category-level pose estimation method based on instance segmentation, using camera independent geometric reasoning to cope with the varying camera viewpoints and intrinsics of different datasets. Every pixel of an instance predicts the object dimensions, the 3D object reference points projected in 2D image space and, optionally, the local viewing angle. Camera intrinsics are only used outside of the learned network to lift the predicted 2D reference points to 3D. We surpass camera independent methods on the challenging KITTI3D benchmark and show the key benefits compared to camera dependent methods.
翻訳日:2021-10-04 14:43:10 公開日:2021-10-01
# LEMON: 説明可能なエンティティマッチング

LEMON: Explainable Entity Matching ( http://arxiv.org/abs/2110.00516v1 )

ライセンス: Link先を確認
Nils Barlaug(参考訳) State-of-the-art entity matching (EM)メソッドは解釈が困難であり、説明可能なAIをEMに持ち込む上で大きな価値がある。 残念なことに、最も一般的な説明可能性の手法は、EMのためにうまく機能せず、適応が必要である。 本稿では,局所的なポストホック特徴帰属法をエンティティマッチングに適用する3つの課題,クロスレコードインタラクション効果,非マッチング説明,感度の変動を明らかにする。 本稿では,3つの課題をすべて解決したモデル非依存でスキーマフレキシブルなレモン法を提案する。 (i)クロスレコード相互作用効果を避けるために二重説明を作成すること。 (ii)二つの記録がいかに一致したかを説明するために帰属可能性という新しい概念を導入すること、 (iii)問題のマッチング者及びレコードペアの感度に合致する説明粒度を自動的に選択する。 公開データセットに関する実験は、提案手法がマッチング者に対してより忠実であり、ユーザーが以前の作業よりもマッチング者の決定境界を理解するのに役立つことを証明している。 また,提案手法による説明を見て,被験者が偽例を構築できる割合が54%から64%に増加し,非マッチングでは15%から49%に増加した。

State-of-the-art entity matching (EM) methods are hard to interpret, and there is significant value in bringing explainable AI to EM. Unfortunately, most popular explainability methods do not work well out of the box for EM and need adaptation. In this paper, we identify three challenges of applying local post hoc feature attribution methods to entity matching: cross-record interaction effects, non-match explanations, and variation in sensitivity. We propose our novel model-agnostic and schema-flexible method LEMON that addresses all three challenges by (i) producing dual explanations to avoid cross-record interaction effects, (ii) introducing the novel concept of attribution potential to explain how two records could have matched, and (iii) automatically choosing explanation granularity to match the sensitivity of the matcher and record pair in question. Experiments on public datasets demonstrate that the proposed method is more faithful to the matcher and does a better job of helping users understand the decision boundary of the matcher than previous work. Furthermore, user studies show that the rate at which human subjects can construct counterfactual examples after seeing an explanation from our proposed method increases from 54% to 64% for matches and from 15% to 49% for non-matches compared to explanations from a standard adaptation of LIME.
翻訳日:2021-10-04 14:42:53 公開日:2021-10-01
# 反復型教員意識学習

Iterative Teacher-Aware Learning ( http://arxiv.org/abs/2110.00137v1 )

ライセンス: Link先を確認
Luyao Yuan, Dongruo Zhou, Junhong Shen, Jingdong Gao, Jeffrey L. Chen, Quanquan Gu, Ying Nian Wu, Song-Chun Zhu(参考訳) 教育学では、教師と生徒はコミュニケーション効率を最大化するために適応的に対話することができる。 教師は異なる生徒のために指導方法を調整し、生徒は教師の指導機構を熟知した後、より速く学ぶという教師の意図を推測することができる。 近年、この協同教育を離散空間における機械概念学習に統合する利点が複数の研究によって証明されている。 しかし,協調的教育が機械パラメータ学習をいかに促進できるかは十分に研究されていない。 本稿では,教師の協調的意図を確率関数に組み込むことができる勾配最適化に基づく教師認識学習者を提案する。 反復型教師認識学習(ITAL)プロセスが局所的およびグローバル的改善につながるという理論的証明を与える。 次に,合成および実データを用いた回帰,分類,逆強化学習など,様々なタスクに関する広範囲な実験を行い,アルゴリズムを検証する。 また,エージェントが人間教師から学習している場合,教師の意識をモデル化する利点を示す。

In human pedagogy, teachers and students can interact adaptively to maximize communication efficiency. The teacher adjusts her teaching method for different students, and the student, after getting familiar with the teacher's instruction mechanism, can infer the teacher's intention to learn faster. Recently, the benefits of integrating this cooperative pedagogy into machine concept learning in discrete spaces have been proved by multiple works. However, how cooperative pedagogy can facilitate machine parameter learning hasn't been thoroughly studied. In this paper, we propose a gradient optimization based teacher-aware learner who can incorporate teacher's cooperative intention into the likelihood function and learn provably faster compared with the naive learning algorithms used in previous machine teaching works. We give theoretical proof that the iterative teacher-aware learning (ITAL) process leads to local and global improvements. We then validate our algorithms with extensive experiments on various tasks including regression, classification, and inverse reinforcement learning using synthetic and real data. We also show the advantage of modeling teacher-awareness when agents are learning from human teachers.
翻訳日:2021-10-04 14:42:14 公開日:2021-10-01
# スケールフィードバックによるリワード関数の学習

Learning Reward Functions from Scale Feedback ( http://arxiv.org/abs/2110.00284v1 )

ライセンス: Link先を確認
Nils Wilde, Erdem B{\i}y{\i}k, Dorsa Sadigh, Stephen L. Smith(参考訳) 今日のロボットはますます人と対話し、経験の浅いユーザの好みを効率的に学ぶ必要がある。 一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。 これはユーザーの努力を最小限に抑えるが、厳格な選択は1つの軌道がどれだけ好まれるかに関する情報を与えない。 本稿では,ユーザがスライダを使ってより詳細な情報を提供するスケールフィードバックを提案する。 本稿では,ロボットにフィードバックを提供し,学習フレームワークを導出する方法に関する確率モデルを提案する。 シミュレーションにおけるスライダフィードバックの性能効果を実証し、スケールフィードバックが実際により効果的な学習を可能にすることを示唆する2つのユーザスタディにおいて、我々のアプローチを検証する。

Today's robots are increasingly interacting with people and need to efficiently learn inexperienced user's preferences. A common framework is to iteratively query the user about which of two presented robot trajectories they prefer. While this minimizes the users effort, a strict choice does not yield any information on how much one trajectory is preferred. We propose scale feedback, where the user utilizes a slider to give more nuanced information. We introduce a probabilistic model on how users would provide feedback and derive a learning framework for the robot. We demonstrate the performance benefit of slider feedback in simulations, and validate our approach in two user studies suggesting that scale feedback enables more effective learning in practice.
翻訳日:2021-10-04 14:41:58 公開日:2021-10-01
# ダイバージェンス規則化多エージェントアクター臨界

Divergence-Regularized Multi-Agent Actor-Critic ( http://arxiv.org/abs/2110.00304v1 )

ライセンス: Link先を確認
Kefan Su and Zongqing Lu(参考訳) エントロピー正則化は強化学習(RL)において一般的な方法である。 多くの利点があるが、rlの目標を変更し、収束した政策を元のマルコフ決定プロセスの最適方針から逸脱させる。 この問題を解決するために分散正規化が提案されているが、協調型マルチエージェント強化学習(MARL)には自明に適用できない。 本稿では、協調的MARLにおける分散正規化について検討し、分散正規化マルチエージェント・アクター・クリティック(DMAC)である非政治的協調的MARLフレームワークを提案する。 数学的には、DMACの更新規則は自然に非政治的であり、単調な政策改善を保証し、正規化には偏らない。 DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。 我々はDMACを,DMACとStarCraft Multi-Agent Challengeで評価し,DMACが既存のMARLアルゴリズムの性能を大幅に向上することを示す。

Entropy regularization is a popular method in reinforcement learning (RL). Although it has many advantages, it alters the RL objective and makes the converged policy deviate from the optimal policy of the original Markov Decision Process. Though divergence regularization has been proposed to settle this problem, it cannot be trivially applied to cooperative multi-agent reinforcement learning (MARL). In this paper, we investigate divergence regularization in cooperative MARL and propose a novel off-policy cooperative MARL framework, divergence-regularized multi-agent actor-critic (DMAC). Mathematically, we derive the update rule of DMAC which is naturally off-policy, guarantees a monotonic policy improvement and is not biased by the regularization. DMAC is a flexible framework and can be combined with many existing MARL algorithms. We evaluate DMAC in a didactic stochastic game and StarCraft Multi-Agent Challenge and empirically show that DMAC substantially improves the performance of existing MARL algorithms.
翻訳日:2021-10-04 14:41:46 公開日:2021-10-01
# トポロジカルインフォームド・アトラス学習

Topologically-Informed Atlas Learning ( http://arxiv.org/abs/2110.00429v1 )

ライセンス: Link先を確認
Thomas Cohn, Nikhil Devraj, Odest Chadwicke Jenkins(参考訳) 本研究では, 位相情報を捨てることなく, ホールを含むデータ多様体を正確に埋め込むことのできる新しい手法を提案する。 多様体学習は座標チャートを学習することで高次元データを低次元ユークリッド空間に埋め込むことを目的としているが、多様体全体を単一のチャートに埋め込む必要がある。 これは穴のある多様体では不可能である。 そのような場合、アトラス、つまり多様体全体を包含するチャートの集合を学ぶ必要がある。 私たちは多くの小さなチャートから始めて、ボトムアップのアプローチでそれらを組み合わせます。 もはやチャートを組み合わせることができない場合、各チャートは標準多様体学習技術に個別に埋め込まれ、アトラスの構築が完了する。 本手法は,合成多様体に挑戦するアトラスを構築し,モーションキャプチャデータから人間の動き埋め込みを学習し,関節物体の運動モデルを学ぶことで有効性を示す。

We present a new technique that enables manifold learning to accurately embed data manifolds that contain holes, without discarding any topological information. Manifold learning aims to embed high dimensional data into a lower dimensional Euclidean space by learning a coordinate chart, but it requires that the entire manifold can be embedded in a single chart. This is impossible for manifolds with holes. In such cases, it is necessary to learn an atlas: a collection of charts that collectively cover the entire manifold. We begin with many small charts, and combine them in a bottom-up approach, where charts are only combined if doing so will not introduce problematic topological features. When it is no longer possible to combine any charts, each chart is individually embedded with standard manifold learning techniques, completing the construction of the atlas. We show the efficacy of our method by constructing atlases for challenging synthetic manifolds; learning human motion embeddings from motion capture data; and learning kinematic models of articulated objects.
翻訳日:2021-10-04 14:41:10 公開日:2021-10-01
# 新しい進化的計算モデルと機械学習への応用

New Evolutionary Computation Models and their Applications to Machine Learning ( http://arxiv.org/abs/2110.00468v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) 自動プログラミングは、今日のコンピュータ科学研究において最も重要な分野の1つである。 ハードウェアのスピードと能力は指数関数的に増加したが、ソフトウェアは何年も遅れている。 ソフトウェアに対する需要も大幅に増加したが、それでも古い方法で書かれている。 人間による作業には、コスト、時間、品質という複数の問題がある。 人間にお金を払うのはコストがかかりますし、長い間満足させておくのが難しく、教えるのに多くの時間が必要で、アウトプットの品質が低くなります(ソフトウェアの場合、主にバグのため)。 人類文明の本当の進歩は産業革命の間に現れた。 最初の革命前は、ほとんどの人が農業に従事していた。 今日では、この分野で働く人はごく少数です。 同様の革命がコンピュータプログラミングの分野に現れなければならない。 そうでなければ、過去に農業で働いていたような多くの人たちがこの分野で働くことになるでしょう。 コンピュータプログラムの書き方をどうやって知っているのか? 非常に単純なこと:学習すること。 ソフトウェアでも同じことをできますか? ソフトウェアを書く方法を学ぶためにソフトウェアを配置できますか? それは(ある程度)可能であり、この用語は機械学習と呼ばれる。 1959年、コンピュータを真剣な学習タスク、すなわちアーサー・サミュエル(Arthur Samuel)によって初めて作られた。 しかし、物事は人間ほど簡単ではない(そう、言うべき真実は、ある人間にとってソフトウェアを書く方法を学ぶことは不可能である)。 今のところ、ソフトウェアを書くために完璧に学習できるソフトウェアはありません。 いくつかのプログラムが人間より優れているケースもあるが、その例は概して散発的である。 コンピュータプログラムでは経験から学ぶことは難しい。 人間がコンピュータプログラムの書き方を教える方法をシミュレートする代わりに、自然をシミュレートすることができる。

Automatic Programming is one of the most important areas of computer science research today. Hardware speed and capability have increased exponentially, but the software is years behind. The demand for software has also increased significantly, but it is still written in old fashion: by using humans. There are multiple problems when the work is done by humans: cost, time, quality. It is costly to pay humans, it is hard to keep them satisfied for a long time, it takes a lot of time to teach and train them and the quality of their output is in most cases low (in software, mostly due to bugs). The real advances in human civilization appeared during the industrial revolutions. Before the first revolution, most people worked in agriculture. Today, very few percent of people work in this field. A similar revolution must appear in the computer programming field. Otherwise, we will have so many people working in this field as we had in the past working in agriculture. How do people know how to write computer programs? Very simple: by learning. Can we do the same for software? Can we put the software to learn how to write software? It seems that is possible (to some degree) and the term is called Machine Learning. It was first coined in 1959 by the first person who made a computer perform a serious learning task, namely, Arthur Samuel. However, things are not so easy as in humans (well, truth to be said - for some humans it is impossible to learn how to write software). So far we do not have software that can learn perfectly to write software. We have some particular cases where some programs do better than humans, but the examples are sporadic at best. Learning from experience is difficult for computer programs. Instead of trying to simulate how humans teach humans how to write computer programs, we can simulate nature.
翻訳日:2021-10-04 14:40:53 公開日:2021-10-01
# 順列・格付け・部分順序に対する信仰の伝播

Belief propagation for permutations, rankings, and partial orders ( http://arxiv.org/abs/2110.00513v1 )

ライセンス: Link先を確認
George T. Cantwell and Cristopher Moore(参考訳) 多くのデータセットは、どのチームがゲームに勝ったか、どのアイテムが好まれるか、誰が感染したかを示すことで、注文やランキングに関する部分的な情報を提供する。 これらの相互作用の確率論的モデルから、ギブス分布が置換の後方分布である連続スピン系を定義する。 空洞法を用いて各ノードの位置の辺り分布を計算する信念伝播アルゴリズムを導出する。 さらに、bethe自由エネルギーにより、部分順序の線形拡大の数を近似し、モデル選択を行うことができる。

Many datasets give partial information about an ordering or ranking by indicating which team won a game, which item a user prefers, or who infected whom. We define a continuous spin system whose Gibbs distribution is the posterior distribution on permutations, given a probabilistic model of these interactions. Using the cavity method we derive a belief propagation algorithm that computes the marginal distribution of each node's position. In addition, the Bethe free energy lets us approximate the number of linear extensions of a partial order and perform model selection.
翻訳日:2021-10-04 14:40:30 公開日:2021-10-01
# 強力なグラフ表現のための再構成

Reconstruction for Powerful Graph Representations ( http://arxiv.org/abs/2110.00577v1 )

ライセンス: Link先を確認
Leonardo Cotta, Christopher Morris, Bruno Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は表現力に制限があり、多くのグラフクラスを正しく表現できない。 より表現力のあるグラフ表現学習(GRL)は、これらのクラスの一部を区別することができるが、実装が著しく困難であり、スケールが良くなく、現実世界のタスクにおいて十分に調整されたGNNよりも優れていることが示されていない。 したがって、現実世界の改善も達成できるシンプルでスケーラブルで表現力豊かなGRLアーキテクチャを考案することは、まだオープンな課題である。 本稿では,その部分グラフからグラフを再構築するグラフ再構成が,現在grlアーキテクチャが直面している理論的・実用的問題をどの程度緩和できるかを示す。 まず、グラフ再構成を利用して表現グラフ表現の新しいクラスを2つ構築する。 第2に,グラフ再構成が任意のGNNアーキテクチャの表現力を高める一方で,頂点除去に対する不変性に対する(おそらく)強力な帰納バイアスであることを示す。 経験的に、元のGNNでは解けない7つのグラフプロパティタスクを解くことで、GNNの表現力(頂点の置換に不変性を保ちながら)をいかに向上させるかを示す。 さらに、9つの実世界のベンチマークデータセットに対して、最先端のGNNのパフォーマンスをいかに向上させるかを実証する。

Graph neural networks (GNNs) have limited expressive power, failing to represent many graph classes correctly. While more expressive graph representation learning (GRL) alternatives can distinguish some of these classes, they are significantly harder to implement, may not scale well, and have not been shown to outperform well-tuned GNNs in real-world tasks. Thus, devising simple, scalable, and expressive GRL architectures that also achieve real-world improvements remains an open challenge. In this work, we show the extent to which graph reconstruction -- reconstructing a graph from its subgraphs -- can mitigate the theoretical and practical problems currently faced by GRL architectures. First, we leverage graph reconstruction to build two new classes of expressive graph representations. Secondly, we show how graph reconstruction boosts the expressive power of any GNN architecture while being a (provably) powerful inductive bias for invariances to vertex removals. Empirically, we show how reconstruction can boost GNN's expressive power -- while maintaining its invariance to permutations of the vertices -- by solving seven graph property tasks not solvable by the original GNN. Further, we demonstrate how it boosts state-of-the-art GNN's performance across nine real-world benchmark datasets.
翻訳日:2021-10-04 14:40:20 公開日:2021-10-01
# ランク問題に対するラグランジアン推論

Lagrangian Inference for Ranking Problems ( http://arxiv.org/abs/2110.00151v1 )

ライセンス: Link先を確認
Yue Liu, Ethan X. Fang, Junwei Lu(参考訳) ランキング問題において一般不確実性定量化を行うための新しい組合せ推論フレームワークを提案する。 btl(bradley-terry-luce)モデルでは,各項目に正の選好スコアが与えられ,対比較の結果のベルヌーイ分布が決定される。 提案手法はbtlモデルの一般ランキング特性を推定することを目的としている。 一般的なランキングプロパティには、アイテムが他のものよりも好まれるような"ローカル"プロパティと、アイテムが上位の$K$ランクアイテムに含まれるような"グローバル"プロパティが含まれる。 さらに、偽発見率(fdr)を制御する複数のテスト問題に対する推論フレームワークを一般化し、上位$k$のランク付け項目を推測する手法を適用します。 また,提案手法の最小最適性を正当化する情報理論下限も導出する。 我々は合成データと実データの両方を用いて広範な数値研究を行い,理論を裏付ける。

We propose a novel combinatorial inference framework to conduct general uncertainty quantification in ranking problems. We consider the widely adopted Bradley-Terry-Luce (BTL) model, where each item is assigned a positive preference score that determines the Bernoulli distributions of pairwise comparisons' outcomes. Our proposed method aims to infer general ranking properties of the BTL model. The general ranking properties include the "local" properties such as if an item is preferred over another and the "global" properties such as if an item is among the top $K$-ranked items. We further generalize our inferential framework to multiple testing problems where we control the false discovery rate (FDR), and apply the method to infer the top-$K$ ranked items. We also derive the information-theoretic lower bound to justify the minimax optimality of the proposed method. We conduct extensive numerical studies using both synthetic and real datasets to back up our theory.
翻訳日:2021-10-04 14:39:59 公開日:2021-10-01
# シミュレーションに基づく推論のための任意辺縁神経比推定

Arbitrary Marginal Neural Ratio Estimation for Simulation-based Inference ( http://arxiv.org/abs/2110.00449v1 )

ライセンス: Link先を確認
Fran\c{c}ois Rozet and Gilles Louppe(参考訳) 科学の多くの分野において、複素現象は確率的パラメトリックシミュレータによってモデル化され、しばしば高次元のパラメータ空間と難解な可能性を持つ。 この文脈では、ベイズ推論の実行は困難である。 そこで本研究では,パラメータの任意の部分集合に対する償却推論を数値積分に頼らずに可能とし,後段の解釈をより便利にする新しい手法を提案する。 この手法は効率的であり、任意のニューラルネットワークアーキテクチャで実装できる。 重力波観測による2値ブラックホール系のパラメータ推定法の適用性を示す。

In many areas of science, complex phenomena are modeled by stochastic parametric simulators, often featuring high-dimensional parameter spaces and intractable likelihoods. In this context, performing Bayesian inference can be challenging. In this work, we present a novel method that enables amortized inference over arbitrary subsets of the parameters, without resorting to numerical integration, which makes interpretation of the posterior more convenient. Our method is efficient and can be implemented with arbitrary neural network architectures. We demonstrate the applicability of the method on parameter inference of binary black hole systems from gravitational waves observations.
翻訳日:2021-10-04 14:39:43 公開日:2021-10-01
# 二元線形分類器の重みベクトルチューニングと漸近解析

Weight Vector Tuning and Asymptotic Analysis of Binary Linear Classifiers ( http://arxiv.org/abs/2110.00567v1 )

ライセンス: Link先を確認
Lama B. Niyazi, Abla Kammoun, Hayssam Dahrouj, Mohamed-Slim Alouini, and Tareq Al-Naffouri(参考訳) インターセプトとは異なり、線形分類器の重みベクトルは単純なグリッド探索ではチューニングできない。 そこで,本論文では,相反する情報項と雑音項のトレードオフを制御するスカラーによる判別器の分解のパラメータ化を通じて,一般二元線形分類器の重みベクトルチューニングを提案する。 このパラメータを変更することで、元の重みベクトルは意味のある方法で修正される。 この手法を様々なデータ次元とサンプルサイズの設定の下で多くの線形分類器に適用すると、非最適ネイティブハイパーパラメータによる分類性能の損失は、重みベクトルチューニングによって補償できることが分かる。 提案手法は, 最適化, 次元化等の負荷とともに, 繰り返し重みベクトル生成を含むネイティブハイパーパラメータのチューニングと比較してスカラーのチューニングを減少させるので, 計算の節約が期待できる。 また,重みベクトルチューニングは,高推定雑音下での線形判別分析(LDA)の性能を著しく向上させることがわかった。 この2番目の発見から、データ次元とサンプルサイズが同等となる成長状態におけるパラメータ化LDA分類器の誤分類確率に関する漸近的研究を行った。 ランダム行列理論を用いて、誤分類確率はデータの真の統計量の関数である量に収束することが示されている。 さらに、誤分類確率の推定器を導出する。 最後に、この推定器を用いたパラメータの計算効率の良いチューニングを実データで示す。

Unlike its intercept, a linear classifier's weight vector cannot be tuned by a simple grid search. Hence, this paper proposes weight vector tuning of a generic binary linear classifier through the parameterization of a decomposition of the discriminant by a scalar which controls the trade-off between conflicting informative and noisy terms. By varying this parameter, the original weight vector is modified in a meaningful way. Applying this method to a number of linear classifiers under a variety of data dimensionality and sample size settings reveals that the classification performance loss due to non-optimal native hyperparameters can be compensated for by weight vector tuning. This yields computational savings as the proposed tuning method reduces to tuning a scalar compared to tuning the native hyperparameter, which may involve repeated weight vector generation along with its burden of optimization, dimensionality reduction, etc., depending on the classifier. It is also found that weight vector tuning significantly improves the performance of Linear Discriminant Analysis (LDA) under high estimation noise. Proceeding from this second finding, an asymptotic study of the misclassification probability of the parameterized LDA classifier in the growth regime where the data dimensionality and sample size are comparable is conducted. Using random matrix theory, the misclassification probability is shown to converge to a quantity that is a function of the true statistics of the data. Additionally, an estimator of the misclassification probability is derived. Finally, computationally efficient tuning of the parameter using this estimator is demonstrated on real data.
翻訳日:2021-10-04 14:39:35 公開日:2021-10-01
# Disk-Centered Patch Augmentation を用いた光学ディスク分割

Optic Disc Segmentation using Disk-Centered Patch Augmentation ( http://arxiv.org/abs/2110.00512v1 )

ライセンス: Link先を確認
Saeid Motevali, Aashis Khanal, and Rolando Estrada(参考訳) 光ディスクは、様々な眼疾患や心臓血管疾患の重症度と相関するため、眼科領域において重要な診断特徴である。 光学ディスクの大部分をカラーファウンス画像で識別するのは簡単だが、その境界線をピクセルレベルで正確に区分するのは非常に難しい。 本研究では,この問題を解決するために,深層ニューラルネットワークのための単純かつ新規なトレーニングスキームであるディスク中心パッチ強化(dcpa)を提案する。 DCPAは、小さなニューラルネットワーク、特に700万のパラメータしか持たないU-Netを使用しても、フルサイズの画像に対して最先端の結果を達成する。 DCPAでは、トレーニングデータを視神経を完全に含むパッチに制限する。 さらに,ネットワークのロバスト性を高めるために動的コスト関数を用いてネットワークをトレーニングする。 DRISTI,DRIONS-DB,DRIVE,AV-WIDE,CHASE-DBの5つの網膜データセット上でDCPAトレーニングネットワークを試験した。 最初の2つは光学ディスク基底真理を入手でき、我々は手動で後者の3つの基底真理を推定した。 提案手法は, DRISTI では 95 % F1, 91 % IOU ,DRIVE では 92 % F1, 84 % IOU ,AV-WIDE では 83 % F1, 71 % IOU ,CHASEDB では 83 % F1, 71 % IOU の4つのデータセット(DRISTI では 95 % F1, 91 % IOU ,DRIONS-DB では 91 % の IOU の一般性が確認された。 当社のオープンソースコードと基盤となるアノテーションは、https://github.com/saeidmotevali/fundusdiskで利用可能です。

The optic disc is a crucial diagnostic feature in the eye since changes to its physiognomy is correlated with the severity of various ocular and cardiovascular diseases. While identifying the bulk of the optic disc in a color fundus image is straightforward, accurately segmenting its boundary at the pixel level is very challenging. In this work, we propose disc-centered patch augmentation (DCPA) -- a simple, yet novel training scheme for deep neural networks -- to address this problem. DCPA achieves state-of-the-art results on full-size images even when using small neural networks, specifically a U-Net with only 7 million parameters as opposed to the original 31 million. In DCPA, we restrict the training data to patches that fully contain the optic nerve. In addition, we also train the network using dynamic cost functions to increase its robustness. We tested DCPA-trained networks on five retinal datasets: DRISTI, DRIONS-DB, DRIVE, AV-WIDE, and CHASE-DB. The first two had available optic disc ground truth, and we manually estimated the ground truth for the latter three. Our approach achieved state-of-the-art F1 and IOU results on four datasets (95 % F1, 91 % IOU on DRISTI; 92 % F1, 84 % IOU on DRIVE; 83 % F1, 71 % IOU on AV-WIDE; 83 % F1, 71 % IOU on CHASEDB) and competitive results on the fifth (95 % F1, 91 % IOU on DRIONS-DB), confirming its generality. Our open-source code and ground-truth annotations are available at: https://github.com/saeidmotevali/fundusdisk
翻訳日:2021-10-04 14:38:56 公開日:2021-10-01
# ベトナム語と中国語の単語セグメンテーションのためのスパンラベリング手法

Span Labeling Approach for Vietnamese and Chinese Word Segmentation ( http://arxiv.org/abs/2110.00156v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Linh-Bao Vo, Dang Van Thin, Ngan Luu-Thuy Nguyen(参考訳) 本稿ではベトナム語単語セグメンテーション(SPAN SEG)のためのn-gram情報をモデル化するためのスパンラベリング手法を提案する。 我々は,同じアーキテクチャを持つエンコーダを用いて,スパンラベリング手法と条件付きランダムフィールドを比較した。 ベトナム語と中国語は類似した言語現象を持つため,ベトナム語木バンクベンチマークデータセットと5つの中国語ベンチマークデータセットを用いて提案手法の評価を行った。 実験により,提案手法はベトナムのツリーバンクベンチマークで98.31%の最先端Fスコアを用いて,文脈事前学習言語モデルXLM-RoBERTaと予測語境界情報を適用した場合,シーケンスタギング手法よりも高い性能を実現する。 さらに,中国語の5つのベンチマークにおいて,前回よりパラメータの少ないbertとzenの事前学習した言語モデルに対して,スパンラベリングアプローチの微調整実験を行った。

In this paper, we propose a span labeling approach to model n-gram information for Vietnamese word segmentation, namely SPAN SEG. We compare the span labeling approach with the conditional random field by using encoders with the same architecture. Since Vietnamese and Chinese have similar linguistic phenomena, we evaluated the proposed method on the Vietnamese treebank benchmark dataset and five Chinese benchmark datasets. Through our experimental results, the proposed approach SpanSeg achieves higher performance than the sequence tagging approach with the state-of-the-art F-score of 98.31% on the Vietnamese treebank benchmark, when they both apply the contextual pre-trained language model XLM-RoBERTa and the predicted word boundary information. Besides, we do fine-tuning experiments for the span labeling approach on BERT and ZEN pre-trained language model for Chinese with fewer parameters, faster inference time, and competitive or higher F-scores than the previous state-of-the-art approach, word segmentation with word-hood memory networks, on five Chinese benchmarks.
翻訳日:2021-10-04 14:37:54 公開日:2021-10-01
# 相互学習による効率的・効果的な検索対話システムの構築

Building an Efficient and Effective Retrieval-based Dialogue System via Mutual Learning ( http://arxiv.org/abs/2110.00159v1 )

ライセンス: Link先を確認
Chongyang Tao, Jiazhan Feng, Chang Liu, Juntao Li, Xiubo Geng, Daxin Jiang(参考訳) 事前構築したインデックスから適切な応答を選択できる検索ベースの対話システムの構築が研究者の注目を集めている。 このタスクのために、事前訓練された言語モデル(BERTなど)の採用は、多くのベンチマークにおいて顕著な進歩をもたらした。 入力を完全に注意するクロスエンコーダと、コンテキストとレスポンスを個別にエンコードするバイエンコーダの2つの一般的なアプローチがある。 前者は精度を大幅に改善するが、テスト時に各サンプルに必要とされる全注意のコストを考えると、大規模な検索には適用できないことが多い。 後者は数十億のインデックスに対して効率的だが、準最適性能に悩まされている。 本研究では,検索システムを構築するために,両世界のベストを組み合わせることを提案する。 具体的には、従来の機能ベースの事前検索モデル(BM25など)を置き換えるために高速なバイエンコーダを使用し、応答再ランクモデルをより複雑なアーキテクチャ(クロスエンコーダなど)として設定する。 フレームワークの有効性をさらに向上するため、我々は相互学習を通じて事前検索モデルと再分類モデルを同時に訓練し、トレーニングプロセスを通して2つのモデルが互いに学習できるようにする。 2つのベンチマーク実験を行い,提案手法の有効性と有効性を示す。

Establishing retrieval-based dialogue systems that can select appropriate responses from the pre-built index has gained increasing attention from researchers. For this task, the adoption of pre-trained language models (such as BERT) has led to remarkable progress in a number of benchmarks. There exist two common approaches, including cross-encoders which perform full attention over the inputs, and bi-encoders that encode the context and response separately. The former gives considerable improvements in accuracy but is often inapplicable in practice for large-scale retrieval given the cost of the full attention required for each sample at test time. The latter is efficient for billions of indexes but suffers from sub-optimal performance. In this work, we propose to combine the best of both worlds to build a retrieval system. Specifically, we employ a fast bi-encoder to replace the traditional feature-based pre-retrieval model (such as BM25) and set the response re-ranking model as a more complicated architecture (such as cross-encoder). To further improve the effectiveness of our framework, we train the pre-retrieval model and the re-ranking model at the same time via mutual learning, which enables two models to learn from each other throughout the training process. We conduct experiments on two benchmarks and evaluation results demonstrate the efficiency and effectiveness of our proposed framework.
翻訳日:2021-10-04 14:37:32 公開日:2021-10-01
# BERT4GCN: BERT中間層を用いたアスペクトベース感性分類のためのGCNの拡張

BERT4GCN: Using BERT Intermediate Layers to Augment GCN for Aspect-based Sentiment Classification ( http://arxiv.org/abs/2110.00171v1 )

ライセンス: Link先を確認
Zeguan Xiao, Jiarun Wu, Qingliang Chen and Congjian Deng(参考訳) グラフベースのAspect-based Sentiment Classification (ABSC)アプローチは、事前学習言語モデル(PLM)から文脈語を埋め込んだ場合に、最先端の結果をもたらす。 しかし、彼らは文脈の逐次的特徴を無視し、まだPLMを最大限に活用していない。 本稿では,BERT の PLM からの文法的逐次的特徴と依存グラフからの構文的知識を統合する新しいモデル BERT4GCN を提案する。 BERT4GCNは、BERTの中間層からの出力と単語間の位置情報を利用してGCN(Graph Convolutional Network)を拡大し、下流分類のための依存性グラフをよりよくエンコードする。 実験の結果,提案したBERT4GCNはすべての最先端ベースラインより優れており,中間層からの文法的特徴によるGCNの増大はABSCモデルを著しく向上させることが示された。

Graph-based Aspect-based Sentiment Classification (ABSC) approaches have yielded state-of-the-art results, expecially when equipped with contextual word embedding from pre-training language models (PLMs). However, they ignore sequential features of the context and have not yet made the best of PLMs. In this paper, we propose a novel model, BERT4GCN, which integrates the grammatical sequential features from the PLM of BERT, and the syntactic knowledge from dependency graphs. BERT4GCN utilizes outputs from intermediate layers of BERT and positional information between words to augment GCN (Graph Convolutional Network) to better encode the dependency graphs for the downstream classification. Experimental results demonstrate that the proposed BERT4GCN outperforms all state-of-the-art baselines, justifying that augmenting GCN with the grammatical features from intermediate layers of BERT can significantly empower ABSC models.
翻訳日:2021-10-04 14:37:13 公開日:2021-10-01
# データ効率の高いイベント引数抽出のための学習

Learning to Ask for Data-Efficient Event Argument Extraction ( http://arxiv.org/abs/2110.00479v1 )

ライセンス: Link先を確認
Hongbin Ye, Ningyu Zhang, Zhen Bi, Shumin Deng, Chuanqi Tan, Hui Chen, Fei Huang, Huajun Chen(参考訳) イベント引数抽出(EAE)は、特定の引数の役割を発見するための情報抽出の重要なタスクである。 本研究では,EAEを質問ベースのクローズタスクとし,固定された離散トークンテンプレートの性能を実験的に解析する。 人間の注釈付き質問テンプレートの生成には時間と労力がかかることが多いため,人間のアノテーションを使わずにEAEに最適化された質問テンプレートを学習できる,"Learning to Ask"という新しいアプローチを提案する。 ACE-2005データセットを用いた実験により,最適化された質問に基づく手法が,複数ショットと教師付き設定の両方で最先端の性能を達成することを示す。

Event argument extraction (EAE) is an important task for information extraction to discover specific argument roles. In this study, we cast EAE as a question-based cloze task and empirically analyze fixed discrete token template performance. As generating human-annotated question templates is often time-consuming and labor-intensive, we further propose a novel approach called "Learning to Ask," which can learn optimized question templates for EAE without human annotations. Experiments using the ACE-2005 dataset demonstrate that our method based on optimized questions achieves state-of-the-art performance in both the few-shot and supervised settings.
翻訳日:2021-10-04 14:36:54 公開日:2021-10-01
# 外部データによる音声書き起こしの句読点復元の改善

Improving Punctuation Restoration for Speech Transcripts via External Data ( http://arxiv.org/abs/2110.00560v1 )

ライセンス: Link先を確認
Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shashi Bhushan TN, Simon Corston-Oliver(参考訳) 自動音声認識(ASR)システムは通常、句読点を生成しない。 書き起こしをより読みやすくし、下流言語モデルに期待される入力形式に従うためには、句読点を追加する必要がある。 本稿では,雑音のあるテキスト(例えば,電話会話のシナリオ)の句読解問題に対処する。 利用可能なテキストデータセットを活用するために,n-gram言語モデルに基づくデータサンプリング手法を導入し,ドメイン内のデータに類似したトレーニングデータをより多くサンプリングする。 さらに,サンプルした外部データとbertに基づくモデルに対するドメイン内データセットを利用する2段階の微調整手法を提案する。 実験の結果,提案手法は1:12%のF1スコアでベースラインを上回った。

Automatic Speech Recognition (ASR) systems generally do not produce punctuated transcripts. To make transcripts more readable and follow the expected input format for downstream language models, it is necessary to add punctuation marks. In this paper, we tackle the punctuation restoration problem specifically for the noisy text (e.g., phone conversation scenarios). To leverage the available written text datasets, we introduce a data sampling technique based on an n-gram language model to sample more training data that are similar to our in-domain data. Moreover, we propose a two-stage fine-tuning approach that utilizes the sampled external data as well as our in-domain dataset for models based on BERT. Extensive experiments show that the proposed approach outperforms the baseline with an improvement of 1:12% F1 score.
翻訳日:2021-10-04 14:36:43 公開日:2021-10-01
# 単一GPUを用いたデータ効率の良いインスタンス分割

Data-Efficient Instance Segmentation with a Single GPU ( http://arxiv.org/abs/2110.00242v1 )

ライセンス: Link先を確認
Pengyu Chen, Wanhua Li, Jiwen Lu(参考訳) 誰もが数百のGPUやTPUを持つほど裕福ではない。 したがって、私たちは抜け道を見つけなければならない。 本稿では,2021年のVIPriors Instance Segmentation Challengeで使用したデータ効率の高いインスタンスセグメンテーション手法を提案する。 私たちのソリューションは、強力なツールボックスであるmm検出に基づいて、swain transformerの修正版です。 データ不足の問題を解決するため、ランダムなフリップやマルチスケールトレーニングを含むデータ拡張を用いてモデルを訓練する。 推論中、マルチスケールフュージョンは性能を高めるために使用される。 トレーニングとテストのステージ全体において、gpuは1つだけです。 最終的に、テストセット上のap@0.50:0.95に対する0.366の結果をthu_ivg_2018というチームが達成しました。 また,本手法は,全出場者中2位である0.592のap@0.50:0.95 (medium) を達成した。

Not everyone is wealthy enough to have hundreds of GPUs or TPUs. Therefore, we've got to find a way out. In this paper, we introduce a data-efficient instance segmentation method we used in the 2021 VIPriors Instance Segmentation Challenge. Our solution is a modified version of Swin Transformer, based on the mmdetection which is a powerful toolbox. To solve the problem of lack of data, we utilize data augmentation including random flip and multiscale training to train our model. During inference, multiscale fusion is used to boost the performance. We only use a single GPU during the whole training and testing stages. In the end, our team named THU_IVG_2018 achieved the result of 0.366 for AP@0.50:0.95 on the test set, which is competitive with other top-ranking methods while only one GPU is used. Besides, our method achieved the AP@0.50:0.95 (medium) of 0.592, which ranks second among all contestants
翻訳日:2021-10-04 14:36:01 公開日:2021-10-01
# 画像インパインティングのための生成記憶誘導意味推論モデル

Generative Memory-Guided Semantic Reasoning Model for Image Inpainting ( http://arxiv.org/abs/2110.00261v1 )

ライセンス: Link先を確認
Xin Feng, Wenjie Pei, Fengjun Li, Fanglin Chen, David Zhang, and Guangming Lu(参考訳) 既存の画像インパインティング手法は、現在の入力画像の既知領域から画像内先行領域を学習して、同じ画像内の劣化領域の内容を推測することに焦点を当てている。 このような手法は, 破損領域が小さい画像ではうまく機能するが, 2つの限界があるため, 破損領域が大きい画像を扱うことは困難である。 1)これらの方法は,限られた既知領域から学習した画像内知識のみに頼って,各訓練画像に過度に適合する傾向にある。 2)視覚意味論の一般分布パターンに関する画像間事前知識は、類似意味論を共有する画像間で転送可能であり、悪用されない。 本稿では,画像内プリエントを既知領域から学習するだけでなく,画像間推論プリエントを蒸留して劣化領域の内容を推定する生成記憶誘導意味推論モデル(gm-srm)を提案する。 特に、提案したGM-SRMは、まず、トレーニングデータ全体から生成メモリを事前学習し、グローバルビューで意味分布パターンをキャプチャする。 そして、学習メモリを利用して、現在の劣化画像のマッチング画像間先行情報を検索し、画像の塗布中に意味推論を行う。 画像内プリミティブは画素レベルのコンテンツ一貫性を保証するために使用されるが、画像間プリミティブは高レベルな意味推論を行うのに好適であり、これは大きな破損領域に対する意味的コンテンツの推測に特に有効である。 paris street view、celeba-hq、places2のベンチマークでの広範な実験により、gm-srmは、視覚品質と定量的指標の両方において、画像インペインティングの最先端の手法よりも優れています。

Most existing methods for image inpainting focus on learning the intra-image priors from the known regions of the current input image to infer the content of the corrupted regions in the same image. While such methods perform well on images with small corrupted regions, it is challenging for these methods to deal with images with large corrupted area due to two potential limitations: 1) such methods tend to overfit each single training pair of images relying solely on the intra-image prior knowledge learned from the limited known area; 2) the inter-image prior knowledge about the general distribution patterns of visual semantics, which can be transferred across images sharing similar semantics, is not exploited. In this paper, we propose the Generative Memory-Guided Semantic Reasoning Model (GM-SRM), which not only learns the intra-image priors from the known regions, but also distills the inter-image reasoning priors to infer the content of the corrupted regions. In particular, the proposed GM-SRM first pre-learns a generative memory from the whole training data to capture the semantic distribution patterns in a global view. Then the learned memory are leveraged to retrieve the matching inter-image priors for the current corrupted image to perform semantic reasoning during image inpainting. While the intra-image priors are used for guaranteeing the pixel-level content consistency, the inter-image priors are favorable for performing high-level semantic reasoning, which is particularly effective for inferring semantic content for large corrupted area. Extensive experiments on Paris Street View, CelebA-HQ, and Places2 benchmarks demonstrate that our GM-SRM outperforms the state-of-the-art methods for image inpainting in terms of both the visual quality and quantitative metrics.
翻訳日:2021-10-04 14:35:48 公開日:2021-10-01
# 学習可能なポーズ三角測量のための確率的モデリング

Stochastic Modeling for Learnable Human Pose Triangulation ( http://arxiv.org/abs/2110.00280v1 )

ライセンス: Link先を確認
Kristijan Bartol, David Bojani\'c, Tomislav Petkovi\'c, Tomislav Pribani\'c(参考訳) 本研究では,3次元ポーズ三角測量のための確率的モデリングフレームワークを提案し,その性能を異なるデータセットと空間カメラアレンジメントで評価する。 3Dポーズ推定の一般的なアプローチは、まず画像中の2Dキーポイントを検出し、次に複数のビューから三角測量を適用することである。 しかし、既存の三角測量モデルのほとんどは単一のデータセット、すなわちカメラ配置とその数に限られている。 さらに、既知のカメラパラメータが必要である。 提案する確率的ポーズ三角測量モデルは,異なるカメラ配置と2つの公開データセット間をうまく一般化する。 各ステップにおいて、ランダムなビューのサブセットから三角法により得られる3次元ポーズ仮説のセットを生成する。 仮説をニューラルネットワークで評価し、三角測量誤差の期待を最小化する。 重要な特徴は、ネットワークが空間カメラ配置を考慮せずにポーズを評価することを学び、一般化を改善することである。 さらに,提案手法を基本行列推定に応用し,ノイズのあるキーポイント対応による相対カメラポーズ推定に有望な結果が得られることを示す。

We propose a stochastic modeling framework for 3D human pose triangulation and evaluate its performance across different datasets and spatial camera arrangements. The common approach to 3D pose estimation is to first detect 2D keypoints in images and then apply the triangulation from multiple views. However, the majority of existing triangulation models are limited to a single dataset, i.e. camera arrangement and their number. Moreover, they require known camera parameters. The proposed stochastic pose triangulation model successfully generalizes to different camera arrangements and between two public datasets. In each step, we generate a set of 3D pose hypotheses obtained by triangulation from a random subset of views. The hypotheses are evaluated by a neural network and the expectation of the triangulation error is minimized. The key novelty is that the network learns to evaluate the poses without taking into account the spatial camera arrangement, thus improving generalization. Additionally, we demonstrate that the proposed stochastic framework can also be used for fundamental matrix estimation, showing promising results towards relative camera pose estimation from noisy keypoint correspondences.
翻訳日:2021-10-04 14:35:17 公開日:2021-10-01
# 位置認識型LSTMを用いた画像キャプション用幾何学的アテンション変換器

Geometry Attention Transformer with Position-aware LSTMs for Image Captioning ( http://arxiv.org/abs/2110.00335v1 )

ライセンス: Link先を確認
Chi Wang, Yulin Shen, Luping Ji(参考訳) 近年、トランスフォーマー構造は印象的な性能を持つ画像キャプションに広く応用されている。 良好なキャプション結果のために、異なる視覚物体の形状と位置関係は、しばしば重要な情報と見なされる。 本稿では,変換器による画像キャプションのさらなる促進を目的として,GAT(Geometry Attention Transformer)モデルを提案する。 GATにおけるエンコーダとデコーダのために,幾何情報をさらに活用するために2つの新しい幾何対応アーキテクチャを設計する。 このモデルには2つの作業モジュールが含まれている。 1 相対空間情報をエンコードステップにおける画像領域表現に明示的に組み込む幾何学ゲート制御自己注意精錬器 2)字幕テキストを生成する際に、相対語の位置のデコーダを正確に通知する位置LSTMのグループ。 実験の結果、MS COCOとFlickr30Kのデータセットと比較すると、私たちのGATは効率的であり、しばしば最先端の画像キャプションモデルよりも優れています。

In recent years, transformer structures have been widely applied in image captioning with impressive performance. For good captioning results, the geometry and position relations of different visual objects are often thought of as crucial information. Aiming to further promote image captioning by transformers, this paper proposes an improved Geometry Attention Transformer (GAT) model. In order to further leverage geometric information, two novel geometry-aware architectures are designed respectively for the encoder and decoder in our GAT. Besides, this model includes the two work modules: 1) a geometry gate-controlled self-attention refiner, for explicitly incorporating relative spatial information into image region representations in encoding steps, and 2) a group of position-LSTMs, for precisely informing the decoder of relative word position in generating caption texts. The experiment comparisons on the datasets MS COCO and Flickr30K show that our GAT is efficient, and it could often outperform current state-of-the-art image captioning models.
翻訳日:2021-10-04 14:35:01 公開日:2021-10-01
# 要約と検索:学習コンセンサス対応動的畳み込みによる共給検出

Summarize and Search: Learning Consensus-aware Dynamic Convolution for Co-Saliency Detection ( http://arxiv.org/abs/2110.00338v1 )

ライセンス: Link先を確認
Ni Zhang and Junwei Han and Nian Liu and Ling Shao(参考訳) 人間は、まずグループ全体のコンセンサス知識を要約し、次に各画像中の対応するオブジェクトを検索することによって、協力的検出を行う。 以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2プロセスでイメージ機能とコンセンサス機能を融合させる。 本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。 コンセンサス画像の特徴を要約するために,まず効果的なプーリング法を用いて各画像のロバストな特徴を要約し,自己認識機構を介して画像間のコンセンサスを集約する。 これを行うことで、我々のモデルはスケーラビリティと安定性の要件を満たす。 次に,コンセンサス機能から動的カーネルを生成し,要約されたコンセンサス知識を符号化する。 微粒な画像特異的コンセンサスオブジェクトキューと粗いグループワイド共通知識を要約する補助的な方法で2種類のカーネルを生成する。 そして,複数のスケールで動的畳み込みを用いてオブジェクト探索を効果的に行う。 また,ネットワークを学習するための新しい効果的なデータ合成手法も提案している。 4つのベンチマークデータセットにおける実験結果から,提案手法の有効性を検証した。 コードとサリエンシマップは \url{https://github.com/nnizhang/CADC} で公開されています。

Humans perform co-saliency detection by first summarizing the consensus knowledge in the whole group and then searching corresponding objects in each image. Previous methods usually lack robustness, scalability, or stability for the first process and simply fuse consensus features with image features for the second process. In this paper, we propose a novel consensus-aware dynamic convolution model to explicitly and effectively perform the "summarize and search" process. To summarize consensus image features, we first summarize robust features for every single image using an effective pooling method and then aggregate cross-image consensus cues via the self-attention mechanism. By doing this, our model meets the scalability and stability requirements. Next, we generate dynamic kernels from consensus features to encode the summarized consensus knowledge. Two kinds of kernels are generated in a supplementary way to summarize fine-grained image-specific consensus object cues and the coarse group-wise common knowledge, respectively. Then, we can effectively perform object searching by employing dynamic convolution at multiple scales. Besides, a novel and effective data synthesis method is also proposed to train our network. Experimental results on four benchmark datasets verify the effectiveness of our proposed method. Our code and saliency maps are available at \url{https://github.com/nnizhang/CADC}.
翻訳日:2021-10-04 14:34:46 公開日:2021-10-01
# ResNetが反撃:Timmのトレーニング手順の改善

ResNet strikes back: An improved training procedure in timm ( http://arxiv.org/abs/2110.00476v1 )

ライセンス: Link先を確認
Ross Wightman, Hugo Touvron, Herv\'e J\'egou(参考訳) Heらによって設計された影響力のある残留ネットワークは、多くの科学出版物においてゴールドスタンダードアーキテクチャのままである。 これらは通常、研究におけるデフォルトアーキテクチャ、または新しいアーキテクチャが提案されたときにベースラインとして機能する。 しかし、2015年のResNetアーキテクチャの導入以来、ニューラルネットワークのトレーニングに関するベストプラクティスが大幅に進歩している。 新たな最適化とデータ提供により、トレーニングレシピの有効性が向上した。 本稿では,このような進歩を統合する手順で訓練された場合,バニラresnet-50の性能を再評価する。 私たちはtimmオープンソースライブラリで、競争力のあるトレーニング設定と事前トレーニング済みモデルを共有しています。 例えば、より要求の多いトレーニング設定で、バニラresnet-50は、追加のデータや蒸留なしでimagenet-valの解像度224x224で80.4%のtop-1精度に達する。 また、トレーニング手順で人気モデルで達成した性能を報告する。

The influential Residual Networks designed by He et al. remain the gold-standard architecture in numerous scientific publications. They typically serve as the default architecture in studies, or as baselines when new architectures are proposed. Yet there has been significant progress on best practices for training neural networks since the inception of the ResNet architecture in 2015. Novel optimization & data-augmentation have increased the effectiveness of the training recipes. In this paper, we re-evaluate the performance of the vanilla ResNet-50 when trained with a procedure that integrates such advances. We share competitive training settings and pre-trained models in the timm open-source library, with the hope that they will serve as better baselines for future work. For instance, with our more demanding training setting, a vanilla ResNet-50 reaches 80.4% top-1 accuracy at resolution 224x224 on ImageNet-val without extra data or distillation. We also report the performance achieved with popular models with our training procedure.
翻訳日:2021-10-04 14:34:25 公開日:2021-10-01
# マスクか非マスクか? Triplet-Consistency Representation Learningによるロバストマスク検出

Mask or Non-Mask? Robust Face Mask Detector via Triplet-Consistency Representation Learning ( http://arxiv.org/abs/2110.00523v1 )

ライセンス: Link先を確認
Chun-Wei Yang, Thanh-Hai Phung, Hong-Han Shuai, Wen-Huang Cheng(参考訳) 新型コロナウイルスの感染拡大を遅らせ、医療の過負荷を減らす効果的な方法の1つは、マスクを着用することである。 それにもかかわらず、公共の場でマスクやカバーの使用を義務付けるためには、追加の人材が必要である。 監視プロセスの自動化には、既存のオブジェクト検出モデルを活用して、マスクの有無に関わらず顔を検出する、という有望なソリューションがある。 このように、警備員は監視装置や群衆を見つめる必要はなく、マスク無しで顔の検出によって引き起こされる警告に対処するのみである。 既存のオブジェクト検出モデルは、通常、識別的特徴を抽出するためのCNNベースのネットワークアーキテクチャの設計に焦点を当てる。 しかし,マスク検出のトレーニングデータセットのサイズは小さく,マスクの有無による差は微妙である。 そこで本稿では,コンテキストアテンションモジュールを用いて,アテンションマップの特徴を洗練することにより,フィードフォワード畳み込みニューラルネットワークの効果的なアテンションを可能にするフェイスマスク検出フレームワークを提案する。 さらに,小型トレーニングデータとマスクと咬合との類似性を扱うために,一貫性損失と三重項損失を統合することにより,三重項抵抗表現学習を行うアンカーフリー検出器を提案する。 広範な実験結果から,本手法は他の最先端手法よりも優れていた。 ソースコードは、https://github.com/wei-1006/MaskFaceDetectionで公開ダウンロードとして公開されている。

In the absence of vaccines or medicines to stop COVID-19, one of the effective methods to slow the spread of the coronavirus and reduce the overloading of healthcare is to wear a face mask. Nevertheless, to mandate the use of face masks or coverings in public areas, additional human resources are required, which is tedious and attention-intensive. To automate the monitoring process, one of the promising solutions is to leverage existing object detection models to detect the faces with or without masks. As such, security officers do not have to stare at the monitoring devices or crowds, and only have to deal with the alerts triggered by the detection of faces without masks. Existing object detection models usually focus on designing the CNN-based network architectures for extracting discriminative features. However, the size of training datasets of face mask detection is small, while the difference between faces with and without masks is subtle. Therefore, in this paper, we propose a face mask detection framework that uses the context attention module to enable the effective attention of the feed-forward convolution neural network by adapting their attention maps feature refinement. Moreover, we further propose an anchor-free detector with Triplet-Consistency Representation Learning by integrating the consistency loss and the triplet loss to deal with the small-scale training data and the similarity between masks and occlusions. Extensive experimental results show that our method outperforms the other state-of-the-art methods. The source code is released as a public download to improve public health at https://github.com/wei-1006/MaskFaceDetection.
翻訳日:2021-10-04 14:34:10 公開日:2021-10-01
# 3次元表現学習による自己教師付き二次ランドマーク検出

Self-supervised Secondary Landmark Detection via 3D Representation Learning ( http://arxiv.org/abs/2110.00543v1 )

ライセンス: Link先を確認
Praneet C. Bala, Jan Zimmermann, Hyun Soo Park, and Benjamin Y. Hayden(参考訳) 近年の技術進歩は、人間を含む移動動物における関節やその他のランドマークのコンピュータによる追跡に大きな進歩をもたらした。 このような追跡は生物学や医学の重要な進歩を約束する。 現代の追跡モデルは、非専門家による主要なランドマークの労働集約的な注釈付きデータセットに大きく依存している。 しかし、このようなアノテーションアプローチは、動物の細粒度の幾何学を反映し、しばしばカスタマイズされた行動タスクに特有な、二次的なランドマークに対してコスト的かつ非実用的である。 視覚的および幾何学的曖昧さのため、非専門家は解剖学や動物学の知識を必要とする二次的なランドマークのアノテーションに適さないことが多い。 これらの障壁は、学習された追跡モデルが限定的な一般化性を示すため、下流の行動研究を著しく阻害する。 二次ランドマークの運動範囲は一次ランドマークと二次ランドマークとで大まかに広がるため、一次ランドマークと二次ランドマークの間に共有表現が存在すると仮定する。 本稿では,3次元空間における一次的および二次的ランドマークの空間的関係を学習し,二次的ランドマーク検出器を自己監督する手法を提案する。 この3d表現学習は汎用的であり、マカク、ハエ、人間を含む多様な生物の様々なマルチビュー設定に適用することができる。

Recent technological developments have spurred great advances in the computerized tracking of joints and other landmarks in moving animals, including humans. Such tracking promises important advances in biology and biomedicine. Modern tracking models depend critically on labor-intensive annotated datasets of primary landmarks by non-expert humans. However, such annotation approaches can be costly and impractical for secondary landmarks, that is, ones that reflect fine-grained geometry of animals, and that are often specific to customized behavioral tasks. Due to visual and geometric ambiguity, nonexperts are often not qualified for secondary landmark annotation, which can require anatomical and zoological knowledge. These barriers significantly impede downstream behavioral studies because the learned tracking models exhibit limited generalizability. We hypothesize that there exists a shared representation between the primary and secondary landmarks because the range of motion of the secondary landmarks can be approximately spanned by that of the primary landmarks. We present a method to learn this spatial relationship of the primary and secondary landmarks in three dimensional space, which can, in turn, self-supervise the secondary landmark detector. This 3D representation learning is generic, and can therefore be applied to various multiview settings across diverse organisms, including macaques, flies, and humans.
翻訳日:2021-10-04 14:33:44 公開日:2021-10-01
# データ効率の良い人物再識別のためのビデオ時間関係マイニング

Video Temporal Relationship Mining for Data-Efficient Person Re-identification ( http://arxiv.org/abs/2110.00549v1 )

ライセンス: Link先を確認
Siyu Chen, Dengjie Li, Lishuai Gao, Fan Liang, Wei Zhang, Lin Ma(参考訳) 本論文はICCV 2021 VIPriors Re-identification Challengeへの提出に関する技術的報告である。 データの視覚的インダクティブプリエントを最大限に活用するために,ビデオシーケンス内の連続フレームと同じアイデンティティのクエリとギャラリーイメージを扱います。 また,検索画像とギャラリー画像間の距離行列だけでなく,ギャラリー画像間の距離行列も計算する,ビデオ時間関係マイニングのための新しいポストプロセッシング手法を提案する。 最初のクエリイメージはギャラリーから最も類似したイメージを取得するために使用され、その後、検索されたイメージは新しいクエリとして扱われ、ギャラリーから最も類似したイメージを取得する。 近い画像の探索を反復的に行うことで、正確な画像検索を実現し、最終的にはロバストな検索シーケンスを得る。

This paper is a technical report to our submission to the ICCV 2021 VIPriors Re-identification Challenge. In order to make full use of the visual inductive priors of the data, we treat the query and gallery images of the same identity as continuous frames in a video sequence. And we propose one novel post-processing strategy for video temporal relationship mining, which not only calculates the distance matrix between query and gallery images, but also the matrix between gallery images. The initial query image is used to retrieve the most similar image from the gallery, then the retrieved image is treated as a new query to retrieve its most similar image from the gallery. By iteratively searching for the closest image, we can achieve accurate image retrieval and finally obtain a robust retrieval sequence.
翻訳日:2021-10-04 14:33:23 公開日:2021-10-01
# Batched Multi-Armed Banditsにおけるトンプソンサンプリングの漸近性

Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits ( http://arxiv.org/abs/2110.00158v1 )

ライセンス: Link先を確認
Cem Kalkanli and Ayfer Ozgur(参考訳) 我々は,トンプソンサンプリングアルゴリズムにおいて,時間軸のT$をバッチに分割し,各バッチの終了までその動作の報奨を観察できないような,バッチ化されたマルチアームバンディット設定における漸近的性能について検討した。 このバッチ化環境では、トンプソンサンプリングは、各アクション後に即時フィードバックが利用できる場合と同様の漸近的性能を達成し、バッチサイズが指数関数的に増加することを示す。 この結果は、トンプソンサンプリングが$\omega(\log t)$バッチで遅延フィードバックを受信しても、そのパフォーマンスを維持することができることを示唆している。 さらに,同じ性能を維持しながら,バッチ数を$\theta(\log t)$に削減する適応バッチ方式を提案する。 バッチ化されたマルチアームのバンディット設定は、近年のいくつかの研究で検討されているが、以前の結果は、バッチ構造を最適化し、実験開始時の探索を優先してサブオプティカルアクションを排除するバッチ設定のための調整されたアルゴリズムに依存している。 一方、トンプソンサンプリングは、バッチ設定で同様の漸近的性能を、何の変更もせずに達成できることが示されている。

We study the asymptotic performance of the Thompson sampling algorithm in the batched multi-armed bandit setting where the time horizon $T$ is divided into batches, and the agent is not able to observe the rewards of her actions until the end of each batch. We show that in this batched setting, Thompson sampling achieves the same asymptotic performance as in the case where instantaneous feedback is available after each action, provided that the batch sizes increase subexponentially. This result implies that Thompson sampling can maintain its performance even if it receives delayed feedback in $\omega(\log T)$ batches. We further propose an adaptive batching scheme that reduces the number of batches to $\Theta(\log T)$ while maintaining the same performance. Although the batched multi-armed bandit setting has been considered in several recent works, previous results rely on tailored algorithms for the batched setting, which optimize the batch structure and prioritize exploration in the beginning of the experiment to eliminate suboptimal actions. We show that Thompson sampling, on the other hand, is able to achieve a similar asymptotic performance in the batched setting without any modifications.
翻訳日:2021-10-04 14:32:18 公開日:2021-10-01
# Batched Thompson サンプリング

Batched Thompson Sampling ( http://arxiv.org/abs/2110.00202v1 )

ライセンス: Link先を確認
Cem Kalkanli and Ayfer Ozgur(参考訳) 我々は,複数腕のバンディットに対して,エージェントが自身の行動の報酬を観察し,少数のバッチの終了時にのみ方針を調整できる,新たなanytime batched thompson sampling policyを導入する。 我々は、このポリシーが同時に問題依存の後悔である、順序 $o(\log(t))$ と順序 $o(\sqrt{t\log(t)})$ の最小後悔を同時に達成することを示し、一方、バッチの数を時間軸 $t$ 上で問題インスタンスから独立して$o(\log(t))$ で制限できることを示す。 また、我々のポリシーで使用されるバッチの数は、オーダー$O(\log\log(T))$のインスタンス依存のバウンダリによってバウンド可能であることも示しています。 これらの結果から、トンプソンサンプリングは、各アクション後に即時フィードバックが利用できる場合と同様、最小限のフィードバックを必要としながら、バッチ環境で同じ性能を維持することが示唆された。 これらの結果は、トンプソンサンプリングが、最近提案されたバッチ設定に適したアルゴリズムと競合することを示す。 これらのアルゴリズムは、与えられた時間軸$t$のバッチ構造を最適化し、実験の最初に探索を優先し、副最適アクションを排除する。 我々は,トンプソンサンプリングと適応的バッチ処理戦略を組み合わせることで,時間的地平線を把握せず,また,与えられたT$に対して,目的の後悔境界(すなわち問題依存対ミニマックス後悔)を達成するために,バッチ構造を慎重に最適化する必要がないことを示す。

We introduce a novel anytime Batched Thompson sampling policy for multi-armed bandits where the agent observes the rewards of her actions and adjusts her policy only at the end of a small number of batches. We show that this policy simultaneously achieves a problem dependent regret of order $O(\log(T))$ and a minimax regret of order $O(\sqrt{T\log(T)})$ while the number of batches can be bounded by $O(\log(T))$ independent of the problem instance over a time horizon $T$. We also show that in expectation the number of batches used by our policy can be bounded by an instance dependent bound of order $O(\log\log(T))$. These results indicate that Thompson sampling maintains the same performance in this batched setting as in the case when instantaneous feedback is available after each action, while requiring minimal feedback. These results also indicate that Thompson sampling performs competitively with recently proposed algorithms tailored for the batched setting. These algorithms optimize the batch structure for a given time horizon $T$ and prioritize exploration in the beginning of the experiment to eliminate suboptimal actions. We show that Thompson sampling combined with an adaptive batching strategy can achieve a similar performance without knowing the time horizon $T$ of the problem and without having to carefully optimize the batch structure to achieve a target regret bound (i.e. problem dependent vs minimax regret) for a given $T$.
翻訳日:2021-10-04 14:31:55 公開日:2021-10-01
# 野生における分布変化の検出における勾配の重要性について

On the Importance of Gradients for Detecting Distributional Shifts in the Wild ( http://arxiv.org/abs/2110.00218v1 )

ライセンス: Link先を確認
Rui Huang, Andrew Geng, Yixuan Li(参考訳) オフ・オブ・ディストリビューション(OOD)データの検出は、機械学習モデルを現実世界に安全にデプロイする上で重要な要素となっている。 既存のOOD検出手法は主にOODスコアを導出する出力空間や特徴空間に依存し、勾配空間から情報を見渡す。 本稿では,勾配空間から抽出した情報を利用してOOD入力を簡易かつ効果的に検出するGradNormを提案する。 GradNormは、ソフトマックス出力と一様確率分布の間のKL分散から逆伝播する勾配のベクトルノルムを直接用いている。 鍵となる考え方は、OODデータよりも、IDデータでは勾配の規模が大きくなるということであり、OOD検出には有益であるということです。 GradNormは優れた性能を示し、FPR95の平均値は以前のベストメソッドに比べて最大10.89%削減された。

Detecting out-of-distribution (OOD) data has become a critical component in ensuring the safe deployment of machine learning models in the real world. Existing OOD detection approaches primarily rely on the output or feature space for deriving OOD scores, while largely overlooking information from the gradient space. In this paper, we present GradNorm, a simple and effective approach for detecting OOD inputs by utilizing information extracted from the gradient space. GradNorm directly employs the vector norm of gradients, backpropagated from the KL divergence between the softmax output and a uniform probability distribution. Our key idea is that the magnitude of gradients is higher for in-distribution (ID) data than that for OOD data, making it informative for OOD detection. GradNorm demonstrates superior performance, reducing the average FPR95 by up to 10.89% compared to the previous best method.
翻訳日:2021-10-04 14:31:23 公開日:2021-10-01
# ディープフィードフォワードネットワークと二元分離森林モデルを用いた共通波形のオープンセット分類

Open-set Classification of Common Waveforms Using A Deep Feed-forward Network and Binary Isolation Forest Models ( http://arxiv.org/abs/2110.00252v1 )

ライセンス: Link先を確認
C. Tanner Fredieu, Anthony Martone, R. Michael Buehrer(参考訳) 本稿では,受信信号を7つの共通波形(単一キャリア(sc),単キャリア周波数分割多重アクセス(sc-fdma),直交周波数分割多重化(ofdm),線形周波数変調(lfm),振幅変調(am),周波数変調(fm),位相符号化パルス変調)の1つに分類する深層マルチ層パーセプトロンアーキテクチャについて検討する。 信号の同期は、未知の時間と周波数オフセットが存在すると仮定するので不要である。 分類器は開集合であり、未知の波形が現れると仮定する。 バイナリ分類器として機能する分離林(IF)モデルは、未知の信号を検出するために、既知の信号クラス毎に使用される。 これはifモデルへの入力として高密度層からの32長特徴ベクトルを用いて達成される。 分類器とIFモデルは協調してスペクトルを監視し、未知の波形を検出するとともに波形を識別する。 その結果, 分類器の分類率は0dbより100%高く, 精度は83.2%, 感度は94.7%, 信号障害は5dbであった。 IFモデルの結果, 信号障害のある未知の信号を検出する場合, 全体的な精度は98%であった。 IFモデルは未知の信号をすべて拒否することができ、既知の信号と同様の信号はトレーニング中に使用される汚染率のために2%の時間を通過することができた。 全体として、システムは、0dB以上のSNRで98%の精度で、オープンセットモードで正しく分類できる。

In this paper, we examine the use of a deep multi-layer perceptron architecture to classify received signals as one of seven common waveforms, single carrier (SC), single-carrier frequency division multiple access (SC-FDMA), orthogonal frequency division multiplexing (OFDM), linear frequency modulation (LFM), amplitude modulation (AM), frequency modulation (FM), and phase-coded pulse modulation used in communication and radar networks. Synchronization of the signals is not needed as we assume there is an unknown and uncompensated time and frequency offset. The classifier is open-set meaning it assumes unknown waveforms may appear. Isolation forest (IF) models acting as binary classifiers are used for each known signal class to perform detection of possible unknown signals. This is accomplished using the 32-length feature vector from a dense layer as input to the IF models. The classifier and IF models work together to monitor the spectrum and identify waveforms along with detecting unknown waveforms. Results showed the classifier had 100% classification rate above 0 dB with an accuracy of 83.2% and 94.7% at -10 dB and -5 dB, respectively, with signal impairments present. Results for the IF models showed an overall accuracy of 98% when detecting known and unknown signals with signal impairments present. IF models were able to reject all unknown signals while signals similar to known signals were able to pass through 2% of the time due to the contamination rate used during training. Overall, the entire system can classify correctly in an open-set mode with 98% accuracy at SNR greater than 0 dB.
翻訳日:2021-10-04 14:31:10 公開日:2021-10-01
# 自己指導型学習における微調整戦略の公平性の評価

Evaluating the fairness of fine-tuning strategies in self-supervised learning ( http://arxiv.org/abs/2110.00538v1 )

ライセンス: Link先を確認
Jason Ramapuram, Dan Busbridge, Russ Webb(参考訳) 本研究は,自己監督学習(SSL)モデルの公正性に及ぼす微調整の影響について検討する。 以上の結果から, Batch Normalization (BN) 統計は重要な役割を担っており, トレーニング済みのSSLバックボーンのBN統計のみの更新は, 下流のフェアネス(36%最悪サブグループ, 25%平均サブグループギャップ)を改善することが示唆された。 この手順は教師付き学習と競合するが、トレーニングに4.4倍の時間を要し、更新されるパラメータの0.35%しか必要としない。 最後に、教師あり学習における最近の研究に触発されて、BN統計の更新と残留スキップ接続(パラメータの12.3%)のトレーニングが、完全に微調整されたモデルと同等であり、トレーニングに1.33倍の時間を要することがわかった。

In this work we examine how fine-tuning impacts the fairness of contrastive Self-Supervised Learning (SSL) models. Our findings indicate that Batch Normalization (BN) statistics play a crucial role, and that updating only the BN statistics of a pre-trained SSL backbone improves its downstream fairness (36% worst subgroup, 25% mean subgroup gap). This procedure is competitive with supervised learning, while taking 4.4x less time to train and requiring only 0.35% as many parameters to be updated. Finally, inspired by recent work in supervised learning, we find that updating BN statistics and training residual skip connections (12.3% of the parameters) achieves parity with a fully fine-tuned model, while taking 1.33x less time to train.
翻訳日:2021-10-04 14:30:38 公開日:2021-10-01
# 確率的コントラスト学習

Stochastic Contrastive Learning ( http://arxiv.org/abs/2110.00552v1 )

ライセンス: Link先を確認
Jason Ramapuram, Dan BusBridge, Xavier Suau, Russ Webb(参考訳) 最先端の対比的自己監視学習(SSL)モデルは、教師付き学習と競合する結果をもたらすが、潜伏変数を推論する能力は欠如している。 対照的に、所定の潜伏変数(LV)モデルは不確実性をもたらし、タスク固有の圧縮を誘導し、一般により解釈可能な表現を可能にする。 本研究では,大規模コントラストSSLモデルにLV近似を導入する。 この追加により、ダウンストリーム性能(CIFAR10とImageNetでそれぞれ96.42%と77.49%のテストトップ-1微調整性能)が向上し、高い圧縮された表現(588倍の削減)が、ダウンストリームタスクの解釈、分類、回帰に有用であることが示されている。

While state-of-the-art contrastive Self-Supervised Learning (SSL) models produce results competitive with their supervised counterparts, they lack the ability to infer latent variables. In contrast, prescribed latent variable (LV) models enable attributing uncertainty, inducing task specific compression, and in general allow for more interpretable representations. In this work, we introduce LV approximations to large scale contrastive SSL models. We demonstrate that this addition improves downstream performance (resulting in 96.42% and 77.49% test top-1 fine-tuned performance on CIFAR10 and ImageNet respectively with a ResNet50) as well as producing highly compressed representations (588x reduction) that are useful for interpretability, classification and regression downstream tasks.
翻訳日:2021-10-04 14:30:21 公開日:2021-10-01
# 鉱業地区と地域影響による時間ネットワークにおける帰納的表現学習

Inductive Representation Learning in Temporal Networks via Mining Neighborhood and Community Influences ( http://arxiv.org/abs/2110.00267v1 )

ライセンス: Link先を確認
Meng Liu, Yong Liu(参考訳) ネットワーク表現学習は、ノード分類やリンク予測などの下流機械学習タスクを容易にするネットワーク内の各ノードへの埋め込みを生成することを目的としている。 現在の研究は主にトランスダクティブネットワーク表現学習(すなわち、実世界のアプリケーションには適さない固定ノード埋め込みの生成)に焦点を当てている。 そこで本研究では,マイニング地区と時間ネットワークにおけるコミュニティの影響から,MNCIと呼ばれる新しい帰納的ネットワーク表現学習手法を提案する。 本研究では,地域の影響をコミュニティの影響と統合してノード埋め込みを生成するアグリゲータ関数を提案する。 複数の実世界のデータセットについて広範な実験を行い、ノード分類やネットワーク可視化など、様々なタスクにおけるmnciと最先端のベースライン手法を比較した。 実験の結果,MNCIはベースラインよりも優れた性能を示した。

Network representation learning aims to generate an embedding for each node in a network, which facilitates downstream machine learning tasks such as node classification and link prediction. Current work mainly focuses on transductive network representation learning, i.e. generating fixed node embeddings, which is not suitable for real-world applications. Therefore, we propose a new inductive network representation learning method called MNCI by mining neighborhood and community influences in temporal networks. We propose an aggregator function that integrates neighborhood influence with community influence to generate node embeddings at any time. We conduct extensive experiments on several real-world datasets and compare MNCI with several state-of-the-art baseline methods on various tasks, including node classification and network visualization. The experimental results show that MNCI achieves better performance than baselines.
翻訳日:2021-10-04 14:29:31 公開日:2021-10-01
# エージェントアクションと推論によるオブジェクトパーマンスの改善

Improving Object Permanence using Agent Actions and Reasoning ( http://arxiv.org/abs/2110.00238v1 )

ライセンス: Link先を確認
Ying Siu Liang, Chen Zhang, Dongkyu Choi and Kenneth Kwok(参考訳) 心理学における物体の永続性とは、物体がもはや見えなくなってもまだ存在することを知ることである。 これは、ロボットが制御されていない環境で自律的に動くための重要な概念である。 既存のアプローチは、低レベルの知覚からオブジェクトの永続性を学習するが、オブジェクトが他の人に含まれたり運ばれたりする場合など、より複雑なシナリオでは不十分である。 オブジェクトが消える前に実行される操作に関する知識は、例えば、オブジェクトがキャリアに置かれているなど、その位置について推論することができる。 本稿では,ロボットが実行動作に関する知識を使用すると,オブジェクトの永続性が向上し,エージェント動作から隠されたオブジェクト状態を推測するアプローチを記述する。 エージェントアクションを考慮することで、ルールベースの推論モデルの改善だけでなく、純粋に神経アプローチも実現可能であることを示す。 そこで我々は,1,371個の合成ビデオのデータセットを用いて,スニッチ局所化タスクの定量的実験を行い,異なるオブジェクトパーマンスモデルの性能とアクションアノテーションとを比較した。 我々は、アクションアノテーションを持つモデルが、ニューラルネットワークとルールベースのアプローチの両方のパフォーマンスを著しく向上させることを実証する。 最後に,2つのユニバーサルロボット(UR5とUR16e)を実験室および産業環境で定性実験することにより,実世界の応用におけるアプローチの有用性を評価する。 ロボットは、ギヤボックスアセンブリのベンチマークタスクを完了し、産業環境における実際のセンサーデータによるオブジェクト永続能力を実証する。

Object permanence in psychology means knowing that objects still exist even if they are no longer visible. It is a crucial concept for robots to operate autonomously in uncontrolled environments. Existing approaches learn object permanence from low-level perception, but perform poorly on more complex scenarios, like when objects are contained and carried by others. Knowledge about manipulation actions performed on an object prior to its disappearance allows us to reason about its location, e.g., that the object has been placed in a carrier. In this paper we argue that object permanence can be improved when the robot uses knowledge about executed actions and describe an approach to infer hidden object states from agent actions. We show that considering agent actions not only improves rule-based reasoning models but also purely neural approaches, showing its general applicability. Then, we conduct quantitative experiments on a snitch localization task using a dataset of 1,371 synthesized videos, where we compare the performance of different object permanence models with and without action annotations. We demonstrate that models with action annotations can significantly increase performance of both neural and rule-based approaches. Finally, we evaluate the usability of our approach in real-world applications by conducting qualitative experiments with two Universal Robots (UR5 and UR16e) in both lab and industrial settings. The robots complete benchmark tasks for a gearbox assembly and demonstrate the object permanence capabilities with real sensor data in an industrial environment.
翻訳日:2021-10-04 14:28:52 公開日:2021-10-01
# 対人インタラクションのためのクラス認識識別器を用いたGANに基づく反応運動合成

GAN-based Reactive Motion Synthesis with Class-aware Discriminators for Human-human Interaction ( http://arxiv.org/abs/2110.00380v1 )

ライセンス: Link先を確認
Qianhui Men, Hubert P. H. Shum, Edmond S. L. Ho, Howard Leung(参考訳) ユーザーや他のキャラクターの動きに反応できるリアルなキャラクターを作ることは、コンピュータグラフィックス、ゲーム、バーチャルリアリティーに大きな恩恵をもたらす。 しかし、人間と人間の相互作用におけるこのような反応運動の合成は、2人の人間が対話できる様々な方法のために難しい課題である。 単一の人間の行動の合成にGAN(generative adversarial Network)を適用する研究は成功しているが、人間と人間の相互作用をモデル化する研究はほとんどない。 本稿では,他のキャラクタからアクティブな動作を与えられたキャラクタの反応運動を合成する半教師付きGANシステムを提案する。 私たちの重要な洞察は2つある。 まず、人間の動作の複雑な時空間情報を効果的に符号化するために、各手足の時間移動を効果的にモデル化できるように、パートベース長短期記憶(LSTM)モジュールでジェネレータを増強する。 さらに、対話の時間的重要性を学習できるように注意モジュールを組み込むことにより、アクティブ-反応性運動対の時間的アライメントを高める。 第二に、異なる種類の相互作用の反応性運動は著しく異なる可能性があるため、生成した動きが現実的かどうかを示すだけでなく、相互作用のクラスラベルも示す判別器を導入する。 これにより、ジェネレータのトレーニングを監督するためにそのようなラベルを使用することができる。 我々はSBUとHHOIデータセットを実験した。 合成運動の高品質さは, ジェネレータの有効設計を示し, 合成の識別性もまた, 判別器の強度を示している。

Creating realistic characters that can react to the users' or another character's movement can benefit computer graphics, games and virtual reality hugely. However, synthesizing such reactive motions in human-human interactions is a challenging task due to the many different ways two humans can interact. While there are a number of successful researches in adapting the generative adversarial network (GAN) in synthesizing single human actions, there are very few on modelling human-human interactions. In this paper, we propose a semi-supervised GAN system that synthesizes the reactive motion of a character given the active motion from another character. Our key insights are two-fold. First, to effectively encode the complicated spatial-temporal information of a human motion, we empower the generator with a part-based long short-term memory (LSTM) module, such that the temporal movement of different limbs can be effectively modelled. We further include an attention module such that the temporal significance of the interaction can be learned, which enhances the temporal alignment of the active-reactive motion pair. Second, as the reactive motion of different types of interactions can be significantly different, we introduce a discriminator that not only tells if the generated movement is realistic or not, but also tells the class label of the interaction. This allows the use of such labels in supervising the training of the generator. We experiment with the SBU and the HHOI datasets. The high quality of the synthetic motion demonstrates the effective design of our generator, and the discriminability of the synthesis also demonstrates the strength of our discriminator.
翻訳日:2021-10-04 14:28:28 公開日:2021-10-01
# 自己監督学習を用いたラベル間幾何関係の学習:グリーソングレードセグメンテーションへの応用

Learning of Inter-Label Geometric Relationships Using Self-Supervised Learning: Application To Gleason Grade Segmentation ( http://arxiv.org/abs/2110.00404v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra(参考訳) 前立腺癌(PCa)の病理組織像からの分離は正確な診断には不可欠である。 ディープラーニング(DL)ベースのセグメンテーション手法は最先端の精度を実現するが、手動アノテーションによる大規模なデータセットに依存している。 自己教師付き学習を用いて異なる疾患ラベル間の幾何学的関係を学習し,pca病理組織像の合成法を提案する。 我々は、Gleasonスコアを用いて病気領域のセグメンテーションを行い、その結果のセグメンテーションマップを用いて形状復元ネットワーク(ShaRe-Net)を訓練し、欠損マスクセグメントを自己管理的に予測する。 DenseUNetをバックボーンジェネレータアーキテクチャとして使用し、画像生成プロセスの多様性を注入し、ロバスト性を改善するために潜時変数サンプリングを組み込む。 複数の病理組織学データセットを用いた実験により,セグメンテーション課題に対する画像合成法よりも優れた方法が示された。 アブレーション研究は,高品質画像の生成における幾何学と多様性の統合の利点を示し,クラスラベルデータに制限のある自己教師付きアプローチは,完全な教師付き学習と同等の性能を達成している。

Segmentation of Prostate Cancer (PCa) tissues from Gleason graded histopathology images is vital for accurate diagnosis. Although deep learning (DL) based segmentation methods achieve state-of-the-art accuracy, they rely on large datasets with manual annotations. We propose a method to synthesize for PCa histopathology images by learning the geometrical relationship between different disease labels using self-supervised learning. We use a weakly supervised segmentation approach that uses Gleason score to segment the diseased regions and the resulting segmentation map is used to train a Shape Restoration Network (ShaRe-Net) to predict missing mask segments in a self-supervised manner. Using DenseUNet as the backbone generator architecture we incorporate latent variable sampling to inject diversity in the image generation process and thus improve robustness. Experiments on multiple histopathology datasets demonstrate the superiority of our method over competing image synthesis methods for segmentation tasks. Ablation studies show the benefits of integrating geometry and diversity in generating high-quality images, and our self-supervised approach with limited class-labeled data achieves similar performance as fully supervised learning.
翻訳日:2021-10-04 14:28:00 公開日:2021-10-01
# CTスキャンにおける小腸経路追跡のためのグラフ理論アルゴリズム

A Graph-theoretic Algorithm for Small Bowel Path Tracking in CT Scans ( http://arxiv.org/abs/2110.00466v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Sungwon Lee, and Ronald M. Summers(参考訳) 小腸経路追跡のための新しいグラフ理論法を提案する。 ボーエル壁検出に基づいて構築されたグラフ上で、所定の開始ノードと終了ノードの間の最小コストパスを求めるように定式化する。 また, 壁面検出においても, 多数のショートカットをともなう自明な解が容易に得られ, 追跡経路は小腸の異なる部位間の接触部周辺の壁を貫通することがわかった。 そこで本研究では,小腸の全経路を網羅する経路の探索に必須パスノードを含めることを提案する。 提案手法は,従来手法と異なり,実地パスの訓練を伴わない。 腹部ct検査を10回行い, 小腸の始始末から終末まで全ての経路を接続し, 小腸全周の経路追跡評価を可能にした。 提案手法は,ベースライン法と比較して,いくつかの指標で明らかな改善を示した。 提案手法により,スキャン毎の誤差なく追跡される経路の最大長は平均800mm以上である。

We present a novel graph-theoretic method for small bowel path tracking. It is formulated as finding the minimum cost path between given start and end nodes on a graph that is constructed based on the bowel wall detection. We observed that a trivial solution with many short-cuts is easily made even with the wall detection, where the tracked path penetrates indistinct walls around the contact between different parts of the small bowel. Thus, we propose to include must-pass nodes in finding the path to better cover the entire course of the small bowel. The proposed method does not entail training with ground-truth paths while the previous methods do. We acquired ground-truth paths that are all connected from start to end of the small bowel for 10 abdominal CT scans, which enables the evaluation of the path tracking for the entire course of the small bowel. The proposed method showed clear improvements in terms of several metrics compared to the baseline method. The maximum length of the path that is tracked without an error per scan, by the proposed method, is above 800mm on average.
翻訳日:2021-10-04 14:27:38 公開日:2021-10-01
# 運転監視における技術の現状調査と合成

Survey and synthesis of state of the art in driver monitoring ( http://arxiv.org/abs/2110.00472v1 )

ライセンス: Link先を確認
Ana\"is Halin, Jacques G. Verly and Marc Van Droogenbroeck(参考訳) 自動車事故は、主にヒューマンエラーによるものであり、ドライバーを継続的に監視することで、多くの事故を避けることができる。 ドライバー監視(DM)は、自動車産業への関心が高まっているトピックであり、完全に自律的でない全ての車両、つまり平均的な車両所有者にとって、数十年にわたって関係する。 本稿では,運転者の状態を特徴付けるDMの第1ステップに焦点をあてる。 DMは, 運転自動化(DA)とますます結びついていくので, 6つのSAEレベルのDAにおいて, DMの役割を明確に把握する。 本稿では,dmの技術の現状を調査し,それを合成し,dmの多くの特徴付け技法のユニークな,構造化された多層的視点を提供する。 この調査により、この論文は「(サブ)状態」と呼ばれる、眠気、精神労働負荷、気晴らし、感情、そして影響下にある5つの主要な次元に沿った運転状態を特徴付ける。 dmの多角的視野は、これらの状態とそれらの指標(例えば、アイブリンクレート)と、これらの指標(例えば、カメラ)それぞれにアクセス可能なセンサーを関連付けた、2つの連動したテーブルを通して示される。 テーブルファクタは、ドライバに直接リンクされた効果だけでなく、(駆動)車両と(駆動)環境にリンクされた効果も考慮します。 彼らは一目で、研究者、機器提供者、自動車製造業者に(1)様々なタイプの先進dmシステムを実装しなければならないオプションのほとんど、(2)さらなる研究と革新のための実りある領域を示す。

Road-vehicle accidents are mostly due to human errors, and many such accidents could be avoided by continuously monitoring the driver. Driver monitoring (DM) is a topic of growing interest in the automotive industry, and it will remain relevant for all vehicles that are not fully autonomous, and thus for decades for the average vehicle owner. The present paper focuses on the first step of DM, which consists in characterizing the state of the driver. Since DM will be increasingly linked to driving automation (DA), this paper presents a clear view of the role of DM at each of the six SAE levels of DA. This paper surveys the state of the art of DM, and then synthesizes it, providing a unique, structured, polychotomous view of the many characterization techniques of DM. Informed by the survey, the paper characterizes the driver state along the five main dimensions--called here "(sub)states"--of drowsiness, mental workload, distraction, emotions, and under the influence. The polychotomous view of DM is presented through a pair of interlocked tables that relate these states to their indicators (e.g., the eye-blink rate) and the sensors that can access each of these indicators (e.g., a camera). The tables factor in not only the effects linked directly to the driver, but also those linked to the (driven) vehicle and the (driving) environment. They show, at a glance, to concerned researchers, equipment providers, and vehicle manufacturers (1) most of the options they have to implement various forms of advanced DM systems, and (2) fruitful areas for further research and innovation.
翻訳日:2021-10-04 14:27:21 公開日:2021-10-01
# 周辺平野の視覚マッピングにおける深海照明効果のロバスト除去

Robustly Removing Deep Sea Lighting Effects for Visual Mapping of Abyssal Plains ( http://arxiv.org/abs/2110.00480v1 )

ライセンス: Link先を確認
Kevin K\"oser, Yifan Song, Lasse Petersen, Emanuel Wenzlaff, Felix Woelk(参考訳) 地球の表面の大部分は、表面光が届かない海の奥深くにある。 深度まで潜るロボットは、それぞれの画像に同じ3Dポイントが色を変えて現れるように、暗闇の中で動く照明パターンを生成する光源を持たなければならない。 その上、水中の光の散乱と減衰は、画像が霧状で典型的には青みを帯び、観測された海底パッチへの各ピクセルの距離、水と光源の相対的なポーズと円錐の局所的な構成に依存する。 その結果、画像マッチングや表面アルベド推定を含む視覚マッピングは、共動光源が生み出す影響にひどく苦しめられ、写真からのより大きなモザイクマップは、しばしば実際の海底構造を曖昧にする照明効果によって支配される。 本研究は, 海洋のアビッサル平野で見られるように, 主に均質で平らな海底部における照明効果を推定し, 補正するための実践的アプローチについて述べる。 この方法は基本的にパラメータフリーであり、視覚マッピングを容易にする前処理ステップとして意図されているが、既にグローバルなホワイトバランス係数まで、説得力のある照明アーティファクト補償を生成する。 深海では使用できない大量の注釈付き画像のトレーニングを事前に行なわなくてもよい。 むしろ、光伝播の物理的モデルによるモチベーションを追求し、光、カメラ、水、またはシーンの明示的なパラメータを避け、アルゴリズムのブレークポイントを議論し、数キロの水深でロボットが撮影した画像に結果を示す、付加的および乗算的ニュアサンスを堅牢な統計ベースで見積もる。

The majority of Earth's surface lies deep in the oceans, where no surface light reaches. Robots diving down to great depths must bring light sources that create moving illumination patterns in the darkness, such that the same 3D point appears with different color in each image. On top, scattering and attenuation of light in the water makes images appear foggy and typically blueish, the degradation depending on each pixel's distance to its observed seafloor patch, on the local composition of the water and the relative poses and cones of the light sources. Consequently, visual mapping, including image matching and surface albedo estimation, severely suffers from the effects that co-moving light sources produce, and larger mosaic maps from photos are often dominated by lighting effects that obscure the actual seafloor structure. In this contribution a practical approach to estimating and compensating these lighting effects on predominantly homogeneous, flat seafloor regions, as can be found in the Abyssal plains of our oceans, is presented. The method is essentially parameter-free and intended as a preprocessing step to facilitate visual mapping, but already produces convincing lighting artefact compensation up to a global white balance factor. It does not require to be trained beforehand on huge sets of annotated images, which are not available for the deep sea. Rather, we motivate our work by physical models of light propagation, perform robust statistics-based estimates of additive and multiplicative nuisances that avoid explicit parameters for light, camera, water or scene, discuss the breakdown point of the algorithms and show results on imagery captured by robots in several kilometer water depth.
翻訳日:2021-10-04 14:26:52 公開日:2021-10-01
# 画像復元のための局所調整可能なデノイザ付きプラグアンドプレイADMM

Preconditioned Plug-and-Play ADMM with Locally Adjustable Denoiser for Image Restoration ( http://arxiv.org/abs/2110.00493v1 )

ライセンス: Link先を確認
Mikael Le Pendu and Christine Guillemot(参考訳) プラグ・アンド・プレイの最適化は,従来の最適化アルゴリズムにデノイザを挿入することで,逆問題を解決する強力な手法として最近登場した。 デノイザは正規化を考慮し、従ってデータに関する事前知識を暗黙的に決定するので、典型的な手作りの先行情報を置き換える。 本稿では,非定常雑音分散のパラメータ化が可能なデノイザを使用するために,プラグアンドプレイ最適化の概念を拡張した。 そこで我々は,ADMMアルゴリズムのプレコンディショニングを導入し,そのような調整可能なデノイザの使用を数学的に正当化する。 さらに,ノイズ標準偏差の画素単位での制御を可能にする高品位非blind画像検出のための畳み込みニューラルネットワークの訓練手法を提案する。 我々は,画像補完,補間,復調,ポアソン復調など,いくつかのアプリケーションにおいて,適切なプレコンディショニング戦略とともに,プラグアンドプレイADMMアプローチをさらに改善できることを示す。

Plug-and-Play optimization recently emerged as a powerful technique for solving inverse problems by plugging a denoiser into a classical optimization algorithm. The denoiser accounts for the regularization and therefore implicitly determines the prior knowledge on the data, hence replacing typical handcrafted priors. In this paper, we extend the concept of plug-and-play optimization to use denoisers that can be parameterized for non-constant noise variance. In that aim, we introduce a preconditioning of the ADMM algorithm, which mathematically justifies the use of such an adjustable denoiser. We additionally propose a procedure for training a convolutional neural network for high quality non-blind image denoising that also allows for pixel-wise control of the noise standard deviation. We show that our pixel-wise adjustable denoiser, along with a suitable preconditioning strategy, can further improve the plug-and-play ADMM approach for several applications, including image completion, interpolation, demosaicing and Poisson denoising.
翻訳日:2021-10-04 14:26:19 公開日:2021-10-01
# ハイブリッド相互作用解析格子を用いた学習者ファジィプロファイルの類似性

Learner to learner fuzzy profiles similarity using a hybrid interaction analysis grid ( http://arxiv.org/abs/2110.00247v1 )

ライセンス: Link先を確認
Chabane Khentout, Khadidja Harbouche, Mahieddine Djoudi (TECHN\'E - EA 6316)(参考訳) 遠隔での議論の分析は、面対面の議論とまだ同じレベルではない。 本論文は2倍を志す。 一方,半構造化同期通信ツールを用いた音声行動を用いて,学習者間の対話や協調の適切な環境を確立することを試みる。 一方、BALESのIPAとPLETYの分析システムとをマッチングすることで、行動プロファイルと対人スキルハイブリッドグリッドを定義することを目的としている。 ファジィ論理を適用することで、人間の推論を形式化し、それを使用する推論に非常に優れた柔軟性を与え、不正確さや不確実性を考慮することができる。 さらに,ErosとPCAを用いた類似性クラスタリングにより,学習者のプロファイルに対する行動のマッピングを最適化するために,教育データマイニング技術が用いられている。 本システムの有効性を示すために,実世界のデータを用いた実験を行った。 その結果,(1) プロファイル記述を数学的形式に適切に翻訳するファジィ論理の有用性,(2) 学習者の行動の不規則性,(3) プロファイル間の相関性,(4) 精度においてEros法がPCA因子に優越していること,などが示された。

The analysis of remote discussions is not yet at the same level as the face-to-face ones. The present paper aspires twofold. On the one hand, it attempts to establish a suitable environment of interaction and collaboration among learners by using the speech acts via a semi structured synchronous communication tool. On the other, it aims to define behavioral profiles and interpersonal skills hybrid grid by matching the BALES' IPA and PLETY's analysis system. By applying the fuzzy logic, we formalize human reasoning and, thus, giving very appreciable flexibility to the reasoning that use it, which makes it possible to take into account imprecisions and uncertainties. In addition, the educational data mining techniques are used to optimize the mapping of behaviors to learner's profile, with similarity-based clustering, using Eros and PCA measures. In order to show the validity of our system, we performed an experiment on real-world data. The results show, among others: (1) the usefulness of fuzzy logic to properly translate the profile text descriptions into a mathematical format, (2) an irregularity in the behavior of the learners, (3) the correlation between the profiles, (4) the superiority of Eros method to the PCA factor in precision.
翻訳日:2021-10-04 14:25:45 公開日:2021-10-01
# State-Space ModelsがIEEE DataPortコンペティションで優勝

State-Space Models Win the IEEE DataPort Competition on Post-covid Day-ahead Electricity Load Forecasting ( http://arxiv.org/abs/2110.00334v1 )

ライセンス: Link先を確認
Joseph de Vilmarest (LPSM, EDF R&D OSIRIS), Yannig Goude (LMO, EDF R&D OSIRIS)(参考訳) 我々は、電力需要予測競争の勝利戦略を提示する。 この競争は、2020年春に始まるような不安定な期間の新しい予測方法を設計するために組織された。 標準的な統計モデルと機械学習モデルを適用するために、ステートスペースモデルに依存しています。 2つの極端の間の正しい妥協を達成すると我々は主張する。 一方、自己回帰モデルのような純粋時系列モデルは本質的に適応的であるが、外因性変数への依存を捉えることができない。 一方、機械学習では、履歴データセット上の説明変数に対する複雑な依存度を学習できるが、非定常データを正しく予測できない。 競争の評価期間は試行錯誤の機会であり,最終予測手順に焦点をあてた。 特に最近のアルゴリズムでは,状態空間モデルの分散を適応させるように設計されており,最終版のみの結果を示す。 それでも私たちは日々の予測について話し合う。

We present the winning strategy of an electricity demand forecasting competition. This competition was organized to design new forecasting methods for unstable periods such as the one starting in Spring 2020. We rely on state-space models to adapt standard statistical and machine learning models. We claim that it achieves the right compromise between two extremes. On the one hand, purely time-series models such as autoregressives are adaptive in essence but fail to capture dependence to exogenous variables. On the other hand, machine learning methods allow to learn complex dependence to explanatory variables on a historical data set but fail to forecast non-stationary data accurately. The evaluation period of the competition was the occasion of trial and error and we put the focus on the final forecasting procedure. In particular, it was at the same time that a recent algorithm was designed to adapt the variances of a state-space model and we present the results of the final version only. We discuss day-today predictions nonetheless.
翻訳日:2021-10-04 14:25:23 公開日:2021-10-01
# Fr'echet回帰の次元削減とデータ可視化

Dimension Reduction and Data Visualization for Fr\'echet Regression ( http://arxiv.org/abs/2110.00467v1 )

ライセンス: Link先を確認
Qi Zhang, Lingzhou Xue, and Bing Li(参考訳) データ収集技術の急速な発展により、ユークリッド空間にない複雑なデータオブジェクトは、新しい統計応用において頻繁に遭遇する。 fr\'echet回帰モデル(peterson & m\"uller 2019)は、計量空間値応答を持つ回帰分析の有望なフレームワークを提供する。 本稿では,Fr'echet回帰に対するフレキシブルな十分次元削減(SDR)手法を導入し,高次元予測器による次元の呪いを軽減すること,Fr'echet回帰のためのデータ可視化ツールを提案する。 我々のアプローチは、ユークリッド X と距離空間値 Y の任意の既存の SDR メソッドをユークリッド X と計量空間値 Y のメソッドに変換するのに十分柔軟であり、基本的な考え方は、まず、関数のクラスを使用して、計量空間値のランダムオブジェクト $Y$ を実数値変数 $f(Y)$ にマッピングし、変換されたデータに対して古典的な SDR を実行することである。 函数のクラスが十分にリッチであれば、Fr'echet SDR空間を明らかにすることが保証される。 我々は、アンサンブルと呼ばれるそのようなクラスが普遍カーネルによって生成されることを示した。 提案手法の一貫性と漸近収束率を確立した。 提案手法の有限サンプル性能は、ワッサーシュタイン空間、対称正定値行列の空間、球面を含むいくつかの一般的な距離空間のシミュレーション研究を通して説明される。 本研究は, 各国の死亡率分布データを探索し, 血腫密度分布を調べることにより, 本手法のデータ可視化の側面を明らかにした。

With the rapid development of data collection techniques, complex data objects that are not in the Euclidean space are frequently encountered in new statistical applications. Fr\'echet regression model (Peterson & M\"uller 2019) provides a promising framework for regression analysis with metric space-valued responses. In this paper, we introduce a flexible sufficient dimension reduction (SDR) method for Fr\'echet regression to achieve two purposes: to mitigate the curse of dimensionality caused by high-dimensional predictors, and to provide a tool for data visualization for Fr\'echet regression. Our approach is flexible enough to turn any existing SDR method for Euclidean (X,Y) into one for Euclidean X and metric space-valued Y. The basic idea is to first map the metric-space valued random object $Y$ to a real-valued random variable $f(Y)$ using a class of functions, and then perform classical SDR to the transformed data. If the class of functions is sufficiently rich, then we are guaranteed to uncover the Fr\'echet SDR space. We showed that such a class, which we call an ensemble, can be generated by a universal kernel. We established the consistency and asymptotic convergence rate of the proposed methods. The finite-sample performance of the proposed methods is illustrated through simulation studies for several commonly encountered metric spaces that include Wasserstein space, the space of symmetric positive definite matrices, and the sphere. We illustrated the data visualization aspect of our method by exploring the human mortality distribution data across countries and by studying the distribution of hematoma density.
翻訳日:2021-10-04 14:25:10 公開日:2021-10-01
# 情報理論変分グラフオートエンコーダを用いた分極ネットワークにおける教師なし信念表現学習

Unsupervised Belief Representation Learning in Polarized Networks with Information-Theoretic Variational Graph Auto-Encoders ( http://arxiv.org/abs/2110.00210v1 )

ライセンス: Link先を確認
Jinning Li, Huajie Shao, Dachun Sun, Ruijie Wang, Jinyang, Li, Shengzhong, Liu, Hanghang Tong, Tarek Abdelzaher(参考訳) 本稿では、偏極ネットワークにおける信念表現学習のための新しい教師なしアルゴリズムを開発する。 (i)根底にある信仰空間の潜在次元を明らかにすることと 二 ユーザとコンテンツアイテム(それらと相互作用する)を共同でその空間に埋め込むことにより、姿勢検出、姿勢予測、イデオロギーマッピングなどの下流業務を容易にする。 情報理論における全相関に着想を得て,ユーザとコンテンツ項目(例えば,ユーザビューを表すポスト)を適切な不連続潜在空間に投影することを学ぶ情報理論的変分グラフ自動エンコーダ(infovgae)を提案する。 この空間の直交潜伏変数をよりよく非角化するために、全相関正則化、PI制御モジュールを開発し、潜伏空間に対して正則ガウス分布を採用する。 ユーザとコンテンツの潜在表現は、イデオロギー的な傾きを定量化し、問題に対するスタンスを検出/予測するために使うことができる。 提案したInfoVGAEを実世界の3つのデータセットで評価し,そのうち2つはTwitterから,1つは米国議会の投票記録から収集した。 評価の結果,我々のモデルは最先端の教師なしモデルよりも優れており,教師付きモデルと同等の結果が得られた。 また,イデオロギーグループ内での姿勢予測やユーザランキングについても論じる。

This paper develops a novel unsupervised algorithm for belief representation learning in polarized networks that (i) uncovers the latent dimensions of the underlying belief space and (ii) jointly embeds users and content items (that they interact with) into that space in a manner that facilitates a number of downstream tasks, such as stance detection, stance prediction, and ideology mapping. Inspired by total correlation in information theory, we propose a novel Information-Theoretic Variational Graph Auto-Encoder (InfoVGAE) that learns to project both users and content items (e.g., posts that represent user views) into an appropriate disentangled latent space. In order to better disentangle orthogonal latent variables in that space, we develop total correlation regularization, PI control module, and adopt rectified Gaussian Distribution for the latent space. The latent representation of users and content can then be used to quantify their ideological leaning and detect/predict their stances on issues. We evaluate the performance of the proposed InfoVGAE on three real-world datasets, of which two are collected from Twitter and one from U.S. Congress voting records. The evaluation results show that our model outperforms state-of-the-art unsupervised models and produce comparable result with supervised models. We also discuss stance prediction and user ranking within ideological groups.
翻訳日:2021-10-04 14:24:39 公開日:2021-10-01
# DNN-Opt:ディープニューラルネットワークを用いたアナログ回路サイズ最適化

DNN-Opt: An RL Inspired Optimization for Analog Circuit Sizing using Deep Neural Networks ( http://arxiv.org/abs/2110.00211v1 )

ライセンス: Link先を確認
Ahmet F. Budak, Prateek Bhansali, Bo Liu, Nan Sun, David Z. Pan, Chandramouli V. Kashyap(参考訳) アナログ回路サイズは、典型的な設計サイクルにおいてかなりの労力を要する。 急速な技術開発とスケジュールの厳格化により、サイズ自動化のソリューションが注目されている。 本稿では,拡張学習(rl)にインスパイアされたディープニューラルネットワーク(dnn)を用いた,アナログ回路サイズのためのブラックボックス最適化フレームワークであるdnn-optを提案する。 本稿の主な貢献は,RLアクター・クリティック・アルゴリズムを利用したサンプル効率のよい2段階深層学習最適化フレームワークと,重要なデバイス識別を用いて大規模産業用回路に拡張するためのレシピである。 提案手法は, 小型ビルディングブロックおよび大規模産業用回路におけるブラックボックス最適化手法と比較して, 5-30倍の効率性を示す。 我々の知る限りでは、DNNベースの回路サイズを産業規模の回路に適用するのはこれが初めてである。

Analog circuit sizing takes a significant amount of manual effort in a typical design cycle. With rapidly developing technology and tight schedules, bringing automated solutions for sizing has attracted great attention. This paper presents DNN-Opt, a Reinforcement Learning (RL) inspired Deep Neural Network (DNN) based black-box optimization framework for analog circuit sizing. The key contributions of this paper are a novel sample-efficient two-stage deep learning optimization framework leveraging RL actor-critic algorithms, and a recipe to extend it on large industrial circuits using critical device identification. Our method shows 5--30x sample efficiency compared to other black-box optimization methods both on small building blocks and on large industrial circuits with better performance metrics. To the best of our knowledge, this is the first application of DNN-based circuit sizing on industrial scale circuits.
翻訳日:2021-10-04 14:24:13 公開日:2021-10-01
# スパイキングハイパー次元ネットワーク:メモリに触発されたフレームワークを組み込んだニューロモルフィックモデル

Spiking Hyperdimensional Network: Neuromorphic Models Integrated with Memory-Inspired Framework ( http://arxiv.org/abs/2110.00214v1 )

ライセンス: Link先を確認
Zhuowen Zou, Haleh Alimohamadi, Farhad Imani, Yeseong Kim, Mohsen Imani(参考訳) 近年、脳にインスパイアされたコンピューティングモデルは、今日のディープラーニングソリューションを堅牢性とエネルギー効率で上回る可能性を示している。 特に、スパイキングニューラルネットワーク(SNN)と超次元コンピューティング(HDC)は、効率的で堅牢な認知学習を可能にする有望な結果を示している。 成功にもかかわらず、これらの2つの脳にインスパイアされたモデルは、強さが異なる。 SNNは人間の脳の物理的特性を模倣するが、HDCはより抽象的で機能的なレベルで脳をモデル化する。 彼らのデザイン哲学は、それらの組み合わせを動機づける相補的なパターンを示している。 メモリ上の古典心理学モデルの助けを借りて、スパイキングニューラルネットワークと超次元コンピューティングを根本的に組み合わせた最初のフレームワークであるSpikeHDを提案する。 spikehdは、スケーラブルで強力な認知学習システムを生成し、脳機能を模倣する。 spikehdはスパイクニューラルネットワークを利用して、生のイベントベースのスパイクデータの時間的および時間的相関を保ちながら、低レベルの特徴を抽出する。 次に、HDCを用いて信号の高次元空間へのマッピング、抽象情報学習、データの分類を行い、SNN出力上で動作させる。 その結果,(1)二段階情報処理の活用による学習能力の大幅な向上,(2)ノイズや障害に対する強固性の実現,(3)複雑な情報を学ぶためのネットワークサイズとパラメータの削減,などが得られた。

Recently, brain-inspired computing models have shown great potential to outperform today's deep learning solutions in terms of robustness and energy efficiency. Particularly, Spiking Neural Networks (SNNs) and HyperDimensional Computing (HDC) have shown promising results in enabling efficient and robust cognitive learning. Despite the success, these two brain-inspired models have different strengths. While SNN mimics the physical properties of the human brain, HDC models the brain on a more abstract and functional level. Their design philosophies demonstrate complementary patterns that motivate their combination. With the help of the classical psychological model on memory, we propose SpikeHD, the first framework that fundamentally combines Spiking neural network and hyperdimensional computing. SpikeHD generates a scalable and strong cognitive learning system that better mimics brain functionality. SpikeHD exploits spiking neural networks to extract low-level features by preserving the spatial and temporal correlation of raw event-based spike data. Then, it utilizes HDC to operate over SNN output by mapping the signal into high-dimensional space, learning the abstract information, and classifying the data. Our extensive evaluation on a set of benchmark classification problems shows that SpikeHD provides the following benefit compared to SNN architecture: (1) significantly enhance learning capability by exploiting two-stage information processing, (2) enables substantial robustness to noise and failure, and (3) reduces the network size and required parameters to learn complex information.
翻訳日:2021-10-04 14:23:59 公開日:2021-10-01
# オンロードリモートセンシングと機械学習による軽質ガソリン車排出の迅速評価

Rapid Assessments of Light-Duty Gasoline Vehicle Emissions Using On-Road Remote Sensing and Machine Learning ( http://arxiv.org/abs/2110.00260v1 )

ライセンス: Link先を確認
Yan Xia, Linhui Jiang, Lu Wang, Xue Chen, Jianjie Ye, Tangyan Hou, Liqiang Wang, Yibo Zhang, Mengying Li, Zhen Li, Zhe Song, Yaping Jiang, Weiping Liu, Pengfei Li, Daniel Rosenfeld, John H. Seinfeld, Shaocai Yu(参考訳) 道路上での自動車排ガスのリアルタイムかつ正確な評価は、都市大気質と健康政策において中心的な役割を果たす。 しかし、研究所で毎年実施される検査/維持(i/m)手順によって、公式な洞察が阻害される。 現実世界の状況(例えば気象条件)に大きなギャップがあるだけでなく、定期的な監督もできない。 ここでは、車種識別番号とライセンスプレートに基づいて、路上リモートセンシング(orr)測定とi/m記録をリンクする103831光デューティガソリン車を含むユニークなデータセットを構築する。 そこで我々は,ニューラルネットワーク(NN),極勾配促進(XGBoost),ランダム森林(RF)の3つの機械学習アルゴリズムを統合したアンサンブルモデルフレームワークを開発した。 このアンサンブルモデルにより,車種別排出(CO,HC,NO)を迅速に評価できることが実証された。 特に、このモデルは通常の条件下での通過車両(低vsp (<18 kw/t)、温度(6 ~ 32 {\deg}c)、相対湿度 (< 80%)、風速 (< 5m/s))に対して非常によく機能する。 現在の排出基準と共に、現実世界の汚れ(2.33%)またはクリーン(74.92%)車両の多くを識別する。 以上の結果から,ここで開発された機械学習に基づくアンサンブルモデルによるorrs測定により,車内排出ガスの日々の監視が可能となった。 このアプローチフレームワークは、I/M手順をグローバルに改革し、都市大気汚染を深く軽減する貴重な機会を提供する。

In-time and accurate assessments of on-road vehicle emissions play a central role in urban air quality and health policymaking. However, official insight is hampered by the Inspection/Maintenance (I/M) procedure conducted in the laboratory annually. It not only has a large gap to real-world situations (e.g., meteorological conditions) but also is incapable of regular supervision. Here we build a unique dataset including 103831 light-duty gasoline vehicles, in which on-road remote sensing (ORRS) measurements are linked to the I/M records based on the vehicle identification numbers and license plates. On this basis, we develop an ensemble model framework that integrates three machining learning algorithms, including neural network (NN), extreme gradient boosting (XGBoost), and random forest (RF). We demonstrate that this ensemble model could rapidly assess the vehicle-specific emissions (i.e., CO, HC, and NO). In particular, the model performs quite well for the passing vehicles under normal conditions (i.e., lower VSP (< 18 kw/t), temperature (6 ~ 32 {\deg}C), relative humidity (< 80%), and wind speed (< 5m/s)). Together with the current emission standard, we identify a large number of the dirty (2.33%) or clean (74.92%) vehicles in the real world. Our results show that the ORRS measurements, assisted by the machine-learning-based ensemble model developed here, can realize day-to-day supervision of on-road vehicle-specific emissions. This approach framework provides a valuable opportunity to reform the I/M procedures globally and mitigate urban air pollution deeply.
翻訳日:2021-10-04 14:23:36 公開日:2021-10-01
# ニューラルキャリブレーションでコミュニケーションを学ぶ:スケーラビリティと一般化

Learn to Communicate with Neural Calibration: Scalability and Generalization ( http://arxiv.org/abs/2110.00272v1 )

ライセンス: Link先を確認
Yifan Ma, Yifei Shen, Xianghao Yu, Jun Zhang, S.H. Song, Khaled B. Letaief(参考訳) 従来の無線通信システムの設計は、異なる通信モジュールの特性をキャプチャする確立された数学的モデルに依存している。 残念ながら、そのような設計は将来の無線ネットワークでは容易に直接適用できず、設計の複雑さがネットワークサイズと指数関数的にスケールする大規模超高密度ネットワークが特徴である。 さらに、このようなネットワークは動的に大きく変化するため、包括的な分析モデルを開発するのが難しくなる。 近年,複雑でダイナミックな無線システムを設計するための代替手段として,ディープラーニングベースのアプローチが登場している。 しかし、既存の学習ベースの手法は、問題のサイズに応じてスケールし、様々なネットワーク設定で一般化する能力に制限がある。 本稿では,従来のモデルベースアルゴリズムの入力をニューラルネットワークを用いて校正する,将来の無線システム設計のためのスケーラブルで汎用的なニューラルネットワークキャリブレーションフレームワークを提案する。 具体的には、従来の時間効率アルゴリズムのバックボーンをディープニューラルネットワークに統合して高い計算効率を実現し、性能の向上を享受する。 さらに、無線システムのトポロジカル構造によって行われる置換同分散特性を利用して、一般化可能なニューラルネットワークアーキテクチャを開発する。 提案するニューラルキャリブレーションフレームワークは,大規模マルチインプットマルチアウトプット(MIMO)システムにおける資源管理の課題を解決するために応用される。 シミュレーションの結果,提案手法は,既存の学習に基づく手法に比べてスケーラビリティと一般化が著しく向上することを示す。

The conventional design of wireless communication systems typically relies on established mathematical models that capture the characteristics of different communication modules. Unfortunately, such design cannot be easily and directly applied to future wireless networks, which will be characterized by large-scale ultra-dense networks whose design complexity scales exponentially with the network size. Furthermore, such networks will vary dynamically in a significant way, which makes it intractable to develop comprehensive analytical models. Recently, deep learning-based approaches have emerged as potential alternatives for designing complex and dynamic wireless systems. However, existing learning-based methods have limited capabilities to scale with the problem size and to generalize with varying network settings. In this paper, we propose a scalable and generalizable neural calibration framework for future wireless system design, where a neural network is adopted to calibrate the input of conventional model-based algorithms. Specifically, the backbone of a traditional time-efficient algorithm is integrated with deep neural networks to achieve a high computational efficiency, while enjoying enhanced performance. The permutation equivariance property, carried out by the topological structure of wireless systems, is furthermore utilized to develop a generalizable neural network architecture. The proposed neural calibration framework is applied to solve challenging resource management problems in massive multiple-input multiple-output (MIMO) systems. Simulation results will show that the proposed neural calibration approach enjoys significantly improved scalability and generalization compared with the existing learning-based methods.
翻訳日:2021-10-04 14:23:03 公開日:2021-10-01
# 探索的データモルフィックテストによる特徴ベース機械学習分類器の境界値の検出

Discovering Boundary Values of Feature-based Machine Learning Classifiers through Exploratory Datamorphic Testing ( http://arxiv.org/abs/2110.00330v1 )

ライセンス: Link先を確認
Hong Zhu and Ian Bayley(参考訳) テストはAIアプリケーションにとって難しいと広く認識されている。 本稿では,データ型テスト手法の枠組みとして,機械学習アプリケーションをテストするための一連のテスト戦略を提案する。 これらの戦略では、テストは分類やクラスタリングアプリケーションのデータ空間を探索し、機械学習アプリケーションが定義するクラス間の境界を見つけることを目的としている。 これにより、テスターはテスト中のソフトウェアの振る舞いや機能を正確に理解できます。 本稿では,自動データ型テストツールMorphyに実装されたアルゴリズムを用いて,探索戦略の3つの変種を示す。 これらのアルゴリズムの正確性は正式に証明される。 クラス間の境界を見つける能力とコストは、手動で設計した被験者による一連の制御実験と、実際の機械学習モデルによるケーススタディによって評価される。

Testing has been widely recognised as difficult for AI applications. This paper proposes a set of testing strategies for testing machine learning applications in the framework of the datamorphism testing methodology. In these strategies, testing aims at exploring the data space of a classification or clustering application to discover the boundaries between classes that the machine learning application defines. This enables the tester to understand precisely the behaviour and function of the software under test. In the paper, three variants of exploratory strategies are presented with the algorithms implemented in the automated datamorphic testing tool Morphy. The correctness of these algorithms are formally proved. Their capability and cost of discovering borders between classes are evaluated via a set of controlled experiments with manually designed subjects and a set of case studies with real machine learning models.
翻訳日:2021-10-04 14:22:41 公開日:2021-10-01
# 強化学習を用いたオポチュニスティックネットワークによるセルトラフィックオフロード

Cellular traffic offloading via Opportunistic Networking with Reinforcement Learning ( http://arxiv.org/abs/2110.00397v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Raffaele Bruno, Andrea Passarella(参考訳) 携帯電話の普及によって、モバイルデータトラフィックの指数関数的な増加が引き起こされ、近い将来、次世代の携帯電話ネットワークでもかなりのトラフィック過負荷が発生する可能性がある。 トラフィックの一部を他のネットワークにオフロードすることは、非常に有望なアプローチであると考えられており、特に本稿では、ユーザデバイスの機会的ネットワークを通してのオフロードを検討する。 しかし、このソリューションの性能はモバイルノード間の遭遇パターンに強く依存しており、従ってオフロード制御アルゴリズムを設計する際に考慮すべきである。 本稿では,強化学習フレームワークに基づく適応的オフロードソリューションを提案し,アクタ-クリティックとq-learningの2つのよく知られた学習アルゴリズムの性能を評価し,比較する。 より正確には、我々のソリューションでは、一度訓練された拡散プロセスのコントローラは、日和見ネットワークに注入される適切な数のコンテンツレプリカを選択でき、興味のあるすべてのユーザにタイムリーにコンテンツが配信されることを保証します。 強化学習に基づくシステムでは,機会ネットワークに関する追加のコンテキスト情報に頼ることなく,セルネットワーク上のトラフィックを削減するための非常に効率的な戦略を自動学習できることが示される。 我々のソリューションは、さまざまなモビリティ設定において、他の最先端アプローチよりも高いレベルのオフロードを実現する。 さらに,アクター-クリティックアルゴリズムに基づくより洗練された学習ソリューションは,q-learningに基づく単純なソリューションよりもはるかに効率的であることを示す。

The widespread diffusion of mobile phones is triggering an exponential growth of mobile data traffic that is likely to cause, in the near future, considerable traffic overload issues even in last-generation cellular networks. Offloading part of the traffic to other networks is considered a very promising approach and, in particular, in this paper, we consider offloading through opportunistic networks of users' devices. However, the performance of this solution strongly depends on the pattern of encounters between mobile nodes, which should therefore be taken into account when designing offloading control algorithms. In this paper, we propose an adaptive offloading solution based on the Reinforcement Learning framework and we evaluate and compare the performance of two well-known learning algorithms: Actor-Critic and Q-Learning. More precisely, in our solution the controller of the dissemination process, once trained, is able to select a proper number of content replicas to be injected into the opportunistic network to guarantee the timely delivery of contents to all interested users. We show that our system based on Reinforcement Learning is able to automatically learn a very efficient strategy to reduce the traffic on the cellular network, without relying on any additional context information about the opportunistic network. Our solution achieves a higher level of offloading with respect to other state-of-the-art approaches, in a range of different mobility settings. Moreover, we show that a more refined learning solution, based on the Actor-Critic algorithm, is significantly more efficient than a simpler solution based on Q-learning.
翻訳日:2021-10-04 14:22:29 公開日:2021-10-01
# SAM: コンテキスト認識レコメンデーションシステムのための自己適応型アテンションモジュール

SAM: A Self-adaptive Attention Module for Context-Aware Recommendation System ( http://arxiv.org/abs/2110.00452v1 )

ライセンス: Link先を確認
Jiabin Liu, Zheng Wei, Zhengpin Li, Xiaojun Mao, Jian Wang, Zhongyu Wei and Qi Zhang(参考訳) 近年,リコメンデーションシステムにおけるテキスト情報の役割が実証されている。 しかし,既存の手法のほとんどは,テキスト情報による潜在的選択バイアスを無視する一方で,評価におけるテキスト情報の表現学習のみに焦点を当てている。 本研究では,その表現に基づいて文脈情報を取り込むことにより,選択バイアスを調整する新しい自己適応型注意モジュールである自己適応型注意モジュール(sam)を提案する。 このモジュールは、コンテキスト情報の学習コンポーネントを含むレコメンデーションシステムに組み込むことができる。 3つの実世界のデータセットにおける実験結果は、提案の有効性を示し、samによる最先端モデルがオリジナルのモデルを大きく上回っていることを示している。

Recently, textual information has been proved to play a positive role in recommendation systems. However, most of the existing methods only focus on representation learning of textual information in ratings, while potential selection bias induced by the textual information is ignored. In this work, we propose a novel and general self-adaptive module, the Self-adaptive Attention Module (SAM), which adjusts the selection bias by capturing contextual information based on its representation. This module can be embedded into recommendation systems that contain learning components of contextual information. Experimental results on three real-world datasets demonstrate the effectiveness of our proposal, and the state-of-the-art models with SAM significantly outperform the original ones.
翻訳日:2021-10-04 14:22:04 公開日:2021-10-01
# オンライン学習制御に基づく個人化リハビリテーションロボティクス

Personalized Rehabilitation Robotics based on Online Learning Control ( http://arxiv.org/abs/2110.00481v1 )

ライセンス: Link先を確認
Samuel Tesfazgi, Armin Lederer, Johannes F. Kunz, Alejandro J. Ord\'o\~nez-Conejo and Sandra Hirche(参考訳) 臨床応用におけるリハビリテーションロボティクスの利用は、治療効果と労働集約的な作業を軽減する能力により、重要性が増す。 しかし、それらの実用性は、個々の患者のニーズに応じてタスクアシストのレベルを適応させる適切な制御アルゴリズムの展開に依存する。 一般に、必要なパーソナライゼーションは臨床医による手作業によるチューニングによって達成される。 本研究では,個々のユーザに対して実行時の制御力をパーソナライズ可能な,新しいオンライン学習制御アーキテクチャを提案する。 この目的のために,これまでに見つからなかった予測と更新率でガウス的なプロセスベースのオンライン学習を展開した。 最後に,学習制御器がパーソナライズされた制御を提供しながら,安全な相互作用力を得る実験的なユーザスタディにおいて,本手法の評価を行った。

The use of rehabilitation robotics in clinical applications gains increasing importance, due to therapeutic benefits and the ability to alleviate labor-intensive works. However, their practical utility is dependent on the deployment of appropriate control algorithms, which adapt the level of task-assistance according to each individual patient's need. Generally, the required personalization is achieved through manual tuning by clinicians, which is cumbersome and error-prone. In this work we propose a novel online learning control architecture, which is able to personalize the control force at run time to each individual user. To this end, we deploy Gaussian process-based online learning with previously unseen prediction and update rates. Finally, we evaluate our method in an experimental user study, where the learning controller is shown to provide personalized control, while also obtaining safe interaction forces.
翻訳日:2021-10-04 14:21:53 公開日:2021-10-01
# アクティブノイズコントロール技術に関する調査研究 -その1:リニアシステム-

A survey on active noise control techniques -- Part I: Linear systems ( http://arxiv.org/abs/2110.00531v1 )

ライセンス: Link先を確認
Lu Lu, Kai-Li Yin, Rodrigo C. de Lamare, Zongsheng Zheng, Yi Yu, Xiaomin Yang, Badong Chen(参考訳) アクティブノイズコントロール(ANC)は、電気音響・電気機械系のノイズレベルを低減する効果的な方法である。 1936年に初めて導入されて以来、このアプローチは大きく発展してきた。 本稿では,過去10年間のANC技術の発展について論じる。 フィルタx最小平均二乗法(FxLMS)に基づく線形ANCアルゴリズムと分散ANCアルゴリズムについて検討・評価を行った。 関数リンクニューラルネットワーク(FLANN)ベースのアルゴリズムのような非線形ANC(NLANC)技術がパートIIで追求されている。 さらに、過去10年間に出現したANCの新しい方法と応用について要約する。 最後に,ANC技術に関する今後の研究課題について論じる。

Active noise control (ANC) is an effective way for reducing the noise level in electroacoustic or electromechanical systems. Since its first introduction in 1936, this approach has been greatly developed. This paper focuses on discussing the development of ANC techniques over the past decade. Linear ANC algorithms, including the celebrated filtered-x least-mean-square (FxLMS)-based algorithms and distributed ANC algorithms, are investigated and evaluated. Nonlinear ANC (NLANC) techniques, such as functional link artificial neural network (FLANN)-based algorithms, are pursued in Part II. Furthermore, some novel methods and applications of ANC emerging in the past decade are summarized. Finally, future research challenges regarding the ANC technique are discussed.
翻訳日:2021-10-04 14:21:38 公開日:2021-10-01
# テンソル補完に差分プライバシーを適用する

Applying Differential Privacy to Tensor Completion ( http://arxiv.org/abs/2110.00539v1 )

ライセンス: Link先を確認
Zheng Wei, Zhengpin Li, Xiaojun Mao and Jian Wang(参考訳) テンソル補完は、部分的に観測されたテンソルに基づいて、欠落または観測されていないエントリを満たすことを目的としている。 しかし、観測されたテンソルの利用は、多くの実践シナリオにおいて深刻なプライバシー上の懸念を引き起こすことが多い。 この問題に対処するため,我々は,最も広く用いられている2つのテンソル分解法に微分プライバシーを適用するためのいくつかのアプローチを含む,堅実で統一されたフレームワークを提案する。 一 CANDECOMP/PARAFAC~(CP)及び 二 タッカー分解 それぞれのアプローチにおいて、厳格なプライバシー保証を確立し、同時にプライバシーと精度のトレードオフを評価します。 合成および実世界のデータセットの実験により、この提案は強力なプライバシー保護を確保しつつ、テンソル完了の精度を向上することを示した。

Tensor completion aims at filling the missing or unobserved entries based on partially observed tensors. However, utilization of the observed tensors often raises serious privacy concerns in many practical scenarios. To address this issue, we propose a solid and unified framework that contains several approaches for applying differential privacy to the two most widely used tensor decomposition methods: i) CANDECOMP/PARAFAC~(CP) and ii) Tucker decompositions. For each approach, we establish a rigorous privacy guarantee and meanwhile evaluate the privacy-accuracy trade-off. Experiments on synthetic and real-world datasets demonstrate that our proposal achieves high accuracy for tensor completion while ensuring strong privacy protections.
翻訳日:2021-10-04 14:21:28 公開日:2021-10-01
# ベイジアンスパース回帰とデータ同化を組み合わせたカオス系のモデルにおける構造誤差の閉形式発見

Closed-form discovery of structural errors in models of chaotic systems by integrating Bayesian sparse regression and data assimilation ( http://arxiv.org/abs/2110.00546v1 )

ライセンス: Link先を確認
Rambod Mojgani, Ashesh Chattopadhyay, Pedram Hassanzadeh(参考訳) 多くの重要な工学や自然システムで使われるモデルは不完全である。 真の物理系の数学的表現と不完全なモデルの間の不一致はモデル誤差と呼ばれる。 これらのモデル誤差は、モデルの数値解とシステムの観測、特に非線形、多スケールの現象の間の実質的な差をもたらす可能性がある。 したがって、特に物理や情報源を理解し、観測データの急速な成長を活用することによって、モデルエラーの低減に大きな関心がある。 ここでは、MeDIDAというフレームワークを紹介します: 解釈可能性とデータ同化を伴うモデルエラー発見。 medidaは、モデルの動作する数値解法と、少数のノイズフリーまたはノイズの散発的な観測のみを必要とする。 メディダでは、まず、モデル誤差を観測状態とモデル予測状態の差から推定する(後者は、前回の観測状態から多くのワンタイムステップの数値積分から得られる)。 観測がノイズである場合、まずアンサンブルカルマンフィルタ(enkf)のようなデータ同化(da)技術を使用して、システムのノイズフリーな分析状態を提供し、モデル誤差の推定に使用する。 最後に、関係ベクトルマシン(RVM)のような方程式発見手法を用いて、モデルエラーの解釈可能で、同義的で、閉形式の表現を同定する。 実験ケースとしてカオス的倉本・シヴァシンスキー(KS)システムを用いて,無雑音・雑音観測を用いて,異なるタイプの構造・パラメトリックモデル誤差を発見する上で,MEDIDAの優れた性能を示す。

Models used for many important engineering and natural systems are imperfect. The discrepancy between the mathematical representations of a true physical system and its imperfect model is called the model error. These model errors can lead to substantial difference between the numerical solutions of the model and the observations of the system, particularly in those involving nonlinear, multi-scale phenomena. Thus, there is substantial interest in reducing model errors, particularly through understanding their physics and sources and leveraging the rapid growth of observational data. Here we introduce a framework named MEDIDA: Model Error Discovery with Interpretability and Data Assimilation. MEDIDA only requires a working numerical solver of the model and a small number of noise-free or noisy sporadic observations of the system. In MEDIDA, first the model error is estimated from differences between the observed states and model-predicted states (the latter are obtained from a number of one-time-step numerical integrations from the previous observed states). If observations are noisy, a data assimilation (DA) technique such as ensemble Kalman filter (EnKF) is first used to provide a noise-free analysis state of the system, which is then used in estimating the model error. Finally, an equation-discovery technique, such as the relevance vector machine (RVM), a sparsity-promoting Bayesian method, is used to identify an interpretable, parsimonious, closed-form representation of the model error. Using the chaotic Kuramoto-Sivashinsky (KS) system as the test case, we demonstrate the excellent performance of MEDIDA in discovering different types of structural/parametric model errors, representing different types of missing physics, using noise-free and noisy observations.
翻訳日:2021-10-04 14:20:49 公開日:2021-10-01
# デバイス上での効率的な音声領域適応のための階層的自己教師付き学習

Incremental Layer-wise Self-Supervised Learning for Efficient Speech Domain Adaptation On Device ( http://arxiv.org/abs/2110.00155v1 )

ライセンス: Link先を確認
Zhouyuan Huo, Dongseong Hwang, Khe Chai Sim, Shefali Garg, Ananya Misra, Nikhil Siddhartha, Trevor Strohman, Fran\c{c}oise Beaufays(参考訳) エンドツーエンド音声認識モデルはモバイルデバイスに広く適用されており、効率が大幅に向上している。 これらのモデルは典型的には、書き起こされた音声データを使用してサーバー上で訓練される。 しかし、サーバのデータ配信は、ユーザデバイスのデータ配信とは大きく異なり、モデルの性能に影響を及ぼす可能性がある。 デバイストレーニング、信頼できるラベルの制限、トレーニングメモリの制限には2つの大きな課題がある。 自己教師付き学習アルゴリズムはラベルなしのデータを用いてドメイン間のミスマッチを軽減することができるが、メモリ制約のためモバイルデバイスでは直接適用できない。 本稿では,モバイル端末上での効率的な音声ドメイン適応のための,段階的な層単位の自己教師付き学習アルゴリズムを提案する。 大規模な実験結果から,提案アルゴリズムは,教師付きベースラインよりも目標ドメインのワード誤り率(WER)が24.2 %,訓練メモリが89.7 %と,エンドツーエンドの自己教師付き学習アルゴリズムよりも低いことがわかった。

Streaming end-to-end speech recognition models have been widely applied to mobile devices and show significant improvement in efficiency. These models are typically trained on the server using transcribed speech data. However, the server data distribution can be very different from the data distribution on user devices, which could affect the model performance. There are two main challenges for on device training, limited reliable labels and limited training memory. While self-supervised learning algorithms can mitigate the mismatch between domains using unlabeled data, they are not applicable on mobile devices directly because of the memory constraint. In this paper, we propose an incremental layer-wise self-supervised learning algorithm for efficient speech domain adaptation on mobile devices, in which only one layer is updated at a time. Extensive experimental results demonstrate that the proposed algorithm obtains a Word Error Rate (WER) on the target domain $24.2\%$ better than supervised baseline and costs $89.7\%$ less training memory than the end-to-end self-supervised learning algorithm.
翻訳日:2021-10-04 14:20:22 公開日:2021-10-01
# メタラーニング閉形線形フィルタと平衡伝播によるフラットファイディングチャネルの予測

Predicting Flat-Fading Channels via Meta-Learned Closed-Form Linear Filters and Equilibrium Propagation ( http://arxiv.org/abs/2110.00414v1 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone(参考訳) フェーディングチャネルの予測は、多くのアプリケーションにおいて古典的な問題であり、例えば、セルネットワークに対する人工知能(AI)ベースのアクティブリソースアロケーションの実現などである。 フェーディングチャネルは、レイリーとリッチのフェーディングモデルのように定常複素ガウス過程に従っているという仮定の下で、最適予測器は線形であり、標準線形平均二乗誤差(LMMSE)推定を通じてドップラースペクトルから直接計算することができる。 しかし、実際にはドップラースペクトルは未知であり、予測器は推定チャネルの限られた時系列にしかアクセスできない。 本稿では,チャネルフェード予測のためのトレーニングデータの観点から,メタラーニングを活用することを提案する。 具体的には、まず、メタ訓練2次正規化による線形フィルタリングに基づくオフライン低複素性解を開発する。 次に、勾配降下と平衡伝播(EP)に基づくオンライン手法を提案する。 数値計算により,提案手法の利点を実証し,少数のトレーニングデータポイントを持つジェニー支援型LMMSEソリューションにアプローチする能力を示した。

Predicting fading channels is a classical problem with a vast array of applications, including as an enabler of artificial intelligence (AI)-based proactive resource allocation for cellular networks. Under the assumption that the fading channel follows a stationary complex Gaussian process, as for Rayleigh and Rician fading models, the optimal predictor is linear, and it can be directly computed from the Doppler spectrum via standard linear minimum mean squared error (LMMSE) estimation. However, in practice, the Doppler spectrum is unknown, and the predictor has only access to a limited time series of estimated channels. This paper proposes to leverage meta-learning in order to mitigate the requirements in terms of training data for channel fading prediction. Specifically, it first develops an offline low-complexity solution based on linear filtering via a meta-trained quadratic regularization. Then, an online method is proposed based on gradient descent and equilibrium propagation (EP). Numerical results demonstrate the advantages of the proposed approach, showing its capacity to approach the genie-aided LMMSE solution with a small number of training data points.
翻訳日:2021-10-04 14:20:01 公開日:2021-10-01
# ディープラーニングワークロード下でのNVIDIA GPUの並行処理機構のキャラクタリゼーション

Characterizing Concurrency Mechanisms for NVIDIA GPUs under Deep Learning Workloads ( http://arxiv.org/abs/2110.00459v1 )

ライセンス: Link先を確認
Guin Gilman and Robert J. Walls(参考訳) 本稿では、nvidiaの新しいampere gpuマイクロアーキテクチャで使用可能な並行処理機構の性能を、ディープラーニングトレーニングと推論ワークロード下で検証する。 従来,GPUをブラックボックスとして扱う研究とは対照的に,マイクロアーキテクチャレベルでのスケジューリングを検討する。 きめ細かいプリエンプション機構の欠如、堅牢なタスク優先順位付けオプション、競合を検知するスレッドブロック配置ポリシーは、nvidiaの並行処理メカニズムの有効性を制限している。 要約すると、ディープラーニングワークロードのシーケンシャルな性質とその変動するリソース要求とカーネルランタイムは、現在のnvidiaハードウェアで一貫して高い利用率と低い予測可能なターンアラウンドタイムを維持しながら、そのようなワークロードの実行を可能にします。

We investigate the performance of the concurrency mechanisms available on NVIDIA's new Ampere GPU microarchitecture under deep learning training and inference workloads. In contrast to previous studies that treat the GPU as a black box, we examine scheduling at the microarchitectural level. We find that the lack of fine-grained preemption mechanisms, robust task prioritization options, and contention-aware thread block placement policies limits the effectiveness of NVIDIA's concurrency mechanisms. In summary, the sequential nature of deep learning workloads and their fluctuating resource requirements and kernel runtimes make executing such workloads while maintaining consistently high utilization and low, predictable turnaround times difficult on current NVIDIA hardware.
翻訳日:2021-10-04 14:19:41 公開日:2021-10-01
# SECDA:エッジ推論のためのFPGAベースのDNN加速器の効率的なハードウェア/ソフトウェア共同設計

SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN Accelerators for Edge Inference ( http://arxiv.org/abs/2110.00478v1 )

ライセンス: Link先を確認
Jude Haris, Perry Gibson, Jos\'e Cano, Nicolas Bohm Agostini, David Kaeli(参考訳) エッジコンピューティングデバイスは本質的にリソースの厳しい制約に直面しており、特にDNN(Deep Neural Networks)を高いメモリと計算要求でデプロイする場合に顕著である。 FPGAはエッジデバイスで一般的に利用可能である。 これらの再構成可能な回路は汎用プロセッサよりも高いスループットと低消費電力を実現することができるため、DNN加速には特に適している。 しかし、FPGAベースのエッジデバイス用DNNアクセラレータを設計するための既存のソリューションは、FPGA合成パスの繰り返しコスト、シミュレートされた設計のハードウェア記述言語(HDL)の再実装、アクセラレータシステム統合など、高い開発オーバーヘッドを伴っている。 本稿では,FPGAを用いたエッジデバイス上でのDNN推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。 SECDAはコスト効率のよいSystemCシミュレーションとハードウェアの実行、設計空間探索の合理化と設計評価時間の短縮による開発プロセスを組み合わせる。 ケーススタディでは、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、SECDAを用いて、2つの異なるDNNアクセラレータ設計を効率的に開発する。 性能ボトルネックを特定し緩和しながら,システムのハードウェア/ソフトウェアスタックを迅速かつ反復的に探索する。 我々は4つの一般的なDNNモデルによる2つの加速器設計を評価し、CPUのみの推論よりもエネルギー消費を2.9$\times$で3.5$\times$までのモデルで平均的な性能向上を達成する。 私たちのコードはhttps://github.com/gicLAB/SECDAで利用可能です。

Edge computing devices inherently face tight resource constraints, which is especially apparent when deploying Deep Neural Networks (DNN) with high memory and compute demands. FPGAs are commonly available in edge devices. Since these reconfigurable circuits can achieve higher throughput and lower power consumption than general purpose processors, they are especially well-suited for DNN acceleration. However, existing solutions for designing FPGA-based DNN accelerators for edge devices come with high development overheads, given the cost of repeated FPGA synthesis passes, reimplementation in a Hardware Description Language (HDL) of the simulated design, and accelerator system integration. In this paper we propose SECDA, a new hardware/software co-design methodology to reduce design time of optimized DNN inference accelerators on edge devices with FPGAs. SECDA combines cost-effective SystemC simulation with hardware execution, streamlining design space exploration and the development process via reduced design evaluation time. As a case study, we use SECDA to efficiently develop two different DNN accelerator designs on a PYNQ-Z1 board, a platform that includes an edge FPGA. We quickly and iteratively explore the system's hardware/software stack, while identifying and mitigating performance bottlenecks. We evaluate the two accelerator designs with four common DNN models, achieving an average performance speedup across models of up to 3.5$\times$ with a 2.9$\times$ reduction in energy consumption over CPU-only inference. Our code is available at https://github.com/gicLAB/SECDA
翻訳日:2021-10-04 14:19:27 公開日:2021-10-01
# アンサンブルを用いたcovid-19クフ分類のためのマルチクリトリリア意思決定法

An Ensemble-based Multi-Criteria Decision Making Method for COVID-19 Cough Classification ( http://arxiv.org/abs/2110.00508v1 )

ライセンス: Link先を確認
Nihad Karim Chowdhury, Muhammad Ashad Kabir, Md. Muhtadir Rahman(参考訳) 本研究の目的は、新型コロナウイルス(COVID-19)の音から分類する最先端の機械学習技術の性能を分析し、さまざまなコークスデータセット間で一貫してよく機能するモデルを特定することである。 異なるパフォーマンス評価指標(精度、感度、特異性、AUC、精度など)は、最高のパフォーマンスモデルを選択するのを難しくする。 そこで,本稿では,covid-19 クラフ分類のための最高性能機械学習手法を選択するためのアンサンブル型マルチクリテリア意思決定手法(mcdm)を提案する。 提案手法の検証には,cambridge,coswara,virufy,nococodaの4つのcoughデータセットを用いた。 提案手法は,まずcovid-19または非covid-19に分類するために機械学習(ml)技術を適用する。 そこで我々は,最適なモデルを選択するために,アンサンブル技術(ソフトとハード)を組み合わせたマルチ基準決定法(MCDM)を検討する。 mcdmでは,評価基準重みの計算にエントロピーが用いられる一方で,ランキング目的には理想解(topsis)と類似性による順序選好の手法を用いる。 さらに,異なる推定条件下でのクロスバリデーションによる再帰的特徴除去による特徴量削減手法を適用した。 実験による評価の結果,提案手法は最先端モデルよりも優れていた。

The objectives of this research are analysing the performance of the state-of-the-art machine learning techniques for classifying COVID-19 from cough sound and identifying the model(s) that consistently perform well across different cough datasets. Different performance evaluation metrics (such as precision, sensitivity, specificity, AUC, accuracy, etc.) make it difficult to select the best performance model. To address this issue, in this paper, we propose an ensemble-based multi-criteria decision making (MCDM) method for selecting top performance machine learning technique(s) for COVID-19 cough classification. We use four cough datasets, namely Cambridge, Coswara, Virufy, and NoCoCoDa to verify the proposed method. At first, our proposed method uses the audio features of cough samples and then applies machine learning (ML) techniques to classify them as COVID-19 or non-COVID-19. Then, we consider a multi-criteria decision-making (MCDM) method that combines ensemble technologies (i.e., soft and hard) to select the best model. In MCDM, we use the technique for order preference by similarity to ideal solution (TOPSIS) for ranking purposes, while entropy is applied to calculate evaluation criteria weights. In addition, we apply the feature reduction process through recursive feature elimination with cross-validation under different estimators. The results of our empirical evaluations show that the proposed method outperforms the state-of-the-art models.
翻訳日:2021-10-04 14:18:57 公開日:2021-10-01
# (参考訳) 多言語ファクトリンク

Multilingual Fact Linking ( http://arxiv.org/abs/2109.14364v2 )

ライセンス: CC BY 4.0
Keshav Kolluru, Martin Rezk, Pat Verga, William W. Cohen and Partha Talukdar(参考訳) 知識集約型NLPタスクは、自然言語テキストと知識グラフ(KG)の事実をリンクする利点がある。 事実そのものは言語に依存しないが、KGの事実ラベル(すなわち、事実の言語固有の表現)はいくつかの言語にのみ存在する。 これにより、限られた言語のセット以外の言語の文にKG事実をリンクすることは困難になる。 この問題に対処するために,KGの事実ラベルが文の言語で利用できない場合でも,KGで表現された事実と対応する事実とをリンクさせることが目的であるMFL(Multilingual Fact Linking)の課題を紹介する。 この領域の研究を容易にするために、新しい評価データセットIndicLinkを提案する。 このデータセットには11,293件のウィキデータ事実と、英語と6つのインド語にまたがる6,429の文が含まれている。 本稿では,デュアルエンコーダに基づく検索と,有効なkg事実のみを出力するように制約されたseq2seqベースの生成モデルを組み合わせた検索+生成モデルrefcogを提案する。 ReFCoGはPrecision@1で10.7 ptsの標準Retrieval+Re-levelモデルを上回っている。 この利益にもかかわらず、このモデルは52.1の総合スコアを達成し、task.refcogコードとindiclinkデータはhttps://github.com/saikeshav/mflで利用可能である。

Knowledge-intensive NLP tasks can benefit from linking natural language text with facts from a Knowledge Graph (KG). Although facts themselves are language-agnostic, the fact labels (i.e., language-specific representation of the fact) in the KG are often present only in a few languages. This makes it challenging to link KG facts to sentences in languages other than the limited set of languages. To address this problem, we introduce the task of Multilingual Fact Linking (MFL) where the goal is to link fact expressed in a sentence to corresponding fact in the KG, even when the fact label in the KG is not available in the language of the sentence. To facilitate research in this area, we present a new evaluation dataset, IndicLink. This dataset contains 11,293 linked WikiData facts and 6,429 sentences spanning English and six Indian languages. We propose a Retrieval+Generation model, ReFCoG, that can scale to millions of KG facts by combining Dual Encoder based retrieval with a Seq2Seq based generation model which is constrained to output only valid KG facts. ReFCoG outperforms standard Retrieval+Re-ranking models by 10.7 pts in Precision@1. In spite of this gain, the model achieves an overall score of 52.1, showing ample scope for improvement in the task.ReFCoG code and IndicLink data are available at https://github.com/SaiKeshav/mfl
翻訳日:2021-10-04 12:30:47 公開日:2021-10-01
# (参考訳) 混乱行列とキャリブレーションによる人間の予測とモデル確率の組合せ

Combining Human Predictions with Model Probabilities via Confusion Matrices and Calibration ( http://arxiv.org/abs/2109.14591v2 )

ライセンス: CC BY 4.0
Gavin Kerrigan, Padhraic Smyth, Mark Steyvers(参考訳) 機械学習モデルの一般的なユースケースは、人間の意思決定者の能力を高めることだ。 人間やモデルが完全に正確でない分類タスクでは、高いパフォーマンスを得るための重要なステップは、相対的な強度を活用する方法で個々の予測を組み合わせることである。 本研究では,モデルの確率的出力と人間のクラスレベルの出力を組み合わせたアルゴリズムの開発を行う。 理論的には、組み合わせモデルの精度は、個々の人間とモデルの精度だけでなく、モデルの自信によっても駆動される。 CIFAR-10とImageNetのサブセットによる画像分類に関する実証的な結果は、そのようなモデルとモデルの組み合わせはモデルや人間単独よりも一貫して精度が高く、組み合わせ手法のパラメータは10個のラベル付きデータポイントで効果的に推定できることを示している。

An increasingly common use case for machine learning models is augmenting the abilities of human decision makers. For classification tasks where neither the human or model are perfectly accurate, a key step in obtaining high performance is combining their individual predictions in a manner that leverages their relative strengths. In this work, we develop a set of algorithms that combine the probabilistic output of a model with the class-level output of a human. We show theoretically that the accuracy of our combination model is driven not only by the individual human and model accuracies, but also by the model's confidence. Empirical results on image classification with CIFAR-10 and a subset of ImageNet demonstrate that such human-model combinations consistently have higher accuracies than the model or human alone, and that the parameters of the combination method can be estimated effectively with as few as ten labeled datapoints.
翻訳日:2021-10-04 12:15:28 公開日:2021-10-01
# (参考訳) Prose2Poem: 詩をペルシャ詩に翻訳するトランスフォーマーの祝福

Prose2Poem: The Blessing of Transformers in Translating Prose to Persian Poetry ( http://arxiv.org/abs/2109.14934v2 )

ライセンス: CC BY 4.0
Reza Khanmohammadi, Mitra Sadat Mirshafiee, Yazdan Rezaee Jouryabi, Seyed Abolghasem Mirroshandel(参考訳) ペルシャ詩は、その哲学、知恵、スピーチ、合理性を、そのカップルに基づいて一貫して表現し続けており、母国語と非母国語の両方において、それ自体が謎の言語である。 それにもかかわらず、ペルシアの散文と詩の明らかなギャップは2つの文学を中途半端に残している。 散文とそれに相当する詩の並列コーパスをキュレートし,超低リソース環境でトランスフォーマーベースの言語モデルを用いて散文を古代ペルシア詩に翻訳する,新しいニューラルマシン翻訳(nmt)手法を提案する。 具体的には,変換モデルをスクラッチからトレーニングし,最終的な翻訳を得るためにBERTの様々なバリエーションを事前訓練した。 詩的基準の下でのマスキング言語モデリングの課題に対処するために,我々は2つのモデルにヒューリスティックに加わり,自動評価と人間評価の観点で有効な詩を作成した。 最終結果は,新しいペルシャ詩の創造における文献専門家と非専門家のヒューリスティック支援アプローチの適性と創造性を示す。

Persian Poetry has consistently expressed its philosophy, wisdom, speech, and rationale on the basis of its couplets, making it an enigmatic language on its own to both native and non-native speakers. Nevertheless, the notice able gap between Persian prose and poem has left the two pieces of literature medium-less. Having curated a parallel corpus of prose and their equivalent poems, we introduce a novel Neural Machine Translation (NMT) approach to translate prose to ancient Persian poetry using transformer-based Language Models in an extremely low-resource setting. More specifically, we trained a Transformer model from scratch to obtain initial translations and pretrained different variations of BERT to obtain final translations. To address the challenge of using masked language modelling under poeticness criteria, we heuristically joined the two models and generated valid poems in terms of automatic and human assessments. Final results demonstrate the eligibility and creativity of our novel heuristically aided approach among Literature professionals and non-professionals in generating novel Persian poems.
翻訳日:2021-10-04 11:46:55 公開日:2021-10-01
# (参考訳) トランスフォーマーモデルからの双方向エンコーダ表現を用いたcovid-19偽ニュース検出

COVID-19 Fake News Detection Using Bidirectional Encoder Representations from Transformers Based Models ( http://arxiv.org/abs/2109.14816v2 )

ライセンス: CC BY 4.0
Yuxiang Wang, Yongheng Zhang, Xuebo Li, Xinyao Yu(参考訳) 現在、ソーシャルメディアの開発により、人々は最新のニュースに簡単にアクセスできるようになっている。 新型コロナウイルス(COVID-19)のパンデミックでは、ニュースにアクセスして対応する保護措置をとることが重要である。 しかし、偽ニュースは溢れており、特に世界的なパンデミックでは深刻な問題となっている。 誤解を招く偽ニュースは、個人と社会の観点で大きな損失をもたらす可能性がある。 新型コロナウイルスの偽ニュース検出は、NLP分野において新しく重要な課題となっている。 しかし、偽ニュースは常に正しい部分と間違った部分を含んでいる。 この事実は分類作業の難しさを増す。 本稿では,変換器(BERT)モデルから事前学習した双方向エンコーダ表現をベースモデルとして微調整する。 bilstm層とcnn層を、それぞれ凍結パラメータの有無にかかわらず、凍結パラメータを持つ微調整bertモデルの上に追加する。 モデル性能評価の結果、私たちの最良のモデル(凍結パラメータとbilstm層を備えたbert微調整モデル)が、新型コロナウイルスの偽ニュース検出タスクに対して最先端の結果を達成できることが示されました。 また,最良のモデルを用いてキーワード評価手法を検討し,キーワード除去後のモデル性能を評価する。

Nowadays, the development of social media allows people to access the latest news easily. During the COVID-19 pandemic, it is important for people to access the news so that they can take corresponding protective measures. However, the fake news is flooding and is a serious issue especially under the global pandemic. The misleading fake news can cause significant loss in terms of the individuals and the society. COVID-19 fake news detection has become a novel and important task in the NLP field. However, fake news always contain the correct portion and the incorrect portion. This fact increases the difficulty of the classification task. In this paper, we fine tune the pre-trained Bidirectional Encoder Representations from Transformers (BERT) model as our base model. We add BiLSTM layers and CNN layers on the top of the finetuned BERT model with frozen parameters or not frozen parameters methods respectively. The model performance evaluation results showcase that our best model (BERT finetuned model with frozen parameters plus BiLSTM layers) achieves state-of-the-art results towards COVID-19 fake news detection task. We also explore keywords evaluation methods using our best model and evaluate the model performance after removing keywords.
翻訳日:2021-10-04 11:30:40 公開日:2021-10-01
# fastcorrect 2: 自動音声認識のための複数候補の高速誤り訂正

FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition ( http://arxiv.org/abs/2109.14420v2 )

ライセンス: Link先を確認
Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Linquan Liu, Tao Qin, Xiang-Yang Li, Edward Lin, Tie-Yan Liu(参考訳) 誤り訂正は自動音声認識(ASR)において、生成された文を後処理するために広く用いられ、さらに単語誤り率(WER)を低減することができる。 複数の候補はビームサーチによってASRシステムによって生成されるが、現在の誤り訂正手法は一度に1つの文だけを訂正することができ、複数の候補の投票効果を利用して誤りトークンを検知し修正することができない。 本研究では,複数のASR候補を入力として取り込んだ誤り訂正モデルであるFastCorrect 2を提案する。 FastCorrect2は、複数のソース文を処理するエンコーダと、各ソーストークンの予測期間に基づいて調整されたソース文から並列にターゲット文を生成するデコーダとからなる、高速推論のための非自己回帰生成を採用する。 しかし、複数のソース文を扱う場合、いくつかの問題がある。 第一に、しばしば長さが異なるため、複数の元文からの投票効果を利用するのは非自明である。 そこで本研究では,複数文間のトークンアライメントの程度をトークンと発音の類似性の観点から最大化する新しいアライメントアルゴリズムを提案する。 第二に、デコーダは1つの調整されたソース文のみを入力とし、複数のソース文が存在する。 そこで我々は,デコーダの最適候補を検出する候補予測器を開発した。 我々の社内データセットとAISHELL-1の実験により、FastCorrect 2は、単一の候補を持つ前の修正モデルよりもWERをさらに3.2%と2.6%削減できることを示した。 FastCorrect 2は、カスケードされた再描画および修正パイプラインよりも優れたパフォーマンスを実現し、ASRの統一後処理モジュールとして機能する。

Error correction is widely used in automatic speech recognition (ASR) to post-process the generated sentence, and can further reduce the word error rate (WER). Although multiple candidates are generated by an ASR system through beam search, current error correction approaches can only correct one sentence at a time, failing to leverage the voting effect from multiple candidates to better detect and correct error tokens. In this work, we propose FastCorrect 2, an error correction model that takes multiple ASR candidates as input for better correction accuracy. FastCorrect 2 adopts non-autoregressive generation for fast inference, which consists of an encoder that processes multiple source sentences and a decoder that generates the target sentence in parallel from the adjusted source sentence, where the adjustment is based on the predicted duration of each source token. However, there are some issues when handling multiple source sentences. First, it is non-trivial to leverage the voting effect from multiple source sentences since they usually vary in length. Thus, we propose a novel alignment algorithm to maximize the degree of token alignment among multiple sentences in terms of token and pronunciation similarity. Second, the decoder can only take one adjusted source sentence as input, while there are multiple source sentences. Thus, we develop a candidate predictor to detect the most suitable candidate for the decoder. Experiments on our inhouse dataset and AISHELL-1 show that FastCorrect 2 can further reduce the WER over the previous correction model with single candidate by 3.2% and 2.6%, demonstrating the effectiveness of leveraging multiple candidates in ASR error correction. FastCorrect 2 achieves better performance than the cascaded re-scoring and correction pipeline and can serve as a unified post-processing module for ASR.
翻訳日:2021-10-04 11:24:25 公開日:2021-10-01
# 3D SimCLR と Monte Carlo Dropout を用いた3次元医用画像解析のための自己教師付き学習

Self-Supervised Learning for 3D Medical Image Analysis using 3D SimCLR and Monte Carlo Dropout ( http://arxiv.org/abs/2109.14288v2 )

ライセンス: Link先を確認
Yamen Ali, Aiham Taleb, Marina M. -C. H\"ohne and Christoph Lippert(参考訳) 自己教師付き学習手法は、ラベル付きデータの必要性を減らすために教師付き下流タスクに転送可能なラベル付きデータから意味のある表現を学ぶために使用できる。 本稿では,コントラスト型(SimCLR)法に基づく3次元自己監督手法を提案する。 さらに,推定フェーズ中にベイズニューラルネットワーク(モンテカルロドロップアウト)を使用することで,下流タスクの結果をさらに高めることができることを示す。 2つの医療画像分割タスクのモデルを紹介します。 i) 3次元mriによる脳腫瘍の分画 二 膵腫瘍の3次元CTからの剥離。 提案手法が下流データ効率と性能の両方において有効であることを示す。

Self-supervised learning methods can be used to learn meaningful representations from unlabeled data that can be transferred to supervised downstream tasks to reduce the need for labeled data. In this paper, we propose a 3D self-supervised method that is based on the contrastive (SimCLR) method. Additionally, we show that employing Bayesian neural networks (with Monte-Carlo Dropout) during the inference phase can further enhance the results on the downstream tasks. We showcase our models on two medical imaging segmentation tasks: i) Brain Tumor Segmentation from 3D MRI, ii) Pancreas Tumor Segmentation from 3D CT. Our experimental results demonstrate the benefits of our proposed methods in both downstream data-efficiency and performance.
翻訳日:2021-10-04 11:23:52 公開日:2021-10-01
# EDGAR-CORPUS:数十億ドルのトークンが世界初

EDGAR-CORPUS: Billions of Tokens Make The World Go Round ( http://arxiv.org/abs/2109.14394v2 )

ライセンス: Link先を確認
Lefteris Loukas, Manos Fergadiotis, Ion Androutsopoulos, Prodromos Malakasiotis(参考訳) EDGAR-CORPUSは,25年以上にわたる米国すべての上場企業からの年次報告をまとめた,新たなコーパスである。 我々の知る限り、EDGAR-CORPUSは、現在利用可能な最大の金融NLPコーパスである。 すべてのレポートはダウンロードされ、対応する項目(セクション)に分割され、クリーンで使いやすいJSON形式で提供される。 We use EDGAR-CORPUS to training and release EDGAR-W2V, which is WORD2VEC embeddeds for the financial domain。 これらの組込みを金融nlpタスクのバッテリに採用し,汎用グローブ組込みや既存のファイナンシャルワード組込みよりもその優位を示す。 我々はまた、将来の年次レポートのダウンロードと抽出を容易にするツールキットであるEDGAR-CRAWLERをオープンソース化した。

We release EDGAR-CORPUS, a novel corpus comprising annual reports from all the publicly traded companies in the US spanning a period of more than 25 years. To the best of our knowledge, EDGAR-CORPUS is the largest financial NLP corpus available to date. All the reports are downloaded, split into their corresponding items (sections), and provided in a clean, easy-to-use JSON format. We use EDGAR-CORPUS to train and release EDGAR-W2V, which are WORD2VEC embeddings for the financial domain. We employ these embeddings in a battery of financial NLP tasks and showcase their superiority over generic GloVe embeddings and other existing financial word embeddings. We also open-source EDGAR-CRAWLER, a toolkit that facilitates downloading and extracting future annual reports.
翻訳日:2021-10-04 11:23:40 公開日:2021-10-01
# スマートウォッチの生理的・活動的データを用いた外傷後ストレス障害のハイパーarousal event detection

Posttraumatic Stress Disorder Hyperarousal Event Detection Using Smartwatch Physiological and Activity Data ( http://arxiv.org/abs/2109.14743v2 )

ライセンス: Link先を確認
Mahnoosh Sadeghi, Anthony D McDonald, Farzan Sasangohar(参考訳) PTSD(英: Posttraumatic Stress Disorder)は、アメリカ合衆国の退役軍人の約4分の1が戦争地域から帰還する精神疾患である。 PTSDの治療は一般的に、内服療法と薬物の併用である。 しかし、患者は治療セッション以外では最も重篤なptsd症状をしばしば経験する。 モバイルヘルスアプリケーションは、このギャップに対処するかもしれないが、その効果は、継続的監視と時間的介入を可能にする検出能力の現在のギャップによって制限されている。 本稿の目的は,生理的および活動ベースの機械学習アルゴリズムを用いて,超覚醒事象を検出する新しい手法を開発することである。 数日間にわたりptsdと診断された米国退役軍人99名から市販の市販ウェアラブルデバイス向けに開発されたツールを用いて,心拍数や身体加速度などの生理的データと自発的な高覚醒イベントを収集した。 データはランダムフォレスト、サポートベクターマシン、ロジスティック回帰、XGBoostの4つの機械学習アルゴリズムの開発に使用された。 XGBoostモデルはPTSD症状の発症を83%以上の精度で検出し、AUCは0.70である。 SHAP (Post-hoc SHapley Additive exPlanations) 法では, アルゴリズム予測が平均心拍数, 最小心拍数, 平均体加速度と相関していた。 PTSD 症状の発症を検出することは,PTSD の遠隔・連続監視システムの開発の基盤となる可能性がある。 このようなシステムは、定期的な臨床試験以外のPTSD自己管理のためのジャスト・イン・タイムの介入において重要なギャップに対処する可能性がある。

Posttraumatic Stress Disorder (PTSD) is a psychiatric condition affecting nearly a quarter of the United States war veterans who return from war zones. Treatment for PTSD typically consists of a combination of in-session therapy and medication. However; patients often experience their most severe PTSD symptoms outside of therapy sessions. Mobile health applications may address this gap, but their effectiveness is limited by the current gap in continuous monitoring and detection capabilities enabling timely intervention. The goal of this article is to develop a novel method to detect hyperarousal events using physiological and activity-based machine learning algorithms. Physiological data including heart rate and body acceleration as well as self-reported hyperarousal events were collected using a tool developed for commercial off-the-shelf wearable devices from 99 United States veterans diagnosed with PTSD over several days. The data were used to develop four machine learning algorithms: Random Forest, Support Vector Machine, Logistic Regression and XGBoost. The XGBoost model had the best performance in detecting onset of PTSD symptoms with over 83% accuracy and an AUC of 0.70. Post-hoc SHapley Additive exPlanations (SHAP) additive explanation analysis showed that algorithm predictions were correlated with average heart rate, minimum heart rate and average body acceleration. Findings show promise in detecting onset of PTSD symptoms which could be the basis for developing remote and continuous monitoring systems for PTSD. Such systems may address a vital gap in just-in-time interventions for PTSD self-management outside of scheduled clinical appointments.
翻訳日:2021-10-04 11:23:26 公開日:2021-10-01
# 等値および最適輸送のための投影交互最大化の収束について

On the Convergence of Projected Alternating Maximization for Equitable and Optimal Transport ( http://arxiv.org/abs/2109.15030v2 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma and Lifeng Lai(参考訳) 本稿では、公平な分割問題や複数のエージェントによる最適輸送問題など多くの応用がある等式と最適輸送問題(eot)について述べる。 離散分布の場合、eot問題は線形プログラム(lp)として定式化することができる。 この LP は一般の LP ソルバに対して禁止的に大きいため、Scetbon \etal \cite{scetbon2021equitable} はエントロピー正規化を加えることで問題を摂動することを示唆する。 彼らは、エントロピー正規化 eot の双対を解くために、計画的交互最大化アルゴリズム (pam) を提案した。 本稿では,PAMの収束解析について述べる。 元の eot 問題の原始解を構築するための新しい丸め手順が提案されている。 また,PAMの性能を数値的に向上する外挿手法を取り入れたPAMの変種を提案する。 本論文の結果は,一般最適化問題に対するブロック座標(次)降下法に光を流すことができる。

This paper studies the equitable and optimal transport (EOT) problem, which has many applications such as fair division problems and optimal transport with multiple agents etc. In the discrete distributions case, the EOT problem can be formulated as a linear program (LP). Since this LP is prohibitively large for general LP solvers, Scetbon \etal \cite{scetbon2021equitable} suggests to perturb the problem by adding an entropy regularization. They proposed a projected alternating maximization algorithm (PAM) to solve the dual of the entropy regularized EOT. In this paper, we provide the first convergence analysis of PAM. A novel rounding procedure is proposed to help construct the primal solution for the original EOT problem. We also propose a variant of PAM by incorporating the extrapolation technique that can numerically improve the performance of PAM. Results in this paper may shed lights on block coordinate (gradient) descent methods for general optimization problems.
翻訳日:2021-10-04 11:23:01 公開日:2021-10-01
# 深層学習のための物理勾配

Physical Gradients for Deep Learning ( http://arxiv.org/abs/2109.15048v2 )

ライセンス: Link先を確認
Philipp Holl, Vladlen Koltun, Nils Thuerey(参考訳) パラメータ推定や最適制御といった逆問題を解くことは科学の重要な部分である。 多くの実験は繰り返しデータを収集し、機械学習アルゴリズムを用いて関連する逆問題に対する解を素早く推論する。 グラデーションの大きさや方向が強く変化するため、最先端のトレーニング技術は物理プロセスに関わる多くの問題に適していないことが判明した。 本稿では,高次最適化手法と機械学習手法を組み合わせた新しいハイブリッドトレーニング手法を提案する。 我々は、物理過程の勾配を、物理勾配と呼ばれる新しい構造に置き換える。 これにより、ソリューション空間に関する事前知識を勾配に組み込むことで、トレーニングにドメイン知識を導入することもできます。 本手法は,様々な物理系において有効であることを実証し,様々な最適化や学習問題に対して,物理的勾配が大幅な改善をもたらすことを示した。

Solving inverse problems, such as parameter estimation and optimal control, is a vital part of science. Many experiments repeatedly collect data and employ machine learning algorithms to quickly infer solutions to the associated inverse problems. We find that state-of-the-art training techniques are not well-suited to many problems that involve physical processes since the magnitude and direction of the gradients can vary strongly. We propose a novel hybrid training approach that combines higher-order optimization methods with machine learning techniques. We replace the gradient of the physical process by a new construct, referred to as the physical gradient. This also allows us to introduce domain knowledge into training by incorporating priors about the solution space into the gradients. We demonstrate the capabilities of our method on a variety of canonical physical systems, showing that physical gradients yield significant improvements on a wide range of optimization and learning problems.
翻訳日:2021-10-04 11:22:44 公開日:2021-10-01