このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20201002)

# COVID-19初期のツイートをリツイートするテーマ分析:合意、情報、不満、ロックダウンライフ

A thematic analysis of highly retweeted early COVID -19 tweets: Consensus, information, dissent, and lockdown life ( http://arxiv.org/abs/2004.02793v3 )

ライセンス: Link先を確認
Mike Thelwall, Saheeda Thelwall(参考訳) 目的: 新型コロナウイルスとソーシャルディスタンシングに対する公衆の態度は、その拡散を減らすために重要である。 したがって、ソーシャルメディアを含むあらゆる主要な形で、公共の反応や情報の拡散を理解することが重要である。 この記事では、COVID-19に対する公衆の反応の初期段階でTwitterに反映された重要な問題を調査する。 デザイン・方法論・アプリ:2020年3月10日から29日にかけて、covid-19に関する最もリツイートされた英語ツイートのテーマ分析。 発見: 87の予選ツイートで特定された1400万リツイートのテーマは、ロックダウンライフ、社会的制限に対する態度、政治、安全メッセージ、COVID-19の患者、キーワーカーのサポート、仕事、そしてCOVID-19の事実/ニュースだ。 研究の制限/影響:Twitterは、主に非公式のツイートを通じて多くのポジティブな役割を果たした。 ユーザーはソーシャルディスタンシング情報を共有し、ソーシャルディスタンシングのサポート構築を支援し、政府の対応を批判し、キーワーカーへのサポートを表明し、社会的孤立に対処するのを助けた。 ソーシャルディスタンシングをサポートしていないいくつかの人気ツイートは、政府のメッセージが時々失敗したことを示している。 実践的意味: 将来の公衆衛生キャンペーンは、キャンペーン目標を支援するために草の根を社会ウェブ活動に向けることを検討するかもしれない。 方法論レベルでは、retweetの分析は政治を強調し、実践的な実装問題を無視する。 Originality/value: 一般的なCOVID-19関連リツイートの質的分析としてはこれが初めてである。

Purpose: Public attitudes towards COVID-19 and social distancing are critical in reducing its spread. It is therefore important to understand public reactions and information dissemination in all major forms, including on social media. This article investigates important issues reflected on Twitter in the early stages of the public reaction to COVID-19. Design/methodology/approach: A thematic analysis of the most retweeted English-language tweets mentioning COVID-19 during March 10-29, 2020. Findings: The main themes identified for the 87 qualifying tweets accounting for 14 million retweets were: lockdown life; attitude towards social restrictions; politics; safety messages; people with COVID-19; support for key workers; work; and COVID-19 facts/news. Research limitations/implications: Twitter played many positive roles, mainly through unofficial tweets. Users shared social distancing information, helped build support for social distancing, criticised government responses, expressed support for key workers, and helped each other cope with social isolation. A few popular tweets not supporting social distancing show that government messages sometimes failed. Practical implications: Public health campaigns in future may consider encouraging grass roots social web activity to support campaign goals. At a methodological level, analysing retweet counts emphasised politics and ignored practical implementation issues. Originality/value: This is the first qualitative analysis of general COVID-19-related retweeting.
翻訳日:2023-05-26 06:26:27 公開日:2020-10-02
# フェルミオンポアソン型gksl方程式のモーメントの厳密なダイナミクスと相関関数

Exact dynamics of moments and correlation functions for fermionic Poisson-type GKSL equations ( http://arxiv.org/abs/2004.12598v2 )

ライセンス: Link先を確認
Iu. A. Nosal, A. E. Teretenkov(参考訳) 密度行列に対するポアソン型ゴリーニ・コサコフスキー・スダルシャン・リンドブラッド方程式を考える。 ポアソンジャンプは、フェルミオン生成および消滅作用素において二次的な生成子を持つユニタリ作用素であると仮定される。 密度行列モーメントとマルコフ多時間順序相関関数の明示的なダイナミクスを求める。

Gorini-Kossakowski-Sudarshan-Lindblad equation of Poisson-type for the density matrix is considered. The Poisson jumps are assumed to be unitary operators with generators, which are quadratic in fermionic creation and annihilation operators. The explicit dynamics of the density matrix moments and Markovian multi-time ordered correlation functions is obtained.
翻訳日:2023-05-22 00:28:46 公開日:2020-10-02
# d$レベル粒子のディジタル量子シミュレーションにおける接続依存的資源要求について

On connectivity-dependent resource requirements for digital quantum simulation of $d$-level particles ( http://arxiv.org/abs/2005.13070v3 )

ライセンス: Link先を確認
Nicolas P. D. Sawaya, Gian Giacomo Guerreschi, Adam Holmes(参考訳) 量子計算の主な目的は、量子物理学を効率的にシミュレートすることである。 科学的、技術的に重要な量子ハミルトニアンはスピン=$、振動、フォトニック、その他のボゾン自由度を持つもの、すなわち$d$レベル粒子(量子)によって構成または近似された問題を含む。 近年、これらのシステムを量子ビットの集合に符号化する手法がいくつか導入され、各エンコーディングの効率性は量子ビットとゲート数で研究されている。 ここでは、ハードウェア接続の影響を含め、以前の結果に基づいて構築する。 一般に使われている量子演算子をトロッタライズするのに必要なSWAPゲートの数を調べるために、解析的引数と複数のステージでスケジュールを最適化する自動ツールの両方を用いる。 我々は、線形配列、ラグ配列、正方形格子の3つの連結性を持つユニタリ(またはワンホット)、グレイ、標準バイナリ、ブロックユニタリ符号化について研究する。 その他の傾向の中で,ラダーアレイは線形配列に対してかなりの効率性をもたらすが,ラダーアレイ上での正方形の利点は明らかになっていない。 これらの結果は、ハードウェアの共同設計や、与えられた短期量子ハードウェアの効率的なquditエンコーディングに応用できる。 さらに、この研究は行列の指数がサブルーチンである他の量子アルゴリズムのスケジューリングと関係があるかもしれない。

A primary objective of quantum computation is to efficiently simulate quantum physics. Scientifically and technologically important quantum Hamiltonians include those with spin-$s$, vibrational, photonic, and other bosonic degrees of freedom, i.e. problems composed of or approximated by $d$-level particles (qudits). Recently, several methods for encoding these systems into a set of qubits have been introduced, where each encoding's efficiency was studied in terms of qubit and gate counts. Here, we build on previous results by including effects of hardware connectivity. To study the number of SWAP gates required to Trotterize commonly used quantum operators, we use both analytical arguments and automatic tools that optimize the schedule in multiple stages. We study the unary (or one-hot), Gray, standard binary, and block unary encodings, with three connectivities: linear array, ladder array, and square grid. Among other trends, we find that while the ladder array leads to substantial efficiencies over the linear array, the advantage of the square over the ladder array is less pronounced. These results are applicable in hardware co-design and in choosing efficient qudit encodings for a given set of near-term quantum hardware. Additionally, this work may be relevant to the scheduling of other quantum algorithms for which matrix exponentiation is a subroutine.
翻訳日:2023-05-18 07:13:45 公開日:2020-10-02
# QAOA用グラバーミキサー:ミキサ設計から状態形成への複雑さのシフト

Grover Mixers for QAOA: Shifting Complexity from Mixer Design to State Preparation ( http://arxiv.org/abs/2006.00354v2 )

ライセンス: Link先を確認
Andreas B\"artschi and Stephan Eidenbenz(参考訳) 我々は、グローバー様選択位相シフト混合演算子を用いた量子交流作用素 ansatz (qaoa) の変種 gm-qaoa を提案する。 GM-QAOAは、全ての実現可能な解を効率的に重ね合わせることができるNP最適化問題に取り組み、可能変数の割り当てが実現可能な解ではないような制約最適化問題に対して特にうまく機能するように設計されている。 GM-QAOAには以下の機能がある。 (i)その作用素は標準ゲート集合を用いて正確に実装できるため、ハミルトニアンシミュレーション誤差(ロータライズ誤差など)に影響を受けない。 (ii)同じ目的値の解は常に同じ振幅でサンプリングされる。 いくつかの最適化問題クラスにおけるGM-QAOAの可能性について説明する: トラベリングセールスパーソン問題のような置換に基づく最適化問題に対して、$O(n^2)$ qubitsで定義された$n$数値の可能な全ての置換を重畳する効率的なアルゴリズムを提案する; ハード制約の$k$-Vertex-Cover問題に対して、 GM-QAOAが既存のQAOAアプローチより優れていることを示す。

We propose GM-QAOA, a variation of the Quantum Alternating Operator Ansatz (QAOA) that uses Grover-like selective phase shift mixing operators. GM-QAOA works on any NP optimization problem for which it is possible to efficiently prepare an equal superposition of all feasible solutions; it is designed to perform particularly well for constraint optimization problems, where not all possible variable assignments are feasible solutions. GM-QAOA has the following features: (i) It is not susceptible to Hamiltonian Simulation error (such as Trotterization errors) as its operators can be implemented exactly using standard gate sets and (ii) Solutions with the same objective value are always sampled with the same amplitude. We illustrate the potential of GM-QAOA on several optimization problem classes: for permutation-based optimization problems such as the Traveling Salesperson Problem, we present an efficient algorithm to prepare a superposition of all possible permutations of $n$ numbers, defined on $O(n^2)$ qubits; for the hard constraint $k$-Vertex-Cover problem, and for an application to Discrete Portfolio Rebalancing, we show that GM-QAOA outperforms existing QAOA approaches.
翻訳日:2023-05-17 22:38:21 公開日:2020-10-02
# 浮揚ナノ球と光の最適非古典的相関

Optimal non-classical correlations of light with a levitated nano-sphere ( http://arxiv.org/abs/2006.15050v2 )

ライセンス: Link先を確認
Alexander Pitchford, Andrey A. Rakhubovsky, Rick Mukherjee, Darren W. Moore, Fr\'ed\'eric Sauvage, Daniel Burgarth, Radim Filip, and Florian Mintert(参考訳) 非古典的相関は、量子技術における多くの応用にリソースを提供し、システムが実際に量子構造で動作しているという強い証拠を提供する。 光学系は、力学と移動光のモードの間の量子絡み合いを生成するように配置することができる。 本稿では, 制御パラメータにベイズ最適化を適用することにより, 解析手法によって達成できることを超えて, このようなシステムにおける量子相関生成の自動最適化を提案する。 2モード光機械スクイージング実験はシステムの詳細な理論モデルを用いてシミュレーションされ、ベイズ最適化プロセスは、モデルの内部動作とは独立に、非古典的2モードスクイージングとその検出を最大化するために制御可能なパラメータを変更する。 ベイズ最適化はシミュレーションや実験をブラックボックスとして扱う。 これは \emph{theory-blind} 最適化と呼ばれ、最適化プロセスはシミュレーションや実際の実験的なセットアップを意識しないように設計されている。 実験的に関係した熱状態において、幅広い制御パラメータの変動と最適化の能力は、2モードのスクイージングの大きな値にアクセスでき、それ以外は発見が困難で難易度が高い。 特に、共振側帯域周辺の駆動周波数の変調は、制御パラメータのセットに追加されると、残りのパラメータを最適化することで得られる最大値よりも強い非古典的相関が生じる。 また, 最適化手法を用いることで, スクイーズを行う熱状態に上限が与えられることも確認できた。 これは、非古典的相関を高い量子協力性領域を超えて生成できる実験的なセットアップの範囲を広げる。

Nonclassical correlations provide a resource for many applications in quantum technology as well as providing strong evidence that a system is indeed operating in the quantum regime. Optomechanical systems can be arranged to generate quantum entanglement between the mechanics and a mode of travelling light. Here we propose automated optimisation of the production of quantum correlations in such a system, beyond what can be achieved through analytical methods, by applying Bayesian optimisation to the control parameters. Two-mode optomechanical squeezing experiment is simulated using a detailed theoretical model of the system, while the Bayesian optimisation process modifies the controllable parameters in order to maximise the non-classical two-mode squeezing and its detection, independently of the inner workings of the model. The Bayesian optimisation treats the simulations or the experiments as a black box. This we refer to as \emph{theory-blind} optimisation, and the optimisation process is designed to be unaware of whether it is working with a simulation or the actual experimental setup. We find that in the experimentally relevant thermal regimes, the ability to vary and optimise a broad array of control parameters provides access to large values of two-mode squeezing that would otherwise be difficult or intractable to discover. In particular we observe that modulation of the driving frequency around the resonant sideband, when added to the set of control parameters, produces strong nonclassical correlations greater on average than the maximum achieved by optimising over the remaining parameters. We also find that using our optimisation approach raises the upper limit to the thermal regime in which squeezing can be achieved. This extends the range of experimental setups in which non-classical correlations could be generated beyond the region of high quantum cooperativity.
翻訳日:2023-05-12 11:42:40 公開日:2020-10-02
# 微分エントロピーの第一法則とホログラフィック複雑性

The first law of differential entropy and holographic complexity ( http://arxiv.org/abs/2008.12673v2 )

ライセンス: Link先を確認
Debajyoti Sarkar and Manus Visser(参考訳) 三次元AdS時空における球面因果ダイヤモンドの第1法則のCFT双対を構成する。 AdS$_3$の球対称因果ダイヤモンド(英: spherally symmetric causal diamond)は、外生曲率が消える空間円盤の依存性の領域である。 バルク第一法則(英: bulk first law)とは、円盤の境界の面積、円盤の空間体積、宇宙定数、物質ハミルトニアンの変化に関する法則である。 本稿では,純粋広告から円錐欠陥時空への一階の計量変化を専門とし,座標に基づくアプローチによりバルク第一法則を導出する。 AdS/CFT辞書は、ディスクの境界領域を CFT$_2$ の微分エントロピーに接続し、 'complexity=volume' 予想を仮定すると、ディスクの体積はカットオフ CFT の複雑さと双対であると考えられる。 CFT側では、真空状態に対する微分エントロピーとホログラフィックの複雑さと、運動空間形式を用いて円錐AdSに双対する励起状態を明示的に計算する。 その結果、バルク第一法則の境界双対は、微分エントロピーと複雑性の1次変化と、バルク内の物質ハミルトン変分に対応する励起状態のスケーリング次元の変化に関係している。 我々はまた、境界第一法則における中心電荷と関連する化学ポテンシャルの変動も含む。 最後に、AdS の Wheeler-deWitt パッチの第一法則の境界双対についてコメントし、より高次元への CFT 第一法則の拡張を提案する。

We construct the CFT dual of the first law of spherical causal diamonds in three-dimensional AdS spacetime. A spherically symmetric causal diamond in AdS$_3$ is the domain of dependence of a spatial circular disk with vanishing extrinsic curvature. The bulk first law relates the variations of the area of the boundary of the disk, the spatial volume of the disk, the cosmological constant and the matter Hamiltonian. In this paper we specialize to first-order metric variations from pure AdS to the conical defect spacetime, and the bulk first law is derived following a coordinate based approach. The AdS/CFT dictionary connects the area of the boundary of the disk to the differential entropy in CFT$_2$, and assuming the `complexity=volume' conjecture, the volume of the disk is considered to be dual to the complexity of a cutoff CFT. On the CFT side we explicitly compute the differential entropy and holographic complexity for the vacuum state and the excited state dual to conical AdS using the kinematic space formalism. As a result, the boundary dual of the bulk first law relates the first-order variations of differential entropy and complexity to the variation of the scaling dimension of the excited state, which corresponds to the matter Hamiltonian variation in the bulk. We also include the variation of the central charge with associated chemical potential in the boundary first law. Finally, we comment on the boundary dual of the first law for the Wheeler-deWitt patch of AdS, and we propose an extension of our CFT first law to higher dimensions.
翻訳日:2023-05-04 11:41:16 公開日:2020-10-02
# キャビティ光学系における周波数分解光子相関

Frequency-resolved photon correlations in cavity optomechanics ( http://arxiv.org/abs/2009.06216v2 )

ライセンス: Link先を確認
Miko{\l}aj K. Schmidt, Ruben Esteban, Geza Giedke, Javier Aizpurua, Alejandro Gonz\'alez-Tudela(参考訳) 周波数分解光子相関は、スペクトルや標準(カラーブレンド)光子相関のような標準観測値に隠された非線形性を明らかにするのに有用な資源であることが証明されている。 本稿では、光が共振器のメカニカルモードの量子化運動と非線形結合されているが、量子非線形応答が一般的に証明が難しい光機械系から放出される光子の周波数分解相関を分析する。 本稿では,周波数分解相関の豊かな展望を提示し,時間遅延相関がシステムのダイナミクスに関する情報を明らかにする方法について論じる。 また, 単一光子結合強度, フィルタリング線幅, 環境温度騒音などの関連パラメータに対する相関の依存性についても検討した。 この豊富な理解は、光学系における非線形現象を探索するための新しい実験をトリガーし、ジェネリック非線形システムのダイナミクスに関する洞察を与える。

Frequency-resolved photon correlations have proven to be a useful resource to unveil nonlinearities hidden in standard observables such as the spectrum or the standard (color-blind) photon correlations. In this manuscript, we analyze the frequency-resolved correlations of the photons being emitted from an optomechanical system where light is nonlinearly coupled to the quantized motion of a mechanical mode of a resonator, but where the quantum nonlinear response is typically hard to evidence. We present and unravel a rich landscape of frequency-resolved correlations, and discuss how the time-delayed correlations can reveal information about the dynamics of the system. We also study the dependence of correlations on relevant parameters such as the single-photon coupling strength, the filtering linewidth, or the thermal noise in the environment. This enriched understanding of the system can trigger new experiments to probe nonlinear phenomena in optomechanics, and provide insights into dynamics of generic nonlinear systems.
翻訳日:2023-05-02 06:44:37 公開日:2020-10-02
# マイクロマグネット集積量子ドットアレイにおける一重項量子ビットの2軸制御

Three individual two-axis control of singlet-triplet qubits in a micromagnet integrated quantum dot array ( http://arxiv.org/abs/2009.13182v2 )

ライセンス: Link先を確認
Wonjin Jang, Min-Kyun Cho, Jehyun Kim, Hwanchul Chung, Vladimir Umansky, and Dohun Kim(参考訳) GaAsゲート定義セクタプル量子ドットアレイにおける2つの電子スピン量子ビットの個々の閉じ込めと2軸量子ビット演算をマイクロマグネットで報告する。 マルチキュービット演算に向けた第1ステップとして、全ての二重点サイトにおいてLarmorとRamseyの弱振動を示す3つのシングルトリップキュービットのコヒーレントな操作を示す。 現場依存の磁場勾配とrms電気・磁気ノイズを正確に測定し、複数の量子ドットアレイで実用化するための単純な矩形マイクロマグネットの有効性について議論する。 また,拡張線形アレイにおける同時マルチキュービット演算を実現するための現在の制限と可能な戦略についても論じる。

We report individual confinement and two-axis qubit operations of two electron spin qubits in GaAs gate-defined sextuple quantum dot array with integrated micro-magnet. As a first step toward multiple qubit operations, we demonstrate coherent manipulations of three singlet-triplet qubits showing underdamped Larmor and Ramsey oscillations in all double dot sites. We provide an accurate measure of site site-dependent field gradients and rms electric and magnetic noise, and we discuss the adequacy of simple rectangular micro-magnet for practical use in multiple quantum dot arrays. We also discuss current limitations and possible strategies for realizing simultaneous multi multi-qubit operations in extended linear arrays.
翻訳日:2023-04-30 18:48:44 公開日:2020-10-02
# オフシェル量子ゆらぎに対する別の反応:カシミールパズルの解法への一歩前進

An alternative response to the off-shell quantum fluctuations: A step forward in resolution of the Casimir puzzle ( http://arxiv.org/abs/2010.00998v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya and V. M. Mostepanenko(参考訳) 空間的非局所応答関数は、電磁場に対する局所応答と質量殻上のゆらぎにほぼ一致するが、オフシェル変動場には大きな違いがある。 提案する応答関数を用いた基本リフシッツ理論は,自由電子の散逸を無視することなくカシミール力の測定データと一致していることが示されている。 非局所的および一般に用いられている局所応答を用いて計算したオンシェル電磁波の反射率がわずかに異なることを示す。 ゼロ周波数で1次および2次極を持つ非局所応答関数に対するクラマース・クローニッヒ関係が導出され、すなわち、提案された応答は因果性の原理を満たす。 これらの結果をカシミールパズルの解法に適用することは、リフシッツ理論が捨てられた散逸のみと実験的に一致しているという事実にある。

The spatially nonlocal response functions are proposed which nearly coincide with the commonly used local response for electromagnetic fields and fluctuations on the mass shell, but differ significantly for the off-shell fluctuating field. It is shown that the fundamental Lifshitz theory using the suggested response functions comes to an agreement with the measurement data for the Casimir force without neglecting the dissipation of free electrons. We demonstrate that reflectances of the on-shell electromagnetic waves calculated using the nonlocal and commonly employed local responses differ only slightly. The Kramers-Kronig relations for nonlocal response functions possessing the first- and second-order poles at zero frequency are derived, i.e., the proposed response satisfies the principle of causality. An application of these results to resolution of the Casimir puzzle, which lies in the fact that the Lifshitz theory is experimentally consistent only with discarded dissipation, is discussed.
翻訳日:2023-04-30 04:10:54 公開日:2020-10-02
# 任意波形パルスを用いた窒素空白中心の最適偏光

Optimal optical polarization of nitrogen-vacancy center with arbitrary waveform pulse ( http://arxiv.org/abs/2010.00954v1 )

ライセンス: Link先を確認
Zhang Jixing, Liu Tianzheng, Xu Lixia, Bian Guodong, Fan Pengcheng, Li Mingxin, Zhang Ning and Yuan Heng(参考訳) 本研究では,窒素空孔(nv)中心電子スピンのパルス光分極法を提案する。 パルススピン偏光の影響を評価するために,偏光性と偏光時間に基づく偏光評価指標を定式化する。 主方程式モデルを用いて、光励起下でのスピン偏光ダイナミクスを理論的に計算し、従来手法の最適偏光条件を求める。 主方程式の光ポンピング速度を一定値から時間変数に変化させることにより, パルス光偏光法を提案し, 同時に高偏光性を実現し, 短偏光時間を必要とする変分法により, 提案手法の最適波形を示す。 これにより、偏光評価指数が10%程度向上する。 さらに、任意の波形発生器に基づくパルスレーザー実験システムにより、提案手法を検証した。 本報告では,NV中心型量子センシングの適用範囲を拡大する。

The current work proposes a method for pulsed-light polarization of nitrogen-vacancy (NV) center electron spin. To evaluate the influence of pulsed spin polarization, we establish a polarization evaluation index based on polarizability and polarization time. Master equation model are utilized to theoretically calculate the spin polarization dynamics under light excitation and the optimal polarization conditions for the conventional methods are obtained. A novel pulsed-light polarization method is proposed by changing the optical pumping rate in the master equation from a fixed value to a time variable and an optimal waveform for proposed method is demonstrated through the variational method, which can simultaneously achieve high polarizability and requires a short polarization time. Hence, the polarization evaluation index is improved by ~10%. Moreover, the proposed method is verified by a pulsed-laser experimental system based on an arbitrary waveform generator. The current report shall expand the application horizon of NV center based quantum sensing.
翻訳日:2023-04-30 04:10:39 公開日:2020-10-02
# 量子確率級数展開法

Quantum stochastic series expansion methods ( http://arxiv.org/abs/2010.00949v1 )

ライセンス: Link先を確認
Kok Chuan Tan, Dhiman Bowmick, and Pinaki Sengupta(参考訳) 確率級数展開法(SSE)モンテカルロ法(英語版)の量子的実装を提案し、量子SSEがSSEの古典的実装に対して大きな利点をもたらすことを示した。 特に、古典的SSEが符号問題に遭遇する問題では、モンテカルロ反復の実装コストは量子的SSEのシステムサイズと線形にしかスケールしないが、古典的SSEのシステムサイズと指数関数的にスケールできる。 古典的SSEを効率的に実装できる場合、量子SSEはより一般的な観測可能量を測定することができるという利点がある。

A quantum implementation of the Stochastic Series Expansion (SSE) Monte Carlo method is proposed, and it is shown that quantum SSE offers significant advantages over classical implementations of SSE. In particular, for problems where classical SSE encounters the sign problem, the cost of implementing a Monte Carlo iteration scales only linearly with system size in quantum SSE, while it may scale exponentially with system size in classical SSE. In cases where classical SSE can be efficiently implemented, quantum SSE still offers an advantage by allowing for more general observables to be measured.
翻訳日:2023-04-30 04:10:24 公開日:2020-10-02
# 通勤発電機を持つ2パラメータユニタリモデルの誤差トレードオフ関係

Error trade-off relations for two-parameter unitary model with commuting generators ( http://arxiv.org/abs/2010.00789v1 )

ライセンス: Link先を確認
Shin Funada, Jun Suzuki(参考訳) 平均二乗誤差行列の対角要素間のトレードオフ関係が、相互に通勤する発電機を持つ2パラメータユニタリモデルに対して存在するかを検討する。 有限次元系のモデルに存在する誤差トレードオフ関係は、スプレート空間に有限体積が存在するという意味での一般的な現象であることを示す。 本研究では, qutrit システムを分析し, 相互に交わる sld と rld cramer-rao 境界によって与えられる誤差トレードオフ関係が存在することを示す。 まず、非自明なトレードオフ関係を示す参照状態の例を数値的に解析し、その固有値がトレードオフ関係を示すために一定の範囲にある必要があることを求める。 別の例では、参照状態の1パラメータファミリーにおいて、非自明な関係は常に存在し、トレードオフ関係が存在する範囲は可能な範囲の約半分であることを示す。

We investigate whether a trade-off relation between the diagonal elements of the mean square error matrix exists for the two-parameter unitary models with mutually commuting generators. We show that the error trade-off relation which exists in our models of a finite dimension system is a generic phenomenon in the sense that it occurs with a finite volume in the spate space. We analyze a qutrit system to show that there can be an error trade-off relation given by the SLD and RLD Cramer-Rao bounds that intersect each other. First, we analyze an example of the reference state showing the non-trivial trade-off relation numerically, and find that its eigenvalues must be in a certain range to exhibit the trade-off relation. For another example, one-parameter family of reference states, we analytically show that the non-trivial relation always exists and that the range where the trade-off relation exists is up to about a half of the possible range.
翻訳日:2023-04-30 04:09:23 公開日:2020-10-02
# 最大長さの変形空間の熱統計

Thermostatistics in deformed space with maximal length ( http://arxiv.org/abs/2010.02203v1 )

ライセンス: Link先を確認
Salaheddine Bensalem and Djamil Bouaziz(参考訳) Fityo (Fityo, 2008) によって開発された変形ハイゼンベルク代数を用いた標準分割関数の計算法は、Perivolaropoulos (Perivolaropoulos, 2017) により最近1Dで提案された最大長を含む修正可換関係に適応する。 まず、1次元最大長変形代数の形式は任意の次元に拡張される。 そこで, 適応半古典的手法を用いて, 理想気体の熱統計学と高調波発振器(HOs)システムについて検討した。 理想気体については、1D(Bensalem and Bouaziz, 2019)で最近得られたガスを一般化し、半古典的アプローチと量子的アプローチの完全な一致を示す。 特に、理想気体のより強固な実様状態方程式は3dで確立されており、上記の論文で提示した形式式と一致する。 いくつかの実験データを解析することにより、最大長は研究中のシステムと関連するマクロスケールと見なすことができると論じる。 最後に、理想気体と比較したhos系の熱統計学的性質から、最大長さの影響は研究された系に依存することが明らかとなる。 一方、HOsのいくつかの熱力学関数に対する最大長効果は、以前に文献で研究された最小長の値と類似していることが観察された。

The method for calculating the canonical partition function with deformed Heisenberg algebra, developed by Fityo (Fityo, 2008), is adapted to the modified commutation relations including a maximum length, proposed recently in 1D by Perivolaropoulos (Perivolaropoulos, 2017). Firstly, the formalism of 1D maximum length deformed algebra is extended to arbitrary dimensions. Then, by employing the adapted semiclassical approach, the thermostatistics of an ideal gas and a system of harmonic oscillators (HOs) is investigated. For the ideal gas, the results generalize those obtained recently by us in 1D (Bensalem and Bouaziz, 2019), and show a complete agreement between the semiclassical and quantum approaches. In particular, a stiffer real-like equation of state for the ideal gas is established in 3D; it is consistent with the formal one, which we presented in the aforementioned paper. By analyzing some experimental data, we argue that the maximal length might be viewed as a macroscopic scale associated with the system under study. Finally, the thermostatistics of a system of HOs compared to that of an ideal gas reveals that the effects of the maximal length depend on the studied system. On the other hand, it is observed that the maximal length effect on some thermodynamic functions of the HOs is analogous to that of the minimal length, studied previously in the literature.
翻訳日:2023-04-30 04:02:55 公開日:2020-10-02
# 二部量子系の計算可能な操舵基準

Computable steering criterion for bipartite quantum systems ( http://arxiv.org/abs/2010.01902v1 )

ライセンス: Link先を確認
Guo-Zhu Pan, Jun-Long Zhao, Zhi Lin, Ming Yang, Gang Zhang, and Zhuo-Liang Cao(参考訳) 量子ステアリング(quantum steering)は、ある観測者が非局所的に他の観測者の状態を局所的測定によって影響する能力を記述するもので、これは新しい形の量子非局所相関を表し、量子情報と量子通信に潜在的な応用がある。 本稿では,任意の次元の2部量子系に適用可能な計算可能なステアリング基準を提案する。 この基準は、測定設定を構築することなく、所定の密度行列から直接、幅広い制御可能な状態を検証するために使用できる。 既存のステアリング基準と比較すると、計算可能であり、実験で検証可能であり、全てのステアリング可能な量子状態が絡み合っているため、絡み合の検証にも使用できる。

Quantum steering describes the ability of one observer to nonlocally affect the other observer's state through local measurements, which represents a new form of quantum nonlocal correlation and has potential applications in quantum information and quantum communication. In this paper, we propose a computable steering criterion that is applicable to bipartite quantum systems of arbitrary dimensions. The criterion can be used to verify a wide range of steerable states directly from a given density matrix without constructing measurement settings. Compared with the existing steering criteria, it is readily computable and testable in experiment, which can also be used to verify entanglement as all steerable quantum states are entangled.
翻訳日:2023-04-30 04:02:32 公開日:2020-10-02
# フォトニック量子ビットの完全熱化

Full Thermalization of a Photonic Qubit ( http://arxiv.org/abs/2010.01203v1 )

ライセンス: Link先を確認
A. G. de Oliveira, R. M. Gomes, V. C. C. Brasil, N. Rubiano da Silva, L. C. C\'eleri, P. H. Souto Ribeiro(参考訳) 一般化振幅減衰(GAD)量子チャネルは、任意の温度と任意の相互作用時間でキュービットと環境の間の相互作用を実装している。 ここでは、無限の相互作用時間(全熱化)の場合にGADのフォトニックバージョンを実装する。 また, この量子チャネルは, 温度制御された熱浴としても機能することを示した。

The generalized amplitude damping (GAD) quantum channel implements the interaction between a qubit and an environment with arbitrary temperature and arbitrary interaction time. Here, we implement a photonic version of the GAD for the case of infinite interaction time (full thermalization). We also show that this quantum channel works as a thermal bath with controlled temperature.
翻訳日:2023-04-30 04:02:18 公開日:2020-10-02
# 量子力学が支配するエージェントは 相互射影的かつ一貫してそれを利用できます

Agents governed by quantum mechanics can use it intersubjectively and consistently ( http://arxiv.org/abs/2010.01167v1 )

ライセンス: Link先を確認
Varun Narasimhachar(参考訳) Frauchiger と Renner が量子力学とある種の常識推論公理の衝突を発見した後、多くの研究が競合を避けるための代替公理化の発見に取り組んだ。 しかし、この研究は、主に量子力学の特定の解釈に基づいており、時には主流の量子情報の専門家にはアクセスできない特殊な形式を用いることがある。 解釈非依存的アプローチを採り、状況推論を行う合理的エージェントを支援するために、重ね合わせソリプシズムと呼ばれる単純な操作原理を提案する。 この原理がすべての運用関連インスタンスにおいて音質推論につながることを示す。 その過程で,注目されなかったかもしれないフラチガーの結果について,ある程度の微妙な点について論じる。

Following Frauchiger and Renner's discovery of a conflict between quantum mechanics and certain commonsense reasoning axioms, much work has gone into finding alternative axiomatizations that can avoid the conflict. However, this body of work is largely based on specific interpretations of quantum mechanics, and at times employs specialized formalism that may be inaccessible to mainstream quantum information experts. Taking an interpretation-agnostic approach, we propose a simple operational principle called superpositional solipsism to aid rational agents in making situational inferences. We show that the principle leads to sound inferences in all operationally-relevant instances. Along the way, we discuss certain subtleties about the Frauchiger--Renner result that may have gone hithertofore unnoticed.
翻訳日:2023-04-30 04:02:13 公開日:2020-10-02
# 暗号通貨取引における知識発見:調査

Knowledge Discovery in Cryptocurrency Transactions: A Survey ( http://arxiv.org/abs/2010.01031v1 )

ライセンス: Link先を確認
Xiao Fan Liu, Xin-Jian Jiang, Si-Hao Liu, Chi Kong Tse(参考訳) 暗号通貨は、全作成と取引履歴を公に開示することで、ユーザーを信頼する。 その見返りとして、取引履歴は暗号通貨ユーザーの行動のスペクトル全体を忠実に記録する。 本稿では,暗号通貨取引における知識発見に関するこれまでの研究を,データマイニング手法を用いて分析・要約する。 具体的には,既存の研究を,トランザクショントレースとブロックチェーンアドレスリンク,集合ユーザ行動の分析,個人ユーザ行動の研究という3つの側面に分類する。 それぞれの面において,問題を提示し,方法論を要約し,文献の主要な知見について考察する。 さらに、トランザクションデータ解析および可視化ツールおよびサービスの列挙も提供される。 最後に、現在、分散金融(De-Fi)やデジタルファイトマネーの急速な発展など、この研究領域における今後の方向性について概説する。

Cryptocurrencies gain trust in users by publicly disclosing the full creation and transaction history. In return, the transaction history faithfully records the whole spectrum of cryptocurrency user behaviors. This article analyzes and summarizes the existing research on knowledge discovery in the cryptocurrency transactions using data mining techniques. Specifically, we classify the existing research into three aspects, i.e., transaction tracings and blockchain address linking, the analyses of collective user behaviors, and the study of individual user behaviors. For each aspect, we present the problems, summarize the methodologies, and discuss major findings in the literature. Furthermore, an enumeration of transaction data parsing and visualization tools and services is also provided. Finally, we outline several future directions in this research area, such as the current rapid development of Decentralized Finance (De-Fi) and digital fiat money.
翻訳日:2023-04-30 04:01:43 公開日:2020-10-02
# フルフィールドデジタルマンモグラフィ画像と合成マンモグラフィ画像のための胸部密度深層学習モデルの多地点解析

A Multi-site Study of a Breast Density Deep Learning Model for Full-field Digital Mammography Images and Synthetic Mammography Images ( http://arxiv.org/abs/2001.08383v2 )

ライセンス: Link先を確認
Thomas P. Matthews (1), Sadanand Singh (1), Brent Mombourquette (1), Jason Su (1), Meet P. Shah (1), Stefano Pedemonte (1), Aaron Long (1), David Maffit (2), Jenny Gurney (2), Rodrigo Morales Hoil (1), Nikita Ghare (1), Douglas Smith (1), Stephen M. Moore (2), Susan C. Marks (3), Richard L. Wahl (2), ((1) Whiterabbit AI, Inc., Santa Clara, CA, (2) Mallinckrodt Institute of Radiology, Washington University School of Medicine, St. Louis, MO, (3) Peninsula Diagnostic Imaging, San Mateo, CA)(参考訳) 目的:全野デジタルマンモグラフィー(FFDM)画像と限られたSMデータを用いて、デジタル乳房トモシンセプション試験から得られた合成2次元マンモグラフィー(SM)画像の多地点環境での乳房イメージングレポート・データシステム(BI-RADS)乳房密度深度学習(DL)モデルを開発すること。 材料と方法: 2008年から2017年に取得したFFDM画像(第1部: 57492例, 187627試験, 750752例)を用いてBI-RADSの乳房密度を予測するためのDLモデルを訓練した。 ffdmモデルは、2つの機関のsmデータセットを用いて評価された(サイト1:3842人、テスト3866人、画像14472人、サイト2:7557人、試験16283人、画像63973人、2015年~2019年)。 3つのデータセットはそれぞれ、トレーニング、検証、テストデータセットに分割される。 SMデータセットの性能向上のために適応法を検討し,各適応法に対するデータセットサイズの影響を検討した。 統計的意義は, ブートストレッピングによって推定される信頼区間 (CI) を用いて評価した。 結果: 適応がなければ,3つのデータセットすべてについて,元の報告放射線学者と相当な一致を示した(Site 1 FFDM: linearly-weighted $\kappa_w$ = 0.75 [95% CI: 0.74, 0.76]; Site 1 SM: $\kappa_w$ = 0.71 [95% CI: 0.64, 0.78]; Site 2 SM: $\kappa_w$ = 0.72 [95% CI: 0.70, 0.75])。 Site 1: $\kappa_w$ = 0.72 [95% CI: 0.66, 0.79], 0.71 vs 0.72, P = .80; Site 2: $\kappa_w$ = 0.79 [95% CI: 0.76, 0.81], 0.72 vs 0.79, P $<$ 001) のパフォーマンスは、サイトの500 SMイメージのみを使用して改善された。 結論: BI-RADS 乳腺密度DLモデルでは, SM画像の訓練を伴わず, SM画像が少ないため, FFDM, SM画像に強い効果を示した。

Purpose: To develop a Breast Imaging Reporting and Data System (BI-RADS) breast density deep learning (DL) model in a multi-site setting for synthetic two-dimensional mammography (SM) images derived from digital breast tomosynthesis exams using full-field digital mammography (FFDM) images and limited SM data. Materials and Methods: A DL model was trained to predict BI-RADS breast density using FFDM images acquired from 2008 to 2017 (Site 1: 57492 patients, 187627 exams, 750752 images) for this retrospective study. The FFDM model was evaluated using SM datasets from two institutions (Site 1: 3842 patients, 3866 exams, 14472 images, acquired from 2016 to 2017; Site 2: 7557 patients, 16283 exams, 63973 images, 2015 to 2019). Each of the three datasets were then split into training, validation, and test datasets. Adaptation methods were investigated to improve performance on the SM datasets and the effect of dataset size on each adaptation method is considered. Statistical significance was assessed using confidence intervals (CI), estimated by bootstrapping. Results: Without adaptation, the model demonstrated substantial agreement with the original reporting radiologists for all three datasets (Site 1 FFDM: linearly-weighted $\kappa_w$ = 0.75 [95% CI: 0.74, 0.76]; Site 1 SM: $\kappa_w$ = 0.71 [95% CI: 0.64, 0.78]; Site 2 SM: $\kappa_w$ = 0.72 [95% CI: 0.70, 0.75]). With adaptation, performance improved for Site 2 (Site 1: $\kappa_w$ = 0.72 [95% CI: 0.66, 0.79], 0.71 vs 0.72, P = .80; Site 2: $\kappa_w$ = 0.79 [95% CI: 0.76, 0.81], 0.72 vs 0.79, P $<$ .001) using only 500 SM images from that site. Conclusion: A BI-RADS breast density DL model demonstrated strong performance on FFDM and SM images from two institutions without training on SM images and improved using few SM images.
翻訳日:2023-01-07 12:58:02 公開日:2020-10-02
# 多変量テイラー多項式パラメータ化による損失関数の最適化

Optimizing Loss Functions Through Multivariate Taylor Polynomial Parameterization ( http://arxiv.org/abs/2002.00059v4 )

ライセンス: Link先を確認
Santiago Gonzalez and Risto Miikkulainen(参考訳) ディープニューラルネットワーク(DNN)アーキテクチャとハイパーパラメータのメタラーニングは、ますます重要な研究領域になりつつある。 ロス関数は、DNNの効果的な訓練に不可欠なメタ知識の一種であるが、メタラーニングにおけるその潜在的な役割はまだ十分に解明されていない。 木表現における遺伝的プログラミング(GP)に焦点を当てた初期の研究に対して,多変量テイラー多項式パラメータ化の連続CMA-ES最適化を提案する。 このアプローチであるTaylorGLOは、有用な損失関数をより効果的に表現し、検索できるようにする。 MNIST、CIFAR-10、SVHNのベンチマークタスクでは、TaylorGLOは、GPによって以前に発見された関数と標準のクロスエントロピー損失を、より少ない世代で上回る新しい損失関数を発見した。 これらの機能はラベルへの過剰適合を損なうことによって学習タスクを定式化するのに役立ち、限られたトレーニングデータが利用できるタスクでは特に有用である。 その結果,損失関数最適化はメタラーニングの新たな方法であることがわかった。

Metalearning of deep neural network (DNN) architectures and hyperparameters has become an increasingly important area of research. Loss functions are a type of metaknowledge that is crucial to effective training of DNNs, however, their potential role in metalearning has not yet been fully explored. Whereas early work focused on genetic programming (GP) on tree representations, this paper proposes continuous CMA-ES optimization of multivariate Taylor polynomial parameterizations. This approach, TaylorGLO, makes it possible to represent and search useful loss functions more effectively. In MNIST, CIFAR-10, and SVHN benchmark tasks, TaylorGLO finds new loss functions that outperform functions previously discovered through GP, as well as the standard cross-entropy loss, in fewer generations. These functions serve to regularize the learning task by discouraging overfitting to the labels, which is particularly useful in tasks where limited training data is available. The results thus demonstrate that loss function optimization is a productive new avenue for metalearning.
翻訳日:2023-01-05 05:36:08 公開日:2020-10-02
# 不完全復号化を考慮した並行言語モデルの整合性

Consistency of a Recurrent Language Model With Respect to Incomplete Decoding ( http://arxiv.org/abs/2002.02492v2 )

ライセンス: Link先を確認
Sean Welleck, Ilia Kulikov, Jaedeok Kim, Richard Yuanzhe Pang, Kyunghyun Cho(参考訳) 様々なタスクで強い性能を発揮するにもかかわらず、最大確率で訓練された神経配列モデルは、長さバイアスや縮退反復といった問題を示すことが示されている。 共通復号アルゴリズムを用いて、繰り返し言語モデルから無限長のシーケンスを受信する問題について検討する。 この問題を分析するために,まずデコードアルゴリズムの非一貫性を定義する。つまり,モデルの下では確率がゼロな無限長列を生成することができる。 再帰的な言語モデルが有限長のシーケンスを生成するように訓練されているにもかかわらず、不完全復号アルゴリズム(グリーディ探索、ビーム探索、トップkサンプリング、核サンプリング)は一貫性がないことが証明される。 これらの知見に基づいて,top-kサンプリングとnucleusサンプリングの一貫性のある変種と,自己消滅型リカレント言語モデルという,不整合に対処する2つのレメディエーションを提案する。 実験の結果,非一貫性は実際に発生し,提案手法では非一貫性を防止できることがわかった。

Despite strong performance on a variety of tasks, neural sequence models trained with maximum likelihood have been shown to exhibit issues such as length bias and degenerate repetition. We study the related issue of receiving infinite-length sequences from a recurrent language model when using common decoding algorithms. To analyze this issue, we first define inconsistency of a decoding algorithm, meaning that the algorithm can yield an infinite-length sequence that has zero probability under the model. We prove that commonly used incomplete decoding algorithms - greedy search, beam search, top-k sampling, and nucleus sampling - are inconsistent, despite the fact that recurrent language models are trained to produce sequences of finite length. Based on these insights, we propose two remedies which address inconsistency: consistent variants of top-k and nucleus sampling, and a self-terminating recurrent language model. Empirical results show that inconsistency occurs in practice, and that the proposed methods prevent inconsistency.
翻訳日:2023-01-03 09:34:00 公開日:2020-10-02
# 不完全なヒントによるオンライン学習

Online Learning with Imperfect Hints ( http://arxiv.org/abs/2002.04726v2 )

ライセンス: Link先を確認
Aditya Bhaskara, Ashok Cutkosky, Ravi Kumar and Manish Purohit(参考訳) 従来のオンライン線形最適化問題(英語版)では、各ステップにおいて、オンラインプレイヤーがそのラウンドのアクションを選択する前に「ヒント」ベクターを受け取る。 むしろ驚くべきことに、ヒントベクトルがコストベクトルと正の相関を持つことが保証された場合、オンラインプレイヤーは$O(\log T)$の後悔を達成でき、一般的な設定では$O(\sqrt{T})$の後悔よりも大幅に改善される。 しかし、結果と分析は、emph{all}の時間ステップで相関性を必要とするため、自然な疑問を提起する: 悪いヒントに耐性のあるオンライン学習アルゴリズムを設計できるだろうか? 本稿では,不完全方向ヒントを用いたオンライン学習のためのアルゴリズムと,ほぼ一致する下限を開発した。 私たちのアルゴリズムはヒントの品質に従わず、常に相関するヒントケースと非ヒットケースの間の後悔の境界を補間します。 この結果はまた、前回の結果を楽観的後悔境界上で一般化し、単純化し、改善し、ヒントの加法バージョンと見なすことができる。

We consider a variant of the classical online linear optimization problem in which at every step, the online player receives a "hint" vector before choosing the action for that round. Rather surprisingly, it was shown that if the hint vector is guaranteed to have a positive correlation with the cost vector, then the online player can achieve a regret of $O(\log T)$, thus significantly improving over the $O(\sqrt{T})$ regret in the general setting. However, the result and analysis require the correlation property at \emph{all} time steps, thus raising the natural question: can we design online learning algorithms that are resilient to bad hints? In this paper we develop algorithms and nearly matching lower bounds for online learning with imperfect directional hints. Our algorithms are oblivious to the quality of the hints, and the regret bounds interpolate between the always-correlated hints case and the no-hints case. Our results also generalize, simplify, and improve upon previous results on optimistic regret bounds, which can be viewed as an additive version of hints.
翻訳日:2023-01-02 02:04:51 公開日:2020-10-02
# 視線追跡データのプライバシー保護と操作のための強化学習

Reinforcement learning for the privacy preservation and manipulation of eye tracking data ( http://arxiv.org/abs/2002.06806v2 )

ライセンス: Link先を確認
Wolfgang Fuhl, Efe Bozkir, Enkelejda Kasneci(参考訳) 本稿では、視線追跡データ操作のための強化学習に基づくアプローチを提案する。 これは2つのエージェントに基づいており、1つはデータを正しく分類しようと試み、もう1つはデータ内のパターンを探し出し、特定の情報を隠蔽するために操作される。 本手法は,被験者のプライバシーを守るために有効であることを示す。 本研究の目的は,強化学習に基づくアプローチの振る舞いを逐次評価することにある。 また,特定分類目標における視線追跡データの時間的・空間的情報の重要性を評価した。 評価の最後の部分では、オートエンコーダやデータマニピュレータを再トレーニングすることなく、さらなる公開データセットに手順を適用する。 その結果, 学習操作は一般化され, 未認識データにも適用可能であることがわかった。

In this paper, we present an approach based on reinforcement learning for eye tracking data manipulation. It is based on two opposing agents, where one tries to classify the data correctly and the second agent looks for patterns in the data, which get manipulated to hide specific information. We show that our approach is successfully applicable to preserve the privacy of the subjects. For this purpose, we evaluate our approach iteratively to showcase the behavior of the reinforcement learning based approach. In addition, we evaluate the importance of temporal, as well as spatial, information of eye tracking data for specific classification goals. In the last part of our evaluation, we apply the procedure to further public data sets without re-training the autoencoder or the data manipulator. The results show that the learned manipulation is generalized and applicable to unseen data as well.
翻訳日:2022-12-31 11:51:19 公開日:2020-10-02
# Sketch-to-Art:スケッチからスタイリズドアートイメージを合成する

Sketch-to-Art: Synthesizing Stylized Art Images From Sketches ( http://arxiv.org/abs/2002.12888v3 )

ライセンス: Link先を確認
Bingchen Liu, Kunpeng Song, Ahmed Elgammal(参考訳) スケッチから完全精細なアートスタイライゼーション画像を合成する新しい手法を提案する。 スケッチ、セマンティックタグなし、特定のスタイルの参照イメージを与えられたモデルは、色やテクスチャで意味のある詳細を合成することができる。 モデルは、3つのモジュールで構成されており、芸術的なスタイルのキャプチャと生成のために明示的に設計されている。 GANフレームワークに基づいて、コンテンツ制約(スケッチから)を強制するデュアルマスク機構を導入し、スタイル整合性(参照画像まで)を強化するために特徴マップ変換技術を開発した。 最後に、スタイルとコンテンツ情報を分離するためにインスタンス正規化の逆手順が提案され、より優れた合成性能が得られる。 実験では, 従来の最先端技術に基づいて, ベースラインの質的, 定量的な向上を実証し, 提案プロセスに適用した。

We propose a new approach for synthesizing fully detailed art-stylized images from sketches. Given a sketch, with no semantic tagging, and a reference image of a specific style, the model can synthesize meaningful details with colors and textures. The model consists of three modules designed explicitly for better artistic style capturing and generation. Based on a GAN framework, a dual-masked mechanism is introduced to enforce the content constraints (from the sketch), and a feature-map transformation technique is developed to strengthen the style consistency (to the reference image). Finally, an inverse procedure of instance-normalization is proposed to disentangle the style and content information, therefore yields better synthesis performance. Experiments demonstrate a significant qualitative and quantitative boost over baselines based on previous state-of-the-art techniques, adopted for the proposed process.
翻訳日:2022-12-28 15:47:06 公開日:2020-10-02
# 不明確な事前知識に基づく連続ロボットの効率的な強化学習制御

Efficient reinforcement learning control for continuum robots based on Inexplicit Prior Knowledge ( http://arxiv.org/abs/2002.11573v2 )

ライセンス: Link先を確認
Junjia Liu, Jiaying Shou, Zhuang Fu, Hangfei Zhou, Rongli Xie, Jun Zhang, Jian Fei and Yanna Zhao(参考訳) 強化学習において一般的に研究される剛体ロボットと比較して,ソフトロボットや連続ロボットなどの高度なロボットの物理的特性は複雑である。 また、最近の強化学習手法はデータ非効率であり、シミュレーションなしでは直接ロボットにデプロイできない。 本稿では,このような問題に応答して,未熟な事前知識に基づく効率的な強化学習手法を提案する。 まず,シミュレーションによる手法のコロボケートを行い,実世界で直接採用する。 本手法を用いることで,最小限の侵襲的操作において必須となる腱駆動ロボットのアクティブな視覚追跡と遠隔維持を実現することができる。 コードはhttps://github.com/Skylark0924/TendonTrack.comで入手できる。

Compared to rigid robots that are generally studied in reinforcement learning, the physical characteristics of some sophisticated robots such as soft or continuum robots are higher complicated. Moreover, recent reinforcement learning methods are data-inefficient and can not be directly deployed to the robot without simulation. In this paper, we propose an efficient reinforcement learning method based on inexplicit prior knowledge in response to such problems. We first corroborate the method by simulation and employed directly in the real world. By using our method, we can achieve active visual tracking and distance maintenance of a tendon-driven robot which will be critical in minimally invasive procedures. Codes are available at https://github.com/Skylark0924/TendonTrack.
翻訳日:2022-12-28 15:27:56 公開日:2020-10-02
# 産業プロセスシステムにおける故障検出と診断のための量子コンピューティング支援深層学習

Quantum Computing Assisted Deep Learning for Fault Detection and Diagnosis in Industrial Process Systems ( http://arxiv.org/abs/2003.00264v2 )

ライセンス: Link先を確認
Akshay Ajagekar, Fengqi You(参考訳) 量子コンピューティング(qc)とディープラーニング技術は近年広く注目を集めている。 本稿では,従来のコンピュータにおけるデータ駆動手法による計算課題を克服するために,その特徴を生かしたQCに基づく欠陥診断のためのディープラーニング手法を提案する。 深部信頼ネットワークは,提案した故障診断モデルに統合され,正常および故障プロセス操作の異なるレベルの特徴抽出に使用される。 qcベースの障害診断モデルは、量子コンピューティング支援生成訓練プロセスと、古典的アルゴリズムの欠点に対処する識別訓練を用いる。 本手法の適用性および効率性を示すため, 提案した故障診断法を, 連続加熱炉 (CSTR) およびテネシー・イーストマン (TE) プロセスのプロセスモニタリングに応用した。 提案したQCに基づくディープラーニング手法は,CSTR法とTE法でそれぞれ79.2%,99.39%の平均故障検出率で優れた故障検出と診断性能を享受する。

Quantum computing (QC) and deep learning techniques have attracted widespread attention in the recent years. This paper proposes QC-based deep learning methods for fault diagnosis that exploit their unique capabilities to overcome the computational challenges faced by conventional data-driven approaches performed on classical computers. Deep belief networks are integrated into the proposed fault diagnosis model and are used to extract features at different levels for normal and faulty process operations. The QC-based fault diagnosis model uses a quantum computing assisted generative training process followed by discriminative training to address the shortcomings of classical algorithms. To demonstrate its applicability and efficiency, the proposed fault diagnosis method is applied to process monitoring of continuous stirred tank reactor (CSTR) and Tennessee Eastman (TE) process. The proposed QC-based deep learning approach enjoys superior fault detection and diagnosis performance with obtained average fault detection rates of 79.2% and 99.39% for CSTR and TE process, respectively.
翻訳日:2022-12-27 20:43:46 公開日:2020-10-02
# deepsee: 深く絡み合ったセマンティックな探索的極端超解像

DeepSEE: Deep Disentangled Semantic Explorative Extreme Super-Resolution ( http://arxiv.org/abs/2004.04433v3 )

ライセンス: Link先を確認
Marcel C. B\"uhler, Andr\'es Romero, Radu Timofte(参考訳) 超解像 (SR) は定義上不規則である。 与えられた低解像度自然画像には無限に多くの可能な高分解能変種が存在する。 現在の文学のほとんどが、高い再構成忠実性またはフォトリアリスティックな知覚品質の単一の決定論的解決を目標としている。 本研究では,Deep Disentangled Semantic Explorative Extreme Super- resolutionのための爆発的顔超解像フレームワークDeepSEEを提案する。 私たちの知る限りでは、DeepSEEは爆発的な超解像のためにセマンティックマップを利用する最初の方法です。 特に、セマンティック領域の制御、不整合の外観を提供し、幅広い画像操作を可能にする。 顔上のDeepSEEを最大32倍の倍率で検証し,超解像空間の探索を行う。 私たちのコードとモデルは以下の通りです。

Super-resolution (SR) is by definition ill-posed. There are infinitely many plausible high-resolution variants for a given low-resolution natural image. Most of the current literature aims at a single deterministic solution of either high reconstruction fidelity or photo-realistic perceptual quality. In this work, we propose an explorative facial super-resolution framework, DeepSEE, for Deep disentangled Semantic Explorative Extreme super-resolution. To the best of our knowledge, DeepSEE is the first method to leverage semantic maps for explorative super-resolution. In particular, it provides control of the semantic regions, their disentangled appearance and it allows a broad range of image manipulations. We validate DeepSEE on faces, for up to 32x magnification and exploration of the space of super-resolution. Our code and models are available at: https://mcbuehler.github.io/DeepSEE/
翻訳日:2022-12-15 02:37:30 公開日:2020-10-02
# 新型コロナウイルスのフレイミング:Twitter上でのパンデミックの概念化と議論

Framing COVID-19: How we conceptualize and discuss the pandemic on Twitter ( http://arxiv.org/abs/2004.06986v2 )

ライセンス: Link先を確認
Philipp Wicke and Marianna M. Bolognesi(参考訳) この数週間の医師や看護師は、新たな目に見えない敵であるCovid-19と戦う溝で忙しい。 都市は封鎖され、市民は新型コロナウイルスの感染拡大を防ぐために自分の家に包囲されている。 戦時関連の用語は、疫病や病気に関する議論の枠組みとして一般的に用いられる。 おそらく、現在の流行に関する談話は戦争関連のメタファーも利用し、公共の談話やメディアだけでなく、マスコミュニケーションの非専門家によるツイートにも使われるだろう。 ここでは,2020年3月から4月にかけてtwitterに投稿された2万ツイートのコーパスに基づいて,#covid-19に関する談話の分析を行う。 トピックモデリングを使用して、まず、会話を分類できるトピックを分析します。 次に, 戦争フレーミングは, ウイルス治療など特定の話題について語るのに使用されるが, 社会的不均衡が人口に与える影響など, 他の話題は用いないことを示す。 次に、WARフレームの人気を3つの代替図形フレーム(monSTER、STORM、tsuNAMI)と、制御として使用されるリテラルフレーム(FAMILY)と比較する。 その結果、家族のリテラル・フレームはコーパスの広い部分をカバーしているが、フィギュラティブ・フレミングズ戦争が最も頻繁に使われており、したがっておそらく最も一般的なものとなっている。 しかし, この枠組みは, 現状に係わる多くの側面について, 議論を詳しく述べるには適していない。 したがって、これまでの提案と相まって、多くのフレイミングオプションやメタファーメニューが、ソーシャルメディア上での新型コロナウイルス関連談話に関わるさまざまな側面のコミュニケーションを促進し、現在のパンデミックの間、市民の感情や意見、考えの表現を支援することができると結論づける。

Doctors and nurses in these weeks are busy in the trenches, fighting against a new invisible enemy: Covid-19. Cities are locked down and civilians are besieged in their own homes, to prevent the spreading of the virus. War-related terminology is commonly used to frame the discourse around epidemics and diseases. Arguably the discourse around the current epidemic will make use of war-related metaphors too,not only in public discourse and the media, but also in the tweets written by non-experts of mass communication. We hereby present an analysis of the discourse around #Covid-19, based on a corpus of 200k tweets posted on Twitter during March and April 2020. Using topic modelling we first analyze the topics around which the discourse can be classified. Then, we show that the WAR framing is used to talk about specific topics, such as the virus treatment, but not others, such as the effects of social distancing on the population. We then measure and compare the popularity of the WAR frame to three alternative figurative frames (MONSTER, STORM and TSUNAMI) and a literal frame used as control (FAMILY). The results show that while the FAMILY literal frame covers a wider portion of the corpus, among the figurative framings WAR is the most frequently used, and thus arguably the most conventional one. However, we conclude, this frame is not apt to elaborate the discourse around many aspects involved in the current situation. Therefore, we conclude, in line with previous suggestions, a plethora of framing options, or a metaphor menu, may facilitate the communication of various aspects involved in the Covid-19-related discourse on the social media, and thus support civilians in the expression of their feelings, opinions and ideas during the current pandemic.
翻訳日:2022-12-13 03:59:17 公開日:2020-10-02

BERT-ATTACK: Adversarial Attack Against BERT Using BERT ( http://arxiv.org/abs/2004.09984v3 )

ライセンス: Link先を確認
Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, Xipeng Qiu(参考訳) 離散データ(テキストなど)に対する逆攻撃は、勾配に基づく手法で逆データを生成することが困難であるため、連続データ(画像など)よりも著しく困難であることが証明されている。 現在のテキストに対する攻撃手法は、通常、文字や単語レベルでヒューリスティックな置換戦略を採用するが、意味的一貫性と言語流動性を維持しつつ、置換の可能な組み合わせの膨大な空間において最適な解決策を見つけることは困難である。 本稿では, BERT で実証されたマスク付き言語モデルを用いて, 高品質かつ効果的な対人サンプル生成法である \textbf{BERT-Attack} を提案する。 BERTをその微調整されたモデルや、下流タスクの深層ニューラルモデルと比較することで、ターゲットモデルを誤って予測することに成功したのです。 本手法は成功率と摂動率の両方において最先端の攻撃戦略を上回り, 生成した敵のサンプルは流動的かつ意味的に保存される。 また、計算コストは低く、大規模世代でも可能である。 コードはhttps://github.com/LinyangLee/BERT-Attack.comで公開されている。

Adversarial attacks for discrete data (such as texts) have been proved significantly more challenging than continuous data (such as images) since it is difficult to generate adversarial samples with gradient-based methods. Current successful attack methods for texts usually adopt heuristic replacement strategies on the character or word level, which remains challenging to find the optimal solution in the massive space of possible combinations of replacements while preserving semantic consistency and language fluency. In this paper, we propose \textbf{BERT-Attack}, a high-quality and effective method to generate adversarial samples using pre-trained masked language models exemplified by BERT. We turn BERT against its fine-tuned models and other deep neural models in downstream tasks so that we can successfully mislead the target models to predict incorrectly. Our method outperforms state-of-the-art attack strategies in both success rate and perturb percentage, while the generated adversarial samples are fluent and semantically preserved. Also, the cost of calculation is low, thus possible for large-scale generations. The code is available at https://github.com/LinyangLee/BERT-Attack.
翻訳日:2022-12-11 06:57:48 公開日:2020-10-02
# 深部ニューラルネットワークを用いた天文遷移系の画像系列の分類

Classifying Image Sequences of Astronomical Transients with Deep Neural Networks ( http://arxiv.org/abs/2004.13877v2 )

ライセンス: Link先を確認
Catalina G\'omez, Mauricio Neira, Marcela Hern\'andez Hoyos, Pablo Arbel\'aez, Jaime E. Forero-Romero(参考訳) 天文画像の時間的シーケンスを有意な過渡的な天体物理現象に分類することは、人間の専門家の介入を必要とするため難しい問題とみなされてきた。 分類器は専門家の知識を用いて、画像のサブトラクションや、光曲線として知られるフラックス時系列のようなスパース情報を抽出することで、画像を処理するヒューリスティックな特徴を見つける。 本稿では,画像データから直接学習するディープラーニング手法を提案する。 提案手法は,Deep Convolutional Neural NetworksとGated Recurrent Unitsを用いた時空間パターンを明示的にモデル化する。 これらの深層ニューラルネットワークを、カタリーナのリアルタイムトランジェント調査から得られた130万枚の実際の天文学画像を用いて訓練し、それらのシーケンスを5つの異なるタイプの天文学的トランジェントクラスに分類した。 tao-net (for transient astronomical objects network) アーキテクチャは、光曲線上のランダムフォレスト分類の結果を各クラス毎のf1スコアで測定した10パーセントのポイントで上回り、クラスの平均f1はランダムフォレスト分類で45\%$から、tao-netで55\%$となる。 TAO-Netによるこの成果は、早期過渡検知のための新しいディープラーニングアーキテクチャを開発する可能性を開く。 私たちはTAO-Netのトレーニングデータセットとトレーニングモデルを提供し、今後の拡張を可能にします。

Supervised classification of temporal sequences of astronomical images into meaningful transient astrophysical phenomena has been considered a hard problem because it requires the intervention of human experts. The classifier uses the expert's knowledge to find heuristic features to process the images, for instance, by performing image subtraction or by extracting sparse information such as flux time series, also known as light curves. We present a successful deep learning approach that learns directly from imaging data. Our method models explicitly the spatio-temporal patterns with Deep Convolutional Neural Networks and Gated Recurrent Units. We train these deep neural networks using 1.3 million real astronomical images from the Catalina Real-Time Transient Survey to classify the sequences into five different types of astronomical transient classes. The TAO-Net (for Transient Astronomical Objects Network) architecture outperforms the results from random forest classification on light curves by 10 percentage points as measured by the F1 score for each class; the average F1 over classes goes from $45\%$ with random forest classification to $55\%$ with TAO-Net. This achievement with TAO-Net opens the possibility to develop new deep learning architectures for early transient detection. We make available the training dataset and trained models of TAO-Net to allow for future extensions of this work.
翻訳日:2022-12-08 23:46:28 公開日:2020-10-02
# 画像変換器による画像キャプション

Image Captioning through Image Transformer ( http://arxiv.org/abs/2004.14231v2 )

ライセンス: Link先を確認
Sen He, Wentong Liao, Hamed R. Tavakoli, Michael Yang, Bodo Rosenhahn, Nicolas Pugeault(参考訳) 画像の自動キャプションは、画像解析とテキスト生成の課題を組み合わせたタスクである。 キャプションにおける重要な側面の1つは注意の概念であり、何を記述するか、どの順序で決めるかである。 テキスト分析と翻訳の成功に触発されて、画像キャプションのための \textit{transformer} アーキテクチャが提案されている。 しかし、画像中の \textit{semantic unit} の構造(通常、オブジェクト検出モデルから検出された領域)と文(各単語)は異なる。 トランスフォーマーの内部アーキテクチャをイメージに適用する作業は限られている。 本稿では,画像領域間の相対的空間的関係を動機とした符号化変換器と暗黙的復号変換器とを組み合わせた「textbf{\textit{image transformer}}」を紹介する。 我々の設計は、画像の構造に適応するために、オリジナルのトランスフォーマー層の内部構造を広げる。 リージョンのみを入力として,mscocoのオフラインおよびオンラインテストベンチマークにおいて,新たな最先端性能を実現する。

Automatic captioning of images is a task that combines the challenges of image analysis and text generation. One important aspect in captioning is the notion of attention: How to decide what to describe and in which order. Inspired by the successes in text analysis and translation, previous work have proposed the \textit{transformer} architecture for image captioning. However, the structure between the \textit{semantic units} in images (usually the detected regions from object detection model) and sentences (each single word) is different. Limited work has been done to adapt the transformer's internal architecture to images. In this work, we introduce the \textbf{\textit{image transformer}}, which consists of a modified encoding transformer and an implicit decoding transformer, motivated by the relative spatial relationship between image regions. Our design widen the original transformer layer's inner architecture to adapt to the structure of images. With only regions feature as inputs, our model achieves new state-of-the-art performance on both MSCOCO offline and online testing benchmarks.
翻訳日:2022-12-08 14:10:35 公開日:2020-10-02
# Control, Generate, Augment: マルチ属性テキスト生成のためのスケーラブルなフレームワーク

Control, Generate, Augment: A Scalable Framework for Multi-Attribute Text Generation ( http://arxiv.org/abs/2004.14983v2 )

ライセンス: Link先を確認
Giuseppe Russo, Nora Hollenstein, Claudiu Musat, Ce Zhang(参考訳) 我々は条件付きVAEアーキテクチャであるCGAを導入し、テキストを制御、生成、拡張する。 CGAは、敵対的学習と文脈認識喪失と循環的な単語ドロップアウトルーチンを組み合わせることで、複数の意味的・統語的属性を制御する自然な英語文を生成することができる。 アブレーション研究において,個々のモデル要素の価値を示す。 このアプローチのスケーラビリティは、属性の数に関わらず、単一の識別器によって保証されます。 生成した文の質,多様性,属性の制御を,一連の自動評価および人的評価を通じて示す。 我々の研究の主な応用として、データ拡張シナリオにおいて、この新しいNLGモデルの可能性をテストする。 下流のNLPタスクでは、我々のCGAモデルによって生成された文は、強いベースラインよりも大幅に改善され、しばしば同じ量の実データを追加するのに匹敵する分類性能を示す。

We introduce CGA, a conditional VAE architecture, to control, generate, and augment text. CGA is able to generate natural English sentences controlling multiple semantic and syntactic attributes by combining adversarial learning with a context-aware loss and a cyclical word dropout routine. We demonstrate the value of the individual model components in an ablation study. The scalability of our approach is ensured through a single discriminator, independently of the number of attributes. We show high quality, diversity and attribute control in the generated sentences through a series of automatic and human assessments. As the main application of our work, we test the potential of this new NLG model in a data augmentation scenario. In a downstream NLP task, the sentences generated by our CGA model show significant improvements over a strong baseline, and a classification performance often comparable to adding same amount of additional real data.
翻訳日:2022-12-08 04:42:56 公開日:2020-10-02
# 機械学習におけるコルモゴロフ幅減少と貧弱近似器:浅層ニューラルネットワーク,ランダム特徴モデル,ニューラルタンジェントカーネル

Kolmogorov Width Decay and Poor Approximators in Machine Learning: Shallow Neural Networks, Random Feature Models and Neural Tangent Kernels ( http://arxiv.org/abs/2005.10807v2 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) 与えられたバナッハ空間の部分空間間のコルモゴロフ幅型のスケール分離を、線型写像の列が部分空間の一方でより高速に収束する条件下で確立する。 この手法を適用して、再現されたカーネルヒルベルト空間は高次元の2層ニューラルネットワークのクラスに対して貧しい$L^2$-近似器であり、小経路ノルムを持つ多層ネットワークは特定のリプシッツ関数に対して悪い近似器であることを示す。

We establish a scale separation of Kolmogorov width type between subspaces of a given Banach space under the condition that a sequence of linear maps converges much faster on one of the subspaces. The general technique is then applied to show that reproducing kernel Hilbert spaces are poor $L^2$-approximators for the class of two-layer neural networks in high dimension, and that multi-layer networks with small path norm are poor approximators for certain Lipschitz functions, also in the $L^2$-topology.
翻訳日:2022-11-30 23:02:06 公開日:2020-10-02
# スパース特徴の半教師付き学習のための一般化線形共同学習フレームワーク

A generalized linear joint trained framework for semi-supervised learning of sparse features ( http://arxiv.org/abs/2006.01671v2 )

ライセンス: Link先を確認
Juan C. Laria and Line H. Clemmensen and Bjarne K. Ersb{\o}ll(参考訳) elastic-netは最も広く使われている正規化アルゴリズムの1つであり、ペナライズされた最大確率による一般化線形モデル推定の教師付き問題とよく関連している。 その優れた性質は、$\ell_1$と$\ell_2$ normsの組み合わせから生まれ、このメソッドはそれらの相関を考慮した変数を選択できる。 近年,ラベル付きデータとラベルなしデータの両方を用いた半教師付きアプローチが,統計研究において重要な要素となっている。 しかし、この関心にもかかわらず、半教師付き弾性ネット拡張の研究はほとんどない。 本稿では、一般化線形モデル推定の文脈におけるスパース特徴の半教師付き学習のための新しい解について紹介する: 一般化半教師付き弾性ネット(s2net)は、教師付き弾性ネット法を拡張し、回帰と分類の問題の両方をカバーするが、限定的ではない一般的な数学的定式化を行う。 r における s2net のフレキシブルで高速な実装を開発し,その利点を実データと合成データの両方を用いて示す。

The elastic-net is among the most widely used types of regularization algorithms, commonly associated with the problem of supervised generalized linear model estimation via penalized maximum likelihood. Its nice properties originate from a combination of $\ell_1$ and $\ell_2$ norms, which endow this method with the ability to select variables taking into account the correlations between them. In the last few years, semi-supervised approaches, that use both labeled and unlabeled data, have become an important component in the statistical research. Despite this interest, however, few researches have investigated semi-supervised elastic-net extensions. This paper introduces a novel solution for semi-supervised learning of sparse features in the context of generalized linear model estimation: the generalized semi-supervised elastic-net (s2net), which extends the supervised elastic-net method, with a general mathematical formulation that covers, but is not limited to, both regression and classification problems. We develop a flexible and fast implementation for s2net in R, and its advantages are illustrated using both real and synthetic data sets.
翻訳日:2022-11-26 00:03:38 公開日:2020-10-02
# 機械の注意のための脳活動

Human brain activity for machine attention ( http://arxiv.org/abs/2006.05113v2 )

ライセンス: Link先を確認
Lukas Muttenthaler, Nora Hollenstein, Maria Barrett(参考訳) 認知的にインスピレーションを受けたNLPは、人間由来のデータを活用して、機械に言語処理メカニズムを教える。 最近、ニューラルネットワークは、構文とセマンティクスにまたがるさまざまなNLPタスクを解決するために、行動データで拡張されている。 我々は脳波(EEG)という神経科学データを初めて活用し、人間の脳の言語処理について神経の注意モデルに知らせる。 EEGデータを扱う上での課題は、機能が極めてリッチで、テキスト処理特有の信号を分離するためには、広範な事前処理が必要であることだ。 我々は、理論上動機付けられた収穫と無作為な森林分枝を組み合わせることで、機械の注意を監督する脳波の特徴を見つける手法を考案した。 この次元の縮小後、前処理された脳波の特徴は、公開されている脳波コーパスから得られた2つの読み出しタスクを識別することができる。 これらの特徴を関係分類に対する注意の定式化に応用し,脳波が強いベースラインよりも有益であることを示す。 この改善は、タスクの認知負荷と脳波周波数領域の両方に依存します。 したがって、脳波信号による神経注意モデルの通知は有益であるが、nlpタスクでどの次元が最も有用かを理解するためにさらなる調査が必要である。

Cognitively inspired NLP leverages human-derived data to teach machines about language processing mechanisms. Recently, neural networks have been augmented with behavioral data to solve a range of NLP tasks spanning syntax and semantics. We are the first to exploit neuroscientific data, namely electroencephalography (EEG), to inform a neural attention model about language processing of the human brain. The challenge in working with EEG data is that features are exceptionally rich and need extensive pre-processing to isolate signals specific to text processing. We devise a method for finding such EEG features to supervise machine attention through combining theoretically motivated cropping with random forest tree splits. After this dimensionality reduction, the pre-processed EEG features are capable of distinguishing two reading tasks retrieved from a publicly available EEG corpus. We apply these features to regularise attention on relation classification and show that EEG is more informative than strong baselines. This improvement depends on both the cognitive load of the task and the EEG frequency domain. Hence, informing neural attention models with EEG signals is beneficial but requires further investigation to understand which dimensions are the most useful across NLP tasks.
翻訳日:2022-11-23 14:17:11 公開日:2020-10-02
# ARELU: 注意に基づく整流線形ユニット

AReLU: Attention-based Rectified Linear Unit ( http://arxiv.org/abs/2006.13858v2 )

ライセンス: Link先を確認
Dengsheng Chen and Jun Li and Kai Xu(参考訳) 要素ワイドアクティベーション関数は、表現力と学習力学に影響を与えることによって、ディープニューラルネットワークにおいて重要な役割を果たす。 学習に基づく活性化関数は最近注目を集め、成功している。 本稿では,要素的注意機構を用いて学習可能なアクティベーション機能の新たな展望を提案する。 各ネットワーク層において,プリアクティベーション機能マップのための要素毎のサインベースアテンションマップを学習するアテンションモジュールを考案する。 注意マップは、その記号に基づいて要素をスケールする。 ReLU(rerectified linear unit)によるアテンションモジュールの追加は、正の要素の増幅と、学習されたデータ適応パラメータによる負の要素の抑制をもたらす。 結果として得られた活性化関数の注意力に基づく整流線形単位(arelu)を導出する。 注意モジュールは基本的に、ReLUをアイデンティティ変換と見なすことができるので、入力の活性化部分の要素ワイズ残基を学習する。 これにより、ネットワークトレーニングは勾配の消失に耐性が増す。 学習された注意的アクティベーションは、機能マップの関連領域を十分に焦点を絞ったアクティベーションに導く。 広範囲な評価により、ARELUは各層に2つの学習可能なパラメータしか導入せず、主要なネットワークアーキテクチャの性能を大幅に向上させることを示した。 特にareluは、小さな学習率で高速なネットワークトレーニングを促進するため、転送学習やメタ学習に特に適している。 ソースコードがリリースされた(https://github.com/densechen/AReLU)。

Element-wise activation functions play a critical role in deep neural networks via affecting the expressivity power and the learning dynamics. Learning-based activation functions have recently gained increasing attention and success. We propose a new perspective of learnable activation function through formulating them with element-wise attention mechanism. In each network layer, we devise an attention module which learns an element-wise, sign-based attention map for the pre-activation feature map. The attention map scales an element based on its sign. Adding the attention module with a rectified linear unit (ReLU) results in an amplification of positive elements and a suppression of negative ones, both with learned, data-adaptive parameters. We coin the resulting activation function Attention-based Rectified Linear Unit (AReLU). The attention module essentially learns an element-wise residue of the activated part of the input, as ReLU can be viewed as an identity transformation. This makes the network training more resistant to gradient vanishing. The learned attentive activation leads to well-focused activation of relevant regions of a feature map. Through extensive evaluations, we show that AReLU significantly boosts the performance of most mainstream network architectures with only two extra learnable parameters per layer introduced. Notably, AReLU facilitates fast network training under small learning rates, which makes it especially suited in the case of transfer learning and meta learning. Our source code has been released (see https://github.com/densechen/AReLU).
翻訳日:2022-11-17 08:58:26 公開日:2020-10-02
# 片面フィードバック/フルフィードバック設定におけるより効率的なq-learning

Provably More Efficient Q-Learning in the One-Sided-Feedback/Full-Feedback Settings ( http://arxiv.org/abs/2007.00080v2 )

ライセンス: Link先を確認
Xiao-Yue Gong, David Simchi-Levi(参考訳) 従来の在庫管理問題のエピソディック版に動機づけられ,一方的フィードバック設定において,既存のアルゴリズムよりも効率性が向上する新しいq-learning-based algorithm, elimination-based half-q-learning (hql)を提案する。 また、フルフィードバック設定のためのアルゴリズムであるFull-Q-Learning(FQL)の簡易版も提供します。 HQL は $ \tilde{\mathcal{O}}(H^3\sqrt{T})$ regret であり、FQL は $\tilde{\mathcal{O}}(H^2\sqrt{T})$ regret である。 後悔の限界は、おそらく巨大な状態と行動空間に影響されない。 我々の数値実験は、HQLとFQLの優れた効率と、強化学習とよりリッチなフィードバックモデルを組み合わせる可能性を示している。

Motivated by the episodic version of the classical inventory control problem, we propose a new Q-learning-based algorithm, Elimination-Based Half-Q-Learning (HQL), that enjoys improved efficiency over existing algorithms for a wide variety of problems in the one-sided-feedback setting. We also provide a simpler variant of the algorithm, Full-Q-Learning (FQL), for the full-feedback setting. We establish that HQL incurs $ \tilde{\mathcal{O}}(H^3\sqrt{ T})$ regret and FQL incurs $\tilde{\mathcal{O}}(H^2\sqrt{ T})$ regret, where $H$ is the length of each episode and $T$ is the total length of the horizon. The regret bounds are not affected by the possibly huge state and action space. Our numerical experiments demonstrate the superior efficiency of HQL and FQL, and the potential to combine reinforcement learning with richer feedback models.
翻訳日:2022-11-15 05:04:30 公開日:2020-10-02
# 非定常流れの非線形モデル次数削減のためのディープニューラルネットワーク

Deep Neural Networks for Nonlinear Model Order Reduction of Unsteady Flows ( http://arxiv.org/abs/2007.00936v3 )

ライセンス: Link先を確認
Hamidreza Eivazi, Hadi Veisi, Mohammad Hossein Naderi, Vahid Esfahanian(参考訳) 非定常流体系は、時間と空間の両方で複数の複雑な現象を示す非線形な高次元力学系である。 流体流動のリダクション・オーダー・モデリング(ROM)は近年、複雑な流れを将来の状態予測と制御において最も重要な特徴に分解する主要な目的として、一般的に次元還元技術を用いて、活発な研究トピックとなっている。 本研究では,非定常流体流の次数を減少させるディープニューラルネットワークのパワーに基づく新しいデータ駆動手法を提案する。 特異値分解(SVD)の代替として、非線形次元減少と特徴抽出にオートエンコーダネットワークを用いる。 次に、抽出した特徴を長期記憶ネットワーク(LSTM)の入力として使用し、将来のインスタンスの速度場を予測する。 提案手法は,動的モード分解(DMD)と正規直交分解(POD)に基づく非侵入的縮小順序モデルと比較する。 さらに、オートエンコーダネットワークをsvdランクの切り欠きではなく次元の縮小に利用する減数次モデリングのために、autoencoder-dmdアルゴリズムが導入された。 その結果, オートエンコーダ-LSTM法は, 他のモデルと比較して, R^{2}$の係数の高い値がオートエンコーダ-LSTMを用いて得られる流体の進化を予測することができることがわかった。

Unsteady fluid systems are nonlinear high-dimensional dynamical systems that may exhibit multiple complex phenomena both in time and space. Reduced Order Modeling (ROM) of fluid flows has been an active research topic in the recent decade with the primary goal to decompose complex flows to a set of features most important for future state prediction and control, typically using a dimensionality reduction technique. In this work, a novel data-driven technique based on the power of deep neural networks for reduced order modeling of the unsteady fluid flows is introduced. An autoencoder network is used for nonlinear dimension reduction and feature extraction as an alternative for singular value decomposition (SVD). Then, the extracted features are used as an input for long short-term memory network (LSTM) to predict the velocity field at future time instances. The proposed autoencoder-LSTM method is compared with non-intrusive reduced order models based on dynamic mode decomposition (DMD) and proper orthogonal decomposition (POD). Moreover, an autoencoder-DMD algorithm is introduced for reduced order modeling, which uses the autoencoder network for dimensionality reduction rather than SVD rank truncation. Results show that the autoencoder-LSTM method is considerably capable of predicting fluid flow evolution, where higher values for coefficient of determination $R^{2}$ are obtained using autoencoder-LSTM compared to other models.
翻訳日:2022-11-14 15:03:53 公開日:2020-10-02
# 安定なオフポリティ強化学習のための表現法

Representations for Stable Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2007.05520v2 )

ライセンス: Link先を確認
Dibya Ghosh, Marc G. Bellemare(参考訳) 関数近似による強化学習は不安定で、特にオフポリシー学習やベルマン更新と組み合わせると、さらに多様化する可能性がある。 深層強化学習において、これらの問題は、特に補助的なタスクにおいて、表現の適応と規則化によって経験的に扱われてきた。 これは表現学習が安定性を保証する手段となることを示唆する。 本稿では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現が存在することを正式に示す。 近似誤差,安定性,推定の容易さという3つの軸に沿って,proto-value関数などのポリシーの遷移行列に基づく表現学習スキームを解析した。 最も一般的なケースでは、schur基底は収束保証を提供するが、サンプルから推定することは困難である。 固定報酬関数に対しては、対応するクリロフ部分空間の直交基底がさらによい選択であることが分かる。 我々は,これらの安定表現を確率勾配降下を用いて学習できることを実証的に証明し,深層ネットワークを用いた表現学習技術の改善への扉を開いた。

Reinforcement learning with function approximation can be unstable and even divergent, especially when combined with off-policy learning and Bellman updates. In deep reinforcement learning, these issues have been dealt with empirically by adapting and regularizing the representation, in particular with auxiliary tasks. This suggests that representation learning may provide a means to guarantee stability. In this paper, we formally show that there are indeed nontrivial state representations under which the canonical TD algorithm is stable, even when learning off-policy. We analyze representation learning schemes that are based on the transition matrix of a policy, such as proto-value functions, along three axes: approximation error, stability, and ease of estimation. In the most general case, we show that a Schur basis provides convergence guarantees, but is difficult to estimate from samples. For a fixed reward function, we find that an orthogonal basis of the corresponding Krylov subspace is an even better choice. We conclude by empirically demonstrating that these stable representations can be learned using stochastic gradient descent, opening the door to improved techniques for representation learning with deep networks.
翻訳日:2022-11-11 20:47:06 公開日:2020-10-02
# あなたの損失は 可能性は高いでしょうが

It Is Likely That Your Loss Should be a Likelihood ( http://arxiv.org/abs/2007.06059v2 )

ライセンス: Link先を確認
Mark Hamilton, Evan Shelhamer, William T. Freeman(参考訳) 平均二乗誤差、クロスエントロピー、レコンストラクション損失といった多くの一般的な損失関数は不必要に剛性がある。 確率論的解釈の下で、これらの共通の損失は一定の形状とスケールの分布に対応する。 代わりに、正規分散やソフトマックス温度といったパラメータを含む完全な可能性の最適化を議論する。 これらの「相似パラメータ」とモデルパラメータの合同最適化は、正規化の強さに加えて損失のスケールや形状を適応的に調整することができる。 我々は,ロバストなモデリング,異常検出,再校正のための確率パラメータのパラメータ化と適用方法について検討し,体系的に評価する。 さらに, 正規およびラプラスプリエントのスケールパラメータを適合させることにより, $l_2$ と $l_1$ を適応的に調整し, より柔軟な要素方向正則化器を導入する。

Many common loss functions such as mean-squared-error, cross-entropy, and reconstruction loss are unnecessarily rigid. Under a probabilistic interpretation, these common losses correspond to distributions with fixed shapes and scales. We instead argue for optimizing full likelihoods that include parameters like the normal variance and softmax temperature. Joint optimization of these "likelihood parameters" with model parameters can adaptively tune the scales and shapes of losses in addition to the strength of regularization. We explore and systematically evaluate how to parameterize and apply likelihood parameters for robust modeling, outlier-detection, and re-calibration. Additionally, we propose adaptively tuning $L_2$ and $L_1$ weights by fitting the scale parameters of normal and Laplace priors and introduce more flexible element-wise regularizers.
翻訳日:2022-11-11 05:11:28 公開日:2020-10-02
# ファウショット学習のための注意グラフニューラルネットワーク

Attentive Graph Neural Networks for Few-Shot Learning ( http://arxiv.org/abs/2007.06878v2 )

ライセンス: Link先を確認
Hao Cheng, Joey Tianyi Zhou, Wee Peng Tay and Bihan Wen(参考訳) グラフニューラルネットワーク(GNN)は、数ショットの学習タスクを含む多くの困難なアプリケーションにおいて、優れたパフォーマンスを示している。 少数のサンプルからモデルを学習し、一般化する能力があるにも関わらず、gnnは通常、モデルが深くなり、過度な過剰フィッティングと過剰スムーシングに苦しめられ、スケーラビリティが制限される。 本研究では,ノードの自己注意,近傍の注意,層記憶の注意といった3つの注意機構を組み込むことにより,これらの課題に対処する新しい注意型GNNを提案する。 提案手法は,理論解析と図解を用いた数ショット学習において,GNNを改善できる理由を説明する。 拡張実験の結果,提案したAttentive GNNモデルは,ConvNet-4とResNetベースのバックボーンをインダクティブとトランスダクティブの両設定で,mini-ImageNetとtyred-ImageNetベンチマークを用いて,最先端のGNNとCNNベースの数ショット学習タスクと比較することにより,有望な結果が得られることがわかった。 コードは公開される予定だ。

Graph Neural Networks (GNN) has demonstrated the superior performance in many challenging applications, including the few-shot learning tasks. Despite its powerful capacity to learn and generalize the model from few samples, GNN usually suffers from severe over-fitting and over-smoothing as the model becomes deep, which limit the scalability. In this work, we propose a novel Attentive GNN to tackle these challenges, by incorporating a triple-attention mechanism, i.e. node self-attention, neighborhood attention, and layer memory attention. We explain why the proposed attentive modules can improve GNN for few-shot learning with theoretical analysis and illustrations. Extensive experiments show that the proposed Attentive GNN model achieves the promising results, comparing to the state-of-the-art GNN- and CNN-based methods for few-shot learning tasks, over the mini-ImageNet and tiered-ImageNet benchmarks, under ConvNet-4 and ResNet-based backbone with both inductive and transductive settings. The codes will be made publicly available.
翻訳日:2022-11-10 13:49:34 公開日:2020-10-02
# 時空間ニューラルネットワークのための空間情報の包含について

On the Inclusion of Spatial Information for Spatio-Temporal Neural Networks ( http://arxiv.org/abs/2007.07559v2 )

ライセンス: Link先を確認
Rodrigo de Medrano, Jos\'e L. Aznarte(参考訳) 時空間回帰に直面する場合、空間次元に関する任意の事前情報をモデルに供給することは賢明である。 例えば、空間的近接性、隣接性、相関性に基づくニューラルネットワークのアーキテクチャを定義するのが一般的である。 共通の選択肢は、もし空間情報が利用できなかったり、モデルに導入するには費用がかかりすぎる場合、モデルの余分なステップとして学習することである。 事前の空間知識の使用は、与えられたか学習されたかは有用であるが、この研究では、空間非依存ニューラルネットワークと芸術モデルの状態を比較することによって、この原理を疑問視する。 その結果,多くの場合,先行的な空間情報の包含は必ずしも必要ではないことがわかった。 この逆直感的な結果を検証するため、持続可能なモビリティと空気質に関する10種類のデータセットに対して徹底的な実験を行い、公衆衛生と経済に直接影響する現実世界の問題に関する結論を裏付ける。

When confronting a spatio-temporal regression, it is sensible to feed the model with any available prior information about the spatial dimension. For example, it is common to define the architecture of neural networks based on spatial closeness, adjacency, or correlation. A common alternative, if spatial information is not available or is too costly to introduce it in the model, is to learn it as an extra step of the model. While the use of prior spatial knowledge, given or learnt, might be beneficial, in this work we question this principle by comparing spatial agnostic neural networks with state of the art models. Our results show that the typical inclusion of prior spatial information is not really needed in most cases. In order to validate this counterintuitive result, we perform thorough experiments over ten different datasets related to sustainable mobility and air quality, substantiating our conclusions on real world problems with direct implications for public health and economy.
翻訳日:2022-11-10 04:52:41 公開日:2020-10-02
# MIX'EM:混合埋め込みを用いた教師なし画像分類

MIX'EM: Unsupervised Image Classification using a Mixture of Embeddings ( http://arxiv.org/abs/2007.09502v2 )

ライセンス: Link先を確認
Ali Varamesh, Tinne Tuytelaars(参考訳) 教師なし画像分類のための新しいソリューションMIX'EMを提案する。 mix'emは、汎用クラスタリングアルゴリズムを駆使して高品質な分類を実現するのに十分な表現を生成する。 これは、カテゴリレベルで表現をアンタングルするために、組込みモジュールを対照的な視覚表現学習フレームワークに組み込むことによって達成される。 まず、与えられた視覚的表現から埋め込み係数と混合係数のセットを生成し、それらを単一の埋め込みに結合する。 我々はMIX'EMのトレーニングに成功し、退化した解を避けるための3つの手法を紹介した。 一 エントロピーを最大化して混合成分を多様化すること。 (ii)インスタンス条件付きコンポーネントエントロピーを最小化し、クラスタ化された埋め込み空間を強制し、 (iii)意味的分離性を強制するために連想的埋め込み損失を用いる。 適用することで (i)および (二)混合係数を通して意味圏が出現し、適用することができる (iii) その後、K-meansを表現上で実行し、意味分類を取得する。 STL10, CIFAR10, CIFAR100-20データセットの広範な実験と解析を行い, それぞれ78\%, 82\%, 44\%の最先端分類精度を達成した。 堅牢かつ高精度を達成するためには、混合成分を用いてK平均を初期化することが不可欠である。 最後に、コントラスト損失を用いて学習した「正規化」表現にK平均を適用して得られる競合ベースライン(STL10の70%)を報告する。

We present MIX'EM, a novel solution for unsupervised image classification. MIX'EM generates representations that by themselves are sufficient to drive a general-purpose clustering algorithm to deliver high-quality classification. This is accomplished by building a mixture of embeddings module into a contrastive visual representation learning framework in order to disentangle representations at the category level. It first generates a set of embedding and mixing coefficients from a given visual representation, and then combines them into a single embedding. We introduce three techniques to successfully train MIX'EM and avoid degenerate solutions; (i) diversify mixture components by maximizing entropy, (ii) minimize instance conditioned component entropy to enforce a clustered embedding space, and (iii) use an associative embedding loss to enforce semantic separability. By applying (i) and (ii), semantic categories emerge through the mixture coefficients, making it possible to apply (iii). Subsequently, we run K-means on the representations to acquire semantic classification. We conduct extensive experiments and analyses on STL10, CIFAR10, and CIFAR100-20 datasets, achieving state-of-the-art classification accuracy of 78\%, 82\%, and 44\%, respectively. To achieve robust and high accuracy, it is essential to use the mixture components to initialize K-means. Finally, we report competitive baselines (70\% on STL10) obtained by applying K-means to the "normalized" representations learned using the contrastive loss.
翻訳日:2022-11-09 05:51:22 公開日:2020-10-02
# 依存データから構造化潜在因子を学習する:情報理論から見た生成モデルフレームワーク

Learning Structured Latent Factors from Dependent Data:A Generative Model Framework from Information-Theoretic Perspective ( http://arxiv.org/abs/2007.10623v2 )

ライセンス: Link先を確認
Ruixiang Zhang, Masanori Koyama, Katsuhiko Ishiguro(参考訳) 望ましい構造特性を持つ多変量データの学習制御可能で一般化された表現は、機械学習の基本的な問題である。 本稿では,潜在空間における種々の構造を持つ生成モデルを学ぶための新しい枠組みを提案する。 マスク変数の形で帰納バイアスを表現し、グラフィカルモデルの依存性構造をモデル化し、多変量情報ボトルネックの理論を拡張して適用する。 私たちのモデルは、相関のキャプチャや非分散のエンコーディングなど、様々な種類の望ましい構造を反映した、意味的に意味のある潜在要因のセットを学ぶための原則的なアプローチを提供し、データから依存関係構造を自動的に見積もる柔軟性を提供します。 本フレームワークは既存の生成モデルの多くを統一し,マルチモーダルデータモデリング,アルゴリズムフェアネス,不変リスク最小化など,さまざまなタスクに適用可能であることを示す。

Learning controllable and generalizable representation of multivariate data with desired structural properties remains a fundamental problem in machine learning. In this paper, we present a novel framework for learning generative models with various underlying structures in the latent space. We represent the inductive bias in the form of mask variables to model the dependency structure in the graphical model and extend the theory of multivariate information bottleneck to enforce it. Our model provides a principled approach to learn a set of semantically meaningful latent factors that reflect various types of desired structures like capturing correlation or encoding invariance, while also offering the flexibility to automatically estimate the dependency structure from data. We show that our framework unifies many existing generative models and can be applied to a variety of tasks including multi-modal data modeling, algorithmic fairness, and invariant risk minimization.
翻訳日:2022-11-08 04:02:09 公開日:2020-10-02
# クロスバンド共起解析に基づくGAN生成顔画像のCNN検出

CNN Detection of GAN-Generated Face Images based on Cross-Band Co-occurrences Analysis ( http://arxiv.org/abs/2007.12909v2 )

ライセンス: Link先を確認
Mauro Barni, Kassem Kallas, Ehsan Nowroozi, Benedetta Tondi(参考訳) 次世代のGANモデルでは、視覚的に自然と区別できない合成画像を生成することができ、偽画像と自然画像を区別するツールを開発する必要性が高まっ、デジタル画像の信頼性の維持に寄与する。 現代のGANモデルは、視覚的な空間アーチファクトのない非常に高品質な画像を生成することができるが、カラーチャネル間の一貫した関係の再構築は、予想以上に困難である。 本稿では,合成顔画像の生成に焦点をあて,スペクトル帯域間の不整合を利用して自然画像とGAN生成物を区別する手法を提案する。 具体的には,実顔と合成顔の区別を訓練したcnnモデルへの入力として,空間共起行列に加えてクロスバンド共起行列を用いる。 実験の結果,バンド内空間共起のみに基づいて同様の検出手法を導出する手法の良否を確認した。 性能向上は、幾何学的変換、フィルタリング、コントラスト操作などの後処理に対する堅牢性において特に重要である。

Last-generation GAN models allow to generate synthetic images which are visually indistinguishable from natural ones, raising the need to develop tools to distinguish fake and natural images thus contributing to preserve the trustworthiness of digital images. While modern GAN models can generate very high-quality images with no visible spatial artifacts, reconstruction of consistent relationships among colour channels is expectedly more difficult. In this paper, we propose a method for distinguishing GAN-generated from natural images by exploiting inconsistencies among spectral bands, with specific focus on the generation of synthetic face images. Specifically, we use cross-band co-occurrence matrices, in addition to spatial co-occurrence matrices, as input to a CNN model, which is trained to distinguish between real and synthetic faces. The results of our experiments confirm the goodness of our approach which outperforms a similar detection technique based on intra-band spatial co-occurrences only. The performance gain is particularly significant with regard to robustness against post-processing, like geometric transformations, filtering and contrast manipulations.
翻訳日:2022-11-07 01:01:08 公開日:2020-10-02
# DeVLBert: Visio-Linguistic Representationsを脱構築した学習

DeVLBert: Learning Deconfounded Visio-Linguistic Representations ( http://arxiv.org/abs/2008.06884v2 )

ライセンス: Link先を確認
Shengyu Zhang, Tan Jiang, Tan Wang, Kun Kuang, Zhou Zhao, Jianke Zhu, Jin Yu, Hongxia Yang, Fei Wu(参考訳) 本稿では,事前学習したモデルが微調整される下流データと,事前学習したデータ分布が異なる領域外ビオ・言語事前学習の問題について検討する。 この問題の既存の手法は、純粋に確率ベースであり、ドメイン外の下流タスクに移る際の素早い相関と一般化能力を損なう。 素早い相関によって、あるトークン(オブジェクトまたは単語)が与えられたときの条件付き確率は、その間の堅牢な(因果関係)関係なしに高い(データセットバイアスのため)。 このようなデータセットバイアスを軽減するために、介入に基づく学習を行うために、Decon founded Visio-Linguistic Bert framework(略称DeVLBert)を提案する。 因果関係の研究分野からバックドア調整の考え方を借用し,bert型ドメイン外トレーニングのためのニューラルネットワークベースのアーキテクチャを提案する。 3つの下流タスク、画像検索(IR)、ゼロショットIR、視覚質問応答の定量的結果は、一般化能力の向上によるDeVLBertの有効性を示す。

In this paper, we propose to investigate the problem of out-of-domain visio-linguistic pretraining, where the pretraining data distribution differs from that of downstream data on which the pretrained model will be fine-tuned. Existing methods for this problem are purely likelihood-based, leading to the spurious correlations and hurt the generalization ability when transferred to out-of-domain downstream tasks. By spurious correlation, we mean that the conditional probability of one token (object or word) given another one can be high (due to the dataset biases) without robust (causal) relationships between them. To mitigate such dataset biases, we propose a Deconfounded Visio-Linguistic Bert framework, abbreviated as DeVLBert, to perform intervention-based learning. We borrow the idea of the backdoor adjustment from the research field of causality and propose several neural-network based architectures for Bert-style out-of-domain pretraining. The quantitative results on three downstream tasks, Image Retrieval (IR), Zero-shot IR, and Visual Question Answering, show the effectiveness of DeVLBert by boosting generalization ability.
翻訳日:2022-10-28 08:57:13 公開日:2020-10-02
# 生成的ビュー合成:単一ビューセマンティックから新しいビューイメージへ

Generative View Synthesis: From Single-view Semantics to Novel-view Images ( http://arxiv.org/abs/2008.09106v2 )

ライセンス: Link先を確認
Tewodros Habtegebrial, Varun Jampani, Orazio Gallo, Didier Stricker(参考訳) コンテンツの作成は、仮想現実のようなアプリケーションの中心であり、退屈で時間がかかります。 最近の画像合成手法では、単一の入力画像から新しいビューを生成するツールを提供することや、セマンティックマップをフォトリアリスティック画像に変換することで、この作業を単純化している。 本稿では,このエンベロープをさらに推し進め,単一のセマンティックマップを与えられたシーンの複数のフォトリアリスティックなビューを合成できる生成ビュー合成(GVS)を導入することを提案する。 既存の手法,例えばセマンティックス・ツー・イメージ翻訳とモノクラービュー合成の逐次的適用は,シーンの構造を捉えるのに失敗することを示す。 対照的に,シーンの3次元レイアウトの推定と連動して意味論から画像への変換を解き,意味構造を保存する幾何学的に一貫性のある新しい視点を作り出す。 まず、入力された2Dセマンティックマップを特徴空間内のシーンの3次元層表現に持ち上げ、3次元幾何構造のセマンティックラベルを保存する。 次に、レイヤー化された特徴をターゲットビューに投影し、最終的な新規ビュー画像を生成する。 提案手法の強みを検証し、3つの異なるデータセット上でいくつかの高度なベースラインと比較する。 提案手法では,オブジェクトの追加や削除といったスタイル操作や画像編集も可能で,入力スタイルのイメージとセマンティックマップをそれぞれ簡単な操作で行うことができる。 プロジェクトページはhttps://gvsnet.github.io。

Content creation, central to applications such as virtual reality, can be a tedious and time-consuming. Recent image synthesis methods simplify this task by offering tools to generate new views from as little as a single input image, or by converting a semantic map into a photorealistic image. We propose to push the envelope further, and introduce Generative View Synthesis (GVS), which can synthesize multiple photorealistic views of a scene given a single semantic map. We show that the sequential application of existing techniques, e.g., semantics-to-image translation followed by monocular view synthesis, fail at capturing the scene's structure. In contrast, we solve the semantics-to-image translation in concert with the estimation of the 3D layout of the scene, thus producing geometrically consistent novel views that preserve semantic structures. We first lift the input 2D semantic map onto a 3D layered representation of the scene in feature space, thereby preserving the semantic labels of 3D geometric structures. We then project the layered features onto the target views to generate the final novel-view images. We verify the strengths of our method and compare it with several advanced baselines on three different datasets. Our approach also allows for style manipulation and image editing operations, such as the addition or removal of objects, with simple manipulations of the input style images and semantic maps respectively. Visit the project page at https://gvsnet.github.io.
翻訳日:2022-10-27 03:23:28 公開日:2020-10-02
# 学習画像ラベルを用いたロバスト分類モデルの学習

Learning Image Labels On-the-fly for Training Robust Classification Models ( http://arxiv.org/abs/2009.10325v2 )

ライセンス: Link先を確認
Xiaosong Wang, Ziyue Xu, Dong Yang, Leo Tam, Holger Roth, Daguang Xu(参考訳) 現在のディープラーニングパラダイムは、大量の注釈付きデータの恩恵を受けています。 しかし、アノテーションの品質はしばしばラベル付け者によって異なる。 これらのアノテーションのばらつき(同じデータを複数回ラベル付けすることで)と、医用画像分析のような重要なアプリケーションに対する影響を研究するために、マルチオブザーバーの研究が行われている。 このプロセスは、特定のドメインで専門的なトレーニングと専門知識を必要とする、すでに退屈なアノテーション作業に余計な負担をもたらします。 一方,NLPアルゴリズムに基づく自動アノテーション手法は,臨床システムで広く利用可能である画像の診断報告を頼りに,将来的な代替手段として期待されている。 人間のラベルと比較すると、異なるアルゴリズムは、よりノイズの多い様々な品質のラベルを提供する。 本稿では,ノイズの多いアノテーション(例えば,異なるアルゴリズムに基づくラベル付け)を併用して,分類タスクの学習に相互に役立てる方法について述べる。 具体的には、アテンション・オン・ラベルの概念を導入して、トレーニングデータとして、より優れたラベルセットをオン・ザ・フライでサンプリングする。 メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに対応するように設計されている。 CIFAR-10データセットの分類課題にアテンション・オン・ラベル・スキームを適用し, 病院規模データセット (MIMIC-CXR) とハンドラベルデータセット (OpenI) の胸部X線画像に対して, 通常の訓練パラダイムと比較し, より優れた結果(AUC) を示す。

Current deep learning paradigms largely benefit from the tremendous amount of annotated data. However, the quality of the annotations often varies among labelers. Multi-observer studies have been conducted to study these annotation variances (by labeling the same data for multiple times) and its effects on critical applications like medical image analysis. This process indeed adds an extra burden to the already tedious annotation work that usually requires professional training and expertise in the specific domains. On the other hand, automated annotation methods based on NLP algorithms have recently shown promise as a reasonable alternative, relying on the existing diagnostic reports of those images that are widely available in the clinical system. Compared to human labelers, different algorithms provide labels with varying qualities that are even noisier. In this paper, we show how noisy annotations (e.g., from different algorithm-based labelers) can be utilized together and mutually benefit the learning of classification tasks. Specifically, the concept of attention-on-label is introduced to sample better label sets on-the-fly as the training data. A meta-training based label-sampling module is designed to attend the labels that benefit the model learning the most through additional back-propagation processes. We apply the attention-on-label scheme on the classification task of a synthetic noisy CIFAR-10 dataset to prove the concept, and then demonstrate superior results (3-5% increase on average in multiple disease classification AUCs) on the chest x-ray images from a hospital-scale dataset (MIMIC-CXR) and hand-labeled dataset (OpenI) in comparison to regular training paradigms.
翻訳日:2022-10-15 21:31:37 公開日:2020-10-02
# 貯留層モニタリングのための変分オートエンコーダ

A Variational Auto-Encoder for Reservoir Monitoring ( http://arxiv.org/abs/2009.11693v2 )

ライセンス: Link先を確認
Kristian Gundersen, Seyyed A. Hosseini, Anna Oleynik, Guttorm Alendal(参考訳) 二酸化炭素キャプチャー・アンド・ストレージ(CCS)は、人為的CO$2$排出を緩和する重要な戦略である。 CCSが成功するためには、大量のCO$_2$を保管し、ストレージサイトの適合性を監視する必要がある。 本稿では,上層域監視区間(azmi)井戸からの圧力データに基づいて,圧力場を再構成し,貯蔵層のフラックスを分類する深層学習法を提案する。 深層学習法は、インクリメンタルな圧力場の再構築と漏洩率分類という2つの課題を解くために設計された半条件変分自動エンコーダのバージョンである。 本手法は,co$_2$リークによるazmiの地下co$_2$移動と圧力変化をシミュレートした高忠実性不均一な2次元数値貯留層モデルから得られた合成データから,推定値,予測値および不確実性推定値を示す。

Carbon dioxide Capture and Storage (CCS) is an important strategy in mitigating anthropogenic CO$_2$ emissions. In order for CCS to be successful, large quantities of CO$_2$ must be stored and the storage site conformance must be monitored. Here we present a deep learning method to reconstruct pressure fields and classify the flux out of the storage formation based on the pressure data from Above Zone Monitoring Interval (AZMI) wells. The deep learning method is a version of a semi conditional variational auto-encoder tailored to solve two tasks: reconstruction of an incremental pressure field and leakage rate classification. The method, predictions and associated uncertainty estimates are illustrated on the synthetic data from a high-fidelity heterogeneous 2D numerical reservoir model, which was used to simulate subsurface CO$_2$ movement and pressure changes in the AZMI due to a CO$_2$ leakage.
翻訳日:2022-10-15 15:53:50 公開日:2020-10-02
# 不均質データからのオーバーザ・エアフェデレート学習

Over-the-Air Federated Learning from Heterogeneous Data ( http://arxiv.org/abs/2009.12787v2 )

ライセンス: Link先を確認
Tomer Sery, Nir Shlezinger, Kobi Cohen and Yonina C. Eldar(参考訳) Federated Learning (FL) は集中型モデルの分散学習のためのフレームワークである。 flでは、一連のエッジデバイスがローカルデータを使用してモデルをトレーニングし、トレーニングされたアップデートを中央サーバと繰り返し交換する。 この方法では、ユーザがプライベートなデータを共有せずに、集中的なモデルを分散形式でチューニングできる。 本稿では,最近提案されているover-the-air (ota) flに着目し,無線回線上の多数のユーザによるモデル更新の繰り返し送信により,flの通信オーバーヘッドを削減することを提案する。 OTA FLでは、すべてのユーザが同時に、複数のアクセスチャネル上でアナログ信号として更新を送信し、サーバはアナログ送信信号の重ね合わせを受け取る。 しかし、このアプローチは、チャネルノイズが最適化手順に直接影響し、トレーニングされたモデルの精度が低下する可能性がある。 本稿では,共通局所確率勾配降下(sgd)flアルゴリズムを拡張し,ユーザの事前コーディングとサーバのスケーリングを導入する収束型ota fl(cotaf)アルゴリズムを開発し,ノイズの影響を徐々に緩和する。 我々は,COTAFの損失最小化モデルへの収束を解析し,各ユーザのトレーニングデータが異なる分布に従えば,統計的に不均一な設定の効果を定量化する。 解析の結果,誤りのないチャネル上で実現可能な収束率をcotafが達成できることが明らかになった。 非合成データセットを用いたトレーニングのためのバニラOTA局所SGDに対するCOTAFの収束性の向上をシミュレーションにより実証した。 さらに,COTAFにより誘導されるプリコーディングにより,OTA FLを用いてトレーニングしたモデルの収束率と精度が著しく向上することを示す。

Federated learning (FL) is a framework for distributed learning of centralized models. In FL, a set of edge devices train a model using their local data, while repeatedly exchanging their trained updates with a central server. This procedure allows tuning a centralized model in a distributed fashion without having the users share their possibly private data. In this paper, we focus on over-the-air (OTA) FL, which has been suggested recently to reduce the communication overhead of FL due to the repeated transmissions of the model updates by a large number of users over the wireless channel. In OTA FL, all users simultaneously transmit their updates as analog signals over a multiple access channel, and the server receives a superposition of the analog transmitted signals. However, this approach results in the channel noise directly affecting the optimization procedure, which may degrade the accuracy of the trained model. We develop a Convergent OTA FL (COTAF) algorithm which enhances the common local stochastic gradient descent (SGD) FL algorithm, introducing precoding at the users and scaling at the server, which gradually mitigates the effect of the noise. We analyze the convergence of COTAF to the loss minimizing model and quantify the effect of a statistically heterogeneous setup, i.e. when the training data of each user obeys a different distribution. Our analysis reveals the ability of COTAF to achieve a convergence rate similar to that achievable over error-free channels. Our simulations demonstrate the improved convergence of COTAF over vanilla OTA local SGD for training using non-synthetic datasets. Furthermore, we numerically show that the precoding induced by COTAF notably improves the convergence rate and the accuracy of models trained via OTA FL.
翻訳日:2022-10-14 03:26:34 公開日:2020-10-02
# 視覚センサネットワークのためのマルチフォーカス画像融合

Multi-focus Image Fusion for Visual Sensor Networks ( http://arxiv.org/abs/2009.13615v3 )

ライセンス: Link先を確認
Milad Abdollahzadeh, Touba Malekzadeh, Hadi Seyedarabi(参考訳) 視覚センサネットワーク(VSN)における画像融合は、同一シーンの複数の画像からの情報を組み合わせて、1つの画像をより多くの情報で変換することを目的としている。 離散コサイン変換(DCT)に基づく画像融合法は、DCTに基づく画像とビデオの標準規格において、より複雑で時間節約であり、VSNアプリケーションに適している。 本稿では,DCT領域における多焦点画像の融合のための効率的なアルゴリズムを提案する。 ソース画像の対応するブロックの修正ラプラシアン(SML)の和をコントラスト基準とし、SMLの値が大きいブロックを吸収して出力する。 複数の画像に対する実験結果から,他のDCT法と比較して,融合画像の主観的品質と客観的品質の両方の観点から,提案アルゴリズムの改良が示された。

Image fusion in visual sensor networks (VSNs) aims to combine information from multiple images of the same scene in order to transform a single image with more information. Image fusion methods based on discrete cosine transform (DCT) are less complex and time-saving in DCT based standards of image and video which makes them more suitable for VSN applications. In this paper, an efficient algorithm for the fusion of multi-focus images in the DCT domain is proposed. The Sum of modified laplacian (SML) of corresponding blocks of source images is used as a contrast criterion and blocks with the larger value of SML are absorbed to output images. The experimental results on several images show the improvement of the proposed algorithm in terms of both subjective and objective quality of fused image relative to other DCT based techniques.
翻訳日:2022-10-13 22:35:27 公開日:2020-10-02
# 感性分析のためのマルチタスク・マルチタスク分析フレームワーク

A Multi-term and Multi-task Analyzing Framework for Affective Analysis in-the-wild ( http://arxiv.org/abs/2009.13885v2 )

ライセンス: Link先を確認
Sachihiro Youoku, Yuushi Toyoda, Takahisa Yamamoto, Junya Saito, Ryosuke Kawamura, Xiaoyu Mi and Kentaro Murase(参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な要素である。 しかし,Wildデータを用いた手法の開発は,実用化には不十分である。 本稿では,ABAW(Affective Behavior Analysis in-the-wild)2020 Contestに提出されたVA(valence-arousal)とEXP(Expression)に着目した感情認識手法を提案する。 映像データから特徴パラメータを抽出するための分析フレームワークに複数の最適化された時間ウィンドウ(短期,中期,長期)を導入した。 さらに、アクションユニット、ヘッドポーズ、視線、姿勢、およびresnet 50を含む複数のモダリティデータまたは効率的なネット特徴を使用して、これらの特徴を抽出する際に最適化する。 そして,各時間ウィンドウに対する感情認識モデルを作成し,それらのモデルを組み合わせてアンサンブルした。 また,表情の背後にある基本的な心理状態が相互に密接な関係にあることを考慮し,ヴァレンス,覚醒,表現モデルを融合してマルチタスク学習を可能にした。 検証セットでは,valence-arousal score 0.498,face expression score 0.471を得た。 これらの検証結果から,提案フレームワークは推定精度とロバスト性を効果的に向上できることがわかった。

Human affective recognition is an important factor in human-computer interaction. However, the method development with in-the-wild data is not yet accurate enough for practical usage. In this paper, we introduce the affective recognition method focusing on valence-arousal (VA) and expression (EXP) that was submitted to the Affective Behavior Analysis in-the-wild (ABAW) 2020 Contest. Since we considered that affective behaviors have many observable features that have their own time frames, we introduced multiple optimized time windows (short-term, middle-term, and long-term) into our analyzing framework for extracting feature parameters from video data. Moreover, multiple modality data are used, including action units, head poses, gaze, posture, and ResNet 50 or Efficient NET features, and are optimized during the extraction of these features. Then, we generated affective recognition models for each time window and ensembled these models together. Also, we fussed the valence, arousal, and expression models together to enable the multi-task learning, considering the fact that the basic psychological states behind facial expressions are closely related to each another. In the validation set, our model achieved a valence-arousal score of 0.498 and a facial expression score of 0.471. These verification results reveal that our proposed framework can improve estimation accuracy and robustness effectively.
翻訳日:2022-10-13 06:38:15 公開日:2020-10-02
# 人間活動認識のための注意駆動型ボディポーズ符号化

Attention-Driven Body Pose Encoding for Human Activity Recognition ( http://arxiv.org/abs/2009.14326v2 )

ライセンス: Link先を確認
B Debnath, M O'brien, S Kumar, A Behera(参考訳) 本稿では,学習対象の豊かな表現を提示する,人間の行動認識のための新しい注目に基づくボディポーズ符号化を提案する。 濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。 本稿では, 3次元関節の所定の配列から特徴表現の強化を学習する新しい手法を提案する。 このエンコーディングを実現するために、アプローチは利用します 1 各時点における各体節間の空間的関係を符号化し、異なる体節の空間的分布を含む空間的構造を学習する空間的流れ 2) 時間的に拡張された表現を提示するために, 個々の関節の時間的変動をシーケンス全体を通して学習する時間的流れ。 その後、これら2つのポーズストリームをマルチヘッドアテンション機構で融合する。 %であった。 Inception-ResNet-V2モデルとマルチヘッドアテンションと双方向Long Short-Term Memory(LSTM)ネットワークを組み合わせることで,RGBビデオストリームからコンテキスト情報をキャプチャする。 %Moreoverでは,マルチヘッドアテンション機構により性能が向上した。 最後に、RGBビデオストリームを融合したボディポーズストリームと組み合わせることで、人間の活動認識を効果的にするための新しいエンドツーエンドのディープモデルを提供する。

This article proposes a novel attention-based body pose encoding for human activity recognition that presents a enriched representation of body-pose that is learned. The enriched data complements the 3D body joint position data and improves model performance. In this paper, we propose a novel approach that learns enhanced feature representations from a given sequence of 3D body joints. To achieve this encoding, the approach exploits 1) a spatial stream which encodes the spatial relationship between various body joints at each time point to learn spatial structure involving the spatial distribution of different body joints 2) a temporal stream that learns the temporal variation of individual body joints over the entire sequence duration to present a temporally enhanced representation. Afterwards, these two pose streams are fused with a multi-head attention mechanism. % adapted from neural machine translation. We also capture the contextual information from the RGB video stream using a Inception-ResNet-V2 model combined with a multi-head attention and a bidirectional Long Short-Term Memory (LSTM) network. %Moreover, we whose performance is enhanced through the multi-head attention mechanism. Finally, the RGB video stream is combined with the fused body pose stream to give a novel end-to-end deep model for effective human activity recognition.
翻訳日:2022-10-13 06:11:18 公開日:2020-10-02
# 多領域分割のための実画像正規化

Realistic Image Normalization for Multi-Domain Segmentation ( http://arxiv.org/abs/2009.14024v3 )

ライセンス: Link先を確認
Pierre-Luc Delisle, Benoit Anctil-Robitaille, Christian Desrosiers and Herve Lombaert(参考訳) 画像正規化は、医用画像解析におけるビルディングブロックである。 従来のアプローチは、通常、データセットごとに利用される。 しかしこの戦略は、現在の正規化アルゴリズムが複数のデータセットで利用可能な複雑な結合情報を十分に活用することを防ぐ。 したがって、これらのジョイント情報を無視することは、セグメンテーションアルゴリズムの性能に直接影響する。 本稿では,複数のデータセットにまたがる共通正規化関数を学習することで,従来の画像正規化手法を再検討する。 複数のデータセットを共同で正規化することにより、一貫した正規化イメージと改善されたイメージセグメンテーションが得られる。 そこで本手法では,現状と同等の性能を維持しつつ,現実的かつ解釈可能な画像のトレーニングを容易にするため,完全自動対向正規化手法を用いる。 ネットワークの対角トレーニングは,セグメント化精度とリアル画像の生成の両方を改善するために最適な転送関数を求めることを目的としている。 iSEG, MRBrainS, ABIDEデータセットを用いて, 乳児および成人の脳画像における正常化器の性能を評価した。 その結果, セグメント化に対する正規化アプローチの可能性が明らかになり, ベースラインよりも57.5%向上した。 また,複数の画像領域から学習する際のサンプル数を増やすことで,データの可用性を向上させることができる。

Image normalization is a building block in medical image analysis. Conventional approaches are customarily utilized on a per-dataset basis. This strategy, however, prevents the current normalization algorithms from fully exploiting the complex joint information available across multiple datasets. Consequently, ignoring such joint information has a direct impact on the performance of segmentation algorithms. This paper proposes to revisit the conventional image normalization approach by instead learning a common normalizing function across multiple datasets. Jointly normalizing multiple datasets is shown to yield consistent normalized images as well as an improved image segmentation. To do so, a fully automated adversarial and task-driven normalization approach is employed as it facilitates the training of realistic and interpretable images while keeping performance on-par with the state-of-the-art. The adversarial training of our network aims at finding the optimal transfer function to improve both the segmentation accuracy and the generation of realistic images. We evaluated the performance of our normalizer on both infant and adult brains images from the iSEG, MRBrainS and ABIDE datasets. Results reveal the potential of our normalization approach for segmentation, with Dice improvements of up to 57.5% over our baseline. Our method can also enhance data availability by increasing the number of samples available when learning from multiple imaging domains.
翻訳日:2022-10-13 06:03:22 公開日:2020-10-02
# 候補中心を持たないクラスタリング問題の近似可能性について

On Approximability of Clustering Problems Without Candidate Centers ( http://arxiv.org/abs/2010.00087v2 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Karthik C. S., and Euiwoong Lee(参考訳) k-means の目的は、メトリック空間におけるクラスタリングタスクのモデリングに最も広く使われているコスト関数である。 実践的かつ歴史的に、k-平均は連続的な設定、すなわち、中心が計量空間のどこにでも配置できる場所で考えられている。 例えば、人気のあるロイドのヒューリスティックは、各クラスタの平均に中心を配置する。 k-means の近似可能性や k-median や k-minsum のような古典的なクラスタリング問題を理解する努力は絶え間ないが、これらの問題の近似因子の難しさに関する我々の知識は依然として極めて乏しいままである。 本稿では,これらの目的のために文献で知られている近似因子の硬さを著しく改善する。 入力が一般計量空間にある場合、NP-ハードで近似できることが示される:$\bullet$ Continuous k-median to a factor of $2-o(1)$; これは、Guha と Khuller (J. Algorithms '99) が示した 1.36 の前の不近似係数を改善する。 $\bullet$ 4- o(1)$ の連続 k-平均は、Guha と Khuller (J. Algorithms '99) が示した2.10 の非近似係数により改善される。 $\bullet$ k-minsum to a factor of $1.415$, this improves on the APX-hardness shown by Guruswami and Indyk (SODA '03)。 その結果、連続設定におけるクラスタリング問題と離散設定(入力の一部として候補センターが与えられる)の違いについて、新しくて直観に反する光が得られた。

The k-means objective is arguably the most widely-used cost function for modeling clustering tasks in a metric space. In practice and historically, k-means is thought of in a continuous setting, namely where the centers can be located anywhere in the metric space. For example, the popular Lloyd's heuristic locates a center at the mean of each cluster. Despite persistent efforts on understanding the approximability of k-means, and other classic clustering problems such as k-median and k-minsum, our knowledge of the hardness of approximation factors of these problems remains quite poor. In this paper, we significantly improve upon the hardness of approximation factors known in the literature for these objectives. We show that if the input lies in a general metric space, it is NP-hard to approximate: $\bullet$ Continuous k-median to a factor of $2-o(1)$; this improves upon the previous inapproximability factor of 1.36 shown by Guha and Khuller (J. Algorithms '99). $\bullet$ Continuous k-means to a factor of $4- o(1)$; this improves upon the previous inapproximability factor of 2.10 shown by Guha and Khuller (J. Algorithms '99). $\bullet$ k-minsum to a factor of $1.415$; this improves upon the APX-hardness shown by Guruswami and Indyk (SODA '03). Our results shed new and perhaps counter-intuitive light on the differences between clustering problems in the continuous setting versus the discrete setting (where the candidate centers are given as part of the input).
翻訳日:2022-10-13 00:38:12 公開日:2020-10-02
# ソーシャルメディアテキストからの視点型推論

Point-of-Interest Type Inference from Social Media Text ( http://arxiv.org/abs/2009.14734v2 )

ライセンス: Link先を確認
Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras(参考訳) 物理的な場所は、私たちが経験した経験をどう知覚するかを形作るのに役立つ。 初めて、ソーシャルメディアのテキストと投稿された場所のタイプ、あるいは公園、レストラン、あるいは他の場所との関係を調査した。 そこで本研究では,米国内2,761ヶ所の異なる関心点から発信された20万英ツイートの新たなデータセットを紹介する。 ツイートが送信された場所のタイプを予測するために、分類器を訓練し、8つのクラスで43.67のマクロF1に達し、それぞれのタイプの場所に関連する言語マーカーを明らかにする。 ツイートから意味的な場所情報を予測する能力は、レコメンデーションシステム、パーソナライズサービス、文化地理学に応用できる。

Physical places help shape how we perceive the experiences we have there. For the first time, we study the relationship between social media text and the type of the place from where it was posted, whether a park, restaurant, or someplace else. To facilitate this, we introduce a novel data set of $\sim$200,000 English tweets published from 2,761 different points-of-interest in the U.S., enriched with place type information. We train classifiers to predict the type of the location a tweet was sent from that reach a macro F1 of 43.67 across eight classes and uncover the linguistic markers associated with each type of place. The ability to predict semantic place information from a tweet has applications in recommendation systems, personalization services and cultural geography.
翻訳日:2022-10-13 00:13:50 公開日:2020-10-02
# Encode the Unseen: スケーラブルなミッドストリーム検索のための予測ビデオハッシュ

Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream Retrieval ( http://arxiv.org/abs/2009.14661v2 )

ライセンス: Link先を確認
Tong Yu, Nicolas Padoy(参考訳) 本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。 このタスクは、再生中のビデオに類似したコンテンツのデータベースを検索することから成り、例えばライブストリームから、挑戦的な特徴を示す。 ビデオの開始部分だけがクェリとして利用可能であり、ビデオが再生されるたびに新しいフレームが常に追加される。 この要求状況下で検索を行うために,(1)欠落した映像コンテンツをクエリ時に考慮し,(2)ストリーミングを通して連続的に進化するクエリに追従するため,予測的かつ漸進的なバイナリエンコーダに基づくアプローチを提案する。 特に,現在再生中のビデオの未認識のコンテンツを推測する最初のハッシュフレームワークを提案する。 FCVIDとActivityNetの実験は、このタスクの実現可能性を示している。 また,本手法では,本手法の文献に適合するベースラインに比べて,mAP@20の性能が著しく向上する。例えば,192ビットのビットコードを用いたFCVID上での実行時の20% (50%) で7.4% (2.6%) 向上する。

This paper tackles a new problem in computer vision: mid-stream video-to-video retrieval. This task, which consists in searching a database for content similar to a video right as it is playing, e.g. from a live stream, exhibits challenging characteristics. Only the beginning part of the video is available as query and new frames are constantly added as the video plays out. To perform retrieval in this demanding situation, we propose an approach based on a binary encoder that is both predictive and incremental in order to (1) account for the missing video content at query time and (2) keep up with repeated, continuously evolving queries throughout the streaming. In particular, we present the first hashing framework that infers the unseen future content of a currently playing video. Experiments on FCVID and ActivityNet demonstrate the feasibility of this task. Our approach also yields a significant mAP@20 performance increase compared to a baseline adapted from the literature for this task, for instance 7.4% (2.6%) increase at 20% (50%) of elapsed runtime on FCVID using bitcodes of size 192 bits.
翻訳日:2022-10-12 23:52:57 公開日:2020-10-02
# Pairwise Deep Architectureによるアクションユニット認識

Action Units Recognition by Pairwise Deep Architecture ( http://arxiv.org/abs/2010.00288v2 )

ライセンス: Link先を確認
Junya Saito, Ryosuke Kawamura, Akiyoshi Uchida, Sachihiro Youoku, Yuushi Toyoda, Takahisa Yamamoto, Xiaoyu Mi and Kentaro Murase(参考訳) 本稿では,ABAW(Affective Behavior Analysis in the-wild)という,新たな自動行動単位(AU)認識手法を提案する。 提案手法は,AUsラベルの不整合の問題に,対角深層アーキテクチャを用いて対処する。 ベースラインスコアは 0.31 であるが, コンペティションの検証データセットでは 0.67 となった。

In this paper, we propose a new automatic Action Units (AUs) recognition method used in a competition, Affective Behavior Analysis in-the-wild (ABAW). Our method tackles a problem of AUs label inconsistency among subjects by using pairwise deep architecture. While the baseline score is 0.31, our method achieved 0.67 in validation dataset of the competition.
翻訳日:2022-10-12 08:20:40 公開日:2020-10-02
# 誤り法から学習した線形支持ベクトルマシンを用いたクエーサー検出

Quasar Detection using Linear Support Vector Machine with Learning From Mistakes Methodology ( http://arxiv.org/abs/2010.00401v2 )

ライセンス: Link先を確認
Aniruddh Herle, Janamejaya Channegowda, Dinakar Prabhu(参考訳) 天文学の分野は膨大な量のデータの収集と同化を必要とする。 科学機器が毎晩生成するデータ量が指数関数的に増加するにつれて、データ処理と処理の問題は深刻化している。 この問題は、主に手動でデータを処理する従来の方法では広範に行われているが、機械学習アプローチを使うには最適な設定である。 天文学の分類器を構築する一方で、超新星やクエーサーのような希少な天体が検出損失のために失われるコストは、これらの天体の希少さと科学的価値を考えると、多くの偽陽性を持つよりもはるかに重い。 本稿では,超大質量ブラックホールを光集積ディスクで囲む非常に明るい物体であるクエーサーを検出するために,LSVM(Linear Support Vector Machine)を提案する。 天文学では、クエーサーを正しく同定することが不可欠であり、自然界では極めて稀である。 それらのラリティーは、考慮する必要があるクラス不均衡の問題を生み出します。 分類器の設計には, クラス不均衡問題と誤分類コストが考慮される。 この検出を実現するために、新しい分類器を探索し、その性能を評価する。 その結果、LSVMとEnsemble Bagged Trees(EBT)は、ミステイクスの手法を用いて、偽陰性率を10倍に下げることに成功した。

The field of Astronomy requires the collection and assimilation of vast volumes of data. The data handling and processing problem has become severe as the sheer volume of data produced by scientific instruments each night grows exponentially. This problem becomes extensive for conventional methods of processing the data, which was mostly manual, but is the perfect setting for the use of Machine Learning approaches. While building classifiers for Astronomy, the cost of losing a rare object like supernovae or quasars to detection losses is far more severe than having many false positives, given the rarity and scientific value of these objects. In this paper, a Linear Support Vector Machine (LSVM) is explored to detect Quasars, which are extremely bright objects in which a supermassive black hole is surrounded by a luminous accretion disk. In Astronomy, it is vital to correctly identify quasars, as they are very rare in nature. Their rarity creates a class-imbalance problem that needs to be taken into consideration. The class-imbalance problem and high cost of misclassification are taken into account while designing the classifier. To achieve this detection, a novel classifier is explored, and its performance is evaluated. It was observed that LSVM along with Ensemble Bagged Trees (EBT) achieved a 10x reduction in the False Negative Rate, using the Learning from Mistakes methodology.
翻訳日:2022-10-12 07:25:58 公開日:2020-10-02
# AVECL-UMONSデータベースによる音声・視覚イベントの分類と位置推定

AVECL-UMONS database for audio-visual event classification and localization ( http://arxiv.org/abs/2011.01018v1 )

ライセンス: Link先を確認
Mathilde Brousmiche and St\'ephane Dupont and Jean Rouat(参考訳) AVECL-UMons データセットを導入し,オフィス環境における音声・視覚イベントの分類と位置決めを行う。 視聴覚データセットは、2つの異なる部屋の複数の現実的な位置で記録された11のイベントクラスで構成されている。 2種類のシーケンスは、シーケンス内のイベントの数に応じて記録される。 データセットは、合計5.24時間に対応する2662のunilabelシーケンスと2724のマルチラベルシーケンスからなる。 データセットはオンラインで公開されている。 https://zenodo.org/record/3965492#。 X09wsobgrCI

We introduce the AVECL-UMons dataset for audio-visual event classification and localization in the context of office environments. The audio-visual dataset is composed of 11 event classes recorded at several realistic positions in two different rooms. Two types of sequences are recorded according to the number of events in the sequence. The dataset comprises 2662 unilabel sequences and 2724 multilabel sequences corresponding to a total of 5.24 hours. The dataset is publicly accessible online : https://zenodo.org/record/3965492#.X09wsobgrCI.
翻訳日:2022-10-12 02:43:20 公開日:2020-10-02
# 対角Barzilai-Borwein段差を持つ可変距離最小バッチ確率確率再帰勾配アルゴリズム

A variable metric mini-batch proximal stochastic recursive gradient algorithm with diagonal Barzilai-Borwein stepsize ( http://arxiv.org/abs/2010.00817v1 )

ライセンス: Link先を確認
Tengteng Yu, Xin-Wei Liu, Yu-Hong Dai and Jie Sun(参考訳) 異なる距離選択を持つ可変距離近位勾配法は、合成最適化に広く用いられている。 Barzilai-Borwein(BB)法とこの計量の対角選択戦略を組み合わせることで、対角BB段差はスカラーBB段差として低いステップ毎の計算コストを保ち、問題の局所幾何学をよりよく捉えることができる。 本稿では,新しい対角線BB段差を用いて,パラメータを更新する可変距離最小バッチ確率確率再帰勾配アルゴリズムVM-mSRGBBを提案する。 VM-mSRGBB の線型収束は、強い凸、非強凸、凸関数に対して確立される。 標準データセットの数値実験により、VM-mSRGBBは、最高の調整スカラーステップサイズやBBステップサイズを持つ確率勾配法の分散よりも優れているか同等であることが示された。 さらに、VM-mSRGBBの性能は、いくつかの高度なミニバッチ近位勾配法よりも優れている。

Variable metric proximal gradient methods with different metric selections have been widely used in composite optimization. Combining the Barzilai-Borwein (BB) method with a diagonal selection strategy for the metric, the diagonal BB stepsize can keep low per-step computation cost as the scalar BB stepsize and better capture the local geometry of the problem. In this paper, we propose a variable metric mini-batch proximal stochastic recursive gradient algorithm VM-mSRGBB, which updates the metric using a new diagonal BB stepsize. The linear convergence of VM-mSRGBB is established for strongly convex, non-strongly convex and convex functions. Numerical experiments on standard data sets show that VM-mSRGBB is better than or comparable to some variance reduced stochastic gradient methods with best-tuned scalar stepsizes or BB stepsizes. Furthermore, the performance of VM-mSRGBB is superior to some advanced mini-batch proximal stochastic gradient methods.
翻訳日:2022-10-12 02:43:12 公開日:2020-10-02
# madras : マルチエージェント駆動シミュレータ

MADRaS : Multi Agent Driving Simulator ( http://arxiv.org/abs/2010.00993v1 )

ライセンス: Link先を確認
Anirban Santara, Sohan Rudra, Sree Aditya Buridi, Meha Kaushik, Abhishek Naik, Bharat Kaul, Balaraman Ravindran(参考訳) 本研究では,自律運転のための動作計画アルゴリズムの設計と評価に使用するオープンソースのマルチエージェント運転シミュレータMADRaSを提案する。 madrasは、強化学習やその他の機械学習アルゴリズムを使用して、複数の運転エージェントがモーションプランニングタスクのためにトレーニングできる、さまざまな高速道路とトラックの運転シナリオを構築するプラットフォームを提供する。 MADRaSはオープンソースのカーレースシミュレータTORCS上に構築されている。 TORCSは様々な動的特性を持つ様々な車と、異なるジオメトリーと表面特性を持つ駆動トラックを提供している。 MADRaSはTORCSからこれらの機能を継承し、マルチエージェントトレーニング、車間通信、ノイズ観測、確率的行動、および現実世界で遭遇する困難な交通条件をシミュレートするためにプログラム可能なカスタム交通車両をサポートする。 MADRaSは、正確に定義されたステップで8つの軸に沿って複雑な調整が可能な駆動タスクを作成するために使用できる。 これはカリキュラムや継続的な学習に特に適している。 MADRaSは軽量で、各車の独立制御に便利なOpenAI Gymインターフェースを提供する。 torcsの原始的なステアリング・アクセラレーション・ブレーキ制御モードとは別に、madrasは階層的なトラック位置 -- 速度制御を提供する。 MADRaSはマルチプロセスを使用して各エージェントを並列プロセスとして実行し、RLLibのような一般的な強化学習ライブラリとうまく統合する。

In this work, we present MADRaS, an open-source multi-agent driving simulator for use in the design and evaluation of motion planning algorithms for autonomous driving. MADRaS provides a platform for constructing a wide variety of highway and track driving scenarios where multiple driving agents can train for motion planning tasks using reinforcement learning and other machine learning algorithms. MADRaS is built on TORCS, an open-source car-racing simulator. TORCS offers a variety of cars with different dynamic properties and driving tracks with different geometries and surface properties. MADRaS inherits these functionalities from TORCS and introduces support for multi-agent training, inter-vehicular communication, noisy observations, stochastic actions, and custom traffic cars whose behaviours can be programmed to simulate challenging traffic conditions encountered in the real world. MADRaS can be used to create driving tasks whose complexities can be tuned along eight axes in well-defined steps. This makes it particularly suited for curriculum and continual learning. MADRaS is lightweight and it provides a convenient OpenAI Gym interface for independent control of each car. Apart from the primitive steering-acceleration-brake control mode of TORCS, MADRaS offers a hierarchical track-position -- speed control that can potentially be used to achieve better generalization. MADRaS uses multiprocessing to run each agent as a parallel process for efficiency and integrates well with popular reinforcement learning libraries like RLLib.
翻訳日:2022-10-12 02:42:39 公開日:2020-10-02
# 自己回帰型マルチステートノートモデルを用いたポリフォニックピアノの転写

Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model ( http://arxiv.org/abs/2010.01104v1 )

ライセンス: Link先を確認
Taegyun Kwon, Dasaem Jeong and Juhan Nam(参考訳) ポリフォニックピアノの書き起こしの最近の進歩は、主に、状態の時間的進化の開始や維持、モデル化といった異なる音符状態を検出するニューラルネットワークアーキテクチャを意図的に設計することによる。 しかし、大多数は個々のノート状態に別々のニューラルネットワークを使用し、それによって複数の損失関数を最適化し、ステートワイドニューラルネットワーク間の抽象的な接続や後処理モジュールを使用することで、ノート状態の時間的進化を処理する。 本稿では,単一損失関数を持つソフトマックス出力として複数の音符状態が予測され,単一ニューラルネットワーク内の自己回帰接続によって時間順序が学習される統一ニューラルネットワークアーキテクチャを提案する。 このコンパクトモデルは、アーキテクチャの複雑さなしにメモ状態を増やすことができる。 MAESTROデータセットを用いて、オン、オンセット、サスペンション、再オンセット、オフセット、オフを含む複数のノート状態の組み合わせを調べる。 また,オートレグレッシブモジュールがノートの州間依存性を効果的に学習することを示す。 最後に,提案モデルが,パラメータの少ない最先端技術に匹敵する性能を実現することを示す。

Recent advances in polyphonic piano transcription have been made primarily by a deliberate design of neural network architectures that detect different note states such as onset or sustain and model the temporal evolution of the states. The majority of them, however, use separate neural networks for each note state, thereby optimizing multiple loss functions, and also they handle the temporal evolution of note states by abstract connections between the state-wise neural networks or using a post-processing module. In this paper, we propose a unified neural network architecture where multiple note states are predicted as a softmax output with a single loss function and the temporal order is learned by an auto-regressive connection within the single neural network. This compact model allows to increase note states without architectural complexity. Using the MAESTRO dataset, we examine various combinations of multiple note states including on, onset, sustain, re-onset, offset, and off. We also show that the autoregressive module effectively learns inter-state dependency of notes. Finally, we show that our proposed model achieves performance comparable to state-of-the-arts with fewer parameters.
翻訳日:2022-10-12 02:42:01 公開日:2020-10-02
# グループレコメンデーションにおけるデータスパリティの克服

Overcoming Data Sparsity in Group Recommendation ( http://arxiv.org/abs/2010.00813v1 )

ライセンス: Link先を確認
Hongzhi Yin, Qinyong Wang, Kai Zheng, Zhixu Li, Xiaofang Zhou(参考訳) 日常生活におけるユーザグループへの満足度向上を推奨するシステムにとって,これは重要な課題である。 このタスクにおける大きな課題は、グループメンバーの個人的な好みを集約してグループの決定を推測する方法である。 従来のグループレコメンデーション手法は、優先集約のための事前定義された戦略を適用した。 しかし、これらの静的戦略は、特に時折アドホックを形成するグループに対して、グループの意思決定の現実的かつ複雑なプロセスをモデル化するには、あまりにも単純である。 さらに、グループメンバーはグループ内で一様でない影響や重みを持つべきであり、ユーザの重みは異なるグループで異なることができる。 したがって、理想的なグループ推薦システムは、ユーザの個人の好みだけでなく、データから好みの集約戦略を正確に学習できるべきである。 本稿では,cagr (centrality aware group recommender の略) という新しいエンド・ツー・エンドのグループレコメンダシステムを提案する。このシステムでは,2部グラフ埋め込みモデル (bgem) と自己アテンション機構,グラフ畳み込みネットワーク (gcns) を基本構成要素として,グループとユーザ表現を統一的に学習する。 具体的には,まずbgemをグループとテーマの相互作用のモデル化に拡張し,次いで,グループによって生成されたインタラクションデータの制限とスパーシティを克服するために,グループメンバに基づくグループを表現する自己着信機構を提案する。 また,ユーザ間インタラクションデータのスパーシティ問題を克服するために,ユーザソーシャルネットワークを活用したユーザ表現学習の強化,集中性対応型ユーザ表現の獲得を行った。 大規模ベンチマークデータセットを3つ作成し,広範な実験を行います。 実験の結果,提案したCAGRを最先端グループ推薦モデルと比較し,優位性を示した。

It has been an important task for recommender systems to suggest satisfying activities to a group of users in people's daily social life. The major challenge in this task is how to aggregate personal preferences of group members to infer the decision of a group. Conventional group recommendation methods applied a predefined strategy for preference aggregation. However, these static strategies are too simple to model the real and complex process of group decision-making, especially for occasional groups which are formed ad-hoc. Moreover, group members should have non-uniform influences or weights in a group, and the weight of a user can be varied in different groups. Therefore, an ideal group recommender system should be able to accurately learn not only users' personal preferences but also the preference aggregation strategy from data. In this paper, we propose a novel end-to-end group recommender system named CAGR (short for Centrality Aware Group Recommender"), which takes Bipartite Graph Embedding Model (BGEM), the self-attention mechanism and Graph Convolutional Networks (GCNs) as basic building blocks to learn group and user representations in a unified way. Specifically, we first extend BGEM to model group-item interactions, and then in order to overcome the limitation and sparsity of the interaction data generated by occasional groups, we propose a self-attentive mechanism to represent groups based on the group members. In addition, to overcome the sparsity issue of user-item interaction data, we leverage the user social networks to enhance user representation learning, obtaining centrality-aware user representations. We create three large-scale benchmark datasets and conduct extensive experiments on them. The experimental results show the superiority of our proposed CAGR by comparing it with state-of-the-art group recommender models.
翻訳日:2022-10-12 02:36:52 公開日:2020-10-02
# エッジコンピューティングを用いた分散コンセンサス最適化のための符号化確率ADMM

Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing ( http://arxiv.org/abs/2010.00914v1 )

ライセンス: Link先を確認
Hao Chen, Yu Ye, Ming Xiao, Mikael Skoglund and H. Vincent Poor(参考訳) セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。 通信コストとセキュリティ要件の制限のため、データを融合センターに集約するのではなく、分散的な方法で情報を抽出することが最優先事項である。 大規模機械学習モデルをトレーニングするために、エッジ/フォグコンピューティングは集中型学習の代替としてよく利用される。 分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。 分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ確率交互方向法(ADMM)について検討した。 分散ネットワークにおける2つの重要な課題、すなわち通信ボトルネックとストラグラーノード(応答が遅いノード)に対処するため、エラー制御に基づく確率的ADMMについて検討した。 適切なミニバッチサイズを仮定すると、最小バッチ確率ADMM法は$O(\frac{1}{\sqrt{k}})$で収束し、$k$は反復数を表す。 数値実験により,提案アルゴリズムは通信効率が高く,迅速に応答し,トラグラーノードの存在下では頑健であることが判明した。

Big data, including applications with high security requirements, are often collected and stored on multiple heterogeneous devices, such as mobile devices, drones and vehicles. Due to the limitations of communication costs and security requirements, it is of paramount importance to extract information in a decentralized manner instead of aggregating data to a fusion center. To train large-scale machine learning models, edge/fog computing is often leveraged as an alternative to centralized learning. We consider the problem of learning model parameters in a multi-agent system with data locally processed via distributed edge nodes. A class of mini-batch stochastic alternating direction method of multipliers (ADMM) algorithms is explored to develop the distributed learning model. To address two main critical challenges in distributed networks, i.e., communication bottleneck and straggler nodes (nodes with slow responses), error-control-coding based stochastic incremental ADMM is investigated. Given an appropriate mini-batch size, we show that the mini-batch stochastic ADMM based method converges in a rate of $O(\frac{1}{\sqrt{k}})$, where $k$ denotes the number of iterations. Through numerical experiments, it is revealed that the proposed algorithm is communication-efficient, rapidly responding and robust in the presence of straggler nodes compared with state of the art algorithms.
翻訳日:2022-10-12 02:36:00 公開日:2020-10-02
# 機械学習による飛行時間質量分析

Machine-learning-enhanced time-of-flight mass spectrometry analysis ( http://arxiv.org/abs/2010.01030v1 )

ライセンス: Link先を確認
Ye Wei, Rama Srinivas Varanasi, Torsten Schwarz, Leonie Gomell, Huan Zhao, David J. Larson, Binhan Sun, Geng Liu, Hao Chen, Dierk Raabe, and Baptiste Gault(参考訳) 質量分析法(mass spectrometry)は、物質を構成する成分を探究するための広範な手法である。 原子と分子は物質から取り除かれ、その後、質量対電荷比と相対同位体存在量で形成されるパターンに基づいて、それらの正しいアイデンティティを推測する。 しかし、この識別ステップは主に個々のユーザの専門知識に依存し、標準化を困難にし、効率的なデータ処理を妨げる。 本稿では、現代の機械学習技術を用いて、マイクロ秒内の飛行時間スペクトルのピークパターンを識別し、精度を損なうことなく人間のユーザを上回らせる手法を提案する。 我々は,tof-ms (time-of-flight mass spectrometry) 技術から生成する質量スペクトルを相互に評価し,tof-msコミュニティにオープンソースの知的質量スペクトル分析を提供する。

Mass spectrometry is a widespread approach to work out what are the constituents of a material. Atoms and molecules are removed from the material and collected, and subsequently, a critical step is to infer their correct identities based from patterns formed in their mass-to-charge ratios and relative isotopic abundances. However, this identification step still mainly relies on individual user's expertise, making its standardization challenging, and hindering efficient data processing. Here, we introduce an approach that leverages modern machine learning technique to identify peak patterns in time-of-flight mass spectra within microseconds, outperforming human users without loss of accuracy. Our approach is cross-validated on mass spectra generated from different time-of-flight mass spectrometry(ToF-MS) techniques, offering the ToF-MS community an open-source, intelligent mass spectra analysis.
翻訳日:2022-10-12 02:34:54 公開日:2020-10-02
# 画素アテンションを用いた高効率画像超解像

Efficient Image Super-Resolution Using Pixel Attention ( http://arxiv.org/abs/2010.01073v1 )

ライセンス: Link先を確認
Hengyuan Zhao, Xiangtao Kong, Jingwen He, Yu Qiao and Chao Dong(参考訳) 本研究は,画像スーパーレゾリューション(sr)のための軽量畳み込みニューラルネットワークの設計を目的とする。 単純さを念頭に置いて、新たに提案された画素アテンション方式により、かなり簡潔で効果的なネットワークを構築する。 画素アテンション(PA)は,定式化におけるチャネルアテンションや空間アテンションと類似している。 違いは、PAが1Dの注意ベクトルや2Dマップの代わりに3Dの注意マップを生成することである。 このアテンションスキームは、より少ない追加パラメータを導入するが、より良いSR結果を生成する。 そこで本研究では,本店と再建支店の2つのビルディングブロックを提案する。 1つ目 - SC-PAブロックは自己キャリブレーションの畳み込みと同じ構造ですが、私たちのPA層で。 このブロックは2分岐アーキテクチャとアテンションスキームのために、従来の残差ブロックよりもはるかに効率的である。 2つ目 - UPAブロックは最寄りのアップサンプリング、畳み込み、PAレイヤを結合する。 パラメータコストが少なく、最終的な復元品質が向上する。 最後のmodel-panは軽量ネットワークであるsrresnetとcarnと同じような性能を実現できたが、srresnetの17.92%、carnの17.09%しかなかった。 また, 各成分の有効性をアブレーション法で検証した。 コードはhttps://github.com/zhaohengyuan1/PANで公開されている。

This work aims at designing a lightweight convolutional neural network for image super resolution (SR). With simplicity bare in mind, we construct a pretty concise and effective network with a newly proposed pixel attention scheme. Pixel attention (PA) is similar as channel attention and spatial attention in formulation. The difference is that PA produces 3D attention maps instead of a 1D attention vector or a 2D map. This attention scheme introduces fewer additional parameters but generates better SR results. On the basis of PA, we propose two building blocks for the main branch and the reconstruction branch, respectively. The first one - SC-PA block has the same structure as the Self-Calibrated convolution but with our PA layer. This block is much more efficient than conventional residual/dense blocks, for its twobranch architecture and attention scheme. While the second one - UPA block combines the nearest-neighbor upsampling, convolution and PA layers. It improves the final reconstruction quality with little parameter cost. Our final model- PAN could achieve similar performance as the lightweight networks - SRResNet and CARN, but with only 272K parameters (17.92% of SRResNet and 17.09% of CARN). The effectiveness of each proposed component is also validated by ablation study. The code is available at https://github.com/zhaohengyuan1/PAN.
翻訳日:2022-10-12 02:28:57 公開日:2020-10-02
# mm-hand : 3dハンドポーズ合成のためのマルチモーダル誘導ハンド生成ネットワーク

MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand Pose Synthesis ( http://arxiv.org/abs/2010.01158v1 )

ライセンス: Link先を確認
Zhenyu Wu, Duc Hoang, Shih-Yao Lin, Yusheng Xie, Liangjian Chen, Yen-Yu Lin, Zhangyang Wang, Wei Fan(参考訳) モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。 解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。 しかし、実際には高価すぎる。 そこで我々は,3次元ポーズ情報の指導の下で,リアルで多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。 本稿では,新しい幾何学に基づくカリキュラム学習戦略とともに,3D対応マルチモーダル手作りネットワーク(MM-Hand)を提案する。 MM-Handが生成した3Dアノテート画像は,既存の選択肢より質的に,定量的に優れていることを示す。 さらに、2つのベンチマークデータセット上での最先端の3Dハンドポーズ推定器の定量的性能を一貫して向上させることができる。 コードはhttps://github.com/ScottHoang/mm-handで入手できる。

Estimating the 3D hand pose from a monocular RGB image is important but challenging. A solution is training on large-scale RGB hand images with accurate 3D hand keypoint annotations. However, it is too expensive in practice. Instead, we have developed a learning-based approach to synthesize realistic, diverse, and 3D pose-preserving hand images under the guidance of 3D pose information. We propose a 3D-aware multi-modal guided hand generative network (MM-Hand), together with a novel geometry-based curriculum learning strategy. Our extensive experimental results demonstrate that the 3D-annotated images generated by MM-Hand qualitatively and quantitatively outperform existing options. Moreover, the augmented data can consistently improve the quantitative performance of the state-of-the-art 3D hand pose estimators on two benchmark datasets. The code will be available at https://github.com/ScottHoang/mm-hand.
翻訳日:2022-10-12 02:28:36 公開日:2020-10-02
# 顔面筋運動の説明可能な帰属ベクトルを用いた発声音声の拡散予測

Stuttering Speech Disfluency Prediction using Explainable Attribution Vectors of Facial Muscle Movements ( http://arxiv.org/abs/2010.01231v1 )

ライセンス: Link先を確認
Arun Das, Jeffrey Mock, Henry Chacon, Farzan Irani, Edward Golob, Peyman Najafirad(参考訳) 発声などの発声障害は、不随意反復、延長、音節や音節のブロックによって、通常の発声を阻害する。 発声の混乱に加え、ほとんどの成人(AWS)は、しばしば顔の筋肉にかかわる、乱暴な瞬間の前、中、そして後、多くの観察可能な二次的行動を経験する。 近年,音声発声時の呼吸速度,音声等からAIアルゴリズムを用いて発声を自動的に検出する手法が研究されている。 しかし、ほとんどの方法は制御された環境や侵略的なウェアラブルセンサーを必要としており、なぜ決定が下されたのかは説明できない。 非侵襲的にキャプチャ可能な、AWSの音声前の顔活動には、今後の発声を流音または発声のいずれかとして正確に分類するための十分な情報が含まれている、という仮説を立てています。 そこで本研究では,aws の側頭筋運動パターンを学習することにより,近い将来の発話を予測できる新しい説明可能なai (xai) 支援畳み込みニューラルネットワーク (cnn) 分類法を提案する。 統計的にみると, 頬筋 (p<0.005) と口唇筋 (p<0.005) の有意な頻度で発声を予測でき, 発声と発声を予知する行動がみられた。 これらの上下顎顔面筋の時間的研究は、突撃の早期発見を促進し、突撃の自動評価を促進し、リアルタイムに非侵襲的な自動フィードバックを提供することで行動療法に応用することができる。

Speech disorders such as stuttering disrupt the normal fluency of speech by involuntary repetitions, prolongations and blocking of sounds and syllables. In addition to these disruptions to speech fluency, most adults who stutter (AWS) also experience numerous observable secondary behaviors before, during, and after a stuttering moment, often involving the facial muscles. Recent studies have explored automatic detection of stuttering using Artificial Intelligence (AI) based algorithm from respiratory rate, audio, etc. during speech utterance. However, most methods require controlled environments and/or invasive wearable sensors, and are unable explain why a decision (fluent vs stuttered) was made. We hypothesize that pre-speech facial activity in AWS, which can be captured non-invasively, contains enough information to accurately classify the upcoming utterance as either fluent or stuttered. Towards this end, this paper proposes a novel explainable AI (XAI) assisted convolutional neural network (CNN) classifier to predict near future stuttering by learning temporal facial muscle movement patterns of AWS and explains the important facial muscles and actions involved. Statistical analyses reveal significantly high prevalence of cheek muscles (p<0.005) and lip muscles (p<0.005) to predict stuttering and shows a behavior conducive of arousal and anticipation to speak. The temporal study of these upper and lower facial muscles may facilitate early detection of stuttering, promote automated assessment of stuttering and have application in behavioral therapies by providing automatic non-invasive feedback in realtime.
翻訳日:2022-10-12 02:27:56 公開日:2020-10-02
# HOLにおける公開発表ロジック

Public Announcement Logic in HOL ( http://arxiv.org/abs/2010.00810v1 )

ライセンス: Link先を確認
Sebastian Reiche and Christoph Benzm\"uller(参考訳) 関連する共通知識を持つ公開告知論理の浅層意味埋め込みについて述べる。 この埋め込みにより、古典的な高階論理に対するオフ・ザ・シェルフ定理証明を用いて、この論理を初めて自動化することができる。 実証されています (i)このような方法でメタ理論的研究をいかに自動化できるか 二 対象論理(公告論理)における非自明な推論(例えば、賢明なマンパズルのエンコーディングと自動化を得るために必要なもの)を実現することができる。 提示された意味的埋め込み(例えば、通常の様相論理の意味的埋め込みに関する関連する作業)の鍵は、評価領域は明示的にモデル化され、埋め込み対象論理の構成成分のエンコーディングで追加パラメータとして扱われるが、以前はメタ論理と対象論理の間で暗黙的に共有されていたことである。

A shallow semantical embedding for public announcement logic with relativized common knowledge is presented. This embedding enables the first-time automation of this logic with off-the-shelf theorem provers for classical higher-order logic. It is demonstrated (i) how meta-theoretical studies can be automated this way, and (ii) how non-trivial reasoning in the target logic (public announcement logic), required e.g. to obtain a convincing encoding and automation of the wise men puzzle, can be realized. Key to the presented semantical embedding -- in contrast, e.g., to related work on the semantical embedding of normal modal logics -- is that evaluation domains are modeled explicitly and treated as additional parameter in the encodings of the constituents of the embedded target logic, while they were previously implicitly shared between meta logic and target logic.
翻訳日:2022-10-12 02:27:21 公開日:2020-10-02
# 解集合プログラミングによる双腕ロボットによる調音物体の操作

Manipulation of Articulated Objects using Dual-arm Robots via Answer Set Programming ( http://arxiv.org/abs/2010.01164v1 )

ライセンス: Link先を確認
Riccardo Bertolucci, Alessio Capitanelli, Carmine Dodaro, Nicola Leone, Marco Maratea, Fulvio Mastrogiovanni, Mauro Vallati(参考訳) 関節オブジェクトの操作はロボット工学において重要であり、最も複雑な操作タスクの1つと見なすことができる。 伝統的に、この問題は柔軟性と移植性に欠けるアドホックなアプローチの開発によって解決されてきた。 本稿では,ロボット制御アーキテクチャにおけるarticulated objectsの自動操作のための解集合プログラミング(asp)に基づくフレームワークを提案する。 特に、articulated objectの構成を表現し、知識ベースにおけるそのような表現の一貫性をチェックし、操作アクションのシーケンスを生成するためにaspが使用される。 このフレームワークは、最初の単純なシナリオで、baxterのデュアルアームマニピュレータで実証、検証される。 そして,このようなシナリオを拡張して全体の設定精度を向上させるとともに,ロボット動作の実行にいくつかの制約を導入し,実現可能性を高める。 拡張シナリオには、実りある組み合わせが可能な多数のアクションが含まれる。 そこで我々は,より効率的な計画を提供するために,自動計画からマクロ行動を利用する。 拡張シナリオにおけるフレームワーク全体の妥当性を確認し,より現実的なロボット環境におけるaspの適用性を確認し,関節オブジェクトのロボット操作におけるマクロアクションの有用性を示す。 論理プログラミングの理論と実践(tplp)における考察。

The manipulation of articulated objects is of primary importance in Robotics, and can be considered as one of the most complex manipulation tasks. Traditionally, this problem has been tackled by developing ad-hoc approaches, which lack flexibility and portability. In this paper we present a framework based on Answer Set Programming (ASP) for the automated manipulation of articulated objects in a robot control architecture. In particular, ASP is employed for representing the configuration of the articulated object, for checking the consistency of such representation in the knowledge base, and for generating the sequence of manipulation actions. The framework is exemplified and validated on the Baxter dual-arm manipulator in a first, simple scenario. Then, we extend such scenario to improve the overall setup accuracy, and to introduce a few constraints in robot actions execution to enforce their feasibility. The extended scenario entails a high number of possible actions that can be fruitfully combined together. Therefore, we exploit macro actions from automated planning in order to provide more effective plans. We validate the overall framework in the extended scenario, thereby confirming the applicability of ASP also in more realistic Robotics settings, and showing the usefulness of macro actions for the robot-based manipulation of articulated objects. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-10-12 02:27:05 公開日:2020-10-02
# 法律知覚分析とオピニオンマイニング(LSAOM) : 自律型AI法理推論の進歩

Legal Sentiment Analysis and Opinion Mining (LSAOM): Assimilating Advances in Autonomous AI Legal Reasoning ( http://arxiv.org/abs/2010.02726v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) An expanding field of substantive interest for the theory of the law and the practice-of-law entails Legal Sentiment Analysis and Opinion Mining (LSAOM), consisting of two often intertwined phenomena and actions underlying legal discussions and narratives: (1) Sentiment Analysis (SA) for the detection of expressed or implied sentiment about a legal matter within the context of a legal milieu, and (2) Opinion Mining (OM) for the identification and illumination of explicit or implicit opinion accompaniments immersed within legal discourse. LSAOMの実践は、歴史的に人間の手と認知によって行われてきたが、近年ではコンピュータベースのアプローチによってのみ薄型化されている。 特に自然言語処理(NLP)と機械学習(ML)を含む人工知能(AI)の進歩は、自動化がセンチメント分析とオピニオンマイニングの両方を体系的に実行し、これらすべてが法的文脈内でLSAOM機能を改善するためのエンゲージメントに不都合に受け継がれていることを、ますます加速させている。 本稿では,法律感情分析と意見マイニングへのaiの応用について検討し,ai法理化(ailr)の自律性レベル(loa)と連携することを提案するとともに,その機械化におけるai lsaomと法学研究と法実践への影響についてさらなる知見を提供する。

An expanding field of substantive interest for the theory of the law and the practice-of-law entails Legal Sentiment Analysis and Opinion Mining (LSAOM), consisting of two often intertwined phenomena and actions underlying legal discussions and narratives: (1) Sentiment Analysis (SA) for the detection of expressed or implied sentiment about a legal matter within the context of a legal milieu, and (2) Opinion Mining (OM) for the identification and illumination of explicit or implicit opinion accompaniments immersed within legal discourse. Efforts to undertake LSAOM have historically been performed by human hand and cognition, and only thinly aided in more recent times by the use of computer-based approaches. Advances in Artificial Intelligence (AI) involving especially Natural Language Processing (NLP) and Machine Learning (ML) are increasingly bolstering how automation can systematically perform either or both of Sentiment Analysis and Opinion Mining, all of which is being inexorably carried over into engagement within a legal context for improving LSAOM capabilities. This research paper examines the evolving infusion of AI into Legal Sentiment Analysis and Opinion Mining and proposes an alignment with the Levels of Autonomy (LoA) of AI Legal Reasoning (AILR), plus provides additional insights regarding AI LSAOM in its mechanizations and potential impact to the study of law and the practicing of law.
翻訳日:2022-10-12 02:20:01 公開日:2020-10-02
# スマートインスペクション: 産業自動化のためのスマートフォンガラス欠陥の局所化と分類

Smart-Inspect: Micro Scale Localization and Classification of Smartphone Glass Defects for Industrial Automation ( http://arxiv.org/abs/2010.00741v1 )

ライセンス: Link先を確認
M Usman Maqbool Bhutta, Shoaib Aslam, Peng Yun, Jianhao Jiao and Ming Liu(参考訳) スマートデバイスのガラス画面に何らかの欠陥があることは、その品質に大きな影響を与えます。 スマートフォンガラスの16K画素画像上に,知的マイクロスケールの局所化と欠陥の分類を行うための,堅牢な半教師付き学習フレームワークを提案する。 本モデルでは, ひっかき傷, ひび割れによる光漏れ, 穴の3種類の欠陥の認識とラベル付けを行う。 また, ダスト粒子とセンサ領域による欠陥と光反射を区別し, 非破壊領域に分類した。 部分ラベル付きデータセットを用いて、主成分分析(PCA)、多分解能、情報融合に基づくアルゴリズムと比較して、高い堅牢性と欠陥領域と非欠陥領域の優れた分類を行う。 さらに,検査フレームワークの異なる段階に2つの分類器を組み込んで,ラベルなし欠陥のラベル付けと修正を行った。 検査深度限界を5ミクロンまで向上させることに成功した。 実験結果から,本手法は人体検査で有意な見分けが得られた試料の欠陥を同定し,ガラス画面の品質検査において,手動検査よりも優れた性能を示した。

The presence of any type of defect on the glass screen of smart devices has a great impact on their quality. We present a robust semi-supervised learning framework for intelligent micro-scaled localization and classification of defects on a 16K pixel image of smartphone glass. Our model features the efficient recognition and labeling of three types of defects: scratches, light leakage due to cracks, and pits. Our method also differentiates between the defects and light reflections due to dust particles and sensor regions, which are classified as non-defect areas. We use a partially labeled dataset to achieve high robustness and excellent classification of defect and non-defect areas as compared to principal components analysis (PCA), multi-resolution and information-fusion-based algorithms. In addition, we incorporated two classifiers at different stages of our inspection framework for labeling and refining the unlabeled defects. We successfully enhanced the inspection depth-limit up to 5 microns. The experimental results show that our method outperforms manual inspection in testing the quality of glass screen samples by identifying defects on samples that have been marked as good by human inspection.
翻訳日:2022-10-12 02:19:17 公開日:2020-10-02
# 逆ロバスト防御のための秘密鍵を用いたブロックワイズ画像変換

Block-wise Image Transformation with Secret Key for Adversarially Robust Defense ( http://arxiv.org/abs/2010.00801v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone, Hitoshi Kiya(参考訳) 本稿では,クリーン画像と敵対的例の両方を用いて,高い分類精度を維持できる新しい防御変換法を提案する。 提案手法は,入力画像に対する秘密鍵を持つブロックワイズ前処理手法である。 提案手法では,画素シャッフル,ビットフリップ,ffx暗号化の3つのアルゴリズムを開発した。 CIFAR-10とImageNetデータセット上で、適応性のあるものを含むさまざまなメトリクスでブラックボックスとホワイトボックスの攻撃を使用して実験を行った。 その結果, 提案手法は, 適応攻撃時においても, クリーン画像の使用に近い精度が得られることがわかった。 最善のシナリオでは、ffx暗号化によって変換された画像(ブロックサイズ4)を用いて訓練されたモデルは、クリーンイメージの92.30%、pgd攻撃の91.48%、ノイズ距離8/255、cifar-10データセットの非ロバスト精度(95.45%)に近く、imagenetデータセットの標準精度(73.70%)に近く、クリーンイメージの72.18%、同じ攻撃の71.43%の精度が得られた。 全体として、提案した3つのアルゴリズムは、モデルが攻撃されているか否かに関わらず、敵の訓練を含む最先端の防御よりも優れていることを示す。

In this paper, we propose a novel defensive transformation that enables us to maintain a high classification accuracy under the use of both clean images and adversarial examples for adversarially robust defense. The proposed transformation is a block-wise preprocessing technique with a secret key to input images. We developed three algorithms to realize the proposed transformation: Pixel Shuffling, Bit Flipping, and FFX Encryption. Experiments were carried out on the CIFAR-10 and ImageNet datasets by using both black-box and white-box attacks with various metrics including adaptive ones. The results show that the proposed defense achieves high accuracy close to that of using clean images even under adaptive attacks for the first time. In the best-case scenario, a model trained by using images transformed by FFX Encryption (block size of 4) yielded an accuracy of 92.30% on clean images and 91.48% under PGD attack with a noise distance of 8/255, which is close to the non-robust accuracy (95.45%) for the CIFAR-10 dataset, and it yielded an accuracy of 72.18% on clean images and 71.43% under the same attack, which is also close to the standard accuracy (73.70%) for the ImageNet dataset. Overall, all three proposed algorithms are demonstrated to outperform state-of-the-art defenses including adversarial training whether or not a model is under attack.
翻訳日:2022-10-12 02:18:57 公開日:2020-10-02
# 連続的近接距離3次元オブジェクトポーズ推定

Continuous close-range 3D object pose estimation ( http://arxiv.org/abs/2010.00829v1 )

ライセンス: Link先を確認
Bjarne Grossmann, Francesco Rovida and Volker Krueger(参考訳) 将来の製造ラインでは、組立およびロジスティックオペレーションにおける自律システムの柔軟性を高めるために、フィクスチャを除去することが基本的なステップとなる。 視覚に基づく3Dポーズ推定は、ロボットタスク実行中に固定位置に配置されないオブジェクトを正確に処理する必要がある。 産業的なタスクは、難しいオブジェクト特性、タイトなサイクル時間、カメラビューの制約などのオブジェクトのロバストなポーズ推定に、複数の課題をもたらす。 特に、オブジェクトと対話する際には、典型的なビューベースのポーズ推定手法に新たな課題をもたらすオブジェクトのニアレンジ部分ビューで作業する必要があります。 本稿では,新しい観測結果をオンザフライで統合し,推定精度を向上させるグラデーション・アセンド粒子フィルタに基づく3次元ポーズ推定法を提案する。 これにより、タスク実行中にこのメソッドをオンラインで適用して、貴重なサイクル時間を節約することができる。 他のビューベースポーズ推定手法とは対照的に、全6次元空間におけるポテンシャルビューをモデル化し、近距離部分オブジェクトビューに対処する。 提案手法は,アルゴリズムが平均8mm未満の精度で,10~15回以内の正しいポーズに収束する実組立課題に対するアプローチを示す。

In the context of future manufacturing lines, removing fixtures will be a fundamental step to increase the flexibility of autonomous systems in assembly and logistic operations. Vision-based 3D pose estimation is a necessity to accurately handle objects that might not be placed at fixed positions during the robot task execution. Industrial tasks bring multiple challenges for the robust pose estimation of objects such as difficult object properties, tight cycle times and constraints on camera views. In particular, when interacting with objects, we have to work with close-range partial views of objects that pose a new challenge for typical view-based pose estimation methods. In this paper, we present a 3D pose estimation method based on a gradient-ascend particle filter that integrates new observations on-the-fly to improve the pose estimate. Thereby, we can apply this method online during task execution to save valuable cycle time. In contrast to other view-based pose estimation methods, we model potential views in full 6- dimensional space that allows us to cope with close-range partial objects views. We demonstrate the approach on a real assembly task, in which the algorithm usually converges to the correct pose within 10-15 iterations with an average accuracy of less than 8mm.
翻訳日:2022-10-12 02:18:15 公開日:2020-10-02
# ハイパースペクトル画像の形態セグメンテーション

Morphological segmentation of hyperspectral images ( http://arxiv.org/abs/2010.00853v1 )

ライセンス: Link先を確認
Guillaume Noyel (CMM), Jesus Angulo (CMM), Dominique Jeulin (CMM)(参考訳) 本稿では,ハイパースペクトル画像の形態的セグメンテーションのための一般的な手法,すなわち重要なチャンネル数について述べる。 このアプローチは流域に基づいて、マーカーを得るためのスペクトル分類と、空間情報を与えるベクトル勾配で構成されている。 いくつかの代替勾配は異なる超スペクトル関数に適応する。 データ還元は因子分析またはモデルフィッティングによって行われる。 イメージのセグメンテーションは、ファクタ空間、パラメータ空間など、異なる空間で実行される。 これらすべての空間において、空間的/スペクトル的セグメンテーションアプローチが適用され、画像の関連結果が導かれる。

The present paper develops a general methodology for the morphological segmentation of hyperspectral images, i.e., with an important number of channels. This approach, based on watershed, is composed of a spectral classification to obtain the markers and a vectorial gradient which gives the spatial information. Several alternative gradients are adapted to the different hyperspectral functions. Data reduction is performed either by Factor Analysis or by model fitting. Image segmentation is done on different spaces: factor space, parameters space, etc. On all these spaces the spatial/spectral segmentation approach is applied, leading to relevant results on the image.
翻訳日:2022-10-12 02:17:56 公開日:2020-10-02
# RISA-Net:微細3次元形状検索のための回転不変構造認識ネットワーク

RISA-Net: Rotation-Invariant Structure-Aware Network for Fine-Grained 3D Shape Retrieval ( http://arxiv.org/abs/2010.00973v1 )

ライセンス: Link先を確認
Rao Fu, Jie Yang, Jiawei Sun, Fang-Lue Zhang, Yu-Kun Lai and Lin Gao(参考訳) 微細な3次元形状の検索は,同一クラスに属するモデルを持つリポジトリにおいて,クエリ形状に似た形状の3次元形状を検索することを目的としている。 さらに、3Dオブジェクトは実世界のアプリケーションでは任意の位置と向きで配置できるため、形状記述子は剛体変換に対して堅牢である必要がある。 既存の3次元形状検索システムにおける形状記述は,上記の2つの基準を満たさない。 本稿では, 精密な幾何学的情報や構造情報を符号化可能な回転不変な3次元形状記述子を学習し, 精密な3次元オブジェクト検索のタスクにおいて正確な結果が得られる新しい深層アーキテクチャ RISA-Net を提案する。 RISA-Netは、コンパクトで詳細な幾何学的特徴の集合を部分的に抽出し、各意味部分の形状表現への寄与を識別的に推定する。 さらに,3次元形状の最終コンパクト潜伏特性を生成する際に,各部分の幾何学的・構造的情報の重要性を学習し,詳細な検索を行う。 また,細粒度3d形状検索手法の性能を検証するために,サブクラスラベルを用いた新しい3d形状データセットを構築し,公開する。 質的かつ定量的な実験により,我々のrisa-netは,細粒度オブジェクト検索タスクにおいて最先端の手法よりも優れており,幾何学的詳細抽出におけるその能力を示している。 コードとデータセットは、https://github.com/iglict/risanet。

Fine-grained 3D shape retrieval aims to retrieve 3D shapes similar to a query shape in a repository with models belonging to the same class, which requires shape descriptors to be capable of representing detailed geometric information to discriminate shapes with globally similar structures. Moreover, 3D objects can be placed with arbitrary position and orientation in real-world applications, which further requires shape descriptors to be robust to rigid transformations. The shape descriptions used in existing 3D shape retrieval systems fail to meet the above two criteria. In this paper, we introduce a novel deep architecture, RISA-Net, which learns rotation invariant 3D shape descriptors that are capable of encoding fine-grained geometric information and structural information, and thus achieve accurate results on the task of fine-grained 3D object retrieval. RISA-Net extracts a set of compact and detailed geometric features part-wisely and discriminatively estimates the contribution of each semantic part to shape representation. Furthermore, our method is able to learn the importance of geometric and structural information of all the parts when generating the final compact latent feature of a 3D shape for fine-grained retrieval. We also build and publish a new 3D shape dataset with sub-class labels for validating the performance of fine-grained 3D shape retrieval methods. Qualitative and quantitative experiments show that our RISA-Net outperforms state-of-the-art methods on the fine-grained object retrieval task, demonstrating its capability in geometric detail extraction. The code and dataset are available at: https://github.com/IGLICT/RisaNET.
翻訳日:2022-10-12 02:17:12 公開日:2020-10-02
# 時間的意味論:反復ラベル伝搬による空中映像の半教師付きセグメンテーション

Semantics through Time: Semi-supervised Segmentation of Aerial Videos with Iterative Label Propagation ( http://arxiv.org/abs/2010.01910v1 )

ライセンス: Link先を確認
Alina Marcu, Vlad Licaret, Dragos Costea and Marius Leordeanu(参考訳) セマンティックセグメンテーションは、ロボットのナビゲーションと安全性にとって重要なタスクである。 しかし、現在の教師付き手法は正確な結果を得るために大量のピクセル単位のアノテーションを必要とする。 ラベリングは退屈で時間のかかるプロセスであり、低高度UAVアプリケーションの進行を妨げている。 本稿では,人間のアノテーションを欠いたフレームにセマンティックラベルを伝播させるため,時間と空間のスペクトルクラスタリングに直接接続する新しい反復フローベース手法であるSegPropを導入することにより,自動アノテーションへの重要な一歩を踏み出す。 ラベルは半教師付き学習シナリオでさらに使用される。 大規模なビデオ空中データセットの欠如に動機づけられて,田園風景も紹介しています。高解像度(4k)イメージと,50フレーム毎に手作業で注釈付の密ラベルを備えた,私たちの知る限り最大のデータセットです。 新しいsegpropは、残りの98%のフレームに90%以上の精度(f-measure)で自動的に注釈を付け、他の最先端ラベル伝搬法を著しく上回っている。 さらに、SegPropの反復ラベル伝搬ループ内で他のメソッドをモジュールとして統合すると、ベースラインラベルよりも大幅に向上する。 最後に、segpropを完全な半教師付き環境でテストします。segpropの自動ラベル付きトレーニングフレーム上で、最先端のディープニューラルネットワークをトレーニングし、全く新しいビデオでテストします。 私たちは常に、監督されたシナリオに対する大きな改善を説得力強く示しています。

Semantic segmentation is a crucial task for robot navigation and safety. However, current supervised methods require a large amount of pixelwise annotations to yield accurate results. Labeling is a tedious and time consuming process that has hampered progress in low altitude UAV applications. This paper makes an important step towards automatic annotation by introducing SegProp, a novel iterative flow-based method, with a direct connection to spectral clustering in space and time, to propagate the semantic labels to frames that lack human annotations. The labels are further used in semi-supervised learning scenarios. Motivated by the lack of a large video aerial dataset, we also introduce Ruralscapes, a new dataset with high resolution (4K) images and manually-annotated dense labels every 50 frames - the largest of its kind, to the best of our knowledge. Our novel SegProp automatically annotates the remaining unlabeled 98% of frames with an accuracy exceeding 90% (F-measure), significantly outperforming other state-of-the-art label propagation methods. Moreover, when integrating other methods as modules inside SegProp's iterative label propagation loop, we achieve a significant boost over the baseline labels. Finally, we test SegProp in a full semi-supervised setting: we train several state-of-the-art deep neural networks on the SegProp-automatically-labeled training frames and test them on completely novel videos. We convincingly demonstrate, every time, a significant improvement over the supervised scenario.
翻訳日:2022-10-12 02:11:04 公開日:2020-10-02
# 高速でロバストなマルチレゾリューション画像登録のためのランダムおよび勾配確率的画素サンプリングの最適化

Optimization over Random and Gradient Probabilistic Pixel Sampling for Fast, Robust Multi-Resolution Image Registration ( http://arxiv.org/abs/2010.02505v1 )

ライセンス: Link先を確認
Boris N. Oreshkin and Tal Arbel(参考訳) 本稿では,確率的画素サンプリングによる高速画像登録手法を提案する。 グラデーションマグニチュードに基づく画素サンプリングと一様ランダムサンプリングという2つの最先端画素サンプリング手法の利点を活用するための実用的な手法を提案する。 我々のフレームワークは、粒子群最適化を用いて、小さなトレーニングデータセットに基づいて、トレーニング中の2つのサンプリングスキームの最適バランスを学習する。 次に、人気のある公開データセットであるVanderbilt RIREに基づいて、最先端の2つのアプローチに対する3次元剛性登録に関するサンプリング手法をテストする。 その結果,提案手法は最先端と比較して,より高速で正確でロバストな登録結果が得られることがわかった。

This paper presents an approach to fast image registration through probabilistic pixel sampling. We propose a practical scheme to leverage the benefits of two state-of-the-art pixel sampling approaches: gradient magnitude based pixel sampling and uniformly random sampling. Our framework involves learning the optimal balance between the two sampling schemes off-line during training, based on a small training dataset, using particle swarm optimization. We then test the proposed sampling approach on 3D rigid registration against two state-of-the-art approaches based on the popular, publicly available, Vanderbilt RIRE dataset. Our results indicate that the proposed sampling approach yields much faster, accurate and robust registration results when compared against the state-of-the-art.
翻訳日:2022-10-12 02:10:37 公開日:2020-10-02
# multicqa:大規模な自己教師付きテキストマッチングモデルのゼロショット転送

MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on a Massive Scale ( http://arxiv.org/abs/2010.00980v1 )

ライセンス: Link先を確認
Andreas R\"uckl\'e, Jonas Pfeiffer, Iryna Gurevych(参考訳) テキストマッチングモデルのゼロショット転送能力を大規模に研究し、コミュニティ質問応答フォーラムから140のソースドメインを自己教師する訓練を行った。 回答選択と質問の類似性タスクの9つのベンチマークでモデル性能を調査し、140のモデルが驚くほどよく移動し、ほとんどのモデルが一般的なirベースラインを実質的に上回っていることを示した。 また、ソース領域の広い選択を考えることは、最大かつ最も類似したドメインに依存する標準手順とは対照的な、最高のゼロショット転送性能を得るためには不可欠であることを示す。 さらに,複数のソースドメインを最もよく結合する方法を幅広く研究した。 我々は,教師付きマルチタスク学習を利用可能なすべてのソースドメインに組み込むことを提案する。 我々の最高のゼロショット転送モデルは6つのベンチマークで、ドメイン内のBERTと過去の最先端技術よりもかなり優れています。 ドメイン内データによるモデルの微調整により,さらに大きなゲインが得られ,9つのベンチマークの新たな状態が達成される。

We study the zero-shot transfer capabilities of text matching models on a massive scale, by self-supervised training on 140 source domains from community question answering forums in English. We investigate the model performances on nine benchmarks of answer selection and question similarity tasks, and show that all 140 models transfer surprisingly well, where the large majority of models substantially outperforms common IR baselines. We also demonstrate that considering a broad selection of source domains is crucial for obtaining the best zero-shot transfer performances, which contrasts the standard procedure that merely relies on the largest and most similar domains. In addition, we extensively study how to best combine multiple source domains. We propose to incorporate self-supervised with supervised multi-task learning on all available source domains. Our best zero-shot transfer model considerably outperforms in-domain BERT and the previous state of the art on six benchmarks. Fine-tuning of our model with in-domain data results in additional large gains and achieves the new state of the art on all nine benchmarks.
翻訳日:2022-10-12 02:10:26 公開日:2020-10-02
# セグメンテーショントレンド情報取得のためのシンボル集約近似法の修正

Modifying the Symbolic Aggregate Approximation Method to Capture Segment Trend Information ( http://arxiv.org/abs/2010.00730v1 )

ライセンス: Link先を確認
Muhammad Marwan Muhammad Fuad(参考訳) シンボリックアグリゲーション近似 (sax) は時系列データのシンボリック次元減少手法として非常にポピュラーであり、他の次元リダクション手法よりもいくつかの利点がある。 主な利点の1つは、事前計算された距離を使用するため、効率性である。 もう1つの利点は、SAX において、縮小空間で定義される距離測度が元の空間で定義される距離測度の境界であることである。 これにより、saxはクエリバイコンテンツタスクの正確な結果を返すことができる。 しかし、SAXには固有の欠点があり、セグメントトレンド情報をキャプチャできない。 何人かの研究者は、トレンド情報を含むように修正することでSAXを強化する試みを行っている。 しかし、これはSAXの利点の1つ以上を諦めることに費やされる。 本稿では,トレンドキャプチャ機能を実現するため,saxの3つの改良について検討する。 これらの修正は、単純さ、効率、およびそれが返す正確な結果に関して、SAXの同じ特徴を保っている。 これらは、古典SAXで使用されるものと異なる時系列の区分けに基づく単純な手順である。 サイズ,次元,自然の異なる45の時系列データセットに対して,これら3つの修正点の性能を分類タスクで検証し,従来のSAXと比較した。 その結果,これらの修正の1つは,従来のSAXよりも優れており,もう1つは従来のSAXよりも若干良い結果が得られることがわかった。

The Symbolic Aggregate approXimation (SAX) is a very popular symbolic dimensionality reduction technique of time series data, as it has several advantages over other dimensionality reduction techniques. One of its major advantages is its efficiency, as it uses precomputed distances. The other main advantage is that in SAX the distance measure defined on the reduced space lower bounds the distance measure defined on the original space. This enables SAX to return exact results in query-by-content tasks. Yet SAX has an inherent drawback, which is its inability to capture segment trend information. Several researchers have attempted to enhance SAX by proposing modifications to include trend information. However, this comes at the expense of giving up on one or more of the advantages of SAX. In this paper we investigate three modifications of SAX to add trend capturing ability to it. These modifications retain the same features of SAX in terms of simplicity, efficiency, as well as the exact results it returns. They are simple procedures based on a different segmentation of the time series than that used in classic-SAX. We test the performance of these three modifications on 45 time series datasets of different sizes, dimensions, and nature, on a classification task and we compare it to that of classic-SAX. The results we obtained show that one of these modifications manages to outperform classic-SAX and that another one slightly gives better results than classic-SAX.
翻訳日:2022-10-12 02:10:08 公開日:2020-10-02
# 極端SAX:極端点に基づく時系列分類のための記号表現

Extreme-SAX: Extreme Points Based Symbolic Representation for Time Series Classification ( http://arxiv.org/abs/2010.00732v1 )

ライセンス: Link先を確認
Muhammad Marwan Muhammad Fuad(参考訳) 時系列分類はデータマイニングにおいて重要な問題であり、異なる領域に応用されている。 時系列データは通常高次元であるため、次元化を下げるための効率的な手法として次元化技術が提案されている。 時系列データの最も一般的な次元削減手法の1つは、テキストマイニングとバイオインフォマティクスのアルゴリズムにインスパイアされたシンボリック・アグリゲート近似(SAX)である。 SAXは計算済み距離を使用するため、シンプルで効率的である。 SAXの欠点は、時系列の重要な点を正確に表現できないことである。 本稿では,各セグメントの極点のみを用いて時系列を表現するExtreme-SAX(E-SAX)を提案する。 E-SAXはオリジナルのSAXと全く同じ単純さと効率性を持っているが、様々な時系列データセットの広範な実験で示すように、オリジナルのSAXよりも時系列分類においてより良い結果が得られる。

Time series classification is an important problem in data mining with several applications in different domains. Because time series data are usually high dimensional, dimensionality reduction techniques have been proposed as an efficient approach to lower their dimensionality. One of the most popular dimensionality reduction techniques of time series data is the Symbolic Aggregate Approximation (SAX), which is inspired by algorithms from text mining and bioinformatics. SAX is simple and efficient because it uses precomputed distances. The disadvantage of SAX is its inability to accurately represent important points in the time series. In this paper we present Extreme-SAX (E-SAX), which uses only the extreme points of each segment to represent the time series. E-SAX has exactly the same simplicity and efficiency of the original SAX, yet it gives better results in time series classification than the original SAX, as we show in extensive experiments on a variety of time series datasets.
翻訳日:2022-10-12 02:09:47 公開日:2020-10-02
# 3dプリント時系列データの分類手法の評価

An Evaluation of Classification Methods for 3D Printing Time-Series Data ( http://arxiv.org/abs/2010.00903v1 )

ライセンス: Link先を確認
Vivek Mahato, Muhannad Ahmed Obeidi, Dermot Brabazon, Padraig Cunningham(参考訳) 大量のデータが生成され、結果をコントロールするためにこのデータをマイニングする可能性があるため、添加物製造は機械学習に優れた応用領域を提供する。 本稿では,メルトプール温度を表す赤外線時系列データを金属3dプリンティングプロセスで分類する予備研究について述べる。 私たちの究極の目標は、このデータを使ってプロセスの結果を予測することです(例えば、硬さ、ポーシティ、表面粗さ)。 ここで提示した研究では、amプロセスのさまざまなコンポーネントとステージの分類に使用できるシグナルが、このデータの中に存在することを単に示しています。 時系列分類に関する他の機械学習研究と並行して、k-Nearest Neighbour分類を用いる。 本研究の結果から, ダイナミック・タイム・ウォーピングは3次元印刷データの代替手段と比較して有効距離の指標であることが示唆された。

Additive Manufacturing presents a great application area for Machine Learning because of the vast volume of data generated and the potential to mine this data to control outcomes. In this paper we present preliminary work on classifying infrared time-series data representing melt-pool temperature in a metal 3D printing process. Our ultimate objective is to use this data to predict process outcomes (e.g. hardness, porosity, surface roughness). In the work presented here we simply show that there is a signal in this data that can be used for the classification of different components and stages of the AM process. In line with other Machine Learning research on time-series classification we use k-Nearest Neighbour classifiers. The results we present suggests that Dynamic Time Warping is an effective distance measure compared with alternatives for 3D printing data of this type.
翻訳日:2022-10-12 02:09:31 公開日:2020-10-02
# 統合タスクと運動計画

Integrated Task and Motion Planning ( http://arxiv.org/abs/2010.01083v1 )

ライセンス: Link先を確認
Caelan Reed Garrett, Rohan Chitnis, Rachel Holladay, Beomjoon Kim, Tom Silver, Leslie Pack Kaelbling and Tom\'as Lozano-P\'erez(参考訳) 多数のオブジェクトを含む環境で動作するロボットの計画において、オブジェクトの状態を変化させるだけでなく、世界を移動するための行動を取るという問題は、タスク・アンド・モーション・プランニング(TAMP)として知られている。 タンプ問題には離散的タスク計画、離散連続数理計画、連続的モーション計画といった要素が含まれており、これらのどの分野でも直接的に対処できない。 本稿では,tamp問題のクラスを定義し,それを解決するためのサーベイアルゴリズムを定義し,その解法を,連続空間部分問題を解くための戦略と,探索の離散的・連続的な要素を統合する手法を用いて特徴付ける。

The problem of planning for a robot that operates in environments containing a large number of objects, taking actions to move itself through the world as well as to change the state of the objects, is known as task and motion planning (TAMP). TAMP problems contain elements of discrete task planning, discrete-continuous mathematical programming, and continuous motion planning, and thus cannot be effectively addressed by any of these fields directly. In this paper, we define a class of TAMP problems and survey algorithms for solving them, characterizing the solution methods in terms of their strategies for solving the continuous-space subproblems and their techniques for integrating the discrete and continuous components of the search.
翻訳日:2022-10-12 02:08:52 公開日:2020-10-02
# 確率論的記述論理に基づく推論フレームワーク

A Framework for Reasoning on Probabilistic Description Logics ( http://arxiv.org/abs/2010.01087v1 )

ライセンス: Link先を確認
Giuseppe Cota and Riccardo Zese and Elena Bellodi and Evelina Lamma and Fabrizio Riguzzi(参考訳) 記述論理学にはいくつかの理由があるが、不確実性に対処できるものはほとんどない。 BUNDLE は OWL (non-probabilistic) 推論を用いて確率的記述論理を推論する推論フレームワークである。 本章では,BUNDLEにおける最新の進歩について報告する。 特に、BUNDLE は TRILL システムの推論子とインターフェースできるようになり、異なる設定で確率的クエリを実行する均一な方法が提供されるようになった。 BUNDLEは簡単に拡張でき、スタンドアロンのデスクトップアプリケーションやOWL APIベースのアプリケーションでProbabilistic Description Logicsを推論するライブラリとして使用できる。 推論性能は確率を計算するために使用される推論器と方法に大きく依存する。 いくつかのデータセットで異なる推論設定を比較する。

While there exist several reasoners for Description Logics, very few of them can cope with uncertainty. BUNDLE is an inference framework that can exploit several OWL (non-probabilistic) reasoners to perform inference over Probabilistic Description Logics. In this chapter, we report the latest advances implemented in BUNDLE. In particular, BUNDLE can now interface with the reasoners of the TRILL system, thus providing a uniform method to execute probabilistic queries using different settings. BUNDLE can be easily extended and can be used either as a standalone desktop application or as a library in OWL API-based applications that need to reason over Probabilistic Description Logics. The reasoning performance heavily depends on the reasoner and method used to compute the probability. We provide a comparison of the different reasoning settings on several datasets.
翻訳日:2022-10-12 02:08:40 公開日:2020-10-02
# Dynamic Graph: ニューラルネットワークのインスタンス対応接続性を学ぶ

Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks ( http://arxiv.org/abs/2010.01097v1 )

ライセンス: Link先を確認
Kun Yuan, Quanquan Li, Dapeng Chen, Aojun Zhou and Junjie Yan(参考訳) ディープニューラルネットワークを採用するプラクティスのひとつは、すべての入力インスタンスに同じアーキテクチャを適用することだ。 しかし、固定アーキテクチャは、高い多様性を持つデータに対して十分に代表されないかもしれない。 モデル容量を促進するために、既存のアプローチは通常、より大きな畳み込みカーネルまたはより深いネットワーク構造を用いる。 本稿では,動的グラフネットワーク(DG-Net)の立ち上げによってこの問題に対処する。 ネットワークはインスタンス認識接続を学習し、異なるインスタンスに対して異なるフォワードパスを生成する。 具体的には、ネットワークは完全有向非巡回グラフとして初期化され、ノードは畳み込みブロックを表し、エッジは接続経路を表す。 学習可能なモジュール \textit{router} によってエッジ重みを生成し、重みがしきい値より大きいエッジを選択し、ニューラルネットワーク構造の接続性を調整する。 ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。 学習を容易にするために,各サンプルのネットワーク接続を隣接行列で表現する。 マトリックスはフォワードパスの機能を集約するために更新され、メモリにキャッシュされ、後方パスでの勾配計算に使用される。 提案手法の有効性をMobileNetV2,ResNet,ResNeXt,RegNetなどいくつかの静的アーキテクチャで検証する。 画像ネットの分類とCOCOオブジェクト検出について大規模な実験を行い,本手法の有効性と一般化能力を示した。

One practice of employing deep neural networks is to apply the same architecture to all the input instances. However, a fixed architecture may not be representative enough for data with high diversity. To promote the model capacity, existing approaches usually employ larger convolutional kernels or deeper network structure, which may increase the computational cost. In this paper, we address this issue by raising the Dynamic Graph Network (DG-Net). The network learns the instance-aware connectivity, which creates different forward paths for different instances. Specifically, the network is initialized as a complete directed acyclic graph, where the nodes represent convolutional blocks and the edges represent the connection paths. We generate edge weights by a learnable module \textit{router} and select the edges whose weights are larger than a threshold, to adjust the connectivity of the neural network structure. Instead of using the same path of the network, DG-Net aggregates features dynamically in each node, which allows the network to have more representation ability. To facilitate the training, we represent the network connectivity of each sample in an adjacency matrix. The matrix is updated to aggregate features in the forward pass, cached in the memory, and used for gradient computing in the backward pass. We verify the effectiveness of our method with several static architectures, including MobileNetV2, ResNet, ResNeXt, and RegNet. Extensive experiments are performed on ImageNet classification and COCO object detection, which shows the effectiveness and generalization ability of our approach.
翻訳日:2022-10-12 02:02:46 公開日:2020-10-02
# AIM 2020、イメージ・エクストリーム・インペインティングに挑戦

AIM 2020 Challenge on Image Extreme Inpainting ( http://arxiv.org/abs/2010.01110v1 )

ライセンス: Link先を確認
Evangelos Ntavelis, Andr\'es Romero, Siavash Bigdeli, Radu Timofte(参考訳) 本稿では,AIM 2020の極端画像インペイントに関する課題を概観する。 本報告は,エクストリーム・イメージ・インペインティングに関する2つの異なるトラックについて提案する解決策と結果に焦点を当てる。 トラック1の目標は、監督ではなくコンテキストを用いて画像のかなりの部分を描くことである。 同様に、トラック2の目標は、画像のセマンティックセグメンテーションマップ全体にアクセスしてインペイントすることである。 参加者は88名と74名であった。 11チームと6チームがそれぞれ最終戦に出場した。 本報告は、現在のソリューションを計測し、将来の極端画像インペインティング手法のベンチマークを設定する。

This paper reviews the AIM 2020 challenge on extreme image inpainting. This report focuses on proposed solutions and results for two different tracks on extreme image inpainting: classical image inpainting and semantically guided image inpainting. The goal of track 1 is to inpaint considerably large part of the image using no supervision but the context. Similarly, the goal of track 2 is to inpaint the image by having access to the entire semantic segmentation map of the image to inpaint. The challenge had 88 and 74 participants, respectively. 11 and 6 teams competed in the final phase of the challenge, respectively. This report gauges current solutions and set a benchmark for future extreme image inpainting methods.
翻訳日:2022-10-12 02:02:22 公開日:2020-10-02
# Goal-GAN:ゴール位置推定に基づくマルチモーダル軌道予測

Goal-GAN: Multimodal Trajectory Prediction Based on Goal Position Estimation ( http://arxiv.org/abs/2010.01114v1 )

ライセンス: Link先を確認
Patrick Dendorfer and Aljo\v{s}a O\v{s}ep and Laura Leal-Taix\'e(参考訳) 本稿では、人間の軌道予測のための解釈可能でエンドツーエンドの訓練可能なモデルであるgoal-ganを提案する。 人間のナビゲーションにヒントを得て、軌道予測のタスクを直感的な2段階のプロセスとしてモデル化する。 (i) エージェントの最も可能性の高い目標位置を予測し、次にaを推定する目標推定 (ii) 推定目標に向かってルートする可塑性軌道の集合を推定するルーティングモジュール。 本研究では,過去の軌跡や視覚的状況の情報を利用して,想定される目標位置上の多モーダル確率分布を推定し,推定中に潜在的目標をサンプリングする。 ルーティングは、近くの周囲の物理的制約に反応し、サンプルされた目標に向かってルートする実行可能なパスを生成する、リカレントニューラルネットワークによって制御される。 実験により,本手法は,物理制約に適合した現実的で多様な軌跡を生成できると同時に,いくつかのベンチマークで新たな最先端性を確立したことを示す。

In this paper, we present Goal-GAN, an interpretable and end-to-end trainable model for human trajectory prediction. Inspired by human navigation, we model the task of trajectory prediction as an intuitive two-stage process: (i) goal estimation, which predicts the most likely target positions of the agent, followed by a (ii) routing module which estimates a set of plausible trajectories that route towards the estimated goal. We leverage information about the past trajectory and visual context of the scene to estimate a multi-modal probability distribution over the possible goal positions, which is used to sample a potential goal during the inference. The routing is governed by a recurrent neural network that reacts to physical constraints in the nearby surroundings and generates feasible paths that route towards the sampled goal. Our extensive experimental evaluation shows that our method establishes a new state-of-the-art on several benchmarks while being able to generate a realistic and diverse set of trajectories that conform to physical constraints.
翻訳日:2022-10-12 02:02:11 公開日:2020-10-02
# スプレー塗装ロボットにおける組み込みシステムとコンピュータビジョン技術

Embedded Systems and Computer Vision Techniques utilized in Spray Painting Robots: A Review ( http://arxiv.org/abs/2010.01131v1 )

ライセンス: Link先を確認
Soham Shah, Siddhi Vinayak Pandey, Archit Sorathiya, Raj Sheth, Alok Kumar Singh, Jignesh Thaker(参考訳) 機械時代の到来は人間の相互作用を制限し、この10年間でその存在感は高まっている。 ロボットの有効性、耐久性、信頼性を高める必要性も大幅に高まっている。 本稿では, スプレー塗装ロボットの分野における各種組込みシステム, コンピュータビジョン方法論, 技術, 革新について述べる。 高層建築物や壁画、道路標識画などに利用される絵画ロボットの分野は、多くの進歩を遂げてきた。 レビューでは、画像処理、計算技術、コンピュータビジョン技術に焦点を当て、製品に応用することで、パフォーマンスの効率を劇的に向上させる。 画像解析,フィルタリング,エンハンスメント,オブジェクト検出,エッジ検出法,パス・ローカライズ法,パラメータの微調整について,これらの製品の開発において,詳細な検討を行っている。 動的システム設計は、人間との相互作用の低減、環境の持続可能性、仕事の質の向上といった結果を用いて検討されている。 マイクロコントローラ、プロセッサ、通信デバイス、センサー、アクチュエータ、ソフトウェアを含む組み込みシステムは、スプレー塗装ロボットにおけるエンドツーエンドの開発と精度と精度の向上のために説明されている。

The advent of the era of machines has limited human interaction and this has increased their presence in the last decade. The requirement to increase the effectiveness, durability and reliability in the robots has also risen quite drastically too. Present paper covers the various embedded system and computer vision methodologies, techniques and innovations used in the field of spray painting robots. There have been many advancements in the sphere of painting robots utilized for high rise buildings, wall painting, road marking paintings, etc. Review focuses on image processing, computational and computer vision techniques that can be applied in the product to increase efficiency of the performance drastically. Image analysis, filtering, enhancement, object detection, edge detection methods, path and localization methods and fine tuning of parameters are being discussed in depth to use while developing such products. Dynamic system design is being deliberated by using which results in reduction of human interaction, environment sustainability and better quality of work in detail. Embedded systems involving the micro-controllers, processors, communicating devices, sensors and actuators, soft-ware to use them; is being explained for end-to-end development and enhancement of accuracy and precision in Spray Painting Robots.
翻訳日:2022-10-12 02:01:54 公開日:2020-10-02
# 半教師付き人物再同定のための深層学習によるセマンティクス誘導クラスタリング

Semantics-Guided Clustering with Deep Progressive Learning for Semi-Supervised Person Re-identification ( http://arxiv.org/abs/2010.01148v1 )

ライセンス: Link先を確認
Chih-Ting Liu, Yu-Jhe Li, Shao-Yi Chien, Yu-Chiang Frank Wang(参考訳) 人物再識別(re-id)は、同一人物の画像をカメラビュー間でマッチングする必要がある。 より困難なタスクとして、半教師付きre-IDは、トレーニングデータのいくつかのIDが完全にラベル付けされ、残りはラベル付けされていないという問題に取り組む。 このようなラベル付きトレーニングデータとラベルなしトレーニングデータが相反するIDラベルを仮定し、これらのデータを協調的に活用するためのSGC-DPL(Semantics-Guided Clustering with Deep Progressive Learning)を提案する。 提案するsg-ap(semantics-guided affinity propagation)の進展により,ラベルなしデータに対してラベル付きデータからsemantics guidanceの下で擬似ラベルを割り当てることができる。 その結果,ラベル付きトレーニングデータを半教師あり設定で拡張することが可能となった。 SGC-DPLの2つの大規模人体再IDベンチマーク実験は、異なる監督レベルにわたる最先端手法よりも優れていることを示す。 また,SGC-DPLの一般化能力についても,車載リIDや半教師付き設定による画像検索などのタスクで検証した。

Person re-identification (re-ID) requires one to match images of the same person across camera views. As a more challenging task, semi-supervised re-ID tackles the problem that only a number of identities in training data are fully labeled, while the remaining are unlabeled. Assuming that such labeled and unlabeled training data share disjoint identity labels, we propose a novel framework of Semantics-Guided Clustering with Deep Progressive Learning (SGC-DPL) to jointly exploit the above data. By advancing the proposed Semantics-Guided Affinity Propagation (SG-AP), we are able to assign pseudo-labels to selected unlabeled data in a progressive fashion, under the semantics guidance from the labeled ones. As a result, our approach is able to augment the labeled training data in the semi-supervised setting. Our experiments on two large-scale person re-ID benchmarks demonstrate the superiority of our SGC-DPL over state-of-the-art methods across different degrees of supervision. In extension, the generalization ability of our SGC-DPL is also verified in other tasks like vehicle re-ID or image retrieval with the semi-supervised setting.
翻訳日:2022-10-12 02:01:34 公開日:2020-10-02
# 背景適応型高速R-CNNによるX線画像の脅威検出

Background Adaptive Faster R-CNN for Semi-Supervised Convolutional Object Detection of Threats in X-Ray Images ( http://arxiv.org/abs/2010.01202v1 )

ライセンス: Link先を確認
John B. Sigman, Gregory P. Spell, Kevin J Liang, and Lawrence Carin(参考訳) 近年,x線画像を用いた搬送荷物の脅威認識のための畳み込み物体検出器(例えばr-cnn)の教師訓練が進められている。 これは、米国における航空旅行者を保護するための運輸保安局(TSA)のミッションの一部である。 脅威を伴うトレーニングデータが増えることで、このクラスのディープアルゴリズムのパフォーマンスが確実に向上する可能性があるが、現実的なコンテキストでのステージングは高価である。 対照的に、現実世界のデータは最小限のコストで迅速に収集できる。 本稿では,背景適応高速r-cnnと呼ぶ脅威認識のための半教師付き手法を提案する。 本手法は,ディープラーニング分野からのドメイン適応手法を用いた2段階物体検出器の訓練手法である。 前述のデータソースは、2つの"ドメイン"を作る: 脅威を伴うイメージのハンドコンパイルされたデータドメインと、脅威なしで仮定されるイメージの現実世界ドメインである。 2つのドメイン識別器、1つはオブジェクトの提案を識別し、もう1つは画像の特徴を識別する。 このペナルティがなければ、畳み込みニューラルネットワーク(cnn)は、表面的特性に基づいてドメインを識別し、オブジェクトを認識する能力を向上させることなく教師付き損失関数を最小化することができる。 手作業のデータについては、背景からのオブジェクトの提案と画像の特徴のみを使用する。 これらのドメイン適応型識別器の損失は、両方のドメインからのイメージの高速なR-CNN損失に追加される。 これにより、手収集された背景から抽出された特徴の統計を実世界データにマッチさせることで、脅威検出の誤報率を低減できる。 ラベル付き脅威の2つの独立したデータセットでパフォーマンス改善が実証される。

Recently, progress has been made in the supervised training of Convolutional Object Detectors (e.g. Faster R-CNN) for threat recognition in carry-on luggage using X-ray images. This is part of the Transportation Security Administration's (TSA's) mission to protect air travelers in the United States. While more training data with threats may reliably improve performance for this class of deep algorithm, it is expensive to stage in realistic contexts. By contrast, data from the real world can be collected quickly with minimal cost. In this paper, we present a semi-supervised approach for threat recognition which we call Background Adaptive Faster R-CNN. This approach is a training method for two-stage object detectors which uses Domain Adaptation methods from the field of deep learning. The data sources described earlier make two "domains": a hand-collected data domain of images with threats, and a real-world domain of images assumed without threats. Two domain discriminators, one for discriminating object proposals and one for image features, are adversarially trained to prevent encoding domain-specific information. Without this penalty a Convolutional Neural Network (CNN) can learn to identify domains based on superficial characteristics, and minimize a supervised loss function without improving its ability to recognize objects. For the hand-collected data, only object proposals and image features from backgrounds are used. The losses for these domain-adaptive discriminators are added to the Faster R-CNN losses of images from both domains. This can reduce threat detection false alarm rates by matching the statistics of extracted features from hand-collected backgrounds to real world data. Performance improvements are demonstrated on two independently-collected datasets of labeled threats.
翻訳日:2022-10-12 02:00:28 公開日:2020-10-02
# 視覚追跡のためのcnn層に埋め込まれたtacit情報の利用

Leveraging Tacit Information Embedded in CNN Layers for Visual Tracking ( http://arxiv.org/abs/2010.01204v1 )

ライセンス: Link先を確認
Kourosh Meshgi, Maryam Sadat Mirzaei, Shigeyuki Oba(参考訳) cnnの異なるレイヤは、入力中のオブジェクトを記述するために異なる抽象レベルを提供するだけでなく、それらに関するさまざまな暗黙の情報をエンコードする。 異なる特徴の活性化パターンは、空間的関係、時間的パターン、空間的・時空間的特徴の共起など、入ってくる画像の流れに関する貴重な情報を含んでいる。 これまでの視覚追跡文学の研究では、cnnのレイヤーの1つ、それらの組み合わせ、あるいは個々のレイヤー上に構築されたトラッカーのアンサンブルのみを使用していた。 本研究では,単一DCFトラッカーにおける複数のCNN層を適応的に組み合わせて,対象の外観の変動に対処し,CNN層から直接抽出したターゲットの空間的・時間的特性に関するスタイル統計を視覚的追跡に用いることを提案する。 実験により、CNNの付加的な暗黙のデータを使用することで、トラッカーの性能が大幅に向上することが示された。 その結果,スタイル類似性とアクティベーション一貫性の規則化が,その局在性とスケール精度を向上させる効果を示した。

Different layers in CNNs provide not only different levels of abstraction for describing the objects in the input but also encode various implicit information about them. The activation patterns of different features contain valuable information about the stream of incoming images: spatial relations, temporal patterns, and co-occurrence of spatial and spatiotemporal (ST) features. The studies in visual tracking literature, so far, utilized only one of the CNN layers, a pre-fixed combination of them, or an ensemble of trackers built upon individual layers. In this study, we employ an adaptive combination of several CNN layers in a single DCF tracker to address variations of the target appearances and propose the use of style statistics on both spatial and temporal properties of the target, directly extracted from CNN layers for visual tracking. Experiments demonstrate that using the additional implicit data of CNNs significantly improves the performance of the tracker. Results demonstrate the effectiveness of using style similarity and activation consistency regularization in improving its localization and scale accuracy.
翻訳日:2022-10-12 02:00:00 公開日:2020-10-02
# 人工知能による交通監視システム

Artificial Intelligence Enabled Traffic Monitoring System ( http://arxiv.org/abs/2010.01217v1 )

ライセンス: Link先を確認
Vishal Mandal, Abdul Rashid Mussah, Peng Jin, Yaw Adu-Gyamfi(参考訳) 交通管理センターが無数のカメラをネットワーク上に設置しているので、手動による交通監視は大変な作業だ。 ある程度の自動化を投入することで、人手による監視を行う人間の作業負荷を軽減し、事故の影響や道路の渋滞を減少させるような積極的な意思決定を容易にすることができる。 本稿では,ディープ畳み込みニューラルネットワークとスタンドアロンのグラフィカルユーザインタフェースを用いて,リアルタイム交通映像の自動監視手法を提案する。 著者らは、人工知能による交通監視システムの統合フレームワークとして機能するモデルの開発プロセスで得られた研究結果について説明する。 提案システムは、さまざまなトラフィック監視ニーズを自動化するために、最先端のディープラーニングアルゴリズムをデプロイする。 注釈付きビデオ監視データの大規模なデータベースを活用することで、ディープラーニングベースのモデルは、キューの検出、静止車両の追跡、車両数を集計するように訓練される。 ピクセルレベルのセグメンテーション手法を適用して、トラフィックキューを検出し、重大度を予測する。 異なるトラッキングシステムと組み合わされたリアルタイム物体検出アルゴリズムが展開され、静止車両を自動的に検出し、車両数を実行する。 それぞれの開発段階において,提案システムの有効性を実証する興味深い実験結果が得られた。 その結果, この枠組みは, ぼやけたカメラビュー, 低照度, 雨, 雪などの環境に大きく影響されることなく, 様々な条件下で良好に機能することを示した。

Manual traffic surveillance can be a daunting task as Traffic Management Centers operate a myriad of cameras installed over a network. Injecting some level of automation could help lighten the workload of human operators performing manual surveillance and facilitate making proactive decisions which would reduce the impact of incidents and recurring congestion on roadways. This article presents a novel approach to automatically monitor real time traffic footage using deep convolutional neural networks and a stand-alone graphical user interface. The authors describe the results of research received in the process of developing models that serve as an integrated framework for an artificial intelligence enabled traffic monitoring system. The proposed system deploys several state-of-the-art deep learning algorithms to automate different traffic monitoring needs. Taking advantage of a large database of annotated video surveillance data, deep learning-based models are trained to detect queues, track stationary vehicles, and tabulate vehicle counts. A pixel-level segmentation approach is applied to detect traffic queues and predict severity. Real-time object detection algorithms coupled with different tracking systems are deployed to automatically detect stranded vehicles as well as perform vehicular counts. At each stages of development, interesting experimental results are presented to demonstrate the effectiveness of the proposed system. Overall, the results demonstrate that the proposed framework performs satisfactorily under varied conditions without being immensely impacted by environmental hazards such as blurry camera views, low illumination, rain, or snow.
翻訳日:2022-10-12 01:59:32 公開日:2020-10-02
# 階層的最大エントロピーランダムウォークに基づく多重赤外小ターゲット検出

Multiple Infrared Small Targets Detection based on Hierarchical Maximal Entropy Random Walk ( http://arxiv.org/abs/2010.00923v1 )

ライセンス: Link先を確認
Chaoqun Xia, Xiaorun Li, Liaoying Zhao, Shuhan Chen(参考訳) 低信号対クラッタ比(scr)で複数のdimmおよび小型ターゲットを検出する技術は、赤外線サーチおよび追跡システムにとって非常に重要である。 本稿では,最大エントロピーランダムウォーク(merw)から導出した検出法を確立し,複数の小型ターゲットをロバストに検出する。 はじめに第一回merwを導入し,小型ターゲット検出に適用する可能性について検討した。 しかし、MERWの元々の重量行列は干渉に敏感である。 したがって, MERW は, 小型目標の特性を向上し, 強いクラッタを抑制するために, 比重行列を設計する。 さらに、原始merwは最も塩分の多い小さなターゲットに対して強いバイアスの限界を持っている。 複数の小さなターゲット検出を実現するため,MERW法の階層バージョンを開発した。 階層的MERW (HMERW) に基づいて, 以下の小さなターゲット検出手法を提案する。 まず、赤外線画像の平滑化にフィルタリング技術を用いる。 次に、フィルタされた画像をHMERWにインポートして出力マップを得る。 そして、hmerwの定常汚れマップを融合させるために係数マップを構築する。 最後に、適応しきい値を用いて、融合マップから複数の小さなターゲットを分割する。 実用的なデータセットに関する広範囲な実験により,提案手法は,目標強調,背景抑圧,複数の小目標検出において最先端手法よりも優れていることが示された。

The technique of detecting multiple dim and small targets with low signal-to-clutter ratios (SCR) is very important for infrared search and tracking systems. In this paper, we establish a detection method derived from maximal entropy random walk (MERW) to robustly detect multiple small targets. Initially, we introduce the primal MERW and analyze the feasibility of applying it to small target detection. However, the original weight matrix of the MERW is sensitive to interferences. Therefore, a specific weight matrix is designed for the MERW in principle of enhancing characteristics of small targets and suppressing strong clutters. Moreover, the primal MERW has a critical limitation of strong bias to the most salient small target. To achieve multiple small targets detection, we develop a hierarchical version of the MERW method. Based on the hierarchical MERW (HMERW), we propose a small target detection method as follows. First, filtering technique is used to smooth the infrared image. Second, an output map is obtained by importing the filtered image into the HMERW. Then, a coefficient map is constructed to fuse the stationary dirtribution map of the HMERW. Finally, an adaptive threshold is used to segment multiple small targets from the fusion map. Extensive experiments on practical data sets demonstrate that the proposed method is superior to the state-of-the-art methods in terms of target enhancement, background suppression and multiple small targets detection.
翻訳日:2022-10-12 01:53:16 公開日:2020-10-02
# イメージベース水中3d復元による文化遺産--画像収集から3dへ 批判的ステップと考察

Image-based underwater 3D reconstruction for Cultural Heritage: from image collection to 3D. Critical steps and considerations ( http://arxiv.org/abs/2010.00928v1 )

ライセンス: Link先を確認
Dimitrios Skarlatos and Panagiotis Agrafiotis(参考訳) 海底文化遺産(CH)の遺跡は、海岸線の遺跡から深海難破船まで広く広がっている。 この遺産の文書化と保存は人類の義務であり、また「非破壊的な技術の使用を奨励し、物体の回収よりも好んでメスを調査する」水中文化保護条約のような国際条約によっても規定されている。 しかし、水没したchは、土地chに関する保護と監視に欠けており、デジタル保存とvrによる広範に普及のために、現在記録と文書化が重要である。 同時に、環境に固有の制約があるため、文書化するのが最も困難である。 高精細なテクスチャ3dモデルを作るためには、光学センサーとフォトグラム技術が最適であると思われる。 本章では,画像ベース水中3次元再構成過程のすべての段階について,色復元アルゴリズムと色拡張アルゴリズムを用いたデータ取得とデータ準備から,sfm(structure from motion)およびmvs(multi-view stereo)技術による高精度・高精度・完全3dモデルの構築まで,重要な側面を否定する。

Underwater Cultural Heritage (CH) sites are widely spread; from ruins in coastlines up to shipwrecks in deep. The documentation and preservation of this heritage is an obligation of the mankind, dictated also by the international treaties like the Convention on the Protection of the Underwater Cultural Her-itage which fosters the use of "non-destructive techniques and survey meth-ods in preference over the recovery of objects". However, submerged CH lacks in protection and monitoring in regards to the land CH and nowadays recording and documenting, for digital preservation as well as dissemination through VR to wide public, is of most importance. At the same time, it is most difficult to document it, due to inherent restrictions posed by the environ-ment. In order to create high detailed textured 3D models, optical sensors and photogrammetric techniques seems to be the best solution. This chapter dis-cusses critical aspects of all phases of image based underwater 3D reconstruc-tion process, from data acquisition and data preparation using colour restora-tion and colour enhancement algorithms to Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques to produce an accurate, precise and complete 3D model for a number of applications.
翻訳日:2022-10-12 01:52:54 公開日:2020-10-02
# MGD-GAN:多点識別によるテキスト・歩行者生成

MGD-GAN: Text-to-Pedestrian generation through Multi-Grained Discrimination ( http://arxiv.org/abs/2010.00947v1 )

ライセンス: Link先を確認
Shengyu Zhang, Donghui Wang, Zhou Zhao, Siliang Tang, Di Xie, Fei Wu(参考訳) 本稿では,アート,デザイン,ビデオサーベイランスにおいて多種多様な応用が期待できるテキスト対ペデストリアン合成の問題について検討する。 従来のテキスト-鳥/花合成法は、歩行者が自然に行う複雑な構造と不均一な外観のため、この細かな画像生成問題を解決するには程遠い。 そこで本研究では,複合体構造のコヒーレンスを捉えるために,人的部分に基づく判別器(hpd)と自己交叉型(sca)大域的判別器(sca)を活かした多面的識別強化生成逆ネットワークを提案する。 hpdモジュールでは、粒度の細かい単語レベルの注意機構を採用し、多様な外観と鮮明な詳細を強制する。 さらに,Pose Score と Pose Variance という2つの歩行者生成指標をそれぞれ,世代品質と多様性を評価するために考案した。 我々は,キャプション付歩行者データセットCUHK Person Description Datasetについて,広範な実験とアブレーション研究を行った。 様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。

In this paper, we investigate the problem of text-to-pedestrian synthesis, which has many potential applications in art, design, and video surveillance. Existing methods for text-to-bird/flower synthesis are still far from solving this fine-grained image generation problem, due to the complex structure and heterogeneous appearance that the pedestrians naturally take on. To this end, we propose the Multi-Grained Discrimination enhanced Generative Adversarial Network, that capitalizes a human-part-based Discriminator (HPD) and a self-cross-attended (SCA) global Discriminator in order to capture the coherence of the complex body structure. A fined-grained word-level attention mechanism is employed in the HPD module to enforce diversified appearance and vivid details. In addition, two pedestrian generation metrics, named Pose Score and Pose Variance, are devised to evaluate the generation quality and diversity, respectively. We conduct extensive experiments and ablation studies on the caption-annotated pedestrian dataset, CUHK Person Description Dataset. The substantial improvement over the various metrics demonstrates the efficacy of MGD-GAN on the text-to-pedestrian synthesis scenario.
翻訳日:2022-10-12 01:52:29 公開日:2020-10-02
# 画像登録のための不確かさ駆動確率ボクセル選択

Uncertainty driven probabilistic voxel selection for image registration ( http://arxiv.org/abs/2010.00988v1 )

ライセンス: Link先を確認
Boris N. Oreshkin and Tal Arbel(参考訳) 本稿では, 医療画像登録のための新しい確率的ボクセル選択戦略を提案する。この方法の目標は, 登録精度と低故障率を維持しつつ, 攻撃的ボクセルサンプリング(例えば総数の1%以下)を行うことである。 まず,変換パラメータの不確実性に基づいてボクセルサンプリング確率場(voxel sampling probability field,vspf)を構築するベイズフレームワークを開発した。 次に、VSPFに基づいて、各最適化イテレーションにおいて異なるボクセルサブセットをサンプリングする実用的なマルチスケール登録アルゴリズムについて述べる。 このアプローチは、voxelの特定の固定サブセットにコミットすることなく、精度を最大化する。 従来のランダムなボクセル選択のロバスト性(さらなる探索を許すこと)と固定されたボクセル選択の精度(より多くの情報的ボクセルの比率を許すこと)とのトレードオフを管理するために開発された確率的サンプリングスキームが示されている。

This paper presents a novel probabilistic voxel selection strategy for medical image registration in time-sensitive contexts, where the goal is aggressive voxel sampling (e.g. using less than 1% of the total number) while maintaining registration accuracy and low failure rate. We develop a Bayesian framework whereby, first, a voxel sampling probability field (VSPF) is built based on the uncertainty on the transformation parameters. We then describe a practical, multi-scale registration algorithm, where, at each optimization iteration, different voxel subsets are sampled based on the VSPF. The approach maximizes accuracy without committing to a particular fixed subset of voxels. The probabilistic sampling scheme developed is shown to manage the tradeoff between the robustness of traditional random voxel selection (by permitting more exploration) and the accuracy of fixed voxel selection (by permitting a greater proportion of informative voxels).
翻訳日:2022-10-12 01:51:28 公開日:2020-10-02
# DecAug:分解によるHOI検出の強化

DecAug: Augmenting HOI Detection via Decomposition ( http://arxiv.org/abs/2010.01007v1 )

ライセンス: Link先を確認
Yichen Xie, Hao-Shu Fang, Dian Shao, Yong-Lu Li, Cewu Lu(参考訳) human-object interaction (hoi) 検出には大量の注釈データが必要である。 現在のアルゴリズムは、トレーニングサンプルの不足とデータセット内のカテゴリの不均衡に苦しむ。 本稿では,データ効率を向上させるために,HOI検出のためのDecAugと呼ばれる効率的なデータ拡張手法を提案する。 提案するオブジェクト状態類似度メトリクスに基づいて、異なるhoisにまたがるオブジェクトパターンを共有して、状態を変更することなく、ローカルなオブジェクト外観機能を強化します。 さらに,ポーズ誘導ガウス混合モデルを用いて,人間と物体間の空間相関を他の実現可能な構成にシフトする。 実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。 特に、少ないサンプルとの相互作用は、より顕著な改善を享受する。 本手法は,余分な計算量で容易に様々なHOI検出モデルに組み込むことができる。 私たちのコードは公開されます。

Human-object interaction (HOI) detection requires a large amount of annotated data. Current algorithms suffer from insufficient training samples and category imbalance within datasets. To increase data efficiency, in this paper, we propose an efficient and effective data augmentation method called DecAug for HOI detection. Based on our proposed object state similarity metric, object patterns across different HOIs are shared to augment local object appearance features without changing their state. Further, we shift spatial correlation between humans and objects to other feasible configurations with the aid of a pose-guided Gaussian Mixture Model while preserving their interactions. Experiments show that our method brings up to 3.3 mAP and 1.6 mAP improvements on V-COCO and HICODET dataset for two advanced models. Specifically, interactions with fewer samples enjoy more notable improvement. Our method can be easily integrated into various HOI detection models with negligible extra computational consumption. Our code will be made publicly available.
翻訳日:2022-10-12 01:50:52 公開日:2020-10-02
# 光リモートセンシング画像におけるsalient object detectionのための並列ダウンアップフュージョンネットワーク

A Parallel Down-Up Fusion Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2010.00793v1 )

ライセンス: Link先を確認
Chongyi Li, Runmin Cong, Chunle Guo, Hua Li, Chunjie Zhang, Feng Zheng, and Yao Zhao(参考訳) 様々な空間分解能、様々なオブジェクトタイプ、スケールと向き、光学リモートセンシング画像(RSI)の散らばった背景は、現在のサルエント物体検出(SOD)アプローチに挑戦する。 自然シーンイメージ(NSI)のために設計されたSODアプローチを直接RSIに適用するのは、一般的には不満足である。 本稿では,光学RSIにおけるSODのための新しい並列ダウンアップフュージョンネットワーク(PDF-Net)を提案する。 具体的には、画像の解像度を念頭に置いても、正当性オブジェクトが正当であることをキーとなる観察を保ちながら、PDF-Netは連続的なダウンサンプリングを行い、5つの平行パスを形成し、光学RSIに一般的に存在するスケールされた正反対性オブジェクトを知覚する。 一方、我々は、同一経路における低レベル情報と高レベル情報の両方を活用するために高密度接続を採用し、強い特徴表現を明示的に生成するクロスパスの関係を構築する。 最終的に、並列経路における多重解像度特徴を融合させて、特徴の利点と異なる解像度、すなわち、完全な構造と明確な詳細からなる高解像度特徴と、スケールした正当性オブジェクトを強調させる低解像度特徴とを組み合わせます。 ORSSDデータセットの大規模な実験により、提案したネットワークは定性的かつ定量的に最先端のアプローチよりも優れていることが示された。

The diverse spatial resolutions, various object types, scales and orientations, and cluttered backgrounds in optical remote sensing images (RSIs) challenge the current salient object detection (SOD) approaches. It is commonly unsatisfactory to directly employ the SOD approaches designed for nature scene images (NSIs) to RSIs. In this paper, we propose a novel Parallel Down-up Fusion network (PDF-Net) for SOD in optical RSIs, which takes full advantage of the in-path low- and high-level features and cross-path multi-resolution features to distinguish diversely scaled salient objects and suppress the cluttered backgrounds. To be specific, keeping a key observation that the salient objects still are salient no matter the resolutions of images are in mind, the PDF-Net takes successive down-sampling to form five parallel paths and perceive scaled salient objects that are commonly existed in optical RSIs. Meanwhile, we adopt the dense connections to take advantage of both low- and high-level information in the same path and build up the relations of cross paths, which explicitly yield strong feature representations. At last, we fuse the multiple-resolution features in parallel paths to combine the benefits of the features with different resolutions, i.e., the high-resolution feature consisting of complete structure and clear details while the low-resolution features highlighting the scaled salient objects. Extensive experiments on the ORSSD dataset demonstrate that the proposed network is superior to the state-of-the-art approaches both qualitatively and quantitatively.
翻訳日:2022-10-12 01:43:13 公開日:2020-10-02
# キャプション:名詞のみを用いた分析・posタグ化・解釈による補正

CAPTION: Correction by Analyses, POS-Tagging and Interpretation of Objects using only Nouns ( http://arxiv.org/abs/2010.00839v1 )

ライセンス: Link先を確認
Leonardo Anjoletto Ferreira, Douglas De Rizzo Meneghetti, Paulo Eduardo Santos(参考訳) 近年,Deep Learning (DL) 法は画像キャプションや視覚的質問応答において優れた性能を示している。 しかし、その性能にもかかわらず、dlメソッドはシーンを記述するために使われる単語の意味を学習しないため、キャプションで使われる不正確な単語を見つけたり、類似した意味を持つ単語を交換することが困難である。 本研究では,オブジェクト検出のためのdl法と,画像のキャプションを検証する自然言語処理を組み合わせた手法を提案する。 FOIL-COCOデータセットでは,MS-COCO画像データセットに表されるオブジェクトのみを用いて,様々な画像に対して正しいキャプションと誤ったキャプションを提供する。 その結果,提案手法は全体の性能が良好であり,人的性能に類似する場合もある。

Recently, Deep Learning (DL) methods have shown an excellent performance in image captioning and visual question answering. However, despite their performance, DL methods do not learn the semantics of the words that are being used to describe a scene, making it difficult to spot incorrect words used in captions or to interchange words that have similar meanings. This work proposes a combination of DL methods for object detection and natural language processing to validate image's captions. We test our method in the FOIL-COCO data set, since it provides correct and incorrect captions for various images using only objects represented in the MS-COCO image data set. Results show that our method has a good overall performance, in some cases similar to the human performance.
翻訳日:2022-10-12 01:42:21 公開日:2020-10-02
# 限定ラベル標本による自己教師付きパラダイムによるリモートセンシング画像シーン分類

Remote Sensing Image Scene Classification with Self-Supervised Paradigm under Limited Labeled Samples ( http://arxiv.org/abs/2010.00882v1 )

ライセンス: Link先を確認
Chao Tao, Ji Qi, Weipeng Lu, Hao Wang and Haifeng Li(参考訳) 深層学習の発展に伴い、教師あり学習法はリモートセンシング画像(RSI)シーン分類において良好に機能する。 しかし、教師あり学習には大量の注釈付きデータが必要である。 ラベル付きサンプルが不十分な場合、最も一般的な解決策は、大きな自然画像データセット(例: imagenet)を使用して事前トレーニングモデルを微調整することである。 しかし、この学習パラダイムは、特にターゲットのリモートセンシング画像(マルチスペクトルやハイパースペクトルデータ)がRGBの自然画像とは異なる撮像機構を持つ場合、パナセアではない。 そこで本研究では,rdsシーン分類のための高性能事前学習モデルを得るための自己教師付き学習(ssl)機構を提案する。 3つのrsisシーン分類データセットの実験により、この新しい学習パラダイムが従来の支配的なイメージネット事前学習モデルよりも優れていることが示されている。 さらに,自己教師付き信号の選択,ソースとターゲットデータセットのドメイン差,事前学習データの量など,rssシーン分類タスクにおけるsslのいくつかの要因の影響を分析した。 我々の研究から得られた知見は、リモートセンシングコミュニティにおけるSSLの発展を促進するのに役立つ。 SSLは、ラベル付けされていない巨大なRSIから非常に容易に取得できるため、ラベル付きサンプルへの依存を緩和し、グローバルマッピングのような多くの問題を効率的に解決する潜在的に有望な方法である。

With the development of deep learning, supervised learning methods perform well in remote sensing images (RSIs) scene classification. However, supervised learning requires a huge number of annotated data for training. When labeled samples are not sufficient, the most common solution is to fine-tune the pre-training models using a large natural image dataset (e.g. ImageNet). However, this learning paradigm is not a panacea, especially when the target remote sensing images (e.g. multispectral and hyperspectral data) have different imaging mechanisms from RGB natural images. To solve this problem, we introduce new self-supervised learning (SSL) mechanism to obtain the high-performance pre-training model for RSIs scene classification from large unlabeled data. Experiments on three commonly used RSIs scene classification datasets demonstrated that this new learning paradigm outperforms the traditional dominant ImageNet pre-trained model. Moreover, we analyze the impacts of several factors in SSL on RSIs scene classification tasks, including the choice of self-supervised signals, the domain difference between the source and target dataset, and the amount of pre-training data. The insights distilled from our studies can help to foster the development of SSL in the remote sensing community. Since SSL could learn from unlabeled massive RSIs which are extremely easy to obtain, it will be a potentially promising way to alleviate dependence on labeled samples and thus efficiently solve many problems, such as global mapping.
翻訳日:2022-10-12 01:41:55 公開日:2020-10-02
# 高速イメージリターゲティングのためのセルフプレイ強化学習

Self-Play Reinforcement Learning for Fast Image Retargeting ( http://arxiv.org/abs/2010.00909v1 )

ライセンス: Link先を確認
Nobukatsu Kajiura, Satoshi Kosugi, Xueting Wang, Toshihiko Yamasaki(参考訳) 本研究では,任意のサイズに入力画像を調整するタスクである画像再ターゲティングに対処する。 MultiOPと呼ばれるベストパフォーマンスの手法の1つにおいて、複数のリターゲット演算子を組み合わせて各ステージにおけるリターゲット画像を生成し、元の画像とリターゲット画像の距離を最小化する演算子の最適シーケンスを求める。 この方法の限界は膨大な処理時間であり、実用的使用を厳しく禁止している。 そこで本研究の目的は,適切な処理時間内にオペレータの最適な組み合わせを見つけることであり,強化学習エージェントを用いて各ステップの最適な演算子を予測する方法を提案する。 本研究の技術的貢献は以下の通りである。 まず,MultiOPで測定されたコンテンツ依存距離の大きなばらつきに敏感な自己演奏に基づく報酬を提案する。 次に,各動作の損失重みを動的に変化させることにより,アルゴリズムが局所最適に陥り,最も頻繁に使用されるオペレータのみを選択することを防止する。 提案手法は,処理時間を3桁削減し,元のマルチオペレータベース法と同品質のマルチオペレータ画像再ターゲティングを実現し,タスクの再ターゲティングに最適なアルゴリズムであることを示した。

In this study, we address image retargeting, which is a task that adjusts input images to arbitrary sizes. In one of the best-performing methods called MULTIOP, multiple retargeting operators were combined and retargeted images at each stage were generated to find the optimal sequence of operators that minimized the distance between original and retargeted images. The limitation of this method is in its tremendous processing time, which severely prohibits its practical use. Therefore, the purpose of this study is to find the optimal combination of operators within a reasonable processing time; we propose a method of predicting the optimal operator for each step using a reinforcement learning agent. The technical contributions of this study are as follows. Firstly, we propose a reward based on self-play, which will be insensitive to the large variance in the content-dependent distance measured in MULTIOP. Secondly, we propose to dynamically change the loss weight for each action to prevent the algorithm from falling into a local optimum and from choosing only the most frequently used operator in its training. Our experiments showed that we achieved multi-operator image retargeting with less processing time by three orders of magnitude and the same quality as the original multi-operator-based method, which was the best-performing algorithm in retargeting tasks.
翻訳日:2022-10-12 01:41:24 公開日:2020-10-02
# 時空間情報を用いた単語埋め込みの強化

Enriching Word Embeddings with Temporal and Spatial Information ( http://arxiv.org/abs/2010.00761v1 )

ライセンス: Link先を確認
Hongyu Gong, Suma Bhat, Pramod Viswanath(参考訳) 単語の意味は、時間と場所によって変化しうる社会文化的要因と密接に関連しており、対応する意味変化をもたらす。 英語のような広く使われている言語で、単語とその意味をグローバルに見るには、文化的な傾向や言語の使用など、時間固有の状況や位置認識の状況で使用するための、より洗練された意味論を捉える必要があるかもしれない。 しかし、単語の一般的なベクトル表現は時間情報や空間情報を適切に含まない。 本稿では,時間と位置を条件とした単語表現の学習モデルを提案する。 時間と位置による意味の変化を捉えることに加えて、結果として得られる単語の埋め込みは有意な意味と幾何学的性質を保持する必要がある。 我々は、時間と位置をスタンプしたコーパスでモデルをトレーニングし、時間と場所のセマンティクスをキャプチャできる量的および質的な評価の両方を用いて示す。 我々のモデルは、時間固有の埋め込みの最先端技術と比較し、位置固有の埋め込みの新しいベンチマークとして機能する。

The meaning of a word is closely linked to sociocultural factors that can change over time and location, resulting in corresponding meaning changes. Taking a global view of words and their meanings in a widely used language, such as English, may require us to capture more refined semantics for use in time-specific or location-aware situations, such as the study of cultural trends or language use. However, popular vector representations for words do not adequately include temporal or spatial information. In this work, we present a model for learning word representation conditioned on time and location. In addition to capturing meaning changes over time and location, we require that the resulting word embeddings retain salient semantic and geometric properties. We train our model on time- and location-stamped corpora, and show using both quantitative and qualitative evaluations that it can capture semantics across time and locations. We note that our model compares favorably with the state-of-the-art for time-specific embedding, and serves as a new benchmark for location-specific embeddings.
翻訳日:2022-10-12 01:34:36 公開日:2020-10-02
# JAKET:知識グラフと言語理解の併用による事前学習

JAKET: Joint Pre-training of Knowledge Graph and Language Understanding ( http://arxiv.org/abs/2010.00796v1 )

ライセンス: Link先を確認
Donghan Yu, Chenguang Zhu, Yiming Yang, Michael Zeng(参考訳) 知識グラフ(KG)は、世界知識、実体、関係に関する豊富な情報を含む。 したがって、既存の事前訓練された言語モデルにとって素晴らしいサプリメントになり得る。 しかし、kgから言語モデリングに効率的に情報を統合することは依然として課題である。 知識グラフの理解には関連するコンテキストが必要です。 知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるjaketを提案する。 知識モジュールは、テキスト内のエンティティへの埋め込みを生成し、言語モジュールは、グラフ内のエンティティと関係のためのコンテキスト認識初期埋め込みを生成する。 我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。 知識を意識したNLPタスクの実験結果から,言語理解における知識を効果的に活用することで,提案手法が優れた性能を発揮することが示された。

Knowledge graphs (KGs) contain rich information about world knowledge, entities and relations. Thus, they can be great supplements to existing pre-trained language models. However, it remains a challenge to efficiently integrate information from KG into language modeling. And the understanding of a knowledge graph requires related context. We propose a novel joint pre-training framework, JAKET, to model both the knowledge graph and language. The knowledge module and language module provide essential information to mutually assist each other: the knowledge module produces embeddings for entities in text while the language module generates context-aware initial embeddings for entities and relations in the graph. Our design enables the pre-trained model to easily adapt to unseen knowledge graphs in new domains. Experimental results on several knowledge-aware NLP tasks show that our proposed framework achieves superior performance by effectively leveraging knowledge in language understanding.
翻訳日:2022-10-12 01:34:04 公開日:2020-10-02
# メガトロンCNTRL:大規模言語モデルを用いた外部知識による制御可能なストーリー生成

MEGATRON-CNTRL: Controllable Story Generation with External Knowledge Using Large-Scale Language Models ( http://arxiv.org/abs/2010.00840v1 )

ライセンス: Link先を確認
Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Raul Puri, Pascale Fung, Anima Anandkumar and Bryan Catanzaro(参考訳) 既存の訓練済みの大規模言語モデルは、非並列な生成能力を示している。 しかし、それらは制御できない。 本稿では,megatron-cntrlを提案する。megatron-cntrlは,大規模言語モデルを使用し,外部知識ベースを組み込んだテキスト生成制御を付加する新しいフレームワークである。 本フレームワークは,キーワード予測器,知識検索器,文脈知識ランキング器,条件付きテキスト生成器から構成される。 知識ランク付け者に対する基幹的監督へのアクセスがないため、文埋め込みによる弱い監督を活用できる。 実験結果から,本モデルは,rocストーリーデータセットの先行作業よりも,反復性や多様性の少ない,より流動的で一貫性のある,一貫性のあるストーリを生成できることがわかった。 ストーリーの生成や生成プロセスの再実行に使用されるキーワードを置き換えることで、モデルの制御可能性を紹介します。 人的評価の結果、77.5%のストーリーが新しいキーワードによってうまく制御されていることが示されている。 さらに、我々のモデルを1億1400万から830億のパラメータにスケールすることで、より大きなモデルが生成の品質(一貫性のために74.5%から93.0%)と制御性(77.5%から91.5%)の両方を改善することを示した。

Existing pre-trained large language models have shown unparalleled generative capabilities. However, they are not controllable. In this paper, we propose MEGATRON-CNTRL, a novel framework that uses large-scale language models and adds control to text generation by incorporating an external knowledge base. Our framework consists of a keyword predictor, a knowledge retriever, a contextual knowledge ranker, and a conditional text generator. As we do not have access to ground-truth supervision for the knowledge ranker, we make use of weak supervision from sentence embedding. The empirical results show that our model generates more fluent, consistent, and coherent stories with less repetition and higher diversity compared to prior work on the ROC story dataset. We showcase the controllability of our model by replacing the keywords used to generate stories and re-running the generation process. Human evaluation results show that 77.5% of these stories are successfully controlled by the new keywords. Furthermore, by scaling our model from 124 million to 8.3 billion parameters we demonstrate that larger models improve both the quality of generation (from 74.5% to 93.0% for consistency) and controllability (from 77.5% to 91.5%).
翻訳日:2022-10-12 01:33:53 公開日:2020-10-02
# Padded Masked Language Modelによる教師なしテキストスタイル変換

Unsupervised Text Style Transfer with Padded Masked Language Models ( http://arxiv.org/abs/2010.01054v1 )

ライセンス: Link先を確認
Eric Malmi, Aliaksei Severyn, Sascha Rothe(参考訳) スタイル転送のための教師なしテキスト編集方式である masker を提案する。 パラレルソースとターゲットのペアが利用できない場合に対処するため、ソースとターゲットドメインの両方に対してマスキング言語モデル(MLM)をトレーニングします。 次に、2つのモデルが最も一致しないテキストスパンを見つけます。 これにより、削除するソーストークンを特定して、ターゲットドメインのスタイルにマッチするようにソーステキストを変換できます。 削除されたトークンはターゲットMLMに置き換えられ、パッド付きMLM変種を使用することで、挿入されたトークンの数を事前に決定する必要がない。 文の融合と感情伝達の実験は、Maskerが完全に教師なしの環境で競争力を発揮することを示した。 さらに、低リソース環境では、Maskerが生成した銀のトレーニングデータで事前にトレーニングした場合、教師ありメソッドの精度を10パーセント以上向上する。

We propose Masker, an unsupervised text-editing method for style transfer. To tackle cases when no parallel source-target pairs are available, we train masked language models (MLMs) for both the source and the target domain. Then we find the text spans where the two models disagree the most in terms of likelihood. This allows us to identify the source tokens to delete to transform the source text to match the style of the target domain. The deleted tokens are replaced with the target MLM, and by using a padded MLM variant, we avoid having to predetermine the number of inserted tokens. Our experiments on sentence fusion and sentiment transfer demonstrate that Masker performs competitively in a fully unsupervised setting. Moreover, in low-resource settings, it improves supervised methods' accuracy by over 10 percentage points when pre-training them on silver training data generated by Masker.
翻訳日:2022-10-12 01:33:30 公開日:2020-10-02
# 単語埋め込みとニューラルネットワークにおける構文表現 -調査-

Syntax Representation in Word Embeddings and Neural Networks -- A Survey ( http://arxiv.org/abs/2010.01063v1 )

ライセンス: Link先を確認
Tomasz Limisiewicz and David Mare\v{c}ek(参考訳) 自然言語処理タスクで訓練されたニューラルネットワークは、監督信号として提供されていなくても構文をキャプチャする。 このことは、構文解析が人工知能システムにおける言語理解に不可欠であることを示している。 本稿では,異なるニューラルネットワークアーキテクチャにおける単語表現に含まれる構文情報の量を評価するアプローチについて述べる。 ニューラルマシン翻訳システムおよび多言語言語モデルのための言語モデリングタスクおよび多言語データに関する英語単言語データの再検討を主に要約する。 文法タスクへの変換には,事前学習したモデルと言語表現が最適であることを示す。

Neural networks trained on natural language processing tasks capture syntax even though it is not provided as a supervision signal. This indicates that syntactic analysis is essential to the understating of language in artificial intelligence systems. This overview paper covers approaches of evaluating the amount of syntactic information included in the representations of words for different neural network architectures. We mainly summarize re-search on English monolingual data on language modeling tasks and multilingual data for neural machine translation systems and multilingual language models. We describe which pre-trained models and representations of language are best suited for transfer to syntactic tasks.
翻訳日:2022-10-12 01:33:14 公開日:2020-10-02
# HUMAN:階層型ユニバーサルモジュールアノテーション

HUMAN: Hierarchical Universal Modular ANnotator ( http://arxiv.org/abs/2010.01080v1 )

ライセンス: Link先を確認
Moritz Wolf, Dana Ruiter, Ashwin Geet D'Sa, Liane Reiners, Jan Alexandersson, Dietrich Klakow(参考訳) 多くの現実世界の現象は複雑であり、単一のタスクアノテーションでは捉えられない。 これにより、被写体の性質を記述する相互依存的な質問と回答を含む、後続のアノテーションが必要となる。 ある現象が1つのタスクによって容易に捕捉される場合であっても、ほとんどのアノテーションツールの高度な特殊化は、タスクが少しだけ変化した場合に別のツールに切り替えることになる。 上記の問題に対処する新しいWebベースのアノテーションツールであるHUMANを紹介する。 a) テキストデータと画像データの両方に関する様々なアノテーションタスクをカバーし、 b) 内部決定論的状態機械の使用により、研究者は、異なるアノテーションタスクを相互依存的に連鎖させることができる。 さらに、このツールのモジュール性により、新しいアノテーションタスクの定義や、アクティブな学習など、機械学習アルゴリズムの統合が容易になる。 HUMANには、アノテーションタスクと管理を簡単にするグラフィカルユーザインターフェースが付属している。

A lot of real-world phenomena are complex and cannot be captured by single task annotations. This causes a need for subsequent annotations, with interdependent questions and answers describing the nature of the subject at hand. Even in the case a phenomenon is easily captured by a single task, the high specialisation of most annotation tools can result in having to switch to another tool if the task only slightly changes. We introduce HUMAN, a novel web-based annotation tool that addresses the above problems by a) covering a variety of annotation tasks on both textual and image data, and b) the usage of an internal deterministic state machine, allowing the researcher to chain different annotation tasks in an interdependent manner. Further, the modular nature of the tool makes it easy to define new annotation tasks and integrate machine learning algorithms e.g., for active learning. HUMAN comes with an easy-to-use graphical user interface that simplifies the annotation task and management.
翻訳日:2022-10-12 01:33:05 公開日:2020-10-02
# 複合単語識別のための言語間変換学習

Cross-Lingual Transfer Learning for Complex Word Identification ( http://arxiv.org/abs/2010.01108v1 )

ライセンス: Link先を確認
George-Eduard Zaharia, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) 複雑な単語識別(CWI)は、様々な専門分野のテキストで理解しにくい単語や単語のグループを検出することに焦点を当てたタスクである。 CWIの目的は、非ネイティブ話者が通常理解するのが難しい問題構造を明らかにすることである。 我々のアプローチでは、自然言語処理(NLP)タスク(トランスフォーマー)の最先端ソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。 提案するモデルは,4つの異なる言語(英語,ドイツ語,スペイン語,フランス語)で利用可能なcwi shared task 2018データセットに依存することにより,多言語環境において複雑な単語の特徴を学習できることを示すことを目的としている。 我々のアプローチは、ゼロショット学習シナリオにおいて、英語(0.774)、ドイツ語(0.782)、スペイン語(0.734)のマクロF1スコアで、最先端の言語間比較結果を上回る。 同時に、このモデルはドイツ語の最先端の単言語結果を上回っている(0.795マクロf1-score)。

Complex Word Identification (CWI) is a task centered on detecting hard-to-understand words, or groups of words, in texts from different areas of expertise. The purpose of CWI is to highlight problematic structures that non-native speakers would usually find difficult to understand. Our approach uses zero-shot, one-shot, and few-shot learning techniques, alongside state-of-the-art solutions for Natural Language Processing (NLP) tasks (i.e., Transformers). Our aim is to provide evidence that the proposed models can learn the characteristics of complex words in a multilingual environment by relying on the CWI shared task 2018 dataset available for four different languages (i.e., English, German, Spanish, and also French). Our approach surpasses state-of-the-art cross-lingual results in terms of macro F1-score on English (0.774), German (0.782), and Spanish (0.734) languages, for the zero-shot learning scenario. At the same time, our model also outperforms the state-of-the-art monolingual result for German (0.795 macro F1-score).
翻訳日:2022-10-12 01:32:52 公開日:2020-10-02
# 事前学習データの費用対効果の選択:ソーシャルメディア上でのBERTの事前学習を事例として

Cost-effective Selection of Pretraining Data: A Case Study of Pretraining BERT on Social Media ( http://arxiv.org/abs/2010.01150v1 )

ライセンス: Link先を確認
Xiang Dai and Sarvnaz Karimi and Ben Hachey and Cecile Paris(参考訳) 領域固有のBERTモデルに関する最近の研究は、ドメイン内データ上でモデルが事前訓練された場合、下流タスクの有効性を向上させることができることを示している。 これらのモデルで使用される事前学習データは、生物学やコンピュータ科学などの主題に基づいて選択されることが多い。 ソーシャルメディアテキストの利用範囲と言語の種類を考慮し、それぞれツイートとフォーラムテキストで2つのモデルを事前学習し、これらの2つのリソースの有効性を実証的に示す。 さらに,ドメイン内事前学習データに対する類似度尺度の適用方法について検討する。 トレーニング済みのモデルをhttps://bit.ly/35rptf0で公開しています。

Recent studies on domain-specific BERT models show that effectiveness on downstream tasks can be improved when models are pretrained on in-domain data. Often, the pretraining data used in these models are selected based on their subject matter, e.g., biology or computer science. Given the range of applications using social media text, and its unique language variety, we pretrain two models on tweets and forum text respectively, and empirically demonstrate the effectiveness of these two resources. In addition, we investigate how similarity measures can be used to nominate in-domain pretraining data. We publicly release our pretrained models at https://bit.ly/35RpTf0.
翻訳日:2022-10-12 01:32:30 公開日:2020-10-02
# ランダム入力不確実性を有するディープニューラルネットワークのデータ駆動評価

Data-Driven Assessment of Deep Neural Networks with Random Input Uncertainty ( http://arxiv.org/abs/2010.01171v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Somayeh Sojoudi(参考訳) ディープニューラルネットワークを使用して安全クリティカルなシステムを運用する場合、不確定な入力を受ける場合のネットワーク出力の感度を評価することが最重要となる。 このような評価は一般に、到達可能性分析や堅牢性認証を用いて行われる。 しかし、認証技術は通常ローカライゼーション情報を無視するが、到達可能なセットメソッドは堅牢性保証を犯さない可能性がある。 さらに、多くの先進的な手法は、実際は計算的に難解か、非常に特定のモデルに限定される。 本稿では,ネットワーク出力の安全性を同時に証明し,ローカライズ可能なデータ駆動最適化手法を提案する。 提案手法は,最先端の到達可能性解析とロバストネス認証を前提とした統合評価フレームワークを提供する。 この方法は、あらゆるサイズと構造のディープニューラルネットワークと、一般的な分布を持つランダム入力の不確かさに適用できる。 本研究は,基礎となる最適化の凸性に対する十分な条件と,圧倒的な確率で出力の証明とローカライズを行うデータサンプルの数について述べる。 深部ReLUネットワークにおける提案手法の有効性とトラクタビリティを実験的に実証した。

When using deep neural networks to operate safety-critical systems, assessing the sensitivity of the network outputs when subject to uncertain inputs is of paramount importance. Such assessment is commonly done using reachability analysis or robustness certification. However, certification techniques typically ignore localization information, while reachable set methods can fail to issue robustness guarantees. Furthermore, many advanced methods are either computationally intractable in practice or restricted to very specific models. In this paper, we develop a data-driven optimization-based method capable of simultaneously certifying the safety of network outputs and localizing them. The proposed method provides a unified assessment framework, as it subsumes state-of-the-art reachability analysis and robustness certification. The method applies to deep neural networks of all sizes and structures, and to random input uncertainty with a general distribution. We develop sufficient conditions for the convexity of the underlying optimization, and for the number of data samples to certify and localize the outputs with overwhelming probability. We experimentally demonstrate the efficacy and tractability of the method on a deep ReLU network.
翻訳日:2022-10-12 01:26:12 公開日:2020-10-02
# 深FPF:高次元設定におけるゲイン関数近似

Deep FPF: Gain function approximation in high-dimensional setting ( http://arxiv.org/abs/2010.01183v1 )

ライセンス: Link先を確認
S. Yagiz Olmez, Amirhossein Taghvaei and Prashant G. Mehta(参考訳) 本稿では,フィードバック粒子フィルタ(FPF)の利得関数を近似する新しい手法を提案する。 正確なゲイン関数は確率重み付きラプラシアンを含むポアソン方程式の解である。 数値問題は、確率分布からサンプリングされた有限個の粒子のみを用いて、完全利得関数を近似することである。 近年のディープラーニング手法の成功に触発されて、我々はゲイン関数をニューラルネットワークの出力の勾配として表現した。 ポアソン方程式のある種の変分定式化を考えると、ニューラルネットワークの重みを学習するために最適化問題が発生する。 この目的のために確率勾配アルゴリズムについて述べる。 提案手法には2つの重要な特性/利点がある。 (i)確率最適化アルゴリズムは、粒子数で優れたスケーリング特性を確保するためのサンプル(粒子)のバッチのみを並列に処理することができる。 (II)ニューラルネットワークの顕著な表現力は、アルゴリズムが高次元の問題を解決するのに有効であり有用であることを意味する。 これら2つの特性を数値的に確立し,既存手法との比較を行った。

In this paper, we present a novel approach to approximate the gain function of the feedback particle filter (FPF). The exact gain function is the solution of a Poisson equation involving a probability-weighted Laplacian. The numerical problem is to approximate the exact gain function using only finitely many particles sampled from the probability distribution. Inspired by the recent success of the deep learning methods, we represent the gain function as a gradient of the output of a neural network. Thereupon considering a certain variational formulation of the Poisson equation, an optimization problem is posed for learning the weights of the neural network. A stochastic gradient algorithm is described for this purpose. The proposed approach has two significant properties/advantages: (i) The stochastic optimization algorithm allows one to process, in parallel, only a batch of samples (particles) ensuring good scaling properties with the number of particles; (ii) The remarkable representation power of neural networks means that the algorithm is potentially applicable and useful to solve high-dimensional problems. We numerically establish these two properties and provide extensive comparison to the existing approaches.
翻訳日:2022-10-12 01:25:53 公開日:2020-10-02
# 注釈誤りを含む不完全ポリラインラベルに基づく地球画像分割のための深層学習

Deep Learning for Earth Image Segmentation based on Imperfect Polyline Labels with Annotation Errors ( http://arxiv.org/abs/2010.00757v1 )

ライセンス: Link先を確認
Zhe Jiang, Marcus Stephen Kirby, Wenchong He, Arpan Man Sainju(参考訳) 近年、深層学習技術(U-Net、DeepLabなど)は画像セグメンテーションにおいて大きな成功を収めている。 これらのモデルの性能は、高品質な真実セグメントラベルに大きく依存している。 残念なことに、現実世界の多くの問題では、手動のアノテーションミス、GPSのエラー、あるいは粗い解像度で背景画像の視覚的解釈による幾何学的アノテーションエラーがあることが多い。 このような位置誤差は、既存のディープラーニングアルゴリズムのトレーニング性能に大きく影響する。 ラベルエラーに関する既存の研究は、ラベルセマンティクスにおける真理誤差(ラベル位置が正しいと仮定する)や、単純な正方形パッチシフトを伴うモデルのいずれかである。 これらの手法はラベル位置誤差の幾何学的性質を完全に組み込むことはできない。 このギャップを埋めるために,深層学習モデルパラメータを更新し,隠れた真のラベル位置を同時に推測するEMアルゴリズムに基づく汎用学習フレームワークを提案する。 合理化アプリケーションにおける実世界の水文データセットの評価は,提案手法が分類精度においてベースライン法を上回っていることを示している(偽陽性数を67%削減し,偽陰性数を55%削減する)。

In recent years, deep learning techniques (e.g., U-Net, DeepLab) have achieved tremendous success in image segmentation. The performance of these models heavily relies on high-quality ground truth segment labels. Unfortunately, in many real-world problems, ground truth segment labels often have geometric annotation errors due to manual annotation mistakes, GPS errors, or visually interpreting background imagery at a coarse resolution. Such location errors will significantly impact the training performance of existing deep learning algorithms. Existing research on label errors either models ground truth errors in label semantics (assuming label locations to be correct) or models label location errors with simple square patch shifting. These methods cannot fully incorporate the geometric properties of label location errors. To fill the gap, this paper proposes a generic learning framework based on the EM algorithm to update deep learning model parameters and infer hidden true label locations simultaneously. Evaluations on a real-world hydrological dataset in the streamline refinement application show that the proposed framework outperforms baseline methods in classification accuracy (reducing the number of false positives by 67% and reducing the number of false negatives by 55%).
翻訳日:2022-10-12 01:25:37 公開日:2020-10-02
# 半ケースワイズおよび学習に基づくctのためのウェイトエンコード再構成ネットワーク

Weight Encode Reconstruction Network for Computed Tomography in a Semi-Case-Wise and Learning-Based Way ( http://arxiv.org/abs/2010.00893v1 )

ライセンス: Link先を確認
Hujie Pan, Xuesong Li, Min Xu(参考訳) 計算トモグラフィーのための古典的代数的再構成技術(ART)は、画素値の投影のためにボクセルの事前決定された重みを必要とする。 しかし、物理的な理解と計算資源の制限のため、そのような重量は正確には得られない。 本研究では,上述の問題に対処するため,Weight Encode Reconstruction Network (WERNet) という半ケースワイズ学習方式を提案する。 モデルは、ボクセル集合のラベルを付けずに、自己監督で訓練される。 ボクセル重みエンコーダとボクセル注意部とを含む2つの枝を含む。 勾配正規化を用いてエンコーダとボクセルセットを数値的に安定的にコトレーニングすることができる。 wernet では、再構成の結果は 0.999 以上のコサイン類似性と基底真理で得られた。 さらに, 従来のART法と比較した場合, 従来のART法と比較すると, 異常なノイズ発生能力を示す。 モデルの一般化テストでは、エンコーダは複雑な構造を持つボクセル集合から、精度の推論なしに、見えないケースへ転送可能である。

Classic algebraic reconstruction technology (ART) for computed tomography requires pre-determined weights of the voxels for projecting pixel values. However, such weight cannot be accurately obtained due to the limitation of the physical understanding and computation resources. In this study, we propose a semi-case-wise learning-based method named Weight Encode Reconstruction Network (WERNet) to tackle the issues mentioned above. The model is trained in a self-supervised manner without the label of a voxel set. It contains two branches, including the voxel weight encoder and the voxel attention part. Using gradient normalization, we are able to co-train the encoder and voxel set numerically stably. With WERNet, the reconstructed result was obtained with a cosine similarity greater than 0.999 with the ground truth. Moreover, the model shows the extraordinary capability of denoising comparing to the classic ART method. In the generalization test of the model, the encoder is transferable from a voxel set with complex structure to the unseen cases without the deduction of the accuracy.
翻訳日:2022-10-12 01:25:05 公開日:2020-10-02
# ビジュアルレコメンダ保護におけるDNNのロバスト化効果に関する実証的研究

An Empirical Study of DNNs Robustification Inefficacy in Protecting Visual Recommenders ( http://arxiv.org/abs/2010.00984v1 )

ライセンス: Link先を確認
Vito Walter Anelli, Tommaso Di Noia, Daniele Malitesta, Felice Antonio Merra(参考訳) ビジュアルベースレコメンデータシステム(VRS)は、ディープニューラルネットワーク(DNN)から抽出した製品画像の視覚的特徴とユーザのフィードバックを統合することにより、レコメンデーションパフォーマンスを向上させる。 近年,VRSの推奨性能,例えばプッシュ/ヌーキングのカテゴリを変更するために,人間の知覚可能な画像摂動,すなわちtextit{adversarial attack} が実証されている。 しかし,dnnの分類精度を最善の知識に保ちながら,dnnの強固化に成功していることが実証されているため,まだ2つの重要な疑問が検討されていない。 1)これらの防御機構はVRSのパフォーマンスをどの程度保護できるか? 2) 効果的で効果的な防御の背後にある理由は何か。 これらの質問に答えるために、防御機構の有効性を実証的に調査するために、防衛・攻撃設定のセットとレコメンダモデルを定義した。 結果は、DNNロバスト化を通じてVRSを保護する際の危険を警告することを示している。 我々の実験は、非常に効果的な攻撃シナリオにおける視覚的特徴の重要性を浮き彫りにした。 多くの企業に対するvrssの経済的影響を考えると、この取り組みはビジュアルベースのレコメンデーションをうまく保護する方法を調べる必要性を増すだろう。 ソースコードとデータはhttps://anonymous.4open.science/r/868f87ca-c8a4-41ba-9af9-20c41de33029。

Visual-based recommender systems (VRSs) enhance recommendation performance by integrating users' feedback with the visual features of product images extracted from a deep neural network (DNN). Recently, human-imperceptible images perturbations, defined \textit{adversarial attacks}, have been demonstrated to alter the VRSs recommendation performance, e.g., pushing/nuking category of products. However, since adversarial training techniques have proven to successfully robustify DNNs in preserving classification accuracy, to the best of our knowledge, two important questions have not been investigated yet: 1) How well can these defensive mechanisms protect the VRSs performance? 2) What are the reasons behind ineffective/effective defenses? To answer these questions, we define a set of defense and attack settings, as well as recommender models, to empirically investigate the efficacy of defensive mechanisms. The results indicate alarming risks in protecting a VRS through the DNN robustification. Our experiments shed light on the importance of visual features in very effective attack scenarios. Given the financial impact of VRSs on many companies, we believe this work might rise the need to investigate how to successfully protect visual-based recommenders. Source code and data are available at https://anonymous.4open.science/r/868f87ca-c8a4-41ba-9af9-20c41de33029/.
翻訳日:2022-10-12 01:24:51 公開日:2020-10-02
# 音声からのジェスチャーパラメータの予測可能性とその知覚的重要性

Understanding the Predictability of Gesture Parameters from Speech and their Perceptual Importance ( http://arxiv.org/abs/2010.00995v1 )

ライセンス: Link先を確認
Ylva Ferstl, Michael Neff, Rachel McDonnell(参考訳) ジェスチャー行動は人間の会話の自然な部分である。 多くの研究は、音声駆動ジェスチャジェネレータを設計することで、対話エージェントを具体化するための退屈なハンドアニメーションの必要性を取り除くことに重点を置いている。 しかし、これらの生成器はしばしばブラックボックス方式で動作し、入力音声と出力動作の一般的な関係を仮定する。 彼らの成功は限られているため、音声がジェスチャーの動きのさまざまな側面とどのように関連しているのか、より詳細に調査する。 速度やジェスチャサイズなどのジェスチャを特徴付けるパラメータを多数決定し,その音声信号との関係を2次元的に検討する。 まず,複数の繰り返しネットワークを訓練し,音声からジェスチャパラメータを予測し,音声のみからジェスチャ属性をモデル化できることを理解する。 その結果,ジェスチャパラメータは音声から部分的に予測でき,経路長などのいくつかのパラメータは速度など他のパラメータよりも正確に予測できることがわかった。 第2に,音声に適した動きを知覚する上で,各ジェスチャーパラメータの重要性を評価するための知覚的研究を設計する。 その結果,任意のパラメータの劣化は否定的に見られたが,手形などのいくつかの変化は他のパラメータよりも影響が大きいことがわかった。 ビデオ要約はhttps://youtu.be/aw6-_5kmLjYで見ることができる。

Gesture behavior is a natural part of human conversation. Much work has focused on removing the need for tedious hand-animation to create embodied conversational agents by designing speech-driven gesture generators. However, these generators often work in a black-box manner, assuming a general relationship between input speech and output motion. As their success remains limited, we investigate in more detail how speech may relate to different aspects of gesture motion. We determine a number of parameters characterizing gesture, such as speed and gesture size, and explore their relationship to the speech signal in a two-fold manner. First, we train multiple recurrent networks to predict the gesture parameters from speech to understand how well gesture attributes can be modeled from speech alone. We find that gesture parameters can be partially predicted from speech, and some parameters, such as path length, being predicted more accurately than others, like velocity. Second, we design a perceptual study to assess the importance of each gesture parameter for producing motion that people perceive as appropriate for the speech. Results show that a degradation in any parameter was viewed negatively, but some changes, such as hand shape, are more impactful than others. A video summarization can be found at https://youtu.be/aw6-_5kmLjY.
翻訳日:2022-10-12 01:24:28 公開日:2020-10-02
# STIL -- 同時スロットフィリング、翻訳、インテント分類、言語識別:mBART on MultiATIS++ による初期結果

STIL -- Simultaneous Slot Filling, Translation, Intent Classification, and Language Identification: Initial Results using mBART on MultiATIS++ ( http://arxiv.org/abs/2010.00760v1 )

ライセンス: Link先を確認
Jack G. M. FitzGerald(参考訳) Slot-filling, Translation, Intent Classification, and Language Identification (STIL)は、多言語自然言語理解(NLU)のための新しいタスクである。 単一の出力言語への同時スロット充填と変換(このケースでは英語)を行うことで、下流システムコンポーネントの一部が単言語になり、開発とメンテナンスコストが削減される。 結果は、MultiATIS++データセットを使用して7言語で微調整された多言語BARTモデル(Liu et al., 2020)を用いて与えられる。 翻訳が実行されない場合、mBARTのパフォーマンスはテスト対象言語(XuらによるCross-Lingual BERT(2020年))の現在の状態に匹敵するが、平均意図分類精度(96.07%対95.50%)は向上するが、平均スロットF1(89.87%対90.81%)は悪い。 同時翻訳を行うと、平均意図分類精度は1.7%程度低下し、平均スロットF1は1.2%程度低下する。

Slot-filling, Translation, Intent classification, and Language identification, or STIL, is a newly-proposed task for multilingual Natural Language Understanding (NLU). By performing simultaneous slot filling and translation into a single output language (English in this case), some portion of downstream system components can be monolingual, reducing development and maintenance cost. Results are given using the multilingual BART model (Liu et al., 2020) fine-tuned on 7 languages using the MultiATIS++ dataset. When no translation is performed, mBART's performance is comparable to the current state of the art system (Cross-Lingual BERT by Xu et al. (2020)) for the languages tested, with better average intent classification accuracy (96.07% versus 95.50%) but worse average slot F1 (89.87% versus 90.81%). When simultaneous translation is performed, average intent classification accuracy degrades by only 1.7% relative and average slot F1 degrades by only 1.2% relative.
翻訳日:2022-10-12 01:23:31 公開日:2020-10-02
# 微分進化におけるパラメータ制御のレビューとベンチマーク

Reviewing and Benchmarking Parameter Control Methods in Differential Evolution ( http://arxiv.org/abs/2010.01035v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Alex Fukunaga(参考訳) 様々なパラメータ制御法(PCM)を用いた多くの微分進化(DE)アルゴリズムが提案されている。 しかし、従来の研究では、pcmは複素deアルゴリズムの積分成分であると考えられていた。 したがって,各手法の特性や性能はよく分かっていない。 本稿では,DECのスケールファクタとクロスオーバー率に関する24PCMの詳細なレビューと大規模ベンチマーク研究について述べる。 従来の複雑なアルゴリズムから24個のPCMを慎重に抽出し,それらを体系的に記述する。 本稿では,既存の代表的PCM間の類似点と相違点の理解を容易にする。 24個のPCMと16個の変分演算子を用いたDESの性能を,24個のブラックボックスベンチマーク関数を用いて検討した。 ベンチマークの結果,従来の複雑なアルゴリズムとは独立に,16の条件下で標準化されたフレームワークに組み込んだ場合,どの手法が高い性能を示すかが明らかになった。 また, 最適手法の性能に対する保守的下限と見なすことができる, オラクルベースモデルと24の手法を比較することで, PCMsをさらに改善する余地がどの程度あるかについても検討する。

Many Differential Evolution (DE) algorithms with various parameter control methods (PCMs) have been proposed. However, previous studies usually considered PCMs to be an integral component of a complex DE algorithm. Thus the characteristics and performance of each method are poorly understood. We present an in-depth review of 24 PCMs for the scale factor and crossover rate in DE and a large scale benchmarking study. We carefully extract the 24 PCMs from their original, complex algorithms and describe them according to a systematic manner. Our review facilitates the understanding of similarities and differences between existing, representative PCMs. The performance of DEs with the 24 PCMs and 16 variation operators is investigated on 24 black-box benchmark functions. Our benchmarking results reveal which methods exhibit high performance when embedded in a standardized framework under 16 different conditions, independent from their original, complex algorithms. We also investigate how much room there is for further improvement of PCMs by comparing the 24 methods with an oracle-based model, which can be considered to be a conservative lower bound on the performance of an optimal method.
翻訳日:2022-10-12 01:16:44 公開日:2020-10-02
# 簡易スパイキングニューラルネットワークのFPGA実装

FPGA Implementation of Simplified Spiking Neural Network ( http://arxiv.org/abs/2010.01200v1 )

ライセンス: Link先を確認
Shikhar Gupta, Arpan Vyas, Gaurav Trivedi(参考訳) spiking neural networks (snn) は、生物神経系に近い第3世代の人工ニューラルネットワーク (ann) である。 近年,ロボット工学や組込みアプリケーションでSNNが普及しているため,そのリアルタイム・エネルギー効率を探求することが不可欠になっている。 SNNは、時間情報を符号化し、生物学的に可塑性規則を使用するため、前者よりも強力である。 本稿では,FPGAアーキテクチャを用いたシンプルで効率的なSNNモデルについて述べる。 提案モデルはXilinx Virtex 6 FPGA上で検証され,800個のニューロンと12,544個のシナプスからなる完全に接続されたネットワークをリアルタイムに解析する。

Spiking Neural Networks (SNN) are third-generation Artificial Neural Networks (ANN) which are close to the biological neural system. In recent years SNN has become popular in the area of robotics and embedded applications, therefore, it has become imperative to explore its real-time and energy-efficient implementations. SNNs are more powerful than their predecessors because they encode temporal information and use biologically plausible plasticity rules. In this paper, a simpler and computationally efficient SNN model using FPGA architecture is described. The proposed model is validated on a Xilinx Virtex 6 FPGA and analyzes a fully connected network which consists of 800 neurons and 12,544 synapses in real-time.
翻訳日:2022-10-12 01:16:28 公開日:2020-10-02
# タンパク質アライメントの統計モデルにおけるギャップの橋渡し

Bridging the Gaps in Statistical Models of Protein Alignment ( http://arxiv.org/abs/2010.00855v1 )

ライセンス: Link先を確認
Dinithi Sumanaweera, Lloyd Allison and Arun S. Konagurthu(参考訳) 本研究は、時間パラメータ置換行列と時間パラメータ3状態アライメントマシンから、アライメントタンパク質の対の進化を定量化する完全な統計モデルを構築する方法を示す。 そのようなモデルの全てのパラメータは、整列したタンパク質配列のベンチマークデータセットから推測することができる。 これにより、6つのベンチマークで9つのよく知られた置換行列を、様々な構造的アライメント法を用いてキュレートし、"時間"に依存しないマルコフ過程を明示的にモデル化しない行列は対応するベース行列に変換される。 さらに、6つのベンチマークそれぞれに対して、新しい最適行列が推論される。 最小メッセージ長(MML)推定を用いて、各ベンチマークのシャノン情報量を測定することで、15の行列を比較する。 この結果、時間依存のマルコフ行列であるmmlsumとその関連する3状態機械が新たに開発され、その特性が本研究で解析された。 標準的な用途では、上記のマルコフ行列から派生した (log-odds) \textit{scoring} 行列のMMLSUMシリーズがhttps://lcb.infotech.monash.edu.au/mmlsumで入手できる。

This work demonstrates how a complete statistical model quantifying the evolution of pairs of aligned proteins can be constructed from a time-parameterised substitution matrix and a time-parameterised 3-state alignment machine. All parameters of such a model can be inferred from any benchmark data-set of aligned protein sequences. This allows us to examine nine well-known substitution matrices on six benchmarks curated using various structural alignment methods; any matrix that does not explicitly model a "time"-dependent Markov process is converted to a corresponding base-matrix that does. In addition, a new optimal matrix is inferred for each of the six benchmarks. Using Minimum Message Length (MML) inference, all 15 matrices are compared in terms of measuring the Shannon information content of each benchmark. This has resulted in a new and clear overall best performed time-dependent Markov matrix, MMLSUM, and its associated 3-state machine, whose properties we have analysed in this work. For standard use, the MMLSUM series of (log-odds) \textit{scoring} matrices derived from the above Markov matrix, are available at https://lcb.infotech.monash.edu.au/mmlsum.
翻訳日:2022-10-12 01:15:52 公開日:2020-10-02
# 機械学習における変数生成手法

Variance-Reduced Methods for Machine Learning ( http://arxiv.org/abs/2010.00892v1 )

ライセンス: Link先を確認
Robert M. Gower, Mark Schmidt, Francis Bach, Peter Richtarik(参考訳) 確率的最適化は機械学習の中心にあり、その基礎は60年以上前に導入された確率的勾配降下(SGD)である。 過去8年間、確率的最適化手法のための分散還元(VR)という、エキサイティングな新しい開発がありました。 これらのVRメソッドは、複数のトレーニングデータを渡すことが可能な環境で優れており、理論上はSGDよりも高速な収束を実現している。 これらのスピードアップは、VRメソッドへの関心の高まりと、このトピックに関する急速に成長する仕事の本体を下支えしている。 このレビューでは、有限データセットによる最適化のためのvrメソッドの背後にある重要な原則と主要な開発について取り上げ、非熟練の読者を対象としている。 我々は主に凸設定に注目し、非凸関数を最小化するための拡張に関心のある読者にポインタを与える。

Stochastic optimization lies at the heart of machine learning, and its cornerstone is stochastic gradient descent (SGD), a method introduced over 60 years ago. The last 8 years have seen an exciting new development: variance reduction (VR) for stochastic optimization methods. These VR methods excel in settings where more than one pass through the training data is allowed, achieving a faster convergence than SGD in theory as well as practice. These speedups underline the surge of interest in VR methods and the fast-growing body of work on this topic. This review covers the key principles and main developments behind VR methods for optimization with finite data sets and is aimed at non-expert readers. We focus mainly on the convex setting, and leave pointers to readers interested in extensions for minimizing non-convex functions.
翻訳日:2022-10-12 01:15:05 公開日:2020-10-02
# ハードthresholdingによる正規化k-means

Regularized K-means through hard-thresholding ( http://arxiv.org/abs/2010.00950v1 )

ライセンス: Link先を確認
Jakob Raymaekers and Ruben H. Zamar(参考訳) 我々は,クラスタ中心の大きさの直接ペナライズに基づく正規化$k$-means法の枠組みについて検討した。 異なるペナル化戦略はシミュレーションと理論解析によって検討・比較される。 この結果に基づいて,変数の間隔を誘導するために$\ell_0$ペナルティを使用するHT $K$-meansを提案する。 チューニングパラメータを選択するための異なるテクニックを議論し、比較する。 提案手法は,広範囲なシミュレーション研究において,最も一般的な正規化$k$-means法に適合する。 最後に、HT $K$-meansはいくつかの実データ例に適用される。 グラフィックディスプレイはこれらの例で示され、データセットに関する洞察を得るために使用される。

We study a framework of regularized $K$-means methods based on direct penalization of the size of the cluster centers. Different penalization strategies are considered and compared through simulation and theoretical analysis. Based on the results, we propose HT $K$-means, which uses an $\ell_0$ penalty to induce sparsity in the variables. Different techniques for selecting the tuning parameter are discussed and compared. The proposed method stacks up favorably with the most popular regularized $K$-means methods in an extensive simulation study. Finally, HT $K$-means is applied to several real data examples. Graphical displays are presented and used in these examples to gain more insight into the datasets.
翻訳日:2022-10-12 01:14:29 公開日:2020-10-02
# RDCNet:最小限のリカレント残差ネットワークによるインスタンスセグメンテーション

RDCNet: Instance segmentation with a minimalist recurrent residual network ( http://arxiv.org/abs/2010.00991v1 )

ライセンス: Link先を確認
Raphael Ortiz, Gustavo de Medeiros, Antoine H.F.M. Peters, Prisca Liberali, Markus Rempfler(参考訳) インスタンスセグメンテーションは定量顕微鏡のキーステップである。 この問題に対して、機械学習に基づくいくつかの手法が提案されているが、そのほとんどは、サロゲートタスクで訓練された計算学的に複雑なモデルに依存している。 近年のエンド・ツー・エンド・エンドのトレーニング可能なインスタンスセグメンテーションに向けた開発が進められている。我々は、再帰的拡張畳み込みネットワーク(RDCNet)と呼ばれる最小限の繰り返しネットワークを提案し、その出力を反復的に改善し、解釈可能な中間予測を生成する共有スタック拡張畳み込み(SDC)層からなる。 主パラメータの感度解析を行い,H&Eスライドの核セグメンテーション,光シート蛍光顕微鏡からの3次元異方性スタックの核セグメンテーション,および植物のトップビューイメージの葉セグメンテーションの3つのタスクに対して,その汎用性を示す。 3つのデータセットのうち2つで最先端を実現する。

Instance segmentation is a key step for quantitative microscopy. While several machine learning based methods have been proposed for this problem, most of them rely on computationally complex models that are trained on surrogate tasks. Building on recent developments towards end-to-end trainable instance segmentation, we propose a minimalist recurrent network called recurrent dilated convolutional network (RDCNet), consisting of a shared stacked dilated convolution (sSDC) layer that iteratively refines its output and thereby generates interpretable intermediate predictions. It is light-weight and has few critical hyperparameters, which can be related to physical aspects such as object size or density.We perform a sensitivity analysis of its main parameters and we demonstrate its versatility on 3 tasks with different imaging modalities: nuclear segmentation of H&E slides, of 3D anisotropic stacks from light-sheet fluorescence microscopy and leaf segmentation of top-view images of plants. It achieves state-of-the-art on 2 of the 3 datasets.
翻訳日:2022-10-12 01:08:20 公開日:2020-10-02
# グラフニューラルネットワークを用いた効率的な大腸癌診断

Efficient Colon Cancer Grading with Graph Neural Networks ( http://arxiv.org/abs/2010.01091v1 )

ライセンス: Link先を確認
Franziska Lippoldt(参考訳) 本研究は,大腸癌画像のグレーディングを応用し,病理組織像から癌レベルを予測するための3段階パイプラインを提案する。 本モデルでは, 大腸癌グレーティングデータセットの他の方法と比較して, より優れた性能を示し, 拡張大腸癌グレーティングデータセットの優れた性能を示す。 ここで述べた機能選択とグラフ拡張法は、空間的に認識されているが、ピクセル位置は独立している。 さらに、十分大きなモデルに対するモデルの予測と精度に関して、ノードの観点からのグラフサイズが安定する。 グラフニューラルネットワーク自体は、3つの畳み込みブロックと線形層で構成される。

Dealing with the application of grading colorectal cancer images, this work proposes a 3 step pipeline for prediction of cancer levels from a histopathology image. The overall model performs better compared to other state of the art methods on the colorectal cancer grading data set and shows excellent performance for the extended colorectal cancer grading set. The performance improvements can be attributed to two main factors: The feature selection and graph augmentation method described here are spatially aware, but overall pixel position independent. Further, the graph size in terms of nodes becomes stable with respect to the model's prediction and accuracy for sufficiently large models. The graph neural network itself consists of three convolutional blocks and linear layers, which is a rather simple design compared to other networks for this application.
翻訳日:2022-10-12 01:07:16 公開日:2020-10-02
# 半監督肺癌検診におけるdeep expectation-maximization

Deep Expectation-Maximization for Semi-Supervised Lung Cancer Screening ( http://arxiv.org/abs/2010.01173v1 )

ライセンス: Link先を確認
Sumeet Menon, David Chapman, Phuong Nguyen, Yelena Yesha, Michael Morris, Babak Saboury(参考訳) 本稿では,3次元畳み込みニューラルネットワーク(cnn)をexpectation-maximization (em) meta-algorithmを用いて訓練した肺がんスクリーニングのための半教師ありアルゴリズムを提案する。 半教師付き学習により、より大きく多様なトレーニングサンプルを提供するために、ラベル付きデータセットをラベルなしデータセットと組み合わせることができる。 EMによりアルゴリズムは、潜在変数空間として定義されるラベル付きトレーニングセットのラベルとともに、CNNトレーニング係数の最大推定値を同時に計算することができる。 我々は,CNNに対するセミスーパービジョンEMアルゴリズムのモデル性能を,National Lung Screening Trial (NLST)データセットを用いたKaggle Data Science Bowl 2017 (Kaggle17)データセットのクロスドメイントレーニングにより評価した。 以上より, 半教師付きemアルゴリズムは肺がん検診の分類精度を大幅に向上させるが, 非教師なし検体からのラベル付きデータを利用した完全教師付き検診の精度は低い。 そこで我々は,Semi-Supervised EMが3次元CNNを用いた肺癌スクリーニングモデルの精度向上に有用であることを示す。

We present a semi-supervised algorithm for lung cancer screening in which a 3D Convolutional Neural Network (CNN) is trained using the Expectation-Maximization (EM) meta-algorithm. Semi-supervised learning allows a smaller labelled data-set to be combined with an unlabeled data-set in order to provide a larger and more diverse training sample. EM allows the algorithm to simultaneously calculate a maximum likelihood estimate of the CNN training coefficients along with the labels for the unlabeled training set which are defined as a latent variable space. We evaluate the model performance of the Semi-Supervised EM algorithm for CNNs through cross-domain training of the Kaggle Data Science Bowl 2017 (Kaggle17) data-set with the National Lung Screening Trial (NLST) data-set. Our results show that the Semi-Supervised EM algorithm greatly improves the classification accuracy of the cross-domain lung cancer screening, although results are lower than a fully supervised approach with the advantage of additional labelled data from the unsupervised sample. As such, we demonstrate that Semi-Supervised EM is a valuable technique to improve the accuracy of lung cancer screening models using 3D CNNs.
翻訳日:2022-10-12 01:07:05 公開日:2020-10-02
# PrognoseNet:コンテキスト情報を考慮したマルチモーダル位置予測のための生成確率フレームワーク

PrognoseNet: A Generative Probabilistic Framework for Multimodal Position Prediction given Context Information ( http://arxiv.org/abs/2010.00802v1 )

ライセンス: Link先を確認
Thomas Kurbiel, Akash Sachdeva, Kun Zhao and Markus Buehren(参考訳) 周囲の環境を考慮し、その確率を推定しながら、エゴ車の将来的な位置を予測できる能力は、安全な自動運転の鍵となる。 現在の最先端のディープラーニングアプローチのほとんどは、このタスクを達成するために、軌跡データに基づいて訓練されている。 しかし、センサシステムによってキャプチャされた軌道データは、ほとんどがほぼ一定の速度で直線に従うため、非常に不均衡である。 これは、本質的に回帰問題である将来の位置を予測するタスクにとって大きな課題となる。 現在の最先端のアプローチは、トレーニングデータの大規模な前処理、例えば再サンプリング、アンカーへのクラスタリングによってのみこの問題を軽減する。 本稿では,予測問題を分類タスクとして再構成し,不均衡に対処するための強力なツール,例えば焦点損失を許容する手法を提案する。 そこで我々は,ガウスの頭部を混合したディープニューラルネットワークからなる生成確率モデルを設計した。 潜在変数のスマートな選択は、分類問題とより単純化された回帰問題の組み合わせとして、ログ類似関数の再構成を可能にする。 本モデルの出力は,将来の位置の確率密度関数を推定し,その確率を推定しながら,複数の可能な位置の予測を可能にする。 提案手法は文脈情報を容易に取り入れることができ,データの事前処理は不要である。

The ability to predict multiple possible future positions of the ego-vehicle given the surrounding context while also estimating their probabilities is key to safe autonomous driving. Most of the current state-of-the-art Deep Learning approaches are trained on trajectory data to achieve this task. However trajectory data captured by sensor systems is highly imbalanced, since by far most of the trajectories follow straight lines with an approximately constant velocity. This poses a huge challenge for the task of predicting future positions, which is inherently a regression problem. Current state-of-the-art approaches alleviate this problem only by major preprocessing of the training data, e.g. resampling, clustering into anchors etc. In this paper we propose an approach which reformulates the prediction problem as a classification task, allowing for powerful tools, e.g. focal loss, to combat the imbalance. To this end we design a generative probabilistic model consisting of a deep neural network with a Mixture of Gaussian head. A smart choice of the latent variable allows for the reformulation of the log-likelihood function as a combination of a classification problem and a much simplified regression problem. The output of our model is an estimate of the probability density function of future positions, hence allowing for prediction of multiple possible positions while also estimating their probabilities. The proposed approach can easily incorporate context information and does not require any preprocessing of the data.
翻訳日:2022-10-12 01:06:48 公開日:2020-10-02
# 最適化シナリオの違いによるMOEA/D制御パラメータの解析

An Analysis of Control Parameters of MOEA/D Under Two Different Optimization Scenarios ( http://arxiv.org/abs/2010.00818v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) 近年の研究では、探索過程で見いだされた全ての非支配的解を格納する非有界外部アーカイブ(UEA)が多目的進化アルゴリズム(MOEA)の性能評価に頻繁に用いられている。 最近のベンチマーク調査では、分解ベースのMOEA(MOEA/D)が、UEAをMOEA/Dに組み込む際に、最先端のMOEAと競合することが示されている。 しかし、UEAを用いたMOEA/Dのパラメータスタディはまだ行われていない。 したがって、制御パラメータ設定がMOEA/DとUEAの性能にどのように影響するかは不明である。 本稿では,MOEA/Dの制御パラメータを2つの性能評価シナリオで解析する。 1つは、最終人口におけるすべての非支配的ソリューションに基づいてMOEAのパフォーマンス評価を行う最終人口シナリオであり、もう1つは、UEAから選択された非支配的ソリューションのあらかじめ指定された数に基づく縮小されたUEAシナリオである。 本研究で研究されているmoea/dの制御パラメータには,個体群の大きさ,スカラー化関数,ペナルティベース境界交差点(pbi)関数のペナルティパラメータが含まれる。 実験の結果,3つの制御パラメータの適切な設定は最適化シナリオの選択に大きく依存することがわかった。 また,各シナリオにおいて最適なパラメータ設定が全く異なる理由についても分析した。

An unbounded external archive (UEA), which stores all nondominated solutions found during the search process, is frequently used to evaluate the performance of multi-objective evolutionary algorithms (MOEAs) in recent studies. A recent benchmarking study also shows that decomposition-based MOEA (MOEA/D) is competitive with state-of-the-art MOEAs when the UEA is incorporated into MOEA/D. However, a parameter study of MOEA/D using the UEA has not yet been performed. Thus, it is unclear how control parameter settings influence the performance of MOEA/D with the UEA. In this paper, we present an analysis of control parameters of MOEA/D under two performance evaluation scenarios. One is a final population scenario where the performance assessment of MOEAs is performed based on all nondominated solutions in the final population, and the other is a reduced UEA scenario where it is based on a pre-specified number of selected nondominated solutions from the UEA. Control parameters of MOEA/D investigated in this paper include the population size, scalarizing functions, and the penalty parameter of the penalty-based boundary intersection (PBI) function. Experimental results indicate that suitable settings of the three control parameters significantly depend on the choice of an optimization scenario. We also analyze the reason why the best parameter setting is totally different for each scenario.
翻訳日:2022-10-12 01:06:29 公開日:2020-10-02
# 大学進路タイムタリング問題に対する解法評価のための機械学習の導入

Incorporating Machine Learning to Evaluate Solutions to the University Course Timetabling Problem ( http://arxiv.org/abs/2010.00826v1 )

ライセンス: Link先を確認
Patrick Kenekayoro(参考訳) 最適化問題に対する解の評価は、解探索空間の最適解に向かってアルゴリズムを導くために用いられるため、ヒューリスティックアルゴリズムにとっておそらく最も重要なステップである。 研究は、計算に実用的でないいくつかの最適化問題に対する評価関数を示し、その結果、これらの問題に対するより安価な評価関数を導出することを発見した。 本研究では,教師付き学習アルゴリズムを用いて,大学進路タイムタリング問題の評価関数に対する近似を求める方法について検討する。 従来の評価関数は,97%までの時間において,大学進路タイムタリング問題に対する解対の品質比較の結果,教師あり学習回帰モデルと一致しており,教師あり学習回帰モデルが最適化問題の評価関数の代替として適していることが示唆された。

Evaluating solutions to optimization problems is arguably the most important step for heuristic algorithms, as it is used to guide the algorithms towards the optimal solution in the solution search space. Research has shown evaluation functions to some optimization problems to be impractical to compute and have thus found surrogate less expensive evaluation functions to those problems. This study investigates the extent to which supervised learning algorithms can be used to find approximations to evaluation functions for the university course timetabling problem. Up to 97 percent of the time, the traditional evaluation function agreed with the supervised learning regression model on the result of comparison of the quality of pair of solutions to the university course timetabling problem, suggesting that supervised learning regression models can be suitable alternatives for optimization problems' evaluation functions.
翻訳日:2022-10-12 01:06:06 公開日:2020-10-02
# 最適な適応型DEからどのくらい遠いのか?

How Far Are We From an Optimal, Adaptive DE? ( http://arxiv.org/abs/2010.01032v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Alex Fukunaga(参考訳) 適応的deに対する(ほぼ)最適パラメータ適応プロセスがどのように振る舞うかを考察し、この近似最適化プロセスの挙動と性能を既存の適応的deメカニズムと比較する。 最適パラメータ適応プロセスは、適応型deおよび他の適応型進化アルゴリズムでパラメータ適応法を分析するのに有用な概念であるが、一般には知られていない。 そこで我々は,最適パラメータ適応過程を近似したGreedy Approximate Oracle Method (GAO)を提案する。 6つのベンチマーク関数とBBOBベンチマーク上でのGAODEの挙動を,GAODEとGAOの典型的な適応Dsと比較し,(1)適応Dsの性能向上にどの程度の余地があるか,(2)適応Dsに有効なパラメータ適応法を開発するためのヒントを得るためにGAOが利用できることを示す。

We consider how an (almost) optimal parameter adaptation process for an adaptive DE might behave, and compare the behavior and performance of this approximately optimal process to that of existing, adaptive mechanisms for DE. An optimal parameter adaptation process is an useful notion for analyzing the parameter adaptation methods in adaptive DE as well as other adaptive evolutionary algorithms, but it cannot be known generally. Thus, we propose a Greedy Approximate Oracle method (GAO) which approximates an optimal parameter adaptation process. We compare the behavior of GAODE, a DE algorithm with GAO, to typical adaptive DEs on six benchmark functions and the BBOB benchmarks, and show that GAO can be used to (1) explore how much room for improvement there is in the performance of the adaptive DEs, and (2) obtain hints for developing future, effective parameter adaptation methods for adaptive DEs.
翻訳日:2022-10-12 01:05:44 公開日:2020-10-02
# ディープ不完全マルチビュー多重クラスタリング

Deep Incomplete Multi-View Multiple Clusterings ( http://arxiv.org/abs/2010.02024v1 )

ライセンス: Link先を確認
Shaowei Wei, Jun Wang, Guoxian Yu, Carlotta Domeniconi, Xiangliang Zhang(参考訳) マルチビュークラスタリングは、複数の異種ビューからの情報を活用してクラスタリングを促進することを目的としている。 これまでのほとんどの作業では,事前に定義されたクラスタリング基準に基づいて,ひとつの最適なクラスタリングのみを検索していました。 マルチビューデータの多重性のため、意味のある代替クラスタリングが可能である。 さらに、不完全なマルチビューデータ問題は実世界ではユビキタスであるが、複数のクラスタリングでは研究されていない。 これらの問題に対処するために,複数のデコーダ深層ネットワークを最適化し,データビューと複数の共有表現を同時に完了させる,深層不完全なマルチビュークラスタリング(DiMVMC)フレームワークを導入する。 さらに、冗長項を最小化して、Hilbert-Schmidt Independence Criterion (HSIC) を同時に使用し、これらの表現と異なるネットワークのパラメータ間の多様性を制御する。 次に、これらの共有表現から個々のクラスタリングを生成する。 ベンチマークデータセットの実験では、DiMVMCは、多様性と品質の高い複数のクラスタリングの生成において、最先端の競合よりも優れています。

Multi-view clustering aims at exploiting information from multiple heterogeneous views to promote clustering. Most previous works search for only one optimal clustering based on the predefined clustering criterion, but devising such a criterion that captures what users need is difficult. Due to the multiplicity of multi-view data, we can have meaningful alternative clusterings. In addition, the incomplete multi-view data problem is ubiquitous in real world but has not been studied for multiple clusterings. To address these issues, we introduce a deep incomplete multi-view multiple clusterings (DiMVMC) framework, which achieves the completion of data view and multiple shared representations simultaneously by optimizing multiple groups of decoder deep networks. In addition, it minimizes a redundancy term to simultaneously %uses Hilbert-Schmidt Independence Criterion (HSIC) to control the diversity among these representations and among parameters of different networks. Next, it generates an individual clustering from each of these shared representations. Experiments on benchmark datasets confirm that DiMVMC outperforms the state-of-the-art competitors in generating multiple clusterings with high diversity and quality.
翻訳日:2022-10-12 00:58:54 公開日:2020-10-02
# MCMC-Interactive Variational Inference

MCMC-Interactive Variational Inference ( http://arxiv.org/abs/2010.02029v1 )

ライセンス: Link先を確認
Quan Zhang, Huangjie Zheng, Mingyuan Zhou(参考訳) 確立されたMCMC戦略を活用し,時間制約で後部を推定するだけでなく,MCMC遷移の設計を容易にするため,MCMC-interactive variational Inference (MIVI)を提案する。 変分分布を構成すると、学習すべきパラメータを持つ短いマルコフ連鎖が続き、MIVIは変分推論の相補的性質とMCMCを利用して相互改善を促進する。 一方,高度後部密度領域に分布する変動分布では,マルコフ連鎖は変分推論フレームワーク内で最適化され,少数の遷移にもかかわらず効率的に後部を標的とする。 一方、かなりの柔軟性を持つ最適化マルコフ連鎖は、後方への変分分布を誘導し、不確実性の過小評価を緩和する。 さらに、miviの最適化されたマルコフ鎖は外挿を認め、鎖が成長するにつれてその辺の分布が真の後方に近づくことを証明した。 したがって、マルコフ連鎖は効率の良いMCMCスキームとして別々に使用できる。 実験により、MIVIは後方部を正確かつ効率的に近似するだけでなく、確率勾配MCMCとギブスサンプリング遷移の設計を容易にすることが示された。

Leveraging well-established MCMC strategies, we propose MCMC-interactive variational inference (MIVI) to not only estimate the posterior in a time constrained manner, but also facilitate the design of MCMC transitions. Constructing a variational distribution followed by a short Markov chain that has parameters to learn, MIVI takes advantage of the complementary properties of variational inference and MCMC to encourage mutual improvement. On one hand, with the variational distribution locating high posterior density regions, the Markov chain is optimized within the variational inference framework to efficiently target the posterior despite a small number of transitions. On the other hand, the optimized Markov chain with considerable flexibility guides the variational distribution towards the posterior and alleviates its underestimation of uncertainty. Furthermore, we prove the optimized Markov chain in MIVI admits extrapolation, which means its marginal distribution gets closer to the true posterior as the chain grows. Therefore, the Markov chain can be used separately as an efficient MCMC scheme. Experiments show that MIVI not only accurately and efficiently approximates the posteriors but also facilitates designs of stochastic gradient MCMC and Gibbs sampling transitions.
翻訳日:2022-10-12 00:58:37 公開日:2020-10-02
# ループ内決定木を用いた特徴選択のための相互強化学習

Interactive Reinforcement Learning for Feature Selection with Decision Tree in the Loop ( http://arxiv.org/abs/2010.02506v1 )

ライセンス: Link先を確認
Wei Fan, Kunpeng Liu, Hao Liu, Yong Ge, Hui Xiong, Yanjie Fu(参考訳) 自動特徴選択における効率と効率のバランスの問題について検討する。 多くの特徴選択法を探索した後、計算ジレンマを観測する。 1) 従来の特徴選択は主に効率的であるが、最適なサブセットを特定することは困難である。 2) 強化された機能選択は自動的に最高のサブセットにナビゲートするが、通常は非効率である。 自動化によって有効性と効率のギャップを埋めることができるか? このジレンマに動機づけられた我々は,新しい空間ナビゲーション手法の開発を目指している。 予備研究では,対話型強化学習を活用し,外部トレーナー・エージェントインタラクションによる特徴選択を高速化した。 本稿では,対話型強化学習(IRL)と決定木フィードバック(DTF)を同時にモデル化する対話型閉ループアーキテクチャを提案する。 具体的には、IRLはインタラクティブな特徴選択ループを作成し、DTFは構造化された特徴知識をループにフィードバックする。 まず、決定木からの木構造的特徴階層を利用して状態表現を改善する。 特に,選択した特徴部分集合を特徴-特徴相関の無向グラフと決定特徴の有向木として表現する。 本稿では,グラフ畳み込みネットワークにグラフと木から状態表現を協調的に学習させる新しい埋め込み手法を提案する。 第2に、木構造の特徴階層を利用して、新しい報酬スキームを開発する。 特に,決定木の特徴的重要度に基づくエージェントの報酬割り当てをパーソナライズする。 また, エージェントの行動観察はフィードバックであり, 過去の行動記録における特徴選択頻度比に基づいて報酬を評価・割り当てする別の報奨スキームを考案する。 最後に,実世界のデータセットに関する広範な実験を行い,性能の向上を示す。

We study the problem of balancing effectiveness and efficiency in automated feature selection. After exploring many feature selection methods, we observe a computational dilemma: 1) traditional feature selection is mostly efficient, but difficult to identify the best subset; 2) the emerging reinforced feature selection automatically navigates to the best subset, but is usually inefficient. Can we bridge the gap between effectiveness and efficiency under automation? Motivated by this dilemma, we aim to develop a novel feature space navigation method. In our preliminary work, we leveraged interactive reinforcement learning to accelerate feature selection by external trainer-agent interaction. In this journal version, we propose a novel interactive and closed-loop architecture to simultaneously model interactive reinforcement learning (IRL) and decision tree feedback (DTF). Specifically, IRL is to create an interactive feature selection loop and DTF is to feed structured feature knowledge back to the loop. First, the tree-structured feature hierarchy from decision tree is leveraged to improve state representation. In particular, we represent the selected feature subset as an undirected graph of feature-feature correlations and a directed tree of decision features. We propose a new embedding method capable of empowering graph convolutional network to jointly learn state representation from both the graph and the tree. Second, the tree-structured feature hierarchy is exploited to develop a new reward scheme. In particular, we personalize reward assignment of agents based on decision tree feature importance. In addition, observing agents' actions can be feedback, we devise another reward scheme, to weigh and assign reward based on the feature selected frequency ratio in historical action records. Finally, we present extensive experiments on real-world datasets to show the improved performance.
翻訳日:2022-10-12 00:58:18 公開日:2020-10-02
# 表データのための注意を増す微分可能森林

Attention augmented differentiable forest for tabular data ( http://arxiv.org/abs/2010.02921v1 )

ライセンス: Link先を確認
Yingshi Chen(参考訳) 分化可能な森林は、完全な分化可能な決定的な木々の集合体である。 その単純な木構造は簡単に使いやすく説明できる。 完全な微分可能性で、勾配に基づく最適化手法でエンドツーエンドの学習フレームワークでトレーニングされる。 本稿では,異なる森林の枠組みにおける樹木の注意ブロック(TAB)を提案する。 TABブロックには2つの操作がある。 圧縮操作は各木の特性を抽出する。 規制操作はこれらの木の間の非線形関係を学習する。 そのため、TABブロックは各木の重要度を学習し、その重量を調整して精度を向上する。 大規模表型データセットを用いた実験では,グラフ型データセットのための最先端アルゴリズムであるgradient boosted decision trees(gbdt)と同等の精度が得られる。 いくつかのデータセットでは、我々のモデルは最高のGBDT libs(LightGBM、Catboost、XGBoost)よりも精度が高い。 微分可能なフォレストモデルはバッチトレーニングをサポートし、バッチサイズはトレーニングセットのサイズよりもはるかに小さい。 したがって、より大きなデータセットでは、メモリ使用量はGBDTモデルよりもはるかに少ない。 ソースコードはhttps://github.com/closest-git/QuantumForestで入手できる。

Differentiable forest is an ensemble of decision trees with full differentiability. Its simple tree structure is easy to use and explain. With full differentiability, it would be trained in the end-to-end learning framework with gradient-based optimization method. In this paper, we propose tree attention block(TAB) in the framework of differentiable forest. TAB block has two operations, squeeze and regulate. The squeeze operation would extract the characteristic of each tree. The regulate operation would learn nonlinear relations between these trees. So TAB block would learn the importance of each tree and adjust its weight to improve accuracy. Our experiment on large tabular dataset shows attention augmented differentiable forest would get comparable accuracy with gradient boosted decision trees(GBDT), which is the state-of-the-art algorithm for tabular datasets. And on some datasets, our model has higher accuracy than best GBDT libs (LightGBM, Catboost, and XGBoost). Differentiable forest model supports batch training and batch size is much smaller than the size of training set. So on larger data sets, its memory usage is much lower than GBDT model. The source codes are available at https://github.com/closest-git/QuantumForest.
翻訳日:2022-10-12 00:57:55 公開日:2020-10-02
# 時系列からユークリッド空間へ:時間クラスタリングのための空間変換について

From Time Series to Euclidean Spaces: On Spatial Transformations for Temporal Clustering ( http://arxiv.org/abs/2010.05681v1 )

ライセンス: Link先を確認
Nuno Mota Goncalves, Ioana Giurgiu, Anika Schumann(参考訳) 時間データの教師なしクラスタリングは、マシンラーニングにおいて困難かつ極めて重要である。 本稿では,従来のクラスタリング手法,時系列的あるいは深層学習に基づく代替手法は,入力データに様々なサンプリングレートと高次元が存在する場合にもよく一般化しないことを示す。 我々は,(1)入力時系列を時間データを扱うのに適した類似性尺度を用いて距離に基づく投影表現に変換し,(2)これらの投影を多層cnn-gruオートエンコーダに供給して有意義なドメイン認識潜在表現を生成し,(3)最も重要な従来のクラスタリングアルゴリズムに有益であるクラスタの自然な分離を可能にする,新たな時間クラスタリング手法を提案する。 我々は,各ドメインの時系列データセットに対するアプローチを評価し,既存の手法を最大32%上回るだけでなく,頑健であり,計算オーバーヘッドも無視できることを示した。

Unsupervised clustering of temporal data is both challenging and crucial in machine learning. In this paper, we show that neither traditional clustering methods, time series specific or even deep learning-based alternatives generalise well when both varying sampling rates and high dimensionality are present in the input data. We propose a novel approach to temporal clustering, in which we (1) transform the input time series into a distance-based projected representation by using similarity measures suitable for dealing with temporal data,(2) feed these projections into a multi-layer CNN-GRU autoencoder to generate meaningful domain-aware latent representations, which ultimately (3) allow for a natural separation of clusters beneficial for most important traditional clustering algorithms. We evaluate our approach on time series datasets from various domains and show that it not only outperforms existing methods in all cases, by up to 32%, but is also robust and incurs negligible computation overheads.
翻訳日:2022-10-12 00:57:42 公開日:2020-10-02
# 深部ニューラルネットワークを用いた解剖学的形状解析のための識別・生成モデル

Discriminative and Generative Models for Anatomical Shape Analysison Point Clouds with Deep Neural Networks ( http://arxiv.org/abs/2010.00820v1 )

ライセンス: Link先を確認
Benjamin Gutierrez Becker, Ignacio Sarasua, Christian Wachinger(参考訳) 本研究では,手工学的な表現に頼らず,与えられたタスクから低次元形状表現を学習する解剖学的形状の解析にディープニューラルネットワークを導入する。 我々のフレームワークはモジュール構造であり、基本的な形状処理タスクを実行するいくつかの計算ブロックで構成されています。 ネットワークは秩序のない点雲上で動作し、類似性変換と不変性を提供し、形状間の点対応を識別する必要がない。 この枠組みに基づき, 疾患分類と年齢回帰のための判別モデルと, 形状の再現のための生成モデルを構築した。 特に,条件ベクトルが生成過程を制御するメカニズムを提供する条件生成モデルを提案する。 例えば、サイド情報として渡す際に、特定の診断に特有の形状の変化を評価することができる。 そこで本研究では,複数構造物の同時モデリングにより,よりコンパクトな符号化が可能となり,障害の理解度が向上する,複数の解剖学的構造の合同解析への拡張を提案する。 本フレームワークの利点を実データおよび合成データに関する総合実験で実証する。 重要な洞察は (i)与えられた課題に特有の形状表現を学習することは、代替形状記述子よりも高い性能をもたらす。 (II)多構造解析は単構造解析よりも効率的かつ正確である。 3)本モデルにより生成された点雲は,アルツハイマー病に関連する形態的差異を捉え,疾患分類のための識別モデルの訓練に使用することができる。 我々のフレームワークは自然に大規模なデータセットの分析にスケールし、大きな個体群の特徴的変動を学習する可能性を秘めている。

We introduce deep neural networks for the analysis of anatomical shapes that learn a low-dimensional shape representation from the given task, instead of relying on hand-engineered representations. Our framework is modular and consists of several computing blocks that perform fundamental shape processing tasks. The networks operate on unordered point clouds and provide invariance to similarity transformations, avoiding the need to identify point correspondences between shapes. Based on the framework, we assemble a discriminative model for disease classification and age regression, as well as a generative model for the accruate reconstruction of shapes. In particular, we propose a conditional generative model, where the condition vector provides a mechanism to control the generative process. instance, it enables to assess shape variations specific to a particular diagnosis, when passing it as side information. Next to working on single shapes, we introduce an extension for the joint analysis of multiple anatomical structures, where the simultaneous modeling of multiple structures can lead to a more compact encoding and a better understanding of disorders. We demonstrate the advantages of our framework in comprehensive experiments on real and synthetic data. The key insights are that (i) learning a shape representation specific to the given task yields higher performance than alternative shape descriptors, (ii) multi-structure analysis is both more efficient and more accurate than single-structure analysis, and (iii) point clouds generated by our model capture morphological differences associated to Alzheimers disease, to the point that they can be used to train a discriminative model for disease classification. Our framework naturally scales to the analysis of large datasets, giving it the potential to learn characteristic variations in large populations.
翻訳日:2022-10-12 00:56:53 公開日:2020-10-02
# Deep Convolutional Transform Learning -- 拡張バージョン

Deep Convolutional Transform Learning -- Extended version ( http://arxiv.org/abs/2010.01011v1 )

ライセンス: Link先を確認
Jyoti Maggu and Angshul Majumdar and Emilie Chouzenoux and Giovanni Chierchia(参考訳) 本稿では,deep convolutional transform learning (dctl) と呼ばれる新しい教師なし表現学習手法を提案する。 畳み込み変換を積み重ねることで、我々のアプローチは異なる層で独立したカーネルの集合を学習することができる。 教師なしの方法で抽出された機能は、分類やクラスタリングといった機械学習タスクの実行に使用できる。 学習手法は、確立された収束保証を持つ交互の近位最小化スキームに依存する。 実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,その浅層バージョンCTLよりも優れていることがわかった。

This work introduces a new unsupervised representation learning technique called Deep Convolutional Transform Learning (DCTL). By stacking convolutional transforms, our approach is able to learn a set of independent kernels at different layers. The features extracted in an unsupervised manner can then be used to perform machine learning tasks, such as classification and clustering. The learning technique relies on a well-sounded alternating proximal minimization scheme with established convergence guarantees. Our experimental results show that the proposed DCTL technique outperforms its shallow version CTL, on several benchmark datasets.
翻訳日:2022-10-12 00:50:38 公開日:2020-10-02
# 最適輸送を用いたオープンセット領域適応

Open Set Domain Adaptation using Optimal Transport ( http://arxiv.org/abs/2010.01045v1 )

ライセンス: Link先を確認
Marwa Kechaou, Romain H\'erault, Mokhtar Z. Alaya and Gilles Gasso(参考訳) 本稿では,ソース分布からターゲット分布へのマッピングを行う2段階の最適輸送手法を提案する。 ここでは、ターゲットはソースドメインに存在しない新しいクラスを提示する特質を持っている。 このアプローチの最初のステップは、これらの新しいクラスから発行されたサンプルを最適な輸送計画を使って拒否することである。 2番目のステップは、最適な輸送問題として、目標(クラス比)シフトをまだ解決する。 我々は,各ステップにおける最適化問題を解くための2重アプローチを開発し,その結果が最近の最先端性能を上回っていることを証明した。 さらに、ソースとターゲットの分布がラベルシフトとコバリアイト(機能)シフトの両方を示し、その堅牢性を示すような設定にアプローチを適用する。

We present a 2-step optimal transport approach that performs a mapping from a source distribution to a target distribution. Here, the target has the particularity to present new classes not present in the source domain. The first step of the approach aims at rejecting the samples issued from these new classes using an optimal transport plan. The second step solves the target (class ratio) shift still as an optimal transport problem. We develop a dual approach to solve the optimization problem involved at each step and we prove that our results outperform recent state-of-the-art performances. We further apply the approach to the setting where the source and target distributions present both a label-shift and an increasing covariate (features) shift to show its robustness.
翻訳日:2022-10-12 00:50:15 公開日:2020-10-02
# 2層ニューラルネットワークにおける$L_1$正規化の有効性

The Efficacy of $L_1$ Regularization in Two-Layer Neural Networks ( http://arxiv.org/abs/2010.01048v1 )

ライセンス: Link先を確認
Gen Li, Yuantao Gu, Jie Ding(参考訳) ニューラルネットワークの重要な問題は、最も適切な数の隠れたニューロンを選択し、密接な統計上のリスク境界を得ることである。 本研究では,ニューラルネットワークにおけるバイアス分散トレードオフに対する新たな視点を示す。 ニューロン数の選択の代替として、$L_1$正規化が一般化誤差を制御し、入力次元をスパース化できることを示す。 特に、出力層上で適切な$L_1$正規化を行うことで、ネットワークは最小値に近い統計的リスクを生み出すことができる。 さらに、入力層上の適切な$L_1$正規化は、入力データ次元を含まないリスクバウンドにつながる。 本解析は一般化誤差を限定する次元ベースおよびノルムベース複雑性解析の新しい融合に基づいている。 以上の結果から, 過剰な数のニューロンが適切な正規化下では, 必ずしも一般化誤差を膨らませることはないという結論を得た。

A crucial problem in neural networks is to select the most appropriate number of hidden neurons and obtain tight statistical risk bounds. In this work, we present a new perspective towards the bias-variance tradeoff in neural networks. As an alternative to selecting the number of neurons, we theoretically show that $L_1$ regularization can control the generalization error and sparsify the input dimension. In particular, with an appropriate $L_1$ regularization on the output layer, the network can produce a statistical risk that is near minimax optimal. Moreover, an appropriate $L_1$ regularization on the input layer leads to a risk bound that does not involve the input data dimension. Our analysis is based on a new amalgamation of dimension-based and norm-based complexity analysis to bound the generalization error. A consequent observation from our results is that an excessively large number of neurons do not necessarily inflate generalization errors under a suitable regularization.
翻訳日:2022-10-12 00:50:03 公開日:2020-10-02
# 縦型電子医療データのための機械学習の進歩評価

Evaluating Progress on Machine Learning for Longitudinal Electronic Healthcare Data ( http://arxiv.org/abs/2010.01149v1 )

ライセンス: Link先を確認
David Bellamy and Leo Celi and Andrew L. Beam(参考訳) 有名なImagenetデータセットに基づく大規模視覚認識チャレンジは、コンピュータビジョンの急激な進歩を触媒した。 ベンチマークタスクは、同様に印象的なペースで機械学習の他のサブフィールドを推し進めてきたが、医療においては、主に、同様のベンチマーク駆動の進歩を経験した皮膚科や放射線学のような画像処理タスクである。 本研究では、構造化データに対する医療機械学習のベンチマークの総合的なレビューを行い、予測性能の第一直接比較を可能にするMIMIC-III(Messical Information Mart for Intensive Care)に基づいて、死亡率、滞在期間、表現力、患者補充の4つの臨床予測タスクの進捗状況の評価を行った。 コミュニティの関与が著しいにも関わらず、これらのタスクに関して3年間、意味のある進展はほとんどありません。 メタ分析により、深い再帰モデルの性能は特定のタスクにおけるロジスティック回帰よりも優れていることがわかった。 本研究は、これらの結果の合成、可能な説明、将来の医療機械学習のベンチマークに望ましい品質のリストで締めくくる。

The Large Scale Visual Recognition Challenge based on the well-known Imagenet dataset catalyzed an intense flurry of progress in computer vision. Benchmark tasks have propelled other sub-fields of machine learning forward at an equally impressive pace, but in healthcare it has primarily been image processing tasks, such as in dermatology and radiology, that have experienced similar benchmark-driven progress. In the present study, we performed a comprehensive review of benchmarks in medical machine learning for structured data, identifying one based on the Medical Information Mart for Intensive Care (MIMIC-III) that allows the first direct comparison of predictive performance and thus the evaluation of progress on four clinical prediction tasks: mortality, length of stay, phenotyping, and patient decompensation. We find that little meaningful progress has been made over a 3 year period on these tasks, despite significant community engagement. Through our meta-analysis, we find that the performance of deep recurrent models is only superior to logistic regression on certain tasks. We conclude with a synthesis of these results, possible explanations, and a list of desirable qualities for future benchmarks in medical machine learning.
翻訳日:2022-10-12 00:48:06 公開日:2020-10-02
# テキストによる大規模語彙オントロジーの構築 : バイオテクノロジー特許の自動インデクシングのユースケース

Building Large Lexicalized Ontologies from Text: a Use Case in Automatic Indexing of Biotechnology Patents ( http://arxiv.org/abs/2010.00860v1 )

ライセンス: Link先を確認
Claire N\'edellec, Wiktoria Golik, Sophie Aubin, Robert Bossy(参考訳) 本稿では,用語オントロジー,すなわち意味検索アプリケーションのためのきめ細かなインデクシングを目的とした語彙化オントロジーの構築において実験されたツール,tydi,および手法を提案する。 TyDIは知識技術者とドメインエキスパートが効率的に協力してコーパス抽出用語の検証、組織化、概念化を行うための設備を提供する。 バイオテクノロジー特許検索のユースケースは、TyDIの可能性を示している。

This paper presents a tool, TyDI, and methods experimented in the building of a termino-ontology, i.e. a lexicalized ontology aimed at fine-grained indexation for semantic search applications. TyDI provides facilities for knowledge engineers and domain experts to efficiently collaborate to validate, organize and conceptualize corpus extracted terms. A use case on biotechnology patent search demonstrates TyDI's potential.
翻訳日:2022-10-12 00:41:22 公開日:2020-10-02
# データ転送によるSeq-to-Seq再合成の改善

Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis ( http://arxiv.org/abs/2010.00792v1 )

ライセンス: Link先を確認
Katsuhiko Ishiguro, Kazuya Ujihara, Ryohto Sawada, Hirotaka Akita, Masaaki Kotera(参考訳) レトロシンセシスは、化学反応を通じて生成物化合物を合成するために反応物質を推測する問題である。 最近のレトロシンセシス研究は、より洗練された予測モデルの提案に焦点を当てているが、モデルに供給するデータセットは、最良の一般化モデルを達成する上でも重要な役割を果たす。 一般的に、特定のタスクに最も適したデータセットは小さい傾向があります。 そのような場合、同じドメインの大規模またはクリーンなデータセットから知識を転送する標準的なソリューションである。 本稿では, エンドツーエンド生成モデルにおけるデータ転送手法の体系的, 集中的な検討を行い, 逆合成への応用について述べる。 実験の結果, 従来のデータ転送手法は, 既設変圧器のベースラインモデルのテスト予測スコアを向上できることがわかった。 特に、事前トレーニングと微調整のアプローチは、ベースラインの精度スコアを高め、新しい最先端を達成する。 また,誤った予測結果に対する手作業による検査を行う。 検査の結果,事前学習モデルと微調整モデルは,ほぼすべてのケースにおいて,化学的に適切あるいは賢明な提案を生成できることがわかった。

Retrosynthesis is a problem to infer reactant compounds to synthesize a given product compound through chemical reactions. Recent studies on retrosynthesis focus on proposing more sophisticated prediction models, but the dataset to feed the models also plays an essential role in achieving the best generalizing models. Generally, a dataset that is best suited for a specific task tends to be small. In such a case, it is the standard solution to transfer knowledge from a large or clean dataset in the same domain. In this paper, we conduct a systematic and intensive examination of data transfer approaches on end-to-end generative models, in application to retrosynthesis. Experimental results show that typical data transfer methods can improve test prediction scores of an off-the-shelf Transformer baseline model. Especially, the pre-training plus fine-tuning approach boosts the accuracy scores of the baseline, achieving the new state-of-the-art. In addition, we conduct a manual inspection for the erroneous prediction results. The inspection shows that the pre-training plus fine-tuning models can generate chemically appropriate or sensible proposals in almost all cases.
翻訳日:2022-10-12 00:40:35 公開日:2020-10-02
# 多重ポテンシャル関数による線形分類器の組み合わせ

Linear Classifier Combination via Multiple Potential Functions ( http://arxiv.org/abs/2010.00844v1 )

ライセンス: Link先を確認
Pawel Trajdos, Robert Burduk(参考訳) 分類に基づくモデル構築プロセスの重要な側面は、スコアリング機能のキャリブレーションである。 校正過程の弱点の1つは、特徴空間における認識対象の相対的な位置に関する情報を考慮していないことである。 そこで本稿では,この制限を緩和するために,決定境界からの距離とクラスセンタロイドまでの距離に基づいてスコアリング関数を計算するという新しい概念を提案する。 重要な性質は、提案されたスコア関数がすべての線形基底分類器に対して同じ性質を持ち、つまりこれらの分類器の出力が等しく表現され、同じ意味を持つということである。 提案手法は他のアンサンブルアルゴリズムと比較し,複数のキールデータセットを用いた実験を行った。 実験の結果を考察するために,複数の分類性能尺度と統計分析を用いた。

A vital aspect of the classification based model construction process is the calibration of the scoring function. One of the weaknesses of the calibration process is that it does not take into account the information about the relative positions of the recognized objects in the feature space. To alleviate this limitation, in this paper, we propose a novel concept of calculating a scoring function based on the distance of the object from the decision boundary and its distance to the class centroid. An important property is that the proposed score function has the same nature for all linear base classifiers, which means that outputs of these classifiers are equally represented and have the same meaning. The proposed approach is compared with other ensemble algorithms and experiments on multiple Keel datasets demonstrate the effectiveness of our method. To discuss the results of our experiments, we use multiple classification performance measures and statistical analysis.
翻訳日:2022-10-12 00:40:01 公開日:2020-10-02
# 確率的深層学習問題に対する予測経験的損失に対する直線探索法

A straightforward line search approach on the expected empirical loss for stochastic deep learning problems ( http://arxiv.org/abs/2010.00921v1 )

ライセンス: Link先を確認
Maximus Mutschler and Andreas Zell(参考訳) 深層学習における根本的な課題は、確率勾配降下の更新ステップの最適ステップサイズが不明である点である。 従来の最適化では、行探索は良いステップサイズを決定するために使用されるが、ディープラーニングでは、ノイズによる期待された経験的損失について良いステップサイズを探索するにはコストがかかりすぎる。 この経験的研究は, 垂直断面における期待される経験的損失を, 極めて安価に近似できることを示唆している。 これは、従来の一次元関数をこれらの断面のノイズ損失の測定に適用することによって達成される。 得られた近似の最小値へのステップは最適化のステップサイズとして使用される。 このアプローチは、ハイパーパラメータチューニングを必要とせず、データセットやアーキテクチャ間でうまく機能する堅牢で簡単な最適化手法をもたらす。

A fundamental challenge in deep learning is that the optimal step sizes for update steps of stochastic gradient descent are unknown. In traditional optimization, line searches are used to determine good step sizes, however, in deep learning, it is too costly to search for good step sizes on the expected empirical loss due to noisy losses. This empirical work shows that it is possible to approximate the expected empirical loss on vertical cross sections for common deep learning tasks considerably cheaply. This is achieved by applying traditional one-dimensional function fitting to measured noisy losses of such cross sections. The step to a minimum of the resulting approximation is then used as step size for the optimization. This approach leads to a robust and straightforward optimization method which performs well across datasets and architectures without the need of hyperparameter tuning.
翻訳日:2022-10-12 00:39:41 公開日:2020-10-02
# 可変重み付き有限状態トランスデューサ

Differentiable Weighted Finite-State Transducers ( http://arxiv.org/abs/2010.01003v1 )

ライセンス: Link先を確認
Awni Hannun, Vineel Pratap, Jacob Kahn, Wei-Ning Hsu(参考訳) 本稿では、有限状態トランスデューサ(WFST)を用いた自動微分フレームワークを導入し、トレーニング時に動的に使用できるようにする。 このフレームワークはグラフ上の操作からグラフを分離することで、新しい構造化損失関数の探索を可能にし、学習アルゴリズムへの事前知識のエンコーディングを容易にする。 このフレームワークは、遷移モデルのプルーニングとバックオフを様々なシーケンスレベルの損失関数と組み合わせることができることを示す。 また,句の潜在的な分解を単語に分解して学ぶ方法を示す。 最後に、深層ニューラルネットワークの内部でWFSTが利用できることを示すために、より低レベルな表現を高レベルな表現にマッピングし、従来の畳み込みの代替として使用できる畳み込みWFST層を提案する。 我々はこれらのアルゴリズムを手書き認識と音声認識の実験で検証する。

We introduce a framework for automatic differentiation with weighted finite-state transducers (WFSTs) allowing them to be used dynamically at training time. Through the separation of graphs from operations on graphs, this framework enables the exploration of new structured loss functions which in turn eases the encoding of prior knowledge into learning algorithms. We show how the framework can combine pruning and back-off in transition models with various sequence-level loss functions. We also show how to learn over the latent decomposition of phrases into word pieces. Finally, to demonstrate that WFSTs can be used in the interior of a deep neural network, we propose a convolutional WFST layer which maps lower-level representations to higher-level representations and can be used as a drop-in replacement for a traditional convolution. We validate these algorithms with experiments in handwriting recognition and speech recognition.
翻訳日:2022-10-12 00:39:03 公開日:2020-10-02
# シーンフィッティングと動的認知ネットワークを中心としたAI

AI Centered on Scene Fitting and Dynamic Cognitive Network ( http://arxiv.org/abs/2010.04551v1 )

ライセンス: Link先を確認
Feng Chen(参考訳) より強力な人工知能を実現するためには、エンド・ツー・エンドの関数計算を変更し、シーンフィッティングを中心とした技術システムを採用する必要がある。 また、動的認知ネットワークモデル(DCNet)と呼ばれる具体的なスキームについても論じている。 Discussions : The knowledge and data in the comprehensive domain are uniformly represented by using the rich connection heterogeneous Dynamic Cognitive Network constructed by conceptualized elements; A network structure of two dimensions and multi layers is designed to achieve unified implementation of AI core processing such as combination and generalization; This paper analyzes the implementation differences of computer systems in different scenes, such as open domain, closed domain, significant probability and non-significant probability, and points out that the implementation in open domain and significant probability scene is the key of AI, and a cognitive probability model combining bidirectional conditional probability, probability passing and superposition, probability col-lapse is designed; An omnidirectional network matching-growth algorithm system driven by target and probability is designed to realize the integration of parsing, generating, reasoning, querying, learning and so on; The principle of cognitive network optimization is proposed, and the basic framework of Cognitive Network Learning algorithm (CNL) is designed that structure learning is the primary method and parameter learning is the auxiliary. 本稿では,DCネットモデルとヒューマンインテリジェンスの実装の論理的類似性を分析する。

This paper briefly analyzes the advantages and problems of AI mainstream technology and puts forward: To achieve stronger Artificial Intelligence, the end-to-end function calculation must be changed and adopt the technology system centered on scene fitting. It also discusses the concrete scheme named Dynamic Cognitive Network model (DC Net). Discussions : The knowledge and data in the comprehensive domain are uniformly represented by using the rich connection heterogeneous Dynamic Cognitive Network constructed by conceptualized elements; A network structure of two dimensions and multi layers is designed to achieve unified implementation of AI core processing such as combination and generalization; This paper analyzes the implementation differences of computer systems in different scenes, such as open domain, closed domain, significant probability and non-significant probability, and points out that the implementation in open domain and significant probability scene is the key of AI, and a cognitive probability model combining bidirectional conditional probability, probability passing and superposition, probability col-lapse is designed; An omnidirectional network matching-growth algorithm system driven by target and probability is designed to realize the integration of parsing, generating, reasoning, querying, learning and so on; The principle of cognitive network optimization is proposed, and the basic framework of Cognitive Network Learning algorithm (CNL) is designed that structure learning is the primary method and parameter learning is the auxiliary. The logical similarity of implementation between DC Net model and human intelligence is analyzed in this paper.
翻訳日:2022-10-12 00:32:59 公開日:2020-10-02
# SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in BERT-based Embedding Spaces

SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in BERT-based Embedding Spaces ( http://arxiv.org/abs/2010.00857v1 )

ライセンス: Link先を確認
K Vani, Sandra Mitrovic, Alessandro Antonucci, Fabio Rinaldi(参考訳) レキシカル・セマンティック・シフト検出(英: Lexical semantic change detection)は、意味が時間とともに変化した単語を識別するタスクである。 SemEval2020の焦点である教師なしセマンティックシフトの追跡は特に困難である。 本研究では,教師なしの設定を前提として,各単語の異なる事象のクラスタを識別することを提案する。 このように、得られたクラスタ内の不一致は、4つのターゲット言語における各単語ごとの意味変化のレベルを自然に定量化することができる。 このアイデアを活用するために、単語発生のコンテキスト化された(BERTベースの)埋め込み上でクラスタリングを行う。 得られた結果から,提案手法は(言語毎に)個別に測定し,総合的にも良好に動作し,提供されたセメバルベースラインを上回った。

Lexical semantic change detection (also known as semantic shift tracing) is a task of identifying words that have changed their meaning over time. Unsupervised semantic shift tracing, focal point of SemEval2020, is particularly challenging. Given the unsupervised setup, in this work, we propose to identify clusters among different occurrences of each target word, considering these as representatives of different word meanings. As such, disagreements in obtained clusters naturally allow to quantify the level of semantic shift per each target word in four target languages. To leverage this idea, clustering is performed on contextualized (BERT-based) embeddings of word occurrences. The obtained results show that our approach performs well both measured separately (per language) and overall, where we surpass all provided SemEval baselines.
翻訳日:2022-10-12 00:32:02 公開日:2020-10-02
# マルチモーダルオープンドメイン対話

Multi-Modal Open-Domain Dialogue ( http://arxiv.org/abs/2010.01082v1 )

ライセンス: Link先を確認
Kurt Shuster, Eric Michael Smith, Da Ju, Jason Weston(参考訳) オープンドメインの会話エージェントにおける最近の研究は、事前学習データとモデルサイズの両方の大規模スケーリング(Adiwardana et al., 2020; Roller et al., 2020)によって、モデルエンゲージメントと人文性メトリクスの大幅な改善が達成できることを実証している。 しかし、人間のような能力を持つエージェントを作りたいなら、テキストのみを扱うことを超えて拡張する必要がある。 特に重要なトピックは、画像を見て、知覚されているものについてコミュニケーションする能力である。 マルチモーダル対話を目的とし、最先端のオープンドメイン対話エージェントからのコンポーネントと最先端のビジョンモデルからのコンポーネントを組み合わせることを検討する。 我々は,異なる画像融合方式とドメイン適応型事前学習および微調整戦略を取り入れて検討し,最も優れた結果を得たモデルは,テキストベースの会話において,先行する(テキストのみ)BlenderBot(Roller et al., 2020)だけでなく,マルチモーダル対話における強力な既存モデルよりも優れていることを示す。 さらに安全要素を最終モデルに組み込んで検討し、そのような取り組みが、エンゲージメントメトリクスに関してモデルパフォーマンスを損なうことはないことを示します。

Recent work in open-domain conversational agents has demonstrated that significant improvements in model engagingness and humanness metrics can be achieved via massive scaling in both pre-training data and model size (Adiwardana et al., 2020; Roller et al., 2020). However, if we want to build agents with human-like abilities, we must expand beyond handling just text. A particularly important topic is the ability to see images and communicate about what is perceived. With the goal of engaging humans in multi-modal dialogue, we investigate combining components from state-of-the-art open-domain dialogue agents with those from state-of-the-art vision models. We study incorporating different image fusion schemes and domain-adaptive pre-training and fine-tuning strategies, and show that our best resulting model outperforms strong existing models in multi-modal dialogue while simultaneously performing as well as its predecessor (text-only) BlenderBot (Roller et al., 2020) in text-based conversation. We additionally investigate and incorporate safety components in our final model, and show that such efforts do not diminish model performance with respect to engagingness metrics.
翻訳日:2022-10-12 00:31:45 公開日:2020-10-02
# どの*ベルト? 文脈化エンコーダの組織化に関する調査

Which *BERT? A Survey Organizing Contextualized Encoders ( http://arxiv.org/abs/2010.00854v1 )

ライセンス: Link先を確認
Patrick Xia, Shijie Wu, Benjamin Van Durme(参考訳) 事前訓練された文脈化されたテキストエンコーダは、今やNLPコミュニティの基盤となっている。 本稿では,近年の様々な取り組みを通して学習した一連の共有学習を統合することを目的として,言語表現学習に関する調査を行う。 急速な進歩は継続するが、現在、様々な方向に、共通テーマに従って進展を整理し始めるのに十分なものが発見されている。 この組織を通じて、最近のコントリビューションを解釈し、使用するモデルを選択する際の重要な考慮事項を強調します。

Pretrained contextualized text encoders are now a staple of the NLP community. We present a survey on language representation learning with the aim of consolidating a series of shared lessons learned across a variety of recent efforts. While significant advancements continue at a rapid pace, we find that enough has now been discovered, in different directions, that we can begin to organize advances according to common themes. Through this organization, we highlight important considerations when interpreting recent contributions and choosing which model to use.
翻訳日:2022-10-12 00:31:18 公開日:2020-10-02
# タスク指向対話システムにおける自然言語生成の連続学習

Continual Learning for Natural Language Generation in Task-oriented Dialog Systems ( http://arxiv.org/abs/2010.00910v1 )

ライセンス: Link先を確認
Fei Mi, Liangwei Chen, Mengjie Zhao, Minlie Huang and Boi Faltings(参考訳) 自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。 NLGのニューラルアプローチは近年成功しているが、通常は特定のドメインに対してオフラインで開発されている。 新しいデータがストリームに現れるような現実のアプリケーションをより適させるため、nlgを"継続的な学習"環境で研究し、知識を新たなドメインや機能へと段階的に拡大する。 この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。 そこで,本稿では,優先度付けされた履歴を再生するARPER(Adaptively Regularized Prioritized Exemplar Replay)と,Elastic Weight Consolidationに基づく適応正規化手法を提案する。 新しいドメインやインテントを継続的に学習するための広範な実験が、幅広いテクニックを用いたベンチマークarperに対して、multiwoz-2.0で行われます。 実証実験の結果,ARPERは他の方法よりも優れていることが確認された。

Natural language generation (NLG) is an essential component of task-oriented dialog systems. Despite the recent success of neural approaches for NLG, they are typically developed in an offline manner for particular domains. To better fit real-life applications where new data come in a stream, we study NLG in a "continual learning" setting to expand its knowledge to new domains or functionalities incrementally. The major challenge towards this goal is catastrophic forgetting, meaning that a continually trained model tends to forget the knowledge it has learned before. To this end, we propose a method called ARPER (Adaptively Regularized Prioritized Exemplar Replay) by replaying prioritized historical exemplars, together with an adaptive regularization technique based on ElasticWeight Consolidation. Extensive experiments to continually learn new domains and intents are conducted on MultiWoZ-2.0 to benchmark ARPER with a wide range of techniques. Empirical results demonstrate that ARPER significantly outperforms other methods by effectively mitigating the detrimental catastrophic forgetting issue.
翻訳日:2022-10-12 00:31:09 公開日:2020-10-02
# LUKE: エンティティを意識したエンティティ表現

LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention ( http://arxiv.org/abs/2010.01057v1 )

ライセンス: Link先を確認
Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto(参考訳) エンティティ表現は、エンティティを含む自然言語タスクで有用です。 本稿では,双方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。 提案モデルでは,テキスト中の単語やエンティティを独立したトークンとして扱い,文脈化された表現を出力する。 我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。 このタスクは、wikipediaから抽出された大きなエンティティアノテーション付きコーパスで、ランダムにマスクされた単語とエンティティを予測することである。 また,トランスフォーマの自己着脱機構の拡張であるエンティティ認識自己着脱機構を提案し,注意点を計算する際のトークン(単語やエンティティ)の種類を考察する。 提案モデルは、幅広いエンティティ関連タスクにおいて印象的な経験的パフォーマンスを達成している。 特に、open entity (entity typing), tacred (relation classification), conll-2003 (named entity recognition), record (cloze-style question answering), squad 1.1 (extractive question answering)の5つのよく知られているデータセットについて最新の結果を得る。 ソースコードと事前トレーニング済みの表現は、https://github.com/studio-ousia/luke.comから入手できます。

Entity representations are useful in natural language tasks involving entities. In this paper, we propose new pretrained contextualized representations of words and entities based on the bidirectional transformer. The proposed model treats words and entities in a given text as independent tokens, and outputs contextualized representations of them. Our model is trained using a new pretraining task based on the masked language model of BERT. The task involves predicting randomly masked words and entities in a large entity-annotated corpus retrieved from Wikipedia. We also propose an entity-aware self-attention mechanism that is an extension of the self-attention mechanism of the transformer, and considers the types of tokens (words or entities) when computing attention scores. The proposed model achieves impressive empirical performance on a wide range of entity-related tasks. In particular, it obtains state-of-the-art results on five well-known datasets: Open Entity (entity typing), TACRED (relation classification), CoNLL-2003 (named entity recognition), ReCoRD (cloze-style question answering), and SQuAD 1.1 (extractive question answering). Our source code and pretrained representations are available at https://github.com/studio-ousia/luke.
翻訳日:2022-10-12 00:30:51 公開日:2020-10-02
# 教師なしテキストスタイル転送のための周期整合逆オートエンコーダ

Cycle-Consistent Adversarial Autoencoders for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2010.00735v1 )

ライセンス: Link先を確認
Yufang Huang, Wentao Zhu, Deyi Xiong, Yiye Zhang, Changjian Hu, Feiyu Xu(参考訳) 教師なしのテキストスタイルの転送は、並列データの欠如とコンテンツ保存の困難により、課題に満ちている。 本稿では,非並列データから学習したCycle-Consistent Adversarial AutoEncoders (CAE) と呼ばれる,教師なしテキストスタイル転送のための新しいニューラルネットワークを提案する。 CAE consists of three essential components: (1) LSTM autoencoders that encode a text in one style into its latent representation and decode an encoded representation into its original text or a transferred representation into a style-transferred text, (2) adversarial style transfer networks that use an adversarially trained generator to transform a latent representation in one style into a representation in another style, and (3) a cycle-consistent constraint that enhances the capacity of the adversarial style transfer networks in content preservation. これら3つのコンポーネントを持つCAE全体をエンドツーエンドでトレーニングすることができる。 4つの自動評価指標と人的評価の観点から,多種多様なベースラインに対して,スタイル転送とコンテンツ保存の両方において提案されたCAEの有効性を連続的に検証した。

Unsupervised text style transfer is full of challenges due to the lack of parallel data and difficulties in content preservation. In this paper, we propose a novel neural approach to unsupervised text style transfer, which we refer to as Cycle-consistent Adversarial autoEncoders (CAE) trained from non-parallel data. CAE consists of three essential components: (1) LSTM autoencoders that encode a text in one style into its latent representation and decode an encoded representation into its original text or a transferred representation into a style-transferred text, (2) adversarial style transfer networks that use an adversarially trained generator to transform a latent representation in one style into a representation in another style, and (3) a cycle-consistent constraint that enhances the capacity of the adversarial style transfer networks in content preservation. The entire CAE with these three components can be trained end-to-end. Extensive experiments and in-depth analyses on two widely-used public datasets consistently validate the effectiveness of proposed CAE in both style transfer and content preservation against several strong baselines in terms of four automatic evaluation metrics and human evaluation.
翻訳日:2022-10-12 00:22:57 公開日:2020-10-02
# ビデオフォアグラウンド・バックグラウンド分離のための深層展開参照ベースRPCAネットワーク

A Deep-Unfolded Reference-Based RPCA Network For Video Foreground-Background Separation ( http://arxiv.org/abs/2010.00929v1 )

ライセンス: Link先を確認
Huynh Van Luong, Boris Joukovsky, Yonina C. Eldar, Nikos Deligiannis(参考訳) 深い展開されたニューラルネットワークは、最適化アルゴリズムの反復を展開することによって設計される。 最適化よりも高速な収束と高精度を実現することが示される。 本稿では,ロバスト主成分分析(RPCA)問題に対する深層展開型ネットワーク設計を提案し,ビデオフォアグラウンドとバックグラウンドを分離する手法を提案する。 既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。 この目的のために、再重み付けされた$\ell_1$-$\ell_1$最小化を解決する反復アルゴリズムの展開を行い、この展開はニューロンごとに適応的に学習される異なる近位演算子(すなわち、異なる活性化関数)をもたらす。 移動型mnistデータセットを用いた実験により,提案するネットワークは,映像フォアグラウンド・バックグラウンド分離作業において,最近提案されている最先端rpcaネットワークを上回っていることが示された。

Deep unfolded neural networks are designed by unrolling the iterations of optimization algorithms. They can be shown to achieve faster convergence and higher accuracy than their optimization counterparts. This paper proposes a new deep-unfolding-based network design for the problem of Robust Principal Component Analysis (RPCA) with application to video foreground-background separation. Unlike existing designs, our approach focuses on modeling the temporal correlation between the sparse representations of consecutive video frames. To this end, we perform the unfolding of an iterative algorithm for solving reweighted $\ell_1$-$\ell_1$ minimization; this unfolding leads to a different proximal operator (a.k.a. different activation function) adaptively learned per neuron. Experimentation using the moving MNIST dataset shows that the proposed network outperforms a recently proposed state-of-the-art RPCA network in the task of video foreground-background separation.
翻訳日:2022-10-12 00:22:18 公開日:2020-10-02
# 注意に基づくクラスタリング: コンテキストからカーネルを学ぶ

Attention-Based Clustering: Learning a Kernel from Context ( http://arxiv.org/abs/2010.01040v1 )

ライセンス: Link先を確認
Samuel Coward, Erik Visse-Martindale, Chithrupa Ramesh(参考訳) 機械学習では、データポイントは単独では存在しない。 我々は、コンテキストが多くの機械学習手法において未承認の概念であると信じている。 本研究では,アテンション機構に基づくニューラルネットワークであるアテンションベースクラスタリング(abc)を提案する。アテンション機構は,入力セット内のコンテキストに適応し,本質的に入力サイズやクラスタ数に依存しない潜在表現を学習するように設計されている。 類似性カーネルを学習することで、任意のカーネルベースのクラスタリングアプローチと直接結合する。 我々は,全文文字のクラスタリングにおける競争結果を示し,注意に基づくクラスタリング手法の有効性に関する分析的証拠を含む。

In machine learning, no data point stands alone. We believe that context is an underappreciated concept in many machine learning methods. We propose Attention-Based Clustering (ABC), a neural architecture based on the attention mechanism, which is designed to learn latent representations that adapt to context within an input set, and which is inherently agnostic to input sizes and number of clusters. By learning a similarity kernel, our method directly combines with any out-of-the-box kernel-based clustering approach. We present competitive results for clustering Omniglot characters and include analytical evidence of the effectiveness of an attention-based approach for clustering.
翻訳日:2022-10-12 00:21:39 公開日:2020-10-02
# 局所探索の多目的化:多目的勾配による単一目的最適化の効果

Multiobjectivization of Local Search: Single-Objective Optimization Benefits From Multi-Objective Gradient Descent ( http://arxiv.org/abs/2010.01004v1 )

ライセンス: Link先を確認
Vera Steinhoff and Pascal Kerschke and Pelin Aspar and Heike Trautmann and Christian Grimme(参考訳) 局所最適化がアルゴリズムの進行を妨げているため、マルチモーダリティは最適化の最大の難しさの1つである。 これは、立ち往生できるローカル戦略に挑戦するだけではない。 また、グローバルな最適化に収束する進化アルゴリズムのようなメタヒューリスティックを妨げている。 本稿では,局所トラップを回避できる勾配降下の新たな概念を提案する。 これは元の問題の多目的化に依存しており、最近提案され、ここでは微修正された多目的局所探索機構MOGSAを適用している。 我々は,多目的問題に対する高度な可視化手法を用いて,アイデアの動作原理を実証する。 このように、この研究は、多目的から単目的領域への新たな洞察の伝達を強調し、多目的化が多目的景観における単目的局所最適化をリンクできるという最初の視覚的証拠を提供する。

Multimodality is one of the biggest difficulties for optimization as local optima are often preventing algorithms from making progress. This does not only challenge local strategies that can get stuck. It also hinders meta-heuristics like evolutionary algorithms in convergence to the global optimum. In this paper we present a new concept of gradient descent, which is able to escape local traps. It relies on multiobjectivization of the original problem and applies the recently proposed and here slightly modified multi-objective local search mechanism MOGSA. We use a sophisticated visualization technique for multi-objective problems to prove the working principle of our idea. As such, this work highlights the transfer of new insights from the multi-objective to the single-objective domain and provides first visual evidence that multiobjectivization can link single-objective local optima in multimodal landscapes.
翻訳日:2022-10-12 00:21:29 公開日:2020-10-02
# BOSS: 文字列空間に対するベイズ最適化

BOSS: Bayesian Optimization over String Spaces ( http://arxiv.org/abs/2010.00979v1 )

ライセンス: Link先を確認
Henry B. Moss, Daniel Beck, Javier Gonzalez, David S. Leslie, Paul Rayson(参考訳) 本稿では,生文字列上で直接動作するベイズ最適化(bo)手法を開発し,boループ内の文字列カーネルと遺伝的アルゴリズムの初使用を提案する。 BOオーバストリングの最近の応用は、入力を滑らかで制約のない潜在空間にマッピングする必要性によって妨げられている。 このプロジェクションの学習は計算とデータ集約である。 提案手法は,文字列カーネルに基づく強力なガウス過程サロゲートモデルを構築し,自然に可変長入力をサポートし,構文制約のある空間に対して効率的な獲得関数最大化を行う。 実験は、文脈自由文法によって構文が支配される一般的な設定など、幅広い制約で既存のアプローチよりも大幅に改善された最適化を示す。

This article develops a Bayesian optimization (BO) method which acts directly over raw strings, proposing the first uses of string kernels and genetic algorithms within BO loops. Recent applications of BO over strings have been hindered by the need to map inputs into a smooth and unconstrained latent space. Learning this projection is computationally and data-intensive. Our approach instead builds a powerful Gaussian process surrogate model based on string kernels, naturally supporting variable length inputs, and performs efficient acquisition function maximization for spaces with syntactical constraints. Experiments demonstrate considerably improved optimization over existing approaches across a broad range of constraints, including the popular setting where syntax is governed by a context-free grammar.
翻訳日:2022-10-12 00:12:56 公開日:2020-10-02