このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210704となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 標準量子力学は完全に非決定論なのだろうか? Is the standard quantum mechanics a completely nondeterministic theory? ( http://arxiv.org/abs/2007.03553v4 ) ライセンス: Link先を確認 | H. Razmi and J. Bahreini | (参考訳) 量子論は絶対決定論的な理論ではないが、部分決定論であると主張する。
ここでのアプローチは、追加の仮定や代替解釈なしで標準量子力学(copenhagen interpretation of the standard)の枠組みにある。
この議論は決定論の概念的な意味と、量子世界におけるいくつかのよく知られた現象(量子粒子スピン、エネルギー値、原子中の電子の空間状態、いわゆる波動関数崩壊問題の測定)に基づいている。 It is argued that although quantum theory isn't an absolutely deterministic theory, it is partially deterministic. The approach followed here is in the framework of the standard (Copenhagen interpretation of) quantum mechanics without any additional assumption or alternative interpretation. The argument is based on the conceptual meaning of determinism and by means of some well-known phenomena in the quantum world (measurement of a quantum particle spin, energy values and spatial states of an electron in atoms, the so-called wavefunction collapse problem) which are usually considered in rejecting determinism. | 翻訳日:2023-05-11 08:06:52 公開日:2021-07-04 |
# 開量子多体ダイナミクスをシミュレートする周期的リフレッシュ浴 Periodically refreshed baths to simulate open quantum many-body dynamics ( http://arxiv.org/abs/2012.10236v3 ) ライセンス: Link先を確認 | Archak Purkayastha, Giacomo Guarnieri, Steve Campbell, Javier Prior, John Goold | (参考訳) 相互作用する量子多体系の動力学を得ることは、はじめは異なる有限の温度と化学ポテンシャルで複数の浴槽に接続される。
これは、系の強い相関の頻度、浴槽の無限の性質、安定した状態に達するための長い時間の組み合わせによるものである。
本研究では、そのような開量子多体系の非マルコフ力学を非平衡定常状態 (NESS) までアクセスできる一般形式論を発展させ、その特異性を満たす。
具体的には, 有限サイズの浴槽の存在下での有限時間的進化が, スペクトル密度によって決定される場合, 微小パラメータを必要とせずに, 正確な力学を忠実に再構築することができることを示す。
このような再構成は、現在の最先端技術ではアクセスできないパラメータレジームでも可能である。
具体的には、有限温度と電圧バイアスを持つ2つの端末セットアップにおいて、相互作用するフェルミオン鎖の完全な数値的完全非マルコフダイナミクスを得ることにより、これを具体的に証明した。 Obtaining dynamics of an interacting quantum many-body system connected to multiple baths initially at different, finite, temperatures and chemical potentials is a challenging problem. This is due to a combination of the prevalence of strong correlations in the system, the infinite nature of the baths and the long time to reach steady state. In this work we develop a general formalism that allows access to the full non-Markovian dynamics of such open quantum many-body systems up to the non-equilibrium steady state (NESS), provided its uniqueness. Specifically, we show how finite-time evolution in presence of finite-sized baths, whose opportune size is determined by their original spectral density, can be recursively used to faithfully reconstruct the exact dynamics without requiring any small parameter. Such a reconstruction is possible even in parameter regimes which would otherwise be inaccessible by current state-of-the-art techniques. We specifically demonstrate this by obtaining the full numerically exact non-Markovian dynamics of interacting fermionic chains in two terminal set-ups with finite temperature and voltage biases, a problem which previously remained outstanding despite its relevance in a wide range of contexts, for example, quantum heat engines and refrigerators. | 翻訳日:2023-04-20 06:26:09 公開日:2021-07-04 |
# 量子グラフの平均散乱エントロピー Average scattering entropy of quantum graphs ( http://arxiv.org/abs/2101.05250v3 ) ライセンス: Link先を確認 | Alison A. Silva and Fabiano M. Andrade and Dionisio Bazeia | (参考訳) 単純な量子グラフの散乱振幅はよく知られた過程であり、非常に複雑である。
この研究はシャノンエントロピーに動機づけられ、平均散乱エントロピー(英語版)と呼ばれるグラフに散乱エントロピーを関連付ける方法論を提案する。
これは、グリーン関数法を用いて計算した散乱振幅の周期を考慮に入れて定義される。
まず、その方法論を一般的な根拠で記述し、それからいくつかの異なるグラフ群を考慮した結果の例を示す。
同様に、同じ数の頂点を持つグラフ群と、同じ長さを持つエッジの数を含むが、異なる位相と異なるエントロピーを持つグラフ群を含む他の可能性についても検討する。
そしてもう1つは、散乱エントロピーが次数1ドルの頂点上の境界条件に依存する魚骨型のグラフを含み、グラフの基本的な構造の数を増やすにつれて、対応する値は急速に減少し飽和する。 The scattering amplitude in simple quantum graphs is a well-known process which may be highly complex. In this work, motivated by the Shannon entropy, we propose a methodology that associates to a graph a scattering entropy, which we call the average scattering entropy. It is defined by taking into account the period of the scattering amplitude which we calculate using the Green's function procedure. We first describe the methodology on general grounds, and then exemplify our findings considering several distinct groups of graphs. We go on and investigate other possibilities, one that contains groups of graphs with the same number of vertices, with the same degree, and the same number of edges, with the same length, but with distinct topologies and with different entropies. And the other, which contains graphs of the fishbone type, where the scattering entropy depends on the boundary conditions on the vertices of degree $1$, with the corresponding values decreasing and saturating very rapidly, as we increase the number of elementary structures in the graphs. | 翻訳日:2023-04-15 17:31:14 公開日:2021-07-04 |
# 量子ビット資源に制限のある方程式の線形系を解くハイブリッドアルゴリズム Hybrid algorithms to solve linear systems of equations with limited qubit resources ( http://arxiv.org/abs/2106.15485v2 ) ライセンス: Link先を確認 | Fang Gao, Guojian Wu, Mingyu Yang, Wei Cui and Feng Shuang | (参考訳) 方程式の線形系の解は非常に頻繁な演算であり、多くの分野において重要である。
古典的手法を用いる複雑性は方程式の大きさに応じて線形に増加する。
Harrowらによって提案されたHHLアルゴリズムは、古典的アルゴリズムと比較して指数加速度を達成する。
しかし、キュービット資源に対する要求は比較的高く、解 $\left| x \right\rangle $ は正規化形式である。
本稿では、方程式の線形系の係数行列の固有値が有限二進数列によって完全に表現できると仮定し、3つのハイブリッド反復位相推定アルゴリズム(hipea)を反復位相推定アルゴリズムに基づいて設計する。
この複雑さは反復的な方法で測定操作に転送されるため、我々のハイブリッドアルゴリズムでは、キュービットリソースの需要が減少する。
さらに、解は量子レジスタの代わりに古典レジスタに格納されるので、正確な非正規化解を得ることができる。
3つのHIPEAアルゴリズムで要求されるキュービットリソースは異なる。
HIPEA-1は1つのアクビットのみを必要とする。
HIPEA-2におけるアクビットの数は、方程式の線形系の係数行列の非退化固有値の数に等しい。
HIPEA-3はフレキシブルなアシラリー量子ビットで設計されている。
本論文で提案するhipeaアルゴリズムは、量子プログラムが量子ビット資源の不足のため方程式の線形系を解くために使用できないという問題を回避し、方程式の線形系に対する量子計算の応用範囲を広げるものである。 The solution of linear systems of equations is a very frequent operation and thus important in many fields. The complexity using classical methods increases linearly with the size of equations. The HHL algorithm proposed by Harrow et al. achieves exponential acceleration compared with the best classical algorithm. However, it has a relatively high demand for qubit resources and the solution $\left| x \right\rangle $ is in a normalized form. Assuming that the eigenvalues of the coefficient matrix of the linear systems of equations can be represented perfectly by finite binary number strings, three hybrid iterative phase estimation algorithms (HIPEA) are designed based on the iterative phase estimation algorithm in this paper. The complexity is transferred to the measurement operation in an iterative way, and thus the demand of qubit resources is reduced in our hybrid algorithms. Moreover, the solution is stored in a classical register instead of a quantum register, so the exact unnormalized solution can be obtained. The required qubit resources in the three HIPEA algorithms are different. HIPEA-1 only needs one single ancillary qubit. The number of ancillary qubits in HIPEA-2 is equal to the number of nondegenerate eigenvalues of the coefficient matrix of linear systems of equations. HIPEA-3 is designed with a flexible number of ancillary qubits. The HIPEA algorithms proposed in this paper broadens the application range of quantum computation in solving linear systems of equations by avoiding the problem that quantum programs may not be used to solve linear systems of equations due to the lack of qubit resources. | 翻訳日:2023-03-24 19:33:26 公開日:2021-07-04 |
# テンソルネットワーク法によるキタエフ量子二重モデルの熱化 Thermalization in Kitaev's quantum double models via Tensor Network techniques ( http://arxiv.org/abs/2107.01628v1 ) ライセンス: Link先を確認 | Angelo Lucia, David P\'erez-Garc\'ia, Antonio P\'erez-Hern\'andez | (参考訳) 任意の2次元キタエフの量子二重モデルに付随するデイビース生成器は熱力学的極限において非有界なスペクトルギャップを持つことを示した。
これは、これらのモデルが非アーベルの場合でさえ自己修正量子記憶として役に立たないという拡張された信念を厳密に検証する。
この証明は、プロジェンド・アンタングルド・ペア状態に関連する親ハミルトニアンのスペクトルギャップを、バルク境界対応の観点から特徴づける最近のアイデアと結果を使用する。 We show that the Davies generator associated to any 2D Kitaev's quantum double model has a non-vanishing spectral gap in the thermodynamic limit. This validates rigorously the extended belief that those models are useless as self-correcting quantum memories, even in the non-abelian case. The proof uses recent ideas and results regarding the characterization of the spectral gap for parent Hamiltonians associated to Projected Entangled Pair States in terms of a bulk-boundary correspondence. | 翻訳日:2023-03-23 11:28:35 公開日:2021-07-04 |
# コンピュータサイエンスにおける暗黙のジェンダーバイアス - 質的研究 Implicit Gender Bias in Computer Science -- A Qualitative Study ( http://arxiv.org/abs/2107.01624v1 ) ライセンス: Link先を確認 | Aur\'elie Breidenbach and Caroline Mahlow and Andreas Schreiber | (参考訳) テックセクターにおけるジェンダーの多様性は--まだ?
-男女のバランスの取れた比率を作るのに十分。
多くの女性にとって、コンピュータ科学へのアクセスは社会化、社会的、文化的、構造的な障害によって妨げられている。
いわゆる暗黙のジェンダーバイアスは、この点に大きな影響を与えている。
コンピュータ科学の分野における接触の欠如は、潜在的な関心の発展や拡大を困難にしている。
女性の役割モデルと、仕事の説明の透明性の向上は、女性が仕事の説明への関心を促進するのに役立つだろう。
しかし、ジェンダーの多様性はリーダーによる適応的な措置によって促進し、育むことができる。 Gender diversity in the tech sector is - not yet? - sufficient to create a balanced ratio of men and women. For many women, access to computer science is hampered by socialization-related, social, cultural and structural obstacles. The so-called implicit gender bias has a great influence in this respect. The lack of contact in areas of computer science makes it difficult to develop or expand potential interests. Female role models as well as more transparency of the job description should help women to promote their - possible - interest in the job description. However, gender diversity can also be promoted and fostered through adapted measures by leaders. | 翻訳日:2023-03-23 11:28:27 公開日:2021-07-04 |
# 連続体における束縛状態の分散バンド Dispersive bands of bound states in the continuum ( http://arxiv.org/abs/2107.01603v1 ) ライセンス: Link先を確認 | Stefano Longhi | (参考訳) 連続体(BIC)の高局在化モード、すなわち放射波の連続体にエネルギーが埋め込まれた境界状態は、過去10年間にナノフォトニクス、特にナノスケールにおける光学およびフォトニクスの新しいパラダイムを提供し、ナノフォトニクスから光センシング、レーザー設計まで幅広い応用が提供されている。
ここでは, bic の配列が共連続体を介して間接的に結合され, 放射波のスペクトルに密結合した分散エネルギーミニバンドが形成されるという bics 結晶の考え方を紹介する。
その結果,非局所接触点を有する結合共振器型光導波路 (CROW) に共役する光学キャビティの鎖について検討した。 Bound states in the continuum (BICs), i.e. highly-localized modes with energy embedded in the continuum of radiating waves, have provided in the past decade a new paradigm in optics and photonics, especially at the nanoscale, with a range of applications from nano photonics to optical sensing and laser design. Here we introduce the idea of a crystal made of BICs, in which an array of BICs are indirectly coupled via a common continuum of states resulting in a tight-binding dispersive energy miniband embedded in the spectrum of radiating waves. The results are illustrated for a chain of optical cavities side-coupled to a coupled-resonator optical waveguide (CROW) with non-local contact points. | 翻訳日:2023-03-23 11:28:20 公開日:2021-07-04 |
# $\mathcal{PT}$対称性破壊遷移としての転位 Fall-to-the-centre as a $\mathcal{PT}$ symmetry breaking transition ( http://arxiv.org/abs/2107.01511v1 ) ライセンス: Link先を確認 | Sriram Sundaram, C. P. Burgess, D. H. J. O'Dell | (参考訳) 魅力的な逆二乗ポテンシャルは、荷電線と相互作用する双極子、エフィモフ効果、カルジェロ・サザーランド模型、近接ホライゾンブラックホール物理学、マックスウェル・フィッシュアイレンズの光学など多くの物理的問題において生じる。
逆二乗問題の適切な定式化には、逆二乗ポテンシャルに含まれない近距離物理学を表す原点における境界条件(regulator)の明細が必要である。
系のスペクトルは逆二乗結合の臨界値で定性的に変化し、この臨界ポテンシャル強度の遷移は$\mathcal{pt}$ 対称性の破れ遷移の例と見なすことができる。
特に、Burgess et al[J. High Energy Phys., 2017(4):106, 2017] によって開発された点粒子有効場理論(PPEFT)を用いて、再スケーリングの下での境界結合の正規化群(RG)の進化を特徴づける。
多くの研究は、系がユニタリであることを保証するために境界条件を選択するが、これらのrg法は、源を記述する非ユニタリ物理学のよりリッチなケースを体系的に扱うことができる(荷電線やブラックホールの応用に適している)。
この観点から、RGフローは臨界逆二乗結合において特性を変化させ、2つの実ユニタリな固定点(\mathcal{PT}$対称相)から、フローが極限サイクル進化を実行するような完全シンクおよび完全ソース境界条件を表す想像的、散逸的な固定点(\mathcal{PT}$対称相)を持つ超臨界状態へと遷移する。 The attractive inverse square potential arises in a number of physical problems such as a dipole interacting with a charged wire, the Efimov effect, the Calgero-Sutherland model, near-horizon black hole physics and the optics of Maxwell fisheye lenses. Proper formulation of the inverse-square problem requires specification of a boundary condition (regulator) at the origin representing short-range physics not included in the inverse square potential and this generically breaks the Hamiltonian's continuous scale invariance in an elementary example of a quantum anomaly. The system's spectrum qualitatively changes at a critical value of the inverse-square coupling, and we here point out that the transition at this critical potential strength can be regarded as an example of a $\mathcal{PT}$ symmetry breaking transition. In particular, we use point particle effective field theory (PPEFT), as developed by Burgess et al [J. High Energy Phys., 2017(4):106, 2017], to characterize the renormalization group (RG) evolution of the boundary coupling under rescalings. While many studies choose boundary conditions to ensure the system is unitary, these RG methods allow us to systematically handle the richer case of nonunitary physics describing a source or sink at the origin (such as is appropriate for the charged wire or black hole applications). From this point of view the RG flow changes character at the critical inverse-square coupling, transitioning from a sub-critical regime with evolution between two real, unitary fixed points ($\mathcal{PT}$ symmetric phase) to a super-critical regime with imaginary, dissipative fixed points ($\mathcal{PT}$ symmetry broken phase) that represent perfect-sink and perfect-source boundary conditions, around which the flow executes limit-cycle evolution. | 翻訳日:2023-03-23 11:27:50 公開日:2021-07-04 |
# beyond fowler-nordheim model: 金属ナノ構造からの高調波発生 Beyond Fowler-Nordheim model: Harmonic generation from metallic nano-structures ( http://arxiv.org/abs/2107.01740v1 ) ライセンス: Link先を確認 | Seyedmohammad Yusofsani, Miroslav Kolesik | (参考訳) 電磁場と相互作用する金属構造は、多光子やトンネルイオン化のような原子や分子に類似した性質を示すことが知られている。
電子放出電流を超えてこの類似性を開発し、有名なファウラー・ノルドハイム模型を一般化し、強光パルスを照射したナノ構造からの非線形光学応答の非認識源を予測した。 Metallic structures interacting with electromagnetic fields are known to exhibit properties similar to those found in atoms and molecules, such as multi-photon and tunnel ionization. Developing this similarity beyond the electron emission current, we generalize the wellknown Fowler-Nordheim model, and predict heretofore unrecognized source of nonlinear optical response from nano-structures exposed to illumination with intense optical pulses. | 翻訳日:2023-03-23 11:21:46 公開日:2021-07-04 |
# 量子トンネル時間について:即時、有限、確率的か? On the quantum tunneling time: Instantaneous, finite or probabilistic? ( http://arxiv.org/abs/2107.01737v1 ) ライセンス: Link先を確認 | Seyedmohammad Yusofsani, Miroslav Kolesik | (参考訳) ポテンシャル障壁と相互作用する量子粒子は物理学においてユビキタスであり、古典的に禁じられた領域内でどれだけの時間を過ごすかという問題は何十年にもわたって関心を集めてきた。
新たな実験技術の進歩により、この問題は復活し、しばしば矛盾する結果となった。
このことが、強磁場によって引き起こされる量子トンネルの正確な可解モデルの研究の動機となっている。
トンネルのダイナミクスは,バリア・トラバーサル時間がゼロか,あるいは非常に小さいシナリオから大きく逸脱できることを示す。
しかし,本研究は,トンネル工事時間の明確化をも支持していない。
私たちの数値的に正確な結果は、この根本的な問題に関するコンセンサスを見つけるのに役立つでしょう。 Quantum particles interacting with potential barriers are ubiquitous in physics, and the question of how much time they spend inside classically forbidden regions has attracted interest for many decades. Recent developments of new experimental techniques revived the issue and ignited a debate with often contradictory results. This motivates the present study of an exactly solvable model for quantum tunneling induced by a strong field. We show that the tunneling dynamics can depart significantly from the scenario in which the barrier-traversal time is zero or very small. However, our findings do not support the idea of a well-defined tunneling time either. Our numerically exact results should help in finding a consensus about this fundamental problem. | 翻訳日:2023-03-23 11:21:36 公開日:2021-07-04 |
# 非マルコフ量子多成分力学の可解類 A solvable class of non-Markovian quantum multipartite dynamics ( http://arxiv.org/abs/2107.01692v1 ) ライセンス: Link先を確認 | Adri\'an A. Budini and Juan P. Garrahan | (参考訳) 任意の量子ビット数の系に対する多部開量子力学のクラスについて検討する。
非マルコフ量子マスター方程式は、パウリ作用素の弦の項で表される任意の単項あるいは多部項および時間依存散逸結合機構を含むことができる。
この力学の完全肯定性を保証する一般的な制約を定式化する。
我々は、メモリ効果をもたらすメカニズムを、関連するシステムレートにエンコードされるダイナミクスの特性とともに詳細に特徴付ける。
我々は特に、その速度の時間依存性から双曲的および三角法と呼ばれる「永遠」非マルコフ的マスター方程式を導出する。
これらのモデルでは、ポジティブと周期的に異なるレートの遷移を識別する。
また,オペレーショナルメモリ目撃者による非マルコフ効果についても検討した。 We study a class of multipartite open quantum dynamics for systems of arbitrary number of qubits. The non-Markovian quantum master equation can involve arbitrary single or multipartite and time-dependent dissipative coupling mechanisms, expressed in terms of strings of Pauli operators. We formulate the general constraints that guarantee the complete positivity of this dynamics. We characterize in detail underlying mechanisms that lead to memory effects, together with properties of the dynamics encoded in the associated system rates. We specifically derive multipartite "eternal" non-Markovian master equations that we term hyperbolic and trigonometric due to the time dependence of their rates. For these models we identify a transition between positive and periodically divergent rates. We also study non-Markovian effects through an operational (measurement-based) memory witness approach. | 翻訳日:2023-03-23 11:20:55 公開日:2021-07-04 |
# PyLUSAT: GISベースの土地利用適性分析のためのオープンソースのPythonツールキット PyLUSAT: An open-source Python toolkit for GIS-based land use suitability analysis ( http://arxiv.org/abs/2107.01674v1 ) ライセンス: Link先を確認 | Changjie Chen, Jasmeet Judge, David Hulse | (参考訳) ArcGISやQGISといったデスクトップGISアプリケーションは、土地利用計画の策定の中心となる活動である適合性分析に不可欠なツールを提供する。
しかし、複雑な土地利用の適合性モデルを構築する場合、これらのアプリケーションには、オペレーティングシステム依存、専用モジュールの欠如、再現性不足、コンピューティングクラスタへのデプロイが難しいことなど、いくつかの制限がある。
この課題に対処するために,本稿では,PyLUSAT: Python for Land Use Suitability Analysis Toolsを紹介する。
PyLUSATはオープンソースのソフトウェアパッケージで、様々なタスクを適切なモデリングワークフローで実行するための一連のツール(機能)を提供する。
これらのツールは、精度と計算効率の両方に関して、ArcMap 10.4の同等のツールに対して評価された。
その結果、PyLUSAT関数はジョブの複雑さによって2倍から10倍効率が良く、ArcMapツールと同等の精度で出力を生成することがわかった。
PyLUSATは拡張性とクロスプラットフォームの互換性も備えている。
このアルゴリズムは14のqgis処理アルゴリズムを開発し、適合性解析のプロセスを迅速化するために高性能計算クラスタ(フロリダ大学ハイパゲータ)に実装されている。
これらの特性によってPyLUSATは、都市プランナーや研究者が適合性分析をカスタマイズし自動化したり、より大規模な分析フレームワークに統合したりするための競争力のある代替ソリューションとなる。 Desktop GIS applications, such as ArcGIS and QGIS, provide tools essential for conducting suitability analysis, an activity that is central in formulating a land-use plan. But, when it comes to building complicated land-use suitability models, these applications have several limitations, including operating system-dependence, lack of dedicated modules, insufficient reproducibility, and difficult, if not impossible, deployment on a computing cluster. To address the challenges, this paper introduces PyLUSAT: Python for Land Use Suitability Analysis Tools. PyLUSAT is an open-source software package that provides a series of tools (functions) to conduct various tasks in a suitability modeling workflow. These tools were evaluated against comparable tools in ArcMap 10.4 with respect to both accuracy and computational efficiency. Results showed that PyLUSAT functions were two to ten times more efficient depending on the job's complexity, while generating outputs with similar accuracy compared to the ArcMap tools. PyLUSAT also features extensibility and cross-platform compatibility. It has been used to develop fourteen QGIS Processing Algorithms and implemented on a high-performance computational cluster (HiPerGator at the University of Florida) to expedite the process of suitability analysis. All these properties make PyLUSAT a competitive alternative solution for urban planners/researchers to customize and automate suitability analysis as well as integrate the technique into a larger analytical framework. | 翻訳日:2023-03-23 11:20:26 公開日:2021-07-04 |
# デジタル化のセキュリティへの影響:データの植民地化の危険性と環境データの持続的・主権管理への道 Security implications of digitalization: The dangers of data colonialism and the way towards sustainable and sovereign management of environmental data ( http://arxiv.org/abs/2107.01662v1 ) ライセンス: Link先を確認 | Matthias St\"urmer, Jasmin Nussbaumer, Pascal St\"ockli | (参考訳) デジタル化は、2030年のアジェンダとその持続可能な開発目標(sdgs)の達成に寄与するデータの収集、分析、および提示の新たな機会を開く。
特に、地球環境および地理空間データのアクセスと制御は、グローバルな問題やトレンドを特定し、理解するために不可欠である。
新型コロナウイルスのパンデミックなどの急激な危機は、感染統計やビデオ会議プラットフォームなどのデジタルツールとの関連性など、正確な健康データの重要性を示している。
しかし、今日では多くのデータがプライベートなアクターによって収集され処理される。
したがって、政府と研究者は、GoogleやMicrosoftのような大企業のデータプラットフォームとプロプライエタリなシステムに依存している。
米国と中国の大手テクノロジー企業7社の時価総額は近年8.7tnに成長し、ドイツの国内総生産(gdp)の約2倍の大きさとなっている。
そのため、市場力は巨大であり、デジタル空間の多くのルールを規定し、法律を妨害することさえできる。
文献レビューと9つの専門家インタビューに基づいて、本研究では、データの収集、処理、保存、使用のワークフローに沿って生じるリスクと結果を特定するフレームワークを提案する。
また、政府や多国間のアクターがリスクを軽減するためのソリューションも含まれている。
この枠組みの基本は「データ植民地主義」という新しい概念であり、これは今日の民間企業がデジタル分野に注目する傾向を描いている。
歴史的に、植民地国家は先住民の土地を取得し、奴隷労働者の安い労働力を利用した。
同じように、今日の大手テック企業は、ユーザーの安価なデータを使って価値あるサービスを作り、巨大な市場力を生み出します。 Digitalization opens up new opportunities in the collection, analysis, and presentation of data which can contribute to the achievement of the 2030 Agenda and its Sustainable Development Goals (SDGs). In particular, the access to and control of environmental and geospatial data is fundamental to identify and understand global issues and trends. Also immediate crises such as the COVID-19 pandemic demonstrate the importance of accurate health data such as infection statistics and the relevance of digital tools like video conferencing platforms. However, today much of the data is collected and processed by private actors. Thus, governments and researchers depend on data platforms and proprietary systems of big tech companies such as Google or Microsoft. The market capitalization of the seven largest US and Chinese big tech companies has grown to 8.7tn USD in recent years, about twice the size of Germany's gross domestic product (GDP). Therefore, their market power is enormous, allowing them to dictate many rules of the digital space and even interfere with legislations. Based on a literature review and nine expert interviews this study presents a framework that identifies the risks and consequences along the workflow of collecting, processing, storing, using of data. It also includes solutions that governmental and multilateral actors can strive for to alleviate the risks. Fundamental to this framework is the novel concept of "data colonialism" which describes today's trend of private companies appropriating the digital sphere. Historically, colonial nations used to grab indigenous land and exploit the cheap labor of slave workers. In a similar way, today's big tech corporations use cheap data of their users to produce valuable services and thus create enormous market power. | 翻訳日:2023-03-23 11:19:53 公開日:2021-07-04 |
# 円錐型エネルギー-運動量分散半導体における1/f雑音の量子境界 A quantum bound on the 1/f noise in semiconductors with a conical energy-momentum dispersion ( http://arxiv.org/abs/2107.01652v1 ) ライセンス: Link先を確認 | Kirill A. Kazakov | (参考訳) 異なる時間に観測可能の非可換性に起因する量子不確定性は、導電性材料中の電圧ノイズパワースペクトルの下限を設定する。
この境界は電荷キャリアーの円錐型エネルギー-運動量分散を持つ半導体の場合、明示的に計算される。
1/fノイズの全ての特性を持つ。
その運動量分解はゼロ粒子運動量で特異であることが判明し、これは電荷キャリア密度が小さい場合のノイズの大きさの鋭いピークとなる。
単層グラフェンへの応用では、このピークは電子からホール導電性への連続的な遷移によりm型になる。
実験データとの比較により,計算されたパワースペクトルが等級に近く,観測値と一致していることを示す。 The quantum indeterminacy caused by non-commutativity of observables at different times sets a lower bound on the voltage noise power spectrum in any conducting material. This bound is calculated explicitly in the case of semiconductors with a conical energy-momentum dispersion of charge carriers. It possesses all characteristic properties of 1/f noise. Its momentum decomposition is found to be singular at zero particle momentum, a measurable consequence being a sharp peak in the noise magnitude at small charge carrier density. In application to monolayer graphene, this peak becomes M-shaped on account of a continuous transition from the electron to hole conductivity. A comparison with experimental data is made which demonstrates that the calculated power spectrum is close in magnitude and congruent to the observed. | 翻訳日:2023-03-23 11:19:25 公開日:2021-07-04 |
# CTC-Attention End-to-End 音声認識のための音響モデルのアンサンブルからの蒸留知識 Distilling Knowledge from Ensembles of Acoustic Models for Joint CTC-Attention End-to-End Speech Recognition ( http://arxiv.org/abs/2005.09310v3 ) ライセンス: Link先を確認 | Yan Gao, Titouan Parcollet, Nicholas Lane | (参考訳) 知識蒸留は、幅広いアプリケーションの性能を維持しながら、既存のディープラーニングモデルを圧縮するために広く用いられている。
音声認識(ASR)の特定の文脈において,音響モデルのアンサンブルからの蒸留は,音声認識性能の向上に有望な結果を示した。
本稿では,CTC-attention end-to-end ASRシステムに対するマルチティーラー蒸留法の拡張を提案する。
また, 新たな蒸留戦略を3つ紹介する。
それらの背後にある中核的な直感は、観察された損失のみに焦点を当てるのではなく、エラー率メトリックを教師の選択に統合することである。
このようにして,学生を音声認識の関連指標に向けて直接蒸留・最適化する。
異なるデータセット(TIMIT, Librispeech, Common Voice)と様々な言語(英語,フランス語,イタリア語)の訓練手順を選択することで,これらの戦略を評価する。
特に、最先端のエラー率はCommon Voice French, Italian, TIMITのデータセットで報告されている。 Knowledge distillation has been widely used to compress existing deep learning models while preserving the performance on a wide range of applications. In the specific context of Automatic Speech Recognition (ASR), distillation from ensembles of acoustic models has recently shown promising results in increasing recognition performance. In this paper, we propose an extension of multi-teacher distillation methods to joint CTC-attention end-to-end ASR systems. We also introduce three novel distillation strategies. The core intuition behind them is to integrate the error rate metric to the teacher selection rather than solely focusing on the observed losses. In this way, we directly distill and optimize the student toward the relevant metric for speech recognition. We evaluate these strategies under a selection of training procedures on different datasets (TIMIT, Librispeech, Common Voice) and various languages (English, French, Italian). In particular, state-of-the-art error rates are reported on the Common Voice French, Italian and TIMIT datasets. | 翻訳日:2022-12-01 13:39:47 公開日:2021-07-04 |
# BiERU:会話感覚分析のための双方向感情リカレントユニット BiERU: Bidirectional Emotional Recurrent Unit for Conversational Sentiment Analysis ( http://arxiv.org/abs/2006.00492v3 ) ライセンス: Link先を確認 | Wei Li, Wei Shao, Shaoxiong Ji and Erik Cambria | (参考訳) 近年、会話における感情分析は、感情分析、レコメンダシステム、人間とロボットのインタラクションなど、それが提供できるアプリケーションの増加に注目が集まっている。
会話感情分析と単文感情分析の主な違いは、対話における発話の感情に影響を与える可能性のある文脈情報の存在である。
しかし、対話における文脈情報を効果的にエンコードする方法は依然として課題である。
既存のアプローチでは、会話内の異なるパーティを区別し、コンテキスト情報をモデル化するために複雑なディープラーニング構造を採用している。
本稿では,会話感情分析のための双方向感情反復単位という,高速でコンパクトでパラメータ効率のよい非依存フレームワークを提案する。
本システムでは,2チャンネル分類器を付加した一般化ニューラルテンソルブロックを用いて,文脈構成性および感情分類を行う。
3つの標準データセットに対する大規模な実験により、ほとんどの場合、我々のモデルは芸術の状態を上回ります。 Sentiment analysis in conversations has gained increasing attention in recent years for the growing amount of applications it can serve, e.g., sentiment analysis, recommender systems, and human-robot interaction. The main difference between conversational sentiment analysis and single sentence sentiment analysis is the existence of context information which may influence the sentiment of an utterance in a dialogue. How to effectively encode contextual information in dialogues, however, remains a challenge. Existing approaches employ complicated deep learning structures to distinguish different parties in a conversation and then model the context information. In this paper, we propose a fast, compact and parameter-efficient party-ignorant framework named bidirectional emotional recurrent unit for conversational sentiment analysis. In our system, a generalized neural tensor block followed by a two-channel classifier is designed to perform context compositionality and sentiment classification, respectively. Extensive experiments on three standard datasets demonstrate that our model outperforms the state of the art in most cases. | 翻訳日:2022-11-26 12:24:31 公開日:2021-07-04 |
# アーキテクチャによる構造:正規化なしのアンタングル表現 Structure by Architecture: Disentangled Representations without Regularization ( http://arxiv.org/abs/2006.07796v3 ) ライセンス: Link先を確認 | Felix Leeb, Guilia Lanzillotta, Yashas Annadani, Michel Besserve, Stefan Bauer, Bernhard Sch\"olkopf | (参考訳) 生成モデルのためのオートエンコーダを用いた自己教師付き構造化表現学習の問題点について検討する。
任意で比較的非構造な事前分布をサンプリングにマッチさせる手法と異なり,潜在変数の独立性のみに依存するサンプリング手法を提案し,vaes固有の再構成品質と生成性能とのトレードオフを回避する。
我々はアグレッシブな正規化を必要とせずに構造化表現を学習できる新しいオートエンコーダアーキテクチャを設計する。
我々の構造デコーダは、構造因果モデルに似た潜在変数の階層構造を学習し、追加の正規化なしに情報を順序付けする。
これらのモデルがどのようにして、生成、歪曲、外挿を含む様々な下流タスクの結果を改善する表現を、困難で自然な画像データセットを用いて学習するかを実証する。 We study the problem of self-supervised structured representation learning using autoencoders for generative modeling. Unlike most methods which rely on matching an arbitrary, relatively unstructured, prior distribution for sampling, we propose a sampling technique that relies solely on the independence of latent variables, thereby avoiding the trade-off between reconstruction quality and generative performance inherent to VAEs. We design a novel autoencoder architecture capable of learning a structured representation without the need for aggressive regularization. Our structural decoders learn a hierarchy of latent variables, akin to structural causal models, thereby ordering the information without any additional regularization. We demonstrate how these models learn a representation that improves results in a variety of downstream tasks including generation, disentanglement, and extrapolation using several challenging and natural image datasets. | 翻訳日:2022-11-21 09:41:52 公開日:2021-07-04 |
# スケールにまたがる刈り込みの予測可能性について On the Predictability of Pruning Across Scales ( http://arxiv.org/abs/2006.10621v3 ) ライセンス: Link先を確認 | Jonathan S. Rosenfeld, Jonathan Frankle, Michael Carbin, Nir Shavit | (参考訳) 反復的に拡大するネットワークの誤差は、アーキテクチャとタスクに依存する解釈可能な係数を持つスケーリング則に実証的に従っていることを示す。
我々は, プルーンドネットワークの誤差を関数的に近似し, 大きく異なるプルーンド密度のネットワークが交換可能であるような, 不変なタイリング幅, 深さ, プルーニングレベルで予測可能であることを示す。
我々は、この近似の精度を、深さ、幅、データセットサイズ、密度の桁数で示す。
機能形式は大規模データ(例えば ImageNet)やアーキテクチャ(例えば ResNets)に対して保持する(一般化する)ことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。 We show that the error of iteratively magnitude-pruned networks empirically follows a scaling law with interpretable coefficients that depend on the architecture and task. We functionally approximate the error of the pruned networks, showing it is predictable in terms of an invariant tying width, depth, and pruning level, such that networks of vastly different pruned densities are interchangeable. We demonstrate the accuracy of this approximation over orders of magnitude in depth, width, dataset size, and density. We show that the functional form holds (generalizes) for large scale data (e.g., ImageNet) and architectures (e.g., ResNets). As neural networks become ever larger and costlier to train, our findings suggest a framework for reasoning conceptually and analytically about a standard method for unstructured pruning. | 翻訳日:2022-11-19 09:50:04 公開日:2021-07-04 |
# MaxVA: 観測変数の最大化によるステップサイズ適応の高速化 MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients ( http://arxiv.org/abs/2006.11918v4 ) ライセンス: Link先を確認 | Chen Zhu, Yu Cheng, Zhe Gan, Furong Huang, Jingjing Liu, Tom Goldstein | (参考訳) rmsprop や adam のような適応勾配法は、二乗勾配の指数的移動推定を用いて適応ステップサイズを計算し、ノイズの多い目的に対して sgd よりも収束性が良い。
しかし、アダムは不安定あるいは極端な適応学習率のために、望ましくない収束行動をとることができる。
AMSGrad や AdaBound といった手法は,Adam の適応学習率を安定化させる手法として提案されているが,Transformers \cite{transformer} などの実践的なタスクでは,Adam よりも優れているわけではない。
本稿では,adamにおける二乗勾配の走行平均を重み付け平均に置き換え,各座標の推定分散を最大化するために重みを選定した適応学習率原理を提案する。
これにより局所勾配分散への適応が速くなり、アダムよりも望ましい経験的収束行動がもたらされる。
提案アルゴリズムは,非凸確率最適化問題に対する軽度仮定の下で収束し,機械翻訳,自然言語理解,BERTの大規模事前学習における適応平均化手法の改善効果を示す。
コードはhttps://github.com/zhuchen03/maxvaで入手できる。 Adaptive gradient methods such as RMSProp and Adam use exponential moving estimate of the squared gradient to compute adaptive step sizes, achieving better convergence than SGD in face of noisy objectives. However, Adam can have undesirable convergence behaviors due to unstable or extreme adaptive learning rates. Methods such as AMSGrad and AdaBound have been proposed to stabilize the adaptive learning rates of Adam in the later stage of training, but they do not outperform Adam in some practical tasks such as training Transformers \cite{transformer}. In this paper, we propose an adaptive learning rate principle, in which the running mean of squared gradient in Adam is replaced by a weighted mean, with weights chosen to maximize the estimated variance of each coordinate. This results in a faster adaptation to the local gradient variance, which leads to more desirable empirical convergence behaviors than Adam. We prove the proposed algorithm converges under mild assumptions for nonconvex stochastic optimization problems, and demonstrate the improved efficacy of our adaptive averaging approach on machine translation, natural language understanding and large-batch pretraining of BERT. The code is available at https://github.com/zhuchen03/MaxVA. | 翻訳日:2022-11-18 11:49:26 公開日:2021-07-04 |
# 対人ロバスト性:未確認脅威モデルに対する防御 Perceptual Adversarial Robustness: Defense Against Unseen Threat Models ( http://arxiv.org/abs/2006.12655v4 ) ライセンス: Link先を確認 | Cassidy Laidlaw and Sahil Singla and Soheil Feizi | (参考訳) 敵意の強固さの鍵となる課題は、人間の目には知覚できない敵意攻撃の定義で使われる人間の知覚の正確な数学的特徴の欠如である。
現在の攻撃や防御は、$L_2$または$L_\infty$ distance、空間摂動などの制限的な敵脅威モデルを考慮することでこの問題を回避しようとしている。
しかし、これらの制限的な脅威モデルに対して堅牢なモデルは、他の脅威モデルに対して脆弱である。
この問題を解決するために, 深層ニューラルネットワークを用いて近似した, 知覚不可能な全ての対人例に対する対人訓練を提案する。
我々は、この脅威モデルを神経知覚脅威モデル(NPTM)と呼び、自然画像に対する有界神経知覚距離(真の知覚距離のニューラルネットワークに基づく近似)の逆例を含む。
広範にわたる知覚研究を通して、神経知覚距離は、敵の例の知覚可能性の人間の判断とよく相関し、我々の脅威モデルを検証する。
NPTMでは,新たな対人攻撃・防御法が開発されている。
NPTMは非常に広範であるため、知覚的攻撃に対するPAT(Perceptual Adversarial Training)は、他の多くの種類の敵に対する堅牢性をもたらす。
CIFAR-10 と ImageNet-100 上で 5 つの多様な攻撃に対して PAT をテストする。
PATは、これらの5つの攻撃の合体に対する最先端の堅牢性を達成し、それらに対してトレーニングすることなく、次の最良のモデルの精度を2倍にする。
すなわち、PATは予期せぬ摂動タイプによく一般化する。
これは、特定の脅威モデルを想定できないセンシティブなアプリケーションにおいて不可欠であり、私たちの知る限り、PATはこの特性を使った最初の敵の訓練防衛である。 A key challenge in adversarial robustness is the lack of a precise mathematical characterization of human perception, used in the very definition of adversarial attacks that are imperceptible to human eyes. Most current attacks and defenses try to avoid this issue by considering restrictive adversarial threat models such as those bounded by $L_2$ or $L_\infty$ distance, spatial perturbations, etc. However, models that are robust against any of these restrictive threat models are still fragile against other threat models. To resolve this issue, we propose adversarial training against the set of all imperceptible adversarial examples, approximated using deep neural networks. We call this threat model the neural perceptual threat model (NPTM); it includes adversarial examples with a bounded neural perceptual distance (a neural network-based approximation of the true perceptual distance) to natural images. Through an extensive perceptual study, we show that the neural perceptual distance correlates well with human judgements of perceptibility of adversarial examples, validating our threat model. Under the NPTM, we develop novel perceptual adversarial attacks and defenses. Because the NPTM is very broad, we find that Perceptual Adversarial Training (PAT) against a perceptual attack gives robustness against many other types of adversarial attacks. We test PAT on CIFAR-10 and ImageNet-100 against five diverse adversarial attacks. We find that PAT achieves state-of-the-art robustness against the union of these five attacks, more than doubling the accuracy over the next best model, without training against any of them. That is, PAT generalizes well to unforeseen perturbation types. This is vital in sensitive applications where a particular threat model cannot be assumed, and to the best of our knowledge, PAT is the first adversarial training defense with this property. | 翻訳日:2022-11-18 04:37:49 公開日:2021-07-04 |
# 頭蓋内動脈瘤のセグメンテーションのための2段階表面ベース3次元深層学習パイプライン A Two-step Surface-based 3D Deep Learning Pipeline for Segmentation of Intracranial Aneurysms ( http://arxiv.org/abs/2006.16161v2 ) ライセンス: Link先を確認 | Xi Yang, Ding Xia, Taichi Kin, Takeo Igarashi | (参考訳) 頭蓋内動脈瘤の正確な形状は、診断と手術計画において重要である。
このセグメンテーションタスクにはvoxelベースのディープラーニングフレームワークが提案されているが、パフォーマンスは限られている。
本研究では,2段階のサーフェスベース深層学習パイプラインを提案する。
提案モデルでは,大動脈瘤を含む大脳動脈の表面モデルを入力とし,大動脈瘤表面を出力として返す。
ユーザはまず、飛行時間磁気共鳴血管造影画像の複数の閾値を手動で指定して表面モデルを生成する。
システムはその後、脳動脈全体から小さな表面フラグメントをサンプリングし、ポイントベースのディープラーニングネットワーク(pointnet++)を使用して動脈瘤が存在するかどうかに応じて表面フラグメントを分類する。
最後に、このシステムは、大動脈瘤を含む表面断片に表面分割(SO-Net)を適用する。
本研究では,提案手法と既存のボクセル法とのボクセル数を数えることにより,セグメント化性能の直接比較を行い,従来のアプローチ(46%)よりもはるかに高いダイス類似度係数スコア(72%)を達成する。 The exact shape of intracranial aneurysms is critical in medical diagnosis and surgical planning. While voxel-based deep learning frameworks have been proposed for this segmentation task, their performance remains limited. In this study, we offer a two-step surface-based deep learning pipeline that achieves significantly higher performance. Our proposed model takes a surface model of entire principal brain arteries containing aneurysms as input and returns aneurysms surfaces as output. A user first generates a surface model by manually specifying multiple thresholds for time-of-flight magnetic resonance angiography images. The system then samples small surface fragments from the entire brain arteries and classifies the surface fragments according to whether aneurysms are present using a point-based deep learning network (PointNet++). Finally, the system applies surface segmentation (SO-Net) to surface fragments containing aneurysms. We conduct a direct comparison of segmentation performance by counting voxels between the proposed surface-based framework and the existing voxel-based method, in which our framework achieves a much higher dice similarity coefficient score (72%) than the prior approach (46%). | 翻訳日:2022-11-15 15:14:47 公開日:2021-07-04 |
# 固定蝶構造を有するスパース線形ネットワークの理論と実践 Sparse Linear Networks with a Fixed Butterfly Structure: Theory and Practice ( http://arxiv.org/abs/2007.08864v2 ) ライセンス: Link先を確認 | Nir Ailon, Omer Leibovich, Vineet Nair | (参考訳) バタフライネットワークは対数的に多数の層で構成され、それぞれがゼロでない重みの線形数を持つ。
高速ジョンソン・リンデンシュトラウス変換(FJLT)はバタフライネットワークとして表現され、その後座標のランダムな部分集合に投影される。
さらに、高い確率を持つFJLTに基づくランダム行列は、ベクトル上の任意の行列の作用を近似する。
これらの事実に動機づけられ、バタフライネットワークに基づくアーキテクチャにより、任意のニューラルネットワークの高密度線形層を置き換えることを提案する。
提案したアーキテクチャは、標準密度層で要求される重みの2次数を大幅に改善し、結果として生じる演算子の表現可能性にほとんど妥協しない。
nlpと視覚データの教師付き予測を含む、さまざまな実験のコレクションでは、これは既存のよく知られたアーキテクチャに匹敵する結果をもたらすだけでなく、デプロイメントにおけるより高速なトレーニングと予測も提供する。
また,バタフライネットワークを用いたニューラルネットワークの最適化問題を理解するため,エンコーダをバタフライネットワークに置き換えたエンコーダ・デコーダネットワークの最適化景観を,より小さな次元で高密度線形層に置き換えた。
論文で提示された理論的結果は,提案手法によってトレーニング速度と結果が損なわれない理由を説明する。 A butterfly network consists of logarithmically many layers, each with a linear number of non-zero weights (pre-specified). The fast Johnson-Lindenstrauss transform (FJLT) can be represented as a butterfly network followed by a projection onto a random subset of the coordinates. Moreover, a random matrix based on FJLT with high probability approximates the action of any matrix on a vector. Motivated by these facts, we propose to replace a dense linear layer in any neural network by an architecture based on the butterfly network. The proposed architecture significantly improves upon the quadratic number of weights required in a standard dense layer to nearly linear with little compromise in expressibility of the resulting operator. In a collection of wide variety of experiments, including supervised prediction on both the NLP and vision data, we show that this not only produces results that match and at times outperform existing well-known architectures, but it also offers faster training and prediction in deployment. To understand the optimization problems posed by neural networks with a butterfly network, we also study the optimization landscape of the encoder-decoder network, where the encoder is replaced by a butterfly network followed by a dense linear layer in smaller dimension. Theoretical result presented in the paper explains why the training speed and outcome are not compromised by our proposed approach. | 翻訳日:2022-11-09 13:13:17 公開日:2021-07-04 |
# インスタンスセグメンテーションのための関節物体輪郭点と意味論 Joint Object Contour Points and Semantics for Instance Segmentation ( http://arxiv.org/abs/2008.00460v3 ) ライセンス: Link先を確認 | Wenchao Zhang, Chong Fu, Mai Zhu | (参考訳) オブジェクトの輪郭の属性は、例のセグメンテーションタスクにおいて大きな意味を持つ。
しかし、現在の人気のあるディープニューラルネットワークのほとんどは、オブジェクトエッジ情報にはあまり注意を払わない。
本稿では,サンプルセグメンテーションデータセットを作成する際に,人間のアノテーションプロセスにヒントを得て,ニューラルネットワークのオブジェクト境界への注意を促すことを目的としたMask Point R-CNNを提案する。
具体的には,人間のキーポイント検出タスクを,任意の物体の輪郭点検出に革新的に拡張する。
この類似性に基づき,Mask R-CNNに輪郭点検出補助タスクを提示し,特徴融合戦略とマルチタスク共同訓練を効果的に利用することにより,タスク間の勾配流を増大させることができる。
その結果、モデルはオブジェクトの端に対してより敏感になり、より幾何学的な特徴を捉えることができる。
実験結果から,バニラマスクR-CNNはCityscapesデータセットでは3.8倍,COCOデータセットでは0.8倍に向上した。 The attributes of object contours has great significance for instance segmentation task. However, most of the current popular deep neural networks do not pay much attention to the object edge information. Inspired by the human annotation process when making instance segmentation datasets, in this paper, we propose Mask Point R-CNN aiming at promoting the neural network's attention to the object boundary. Specifically, we innovatively extend the original human keypoint detection task to the contour point detection of any object. Based on this analogy, we present an contour point detection auxiliary task to Mask R-CNN, which can boost the gradient flow between different tasks by effectively using feature fusion strategies and multi-task joint training. As a consequence, the model will be more sensitive to the edges of the object and can capture more geometric features. Quantitatively, the experimental results show that our approach outperforms vanilla Mask R-CNN by 3.8\% on Cityscapes dataset and 0.8\% on COCO dataset. | 翻訳日:2022-11-03 19:46:59 公開日:2021-07-04 |
# メンバーシップ推論に対する攻撃: プルーニングは必要なすべて Against Membership Inference Attack: Pruning is All You Need ( http://arxiv.org/abs/2008.13578v4 ) ライセンス: Link先を確認 | Yijue Wang, Chenghong Wang, Zigeng Wang, Shanglin Zhou, Hang Liu, Jinbo Bi, Caiwen Ding, Sanguthevar Rajasekaran | (参考訳) 大規模なモデルサイズ、高い計算操作、およびメンバーシップ推論攻撃(MIA)に対する脆弱性は、特にモバイルデバイスにおいてディープラーニングやディープニューラルネットワーク(DNN)の人気を阻害している。
この課題に対処するために,重みの刈り取り技術はモデルストレージと計算操作を削減しつつ,miaに対するdnn対策に役立つと期待する。
そこで本研究では,プライバシリークを防止し,元のdnnと競合する精度を実現するサブネットワークを提案できるpruningアルゴリズムを提案する。
また、理論的な洞察を実験で検証する。
実験の結果,モデル圧縮による攻撃精度は,ベースラインおよびmin-maxゲームより最大13.6%,10%低いことがわかった。 The large model size, high computational operations, and vulnerability against membership inference attack (MIA) have impeded deep learning or deep neural networks (DNNs) popularity, especially on mobile devices. To address the challenge, we envision that the weight pruning technique will help DNNs against MIA while reducing model storage and computational operation. In this work, we propose a pruning algorithm, and we show that the proposed algorithm can find a subnetwork that can prevent privacy leakage from MIA and achieves competitive accuracy with the original DNNs. We also verify our theoretical insights with experiments. Our experimental results illustrate that the attack accuracy using model compression is up to 13.6% and 10% lower than that of the baseline and Min-Max game, accordingly. | 翻訳日:2022-10-24 01:39:39 公開日:2021-07-04 |
# graphxcovid: 胸部x線でcovid-19を同定するためのディープグラフ拡散擬似ラベリング GraphXCOVID: Explainable Deep Graph Diffusion Pseudo-Labelling for Identifying COVID-19 on Chest X-rays ( http://arxiv.org/abs/2010.00378v2 ) ライセンス: Link先を確認 | Angelica I Aviles-Rivero, Philip Sellars, Carola-Bibiane Sch\"onlieb, Nicolas Papadakis | (参考訳) 極端に最小限の監督の下でcovid-19の診断を学ぶことができるか?
新型コロナウイルス(COVID-19)が出現して以来、チェストX線データに基づく専門家レベルの疾患識別のための人工知能技術の開発が急いでいる。
特に、深い教師付き学習の利用は、go-toパラダイムとなっている。
しかし、そのようなモデルの性能は、大規模かつ代表的なラベル付きデータセットの可用性に大きく依存している。
作成は非常に高価で時間を要する作業であり、特に新規疾患に対して大きな課題を課している。
半教師付き学習は、ラベル付きサンプルのごく一部を必要としながら、教師付きモデルの驚くべき性能にマッチする能力を示している。
これにより、半監督パラダイムはcovid-19を識別するための魅力的な選択肢となる。
本研究では,胸部X線からCOVID-19を分類するためのグラフベースの深層半監督フレームワークを提案する。
本研究では,グラフ拡散の最適化モデルを導入し,ラベル付き集合とラベルなしデータとの自然関係を補強する。
次に、拡散予測出力を、ディープネットの反復スキームで使用される擬似ラベルとして接続する。
実験を通して、我々のモデルはラベル付き例のごく一部で現在の指導的モデルよりも優れていることを示した。
最後に,放射線科医の精神モデルに適合し,知覚的・認知的能力に適合した注意マップを提供する。
これらの可視化は、診断が正しいかどうかを判断し、その結果、判定を加速することを目的としている。 Can one learn to diagnose COVID-19 under extreme minimal supervision? Since the outbreak of the novel COVID-19 there has been a rush for developing Artificial Intelligence techniques for expert-level disease identification on Chest X-ray data. In particular, the use of deep supervised learning has become the go-to paradigm. However, the performance of such models is heavily dependent on the availability of a large and representative labelled dataset. The creation of which is a heavily expensive and time consuming task, and especially imposes a great challenge for a novel disease. Semi-supervised learning has shown the ability to match the incredible performance of supervised models whilst requiring a small fraction of the labelled examples. This makes the semi-supervised paradigm an attractive option for identifying COVID-19. In this work, we introduce a graph based deep semi-supervised framework for classifying COVID-19 from chest X-rays. Our framework introduces an optimisation model for graph diffusion that reinforces the natural relation among the tiny labelled set and the vast unlabelled data. We then connect the diffusion prediction output as pseudo-labels that are used in an iterative scheme in a deep net. We demonstrate, through our experiments, that our model is able to outperform the current leading supervised model with a tiny fraction of the labelled examples. Finally, we provide attention maps to accommodate the radiologist's mental model, better fitting their perceptual and cognitive abilities. These visualisation aims to assist the radiologist in judging whether the diagnostic is correct or not, and in consequence to accelerate the decision. | 翻訳日:2022-10-12 22:26:39 公開日:2021-07-04 |
# VisualWordGrid:マルチモーダルアプローチによるスキャンドキュメンテーションからの情報抽出 VisualWordGrid: Information Extraction From Scanned Documents Using A Multimodal Approach ( http://arxiv.org/abs/2010.02358v5 ) ライセンス: Link先を確認 | Mohamed Kerroumi, Othmane Sayem and Aymen Shabou | (参考訳) 本稿では,フィールド抽出を行うための新しい文書表現手法を提案する。
セグメンテーションモデルへの入力として使用される3軸テンソルにおいて、テキスト、ビジュアル、レイアウト情報の同時エンコーディングを可能にする。
まず、視覚的なモダリティを考慮して、推論時間を低く抑えながら小さなデータセットに対する堅牢性を高めることで、最近のchargridおよびwordgrid \cite{chargrid}モデルを改善する。
このアプローチはパブリックおよびプライベートのドキュメントイメージデータセット上でテストされ、最新の最先端メソッドよりも高いパフォーマンスを示します。 We introduce a novel approach for scanned document representation to perform field extraction. It allows the simultaneous encoding of the textual, visual and layout information in a 3-axis tensor used as an input to a segmentation model. We improve the recent Chargrid and Wordgrid \cite{chargrid} models in several ways, first by taking into account the visual modality, then by boosting its robustness in regards to small datasets while keeping the inference time low. Our approach is tested on public and private document-image datasets, showing higher performances compared to the recent state-of-the-art methods. | 翻訳日:2022-10-10 21:06:50 公開日:2021-07-04 |
# (参考訳) 類似学習によるオンラインハッシュ Online Hashing with Similarity Learning ( http://arxiv.org/abs/2108.02560v1 ) ライセンス: CC BY 4.0 | Zhenyu Weng, Yuesheng Zhu | (参考訳) オンラインハッシュ手法は通常、オンラインのハッシュ関数を学習し、ストリーミング環境のデータバリエーションに効率的に適応することを目指している。
しかし、ハッシュ関数が更新されると、データベース全体のバイナリコードを更新してハッシュ関数と整合させる必要があり、結果としてオンライン画像検索プロセスの効率が低下する。
本稿では,バイナリコードを更新せずに新しいオンラインハッシュフレームワークを提案する。
提案フレームワークでは、ハッシュ関数は固定され、バイナリコードのパラメトリック類似度関数は、ストリーミングデータに適応するためにオンラインで学習される。
具体的には、双線型形式を持つパラメトリック類似度関数を採用し、ハッシュ法の特性に基づいてオンラインに類似度関数を学習するためのメトリック学習アルゴリズムを提案する。
2つのマルチラベル画像データセットに対する実験により,本手法は,複数ラベル画像検索の精度と効率の両面から,最先端のオンラインハッシュ法よりも優れているか,あるいは優れていることが示された。 Online hashing methods usually learn the hash functions online, aiming to efficiently adapt to the data variations in the streaming environment. However, when the hash functions are updated, the binary codes for the whole database have to be updated to be consistent with the hash functions, resulting in the inefficiency in the online image retrieval process. In this paper, we propose a novel online hashing framework without updating binary codes. In the proposed framework, the hash functions are fixed and a parametric similarity function for the binary codes is learnt online to adapt to the streaming data. Specifically, a parametric similarity function that has a bilinear form is adopted and a metric learning algorithm is proposed to learn the similarity function online based on the characteristics of the hashing methods. The experiments on two multi-label image datasets show that our method is competitive or outperforms the state-of-the-art online hashing methods in terms of both accuracy and efficiency for multi-label image retrieval. | 翻訳日:2021-08-08 12:13:54 公開日:2021-07-04 |
# 文レベルのオンライン手書き文字認識 Sentence-level Online Handwritten Chinese Character Recognition ( http://arxiv.org/abs/2108.02561v1 ) ライセンス: Link先を確認 | Yunxin Li, Qian Yang, Qingcai Chen, Lin Ma, Baotian Hu, Xiaolong Wang, Yuxin Ding | (参考訳) シングルオンライン手書き漢字認識(single olhccr)は目覚ましい成果を上げている。
しかし、実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて1つの完全文を作成し、それらの文字内の文脈情報は、文レベルのOLHCCRの正確性、堅牢性、効率を向上させる重要な可能性を持っている。
本稿では,まず,文レベルのolhccrに取り組むための,単純で簡単なエンドツーエンドネットワークであるvanilla compositional network~(vcn)を提案する。
手書き文字の以前のコンテキスト情報を活用するために、畳み込みニューラルネットワークとシーケンスモデリングアーキテクチャを結合する。
VCNは最先端の単一OLHCCRモデルよりもはるかにパフォーマンスがよいが、スロッピーな書き込みや欠落、あるいは壊れたストロークといった、あまり書かれていない文字に直面すると、高い脆弱性が生じる。
文レベルOLHCCRのロバスト性を改善するために,新たに深部空間時間融合ネットワーク~(DSTFN)を提案する。
プリトレーニングされた自己回帰フレームワークをバックボーンコンポーネントとして使用し、各漢字を単語埋め込みに投影し、手書き文字の空間的グリフ特徴と文脈情報とを多層融合モジュールで複数回統合する。
また,CSOHDと呼ばれる大規模文レベル手書きデータセットを構築し,モデルの評価を行った。
広範な実験の結果、dstfnは、vcnや単一olhccrモデルと比較して強い堅牢性を示す最先端の性能を達成していることが示された。
深部における経験的分析とケーススタディにより,DSTFNは手書き入力の効率を大幅に向上し,不完全脳梗塞の字が正確に認識されることが示唆された。 Single online handwritten Chinese character recognition~(single OLHCCR) has achieved prominent performance. However, in real application scenarios, users always write multiple Chinese characters to form one complete sentence and the contextual information within these characters holds the significant potential to improve the accuracy, robustness and efficiency of sentence-level OLHCCR. In this work, we first propose a simple and straightforward end-to-end network, namely vanilla compositional network~(VCN) to tackle the sentence-level OLHCCR. It couples convolutional neural network with sequence modeling architecture to exploit the handwritten character's previous contextual information. Although VCN performs much better than the state-of-the-art single OLHCCR model, it exposes high fragility when confronting with not well written characters such as sloppy writing, missing or broken strokes. To improve the robustness of sentence-level OLHCCR, we further propose a novel deep spatial-temporal fusion network~(DSTFN). It utilizes a pre-trained autoregresssive framework as the backbone component, which projects each Chinese character into word embeddings, and integrates the spatial glyph features of handwritten characters and their contextual information multiple times at multi-layer fusion module. We also construct a large-scale sentence-level handwriting dataset, named as CSOHD to evaluate models. Extensive experiment results demonstrate that DSTFN achieves the state-of-the-art performance, which presents strong robustness compared with VCN and exiting single OLHCCR models. The in-depth empirical analysis and case studies indicate that DSTFN can significantly improve the efficiency of handwriting input, with the handwritten Chinese character with incomplete strokes being recognized precisely. | 翻訳日:2021-08-08 11:00:57 公開日:2021-07-04 |
# DEAP-FAKED:知識グラフに基づくフェイクニュース検出手法 DEAP-FAKED: Knowledge Graph based Approach for Fake News Detection ( http://arxiv.org/abs/2107.10648v1 ) ライセンス: Link先を確認 | Mohit Mayank, Shakshi Sharma, Rajesh Sharma | (参考訳) ソーシャルメディアプラットフォーム上でのフェイクニュースは、政治(2016年アメリカ合衆国大統領選挙)や医療(新型コロナウイルス(covid-19)のインフォデミック)に関連するイベントなど、近年多くの注目を集めている。
フェイクニュースを検出する様々な方法が提案されている。
アプローチは、ネットワーク分析、自然言語処理(NLP)、グラフニューラルネット(GNN)の利用に関するテクニックの活用から成り立っている。
本研究では,フェイクニュースを識別するための知識グラフフェイクニュース検出フレームワークdeap-fakedを提案する。
私たちのアプローチは、ニュースコンテンツをエンコードするNLPと、知識グラフ(KG)をエンコードするGNNテクニックを組み合わせたものです。
これらのエンコーディングは、我々の検出器に相補的な利点をもたらす。
政治,ビジネス,技術,医療といった分野の記事を含む2つの公開データセットを用いて,我々のフレームワークを評価する。
データセットの事前処理の一部として、モデルのパフォーマンスに影響を与える可能性のある記事のソースなどのバイアスも取り除きます。
deap-fakedは2つのデータセットに対して88%と78%のf1-scoreを取得し、それぞれ21%と3%の改善であり、このアプローチの有効性を示している。 Fake News on social media platforms has attracted a lot of attention in recent times, primarily for events related to politics (2016 US Presidential elections), healthcare (infodemic during COVID-19), to name a few. Various methods have been proposed for detecting Fake News. The approaches span from exploiting techniques related to network analysis, Natural Language Processing (NLP), and the usage of Graph Neural Networks (GNNs). In this work, we propose DEAP-FAKED, a knowleDgE grAPh FAKe nEws Detection framework for identifying Fake News. Our approach is a combination of the NLP -- where we encode the news content, and the GNN technique -- where we encode the Knowledge Graph (KG). A variety of these encodings provides a complementary advantage to our detector. We evaluate our framework using two publicly available datasets containing articles from domains such as politics, business, technology, and healthcare. As part of dataset pre-processing, we also remove the bias, such as the source of the articles, which could impact the performance of the models. DEAP-FAKED obtains an F1-score of 88% and 78% for the two datasets, which is an improvement of 21%, and 3% respectively, which shows the effectiveness of the approach. | 翻訳日:2021-07-25 11:56:08 公開日:2021-07-04 |
# (参考訳) ニューラルネットワークの一般化は機能オーバーラップを必要としない Generalisation in Neural Networks Does not Require Feature Overlap ( http://arxiv.org/abs/2107.06872v1 ) ライセンス: CC BY 4.0 | Jeff Mitchell and Jeffrey S. Bowers | (参考訳) ニューラルネットワークの一般化に列車データとテストデータ間の共有機能は、これらのモデルの支持者と批判者の共通の前提となっている。
ここで,畳み込み型アーキテクチャは,単語列の学習と学習規則に基づく2つの既知の課題に適用することにより,この制限を回避することを示す。
いずれの場合も、テストセットのパフォーマンスに成功するには、トレーニングデータに存在しない機能に一般化する必要がある。
しかし,本実験では,畳み込みアーキテクチャが採用する重み共有を組み込んだニューラルネットワークが,そのような問題に成功できることを示した。
画像処理領域では、そのようなアーキテクチャは、そのようなイメージが描写する自然世界の空間的翻訳の下での対称性を反映している。
両課題における対称性の役割と一般化との関連について論じる。 That shared features between train and test data are required for generalisation in artificial neural networks has been a common assumption of both proponents and critics of these models. Here, we show that convolutional architectures avoid this limitation by applying them to two well known challenges, based on learning the identity function and learning rules governing sequences of words. In each case, successful performance on the test set requires generalising to features that were not present in the training data, which is typically not feasible for standard connectionist models. However, our experiments demonstrate that neural networks can succeed on such problems when they incorporate the weight sharing employed by convolutional architectures. In the image processing domain, such architectures are intended to reflect the symmetry under spatial translations of the natural world that such images depict. We discuss the role of symmetry in the two tasks and its connection to generalisation. | 翻訳日:2021-07-18 16:10:26 公開日:2021-07-04 |
# (参考訳) debiaseddta: 薬物増加のためのモデルデバイアス -- ターゲットアフィニティ予測 DebiasedDTA: Model Debiasing to Boost Drug -- Target Affinity Prediction ( http://arxiv.org/abs/2107.05556v1 ) ライセンス: CC BY 4.0 | R{\i}za \"Oz\c{c}elik, Alperen Ba\u{g}, Berk At{\i}l, Arzucan \"Ozg\"ur, Elif \"Ozk{\i}r{\i}ml{\i} | (参考訳) モチベーション:高親和性タンパク質結合ペアを正確に同定する計算モデルは、薬物発見パイプラインを加速することができる。
これらのモデルは、薬物と標的の相互作用データセットを通して結合力学を学習し、タンパク質と結合したペアの親和性を予測しながら学習知識を使用する。
しかし、それらのデータセットは、学習バインディングのメカニズムではなく、データセット固有の生体分子特性を記憶するモデルに偏る誤解を招くパターンに依存している。
結合機構に十分焦点を合わせず、結果として得られたモデルは薬物標的親和性(dta、de novo biomolecules)を予測するのに苦労した。
本稿では,新しい生体分子の親和性予測を促進するために,データセットバイアスを回避する最初のモデルデバイアス手法であるdebiaseddtaを提案する。
DebiasedDTAは、バイアス識別と回避のためにアンサンブル学習と重みサンプル適応を使用し、既存のほとんどのDTA予測モデルに適用できる。
結果:debiaseddtaは,新しい生体分子間の相互作用を予測しながら,モデルを強化できることが示された。
既知の生体分子も性能向上の恩恵を受けるが、テスト生体分子がトレーニングセットとより異なっているため、その向上は増幅される。
実験はまた、DebiasedDTAが異なる入力構造とモデル構造のDTA予測モデルを増強し、異なるソースのバイアスを回避することができることを示した。
可用性: ソースコード、モデル、データセットはhttps://github.com/boun-tabi/debiaseddta-reproduce Contact: arzucan.ozgur@boun.edu.tr, elif.ozkirimli@roche.comで入手できる。 Motivation: Computational models that accurately identify high-affinity protein-compound pairs can accelerate drug discovery pipelines. These models aim to learn binding mechanics through drug-target interaction datasets and use the learned knowledge while predicting the affinity of any protein-compound pair. However, the datasets they rely on bear misleading patterns that bias models towards memorizing dataset-specific biomolecule properties, instead of learning binding mechanics. Insufficiently focused on the binding mechanics, the resulting models struggle while predicting the drug-target affinities (DTA), especially between de novo biomolecules. Here we present DebiasedDTA, the first model debiasing approach that avoids dataset biases in order to boost the affinity prediction on novel biomolecules. DebiasedDTA uses ensemble learning and weight sample adaptation for bias identification and avoidance and is applicable to almost all existing DTA prediction models. Results: The results show that DebiasedDTA can boost models while predicting the interactions between novel biomolecules. Known biomolecules also benefit from the performance boost, though the boost is amplified as the test biomolecules become more dissimilar to the training set. The experiments also show that DebiasedDTA can augment the DTA prediction models of different input and model structures and can avoid biases of different sources. Availability: The source code, the models, and the data sets are available at https://github.com/boun-tabi/debiaseddta-reproduce Contact: arzucan.ozgur@boun.edu.tr, elif.ozkirimli@roche.com | 翻訳日:2021-07-18 15:51:09 公開日:2021-07-04 |
# ハイブリッド覚醒Wake-Sleep:離散連続界面における近似推論 Hybrid Memoised Wake-Sleep: Approximate Inference at the Discrete-Continuous Interface ( http://arxiv.org/abs/2107.06393v1 ) ライセンス: Link先を確認 | Tuan Anh Le, Katherine M. Collins, Luke Hewitt, Kevin Ellis, Siddharth N, Samuel J. Gershman, Joshua B. Tenenbaum | (参考訳) 複雑な現象のモデリングは通常、離散変数と連続変数の両方を使用する。
このような設定は、時系列データの傾向の特定から画像の効果的な構成シーン理解に至るまで、幅広い問題に適用される。
本稿では,これらのハイブリッド離散連続モデルにおける効果的な推論アルゴリズムであるHybrid Memoized Wake-Sleep (HMWS)を提案する。
学習への以前のアプローチは、繰り返し高価なインナーループ離散推論を実行する必要があるため苦しむ。
我々は,近年のアプローチであるMemoised Wake-Sleep(MWS)に基づいて,個別変数をメモすることで問題の一部を緩和し,重要サンプリングに基づく近似推論と辺縁化に使用する認識モデルを学習することにより,連続変数を扱うための原則的で効果的な方法を実現する。
GPカーネル学習および3次元シーン理解領域におけるHMWSの評価を行い、現在の最先端推論手法よりも優れていることを示す。 Modeling complex phenomena typically involves the use of both discrete and continuous variables. Such a setting applies across a wide range of problems, from identifying trends in time-series data to performing effective compositional scene understanding in images. Here, we propose Hybrid Memoised Wake-Sleep (HMWS), an algorithm for effective inference in such hybrid discrete-continuous models. Prior approaches to learning suffer as they need to perform repeated expensive inner-loop discrete inference. We build on a recent approach, Memoised Wake-Sleep (MWS), which alleviates part of the problem by memoising discrete variables, and extend it to allow for a principled and effective way to handle continuous variables by learning a separate recognition model used for importance-sampling based approximate inference and marginalization. We evaluate HMWS in the GP-kernel learning and 3D scene understanding domains, and show that it outperforms current state-of-the-art inference methods. | 翻訳日:2021-07-18 12:26:00 公開日:2021-07-04 |
# 関係グラフ畳み込みネットワークによる薬物分子の血液脳関門侵入予測 Relational graph convolutional networks for predicting blood-brain barrier penetration of drug molecules ( http://arxiv.org/abs/2107.06773v1 ) ライセンス: Link先を確認 | Yan Ding, Xiaoqian Jiang and Yejin Kim | (参考訳) 薬物分子のBBB透過能の評価は、脳薬物開発における重要なステップである。
機械学習に基づく計算予測は、その評価を行う効率的な方法であることが証明された。
しかしながら、確立されたモデルの性能は、薬物とタンパク質の相互作用を扱う能力に制限されており、BBB侵入行動のメカニズムにおいて重要な役割を果たす。
この問題に対処するために,我々はリレーショナルグラフ畳み込みネットワーク(RGCN)を用いて,各薬剤の特徴と(エンコーディング遺伝子によって記述された)薬物-タンパク質関係を処理した。
さらに、構造的に類似した薬物をグラフでつなぐために薬物と薬物の類似性も導入された。
RGCNモデルは当初、薬物の特徴を入力せずに訓練された。
また,bbb透過性予測における薬物・タンパク質・薬物・薬物関係の重要性を実証した。
さらに、事前学習した知識グラフからの分子埋め込みを薬物の特徴として用いて、モデルの予測能力をさらに向上させた。
最後に、最も優れたRCCNモデルは、グラフに統合された多数のラベルのない薬物で構築された。 The evaluation of the BBB penetrating ability of drug molecules is a critical step in brain drug development. Computational prediction based on machine learning has proved to be an efficient way to conduct the evaluation. However, performance of the established models has been limited by their incapability of dealing with the interactions between drugs and proteins, which play an important role in the mechanism behind BBB penetrating behaviors. To address this issue, we employed the relational graph convolutional network (RGCN) to handle the drug-protein (denoted by the encoding gene) relations as well as the features of each individual drug. In addition, drug-drug similarity was also introduced to connect structurally similar drugs in the graph. The RGCN model was initially trained without input of any drug features. And the performance was already promising, demonstrating the significant role of the drug-protein/drug-drug relations in the prediction of BBB permeability. Moreover, molecular embeddings from a pre-trained knowledge graph were used as the drug features to further enhance the predictive ability of the model. Finally, the best performing RGCN model was built with a large number of unlabeled drugs integrated into the graph. | 翻訳日:2021-07-18 12:23:29 公開日:2021-07-04 |
# 突然変異は必要なだけ Mutation is all you need ( http://arxiv.org/abs/2107.07343v1 ) ライセンス: Link先を確認 | Lennart Schneider, Florian Pfisterer, Martin Binder and Bernd Bischl | (参考訳) neural architecture search(nas)は、ディープニューラルネットワークのアーキテクチャエンジニアリングを自動化することによって、非専門家がディープラーニングにアクセスできるようにする。
BANANASはベイズ最適化フレームワークに組み込まれた最先端NAS手法である。
最近の実験では、NAS-Bench-101ベンチマークにおけるBANANASの強い性能は、そのパスエンコーディングによって決定され、サロゲートモデルの選択ではないことが示されている。
本研究では,NAS-Bench-301ベンチマークにおけるBANANASの性能が,その取得関数オプティマイザによって決定されることを示す。 Neural architecture search (NAS) promises to make deep learning accessible to non-experts by automating architecture engineering of deep neural networks. BANANAS is one state-of-the-art NAS method that is embedded within the Bayesian optimization framework. Recent experimental findings have demonstrated the strong performance of BANANAS on the NAS-Bench-101 benchmark being determined by its path encoding and not its choice of surrogate model. We present experimental results suggesting that the performance of BANANAS on the NAS-Bench-301 benchmark is determined by its acquisition function optimizer, which minimally mutates the incumbent. | 翻訳日:2021-07-18 12:22:47 公開日:2021-07-04 |
# 2種類の新たな決定規則に基づく形式的決定文脈の属性低減と規則獲得 Attribute reduction and rule acquisition of formal decision context based on two new kinds of decision rules ( http://arxiv.org/abs/2107.03288v1 ) ライセンス: Link先を確認 | Qian Hu, Keyun Qin | (参考訳) 本稿では,2つの新たな決定規則,すなわちI-決定規則とII-決定規則に基づいて,形式的決定コンテキストに対するルール獲得と属性還元について検討する。
これらのルールの前提はオブジェクト指向の概念であり、結論はそれぞれ形式的概念とプロパティ指向の概念である。
I-decisionルールとII-decisionルールのルール取得アルゴリズムを示す。
これらのアルゴリズムと既存アルゴリズムとの比較分析を行い、本研究で提示したアルゴリズムが良好に振る舞うことを示す。
識別性行列を用いて、i-決定規則とii-決定規則を保存する属性還元手法を示す。 This paper mainly studies the rule acquisition and attribute reduction for formal decision context based on two new kinds of decision rules, namely I-decision rules and II-decision rules. The premises of these rules are object-oriented concepts, and the conclusions are formal concept and property-oriented concept respectively. The rule acquisition algorithms for I-decision rules and II-decision rules are presented. Some comparative analysis of these algorithms with the existing algorithms are examined which shows that the algorithms presented in this study behave well. The attribute reduction approaches to preserve I-decision rules and II-decision rules are presented by using discernibility matrix. | 翻訳日:2021-07-08 13:57:46 公開日:2021-07-04 |
# (参考訳) FedFog: 無線フォグクラウドシステムによるフェデレーション学習のネットワーク対応最適化 FedFog: Network-Aware Optimization of Federated Learning over Wireless Fog-Cloud Systems ( http://arxiv.org/abs/2107.02755v1 ) ライセンス: CC BY 4.0 | Van-Dinh Nguyen, Symeon Chatzinotas, Bjorn Ottersten, and Trung Q. Duong | (参考訳) フェデレーション学習(fl)は、訓練されたローカルパラメータを定期的に集約することで、複数のエッジユーザにわたって大規模な分散機械学習タスクを実行することができる。
無線フォグクラウドシステム(例えば、非i.d.)上でFLを有効にする鍵となる課題に対処する。
我々はまず,フォグサーバにおける勾配パラメータの局所的な集約とクラウドでのグローバルトレーニング更新を行う,効率的なFLアルゴリズム(FedFog)を提案する。
次に,FedFogを無線フォグクラウドシステムに適用し,グローバルロスと完了時間のバランスを崩す新たなネットワーク対応FL最適化問題について検討する。
次に、システム性能の正確な測定を行うために反復アルゴリズムを開発し、適切な数のグローバルラウンドを出力する効率的な停止基準の設計を支援する。
トラグラー効果を緩和するために,まずユーザを高速に訓練し,ある程度の精度を得るとともに,遅いユーザがグローバルなトレーニング更新に参加できるようにする,フレキシブルなユーザアグリゲーション戦略を提案する。
いくつかの実世界のFLタスクを用いて、FedFogの理論的収束を検証する。
また,FLと通信の協調設計は,学習モデルの精度を向上しつつ,資源利用の大幅な向上に不可欠であることを示す。 Federated learning (FL) is capable of performing large distributed machine learning tasks across multiple edge users by periodically aggregating trained local parameters. To address key challenges of enabling FL over a wireless fog-cloud system (e.g., non-i.i.d. data, users' heterogeneity), we first propose an efficient FL algorithm (called FedFog) to perform the local aggregation of gradient parameters at fog servers and global training update at the cloud. Next, we employ FedFog in wireless fog-cloud systems by investigating a novel network-aware FL optimization problem that strikes the balance between the global loss and completion time. An iterative algorithm is then developed to obtain a precise measurement of the system performance, which helps design an efficient stopping criteria to output an appropriate number of global rounds. To mitigate the straggler effect, we propose a flexible user aggregation strategy that trains fast users first to obtain a certain level of accuracy before allowing slow users to join the global training updates. Extensive numerical results using several real-world FL tasks are provided to verify the theoretical convergence of FedFog. We also show that the proposed co-design of FL and communication is essential to substantially improve resource utilization while achieving comparable accuracy of the learning model. | 翻訳日:2021-07-08 10:44:39 公開日:2021-07-04 |
# (参考訳) セッションベースレコメンデーションのための表現学習の改善 Improved Representation Learning for Session-based Recommendation ( http://arxiv.org/abs/2107.01516v1 ) ライセンス: CC BY-SA 4.0 | Sai Mitheran, Abhinav Java, Surya Kant Sahu and Arshad Shaikh | (参考訳) セッションベースのレコメンデーションシステムは、短期匿名セッションを用いてユーザの行動や嗜好をモデル化することで、ユーザに対して関連項目を提案する。
既存の方法はグラフニューラルネットワーク(GNN)を利用して、近隣のノード、すなわちローカルメッセージパッシングから情報を伝達し集約する。
このようなグラフベースのアーキテクチャは、単一のサブグラフが異なるセッション内のアイテム間の複雑な遷移を考慮せず、シーケンシャルな依存関係を過度に適合させる可能性があるため、表現上の限界がある。
我々は、よりリッチな表現学習を可能にする目標注意型GNNと組み合わせて変換器を提案する。
実験結果とアブレーションにより,提案手法が実世界のベンチマークデータセットの既存手法を上回っていることを示す。 Session-based recommendation systems suggest relevant items to users by modeling user behavior and preferences using short-term anonymous sessions. Existing methods leverage Graph Neural Networks (GNNs) that propagate and aggregate information from neighboring nodes i.e., local message passing. Such graph-based architectures have representational limits, as a single sub-graph is susceptible to overfit the sequential dependencies instead of accounting for complex transitions between items in different sessions. We propose using a Transformer in combination with a target attentive GNN, which allows richer Representation Learning. Our experimental results and ablation show that our proposed method outperforms the existing methods on real-world benchmark datasets. | 翻訳日:2021-07-07 05:55:48 公開日:2021-07-04 |
# (参考訳) COVID-Rate:胸部CTスキャンからCOVID-19病変を分離するフレームワーク COVID-Rate: An Automated Framework for Segmentation of COVID-19 Lesions from Chest CT Scans ( http://arxiv.org/abs/2107.01527v1 ) ライセンス: CC BY 4.0 | Nastaran Enshaei, Anastasia Oikonomou, Moezedin Javad Rafiee, Parnian Afshar, Shahin Heidarian, Arash Mohammadi, Konstantinos N. Plataniotis, and Farnoosh Naderkhani | (参考訳) 新型コロナウイルス(COVID-19)は感染性の高い呼吸器感染症であり、世界に大きな影響を与えた。
最近、新型コロナウイルス(COVID-19)の新たな変種が出現し、状況はより困難で脅かされている。
胸部ctスキャンによるcovid-19肺病変の評価と定量化は、疾患ステージの決定、限られた医療資源の効率的な割り当て、インフォームド・ドキュメンテーション・ドキュメンテーションの決定に有用である。
しかし、パンデミックの時代には、専門家の放射線科医によるcovid-19肺病変の視覚的評価と定量化が高価になり、エラーが発生しやすいため、実用的な自律的ソリューションの開発が急務となっている。
本稿では,まず,専門放射線科医がアノテートした82例のct画像を含むオープンアクセス型covid-19ctセグメンテーションデータセットについて紹介する。
第二に、ディープニューラルネットワーク(DNN)ベースのフレームワークであるCOVID-Rateが提案され、胸部CTスキャンからCOVID-19に関連する肺の異常を自律的に分離する。
提案するCOVID-Rateフレームワークのパフォーマンスは、導入データセットと外部データセットに基づいて、いくつかの実験を通じて評価される。
その結果, 0:802, 0:997, 0:832の特異性と感度が得られた。
さらに,2dct画像と肺全容の両方において,covid-19病巣を効率的に分割できることが示唆された。
外部データセットの結果は、異なるスキャナーから得られたCT画像に対して、COVID-Rateモデルの一般化能力を示している。 Novel Coronavirus disease (COVID-19) is a highly contagious respiratory infection that has had devastating effects on the world. Recently, new COVID-19 variants are emerging making the situation more challenging and threatening. Evaluation and quantification of COVID-19 lung abnormalities based on chest Computed Tomography (CT) scans can help determining the disease stage, efficiently allocating limited healthcare resources, and making informed treatment decisions. During pandemic era, however, visual assessment and quantification of COVID-19 lung lesions by expert radiologists become expensive and prone to error, which raises an urgent quest to develop practical autonomous solutions. In this context, first, the paper introduces an open access COVID-19 CT segmentation dataset containing 433 CT images from 82 patients that have been annotated by an expert radiologist. Second, a Deep Neural Network (DNN)-based framework is proposed, referred to as the COVID-Rate, that autonomously segments lung abnormalities associated with COVID-19 from chest CT scans. Performance of the proposed COVID-Rate framework is evaluated through several experiments based on the introduced and external datasets. The results show a dice score of 0:802 and specificity and sensitivity of 0:997 and 0:832, respectively. Furthermore, the results indicate that the COVID-Rate model can efficiently segment COVID-19 lesions in both 2D CT images and whole lung volumes. Results on the external dataset illustrate generalization capabilities of the COVID-Rate model to CT images obtained from a different scanner. | 翻訳日:2021-07-07 05:47:34 公開日:2021-07-04 |
# (参考訳) 多空間グラフ畳み込みに基づくSeq2Seqモデルによる交通予測 Incorporating Reachability Knowledge into a Multi-Spatial Graph Convolution Based Seq2Seq Model for Traffic Forecasting ( http://arxiv.org/abs/2107.01528v1 ) ライセンス: CC BY 4.0 | Jiexia Ye, Furong Zheng, Juanjuan Zhao, Kejiang Ye, Chengzhong Xu | (参考訳) 正確な交通状態予測は、交通制御と誘導の基礎である。
トラフィックデータの複雑な時空間依存性のため、非常に難しい。
既存の作業は、長い将来の時間を含む多段階のトラフィック予測ではうまく機能しない。
この時空間情報希釈は、入力ステップと予測ステップとの時間差が大きい場合、特に交通データが十分でない場合やうるさい場合には有効となる。
この問題に対処するために,多空間グラフ畳み込みに基づくseq2seqモデルを提案する。
我々は,(1)多視点特徴(時間,位置,交通状況)を融合させることで,モデル入力の時空間情報を豊かにし,(2)先行知識とデータ駆動知識の両方に基づいて複数種類の空間相関を構築し,特に不十分あるいはノイズの多いデータケースにおいてモデル性能を向上させる。
3)Seq2Seqのデコーダに直接供給される高次特徴を情報希釈を容易にするために,到達可能性知識に基づく時空間的注意機構を新たに設計する。
我々のモデルは2つの実世界のトラフィックデータセットで評価され、他の競合他社よりも優れたパフォーマンスを実現する。 Accurate traffic state prediction is the foundation of transportation control and guidance. It is very challenging due to the complex spatiotemporal dependencies in traffic data. Existing works cannot perform well for multi-step traffic prediction that involves long future time period. The spatiotemporal information dilution becomes serve when the time gap between input step and predicted step is large, especially when traffic data is not sufficient or noisy. To address this issue, we propose a multi-spatial graph convolution based Seq2Seq model. Our main novelties are three aspects: (1) We enrich the spatiotemporal information of model inputs by fusing multi-view features (time, location and traffic states) (2) We build multiple kinds of spatial correlations based on both prior knowledge and data-driven knowledge to improve model performance especially in insufficient or noisy data cases. (3) A spatiotemporal attention mechanism based on reachability knowledge is novelly designed to produce high-level features fed into decoder of Seq2Seq directly to ease information dilution. Our model is evaluated on two real world traffic datasets and achieves better performance than other competitors. | 翻訳日:2021-07-07 05:31:51 公開日:2021-07-04 |
# (参考訳) レコメンダシステムにおける複雑なユーザの好みの学習 Learning Complex Users' Preferences for Recommender Systems ( http://arxiv.org/abs/2107.01529v1 ) ライセンス: CC BY 4.0 | Shahpar Yakhchi | (参考訳) レコメンダシステム(rss)は、顧客の意思決定プロセスを支援し、関心のある項目を見つけ、情報オーバーロード問題を緩和するための非常に有用なツールとして登場しました。
rssには2つの異なるアプローチがある: (1) 長期ユーザの嗜好を発見することを主目的とする一般レコメンダ、(2) 短期ユーザの嗜好を主眼とする逐次レコメンダ ユーザ・アイテム間インタラクションのセッション(ここでは、セッションは1つのショッピングイベントにおいて複数のアイテムを購入した記録を指す)。
短期的利用者の嗜好は現在のニーズや関心を満足させる可能性があるが、長期的利用者の嗜好は、ユーザと対話する可能性のあるアイテムを最終的にユーザに提供する。
本論文では,まず一般rssの性能向上に焦点をあてる。
既存の一般的なrssのほとんどは、共通項目のユーザの評価パターンを利用して類似したユーザを検出する傾向がある。
データ空間の問題(すなわち)
利用可能な情報の欠如)は、現在の一般RSにとって大きな課題の1つであり、ユーザ間で共通の関心事がない場合、推奨されない可能性がある。
この問題を共通項目(dsw-n-fci)に対するフィードバックなしでデータスパーシティと呼ぶ。
そこで本研究では,類似した特徴の類似性に基づいて類似ユーザを識別するパーソナリティベースのRSを提案する。 Recommender systems (RSs) have emerged as very useful tools to help customers with their decision-making process, find items of their interest, and alleviate the information overload problem. There are two different lines of approaches in RSs: (1) general recommenders with the main goal of discovering long-term users' preferences, and (2) sequential recommenders with the main focus of capturing short-term users' preferences in a session of user-item interaction (here, a session refers to a record of purchasing multiple items in one shopping event). While considering short-term users' preferences may satisfy their current needs and interests, long-term users' preferences provide users with the items that they may interact with, eventually. In this thesis, we first focus on improving the performance of general RSs. Most of the existing general RSs tend to exploit the users' rating patterns on common items to detect similar users. The data sparsity problem (i.e. the lack of available information) is one of the major challenges for the current general RSs, and they may fail to have any recommendations when there are no common items of interest among users. We call this problem data sparsity with no feedback on common items (DSW-n-FCI). To overcome this problem, we propose a personality-based RS in which similar users are identified based on the similarity of their personality traits. | 翻訳日:2021-07-07 05:11:03 公開日:2021-07-04 |
# (参考訳) テキストカーネルを用いた堅牢なエンドツーエンドオフライン中国語手書きテキストページスポッター Robust End-to-End Offline Chinese Handwriting Text Page Spotter with Text Kernel ( http://arxiv.org/abs/2107.01547v1 ) ライセンス: CC BY 4.0 | Zhihao Wang, Yanwei Yu, Yibo Wang, Haixu Long, and Fazheng Wang | (参考訳) オフライン中国文字テキスト認識は、パターン認識分野における長年の研究課題である。
これまでの研究では、テキストの検出と認識は分離されており、テキスト認識は検出結果に大きく依存している。
本稿では,頑健なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合し、グローバルテキスト特徴情報を統合することで、複数のスケールからの認識を最適化し、検出の依存性を低減し、システムの堅牢性を向上させる。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
言語モデルがなければ、正しいレートは行レベルの認識では99.12%、94.27%、ページレベルの認識では99.03%、94.20%である。 Offline Chinese handwriting text recognition is a long-standing research topic in the field of pattern recognition. In previous studies, text detection and recognition are separated, which leads to the fact that text recognition is highly dependent on the detection results. In this paper, we propose a robust end-to-end Chinese text page spotter framework. It unifies text detection and text recognition with text kernel that integrates global text feature information to optimize the recognition from multiple scales, which reduces the dependence of detection and improves the robustness of the system. Our method achieves state-of-the-art results on the CASIA-HWDB2.0-2.2 dataset and ICDAR-2013 competition dataset. Without any language model, the correct rates are 99.12% and 94.27% for line-level recognition, and 99.03% and 94.20% for page-level recognition, respectively. | 翻訳日:2021-07-07 05:09:38 公開日:2021-07-04 |
# (参考訳) SSPNet:UAV画像からのTiny Person検出のためのスケール選択ピラミッドネットワーク SSPNet: Scale Selection Pyramid Network for Tiny Person Detection from UAV Images ( http://arxiv.org/abs/2107.01548v1 ) ライセンス: CC BY 4.0 | Mingbo Hong, Shuiwang Li, Yuchao Yang, Feiyu Zhu, Qijun Zhao and Li Lu | (参考訳) 捜索・救助の需要が高まる中、無人航空機(uav)が捉えた大規模画像に対して興味のある物体を検出することが極めて求められている。
既存のほとんどの手法では、ディープレイヤのコンテキスト特徴を組み合わせて浅いレイヤの機能を充実させるためにFeature Pyramid Network (FPN) を使用していた。
しかし、異なる層にまたがる勾配計算の不整合性の制限により、FPNの浅い層は、微小物体を検出するために完全には利用されない。
本稿では、コンテキストアテンションモジュール(CAM)、スケールエンハンスメントモジュール(SEM)、スケールセレクションモジュール(SSM)の3つのコンポーネントからなる、小さな人物検出のためのスケール選択ピラミッドネットワーク(SSPNet)を提案する。
CAMはコンテキスト情報を考慮し、階層的な熱マップを生成する。
SEMは異なる層における特定のスケールの特徴を強調し、広い背景ではなく特定のスケールのオブジェクトに焦点を当てる。
SSMは、隣接するレイヤの関係を利用して、深いレイヤと浅いレイヤ間の適切な機能共有を実現し、異なるレイヤ間の勾配計算の不整合を回避する。
さらに,より代表的なサンプルを選択するために,検出器を誘導するWNS(Weighted Negative Smpling)戦略を提案する。
TinyPersonベンチマークの実験により、我々の手法は他のSOTA検出器よりも優れていることが示された。 With the increasing demand for search and rescue, it is highly demanded to detect objects of interest in large-scale images captured by Unmanned Aerial Vehicles (UAVs), which is quite challenging due to extremely small scales of objects. Most existing methods employed Feature Pyramid Network (FPN) to enrich shallow layers' features by combing deep layers' contextual features. However, under the limitation of the inconsistency in gradient computation across different layers, the shallow layers in FPN are not fully exploited to detect tiny objects. In this paper, we propose a Scale Selection Pyramid network (SSPNet) for tiny person detection, which consists of three components: Context Attention Module (CAM), Scale Enhancement Module (SEM), and Scale Selection Module (SSM). CAM takes account of context information to produce hierarchical attention heatmaps. SEM highlights features of specific scales at different layers, leading the detector to focus on objects of specific scales instead of vast backgrounds. SSM exploits adjacent layers' relationships to fulfill suitable feature sharing between deep layers and shallow layers, thereby avoiding the inconsistency in gradient computation across different layers. Besides, we propose a Weighted Negative Sampling (WNS) strategy to guide the detector to select more representative samples. Experiments on the TinyPerson benchmark show that our method outperforms other state-of-the-art (SOTA) detectors. | 翻訳日:2021-07-07 04:59:11 公開日:2021-07-04 |
# (参考訳) グラフクラスタリングによる情報深層学習の不確かさの活用による異常検出 Leveraging Evidential Deep Learning Uncertainties with Graph-based Clustering to Detect Anomalies ( http://arxiv.org/abs/2107.01557v1 ) ライセンス: CC BY 4.0 | Sandeep Kumar Singh, Jaya Shradha Fowdur, Jakob Gawlikowski and Daniel Medina | (参考訳) トラフィックパターンの理解と表現は、海洋領域における異常を検出する鍵となる。
そこで本研究では,自動識別システム(ais)データを用いて,船舶の軌跡をクラスタ化するためのグラフベーストラヒック表現とアソシエーションスキームを提案する。
我々は、(非)クラスタデータを用いて、リカレントニューラルネットワーク(RNN)に基づく明らかな回帰モデルをトレーニングし、それに対応する予測不確実性によって、将来のタイミングで船の軌道を予測できる。
本稿では, 深層学習(DL)に基づく不確実性推定を, 異常な船体操作などの海洋異常の検出に利用することを提案する。
さらに, 既知の深層学習分類器を用いて, 不確かさを伴う予測クラス確率を用いて, 血管の異常な回転やais信号の損失を検出する。
実験の結果,グラフに基づくクラスタ化データを用いることで,dlモデルの時間空間相関と関連する不確かさを学習する能力が向上することが示唆された。
異なるaisデータセットと実験を用いて,推定予測の不確かさは,海事および他の領域における交通異常の検出に基礎的な情報をもたらすことを実証する。 Understanding and representing traffic patterns are key to detecting anomalies in the maritime domain. To this end, we propose a novel graph-based traffic representation and association scheme to cluster trajectories of vessels using automatic identification system (AIS) data. We utilize the (un)clustered data to train a recurrent neural network (RNN)-based evidential regression model, which can predict a vessel's trajectory at future timesteps with its corresponding prediction uncertainty. This paper proposes the usage of a deep learning (DL)-based uncertainty estimation in detecting maritime anomalies, such as unusual vessel maneuvering. Furthermore, we utilize the evidential deep learning classifiers to detect unusual turns of vessels and the loss of AIS signal using predicted class probabilities with associated uncertainties. Our experimental results suggest that using graph-based clustered data improves the ability of the DL models to learn the temporal-spatial correlation of data and associated uncertainties. Using different AIS datasets and experiments, we demonstrate that the estimated prediction uncertainty yields fundamental information for the detection of traffic anomalies in the maritime and, possibly in other domains. | 翻訳日:2021-07-07 04:45:20 公開日:2021-07-04 |
# (参考訳) ガウス過程としての無限幅限界におけるランダムニューラルネットワーク Random Neural Networks in the Infinite Width Limit as Gaussian Processes ( http://arxiv.org/abs/2107.01562v1 ) ライセンス: CC BY 4.0 | Boris Hanin | (参考訳) 本稿では、入力次元、出力次元、深さが固定された状態において、ランダムな重みとバイアスを持つ完全連結ニューラルネットワークがガウス過程に収束し、隠れた層幅が無限大になることを示す。
以前の仕事とは異なり、収束は重みの分布と非常に一般的な非線形性のモーメント条件のみを仮定している。 This article gives a new proof that fully connected neural networks with random weights and biases converge to Gaussian processes in the regime where the input dimension, output dimension, and depth are kept fixed, while the hidden layer widths tend to infinity. Unlike prior work, convergence is shown assuming only moment conditions for the distribution of weights and for quite general non-linearities. | 翻訳日:2021-07-07 04:17:15 公開日:2021-07-04 |
# (参考訳) 音声指向マルチモーダルマシン理解:タスク、データセット、モデル Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model ( http://arxiv.org/abs/2107.01571v1 ) ライセンス: CC BY 4.0 | Zhiqi Huang, Fenglin Liu, Xian Wu, Shen Ge, Helin Wang, Wei Fan, Yuexian Zou | (参考訳) 近年,機械理解(MC)の研究が盛んに行われているが,既存の手法は主にテキスト入力(パラグラフや質問)をマイニングして回答(選択やテキストスパン)を予測する機械読解タスクのカテゴリに属する。
しかし、例えば、テキスト入力に加えて、オーディオ入力を受け入れる多くのmcタスクがある。
英語の聞き取りテスト。
本稿では,音声指向型マルチモーダルマシン理解の課題を対象とし,与えられた音声情報とテキスト情報に基づいて質問に答えることを目的とする。
そこで本研究では,2つのモダリティ(音声とテクスト)を効果的に融合する動的モード間注意(diia)モデルを提案する。
DIIAは独立したコンポーネントとして機能し、既存のMCモデルに容易に統合できる。
さらに,マルチモーダルMCモデルにより,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールも開発している。
その結果、提案手法は、音声指向マルチモーダルマシン理解、機械読み取り理解、機械リスニング理解といった様々なタスクを単一のモデルで処理でき、我々のモデルと既存のユニモーダルmcモデルとの公平な比較が可能となる。
実験結果と解析により,提案手法の有効性が証明された。
第2に、ユニモーダルなシナリオでは、マルチモーダルmcモデルは、オーディオまたはテキストデータのみを使用してトレーニングおよびテストされる、最大18.87%のユニモーダルモデルを大幅に上回ることができる。 While Machine Comprehension (MC) has attracted extensive research interests in recent years, existing approaches mainly belong to the category of Machine Reading Comprehension task which mines textual inputs (paragraphs and questions) to predict the answers (choices or text spans). However, there are a lot of MC tasks that accept audio input in addition to the textual input, e.g. English listening comprehension test. In this paper, we target the problem of Audio-Oriented Multimodal Machine Comprehension, and its goal is to answer questions based on the given audio and textual information. To solve this problem, we propose a Dynamic Inter- and Intra-modality Attention (DIIA) model to effectively fuse the two modalities (audio and textual). DIIA can work as an independent component and thus be easily integrated into existing MC models. Moreover, we further develop a Multimodal Knowledge Distillation (MKD) module to enable our multimodal MC model to accurately predict the answers based only on either the text or the audio. As a result, the proposed approach can handle various tasks including: Audio-Oriented Multimodal Machine Comprehension, Machine Reading Comprehension and Machine Listening Comprehension, in a single model, making fair comparisons possible between our model and the existing unimodal MC models. Experimental results and analysis prove the effectiveness of the proposed approaches. First, the proposed DIIA boosts the baseline models by up to 21.08% in terms of accuracy; Second, under the unimodal scenarios, the MKD module allows our multimodal MC model to significantly outperform the unimodal models by up to 18.87%, which are trained and tested with only audio or textual data. | 翻訳日:2021-07-07 03:49:47 公開日:2021-07-04 |
# (参考訳) 3次元セマンティクスセグメンテーションのための類似性アウェア・フュージョンネットワーク Similarity-Aware Fusion Network for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.01579v1 ) ライセンス: CC BY-SA 4.0 | Linqing Zhao, Jiwen Lu and Jie Zhou | (参考訳) 本稿では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
既存の融合法は、複数のモーダルからの情報を統合することで優れた性能を達成する。
しかし、2Dピクセルと3Dポイントの対応をプロジェクションによって大きく依存しており、情報融合のみを一定の方法で行うことができるため、収集したデータに厳密なペアワイズ機能がないような現実的なシナリオに容易に移行することはできない。
そこで我々は,入力とバックプロジェクション(2dピクセルから)点雲の幾何学的・文脈的類似性を学習し,これらを用いて2つのモーダルの融合を導くことで,補完的情報を活用する。
具体的には、幾何学的類似度モジュール(GSM)を用いて、対の3次元近傍の空間座標分布を直接比較し、文脈類似度モジュール(CSM)を用いて対応する中心点の空間座標情報を集約・比較する。
提案された2つのモジュールは、画像特徴が予測にどの程度役立つかを効果的に測定することができ、ネットワークが各ポイントの最終予測に対する2つのモダリティの寄与を適応的に調整することができる。
ScanNetV2ベンチマークの実験結果は、SAFNetが様々なデータ完全性にわたって既存の最先端の融合ベースのアプローチを著しく上回っていることを示している。 In this paper, we propose a similarity-aware fusion network (SAFNet) to adaptively fuse 2D images and 3D point clouds for 3D semantic segmentation. Existing fusion-based methods achieve remarkable performances by integrating information from multiple modalities. However, they heavily rely on the correspondence between 2D pixels and 3D points by projection and can only perform the information fusion in a fixed manner, and thus their performances cannot be easily migrated to a more realistic scenario where the collected data often lack strict pair-wise features for prediction. To address this, we employ a late fusion strategy where we first learn the geometric and contextual similarities between the input and back-projected (from 2D pixels) point clouds and utilize them to guide the fusion of two modalities to further exploit complementary information. Specifically, we employ a geometric similarity module (GSM) to directly compare the spatial coordinate distributions of pair-wise 3D neighborhoods, and a contextual similarity module (CSM) to aggregate and compare spatial contextual information of corresponding central points. The two proposed modules can effectively measure how much image features can help predictions, enabling the network to adaptively adjust the contributions of two modalities to the final prediction of each point. Experimental results on the ScanNetV2 benchmark demonstrate that SAFNet significantly outperforms existing state-of-the-art fusion-based approaches across various data integrity. | 翻訳日:2021-07-07 03:33:13 公開日:2021-07-04 |
# (参考訳) オープンドメイン・コモンセンス質問に対する意味的知識の探索 Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain Commonsense Question Answering ( http://arxiv.org/abs/2107.01592v1 ) ライセンス: CC BY 4.0 | Luxi Xing, Yue Hu, Jing Yu, Yuqiang Xie, Wei Peng | (参考訳) 外部知識を活用して、バックグラウンドコモンセンスが必要な質問にマシンが答えるのを助けることが一般的であり、無限の知識がノイズや誤解を招く情報を送信するという問題に直面している。
関連知識の導入をめざして,包括的に知識注入を制御する意味駆動型知識認識QAフレームワークを提案する。
我々は,知識抽出段階における質問の粗い意味をモニタリングする際,抽出した知識をフィルタリングする調整戦略を考案した。
また,構造的知識情報を取り込んで適切な知識を階層的に融合する,意味認識型知識フェッチモジュールを開発した。
実験により,提案手法は強いベースラインと比較し,CommonsenseQAデータセットの性能向上を図っている。 It is prevalent to utilize external knowledge to help machine answer questions that need background commonsense, which faces a problem that unlimited knowledge will transmit noisy and misleading information. Towards the issue of introducing related knowledge, we propose a semantic-driven knowledge-aware QA framework, which controls the knowledge injection in a coarse-to-careful fashion. We devise a tailoring strategy to filter extracted knowledge under monitoring of the coarse semantic of question on the knowledge extraction stage. And we develop a semantic-aware knowledge fetching module that engages structural knowledge information and fuses proper knowledge according to the careful semantic of questions in a hierarchical way. Experiments demonstrate that the proposed approach promotes the performance on the CommonsenseQA dataset comparing with strong baselines. | 翻訳日:2021-07-07 03:15:55 公開日:2021-07-04 |
# (参考訳) 色呈色効果に対する深部エッジ対応インタラクティブカラー化 Deep Edge-Aware Interactive Colorization against Color-Bleeding Effects ( http://arxiv.org/abs/2107.01619v1 ) ライセンス: CC BY 4.0 | Eungyeup Kim, Sanghyeon Lee, Jeonghoon Park, Somi Choi, Choonghyun Seo, Jaegul Choo | (参考訳) 深層画像の着色ネットワークはしばしば、隣接する物体の境界付近に色が広がる色鮮やかな人工物に悩まされる。
色出血アーチファクトは生成された出力の現実を損ね、実用的応用における着色モデルの適用性を制限する。
従来のアプローチでは、この問題を自動で解決していたが、入力画像のグレースケール値のコントラストが高いような限られたケースでのみ利用できるため、しばしば不完全な出力を生成する。
代わりに、ユーザインタラクションを活用することは、望ましい領域におけるエッジ修正に役立つため、有望なアプローチになるでしょう。
本稿では,興味のある領域を対象とした新しいエッジ・エンハンス・フレームワークを提案する。
本手法では,満足な改善を得るためには最小限のユーザ努力が必要である。
各種データセットにおける実験結果から,既存のベースラインに対するカラーブレッドアーティファクトの改善において,インタラクティブなアプローチが優れた性能を示している。 Deep image colorization networks often suffer from the color-bleeding artifact, a problematic color spreading near the boundaries between adjacent objects. The color-bleeding artifacts debase the reality of generated outputs, limiting the applicability of colorization models on a practical application. Although previous approaches have tackled this problem in an automatic manner, they often generate imperfect outputs because their enhancements are available only in limited cases, such as having a high contrast of gray-scale value in an input image. Instead, leveraging user interactions would be a promising approach, since it can help the edge correction in the desired regions. In this paper, we propose a novel edge-enhancing framework for the regions of interest, by utilizing user scribbles that indicate where to enhance. Our method requires minimal user effort to obtain satisfactory enhancements. Experimental results on various datasets demonstrate that our interactive approach has outstanding performance in improving color-bleeding artifacts against the existing baselines. | 翻訳日:2021-07-07 03:06:32 公開日:2021-07-04 |
# (参考訳) マルウェア解析のための補助分類GAN Auxiliary-Classifier GAN for Malware Analysis ( http://arxiv.org/abs/2107.01620v1 ) ライセンス: CC BY 4.0 | Rakesh Nagaraju and Mark Stamp | (参考訳) generative adversarial networks(gan)は、生成モデルと識別モデルの両方を同時にトレーニングする、強力な機械学習テクニックのクラスである。
例えば、ganは「ディープフェイク」画像をうまく生成するために使われてきた。
最近のマルウェア研究のトレンドは、実行可能ファイルを画像として扱い、画像に基づく分析技術を採用することである。
本研究では、補助分類器GAN(AC-GAN)を用いて偽のマルウェア画像を生成し、その結果を分類する様々な手法の有効性を検討する。
この結果から, 実検体と偽検体を区別する問題に制限を加えると, 結果の多クラス分類が困難であることが示唆された。
AC-GAN生成画像は、実際のマルウェア画像と非常によく似ているが、深層学習の観点からは、AC-GAN生成画像は深い偽のマルウェア画像のレベルに上昇しない、と結論付けている。 Generative adversarial networks (GAN) are a class of powerful machine learning techniques, where both a generative and discriminative model are trained simultaneously. GANs have been used, for example, to successfully generate "deep fake" images. A recent trend in malware research consists of treating executables as images and employing image-based analysis techniques. In this research, we generate fake malware images using auxiliary classifier GANs (AC-GAN), and we consider the effectiveness of various techniques for classifying the resulting images. Our results indicate that the resulting multiclass classification problem is challenging, yet we can obtain strong results when restricting the problem to distinguishing between real and fake samples. While the AC-GAN generated images often appear to be very similar to real malware images, we conclude that from a deep learning perspective, the AC-GAN generated samples do not rise to the level of deep fake malware images. | 翻訳日:2021-07-07 02:48:41 公開日:2021-07-04 |
# (参考訳) マルウェア進化検出のための機械学習 Machine Learning for Malware Evolution Detection ( http://arxiv.org/abs/2107.01627v1 ) ライセンス: CC BY 4.0 | Lolitha Sresta Tupadha and Mark Stamp | (参考訳) マルウェアは時間とともに進化し、ウイルスはそのような進化に適応しなければならない。
したがって、マルウェアが進化した時点でこれらの点を検出することが重要であり、適切な対策が実施できる。
本研究では,マルウェアの進化がいつ起こるかを決定するために,かなりの数のマルウェアファミリーについて様々な実験を行った。
私たちが考慮している進化検出技術はすべて機械学習に基づいており、完全に自動化することができる。
具体的には,隠れマルコフモデル (HMM) と単語埋め込み技術 HMM2Vec と Word2Vec を用いて解析を行う。 Malware evolves over time and antivirus must adapt to such evolution. Hence, it is critical to detect those points in time where malware has evolved so that appropriate countermeasures can be undertaken. In this research, we perform a variety of experiments on a significant number of malware families to determine when malware evolution is likely to have occurred. All of the evolution detection techniques that we consider are based on machine learning and can be fully automated -- in particular, no reverse engineering or other labor-intensive manual analysis is required. Specifically, we consider analysis based on hidden Markov models (HMM) and the word embedding techniques HMM2Vec and Word2Vec. | 翻訳日:2021-07-07 02:47:36 公開日:2021-07-04 |
# (参考訳) 高速かつロバストな統合のための微分同型によるODEの学習 Learning ODEs via Diffeomorphisms for Fast and Robust Integration ( http://arxiv.org/abs/2107.01650v1 ) ライセンス: CC BY 4.0 | Weiming Zhi, Tin Lai, Lionel Ott, Edwin V. Bonilla, Fabio Ramos | (参考訳) 微分可能な数値積分器の進歩により、勾配降下法を用いて通常の微分方程式(ODE)を学習できるようになった。
機械学習の文脈では、微分可能な解法は、離散層ではなく、連続的な深さを持つディープラーニングモデルのクラスであるNeural ODE(NODE)の中心である。
しかし、これらの積分器は、長いシーケンスからODEのシステムを学ぶときや、システムの解が各次元で大きく異なる時間スケールで変化するとき、不満足に遅く不正確な場合がある。
本稿では,データからODEを学習する代替手法を提案し,その基礎となるODEを,可逆ニューラルネットワークによってモデル化された微分ビジェクションにより,他の基底ベクトル場と関連するベクトル場として表現する。
ベースODEを統合に適するように制限することで、私たちは大幅にスピードアップし、統合の堅牢性を向上させることができます。
本稿では,連続ニューラルネットワークモデルのトレーニングと評価,およびベンチマークODEシステムの学習における本手法の有効性を示す。
我々は、学習したODEとGPUの計算を統合する際に、最大2桁の改善を観察する。 Advances in differentiable numerical integrators have enabled the use of gradient descent techniques to learn ordinary differential equations (ODEs). In the context of machine learning, differentiable solvers are central for Neural ODEs (NODEs), a class of deep learning models with continuous depth, rather than discrete layers. However, these integrators can be unsatisfactorily slow and inaccurate when learning systems of ODEs from long sequences, or when solutions of the system vary at widely different timescales in each dimension. In this paper we propose an alternative approach to learning ODEs from data: we represent the underlying ODE as a vector field that is related to another base vector field by a differentiable bijection, modelled by an invertible neural network. By restricting the base ODE to be amenable to integration, we can drastically speed up and improve the robustness of integration. We demonstrate the efficacy of our method in training and evaluating continuous neural networks models, as well as in learning benchmark ODE systems. We observe improvements of up to two orders of magnitude when integrating learned ODEs with GPUs computation. | 翻訳日:2021-07-07 02:31:00 公開日:2021-07-04 |
# (参考訳) 知識コンパイル言語のための効率的な説明 Efficient Explanations for Knowledge Compilation Languages ( http://arxiv.org/abs/2107.01654v1 ) ライセンス: CC BY 4.0 | Xuanxiang Huang and Yacine Izza and Alexey Ignatiev and Martin C. Cooper and Nicholas Asher and Joao Marques-Silva | (参考訳) 知識コンパイル(KC)言語は、制約プログラミング(CP)や機械学習(ML)など、実用的な用途が増えている。
ほとんどのアプリケーションにおいて、自然な疑問は、KC言語で表されるモデルによる決定をどのように説明するかである。
本稿では、最もよく知られたkc言語の多くにおいて、よく知られた説明クラスを多項式時間で計算できることを示す。
これらのクラスには、決定論的分解可能な否定正規形式(d-DNNF)が含まれ、したがって、d-DNNFよりも厳密に簡潔でない任意のKC言語が含まれる。
さらに,説明の多項式時間計算を,d-DNNFよりも簡潔なKC言語に拡張できる条件についても検討した。 Knowledge compilation (KC) languages find a growing number of practical uses, including in Constraint Programming (CP) and in Machine Learning (ML). In most applications, one natural question is how to explain the decisions made by models represented by a KC language. This paper shows that for many of the best known KC languages, well-known classes of explanations can be computed in polynomial time. These classes include deterministic decomposable negation normal form (d-DNNF), and so any KC language that is strictly less succinct than d-DNNF. Furthermore, the paper also investigates the conditions under which polynomial time computation of explanations can be extended to KC languages more succinct than d-DNNF. | 翻訳日:2021-07-07 02:09:50 公開日:2021-07-04 |
# (参考訳) IITP at WAT 2021: System description for English-Hindi Multimodal Translation Task IITP at WAT 2021: System description for English-Hindi Multimodal Translation Task ( http://arxiv.org/abs/2107.01656v1 ) ライセンス: CC BY 4.0 | Baban Gain and Dibyanayan Bandyopadhyay and Asif Ekbal | (参考訳) ニューラルマシン翻訳(nmt)は、エンドツーエンドのトレーニング可能な柔軟性のため、今日では主要な機械翻訳技術である。
しかし、nmtは、特に遠方の言語ペアの低リソース設定で適切に翻訳するのに苦労している。
これを克服する1つの方法は、他のモダリティからの情報を使用することである。
言語の違いにもかかわらず、ソースとターゲットの両方の言語話者は、同じものを見て、ソースとターゲットの両方の視覚的表現は同じであり、システムの正の助けとなる。
マルチモーダル情報は、NMTシステムがいくつかのフレーズや単語の曖昧さを取り除くことで翻訳を改善するのに役立つ。
第8回アジア語訳ワークショップ(wat - 2021)に参加し,評価のための42.47点と37.50点をそれぞれ達成した。 Neural Machine Translation (NMT) is a predominant machine translation technology nowadays because of its end-to-end trainable flexibility. However, NMT still struggles to translate properly in low-resource settings specifically on distant language pairs. One way to overcome this is to use the information from other modalities if available. The idea is that despite differences in languages, both the source and target language speakers see the same thing and the visual representation of both the source and target is the same, which can positively assist the system. Multimodal information can help the NMT system to improve the translation by removing ambiguity on some phrases or words. We participate in the 8th Workshop on Asian Translation (WAT - 2021) for English-Hindi multimodal translation task and achieve 42.47 and 37.50 BLEU points for Evaluation and Challenge subset, respectively. | 翻訳日:2021-07-07 01:48:06 公開日:2021-07-04 |
# (参考訳) クラスイントロスペクション:分類器説明可能性法を用いた未ラベルサブクラスの検出手法 Class Introspection: A Novel Technique for Detecting Unlabeled Subclasses by Leveraging Classifier Explainability Methods ( http://arxiv.org/abs/2107.01657v1 ) ライセンス: CC BY-SA 4.0 | Patrick Kage, Pavlos Andreadis | (参考訳) データセット内で潜在構造を検出することは、データセットの分析を行うための重要なステップである。
しかし、サブクラス発見のための既存の最先端の技術は限られており、非常に少数の異常値を検出するか、画像やオーディオのような複雑なデータを扱う統計力が欠けている。
本稿では,このサブクラス発見問題の解法を提案する。インスタンス説明手法を利用することで,既存の分類器を拡張して,各インスタンスに関する分類器の内部決定の相違を通じて潜在クラスを検出する。
これは単純な分類技術だけでなく、ディープニューラルネットワークでも機能し、データセット内の潜在構造を検出するための強力で柔軟なアプローチを可能にする。
これは事実上、データセットを分類器の「説明空間」に投影し、予備的な結果は、限られた処理でも潜在クラス検出のベースラインを上回っていることを示している。
本稿では,分類器を自動解析するパイプラインと,この手法による結果を対話的に探索するWebアプリケーションを含む。 Detecting latent structure within a dataset is a crucial step in performing analysis of a dataset. However, existing state-of-the-art techniques for subclass discovery are limited: either they are limited to detecting very small numbers of outliers or they lack the statistical power to deal with complex data such as image or audio. This paper proposes a solution to this subclass discovery problem: by leveraging instance explanation methods, an existing classifier can be extended to detect latent classes via differences in the classifier's internal decisions about each instance. This works not only with simple classification techniques but also with deep neural networks, allowing for a powerful and flexible approach to detecting latent structure within datasets. Effectively, this represents a projection of the dataset into the classifier's "explanation space," and preliminary results show that this technique outperforms the baseline for the detection of latent classes even with limited processing. This paper also contains a pipeline for analyzing classifiers automatically, and a web application for interactively exploring the results from this technique. | 翻訳日:2021-07-07 01:43:03 公開日:2021-07-04 |
# (参考訳) Birkhoff Polytopeによるベイズネットワークの学習:緩和法 Learning Bayesian Networks through Birkhoff Polytope: A Relaxation Method ( http://arxiv.org/abs/2107.01658v1 ) ライセンス: CC BY 4.0 | Aramayis Dallakyan and Mohsen Pourahmadi | (参考訳) ガウス型線形構造方程式モデルからデータを生成する際に有向非巡回グラフ(dag)を学習するための新しい枠組みを確立する。
1) 正規化ガウス対数様のパラメータとして置換行列を導入して変数順序を表現し、(2) 順序付けを与えられた場合、逆共分散行列のスパース・チョレスキー因子を通してDAG構造を推定する。
置換行列推定のために, 順序推定のnp-hard combinatorial問題を回避する緩和手法を提案する。
順序付けを与えられた場合、行ごとに分離する巡回座標降下アルゴリズムを用いてスパースチョレスキー因子を推定する。
本フレームワークは,非循環性制約の高価な検証や,可能な親集合の列挙を必要とせずにDAGを復元する。
アルゴリズムの数値収束と、変数の順序が分かっている場合のcholesky因子推定器の一貫性を確立する。
複数のシミュレーションおよびマクロ経済データセットを用いて,提案手法の適用範囲と性能について検討した。 We establish a novel framework for learning a directed acyclic graph (DAG) when data are generated from a Gaussian, linear structural equation model. It consists of two parts: (1) introduce a permutation matrix as a new parameter within a regularized Gaussian log-likelihood to represent variable ordering; and (2) given the ordering, estimate the DAG structure through sparse Cholesky factor of the inverse covariance matrix. For permutation matrix estimation, we propose a relaxation technique that avoids the NP-hard combinatorial problem of order estimation. Given an ordering, a sparse Cholesky factor is estimated using a cyclic coordinatewise descent algorithm which decouples row-wise. Our framework recovers DAGs without the need for an expensive verification of the acyclicity constraint or enumeration of possible parent sets. We establish numerical convergence of the algorithm, and consistency of the Cholesky factor estimator when the order of variables is known. Through several simulated and macro-economic datasets, we study the scope and performance of the proposed methodology. | 翻訳日:2021-07-07 01:30:41 公開日:2021-07-04 |
# (参考訳) 動的作業記憶を用いた認知視覚コモンセンス推論 Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory ( http://arxiv.org/abs/2107.01671v1 ) ライセンス: CC0 1.0 | Xuejiao Tang | (参考訳) Visual Commonsense Reasoning (VCR) は、質問画像入力によって、対応する合理的な答えを予測する。
vcrは、視覚質問応答、自動車両システム、臨床判断サポートなど、幅広いアプリケーションを備えた、最近導入されたビジュアルシーン理解タスクである。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
しかし、これらのアプローチは一般化可能性と事前知識の欠如に苦しむ。
本稿では,文間の累積コモンセンスを格納し,推論のための事前知識を提供する動的作業記憶型認知vcrネットワークを提案する。
広範な実験により、提案モデルがベンチマークvcrデータセットの既存の方法を大幅に改善できることが示されている。
さらに,提案モデルは視覚的コモンセンス推論の直感的な解釈を提供する。
私たちのメカニズムのPython実装はhttps://github.com/tanjatang/DMVCRで公開されています。 Visual Commonsense Reasoning (VCR) predicts an answer with corresponding rationale, given a question-image input. VCR is a recently introduced visual scene understanding task with a wide range of applications, including visual question answering, automated vehicle systems, and clinical decision support. Previous approaches to solving the VCR task generally rely on pre-training or exploiting memory with long dependency relationship encoded models. However, these approaches suffer from a lack of generalizability and prior knowledge. In this paper we propose a dynamic working memory based cognitive VCR network, which stores accumulated commonsense between sentences to provide prior knowledge for inference. Extensive experiments show that the proposed model yields significant improvements over existing methods on the benchmark VCR dataset. Moreover, the proposed model provides intuitive interpretation into visual commonsense reasoning. A Python implementation of our mechanism is publicly available at https://github.com/tanjatang/DMVCR | 翻訳日:2021-07-07 01:09:48 公開日:2021-07-04 |
# (参考訳) COVID-VIT:視覚トランスフォーマーモデルに基づくCT胸部画像からのCOVID-19の分類 COVID-VIT: Classification of COVID-19 from CT chest images based on vision transformer models ( http://arxiv.org/abs/2107.01682v1 ) ライセンス: CC BY 4.0 | Xiaohong Gao, Yu Qian, Alice Gao | (参考訳) この論文は、CT肺画像に基づいて、非COVIDからCOVIDを分類するMIA-COV19チャレンジに対応している。
新型コロナウイルス(COVID-19)は1億8200万人以上の人に感染し、390万人以上の死者を出した。
新型コロナウイルスの診断を胸部X線写真から予測することを目的としており、説明可能な視覚変換器の深層学習技術を開発し、より迅速で正確で透明な方法で個体検診を行う。
このコンペでは、トレーニング用1552、評価用374、テスト用3455など、合計5381の3Dデータセットが提供されている。
データボリュームのほとんどが軸方向のビューであるが、1つまたは2つのスライスを持つ冠状または矢状方向のビューは軸方向のビューである。
したがって、3Dデータに基づく分類が研究されているが、このコンペでは2D画像が中心となっている。
注目モデルに基づく視覚変換器(ViT)と従来の畳み込みニューラルネットワーク(CNN)に基づくDenseNetの2つのディープラーニング手法について検討した。
検証データセットに基づく初期評価結果は、VTがそれぞれ0.76と0.72のスコアを持つDenseNetよりも優れていることを示している。
コードはgithubのhttps://github/xiaohong1/covid-vit>で入手できる。 This paper is responding to the MIA-COV19 challenge to classify COVID from non-COVID based on CT lung images. The COVID-19 virus has devastated the world in the last eighteen months by infecting more than 182 million people and causing over 3.9 million deaths. The overarching aim is to predict the diagnosis of the COVID-19 virus from chest radiographs, through the development of explainable vision transformer deep learning techniques, leading to population screening in a more rapid, accurate and transparent way. In this competition, there are 5381 three-dimensional (3D) datasets in total, including 1552 for training, 374 for evaluation and 3455 for testing. While most of the data volumes are in axial view, there are a number of subjects' data are in coronal or sagittal views with 1 or 2 slices are in axial view. Hence, while 3D data based classification is investigated, in this competition, 2D images remains the main focus. Two deep learning methods are studied, which are vision transformer (ViT) based on attention models and DenseNet that is built upon conventional convolutional neural network (CNN). Initial evaluation results based on validation datasets whereby the ground truth is known indicate that ViT performs better than DenseNet with F1 scores being 0.76 and 0.72 respectively. Codes are available at GitHub at <https://github/xiaohong1/COVID-ViT>. | 翻訳日:2021-07-07 00:59:42 公開日:2021-07-04 |
# (参考訳) 活性化関数の異なるフィードフォワードニューラルネットワークのデータ駆動学習 Data-Driven Learning of Feedforward Neural Networks with Different Activation Functions ( http://arxiv.org/abs/2107.01702v1 ) ライセンス: CC BY 4.0 | Grzegorz Dudek | (参考訳) この研究は、フィードフォワードニューラルネットワーク(FNN)学習の新しいデータ駆動手法(D-DM)の開発に寄与する。
近年,ネットワークパラメータを対象関数の変動に調整することにより,FNNのランダム化学習を改善する手法として提案されている。
この方法は隠れノードに対してロジスティックシグモイド活性化関数を用いる。
本研究では,双極性シグミド,正弦関数,飽和線形関数,reLU,ソフトプラスなどの他の活性化関数を紹介する。
我々はそれらのパラメータ、すなわち、公式を導出する。
重みとバイアス。
本研究では,FNNデータ駆動学習の性能を,異なるアクティベーション関数で評価する。
その結果,シグモイド活性化関数は複雑な変動対象関数の近似において,他の関数よりも優れていた。 This work contributes to the development of a new data-driven method (D-DM) of feedforward neural networks (FNNs) learning. This method was proposed recently as a way of improving randomized learning of FNNs by adjusting the network parameters to the target function fluctuations. The method employs logistic sigmoid activation functions for hidden nodes. In this study, we introduce other activation functions, such as bipolar sigmoid, sine function, saturating linear functions, reLU, and softplus. We derive formulas for their parameters, i.e. weights and biases. In the simulation study, we evaluate the performance of FNN data-driven learning with different activation functions. The results indicate that the sigmoid activation functions perform much better than others in the approximation of complex, fluctuated target functions. | 翻訳日:2021-07-07 00:54:02 公開日:2021-07-04 |
# (参考訳) 複数の季節性を有する時系列予測のためのランダム化ニューラルネットワーク Randomized Neural Networks for Forecasting Time Series with Multiple Seasonality ( http://arxiv.org/abs/2107.01705v1 ) ライセンス: CC BY 4.0 | Grzegorz Dudek | (参考訳) この研究は、新しいランダム化に基づく学習手法を用いた神経予測モデルの開発に寄与する。
これらの手法は、データと対象関数の特徴に応じてネットワークパラメータを生成することで、標準手法と比較して、神経モデルの適合性を向上させる。
時系列のパターンに基づく表現は、複数の季節の時系列を予測するのに有用である。
本研究では,提案モデルの性能評価を行い,完全学習ネットワークを用いた予測精度の面での競合性を見出した。
非常に高速で容易なトレーニング、シンプルなアーキテクチャ、実装の容易さ、高い精度、非定常性や時系列の季節性を扱うことで、提案されたモデルは幅広い複雑な時系列予測問題に対して非常に魅力的である。 This work contributes to the development of neural forecasting models with novel randomization-based learning methods. These methods improve the fitting abilities of the neural model, in comparison to the standard method, by generating network parameters in accordance with the data and target function features. A pattern-based representation of time series makes the proposed approach useful for forecasting time series with multiple seasonality. In the simulation study, we evaluate the performance of the proposed models and find that they can compete in terms of forecasting accuracy with fully-trained networks. Extremely fast and easy training, simple architecture, ease of implementation, high accuracy as well as dealing with nonstationarity and multiple seasonality in time series make the proposed model very attractive for a wide range of complex time series forecasting problems. | 翻訳日:2021-07-07 00:45:12 公開日:2021-07-04 |
# (参考訳) メタグラディエントを用いた総合的な深層学習のスケジューリング Towards Scheduling Federated Deep Learning using Meta-Gradients for Inter-Hospital Learning ( http://arxiv.org/abs/2107.01707v1 ) ライセンス: CC BY 4.0 | Rasheed el-Bouri, Tingting Zhu, David A. Clifton | (参考訳) 個人データへのアクセスの充実と容易さを考えると、個人のプライバシーは特に医療分野において最重要になっている。
本研究では,複数の病院から抽出した患者データを活用し,患者のプライバシを犠牲にすることなく機械学習モデルをトレーニングすることを目的とする。
本研究では,教師と教師が連携して配置するスケジューリングアルゴリズムを開発した。
これにより、中央モデルは各連邦ノードのデータのバッチから学ぶことができる。
教師は、様々なデータセンターに格納されたデータを使用して、メインタスク(スチューデント)アルゴリズムを更新するために、データセンター間で行動する。
メタグラディエントを用いてトレーニングされたスケジューラは、効果的にトレーニングを組織化でき、その結果、患者データに明示的にアクセスすることなく、多様なデータセット上で機械学習モデルをトレーニングできることを示す。
本手法は,ノード中毒などのフェデレート学習において直面する問題に対して,その克服方法を示すものである。
さらに,スケジューラを転校学習のメカニズムとして活用し,各教師が連携して学生を訓練し,最先端のパフォーマンスを発揮できることを示す。 Given the abundance and ease of access of personal data today, individual privacy has become of paramount importance, particularly in the healthcare domain. In this work, we aim to utilise patient data extracted from multiple hospital data centres to train a machine learning model without sacrificing patient privacy. We develop a scheduling algorithm in conjunction with a student-teacher algorithm that is deployed in a federated manner. This allows a central model to learn from batches of data at each federal node. The teacher acts between data centres to update the main task (student) algorithm using the data that is stored in the various data centres. We show that the scheduler, trained using meta-gradients, can effectively organise training and as a result train a machine learning model on a diverse dataset without needing explicit access to the patient data. We achieve state-of-the-art performance and show how our method overcomes some of the problems faced in the federated learning such as node poisoning. We further show how the scheduler can be used as a mechanism for transfer learning, allowing different teachers to work together in training a student for state-of-the-art performance. | 翻訳日:2021-07-07 00:36:39 公開日:2021-07-04 |
# (参考訳) 自動エンコーダに基づく回帰のためのフィードフォワードニューラルネットワークのランダム学習 Autoencoder based Randomized Learning of Feedforward Neural Networks for Regression ( http://arxiv.org/abs/2107.01711v1 ) ライセンス: CC BY 4.0 | Grzegorz Dudek | (参考訳) feedforwardニューラルネットワークは、データ分散に適した普遍予測モデルとして広く使われている。
しかし、一般的な勾配ベースの学習は、トレーニングプロセスを非効率で時間のかかるものにする多くの欠点に苦しむ。
正規化学習では勾配は使用せず、隠れノードパラメータをランダムに選択する。
これにより、トレーニングプロセスが極めて高速になる。
しかし、ランダムな学習における問題は、ランダムなパラメータを決定する方法である。
最近提案された手法は教師なしパラメータ学習にオートエンコーダを用いる。
この方法は分類作業において優れた性能を示した。
本研究では, この手法を回帰問題に適用し, 欠点がいくつかあることを確認し, 改善方法を示す。
生成したランダムウェイトを制御するオートエンコーダの学習法を提案する。
また,隠れノードのバイアスを決定する手法を提案する。
自動エンコーダに基づく学習と,最近提案されている他のランダム学習法との比較を行った結果,自動エンコーダベースの学習が提案されているが,その精度に匹敵するものではないことがわかった。
さらに、この方法は競合他社よりもはるかに複雑である。 Feedforward neural networks are widely used as universal predictive models to fit data distribution. Common gradient-based learning, however, suffers from many drawbacks making the training process ineffective and time-consuming. Alternative randomized learning does not use gradients but selects hidden node parameters randomly. This makes the training process extremely fast. However, the problem in randomized learning is how to determine the random parameters. A recently proposed method uses autoencoders for unsupervised parameter learning. This method showed superior performance on classification tasks. In this work, we apply this method to regression problems, and, finding that it has some drawbacks, we show how to improve it. We propose a learning method of autoencoders that controls the produced random weights. We also propose how to determine the biases of hidden nodes. We empirically compare autoencoder based learning with other randomized learning methods proposed recently for regression and find that despite the proposed improvement of the autoencoder based learning, it does not outperform its competitors in fitting accuracy. Moreover, the method is much more complex than its competitors. | 翻訳日:2021-07-07 00:22:21 公開日:2021-07-04 |
# (参考訳) KAISA:ディープニューラルネットワークのための適応二階最適化フレームワーク KAISA: An Adaptive Second-order Optimizer Framework for Deep Neural Networks ( http://arxiv.org/abs/2107.01739v1 ) ライセンス: CC BY 4.0 | J. Gregory Pauloski, Qi Huang, Lei Huang, Shivaram Venkataraman, Kyle Chard, Ian Foster, Zhao Zhang | (参考訳) Kronecker-factored Approximate Curvature (K-FAC)は、最近、確率勾配降下(SGD)よりもディープニューラルネットワーク(DNN)トレーニングに収束することが示されているが、K-FACの大きなメモリフットプリントは、大きなモデルへの適用を妨げている。
本稿では,K-FAC対応,適応性,改良性,ScAlableの2次最適化フレームワークであるKAISAについて述べる。
メモリと通信コストのトレードオフを定量化し,ResNet-50, Mask R-CNN, U-Net, BERTなどの大規模モデル上で最大128個のNVIDIA A100 GPU上でKAISAを評価する。
元のオプティマイザと比較して、KAISAは同じグローバルバッチサイズでアプリケーション間で18.1-36.3%高速に収束する。
固定メモリ予算の下で、KAISA は ResNet-50 と BERT-Large でそれぞれ 32.5% と 41.6% の速度で収束する。
KAISAはメモリと通信のバランスをとり、ベースラインオプティマイザと同等以上のスケーリング効率を達成する。 Kronecker-factored Approximate Curvature (K-FAC) has recently been shown to converge faster in deep neural network (DNN) training than stochastic gradient descent (SGD); however, K-FAC's larger memory footprint hinders its applicability to large models. We present KAISA, a K-FAC-enabled, Adaptable, Improved, and ScAlable second-order optimizer framework that adapts the memory footprint, communication, and computation given specific models and hardware to achieve maximized performance and enhanced scalability. We quantify the tradeoffs between memory and communication cost and evaluate KAISA on large models, including ResNet-50, Mask R-CNN, U-Net, and BERT, on up to 128 NVIDIA A100 GPUs. Compared to the original optimizers, KAISA converges 18.1-36.3% faster across applications with the same global batch size. Under a fixed memory budget, KAISA converges 32.5% and 41.6% faster in ResNet-50 and BERT-Large, respectively. KAISA can balance memory and communication to achieve scaling efficiency equal to or better than the baseline optimizers. | 翻訳日:2021-07-07 00:08:49 公開日:2021-07-04 |
# クロスモーダルトランスフォーマーに基づく自動音声認識のためのニューラル補正モデル Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition ( http://arxiv.org/abs/2107.01569v1 ) ライセンス: Link先を確認 | Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Takanori Ashihara, Shota Orihashi, Naoki Makishima | (参考訳) 本稿では,asr(automatic speech recognition)システムの出力を洗練し,asr誤差を除外するクロスモーダルトランスフォーマティブに基づくニューラル補正モデルを提案する。
一般に、神経補正モデルはエンコーダ-デコーダネットワークで構成されており、シーケンス-シーケンスマッピングの問題を直接モデル化することができる。
最も成功した方法は、入力音声とそのASR出力テキストをエンコーダデコーダネットワークの入力コンテキストとして使用することである。
しかし,従来の手法では,各モーダルに対して入力コンテキストを別々に符号化しているため,これらの2つのモーダル入力間の関係を考慮に入れることができない。
2つの異なるモード入力間の相関情報を効果的に活用するために,提案モデルでは,トランスフォーマを用いた相互自己認識に基づいて,2つの異なるコンテキストを共同で符号化する。
クロスモーダルな自己注意は、ASR仮説を洗練するための2つの異なるモーダル間の関係を効果的に捉えることができると期待する。
また,第1パスasrモデルと提案する神経補正モデルとを効率的に統合する浅層融合手法を提案する。
日本語のASR課題に対する実験により,従来のニューラル補正モデルよりも優れたASR性能が得られることを示した。 We propose a cross-modal transformer-based neural correction models that refines the output of an automatic speech recognition (ASR) system so as to exclude ASR errors. Generally, neural correction models are composed of encoder-decoder networks, which can directly model sequence-to-sequence mapping problems. The most successful method is to use both input speech and its ASR output text as the input contexts for the encoder-decoder networks. However, the conventional method cannot take into account the relationships between these two different modal inputs because the input contexts are separately encoded for each modal. To effectively leverage the correlated information between the two different modal inputs, our proposed models encode two different contexts jointly on the basis of cross-modal self-attention using a transformer. We expect that cross-modal self-attention can effectively capture the relationships between two different modals for refining ASR hypotheses. We also introduce a shallow fusion technique to efficiently integrate the first-pass ASR model and our proposed neural correction model. Experiments on Japanese natural language ASR tasks demonstrated that our proposed models achieve better ASR performance than conventional neural correction models. | 翻訳日:2021-07-06 15:21:05 公開日:2021-07-04 |
# クラス内分離の増大による感情分析のためのドメイン適応 Domain Adaptation for Sentiment Analysis Using Increased Intraclass Separation ( http://arxiv.org/abs/2107.01598v1 ) ライセンス: Link先を確認 | Mohammad Rostami, Aram Galstyan | (参考訳) センチメント分析は、顧客が製品の改善や最適なマーケティング戦略を決定するために、顧客からの意見を調査するために必要な作業である。
様々な製品やサービスにわたって幅広いドメインが存在するため、クロスドメイン感情分析手法が注目されている。
これらのメソッドは、各ドメインに対するデータアノテーションの必要性を緩和するのに役立つクロスドメイン一般化分類器をトレーニングすることで、異なるアプリケーション間のドメイン間ギャップを緩和する。
既存の手法のほとんどは、ソースドメインとターゲットドメインの両方に対して不変なドメイン非依存表現の学習に焦点を当てている。
その結果、ソースドメインアノテートデータを使用してトレーニングされた分類器は、関連するターゲットドメインでよく一般化される。
埋め込み空間における異なるクラス間の大きなマージンを誘導する新しい領域適応法を提案する。
この埋め込み空間は、ドメイン間のデータ分布をマッチングすることによって、ドメインに依存しないよう訓練される。
ソースドメイン内の大きなクラス内マージンは、ターゲットドメインの分類器のパフォーマンスに対する"ドメインシフト"の影響を減らすのに役立つ。
提案手法が有効であることを実証するために理論的,実証的な分析を行った。 Sentiment analysis is a costly yet necessary task for enterprises to study the opinions of their customers to improve their products and to determine optimal marketing strategies. Due to the existence of a wide range of domains across different products and services, cross-domain sentiment analysis methods have received significant attention. These methods mitigate the domain gap between different applications by training cross-domain generalizable classifiers which help to relax the need for data annotation for each domain. Most existing methods focus on learning domain-agnostic representations that are invariant with respect to both the source and the target domains. As a result, a classifier that is trained using the source domain annotated data would generalize well in a related target domain. We introduce a new domain adaptation method which induces large margins between different classes in an embedding space. This embedding space is trained to be domain-agnostic by matching the data distributions across the domains. Large intraclass margins in the source domain help to reduce the effect of "domain shift" on the classifier performance in the target domain. Theoretical and empirical analysis are provided to demonstrate that the proposed method is effective. | 翻訳日:2021-07-06 15:20:45 公開日:2021-07-04 |
# adal: 適応勾配変換は収束と一般化に寄与する AdaL: Adaptive Gradient Transformation Contributes to Convergences and Generalizations ( http://arxiv.org/abs/2107.01525v1 ) ライセンス: Link先を確認 | Hongwei Zhang and Weidong Zou and Hongbo Zhao and Qi Ming and Tijin Yan and Yuanqing Xia and Weipeng Cao | (参考訳) 適応最適化法はディープラーニングに広く用いられている。
彼らは過去の勾配に従って学習率を適応的にスケールし、収束の加速に有効であることが示されている。
しかし、SGDと比較して一般化性能が劣る。
近年の研究では、指数勾配雑音の平滑化が一般化縮退現象をもたらすことが指摘されている。
これに触発されて、元の勾配に変換を加えたAdaLを提案する。
AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
このような修正により勾配雑音の滑らかさが軽減され、一般化性能が向上する。
我々はAdaLの収束を理論的に証明し、いくつかのベンチマークでその効果を実証した。 Adaptive optimization methods have been widely used in deep learning. They scale the learning rates adaptively according to the past gradient, which has been shown to be effective to accelerate the convergence. However, they suffer from poor generalization performance compared with SGD. Recent studies point that smoothing exponential gradient noise leads to generalization degeneration phenomenon. Inspired by this, we propose AdaL, with a transformation on the original gradient. AdaL accelerates the convergence by amplifying the gradient in the early stage, as well as dampens the oscillation and stabilizes the optimization by shrinking the gradient later. Such modification alleviates the smoothness of gradient noise, which produces better generalization performance. We have theoretically proved the convergence of AdaL and demonstrated its effectiveness on several benchmarks. | 翻訳日:2021-07-06 15:19:00 公開日:2021-07-04 |
# MDP準同型メトリックを用いた低次元状態と行動表現学習 Low-Dimensional State and Action Representation Learning with MDP Homomorphism Metrics ( http://arxiv.org/abs/2107.01677v1 ) ライセンス: Link先を確認 | Nicol\`o Botteghi, Mannes Poel, Beril Sirmacek, Christoph Brune | (参考訳) 深層強化学習は、高次元観察から直接複雑な問題を解く能力を示している。
しかし、エンドツーエンドの設定では強化学習アルゴリズムはサンプル効率が悪く、長いトレーニング時間と量のデータを必要とする。
本研究では,高次元問題を低次元化するために,状態表現と動作表現を利用したサンプル効率強化学習の枠組みを提案する。
さらに、潜在状態と潜在アクションをマッピングする最適なポリシーを見いだそうとする。
現在、ポリシーは抽象表現に基づいて学習されているため、補助損失関数を用いて、そのようなポリシーを元の問題領域へ持ち上げることを強制する。
その結果、新しいフレームワークは、低次元かつ解釈可能な状態と行動表現と最適な潜伏ポリシーを効率的に学習できることがわかった。 Deep Reinforcement Learning has shown its ability in solving complicated problems directly from high-dimensional observations. However, in end-to-end settings, Reinforcement Learning algorithms are not sample-efficient and requires long training times and quantities of data. In this work, we proposed a framework for sample-efficient Reinforcement Learning that take advantage of state and action representations to transform a high-dimensional problem into a low-dimensional one. Moreover, we seek to find the optimal policy mapping latent states to latent actions. Because now the policy is learned on abstract representations, we enforce, using auxiliary loss functions, the lifting of such policy to the original problem domain. Results show that the novel framework can efficiently learn low-dimensional and interpretable state and action representations and the optimal latent policy. | 翻訳日:2021-07-06 15:18:51 公開日:2021-07-04 |
# Renyi差分プライバシーによる可逆的ロバスト解釈 Certifiably Robust Interpretation via Renyi Differential Privacy ( http://arxiv.org/abs/2107.01561v1 ) ライセンス: Link先を確認 | Ao Liu, Xiaoyu Chen, Sijia Liu, Lirong Xia, Chuang Gan | (参考訳) 近年,ネットワーク解釈可能性に対する敵対攻撃によってCNNの解釈マップが容易に操作できることが発見され,新たな「レニー微分プライバシー(RDP)」の観点から,解釈堅牢性の問題が検討された。
Renyi-Robust-Smooth(RDPに基づく解釈法)の利点は3倍である。
まず、証明可能で証明可能なトップ$kの堅牢性を提供する。
つまり、解釈写像の重要属性のトップ$kは、有界な$\ell_d$-norm($d = \infty$を含む任意の$d\geq 1$に対して)を持つ任意の入力摂動の下で証明可能な堅牢である。
第2に,提案手法は,最大$k$の帰属に関して,既存の手法よりも優れた実験的ロバスト性を提供する。
注目すべきは、Renyi-Robust-Smoothの精度も既存のアプローチより優れていることである。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
実験的に、その上位$の属性は、計算資源が非常に制約されている既存のアプローチよりも2倍堅牢である。 Motivated by the recent discovery that the interpretation maps of CNNs could easily be manipulated by adversarial attacks against network interpretability, we study the problem of interpretation robustness from a new perspective of \Renyi differential privacy (RDP). The advantages of our Renyi-Robust-Smooth (RDP-based interpretation method) are three-folds. First, it can offer provable and certifiable top-$k$ robustness. That is, the top-$k$ important attributions of the interpretation map are provably robust under any input perturbation with bounded $\ell_d$-norm (for any $d\geq 1$, including $d = \infty$). Second, our proposed method offers $\sim10\%$ better experimental robustness than existing approaches in terms of the top-$k$ attributions. Remarkably, the accuracy of Renyi-Robust-Smooth also outperforms existing approaches. Third, our method can provide a smooth tradeoff between robustness and computational efficiency. Experimentally, its top-$k$ attributions are {\em twice} more robust than existing approaches when the computational resources are highly constrained. | 翻訳日:2021-07-06 15:16:05 公開日:2021-07-04 |
# ディープラーニング分類におけるdelta法とbootstrap法の比較 A Comparison of the Delta Method and the Bootstrap in Deep Learning Classification ( http://arxiv.org/abs/2107.01606v1 ) ライセンス: Link先を確認 | Geir K. Nilsen and Antonella Z. Munthe-Kaas and Hans J. Skaug and Morten Brun | (参考訳) 本稿では,最近導入されたdeep learning classificationadapted delta法を,古典ブートストラップとの比較により検証する。
mnist と cifar-10 のデータセットを用いた2つの lenet ベースのニューラルネットワーク分類器に適用した場合,2つの手法から得られた数値化された予測認識の不確実性レベルの間に強い線形関係が存在することを示す。
さらに,Delta法はBootstrapに比べて5倍の計算時間を短縮できることを示した。 We validate the recently introduced deep learning classification adapted Delta method by a comparison with the classical Bootstrap. We show that there is a strong linear relationship between the quantified predictive epistemic uncertainty levels obtained from the two methods when applied on two LeNet-based neural network classifiers using the MNIST and CIFAR-10 datasets. Furthermore, we demonstrate that the Delta method offers a five times computation time reduction compared to the Bootstrap. | 翻訳日:2021-07-06 15:15:46 公開日:2021-07-04 |
# ベイズスペクトルグラフクラスタリングのための潜在構造ブロックモデル Latent structure blockmodels for Bayesian spectral graph clustering ( http://arxiv.org/abs/2107.01734v1 ) ライセンス: Link先を確認 | Francesco Sanna Passino and Nicholas A. Heard | (参考訳) ネットワーク隣接行列のスペクトル埋め込みは、概して低次元部分多様体構造に近いノード表現を生成する。
特に、グラフが潜在位置モデルから生成される際に隠れた部分構造が生じることが期待される。
さらに、ネットワーク内のコミュニティの存在は、埋め込みにコミュニティ固有のサブ多様体構造を生成する可能性があるが、これはネットワークのほとんどの統計モデルにおいて明確に説明されていない。
本稿では,コミュニティ固有の一次元多様体構造が存在する場合のグラフクラスタリングを実現するため,LSBM(Latent Structure Block Model)と呼ばれるモデルのクラスを提案する。
lsbmsは、ランダムドット積グラフ(rdpg)と呼ばれる、潜在空間モデルの特定のクラスに焦点を当て、潜在部分多様体を各コミュニティの潜在位置に割り当てる。
LSBMから生じる埋め込みのベイズモデルについて考察し,シミュレーションおよび実世界のネットワークデータに優れた性能を示すことを示す。
このモデルは、基礎となる曲線のパラメトリック形式が未知であっても、1次元多様体に居住する基盤となるコミュニティを正確に復元することができ、様々な実データに対して顕著な結果が得られる。 Spectral embedding of network adjacency matrices often produces node representations living approximately around low-dimensional submanifold structures. In particular, hidden substructure is expected to arise when the graph is generated from a latent position model. Furthermore, the presence of communities within the network might generate community-specific submanifold structures in the embedding, but this is not explicitly accounted for in most statistical models for networks. In this article, a class of models called latent structure block models (LSBM) is proposed to address such scenarios, allowing for graph clustering when community-specific one dimensional manifold structure is present. LSBMs focus on a specific class of latent space model, the random dot product graph (RDPG), and assign a latent submanifold to the latent positions of each community. A Bayesian model for the embeddings arising from LSBMs is discussed, and shown to have a good performance on simulated and real world network data. The model is able to correctly recover the underlying communities living in a one-dimensional manifold, even when the parametric form of the underlying curves is unknown, achieving remarkable results on a variety of real data. | 翻訳日:2021-07-06 15:15:38 公開日:2021-07-04 |
# データ異常の類型論 A Typology of Data Anomalies ( http://arxiv.org/abs/2107.01615v1 ) ライセンス: Link先を確認 | Ralph Foorthuis | (参考訳) 異常は何らかの特異なケースであり、データセットに存在する一般的なパターンに適合しないように見える。
異なる種類の異常を区別するためにいくつかの概念化が存在する。
しかし、これらは一般に適用するには具体的すぎるか、あるいは抽象的すぎるため、異常型の性質に関する具体的な洞察を与えたり、異常検出アルゴリズムの機能評価を容易にすることはない。
最近の'ブラックボックス'のアルゴリズムと分析に対する批判から、これは望ましくない状況であることが明らかになった。
そこで本稿では,データセットの異なる種類の異常を明確かつ具体的に定義する,異常の一般的な類型論を紹介する。
このタイポロジーはまた、異常検出アルゴリズムの機能的能力の評価を促進し、フレームワークは、データ、パターン、異常の概念的レベルを分析するのに役立つ。
最後に、他の類型から異常型を研究する分析ツールとして機能する。 Anomalies are cases that are in some way unusual and do not appear to fit the general patterns present in the dataset. Several conceptualizations exist to distinguish between different types of anomalies. However, these are either too specific to be generally applicable or so abstract that they neither provide concrete insight into the nature of anomaly types nor facilitate the functional evaluation of anomaly detection algorithms. With the recent criticism on 'black box' algorithms and analytics it has become clear that this is an undesirable situation. This paper therefore introduces a general typology of anomalies that offers a clear and tangible definition of the different types of anomalies in datasets. The typology also facilitates the evaluation of the functional capabilities of anomaly detection algorithms and as a framework assists in analyzing the conceptual levels of data, patterns and anomalies. Finally, it serves as an analytical tool for studying anomaly types from other typologies. | 翻訳日:2021-07-06 15:10:09 公開日:2021-07-04 |
# 確率的インプットを用いた深いガウス過程のエミュレーション Deep Gaussian Process Emulation using Stochastic Imputation ( http://arxiv.org/abs/2107.01590v1 ) ライセンス: Link先を確認 | Deyu Ming and Daniel Williamson and Serge Guillas | (参考訳) 確率計算を用いた計算機モデルエミュレーションのための新しいディープガウス法(DGP)を提案する。
潜在層を確率的に暗示することで、このアプローチはdgpを、フィードフォワード結合gpsのシステムをリンクして形成される最先端のサロゲートモデルであるlinked gpに変換する。
この変換は、従来の定常GPの最適化のみを含む、単純かつ効率的なDGPトレーニング手順を示す。
また、リンクされたgpの解析可能な平均と分散により、dgpエミュレータからの予測を高速かつ正確な方法で実装することができる。
本手法を一連の合成例および実世界の応用例で実証し、変分推論と完全ベイズ的アプローチと比較して効率的なDGP代理モデリングの競合候補であることを示す。
メソッドを実装する$\texttt{Python}$ package $\texttt{dgpsi}$も生成され、https://github.com/mingdeyu/DGPで利用可能である。 We propose a novel deep Gaussian process (DGP) inference method for computer model emulation using stochastic imputation. By stochastically imputing the latent layers, the approach transforms the DGP into the linked GP, a state-of-the-art surrogate model formed by linking a system of feed-forward coupled GPs. This transformation renders a simple while efficient DGP training procedure that only involves optimizations of conventional stationary GPs. In addition, the analytically tractable mean and variance of the linked GP allows one to implement predictions from DGP emulators in a fast and accurate manner. We demonstrate the method in a series of synthetic examples and real-world applications, and show that it is a competitive candidate for efficient DGP surrogate modeling in comparison to the variational inference and the fully-Bayesian approach. A $\texttt{Python}$ package $\texttt{dgpsi}$ implementing the method is also produced and available at https://github.com/mingdeyu/DGP. | 翻訳日:2021-07-06 15:08:23 公開日:2021-07-04 |
# ライブストリーミング市場における「ライブ」の役割--直交ランダムフォレストを用いたエビデンス The Role of "Live" in Livestreaming Markets: Evidence Using Orthogonal Random Forest ( http://arxiv.org/abs/2107.01629v1 ) ライセンス: Link先を確認 | Ziwei Cong, Jia Liu, Puneet Manchanda | (参考訳) ライブストリーミングのメディアの成長に関する一般的な信念は、その価値はその"生きた"コンポーネントにある、ということである。
本稿では,大規模ライブストリーミングプラットフォームからのデータを活用し,その信念を検討する。
このプラットフォームでは、視聴者が録画されたライブストリームを購入できるので、これを実現できます。
我々は,ライブストリームの前後における価格に対する需要の反応を推定することで,ライブストリーミングコンテンツの価値を要約する。
我々は、一般化された直交ランダムフォレストフレームワークを提案する。
この枠組みにより、治療方針(すなわち価格)との関係が複雑だが部分的に知られている高次元共同創設者の存在下での異質な治療効果を推定することができる。
スケジュールされたライブストリーミングデイとそれ以降の時間的距離における需要の価格弾力性には大きなダイナミクスがある。
特に、需要は、ライブストリーミングデーに対する時間とともに徐々に価格に敏感になり、ライブストリーミングデーでは弾力性に欠ける。
ライブストリーム後の期間において、需要は価格に敏感であるが、ライブストリーム前の期間よりもずっと少ない。
これはライブストリーミングがライブコンポーネントを超えて持続していることを示している。
最後に、その結果を駆動するメカニズムの示唆的な証拠を提供する。
ライブストリーム前のパターンやライブストリーム後のパターンの品質不確実性が低下し、ライブストリームの日にクリエーターとリアルタイムなインタラクションが行われる可能性がある。 The common belief about the growing medium of livestreaming is that its value lies in its "live" component. In this paper, we leverage data from a large livestreaming platform to examine this belief. We are able to do this as this platform also allows viewers to purchase the recorded version of the livestream. We summarize the value of livestreaming content by estimating how demand responds to price before, on the day of, and after the livestream. We do this by proposing a generalized Orthogonal Random Forest framework. This framework allows us to estimate heterogeneous treatment effects in the presence of high-dimensional confounders whose relationships with the treatment policy (i.e., price) are complex but partially known. We find significant dynamics in the price elasticity of demand over the temporal distance to the scheduled livestreaming day and after. Specifically, demand gradually becomes less price sensitive over time to the livestreaming day and is inelastic on the livestreaming day. Over the post-livestream period, demand is still sensitive to price, but much less than the pre-livestream period. This indicates that the vlaue of livestreaming persists beyond the live component. Finally, we provide suggestive evidence for the likely mechanisms driving our results. These are quality uncertainty reduction for the patterns pre- and post-livestream and the potential of real-time interaction with the creator on the day of the livestream. | 翻訳日:2021-07-06 15:05:32 公開日:2021-07-04 |
# ペルシャ語-WSD-Corpus:ペルシャ語全語用注釈付きコーパス Persian-WSD-Corpus: A Sense Annotated Corpus for Persian All-words Word Sense Disambiguation ( http://arxiv.org/abs/2107.01540v1 ) ライセンス: Link先を確認 | Hossein Rouhizadeh, Mehrnoush Shamsfard, Vahideh Tajalli, and Masoud Rouhziadeh | (参考訳) word sense disambiguation (wsd) は自然言語処理 (nlp) における長年のタスクであり、与えられた文脈における単語の最も関連する意味を自動的に識別することを目的としている。
標準のwsdテストコレクションの開発は、関心のある言語で異なるwsdシステムを開発および評価するための重要な前提条件として言及することができる。
多くのWSDテストコレクションは様々な言語で開発されているが、標準のAll-words WSDベンチマークはペルシア語では利用できない。
本稿では,SBU-WSD-Corpusをペルシャ語全語WSDタスクの最初の標準テストセットとして導入することで,ペルシア語のこの不足に対処する。
sbu-wsd-corpusはペルシア語のwordnet (farsnet) senseインベントリからのセンスを手動で注釈する。
この目的のために、3つのアノテータはSAMP(FarsNet語彙グラフに基づくアノテーション認識ツール)を使用してアノテーションタスクを実行した。
SBU-WSD-Corpusは、スポーツ、科学、芸術など、さまざまな領域における19のペルシア文書からなる。
ペルシア語のランニングテキスト5892語と、手動で注釈付き単語(2073名詞、566動詞、610形容詞、122副詞)を知覚する3371語が含まれている。
ペルシャ語全語WSDタスクの今後の研究のベースラインを提供するため、SBU-WSD-Corpus上で複数のWSDモデルを評価する。
コーパスはhttps://github.com/hrouhizadeh/SBU-WSD-Corpusで公開されている。 Word Sense Disambiguation (WSD) is a long-standing task in Natural Language Processing(NLP) that aims to automatically identify the most relevant meaning of the words in a given context. Developing standard WSD test collections can be mentioned as an important prerequisite for developing and evaluating different WSD systems in the language of interest. Although many WSD test collections have been developed for a variety of languages, no standard All-words WSD benchmark is available for Persian. In this paper, we address this shortage for the Persian language by introducing SBU-WSD-Corpus, as the first standard test set for the Persian All-words WSD task. SBU-WSD-Corpus is manually annotated with senses from the Persian WordNet (FarsNet) sense inventory. To this end, three annotators used SAMP (a tool for sense annotation based on FarsNet lexical graph) to perform the annotation task. SBU-WSD-Corpus consists of 19 Persian documents in different domains such as Sports, Science, Arts, etc. It includes 5892 content words of Persian running text and 3371 manually sense annotated words (2073 nouns, 566 verbs, 610 adjectives, and 122 adverbs). Providing baselines for future studies on the Persian All-words WSD task, we evaluate several WSD models on SBU-WSD-Corpus. The corpus is publicly available at https://github.com/hrouhizadeh/SBU-WSD-Corpus. | 翻訳日:2021-07-06 15:04:25 公開日:2021-07-04 |
# CasEE: 重複イベント抽出のためのカスケードデコーディングを伴う共同学習フレームワーク CasEE: A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction ( http://arxiv.org/abs/2107.01583v1 ) ライセンス: Link先を確認 | Jiawei Sheng, Shu Guo, Bowen Yu, Qian Li, Yiming Hei, Lihong Wang, Tingwen Liu and Hongbo Xu | (参考訳) イベント抽出(EE)は、テキスト中のイベント情報を抽出することを目的とした重要な情報抽出タスクである。
既存のほとんどの手法では、イベントは重複のない文に現れ、複雑な重複するイベント抽出には適用できないと仮定している。
この研究は現実的な事象重なり合う問題を体系的に研究し、ある単語が異なる役割を持つ複数の型や引数を持つ引き金として機能する。
そこで本研究では,重なりイベント抽出のためのカスケード復号を用いた新しい共同学習フレームワークであるcaseeを提案する。
特に、caseeはタイプ検出、トリガー抽出、引数抽出を順次行い、重複したターゲットを特定の前者予測に基づいて別々に抽出する。
すべてのサブタスクは、サブタスク間の依存関係をキャプチャするフレームワークで共同で学習される。
公開イベント抽出ベンチマークFewFCの評価は、CasEEが従来の競合手法よりも重複イベント抽出を大幅に改善したことを示している。 Event extraction (EE) is a crucial information extraction task that aims to extract event information in texts. Most existing methods assume that events appear in sentences without overlaps, which are not applicable to the complicated overlapping event extraction. This work systematically studies the realistic event overlapping problem, where a word may serve as triggers with several types or arguments with different roles. To tackle the above problem, we propose a novel joint learning framework with cascade decoding for overlapping event extraction, termed as CasEE. Particularly, CasEE sequentially performs type detection, trigger extraction and argument extraction, where the overlapped targets are extracted separately conditioned on the specific former prediction. All the subtasks are jointly learned in a framework to capture dependencies among the subtasks. The evaluation on a public event extraction benchmark FewFC demonstrates that CasEE achieves significant improvements on overlapping event extraction over previous competitive methods. | 翻訳日:2021-07-06 15:03:58 公開日:2021-07-04 |
# end-to-end neural coreference resolution revisited: 単純かつ効果的なベースライン End-to-end Neural Coreference Resolution Revisited: A Simple yet Effective Baseline ( http://arxiv.org/abs/2107.01700v1 ) ライセンス: Link先を確認 | Tuan Manh Lai, Trung Bui, Doo Soon Kim | (参考訳) 最初のエンドツーエンドのニューラルネットワークコリファレンスレゾリューションモデルが導入されてから、高次推論の使用から強化学習による評価メトリクスの直接最適化まで、多くのモデルの拡張が提案されている。
コリファレンスレゾリューションのパフォーマンスを大きなマージンで改善したものの、これらの拡張は元のモデルに多くの複雑さをもたらします。
この観察と, 事前学習型トランスフォーマー言語モデルの最近の進歩に触発されて, コア参照解決のためのシンプルで効果的なベースラインを提案する。
私たちのモデルは、オリジナルのneural coreference resolutionモデルの単純化版ですが、印象的なパフォーマンスを実現しています。
我々の研究は、既存のモデルや新しく提案されたモデルの複雑さを慎重に正当化する必要性を示す証拠を提供する。 Since the first end-to-end neural coreference resolution model was introduced, many extensions to the model have been proposed, ranging from using higher-order inference to directly optimizing evaluation metrics using reinforcement learning. Despite improving the coreference resolution performance by a large margin, these extensions add a lot of extra complexity to the original model. Motivated by this observation and the recent advances in pre-trained Transformer language models, we propose a simple yet effective baseline for coreference resolution. Our model is a simplified version of the original neural coreference resolution model, however, it achieves impressive performance, outperforming all recent extended works on the public English OntoNotes benchmark. Our work provides evidence for the necessity of carefully justifying the complexity of existing or newly proposed models, as introducing a conceptual or practical simplification to an existing model can still yield competitive results. | 翻訳日:2021-07-06 15:03:42 公開日:2021-07-04 |
# リトレーニングなしエージェントの改善:オフポリケーション補正による並列木探索 Improve Agents without Retraining: Parallel Tree Search with Off-Policy Correction ( http://arxiv.org/abs/2107.01715v1 ) ライセンス: Link先を確認 | Assaf Hallak and Gal Dalal, Steven Dalton, Iuri Frosio, Shie Mannor, Gal Chechik | (参考訳) 木探索 (ts) は強化学習において最も影響力のある成功に不可欠である。
ここで、tsのユーザビリティを制限する2つの大きな課題に取り組む: \textit{distribution shift} と \textit{scalability} である。
まず, tsによる行動選択と事前訓練された値関数は, 正確な状態や報酬が得られても, 元の事前訓練されたエージェントと比較して性能が低下することが多い。
これは、値推定が極めて不正確な領域への分布シフトによるもので、Extreme Value理論を用いてこの効果を分析する。
そこで本研究では,事前学習値とそれに対応するtsポリシーとのミスマッチを考慮に入れた,新たなオフ・ポリティリティ補正用語を提案する。
補正によって上記のミスマッチを排除し、準最適動作選択の確率を制限できることを実証する。
我々の補正は、アタリゲームでのスコアを倍増させるよりも、トレーニングを余すことなく事前訓練したレインボーエージェントを著しく改善する。
次に,木深さに指数関数的にスケールする枯渇性tsの計算複雑性が与えるスケーラビリティ問題に対処する。
Batch-BFS: 木の各深さのすべてのノードを同時に前進させるGPU幅優先探索。
batch-bfsはランタイムを2桁削減し、推論に加えて、これまで実現できなかった深さtsでのトレーニングも可能にする。
我々は、TSを用いてDQNエージェントをスクラッチからトレーニングし、元のDQNとより高度なRainbowと比較して、いくつかのAtariゲームで改善を示す。 Tree Search (TS) is crucial to some of the most influential successes in reinforcement learning. Here, we tackle two major challenges with TS that limit its usability: \textit{distribution shift} and \textit{scalability}. We first discover and analyze a counter-intuitive phenomenon: action selection through TS and a pre-trained value function often leads to lower performance compared to the original pre-trained agent, even when having access to the exact state and reward in future steps. We show this is due to a distribution shift to areas where value estimates are highly inaccurate and analyze this effect using Extreme Value theory. To overcome this problem, we introduce a novel off-policy correction term that accounts for the mismatch between the pre-trained value and its corresponding TS policy by penalizing under-sampled trajectories. We prove that our correction eliminates the above mismatch and bound the probability of sub-optimal action selection. Our correction significantly improves pre-trained Rainbow agents without any further training, often more than doubling their scores on Atari games. Next, we address the scalability issue given by the computational complexity of exhaustive TS that scales exponentially with the tree depth. We introduce Batch-BFS: a GPU breadth-first search that advances all nodes in each depth of the tree simultaneously. Batch-BFS reduces runtime by two orders of magnitude and, beyond inference, enables also training with TS of depths that were not feasible before. We train DQN agents from scratch using TS and show improvement in several Atari games compared to both the original DQN and the more advanced Rainbow. | 翻訳日:2021-07-06 15:02:13 公開日:2021-07-04 |
# 群衆計数のための直接測度マッチング Direct Measure Matching for Crowd Counting ( http://arxiv.org/abs/2107.01558v1 ) ライセンス: Link先を確認 | Hui Lin, Xiaopeng Hong, Zhiheng Ma, Xing Wei, Yunfeng Qiu, Yaowei Wang, Yihong Gong | (参考訳) 伝統的な集団カウント手法は、通常ガウスの仮定を用いて擬密度基底真理を生成するが、これはガウスの核サイズの不正確な推定のような問題に悩まされる。
本稿では,予測された密度マップを散乱点付地上真実に直接回帰する測度に基づく新しいカウント手法を提案する。
まず, 群集カウントを測度マッチング問題として定式化する。
第2に、シンクホーンの発散の半バランスな形を導出し、シンクホーン計数損失を計測マッチングのために設計する。
第3に,ダウンホーンスケールの一貫性損失を考案し,スケール変化に抵抗する自己監視機構を提案する。
最後に、全損失関数を最小化するための効率的な最適化方法を提案する。
shanghaitech, ucf-qnrf, jhu++, nwpuの4つの挑戦的クラウドカウントデータセットに関する広範な実験により,提案手法が検証された。 Traditional crowd counting approaches usually use Gaussian assumption to generate pseudo density ground truth, which suffers from problems like inaccurate estimation of the Gaussian kernel sizes. In this paper, we propose a new measure-based counting approach to regress the predicted density maps to the scattered point-annotated ground truth directly. First, crowd counting is formulated as a measure matching problem. Second, we derive a semi-balanced form of Sinkhorn divergence, based on which a Sinkhorn counting loss is designed for measure matching. Third, we propose a self-supervised mechanism by devising a Sinkhorn scale consistency loss to resist scale changes. Finally, an efficient optimization method is provided to minimize the overall loss function. Extensive experiments on four challenging crowd counting datasets namely ShanghaiTech, UCF-QNRF, JHU++, and NWPU have validated the proposed method. | 翻訳日:2021-07-06 15:00:55 公開日:2021-07-04 |
# Bag of Instances Aggregationは自己教師型学習を促進する Bag of Instances Aggregation Boosts Self-supervised Learning ( http://arxiv.org/abs/2107.01691v1 ) ライセンス: Link先を確認 | Haohang Xu and Jiemin Fang and Xiaopeng Zhang and Lingxi Xie and Xinggang Wang and Wenrui Dai and Hongkai Xiong and Qi Tian | (参考訳) 近年の自己教師型学習の進歩は顕著な進歩を遂げており、特に対照的な学習に基づく手法では、各画像と、その拡張を個別のクラスとみなし、他のすべての画像と区別しようと試みている。
しかし、多くの例があるため、この種のプレテキストタスクは本質的には収束が遅く、最適化が難しい。
これは特に小規模モデルに当てはまり、教師付きモデルと比較すると、パフォーマンスが劇的に低下することがわかった。
本稿では,教師なし学習のための簡易かつ効果的な蒸留戦略を提案する。
注目すべき点は、類似したサンプル間の関係がカウントされ、パフォーマンスを高めるために学生にシームレスに転送できることだ。
私たちのメソッドはBINGOと呼ばれ、教師が学習した関係を学生に転送するターゲットとして、 \textbf{I}nsta\textbf{N}ces a\textbf{G}gregati\textbf{O}n の \textbf{B}ag と略される。
ここでの例の袋は、教師によって構築され、袋の中にグループ化されている類似のサンプルのセットを示し、蒸留の目的は、バッグのインスタンスに関して学生にコンパクト表現を集約することである。
特筆すべきは、BINGOは小規模モデルにおける新しい最先端性能であるemph{i.e。
ResNet-18とResNet-34をバックボーンとして、ImageNet上で線形評価された65.5%と68.9%のトップ1アキュラシーは、それぞれベースライン(52.5%と57.4%のトップ1アキュラシー)をかなり上回っている。
コードは \url{https://github.com/haohang96/bingo} で入手できる。 Recent advances in self-supervised learning have experienced remarkable progress, especially for contrastive learning based methods, which regard each image as well as its augmentations as an individual class and try to distinguish them from all other images. However, due to the large quantity of exemplars, this kind of pretext task intrinsically suffers from slow convergence and is hard for optimization. This is especially true for small scale models, which we find the performance drops dramatically comparing with its supervised counterpart. In this paper, we propose a simple but effective distillation strategy for unsupervised learning. The highlight is that the relationship among similar samples counts and can be seamlessly transferred to the student to boost the performance. Our method, termed as BINGO, which is short for \textbf{B}ag of \textbf{I}nsta\textbf{N}ces a\textbf{G}gregati\textbf{O}n, targets at transferring the relationship learned by the teacher to the student. Here bag of instances indicates a set of similar samples constructed by the teacher and are grouped within a bag, and the goal of distillation is to aggregate compact representations over the student with respect to instances in a bag. Notably, BINGO achieves new state-of-the-art performance on small scale models, \emph{i.e.}, 65.5% and 68.9% top-1 accuracies with linear evaluation on ImageNet, using ResNet-18 and ResNet-34 as backbone, respectively, surpassing baselines (52.5% and 57.4% top-1 accuracies) by a significant margin. The code will be available at \url{https://github.com/haohang96/bingo}. | 翻訳日:2021-07-06 15:00:40 公開日:2021-07-04 |
# 調査: 推測時の漏洩とプライバシ Survey: Leakage and Privacy at Inference Time ( http://arxiv.org/abs/2107.01614v1 ) ライセンス: Link先を確認 | Marija Jegorova, Chaitanya Kaul, Charlie Mayor, Alison Q. O'Neil, Alexander Weir, Roderick Murray-Smith, and Sotirios A. Tsaftaris | (参考訳) MLの商用および政府のアプリケーションは、ユーザやクライアントの機密データを含む複数のデータソースに描画できるため、公開されている機械学習(ML)モデルからのデータの漏洩は、重要性が増している分野である。
本稿では,MLモデルに固有な不随意データ漏洩,プライバシ攻撃による潜在的な万能リーク,現在利用可能な防御機構など,いくつかの面での現代的進歩を包括的に調査する。
公開モデルの最も可能性の高いシナリオとして,私たちは推論時間リークに注目しています。
まず、異なるデータ、タスク、モデルアーキテクチャのコンテキストにおける漏洩について論じる。
次に,不随意および不利な漏洩,利用可能な防御,および現在入手可能なアセスメント指標と応用に関する分類法を提案する。
今後の研究に向けた有望な方向性を概説し、優れた課題とオープンな質問で締めくくります。 Leakage of data from publicly available Machine Learning (ML) models is an area of growing significance as commercial and government applications of ML can draw on multiple sources of data, potentially including users' and clients' sensitive data. We provide a comprehensive survey of contemporary advances on several fronts, covering involuntary data leakage which is natural to ML models, potential malevolent leakage which is caused by privacy attacks, and currently available defence mechanisms. We focus on inference-time leakage, as the most likely scenario for publicly available models. We first discuss what leakage is in the context of different data, tasks, and model architectures. We then propose a taxonomy across involuntary and malevolent leakage, available defences, followed by the currently available assessment metrics and applications. We conclude with outstanding challenges and open questions, outlining some promising directions for future research. | 翻訳日:2021-07-06 14:54:41 公開日:2021-07-04 |
# 定サイズ決定点プロセスを用いた複数基準に基づく能動学習 Multiple-criteria Based Active Learning with Fixed-size Determinantal Point Processes ( http://arxiv.org/abs/2107.01622v1 ) ライセンス: Link先を確認 | Xueying Zhan and Qing Li and Antoni B. Chan | (参考訳) アクティブラーニングは、学習する最も有用なデータサンプルを選択して、トレーニングデータの少ない精度でより正確にすることを目的としている。
単一基準に基づく手法(すなわち情報性や代表性に基づく手法)は単純で効率的であるが、異なる現実世界のシナリオへの適応性に欠ける。
本稿では,情報性,代表性,多様性という3つの相補的基準を取り入れ,異なるデータ型の下でのアクティブラーニングラウンドにおいて適切な選択を行うマルチクリテリア型アクティブラーニングアルゴリズムを提案する。
我々は,選択過程を決定点過程とみなし,これらの基準のバランスが良好である。
提案手法は,最もラベルのないデータサンプルの選択と,現在のデータ分布に適した分類器への偏りを両立させることにより,クエリ選択戦略を洗練する。
さらに,データ選択におけるこれらのデータポイント間の依存関係と関係を,セントロイドクラスタリング手法を用いて検討する。
本手法は,合成データと実世界のデータを用いた評価により,他のマルチクリトリア型alアルゴリズムよりも優れた性能と安定性を示す。 Active learning aims to achieve greater accuracy with less training data by selecting the most useful data samples from which it learns. Single-criterion based methods (i.e., informativeness and representativeness based methods) are simple and efficient; however, they lack adaptability to different real-world scenarios. In this paper, we introduce a multiple-criteria based active learning algorithm, which incorporates three complementary criteria, i.e., informativeness, representativeness and diversity, to make appropriate selections in the active learning rounds under different data types. We consider the selection process as a Determinantal Point Process, which good balance among these criteria. We refine the query selection strategy by both selecting the hardest unlabeled data sample and biasing towards the classifiers that are more suitable for the current data distribution. In addition, we also consider the dependencies and relationships between these data points in data selection by means of centroidbased clustering approaches. Through evaluations on synthetic and real-world datasets, we show that our method performs significantly better and is more stable than other multiple-criteria based AL algorithms. | 翻訳日:2021-07-06 14:54:25 公開日:2021-07-04 |
# リニア教師による微調整の理論解析 A Theoretical Analysis of Fine-tuning with Linear Teachers ( http://arxiv.org/abs/2107.01641v1 ) ライセンス: Link先を確認 | Gal Shachaf, Alon Brutzkus, Amir Globerson | (参考訳) ファインチューニングはディープラーニングにおいて一般的なプラクティスであり、比較的少ないトレーニングデータを用いて下流タスクの優れた一般化結果を達成する。
実際には広く使われているが、理論的な理解は乏しい。
いくつかのアーキテクチャにおける線形教師による回帰手法のサンプル複雑性を解析する。
直感的には、微調整の成功は、ソースタスクとターゲットタスクの類似性に依存するが、測定は自明ではない。
本稿では,対象データのソースタスク,対象タスク,共分散構造との関係について考察する。
線形回帰の設定では, 実測値が低い場合, 実測条件下では, 実質的なサンプルの複雑性低減が可能であることを示す。
深部線形回帰では,ネットワークが事前学習した重みで初期化されるとき,勾配に基づくトレーニングの誘導バイアスに関する新しい結果を示す。
この結果を用いて,この設定の類似度尺度はネットワークの深さにも影響することを示した。
さらに、浅いReLUモデルに関する結果を示し、ソースおよびターゲットタスクにおけるサンプルの複雑さの依存性を分析する。
合成データと現実データの両方について実験的に結果を示す。 Fine-tuning is a common practice in deep learning, achieving excellent generalization results on downstream tasks using relatively little training data. Although widely used in practice, it is lacking strong theoretical understanding. We analyze the sample complexity of this scheme for regression with linear teachers in several architectures. Intuitively, the success of fine-tuning depends on the similarity between the source tasks and the target task, however measuring it is non trivial. We show that a relevant measure considers the relation between the source task, the target task and the covariance structure of the target data. In the setting of linear regression, we show that under realistic settings a substantial sample complexity reduction is plausible when the above measure is low. For deep linear regression, we present a novel result regarding the inductive bias of gradient-based training when the network is initialized with pretrained weights. Using this result we show that the similarity measure for this setting is also affected by the depth of the network. We further present results on shallow ReLU models, and analyze the dependence of sample complexity there on source and target tasks. We empirically demonstrate our results for both synthetic and realistic data. | 翻訳日:2021-07-06 14:54:09 公開日:2021-07-04 |
# ロバストレストレストバンディット:深層強化学習による区間不確かさに取り組む Robust Restless Bandits: Tackling Interval Uncertainty with Deep Reinforcement Learning ( http://arxiv.org/abs/2107.01689v1 ) ライセンス: Link先を確認 | Jackson A. Killian, Lily Xu, Arpita Biswas, Milind Tambe | (参考訳) 本稿では、レスレス・マルチアーム・バンディット(RMAB)の挑戦的な一般化であるRobust Restless Banditsを紹介する。
RMABは限られた資源による介入計画のために広く研究されている。
しかし、ほとんどの研究は遷移力学が完全に知られているという非現実的な仮定を定めており、既存の手法が現実のシナリオに適用可能であることを制限している。
RMABを不確実性のある設定でより有効にするために、(i)ロバストRMAB問題を導入し、遷移が間隔不確実性によって与えられる場合の最小後悔目標に対するソリューションを開発し、(ii)ロバストRMABを解くための二重オラクルアルゴリズムを開発し、3つの実験領域においてその有効性を示す;(iii)我々の二重オラクルアプローチを可能にするために、RMABを解くための新しい深層強化学習アルゴリズムであるRMABPPOを導入する。
RMABPPOは補助的な"$\lambda$-network"を学習することで、各腕の学習を分離し、トレーニングに必要なサンプルの複雑さを大幅に削減する。
この問題に対処するために、敵のオラクルをマルチエージェント強化学習問題として定式化し、RMABPPOのマルチエージェント拡張で解決する。
コードはhttps://github.com/killian-34/RobustRMABで入手できる。 We introduce Robust Restless Bandits, a challenging generalization of restless multi-arm bandits (RMAB). RMABs have been widely studied for intervention planning with limited resources. However, most works make the unrealistic assumption that the transition dynamics are known perfectly, restricting the applicability of existing methods to real-world scenarios. To make RMABs more useful in settings with uncertain dynamics: (i) We introduce the Robust RMAB problem and develop solutions for a minimax regret objective when transitions are given by interval uncertainties; (ii) We develop a double oracle algorithm for solving Robust RMABs and demonstrate its effectiveness on three experimental domains; (iii) To enable our double oracle approach, we introduce RMABPPO, a novel deep reinforcement learning algorithm for solving RMABs. RMABPPO hinges on learning an auxiliary "$\lambda$-network" that allows each arm's learning to decouple, greatly reducing sample complexity required for training; (iv) Under minimax regret, the adversary in the double oracle approach is notoriously difficult to implement due to non-stationarity. To address this, we formulate the adversary oracle as a multi-agent reinforcement learning problem and solve it with a multi-agent extension of RMABPPO, which may be of independent interest as the first known algorithm for this setting. Code is available at https://github.com/killian-34/RobustRMAB. | 翻訳日:2021-07-06 14:53:53 公開日:2021-07-04 |
# 二元分類のための適応キャリブレーション Adaptive calibration for binary classification ( http://arxiv.org/abs/2107.01726v1 ) ライセンス: Link先を確認 | Vladimir Vovk, Ivan Petej, and Alex Gammerman | (参考訳) 本稿では,2進分類の単純な場合に集中して,確率予測規則をデータ分布の変化に敏感にする方法を提案する。
これは機械学習の応用において重要であり、トレーニングされた予測器の品質はその利用の過程で著しく低下する可能性がある。
我々の技術は、最近のコンフォーマルテストマーチンガレットの研究と、専門家のアドバイスによる予測、すなわち最高の専門家の追跡に基づいています。 This note proposes a way of making probability forecasting rules less sensitive to changes in data distribution, concentrating on the simple case of binary classification. This is important in applications of machine learning, where the quality of a trained predictor may drop significantly in the process of its exploitation. Our techniques are based on recent work on conformal test martingales and older work on prediction with expert advice, namely tracking the best expert. | 翻訳日:2021-07-06 14:53:25 公開日:2021-07-04 |
# 構成可能インダクティブプログラミングにおける中間値の構成可能性 The Composability of Intermediate Values in Composable Inductive Programming ( http://arxiv.org/abs/2107.01621v1 ) ライセンス: Link先を確認 | Edward McDaid, Sarah McDaid | (参考訳) 中間値を含むメカニズムは、任意のサイズのソフトウェアを作成するために、コンポーザブル・インダクティブ・プログラミング(CIP)を可能にすると考えられている。
本稿では,プログラムのサイズ,中間値数,CIPを用いてプログラムを指定するテストケース数の関係について検討した。
研究では、さまざまなサイズの96,000のプログラムがランダムに生成され、断片に分解され、テストケースに変換された。
テストケースはZoeaを使って元のプログラムの新バージョンを再生するために使用された。
その結果,中間値数と再生プログラムサイズ,およびテストケース数と再生プログラムサイズとの線形関係が検討された。
加えて、プログラムのサイズが増加するにつれて、テストケースの数を中間値の数と交換するスコープが増加し、その逆も増えている。 It is believed that mechanisms including intermediate values enable composable inductive programming (CIP) to be used to produce software of any size. We present the results of a study that investigated the relationships between program size, the number of intermediate values and the number of test cases used to specify programs using CIP. In the study 96,000 programs of various sizes were randomly generated, decomposed into fragments and transformed into test cases. The test cases were then used to regenerate new versions of the original programs using Zoea. The results show linear relationships between the number of intermediate values and regenerated program size, and between the number of test cases and regenerated program size within the size range studied. In addition, as program size increases there is increasing scope for trading off the number of test cases against the number of intermediate values and vice versa. | 翻訳日:2021-07-06 14:51:17 公開日:2021-07-04 |
# 連続行動空間におけるロボットによる低次元状態表現学習 Low Dimensional State Representation Learning with Robotics Priors in Continuous Action Spaces ( http://arxiv.org/abs/2107.01667v1 ) ライセンス: Link先を確認 | Nicol\`o Botteghi, Khaled Alaa, Mannes Poel, Beril Sirmacek, Christoph Brune, Abeje Mersha, Stefano Stramigioli | (参考訳) 自律型ロボットは、私たちの日常生活に高レベルの認知的および自律的知性を必要とする。
非構造環境や不確実性の存在下では、そのような知能の程度は容易には得られない。
強化学習アルゴリズムは、手作りの機能やポリシーを必要とせずに、エンドツーエンドで複雑なロボティクスタスクを解決できることが証明されている。
特に、実世界のデータのコストが通常非常に高いロボティクスの文脈では、高いサンプル効率を達成する強化学習ソリューションが必要である。
本稿では,ロボットの生の知覚情報から得られる高次元の観察から,学習状態表現から得られた最適方針の学習まで,低次元状態表現の学習を組み合わせる枠組みを提案する。
我々は,移動ロボットナビゲーションの文脈において,連続状態や行動空間において,我々のフレームワークを評価する。
さらに,仮想環境シミュレーションで学んだことを実ロボットに移す問題を,照明変化や移動障害物などの視覚・奥行き障害の存在下で,実世界データを用いてさらに再訓練することなく検討した。 Autonomous robots require high degrees of cognitive and motoric intelligence to come into our everyday life. In non-structured environments and in the presence of uncertainties, such degrees of intelligence are not easy to obtain. Reinforcement learning algorithms have proven to be capable of solving complicated robotics tasks in an end-to-end fashion without any need for hand-crafted features or policies. Especially in the context of robotics, in which the cost of real-world data is usually extremely high, reinforcement learning solutions achieving high sample efficiency are needed. In this paper, we propose a framework combining the learning of a low-dimensional state representation, from high-dimensional observations coming from the robot's raw sensory readings, with the learning of the optimal policy, given the learned state representation. We evaluate our framework in the context of mobile robot navigation in the case of continuous state and action spaces. Moreover, we study the problem of transferring what learned in the simulated virtual environment to the real robot without further retraining using real-world data in the presence of visual and depth distractors, such as lighting changes and moving obstacles. | 翻訳日:2021-07-06 14:51:02 公開日:2021-07-04 |
# グローバル・ローカル・トラクターを用いた話者数無制限のニューラルダイアリゼーションに向けて Towards Neural Diarization for Unlimited Numbers of Speakers Using Global and Local Attractors ( http://arxiv.org/abs/2107.01545v1 ) ライセンス: Link先を確認 | Shota Horiguchi, Shinji Watanabe, Paola Garcia, Yawen Xue, Yuki Takashima, Yohei Kawaguchi | (参考訳) トラクタベースのエンドツーエンドダイアリゼーションは、挑戦的なデータセットに対して、慎重に調整された従来のクラスタリングベースの方法と同等の精度を実現している。
しかし、主な欠点は、訓練中に観察した話者数よりも話者数が多い場合には対応できないことである。
これは、話者カウントが教師付き学習に依存しているためである。
本稿では,アトラクタベースのエンドツーエンドダイアリゼーションに組み込まれた教師なしクラスタリングプロセスを提案する。
まず、フレームワイズ埋め込みの列を短いサブシーケンスに分割し、各サブシーケンスに対してアトラクタベースのダイアリゼーションを実行する。
サブシーケンスワイドダイアリゼーション結果が与えられた場合、サブシーケンス間話者対応は、すべてのサブシーケンスからアトラクタから計算されたベクトルの教師なしクラスタリングによって得られる。
これにより、サブシーケンス毎の出力スピーカ数に制限がある場合でも、記録全体において多数のスピーカのダイアリゼーション結果を生成することができる。
実験の結果,提案手法は未知話者の正確なダイアリゼーション結果が得られることがわかった。
本手法は,callhome,dihard ii,dihard iiiデータセットにおいて,11.84 %,28.33 %,19.49 %を達成した。 Attractor-based end-to-end diarization is achieving comparable accuracy to the carefully tuned conventional clustering-based methods on challenging datasets. However, the main drawback is that it cannot deal with the case where the number of speakers is larger than the one observed during training. This is because its speaker counting relies on supervised learning. In this work, we introduce an unsupervised clustering process embedded in the attractor-based end-to-end diarization. We first split a sequence of frame-wise embeddings into short subsequences and then perform attractor-based diarization for each subsequence. Given subsequence-wise diarization results, inter-subsequence speaker correspondence is obtained by unsupervised clustering of the vectors computed from the attractors from all the subsequences. This makes it possible to produce diarization results of a large number of speakers for the whole recording even if the number of output speakers for each subsequence is limited. Experimental results showed that our method could produce accurate diarization results of an unseen number of speakers. Our method achieved 11.84 %, 28.33 %, and 19.49 % on the CALLHOME, DIHARD II, and DIHARD III datasets, respectively, each of which is better than the conventional end-to-end diarization methods. | 翻訳日:2021-07-06 14:50:23 公開日:2021-07-04 |
# 複数話者の重複音声認識と話者属性推定のための統一自己回帰モデル Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute Estimation ( http://arxiv.org/abs/2107.01549v1 ) ライセンス: Link先を確認 | Ryo Masumura, Daiki Okamura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi | (参考訳) 本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
完全なニューラルネットワークベースのエンドツーエンドモデルにより、マルチテカ重なりのASRタスクのパフォーマンスが劇的に向上した。
エンドツーエンドモデリングの有望なアプローチの一つは、複数の話者の転写を逐次生成するシリアライズされた出力トレーニングによる自己回帰モデリングである。
これにより、話者間の関係を自然に捉えることができます。
しかし、従来のモデリング手法では、性別や年齢などの個々の発話の話者属性を明示的に考慮することはできない。
実際、それぞれの話者が同じ性別である場合や年齢が近い場合、パフォーマンスは低下する。
そこで本研究では,asrと話者属性の重複推定のための統合的自己回帰モデルを提案する。
我々のキーとなる考え方は、統合された自己回帰モデルにおける性別と年齢推定タスクを扱うことである。
提案手法では,トランスフォーマティブ・オートレグレッシブ・モデルは,テキストトークンだけでなく,各話者の属性トークンも再帰的に生成する。
これにより、話者属性を効果的に活用し、重なり合うASRを改善することができる。
日本語マルチトーカ重畳asrタスクの実験により,提案手法の有効性が示された。 In this paper, we present a novel modeling method for single-channel multi-talker overlapped automatic speech recognition (ASR) systems. Fully neural network based end-to-end models have dramatically improved the performance of multi-taker overlapped ASR tasks. One promising approach for end-to-end modeling is autoregressive modeling with serialized output training in which transcriptions of multiple speakers are recursively generated one after another. This enables us to naturally capture relationships between speakers. However, the conventional modeling method cannot explicitly take into account the speaker attributes of individual utterances such as gender and age information. In fact, the performance deteriorates when each speaker is the same gender or is close in age. To address this problem, we propose unified autoregressive modeling for joint end-to-end multi-talker overlapped ASR and speaker attribute estimation. Our key idea is to handle gender and age estimation tasks within the unified autoregressive modeling. In the proposed method, transformer-based autoregressive model recursively generates not only textual tokens but also attribute tokens of each speaker. This enables us to effectively utilize speaker attributes for improving multi-talker overlapped ASR. Experiments on Japanese multi-talker overlapped ASR tasks demonstrate the effectiveness of the proposed method. | 翻訳日:2021-07-06 14:50:02 公開日:2021-07-04 |
# 単言語データを用いたアラビア語コード切り換え音声認識 Arabic Code-Switching Speech Recognition using Monolingual Data ( http://arxiv.org/abs/2107.01573v1 ) ライセンス: Link先を確認 | Ahmed Ali, Shammur Chowdhury, Amir Hussein, Yasser Hifny | (参考訳) 自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
大規模ASR実験を通じて,ASRの多言語モデリングに関する重要な課題について検討する。
我々の革新的なフレームワークは、重み付き有限状態トランスデューサ(WFST)フレームワークにマルチグラフアプローチを展開している。
WFST復号化戦略とトランスフォーマーシーケンスを同一データ上で訓練されたシーケンスシステムと比較する。
アラビア語と英語の間でのコードスイッチングのシナリオから、WFSTデコードアプローチは、間欠的なコードスイッチングデータセットに適していることを示す。
さらに、トランスフォーマシステムは、イントラセンテンシャルコード切り換えタスクに優れていた。
本研究では,ASR性能のベンチマークを行うために,人工的に生成された開発とテストセット,および生態学的コードスイッチングテストセットをリリースする。 Code-switching in automatic speech recognition (ASR) is an important challenge due to globalization. Recent research in multilingual ASR shows potential improvement over monolingual systems. We study key issues related to multilingual modeling for ASR through a series of large-scale ASR experiments. Our innovative framework deploys a multi-graph approach in the weighted finite state transducers (WFST) framework. We compare our WFST decoding strategies with a transformer sequence to sequence system trained on the same data. Given a code-switching scenario between Arabic and English languages, our results show that the WFST decoding approaches were more suitable for the intersentential code-switching datasets. In addition, the transformer system performed better for intrasentential code-switching task. With this study, we release an artificially generated development and test sets, along with ecological code-switching test set, to benchmark the ASR performance. | 翻訳日:2021-07-06 14:49:43 公開日:2021-07-04 |
# 不整合解剖演算による可制御性心合成 Controllable cardiac synthesis via disentangled anatomy arithmetic ( http://arxiv.org/abs/2107.01748v1 ) ライセンス: Link先を確認 | Spyridon Thermos, Xiao Liu, Alison O'Neil, Sotirios A. Tsaftaris | (参考訳) まれな疾患や状況を伴う大規模に注釈付きデータを取得することは課題である。
このような過小表現を補正できるイメージを制御的に合成する手法を持つことは極めて有用だろう。
適切な潜在表現を仮定すると、「潜在ベクトル算術」の概念はそのような合成を達成する手段を提供する。
適切な表現は入力データの忠実性を符号化し、不変性と等価性を保ち、算術演算を許可しなければならない。
画像が空間解剖(テンソル)因子に切り離されたり、画像(ベクトル)表現に付随したりする能力によって、生成モデルは、所望の撮像モダリティ(例えば、)に再絡み合うように、異なる入力画像の解剖的要素を組み合わせることを学習する「異方解剖算術」と呼ばれるフレームワークを提案する。
MRI) を対象とし, プラウシブルな新しい心臓画像を作成する。
算術ステップ後の解剖要因の現実的な組み合わせを促進するため,生成器に先行する局所ノイズ注入ネットワークを提案する。
我々のモデルは、既存のデータセットを増強し、その後、ポストホック分類とセグメンテーションタスクを改善するために使用されるリアルなイメージ、病理ラベル、セグメンテーションマスクを生成するために使用される。
コードはhttps://github.com/vios-s/DAA-GANで公開されている。 Acquiring annotated data at scale with rare diseases or conditions remains a challenge. It would be extremely useful to have a method that controllably synthesizes images that can correct such underrepresentation. Assuming a proper latent representation, the idea of a "latent vector arithmetic" could offer the means of achieving such synthesis. A proper representation must encode the fidelity of the input data, preserve invariance and equivariance, and permit arithmetic operations. Motivated by the ability to disentangle images into spatial anatomy (tensor) factors and accompanying imaging (vector) representations, we propose a framework termed "disentangled anatomy arithmetic", in which a generative model learns to combine anatomical factors of different input images such that when they are re-entangled with the desired imaging modality (e.g. MRI), plausible new cardiac images are created with the target characteristics. To encourage a realistic combination of anatomy factors after the arithmetic step, we propose a localized noise injection network that precedes the generator. Our model is used to generate realistic images, pathology labels, and segmentation masks that are used to augment the existing datasets and subsequently improve post-hoc classification and segmentation tasks. Code is publicly available at https://github.com/vios-s/DAA-GAN. | 翻訳日:2021-07-06 14:49:10 公開日:2021-07-04 |
# Barycentric Projectionsを用いたプラグイン推定器を用いた最適輸送地図の推定速度 Rates of Estimation of Optimal Transport Maps using Plug-in Estimators via Barycentric Projections ( http://arxiv.org/abs/2107.01718v1 ) ライセンス: Link先を確認 | Nabarun Deb, Promit Ghosal, and Bodhisattva Sen | (参考訳) 2つの確率分布の間の最適輸送写像$\mu$と$\nu$ on $\mathbb{R}^d$は、機械学習と統計の両方に広範な応用を見出した。
実際には、これらのマップは$\mu$と$\nu$に従ってサンプリングされたデータから推定する必要がある。
プラグイン推定器は、計算最適輸送の分野における輸送写像の推定に最もよく用いられる。
本稿では,バリセントリック射影によって定義される一般プラグイン推定器の収束率の包括的解析を行う。
我々の主な貢献は、最小の滑らかさ仮定の下で進行するバリ中心射影の新しい安定性推定であり、一般的なプラグイン推定器の分析に使用できる。
まず, 最適輸送写像の固有離散離散推定値と半離散推定値の収束率を提供することにより, この安定性推定の有用性を示す。
次に,同じ安定性推定値を用いて,besov型やsobolev型といった追加的な平滑性仮定の下で,ウェーブレットベースあるいはカーネル平滑化プラグイン推定器が収束速度を加速し,自然離散離散/半離散推定器が抱える次元の呪いを著しく緩和することを示す。
分析の副産物として,w_2(\mu,\nu)$のプラグイン推定器に対して,上述の平滑性仮定の下で,\mu$ と $\nu$ の間のワッセルシュタイン距離の収束速度が速くなり,chizat などの最近の結果を補完する。
(2020).
最後に,2つの確率分布間におけるwasserstein barycenterの収束率と,最近の最適輸送に基づく独立性テストにおける漸近検出しきい値を求める結果の適用性を示す。 Optimal transport maps between two probability distributions $\mu$ and $\nu$ on $\mathbb{R}^d$ have found extensive applications in both machine learning and statistics. In practice, these maps need to be estimated from data sampled according to $\mu$ and $\nu$. Plug-in estimators are perhaps most popular in estimating transport maps in the field of computational optimal transport. In this paper, we provide a comprehensive analysis of the rates of convergences for general plug-in estimators defined via barycentric projections. Our main contribution is a new stability estimate for barycentric projections which proceeds under minimal smoothness assumptions and can be used to analyze general plug-in estimators. We illustrate the usefulness of this stability estimate by first providing rates of convergence for the natural discrete-discrete and semi-discrete estimators of optimal transport maps. We then use the same stability estimate to show that, under additional smoothness assumptions of Besov type or Sobolev type, wavelet based or kernel smoothed plug-in estimators respectively speed up the rates of convergence and significantly mitigate the curse of dimensionality suffered by the natural discrete-discrete/semi-discrete estimators. As a by-product of our analysis, we also obtain faster rates of convergence for plug-in estimators of $W_2(\mu,\nu)$, the Wasserstein distance between $\mu$ and $\nu$, under the aforementioned smoothness assumptions, thereby complementing recent results in Chizat et al. (2020). Finally, we illustrate the applicability of our results in obtaining rates of convergence for Wasserstein barycenters between two probability distributions and obtaining asymptotic detection thresholds for some recent optimal-transport based tests of independence. | 翻訳日:2021-07-06 14:46:59 公開日:2021-07-04 |
# 滑らかな微分プライバシー Smoothed Differential Privacy ( http://arxiv.org/abs/2107.01559v1 ) ライセンス: Link先を確認 | Ao Liu, Lirong Xia | (参考訳) 微分プライバシー(DP)は、最悪のケース分析に基づいて広く受け入れられ、広く適用されているプライバシーの概念である。
多くの場合、dpは外部ノイズのないほとんどのメカニズムを非プライベート(dwork et al., 2014)に分類し、外部ノイズ(gaussian noise)やラプラシアンノイズ(dwork et al., 2006)はプライバシーを改善するために導入される。
しかし、現実世界の多くのアプリケーションでは、外部ノイズの追加は望ましくないため、時には禁止される。
例えば、大統領選挙は、しばしば決定論的ルール(Liu et al., 2020)を必要とするが、小さなノイズはディープニューラルネットワークの予測精度を劇的に低下させ、特に表現不足のクラス(Bagdasaryan et al., 2019)は大幅に低下する可能性がある。
本稿では, 祝福されたスムーズな解析の背景にある最悪の平均ケースのアイデア(Spielman and Teng, 2004)に従って, DPの自然な拡張と緩和を提案する。
smoothed dpという私たちの概念は、現実的な設定下で外部ノイズのないメカニズムのプライバシーリークを効果的に測定できます。
構成性, 後処理に対する堅牢性など, スムーズなDPのいくつかの特性を実証する。
dp が予測するよりも,サンプリング手順による離散的なメカニズムはよりプライベートであることが証明された。
対照的に、サンプリング手順を伴う多くの連続的なメカニズムは、平滑化dp下ではまだ非プライベートである。
実世界の選挙において, 個別のサンプリング機構が非公開であることを初めて検証した。
次に,量子化勾配降下に対する平滑化dp概念を適用し,追加ノイズを付加することなく,一部のニューラルネットワークがプライベートであることを示す。
これらの結果は、最悪のケース分析を超えて、現実的なプライバシー対策の理論的基礎に寄与すると考えている。 Differential privacy (DP) is a widely-accepted and widely-applied notion of privacy based on worst-case analysis. Often, DP classifies most mechanisms without external noise as non-private [Dwork et al., 2014], and external noises, such as Gaussian noise or Laplacian noise [Dwork et al., 2006], are introduced to improve privacy. In many real-world applications, however, adding external noise is undesirable and sometimes prohibited. For example, presidential elections often require a deterministic rule to be used [Liu et al., 2020], and small noises can lead to dramatic decreases in the prediction accuracy of deep neural networks, especially the underrepresented classes [Bagdasaryan et al., 2019]. In this paper, we propose a natural extension and relaxation of DP following the worst average-case idea behind the celebrated smoothed analysis [Spielman and Teng, 2004]. Our notion, the smoothed DP, can effectively measure the privacy leakage of mechanisms without external noises under realistic settings. We prove several strong properties of the smoothed DP, including composability, robustness to post-processing and etc. We proved that any discrete mechanism with sampling procedures is more private than what DP predicts. In comparison, many continuous mechanisms with sampling procedures are still non-private under smoothed DP. Experimentally, we first verified that the discrete sampling mechanisms are private in real-world elections. Then, we apply the smoothed DP notion on quantized gradient descent, which indicates some neural networks can be private without adding any extra noises. We believe that these results contribute to the theoretical foundation of realistic privacy measures beyond worst-case analysis. | 翻訳日:2021-07-06 14:44:50 公開日:2021-07-04 |
# Attribute-aware Explainable Complementary Clothing Recommendation Attribute-aware Explainable Complementary Clothing Recommendation ( http://arxiv.org/abs/2107.01655v1 ) ライセンス: Link先を確認 | Yang Li, Tong Chen, Zi Huang | (参考訳) ファッションアイテム間のミックス・アンド・マッチ関係のモデル化は、現代のeコマースのレコメンデーションシステムではますます需要が高まっている。
衣料品マッチングを行う場合、既存のほとんどのアプローチでは、ファッションアイテム画像から抽出した潜在視覚的特徴を互換性モデリングに活用する。
最近の手法では事前に定義された属性情報(色、スタイル、長さなど)が取り入れられ始めている。
項目表現の学習とモデル解釈可能性の向上のために,属性情報の利用は,学習項目表現の強化と後処理による説明の生成に大きく依存している。
その結果、明示的な属性が実際のレコメンデーションプロセスにゆるい接続しか持たないため、レコメンデーションの精度を向上し、きめ細かい説明をしようとすると、これは深刻なボトルネックとなる。
本研究の目的は、ファッションレコメンデーションにおける説明可能性の課題に、新しいファッションレコメンデーションレコメンデーション(AFRec)を提案することである。
具体的には、afrec recommenderは各アイテムの視覚的特徴から抽出された属性レベルの表現を明示的に活用することにより、衣装の互換性を評価する。
属性は2つのファッションアイテム間のブリッジとして機能し、その属性間で学習した互換性を通じて、ペアのアイテムの親和性を定量化する。
広範な実験により、推奨プロセスで明示的な属性をフル活用することで、afrecは最先端の推奨精度を達成し、同時に直感的な説明を生成できることが示されている。 Modelling mix-and-match relationships among fashion items has become increasingly demanding yet challenging for modern E-commerce recommender systems. When performing clothes matching, most existing approaches leverage the latent visual features extracted from fashion item images for compatibility modelling, which lacks explainability of generated matching results and can hardly convince users of the recommendations. Though recent methods start to incorporate pre-defined attribute information (e.g., colour, style, length, etc.) for learning item representations and improving the model interpretability, their utilisation of attribute information is still mainly reserved for enhancing the learned item representations and generating explanations via post-processing. As a result, this creates a severe bottleneck when we are trying to advance the recommendation accuracy and generating fine-grained explanations since the explicit attributes have only loose connections to the actual recommendation process. This work aims to tackle the explainability challenge in fashion recommendation tasks by proposing a novel Attribute-aware Fashion Recommender (AFRec). Specifically, AFRec recommender assesses the outfit compatibility by explicitly leveraging the extracted attribute-level representations from each item's visual feature. The attributes serve as the bridge between two fashion items, where we quantify the affinity of a pair of items through the learned compatibility between their attributes. Extensive experiments have demonstrated that, by making full use of the explicit attributes in the recommendation process, AFRec is able to achieve state-of-the-art recommendation accuracy and generate intuitive explanations at the same time. | 翻訳日:2021-07-06 14:44:27 公開日:2021-07-04 |
# 非原子ゲームにおける学習 : 第1報 有限アクション空間と集団ゲーム Learning in nonatomic games, Part I: Finite action spaces and population games ( http://arxiv.org/abs/2107.01595v1 ) ライセンス: Link先を確認 | Saeed Hadikhanloo and Rida Laraki and Panayotis Mertikopoulos and Sylvain Sorin | (参考訳) 非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
考慮中のダイナミクスのクラスには、架空の遊びとその正規化変種、最高のレプライズ・ダイナミクス(おそらくは正規化)、二重平均化/「正規化リーダーの追従」のダイナミクス(それ自体はレプリケータ・ダイナミクスとフリードマンの射影力学を含む)が含まれる。
我々の分析では、実際の遊びの軌跡と平均時間の両方を考慮し、ポテンシャルゲームと単調ゲーム、および進化的に安定な状態(グローバルかそれ以上)を持つゲームをカバーする。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。 We examine the long-run behavior of a wide range of dynamics for learning in nonatomic games, in both discrete and continuous time. The class of dynamics under consideration includes fictitious play and its regularized variants, the best-reply dynamics (again, possibly regularized), as well as the dynamics of dual averaging / "follow the regularized leader" (which themselves include as special cases the replicator dynamics and Friedman's projection dynamics). Our analysis concerns both the actual trajectory of play and its time-average, and we cover potential and monotone games, as well as games with an evolutionarily stable state (global or otherwise). We focus exclusively on games with finite action spaces; nonatomic games with continuous action spaces are treated in detail in Part II of this paper. | 翻訳日:2021-07-06 14:40:27 公開日:2021-07-04 |
# ゼロショット学習による3次元ハイブリッドシーンのセグメンテーション Segmenting 3D Hybrid Scenes via Zero-Shot Learning ( http://arxiv.org/abs/2107.00430v2 ) ライセンス: Link先を確認 | Bo Liu, Shuang Deng, Qiulei Dong, Zhanyi Hu | (参考訳) ゼロショット学習(zero-shot learning)の枠組みの下で,3dハイブリッドシーンにおけるポイントクラウド意味セグメンテーションの問題に取り組む。
ここではhybridによって、このシーンは見知らぬクラスと見当たらないクラスの3dオブジェクトの両方で構成されており、より汎用的で現実的な設定になっている。
私たちの知る限り、この問題は文献では研究されていない。
そこで本研究では, pfnet と呼ばれるオブジェクトクラスと未知のクラスの両方の意味的特徴を活用し, 様々なオブジェクトクラスの点特徴を合成するネットワークを提案する。
提案するpfnetはganアーキテクチャを用いて点特徴を合成し,新しい意味正規化器を用いて見掛けクラスと見当たらないクラス間の意味関係を統合し,その合成特徴を分類器に訓練して,テスト3dシーンポイントのラベルを予測する。
さらに,S3DISデータセットとScanNetデータセットを6つの異なるデータ分割で再編成することで,アルゴリズム評価のための2つのベンチマークも導入する。
提案手法の有効性を検証し,提案手法を2つのベンチマークと方法論で検証することで,新たな方向性のさらなる研究に役立つことを期待する。 This work is to tackle the problem of point cloud semantic segmentation for 3D hybrid scenes under the framework of zero-shot learning. Here by hybrid, we mean the scene consists of both seen-class and unseen-class 3D objects, a more general and realistic setting in application. To our knowledge, this problem has not been explored in the literature. To this end, we propose a network to synthesize point features for various classes of objects by leveraging the semantic features of both seen and unseen object classes, called PFNet. The proposed PFNet employs a GAN architecture to synthesize point features, where the semantic relationship between seen-class and unseen-class features is consolidated by adapting a new semantic regularizer, and the synthesized features are used to train a classifier for predicting the labels of the testing 3D scene points. Besides we also introduce two benchmarks for algorithmic evaluation by re-organizing the public S3DIS and ScanNet datasets under six different data splits. Experimental results on the two benchmarks validate our proposed method, and we hope our introduced two benchmarks and methodology could be of help for more research on this new direction. | 翻訳日:2021-07-06 10:48:16 公開日:2021-07-04 |