このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200613となっている論文です。

PDF登録状況(公開日: 20200613)

TitleAuthorsAbstract論文公表日・翻訳日
# 高エネルギー物理におけるスピンの非局所相関

Nonlocal Correlation of Spin in High Energy Physics ( http://arxiv.org/abs/2002.04283v3 )

ライセンス: Link先を確認
Chen Qian, Jun-Li Li, Abdul Sattar Khan and Cong-Feng Qiao(参考訳) 非局所性は量子論の重要な特徴であり、絡み合った系に対するベルの不等式違反に反映される。 電磁気学と質量のない量子論を超える実験は、異なる量子相互作用における非局所性を理解する上で非常に重要である。 本研究では,特に量子力学的介入が不要な高エネルギー物理過程に関する一般化されたクロージャ・ホーン不等式を考案する。 BES III や BELLE II のような高エネルギーの実験では、擬スカラークォーコニウムの排他的崩壊を$\Lambda\bar{\Lambda}$ペアに絡める過程において、不等式は破られ、検証可能である。

Nonlocality is a key feature of quantum theory and is reflected in the violation of Bell inequalities for entangled systems. The experimental tests beyond the electromagnetism and massless quanta are of great importance for understanding the nonlocality in different quantum interactions. In this work, we develop a generalized Clauser-Horne inequality pertaining especially to the high energy physics processes, which is quantum mechanical intervene free. We find, in the process of pseudoscalar quarkonium exclusive decay to entangled $\Lambda\bar{\Lambda}$ pairs, the inequality could be violated and is verifiable in high energy experiments, like BES III or BELLE II.
翻訳日:2023-06-03 23:41:25 公開日:2020-06-13
# 高エネルギー物理におけるレゲット不等式による非局所隠れ変数理論のテスト

Test of Nonlocal Hidden Variable Theory by Leggett Inequality in High Energy Physics ( http://arxiv.org/abs/2003.04669v2 )

ライセンス: Link先を確認
Abdul Sattar Khan, Jun-Li Li, Cong-Feng Qiao(参考訳) レゲット不等式(英: leggett inequality)とは、非局所性の特定のタイプを認める二成分相関の制約である。 既存の試験は主に、測定装置が射影的で鋭いと仮定された電磁システムに焦点を当てている。 しかし、本質的には光子に対する同じ保存則に従わない相互作用があり、実際の測定は基本的な物理原理のために避けられない不確実性をもたらす可能性がある。 本研究は,レゲットの不等式を一般化し,非シャープで偏りのない測定を組み込む。 自然界におけるパリティ違反は、ハイパーオンのスピンに対する非シャープな測定の自発的な実装をもたらすことが判明した。 非対称性パラメータによって特徴づけられるハイパーオン崩壊に対する微細な構造的レゲット不等式を求め、その違反はbesiiiやbelleのような実験で得られたデータで観察できる。

The Leggett inequality is a constraint on the bipartite correlation that admits certain types of non-localities. Existing tests mainly focused on the electromagnetic systems where measurement apparatus are assumed to be projective and sharp. However, in nature there are interactions that do not obey the same conservation laws for photon, and the actual measurements may subject to unavoidable uncertainties due to the fundamental physical principles. In this work, we generalize the Leggett inequality to incorporate the measurements that are unsharp and/or biased. It is found that the parity violation in nature provides a spontaneous implementation of an unsharp measurement for the spin of hyperon. A fine structured Leggett inequality for hyperon decays characterized by the asymmetry parameters is obtained and its violation is found which could be observed with the yet obtained data in experiment, like BESIII and Belle.
翻訳日:2023-05-30 01:04:00 公開日:2020-06-13
# 開境界のない多体トポロジと皮膚状態

Many-Body Topological and Skin States without Open Boundaries ( http://arxiv.org/abs/2006.01182v2 )

ライセンス: Link先を確認
Ching Hua Lee(参考訳) ロバスト境界状態は、位相的に保護された状態と非エルミート皮膚状態の両方として、近年の研究の焦点となっている。 本研究では,多体効果が実際の物理的境界の代わりにこれらのロバストな状態の類似性も引き起こすことを示した。 超低温原子格子における粒子統計あるいは適切な工学的相互作用は、アクセス可能な多体ヒルベルト空間を制限し、空間的に周期的な高次元構成空間において効果的な境界を導入することができる。 開境界のない2フェルミオンホッピングモデルにおいて,フェルミオン対が適切に選択されたフラックスによって閉じ込められ,非対称に伝播する位相的キラルモードの出現を示す。 異なる粒子種にまたがる不均一な非相互ホッピングは、オープン境界におけるスキンモードの蓄積を連想させる翻訳不変条件において、堅牢な粒子クランプをもたらす。 しかし、固定された開境界とは異なり、有効な境界は既定の粒子の位置に対応し、動的であり、基本的に多体対単体時間進化の振る舞いが異なる。 非逆累積は制限ヒルベルト空間の次元性によらないので、我々の多体皮膚状態は熱力学的極限において直接一般化する。 しかし、多体位相状態は非自明な次元依存であり、その詳細な探索により高次元位相不変量の研究が促進される。

Robust boundary states have been the focus of much recent research, both as topologically protected states and as non-Hermitian skin states. In this work, we show that many-body effects can also induce analogs of these robust states in place of actual physical boundaries. Particle statistics or suitably engineered interactions i.e. in ultracold atomic lattices can restrict the accessible many-body Hilbert space, and introduce effective boundaries in a spatially periodic higher-dimensional configuration space. We demonstrate the emergence of topological chiral modes in a two-fermion hopping model without open boundaries, with fermion pairs confined and asymmetrically propagated by suitably chosen fluxes. Heterogeneous non-reciprocal hoppings across different particle species can also result in robust particle clumping in a translation invariant setting, reminiscent of skin mode accumulation at an open boundary. But unlike fixed open boundaries, effective boundaries correspond to the locations of impenetrable particles and are dynamic, giving rise to fundamentally different many-body vs. single-body time evolution behavior. Since non-reciprocal accumulation is agnostic to the dimensionality of restricted Hilbert spaces, our many-body skin states generalize directly in the thermodynamic limit. The many-body topological states, however, are nontrivially dimension-dependent, and their detailed exploration will stimulate further studies in higher dimensional topological invariants.
翻訳日:2023-05-17 11:07:50 公開日:2020-06-13
# 高校生の満足度を高めるための体験価値の創造

Creating Experience value to build student satisfaction in higher education ( http://arxiv.org/abs/2006.09846v1 )

ライセンス: Link先を確認
Muji Gunarto and Ratih Hurriyati(参考訳) 学生が受ける高等教育製品やサービスは経験的価値である。 本研究の目的は,学生体験の価値を創造し,学生の満足度を高めることにある。 高等教育は、学生や卒業生と強く結びつくことによって、学生に焦点を当てるべきである。 本研究は, 調査確認手法を用いて行った。 調査はインドネシアの南スマトラ州にある32の大学で行われ、357人の学生のサンプルが得られた。 サンプリング手法は構造方程式モデリング(sem)解析を用いた階層化ランダムサンプリングとデータ解析であった。 以上の結果から,学生がキャンパス活動に直接関与するheにおけるコクレレーションの増大により,heの経験価値が高まった。 高い共同制作は、生徒の愛着が強く、学生経験の価値が高いことを示している。 共同創造は学生の満足度に直接は影響しないが、間接的に経験価値に影響を与える。 経験の価値が高ければ、学生の満足度も高くなる。

Higher education products or services received by students are experiential values. The purpose of this study is how to create the values of student experience so that student satisfaction arises. Higher education should now focus on students by creating strong ties with students and alumni. This research was conducted with a survey confirmatory approach. The survey was conducted at 32 universities in South Sumatra Province, Indonesia with a total sample of 357 students. The sampling technique used was stratified random sampling and data analysis using structural equation modeling (SEM) analysis. The results showed that the values of experience in HE were formed through increased cocreation in HE, where students were directly involved in various campus activities. High co-creation shows that there is a stronger attachment of students to HE and a higher value of student experience. Co-creation does not directly affect student satisfaction, but it does indirectly affect experience value. If the value of experience is higher, student satisfaction will also be higher.
翻訳日:2023-05-15 20:24:41 公開日:2020-06-13
# 変形量子化と量子場のトモグラフィー表現

Deformation quantization and the tomographic representation of quantum fields ( http://arxiv.org/abs/2006.07688v1 )

ライセンス: Link先を確認
Jasel Berra-Montiel and Roberto Cartas(参考訳) 変形量子化形式における量子場のトモグラフィー表現を構築する。 ウィグナー汎関数を用いることで、量子場に関連するシンプレクティックトモグラムを得る。 さらに、ウィグナー写像のトモグラフィー版では、フィールド演算子に対応する記号を計算することができる。 最後に、トモグラフィー星生成物の関数積分表現を決定する。 ループ量子宇宙論とループ量子重力に関するフォーマリズムのいくつかの応用について概説する。

The tomographic representation of quantum fields within the deformation quantization formalism is constructed. By employing the Wigner functional we obtain the symplectic tomogram associated with quantum fields. In addition, the tomographic version of the Wigner map allows us to compute the symbols corresponding to field operators. Finally, the functional integral representation of the tomographic star product is determined. Some possible applications of the formalism to loop quantum cosmology and loop quantum gravity are briefly discussed.
翻訳日:2023-05-15 20:24:14 公開日:2020-06-13
# 量子レナード-ジョーンズ固体の相挙動

Phase behaviour of the quantum Lennard-Jones solid ( http://arxiv.org/abs/2006.07672v1 )

ライセンス: Link先を確認
Heather Wiebe, Tom L. Underwood and Graeme J. Ackland(参考訳) レナード・ジョーンズポテンシャルは、希ガス固体のような非荷電粒子の相互作用の最も広く使われているモデルの一つである。 古典 lj 固体の相図は hcp と fcc の相間の遷移を示すことが知られている。 しかし、量子レナード・ジョーンズ固体の相挙動はいまだ不明である。 経路積分分子動力学および格子動力学計算に基づく熱力学積分は、hcpとfccレナード-ジョーンズ固体の相安定性を研究するために用いられる。 hcp相はPIMDの量子効果によって安定化されることが示され、fccは格子力学によって好まれることが示され、これは高量子系に対する再入射低圧hcp相の可能性を示している。 希ガス固体の相安定性について考察した。 ヘリウムに等しいパラメータでは、ゼロ点振動による膨張は量子融解と関連している: どちらの結晶構造もゼロ圧力では安定ではない。

The Lennard-Jones potential is perhaps one of the most widely-used models for the interaction of uncharged particles, such as noble gas solids. The phase diagram of the classical LJ solid is known to exhibit transitions between hcp and fcc phases. However, the phase behaviour of the quantum Lennard-Jones solid remains unknown. Thermodynamic integration based on path integral molecular dynamics and lattice dynamics calculations are used to study the phase stability of the hcp and fcc Lennard-Jones solids. The hcp phase is shown to be stabilized by quantum effects in PIMD while fcc is shown to be favoured by lattice dynamics, which suggests a possible re-entrant low pressure hcp phase for highly quantum systems. Implications for the phase stability of noble gas solids are discussed. For parameters equating to Helium, the expansion due to zero-point vibrations is associated with quantum melting: neither crystal structure is stable at zero pressure.
翻訳日:2023-05-15 20:23:43 公開日:2020-06-13
# 磁性フラックスによるグラフェンの閉じ込め

Confinement in Gapped Graphene with Magnetic Flux ( http://arxiv.org/abs/2006.07629v1 )

ライセンス: Link先を確認
Bouchaib Lemaalem, Abdelhadi Belouad, Miloud Mekkaoui, Ahmed Jellal(参考訳) 磁気束$\phi$ を受けるガッピンググラフェンの円形量子ドットにおける電子の伝播について検討した。 本稿では, 固有状態, 散乱係数, 散乱効率および反射電流の放射成分の解析式を提案する。 我々は、入射電子エネルギー、ポテンシャル障壁、量子ドットの半径、ギャップ、および$\phi$といった物理パラメータの関数として異なる散乱状態を同定する。 フラックス$\phi=1/2, 3/2$の2つの値を選択し、入射電子の低エネルギーでは散乱共鳴が現れ、遠方散乱電流がそれぞれ好ましい散乱方向を示すことを示す。

We study the propagation of electrons in a circular quantum dot of gapped graphene subject to the magnetic flux $\phi$. We present analytical expressions for the eigenstates, scattering coefficients, scattering efficiency and radial component of the reflected current. We identify different scattering regimes as a function of the physical parameters such as the incident electronic energy, potential barrier, radius of quantum dot, gap and $\phi$. We choose two values of the flux $\phi=1/2, 3/2$ and show that for low energy of the incident electron, the scattering resonances appear and the far-field scattered current presents distinct preferred scattering directions.
翻訳日:2023-05-15 20:23:28 公開日:2020-06-13
# オープン・ガバメント・データの需要側:バーレーン王国を事例として

The Demand Side of Open Government Data: A Case Study of Kingdom of Bahrain ( http://arxiv.org/abs/2006.07618v1 )

ライセンス: Link先を確認
Abdulkarim Katbi, Jaflah AlAmmari, Ali AlSoufi(参考訳) 世界中の政府は、オープン政府データ(ogd)の重要性を、政府をサービス指向、透明性、そして能力のあるものにすることに焦点を当てた、新しいパラダイムシフトとして認識している。 しかし、多くの国と同様に、バーレーン王国におけるOGDイニシアチブの状況は、世界中のOGDの実施と進展を測る多くの評価に反映されているようには期待できない。 本研究は、バーレーン王国におけるOGDの消費・再利用に関する地域状況への投資を目的とする。 具体的には、OGDに対する市民意識のレベルを評価し、OGDの市民要求を決定し、OGDの使用・再利用における重要な課題と障害を特定する。 OGDの需要面を調査するためのアンケートを開発した。 この結果は、OGDの発行者による真剣で責任ある取り組み、すなわち、バーレーン王国におけるOGDイニシアチブの実施プロセスを進めるためには、政府機関が不可欠であると信じられていることを示している。

Governments around the world have realized the importance of Open Government Data (OGD) as a new paradigm shift in government that focuses on making governments more service-oriented, transparent, and competent. However, as with many countries, the situation of the OGD initiative in the Kingdom of Bahrain is not promising as reflected by a number of assessments that measure the implementation and progress of OGD worldwide. The current research aims at investing in the local situation regarding consuming and reusing OGD in the Kingdom of Bahrain. Specifically, this research assesses the level of citizen awareness towards OGD, determines citizens requirements of OGD, and identifies the key challenges and obstacles in using/reusing OGD. A questionnaire was developed to investigate the demand side of OGD. The findings show that serious and responsible efforts from the publishers of OGD, namely: Government Organizations are believed to be a necessity in order to progress the implementation process of the OGD initiative in the Kingdom of Bahrain.
翻訳日:2023-05-15 20:23:16 公開日:2020-06-13
# 射影に基づく二成分開量子系の断熱的除去

Projection based adiabatic elimination of bipartite open quantum systems ( http://arxiv.org/abs/2006.07528v1 )

ライセンス: Link先を確認
Ibrahim Saideh, Daniel Finkelstein-Shapiro, Camille No\^us, T\~onu Pullerits, and Arne Keller(参考訳) 断熱的除去法は、時間スケールの分離を示すシステムダイナミクスを記述するのに必要な空間次元の削減を可能にする。 オープン量子系では、ほぼ瞬時にその定常状態に到達したと仮定した高速な部分を排除し、遅い部分の進化の近似を得る。 これらの方法は、系 hilbert 空間内の線型部分空間の除去や、代わりに二成分量子系における高速なサブ空間の除去に応用することができる。 本研究では,オープン量子システム内の高速自由度を除去するために用いられる断熱除去法(Phys. A 2020, 101,042102)を拡張し,オープン二部量子システムからサブシステムを排除する。 実例として,本手法を分散結合型2量子ビット系に適用し,オープンなRabiモデルの場合に適用する。

Adiabatic elimination methods allow the reduction of the space dimension needed to describe systems dynamics which exhibits separation of time scale. For open quantum system, it consists in eliminating the fast part assuming it has almost instantaneously reached its steady-state and obtaining an approximation of the evolution of the slow part. These methods can be applied to eliminate a linear subspace within the system Hilbert space, or alternatively to eliminate a fast subsystems in a bipartite quantum system. In this work, we extend an adiabatic elimination method used for removing fast degrees of freedom within a open quantum system (Phys. Rev. A 2020, 101,042102) to eliminate a subsystem from an open bipartite quantum system. As an illustration, we apply our technique to a dispersively coupled two-qubit system and in the case of the open Rabi model.
翻訳日:2023-05-15 20:22:33 公開日:2020-06-13
# ニューラルネットワークの最小二乗量子化

Least squares binary quantization of neural networks ( http://arxiv.org/abs/2001.02786v3 )

ライセンス: Link先を確認
Hadi Pouransari, Zhucheng Tu, Oncel Tuzel(参考訳) ディープニューラルネットワークの重みとアクティベーションの定量化は、精度が低いコストで推論効率を大幅に向上させる。 完全精度モデルと量子化モデルの精度差の源は量子化誤差である。 本研究では,値が-1と1にマップされる二項量子化に着目した。 さまざまなスケーリング戦略を分析するための統一フレームワークを提供します。 2ビットと1ビットの量子化のpareto-optimalityに触発されて、2ビットの量子化を最小二乗誤差として導入する。 量子化アルゴリズムはビット演算を用いてハードウェア上で効率的に実装できる。 本稿では,提案手法が最適であることの証明と,経験的誤り解析を提供する。 我々は、ImageNetデータセット上で実験を行い、提案した最小二乗量子化アルゴリズムを用いて精度のギャップを小さくする。

Quantizing weights and activations of deep neural networks results in significant improvement in inference efficiency at the cost of lower accuracy. A source of the accuracy gap between full precision and quantized models is the quantization error. In this work, we focus on the binary quantization, in which values are mapped to -1 and 1. We provide a unified framework to analyze different scaling strategies. Inspired by the pareto-optimality of 2-bits versus 1-bit quantization, we introduce a novel 2-bits quantization with provably least squares error. Our quantization algorithms can be implemented efficiently on the hardware using bitwise operations. We present proofs to show that our proposed methods are optimal, and also provide empirical error analysis. We conduct experiments on the ImageNet dataset and show a reduced accuracy gap when using the proposed least squares quantization algorithms.
翻訳日:2023-01-13 04:12:08 公開日:2020-06-13
# きめ細かい画像間変換による視覚認識

Fine-grained Image-to-Image Transformation towards Visual Recognition ( http://arxiv.org/abs/2001.03856v2 )

ライセンス: Link先を確認
Wei Xiong, Yutong He, Yixuan Zhang, Wenhan Luo, Lin Ma, Jiebo Luo(参考訳) 既存の画像から画像への変換アプローチは、主に視覚的に喜ぶデータの合成に焦点を当てている。 正確な識別ラベルで画像を生成することは、非常に困難である。 顔の回転や物体の視点の変形といったアイデンティティを保ちながら、ポーズ、視点、スケールの大きな変形を伴う画像変換タスクを扱うことは、さらに困難である。 本稿では,入力画像のアイデンティティを保存した新たな画像を生成するために,細粒度カテゴリの画像を変換することを目的としており,それによって,その後のきめ細かい画像認識と数発の学習作業の恩恵を受けることができる。 生成した画像は、大きな幾何学的変形で変換され、必ずしも高画質である必要はないが、できるだけ多くのアイデンティティ情報を保持する必要がある。 この目的のために,画像の同一性および非関連要因を解消するために,生成的逆ネットワークに基づくモデルを採用する。 変形可能な変換中における入力画像の微細なコンテキストの詳細を保存するために, 中間畳み込みブロック間の学習可能なハイウェイを構築するための制約付き非整合接続法を提案する。 さらに、ID情報を出力画像に効果的に転送する適応ID変調機構を提案する。 CompCarsとMulti-PIEデータセットの大規模な実験により、我々のモデルは、最先端の画像-画像変換モデルよりも生成した画像のアイデンティティをはるかに良く保ち、その結果、きめ細かい数ショット学習における視覚認識性能を大幅に向上させることが示された。

Existing image-to-image transformation approaches primarily focus on synthesizing visually pleasing data. Generating images with correct identity labels is challenging yet much less explored. It is even more challenging to deal with image transformation tasks with large deformation in poses, viewpoints, or scales while preserving the identity, such as face rotation and object viewpoint morphing. In this paper, we aim at transforming an image with a fine-grained category to synthesize new images that preserve the identity of the input image, which can thereby benefit the subsequent fine-grained image recognition and few-shot learning tasks. The generated images, transformed with large geometric deformation, do not necessarily need to be of high visual quality but are required to maintain as much identity information as possible. To this end, we adopt a model based on generative adversarial networks to disentangle the identity related and unrelated factors of an image. In order to preserve the fine-grained contextual details of the input image during the deformable transformation, a constrained nonalignment connection method is proposed to construct learnable highways between intermediate convolution blocks in the generator. Moreover, an adaptive identity modulation mechanism is proposed to transfer the identity information into the output image effectively. Extensive experiments on the CompCars and Multi-PIE datasets demonstrate that our model preserves the identity of the generated images much better than the state-of-the-art image-to-image transformation models, and as a result significantly boosts the visual recognition performance in fine-grained few-shot learning.
翻訳日:2023-01-12 04:50:28 公開日:2020-06-13
# 効果的なコンテキストモデリングからどのくらい離れているのか? 文脈における意味解析に関する探索的研究

How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context ( http://arxiv.org/abs/2002.00652v2 )

ライセンス: Link先を確認
Qian Liu, Bei Chen, Jiaqi Guo, Jian-Guang Lou, Bin Zhou, Dongmei Zhang(参考訳) 近年,複雑な文脈現象が存在するため,文脈における意味解析に大きな注目を集めている。 先行研究は,提案手法を限定シナリオで検証し,実世界の意味解析における文脈モデリング手法の探索的研究を動機とした。 文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。 本研究では,2つの大規模クロスドメインデータセット上でのコンテキストモデリング手法の評価を行った。 さらに,最も頻繁な文脈現象を,代表的なモデルに関するきめ細かな分析で要約し,潜在的な研究の方向性を明らかにした。 私たちのコードはhttps://github.com/microsoft/ContextualSPで利用可能です。

Recently semantic parsing in context has received considerable attention, which is challenging since there are complex contextual phenomena. Previous works verified their proposed methods in limited scenarios, which motivates us to conduct an exploratory study on context modeling methods under real-world semantic parsing in context. We present a grammar-based decoding semantic parser and adapt typical context modeling methods on top of it. We evaluate 13 context modeling methods on two large complex cross-domain datasets, and our best model achieves state-of-the-art performances on both datasets with significant improvements. Furthermore, we summarize the most frequent contextual phenomena, with a fine-grained analysis on representative models, which may shed light on potential research directions. Our code is available at https://github.com/microsoft/ContextualSP.
翻訳日:2023-01-04 08:11:05 公開日:2020-06-13
# 文化学習モデルとしての機械学習--太っていることの意味をアルゴリズムに教える

Machine learning as a model for cultural learning: Teaching an algorithm what it means to be fat ( http://arxiv.org/abs/2003.12133v2 )

ライセンス: Link先を確認
Alina Arseniev-Koehler and Jacob G. Foster(参考訳) 文化環境をナビゲートしながら、ジェンダー、社会階級、健康、体重といった文化的バイアスを学びます。 しかし、公共文化がどのように民間文化になるのか、正確には定かではない。 本稿では,そのような文化的学習の理論的考察を行う。 ニューラルワード埋め込みは自然言語から学習された表現の相似的かつ認知的に妥当なモデルを提供する。 ニューラルワード埋め込みを用いて、New York Timesの記事から体重に関する文化的スキーマを抽出する。 肥満と性別・不道徳・健康・低社会階級を関連づけるいくつかの文化スキーマを特定した。 このようなスキーマは、公共文化において微妙だが広く活性化されるため、言語は慢性的にバイアスを再現することができる。 我々の発見は、機械学習が有害な人間のバイアスをコード化し、再現できるという継続的な懸念を強めている。

As we navigate our cultural environment, we learn cultural biases, like those around gender, social class, health, and body weight. It is unclear, however, exactly how public culture becomes private culture. In this paper, we provide a theoretical account of such cultural learning. We propose that neural word embeddings provide a parsimonious and cognitively plausible model of the representations learned from natural language. Using neural word embeddings, we extract cultural schemata about body weight from New York Times articles. We identify several cultural schemata that link obesity to gender, immorality, poor health, and low socioeconomic class. Such schemata may be subtly but pervasively activated in public culture; thus, language can chronically reproduce biases. Our findings reinforce ongoing concerns that machine learning can also encode, and reproduce, harmful human biases.
翻訳日:2022-12-20 08:32:31 公開日:2020-06-13
# stylerig: ポートレート画像の3d制御のためのstylegan

StyleRig: Rigging StyleGAN for 3D Control over Portrait Images ( http://arxiv.org/abs/2004.00121v2 )

ライセンス: Link先を確認
Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, Florian Bernard, Hans-Peter Seidel, Patrick P\'erez, Michael Zollh\"ofer, Christian Theobalt(参考訳) styleganは、目、歯、髪、背景(ネック、肩、背景)を持つ顔のフォトリアリスティックなポートレート画像を生成するが、顔のポーズ、表情、シーンの照明といった3dで解釈可能な意味的な顔パラメータを厳密に制御できない。 一方、三次元変形可能な顔モデル(3dmm)は、意味的パラメータを制御しているが、レンダリング時にフォトリアリズムを欠き、肖像画画像(髪、口内、背景)の他の部分ではなく、顔の内部をモデル化するだけである。 3DMMを用いて,事前に訓練された固定されたStyleGANに対して顔リグ様制御を行う。 新しいリギングネットワークであるRigNetは、3DMMのセマンティックパラメータとStyleGANの入力の間に訓練されている。 ネットワークは、手動のアノテーションを必要とせずに、自己監督でトレーニングされる。 テスト時にはStyleGANのフォトリアリズムによるポートレート画像を生成し,顔の3次元セマンティックパラメータを明示的に制御する。

StyleGAN generates photorealistic portrait images of faces with eyes, teeth, hair and context (neck, shoulders, background), but lacks a rig-like control over semantic face parameters that are interpretable in 3D, such as face pose, expressions, and scene illumination. Three-dimensional morphable face models (3DMMs) on the other hand offer control over the semantic parameters, but lack photorealism when rendered and only model the face interior, not other parts of a portrait image (hair, mouth interior, background). We present the first method to provide a face rig-like control over a pretrained and fixed StyleGAN via a 3DMM. A new rigging network, RigNet is trained between the 3DMM's semantic parameters and StyleGAN's input. The network is trained in a self-supervised manner, without the need for manual annotations. At test time, our method generates portrait images with the photorealism of StyleGAN and provides explicit control over the 3D semantic parameters of the face.
翻訳日:2022-12-18 01:52:21 公開日:2020-06-13
# transform and tell: エンティティを意識したニュース画像キャプション

Transform and Tell: Entity-Aware News Image Captioning ( http://arxiv.org/abs/2004.08070v2 )

ライセンス: Link先を確認
Alasdair Tran, Alexander Mathews, Lexing Xie(参考訳) 本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。 ニュース画像には2つの重要な課題がある:それらは現実世界の知識、特に名前付きエンティティに依存している。 画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。 第2の課題は、バイトペアエンコーディングを使用してキャプションを単語部分のシーケンスとして生成する最先端のトランスフォーマー言語モデルである。 goodnewsデータセットでは、このモデルは、ciderスコア(13から54)の4倍の率で、以前のアートの状態を上回っています。 このパフォーマンス向上は、言語モデル、単語表現、画像埋め込み、顔埋め込み、オブジェクト埋め込み、ニューラルネットワーク設計の改善といったユニークな組み合わせによるものだ。 また、GoodNewsよりも70%大きく、記事の品質が高く、追加のコンテキストキューとして記事内の画像の位置を含むNYTimes800kデータセットを紹介します。

We propose an end-to-end model which generates captions for images embedded in news articles. News images present two key challenges: they rely on real-world knowledge, especially about named entities; and they typically have linguistically rich captions that include uncommon words. We address the first challenge by associating words in the caption with faces and objects in the image, via a multi-modal, multi-head attention mechanism. We tackle the second challenge with a state-of-the-art transformer language model that uses byte-pair-encoding to generate captions as a sequence of word parts. On the GoodNews dataset, our model outperforms the previous state of the art by a factor of four in CIDEr score (13 to 54). This performance gain comes from a unique combination of language models, word representation, image embeddings, face embeddings, object embeddings, and improvements in neural network design. We also introduce the NYTimes800k dataset which is 70% larger than GoodNews, has higher article quality, and includes the locations of images within articles as an additional contextual cue.
翻訳日:2022-12-12 10:15:58 公開日:2020-06-13
# av安全性をターゲットとするml駆動マルウェア

ML-driven Malware that Targets AV Safety ( http://arxiv.org/abs/2004.13004v2 )

ライセンス: Link先を確認
Saurabh Jha, Shengkun Cui, Subho S. Banerjee, Timothy Tsai, Zbigniew Kalbarczyk, Ravi Iyer(参考訳) 自動運転車(AV)の安全性を確保することは、その大量展開と公的な採用にとって重要である。 しかしながら、安全上の制約に違反し、事故を引き起こすセキュリティ攻撃は、AVに対する公衆の信頼を達成し、AVをデプロイするベンダーの能力を妨げている。 深刻な安全上の妥協(例えば事故)をもたらすセキュリティハザードを作成することは、攻撃者の視点からは説得力がある。 本稿では,スマートマルウェアの形で攻撃を展開する手法である攻撃モデルと,その生産段階の自動運転ソフトウェアに対する影響を実験的に評価する。 我々は、攻撃の開始までの時間間隔を決定することは、高い成功率で安全性の危険(衝突など)を引き起こすのに重要であることを見出した。 例えば、スマートマルウェアは、ランダムな攻撃よりも33倍の緊急ブレーキを引き起こし、運転シミュレーションの52.6%で事故が発生した。

Ensuring the safety of autonomous vehicles (AVs) is critical for their mass deployment and public adoption. However, security attacks that violate safety constraints and cause accidents are a significant deterrent to achieving public trust in AVs, and that hinders a vendor's ability to deploy AVs. Creating a security hazard that results in a severe safety compromise (for example, an accident) is compelling from an attacker's perspective. In this paper, we introduce an attack model, a method to deploy the attack in the form of smart malware, and an experimental evaluation of its impact on production-grade autonomous driving software. We find that determining the time interval during which to launch the attack is{ critically} important for causing safety hazards (such as collisions) with a high degree of success. For example, the smart malware caused 33X more forced emergency braking than random attacks did, and accidents in 52.6% of the driving simulations.
翻訳日:2022-12-10 03:25:22 公開日:2020-06-13
# 妥協のないベイズニューラルネットワーク

Compromise-free Bayesian neural networks ( http://arxiv.org/abs/2004.12211v3 )

ライセンス: Link先を確認
Kamran Javid, Will Handley, Mike Hobson, Anthony Lasenby(参考訳) 我々は,ベイズ型ニューラルネットワーク(bnns)のベイズ的証拠とサンプル外性能の関係を徹底的に分析し,ボストン・ハウジング・データセットを用いてbnnのアンサンブルの性能を考察した。 ネストサンプリングにおける最先端技術を用いて,全(非ガウシアンおよびマルチモーダル)ネットワークの後方を数値的にサンプリングし,最大156パラメータのネットワークモデルを用いてベイズ証拠の数値推定を行う。 ネットワークはゼロから4つの隠れレイヤを持ち、$\tanh$か$ReLU$のアクティベーション関数を持ち、階層的な前もなしである。 BNNのアンサンブルは、ベイズ証拠値によって再重み付けされた個々のBNNの後部サンプルから、ネットワーク上の後部分布を決定することによって得られる。 サンプル外性能と証拠との間には良好な相関関係があり、証拠対モデルサイズとサンプル外パフォーマンスとモデルサイズプレーンとの間には顕著な対称性がある。 relu$アクティベーション関数を持つネットワークは、$\tanh$関数を持つネットワークよりも一貫して高い証拠を持っている。 アーキテクチャを組み立てることによって、個々のBNNと比較してパフォーマンスがさらに向上する。

We conduct a thorough analysis of the relationship between the out-of-sample performance and the Bayesian evidence (marginal likelihood) of Bayesian neural networks (BNNs), as well as looking at the performance of ensembles of BNNs, both using the Boston housing dataset. Using the state-of-the-art in nested sampling, we numerically sample the full (non-Gaussian and multimodal) network posterior and obtain numerical estimates of the Bayesian evidence, considering network models with up to 156 trainable parameters. The networks have between zero and four hidden layers, either $\tanh$ or $ReLU$ activation functions, and with and without hierarchical priors. The ensembles of BNNs are obtained by determining the posterior distribution over networks, from the posterior samples of individual BNNs re-weighted by the associated Bayesian evidence values. There is good correlation between out-of-sample performance and evidence, as well as a remarkable symmetry between the evidence versus model size and out-of-sample performance versus model size planes. Networks with $ReLU$ activation functions have consistently higher evidences than those with $\tanh$ functions, and this is reflected in their out-of-sample performance. Ensembling over architectures acts to further improve performance relative to the individual BNNs.
翻訳日:2022-12-09 21:43:28 公開日:2020-06-13
# 集団検査における感染患者のベイズ推定と有病率推定

Bayesian inference of infected patients in group testing with prevalence estimation ( http://arxiv.org/abs/2004.13667v2 )

ライセンス: Link先を確認
Ayaka Sakata(参考訳) グループテスト(グループテスト)は、患者から採取された検体を検査することで、感染した患者を特定する方法である。 検査が有限確率で偽の結果を返す場合,プール上で行った検査結果から感染した患者を識別するためのベイズ推論と対応する信念伝達(bp)アルゴリズムを提案する。 本研究は,各患者の点推定の信頼区間を考慮し,真陽性率の向上を図っている。 さらに、期待最大化法とbpアルゴリズムを組み合わせることにより、テストにおける有病率と誤差確率を推定する。 別のアプローチとして,感染患者を同定し,有病率を推定する階層型ベイズモデルを導入する。 これらの方法を比較することで,実践的利用のための指針を定式化する。

Group testing is a method of identifying infected patients by performing tests on a pool of specimens collected from patients. For the case in which the test returns a false result with finite probability, we propose Bayesian inference and a corresponding belief propagation (BP) algorithm to identify the infected patients from the results of tests performed on the pool. We show that the true-positive rate is improved by taking into account the credible interval of a point estimate of each patient. Further, the prevalence and the error probability in the test are estimated by combining an expectation-maximization method with the BP algorithm. As another approach, we introduce a hierarchical Bayes model to identify the infected patients and estimate the prevalence. By comparing these methods, we formulate a guide for practical usage.
翻訳日:2022-12-08 22:43:01 公開日:2020-06-13
# 依存パーシングとしての名前付きエンティティ認識

Named Entity Recognition as Dependency Parsing ( http://arxiv.org/abs/2005.07150v3 )

ライセンス: Link先を確認
Juntao Yu and Bernd Bohnet and Massimo Poesio(参考訳) 名前付きエンティティ認識(ner)は自然言語処理における基本的なタスクであり、エンティティへの参照を表現するテキストのスパンを識別することに関わる。 NER研究は、しばしば平らなエンティティのみ(フラットなNER)に焦点を当てており、[中国銀行](Finkel and Manning, 2009)のように、エンティティ参照をネストできるという事実を無視している。 本稿では,グラフに基づく依存性解析のアイデアを用いて,バイファインモデル(Dozat and Manning, 2017)による入力のグローバルなビューを提供する。 biaffineモデルは、すべてのスパンを探索するために使用する文の開始トークンと終了トークンのペアをスコア付けし、モデルが名前付きエンティティを正確に予測できるようにします。 このモデルは,8コーパスの評価とSoTA性能の達成により,最大2.2ポイントの精度向上を達成し,ネスト型NERと平坦型NERの両方で良好に動作することを示す。

Named Entity Recognition (NER) is a fundamental task in Natural Language Processing, concerned with identifying spans of text expressing references to entities. NER research is often focused on flat entities only (flat NER), ignoring the fact that entity references can be nested, as in [Bank of [China]] (Finkel and Manning, 2009). In this paper, we use ideas from graph-based dependency parsing to provide our model a global view on the input via a biaffine model (Dozat and Manning, 2017). The biaffine model scores pairs of start and end tokens in a sentence which we use to explore all spans, so that the model is able to predict named entities accurately. We show that the model works well for both nested and flat NER through evaluation on 8 corpora and achieving SoTA performance on all of them, with accuracy gains of up to 2.2 percentage points.
翻訳日:2022-12-03 05:06:32 公開日:2020-06-13
# 強化学習

Reinforcement Learning ( http://arxiv.org/abs/2005.14419v2 )

ライセンス: Link先を確認
Olivier Buffet, Olivier Pietquin, Paul Weng(参考訳) 強化学習(rl)は適応制御の一般的なフレームワークであり、ボードゲームやビデオゲーム、自動運転車など、多くの分野において効率的であることが証明されている。 このような問題において、エージェントは、その状態を観察し、アクションを実行し、報酬を受け取り、新しい状態に移行する、逐次的な意思決定問題に直面します。 RLエージェントは、試験によって学習し、以前に実行されたアクションに対する観測および数値報酬フィードバックに基づいて、良いポリシー(またはコントローラ)をエラーする。 本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。 1つ目は価値に基づくもので、最適なポリシーの価値を推定し、もう1つはポリシー検索と呼ばれ、ポリシー空間で直接動作する。 アクタ-批判的手法は、学習した政策価値が政策改善を導く政策探索手法と見なすことができる。 さらに、標準のrlフレームワークの拡張、特にリスク回避の振る舞いを考慮に入れる必要がある場合や、報酬が利用できない場合、あるいは知られていない場合について概要を示す。

Reinforcement learning (RL) is a general framework for adaptive control, which has proven to be efficient in many domains, e.g., board games, video games or autonomous vehicles. In such problems, an agent faces a sequential decision-making problem where, at every time step, it observes its state, performs an action, receives a reward and moves to a new state. An RL agent learns by trial and error a good policy (or controller) based on observations and numeric reward feedback on the previously performed action. In this chapter, we present the basic framework of RL and recall the two main families of approaches that have been developed to learn a good policy. The first one, which is value-based, consists in estimating the value of an optimal policy, value from which a policy can be recovered, while the other, called policy search, directly works in a policy space. Actor-critic methods can be seen as a policy search technique where the policy value that is learned guides the policy improvement. Besides, we give an overview of some extensions of the standard RL framework, notably when risk-averse behavior needs to be taken into account or when rewards are not available or not known.
翻訳日:2022-11-26 22:45:06 公開日:2020-06-13
# 条件付きパラメトリド畳み込みを用いた携帯端末とウェアラブル端末のリアルタイムヒューマンアクティビティ認識

Real-time Human Activity Recognition Using Conditionally Parametrized Convolutions on Mobile and Wearable Devices ( http://arxiv.org/abs/2006.03259v2 )

ライセンス: Link先を確認
Xin Cheng, Lei Zhang, Yin Tang, Yue Liu, Hao Wu and Jun He(参考訳) 近年,深層学習は人間の活動認識(HAR)において重要な研究トレンドとなっている。 特に、ディープ畳み込みニューラルネットワーク(CNN)は、さまざまなHARデータセットで最先端のパフォーマンスを達成した。 ディープラーニングの場合、パフォーマンスの改善はモデルサイズや、大規模データセットへのスケールアップ能力の増大に大きく依存する必要があり、それが必然的にオペレーションの増加につながる。 深い傾きの操作の多さは計算コストを増大させ,モバイルおよびウェアラブルセンサを用いたリアルタイムHARには適さない。 浅い学習技術は、しばしば軽量であるが、優れたパフォーマンスを達成できなかった。 したがって、精度と計算コストのトレードオフをバランスさせるディープラーニング手法は、我々の知識がほとんど研究されていないため、非常に必要である。 本稿では,モバイルおよびウェアラブルデバイスにおけるリアルタイムHARのための条件パラメータ化畳み込みを用いた計算効率の良いCNNを提案する。 提案手法は,wisdmデータセット,pamap2データセット,unimib-sharデータセット,オポチュニティデータセットの4つの公開ベンチマークharデータセット上で評価し,計算コストを妥協することなく最先端精度を実現する。 様々なアブレーション実験を行い,同等量の演算を要求されながら,大容量ネットワークがベースラインに対して明らかに好適であることを示す。 この方法は、既存のディープHARアーキテクチャの代替として使用することができ、リアルタイムHARアプリケーションのためにモバイルおよびウェアラブルデバイスに簡単にデプロイできる。

Recently, deep learning has represented an important research trend in human activity recognition (HAR). In particular, deep convolutional neural networks (CNNs) have achieved state-of-the-art performance on various HAR datasets. For deep learning, improvements in performance have to heavily rely on increasing model size or capacity to scale to larger and larger datasets, which inevitably leads to the increase of operations. A high number of operations in deep leaning increases computational cost and is not suitable for real-time HAR using mobile and wearable sensors. Though shallow learning techniques often are lightweight, they could not achieve good performance. Therefore, deep learning methods that can balance the trade-off between accuracy and computation cost is highly needed, which to our knowledge has seldom been researched. In this paper, we for the first time propose a computation efficient CNN using conditionally parametrized convolution for real-time HAR on mobile and wearable devices. We evaluate the proposed method on four public benchmark HAR datasets consisting of WISDM dataset, PAMAP2 dataset, UNIMIB-SHAR dataset, and OPPORTUNITY dataset, achieving state-of-the-art accuracy without compromising computation cost. Various ablation experiments are performed to show how such a network with large capacity is clearly preferable to baseline while requiring a similar amount of operations. The method can be used as a drop-in replacement for the existing deep HAR architectures and easily deployed onto mobile and wearable devices for real-time HAR applications.
翻訳日:2022-11-25 04:03:21 公開日:2020-06-13
# ローカライゼーションマップの再考:自己認識マップによる正確な物体認識に向けて

Rethinking Localization Map: Towards Accurate Object Perception with Self-Enhancement Maps ( http://arxiv.org/abs/2006.05220v2 )

ライセンス: Link先を確認
Xiaolin Zhang, Yunchao Wei, Yi Yang, Fei Wu(参考訳) 近年,weakly supervised object localization (wsol) において,物体局在マップの促進が目覚ましい進展を遂げている。 これらの地図の評価の一般的な実践は、間接的かつ粗い方法で、すなわち、高い活性化領域をカバーし、予測された接点と接点の接点(IoU)のスコアを計算できる厳密な境界ボックスを得る。 この測定は地図の局所化能力をある程度評価することができるが、地図は直接的かつ微妙に測定されるべきであり、すなわち、地上のトラス・オブジェクト・マスクをピクセル・ワイズに比較すべきである。 直接評価を実現するため,ILSVRC検証セットに画素レベルのオブジェクトマスクを注釈付けする。 本稿では,iou-threshold曲線を用いたローカライゼーションマップの質評価を提案する。 修正された評価基準と注釈付きオブジェクトマスクに加えて、この研究は、厳密なオブジェクトローカライゼーションマップとオブジェクト境界を、監督対象のカテゴリラベルのみで収集する新しい自己強調手法も導入している。 本稿では,高能率画素と残像画素の点次特徴の類似性を比較することで,局所写像を生成するための2段階のアプローチを提案する。 予測されたローカライゼーションマップに基づいて、非常に大きなデータセット上でオブジェクト境界を推定する。 微細な境界を得るために, 強負の抑制損失を提案する。 ILSVRCとCUBベンチマークで広範な実験を行った。 特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。 コードと注釈付きマスクはhttps://github.com/xiaomengyc/SEMで公開されている。

Recently, remarkable progress has been made in weakly supervised object localization (WSOL) to promote object localization maps. The common practice of evaluating these maps applies an indirect and coarse way, i.e., obtaining tight bounding boxes which can cover high-activation regions and calculating intersection-over-union (IoU) scores between the predicted and ground-truth boxes. This measurement can evaluate the ability of localization maps to some extent, but we argue that the maps should be measured directly and delicately, i.e., comparing the maps with the ground-truth object masks pixel-wisely. To fulfill the direct evaluation, we annotate pixel-level object masks on the ILSVRC validation set. We propose to use IoU-Threshold curves for evaluating the real quality of localization maps. Beyond the amended evaluation metric and annotated object masks, this work also introduces a novel self-enhancement method to harvest accurate object localization maps and object boundaries with only category labels as supervision. We propose a two-stage approach to generate the localization maps by simply comparing the similarity of point-wise features between the high-activation and the rest pixels. Based on the predicted localization maps, we explore to estimate object boundaries on a very large dataset. A hard-negative suppression loss is proposed for obtaining fine boundaries. We conduct extensive experiments on the ILSVRC and CUB benchmarks. In particular, the proposed Self-Enhancement Maps achieve the state-of-the-art localization accuracy of 54.88% on ILSVRC. The code and the annotated masks are released at https://github.com/xiaomengyc/SEM.
翻訳日:2022-11-23 15:12:46 公開日:2020-06-13
# 変形可能な畳み込みネットワークのための効率的な加速器設計手法

An Efficient Accelerator Design Methodology for Deformable Convolutional Networks ( http://arxiv.org/abs/2006.05238v2 )

ライセンス: Link先を確認
Saehyun Ahn, Jung-Woo Chang, and Suk-Ju Kang(参考訳) 変形可能な畳み込みネットワークは、効果的な特徴抽出によるオブジェクト認識タスクにおいて優れた性能を示した。 標準の畳み込みとは異なり、変形可能な畳み込みは動的に生成されたオフセットを使って受容野のサイズを決定する。 特に、メモリアクセスパターンは空間的にも時間的にも異なるため、静的な最適化は効果的ではない。 したがって、ナイーブな実装は過剰なメモリフットプリントにつながる。 本稿では,FPGA上の変形可能な畳み込みを高速化する新しい手法を提案する。 まず, 変形可能な畳み込み層における受容場の大きさを, 精度を損なうことなく低減する新しい学習法を提案する。 受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。 第2に,効率を最大化するための効率的なシストリックアーキテクチャを提案する。 次に、最適化されたデータフローをサポートするためにFPGAに設計を実装します。 実験の結果,我々の加速器は最先端の加速器よりも最大17.25倍のスピードアップを達成した。

Deformable convolutional networks have demonstrated outstanding performance in object recognition tasks with an effective feature extraction. Unlike standard convolution, the deformable convolution decides the receptive field size using dynamically generated offsets, which leads to an irregular memory access. Especially, the memory access pattern varies both spatially and temporally, making static optimization ineffective. Thus, a naive implementation would lead to an excessive memory footprint. In this paper, we present a novel approach to accelerate deformable convolution on FPGA. First, we propose a novel training method to reduce the size of the receptive field in the deformable convolutional layer without compromising accuracy. By optimizing the receptive field, we can compress the maximum size of the receptive field by 12.6 times. Second, we propose an efficient systolic architecture to maximize its efficiency. We then implement our design on FPGA to support the optimized dataflow. Experimental results show that our accelerator achieves up to 17.25 times speedup over the state-of-the-art accelerator.
翻訳日:2022-11-23 15:04:44 公開日:2020-06-13
# 学習用スパースグラフと一般化ケステン・スティグラム閾値

Learning Sparse Graphons and the Generalized Kesten-Stigum Threshold ( http://arxiv.org/abs/2006.07695v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Shuangping Li and Allan Sly(参考訳) グラフ学習の問題は、いくつかの科学コミュニティでかなりの注目を集めており、近年のスパルサー政権では大きな進歩を遂げている。 しかし、現在の手法では、グラフの局所構造が均質な場合において、効率的なアルゴリズムを成功させるためには、変分度を必要とする。 本稿では,一定の期待度でグラフを学習するための効率的なアルゴリズムを提案する。 このアルゴリズムは、グラフンの上位$k$固有値が一般化ケステン・スティグム条件を満たす場合、$L_2$計量におけるグラフンのランク-$k$投影を推定することに成功した。

The problem of learning graphons has attracted considerable attention across several scientific communities, with significant progress over the recent years in sparser regimes. Yet, the current techniques still require diverging degrees in order to succeed with efficient algorithms in the challenging cases where the local structure of the graph is homogeneous. This paper provides an efficient algorithm to learn graphons in the constant expected degree regime. The algorithm is shown to succeed in estimating the rank-$k$ projection of a graphon in the $L_2$ metric if the top $k$ eigenvalues of the graphon satisfy a generalized Kesten-Stigum condition.
翻訳日:2022-11-21 21:38:49 公開日:2020-06-13
# 異なるプライベートマシンラーニングの監査 - プライベートSGDとは何か?

Auditing Differentially Private Machine Learning: How Private is Private SGD? ( http://arxiv.org/abs/2006.07709v1 )

ライセンス: Link先を確認
Matthew Jagielski and Jonathan Ullman and Alina Oprea(参考訳) 我々は、差分プライベートSGDが、最先端の分析によって保証されているものよりも、実際に優れたプライバシーを提供するかどうかを検討する。 われわれは、新しいデータ中毒攻撃を通じて、現実的なプライバシー攻撃に対応している。 以前の研究(Ma et al., arXiv 2019)では、データ中毒に対する防御手段として、差分プライバシーとデータ中毒の関連性を提案していましたが、特定のメカニズムのプライバシーを理解するツールとしての使用は新しいものです。 より一般的に、我々の研究は、微分プライベートアルゴリズムの特定の実装によって得られるプライバシーを理解するための定量的かつ実証的なアプローチを取ります。

We investigate whether Differentially Private SGD offers better privacy in practice than what is guaranteed by its state-of-the-art analysis. We do so via novel data poisoning attacks, which we show correspond to realistic privacy attacks. While previous work (Ma et al., arXiv 2019) proposed this connection between differential privacy and data poisoning as a defense against data poisoning, our use as a tool for understanding the privacy of a specific mechanism is new. More generally, our work takes a quantitative, empirical approach to understanding the privacy afforded by specific implementations of differentially private algorithms that we believe has the potential to complement and influence analytical work on differential privacy.
翻訳日:2022-11-21 21:36:00 公開日:2020-06-13
# 学習時系列表現による解釈可能な超解像

Interpretable Super-Resolution via a Learned Time-Series Representation ( http://arxiv.org/abs/2006.07713v1 )

ライセンス: Link先を確認
Randall Balestriero, Herve Glotin, Richard G. Baraniuk(参考訳) 時系列解析のための超解像二次信号表現を生成する,解釈可能で学習可能なwigner-ville分布を開発した。 我々のアプローチには2つの大きな特徴がある。 第一に、既知の時間-周波数表現(tfrs)の間には、ハイゼンベルクの不確実性原理が規定するもの以上の時間と周波数分解能で超解像に到達できること、第二に、ウィグナー-ヴィル分布の明示的な低次元および物理的パラメータ化により解釈可能であることを補間する。 この手法は高度に適応したtfrを学習でき、様々な大規模分類タスクに準備ができ、ベースラインや学習したtfrと比較して最先端のパフォーマンスに達することを実証する。

We develop an interpretable and learnable Wigner-Ville distribution that produces a super-resolved quadratic signal representation for time-series analysis. Our approach has two main hallmarks. First, it interpolates between known time-frequency representations (TFRs) in that it can reach super-resolution with increased time and frequency resolution beyond what the Heisenberg uncertainty principle prescribes and thus beyond commonly employed TFRs, Second, it is interpretable thanks to an explicit low-dimensional and physical parameterization of the Wigner-Ville distribution. We demonstrate that our approach is able to learn highly adapted TFRs and is ready and able to tackle various large-scale classification tasks, where we reach state-of-the-art performance compared to baseline and learned TFRs.
翻訳日:2022-11-21 21:35:45 公開日:2020-06-13
# スピンハミルトンパラメータとその不確かさのデータ駆動決定:ジグザグ鎖化合物KCu$_4$P$_3$O$_{12}$の場合

Data-driven determination of the spin Hamiltonian parameters and their uncertainties: The case of the zigzag-chain compound KCu$_4$P$_3$O$_{12}$ ( http://arxiv.org/abs/2006.07523v1 )

ライセンス: Link先を確認
Ryo Tamura, Koji Hukushima, Akira Matsuo, Koichi Kindo, Masashi Hase(参考訳) 複数の物理量から不確実性を含むスピンハミルトンを推定するデータ駆動手法を提案する。 KCu$_4$P$_3$O$_{12}$の有効モデルは、高磁場下での様々な温度で観測された磁化率と磁化曲線から決定される。 J_1 = -8.54 \pm 0.51 \{\rm meV}$、$J_2 = -2.67 \pm 1.13 \{\rm meV}$、$J_3 = -3.90 \pm 0.15 \{\rm meV}$、$J_4 = 6.24 \pm 0.95 \{\rm meV}$の8つのスピンを持つジグザグ鎖上の量子ハイゼンベルクモデルが、これらの測定結果をよく記述している。 これらの不確実性はノイズ推定によって決定される。 推定磁気相互作用や物理量との関係についても論じる。 得られた有効モデルは, スピンギャップ, 基底状態におけるスピン配置, 磁気比熱, 磁気エントロピーなどの硬度測定特性の予測に有用である。

We propose a data-driven technique to estimate the spin Hamiltonian, including uncertainty, from multiple physical quantities. Using our technique, an effective model of KCu$_4$P$_3$O$_{12}$ is determined from the experimentally observed magnetic susceptibility and magnetization curves with various temperatures under high magnetic fields. An effective model, which is the quantum Heisenberg model on a zigzag chain with eight spins having $J_1= -8.54 \pm 0.51 \{\rm meV}$, $J_2 = -2.67 \pm 1.13 \{\rm meV}$, $J_3 = -3.90 \pm 0.15 \{\rm meV}$, and $J_4 = 6.24 \pm 0.95 \{\rm meV}$, describes these measured results well. These uncertainties are successfully determined by the noise estimation. The relations among the estimated magnetic interactions or physical quantities are also discussed. The obtained effective model is useful to predict hard-to-measure properties such as spin gap, spin configuration at the ground state, magnetic specific heat, and magnetic entropy.
翻訳日:2022-11-21 21:35:29 公開日:2020-06-13
# 気象条件を考慮した自転車共有システムにおける自転車数モデリング

Modeling bike counts in a bike-sharing system considering the effect of weather conditions ( http://arxiv.org/abs/2006.07563v1 )

ライセンス: Link先を確認
Huthaifa I. Ashqar, Mohammed Elhenawy, and Hesham A.Rakha(参考訳) サンフランシスコベイエリア自転車共有システムにおいて,天気条件が自転車の駅数予測に与える影響を定量的に評価する手法を開発した。 ランダムフォレスト手法は、フォワードステップワイズ回帰アプローチを用いた回帰モデルの開発に使用された予測器のランク付けに用いられた。 ベイズ情報基準は様々な予測モデルの開発と比較に用いられた。 提案手法は,大規模ネットワークにおける大規模bssおよび各局における各種機能の効果を定量化できることを実証した。 その結果, 日時, 温度, 湿度 (これまで研究されていない) が有意な数の予測因子であることが示唆された。 また、気象変数は地理的な位置に依存するため、モデリングに使用する前に定量化する必要があることも示している。 さらに, 駅Iにおける利用可能な自転車の数は, 駅Iにおける利用回数を推定する上で最も有意な変数であった。

The paper develops a method that quantifies the effect of weather conditions on the prediction of bike station counts in the San Francisco Bay Area Bike Share System. The Random Forest technique was used to rank the predictors that were then used to develop a regression model using a guided forward step-wise regression approach. The Bayesian Information Criterion was used in the development and comparison of the various prediction models. We demonstrated that the proposed approach is promising to quantify the effect of various features on a large BSS and on each station in cases of large networks with big data. The results show that the time-of-the-day, temperature, and humidity level (which has not been studied before) are significant count predictors. It also shows that as weather variables are geographic location dependent and thus should be quantified before using them in modeling. Further, findings show that the number of available bikes at station i at time t-1 and time-of-the-day were the most significant variables in estimating the bike counts at station i.
翻訳日:2022-11-21 21:34:50 公開日:2020-06-13
# レーザー材料加工における予測モデリング手法

Predictive modeling approaches in laser-based material processing ( http://arxiv.org/abs/2006.07686v1 )

ライセンス: Link先を確認
Maria Christina Velli, George D. Tsibidis, Alexandros Mimidis, Evangelos Skoulas, Yannis Pantazis and Emmanuel Stratakis(参考訳) 予測モデリングは、物理的メカニズムを迅速に理解し、新しい材料、プロセス、構造を同時に開発することを目的とした、既存の方法論と新しい方法論を組み合わせた新興分野である。 現在の研究では、キー対応技術における未探索の予測モデルであるレーザーベースの製造が、材料構造に対するレーザー処理の効果の自動化と予測を目的としている。 この焦点は、様々な材料上でのレーザ処理の結果を予測するために、統計および機械学習の代表的なアルゴリズムの性能に焦点を当てている。 実験結果から, レーザ入力変数と観測材料構造とのマッピングを, 予測モデルで十分に学習できることが確認された。 これらの結果は、レーザー-材料相互作用による多スケール物理過程の解明を目的としたシミュレーションデータとさらに統合される。 その結果,調整されたシミュレーションデータを実験値に拡張し,サンプリング点数の増加により予測性能が大幅に向上した。 平行して、予測の不確実性の高い領域を特定し定量化する指標を示し、遷移境界付近で高い不確実性が発生することを示した。 本研究は, 高価な試行錯誤に基づく製造手順を, 精密なプレファブリケーション予測ツールに置き換えることで, 材料設計, 試験, 製造コストを削減するための体系的手法の基礎を定めている。

Predictive modelling represents an emerging field that combines existing and novel methodologies aimed to rapidly understand physical mechanisms and concurrently develop new materials, processes and structures. In the current study, previously-unexplored predictive modelling in a key-enabled technology, the laser-based manufacturing, aims to automate and forecast the effect of laser processing on material structures. The focus is centred on the performance of representative statistical and machine learning algorithms in predicting the outcome of laser processing on a range of materials. Results on experimental data showed that predictive models were able to satisfactorily learn the mapping between the laser input variables and the observed material structure. These results are further integrated with simulation data aiming to elucidate the multiscale physical processes upon laser-material interaction. As a consequence, we augmented the adjusted simulated data to the experimental and substantially improved the predictive performance, due to the availability of increased number of sampling points. In parallel, a metric to identify and quantify the regions with high predictive uncertainty, is presented, revealing that high uncertainty occurs around the transition boundaries. Our results can set the basis for a systematic methodology towards reducing material design, testing and production cost via the replacement of expensive trial-and-error based manufacturing procedure with a precise pre-fabrication predictive tool.
翻訳日:2022-11-21 21:34:35 公開日:2020-06-13
# AI研究者の倫理的考察

Ethical Considerations for AI Researchers ( http://arxiv.org/abs/2006.07558v1 )

ライセンス: Link先を確認
Kyle Dent(参考訳) 人工知能の利用は、人々の生活に影響を与えるアプリケーションへと成長し、拡大しています。 人々は自分の技術や限界を本当に理解せずに信頼します。 害の可能性を秘めており、すでに世界中でその例が見られます。 AI研究者は、彼らが取り組んでいるインテリジェントなアプリケーションの影響を検討する義務がある。 aiの倫理は明確ではないが、私たちが導入する危険を最小限に抑えるためのガイドラインがある。

Use of artificial intelligence is growing and expanding into applications that impact people's lives. People trust their technology without really understanding it or its limitations. There is the potential for harm and we are already seeing examples of that in the world. AI researchers have an obligation to consider the impact of intelligent applications they work on. While the ethics of AI is not clear-cut, there are guidelines we can consider to minimize the harm we might introduce.
翻訳日:2022-11-21 21:28:10 公開日:2020-06-13
# quotaベースのデバイアスは、すでに過小表現されたグループの表現を減らすことができる

Quota-based debiasing can decrease representation of already underrepresented groups ( http://arxiv.org/abs/2006.07647v1 )

ライセンス: Link先を確認
Ivan Smirnov, Florian Lemmerich, Markus Strohmaier(参考訳) 学校入学、雇用、選挙などの社会における重要な決定の多くは、候補者の大きなプールから上位の個人を選ぶことに基づいている。 このプロセスは、しばしばバイアスを受けており、通常、選択されたまたは受け入れられた個人の中の特定のグループの下層表現として表される。 この問題に対する最も一般的なアプローチは、例えばある、しばしば二項属性に対する群の比例表現を保証するクォータの導入による偏りである。 裁判には、選挙における法人委員会での女性の割当や、民族的割当が含まれる。 しかし、これは他の属性に対する表現の変化を誘発する可能性がある。 2つの相関したバイナリ属性の場合、単一の属性に基づくクォータベースのデバイアスは、既に表現されていない群の表現を悪化させ、選択の全体的公正性を低下させる。 我々は,レシディズムリスクアセスメントから科学的引用まで,様々な分野のデータセットを用いて,この効果を実世界環境において評価する。 以上の結果から,不等式を根源とする不等式を解消するためには,すべての関連属性をデバイアス手順に含めることの重要性が示され,クオータに基づくデバイアスのような純粋数値解が意図しない結果をもたらす可能性がある。

Many important decisions in societies such as school admissions, hiring, or elections are based on the selection of top-ranking individuals from a larger pool of candidates. This process is often subject to biases, which typically manifest as an under-representation of certain groups among the selected or accepted individuals. The most common approach to this issue is debiasing, for example via the introduction of quotas that ensure proportional representation of groups with respect to a certain, often binary attribute. Cases include quotas for women on corporate boards or ethnic quotas in elections. This, however, has the potential to induce changes in representation with respect to other attributes. For the case of two correlated binary attributes we show that quota-based debiasing based on a single attribute can worsen the representation of already underrepresented groups and decrease overall fairness of selection. We use several data sets from a broad range of domains from recidivism risk assessments to scientific citations to assess this effect in real-world settings. Our results demonstrate the importance of including all relevant attributes in debiasing procedures and that more efforts need to be put into eliminating the root causes of inequalities as purely numerical solutions such as quota-based debiasing might lead to unintended consequences.
翻訳日:2022-11-21 21:28:04 公開日:2020-06-13
# se-melgan -- 話者非依存な高速音声強調

SE-MelGAN -- Speaker Agnostic Rapid Speech Enhancement ( http://arxiv.org/abs/2006.07637v1 )

ライセンス: Link先を確認
Luka Chkhetiani, Levan Bejanidze(参考訳) 音声合成領域[3],[2]における生成対立ネットワークの最近の進歩により,メルスペクトルから高品質なコヒーレント波形を生成するために,GAN[8]を信頼性の高い方法で訓練することが可能であることが示されている。 本稿では,MelGANの[3]言語特徴の頑健さを,モデル修正作業を伴わずに,音声強調処理や雑音低減処理領域に変換できることを提案する。 提案手法は,多話者音声データセットを一般化し,推定中に未知の背景雑音をロバストに処理できる。 また, この手法のバッチサイズを増大させることで, より優れた音声結果が得られるだけでなく, マルチ話者データセットよりも容易に一般化でき, より高速な収束がもたらされることを示す。 さらに、2つの領域における音声強調SEGAN [5] に対するアート GAN アプローチの先行状況よりも優れています。 品質 ; 2. スピード。 提案手法は,GPU上ではリアルタイムよりも100倍以上高速で,CPU上ではハードウェア最適化タスクなしで,MelGAN[3]の速度で,リアルタイムよりも2倍以上高速で動作する。

Recent advancement in Generative Adversarial Networks in speech synthesis domain[3],[2] have shown, that it's possible to train GANs [8] in a reliable manner for high quality coherent waveform generation from mel-spectograms. We propose that it is possible to transfer the MelGAN's [3] robustness in learning speech features to speech enhancement and noise reduction domain without any model modification tasks. Our proposed method generalizes over multi-speaker speech dataset and is able to robustly handle unseen background noises during the inference. Also, we show that by increasing the batch size for this particular approach not only yields better speech results, but generalizes over multi-speaker dataset easily and leads to faster convergence. Additionally, it outperforms previous state of the art GAN approach for speech enhancement SEGAN [5] in two domains: 1. quality ; 2. speed. Proposed method runs at more than 100x faster than realtime on GPU and more than 2x faster than real time on CPU without any hardware optimization tasks, right at the speed of MelGAN [3].
翻訳日:2022-11-21 21:26:54 公開日:2020-06-13
# 深部学習によるセンサレスフリーハンド3次元超音波再構成

Sensorless Freehand 3D Ultrasound Reconstruction via Deep Contextual Learning ( http://arxiv.org/abs/2006.07694v1 )

ライセンス: Link先を確認
Hengtao Guo, Sheng Xu, Bradford Wood, Pingkun Yan(参考訳) 経直腸超音波(US)は前立腺生検を誘導する最も一般的な画像モダリティであり、3Dボリュームはよりリッチな文脈情報を提供する。 フリーハンドusスキャンによる3次元ボリューム再構成のための現在の方法では、フレーム毎に空間位置を提供する外部トラッキングデバイスが必要である。 本稿では,米国フレーム間の画像特徴関係を効率的に活用し,トラッキング装置を使わずに3DUSボリュームを再構築するディープ・コンテクスト学習ネットワーク(DCL-Net)を提案する。 提案したDCL-Netは,USビデオセグメント上の3次元畳み込みを利用して特徴抽出を行う。 組込み自己保持モジュールは、空間移動予測を改善するためにスペックルリッチな領域にネットワークを集中させる。 また,学習過程を安定させて精度を向上する新たなケースワイド相関損失を提案する。 開発した手法を用いて, 高い有望な結果を得た。 アブレーション実験は,他の最先端手法と比較して提案手法の優れた性能を示す。 この作業のソースコードはhttps://github.com/DIAL-RPI/FreehandUSReconで公開されている。

Transrectal ultrasound (US) is the most commonly used imaging modality to guide prostate biopsy and its 3D volume provides even richer context information. Current methods for 3D volume reconstruction from freehand US scans require external tracking devices to provide spatial position for every frame. In this paper, we propose a deep contextual learning network (DCL-Net), which can efficiently exploit the image feature relationship between US frames and reconstruct 3D US volumes without any tracking device. The proposed DCL-Net utilizes 3D convolutions over a US video segment for feature extraction. An embedded self-attention module makes the network focus on the speckle-rich areas for better spatial movement prediction. We also propose a novel case-wise correlation loss to stabilize the training process for improved accuracy. Highly promising results have been obtained by using the developed method. The experiments with ablation studies demonstrate superior performance of the proposed method by comparing against other state-of-the-art methods. Source code of this work is publicly available at https://github.com/DIAL-RPI/FreehandUSRecon.
翻訳日:2022-11-21 21:26:01 公開日:2020-06-13
# DTG-Net:教師の自己監督型ビデオ行動認識

DTG-Net: Differentiated Teachers Guided Self-Supervised Video Action Recognition ( http://arxiv.org/abs/2006.07609v1 )

ライセンス: Link先を確認
Ziming Liu and Guangyu Gao and A. K. Qin and Jinyang Li(参考訳) 複雑なネットワークアーキテクチャを持つ最先端のビデオアクション認識モデルは、大幅に改善されているが、これらのモデルは大規模にラベル付けされたデータセットに大きく依存している。 そこで本研究では,教師指導型自己指導型ネットワーク (dtg-net) の自己指導型教師指導型アーキテクチャを提案する。 DTG-Netでは、自己教師付き学習(SSL)によるラベル付きデータ依存性の低減を除いて、事前訓練されたアクション関連モデルは、SSL内の多数の未ラベルビデオの需要を軽減するための教師指導として使用される。 具体的には、画像分類、画像に基づく行動認識など、アクション関連タスクの長年の取り組みを活用して、DTG-Netは、教師の指導の下で、よく訓練されたアクション関連タスクのモデルである自己教師付きビデオ表現を学習する。 一方、DTG-Netは、対照的な自己教師あり学習の方法で最適化されている。 2つの画像シーケンスが正または負のペアと同じビデオまたは異なるビデオからランダムにサンプリングされると、それらは特徴埋め込みのために教師と学生ネットワークに送られる。 その後、対照的な特徴整合性は各対に埋め込まれた特徴、すなわち正の対に対して整合性、負の対に対して整合性の間に定義される。 一方,教師課題の異なる指導を反映するために,教師課題に対する重み付け指導についても検討する。 最後にdtg-netを2つの方法で評価する。 i) 自己監督型DTG-Netは、未表示のビデオのみで、監督型行動認識モデルを事前訓練する。 (ii)監視されたdtg-netは、エンドツーエンドで監視されたアクションネットワークと共同で訓練される。 その性能は、ほとんどの事前学習法より優れているが、教師付き動作認識法と比較して優れた競争力を持つ。

State-of-the-art video action recognition models with complex network architecture have archived significant improvements, but these models heavily depend on large-scale well-labeled datasets. To reduce such dependency, we propose a self-supervised teacher-student architecture, i.e., the Differentiated Teachers Guided self-supervised Network (DTG-Net). In DTG-Net, except for reducing labeled data dependency by self-supervised learning (SSL), pre-trained action related models are used as teacher guidance providing prior knowledge to alleviate the demand for a large number of unlabeled videos in SSL. Specifically, leveraging the years of effort in action-related tasks, e.g., image classification, image-based action recognition, the DTG-Net learns the self-supervised video representation under various teacher guidance, i.e., those well-trained models of action-related tasks. Meanwhile, the DTG-Net is optimized in the way of contrastive self-supervised learning. When two image sequences are randomly sampled from the same video or different videos as the positive or negative pairs, respectively, they are then sent to the teacher and student networks for feature embedding. After that, the contrastive feature consistency is defined between features embedding of each pair, i.e., consistent for positive pair and inconsistent for negative pairs. Meanwhile, to reflect various teacher tasks' different guidance, we also explore different weighted guidance on teacher tasks. Finally, the DTG-Net is evaluated in two ways: (i) the self-supervised DTG-Net to pre-train the supervised action recognition models with only unlabeled videos; (ii) the supervised DTG-Net to be jointly trained with the supervised action networks in an end-to-end way. Its performance is better than most pre-training methods but also has excellent competitiveness compared to supervised action recognition methods.
翻訳日:2022-11-21 21:19:55 公開日:2020-06-13
# 行動品質評価のための不確実性認識スコア分布学習

Uncertainty-aware Score Distribution Learning for Action Quality Assessment ( http://arxiv.org/abs/2006.07665v1 )

ライセンス: Link先を確認
Yansong Tang, Zanlin Ni, Jiahuan Zhou, Danyang Zhang, Jiwen Lu, Ying Wu, Jie Zhou(参考訳) 近年、ビデオからのアクションクオリティの評価が注目を集めている。 既存のアプローチの多くは回帰アルゴリズムに基づいてこの問題に対処し、複数の審査員や主観的な評価によって引き起こされるスコアラベルのあいまいさを無視する。 本稿では,行動品質評価(aqa)のための不確実性認識スコア分散学習(usdl)手法を提案する。 具体的には、異なる評価スコアの確率を記述するスコア分布に関連する事例として、アクションを考察する。 また、粒度の細かいスコアラベル(例えば、異なる審査員による行動の難易度や複数のスコア)がある状況下において、スコアの不連続成分を探索するマルチパス不確実性認識スコア分布学習(musdl)法をさらに考案する。 我々は,様々なオリンピック行動と外科的活動を含む3つのAQAデータセットの実験を行い,スピアマンのランク相関の下で新たな最先端技術を設定した。

Assessing action quality from videos has attracted growing attention in recent years. Most existing approaches usually tackle this problem based on regression algorithms, which ignore the intrinsic ambiguity in the score labels caused by multiple judges or their subjective appraisals. To address this issue, we propose an uncertainty-aware score distribution learning (USDL) approach for action quality assessment (AQA). Specifically, we regard an action as an instance associated with a score distribution, which describes the probability of different evaluated scores. Moreover, under the circumstance where fine-grained score labels are available (e.g., difficulty degree of an action or multiple scores from different judges), we further devise a multi-path uncertainty-aware score distributions learning (MUSDL) method to explore the disentangled components of a score. We conduct experiments on three AQA datasets containing various Olympic actions and surgical activities, where our approaches set new state-of-the-arts under the Spearman's Rank Correlation.
翻訳日:2022-11-21 21:18:59 公開日:2020-06-13
# スプリットマージプール

Split-Merge Pooling ( http://arxiv.org/abs/2006.07742v1 )

ライセンス: Link先を確認
Omid Hosseini Jafari, Carsten Rother(参考訳) プールやストライド畳み込みなど、畳み込みニューラルネットワーク(CNN)を備えた広大な受容領域を得るには、さまざまなアプローチがある。 これらのアプローチの多くは、最初は画像分類のために設計され、後にセマンティックセグメンテーションのような密集した予測タスクに適応した。 しかし、この適応の大きな欠点は空間情報の喪失である。 理論上、全空間解像度で操作できる一般的な拡張畳み込みアプローチでさえ、トレーニングと推論を抽出できるように、大きな画像サイズの特徴をサブサンプリングする必要がある。 本研究ではスプリット・マージ・プールを導入し,サブサンプリングなしで空間情報を完全保存する。 Split-Mergeプーリングをディープネットワークに適用することにより、同時に非常に大きな受容場を実現する。 我々は,都市景観とgta-5データセットから得られた大規模画像サイズの密集したセマンティックセグメンテーションのアプローチを評価する。 我々は、最大プールとストレート畳み込みを分割マージプールに置き換えることで、ResNetの異なるバリエーションの精度を大幅に改善できることを実証した。

There are a variety of approaches to obtain a vast receptive field with convolutional neural networks (CNNs), such as pooling or striding convolutions. Most of these approaches were initially designed for image classification and later adapted to dense prediction tasks, such as semantic segmentation. However, the major drawback of this adaptation is the loss of spatial information. Even the popular dilated convolution approach, which in theory is able to operate with full spatial resolution, needs to subsample features for large image sizes in order to make the training and inference tractable. In this work, we introduce Split-Merge pooling to fully preserve the spatial information without any subsampling. By applying Split-Merge pooling to deep networks, we achieve, at the same time, a very large receptive field. We evaluate our approach for dense semantic segmentation of large image sizes taken from the Cityscapes and GTA-5 datasets. We demonstrate that by replacing max-pooling and striding convolutions with our split-merge pooling, we are able to improve the accuracy of different variations of ResNet significantly.
翻訳日:2022-11-21 21:18:27 公開日:2020-06-13
# 3dfcnn:深度情報を用いた3次元深層ニューラルネットワークによるリアルタイム行動認識

3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with Raw Depth Information ( http://arxiv.org/abs/2006.07743v1 )

ライセンス: Link先を確認
Adrian Sanchez-Caballero, Sergio de L\'opez-Diz, David Fuentes-Jimenez, Cristina Losada-Guti\'errez, Marta Marr\'on-Romera, David Casillas-Perez, Mohammad Ibrahim Sarker(参考訳) 人間の行動認識は人工視覚の基本的な課題であり、近年は様々な分野における複数の応用によって重要な役割を担っている。 %であり, 人間の行動, セキュリティ, ビデオ監視などであった。 本稿では,rgb-dカメラを用いて,生の深度画像列からリアルタイムの動作認識を行う手法について述べる。 この提案は、3DFCNNという名前の3D完全畳み込みニューラルネットワークをベースとしている。 さらに,上記の3d-cnnにより,深度列の空間的および時間的エンコード情報から%自動特徴抽出と行動分類が可能となった。 深層データを使用することで、行動認識が人々のプライバシー%を保護することで、人々の行動を認識し、それらのデータから識別できないため、プライバシ%\sout{of them}を保護することができる。 %\st{ from depth images。 3DFCNNは,3つの大規模NTU RGB+Dデータセット(解像度,センサタイプ,ビュー数,カメラ位置など)において,他の最先端手法と比較して評価されている。 その結果,提案手法の検証が可能となり,従来のコンピュータビジョン技術に基づく最先端の手法よりも優れていた。 さらに、より少ない計算コストでディープラーニングベースの最先端手法に匹敵する行動認識精度を実現し、リアルタイムアプリケーションでの使用を可能にする。

Human actions recognition is a fundamental task in artificial vision, that has earned a great importance in recent years due to its multiple applications in different areas. %, such as the study of human behavior, security or video surveillance. In this context, this paper describes an approach for real-time human action recognition from raw depth image-sequences, provided by an RGB-D camera. The proposal is based on a 3D fully convolutional neural network, named 3DFCNN, which automatically encodes spatio-temporal patterns from depth sequences without %any costly pre-processing. Furthermore, the described 3D-CNN allows %automatic features extraction and actions classification from the spatial and temporal encoded information of depth sequences. The use of depth data ensures that action recognition is carried out protecting people's privacy% allows recognizing the actions carried out by people, protecting their privacy%\sout{of them} , since their identities can not be recognized from these data. %\st{ from depth images.} 3DFCNN has been evaluated and its results compared to those from other state-of-the-art methods within three widely used %large-scale NTU RGB+D datasets, with different characteristics (resolution, sensor type, number of views, camera location, etc.). The obtained results allows validating the proposal, concluding that it outperforms several state-of-the-art approaches based on classical computer vision techniques. Furthermore, it achieves action recognition accuracy comparable to deep learning based state-of-the-art methods with a lower computational cost, which allows its use in real-time applications.
翻訳日:2022-11-21 21:18:09 公開日:2020-06-13
# convlstmの活用 : raw depth video-based recurrent neural networkを用いたヒューマンアクション認識

Exploiting the ConvLSTM: Human Action Recognition using Raw Depth Video-Based Recurrent Neural Networks ( http://arxiv.org/abs/2006.07744v1 )

ライセンス: Link先を確認
Adrian Sanchez-Caballero, David Fuentes-Jimenez, Cristina Losada-Guti\'errez(参考訳) 他の多くの分野と同様に、深層学習はシーン理解、オブジェクト認識、コンピュータと人間のインタラクション、ヒューマンアクション認識(HAR)など、ほとんどのコンピュータビジョンアプリケーションにおいて主要なアプローチとなっている。 HAR内の研究は、主にビデオシーケンスの空間的および時間的依存関係を効率的に抽出し、処理する方法に焦点を当てている。 本稿では,畳み込み型長期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案する。 前者はビデオ長適応型入力データ生成器(\emph{stateless})を使用し、後者は一般的なリカレントニューラルネットワークの \emph{stateful} 能力を探索するが、HARの特定の場合に適用する。 このステートフルな性質により、モデルはコンピュータメモリを損なうことなく、以前のフレームから識別パターンを蓄積することができる。 大規模ntu rgb+dデータセットにおける実験結果から,提案手法は最先端手法に比べて計算コストが低い競合認識精度を達成し,特にビデオの場合,レカレントニューラルネットの希少なステートフルモードにより,標準モードによる精度が大幅に向上することを示す。 認識精度は、ステートレスモデルでは75.26\%(CS)、75.45\%(CV)、ビデオあたりの平均消費時間は0.21 s、80.43\%(CS)、79.91\%(CV)、ステートフルバージョンでは0.89 sである。

As in many other different fields, deep learning has become the main approach in most computer vision applications, such as scene understanding, object recognition, computer-human interaction or human action recognition (HAR). Research efforts within HAR have mainly focused on how to efficiently extract and process both spatial and temporal dependencies of video sequences. In this paper, we propose and compare, two neural networks based on the convolutional long short-term memory unit, namely ConvLSTM, with differences in the architecture and the long-term learning strategy. The former uses a video-length adaptive input data generator (\emph{stateless}) whereas the latter explores the \emph{stateful} ability of general recurrent neural networks but applied in the particular case of HAR. This stateful property allows the model to accumulate discriminative patterns from previous frames without compromising computer memory. Experimental results on the large-scale NTU RGB+D dataset show that the proposed models achieve competitive recognition accuracies with lower computational cost compared with state-of-the-art methods and prove that, in the particular case of videos, the rarely-used stateful mode of recurrent neural networks significantly improves the accuracy obtained with the standard mode. The recognition accuracies obtained are 75.26\% (CS) and 75.45\% (CV) for the stateless model, with an average time consumption per video of 0.21 s, and 80.43\% (CS) and 79.91\%(CV) with 0.89 s for the stateful version.
翻訳日:2022-11-21 21:17:41 公開日:2020-06-13
# Twitter Glassでマイクロテキストで質問を検出する

Through the Twitter Glass: Detecting Questions in Micro-Text ( http://arxiv.org/abs/2006.07732v1 )

ライセンス: Link先を確認
Kyle Dent and Sharoda Paul(参考訳) 別の研究では、twitter上の人々のq&a習慣を理解することに興味がありました。 Twitter内で質問を見つけることは難しい課題であることが判明したので、従来のNLPアプローチを問題に適用することを検討しました。 一方、Twitterは慣用性に満ちており、処理が難しくなっている。 他方では、長さが非常に制限されており、単純な構文構造を用いる傾向があるため、NLP処理の性能が向上する可能性がある。 NLPとTwitterの実用性を調べるために、Twitterのインプットに特化して、ツイート中の質問を見つけるためのツールのパイプラインを構築しました。 この作業はまだ予備的ですが,本稿では,使用するテクニックと学んだ教訓について論じます。

In a separate study, we were interested in understanding people's Q&A habits on Twitter. Finding questions within Twitter turned out to be a difficult challenge, so we considered applying some traditional NLP approaches to the problem. On the one hand, Twitter is full of idiosyncrasies, which make processing it difficult. On the other, it is very restricted in length and tends to employ simple syntactic constructions, which could help the performance of NLP processing. In order to find out the viability of NLP and Twitter, we built a pipeline of tools to work specifically with Twitter input for the task of finding questions in tweets. This work is still preliminary, but in this paper we discuss the techniques we used and the lessons we learned.
翻訳日:2022-11-21 21:16:35 公開日:2020-06-13
# 時間的行動ローカライゼーションのための時間的融合ネットワーク:ActivityNet Challenge 2020への提出(タスクE)

Temporal Fusion Network for Temporal Action Localization:Submission to ActivityNet Challenge 2020 (Task E) ( http://arxiv.org/abs/2006.07520v1 )

ライセンス: Link先を確認
Zhiwu Qing, Xiang Wang, Yongpeng Sang, Changxin Gao, Shiwei Zhang, Nong Sang(参考訳) 本稿では,アクティベーションネットチャレンジ2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析し,その目的は,未編集映像における行動開始時刻と終了時刻の特定とアクションカテゴリーの予測であり,まず,映像レベルの特徴情報を用いて複数の映像レベルの行動分類モデルを訓練することである。 第二に、私たちは高品質な時間的提案の生成に焦点を当て、この目的のためにbmnを適用して、高いリコール率を得るために多数の提案を生成する。 We then refine these proposals by employing a cascade structure network called Refine Network, which can predict position offset and new IOU under the supervision of ground truth.To make the proposals more accurate, we use bidirectional LSTM, Nonlocal and Transformer to capture temporal relationships between local features of each proposal and global features of the video data.Finally, by fusing the results of multiple models, our method obtains 40.55% on the validation set and 40.53% on the test set in terms of mAP, and achieves Rank 1 in this challenge.

This technical report analyzes a temporal action localization method we used in the HACS competition which is hosted in Activitynet Challenge 2020.The goal of our task is to locate the start time and end time of the action in the untrimmed video, and predict action category.Firstly, we utilize the video-level feature information to train multiple video-level action classification models. In this way, we can get the category of action in the video.Secondly, we focus on generating high quality temporal proposals.For this purpose, we apply BMN to generate a large number of proposals to obtain high recall rates. We then refine these proposals by employing a cascade structure network called Refine Network, which can predict position offset and new IOU under the supervision of ground truth.To make the proposals more accurate, we use bidirectional LSTM, Nonlocal and Transformer to capture temporal relationships between local features of each proposal and global features of the video data.Finally, by fusing the results of multiple models, our method obtains 40.55% on the validation set and 40.53% on the test set in terms of mAP, and achieves Rank 1 in this challenge.
翻訳日:2022-11-21 21:10:42 公開日:2020-06-13
# 正確なアンカーフリートラッキング

Accurate Anchor Free Tracking ( http://arxiv.org/abs/2006.07560v1 )

ライセンス: Link先を確認
Shengyun Peng and Yunxuan Yu and Kun Wang and Lei He(参考訳) 視覚オブジェクト追跡はコンピュータビジョンの重要な応用である。 最近、シャム語ベースのトラッカーは精度が良い。 しかし、シームズをベースとしたトラッカーのほとんどは効率が良くなく、潜在的な物体の位置を徹底的に探索してアンカーを定義し、各アンカーを分類する(つまり境界ボックス)。 本稿では,Anchor Free Siamese Network (AFSN) を開発した。 具体的には、対象オブジェクトは、バウンディングボックスセンター、オフセットのトラッキング、オブジェクトサイズによって定義される。 これら3つはすべて、追加の分類や地域提案なしでシームズネットワークによって後退され、各フレームで1回実行される。 また,シアームネットワークのストライドと受容場をチューニングし,さらにアブレーション実験を行い,afsnの有効性を定量的に示す。 我々は5つのベンチマークを用いてafsnを評価し、各ベンチマークで利用可能なソースコードを持つ最高のアンカーベースのトラッカーと比較する。 AFSNは、これらの最高のアンカーベースのトラッカーの3,425倍高速である。 AFSN はベンチマークセット OTB2015, VOT2015, VOT2016, VOT2018, TrackingNet のすべての指標で 5.97% から 12.4% の精度で、ただし SiamRPN++ は VOT2018 の期待平均オーバーラップ (EAO) では AFSN よりも4% よい(ただし SiamRPN++ は 3.9 倍遅い)。

Visual object tracking is an important application of computer vision. Recently, Siamese based trackers have achieved good accuracy. However, most of Siamese based trackers are not efficient, as they exhaustively search potential object locations to define anchors and then classify each anchor (i.e., a bounding box). This paper develops the first Anchor Free Siamese Network (AFSN). Specifically, a target object is defined by a bounding box center, tracking offset, and object size. All three are regressed by Siamese network with no additional classification or regional proposal, and performed once for each frame. We also tune the stride and receptive field for Siamese network, and further perform ablation experiments to quantitatively illustrate the effectiveness of our AFSN. We evaluate AFSN using five most commonly used benchmarks and compare to the best anchor-based trackers with source codes available for each benchmark. AFSN is 3-425 times faster than these best anchor based trackers. AFSN is also 5.97% to 12.4% more accurate in terms of all metrics for benchmark sets OTB2015, VOT2015, VOT2016, VOT2018 and TrackingNet, except that SiamRPN++ is 4% better than AFSN in terms of Expected Average Overlap (EAO) on VOT2018 (but SiamRPN++ is 3.9 times slower).
翻訳日:2022-11-21 21:09:56 公開日:2020-06-13
# 人物再同定のための属性認識型アイデンティティハードトリプルトロス

Attribute-aware Identity-hard Triplet Loss for Video-based Person Re-identification ( http://arxiv.org/abs/2006.07597v1 )

ライセンス: Link先を確認
Zhiyuan Chen, Annan Li, Shilu Jiang, Yunhong Wang(参考訳) ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。 ビデオベースのRe-IDで頻繁に使用されるバッチハード三重項損失は、異なる陽性者(DVDP)間の距離変動に悩まされる。 本稿では,属性距離を計算することで,正のサンプルのクラス内変動を低減するAITL(Attribute-aware Identity-hard Triplet Loss)と呼ばれる新しいメトリクス学習手法を導入することで,この問題に対処する。 ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。 MARSとDukeMTMC-VIDデータセットの大規模な実験は、AITLとASTAの両方が非常に効果的であることを示している。 それらによって強化されたシンプルな軽量ビデオベースのperson re-idベースラインでさえ、既存の最先端のアプローチを上回ることができる。 コードはhttps://github.com/yuange250/Video-based-person-ReID-with-Attribute-informationで公開されている。

Video-based person re-identification (Re-ID) is an important computer vision task. The batch-hard triplet loss frequently used in video-based person Re-ID suffers from the Distance Variance among Different Positives (DVDP) problem. In this paper, we address this issue by introducing a new metric learning method called Attribute-aware Identity-hard Triplet Loss (AITL), which reduces the intra-class variation among positive samples via calculating attribute distance. To achieve a complete model of video-based person Re-ID, a multi-task framework with Attribute-driven Spatio-Temporal Attention (ASTA) mechanism is also proposed. Extensive experiments on MARS and DukeMTMC-VID datasets shows that both the AITL and ASTA are very effective. Enhanced by them, even a simple light-weighted video-based person Re-ID baseline can outperform existing state-of-the-art approaches. The codes has been published on https://github.com/yuange250/Video-based-person-ReID-with-Attribute-information.
翻訳日:2022-11-21 21:08:51 公開日:2020-06-13
# NoPeopleAllowed: 弱修正セマンティックセグメンテーションのための3ステップアプローチ

NoPeopleAllowed: The Three-Step Approach to Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2006.07601v1 )

ライセンス: Link先を確認
Mariia Dobko, Ostap Viniavskyi, Oles Dobosevych(参考訳) 本稿では,3段階連続した,弱い教師付き意味セグメンテーションに対する新しいアプローチを提案する。 最初の2つのステップは、画像レベルの注釈データから高品質の擬似マスクを抽出し、3番目のステップでセグメンテーションモデルをトレーニングするために使用される。 提案されたアプローチは、データの2つの問題、すなわちクラス不均衡とラベルの欠如にも対処する。 画像レベルのアノテーションのみを監督として使用することで,様々なクラスや複雑なオブジェクトをセグメンテーションすることができる。 テストセット上で37.34の平均IoUを達成し、弱い教師付きセマンティックセグメンテーションのタスクにおいて、LIDチャレンジで3位となる。

We propose a novel approach to weakly supervised semantic segmentation, which consists of three consecutive steps. The first two steps extract high-quality pseudo masks from image-level annotated data, which are then used to train a segmentation model on the third step. The presented approach also addresses two problems in the data: class imbalance and missing labels. Using only image-level annotations as supervision, our method is capable of segmenting various classes and complex objects. It achieves 37.34 mean IoU on the test set, placing 3rd at the LID Challenge in the task of weakly supervised semantic segmentation.
翻訳日:2022-11-21 21:08:34 公開日:2020-06-13
# HRDNet:小型物体の高分解能検出ネットワーク

HRDNet: High-resolution Detection Network for Small Objects ( http://arxiv.org/abs/2006.07607v1 )

ライセンス: Link先を確認
Ziming Liu and Guangyu Gao and Lin Sun and Zhiyuan Fang(参考訳) 小さなオブジェクトは詳細な情報を含んでおらず、ディープネットワークで消えてしまう可能性があるため、小さなオブジェクト検出は難しい。 通常、高解像度画像をネットワークに供給することでこの問題を軽減できる。 しかし、単に解像度を拡大すれば、オブジェクトスケールの大きなバリエーションが増加し、計算コストが低下するなど、より多くの問題が発生する。 新たな問題を生じさせることなく高解像度画像の利点を維持するため,高分解能検出ネットワーク(HRDNet)を提案した。 HRDNetはマルチディープスバックボーンを使用して複数の解像度入力を行う。 複数の特徴をフル活用するために,HRDNetでMD-IPN(Multi-Depth Image Pyramid Network)とMS-FPN(Multi-Scale Feature Pyramid Network)を提案する。 MD-IPNは複数の深度バックボーンを用いて複数の位置情報を保持する。 具体的には、高い解像度の入力を浅いネットワークに供給し、より多くの位置情報を保存し、計算コストを削減し、低解像度の入力を深いネットワークに供給し、より多くのセマンティクスを抽出する。 MD-IPNは,高分解能から低分解能まで様々な特徴を抽出することにより,小型物体検出の性能を向上させるとともに,中・大型物体の性能を維持することができる。 MS-FPN は,MD-IPN が生成するマルチスケール特徴群の整合性と融合により,これらのマルチスケール特徴間の情報不均衡を低減する。 大規模な実験とアブレーション研究は、標準ベンチマークデータセットMS COCO2017、Pascal VOC2007/2012および典型的な小さなオブジェクトデータセットVisDrone 2019で実施されている。 特に,提案したHRDNetは,これらのデータセットの最先端性を達成し,小型オブジェクトでの性能を向上する。

Small object detection is challenging because small objects do not contain detailed information and may even disappear in the deep network. Usually, feeding high-resolution images into a network can alleviate this issue. However, simply enlarging the resolution will cause more problems, such as that, it aggravates the large variant of object scale and introduces unbearable computation cost. To keep the benefits of high-resolution images without bringing up new problems, we proposed the High-Resolution Detection Network (HRDNet). HRDNet takes multiple resolution inputs using multi-depth backbones. To fully take advantage of multiple features, we proposed Multi-Depth Image Pyramid Network (MD-IPN) and Multi-Scale Feature Pyramid Network (MS-FPN) in HRDNet. MD-IPN maintains multiple position information using multiple depth backbones. Specifically, high-resolution input will be fed into a shallow network to reserve more positional information and reducing the computational cost while low-resolution input will be fed into a deep network to extract more semantics. By extracting various features from high to low resolutions, the MD-IPN is able to improve the performance of small object detection as well as maintaining the performance of middle and large objects. MS-FPN is proposed to align and fuse multi-scale feature groups generated by MD-IPN to reduce the information imbalance between these multi-scale multi-level features. Extensive experiments and ablation studies are conducted on the standard benchmark dataset MS COCO2017, Pascal VOC2007/2012 and a typical small object dataset, VisDrone 2019. Notably, our proposed HRDNet achieves the state-of-the-art on these datasets and it performs better on small objects.
翻訳日:2022-11-21 21:08:04 公開日:2020-06-13
# 畳み込みニューラルネットワークを用いた閉塞型睡眠時無呼吸診断の自動化

Automate Obstructive Sleep Apnea Diagnosis Using Convolutional Neural Networks ( http://arxiv.org/abs/2006.07664v1 )

ライセンス: Link先を確認
Longlong Feng and Xu Wang(参考訳) 夜間ポリソムノグラフィー(PSG)記録から睡眠障害の重症度を同定することは、閉塞型睡眠時無呼吸症(OSA)などの睡眠障害の診断および治療において重要な役割を担っている。 この分析は従来、ビジュアルインスペクションを通じて専門家が手作業で行っており、退屈で時間がかかり、主観的なエラーを起こしやすい。 解決策の1つは、畳み込み層とプーリング層が特徴抽出器として振る舞う畳み込みニューラルネットワーク(CNN)を使用することで、OSAの重大度を最終的な予測に利用する。 本稿では,分類のための1次元畳み込み層とFCN層を有するCNNアーキテクチャについて述べる。 このプロジェクトのPSGデータは、クリーブランド小児睡眠健康研究データベースから取得し、分類結果から提案したCNN法の有効性を確認した。 提案した1次元CNNモデルは,特徴抽出や特徴縮小といったPSG信号を手動で前処理することなく,優れた分類結果が得られる。

Identifying sleep problem severity from overnight polysomnography (PSG) recordings plays an important role in diagnosing and treating sleep disorders such as the Obstructive Sleep Apnea (OSA). This analysis traditionally is done by specialists manually through visual inspections, which can be tedious, time-consuming, and is prone to subjective errors. One of the solutions is to use Convolutional Neural Networks (CNN) where the convolutional and pooling layers behave as feature extractors and some fully-connected (FCN) layers are used for making final predictions for the OSA severity. In this paper, a CNN architecture with 1D convolutional and FCN layers for classification is presented. The PSG data for this project are from the Cleveland Children's Sleep and Health Study database and classification results confirm the effectiveness of the proposed CNN method. The proposed 1D CNN model achieves excellent classification results without manually preprocesssing PSG signals such as feature extraction and feature reduction.
翻訳日:2022-11-21 21:01:32 公開日:2020-06-13
# 量子支援変分オートエンコーダによる高次元類似性探索

High-Dimensional Similarity Search with Quantum-Assisted Variational Autoencoder ( http://arxiv.org/abs/2006.07680v1 )

ライセンス: Link先を確認
Nicholas Gao, Max Wilson, Thomas Vandal, Walter Vinci, Ramakrishna Nemani, Eleanor Rieffel(参考訳) 量子アルゴリズムとハードウェアの最近の進歩は、近い将来の量子コンピューティングの重要性を示している。 しかし、適切な適用領域を見つけることは研究の活発な領域である。 量子機械学習(quantum machine learning)は、ゲートモデルと断熱スキームの両方において量子アドバンテージを示す潜在的なアプローチである。 例えば、量子アシスト変分オートエンコーダは離散VAEの量子拡張として提案されている。 我々は,従来の研究を拡張し,大規模高次元データセットにおける類似性探索のための概念実証を行い,QVAEの現実的適用性について検討した。 低次元データセットでは、正確かつ高速な類似性探索アルゴリズムが利用できるが、高次元データへのスケーリングは自明ではない。 QVAEの潜在空間表現に基づいて、空間効率の高い検索インデックスを構築する方法を示す。 本実験では,中分解能イメージングスペクトロラジオメータ(modis)データセット上で,埋め込み空間のハミング距離と元の空間のユークリッド距離の相関を示す。 さらに,線形探索と比較して実世界のスピードアップが得られ,メモリ効率が5億のデータポイントに向上することを示す。

Recent progress in quantum algorithms and hardware indicates the potential importance of quantum computing in the near future. However, finding suitable application areas remains an active area of research. Quantum machine learning is touted as a potential approach to demonstrate quantum advantage within both the gate-model and the adiabatic schemes. For instance, the Quantum-assisted Variational Autoencoder has been proposed as a quantum enhancement to the discrete VAE. We extend on previous work and study the real-world applicability of a QVAE by presenting a proof-of-concept for similarity search in large-scale high-dimensional datasets. While exact and fast similarity search algorithms are available for low dimensional datasets, scaling to high-dimensional data is non-trivial. We show how to construct a space-efficient search index based on the latent space representation of a QVAE. Our experiments show a correlation between the Hamming distance in the embedded space and the Euclidean distance in the original space on the Moderate Resolution Imaging Spectroradiometer (MODIS) dataset. Further, we find real-world speedups compared to linear search and demonstrate memory-efficient scaling to half a billion data points.
翻訳日:2022-11-21 21:01:13 公開日:2020-06-13
# 天気予報(アンサンブル)に対する生成的敵ネットワークアプローチ

A generative adversarial network approach to (ensemble) weather prediction ( http://arxiv.org/abs/2006.07718v1 )

ライセンス: Link先を確認
Alexander Bihlo(参考訳) 我々は,条件付き深層畳み込み生成型逆向ネットワークを用いて,500 hpaの圧力レベル,2メートルの温度,および今後24時間ヨーロッパ全体での降水量の地球電位の高さを予測した。 提案されたモデルは、2015年から2018年までの4年間のera5再解析データに基づいてトレーニングされ、2019年に関連する気象分野を予測することを目的としている。 これらの予測は,全降水に失敗しながら,地球高と2メートル温度の真の再解析データと良好な定性的かつ定量的な一致を示し,特定の気象パラメータに対してデータのみに基づく天気予報が可能であることを示唆している。 さらに,モンテカルロの降雨量を用いて,深層学習戦略に基づくアンサンブル天気予報システムの開発を行う。これは計算コストが低く,予測モデルのスキルが向上し,モデルが学習した現在の天気予報の不確実性を定量化することができる。

We use a conditional deep convolutional generative adversarial network to predict the geopotential height of the 500 hPa pressure level, the two-meter temperature and the total precipitation for the next 24 hours over Europe. The proposed models are trained on 4 years of ERA5 reanalysis data from 2015-2018 with the goal to predict the associated meteorological fields in 2019. The forecasts show a good qualitative and quantitative agreement with the true reanalysis data for the geopotential height and two-meter temperature, while failing for total precipitation, thus indicating that weather forecasts based on data alone may be possible for specific meteorological parameters. We further use Monte-Carlo dropout to develop an ensemble weather prediction system based purely on deep learning strategies, which is computationally cheap and further improves the skill of the forecasting model, by allowing to quantify the uncertainty in the current weather forecast as learned by the model.
翻訳日:2022-11-21 21:00:30 公開日:2020-06-13
# 場面からの学習と富からの借用--シーングラフ生成におけるロングテールへの取り組み

Learning from the Scene and Borrowing from the Rich: Tackling the Long Tail in Scene Graph Generation ( http://arxiv.org/abs/2006.07585v1 )

ライセンス: Link先を確認
Tao He, Lianli Gao, Jingkuan Song, Jianfei Cai, Yuan-Fang Li(参考訳) 近年のシーングラフ生成の進歩にもかかわらず、オブジェクト関係における長い尾の分布は困難な問題であり続けている。 既存の手法は、この問題を軽減するために外部知識または統計バイアス情報に大きく依存している。 本稿では,(1)付加的な注意機構を通じてシーンから特定の知識を学習することを目的としたシーンオブジェクト間相互作用,(2)頭部から学習した豊かな知識を尾に伝達しようとするロングテール知識伝達という2つの側面からこの問題に取り組む。 ベンチマークデータセットであるVisual Genomeの3つのタスクに対する大規模な実験は、我々のメソッドが現在の最先端の競合より優れていることを示している。

Despite the huge progress in scene graph generation in recent years, its long-tail distribution in object relationships remains a challenging and pestering issue. Existing methods largely rely on either external knowledge or statistical bias information to alleviate this problem. In this paper, we tackle this issue from another two aspects: (1) scene-object interaction aiming at learning specific knowledge from a scene via an additive attention mechanism; and (2) long-tail knowledge transfer which tries to transfer the rich knowledge learned from the head into the tail. Extensive experiments on the benchmark dataset Visual Genome on three tasks demonstrate that our method outperforms current state-of-the-art competitors.
翻訳日:2022-11-21 20:59:52 公開日:2020-06-13
# salienteye:ディープニューラルネットワークを使ってinstagramでアートスタイルを維持しながらエンゲージメントを最大化

Salienteye: Maximizing Engagement While Maintaining Artistic Style on Instagram Using Deep Neural Networks ( http://arxiv.org/abs/2006.11403v1 )

ライセンス: Link先を確認
Lili Wang, Ruibo Liu, and Soroush Vosoughi(参考訳) Instagramは、アマチュアやプロの写真家が自分の作品を披露する場として素晴らしいものになった。 言い換えれば、写真は民主化されている。 一般的に、写真家はセッションで何千枚もの写真を撮り、そこから数枚を選んでInstagramで作品を披露する。 Instagramで評判を築こうとする写真家は、フォロワーの写真のエンゲージメントを最大化し、芸術的なスタイルを維持しながらバランスを取る必要がある。 我々は、画像Netデータセット上でトレーニングされたオブジェクト認識モデルであるXceptionを、画像Netでトレーニングされた別のオブジェクト認識モデルであるVGG19から生成されたエンゲージメント予測タスクに適応させ、Instagramに投稿された写真のスタイル類似度測定のタスクに利用した。 私たちのモデルは、個々のinstagramアカウントでトレーニングして、パーソナライズされたエンゲージメント予測とスタイル類似性モデルを作成することができます。 一度アカウントでトレーニングすると、ユーザーは、予測されたエンゲージメントと過去の仕事と類似性に基づいて新しい写真をソートすることができるので、フォロワーからのエンゲージメントを最大化できるだけでなく、写真スタイルを維持できる。 私たちはいくつかのInstagramアカウントでモデルをトレーニングし、検証し、両方のタスクに適しており、ベースラインモデルや人間のアノテータよりも優れていることを示した。

Instagram has become a great venue for amateur and professional photographers alike to showcase their work. It has, in other words, democratized photography. Generally, photographers take thousands of photos in a session, from which they pick a few to showcase their work on Instagram. Photographers trying to build a reputation on Instagram have to strike a balance between maximizing their followers' engagement with their photos, while also maintaining their artistic style. We used transfer learning to adapt Xception, which is a model for object recognition trained on the ImageNet dataset, to the task of engagement prediction and utilized Gram matrices generated from VGG19, another object recognition model trained on ImageNet, for the task of style similarity measurement on photos posted on Instagram. Our models can be trained on individual Instagram accounts to create personalized engagement prediction and style similarity models. Once trained on their accounts, users can have new photos sorted based on predicted engagement and style similarity to their previous work, thus enabling them to upload photos that not only have the potential to maximize engagement from their followers but also maintain their style of photography. We trained and validated our models on several Instagram accounts, showing it to be adept at both tasks, also outperforming several baseline models and human annotators.
翻訳日:2022-11-21 20:59:24 公開日:2020-06-13
# 政治文書におけるハプクスのコアを識別するための単語ランキングとhirschインデックス

Words ranking and Hirsch index for identifying the core of the hapaxes in political texts ( http://arxiv.org/abs/2006.07667v1 )

ライセンス: Link先を確認
Valerio Ficcadenti, Roy Cerqueti, Marcel Ausloos, Gurjeet Dhesi(参考訳) 本稿では,公的な政治演説の内容の定量的分析を行う。 我々は、ワシントンからトランプまで、米国の大統領が発音する約1000の講演のセットを調査した。 特に、レアワードの関連性、すなわち、各スピーチで1回だけ言及された単語(いわゆるハファックス)を検索する。 本研究では,音声全体の周波数規則性について議論するために,Zipf-Mandelbrot型のランクサイズプロシージャを実装した。 得られたランクサイズの法則から、ヒルシュ指数変種に基づく手続きによって設定されたハプクスのコアを定義し、検出する。 我々は、アメリカの全大統領演説に照らして、得られた単語のリストについて論じる。 さらに、このハプクスの核心はジップ・マンデルブロの法則によってうまく適合し、散乱プロットと適合曲線の間の低いランクで偏差を生み出す要素を含むことを示している(いわゆるキングとバイスロイ効果)。 いくつかの社会政治的洞察は、アメリカ合衆国大統領のメッセージに関する得られた発見から導かれる。

This paper deals with a quantitative analysis of the content of official political speeches. We study a set of about one thousand talks pronounced by the US Presidents, ranging from Washington to Trump. In particular, we search for the relevance of the rare words, i.e. those said only once in each speech -- the so-called hapaxes. We implement a rank-size procedure of Zipf-Mandelbrot type for discussing the hapaxes' frequencies regularity over the overall set of speeches. Starting from the obtained rank-size law, we define and detect the core of the hapaxes set by means of a procedure based on an Hirsch index variant. We discuss the resulting list of words in the light of the overall US Presidents' speeches. We further show that this core of hapaxes itself can be well fitted through a Zipf-Mandelbrot law and that contains elements producing deviations at the low ranks between scatter plots and fitted curve -- the so-called king and vice-roy effect. Some socio-political insights are derived from the obtained findings about the US Presidents messages.
翻訳日:2022-11-21 20:58:59 公開日:2020-06-13
# 融合認識による一般化

Generalization by Recognizing Confusion ( http://arxiv.org/abs/2006.07737v1 )

ライセンス: Link先を確認
Daniel Chiu, Franklyn Wang, Scott Duke Kominers(参考訳) 最近提案されたセルフアダプティブトレーニング(セルフアダプティブトレーニング)と呼ばれるテクニックは、現代のニューラルネットワークを拡張して、トレーニングラベルをオンザフライで調整する。 自己適応目的とミックスアップを組み合わせることで、画像認識のための自己適応モデルの精度をさらに向上し、ラベルノイズで劣化したデータセットに対する最先端の精度を得る。 ラベルノイズに対するロバスト性は、一般化のギャップが低いことを意味するため、我々のアプローチは一般化性の向上にも繋がる。 これらのアルゴリズムのRademacher複雑性は低く、この種のディープラーニングモデルの証明可能な一般化への新たな道のりが示唆されている。 最後に,レアクラスはラベルノイズとは区別がつかない意味で,レアクラスとノイズ下のロバスト性との間に新たな関連性があることを強調する。 私たちのコードはhttps://github.com/tuxianeer/generalizationconfusionにあります。

A recently-proposed technique called self-adaptive training augments modern neural networks by allowing them to adjust training labels on the fly, to avoid overfitting to samples that may be mislabeled or otherwise non-representative. By combining the self-adaptive objective with mixup, we further improve the accuracy of self-adaptive models for image recognition; the resulting classifier obtains state-of-the-art accuracies on datasets corrupted with label noise. Robustness to label noise implies a lower generalization gap; thus, our approach also leads to improved generalizability. We find evidence that the Rademacher complexity of these algorithms is low, suggesting a new path towards provable generalization for this type of deep learning model. Last, we highlight a novel connection between difficulties accounting for rare classes and robustness under noise, as rare classes are in a sense indistinguishable from label noise. Our code can be found at https://github.com/Tuxianeer/generalizationconfusion.
翻訳日:2022-11-21 20:51:46 公開日:2020-06-13
# 解剖学的形状ランドマークの自己監督による発見

Self-Supervised Discovery of Anatomical Shape Landmarks ( http://arxiv.org/abs/2006.07525v1 )

ライセンス: Link先を確認
Riddhish Bhalodia and Ladislav Kavan and Ross Whitaker(参考訳) 統計形状解析は、幅広い医学的および生物学的応用において非常に有用なツールである。 しかし、典型的には、人口における関連する変動を捉えることができる比較的少数の特徴を生産する能力に依存している。 このような解剖学的特徴を得るための最先端の手法は、広範な前処理やセグメンテーション、および/または重要なチューニングと後処理に依存する。 これらの欠点は、形状統計の広範な使用を制限する。 画像のアライメント/登録に有効な形状表現は十分な情報を提供するべきである。 この仮定を用いて,後続解析に使用可能な画像中のランドマークの自動位置決めと検出のための自己教師付きニューラルネットワークアプローチを提案する。 ネットワークは、特定の種類の変換の文脈で良好な画像登録を促進する解剖学的形状の特徴に対応するランドマークを検出する。 また,提案するネットワークの正規化も提案し,これらのランドマークの均一な分布を可能にする。 本稿では,一組の入力画像のみを取り込み,統計的形状解析に即時に利用できるランドマークを生成する,完全なフレームワークを提案する。 ファントムデータセットおよび2dおよび3d画像における性能評価を行う。

Statistical shape analysis is a very useful tool in a wide range of medical and biological applications. However, it typically relies on the ability to produce a relatively small number of features that can capture the relevant variability in a population. State-of-the-art methods for obtaining such anatomical features rely on either extensive preprocessing or segmentation and/or significant tuning and post-processing. These shortcomings limit the widespread use of shape statistics. We propose that effective shape representations should provide sufficient information to align/register images. Using this assumption we propose a self-supervised, neural network approach for automatically positioning and detecting landmarks in images that can be used for subsequent analysis. The network discovers the landmarks corresponding to anatomical shape features that promote good image registration in the context of a particular class of transformations. In addition, we also propose a regularization for the proposed network which allows for a uniform distribution of these discovered landmarks. In this paper, we present a complete framework, which only takes a set of input images and produces landmarks that are immediately usable for statistical shape analysis. We evaluate the performance on a phantom dataset as well as 2D and 3D images.
翻訳日:2022-11-21 20:51:28 公開日:2020-06-13
# MINEによる無バイアス補助分類

Unbiased Auxiliary Classifier GANs with MINE ( http://arxiv.org/abs/2006.07567v1 )

ライセンス: Link先を確認
Ligong Han, Anastasis Stathopoulos, Tao Xue, Dimitris Metaxas(参考訳) Auxiliary Classifier GAN(AC-GAN)は、条件付き生成モデルとして広く用いられ、高品質な画像を生成することができる。 これまでの研究では、AC-GANがバイアス分布を学習していることが指摘されている。 これを解決するため、Twin Auxiliary Classifier GAN (TAC-GAN) はmin-maxゲームにツイン分類器を導入する。 しかし、ツイン補助分類器の使用は訓練の不安定性を引き起こす可能性があると報告されている。 そこで本研究では、相互情報ニューラルネットワーク推定器(mine)を用いて、生成されたデータ分布とラベル間の相互情報を推定する非バイアス補助gans(uac-gan)を提案する。 さらに性能を向上させるため,新しい予測ベースの統計ネットワークアーキテクチャを提案する。 ガウスの混合(MoG)、MNIST、CIFAR10の3つのデータセットの実験結果から、UAC-GANはAC-GANやTAC-GANよりも優れた性能を示した。 コードはプロジェクトのWebサイトにある。

Auxiliary Classifier GANs (AC-GANs) are widely used conditional generative models and are capable of generating high-quality images. Previous work has pointed out that AC-GAN learns a biased distribution. To remedy this, Twin Auxiliary Classifier GAN (TAC-GAN) introduces a twin classifier to the min-max game. However, it has been reported that using a twin auxiliary classifier may cause instability in training. To this end, we propose an Unbiased Auxiliary GANs (UAC-GAN) that utilizes the Mutual Information Neural Estimator (MINE) to estimate the mutual information between the generated data distribution and labels. To further improve the performance, we also propose a novel projection-based statistics network architecture for MINE. Experimental results on three datasets, including Mixture of Gaussian (MoG), MNIST and CIFAR10 datasets, show that our UAC-GAN performs better than AC-GAN and TAC-GAN. Code can be found on the project website.
翻訳日:2022-11-21 20:50:53 公開日:2020-06-13
# Guided Transformer:会話検索における表現学習のための複数の外部ソースの活用

Guided Transformer: Leveraging Multiple External Sources for Representation Learning in Conversational Search ( http://arxiv.org/abs/2006.07548v1 )

ライセンス: Link先を確認
Helia Hashemi, Hamed Zamani, W. Bruce Croft(参考訳) 曖昧あるいは対面した質問に対する質問の明確化は,様々な情報検索システム,特に帯域幅の制限された対話型検索システムにとって有用な手法として認識されている。 近年, 質問の分析と生成が研究されているが, 質問に対するユーザの回答の精度は比較的低い。 本稿では,会話の各項を重み付けする外部情報ソースからの新たな注意機構を用いて,トランスフォーマーネットワークが学習した表現を豊かにする。 質問の明確化を含む対話型検索シナリオにおいて,このガイドトランスモデルを評価した。 実験では、2つの外部ソースを使用し、上位に検索されたドキュメントと、クエリーに対する可能な様々な質問のセットを含む。 会話探索における2つの下流課題に対する表現学習モデル(文書検索と質問選択の明確化)を実装した。 実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。

Asking clarifying questions in response to ambiguous or faceted queries has been recognized as a useful technique for various information retrieval systems, especially conversational search systems with limited bandwidth interfaces. Analyzing and generating clarifying questions have been studied recently but the accurate utilization of user responses to clarifying questions has been relatively less explored. In this paper, we enrich the representations learned by Transformer networks using a novel attention mechanism from external information sources that weights each term in the conversation. We evaluate this Guided Transformer model in a conversational search scenario that includes clarifying questions. In our experiments, we use two separate external sources, including the top retrieved documents and a set of different possible clarifying questions for the query. We implement the proposed representation learning model for two downstream tasks in conversational search; document retrieval and next clarifying question selection. Our experiments use a public dataset for search clarification and demonstrate significant improvements compared to competitive baselines.
翻訳日:2022-11-21 20:50:31 公開日:2020-06-13
# FoursquareとStreetlightデータと人間のデモグラフィーによる将来の犯罪予測への影響分析

Analyzing the Impact of Foursquare and Streetlight Data with Human Demographics on Future Crime Prediction ( http://arxiv.org/abs/2006.07516v1 )

ライセンス: Link先を確認
Fateha Khanam Bappee, Lucas May Petry, Amilcar Soares, Stan Matwin(参考訳) 犯罪活動に寄与する要因の発見とその影響は、量的犯罪研究を改善するために不可欠である。 この懸念に対処するために、異なる視点と説明から幅広い特徴について検討する。 本研究は,将来の犯罪発生を予測するデータ駆動モデルの構築を目的としている。 本稿では,将来の犯罪発生予測を改善するために,街路灯インフラとFoursquareデータと人口動態特性を併用することを提案する。 本研究では,様々な特徴の組み合わせとベースラインモデルに基づいて分類性能を評価する。 提案モデルは,カナダのハリファックスにおいて,地理的に最小の地域を対象に実験を行った。 本研究は,多様なデータソースを統合することで,良好な分類性能が得られることを示す。

Finding the factors contributing to criminal activities and their consequences is essential to improve quantitative crime research. To respond to this concern, we examine an extensive set of features from different perspectives and explanations. Our study aims to build data-driven models for predicting future crime occurrences. In this paper, we propose the use of streetlight infrastructure and Foursquare data along with demographic characteristics for improving future crime incident prediction. We evaluate the classification performance based on various feature combinations as well as with the baseline model. Our proposed model was tested on each smallest geographic region in Halifax, Canada. Our findings demonstrate the effectiveness of integrating diverse sources of data to gain satisfactory classification performance.
翻訳日:2022-11-21 20:50:00 公開日:2020-06-13
# 非線形学習者を用いたリニアバンドの腕の特定

Explicit Best Arm Identification in Linear Bandits Using No-Regret Learners ( http://arxiv.org/abs/2006.07562v1 )

ライセンス: Link先を確認
Mohammadi Zaki, Avi Mohan, Aditya Gopalan(参考訳) 線形パラメータ化マルチアームバンディットにおける最良腕識別の問題点について検討した。 特徴ベクトルの集合 $\mathcal{x}\subset\mathbb{r}^d,$ 信頼度パラメータ $\delta$ と未知ベクトル $\theta^*,$ が与えられたとき、目標は$\arg\max_{x\in\mathcal{x}}x^t\theta^*$ を識別することである。 この固定信頼(\delta$-PAC)設定のために、この問題を解決するために、明示的に実装可能で、証明可能なオーダー最適化サンプル-複雑度アルゴリズムを提案する。 以前のアプローチは、minimax最適化オラクルへのアクセスに依存している。 このアルゴリズムは \textit{phased elimination linear exploration game} (peleg) と呼ばれ、各ラウンドに$\theta^*$を含む高確率信頼楕円体を維持し、フェーズで準最適アームを排除するために使用する。 PELEGは、2つのプレイヤーゼロサムゲームとして問題を解釈し、低レベルの学習者を用いて、各ラウンドにおけるプレイヤーの戦略を計算することによって、最も紛らわしい(すなわち、最適ではない)方向に沿って、この信頼楕円体の高速な縮小を実現する。 我々は, PELEGのサンプル複雑性を解析し, 線形バンディット設定におけるサンプル複雑性に対するインスタンス依存の低い値に一致したことを示す。 また,提案アルゴリズムの理論的保証に整合した数値結果も提供する。

We study the problem of best arm identification in linearly parameterised multi-armed bandits. Given a set of feature vectors $\mathcal{X}\subset\mathbb{R}^d,$ a confidence parameter $\delta$ and an unknown vector $\theta^*,$ the goal is to identify $\arg\max_{x\in\mathcal{X}}x^T\theta^*$, with probability at least $1-\delta,$ using noisy measurements of the form $x^T\theta^*.$ For this fixed confidence ($\delta$-PAC) setting, we propose an explicitly implementable and provably order-optimal sample-complexity algorithm to solve this problem. Previous approaches rely on access to minimax optimization oracles. The algorithm, which we call the \textit{Phased Elimination Linear Exploration Game} (PELEG), maintains a high-probability confidence ellipsoid containing $\theta^*$ in each round and uses it to eliminate suboptimal arms in phases. PELEG achieves fast shrinkage of this confidence ellipsoid along the most confusing (i.e., close to, but not optimal) directions by interpreting the problem as a two player zero-sum game, and sequentially converging to its saddle point using low-regret learners to compute players' strategies in each round. We analyze the sample complexity of PELEG and show that it matches, up to order, an instance-dependent lower bound on sample complexity in the linear bandit setting. We also provide numerical results for the proposed algorithm consistent with its theoretical guarantees.
翻訳日:2022-11-21 20:43:49 公開日:2020-06-13
# 高次元データの一貫性半教師付きグラフ正規化

Consistent Semi-Supervised Graph Regularization for High Dimensional Data ( http://arxiv.org/abs/2006.07575v1 )

ライセンス: Link先を確認
Xiaoyi Mai and Romain Couillet(参考訳) ラベル付きデータと非ラベル付きデータの両方から学習する標準的なグラフベースの手法である半教師付きラプラシアン正規化(英語版)は、最近、非ラベル付きデータ(Mai and Couillet 2018)に関して重要な高次元学習効率を持つことを示した。 この不整合問題の起源に関する詳細な議論の後、理論解析と経験的結果の両方に支えられ、集中操作を含む新たな正規化アプローチが解として提案される。

Semi-supervised Laplacian regularization, a standard graph-based approach for learning from both labelled and unlabelled data, was recently demonstrated to have an insignificant high dimensional learning efficiency with respect to unlabelled data (Mai and Couillet 2018), causing it to be outperformed by its unsupervised counterpart, spectral clustering, given sufficient unlabelled data. Following a detailed discussion on the origin of this inconsistency problem, a novel regularization approach involving centering operation is proposed as solution, supported by both theoretical analysis and empirical results.
翻訳日:2022-11-21 20:43:13 公開日:2020-06-13
# 深部ランダムウォークによる遠隔転送学習

Distant Transfer Learning via Deep Random Walk ( http://arxiv.org/abs/2006.07622v1 )

ライセンス: Link先を確認
Qiao Xiao and Yu Zhang(参考訳) ソースドメインから有用な知識を活用することで、ターゲットドメインでの学習パフォーマンスを改善するためのトランスファーラーニングは、これらの2つのドメインが非常に近いことを必要とし、アプリケーションのスコープを制限します。 近年、人間の推移的推論の精神において、通常、ブリッジとしてラベルが付かない補助ドメインを通して、2つの完全に無関係なドメイン間の知識を段階的な知識の伝達を通じて相互に結びつけることができるという、遠い転送学習が研究されている。 本稿では,深部ランダムウォークに基づく遠方移動(derwent)法を提案することで,遠方移動学習について検討する。 ソースインスタンスとターゲットインスタンス間の知識伝達経路を暗黙的に識別する既存の遠方移動学習モデルとは異なり、提案したDERWENTモデルは、深層ランダムウォーク手法により、これらの経路を明示的に学習することができる。 具体的には、ソースとターゲットデータが直接エッジを持たないデータグラフ上のランダムウォーク手法によって同定されたシーケンスに基づいて、提案したDERWENTモデルは、類似した配列内の隣接データポイントを強制し、エンディングデータポイントを同じシーケンス内の他のデータポイントに表現させ、ソースデータの重み付きトレーニング損失を考慮する。 いくつかのベンチマークデータセットに関する実証研究は、提案したDERWENTアルゴリズムが最先端の性能をもたらすことを示した。

Transfer learning, which is to improve the learning performance in the target domain by leveraging useful knowledge from the source domain, often requires that those two domains are very close, which limits its application scope. Recently, distant transfer learning has been studied to transfer knowledge between two distant or even totally unrelated domains via auxiliary domains that are usually unlabeled as a bridge in the spirit of human transitive inference that it is possible to connect two completely unrelated concepts together through gradual knowledge transfer. In this paper, we study distant transfer learning by proposing a DeEp Random Walk basEd distaNt Transfer (DERWENT) method. Different from existing distant transfer learning models that implicitly identify the path of knowledge transfer between the source and target instances through auxiliary instances, the proposed DERWENT model can explicitly learn such paths via the deep random walk technique. Specifically, based on sequences identified by the random walk technique on a data graph where source and target data have no direct edges, the proposed DERWENT model enforces adjacent data points in a squence to be similar, makes the ending data point be represented by other data points in the same sequence, and considers weighted training losses of source data. Empirical studies on several benchmark datasets demonstrate that the proposed DERWENT algorithm yields the state-of-the-art performance.
翻訳日:2022-11-21 20:42:14 公開日:2020-06-13
# ペナル化最大値法によるCTBNの構造学習

Structure learning for CTBN's via penalized maximum likelihood methods ( http://arxiv.org/abs/2006.07648v1 )

ライセンス: Link先を確認
Maryia Shpak, B{\l}a\.zej Miasojedow, Wojciech Rejchel(参考訳) 連続時間ベイズネットワーク(英: continuous-time bayesian network、ctbns)は、複雑な現象をモデル化するために用いられる確率過程のクラスである。 このトピックに関する文献は通常、システムの依存構造が分かっていて、条件遷移強度(ネットワークのパラメータ)を決定することに焦点を当てている。 本稿では,より困難な課題である構造学習問題について検討し,本課題に関する既存の研究は限られている。 提案する手法は, ペナル化可能性法に基づく。 軽度正規性条件下では,このアルゴリズムがグラフの依存構造を高い確率で認識することを示す。 また,本手法の特性を数値実験で検証し,その有効性を検証した。

The continuous-time Bayesian networks (CTBNs) represent a class of stochastic processes, which can be used to model complex phenomena, for instance, they can describe interactions occurring in living processes, in social science models or in medicine. The literature on this topic is usually focused on the case when the dependence structure of a system is known and we are to determine conditional transition intensities (parameters of the network). In the paper, we study the structure learning problem, which is a more challenging task and the existing research on this topic is limited. The approach, which we propose, is based on a penalized likelihood method. We prove that our algorithm, under mild regularity conditions, recognizes the dependence structure of the graph with high probability. We also investigate the properties of the procedure in numerical studies to demonstrate its effectiveness.
翻訳日:2022-11-21 20:41:46 公開日:2020-06-13
# tessellated kernel learningのための新しいアルゴリズム

A New Algorithm for Tessellated Kernel Learning ( http://arxiv.org/abs/2006.07693v1 )

ライセンス: Link先を確認
Brendon K. Colbert and Matthew M. Peet(参考訳) カーネル最適化に基づく機械学習アルゴリズムの精度と複雑さは、最適化が可能なカーネルの集合によって制限される。 カーネルの理想的な集合は、線形パラメータ化(トラクタビリティ)を認めること、全てのカーネルの集合において(堅牢性のために)密にすること、(正確性のために)普遍であることである。 最近提案されたTesselated Kernels (TK)は、3つの基準を満たす唯一の既知のクラスである。 しかし、TKを最適化する以前のアルゴリズムは分類に限られており、SDP(Semidefinite Programming)に依存していた。 対照的に、2段階のアルゴリズムは1万個のデータポイントにスケールし、回帰問題に拡張する。 さらに、ベンチマークデータに適用すると、同様の計算時間でニューラルネットワークやsimplemklのパフォーマンスが大幅に向上することを示す。

The accuracy and complexity of machine learning algorithms based on kernel optimization are limited by the set of kernels over which they are able to optimize. An ideal set of kernels should: admit a linear parameterization (for tractability); be dense in the set of all kernels (for robustness); be universal (for accuracy). The recently proposed Tesselated Kernels (TKs) is currently the only known class which meets all three criteria. However, previous algorithms for optimizing TKs were limited to classification and relied on Semidefinite Programming (SDP) - limiting them to relatively small datasets. By contrast, the 2-step algorithm proposed here scales to 10,000 data points and extends to the regression problem. Furthermore, when applied to benchmark data, the algorithm demonstrates significant improvement in performance over Neural Nets and SimpleMKL with similar computation time.
翻訳日:2022-11-21 20:40:58 公開日:2020-06-13
# スパース分離型非負行列分解

Sparse Separable Nonnegative Matrix Factorization ( http://arxiv.org/abs/2006.07553v1 )

ライセンス: Link先を確認
Nicolas Nadisic, Arnaud Vandaele, Jeremy E. Cohen, Nicolas Gillis(参考訳) 分離性とスパーシティの仮定を組み合わせた非負行列分解(nmf)の新たな変種を提案する。 分離性は、第1NMF因子の列が入力行列の列に等しいのに対して、スパース性は第2NMF因子の列がスパースであることが要求される。 この変種分離可能なNMF (SSNMF) は、多項式時間で解ける分離可能なNMFとは対照的にNP完全であることが証明される。 この新しいモデルを検討する主な動機は、マルチスペクトル画像アンミックスのような不確定なブラインドソース分離問題に対処することである。 本研究では, 逐次非負射影アルゴリズム(SNPA, 分離可能なNMFの有効アルゴリズム)に基づくSNMFの解法と, 正確なスパース非負最小二乗解法を提案する。 我々は、ノイズのない設定と穏やかな仮定の下で、アルゴリズムが真の基礎となる情報源を回復することを証明する。 これは合成データセットの実験とマルチスペクトル画像のアンミックス実験によって説明される。

We propose a new variant of nonnegative matrix factorization (NMF), combining separability and sparsity assumptions. Separability requires that the columns of the first NMF factor are equal to columns of the input matrix, while sparsity requires that the columns of the second NMF factor are sparse. We call this variant sparse separable NMF (SSNMF), which we prove to be NP-complete, as opposed to separable NMF which can be solved in polynomial time. The main motivation to consider this new model is to handle underdetermined blind source separation problems, such as multispectral image unmixing. We introduce an algorithm to solve SSNMF, based on the successive nonnegative projection algorithm (SNPA, an effective algorithm for separable NMF), and an exact sparse nonnegative least squares solver. We prove that, in noiseless settings and under mild assumptions, our algorithm recovers the true underlying sources. This is illustrated by experiments on synthetic data sets and the unmixing of a multispectral image.
翻訳日:2022-11-21 20:34:53 公開日:2020-06-13
# 情報ボトルネックによるバイナリニューラルネットワークの学習ダイナミクスの理解

Understanding Learning Dynamics of Binary Neural Networks via Information Bottleneck ( http://arxiv.org/abs/2006.07522v1 )

ライセンス: Link先を確認
Vishnu Raj, Nancy Nayak and Sheetal Kalyani(参考訳) コンパクトニューラルネットワークは安価で効率的なディープラーニングソリューションに不可欠である。 バイナリニューラルネットワーク(BNN)は、重みとアクティベーションの両方を2つのレベル($\{+1, -1\}$)に制限することで、極端にコンパクト化する。 しかし,活性化関数の不連続性によりbnnの訓練は容易ではなく,bnnの訓練ダイナミクスもよく分かっていない。 本稿では,BNNトレーニングにおける情報理論的視点について述べる。 我々はインフォメーション・ボトルネックの原理を用いてBNNを分析し、BNNのトレーニング力学がDeep Neural Networks(DNN)とはかなり異なることを観察する。 DNNには、異なる実験的なリスク最小化と表現圧縮フェーズがあるが、BNNでは、これらのフェーズが同時であることを示す数値実験を行った。 BNNは表現能力が低いため、ラベル付けと並行して効率的な隠れ表現を見つける傾向にある。 複数のデータセットの実験はこれらの観測をサポートし、BNNで異なるアクティベーション関数間で一貫した振る舞いが見られる。

Compact neural networks are essential for affordable and power efficient deep learning solutions. Binary Neural Networks (BNNs) take compactification to the extreme by constraining both weights and activations to two levels, $\{+1, -1\}$. However, training BNNs are not easy due to the discontinuity in activation functions, and the training dynamics of BNNs is not well understood. In this paper, we present an information-theoretic perspective of BNN training. We analyze BNNs through the Information Bottleneck principle and observe that the training dynamics of BNNs is considerably different from that of Deep Neural Networks (DNNs). While DNNs have a separate empirical risk minimization and representation compression phases, our numerical experiments show that in BNNs, both these phases are simultaneous. Since BNNs have a less expressive capacity, they tend to find efficient hidden representations concurrently with label fitting. Experiments in multiple datasets support these observations, and we see a consistent behavior across different activation functions in BNNs.
翻訳日:2022-11-21 20:33:57 公開日:2020-06-13
# the perturbed leader: 滑らかなミニマックスゲームのための最適化と高速並列アルゴリズム

Follow the Perturbed Leader: Optimism and Fast Parallel Algorithms for Smooth Minimax Games ( http://arxiv.org/abs/2006.07541v1 )

ライセンス: Link先を確認
Arun Sai Suggala, Praneeth Netrapalli(参考訳) オンライン学習の問題とミニマックスゲームへの応用について考察する。 オンライン学習問題において、FTPL (Follow the Perturbed Leader) は、凸損失と非凸損失の両方に対して最適な$O(T^{1/2})$最悪の後悔を保証するアルゴリズムである。 本研究では,損失関数の列が予測可能である場合,最適化を組み込んだFTPLの簡単な修正により,予測不可能な列に対する最悪の後悔保証を保ちながら,より良好な後悔保証が得られることを示す。 これらの厳密な後悔境界を得る上で重要な課題はアルゴリズムの確率性と楽観性であり、FTPLの分析でよく使われるものとは異なる分析技術を必要とする。 私たちが分析で用いている重要な要素は、摂動を正規化する双対的視点である。 アルゴリズムにはいくつかの応用があるが、ミニマックスゲームの特定の応用を考える。 滑らかな凸凸ゲームを解くために、このアルゴリズムは線形最適化オラクルへのアクセスのみを必要とする。 lipschitz と smooth nonconvex-nonconcave games では、アルゴリズムは乱れたベストレスポンスを計算する最適化 oracle へのアクセスを必要とします。 これら2つの設定で,最適化オラクルへの$T$コールを用いて,O(T^{-1/2})$の精度でゲームを解決する。 アルゴリズムの重要な特徴は、高度に並列化可能であり、O(T^{1/2})$反復しか必要とせず、各反復は最適化オラクルへの$O(T^{1/2})$並列呼び出しを行う。

We consider the problem of online learning and its application to solving minimax games. For the online learning problem, Follow the Perturbed Leader (FTPL) is a widely studied algorithm which enjoys the optimal $O(T^{1/2})$ worst-case regret guarantee for both convex and nonconvex losses. In this work, we show that when the sequence of loss functions is predictable, a simple modification of FTPL which incorporates optimism can achieve better regret guarantees, while retaining the optimal worst-case regret guarantee for unpredictable sequences. A key challenge in obtaining these tighter regret bounds is the stochasticity and optimism in the algorithm, which requires different analysis techniques than those commonly used in the analysis of FTPL. The key ingredient we utilize in our analysis is the dual view of perturbation as regularization. While our algorithm has several applications, we consider the specific application of minimax games. For solving smooth convex-concave games, our algorithm only requires access to a linear optimization oracle. For Lipschitz and smooth nonconvex-nonconcave games, our algorithm requires access to an optimization oracle which computes the perturbed best response. In both these settings, our algorithm solves the game up to an accuracy of $O(T^{-1/2})$ using $T$ calls to the optimization oracle. An important feature of our algorithm is that it is highly parallelizable and requires only $O(T^{1/2})$ iterations, with each iteration making $O(T^{1/2})$ parallel calls to the optimization oracle.
翻訳日:2022-11-21 20:32:42 公開日:2020-06-13
# 進化戦略によるオフポリシー学習におけるオンラインハイパーパラメータチューニング

Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary Strategies ( http://arxiv.org/abs/2006.07554v1 )

ライセンス: Link先を確認
Yunhao Tang, Krzysztof Choromanski(参考訳) オフポリシー学習アルゴリズムはハイパーパラメータの選択に敏感であることが知られている。 しかし、ハイパーパラメータをメタ勾配などによって最適化できる近オンポリシーアルゴリズムとは異なり、同様の手法をオフポリシー学習に直接適用することは不可能である。 本稿では,オフライン学習におけるオンラインハイパーパラメータチューニングへの進化戦略の適用に関するフレームワークを提案する。 この定式化はメタ勾配と密接なつながりを持ち,比較的低次元の探索空間を用いたブラックボックス最適化の強みを生かしている。 提案手法は,静的ハイパーパラメータを用いた最先端のオフポリシー学習ベースラインと,近年の幅広い連続制御ベンチマークにおける先行研究に勝ることを示す。

Off-policy learning algorithms have been known to be sensitive to the choice of hyper-parameters. However, unlike near on-policy algorithms for which hyper-parameters could be optimized via e.g. meta-gradients, similar techniques could not be straightforwardly applied to off-policy learning. In this work, we propose a framework which entails the application of Evolutionary Strategies to online hyper-parameter tuning in off-policy learning. Our formulation draws close connections to meta-gradients and leverages the strengths of black-box optimization with relatively low-dimensional search spaces. We show that our method outperforms state-of-the-art off-policy learning baselines with static hyper-parameters and recent prior work over a wide range of continuous control benchmarks.
翻訳日:2022-11-21 20:26:01 公開日:2020-06-13
# 高コントラスト「ゴーディ」画像は視覚野の深層ニューラルネットワークモデルの訓練を改善する

High-contrast "gaudy" images improve the training of deep neural network models of visual cortex ( http://arxiv.org/abs/2006.11412v1 )

ライセンス: Link先を確認
Benjamin R. Cowley, Jonathan W. Pillow(参考訳) 視覚系の感覚変換を理解する上で重要な課題は、視覚皮質ニューロンからの応答の予測モデルを得ることである。 ディープニューラルネットワーク(DNN)は、そのようなモデルの有望な候補を提供する。 しかし、DNNは実験記録時間が著しく制限されているため、神経科学者が実際のニューロンから収集できるデータよりも、桁違いに多くの訓練データを必要とする。 これにより、可能な限り少ないトレーニングデータで、予測性の高いDNNをトレーニングするイメージを見つけることができます。 自然画像の高コントラスト二項化バージョンであるゴーディー画像を提案し,DNNを効率的に訓練する。 広範にわたるシミュレーション実験では,ガウディ画像を用いたDNNのトレーニングにより,視覚皮質ニューロンのシミュレーション応答を正確に予測するために必要なトレーニング画像の数が大幅に減少することがわかった。 また,学習前に選択したガウディ画像は,能動学習アルゴリズムによる学習中に選択した画像よりも優れていた。 したがって、ゴーディー画像は、DNNを効率的に訓練する上で最も重要な自然画像、特にエッジの特徴を過度に強調する。 ゴーディ画像は、視覚皮質ニューロンのモデリングを助け、視覚処理に関する新たな科学的疑問を提起し、dnnのトレーニングを改善する方法を求める一般実践者を助けるだろうと考えています。

A key challenge in understanding the sensory transformations of the visual system is to obtain a highly predictive model of responses from visual cortical neurons. Deep neural networks (DNNs) provide a promising candidate for such a model. However, DNNs require orders of magnitude more training data than neuroscientists can collect from real neurons because experimental recording time is severely limited. This motivates us to find images that train highly-predictive DNNs with as little training data as possible. We propose gaudy images---high-contrast binarized versions of natural images---to efficiently train DNNs. In extensive simulation experiments, we find that training DNNs with gaudy images substantially reduces the number of training images needed to accurately predict the simulated responses of visual cortical neurons. We also find that gaudy images, chosen before training, outperform images chosen during training by active learning algorithms. Thus, gaudy images overemphasize features of natural images, especially edges, that are the most important for efficiently training DNNs. We believe gaudy images will aid in the modeling of visual cortical neurons, potentially opening new scientific questions about visual processing, as well as aid general practitioners that seek ways to improve the training of DNNs.
翻訳日:2022-11-21 20:24:37 公開日:2020-06-13
# DeeperGCN: より深いGCNをトレーニングするために必要なもの

DeeperGCN: All You Need to Train Deeper GCNs ( http://arxiv.org/abs/2006.07739v1 )

ライセンス: Link先を確認
Guohao Li, Chenxin Xiong, Ali Thabet, Bernard Ghanem(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ上での表現学習の力で注目されている。 非常に深いレイヤを積み重ねることのできる畳み込みニューラルネットワーク(CNN)とは異なり、GCNはより深く進むと、勾配の消失、過度なスムース化、過度に適合する問題に悩まされる。 これらの課題は、大規模グラフ上のGCNの表現力を制限する。 本稿では,非常に深いGCNを正常かつ確実に訓練できるDeeperGCNを提案する。 微分可能な一般化アグリゲーション関数を定義し、異なるメッセージアグリゲーション操作(例えば、max)を統一する。 また,新しい正規化層であるMsgNormとGCNに対する残差接続の事前活性化版を提案する。 Open Graph Benchmark(OGB)の大規模な実験では、DeeperGCNはノード特性予測とグラフ特性予測の大規模グラフ学習タスクにおいて、最先端の性能を大幅に向上させる。 詳細はhttps://www.deepgcns.orgをご覧ください。

Graph Convolutional Networks (GCNs) have been drawing significant attention with the power of representation learning on graphs. Unlike Convolutional Neural Networks (CNNs), which are able to take advantage of stacking very deep layers, GCNs suffer from vanishing gradient, over-smoothing and over-fitting issues when going deeper. These challenges limit the representation power of GCNs on large-scale graphs. This paper proposes DeeperGCN that is capable of successfully and reliably training very deep GCNs. We define differentiable generalized aggregation functions to unify different message aggregation operations (e.g. mean, max). We also propose a novel normalization layer namely MsgNorm and a pre-activation version of residual connections for GCNs. Extensive experiments on Open Graph Benchmark (OGB) show DeeperGCN significantly boosts performance over the state-of-the-art on the large scale graph learning tasks of node property prediction and graph property prediction. Please visit https://www.deepgcns.org for more information.
翻訳日:2022-11-21 20:23:07 公開日:2020-06-13