このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200718となっている論文です。

PDF登録状況(公開日: 20200718)

TitleAuthorsAbstract論文公表日・翻訳日
# プライベートランダムリピータの制限

Limitations for private randomness repeaters ( http://arxiv.org/abs/2003.07086v2 )

ライセンス: Link先を確認
Karol Horodecki, Ryszard P. Kostecki, Roberto Salazar, and Micha{\l} Studzi\'nski(参考訳) 暗号プロトコルは、しばしば2つの主要なリソース、プライベートランダムネスとプライベートキーに基づいている。 本稿では,この2つの資源の関係について述べる。 まず、完全で直接アクセス可能なプライベートキー(プライベート状態)を含む状態が、完全で直接アクセス可能なプライベートランダム性(独立状態)を含む状態の特定のケースであることを示す。 次に,量子ネットワークにおけるランダムビットのプライバシを中間中継局に転送する可能性に関する基本的な制限を示す。 より正確には、このシナリオにおいて反復ランダム率の上限を提供し、プライベートキーリピータに導かれるものと同様のものである。 この境界は正の部分転位を持つ状態に対して成り立つ。 さらに,この上界のパワーを,分離可能なヴェルナー状態に対するローカライズ可能状態と反復的プライベートランダム性との間のギャップを示すことにより示している。 制限された操作クラスの場合、任意の状態を保持する反復ランダム性の境界も提供する。

Cryptographic protocols are often based on the two main resources: private randomness and private key. In this paper, we develop a relationship between these two resources. First, we show that any state containing perfect, directly accessible, private key (a private state) is a particular case of the state containing perfect, directly accessible, private randomness (an independent state). We then demonstrate a fundamental limitation on the possibility of transferring the privacy of random bits in quantum networks with an intermediate repeater station. More precisely, we provide an upper bound on the rate of repeated randomness in this scenario, similar to the one derived for private key repeaters. This bound holds for states with positive partial transposition. We further demonstrate the power of this upper bound by showing a gap between the localisable and the repeated private randomness for separable Werner states. In the case of restricted class of operations, we provide also a bound on repeated randomness which holds for arbitrary states.
翻訳日:2023-05-29 00:34:38 公開日:2020-07-18
# ツリーテンソルネットワーク状態を用いた二次元量子格子のダイナミクスの研究

Studying dynamics in two-dimensional quantum lattices using tree tensor network states ( http://arxiv.org/abs/2003.08944v3 )

ライセンス: Link先を確認
Benedikt Kloss, Yevgeny Bar Lev, David R. Reichman(参考訳) 相互作用する2次元格子系の力学を研究するために,数値的精度の高いアルゴリズムの収束特性を解析・議論する。 この方法は、二元および四元木テンソルネットワーク状態の多様体における時間依存変分原理の適用に基づいている。 このアプローチは、既存のマトリクス製品状態アプローチと競合することが判明した。 本稿では,2次元システムの研究に使用されるより広範な数値的手法の集合に関係のある手法の収束に関する問題点について論じる。

We analyze and discuss convergence properties of a numerically exact algorithm tailored to study the dynamics of interacting two-dimensional lattice systems. The method is based on the application of the time-dependent variational principle in a manifold of binary and quaternary Tree Tensor Network States. The approach is found to be competitive with existing matrix product state approaches. We discuss issues related to the convergence of the method, which could be relevant to a broader set of numerical techniques used for the study of two-dimensional systems.
翻訳日:2023-05-28 17:51:23 公開日:2020-07-18
# オーミック貯留層に基づく非マルコビアン性と量子速度制限時間

Ohmic Reservoir-based non-Markovianity and Quantum Speed Limit Time ( http://arxiv.org/abs/2003.09774v2 )

ライセンス: Link先を確認
Hong-Mei Zou, Rongfang Liu, Dan Long, Jianhe Yang, Danping Lin(参考訳) 拡散型Janes-Cummingモデルでは, 原子が単一モードのキャビティに埋め込まれており, オーミック密度密度の外部貯水池に漏洩しているため, 2レベル原子の非マルコビアン性および量子スピードアップについて検討する。 時間-局所マスター方程式における原子励起状態の確率と負のデコヒーレンス率を特徴とする非マルコフ性を得る。 また、原子の進化過程の量子速度制限時間(QSLT)を計算する。 その結果、原子-キャビティカップリングはマルコフ力学から非マルコフ力学への移行の主要な物理的理由であり、無加速からスピードアッププロセスへの遷移であり、この突然遷移の臨界値はオーミティパラメータにのみ依存することが示された。 原子キャビティカップリングと適切なリザーバパラメータは、ダイナミクスプロセスの非マルコビアン性を効果的に改善し、原子の進化を加速することができる。 さらに、最初の非マルコフ力学はまずマルコフ力学となり、ある条件下で原子-キャビティカップリングを増加させて非マルコフ力学に戻る。 最後に、物理的な解釈を提供する。

We study the non-Markovianity and quantum speedup of a two-level atom (quantum system of interest) in a dissipative Jaynes-Cumming model, where the atom is embedded in a single-mode cavity, which is leaky being coupled to an external reservoir with Ohmic spectral density. We obtain the non-Markovianity characterized by using the probability of the atomic excited state and the negative decoherence rate in the time-local master equation. We also calculate the quantum speed limit time (QSLT) of the evolution process of the atom. The results show that, the atom-cavity coupling is the main physical reasons of the transition from Markovian to non-Markovian dynamics and the transition from no speedup to speedup process, and the critical value of this sudden transition only depends on the Ohmicity parameter. The atom-cavity coupling and the appropriate reservoir parameters can effectively improve the non-Markovianity in the dynamics process and speed up the evolution of the atom. Moreover, the initial non-Markovian dynamics first turns into Markovian and then back to non-Markovian with increasing the atom-cavity coupling under certain condition. Finally, the physical interpretation is provided.
翻訳日:2023-05-28 11:49:09 公開日:2020-07-18
# 単一モードキャビティ場と相互作用する2つの2レベル原子の量子コヒーレンスおよび非古典相関に及ぼすスタークシフトの影響

Influence of Stark-shift on quantum coherence and non-classical correlations for two two-level atoms interacting with a single-mode cavity field ( http://arxiv.org/abs/2003.11338v2 )

ライセンス: Link先を確認
Abdallah Slaoui, Ahmed Salah and Mohammed Daoud(参考訳) スタークシフトの存在下で多光子単モード電磁空洞場と結合した2つの2レベル原子の厳密な解析解を導出する。 電場はまずコヒーレントな状態に準備され、2つの原子は最初励起状態に準備されていると仮定する。 スタークシフト効果によって生じる原子レベルのシフトを考慮し、量子ジェンセン-シャノンの発散を用いた量子コヒーレンス(QC)と量子不協和(QD)による量子相関の動的挙動を調べた。 キャビティにおける強度依存性のスタークシフトとコヒーレント状態光子の数は, 本態性脱コヒーレンス過程におけるQCおよびQDの増強や破壊に重要な役割を果たしている。 我々は,スタークシフトパラメータの増加,キャビティフィールドのモードの遷移の頻度,および光子数によってQCとQDの量の両方が破壊され,周期性に影響を及ぼすことを指摘した。 さらに重要なことは、QCとQDも同様の挙動を示し、どちらも復活現象を示すことである。 本研究は,光システムにおける物理資源に基づく量子情報プロトコルを,スタークシフトパラメータの調整によって制御できることを示唆している。

An exact analytic solution for two two-level atoms coupled with a multi-photon single-mode electromagnetic cavity field in the presence of the Stark shift is derived. We assume that the field is initially prepared in a coherent state and the two atoms are initially prepared in an excited state. Considering the atomic level shifts generated by the Stark shift effect, the dynamical behavior of both quantum coherence (QC) measured using a quantum Jensen-Shannon divergence and of quantum correlations captured by quantum discord (QD) are investigated. It is shown that the intensity-dependent Stark-shift in the cavity and the number of coherent state photons plays a key role in enhancing or destroying both QC and QD during the process of intrinsic decoherence. We remarked that increasing the Stark-shift parameters, the frequencies of the transition for the mode of the cavity field, and photons number destroy both the amount of QC and QD and effected their periodicity. More importantly, QC and QD exhibit similar behavior and both show a revival phenomenon. We believe that the present work shows that the quantum information protocols based on physical resources in optical systems could be controlled by adjusting the Stark-shift parameters.
翻訳日:2023-05-27 22:46:20 公開日:2020-07-18
# 超低温原子を用いた大型結晶の創製

Creating big time crystals with ultracold atoms ( http://arxiv.org/abs/2004.00755v2 )

ライセンス: Link先を確認
Krzysztof Giergiel, Tien Tran, Ali Zaheer, Arpana Singh, Andrei Sidorov, Krzysztof Sacha, Peter Hannaford(参考訳) 発振ミラー上で共振するボース・アインシュタイン凝縮体(BEC)のために生成できる離散時間結晶s(駆動時間に対する応答時間比)のサイズについて検討した。 時間結晶は、範囲 s = 20 - 100 の大きさで生成することができ、また、鏡上のより大きな落下高さまたはより少ないバウンスを必要とするため、周期倍の (s = 2) 時間結晶よりも実験的に実現しやすいことが判明した。 また, 実感可能な軟ガウス電位ミラーをバウンシングbecに有する効果についても検討し, 硬壁電位ミラーよりも実装が容易であることが判明した。 最後に,バウンシングbecに基づく時間結晶生成のための原子系の選択について論じ,ビッグタイム結晶を実現するための実験プロトコルを提案する。 このような大きな時間結晶は、時間領域における幅広い非自明な凝縮物質現象を調査するための柔軟なプラットフォームを提供する。

We investigate the size of discrete time crystals s (ratio of response period to driving period) that can be created for a Bose-Einstein condensate (BEC) bouncing resonantly on an oscillating mirror. We find that time crystals can be created with sizes in the range s = 20 - 100 and that such big time crystals are easier to realize experimentally than a period-doubling (s = 2) time crystal because they require either a larger drop height or a smaller number of bounces on the mirror. We also investigate the effects of having a realistic soft Gaussian potential mirror for the bouncing BEC, such as that produced by a repulsive light-sheet, which is found to make the experiment easier to implement than a hard-wall potential mirror. Finally, we discuss the choice of atomic system for creating time crystals based on a bouncing BEC and present an experimental protocol for realizing big time crystals. Such big time crystals provide a flexible platform for investigating a broad range of non-trivial condensed matter phenomena in the time domain.
翻訳日:2023-05-27 03:31:06 公開日:2020-07-18
# 超強結合QEDにおける材料乱れによるゲージ非不変性

Gauge non-invariance due to material truncation in ultrastrong-coupling QED ( http://arxiv.org/abs/2005.06499v2 )

ライセンス: Link先を確認
Adam Stokes and Ahsan Nazir(参考訳) 物質的切断によるゲージの非不変性は、強結合qedの多くの文脈で近年研究されている。 最近Nature Physics 15, 803 (2019) に提案されたアプローチは、誤った数学的主張に依存しているため、ゲージ非不変性は解決しない。 異なるゲージで等価でない新しい2レベルモデルを生成する。 新しいクーロンゲージモデルは、多極ゲージ量子ラビモデルが正確であるnature physics 15, 803 (2019)で検討されたレジームでは不正確である。 自然物理学 15, 803 (2019) で解析されたモデルは、本文にある議論の結果ではなく、マルチポーラゲージ内での切り離しの結果であり、その後、切り離された位相不変原理が適用される。 より一般に、この原理は任意のゲージの切断に従えば適用でき、選択されたゲージ内の切断されたモデルの同値類を与える。 異なるゲージに属する同値類は同値ではなく、切り離された位相不変原理は特定のクラスを好む議論を与えない。 一般に、最適クラスは、観測可能な状態、パラメータ状態、検討中のフィールドモードの数など、物理的な状況に依存する。 また、ゲージ曖昧性は近似によるゲージ非不変性と同義ではないことも強調する。 物質トルーニケーションのサブシステム予測とは独立に、ゲージ選択によって制御されるサブシステムの理論的定義によって大きく異なることができる。 これは、ゲージ不変性に矛盾しないベクトル空間相対性理論の例である。 しかし、超強結合系では、この相対性理論は無視できない。

Gauge non-invariance due to material truncation has recently been explored in a number of contexts in strong-coupling QED. We show that the approach proposed recently in Nature Physics 15, 803 (2019) rests on an incorrect mathematical assertion and so does not resolve gauge non-invariance. It produces new two-level models that are not equivalent in different gauges. The new Coulomb-gauge model is inaccurate for the regimes considered in Nature Physics 15, 803 (2019), for which the multipolar-gauge quantum Rabi model is accurate. The models analysed in Nature Physics 15, 803 (2019) do not result from the argument provided in the main text, but instead from truncation within the multipolar-gauge followed by the application of a truncated phase-invariance principle. More generally, this principle can be applied following truncation in any gauge and it yields an equivalence class of truncated models within the gauge chosen. Equivalence classes belonging to different gauges are not equivalent and the truncated phase-invariance principle does not provide an argument to prefer a particular class. In general, the optimal class depends on the physical situation, including the observables, the parameter regime, and the number of field modes being considered. We also emphasise that gauge-ambiguities are not synonymous with gauge non-invariance due to approximations. Independent of material truncation subsystem predictions can be vastly different depending on the theoretical definitions of the subsystems, which are controlled by the gauge choice. This constitutes an example of vector-space relativity that in no way contradicts gauge-invariance. However, within ultrastrong-coupling regimes this relativity can no longer be ignored.
翻訳日:2023-05-20 07:42:19 公開日:2020-07-18
# 非コヒーレント光により駆動される光ハーベスティングエネルギー移動の定常解析:ダイマーからネットワークへ

Steady-State Analysis of Light-harvesting Energy Transfer Driven by Incoherent Light: From Dimers to Networks ( http://arxiv.org/abs/2007.10825v1 )

ライセンス: Link先を確認
Pei-Yun Yang and Jianshu Cao(参考訳) 量子コヒーレンスがいかにエネルギー移動を促進するかという問題は、科学界で激しく議論されている。 自然光と人工光ハーベスティングユニットは定常状態で動作するため、不連続の太陽光で照射された分子ダイマーの非平衡定常解析を行い、鍵となる予測を任意に複雑な励起子ネットワークに一般化する。 定常状態解析の主な結果はコヒーレンス-流束-効率関係である:$\eta=c\sum_{i\neq j}F_{ij}\kappa_j=2c\sum_{i\neq j}J_{ij}{\rm Im}[{\rho}_{ij}]\kappa_j$ with $c$ 正規化定数。 この関係において、第1等式は、エネルギー移動効率 $\eta$ が、反応中心でトラッピングするために、フラックス $f$ と分岐比 $\kappa$ の積であるトラップフラックスによって一意に決定され、第2等式は、エネルギー移動フラックス $f$ は、対角密度行列の虚部によって測定された量子コヒーレンス、すなわち $f_{ij}=2j_{ij}{\rm im}[{\rho}_{ij}]$ と等価であることを示している。 その結果、最大定常コヒーレンスが最適効率をもたらす。 コヒーレンス流束効率関係は、定常条件下で任意の接続を持つ任意のエキシトンネットワークに対して厳密かつ一般に保持され、非コヒーレント放射線や非コヒーレントポンプに限定されない。 無コヒーレント光の下での光ハーベスティング系では、非平衡エネルギー伝達フラックス(すなわち定常状態コヒーレンス)は詳細なバランスの崩壊と光励起の量子干渉によって駆動され、エネルギー伝達効率の最適化につながる。 定常コヒーレンス、あるいは同等に、効率は光誘起過渡コヒーレンス、不均一な枯渇、システム-バス相関の組合せの結果であり、従って量子的ビーティングと必ずしも相関しない点に注意する必要がある。

The question of how quantum coherence facilitates energy transfer has been intensively debated in the scientific community. Since natural and artificial light-harvesting units operate under the stationary condition, we address this question via a non-equilibrium steady-state analysis of a molecular dimer irradiated by incoherent sunlight and then generalize the key predictions to arbitrarily-complex exciton networks. The central result of the steady-state analysis is the coherence-flux-efficiency relation:$\eta=c\sum_{i\neq j}F_{ij}\kappa_j=2c\sum_{i\neq j}J_{ij}{\rm Im}[{\rho}_{ij}]\kappa_j$ with $c$ the normalization constant. In this relation, the first equality indicates that energy transfer efficiency $\eta$ is uniquely determined by the trapping flux, which is the product of flux $F$ and branching ratio $\kappa$ for trapping at the reaction centers, and the second equality indicates that the energy transfer flux $F$ is equivalent to quantum coherence measured by the imaginary part of the off-diagonal density matrix, i.e., $F_{ij}=2J_{ij}{\rm Im}[{\rho}_{ij}]$. Consequently, maximal steady-state coherence gives rise to optimal efficiency. The coherence-flux-efficiency relation holds rigorously and generally for any exciton networks of arbitrary connectivity under the stationary condition and is not limited to incoherent radiation or incoherent pumping. For light-harvesting systems under incoherent light, non-equilibrium energy transfer flux (i.e. steady-state coherence) is driven by the breakdown of detailed balance and by the quantum interference of light-excitations and leads to the optimization of energy transfer efficiency. It should be noted that the steady-state coherence or, equivalently, efficiency is the combined result of light-induced transient coherence, inhomogeneous depletion, and system-bath correlation, and is thus not necessarily correlated with quantum beatings.
翻訳日:2023-05-09 03:07:19 公開日:2020-07-18
# 2量子状態におけるステアビリティと共起の制約関係

Constraint relation between steerability and concurrence for two-qubit states ( http://arxiv.org/abs/2007.10808v1 )

ライセンス: Link先を確認
Xiao-Gang Fan, Huan Yang, Fei Ming, Zhi-Yong Ding, Dong Wang, and Liu Ye(参考訳) エンタングルメントとステアリングは量子的分離性を記述するために用いられる。 定常状態は絡み合った状態の厳密な部分集合を形成する。 領域のステアビリティが一般的な2ビットの絡み合い状態の絡み合いをどの程度占有するかという自然問題が発生する。 本研究では, 2種類の進化状態とランダムに生成された2量子状態を用いて, ステアビリティと共起の制約関係について検討する。 理論的および数値的な証明を組み合わせることで、操舵可能性の上下の境界を求める。 そして、下界はステアリング検出のための十分な基準として使用できる。 さらに,werner様の状態上で任意のユニタリ操作を行うことで,特殊な混合状態が変化することを考慮し,帰納と純度によって記述される十分な操舵基準を提案する。

Entanglement and steering are used to describe quantum inseparabilities. Steerable states form a strict subset of entangled states. A natural question arises concerning how much territory steerability occupies entanglement for a general two-qubit entangled state. In this work, we investigate the constraint relation between steerability and concurrence by using two kinds of evolutionary states and randomly generated two-qubit states. By combining the theoretical and numerical proofs, we obtain the upper and lower boundaries of steerability. And the lower boundary can be used as a sufficient criterion for steering detection. Futhermore, we consider a special kind of mixed state transformed by performing an arbitrary unitary operation on Werner-like state, and propose a sufficient steering criterion described by concurrence and purity.
翻訳日:2023-05-09 03:06:34 公開日:2020-07-18
# 認知ネットワーク科学と教育レベルの計算思考思想のマッピング

Mapping computational thinking mindsets between educational levels with cognitive network science ( http://arxiv.org/abs/2007.09402v1 )

ライセンス: Link先を確認
Massimo Stella, Anastasiya Kapuza, Catherine Cramer and Stephen Uzzo(参考訳) 計算思考は、データの観点から世界について推論する方法である。 このマインドセットは、論理、モデル、シミュレーションを通じて知識を発見するという野望に向かって、数を増やしている。 ここでは,計算認知科学を用いて,複雑なネットワークを通して計算思考思想の構造を再構築し,分析する方法について述べる。 ケーススタディでは、以下の計算思考の重要概念に関連する認知ネットワークについて検討する。 (i)理科課程に入学した高校生159名 (ii)複雑なシステムとシミュレーションの59人の研究者。 研究者の復元されたフォルマ・メンティスは、自然を発見する方法として、科学的モデリング、意味的にフレーミングされたデータとシミュレーションに関する肯定的な考え方を強調した。 学生は論理的推論の異なる側面を正しく識別したが、「計算」は苦悩と不安を和らげるタスクであり、数学のジャーゴンと結び付けられ、現実世界の発見へのリンクが欠如していると認識した。 データ」や「モデル」や「シミュレーション」に関する学生の考え方は、世界を理解する方法としての数値モデリングに対する認識を批判的に示さなかった。 本研究は,プログラミングによって現実の発見に繋がらない数学的スキルを習得する学生における,計算思考の欠陥の証拠を提供する。 この無リンクの知識は、無関係に多くの専門知識を苦しめていると見なされる。 ここで報告された研究者の厳密な考え方は、プログラミング、モデリング、シミュレーションの学生に自然の発見を訓練することで、計算思考を復元できることを示している。 我々のアプローチは、計算思考の定量化とマインドセット再構築によるその発展を促進する革新的な方法を開く。

Computational thinking is a way of reasoning about the world in terms of data. This mindset channels number crunching toward an ambition to discover knowledge through logic, models and simulations. Here we show how computational cognitive science can be used to reconstruct and analyse the structure of computational thinking mindsets (forma mentis in Latin) through complex networks. As a case study, we investigate cognitive networks tied to key concepts of computational thinking provided by: (i) 159 high school students enrolled in a science curriculum and (ii) 59 researchers in complex systems and simulations. Researchers' reconstructed forma mentis highlighted a positive mindset about scientific modelling, semantically framing data and simulations as ways of discovering nature. Students correctly identified different aspects of logic reasoning but perceived "computation" as a distressing, anxiety-eliciting task, framed with math jargon and lacking links to real-world discovery. Students' mindsets around "data", "model" and "simulations" critically revealed no awareness of numerical modelling as a way for understanding the world. Our findings provide evidence of a crippled computational thinking mindset in students, who acquire mathematical skills that are not channelled toward real-world discovery through coding. This unlinked knowledge ends up being perceived as distressing number-crunching expertise with no relevant outcome. The virtuous mindset of researchers reported here indicates that computational thinking can be restored by training students specifically in coding, modelling and simulations in relation to discovering nature. Our approach opens innovative ways for quantifying computational thinking and enhancing its development through mindset reconstruction.
翻訳日:2023-05-09 03:05:15 公開日:2020-07-18
# ヒルベルト空間のビットスライシング:正確な量子回路シミュレーションを新しいレベルにスケールアップする

Bit-Slicing the Hilbert Space: Scaling Up Accurate Quantum Circuit Simulation to a New Level ( http://arxiv.org/abs/2007.09304v1 )

ライセンス: Link先を確認
Yuan-Hung Tsai, Jie-Hong R. Jiang, and Chiao-Shan Jhang(参考訳) 量子コンピューティングは近年大きく進歩しており、近い将来に計算パラダイムを変えることが期待されている。 量子回路シミュレーションは、量子ハードウェアとソフトウェアシステムの開発のためのツールチェーンにおいて重要な役割を果たす。 しかし、量子状態の巨大なヒルベルト空間のため、量子回路を古典的なコンピュータでシミュレーションすることは、顕著な努力がなされているにもかかわらず非常に難しい。 本稿では,量子回路シミュレーションの精度とスケーラビリティの2次元化について述べる。 前者は複素数の代数的表現を用いて達成され、後者は数表現をビットスライシングし、行列ベクトル乗法をシンボルブール関数操作に置き換えることによって達成される。 実験の結果,本手法は様々な量子回路の最先端技術よりも優れ,数万キュービットまでのベンチマークファミリをシミュレートできることがわかった。

Quantum computing is greatly advanced in recent years and is expected to transform the computation paradigm in the near future. Quantum circuit simulation plays a key role in the toolchain for the development of quantum hardware and software systems. However, due to the enormous Hilbert space of quantum states, simulating quantum circuits with classical computers is extremely challenging despite notable efforts have been made. In this paper, we enhance quantum circuit simulation in two dimensions: accuracy and scalability. The former is achieved by using an algebraic representation of complex numbers; the latter is achieved by bit-slicing the number representation and replacing matrix-vector multiplication with symbolic Boolean function manipulation. Experimental results demonstrate that our method can be superior to the state-of-the-art for various quantum circuits and can simulate certain benchmark families with up to tens of thousands of qubits.
翻訳日:2023-05-09 03:04:29 公開日:2020-07-18
# 知識グラフをブリッジしてシーングラフを生成する

Bridging Knowledge Graphs to Generate Scene Graphs ( http://arxiv.org/abs/2001.02314v4 )

ライセンス: Link先を確認
Alireza Zareian, Svebor Karaman, Shih-Fu Chang(参考訳) シーングラフは、イメージを抽象的な意味要素、すなわちオブジェクトとその相互作用に解析する強力な表現であり、視覚的理解と説明可能な推論を容易にする。 一方、コモンセンスナレッジグラフは、世界がどのように構成され、一般的な概念がどのように相互作用するかをエンコードするリッチリポジトリである。 本稿では,これらの2つの構造を統一的に定式化し,シーングラフをコモンセンス知識グラフのイメージ条件付インスタンス化とみなす。 この新たな視点に基づき,シーングラフ生成をシーングラフとコモンセンスグラフの橋渡しとして再計算し,シーングラフの各エンティティまたは述語インスタンスは、コモンセンスグラフ内の対応するエンティティまたは述語クラスにリンクする必要がある。 そこで本研究では,2つのグラフ間の情報を反復的に伝播するグラフベースニューラルネットワークを提案する。 我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンと常識グラフのリッチでヘテロジニアスな構造を同時に活用し、洗練します。 広範な実験により,最新の手法と比較してgb-netの精度が向上し,新たな技術が得られた。 我々は,我々のメソッドのソースコードを公開している。

Scene graphs are powerful representations that parse images into their abstract semantic elements, i.e., objects and their interactions, which facilitates visual comprehension and explainable reasoning. On the other hand, commonsense knowledge graphs are rich repositories that encode how the world is structured, and how general concepts interact. In this paper, we present a unified formulation of these two constructs, where a scene graph is seen as an image-conditioned instantiation of a commonsense knowledge graph. Based on this new perspective, we re-formulate scene graph generation as the inference of a bridge between the scene and commonsense graphs, where each entity or predicate instance in the scene graph has to be linked to its corresponding entity or predicate class in the commonsense graph. To this end, we propose a novel graph-based neural network that iteratively propagates information between the two graphs, as well as within each of them, while gradually refining their bridge in each iteration. Our Graph Bridging Network, GB-Net, successively infers edges and nodes, allowing to simultaneously exploit and refine the rich, heterogeneous structure of the interconnected scene and commonsense graphs. Through extensive experimentation, we showcase the superior accuracy of GB-Net compared to the most recent methods, resulting in a new state of the art. We publicly release the source code of our method.
翻訳日:2023-01-13 20:52:36 公開日:2020-07-18
# nodis:神経的な常微分的シーン理解

NODIS: Neural Ordinary Differential Scene Understanding ( http://arxiv.org/abs/2001.04735v3 )

ライセンス: Link先を確認
Cong Yuren, Hanno Ackermann, Wentong Liao, Michael Ying Yang, and Bodo Rosenhahn(参考訳) セマンティック画像理解はコンピュータビジョンにおける課題である。 画像中のすべてのオブジェクトを検出するだけでなく、それらの関係を識別する必要がある。 検出されたオブジェクト、ラベル、発見された関係を利用して、画像の抽象的な意味解釈を提供するシーングラフを構築することができる。 前回の研究では、混合整数線形プログラムとして定式化された割当問題を解くことで関係が特定された。 本研究では、この定式化を正規微分方程式(ODE)と解釈する。 提案するアーキテクチャは、エンドツーエンド学習によってodeのニューラル変種を解いてシーングラフ推論を行う。 Visual Genomeベンチマークでは、シーングラフ生成(SGGen)、分類(SGCls)、視覚的関係検出(PredCls)という3つのベンチマークタスクで最先端の結果が得られている。

Semantic image understanding is a challenging topic in computer vision. It requires to detect all objects in an image, but also to identify all the relations between them. Detected objects, their labels and the discovered relations can be used to construct a scene graph which provides an abstract semantic interpretation of an image. In previous works, relations were identified by solving an assignment problem formulated as Mixed-Integer Linear Programs. In this work, we interpret that formulation as Ordinary Differential Equation (ODE). The proposed architecture performs scene graph inference by solving a neural variant of an ODE by end-to-end learning. It achieves state-of-the-art results on all three benchmark tasks: scene graph generation (SGGen), classification (SGCls) and visual relationship detection (PredCls) on Visual Genome benchmark.
翻訳日:2023-01-11 12:41:44 公開日:2020-07-18
# カメラによるバッチ正規化による人物再識別の分布ギャップの再考

Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization ( http://arxiv.org/abs/2001.08680v3 )

ライセンス: Link先を確認
Zijie Zhuang, Longhui Wei, Lingxi Xie, Tianyu Zhang, Hengheng Zhang, Haozhe Wu, Haizhou Ai, and Qi Tian(参考訳) 人物再識別(ReID)の根本的な困難は、個々のカメラ間の対応を学習することにある。 カメラ間アノテーションのコストは高いが、訓練されたモデルは、未使用のカメラによく転送されることは保証されていない。 これらの問題はReIDの適用を著しく制限している。 本稿では,従来のreidアプローチの動作機構を再考し,新しい解法を提案する。 カメラベースのバッチ正規化(CBN)と呼ばれる効果的な演算子を用いて、すべてのカメラのイメージデータを同じ部分空間に落下させ、任意のカメラペア間の分散ギャップが大部分が小さくなるようにする。 この調整は2つの利点をもたらす。 まず、トレーニングされたモデルは、未認識のカメラでシナリオを一般化し、複数のトレーニングセットを転送する能力が向上しています。 第2に、カメラ内アノテーションは、カメラ間情報の欠如により、これまで過小評価されてきたもので、競争力のあるreid性能を実現する。 幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/automan000/camera-based-person-reidで入手できる。

The fundamental difficulty in person re-identification (ReID) lies in learning the correspondence among individual cameras. It strongly demands costly inter-camera annotations, yet the trained models are not guaranteed to transfer well to previously unseen cameras. These problems significantly limit the application of ReID. This paper rethinks the working mechanism of conventional ReID approaches and puts forward a new solution. With an effective operator named Camera-based Batch Normalization (CBN), we force the image data of all cameras to fall onto the same subspace, so that the distribution gap between any camera pair is largely shrunk. This alignment brings two benefits. First, the trained model enjoys better abilities to generalize across scenarios with unseen cameras as well as transfer across multiple training sets. Second, we can rely on intra-camera annotations, which have been undervalued before due to the lack of cross-camera information, to achieve competitive ReID performance. Experiments on a wide range of ReID tasks demonstrate the effectiveness of our approach. The code is available at https://github.com/automan000/Camera-based-Person-ReID.
翻訳日:2023-01-07 13:15:04 公開日:2020-07-18
# Global Context Module を用いた高速ビデオオブジェクト分割

Fast Video Object Segmentation using the Global Context Module ( http://arxiv.org/abs/2001.11243v2 )

ライセンス: Link先を確認
Yu Li (1), Zhuoran Shen (2), Ying Shan (1) ((1) Tencent PCG Applied Research Center, (2) The University of Hong Kong)(参考訳) リアルタイムで高品質な半教師付きビデオオブジェクト分割アルゴリズムを開発した。 その正確さは、最も正確で時間を要するオンライン学習モデルに匹敵するが、その速度は、最も速いテンプレートマッチングメソッドと同等であり、最適精度を満たしている。 モデルのコアコンポーネントは、ビデオ全体を通して情報を効果的に要約し、伝達する、新しいグローバルなコンテキストモジュールである。 現在のフレームのセグメンテーションを導くために1フレームまたは数フレームのみを使用する以前のアプローチと比較すると、グローバルコンテキストモジュールは過去のフレームをすべて使用する。 時空間の各位置にメモリをキャッシュする以前の最先端の時空メモリネットワークとは異なり、グローバルコンテキストモジュールは固定サイズの特徴表現を使用する。 したがって、ビデオ長にかかわらず一定のメモリを使用し、メモリや計算コストを大幅に削減する。 新モジュールにより,本モデルは,標準ベンチマークにおける最高性能をリアルタイムに達成する。

We developed a real-time, high-quality semi-supervised video object segmentation algorithm. Its accuracy is on par with the most accurate, time-consuming online-learning model, while its speed is similar to the fastest template-matching method with sub-optimal accuracy. The core component of the model is a novel global context module that effectively summarizes and propagates information through the entire video. Compared to previous approaches that only use one frame or a few frames to guide the segmentation of the current frame, the global context module uses all past frames. Unlike the previous state-of-the-art space-time memory network that caches a memory at each spatio-temporal position, the global context module uses a fixed-size feature representation. Therefore, it uses constant memory regardless of the video length and costs substantially less memory and computation. With the novel module, our model achieves top performance on standard benchmarks at a real-time speed.
翻訳日:2023-01-05 12:20:04 公開日:2020-07-18
# 分散蒸留損失による硬質試料からの顔認識の改善

Improving Face Recognition from Hard Samples via Distribution Distillation Loss ( http://arxiv.org/abs/2002.03662v3 )

ライセンス: Link先を確認
Yuge Huang, Pengcheng Shen, Ying Tai, Shaoxin Li, Xiaoming Liu, Jilin Li, Feiyue Huang, Rongrong Ji(参考訳) 大きな顔のバリエーションが顔認識の主な課題である。 この目的のために、従来のバリエーション特化手法は特別なネットワーク損失を設計する前にタスク関連をフル活用するが、これは通常、異なるタスクやシナリオでは一般的ではない。 対照的に、既存のジェネリックメソッドでは、クラス間距離を最大化しながらクラス間距離を最小化するために特徴識別性の改善に重点を置いている。 そこで本研究では,これらの硬質試料の性能を向上させるため,簡易・硬質試料間の性能差を狭めるための分散蒸留損失法を提案する。 具体的には,まずarcfaceなどの最先端の分類器を用いて,簡単なサンプルからの教師分布とハードサンプルからの学生分布の2つの類似性分布を構築する。 そこで本研究では,生徒分布を制約し,教師分布を近似する新たな分布駆動損失を提案し,学生分布における正対と負対の重なりが小さくなった。 我々は,汎用的な大規模顔ベンチマークと,人種,解像度,ポーズの多種多様なベンチマークについて広範な実験を行った。 定量的な結果は,arcface や cosface など,強力なベースラインよりも優れていることを示す。

Large facial variations are the main challenge in face recognition. To this end, previous variation-specific methods make full use of task-related prior to design special network losses, which are typically not general among different tasks and scenarios. In contrast, the existing generic methods focus on improving the feature discriminability to minimize the intra-class distance while maximizing the interclass distance, which perform well on easy samples but fail on hard samples. To improve the performance on those hard samples for general tasks, we propose a novel Distribution Distillation Loss to narrow the performance gap between easy and hard samples, which is a simple, effective and generic for various types of facial variations. Specifically, we first adopt state-of-the-art classifiers such as ArcFace to construct two similarity distributions: teacher distribution from easy samples and student distribution from hard samples. Then, we propose a novel distribution-driven loss to constrain the student distribution to approximate the teacher distribution, which thus leads to smaller overlap between the positive and negative pairs in the student distribution. We have conducted extensive experiments on both generic large-scale face benchmarks and benchmarks with diverse variations on race, resolution and pose. The quantitative results demonstrate the superiority of our method over strong baselines, e.g., Arcface and Cosface.
翻訳日:2023-01-02 09:09:59 公開日:2020-07-18
# 視覚対話のための推測状態追跡

Guessing State Tracking for Visual Dialogue ( http://arxiv.org/abs/2002.10340v5 )

ライセンス: Link先を確認
Wei Pang, Xiaojie Wang(参考訳) 推理者は 視覚的な 接地作業なんだって!? 視覚対話のように 質問者とオラクルの間の質問応答ベースの対話を通じて、oracle自身によって想定されるイメージにターゲットオブジェクトを配置する。 既存の推測者は、事前に定義されたラウンド数との対話で全ての質問対を受け取った後に1つだけ推測する。 本稿では,推測者の推測状態を提案し,対話を通じて推測状態が変化する過程として推測を考察する。 そこで,状態追跡に基づく推定モデルを提案する。 推測状態は、画像内のオブジェクトの分布として定義される。 その際、2つの損失関数をモデルトレーニングの監督として定義する。 早期監督は早期のラウンドでGuesserに監督をもたらし、漸進的な監督は推測状態に単調性をもたらす。 Guessに関する実験結果。 データセットは、我々のモデルが以前のモデルを大幅に上回っており、新しい最先端技術を達成していることを示している。特に83.3%の予測成功率は、84.4%の人間レベルの精度に近づいている。

The Guesser is a task of visual grounding in GuessWhat?! like visual dialogue. It locates the target object in an image supposed by an Oracle oneself over a question-answer based dialogue between a Questioner and the Oracle. Most existing guessers make one and only one guess after receiving all question-answer pairs in a dialogue with the predefined number of rounds. This paper proposes a guessing state for the Guesser, and regards guess as a process with change of guessing state through a dialogue. A guessing state tracking based guess model is therefore proposed. The guessing state is defined as a distribution on objects in the image. With that in hand, two loss functions are defined as supervisions for model training. Early supervision brings supervision to Guesser at early rounds, and incremental supervision brings monotonicity to the guessing state. Experimental results on GuessWhat?! dataset show that our model significantly outperforms previous models, achieves new state-of-the-art, especially the success rate of guessing 83.3% is approaching the human-level accuracy of 84.4%.
翻訳日:2022-12-29 04:15:20 公開日:2020-07-18
# 大規模患者の階層化を解き放つための電子健康記録の深部表現学習

Deep Representation Learning of Electronic Health Records to Unlock Patient Stratification at Scale ( http://arxiv.org/abs/2003.06516v2 )

ライセンス: Link先を確認
Isotta Landi, Benjamin S. Glicksberg, Hao-Chih Lee, Sarah Cherng, Giulia Landi, Matteo Danieletto, Joel T. Dudley, Cesare Furlanello, and Riccardo Miotto(参考訳) 電子健康記録(EHR)から病気のサブタイプを抽出することは、次世代のパーソナライズド医療を導くことができる。 しかし、患者データの要約と表現の課題は、スケーラブルなEHRベースの成層解析の広範な実践を妨げる。 本稿では, 患者階層化を効果的かつ効果的に行える, 不均一なEHRを処理し, 患者表現を導出するための, 深層学習に基づく教師なしフレームワークを提案する。 臨床概念は57,464例の多彩な病院コホートから1,608,741例について検討した。 本稿では,単語埋め込み,畳み込みニューラルネットワーク,自動エンコーダ(ConvAE)に基づく表現学習モデルを導入し,患者軌道を低次元潜在ベクトルに変換する。 異なるマルチダイゼアーゼと疾患特異的患者コホートに階層的クラスタリングを適用することで,患者の階層化を広範に可能と評価した。 ConvAEはクラスタリングタスクにおいて,2.61エントロピーと0.31純度の平均スコアを持つ,異なる複雑な状態の患者を特定するために,いくつかのベースラインを著しく上回った。 特定の状態の中で患者を成層化するために適用された際、ConvAEは2型糖尿病、パーキンソン病、アルツハイマー病など、様々な疾患に関連のある様々なサブタイプを誘導した。 これらの結果から,ConvAEは臨床的に有意な洞察をもたらす患者表現を生成できることを示した。 このスケーラブルなフレームワークは、パーソナライズドメディカルの領域におけるEHRベースの研究のための、異種サブポピュレーションやアンロックパターンのさまざまなエチオロジーをよりよく理解するのに役立ちます。

Deriving disease subtypes from electronic health records (EHRs) can guide next-generation personalized medicine. However, challenges in summarizing and representing patient data prevent widespread practice of scalable EHR-based stratification analysis. Here we present an unsupervised framework based on deep learning to process heterogeneous EHRs and derive patient representations that can efficiently and effectively enable patient stratification at scale. We considered EHRs of 1,608,741 patients from a diverse hospital cohort comprising of a total of 57,464 clinical concepts. We introduce a representation learning model based on word embeddings, convolutional neural networks, and autoencoders (i.e., ConvAE) to transform patient trajectories into low-dimensional latent vectors. We evaluated these representations as broadly enabling patient stratification by applying hierarchical clustering to different multi-disease and disease-specific patient cohorts. ConvAE significantly outperformed several baselines in a clustering task to identify patients with different complex conditions, with 2.61 entropy and 0.31 purity average scores. When applied to stratify patients within a certain condition, ConvAE led to various clinically relevant subtypes for different disorders, including type 2 diabetes, Parkinson's disease and Alzheimer's disease, largely related to comorbidities, disease progression, and symptom severity. With these results, we demonstrate that ConvAE can generate patient representations that lead to clinically meaningful insights. This scalable framework can help better understand varying etiologies in heterogeneous sub-populations and unlock patterns for EHR-based research in the realm of personalized medicine.
翻訳日:2022-12-23 20:02:59 公開日:2020-07-18
# 新型コロナウイルスの脆弱性指数の構築

Building a COVID-19 Vulnerability Index ( http://arxiv.org/abs/2003.07347v3 )

ライセンス: Link先を確認
Dave DeCaprio, Joseph Gartner, Thadeus Burgess, Kristian Garcia, Sarthak Kothari, Shaayan Sayed, Carol J. McCall (FSA, MPH)(参考訳) 新型コロナウイルス(covid-19)は、世界保健機関(who)によってパンデミックに分類された急性呼吸器疾患である。 この病気の特徴は、まだ初期段階にある。 しかし、特に既往の医療疾患の患者の間では死亡率が高いことが知られている。 新型コロナウイルス(covid-19)による重篤な合併症のリスクが最も高い個人を特定するモデルを作成することは、この病気の最悪の影響を緩和するためのアウトリーチキャンペーンに役立つだろう。 新型コロナウイルスに関する情報は限られているが、他の上層呼吸器感染症による合併症を用いたモデルは、最もリスクの高い個人を特定するためのプロキシとして使用できる。 このような合併症を予測できる3つのモデルについて,実装の容易さを犠牲にして,各モデルが予測効率を向上することを示す。

COVID-19 is an acute respiratory disease that has been classified as a pandemic by the World Health Organization. Characterization of this disease is still in its early stages. However, it is known to have high mortality rates, particularly among individuals with preexisting medical conditions. Creating models to identify individuals who are at the greatest risk for severe complications due to COVID-19 will be useful for outreach campaigns to help mitigate the disease's worst effects. While information specific to COVID-19 is limited, a model using complications due to other upper respiratory infections can be used as a proxy to help identify those individuals who are at the greatest risk. We present the results for three models predicting such complications, with each model increasing predictive effectiveness at the expense of ease of implementation.
翻訳日:2022-12-23 03:51:04 公開日:2020-07-18
# 多方向3次元印刷における分解促進学習

Learning to Accelerate Decomposition for Multi-Directional 3D Printing ( http://arxiv.org/abs/2004.03450v3 )

ライセンス: Link先を確認
Chenming Wu, Yong-Jin Liu, Charlie C.L. Wang(参考訳) 多方向3dプリンティングは、支持構造の必要性を減少または排除する能力を持つ。 近年の研究では、ビーム誘導探索アルゴリズムにより、与えられた3次元モデルの体積分解を行う平面クリッピングの最適化シーケンスが提案されている。 異なる印刷方向が異なる地域で採用され、非常に少ないサポート(多くの場合、サポートなし)でモデルを作成する。 最適化された分解を得るためには、探索アルゴリズムで大きなビーム幅を使う必要があり、非常に時間を要する計算に繋がる。 そこで本研究では, ビーム幅を小さくすることで, ビーム誘導探索を高速化し, 同様の品質で結果を得る学習フレームワークを提案する。 具体的には,新たに提案する6つの特徴量に基づいて,ビーム幅が大きいビーム誘導探索の結果を用いて,候補クリッピング平面のスコア関数を学習する。 これらの特徴メトリクスの助けを借りて、電流とシーケンス依存の情報の両方をニューラルネットワークによってキャプチャして、クリップの候補を評価する。 その結果,計算速度が約3倍になることがわかった。 3Dプリンティングのための大規模なモデルデータセット上で、高速化された分解を試行する。

Multi-directional 3D printing has the capability of decreasing or eliminating the need for support structures. Recent work proposed a beam-guided search algorithm to find an optimized sequence of plane-clipping, which gives volume decomposition of a given 3D model. Different printing directions are employed in different regions to fabricate a model with tremendously less support (or even no support in many cases).To obtain optimized decomposition, a large beam width needs to be used in the search algorithm, leading to a very time-consuming computation. In this paper, we propose a learning framework that can accelerate the beam-guided search by using a smaller number of the original beam width to obtain results with similar quality. Specifically, we use the results of beam-guided search with large beam width to train a scoring function for candidate clipping planes based on six newly proposed feature metrics. With the help of these feature metrics, both the current and the sequence-dependent information are captured by the neural network to score candidates of clipping. As a result, we can achieve around 3x computational speed. We test and demonstrate our accelerated decomposition on a large dataset of models for 3D printing.
翻訳日:2022-12-22 22:07:07 公開日:2020-07-18
# ゼロショット分類のための潜在埋め込みフィードバックと識別特徴

Latent Embedding Feedback and Discriminative Features for Zero-Shot Classification ( http://arxiv.org/abs/2003.07833v2 )

ライセンス: Link先を確認
Sanath Narayan, Akshita Gupta, Fahad Shahbaz Khan, Cees G. M. Snoek, Ling Shao(参考訳) ゼロショット学習は、トレーニング中にデータが入手できない、見えないカテゴリを分類する試みである。 一般化された変種では、テストサンプルはさらに観察または未発見のカテゴリに属することができる。 State-of-the-artは、クラス固有のセマンティック埋め込みを活用することで、目に見えないクラス機能を合成するGenerative Adversarial Networksに依存している。 トレーニング中に意味的に一貫した特徴を生成するが、特徴合成と分類の間にこの制約を捨てる。 我々は,ゼロショット学習(訓練,特徴合成,分類)のすべての段階において,意味的一貫性を強制することを提案する。 まず,学習段階と特徴合成段階の両方において生成した機能を反復的に洗練する,意味埋め込みデコーダからのフィードバックループを導入する。 合成された特徴をデコーダからの潜在埋め込みと共に識別的特徴に変換し、分類中にカテゴリ間の曖昧さを減らすために利用する。 一般的な)ゼロショットオブジェクトとアクション分類の実験では、セマンティック一貫性と反復フィードバックの利点が示され、6つのゼロショット学習ベンチマークで既存の手法よりも優れている。 ソースコードはhttps://github.com/akshitac8/tfvaegan。

Zero-shot learning strives to classify unseen categories for which no data is available during training. In the generalized variant, the test samples can further belong to seen or unseen categories. The state-of-the-art relies on Generative Adversarial Networks that synthesize unseen class features by leveraging class-specific semantic embeddings. During training, they generate semantically consistent features, but discard this constraint during feature synthesis and classification. We propose to enforce semantic consistency at all stages of (generalized) zero-shot learning: training, feature synthesis and classification. We first introduce a feedback loop, from a semantic embedding decoder, that iteratively refines the generated features during both the training and feature synthesis stages. The synthesized features together with their corresponding latent embeddings from the decoder are then transformed into discriminative features and utilized during classification to reduce ambiguities among categories. Experiments on (generalized) zero-shot object and action classification reveal the benefit of semantic consistency and iterative feedback, outperforming existing methods on six zero-shot learning benchmarks. Source code at https://github.com/akshitac8/tfvaegan.
翻訳日:2022-12-22 21:41:55 公開日:2020-07-18
# ビデオコローカライゼーションのための複数キューの出現融合

Appearance Fusion of Multiple Cues for Video Co-localization ( http://arxiv.org/abs/2003.09556v2 )

ライセンス: Link先を確認
Koteswar Rao Jerripothula(参考訳) 本研究は、複数のオブジェクト関連キューを活用しながら、ビデオのジョイントオブジェクト発見問題に対処する。 従来の空間融合法とは対照的に,新しい外観融合法が提案されている。 具体的には,複数のキューから得られた異なるGMMを1つのGMMに効果的に融合するプロセスを提案する。 融合戦略とほとんど同じですが、このアプローチにはガイダンスも必要です。 提案手法は, 信頼性とコンセンサス現象に依拠している。 事例研究として,提案手法を提案するために「ビデオ共局在化」オブジェクト発見問題を追求する。 youtube objects と youtube co-localization データセットを用いた実験により,提案手法が空間的融合戦略と現状ビデオ共局在法の両方に対して明らかに有利であることを証明した。

This work addresses the joint object discovery problem in videos while utilizing multiple object-related cues. In contrast to the usual spatial fusion approach, a novel appearance fusion approach is presented here. Specifically, this paper proposes an effective fusion process of different GMMs derived from multiple cues into one GMM. Much the same as any fusion strategy, this approach also needs some guidance. The proposed method relies on reliability and consensus phenomenon for guidance. As a case study, we pursue the "video co-localization" object discovery problem to propose our methodology. Our experiments on YouTube Objects and YouTube Co-localization datasets demonstrate that the proposed method of appearance fusion undoubtedly has an advantage over both the spatial fusion strategy and the current state-of-the-art video co-localization methods.
翻訳日:2022-12-21 13:17:09 公開日:2020-07-18
# それは旅ではなく目的地です:エンドポイント条件付き軌道予測

It Is Not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction ( http://arxiv.org/abs/2004.02025v3 )

ライセンス: Link先を確認
Karttikeya Mangalam, Harshayu Girase, Shreyas Agarwal, Kuan-Hui Lee, Ehsan Adeli, Jitendra Malik, Adrien Gaidon(参考訳) 複数の社会的相互作用を持つエージェントによる人間の軌道予測は、自動運転車や社会ロボットなど、人間の環境における自律的なナビゲーションにおいて重要である。 本研究では,人間軌道予測のための予測終点条件付きネットワーク(PECNet)を提案する。 PECNetは長距離多モード軌道予測を支援するために遠方軌道終端を推定する。 新たな非局所的なソーシャルプーリング層により、PECNetは多様なが社会的に適合する軌道を推測することができる。 さらに,単発マルチモーダル軌道予測性能を向上させるための簡易な"分岐トリック"を提案する。 我々は、PECNetがスタンフォードドローン軌道予測ベンチマークの最先端性能を約20.9%改善し、ETH/UCYベンチマークの約40.8%向上したことを示す。 プロジェクトホームページ: https://karttikeya.github.io/publication/htf/

Human trajectory forecasting with multiple socially interacting agents is of critical importance for autonomous navigation in human environments, e.g., for self-driving cars and social robots. In this work, we present Predicted Endpoint Conditioned Network (PECNet) for flexible human trajectory prediction. PECNet infers distant trajectory endpoints to assist in long-range multi-modal trajectory prediction. A novel non-local social pooling layer enables PECNet to infer diverse yet socially compliant trajectories. Additionally, we present a simple "truncation-trick" for improving few-shot multi-modal trajectory prediction performance. We show that PECNet improves state-of-the-art performance on the Stanford Drone trajectory prediction benchmark by ~20.9% and on the ETH/UCY benchmark by ~40.8%. Project homepage: https://karttikeya.github.io/publication/htf/
翻訳日:2022-12-16 22:43:00 公開日:2020-07-18
# 改良されたグラフ学習-畳み込みネットワークを用いた文書からのキー情報抽出

PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks ( http://arxiv.org/abs/2004.07464v3 )

ライセンス: Link先を確認
Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, Rong Xiao(参考訳) 最先端のディープラーニングモデルを用いたコンピュータビジョンは,近年,テキスト検出や認識タスクを含む光学文字認識(OCR)分野において大きな成功を収めている。 しかし、OCRのダウンストリームタスクとしての文書からのキー情報抽出(KIE)は、OCRシステムから抽出されたテキストの特徴を持つだけでなく、完全に活用されていない意味的な視覚的特徴を持ち、KIEにおいて重要な役割を担っているため、依然として課題である。 文書のテキスト的特徴と視覚的特徴の両面を効果的に活用する作業はほとんど行われていない。 本稿では,グラフ学習とグラフ畳み込み操作を組み合わせることで,KIEの複雑な文書レイアウトを効果的かつ堅牢に扱えるフレームワークPICKを紹介する。 実世界のデータセットに対する大規模な実験により,本手法がベースライン法を著しく上回ることを示す。 私たちのコードはhttps://github.com/wenwenyu/pick-pytorchで利用可能です。

Computer vision with state-of-the-art deep learning models has achieved huge success in the field of Optical Character Recognition (OCR) including text detection and recognition tasks recently. However, Key Information Extraction (KIE) from documents as the downstream task of OCR, having a large number of use scenarios in real-world, remains a challenge because documents not only have textual features extracting from OCR systems but also have semantic visual features that are not fully exploited and play a critical role in KIE. Too little work has been devoted to efficiently make full use of both textual and visual features of the documents. In this paper, we introduce PICK, a framework that is effective and robust in handling complex documents layout for KIE by combining graph learning with graph convolution operation, yielding a richer semantic representation containing the textual and visual features and global layout without ambiguity. Extensive experiments on real-world datasets have been conducted to show that our method outperforms baselines methods by significant margins. Our code is available at https://github.com/wenwenyu/PICK-pytorch.
翻訳日:2022-12-12 21:36:38 公開日:2020-07-18
# Fashionpedia:オントロジー、セグメンテーション、属性ローカライゼーションデータセット

Fashionpedia: Ontology, Segmentation, and an Attribute Localization Dataset ( http://arxiv.org/abs/2004.12276v2 )

ライセンス: Link先を確認
Menglin Jia, Mengyun Shi, Mikhail Sirotenko, Yin Cui, Claire Cardie, Bharath Hariharan, Hartwig Adam, Serge Belongie(参考訳) この作業では、インスタンスのセグメンテーション(各オブジェクトインスタンスの検出とセグメンテーション)と、きめ細かいビジュアル属性の分類(1つまたは複数の属性を認識する)を統合する属性のローカライゼーションによるインスタンスセグメンテーションのタスクを探求する。 提案するタスクはオブジェクトのローカライズとプロパティの記述の両方を必要とする。 この課題のさまざまな側面を説明するために、ファッション分野に注目し、ファッション世界の視覚的側面をマッピングするステップとしてFashionpediaを紹介します。 ファッションペディアは,(1)27のアパレルカテゴリ,19のアパレル部分,294の細かな属性とそれらの関係を含むファッション専門家によるオントロジー,(2)セグメンテーションマスクと関連するマスク毎の細かな属性を付記した,日常および有名人のイベントファッションイメージのデータセット,の2つの部分からなる。 この課題を解決するために,インスタンス分割と局所化属性認識を共同で行う新しい属性・マスクRCNNモデルを提案し,そのタスクに対する新しい評価基準を提供する。 fashionpediaで事前トレーニングされたインスタンスセグメンテーションモデルも,imagenetの事前トレーニングよりも,他のファッションデータセットでの転送学習性能が向上することを示す。 fashionpediaは、https://fashionpedia.github.io/home/index.htmlで入手できる。

In this work we explore the task of instance segmentation with attribute localization, which unifies instance segmentation (detect and segment each object instance) and fine-grained visual attribute categorization (recognize one or multiple attributes). The proposed task requires both localizing an object and describing its properties. To illustrate the various aspects of this task, we focus on the domain of fashion and introduce Fashionpedia as a step toward mapping out the visual aspects of the fashion world. Fashionpedia consists of two parts: (1) an ontology built by fashion experts containing 27 main apparel categories, 19 apparel parts, 294 fine-grained attributes and their relationships; (2) a dataset with everyday and celebrity event fashion images annotated with segmentation masks and their associated per-mask fine-grained attributes, built upon the Fashionpedia ontology. In order to solve this challenging task, we propose a novel Attribute-Mask RCNN model to jointly perform instance segmentation and localized attribute recognition, and provide a novel evaluation metric for the task. We also demonstrate instance segmentation models pre-trained on Fashionpedia achieve better transfer learning performance on other fashion datasets than ImageNet pre-training. Fashionpedia is available at: https://fashionpedia.github.io/home/index.html.
翻訳日:2022-12-09 13:17:54 公開日:2020-07-18
# 舞台裏:事前訓練された視覚言語モデルの秘密を明らかにする

Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models ( http://arxiv.org/abs/2005.07310v2 )

ライセンス: Link先を確認
Jize Cao, Zhe Gan, Yu Cheng, Licheng Yu, Yen-Chun Chen and Jingjing Liu(参考訳) 最近のトランスフォーマーベースの大規模事前学習モデルが視覚言語研究(v+l)に革命をもたらした。 ViLBERT、LXMERT、UNITERといったモデルでは、共同画像テキストによる事前トレーニングを備えた広範囲なV+Lベンチマークにおいて、技術の現状が大幅に向上している。 しかし、その印象的な成功を阻害する内部機構についてはほとんど知られていない。 To reveal the secrets behind the scene of these powerful models, we present VALUE (Vision-And-Language Understanding Evaluation), a set of meticulously designed probing tasks (e.g., Visual Coreference Resolution, Visual Relation Detection, Linguistic Probing Tasks) generalizable to standard pre-trained V+L models, aiming to decipher the inner workings of multimodal pre-training (e.g., the implicit knowledge garnered in individual attention heads, the inherent cross-modal alignment learned through contextualized multimodal embeddings). これらの探索タスクを通じて、各アーチティパルモデルアーキテクチャの広範な分析を通じて、我々の重要な観察は以下のとおりである。 (i)事前学習されたモデルでは、推論中の画像ではなく、テキストで参加する傾向を示す。 (ii)クロスモーダル相互作用を捉えるために調整されたアテンションヘッドのサブセットが存在する。 (iii)事前学習モデルにおける学習注意行列は、画像領域とテキスト単語間の潜在的アライメントと一致するパターンを示す。 (4)注意パターンは画像領域間で視覚的に解釈可能な関係を示す。 (v)純粋言語知識は、注意ヘッドにおいても効果的に符号化される。 これらは、よりよいモデルアーキテクチャの設計とマルチモーダル事前トレーニングの目的に向けた今後の取り組みを導く上で役立つ貴重な洞察である。

Recent Transformer-based large-scale pre-trained models have revolutionized vision-and-language (V+L) research. Models such as ViLBERT, LXMERT and UNITER have significantly lifted state of the art across a wide range of V+L benchmarks with joint image-text pre-training. However, little is known about the inner mechanisms that destine their impressive success. To reveal the secrets behind the scene of these powerful models, we present VALUE (Vision-And-Language Understanding Evaluation), a set of meticulously designed probing tasks (e.g., Visual Coreference Resolution, Visual Relation Detection, Linguistic Probing Tasks) generalizable to standard pre-trained V+L models, aiming to decipher the inner workings of multimodal pre-training (e.g., the implicit knowledge garnered in individual attention heads, the inherent cross-modal alignment learned through contextualized multimodal embeddings). Through extensive analysis of each archetypal model architecture via these probing tasks, our key observations are: (i) Pre-trained models exhibit a propensity for attending over text rather than images during inference. (ii) There exists a subset of attention heads that are tailored for capturing cross-modal interactions. (iii) Learned attention matrix in pre-trained models demonstrates patterns coherent with the latent alignment between image regions and textual words. (iv) Plotted attention patterns reveal visually-interpretable relations among image regions. (v) Pure linguistic knowledge is also effectively encoded in the attention heads. These are valuable insights serving to guide future work towards designing better model architecture and objectives for multimodal pre-training.
翻訳日:2022-12-02 22:25:22 公開日:2020-07-18
# SemEval-2020 Task 4におけるCS-NLPチーム:Commonsense Reasoning Taskにおける最先端NLPディープラーニングアーキテクチャの評価

CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP Deep Learning Architectures on Commonsense Reasoning Task ( http://arxiv.org/abs/2006.01205v2 )

ライセンス: Link先を確認
Sirwe Saeedi, Aliakbar Panahi, Seyran Saeedi, Alvis C Fong(参考訳) 本稿では,自然言語理解と常識推論を統合する共通意味推論タスクについて検討する。 本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。 この課題に対して,最先端のディープラーニングアーキテクチャについて論じる。 本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。 最初のサブタスクの目標は、モデルが意味のある自然言語ステートメントと意味のないステートメントを区別できるかどうかをテストすることである。 いくつかの言語モデルと微調整分類器の性能を比較する。 そこで本研究では,質問/回答課題に触発され,分類問題を複数の選択質問課題として扱い,実験結果(96.06%)の性能を向上させる手法を提案する。 第2のサブタスクは、ステートメントが意味をなさない理由を選択することで、27人の参加者のうち最初の6チーム(93.7%)で非常に競争的な結果が得られます。 本研究は,4チームのうち6.1732 BLEUスコアが最強である言語生成モデル(GPT-2)を適用した結果,今後の研究の可能性を示すものである。

In this paper, we investigate a commonsense inference task that unifies natural language understanding and commonsense reasoning. We describe our attempt at SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) challenge. We discuss several state-of-the-art deep learning architectures for this challenge. Our system uses prepared labeled textual datasets that were manually curated for three different natural language inference subtasks. The goal of the first subtask is to test whether a model can distinguish between natural language statements that make sense and those that do not make sense. We compare the performance of several language models and fine-tuned classifiers. Then, we propose a method inspired by question/answering tasks to treat a classification problem as a multiple choice question task to boost the performance of our experimental results (96.06%), which is significantly better than the baseline. For the second subtask, which is to select the reason why a statement does not make sense, we stand within the first six teams (93.7%) among 27 participants with very competitive results. Our result for last subtask of generating reason against the nonsense statement shows many potentials for future researches as we applied the most powerful generative model of language (GPT-2) with 6.1732 BLEU score among first four teams.
翻訳日:2022-12-02 05:34:51 公開日:2020-07-18
# 教師なしオンライン学習によるロボットの面白さの視覚的記憶力

Visual Memorability for Robotic Interestingness via Unsupervised Online Learning ( http://arxiv.org/abs/2005.08829v3 )

ライセンス: Link先を確認
Chen Wang, Wenshan Wang, Yuheng Qiu, Yafei Hu, and Sebastian Scherer(参考訳) 本稿では,移動ロボットにおける興味深いシーン予測の問題について検討する。 この領域は現在未調査だが、自律探査や意思決定など、多くの実用的な用途に不可欠である。 産業的な要求に触発されて,まず興味あるシーンを想起し識別するための新しい翻訳不変視覚メモリを提案し,その後,長期学習,短期学習,オンライン学習の3段階アーキテクチャを設計した。 これにより,人間の体験,環境知識,オンライン適応を学習することができる。 提案手法は,ロボットの興味深いデータセットに対する最先端アルゴリズムよりもはるかに精度が高い。

In this paper, we explore the problem of interesting scene prediction for mobile robots. This area is currently underexplored but is crucial for many practical applications such as autonomous exploration and decision making. Inspired by industrial demands, we first propose a novel translation-invariant visual memory for recalling and identifying interesting scenes, then design a three-stage architecture of long-term, short-term, and online learning. This enables our system to learn human-like experience, environmental knowledge, and online adaption, respectively. Our approach achieves much higher accuracy than the state-of-the-art algorithms on challenging robotic interestingness datasets.
翻訳日:2022-12-02 00:26:12 公開日:2020-07-18
# スロータイムスケールダイナミクスのスパース同定

Sparse Identification of Slow Timescale Dynamics ( http://arxiv.org/abs/2006.00940v2 )

ライセンス: Link先を確認
Jason J. Bramburger, Daniel Dylewsky, and J. Nathan Kutz(参考訳) 複数の異なる時間スケールで進化するマルチスケール現象は、科学全体で広く見られる。 持続的および概周期的速スケールの制御方程式が定式化されることが多いが、創発的な緩やかなスケールの進化は未知である。 しかし、コースのきめ細かい、遅いスケールのダイナミクスは、しばしば実践の最も大きな関心事です。 本研究では,複数の時間スケールを示す信号から,時間スケールの遅いダイナミクスを抽出する,高精度かつ効率的な手法を提案する。 この手法は、動的モード分解とともにクラスタリング技術を用いて検出される高速時間スケールの周期によって与えられる長さの等間隔での信号の追跡に依存する。 スパース回帰技術は、あるデータポイントから次のデータポイントへのイテレーションを記述するマッピングを見つけるために使われる。 時間スケールが十分に異なる場合、このマッピングは連続時間の遅いダイナミクスを発見するために利用でき、複数の時間スケール上で動的に抽出する新しいツールを提供する。

Multiscale phenomena that evolve on multiple distinct timescales are prevalent throughout the sciences. It is often the case that the governing equations of the persistent and approximately periodic fast scales are prescribed, while the emergent slow scale evolution is unknown. Yet the course-grained, slow scale dynamics is often of greatest interest in practice. In this work we present an accurate and efficient method for extracting the slow timescale dynamics from signals exhibiting multiple timescales that are amenable to averaging. The method relies on tracking the signal at evenly-spaced intervals with length given by the period of the fast timescale, which is discovered using clustering techniques in conjunction with the dynamic mode decomposition. Sparse regression techniques are then used to discover a mapping which describes iterations from one data point to the next. We show that for sufficiently disparate timescales this discovered mapping can be used to discover the continuous-time slow dynamics, thus providing a novel tool for extracting dynamics on multiple timescales.
翻訳日:2022-11-26 07:50:52 公開日:2020-07-18
# 高次元差分プライベート推定器の設計

Designing Differentially Private Estimators in High Dimensions ( http://arxiv.org/abs/2006.01944v3 )

ライセンス: Link先を確認
Aditya Dhar, Jason Huang(参考訳) 高次元環境下での個人平均推定について検討する。 大きな次元に適用される既存の差分プライバシー技術は、計算に難解な問題や過度のプライバシー損失を伴う推定子につながる。 高次元ロバスト統計学における最近の研究で、漸近次元非依存な誤り保証を持つ計算可能な平均推定アルゴリズムが特定されている。 これらの結果を取り込んで,ロバスト平均推定器のグローバル感度に厳格な拘束力を与える。 これにより、次元非依存なプライバシー損失を伴う高次元の微分プライベート平均推定のための計算可能なアルゴリズムが得られる。 最後に,本アルゴリズムが従来の差分プライバシー法を著しく上回り,高次元差分プライバシーの障壁を克服することを示す。

We study differentially private mean estimation in a high-dimensional setting. Existing differential privacy techniques applied to large dimensions lead to computationally intractable problems or estimators with excessive privacy loss. Recent work in high-dimensional robust statistics has identified computationally tractable mean estimation algorithms with asymptotic dimension-independent error guarantees. We incorporate these results to develop a strict bound on the global sensitivity of the robust mean estimator. This yields a computationally tractable algorithm for differentially private mean estimation in high dimensions with dimension-independent privacy loss. Finally, we show on synthetic data that our algorithm significantly outperforms classic differential privacy methods, overcoming barriers to high-dimensional differential privacy.
翻訳日:2022-11-26 00:13:06 公開日:2020-07-18
# 自己スーパービジョンはいつグラフ畳み込みネットワークに役立つか?

When Does Self-Supervision Help Graph Convolutional Networks? ( http://arxiv.org/abs/2006.09136v4 )

ライセンス: Link先を確認
Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen(参考訳) 自己スーパービジョンは、画像のより転送可能で一般化可能で堅牢な表現学習のために、畳み込みニューラルネットワーク(CNN)を訓練するために採用されている。 しかし、グラフデータ上で動作するグラフ畳み込みネットワーク(GCN)の導入はまれである。 本研究では,gcnsに自己スーパービジョンを組み込んだ最初の体系的探索と評価について報告する。 まず, 自己超越をGCNに組み込む3つのメカニズムを詳しく検討し, 事前学習, 微調整, 自己学習の限界を分析し, マルチタスク学習に注力する。 さらに,理論的な根拠と数値比較によるgcnsの自己教師あり学習タスクを3つ検討する。 最後に,マルチタスクの自己スーパービジョンをグラフの敵対的トレーニングに統合する。 以上の結果から, タスク形式と組込み機構を適切に設計することで, 自己スーパービジョンにより, 汎用性とロバスト性が向上する可能性が示唆された。 私たちのコードはhttps://github.com/Shen-Lab/SS-GCNsで利用可能です。

Self-supervision as an emerging technique has been employed to train convolutional neural networks (CNNs) for more transferrable, generalizable, and robust representation learning of images. Its introduction to graph convolutional networks (GCNs) operating on graph data is however rarely explored. In this study, we report the first systematic exploration and assessment of incorporating self-supervision into GCNs. We first elaborate three mechanisms to incorporate self-supervision into GCNs, analyze the limitations of pretraining & finetuning and self-training, and proceed to focus on multi-task learning. Moreover, we propose to investigate three novel self-supervised learning tasks for GCNs with theoretical rationales and numerical comparisons. Lastly, we further integrate multi-task self-supervision into graph adversarial training. Our results show that, with properly designed task forms and incorporation mechanisms, self-supervision benefits GCNs in gaining more generalizability and robustness. Our codes are available at https://github.com/Shen-Lab/SS-GCNs.
翻訳日:2022-11-20 19:27:24 公開日:2020-07-18
# ロバストなシーングラフ生成のためのvisual commonsenseの学習

Learning Visual Commonsense for Robust Scene Graph Generation ( http://arxiv.org/abs/2006.09623v2 )

ライセンス: Link先を確認
Alireza Zareian and Zhecan Wang and Haoxuan You and Shih-Fu Chang(参考訳) シーングラフ生成モデルは、対象と述語認識を通じてシーンを理解するが、野生の知覚の課題のために誤りを生じやすい。 知覚誤差はしばしば、実世界の規則やパターンに従わず、常識的な知識を使って修正できる出力シーングラフの非感覚的な構成に繋がる。 そこで本研究では,データから手頃さや直感的物理学などの視覚常識を自動取得する最初の手法を提案し,それを用いてシーン理解の堅牢性を向上させる。 この目的のために、Transformerモデルを拡張してシーングラフの構造を取り入れ、シーングラフコーパス上でグローバルローカルアテンショントランスをトレーニングする。 トレーニングをすれば、私たちのモデルは任意のシーングラフ生成モデルに適用でき、明らかな間違いを修正できます。 大規模な実験を通じて,我々のモデルはどの手法よりも常識を学習し,最先端のシーングラフ生成手法の精度を向上させる。

Scene graph generation models understand the scene through object and predicate recognition, but are prone to mistakes due to the challenges of perception in the wild. Perception errors often lead to nonsensical compositions in the output scene graph, which do not follow real-world rules and patterns, and can be corrected using commonsense knowledge. We propose the first method to acquire visual commonsense such as affordance and intuitive physics automatically from data, and use that to improve the robustness of scene understanding. To this end, we extend Transformer models to incorporate the structure of scene graphs, and train our Global-Local Attention Transformer on a scene graph corpus. Once trained, our model can be applied on any scene graph generation model and correct its obvious mistakes, resulting in more semantically plausible scene graphs. Through extensive experiments, we show our model learns commonsense better than any alternative, and improves the accuracy of state-of-the-art scene graph generation methods.
翻訳日:2022-11-19 19:59:51 公開日:2020-07-18
# MSA-MIL: 糸球体スパイクの分類と可視化のためのマルチスケールアノテーションに基づく残差多重インスタンス学習モデル

MSA-MIL: A deep residual multiple instance learning model based on multi-scale annotation for classification and visualization of glomerular spikes ( http://arxiv.org/abs/2007.00858v2 )

ライセンス: Link先を確認
Yilin Chen, Ming Li, Yongfei Wu, Xueyu Liu, Fang Hao, Daoxiang Zhou, Xiaoshuang Zhou and Chen Wang(参考訳) 膜性腎症 (Membranous Nephropathy, MN) は成人腎症症候群の一種であり, 発症頻度が高く, 合併症も様々である。 膜性腎症の生検顕微鏡スライドでは, 糸球体基底膜上のスパイク状突起がmnの著明な特徴である。 しかし,全生検スライドには糸球体が多く,各糸球体には多数のスパイク病変があるため,スパイクの病理的特徴は明らかでない。 したがって、医師が糸球体を1つずつ診断するのに時間がかかり、診断経験の少ない病理医にとっては困難である。 本稿では,マルチスケールアノテーションマルチインスタンス学習(MSA-MIL)に基づく可視化分類モデルを構築し,球状分類とスパイクス可視化を実現する。 MSA-MILモデルは主に3部構成である。 第一に、u-netは糸球体の領域を抽出するために使われ、後続のアルゴリズムによって学習された特徴が糸球体内部に集中することを保証する。 第2に、MILを用いて、MSA法と組み合わせたインスタンスレベルの分類器をトレーニングし、位置レベルのラベル付き強化データセットを追加してネットワークの学習能力を高めることにより、リッチセマンティクスによるサンプルレベルの特徴表現を得る。 最後に、画像内の各タイルの予測スコアを要約し、スライディングウインドウ法を用いてスパイクの分類結果の糸球体分類および可視化を行う。 実験の結果,msa-milモデルは正常糸球体とスパイク糸球体を効果的かつ正確に分類し,糸球体におけるスパイクの位置を可視化できることが確認された。 そこで本提案モデルは,糸球体膜腎症を診断するために臨床医師を支援するための優れた基盤を提供することができる。

Membranous nephropathy (MN) is a frequent type of adult nephrotic syndrome, which has a high clinical incidence and can cause various complications. In the biopsy microscope slide of membranous nephropathy, spikelike projections on the glomerular basement membrane is a prominent feature of the MN. However, due to the whole biopsy slide contains large number of glomeruli, and each glomerulus includes many spike lesions, the pathological feature of the spikes is not obvious. It thus is time-consuming for doctors to diagnose glomerulus one by one and is difficult for pathologists with less experience to diagnose. In this paper, we establish a visualized classification model based on the multi-scale annotation multi-instance learning (MSA-MIL) to achieve glomerular classification and spikes visualization. The MSA-MIL model mainly involves three parts. Firstly, U-Net is used to extract the region of the glomeruli to ensure that the features learned by the succeeding algorithm are focused inside the glomeruli itself. Secondly, we use MIL to train an instance-level classifier combined with MSA method to enhance the learning ability of the network by adding a location-level labeled reinforced dataset, thereby obtaining an example-level feature representation with rich semantics. Lastly, the predicted scores of each tile in the image are summarized to obtain glomerular classification and visualization of the classification results of the spikes via the usage of sliding window method. The experimental results confirm that the proposed MSA-MIL model can effectively and accurately classify normal glomeruli and spiked glomerulus and visualize the position of spikes in the glomerulus. Therefore, the proposed model can provide a good foundation for assisting the clinical doctors to diagnose the glomerular membranous nephropathy.
翻訳日:2022-11-14 14:53:45 公開日:2020-07-18
# サーロゲートタスクの自己学習による半教師付き群衆数

Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks ( http://arxiv.org/abs/2007.03207v2 )

ライセンス: Link先を確認
Yan Liu, Lingqiao Liu, Peng Wang, Pingping Zhang, and Yinjie Lei(参考訳) 既存のクラウドカウントシステムのほとんどは、取得にコストがかかるオブジェクトロケーションアノテーションの可用性に依存している。 アノテーションのコストを下げるために、多くのラベルのない画像を活用して、半教師付きで群衆カウントモデルを構築するという、魅力的な解決策がある。 本稿では,特徴学習の観点から,半教師あり群数問題に取り組む。 私たちのキーとなるアイデアは、未ラベルの画像を利用して、群衆カウンターのネットワーク全体ではなく、一般的な特徴抽出器を訓練することです。 この設計の理論的根拠は、特徴抽出器の学習が、ラベルなしデータから生じる避けられない騒音の監視に向けて、より信頼性が高く、堅牢であることである。 また、優れた特徴抽出器の上に、密度マップアノテーションをはるかに少なくした密度マップ回帰器を構築することもできる。 具体的には,(1)関係する二分節タスクの集合が,元の密度マップ回帰タスクからサロゲート予測対象として導出されること,(2)ラベル付きデータとラベルなしデータの両方から,これらの二分節タスクの根底にある制約をフル活用した自己学習方式を用いて代理対象予測器を学習すること,の2つの革新的要素に基づく,新しい半教師付き群集カウント手法を提案する。 実験により,提案手法は既存の半教師付き群集カウント法および他の代表的ベースラインよりも優れていることを示す。

Most existing crowd counting systems rely on the availability of the object location annotation which can be expensive to obtain. To reduce the annotation cost, one attractive solution is to leverage a large number of unlabeled images to build a crowd counting model in semi-supervised fashion. This paper tackles the semi-supervised crowd counting problem from the perspective of feature learning. Our key idea is to leverage the unlabeled images to train a generic feature extractor rather than the entire network of a crowd counter. The rationale of this design is that learning the feature extractor can be more reliable and robust towards the inevitable noisy supervision generated from the unlabeled data. Also, on top of a good feature extractor, it is possible to build a density map regressor with much fewer density map annotations. Specifically, we proposed a novel semi-supervised crowd counting method which is built upon two innovative components: (1) a set of inter-related binary segmentation tasks are derived from the original density map regression task as the surrogate prediction target; (2) the surrogate target predictors are learned from both labeled and unlabeled data by utilizing a proposed self-training scheme which fully exploits the underlying constraints of these binary segmentation tasks. Through experiments, we show that the proposed method is superior over the existing semisupervised crowd counting method and other representative baselines.
翻訳日:2022-11-12 19:50:11 公開日:2020-07-18
# モデル間転送性を維持しつつ, 逆例のノルムを低減した局所画像摂動

Regional Image Perturbation Reduces $L_p$ Norms of Adversarial Examples While Maintaining Model-to-model Transferability ( http://arxiv.org/abs/2007.03198v2 )

ライセンス: Link先を確認
Utku Ozbulak, Jonathan Peck, Wesley De Neve, Bart Goossens, Yvan Saeys and Arnout Van Messem(参考訳) 地域敵対攻撃は、しばしば敵の摂動を発生させる複雑な方法に依存しており、その効果をよく知られた攻撃と比較することは困難である。 本研究では,複雑な手法を使わずに効果的に局所摂動を発生できることを示す。 直交エントロピー符号を用いた極めて単純な対向的摂動攻撃法を開発し, 対向機械学習において最もよく用いられる損失の1つである。 複数のモデルを用いたImageNet実験の結果, 摂動が局所的な画像領域に適用された場合, 生成した逆数例のうち平均7, 6 % がモデル間転送性を維持していることがわかった。 選択された領域によっては、これらの局所化された対数例は、非局所的対数よりもかなり少ない$L_p$ノルム歪み($p \in \{0, 2, \infty\}$)を必要とする。 これらの局所攻撃は、上記の規範の下で堅牢性を主張する防衛を弱める可能性がある。

Regional adversarial attacks often rely on complicated methods for generating adversarial perturbations, making it hard to compare their efficacy against well-known attacks. In this study, we show that effective regional perturbations can be generated without resorting to complex methods. We develop a very simple regional adversarial perturbation attack method using cross-entropy sign, one of the most commonly used losses in adversarial machine learning. Our experiments on ImageNet with multiple models reveal that, on average, $76\%$ of the generated adversarial examples maintain model-to-model transferability when the perturbation is applied to local image regions. Depending on the selected region, these localized adversarial examples require significantly less $L_p$ norm distortion (for $p \in \{0, 2, \infty\}$) compared to their non-local counterparts. These localized attacks therefore have the potential to undermine defenses that claim robustness under the aforementioned norms.
翻訳日:2022-11-12 18:31:32 公開日:2020-07-18
# DeepHAZMAT: 制限された計算資源による有害物質の検出とセグメンテーション

DeepHAZMAT: Hazardous Materials Sign Detection and Segmentation with Restricted Computational Resources ( http://arxiv.org/abs/2007.06392v2 )

ライセンス: Link先を確認
Amir Sharifi, Ahmadreza Zibaei, Mahdi Rezaei(参考訳) ロボットによる救助活動における最も困難かつ非自明な作業の1つは、さらなる予期せぬ災害を防止するため、作業現場における危険物質またはハズマットサイン検出である。 それぞれのhazmatサインは、救助ロボットが安全な行動を取るためにそれを検出し解釈すべき特定の意味を持っている。 正確なハズマット検出とリアルタイム処理は、ロボット工学の応用において最も重要な2つの要素である。 さらに,救難ロボットに埋め込まれた画像歪みやcpuや計算資源の制限といった二次的な課題にも対処しなければならない。 本稿では,4ステップでhazmatを検出するためのcnnベースのパイプラインであるdeephazmatを提案する。 1)CNNネットワークに送信される入力画像の数を最適化する。 2) YOLOv3-tiny構造を用いて, 危険領域から必要な視覚情報を収集する。 3) GrabCut 技術を用いた背景からのハザート記号の分割と分離 4) モルフォロジー演算子と凸ハルアルゴリズムによる結果の処理後処理。 非常に限られたメモリとCPU資源の活用にもかかわらず,提案手法は最先端の手法と比較して,検出速度と検出精度の点で優れた性能を維持していることを示す実験結果が得られた。

One of the most challenging and non-trivial tasks in robot-based rescue operations is the Hazardous Materials or HAZMATs sign detection in the operation field, to prevent further unexpected disasters. Each Hazmat sign has a specific meaning that the rescue robot should detect and interpret it to take a safe action, accordingly. Accurate Hazmat detection and real-time processing are the two most important factors in such robotics applications. Furthermore, we also have to cope with some secondary challenges such as image distortion and restricted CPU and computational resources which are embedded in a rescue robot. In this paper, we propose a CNN-Based pipeline called DeepHAZMAT for detecting and segmenting Hazmats in four steps; 1) optimising the number of input images that are fed into the CNN network, 2) using the YOLOv3-tiny structure to collect the required visual information from the hazardous areas, 3) Hazmat sign segmentation and separation from the background using GrabCut technique, and 4) post-processing the result with morphological operators and convex hull algorithm. In spite of the utilisation of a very limited memory and CPU resources, the experimental results show the proposed method has successfully maintained a better performance in terms of detection-speed and detection-accuracy, compared with the state-of-the-art methods.
翻訳日:2022-11-10 23:59:01 公開日:2020-07-18
# ビジュアルグラウンド質問エンコーダを用いた視覚質問応答における言語バイアスの低減

Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder ( http://arxiv.org/abs/2007.06198v2 )

ライセンス: Link先を確認
Gouthaman KV and Anurag Mittal(参考訳) 近年の研究では、現在のVQAモデルは、画像に関係なく、その疑問に答えるために設定された列車の言語先行に大きく偏っていることが示されている。 例えば、"what sport is"は"tennis"、"what color banana"は"yellow"と圧倒的に答える。 この振る舞いは、現実のアプリケーションシナリオを制限します。 本研究では,この効果を低減したVQAに対して,新しいモデルに依存しない質問エンコーダであるビジュアルグラウンド質問エンコーダ(VGQE)を提案する。 VGQEは、質問をエンコードしながら、視覚と言語の両方を等しく利用する。 したがって、質問表現自体が十分なビジュアルグラウンドを得られるため、言語前のモデルへの依存を減らすことができる。 本稿では,最新の3つのVQAモデルに対するVGQEの効果を実演し,VQAv2データセットのバイアス感度分割に対する最先端の結果を得る。 さらに、標準VQAv2ベンチマークの既存のバイアス低減手法とは異なり、我々の手法は精度を落とさず、代わりに性能を向上する。

Recent studies have shown that current VQA models are heavily biased on the language priors in the train set to answer the question, irrespective of the image. E.g., overwhelmingly answer "what sport is" as "tennis" or "what color banana" as "yellow." This behavior restricts them from real-world application scenarios. In this work, we propose a novel model-agnostic question encoder, Visually-Grounded Question Encoder (VGQE), for VQA that reduces this effect. VGQE utilizes both visual and language modalities equally while encoding the question. Hence the question representation itself gets sufficient visual-grounding, and thus reduces the dependency of the model on the language priors. We demonstrate the effect of VGQE on three recent VQA models and achieve state-of-the-art results on the bias-sensitive split of the VQAv2 dataset; VQA-CPv2. Further, unlike the existing bias-reduction techniques, on the standard VQAv2 benchmark, our approach does not drop the accuracy; instead, it improves the performance.
翻訳日:2022-11-10 22:37:00 公開日:2020-07-18
# 細胞DIVEプラットフォームを用いた細胞自動訓練(CAT)による自動フェノタイピング

Automated Phenotyping via Cell Auto Training (CAT) on the Cell DIVE Platform ( http://arxiv.org/abs/2007.09471v1 )

ライセンス: Link先を確認
Alberto Santamaria-Pang, Anup Sood, Dan Meyer, Aritra Chowdhury, Fiona Ginty(参考訳) 多重蛍光画像を用いた自動トレーニングセットを用いて, 組織試料中の細胞の自動分類法を提案する。 本発明の方法は、単一の細胞/サブ細胞レベルで解析可能な多チャンネル画像を提供する頑健な超複雑免疫蛍光プラットフォーム(Cell DIVE, GE Healthcare)上の単一の組織部位に染色された複数のマーカーを利用する。 まず、マーカーからセルへの染色情報を用いて、各画像から自動トレーニングセットを生成する。 これは、病理学者が画像レベルで非常に大きなコホートからサンプルを選択する方法を模倣する。 第2のステップでは、自動トレーニングセットから確率モデルを推測する。 確率モデルは、相互排他的セルタイプにおける染色パターンをキャプチャし、データコホートに対して単一の確率モデルを構築する。 我々は,提案された分類手法を評価した。 一 がんにおける免疫細胞及び免疫細胞 二 平均的なアキュラシーが95%を超える神経疾患組織における脳細胞

We present a method for automatic cell classification in tissue samples using an automated training set from multiplexed immunofluorescence images. The method utilizes multiple markers stained in situ on a single tissue section on a robust hyperplex immunofluorescence platform (Cell DIVE, GE Healthcare) that provides multi-channel images allowing analysis at single cell/sub-cellular levels. The cell classification method consists of two steps: first, an automated training set from every image is generated using marker-to-cell staining information. This mimics how a pathologist would select samples from a very large cohort at the image level. In the second step, a probability model is inferred from the automated training set. The probabilistic model captures staining patterns in mutually exclusive cell types and builds a single probability model for the data cohort. We have evaluated the proposed approach to classify: i) immune cells in cancer and ii) brain cells in neurological degenerative diseased tissue with average accuracies above 95%.
翻訳日:2022-11-09 06:12:53 公開日:2020-07-18
# ml privacy meter: マシンラーニングのプライバシリスクの定量化による規制コンプライアンスの支援

ML Privacy Meter: Aiding Regulatory Compliance by Quantifying the Privacy Risks of Machine Learning ( http://arxiv.org/abs/2007.09339v1 )

ライセンス: Link先を確認
Sasi Kumar Murakonda, Reza Shokri(参考訳) センシティブなデータを使って機械学習モデルを構築する場合、組織はそのようなシステムで処理されたデータが適切に保護されていることを保証する必要がある。 個人データの機械学習に関わるプロジェクトについては、GDPR第35条では、データ保護影響評価(DPIA)を実施することを義務付けている。 セキュリティ侵害によるデータ不正アクセスの脅威に加えて、機械学習モデルは、モデル予測とパラメータを通じてデータを間接的に公開することで、データにさらなるプライバシーリスクをもたらす。 情報コミッショナー事務所(uk)と国立標準技術研究所(us)が公表したガイダンスでは、モデルからのデータに対する脅威を強調し、これらのリスクをデータ保護規則に従うために考慮し、見積もることを推奨している。 したがって、モデルからのデータに対するプライバシーリスクを定量化するためのツールがすぐに必要となる。 本稿では,機械学習モデルからのトレーニングデータに関する間接的漏洩に着目した。 ML Privacy Meterは、アートメンバーシップ推論攻撃手法の状態を通じ、モデルからのデータに対するプライバシリスクを定量化するツールである。 我々は、このツールが機械学習モデルのデプロイにおいて、データ保護規則に準拠した実践者に役立つかについて議論する。

When building machine learning models using sensitive data, organizations should ensure that the data processed in such systems is adequately protected. For projects involving machine learning on personal data, Article 35 of the GDPR mandates it to perform a Data Protection Impact Assessment (DPIA). In addition to the threats of illegitimate access to data through security breaches, machine learning models pose an additional privacy risk to the data by indirectly revealing about it through the model predictions and parameters. Guidances released by the Information Commissioner's Office (UK) and the National Institute of Standards and Technology (US) emphasize on the threat to data from models and recommend organizations to account for and estimate these risks to comply with data protection regulations. Hence, there is an immediate need for a tool that can quantify the privacy risk to data from models. In this paper, we focus on this indirect leakage about training data from machine learning models. We present ML Privacy Meter, a tool that can quantify the privacy risk to data from models through state of the art membership inference attack techniques. We discuss how this tool can help practitioners in compliance with data protection regulations, when deploying machine learning models.
翻訳日:2022-11-09 06:10:36 公開日:2020-07-18
# ロバストな対話型顔アニメーション編集システム

A Robust Interactive Facial Animation Editing System ( http://arxiv.org/abs/2007.09367v1 )

ライセンス: Link先を確認
Elo\"ise Berson, Catherine Soladi\'e, Vincent Barrielle, Nicolas Stoiber(参考訳) 近年,仮想キャラクターのための顔アニメーションの自動生成は,アニメーション研究や業界コミュニティの間で注目を集めている。 近年の研究では、音声やビデオ信号から可愛らしい顔のアニメーションを生成するための機械学習アプローチを活用している。 しかし、これらのアプローチはアニメーション版の問題に対処しない。つまり、不十分なベースラインアニメーションの修正やアニメーションコンテンツ自体の修正が必要となる。 顔アニメーションパイプラインでは、既存のアニメーションを編集するプロセスはベースラインの作成と同じくらい重要で時間を要する。 本研究では,直感的な制御パラメータの集合から顔のアニメーションを簡単に編集する学習型アプローチを提案する。 顔の動きの高周波成分に対処し,アニメーションの時間的一貫性を保ちながら,制御パラメータをブレンドシェープ係数列にマップする完全畳み込みニューラルネットワークを用いる。 我々は,レグレッション後,さらに解像度保存型アニメーションオートエンコーダを積み重ねて,システムが自然なアニメーションを出力することを保証する。 提案システムは頑丈で,非専門ユーザからの粗大で誇張された編集を処理できる。 また、顔アニメーションの高周波動作も保持している。

Over the past few years, the automatic generation of facial animation for virtual characters has garnered interest among the animation research and industry communities. Recent research contributions leverage machine-learning approaches to enable impressive capabilities at generating plausible facial animation from audio and/or video signals. However, these approaches do not address the problem of animation edition, meaning the need for correcting an unsatisfactory baseline animation or modifying the animation content itself. In facial animation pipelines, the process of editing an existing animation is just as important and time-consuming as producing a baseline. In this work, we propose a new learning-based approach to easily edit a facial animation from a set of intuitive control parameters. To cope with high-frequency components in facial movements and preserve a temporal coherency in the animation, we use a resolution-preserving fully convolutional neural network that maps control parameters to blendshapes coefficients sequences. We stack an additional resolution-preserving animation autoencoder after the regressor to ensure that the system outputs natural-looking animation. The proposed system is robust and can handle coarse, exaggerated edits from non-specialist users. It also retains the high-frequency motion of the facial animation.
翻訳日:2022-11-09 06:10:15 公開日:2020-07-18
# シークエンシング地震計:コアマントル境界領域における散乱のパノビュー

Sequencing seismograms: A panoptic view of scattering in the core-mantle boundary region ( http://arxiv.org/abs/2007.09485v1 )

ライセンス: Link先を確認
Doyeon Kim, Vedran Lekic, Brice M\'enard, Dalya Baron, Manuchehr Taghizadeh-Popp(参考訳) 地震波の散乱は地下構造を明らかにすることができるが、通常は特定のターゲット領域に焦点を当てた断片的な方法である。 我々は,コア・マントル境界に沿って回折する何千もの波の地震動を同時に解析し,太平洋域における散乱のパノプティックビューを得るために,「シーケンサー」と呼ばれる多様体学習アルゴリズムを用いた。 回折波形のほぼ半分において,コアマントル境界付近の3次元構造によって散乱する地震波を検出した。 これらの散布された到着の頻度は、領域が広範に異質な側面をホストしていることを示している。 解析の結果,ハワイ以南の羽根とマルケサス諸島下の未認識超低速度帯に起因した大きな信号が得られた。 これらの観察は、ユーザーの監督なしに堅牢なパターンを検出できるアプローチが、地球深部への顕著な洞察を明らかにする方法を示している。

Scattering of seismic waves can reveal subsurface structures but usually in a piecemeal way focused on specific target areas. We used a manifold learning algorithm called "the Sequencer" to simultaneously analyze thousands of seismograms of waves diffracting along the core-mantle boundary and obtain a panoptic view of scattering across the Pacific region. In nearly half of the diffracting waveforms, we detected seismic waves scattered by three-dimensional structures near the core-mantle boundary. The prevalence of these scattered arrivals shows that the region hosts pervasive lateral heterogeneity. Our analysis revealed loud signals due to a plume root beneath Hawaii and a previously unrecognized ultralow-velocity zone beneath the Marquesas Islands. These observations illustrate how approaches flexible enough to detect robust patterns with little to no user supervision can reveal distinctive insights into the deep Earth.
翻訳日:2022-11-09 06:09:57 公開日:2020-07-18
# トモグラフィに基づく不透明ネットワークによる負荷分散学習

Tomography Based Learning for Load Distribution through Opaque Networks ( http://arxiv.org/abs/2007.09521v1 )

ライセンス: Link先を確認
Shenghe Xu, Murali Kodialam, T.V. Lakshman and Shivendra S. Panwar(参考訳) 仮想現実やオンラインゲームのようなアプリケーションでは、受け入れ可能なユーザエクスペリエンスのために遅延が少ない。 これらのアプリケーションを提供するサービスプロバイダにとって重要なタスクは、遅延を最小限に抑えるためにネットワークを通してトラフィックを送信することです。 OTTトラフィックは通常、複数のデータセンターから発生し、複数のネットワークイングレスにマルチホームされる。 しかし,OTTサービスでは,入力側から宛先までのネットワークの経路特性は明確に把握できない。 これらは外部の探索からのみ推測できる。 本稿では,ネットワークトモグラフィと機械学習を組み合わせて遅延を最小限に抑える。 我々は、トラフィックソースがトラフィックがブラックボックスネットワークに入る一連の入力を選択できる一般的な設定でこの問題を考える。 この設定の問題は、連続的なアクション空間に制約のある強化学習問題と見なすことができ、機械学習コミュニティでは、我々の知識の最良の部分は調査されていない。 この問題を解決する上での鍵となる技術的課題は、問題の高次元化とネットワーク固有の制約の扱いである。 評価の結果,本手法は標準ヒューリスティックと比較して最大60%の遅延低減を達成した。 さらに,本手法は,複数の独立エージェントが集中的に,あるいは分散的に使用することができる。

Applications such as virtual reality and online gaming require low delays for acceptable user experience. A key task for over-the-top (OTT) service providers who provide these applications is sending traffic through the networks to minimize delays. OTT traffic is typically generated from multiple data centers which are multi-homed to several network ingresses. However, information about the path characteristics of the underlying network from the ingresses to destinations is not explicitly available to OTT services. These can only be inferred from external probing. In this paper, we combine network tomography with machine learning to minimize delays. We consider this problem in a general setting where traffic sources can choose a set of ingresses through which their traffic enter a black box network. The problem in this setting can be viewed as a reinforcement learning problem with constraints on a continuous action space, which to the best of our knowledge have not been investigated by the machine learning community. Key technical challenges to solving this problem include the high dimensionality of the problem and handling constraints that are intrinsic to networks. Evaluation results show that our methods achieve up to 60% delay reductions in comparison to standard heuristics. Moreover, the methods we develop can be used in a centralized manner or in a distributed manner by multiple independent agents.
翻訳日:2022-11-09 06:09:10 公開日:2020-07-18
# 学習幾何依存と物理に基づく逆画像再構成

Learning Geometry-Dependent and Physics-Based Inverse Image Reconstruction ( http://arxiv.org/abs/2007.09522v1 )

ライセンス: Link先を確認
Xiajun Jiang, Sandesh Ghimire, Jwala Dhamala, Zhiyuan Li, Prashnna Kumar Gyawali, and Linwei Wang(参考訳) 深部ニューラルネットワークはユークリッド空間における画像再構成問題に大きな可能性を示している。 しかし、多くの再構成問題は、基礎となる非ユークリッド幾何学に依存する画像物理学を含む。 本稿では,その基盤となる幾何学と物理を活かした逆画像の学習手法を提案する。 まず,各幾何学領域上の未知および測定変数を記述できる非ユークリッド符号化復号ネットワークについて紹介する。 次に、2つの領域間の幾何学依存物理学を、2つの幾何学のグラフィカル埋め込み上の二部グラフを通して明示的にモデル化する。 生体電位から心臓表面の電気的活動の再構成に本ネットワークを適用した。 難易度が増大する一連の一般化タスクにおいて,提案するネットワークはユークリッドの代替手法と比較して,データに基づく幾何学的変化を一般化する能力の向上を実証した。

Deep neural networks have shown great potential in image reconstruction problems in Euclidean space. However, many reconstruction problems involve imaging physics that are dependent on the underlying non-Euclidean geometry. In this paper, we present a new approach to learn inverse imaging that exploit the underlying geometry and physics. We first introduce a non-Euclidean encoding-decoding network that allows us to describe the unknown and measurement variables over their respective geometrical domains. We then learn the geometry-dependent physics in between the two domains by explicitly modeling it via a bipartite graph over the graphical embedding of the two geometry. We applied the presented network to reconstructing electrical activity on the heart surface from body-surface potential. In a series of generalization tasks with increasing difficulty, we demonstrated the improved ability of the presented network to generalize across geometrical changes underlying the data in comparison to its Euclidean alternatives.
翻訳日:2022-11-09 06:08:54 公開日:2020-07-18
# アメリカの議会分極に適用される機械学習アルゴリズムの比較

A Comparison of Machine Learning Algorithms Applied to American Legislature Polarization ( http://arxiv.org/abs/2008.04072v1 )

ライセンス: Link先を確認
Gabriel Mersy, Vincent Santore, Isaac Rand, Corrine Kleinman, Grant Wilson, Jason Bonsall, Tyler Edwards(参考訳) 本稿では,3つの異なる機械学習アルゴリズムを実験的に比較して,米国議会の偏光を測定する新しい手法を提案する。 当社のアプローチは,公開データソースとオープンソースソフトウェアに厳密に依存しています。 その結果, ニューラルネットワークの回帰は, 州議会と州議会の偏極予測において, 支持ベクトルマシンと通常最小二乗回帰の両方と比較して, 最良の結果であることが示唆された。 本研究の技術的成果に加えて,市民責任の促進を目的とした,アクセス可能な情報の重要性を強調する手段として,幅広い意味が評価されている。

We present a novel approach to the measurement of American state legislature polarization with an experimental comparison of three different machine learning algorithms. Our approach strictly relies on public data sources and open source software. The results suggest that artificial neural network regression has the best outcome compared to both support vector machine and ordinary least squares regression in the prediction of both state House and state Senate legislature polarization. In addition to the technical outcomes of our study, broader implications are assessed as a means of highlighting the importance of accessible information for the higher purpose of promoting civic responsibility.
翻訳日:2022-11-09 06:08:18 公開日:2020-07-18
# 顧客レビューとレビュー投票を用いた特徴レベルレーティングシステム

Feature-level Rating System using Customer Reviews and Review Votes ( http://arxiv.org/abs/2007.09513v1 )

ライセンス: Link先を確認
Koteswar Rao Jerripothula, Ankit Rai, Kanu Garg, Yashvardhan Singh Rautela(参考訳) 本研究は、新規顧客と製造業者の両方にとって意思決定に影響を与えるために、顧客レビューとレビュー投票からモバイル製品の特徴レベルの評価を得る方法について研究する。 このようなレーティングシステムは、製品レベルのレーティングシステムが提供するものよりも、製品の総合的なイメージを提供します。 製品レベルの評価はあまりにも一般的ですが、機能レベルの評価は特に重要です。 顧客から見れば、どの機能が不足しているか、あるいはうまく機能しているかを常に知る必要がある。 製造業者と顧客の両方が、製品の改善と購入の決断をしっかりと指示している。 異なる顧客は異なる機能に興味を持っている。 したがって、機能レベルの評価は購入決定をパーソナライズすることができる。 オンラインショッピングサイト(Amazon)で収集されたさまざまなモバイル製品とレビュー投票に関する顧客レビューを分析した。 この目的のために,特徴に着目した感情分析を行う。 その結果、オンライン販売の4k+モバイルの格付けは108に向上した。 これは(製造業者の視点から)製品を改善するための意思決定や(買い手の観点から)パーソナライズされた購入決定を可能とすることに役立つ。 我々の分析はレコメンデーションシステムや消費者調査などに応用されている。

This work studies how we can obtain feature-level ratings of the mobile products from the customer reviews and review votes to influence decision making, both for new customers and manufacturers. Such a rating system gives a more comprehensive picture of the product than what a product-level rating system offers. While product-level ratings are too generic, feature-level ratings are particular; we exactly know what is good or bad about the product. There has always been a need to know which features fall short or are doing well according to the customer's perception. It keeps both the manufacturer and the customer well-informed in the decisions to make in improving the product and buying, respectively. Different customers are interested in different features. Thus, feature-level ratings can make buying decisions personalized. We analyze the customer reviews collected on an online shopping site (Amazon) about various mobile products and the review votes. Explicitly, we carry out a feature-focused sentiment analysis for this purpose. Eventually, our analysis yields ratings to 108 features for 4k+ mobiles sold online. It helps in decision making on how to improve the product (from the manufacturer's perspective) and in making the personalized buying decisions (from the buyer's perspective) a possibility. Our analysis has applications in recommender systems, consumer research, etc.
翻訳日:2022-11-09 06:02:03 公開日:2020-07-18
# 抽象化に基づくニューラルネットワークの出力範囲解析

Abstraction based Output Range Analysis for Neural Networks ( http://arxiv.org/abs/2007.09527v1 )

ライセンス: Link先を確認
Pavithra Prabhakar and Zahra Rahimi Afzal(参考訳) 本稿では,reluアクティベーション機能を有するフィードフォワードニューラルネットワークの出力範囲解析の問題点について考察する。 既存のアプローチでは、ネットワーク内のニューロン数によって計算複雑性が増加するnpハード問題である出力範囲解析問題を満足度と最適化解に還元する。 計算複雑性に対処するため,ニューラルネットワークの出力範囲を過度に近似するインターバルニューラルネットワーク(INN)と呼ばれるインターバル重みを持つ,より少ないニューロンで単純なニューラルネットワークを構築する新しい抽象化手法を提案する。 INNの出力範囲解析を、混合整数線形計画問題の解法に還元する。 実験の結果,計算時間と計算出力範囲の精度とのトレードオフが明らかになった。

In this paper, we consider the problem of output range analysis for feed-forward neural networks with ReLU activation functions. The existing approaches reduce the output range analysis problem to satisfiability and optimization solving, which are NP-hard problems, and whose computational complexity increases with the number of neurons in the network. To tackle the computational complexity, we present a novel abstraction technique that constructs a simpler neural network with fewer neurons, albeit with interval weights called interval neural network (INN), which over-approximates the output range of the given neural network. We reduce the output range analysis on the INNs to solving a mixed integer linear programming problem. Our experimental results highlight the trade-off between the computation time and the precision of the computed output range.
翻訳日:2022-11-09 06:01:46 公開日:2020-07-18
# AIの失敗: 未解決の課題のレビュー

AI Failures: A Review of Underlying Issues ( http://arxiv.org/abs/2008.04073v1 )

ライセンス: Link先を確認
Debarag Narayan Banerjee and Sasanka Sekhar Chanda(参考訳) AI(Artificial Intelligence)システムのインスタンスは、一貫性のある満足なパフォーマンスを提供していない。 AIの失敗の原因を調査する。 私たちは、aiの安全性の幅広い分野のごく一部にのみ対処します。 概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に注目します。 プライバシーとセキュリティのトレードオフや利便性、悪役がAIシステムに侵入して、人間に有害な目的のためにAIをデプロイするマヘムや悪役を作るなど、AIの安全性の問題も議論の対象外です。 入力情報の適切な解釈を開発するのに失敗するだけでなく、AIシステムの設計における欠落やコミッショニングエラーによってAIシステムが失敗することを発見した。 さらに、aiソフトウェアに重大な欠陥がなくても、ハードウェアが環境にまたがる堅牢なパフォーマンスができないため、aiシステムは失敗する可能性がある。 最後に、AIシステムは、事実上、道徳的な判断を下すことが求められる状況において、かなり失敗する可能性が高い。 AIの失敗のサブセットを軽減し、いくつかの推奨を提供するため、ある種のトレードオフを観察します。

Instances of Artificial Intelligence (AI) systems failing to deliver consistent, satisfactory performance are legion. We investigate why AI failures occur. We address only a narrow subset of the broader field of AI Safety. We focus on AI failures on account of flaws in conceptualization, design and deployment. Other AI Safety issues like trade-offs between privacy and security or convenience, bad actors hacking into AI systems to create mayhem or bad actors deploying AI for purposes harmful to humanity and are out of scope of our discussion. We find that AI systems fail on account of omission and commission errors in the design of the AI system, as well as upon failure to develop an appropriate interpretation of input information. Moreover, even when there is no significant flaw in the AI software, an AI system may fail because the hardware is incapable of robust performance across environments. Finally an AI system is quite likely to fail in situations where, in effect, it is called upon to deliver moral judgments -- a capability AI does not possess. We observe certain trade-offs in measures to mitigate a subset of AI failures and provide some recommendations.
翻訳日:2022-11-09 06:01:19 公開日:2020-07-18
# 網膜血管セグメンテーションと動脈/静脈分類のための空間活性化型マルチタスクニューラルネットワーク

Multi-Task Neural Networks with Spatial Activation for Retinal Vessel Segmentation and Artery/Vein Classification ( http://arxiv.org/abs/2007.09337v1 )

ライセンス: Link先を確認
Wenao Ma, Shuang Yu, Kai Ma, Jiexiang Wang, Xinghao Ding and Yefeng Zheng(参考訳) 網膜動脈/vein (a/v) 分類は, 各種全身疾患および心血管疾患が網膜血管に与える影響に関する臨床バイオマーカー研究において重要な役割を担っている。 従来の自動A/V分類法は一般的に複雑であり、正確な血管分割に依存している。 本稿では,血管の分割を事前に必要とせずに,網膜血管,動脈,静脈全体を同時に分割できる空間活性化機構を備えた多タスク深層ニューラルネットワークを提案する。 ネットワークの入力モジュールは、広く使われている網膜前処理と血管拡張技術のドメイン知識を統合する。 本稿では,A/V分類の性能を高めるために,比較的簡単な容器分割作業を利用する空間活性化機構を用いて,ネットワークの出力ブロックを特別にカスタマイズする。 さらに、ネットワークに深い監視を導入し、低レベル層がよりセマンティックな情報を抽出するのを支援する。 提案手法は, av-driveデータセットの双方のタスクにおいて, 画素単位での精度95.70%, a/v分類精度94.50%を達成している。 さらに, 骨格A/V分類精度91.6%のINSPIRE-AVRデータセットを用いて, モデル性能を検証した。

Retinal artery/vein (A/V) classification plays a critical role in the clinical biomarker study of how various systemic and cardiovascular diseases affect the retinal vessels. Conventional methods of automated A/V classification are generally complicated and heavily depend on the accurate vessel segmentation. In this paper, we propose a multi-task deep neural network with spatial activation mechanism that is able to segment full retinal vessel, artery and vein simultaneously, without the pre-requirement of vessel segmentation. The input module of the network integrates the domain knowledge of widely used retinal preprocessing and vessel enhancement techniques. We specially customize the output block of the network with a spatial activation mechanism, which takes advantage of a relatively easier task of vessel segmentation and exploits it to boost the performance of A/V classification. In addition, deep supervision is introduced to the network to assist the low level layers to extract more semantic information. The proposed network achieves pixel-wise accuracy of 95.70% for vessel segmentation, and A/V classification accuracy of 94.50%, which is the state-of-the-art performance for both tasks on the AV-DRIVE dataset. Furthermore, we have also tested the model performance on INSPIRE-AVR dataset, which achieves a skeletal A/V classification accuracy of 91.6%.
翻訳日:2022-11-09 06:01:01 公開日:2020-07-18
# ICA-UNet: ICAにインスパイアされたリアルタイム3次元心臓MRIセグメントのための統計的UNet

ICA-UNet: ICA Inspired Statistical UNet for Real-time 3D Cardiac Cine MRI Segmentation ( http://arxiv.org/abs/2007.09455v1 )

ライセンス: Link先を確認
Tianchen Wang, Xiaowei Xu, Jinjun Xiong, Qianjun Jia, Haiyun Yuan, Meiping Huang, Jian Zhuang, Yiyu Shi(参考訳) real-time cine magnetic resonance imaging (mri) は様々な心臓介入においてますます重要な役割を担っている。 高速かつ正確な視覚補助を可能にするためには、時間フレームをオンザフライで分割する必要がある。 しかし、最先端のmriセグメンテーション手法は、計算の複雑さが高いためオフラインでも、リアルタイムでもかなりの精度の損失とレイテンシーの増加(視覚的な遅延を伴って)で使用される。 そのため、視覚的指導を支援するために採用されることはほとんどない。 本研究は,独立成分分析(ICA)の学習用解釈に触発されて,リアルタイム3次元心血管MRI分割のための新しいICA-UNetを提案する。 MICCAI ACDC 2017データセットを用いた実験によると、ICA-UNetは最先端のDiceスコアを達成しているだけでなく、スループットとレイテンシ(最大12.6倍)の両方のリアルタイム要件を満たしている。

Real-time cine magnetic resonance imaging (MRI) plays an increasingly important role in various cardiac interventions. In order to enable fast and accurate visual assistance, the temporal frames need to be segmented on-the-fly. However, state-of-the-art MRI segmentation methods are used either offline because of their high computation complexity, or in real-time but with significant accuracy loss and latency increase (causing visually noticeable lag). As such, they can hardly be adopted to assist visual guidance. In this work, inspired by a new interpretation of Independent Component Analysis (ICA) for learning, we propose a novel ICA-UNet for real-time 3D cardiac cine MRI segmentation. Experiments using the MICCAI ACDC 2017 dataset show that, compared with the state-of-the-arts, ICA-UNet not only achieves higher Dice scores, but also meets the real-time requirements for both throughput and latency (up to 12.6X reduction), enabling real-time guidance for cardiac interventions without visual lag.
翻訳日:2022-11-09 06:00:30 公開日:2020-07-18
# 医用画像検索のための視覚単語モデルバッグ

A Bag of Visual Words Model for Medical Image Retrieval ( http://arxiv.org/abs/2007.09464v1 )

ライセンス: Link先を確認
Sowmya Kamath S and Karthik K(参考訳) 医用画像検索は、その基盤となるコンテンツの多次元的・多次元的コンテキストのため、視覚情報検索において困難な分野である。 従来のモデルは、データ固有の特性を考慮に入れず、医用画像に適用した場合に限られた精度を達成できた。 Bag of Visual Words (BoVW)は、ベクトル空間における固有画像の特徴を効果的に表現するために使用できる技法であり、画像分類や類似画像検索などの応用を最適化することができる。 本稿では、コンテンツに基づく医用画像検索のためのBoVWモデルに基づくMedIRアプローチを提案する。 多次元の医療画像として、意味的関連性を高め、ラベルの均一性を許容する基盤となるクラスタや多様体情報を示す。 これにより、各画像から抽出されたBoVW特徴を用いて、正及び負の訓練画像に基づいて教師付き機械学習分類器を訓練し、コンテンツベース画像検索を拡張する。 実験検証中,提案モデルは非常に良好に動作し,トップ3画像検索実験で平均88.89%の精度を得た。

Medical Image Retrieval is a challenging field in Visual information retrieval, due to the multi-dimensional and multi-modal context of the underlying content. Traditional models often fail to take the intrinsic characteristics of data into consideration, and have thus achieved limited accuracy when applied to medical images. The Bag of Visual Words (BoVW) is a technique that can be used to effectively represent intrinsic image features in vector space, so that applications like image classification and similar-image search can be optimized. In this paper, we present a MedIR approach based on the BoVW model for content-based medical image retrieval. As medical images as multi-dimensional, they exhibit underlying cluster and manifold information which enhances semantic relevance and allows for label uniformity. Hence, the BoVW features extracted for each image are used to train a supervised machine learning classifier based on positive and negative training images, for extending content based image retrieval. During experimental validation, the proposed model performed very well, achieving a Mean Average Precision of 88.89% during top-3 image retrieval experiments.
翻訳日:2022-11-09 06:00:01 公開日:2020-07-18
# 特徴ピラミッドトランスフォーマ

Feature Pyramid Transformer ( http://arxiv.org/abs/2007.09451v1 )

ライセンス: Link先を確認
Dong Zhang, Hanwang Zhang, Jinhui Tang, Meng Wang, Xiansheng Hua and Qianru Sun(参考訳) 空間とスケールにまたがる特徴的相互作用は、有益な視覚コンテキストを導入するため、現代の視覚認識システムを支える。 伝統的に、空間コンテキストはCNNの受容領域に受動的に隠されるか、非局所的畳み込みによって積極的に符号化される。 しかし、非局所的な空間相互作用はスケールを越えたものではないため、異なるスケールに存在する物体(または部分)の非局所的なコンテキストを捉えることができない。 そこで本稿では,FPT (Feature Pyramid Transformer) と呼ばれる,空間とスケールをまたいだ完全な機能相互作用を提案する。 任意の特徴ピラミッドを同じ大きさの別の特徴ピラミッドに変換するが、よりリッチなコンテキストで、自己レベル、トップダウン、ボトムアップのインタラクションスタイルで3つの特別に設計されたトランスフォーマーを使用する。 FPTは、計算オーバーヘッドが一定である一般的な視覚バックボーンとして機能する。 我々は,様々なバックボーンとヘッドネットワークを用いて,インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行い,すべてのベースラインと最先端の手法に対する一貫した改善を観察する。

Feature interactions across space and scales underpin modern visual recognition systems because they introduce beneficial visual contexts. Conventionally, spatial contexts are passively hidden in the CNN's increasing receptive fields or actively encoded by non-local convolution. Yet, the non-local spatial interactions are not across scales, and thus they fail to capture the non-local contexts of objects (or parts) residing in different scales. To this end, we propose a fully active feature interaction across both space and scales, called Feature Pyramid Transformer (FPT). It transforms any feature pyramid into another feature pyramid of the same size but with richer contexts, by using three specially designed transformers in self-level, top-down, and bottom-up interaction fashion. FPT serves as a generic visual backbone with fair computational overhead. We conduct extensive experiments in both instance-level (i.e., object detection and instance segmentation) and pixel-level segmentation tasks, using various backbones and head networks, and observe consistent improvement over all the baselines and the state-of-the-art methods.
翻訳日:2022-11-09 05:53:13 公開日:2020-07-18
# 弱教師付き集団活動認識のためのソーシャルアダプティブモジュール

Social Adaptive Module for Weakly-supervised Group Activity Recognition ( http://arxiv.org/abs/2007.09470v1 )

ライセンス: Link先を確認
Rui Yan, Lingxi Xie, Jinhui Tang, Xiangbo Shu, and Qi Tian(参考訳) 本稿では,従来のgarタスクと異なり,ビデオレベルラベルのみを利用できるが,各フレーム内の重要人物はトレーニングデータにも提供されない,weakly supervised group activity recognition(gar)という新しいタスクを提案する。 これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。 弱監視から有用な情報を抽出するために、キーインスタンスが互いに関連している可能性が高いというキーインサイトを示し、ノイズの多いデータからキーパーソンやフレームを推論するソーシャルアダプティブモジュール(SAM)を設計する。 実験では、NBAデータセットと人気のあるバレーボールデータセットが大幅に改善された。 特にビデオレベルのアノテーションをトレーニングしたモデルでは,強いラベルを必要とする先行アルゴリズムと同等の精度を実現している。

This paper presents a new task named weakly-supervised group activity recognition (GAR) which differs from conventional GAR tasks in that only video-level labels are available, yet the important persons within each frame are not provided even in the training data. This eases us to collect and annotate a large-scale NBA dataset and thus raise new challenges to GAR. To mine useful information from weak supervision, we present a key insight that key instances are likely to be related to each other, and thus design a social adaptive module (SAM) to reason about key persons and frames from noisy data. Experiments show significant improvement on the NBA dataset as well as the popular volleyball dataset. In particular, our model trained on video-level annotation achieves comparable accuracy to prior algorithms which required strong labels.
翻訳日:2022-11-09 05:52:27 公開日:2020-07-18
# Mask TextSpotter v3:ロバストなシーンテキストスポッティングのためのセグメンテーション提案ネットワーク

Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting ( http://arxiv.org/abs/2007.09482v1 )

ライセンス: Link先を確認
Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai(参考訳) 近年, シーンテキストスポッティング, 検出と認識を統合したエンド・ツー・エンドのトレーニングが可能となった。 しかし、現在の任意のシーンテキストスポッターのほとんどは、提案を作成するために地域提案ネットワーク(RPN)を使用している。 RPNは手動設計のアンカーに大きく依存しており、その提案は軸方向の矩形で表される。 前者は、極端なアスペクト比や不規則な形状のテキストインスタンスを扱うのに困難を示し、後者は、密集したテキストの場合、複数の隣接するインスタンスを単一の提案に含めることが多い。 これらの問題に対処するために,RPNの代わりにSegmentation Proposal Network(SPN)を採用したエンドツーエンドのトレーニング可能なシーンテキストスポッターであるMask TextSpotter v3を提案する。 我々のSPNはアンカーフリーであり、任意の形の提案の正確な表現を提供する。 したがって、極端なアスペクト比や不規則な形状のテキストインスタンスを検出する場合、RPNよりも優れている。 さらに、SPNが作成する正確な提案により、隣接するテキストインスタンスの分離にマスク付きのRoI機能を使用することができる。 その結果、マスクテキストスポッターv3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理でき、その認識精度は、近くのテキストや背景ノイズに影響されない。 具体的には、回転したicdar 2013データセット(回転ロバスト性)の21.9%、全テキストデータセット(形状ロバスト性)の5.9%、msra-td500データセット(アスペクト比ロバスト性)の最先端性能を達成する。 コードは、https://github.com/MhLiao/MaskTextSpotterV3で入手できる。

Recent end-to-end trainable methods for scene text spotting, integrating detection and recognition, showed much progress. However, most of the current arbitrary-shape scene text spotters use region proposal networks (RPN) to produce proposals. RPN relies heavily on manually designed anchors and its proposals are represented with axis-aligned rectangles. The former presents difficulties in handling text instances of extreme aspect ratios or irregular shapes, and the latter often includes multiple neighboring instances into a single proposal, in cases of densely oriented text. To tackle these problems, we propose Mask TextSpotter v3, an end-to-end trainable scene text spotter that adopts a Segmentation Proposal Network (SPN) instead of an RPN. Our SPN is anchor-free and gives accurate representations of arbitrary-shape proposals. It is therefore superior to RPN in detecting text instances of extreme aspect ratios or irregular shapes. Furthermore, the accurate proposals produced by SPN allow masked RoI features to be used for decoupling neighboring text instances. As a result, our Mask TextSpotter v3 can handle text instances of extreme aspect ratios or irregular shapes, and its recognition accuracy won't be affected by nearby text or background noise. Specifically, we outperform state-of-the-art methods by 21.9 percent on the Rotated ICDAR 2013 dataset (rotation robustness), 5.9 percent on the Total-Text dataset (shape robustness), and achieve state-of-the-art performance on the MSRA-TD500 dataset (aspect ratio robustness). Code is available at: https://github.com/MhLiao/MaskTextSpotterV3
翻訳日:2022-11-09 05:52:13 公開日:2020-07-18
# ディープハフ変換線前処理

Deep Hough-Transform Line Priors ( http://arxiv.org/abs/2007.09493v1 )

ライセンス: Link先を確認
Yancong Lin, Silvia L. Pintea, and Jan C. van Gemert(参考訳) ラインセグメント検出に関する古典的な研究は知識に基づいており、画像勾配、ピクセルグループ化、あるいはハフ変換の変種を用いて慎重に設計された幾何学的事前情報を使用する。 代わりに、現在のディープラーニングメソッドは、すべての事前知識を廃止し、大規模な手動のアノテートデータセット上でディープネットワークをトレーニングすることで、事前を置き換える。 ここでは,従来の知識に基づく先行情報に基づいて,深いネットワークを用いて特徴を学習することにより,ラベル付きデータへの依存性を低減する。 トレーニング可能なHough変換ブロックを通じて行先をディープネットワークに追加します。 hough変換はグローバルラインのパラメータ化に関する事前知識を提供し、畳み込み層は局所勾配のようなライン特徴を学ぶことができる。 Wireframe (ShanghaiTech) と York Urban のデータセットでは、事前知識を追加することで、データから学習する必要がなくなるため、データの効率が向上することを示した。 キーワード: Hough transform, Global line prior, line segment detection。

Classical work on line segment detection is knowledge-based; it uses carefully designed geometric priors using either image gradients, pixel groupings, or Hough transform variants. Instead, current deep learning methods do away with all prior knowledge and replace priors by training deep networks on large manually annotated datasets. Here, we reduce the dependency on labeled data by building on the classic knowledge-based priors while using deep networks to learn features. We add line priors through a trainable Hough transform block into a deep network. Hough transform provides the prior knowledge about global line parameterizations, while the convolutional layers can learn the local gradient-like line features. On the Wireframe (ShanghaiTech) and York Urban datasets we show that adding prior knowledge improves data efficiency as line priors no longer need to be learned from data. Keywords: Hough transform; global line prior, line segment detection.
翻訳日:2022-11-09 05:51:39 公開日:2020-07-18
# 異常検出のためのバックプロパゲート勾配表現

Backpropagated Gradient Representations for Anomaly Detection ( http://arxiv.org/abs/2007.09507v1 )

ライセンス: Link先を確認
Gukyeong Kwon, Mohit Prabhushankar, Dogancan Temel, Ghassan AlRegib(参考訳) 正常データと異常データを明確に区別する学習表現は、異常検出の成功の鍵となる。 既存の異常検出アルゴリズムのほとんどは、前方伝播からのアクティベーション表現を使用し、バックプロパゲーションからの勾配を利用してデータを特徴付ける。 グラディエントはデータ表現に必要なモデル更新をキャプチャする。 異常は、通常のデータと比較してそれらを完全に表現するために、より劇的なモデル更新を必要とする。 そこで本研究では,異常に対するモデルの振る舞いを特徴付ける表現として,バックプロパゲート勾配の利用を提案する。 提案手法は,ベンチマーク画像認識データセットにおける最先端の異常検出性能を実現する。 また,提案手法よりも少なくとも27倍のモデルパラメータを必要とする,敵対的ネットワークや自己回帰モデルに依存する他の最先端手法と比較して,提案手法の計算効率と簡易性を強調した。

Learning representations that clearly distinguish between normal and abnormal data is key to the success of anomaly detection. Most of existing anomaly detection algorithms use activation representations from forward propagation while not exploiting gradients from backpropagation to characterize data. Gradients capture model updates required to represent data. Anomalies require more drastic model updates to fully represent them compared to normal data. Hence, we propose the utilization of backpropagated gradients as representations to characterize model behavior on anomalies and, consequently, detect such anomalies. We show that the proposed method using gradient-based representations achieves state-of-the-art anomaly detection performance in benchmark image recognition datasets. Also, we highlight the computational efficiency and the simplicity of the proposed method in comparison with other state-of-the-art methods relying on adversarial networks or autoregressive models, which require at least 27 times more model parameters than the proposed method.
翻訳日:2022-11-09 05:51:00 公開日:2020-07-18
# トラッキング・バイ・カウンタリング:集合密度マップ上のネットワークフローを用いた複数ターゲット追跡

Tracking-by-Counting: Using Network Flows on Crowd Density Maps for Tracking Multiple Targets ( http://arxiv.org/abs/2007.09509v1 )

ライセンス: Link先を確認
Weihong Ren, Xinchao Wang, Jiandong Tian, Yandong Tang and Antoni B. Chan(参考訳) State-of-the-art multi-object tracking~(MOT)メソッドは、オブジェクト検出器のフレーム単位の出力を関連付けることによってオブジェクトの軌跡を得る、トラッキング・バイ・検出のパラダイムに従っている。 しかし, 混み合った場面では, 重度の咬合や密集度が高いため, 検出精度が低下することが多い。 本稿では,混み合ったシーンに適したMOTパラダイムであるトラッキング・バイ・カウンティングを提案する。 群衆密度マップを用いて、複数のターゲットの同時検出、カウント、追跡をネットワークフロープログラムとしてモデル化し、同時にビデオ全体にわたって複数のターゲットのグローバルな最適検出と軌跡を検出する。 これは、群衆密度を無視して混み合いの場面でエラーを起こしやすい従来のMOT手法と対照的であり、また、目標に合わせるためにヒューリスティックな密度認識ポイントトラックを用いた2段階以下のプロセスに依存しており、我々のアプローチは、人々の追跡、細胞追跡、魚の追跡を含む様々な領域の公的なベンチマークで有望な結果をもたらす。

State-of-the-art multi-object tracking~(MOT) methods follow the tracking-by-detection paradigm, where object trajectories are obtained by associating per-frame outputs of object detectors. In crowded scenes, however, detectors often fail to obtain accurate detections due to heavy occlusions and high crowd density. In this paper, we propose a new MOT paradigm, tracking-by-counting, tailored for crowded scenes. Using crowd density maps, we jointly model detection, counting, and tracking of multiple targets as a network flow program, which simultaneously finds the global optimal detections and trajectories of multiple targets over the whole video. This is in contrast to prior MOT methods that either ignore the crowd density and thus are prone to errors in crowded scenes, or rely on a suboptimal two-step process using heuristic density-aware point-tracks for matching targets.Our approach yields promising results on public benchmarks of various domains including people tracking, cell tracking, and fish tracking.
翻訳日:2022-11-09 05:50:46 公開日:2020-07-18
# キャカチュア属性認識のための教師なしドメイン注意適応ネットワーク

Unsupervised Domain Attention Adaptation Network for Caricature Attribute Recognition ( http://arxiv.org/abs/2007.09344v1 )

ライセンス: Link先を確認
Wen Ji, Kelei He, Jing Huo, Zheng Gu, Yang Gao(参考訳) 画像特性は、心理学と神経科学の研究に役立つ特徴的な顔の特徴を提供する。 しかし、注釈付き画像の量を持つ顔写真属性データセットとは異なり、似顔絵属性のアノテーションは稀である。 画像の属性学習のための研究を行うために,WebCariAという特徴属性データセットを提案する。 さらに,顔属性によって訓練されたモデルを活用するために,ドメイン間の整合性学習とドメイン間の整合性学習を融合した,クロスモーダルな属性認識のための新しい教師なしドメイン適応フレームワークを提案する。 具体的には、画像と画像の間の領域ギャップを、中間画像サンプルを生成して埋める画像間変換器と、それらの意味情報を整合させるラベル整合学習モジュールとからなるドメイン間整合学習スキームである。 ドメイン内一貫性学習スキームは、共通機能一貫性学習モジュールと、新しい属性認識型注意一貫性学習モジュールを統合し、より効率的なアライメントを実現する。 提案手法の有効性について広範囲にわたるアブレーション研究を行った。 また,提案手法は最先端の手法をマージンで上回っている。 提案手法の実装はhttps://github.com/KeleiHe/DAANで公開されている。

Caricature attributes provide distinctive facial features to help research in Psychology and Neuroscience. However, unlike the facial photo attribute datasets that have a quantity of annotated images, the annotations of caricature attributes are rare. To facility the research in attribute learning of caricatures, we propose a caricature attribute dataset, namely WebCariA. Moreover, to utilize models that trained by face attributes, we propose a novel unsupervised domain adaptation framework for cross-modality (i.e., photos to caricatures) attribute recognition, with an integrated inter- and intra-domain consistency learning scheme. Specifically, the inter-domain consistency learning scheme consisting an image-to-image translator to first fill the domain gap between photos and caricatures by generating intermediate image samples, and a label consistency learning module to align their semantic information. The intra-domain consistency learning scheme integrates the common feature consistency learning module with a novel attribute-aware attention-consistency learning module for a more efficient alignment. We did an extensive ablation study to show the effectiveness of the proposed method. And the proposed method also outperforms the state-of-the-art methods by a margin. The implementation of the proposed method is available at https://github.com/KeleiHe/DAAN.
翻訳日:2022-11-09 05:44:18 公開日:2020-07-18
# 映像人物再同定のための時間相補学習

Temporal Complementary Learning for Video Person Re-Identification ( http://arxiv.org/abs/2007.09357v1 )

ライセンス: Link先を確認
Ruibing Hou and Hong Chang and Bingpeng Ma and Shiguang Shan and Xilin Chen(参考訳) 本稿では,映像人物再同定のための連続映像フレームの相補的特徴を抽出する時間的相補学習ネットワークを提案する。 まず,時間的衛生消去(TSE)モジュールについて紹介する。 具体的には、ビデオの特定のフレームに対して、サリエンシー消去操作は、特定の学習者に、前のフレームで起動された部分を消去して、新しい補完的な部品をマイニングするように促す。 連続するフレームに対して多様な視覚的特徴を発見でき、最終的にはターゲットアイデンティティの積分特性を形成する。 さらに、映像フレーム間のサルエント情報を伝搬させ、サルエント特性を高めるようにtsb(temporal saliency boosting)モジュールを設計。 TSEの消去操作による情報損失を効果的に軽減し、TSEを補完する。 広範な実験により,本手法は最新技術に好適な効果を示した。 ソースコードはhttps://github.com/blue-blue272/videoreid-tclnetで入手できる。

This paper proposes a Temporal Complementary Learning Network that extracts complementary features of consecutive video frames for video person re-identification. Firstly, we introduce a Temporal Saliency Erasing (TSE) module including a saliency erasing operation and a series of ordered learners. Specifically, for a specific frame of a video, the saliency erasing operation drives the specific learner to mine new and complementary parts by erasing the parts activated by previous frames. Such that the diverse visual features can be discovered for consecutive frames and finally form an integral characteristic of the target identity. Furthermore, a Temporal Saliency Boosting (TSB) module is designed to propagate the salient information among video frames to enhance the salient feature. It is complementary to TSE by effectively alleviating the information loss caused by the erasing operation of TSE. Extensive experiments show our method performs favorably against state-of-the-arts. The source code is available at https://github.com/blue-blue272/VideoReID-TCLNet.
翻訳日:2022-11-09 05:43:38 公開日:2020-07-18
# 可鍛型2.5次元畳み込み:rgb-dシーン解析のための深さ軸に沿った学習受容場

Malleable 2.5D Convolution: Learning Receptive Fields along the Depth-axis for RGB-D Scene Parsing ( http://arxiv.org/abs/2007.09365v1 )

ライセンス: Link先を確認
Yajie Xing, Jingbo Wang, Gang Zeng(参考訳) 深度データは、rgb-dシーン解析タスクの進捗をもたらす幾何情報を提供する。 最近のいくつかの研究は、画素間の3次元近傍関係を扱うために深さ軸に沿って受容場を構築するrgb-d畳み込み演算子を提案する。 しかし、これらの手法はハイパーパラメータによって深度受容場を事前に定義し、パラメータ選択に依存する。 本稿では,深度軸に沿った受容場を学習するために,可塑性2.5D畳み込みと呼ばれる新しい演算子を提案する。 可鍛性2.5D畳み込みは、1つ以上の2D畳み込みカーネルを有する。 本手法では,各画素の相対深度差に応じて各画素を1つのカーネルに割り当てるが,その割り当て過程は勾配降下により学習できるように微分可能な形式として定式化される。 提案したオペレータは標準的な2D機能マップで動作し,事前トレーニングされたCNNにシームレスに組み込むことができる。 RGB-DセマンティックセグメンテーションデータセットNYUDv2とCityscapesの2つの挑戦的な実験を行い、本手法の有効性と一般化能力を検証した。

Depth data provide geometric information that can bring progress in RGB-D scene parsing tasks. Several recent works propose RGB-D convolution operators that construct receptive fields along the depth-axis to handle 3D neighborhood relations between pixels. However, these methods pre-define depth receptive fields by hyperparameters, making them rely on parameter selection. In this paper, we propose a novel operator called malleable 2.5D convolution to learn the receptive field along the depth-axis. A malleable 2.5D convolution has one or more 2D convolution kernels. Our method assigns each pixel to one of the kernels or none of them according to their relative depth differences, and the assigning process is formulated as a differentiable form so that it can be learnt by gradient descent. The proposed operator runs on standard 2D feature maps and can be seamlessly incorporated into pre-trained CNNs. We conduct extensive experiments on two challenging RGB-D semantic segmentation dataset NYUDv2 and Cityscapes to validate the effectiveness and the generalization ability of our method.
翻訳日:2022-11-09 05:43:22 公開日:2020-07-18
# Atract, Perturb, and Explore: 半教師付きドメイン適応のための特徴調整ネットワークの学習

Attract, Perturb, and Explore: Learning a Feature Alignment Network for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2007.09375v1 )

ライセンス: Link先を確認
Taekyung Kim and Changick Kim(参考訳) 教師なしドメイン適応法は、いくつかのコンピュータビジョンタスクで広く採用されているが、実際のアプリケーションで遭遇した新しいドメインのラベル付きデータを利用するのがより望ましい。 半教師付きドメイン適応問題(SSDA)の新たな設定は、ドメイン適応問題と半教師付き学習問題との課題を共有する。 しかし、最近の研究では、従来のドメイン適応と半教師付き学習手法がSSDA問題において、効果や負の伝達を少なくすることが多いことが示されている。 本稿では,SSDA問題の解釈と解決のために,これまで議論されてきたことのない対象領域内のドメイン内不一致問題を提起する。 次に,ドメイン内不一致への対処がSSDA問題の最終的な目標につながることを示す。 本稿では,ドメイン内不一致の緩和による特徴調整を目的としたSSDAフレームワークを提案する。 我々の枠組みは主に3つのスキーム、すなわちアトラクション、摂動、探索から構成される。 まず、アトラクションスキームは、ターゲットドメイン内のドメイン内不一致をグローバルに最小化する。 第2に, SSDAを用いた従来の逆方向摂動法の不整合性を示す。 そこで本研究では,ドメイン内差を小さくする目的で,対象サンプルを摂動する領域適応型対向摂動方式を提案する。 最後に、探索スキームは、摂動スキームに相補するラベルなしの目標特徴を選択的に調整することにより、アトラクションスキームに相補的な階層的な特徴を局所的に整列させる。 ドメイン適応ベンチマークのデータセットであるDomainNet、Office-Home、Officeについて広範な実験を行った。 本手法は,全データセットの最先端性能を実現する。

Although unsupervised domain adaptation methods have been widely adopted across several computer vision tasks, it is more desirable if we can exploit a few labeled data from new domains encountered in a real application. The novel setting of the semi-supervised domain adaptation (SSDA) problem shares the challenges with the domain adaptation problem and the semi-supervised learning problem. However, a recent study shows that conventional domain adaptation and semi-supervised learning methods often result in less effective or negative transfer in the SSDA problem. In order to interpret the observation and address the SSDA problem, in this paper, we raise the intra-domain discrepancy issue within the target domain, which has never been discussed so far. Then, we demonstrate that addressing the intra-domain discrepancy leads to the ultimate goal of the SSDA problem. We propose an SSDA framework that aims to align features via alleviation of the intra-domain discrepancy. Our framework mainly consists of three schemes, i.e., attraction, perturbation, and exploration. First, the attraction scheme globally minimizes the intra-domain discrepancy within the target domain. Second, we demonstrate the incompatibility of the conventional adversarial perturbation methods with SSDA. Then, we present a domain adaptive adversarial perturbation scheme, which perturbs the given target samples in a way that reduces the intra-domain discrepancy. Finally, the exploration scheme locally aligns features in a class-wise manner complementary to the attraction scheme by selectively aligning unlabeled target features complementary to the perturbation scheme. We conduct extensive experiments on domain adaptation benchmark datasets such as DomainNet, Office-Home, and Office. Our method achieves state-of-the-art performances on all datasets.
翻訳日:2022-11-09 05:43:03 公開日:2020-07-18
# Few-Shotオブジェクト検出のためのマルチスケール正のサンプルリファインメント

Multi-Scale Positive Sample Refinement for Few-Shot Object Detection ( http://arxiv.org/abs/2007.09384v1 )

ライセンス: Link先を確認
Jiaxi Wu, Songtao Liu, Di Huang, Yunhong Wang(参考訳) 少数ショットオブジェクト検出(fsod)は、少ないトレーニングインスタンスで未取得のクラスに適応する検出支援であり、手動アノテーションが時間を要する場合やデータ取得が制限されている場合に有用である。 FSODを促進するために数発の分類技術を利用した以前の試みとは異なり、この研究は、ユニークなサンプル分布のために難しいスケール変動の問題を扱う必要性を強調している。 そこで本研究では,FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。 オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練する。 我々は、FPNとFaster R-CNNの一般的なアーキテクチャの補助ブランチとして統合し、強力なFSODソリューションを提供することで、その利点を実証する。 PASCAL VOC と MS COCO でいくつかの実験を行い,提案手法は技術結果の状態を達成し,その効果を著しく向上させる。 コードはhttps://github.com/jiaxi-wu/MPSRで公開されている。

Few-shot object detection (FSOD) helps detectors adapt to unseen classes with few training instances, and is useful when manual annotation is time-consuming or data acquisition is limited. Unlike previous attempts that exploit few-shot classification techniques to facilitate FSOD, this work highlights the necessity of handling the problem of scale variations, which is challenging due to the unique sample distribution. To this end, we propose a Multi-scale Positive Sample Refinement (MPSR) approach to enrich object scales in FSOD. It generates multi-scale positive samples as object pyramids and refines the prediction at various scales. We demonstrate its advantage by integrating it as an auxiliary branch to the popular architecture of Faster R-CNN with FPN, delivering a strong FSOD solution. Several experiments are conducted on PASCAL VOC and MS COCO, and the proposed approach achieves state of the art results and significantly outperforms other counterparts, which shows its effectiveness. Code is available at https://github.com/jiaxi-wu/MPSR.
翻訳日:2022-11-09 05:42:38 公開日:2020-07-18
# SRNet:スプリット・アンド・リコンビインアプローチによる3次元人文推定における一般化の改善

SRNet: Improving Generalization in 3D Human Pose Estimation with a Split-and-Recombine Approach ( http://arxiv.org/abs/2007.09389v1 )

ライセンス: Link先を確認
Ailing Zeng, Xiao Sun, Fuyang Huang, Minhao Liu, Qiang Xu, Stephen Lin(参考訳) トレーニングセットで珍しい、あるいは目に見えない人間のポーズは、ネットワークが予測するのは難しい。 視覚認識における長い尾の分布問題と同様、少数の例ではネットワークがそれらをモデル化する能力に制限がある。 興味深いことに、局所的なポーズ分布は、長い尾の問題、すなわち、稀なポーズ内の局所的な関節構成がトレーニングセット内の他のポーズに出現し、希少でない。 我々はこの事実を利用して、稀で目に見えないポーズへのより良い一般化を提案する。 具体的には, 身体を局所領域に分割し, 個別のネットワーク枝で処理し, 関節位置が主に局所領域内の関節に依存する特性を生かした。 グローバルコヒーレンスは、体の他の部分から各枝に低次元ベクトルとしてグローバルコンテキストを再結合することによって維持される。 関係の少ない身体領域の次元が減少するにつれて、ネットワークブランチ内のトレーニングセット分布は、共同推論に重要な情報を犠牲にすることなく、グローバルな身体ポーズの代わりに局所的なポーズの統計をより深く反映する。 SRNetと呼ばれる提案された分割組換えアプローチは、単一画像と時間モデルの両方に容易に適用でき、稀で見えないポーズの予測において良好な改善をもたらす。

Human poses that are rare or unseen in a training set are challenging for a network to predict. Similar to the long-tailed distribution problem in visual recognition, the small number of examples for such poses limits the ability of networks to model them. Interestingly, local pose distributions suffer less from the long-tail problem, i.e., local joint configurations within a rare pose may appear within other poses in the training set, making them less rare. We propose to take advantage of this fact for better generalization to rare and unseen poses. To be specific, our method splits the body into local regions and processes them in separate network branches, utilizing the property that a joint position depends mainly on the joints within its local body region. Global coherence is maintained by recombining the global context from the rest of the body into each branch as a low-dimensional vector. With the reduced dimensionality of less relevant body areas, the training set distribution within network branches more closely reflects the statistics of local poses instead of global body poses, without sacrificing information important for joint inference. The proposed split-and-recombine approach, called SRNet, can be easily adapted to both single-image and temporal models, and it leads to appreciable improvements in the prediction of rare and unseen poses.
翻訳日:2022-11-09 05:42:18 公開日:2020-07-18
# アノテーション一貫性インスタンスの学習によるインスタンスセグメンテーションの弱化

Weakly Supervised Instance Segmentation by Learning Annotation Consistent Instances ( http://arxiv.org/abs/2007.09397v1 )

ライセンス: Link先を確認
Aditya Arun, C.V. Jawahar, M. Pawan Kumar(参考訳) 弱教師付きインスタンスセグメンテーションに対する最近のアプローチは2つのコンポーネントに依存している。 (i)与えられたアノテーションと一致するインスタンスを提供する擬似ラベル生成モデル、 (ii)インスタンスセグメンテーションモデルは、擬似ラベルを基底として教師あり方式で訓練される。 従来の手法とは異なり、条件分布を用いた擬似ラベル生成プロセスの不確かさを明示的にモデル化する。 条件分布から抽出したサンプルは, 意味クラス認識不定項, 境界認識ペアワイズ平滑性項, アノテーション認識高次項により, 正確な擬似ラベルを提供する。 さらに,インスタンスセグメンテーションモデルをアノテーションに依存しない予測分布として表現する。 従来の手法とは対照的に, 2つの分布の相似性を最小化する確率的学習目標を定義することができる。 提案手法は,PASCAL VOC 2012データセットの成果を達成し,最高のベースラインである4.2% mAP@0.5と4.8% mAP@0.75を上回った。

Recent approaches for weakly supervised instance segmentations depend on two components: (i) a pseudo label generation model that provides instances which are consistent with a given annotation; and (ii) an instance segmentation model, which is trained in a supervised manner using the pseudo labels as ground-truth. Unlike previous approaches, we explicitly model the uncertainty in the pseudo label generation process using a conditional distribution. The samples drawn from our conditional distribution provide accurate pseudo labels due to the use of semantic class aware unary terms, boundary aware pairwise smoothness terms, and annotation aware higher order terms. Furthermore, we represent the instance segmentation model as an annotation agnostic prediction distribution. In contrast to previous methods, our representation allows us to define a joint probabilistic learning objective that minimizes the dissimilarity between the two distributions. Our approach achieves state of the art results on the PASCAL VOC 2012 data set, outperforming the best baseline by 4.2% mAP@0.5 and 4.8% mAP@0.75.
翻訳日:2022-11-09 05:41:52 公開日:2020-07-18
# DDR-ID:デュアルディープレコンストラクションネットワークによる異常検出のための画像分解

DDR-ID: Dual Deep Reconstruction Networks Based Image Decomposition for Anomaly Detection ( http://arxiv.org/abs/2007.09431v1 )

ライセンス: Link先を確認
Dongyun Lin, Yiqun Li, Shudong Xie, Tin Lay Nwe, Sheng Dong(参考訳) 画像異常検出(AD)における一つの重要な課題は、通常の訓練画像からのみ識別情報を学習することである。 ほとんどの画像再構成に基づくAD法は、再構成誤差の識別能力に依存している。 これは、通常のクラス固有の情報を含まずに画像再構成が監督されないためヒューリスティックである。 本稿では,DDR-ID(Double Deep Restructed Network based Image decomposition)と呼ばれるAD手法を提案する。 ネットワークは、一級損失、潜在空間制約損失、再建損失の3つの損失を共同最適化することで訓練される。 トレーニング後、DDR-IDは、見えない画像を通常クラスと残留コンポーネントに分解することができる。 2つの異常スコアを算出し、通常のクラス潜在空間または再構成画像空間における画像の異常度を定量化する。 これにより、異常スコアのしきい値化により異常検出を行うことができる。 実験により,mnist,cifar-10,endosomeデータセットを用いた画像異常検出とgtsrbデータセットを用いた逆攻撃検出において,ddr-idが複数の関連するベンチマーク手法を上回っていることが示された。

One pivot challenge for image anomaly (AD) detection is to learn discriminative information only from normal class training images. Most image reconstruction based AD methods rely on the discriminative capability of reconstruction error. This is heuristic as image reconstruction is unsupervised without incorporating normal-class-specific information. In this paper, we propose an AD method called dual deep reconstruction networks based image decomposition (DDR-ID). The networks are trained by jointly optimizing for three losses: the one-class loss, the latent space constrain loss and the reconstruction loss. After training, DDR-ID can decompose an unseen image into its normal class and the residual components, respectively. Two anomaly scores are calculated to quantify the anomalous degree of the image in either normal class latent space or reconstruction image space. Thereby, anomaly detection can be performed via thresholding the anomaly score. The experiments demonstrate that DDR-ID outperforms multiple related benchmarking methods in image anomaly detection using MNIST, CIFAR-10 and Endosome datasets and adversarial attack detection using GTSRB dataset.
翻訳日:2022-11-09 05:41:33 公開日:2020-07-18
# 容積変圧器ネットワーク

Volumetric Transformer Networks ( http://arxiv.org/abs/2007.09433v1 )

ライセンス: Link先を確認
Seungryong Kim, Sabine S\"usstrunk, Mathieu Salzmann(参考訳) ディープ畳み込みニューラルネットワーク(CNN)内の空間不変性を符号化する既存の技術は、全ての特徴チャネルに同じワープフィールドを適用する。 これは、個々の特徴チャネルが異なる意味的部分を表現することができ、異なる空間変換を行うことができるという事実を説明できない。 この制限を克服するために、中間cnnの特徴を空間的およびチャネル的に再構成するために、チャネル毎の歪場を予測する学習可能なモジュール、ボリュームトランスフォーマネットワーク(vtn)を導入する。 我々は,VTNをエンコーダ・デコーダネットワークとして設計し,機能チャネルをまたいで情報の流れを制御し,セマンティック部分間の依存関係を考慮に入れた。 さらに,vtnのローカライズ能力を向上させるために,インスタンス対の反り特徴間に定義された損失関数を提案する。 実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。

Existing techniques to encode spatial invariance within deep convolutional neural networks (CNNs) apply the same warping field to all the feature channels. This does not account for the fact that the individual feature channels can represent different semantic parts, which can undergo different spatial transformations w.r.t. a canonical configuration. To overcome this limitation, we introduce a learnable module, the volumetric transformer network (VTN), that predicts channel-wise warping fields so as to reconfigure intermediate CNN features spatially and channel-wisely. We design our VTN as an encoder-decoder network, with modules dedicated to letting the information flow across the feature channels, to account for the dependencies between the semantic parts. We further propose a loss function defined between the warped features of pairs of instances, which improves the localization ability of VTN. Our experiments show that VTN consistently boosts the features' representation power and consequently the networks' accuracy on fine-grained image recognition and instance-level image retrieval.
翻訳日:2022-11-09 05:41:15 公開日:2020-07-18
# 談話と外部意味情報を用いたペルシアにおける感情分析の新しいアプローチ

A novel approach to sentiment analysis in Persian using discourse and external semantic information ( http://arxiv.org/abs/2007.09495v1 )

ライセンス: Link先を確認
Rahim Dehkharghani, Hojjat Emami(参考訳) 感性分析は、テキスト、オーディオ、ビデオなどの様々な種類のデータから感情状態と主観的情報を特定し、抽出し、定量化する。 近年,自然言語で書かれた文書から個人の感情を抽出する手法が提案されている。 これらのアプローチの大部分は英語に焦点を当てているが、ペルシア語のようなリソース指向言語は研究作業や言語資源の欠如に苦しんでいる。 ペルシア語におけるこのギャップのため、現在の研究はペルシア語に適用される感情分析の新しい方法を導入するために行われている。 この論文で提案されたアプローチは2つある: 1つは分類器の組み合わせ、もう1つは単語埋め込みベクトルの恩恵を受けるディープニューラルネットワークに基づいている。 どちらのアプローチも、局所的な談話情報と外部の知識ベースを活用し、否定や強化といったいくつかの言語問題を取り上げ、異なる粒度レベル、すなわち単語、アスペクト、文、句、文書レベルに対処する。 提案手法の性能を評価するため,ホテルレビューと呼ばれるペルシャのホテルレビューからペルシャのデータセットを収集した。 提案手法はベンチマークデータセットに基づく対応する手法と比較されてきた。 実験結果は,提案手法の有効性を関連研究と比較して評価した。

Sentiment analysis attempts to identify, extract and quantify affective states and subjective information from various types of data such as text, audio, and video. Many approaches have been proposed to extract the sentiment of individuals from documents written in natural languages in recent years. The majority of these approaches have focused on English, while resource-lean languages such as Persian suffer from the lack of research work and language resources. Due to this gap in Persian, the current work is accomplished to introduce new methods for sentiment analysis which have been applied on Persian. The proposed approach in this paper is two-fold: The first one is based on classifier combination, and the second one is based on deep neural networks which benefits from word embedding vectors. Both approaches takes advantage of local discourse information and external knowledge bases, and also cover several language issues such as negation and intensification, andaddresses different granularity levels, namely word, aspect, sentence, phrase and document-levels. To evaluate the performance of the proposed approach, a Persian dataset is collected from Persian hotel reviews referred as hotel reviews. The proposed approach has been compared to counterpart methods based on the benchmark dataset. The experimental results approve the effectiveness of the proposed approach when compared to related works.
翻訳日:2022-11-09 05:35:12 公開日:2020-07-18
# 開発ロボティクスのためのオープンワールドシミュレーション環境

An Open-World Simulated Environment for Developmental Robotics ( http://arxiv.org/abs/2007.09300v1 )

ライセンス: Link先を確認
SM Mazharul Islam, Md Ashaduzzaman Rubel Mondol, Aishwarya Pothula, Deokgun Park(参考訳) 人工知能の現在の傾向は、自己指導型学習へと移行しつつあるため、高度にキュレーションされたドメイン固有データ、アプリケーション固有学習モデル、外部報酬に基づく学習ポリシーといった従来の規範は、そのような発展に適した基盤を提供しないかもしれない。 本稿では,発達ロボティクスのシミュレーション環境であるsedroについて紹介する。この環境では,学習エージェントが胎児期から12ヶ月までの体験を体験できる。 発達心理学に基づく一連のシミュレーションテストは、学習モデルの進捗を評価するために使用される。

As the current trend of artificial intelligence is shifting towards self-supervised learning, conventional norms such as highly curated domain-specific data, application-specific learning models, extrinsic reward based learning policies etc. might not provide with the suitable ground for such developments. In this paper, we introduce SEDRo, a Simulated Environment for Developmental Robotics which allows a learning agent to have similar experiences that a human infant goes through from the fetus stage up to 12 months. A series of simulated tests based on developmental psychology will be used to evaluate the progress of a learning model.
翻訳日:2022-11-09 05:34:38 公開日:2020-07-18
# 可視赤外人物再同定のための動的デュアルアグリゲーション学習

Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2007.09314v1 )

ライセンス: Link先を確認
Mang Ye, Jianbing Shen, David J. Crandall, Ling Shao, Jiebo Luo(参考訳) Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。 クラス内変異が大きいことと,サンプルノイズが多量にあることが原因で,識別的特徴の習得が困難である。 既存のVI-ReID法は、ノイズの多い画像に対する識別可能性と弱い堅牢性に制限されたグローバル表現を学習する傾向がある。 そこで本稿では,VI-ReIDのための動的双対集約(DDAG)学習手法を提案し,モダリティ内部分レベルとクロスモダリティグラフレベルのコンテキストキューの両方をマイニングする。 本稿では,部分関係マイニングにドメイン知識を付与することにより,識別的部分集約特徴を抽出するためのモダリティ内重み付け部分注意モジュールを提案する。 雑音試料に対するロバスト性を高めるために,2つのモダリティ間の文脈関係による表現強化のために,クロスモダリティグラフ構造化注意を導入する。 また,パラメータフリーな動的双対アグリゲーション学習戦略を開発し,これら2成分を段階的な共同学習方式で適応的に統合する。 大規模な実験により、DDAGは様々な条件下で最先端の手法より優れていることが示された。

Visible-infrared person re-identification (VI-ReID) is a challenging cross-modality pedestrian retrieval problem. Due to the large intra-class variations and cross-modality discrepancy with large amount of sample noise, it is difficult to learn discriminative part features. Existing VI-ReID methods instead tend to learn global representations, which have limited discriminability and weak robustness to noisy images. In this paper, we propose a novel dynamic dual-attentive aggregation (DDAG) learning method by mining both intra-modality part-level and cross-modality graph-level contextual cues for VI-ReID. We propose an intra-modality weighted-part attention module to extract discriminative part-aggregated features, by imposing the domain knowledge on the part relationship mining. To enhance robustness against noisy samples, we introduce cross-modality graph structured attention to reinforce the representation with the contextual relations across the two modalities. We also develop a parameter-free dynamic dual aggregation learning strategy to adaptively integrate the two components in a progressive joint training manner. Extensive experiments demonstrate that DDAG outperforms the state-of-the-art methods under various settings.
翻訳日:2022-11-09 05:33:31 公開日:2020-07-18
# ドメイン一般化のための外在的・内在的スーパービジョンからの学習

Learning from Extrinsic and Intrinsic Supervisions for Domain Generalization ( http://arxiv.org/abs/2007.09316v1 )

ライセンス: Link先を確認
Shujun Wang, Lequan Yu, Caizi Li, Chi-Wing Fu, and Pheng-Ann Heng(参考訳) ドメイン間のニューラルネットワークの一般化能力は、現実世界のアプリケーションにとって不可欠である。 一般化された物体認識システムは、異なる画像間の関係や画像自体を同時に理解すべきである、と我々は主張する。 そこで本研究では,マルチソースドメインの画像に対する外在的関係監視と内在的自己監督から,ドメイン間の共通化を同時に行うための新しいドメイン一般化フレームワークを提案する。 具体的には、マルチタスク学習パラダイムを用いた機能埋め込みでフレームワークを定式化する。 共通教師付き認識タスクの実施に加えて,運動量学習タスクと自己指導型補助タスクをシームレスに統合し,外在的監督と内在的監督を総合的に活用する。 また,k-hard negative mining を用いた効果的な運動量メトリック学習手法を開発し,ネットワークを増強し,領域一般化のための画像関係を捉える。 提案手法の有効性をVLCSとPACSの2つの標準オブジェクト認識ベンチマークに示すとともに,本手法が最先端性能を実現することを示す。

The generalization capability of neural networks across domains is crucial for real-world applications. We argue that a generalized object recognition system should well understand the relationships among different images and also the images themselves at the same time. To this end, we present a new domain generalization framework that learns how to generalize across domains simultaneously from extrinsic relationship supervision and intrinsic self-supervision for images from multi-source domains. To be specific, we formulate our framework with feature embedding using a multi-task learning paradigm. Besides conducting the common supervised recognition task, we seamlessly integrate a momentum metric learning task and a self-supervised auxiliary task to collectively utilize the extrinsic supervision and intrinsic supervision. Also, we develop an effective momentum metric learning scheme with K-hard negative mining to boost the network to capture image relationship for domain generalization. We demonstrate the effectiveness of our approach on two standard object recognition benchmarks VLCS and PACS, and show that our methods achieve state-of-the-art performance.
翻訳日:2022-11-09 05:33:13 公開日:2020-07-18
# LiteFlowNet3: より正確な光フロー推定のための対応曖昧性の解消

LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate Optical Flow Estimation ( http://arxiv.org/abs/2007.09319v1 )

ライセンス: Link先を確認
Tak-Wai Hui, Chen Change Loy(参考訳) ディープラーニングアプローチは光フロー推定の問題に対処する上で大きな成功を収めている。 成功の鍵はコストボリュームと細かなフロー推論を使うことにある。 しかし、画像に部分的または均質な領域が存在する場合、マッチング問題は不適切になる。 これにより、コスト容積が外れ値を含み、フローの復号化に影響を及ぼす。 さらに、粗大なフロー推論は正確なフローの初期化を要求する。 曖昧な対応は誤った流れ場をもたらし、その後のレベルのフロー推論に影響を与える。 本稿では,2つのモジュールからなるディープネットワークである LiteFlowNet3 を紹介し,上記の課題に対処する。 1) フロー復号に先立って, 適応変調により各コストベクトルを補正することにより, コストボリュームのアウトレーヤの問題を改善する。 2) 局所的な流れの整合性を探ることで, 流れの精度をさらに向上する。 この目的のために、各不正確な光流は、流れ場の新規なワープにより、近くの位置からの正確な流れに置き換えられる。 LiteFlowNet3は、公開ベンチマークで有望な結果を達成するだけでなく、小さなモデルサイズと高速ランタイムも備えている。

Deep learning approaches have achieved great success in addressing the problem of optical flow estimation. The keys to success lie in the use of cost volume and coarse-to-fine flow inference. However, the matching problem becomes ill-posed when partially occluded or homogeneous regions exist in images. This causes a cost volume to contain outliers and affects the flow decoding from it. Besides, the coarse-to-fine flow inference demands an accurate flow initialization. Ambiguous correspondence yields erroneous flow fields and affects the flow inferences in subsequent levels. In this paper, we introduce LiteFlowNet3, a deep network consisting of two specialized modules, to address the above challenges. (1) We ameliorate the issue of outliers in the cost volume by amending each cost vector through an adaptive modulation prior to the flow decoding. (2) We further improve the flow accuracy by exploring local flow consistency. To this end, each inaccurate optical flow is replaced with an accurate one from a nearby position through a novel warping of the flow field. LiteFlowNet3 not only achieves promising results on public benchmarks but also has a small model size and a fast runtime.
翻訳日:2022-11-09 05:32:55 公開日:2020-07-18
# AABO:ベイズサブサンプリングによる物体検出のための適応アンカーボックス最適化

AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling ( http://arxiv.org/abs/2007.09336v1 )

ライセンス: Link先を確認
Wenshuo Ma, Tingzhong Tian, Hang Xu, Yimin Huang, Zhenguo Li(参考訳) ほとんどの最先端のオブジェクト検出システムはアンカーベースダイアグラムに従っている。 アンカーボックスは画像上に密に提案され、ネットワークはボックスの位置オフセットと分類信頼度を予測するように訓練される。 既存のシステムでは、アンカーボックスの形状とサイズを事前に定義し、アンカー構成を定義するためにアドホックなヒューリスティックな調整が使用される。 しかし、新しいデータセットや新しいモデルが採用された場合、これは最適ではないかもしれない。 本稿では,物体検出のためのアンカーボックスの自動最適化問題について検討する。 まず,アンカー数,アンカースケール,比率が,信頼性の高い物体検出システムにとって重要な要因であることを示す。 特徴階層上の既存の境界ボックスパターンを慎重に分析することにより、アンカー構成のためのフレキシブルでタイトなハイパーパラメータ空間を設計する。 そこで, ベイズ最適化とサブサンプリングを組み合わせ, 高精度かつ効率的なアンカー構成最適化を実現する, AABO と呼ばれる新しいハイパーパラメータ最適化手法を提案する。 実験では、COCOで約2.4%のmAP改善、ADEで1.6%、VGで1.5%、最適なアンカーでSOTAで1.4%から2.4%のmAP改善を実現し、アンカー構成を最適化するだけで、例えばMask RCNNを40.3%から42.3%に、HTCの検出器を46.8%から48.2%に増やすことができる。

Most state-of-the-art object detection systems follow an anchor-based diagram. Anchor boxes are densely proposed over the images and the network is trained to predict the boxes position offset as well as the classification confidence. Existing systems pre-define anchor box shapes and sizes and ad-hoc heuristic adjustments are used to define the anchor configurations. However, this might be sub-optimal or even wrong when a new dataset or a new model is adopted. In this paper, we study the problem of automatically optimizing anchor boxes for object detection. We first demonstrate that the number of anchors, anchor scales and ratios are crucial factors for a reliable object detection system. By carefully analyzing the existing bounding box patterns on the feature hierarchy, we design a flexible and tight hyper-parameter space for anchor configurations. Then we propose a novel hyper-parameter optimization method named AABO to determine more appropriate anchor boxes for a certain dataset, in which Bayesian Optimization and subsampling method are combined to achieve precise and efficient anchor configuration optimization. Experiments demonstrate the effectiveness of our proposed method on different detectors and datasets, e.g. achieving around 2.4% mAP improvement on COCO, 1.6% on ADE and 1.5% on VG, and the optimal anchors can bring 1.4% to 2.4% mAP improvement on SOTA detectors by only optimizing anchor configurations, e.g. boosting Mask RCNN from 40.3% to 42.3%, and HTC detector from 46.8% to 48.2%.
翻訳日:2022-11-09 05:32:41 公開日:2020-07-18
# クイック質問:強化学習によるマイクロタスクのユーザ中断

Quick Question: Interrupting Users for Microtasks with Reinforcement Learning ( http://arxiv.org/abs/2007.09515v1 )

ライセンス: Link先を確認
Bo-Jhang Ho, Bharathan Balaji, Mehmet Koseoglu, Sandeep Sandha, Siyou Pei, Mani Srivastava(参考訳) 人間の注意は現代のコンピューティングでは希少な資源である。 クラウドソース情報へのユーザの注意を喚起し、瞬間的な評価を行い、サービスをパーソナライズし、単一のタッチでアクションを実行します。 これらのタスクが、その日の目に見えない自由な瞬間を取り上げると、多くのことが起こります。 しかし、不適切なタイミングでの中断は生産性を低下させ、不安を引き起こす。 以前の研究では、コンテキストの手がかりと行動データを活用して、マイクロタスクの割り込み可能性を特定し、大きな成功を収めている。 In Quick Questionでは、マイクロタスクのスケジューリングに強化学習(RL)を用い、ユーザの不安を最小限に抑えながら、その性能を教師付き学習と比較する。 我々はマルコフ決定プロセスとして問題をモデル化し、アドバンテージアクター批判アルゴリズムを用いてユーザインタラクションのコンテキストと履歴に基づいて割り込み可能なモーメントを識別する。 5週間の30名の被験者を対象に,提案したRLアルゴリズムと教師あり学習手法を比較した。 両手法間のレスポンスの平均数は相反するが,RLは通知の取り消しを回避し,時間の経過とともにユーザエクスペリエンスを向上する。

Human attention is a scarce resource in modern computing. A multitude of microtasks vie for user attention to crowdsource information, perform momentary assessments, personalize services, and execute actions with a single touch. A lot gets done when these tasks take up the invisible free moments of the day. However, an interruption at an inappropriate time degrades productivity and causes annoyance. Prior works have exploited contextual cues and behavioral data to identify interruptibility for microtasks with much success. With Quick Question, we explore use of reinforcement learning (RL) to schedule microtasks while minimizing user annoyance and compare its performance with supervised learning. We model the problem as a Markov decision process and use Advantage Actor Critic algorithm to identify interruptible moments based on context and history of user interactions. In our 5-week, 30-participant study, we compare the proposed RL algorithm against supervised learning methods. While the mean number of responses between both methods is commensurate, RL is more effective at avoiding dismissal of notifications and improves user experience over time.
翻訳日:2022-11-09 05:25:41 公開日:2020-07-18
# 訓練された分類器の量子アンサンブル

Quantum ensemble of trained classifiers ( http://arxiv.org/abs/2007.09293v1 )

ライセンス: Link先を確認
Ismael C. S. Araujo and Adenilton J. da Silva(参考訳) 重ね合わせにより、量子コンピュータは利用可能な量子ビットの数に応じて指数的に大きな状態の集合を表現することができる。 量子機械学習は量子コンピューティングのサブフィールドであり、量子コンピューティングの可能性を探り、機械学習アルゴリズムを強化する。 量子分類器の量子アンサンブルと呼ばれる量子機械学習のアプローチは、重ね合わせを使って指数関数的に大きな分類器アンサンブルを構築し、最適化フリーな学習アルゴリズムで学習する。 本研究では,最適化手法の付加により量子アンサンブルがどのように機能するかを検討する。 ベンチマークデータセットを用いた実験は、最適化ステップの追加によって得られた改善を示している。

Through superposition, a quantum computer is capable of representing an exponentially large set of states, according to the number of qubits available. Quantum machine learning is a subfield of quantum computing that explores the potential of quantum computing to enhance machine learning algorithms. An approach of quantum machine learning named quantum ensembles of quantum classifiers consists of using superposition to build an exponentially large ensemble of classifiers to be trained with an optimization-free learning algorithm. In this work, we investigate how the quantum ensemble works with the addition of an optimization method. Experiments using benchmark datasets show the improvements obtained with the addition of the optimization step.
翻訳日:2022-11-09 05:25:23 公開日:2020-07-18
# 空間埋め込み型ネットワークを含む教師なし学習に適応したモジュラリティ関数の新たな性質 : 比較解析

A new nature inspired modularity function adapted for unsupervised learning involving spatially embedded networks: A comparative analysis ( http://arxiv.org/abs/2007.09330v1 )

ライセンス: Link先を確認
Raj Kishore, Zohar Nussinov, Kisor Kumar Sahu(参考訳) 大量のラベル付きデータが手軽に利用できない、あるいは生成が非常に困難でコストがかかる、多くの伝統的なエンジニアリング分野において、教師なしの機械学習手法は大きな助けになる。 2つの具体例は、粒状物質の構造と金属ガラスの原子構造である。 前者は数十億ドルのグローバル産業にとって非常に重要であるが、後者は基礎科学において依然として大きなパズルである。 どちらの例でもよく見られるのは、粒子はユークリッド空間に埋め込まれたアンサンブルの要素であり、その重要な特徴を表現するために空間的に埋め込まれたネットワークを作ることができるということである。 近年の研究では、教師なし学習を指すクラスタリングが、これらのネットワークの分割において大きな可能性を秘めていることが示されている。 多くの複雑なネットワークにおいて、ノードの空間情報はネットワーク特性を決定する上で非常に重要な役割を果たす。 このようなネットワークの構造を理解することが非常に重要です。 新たに開発したモジュラリティ関数の性能を,よく知られたモジュラリティ関数と比較した。 2次元および3次元の粒状アセンブリで最適なパーティションを見つけることで、この比較を行った。 本稿では,本論文で検討したネットワークのクラスに対して,本手法が競合する手法よりも優れた結果をもたらすことを示す。

Unsupervised machine learning methods can be of great help in many traditional engineering disciplines, where huge amount of labeled data is not readily available or is extremely difficult or costly to generate. Two specific examples include the structure of granular materials and atomic structure of metallic glasses. While the former is critically important for several hundreds of billion dollars global industries, the latter is still a big puzzle in fundamental science. One thing is common in both the examples is that the particles are the elements of the ensembles that are embedded in Euclidean space and one can create a spatially embedded network to represent their key features. Some recent studies show that clustering, which generically refers to unsupervised learning, holds great promise in partitioning these networks. In many complex networks, the spatial information of nodes play very important role in determining the network properties. So understanding the structure of such networks is very crucial. We have compared the performance of our newly developed modularity function with some of the well-known modularity functions. We performed this comparison by finding the best partition in 2D and 3D granular assemblies. We show that for the class of networks considered in this article, our method produce much better results than the competing methods.
翻訳日:2022-11-09 05:25:12 公開日:2020-07-18
# タンパク質界面予測のための高次相互作用の深層学習

Deep Learning of High-Order Interactions for Protein Interface Prediction ( http://arxiv.org/abs/2007.09334v1 )

ライセンス: Link先を確認
Yi Liu, Hao Yuan, Lei Cai and Shuiwang Ji(参考訳) タンパク質の相互作用は幅広い生物学的プロセスにおいて重要である。 伝統的に、手作りの特徴からタンパク質界面を自動的に予測する計算手法が開発されている。 近年のアプローチでは、ディープニューラルネットワークを採用し、各アミノ酸対の相互作用を独立して予測している。 しかし、これらの方法はアミノ酸鎖からの重要なシーケンシャルな情報や高次対相互作用を含まない。 直感的には、アミノ酸対の予測は、その特徴と他のアミノ酸対の情報の両方に依存するべきである。 本研究では,タンパク質界面の予測を2次元密度予測問題として定式化する。 さらに,シーケンシャル情報と高次ペアワイズインタラクションを統合し,インタフェース予測を行う新しい深層モデルを提案する。 タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。 次に,逐次情報を取り込んで特徴行列を並べ替える逐次モデリング手法を提案する。 次に、高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。 最後に,畳み込みニューラルネットワークを用いて2次元密度予測を行う。 複数のベンチマークによる実験結果から,提案手法はタンパク質界面予測性能を一貫して向上できることが示された。

Protein interactions are important in a broad range of biological processes. Traditionally, computational methods have been developed to automatically predict protein interface from hand-crafted features. Recent approaches employ deep neural networks and predict the interaction of each amino acid pair independently. However, these methods do not incorporate the important sequential information from amino acid chains and the high-order pairwise interactions. Intuitively, the prediction of an amino acid pair should depend on both their features and the information of other amino acid pairs. In this work, we propose to formulate the protein interface prediction as a 2D dense prediction problem. In addition, we propose a novel deep model to incorporate the sequential information and high-order pairwise interactions to perform interface predictions. We represent proteins as graphs and employ graph neural networks to learn node features. Then we propose the sequential modeling method to incorporate the sequential information and reorder the feature matrix. Next, we incorporate high-order pairwise interactions to generate a 3D tensor containing different pairwise interactions. Finally, we employ convolutional neural networks to perform 2D dense predictions. Experimental results on multiple benchmarks demonstrate that our proposed method can consistently improve the protein interface prediction performance.
翻訳日:2022-11-09 05:24:53 公開日:2020-07-18
# AIの民主化と保護の方法 - 公平で個人的な深層学習

How to Democratise and Protect AI: Fair and Differentially Private Decentralised Deep Learning ( http://arxiv.org/abs/2007.09370v1 )

ライセンス: Link先を確認
Lingjuan Lyu, Yitong Li, Karthik Nandakumar, Jiangshan Yu, Xingjun Ma(参考訳) 本稿ではまず,協調的深層学習における公正性の研究課題について考察する。 公正性を確保するために,デジタルトークンと局所的信頼性によって新たな評価システムを提案し,プライバシを保証するための差分プライバシーと組み合わせた。 In particular, we build a fair and differentially private decentralised deep learning framework called FDPDDL, which enables parties to derive more accurate local models in a fair and private manner by using our developed two-stage scheme: during the initialisation stage, artificial samples generated by Differentially Private Generative Adversarial Network (DPGAN) are used to mutually benchmark the local credibility of each party and generate initial tokens; during the update stage, Differentially Private SGD (DPSGD) is used to facilitate collaborative privacy-preserving deep learning, and local credibility and tokens of each party are updated according to the quality and quantity of individually released gradients. 3つの現実的な設定下でのベンチマークデータセットの実験結果から、FDPDDLは高い公正性を達成し、集中化および分散フレームワークに匹敵する精度を示し、スタンドアロンフレームワークよりも優れた精度を提供する。

This paper firstly considers the research problem of fairness in collaborative deep learning, while ensuring privacy. A novel reputation system is proposed through digital tokens and local credibility to ensure fairness, in combination with differential privacy to guarantee privacy. In particular, we build a fair and differentially private decentralised deep learning framework called FDPDDL, which enables parties to derive more accurate local models in a fair and private manner by using our developed two-stage scheme: during the initialisation stage, artificial samples generated by Differentially Private Generative Adversarial Network (DPGAN) are used to mutually benchmark the local credibility of each party and generate initial tokens; during the update stage, Differentially Private SGD (DPSGD) is used to facilitate collaborative privacy-preserving deep learning, and local credibility and tokens of each party are updated according to the quality and quantity of individually released gradients. Experimental results on benchmark datasets under three realistic settings demonstrate that FDPDDL achieves high fairness, yields comparable accuracy to the centralised and distributed frameworks, and delivers better accuracy than the standalone framework.
翻訳日:2022-11-09 05:24:36 公開日:2020-07-18
# マニフォールド上のフィルタハイパー補間による分散学習

Distributed Learning via Filtered Hyperinterpolation on Manifolds ( http://arxiv.org/abs/2007.09392v1 )

ライセンス: Link先を確認
Guido Mont\'ufar, Yu Guang Wang(参考訳) 多様体上のデータの学習マッピングは、天体物理学、地球物理学、統計物理学、医学診断、生化学、3dオブジェクト分析など、現代の機械学習において重要なトピックである。 本稿では,入力が決定論的あるいはランダムにサンプリングされ,出力がクリーンあるいはノイズになるような入出力データ対のフィルタ付きハイパー補間を通じて,多様体上の実数値関数を学習する問題について検討する。 大規模データセットを扱う問題に動機づけられ、複数のサーバ間でデータフィッティングタスクを分散し、適合したサブモデルをグローバル推定器に合成する並列データ処理手法を提案する。 本研究では,多様体全体の学習関数の近似品質,対象関数の種類,サーバ数,利用可能なサンプルの数と種類との関係を定量的に証明する。 分散および非分散アプローチにおける収束の近似率を求める。 非分散の場合、近似順序は最適である。

Learning mappings of data on manifolds is an important topic in contemporary machine learning, with applications in astrophysics, geophysics, statistical physics, medical diagnosis, biochemistry, 3D object analysis. This paper studies the problem of learning real-valued functions on manifolds through filtered hyperinterpolation of input-output data pairs where the inputs may be sampled deterministically or at random and the outputs may be clean or noisy. Motivated by the problem of handling large data sets, it presents a parallel data processing approach which distributes the data-fitting task among multiple servers and synthesizes the fitted sub-models into a global estimator. We prove quantitative relations between the approximation quality of the learned function over the entire manifold, the type of target function, the number of servers, and the number and type of available samples. We obtain the approximation rates of convergence for distributed and non-distributed approaches. For the non-distributed case, the approximation order is optimal.
翻訳日:2022-11-09 05:23:59 公開日:2020-07-18
# ユニバーサル病変検出のための境界マップ

Bounding Maps for Universal Lesion Detection ( http://arxiv.org/abs/2007.09383v1 )

ライセンス: Link先を確認
Han Li, Hu Han, and S. Kevin Zhou(参考訳) コンピュータ断層撮影におけるユニバーサル病変検出(ULD)は,コンピュータ支援診断システムにおいて重要な役割を担っている。 多くの検出手法は、可能なバウンディングボックス(またはアンカー)を提案として、UDDに対して優れた結果が得られる。 しかし、実証的な証拠は、アンカーベースの提案を使用することで高い偽陽性(FP)率につながることを示している。 本稿では, x-, y-, xy-方向の境界を持つ3つのソフト連続写像を持つ境界ボックスを表すbox-to-map法を提案する。 境界マップ(BM)は2段階のアンカーベースのUDDフレームワークでFPレートを減らすために使用される。 領域提案ネットワークの第1段階では,アンカーの鋭い二値接地ラベルを対応するxy方向bmに置き換えることにより,正のアンカーが格付けされる。 第2段階では、詳細な位置の監視のために、x方向とy方向で連続的なBMを取るブランチを追加します。 提案手法は,最先端の2段式アンカーを用いた3つの検出手法に組み込むと,余分な推論時間なしで自由検出精度が向上する(例:1.68%から3.85%の感度を4FPで向上させる)。

Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis systems. Many detection approaches achieve excellent results for ULD using possible bounding boxes (or anchors) as proposals. However, empirical evidence shows that using anchor-based proposals leads to a high false-positive (FP) rate. In this paper, we propose a box-to-map method to represent a bounding box with three soft continuous maps with bounds in x-, y- and xy- directions. The bounding maps (BMs) are used in two-stage anchor-based ULD frameworks to reduce the FP rate. In the 1 st stage of the region proposal network, we replace the sharp binary ground-truth label of anchors with the corresponding xy-direction BM hence the positive anchors are now graded. In the 2 nd stage, we add a branch that takes our continuous BMs in x- and y- directions for extra supervision of detailed locations. Our method, when embedded into three state-of-the-art two-stage anchor-based detection methods, brings a free detection accuracy improvement (e.g., a 1.68% to 3.85% boost of sensitivity at 4 FPs) without extra inference time.
翻訳日:2022-11-09 05:23:28 公開日:2020-07-18
# 基礎写真を用いた糖尿病網膜症の分類 : 深層学習による疾患検出の高速化

Classification of Diabetic Retinopathy via Fundus Photography: Utilization of Deep Learning Approaches to Speed up Disease Detection ( http://arxiv.org/abs/2007.09478v1 )

ライセンス: Link先を確認
Hangwei Zhuang and Nabil Ettehadi(参考訳) 本稿では,糖尿病網膜症(DR)分類問題に対する2つの異なる解法を提案する。 最初のアプローチでは、浅いニューラルネットワークアーキテクチャを紹介します。 このモデルは最も頻繁なクラスの分類でうまく機能するが、頻繁でないクラスの分類には失敗する。 第2のアプローチでは、トランスファーラーニングを使用して、非常に深いニューラルネットワークの最後の修正層をトレーニングし、モデルの一般化能力をより少ないクラスに向上させる。 本研究は,浅層ニューラルネットワークと比較して,低頻度クラスdr分類におけるトランスファー学習の優れた能力を示す。

In this paper, we propose two distinct solutions to the problem of Diabetic Retinopathy (DR) classification. In the first approach, we introduce a shallow neural network architecture. This model performs well on classification of the most frequent classes while fails at classifying the less frequent ones. In the second approach, we use transfer learning to re-train the last modified layer of a very deep neural network to improve the generalization ability of the model to the less frequent classes. Our results demonstrate superior abilities of transfer learning in DR classification of less frequent classes compared to the shallow neural network.
翻訳日:2022-11-09 05:23:06 公開日:2020-07-18
# 勾配降下, 層不均衡, 平坦極小の正則化について

On regularization of gradient descent, layer imbalance and flat minima ( http://arxiv.org/abs/2007.09286v1 )

ライセンス: Link先を確認
Boris Ginsburg(参考訳) 我々は、解の平坦性を定義する新しい計量-層不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。 重みの減衰やノイズデータ拡張といった異なる正規化手法が同じように振る舞うことを実証する。 訓練には2つの段階がある。 1【最適化】 2) 規則化。 まず、最適化フェーズの間、損失関数は単調に減少し、軌道はミニマ多様体に向かう。 そして、正則化フェーズの間、層の不均衡が減少し、軌道は極小多様体に沿って平坦な領域に向かう。 最後に、確率勾配降下の解析を拡張し、SGDが雑音正規化と同様に動作することを示す。

We analyze the training dynamics for deep linear networks using a new metric - layer imbalance - which defines the flatness of a solution. We demonstrate that different regularization methods, such as weight decay or noise data augmentation, behave in a similar way. Training has two distinct phases: 1) optimization and 2) regularization. First, during the optimization phase, the loss function monotonically decreases, and the trajectory goes toward a minima manifold. Then, during the regularization phase, the layer imbalance decreases, and the trajectory goes along the minima manifold toward a flat area. Finally, we extend the analysis for stochastic gradient descent and show that SGD works similarly to noise regularization.
翻訳日:2022-11-09 05:16:20 公開日:2020-07-18
# より深いグラフニューラルネットワークを目指して

Towards Deeper Graph Neural Networks ( http://arxiv.org/abs/2007.09296v1 )

ライセンス: Link先を確認
Meng Liu, Hongyang Gao, Shuiwang Ji(参考訳) グラフニューラルネットワークは、グラフ表現学習の分野で大きな成功を収めている。 グラフ畳み込みは近傍の集約を行い、最も重要なグラフ操作の1つである。 それにもかかわらず、これらの近傍集約手法の1つの層はすぐ隣のみを考慮し、より大きな受容場を実現するためにより深く進むと性能が低下する。 いくつかの最近の研究は、この性能劣化は、繰り返し伝播が異なるクラスのノード表現を区別不能にする、という過度な問題に起因している。 本研究では,この観測を体系的に研究し,より深いグラフニューラルネットワークに対する新たな洞察を開拓する。 まず,この問題を体系的に分析し,現在のグラフ畳み込み操作における表現変換と伝播の絡み合いについて,性能を著しく向上させる重要な要因について論じる。 これら2つの操作を分離した後、より深いグラフニューラルネットワークを使用して、より大きな受容領域からグラフノード表現を学ぶことができる。 さらに,超深層モデルを構築する際の観測を理論的に解析し,過密な問題に対する厳密かつ穏やかな説明として機能する。 本稿では,我々の理論的および経験的分析に基づいて,大規模受容場からの情報を適応的に組み込む深層適応グラフニューラルネットワーク(DAGNN)を提案する。 引用,共著者,共同購入データセットに関する一連の実験により,分析と洞察を確認し,提案手法の優位性を実証した。

Graph neural networks have shown significant success in the field of graph representation learning. Graph convolutions perform neighborhood aggregation and represent one of the most important graph operations. Nevertheless, one layer of these neighborhood aggregation methods only consider immediate neighbors, and the performance decreases when going deeper to enable larger receptive fields. Several recent studies attribute this performance deterioration to the over-smoothing issue, which states that repeated propagation makes node representations of different classes indistinguishable. In this work, we study this observation systematically and develop new insights towards deeper graph neural networks. First, we provide a systematical analysis on this issue and argue that the key factor compromising the performance significantly is the entanglement of representation transformation and propagation in current graph convolution operations. After decoupling these two operations, deeper graph neural networks can be used to learn graph node representations from larger receptive fields. We further provide a theoretical analysis of the above observation when building very deep models, which can serve as a rigorous and gentle description of the over-smoothing issue. Based on our theoretical and empirical analysis, we propose Deep Adaptive Graph Neural Network (DAGNN) to adaptively incorporate information from large receptive fields. A set of experiments on citation, co-authorship, and co-purchase datasets have confirmed our analysis and insights and demonstrated the superiority of our proposed methods.
翻訳日:2022-11-09 05:16:09 公開日:2020-07-18
# DWMD: ドメイン固有隠れ表現マッチングのための次元重み付きモーメント差分法

DWMD: Dimensional Weighted Orderwise Moment Discrepancy for Domain-specific Hidden Representation Matching ( http://arxiv.org/abs/2007.09312v1 )

ライセンス: Link先を確認
Rongzhe Wei, Fa Zhang, Bo Dong and Qinghua Zheng(参考訳) ソースドメインから異なるがセマンティックに関連付けられたターゲットドメインへの知識伝達は、教師なしドメイン適応(UDA)の文脈において、長い間重要なトピックであった。 この分野での重要な課題は、特に隠れ活性化空間における特徴表現のマッチングにおいて、2つの同質領域間のデータ分散の差を正確に測定し、分布アライメントにそれを適用できる計量を確立することである。 既存の分布マッチングアプローチは、高次モーメントを明示的に整列化できないか、実用上の前提条件を満たすかのどちらかであると解釈できる。 udaシナリオにおける特徴表現マッチングのための新しいモーメントベース確率分布メトリックである次元重み付き順序付けモーメント不一致(dwmd)を提案する。 我々の計量関数は高次モーメントアライメントの級数を利用しており、我々のDWMD計量関数が誤りのないことを理論的に証明している。 また,各特徴次元における確率分布の相違は異なるため,本関数では次元重み付けが考慮されている。 さらに,DWMD測度における経験的推定値の誤差境界を実用的に計算する。 ベンチマークデータセットに関する総合的な実験は、我々の手法が最先端の分布指標をもたらすことを示している。

Knowledge transfer from a source domain to a different but semantically related target domain has long been an important topic in the context of unsupervised domain adaptation (UDA). A key challenge in this field is establishing a metric that can exactly measure the data distribution discrepancy between two homogeneous domains and adopt it in distribution alignment, especially in the matching of feature representations in the hidden activation space. Existing distribution matching approaches can be interpreted as failing to either explicitly orderwise align higher-order moments or satisfy the prerequisite of certain assumptions in practical uses. We propose a novel moment-based probability distribution metric termed dimensional weighted orderwise moment discrepancy (DWMD) for feature representation matching in the UDA scenario. Our metric function takes advantage of a series for high-order moment alignment, and we theoretically prove that our DWMD metric function is error-free, which means that it can strictly reflect the distribution differences between domains and is valid without any feature distribution assumption. In addition, since the discrepancies between probability distributions in each feature dimension are different, dimensional weighting is considered in our function. We further calculate the error bound of the empirical estimate of the DWMD metric in practical applications. Comprehensive experiments on benchmark datasets illustrate that our method yields state-of-the-art distribution metrics.
翻訳日:2022-11-09 05:15:48 公開日:2020-07-18
# mtl2l : 文脈認識型ニューラルオプティマイザー

MTL2L: A Context Aware Neural Optimiser ( http://arxiv.org/abs/2007.09343v1 )

ライセンス: Link先を確認
Nicholas I-Hsien Kuo, Mehrtash Harandi, Nicolas Fourrier, Christian Walder, Gabriela Ferraro, Hanna Suominen(参考訳) 学習学習(L2L)は、タスク固有のベースラーナーの学習を支援するメタラーナーを訓練する。 これまでは、メタ学習者が学習者のパラメータを更新するための直接的なルールを学習できること、そして学習した神経オプティマイザーが学習者を手作りの勾配変性法よりも迅速に更新できることが示されていた。 しかし,従来のニューラルオプティマイザは,指定されたデータセットの学習者の更新に限られていた。 入力領域の不均一性に対処するために、入力データに基づいて最適化ルールを自己修正するコンテキスト認識ニューラルネットワークオプティマイザーであるmulti-task learning to learn (mtl2l)を導入する。 MTL2Lはメタテストフェーズにおいて、未確認入力領域のデータに基づいて学習者の分類を更新できることを示す。

Learning to learn (L2L) trains a meta-learner to assist the learning of a task-specific base learner. Previously, it was shown that a meta-learner could learn the direct rules to update learner parameters; and that the learnt neural optimiser updated learners more rapidly than handcrafted gradient-descent methods. However, we demonstrate that previous neural optimisers were limited to update learners on one designated dataset. In order to address input-domain heterogeneity, we introduce Multi-Task Learning to Learn (MTL2L), a context aware neural optimiser which self-modifies its optimisation rules based on input data. We show that MTL2L is capable of updating learners to classify on data of an unseen input-domain at the meta-testing phase.
翻訳日:2022-11-09 05:15:28 公開日:2020-07-18
# 公平な分類に対する分布的ロバストなアプローチ

A Distributionally Robust Approach to Fair Classification ( http://arxiv.org/abs/2007.09530v1 )

ライセンス: Link先を確認
Bahar Taskesen and Viet Anh Nguyen and Daniel Kuhn and Jose Blanchet(参考訳) 本研究では,性別や民族性などの繊細な属性に対する差別を防止する不公平性ペナルティを伴う分布的ロジスティック回帰モデルを提案する。 このモデルは、トレーニングデータに経験分布を中心とするワッサースタイン球を用いて分布の不確かさをモデル化し、また、新たな凸不公平性尺度を用いて等化機会をインセンティブ化した場合、可搬凸最適化問題と同値である。 得られた分類器は, 合成データセットと実データセットの両方において, 予測精度の限界損失による公平性の向上を実証する。 また,ワッサースタイン球上の最適不確実性定量化の手法を活用し,事前学習された分類器の不公平性レベルに対する線形計画に基づく信頼度境界を導出する。

We propose a distributionally robust logistic regression model with an unfairness penalty that prevents discrimination with respect to sensitive attributes such as gender or ethnicity. This model is equivalent to a tractable convex optimization problem if a Wasserstein ball centered at the empirical distribution on the training data is used to model distributional uncertainty and if a new convex unfairness measure is used to incentivize equalized opportunities. We demonstrate that the resulting classifier improves fairness at a marginal loss of predictive accuracy on both synthetic and real datasets. We also derive linear programming-based confidence bounds on the level of unfairness of any pre-trained classifier by leveraging techniques from optimal uncertainty quantification over Wasserstein balls.
翻訳日:2022-11-09 05:14:52 公開日:2020-07-18
# 関節球面木とテキスト埋め込みによる階層的トピックマイニング

Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding ( http://arxiv.org/abs/2007.09536v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Chao Zhang, Jiawei Han(参考訳) 階層構造に整理された意味のあるトピックの集合をマイニングすることは直感的に魅力的である。 階層的トピック構造の可能性を考慮するため、階層的トピックモデルは、潜在的トピック階層を生成的モデリングプロセスに組み込むことでフラットなトピックモデルを一般化する。 しかし、純粋に監督されていない性質のため、学習されたトピック階層はしばしばユーザーの特定のニーズや関心から逸脱する。 そこで本研究では,ユーザが興味を持つ話題を理解するのに役立つテキストコーパスから,カテゴリ名のみで記述されたカテゴリツリーを抽出し,カテゴリごとに代表する単語のセットをマイニングすることを目的とした新しいタスクである階層的トピックマイニングを提案する。 我々は,圏木構造と球面空間におけるコーパス生成過程を同時にモデル化し,効果的なカテゴリー表現項の発見を可能にする,新しい共同木とテキストの埋め込み手法を開発した。 総合実験の結果,joshと名づけたこのモデルでは,高効率な階層的トピック群をマイニングし,下位教師付き階層的テキスト分類タスクの利点を生かした。

Mining a set of meaningful topics organized into a hierarchy is intuitively appealing since topic correlations are ubiquitous in massive text corpora. To account for potential hierarchical topic structures, hierarchical topic models generalize flat topic models by incorporating latent topic hierarchies into their generative modeling process. However, due to their purely unsupervised nature, the learned topic hierarchy often deviates from users' particular needs or interests. To guide the hierarchical topic discovery process with minimal user supervision, we propose a new task, Hierarchical Topic Mining, which takes a category tree described by category names only, and aims to mine a set of representative terms for each category from a text corpus to help a user comprehend his/her interested topics. We develop a novel joint tree and text embedding method along with a principled optimization procedure that allows simultaneous modeling of the category tree structure and the corpus generative process in the spherical space for effective category-representative term discovery. Our comprehensive experiments show that our model, named JoSH, mines a high-quality set of hierarchical topics with high efficiency and benefits weakly-supervised hierarchical text classification tasks.
翻訳日:2022-11-09 05:14:23 公開日:2020-07-18
# 主成分分析のための全対称学習規則の収束速度の改善

Improved Convergence Speed of Fully Symmetric Learning Rules for Principal Component Analysis ( http://arxiv.org/abs/2007.09426v1 )

ライセンス: Link先を確認
Ralf M\"oller(参考訳) 主成分分析のための完全対称学習規則は,本研究で提案する新しい目的関数から導出することができる。 これらの学習規則は、いくつかの主固有値が互いに近い共分散行列に対して緩やかに収束する。 ここではこの収束問題を緩和する追加項を持つ修正対象関数を記述する。 修正対象関数から派生した学習規則は、元の学習規則からすべての固定点を継承する(ただし、追加の学習規則を導入する)。 また、継承された固定点の安定性は変わらない。 目的関数の急勾配のみが、ある方向に増加する。 シミュレーションにより、加算項の重み係数に応じて収束速度が顕著に改善できることが確認される。

Fully symmetric learning rules for principal component analysis can be derived from a novel objective function suggested in our previous work. We observed that these learning rules suffer from slow convergence for covariance matrices where some principal eigenvalues are close to each other. Here we describe a modified objective function with an additional term which mitigates this convergence problem. We show that the learning rule derived from the modified objective function inherits all fixed points from the original learning rule (but may introduce additional ones). Also the stability of the inherited fixed points remains unchanged. Only the steepness of the objective function is increased in some directions. Simulations confirm that the convergence speed can be noticeably improved, depending on the weight factor of the additional term.
翻訳日:2022-11-09 05:08:13 公開日:2020-07-18
# 教師なし言語間学習におけるWasserstein-Procrustesの新しい応用について

On a Novel Application of Wasserstein-Procrustes for Unsupervised Cross-Lingual Learning ( http://arxiv.org/abs/2007.09456v1 )

ライセンス: Link先を確認
Guillem Ram\'irez, Rumen Dangovski, Preslav Nakov, Marin Solja\v{c}i\'c(参考訳) 非常に大きなモノリンガルテキストコーパスで事前訓練された、教師なしの単語埋め込みの出現は、自然言語処理(NLP)における現在進行中の神経革命の中核にある。 当初英語に導入され、そのような事前訓練された単語の埋め込みは、他の多くの言語ですぐに現れた。 その後、言語にまたがる埋め込み空間を整列させる試みが数多く行われており、多くの言語横断nlpアプリケーションを可能にしている。 教師なし言語学習(UCL)を用いてアライメントを実行することは、ほとんどデータを必要としないため、特に魅力的である。 ここでは,uclの一般的な手法を分析し,その目的が本質的にwasserstein-procrustes問題であることが多いことを明らかにした。 そこで我々は,wasserstein-procrustesを直接解く手法を考案し,反復的最接近点 (icp) や多言語非教師なし・教師なし埋め込み (muse) ,教師付きprocrustes 法などの一般的な ucl 法を改善し,改良することができる。 標準データセットに対する評価実験では,これらの手法よりも大きな改善が見られた。 我々は、Wasserstein-Procrustes問題を再考することで、さらなる研究が可能になり、言語間の単語埋め込みを調整するためのより良いアルゴリズムの開発に役立つと考えている。 実験を再現するためのコードとインストラクションは、https://github.com/guillemram97/wp-hungarianで利用可能です。

The emergence of unsupervised word embeddings, pre-trained on very large monolingual text corpora, is at the core of the ongoing neural revolution in Natural Language Processing (NLP). Initially introduced for English, such pre-trained word embeddings quickly emerged for a number of other languages. Subsequently, there have been a number of attempts to align the embedding spaces across languages, which could enable a number of cross-language NLP applications. Performing the alignment using unsupervised cross-lingual learning (UCL) is especially attractive as it requires little data and often rivals supervised and semi-supervised approaches. Here, we analyze popular methods for UCL and we find that often their objectives are, intrinsically, versions of the Wasserstein-Procrustes problem. Hence, we devise an approach to solve Wasserstein-Procrustes in a direct way, which can be used to refine and to improve popular UCL methods such as iterative closest point (ICP), multilingual unsupervised and supervised embeddings (MUSE) and supervised Procrustes methods. Our evaluation experiments on standard datasets show sizable improvements over these approaches. We believe that our rethinking of the Wasserstein-Procrustes problem could enable further research, thus helping to develop better algorithms for aligning word embeddings across languages. Our code and instructions to reproduce the experiments are available at https://github.com/guillemram97/wp-hungarian.
翻訳日:2022-11-09 05:07:16 公開日:2020-07-18
# 因果モデルの伝達性に関する構造マッピング

Structure Mapping for Transferability of Causal Models ( http://arxiv.org/abs/2007.09445v1 )

ライセンス: Link先を確認
Purva Pruthi, Javier Gonz\'alez, Xiaoyu Lu, Madalina Fiterau(参考訳) 人間は因果モデルを学び、それを使って類似した環境間で知識を伝達する。 この直観を用いて,オブジェクト指向表現を用いたトランスファー学習フレームワークを設計し,オブジェクト間の因果関係を学習する。 学習された因果ダイナミクスモデルは、オブジェクト間の交換可能な知覚的特徴を持つ環境の変種間の移動に使用できるが、基礎となる因果ダイナミクスは同じである。 対話型環境における行動の原因と効果を明示的に学習し,因果知識に基づく対象の分類によって対象領域へ移行するために,構造学習手法に対する連続最適化を適用する。 強化学習において,因果モデルに基づくアプローチとモデルフリーアプローチを組み合わせたグリッドワールド環境において,このアプローチの利点を示す。

Human beings learn causal models and constantly use them to transfer knowledge between similar environments. We use this intuition to design a transfer-learning framework using object-oriented representations to learn the causal relationships between objects. A learned causal dynamics model can be used to transfer between variants of an environment with exchangeable perceptual features among objects but with the same underlying causal dynamics. We adapt continuous optimization for structure learning techniques to explicitly learn the cause and effects of the actions in an interactive environment and transfer to the target domain by categorization of the objects based on causal knowledge. We demonstrate the advantages of our approach in a gridworld setting by combining causal model-based approach with model-free approach in reinforcement learning.
翻訳日:2022-11-09 05:06:51 公開日:2020-07-18
# 3次元顔前者の顔超解像

Face Super-Resolution Guided by 3D Facial Priors ( http://arxiv.org/abs/2007.09454v1 )

ライセンス: Link先を確認
Xiaobin Hu, Wenqi Ren, John LaMaster, Xiaochun Cao, Xiaoming Li, Zechao Li, Bjoern Menze, and Wei Liu(参考訳) 最先端の顔超解像法では、深層畳み込みニューラルネットワークを用いて、局所的な外観知識を探索することで、低解像度と高分解能の顔パターンのマッピングを学ぶ。 しかし、これらの手法の多くは顔の構造や識別情報をうまく利用せず、大きなポーズのバリエーションを示す顔画像を扱うのに苦労している。 本稿では,鋭い顔構造を把握できる3次元顔前処理を明示的に組み込む新しい顔超解像法を提案する。 私たちの研究は、顔属性(例えば、アイデンティティ、表情、テクスチャ、照明、顔ポーズ)のパラメトリック記述の融合に基づく3次元形態的知識を初めて探求した。 さらに、プリエントを任意のネットワークに容易に組み込むことができ、性能向上や収束速度の高速化に極めて効果的である。 まず、3D顔レンダリングブランチを設定し、正常な顔構造とアイデンティティ知識の3D先行情報を取得する。 第二に、空間注意モジュールは、この階層的情報(強度類似性、3D顔構造、アイデンティティコンテンツ)を超解像問題に活用するために用いられる。 広範な実験により、提案された3dプリエントは最先端技術よりも優れた顔の超解像結果が得られることが証明された。

State-of-the-art face super-resolution methods employ deep convolutional neural networks to learn a mapping between low- and high- resolution facial patterns by exploring local appearance knowledge. However, most of these methods do not well exploit facial structures and identity information, and struggle to deal with facial images that exhibit large pose variations. In this paper, we propose a novel face super-resolution method that explicitly incorporates 3D facial priors which grasp the sharp facial structures. Our work is the first to explore 3D morphable knowledge based on the fusion of parametric descriptions of face attributes (e.g., identity, facial expression, texture, illumination, and face pose). Furthermore, the priors can easily be incorporated into any network and are extremely efficient in improving the performance and accelerating the convergence speed. Firstly, a 3D face rendering branch is set up to obtain 3D priors of salient facial structures and identity knowledge. Secondly, the Spatial Attention Module is used to better exploit this hierarchical information (i.e., intensity similarity, 3D facial structure, and identity content) for the super-resolution problem. Extensive experiments demonstrate that the proposed 3D priors achieve superior face super-resolution results over the state-of-the-arts.
翻訳日:2022-11-09 05:06:12 公開日:2020-07-18
# ESCELL: 新しいシンボリック・セル言語

ESCELL: Emergent Symbolic Cellular Language ( http://arxiv.org/abs/2007.09469v1 )

ライセンス: Link先を確認
Aritra Chowdhury, James R. Kubricht, Anup Sood, Peter Tu, Alberto Santamaria-Pang(参考訳) ESCELLは、細胞を推論する複数のエージェント間の通信の創発的シンボリック言語を開発する方法である。 エージェントが人間の言語に類似したシンボルの形で協力してコミュニケーションし、レファレンスゲーム(lewis' signaling game)の形式でタスクを達成する方法を示す。 ゲームの一形態では、送信側と受信側が5つの異なる細胞表現型の細胞群を観察する。 送信者は1つのセルがターゲットであると指示され、固定された任意の語彙サイズから受信者に1つのシンボルを送信できる。 受信機は、ターゲットセルを特定するためにシンボル内の情報に依存する。 我々は、送信者ネットワークと受信者ネットワークを訓練し、このタスクを達成するために、その間に固有の創発的言語を開発する。 ネットワークは5つの異なる表現型から93.2%の精度で細胞を識別することに成功した。 また,受信側が見るすべての画像の代わりに,送信側が1つの画像を表示する新たなシグナリングゲームを導入する。 ネットワークは77.8%の精度で識別できる緊急言語の開発に成功した。

We present ESCELL, a method for developing an emergent symbolic language of communication between multiple agents reasoning about cells. We show how agents are able to cooperate and communicate successfully in the form of symbols similar to human language to accomplish a task in the form of a referential game (Lewis' signaling game). In one form of the game, a sender and a receiver observe a set of cells from 5 different cell phenotypes. The sender is told one cell is a target and is allowed to send one symbol to the receiver from a fixed arbitrary vocabulary size. The receiver relies on the information in the symbol to identify the target cell. We train the sender and receiver networks to develop an innate emergent language between themselves to accomplish this task. We observe that the networks are able to successfully identify cells from 5 different phenotypes with an accuracy of 93.2%. We also introduce a new form of the signaling game where the sender is shown one image instead of all the images that the receiver sees. The networks successfully develop an emergent language to get an identification accuracy of 77.8%.
翻訳日:2022-11-09 05:05:49 公開日:2020-07-18
# Slot Contrastive Networks: オブジェクト表現のためのコントラスト的アプローチ

Slot Contrastive Networks: A Contrastive Approach for Representing Objects ( http://arxiv.org/abs/2007.09294v1 )

ライセンス: Link先を確認
Evan Racah, Sarath Chandar(参考訳) 低レベルの視覚データからオブジェクトを教師なしで抽出することは、機械学習のさらなる進歩にとって重要な目標である。 ラベルのないオブジェクトを表現するための既存のアプローチは、静的イメージを持つ構造化生成モデルを使用する。 これらの手法は、重要でない背景ピクセルの再構成や、低コントラストまたは小さなオブジェクトの欠落に焦点を当てている。 逆に,静止画像が提示する制限信号に対する画素空間の損失や過信頼を回避する新しい手法を提案する。 提案手法では,スロット表現の空間における識別的,時間的連続的損失を学習し,各スロットに移動するエンティティをキャプチャするだけでなく,他のスロットから異なるオブジェクトをキャプチャしようとする。 さらに,スロットベクトルの集合の"多様性"を測定するための新しい定量的評価指標を導入し,それを用いて20個のアタリゲーム上でのモデルの評価を行う。

Unsupervised extraction of objects from low-level visual data is an important goal for further progress in machine learning. Existing approaches for representing objects without labels use structured generative models with static images. These methods focus a large amount of their capacity on reconstructing unimportant background pixels, missing low contrast or small objects. Conversely, we present a new method that avoids losses in pixel space and over-reliance on the limited signal a static image provides. Our approach takes advantage of objects' motion by learning a discriminative, time-contrastive loss in the space of slot representations, attempting to force each slot to not only capture entities that move, but capture distinct objects from the other slots. Moreover, we introduce a new quantitative evaluation metric to measure how "diverse" a set of slot vectors are, and use it to evaluate our model on 20 Atari games.
翻訳日:2022-11-09 05:05:33 公開日:2020-07-18
# 確率的近傍成分分析:深層学習における有効不確実性推定

Probabilistic Neighbourhood Component Analysis: Sample Efficient Uncertainty Estimation in Deep Learning ( http://arxiv.org/abs/2007.10800v1 )

ライセンス: Link先を確認
Ankur Mallick, Chaitanya Dwivedi, Bhavya Kailkhura, Gauri Joshi, T. Yong-Jin Han(参考訳) ディープニューラルネットワーク(DNN)は様々なアプリケーションで最先端の精度を達成するが、予測の不確実性を正確に見積もることができず、その結果、これらの予測がいつ間違っているかを認識できないことが多い。 ベイジアンニューラルネットワーク (BNN) やディープアンサンブル (Deep Ensembles) などの不確実性を考慮したモデルが、予測の不確実性を定量化するための文献で提案されている。 しかし、この分野の研究は、ビッグデータの体制に限定されている。 本研究では,訓練データの量が少ない場合,最先端BNNとDeep Ensembleモデルの不確実性推定能力は著しく低下することを示す。 小型データシステムにおける正確な不確実性推定問題に対処するために,一般的なサンプル効率の非パラメトリックkn手法の確率的一般化を提案する。 提案手法により, 深部kNN分類器はその予測において基礎となる不確かさを正確に定量化することができる。 胸部X線からのCOVID-19診断の現実的応用における最先端技術と比較して, 優れた不確実性定量化を達成し, 提案手法の有用性を実証する。 私たちのコードはhttps://github.com/ankurmallick/sample-efficient-uqで利用可能です。

While Deep Neural Networks (DNNs) achieve state-of-the-art accuracy in various applications, they often fall short in accurately estimating their predictive uncertainty and, in turn, fail to recognize when these predictions may be wrong. Several uncertainty-aware models, such as Bayesian Neural Network (BNNs) and Deep Ensembles have been proposed in the literature for quantifying predictive uncertainty. However, research in this area has been largely confined to the big data regime. In this work, we show that the uncertainty estimation capability of state-of-the-art BNNs and Deep Ensemble models degrades significantly when the amount of training data is small. To address the issue of accurate uncertainty estimation in the small-data regime, we propose a probabilistic generalization of the popular sample-efficient non-parametric kNN approach. Our approach enables deep kNN classifier to accurately quantify underlying uncertainties in its prediction. We demonstrate the usefulness of the proposed approach by achieving superior uncertainty quantification as compared to state-of-the-art on a real-world application of COVID-19 diagnosis from chest X-Rays. Our code is available at https://github.com/ankurmallick/sample-efficient-uq
翻訳日:2022-11-09 05:05:19 公開日:2020-07-18