このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200316となっている論文です。

PDF登録状況(公開日: 20200316)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子実験とハイパーグラフ:量子干渉、量子計算、量子絡み合いのための多光子源

Quantum Experiments and Hypergraphs: Multi-Photon Sources for Quantum Interference, Quantum Computation and Quantum Entanglement ( http://arxiv.org/abs/2003.01910v2 )

ライセンス: Link先を確認
Xuemei Gu, Lijun Chen, Mario Krenn(参考訳) 確率的多光子源を用いた量子光学実験を記述するためにハイパーグラフの概念を導入する。 すべてのハイパーエッジは相関した光子源を表し、全ての頂点は光出力経路を表す。 このような一般的なグラフ記述は、複雑な高次元多光子量子絡み合った状態を生成するための新しい洞察を提供する。 さらに,ハイパーグラフの特性を実験的に検討することができる。 例えば、ハイパーグラフが完全なマッチングを持つかどうかを決定するnp完全問題は、量子実験で複数光子イベントを実験的に検出することで解くことができる。 ハイパーグラフに複素重みを導入することで、一般的な多粒子量子干渉を示し、画像的に絡み合いを操作する。 我々の研究は多光子高次元状態生成の道のりを歩み、ハイパーグラフマッピングを用いた量子計算の新しい応用を刺激するかもしれない。

We introduce the concept of hypergraphs to describe quantum optical experiments with probabilistic multi-photon sources. Every hyperedge represents a correlated photon source, and every vertex stands for an optical output path. Such general graph description provides new insights for producing complex high-dimensional multi-photon quantum entangled states, which go beyond limitations imposed by pair creation via spontaneous parametric down-conversion. Furthermore, properties of hypergraphs can be investigated experimentally. For example, the NP-Complete problem of deciding whether a hypergraph has a perfect matchin can be answered by experimentally detecting multi-photon events in quantum experiments. By introducing complex weights in hypergraphs, we show a general many-particle quantum interference and manipulating entanglement in a pictorial way. Our work paves the path for the development of multi-photon high-dimensional state generation and might inspire new applications of quantum computations using hypergraph mappings.
翻訳日:2023-05-31 05:34:23 公開日:2020-03-16
# 走査トンネル顕微鏡における非弾性電子散乱による分子励起の微視的発生

Microscopic origin of molecule excitation via inelastic electron scattering in scanning tunneling microscope ( http://arxiv.org/abs/2003.05297v2 )

ライセンス: Link先を確認
Guohui Dong, Yining You, and Hui Dong(参考訳) 走査トンネル顕微鏡による発光は、分子特性を単一分子レベルまで測定するための切迫的なツールとして最近出現している。 急速な実験の進展は、観測された現象を理解するための理論的な取り組みよりもはるかに先行している。 このような無能性は、蛍光スペクトルの観察された特徴を単一の分子の構造と動力学に定量的に割り当てることに大きな困難をもたらす。 本書は走査トンネル顕微鏡におけるトンネル電子の非弾性散乱による分子励起の微視的起源を明らかにすることを目的としている。 現在の理論では、観測される大きな光子は、正のバイアス電圧と負のバイアス電圧の分子発光強度の非対称性を計っている。

The scanning-tunneling-microscope-induced luminescence emerges recently as an incisive tool to measure the molecular properties down to the single-molecule level. The rapid experimental progress is far ahead of the theoretical effort to understand the observed phenomena. Such incompetence leads to a significant difficulty in quantitatively assigning the observed feature of the fluorescence spectrum to the structure and dynamics of a single molecule. This letter is devoted to reveal the microscopic origin of the molecular excitation via inelastic scattering of the tunneling electrons in scanning tunneling microscope. The current theory explains the observed large photon counting asymmetry between the molecular luminescence intensity at positive and negative bias voltage.
翻訳日:2023-05-30 00:43:48 公開日:2020-03-16
# 位相的双曲格子

Topological hyperbolic lattices ( http://arxiv.org/abs/2003.07002v1 )

ライセンス: Link先を確認
Sunkyu Yu, Xianji Piao, and Namkyoo Park(参考訳) ユークリッドの平行な仮定を否定することによって発見された非ユークリッド幾何学は、地理的座標、インターネット基盤、一般相対性理論の記述に数学や関連する分野に多大な関心を寄せている。 特に、双曲幾何学-双曲格子-における無限個の正則テッセレーションはユークリッドブラベイ格子と非ユークリッド幾何学への連続バンド理論を拡張できる。 ここでは、双曲幾何学における位相現象を示し、幾何学の量子化曲率とエッジ支配が位相相にどのように影響するかを考察する。 本稿では,準スピン依存磁場下で双曲格子の位相的帯域特性を継承し,量子スピンホール効果の非ユークリッド的類似性を実現するユークリッドフォトニックプラットフォームを構築するためのレシピについて報告する。 量子化された曲率の異なる双曲格子に対して、ヘリカルエッジ状態の位相的保護を検証し、ホフスタッターの蝶を一般化し、高度に湾曲した双曲面における位相的免疫の特異なスペクトル感度を示す。 我々のアプローチは一般的な非ユークリッド幾何学に適用でき、バンド理論に対する無限格子自由度の利用を可能にする。

Non-Euclidean geometry, discovered by negating Euclid's parallel postulate, has been of considerable interest in mathematics and related fields for the description of geographical coordinates, Internet infrastructures, and the general theory of relativity. Notably, an infinite number of regular tessellations in hyperbolic geometry-hyperbolic lattices-can extend Euclidean Bravais lattices and the consequent band theory to non-Euclidean geometry. Here we demonstrate topological phenomena in hyperbolic geometry, exploring how the quantized curvature and edge dominance of the geometry affect topological phases. We report a recipe for the construction of a Euclidean photonic platform that inherits the topological band properties of a hyperbolic lattice under a uniform, pseudospin-dependent magnetic field, realizing a non-Euclidean analogue of the quantum spin Hall effect. For hyperbolic lattices with different quantized curvatures, we examine the topological protection of helical edge states and generalize Hofstadter's butterfly, showing the unique spectral sensitivity of topological immunity in highly curved hyperbolic planes. Our approach is applicable to general non-Euclidean geometry and enables the exploitation of infinite lattice degrees of freedom for band theory.
翻訳日:2023-05-29 00:40:42 公開日:2020-03-16
# STIRAPと負荷状態駆動による量子センシング

Quantum Sensing by Using STIRAP with Dressed States Driving ( http://arxiv.org/abs/2003.06970v1 )

ライセンス: Link先を確認
Hao Zhang, Guo-Qing Qin, Xue-Ke Song, and Gui-Lu Long(参考訳) 物理量を正確に測定する量子技術の研究は、実用的な科学研究にとって有意義な課題である。 本稿では,刺激されたラマン断熱路におけるドレス状態駆動(DSD)に基づく新しい量子センシングモデルを提案する。 このモデルは磁場、質量、回転など様々な物理量を検出するために普遍的である。 異なるセンサーでは、使用済みのシステムはマクロスケール、例えば光学系、微視的ナノスケール、例えばダイヤモンド中の窒素空白色中心まで様々である。 DSDパスのカラーデチューニングのダイナミクスを調べた結果,非退色型および退色型カラーデチューニング系における,より断熱的および加速的なプロセスのチューニングシステムにより,センサの感度を高めることができることがわかった。 応用例を示すために, 実用パラメータを用いた最適質量センサと固体スピン磁力センサの構築に本手法を適用した。

Exploring quantum technology to precisely measure physical quantities is a meaningful task for practical scientific researches. Here, we propose a novel quantum sensing model based on dressed states driving (DSD) in stimulated Raman adiabatic passage. The model is universal for sensing different physical quantities, such as magnetic field, mass, rotation and etc. For different sensors, the used systems can range from macroscopic scale, e.g. optomechanical systems, to microscopic nanoscale, e.g. nitrogen-vacancy color centres in diamond. By investigating the dynamics of color detuning of DSD passage, the results show the sensitivity of sensors can be enhanced by tuning system with more adiabatic and accelerated processes in non-degenerate and degenerate color detuning regime, respectively. To show application examples, we apply our approach to build optomechanical mass sensor and solid spin magnetometer with practical parameters.
翻訳日:2023-05-29 00:40:02 公開日:2020-03-16
# 多部量子系における絡み合いのない強い量子非局所性

Strong Quantum Nonlocality without Entanglement in Multipartite Quantum Systems ( http://arxiv.org/abs/2003.07085v1 )

ライセンス: Link先を確認
Pei Yuan, Guojing Tian, Xiaoming Sun(参考訳) 本稿では、2つの側面から強い量子非局所性の概念を一般化する。 まず、$\mathbb{C}^d\otimes\mathbb{C}^d\otimes\mathbb{C}^d$量子系において、6(d-1)^2$直交積状態を含む強い非局所量子状態の構成を示す。 第二に、強い非局所直交積基底の明示的な形式を $\mathbb{C}^3\otimes \mathbb{C}^3\otimes \mathbb{C}^3\otimes \mathbb{C}^3$ 量子系で与える。 どちらの結果も [Halder, \textit{et al] の開問題に肯定的に答える。 122, 040403 (2019)], すなわち, 量子状態の数は少なく, 絡み合わずに強い量子非局所性を示すことができる。

In this paper, we generalize the concept of strong quantum nonlocality from two aspects. Firstly in $\mathbb{C}^d\otimes\mathbb{C}^d\otimes\mathbb{C}^d$ quantum system, we present a construction of strongly nonlocal quantum states containing $6(d-1)^2$ orthogonal product states, which is one order of magnitude less than the number of basis states $d^3$. Secondly, we give the explicit form of strongly nonlocal orthogonal product basis in $\mathbb{C}^3\otimes \mathbb{C}^3\otimes \mathbb{C}^3\otimes \mathbb{C}^3$ quantum system, where four is the largest known number of subsystems in which there exists strong quantum nonlocality up to now. Both the two results positively answer the open problems in [Halder, \textit{et al.}, PRL, 122, 040403 (2019)], that is, there do exist and even smaller number of quantum states can demonstrate strong quantum nonlocality without entanglement.
翻訳日:2023-05-29 00:34:24 公開日:2020-03-16
# ハイブリッドエンタングルメントによる多光子量子ビット情報のロス耐性伝送

Loss-tolerant transmission of multiphoton-qubit information via hybrid entanglement ( http://arxiv.org/abs/2003.07044v1 )

ライセンス: Link先を確認
Seongjeon Choi, Seok-Hyung Lee, and Hyunseok Jeong(参考訳) 多光子量子ビットを用いて、線形光学およびオンオフ光検出器(Phys. Rev. Lett. 113603 (2015)))を用いて、ほぼ決定論的ベル状態測定を行うことができることを示した。 しかし、多光子量子ビットは一般に損失環境下での単一光子量子ビットよりも脆弱である。 本稿では,損失耐性キャリア量子ビットとハイブリッドエンタングルメントを用いた多光子量子ビット情報のテレポート方式を提案し,解析する。 キャリア量子ビットには,コヒーレント状態量子ビット,単一光子偏光量子ビット,真空・シングル光子量子ビットの3つの候補がある。 真空・シングル光子量子ビットによるテレポーテーションは、高忠実度状態の光子数$n \geq 4$のマルチ光子量子ビットに比べて約10倍の光子損失を許容する(f\geq 90\%$)。 コヒーレント状態の量子ビット符号化は、その振幅が$\alpha<0.78$である場合、キャリアとして真空および単一光子量子ビットよりもさらに優れている。 さらに,提案方式によるテレポート状態の忠実性はキャリアqubitの損失によって決定されるが,成功確率はテレポートされるマルチフォトンqubitの損失のみに依存することを指摘した。 本研究は,ハイブリッドアーキテクチャが各量子ビット符号化の弱点を補完する可能性を示唆する。

It was shown that using multiphoton qubits, a nearly deterministic Bell-state measurement can be performed with linear optics and on-off photodetectors [Phys. Rev. Lett. 114, 113603 (2015)]. However, multiphoton qubits are generally more fragile than single-photon qubits under a lossy environment. In this paper, we propose and analyze a scheme to teleport multiphoton-qubit information using hybrid entanglement with a loss-tolerant carrier qubit. We consider three candidates for the carrier qubit: a coherent-state qubit, a single-photon polarization qubit, and a vacuum-and-single-photon qubit. We find that teleportation with the vacuum-and-single-photon qubit tolerates about 10 times greater photon losses than with the multiphoton qubit of the photon number $N \geq 4$ in the high fidelity regime ($F\geq 90\%$). The coherent-state qubit encoding may be even better than the vacuum-and-single-photon qubit as the carrier when its amplitude is as small as $\alpha<0.78$. We further point out that the fidelity of the teleported state by our scheme is determined by loss in the carrier qubit while the success probability depends on loss only in the multiphoton qubit to be teleported. Our study implies that the hybrid architecture may complement the weaknesses of each qubit encoding.
翻訳日:2023-05-29 00:33:11 公開日:2020-03-16
# ヒト移動ネットワークのフロー記述子

Flow descriptors of human mobility networks ( http://arxiv.org/abs/2003.07279v1 )

ライセンス: Link先を確認
David Pastor-Escuredo, Enrique Frias-Martinez(参考訳) 携帯電話のデータにより、人間の移動性に関するタイムリーできめ細かい研究が可能になった。 コールイベントで生成されたコールDetail Recordsは、異なる解像度で、異なる空間、時間、社会的粒度でモビリティの記述を構築することができる。 個々の軌道は、モビリティパターンの長期観察の基礎であり、人間の運動の要因を特定する。 本稿では,モビリティネットワークの流れとトポロジを特徴付けるシステム解析を行い,その影響を個別のトレースに評価する。 離散フローベースのディスクリプタは、人間のモビリティパターンを複数のスケールで分類し理解するために使用される。 この枠組みは, 都市計画の評価, 交通の最適化, 外部イベントや状況の影響の計測, 内部動態のモニタリング, 利用者の行動パターンに応じたプロファイル化に適している。

Mobile phone data has enabled the timely and fine-grained study human mobility. Call Detail Records, generated at call events, allow building descriptions of mobility at different resolutions and with different spatial, temporal and social granularity. Individual trajectories are the basis for long-term observation of mobility patterns and identify factors of human dynamics. Here we propose a systematic analysis to characterize mobility network flows and topology and assess their impact into individual traces. Discrete flow-based descriptors are used to classify and understand human mobility patterns at multiple scales. This framework is suitable to assess urban planning, optimize transportation, measure the impact of external events and conditions, monitor internal dynamics and profile users according to their movement patterns.
翻訳日:2023-05-29 00:25:37 公開日:2020-03-16
# 一次元フォトニック浴における光子相互作用の限界について

On the limits of photon-mediated interactions in one-dimensional photonic baths ( http://arxiv.org/abs/2003.07854v1 )

ライセンス: Link先を確認
E. S\'anchez-Burillo, D. Porras, A. Gonz\'alez-Tudela(参考訳) 遠方の量子エミッタ間の共鳴伝搬光子の交換は、それらの間のコヒーレントな相互作用を誘導する。 このような相互作用の範囲、および散逸を伴うかどうかは、光エネルギーの分散、その次元、および/または光-物質カップリングに依存する。 本論文では, 一般的な1次元フォトニック浴の場合の光子を介する相互作用の限界を, フォトニック浴に対する有限範囲ホッピングと局所および回転波光-マター結合を有するという前提の下で特徴づける。 その場合、システムのパラメータに関係なく、コヒーレント光子を媒介とする相互作用は常に指数関数の有限和として書くことができ、したがって、パワーロー漸近的スケーリングを示すことができない。 例えば、局所的な光-物質結合(例えば、巨大原子)を超えて、あるいはより長距離の光ホッピングモデルを用いて、これらの条件のいくつかを緩和することで、特定の距離窓内で、あるいは後者の場合の漸近的構造において、パワーロー相互作用が得られるかを示す。

The exchange of off-resonant propagating photons between distant quantum emitters induces coherent interactions among them. The range of such interactions, and whether they are accompanied by dissipation, depends on the photonic energy dispersion, its dimensionality, and/or the light-matter couplings. In this manuscript, we characterize the limits of photon-mediated interactions for the case of generic one-dimensional photonic baths under the typical assumptions, that are, having finite range hoppings for the photonic bath plus local and rotating-wave light-matter couplings. In that case, we show how, irrespective of the system's parameter, the coherent photon-mediated interactions can always be written as a finite sum of exponentials, and thus can not display a power-law asymptotic scaling. As an outlook, we show how by relaxing some of these conditions, e.g., going beyond local light-matter couplings (e.g., giant atoms) or with longer-range photon hopping models, power-law interactions can be obtained within certain distance windows, or even in the asymptotic regime for the latter case.
翻訳日:2023-05-29 00:15:33 公開日:2020-03-16
# グラフェンおよびワイル半金属の逆ファラデー効果

Inverse Faraday effect in graphene and Weyl semimetals ( http://arxiv.org/abs/2003.07437v1 )

ライセンス: Link先を確認
I.D.Tokman, Qianfan Chen, I.A. Shereshevsky, V.I.Pozdnyakova, Ivan Oladyshkin, Mikhail Tokman, Alexey Belyanin(参考訳) 質量を持たないディラックフェルミオンを持つ材料における逆ファラデー効果の体系的研究を、トポロジカル絶縁体におけるグラフェンと表面状態のような2次元と、ディラックやワイル半金属のような3次元の両方で述べる。 半古典理論と量子理論の両方が提示され、散逸と有限サイズ効果を含む。 従来の半導体に比べてディラック材料では効果の大きさがはるかに強いことが判明した。 低温限界における光誘起磁化の解析式を得る。 ディラック材料における強い逆ファラデー効果は、磁化、全光変調、光分離の光学的制御に利用できる。

We report systematic theoretical studies of the inverse Faraday effect in materials with massless Dirac fermions, both in two dimensions such as graphene and surface states in topological insulators, and in three dimensions such as Dirac and Weyl semimetals. Both semiclassical and quantum theories are presented, with dissipation and finite size effects included. We find that the magnitude of the effect can be much stronger in Dirac materials as compared to conventional semiconductors. Analytic expressions for the optically induced magnetization in the low temperature limit are obtained. Strong inverse Faraday effect in Dirac materials can be used for the optical control of magnetization, all-optical modulation, and optical isolation.
翻訳日:2023-05-29 00:14:59 公開日:2020-03-16
# 中心場における$s$状態の相対論的光影響

Relativistic photoeffect for $s$ states in a central field ( http://arxiv.org/abs/2003.07418v1 )

ライセンス: Link先を確認
E. G. Drukarev, A. I. Mikhailov, Kh. Yu. Rakhimov, and H. T. Yusupov(参考訳) 我々は、相対論的光電子に対応する大きな光子エネルギーに対して十分に弱い中心場で束縛された系における$s$状態の光イオン化について研究する。 波動方程式を解かずに光電離断面積のエネルギー依存性が得られることを示す。 断面のエネルギー依存の形状は結合ポテンシャル $V(r)$ の解析的性質によって決定されることを示す。 我々は、原点、実軸および複素平面上の特異点を持つポテンシャル $v(r)$ の断面積を見つける。

We study the photoionization of the $s$ states in the systems bound by sufficiently weak central fields $V(r)$ for the large photon energies corresponding to the relativistic photoelectrons. We demonstrate that the energy dependence of the photoionization cross section can be obtained without solving the wave equation. We show that the shape of the energy dependence of the cross section is determined by analytical properties of the binding potential $V(r)$. We find the cross sections for the potentials $V(r)$ which have singularities in the origin, on the real axis and in the complex plane.
翻訳日:2023-05-29 00:14:20 公開日:2020-03-16
# 量子トンネリングのための量子コンピューティング

Quantum Computing for Quantum Tunnelling ( http://arxiv.org/abs/2003.07374v1 )

ライセンス: Link先を確認
Steven Abel, Nicholas Chancellor and Michael Spannowsky(参考訳) 量子異方体に量子場論の問題を埋め込む方法を示す。 私たちが使う一般的な方法は、場の理論問題を一般イジングモデルに離散化することであり、連続体価はイジングスピン鎖に符号化される。 この方法を説明するために、および原理の簡単な証明として、(ハイブリッド)量子アニールを用いて、薄肉トンネル溶液の正確なプロファイルを復元する。 この方法は多くの非摂動問題に適用できる。

We demonstrate how quantum field theory problems can be embedded on quantum annealers. The general method we use is a discretisation of the field theory problem into a general Ising model, with the continuous field values being encoded into Ising spin chains. To illustrate the method, and as a simple proof of principle, we use a (hybrid) quantum annealer to recover the correct profile of the thin-wall tunnelling solution. This method is applicable to many nonperturbative problems.
翻訳日:2023-05-29 00:13:50 公開日:2020-03-16
# ナノスケールのコヒーレント光源

A Nanoscale Coherent Light Source ( http://arxiv.org/abs/2003.07352v1 )

ライセンス: Link先を確認
Raphael Holzinger (1), David Plankensteiner (1), Laurin Ostermann (1), Helmut Ritsch (1) ((1) Insitute for Theoretical Physics Innsbruck, Innsbruck, Austria)(参考訳) 一般論として、レーザーはゲイン媒体に結合された光共振器からなる。 励起放出による光増幅がミラー損失を支配している場合、発光光はコヒーレントである。 近年の研究では、量子エミッタのサブ波長サイズのリングは、高q光共振器を模倣するサブラジアント固有モードを有することが示されている。 リングの中心に連続的に励起された原子を利得媒質として加え、極小のコヒーレント光源を作る。 システムはしきい値のないレーザーのように振舞い、構成原子の自然な線幅よりかなり低い狭い線幅を特徴とする。

Generically, a laser is composed of an optical resonator coupled to a gain medium. If the light amplification via stimulated emission dominates the mirror losses, the emitted light is coherent. Recent studies have shown that sub-wavelength sized rings of quantum emitters possess subradiant eigenmodes which mimic high-Q optical resonators. We add a continuously pumped atom as a gain medium in the ring's center creating a minimalistic coherent light source. The system behaves like a thresholdless laser, featuring a narrow linewidth well below the natural linewidth of the constituent atoms.
翻訳日:2023-05-29 00:13:44 公開日:2020-03-16
# GANのグラディエント爆発の緩和:フェイクは本物かもしれない

Alleviation of Gradient Exploding in GANs: Fake Can Be Real ( http://arxiv.org/abs/1912.12485v2 )

ライセンス: Link先を確認
Song Tao, Jia Wang(参考訳) 本稿では,gans(generative adversarial network)における悪名高いモード崩壊現象を緩和するために,特定の偽サンプルを実際のガンとして扱う新しいganの訓練手法を提案する。 この戦略は、勾配爆発が起こる領域でジェネレータが受け取る勾配値を減らすことができる。 我々は,gansの不安定性を説明する実践訓練における勾配爆発による不均衡生成過程と悪質な円問題を示す。 また,非常に近い実・偽のサンプルに対して,識別器出力と偽・偽・実の考察の違いをペナルティ化することにより,勾配爆発を緩和できることを示す。 したがって、FARGAN(Fake-As-Real GAN)はより安定したトレーニングプロセスとより忠実に生成された分布によって提案される。 異なるデータセット上での実験は、理論分析を検証する。

In order to alleviate the notorious mode collapse phenomenon in generative adversarial networks (GANs), we propose a novel training method of GANs in which certain fake samples are considered as real ones during the training process. This strategy can reduce the gradient value that generator receives in the region where gradient exploding happens. We show the process of an unbalanced generation and a vicious circle issue resulted from gradient exploding in practical training, which explains the instability of GANs. We also theoretically prove that gradient exploding can be alleviated by penalizing the difference between discriminator outputs and fake-as-real consideration for very close real and fake samples. Accordingly, Fake-As-Real GAN (FARGAN) is proposed with a more stable training process and a more faithful generated distribution. Experiments on different datasets verify our theoretical analysis.
翻訳日:2023-01-17 12:55:32 公開日:2020-03-16
# 多列畳み込みニューラルネットワークのための遺伝的アルゴリズムによるカーネルサイズ選択手法

A Genetic Algorithm based Kernel-size Selection Approach for a Multi-column Convolutional Neural Network ( http://arxiv.org/abs/1912.12405v2 )

ライセンス: Link先を確認
Animesh Singh, Sandip Saha, Ritesh Sarkhel, Mahantapas Kundu, Mita Nasipuri, Nibaran Das(参考訳) ディープニューラルネットワークベースのアーキテクチャは、パターン認識を含むさまざまな領域で有望な結果をもたらす。 このような大規模アーキテクチャのハイパーパラメータの最適な組み合わせを見つけるのは面倒で、多くの実験が必要となる。 しかし、ディープラーニングのアーキテクチャに最適なハイパーパラメータや適切なカーネルサイズの組み合わせを特定することは、常に困難で面倒な作業です。 本稿では,畳み込みニューラルネットワークアーキテクチャのハイパーパラメータ(カーネルサイズ)の最適な組み合わせを見つける努力を減らすために,遺伝的アルゴリズムに基づく手法を導入した。 手書きのバングラ文字と数字の異なる3つの人気のあるデータセットで評価する。 提案手法の実装については、https://github.com/DeepQn/GA-Based-Kernel-Size.comリンクを参照。

Deep neural network-based architectures give promising results in various domains including pattern recognition. Finding the optimal combination of the hyper-parameters of such a large-sized architecture is tedious and requires a large number of laboratory experiments. But, identifying the optimal combination of a hyper-parameter or appropriate kernel size for a given architecture of deep learning is always a challenging and tedious task. Here, we introduced a genetic algorithm-based technique to reduce the efforts of finding the optimal combination of a hyper-parameter (kernel size) of a convolutional neural network-based architecture. The method is evaluated on three popular datasets of different handwritten Bangla characters and digits. The implementation of the proposed methodology can be found in the following link: https://github.com/DeepQn/GA-Based-Kernel-Size.
翻訳日:2023-01-17 12:53:08 公開日:2020-03-16
# 対構造を超えた絡み合いの広がりと準粒子像

Entanglement spreading and quasiparticle picture beyond the pair structure ( http://arxiv.org/abs/2001.01671v3 )

ライセンス: Link先を確認
Alvise Bastianello, Mario Collura(参考訳) 準粒子図は、クエンチ後の多体量子系における絡み合いを理解する強力なツールである。 入力として、初期状態の励起パターンの構造が提供されなければならない。 しかし、この単純な仮定を否定するケースもいくつかある。 本研究では,自由クエンチに対する弱相互作用を1次元で検討する。 この結果、より多くの粒子が励起されるようなよりリッチな励起のパターンが得られる。 我々は、準粒子アンサッツをそのような幅広い初期状態に一般化し、レニイエントロピーの小さなカップリング展開を提供する。 この結果はiTEBD数値シミュレーションと完全に一致している。

The quasi-particle picture is a powerful tool to understand the entanglement spreading in many-body quantum systems after a quench. As an input, the structure of the excitations' pattern of the initial state must be provided, the common choice being pairwise-created excitations. However, several cases exile this simple assumption. In this work, we investigate weakly-interacting to free quenches in one dimension. This results in a far richer excitations' pattern where multiplets with a larger number of particles are excited. We generalize the quasi-particle ansatz to such a wide class of initial states, providing a small-coupling expansion of the Renyi entropies. Our results are in perfect agreement with iTEBD numerical simulations.
翻訳日:2023-01-14 03:11:02 公開日:2020-03-16
# SAUNet:医療画像の解釈のための形状注意U-Net

SAUNet: Shape Attentive U-Net for Interpretable Medical Image Segmentation ( http://arxiv.org/abs/2001.07645v3 )

ライセンス: Link先を確認
Jesse Sun, Fatemeh Darbehani, Mark Zaidi, and Bo Wang(参考訳) 心室容積推定などの多くの臨床手術において, 医用画像のセグメンテーションは難しいが重要な課題である。 最近では、ディープラーニングと完全な畳み込みニューラルネットワーク(CNN)を活用して、多くの公開ベンチマークデータセットで最先端の結果をもたらすイメージセグメンテーションを実行するようにシフトしている。 医用画像のセグメンテーションにおける深層学習の進歩にもかかわらず、標準的なCNNは、堅牢性と解釈性に欠けるため、臨床環境ではまだ完全には採用されていない。 形状はイメージのテクスチャのみよりも意味のある特徴であり、通常のcnnが学習する特徴であり、堅牢性が欠如している。 同様に、モデル解釈可能性を取り巻く以前の研究は、ポストホック勾配に基づく正解法に焦点を当ててきた。 しかし、勾配に基づくサリエンシ法は通常、ホック後のさらなる計算を必要としており、解釈不可能であることが示されている。 そこで本稿では,モデル解釈性とロバスト性に着目したsaunet(shape attentive u-net)という新しいアーキテクチャを提案する。 提案アーキテクチャは, 通常のテクスチャストリームと並行して, リッチな形状依存情報をキャプチャする二次形状ストリームを用いて, これらの制約に対処する。 さらに,マルチレベルな解釈を可能にし,hoc後の計算を緩和するデュアルアテンションデコーダモジュールを用いて,マルチレゾリューションサリエンシーマップを学習できることを示す。 また,SUN09とAC17の2つの大容量心筋MRI画像セグメント化データセットについて,最先端の結果を得た。

Medical image segmentation is a difficult but important task for many clinical operations such as cardiac bi-ventricular volume estimation. More recently, there has been a shift to utilizing deep learning and fully convolutional neural networks (CNNs) to perform image segmentation that has yielded state-of-the-art results in many public benchmark datasets. Despite the progress of deep learning in medical image segmentation, standard CNNs are still not fully adopted in clinical settings as they lack robustness and interpretability. Shapes are generally more meaningful features than solely textures of images, which are features regular CNNs learn, causing a lack of robustness. Likewise, previous works surrounding model interpretability have been focused on post hoc gradient-based saliency methods. However, gradient-based saliency methods typically require additional computations post hoc and have been shown to be unreliable for interpretability. Thus, we present a new architecture called Shape Attentive U-Net (SAUNet) which focuses on model interpretability and robustness. The proposed architecture attempts to address these limitations by the use of a secondary shape stream that captures rich shape-dependent information in parallel with the regular texture stream. Furthermore, we suggest multi-resolution saliency maps can be learned using our dual-attention decoder module which allows for multi-level interpretability and mitigates the need for additional computations post hoc. Our method also achieves state-of-the-art results on the two large public cardiac MRI image segmentation datasets of SUN09 and AC17.
翻訳日:2023-01-08 00:29:34 公開日:2020-03-16
# 変量反応理論:高速・高精度・表現性

Variational Item Response Theory: Fast, Accurate, and Expressive ( http://arxiv.org/abs/2002.00276v2 )

ライセンス: Link先を確認
Mike Wu, Richard L. Davis, Benjamin W. Domingue, Chris Piech, Noah Goodman(参考訳) IRT(Item Response Theory)は、質問に対する回答に基づいて人間を理解するためのユビキタスモデルであり、教育、医学、心理学など様々な分野で使われている。 大規模な現代的なデータセットは、人間の振舞いのニュアンスを捉える機会を提供し、テストスコアを改善し、公開ポリシーをよりよいものにする可能性がある。 さらに大きなデータセットは、IRTモデルに適合する現代のアルゴリズムに難しいスピード/正確性をもたらす。 IRTの変分ベイズ推定アルゴリズムを導入し,精度を犠牲にすることなく高速かつスケール可能であることを示す。 この推論アプローチを用いて、応答の表現的ベイズモデルで古典的IRTを拡張する。 この手法を認知科学と教育の5つの大規模項目応答データセットに適用すると、より高いログの確率と、欠落データを暗示する精度が向上する。 アルゴリズムの実装はオープンソースであり、簡単に利用できる。

Item Response Theory (IRT) is a ubiquitous model for understanding humans based on their responses to questions, used in fields as diverse as education, medicine and psychology. Large modern datasets offer opportunities to capture more nuances in human behavior, potentially improving test scoring and better informing public policy. Yet larger datasets pose a difficult speed / accuracy challenge to contemporary algorithms for fitting IRT models. We introduce a variational Bayesian inference algorithm for IRT, and show that it is fast and scaleable without sacrificing accuracy. Using this inference approach we then extend classic IRT with expressive Bayesian models of responses. Applying this method to five large-scale item response datasets from cognitive science and education yields higher log likelihoods and improvements in imputing missing data. The algorithm implementation is open-source, and easily usable.
翻訳日:2023-01-05 00:36:06 公開日:2020-03-16
# dnnを用いたマイクロホンアレー音声強調のための分散マルチチャネルマスク推定

DNN-Based Distributed Multichannel Mask Estimation for Speech Enhancement in Microphone Arrays ( http://arxiv.org/abs/2002.06016v2 )

ライセンス: Link先を確認
Nicolas Furnon (LORIA, MULTISPEECH), Romain Serizel (LORIA, MULTISPEECH), Irina Illina (LORIA, MULTISPEECH), Slim Essid (LTCI)(参考訳) マルチチャネル処理は音声強調に広く用いられているが、これらのソリューションを現実世界に展開しようとするといくつかの制限が現れる。 マイクロフォンを持つ複数のデバイスを考慮に入れた分散センサアレイは、私たちの日常生活で使用しているマイクロフォンを備えた複数のデバイスを活用するための、実行可能な代替手段だ。 本稿では,分散適応ノード固有信号推定手法をニューラルネットワークフレームワークに拡張することを提案する。 各ノードにおいて、グローバルなマルチチャネルWienerフィルタを計算するために、マスクがニューラルネットワークによって推定される他のノードに1つの信号を送信するために局所フィルタリングが行われる。 2つのノードの配列において、この追加信号がマスクの予測に効果的に考慮され、マスク推定が局所的な信号のみに依存する場合よりも優れた音声強調性能が得られることを示す。

Multichannel processing is widely used for speech enhancement but several limitations appear when trying to deploy these solutions to the real-world. Distributed sensor arrays that consider several devices with a few microphones is a viable alternative that allows for exploiting the multiple devices equipped with microphones that we are using in our everyday life. In this context, we propose to extend the distributed adaptive node-specific signal estimation approach to a neural networks framework. At each node, a local filtering is performed to send one signal to the other nodes where a mask is estimated by a neural network in order to compute a global multi-channel Wiener filter. In an array of two nodes, we show that this additional signal can be efficiently taken into account to predict the masks and leads to better speech enhancement performances than when the mask estimation relies only on the local signals.
翻訳日:2023-01-01 13:39:26 公開日:2020-03-16
# HRank: High-Rank Feature Map を用いたフィルタプルーニング

HRank: Filter Pruning using High-Rank Feature Map ( http://arxiv.org/abs/2002.10179v2 )

ライセンス: Link先を確認
Mingbao Lin, Rongrong Ji, Yan Wang, Yichen Zhang, Baochang Zhang, Yonghong Tian, Ling Shao(参考訳) ニューラルネットワークのプルーニングは、リソース制限されたデバイスへのディープニューラルネットワークのデプロイを容易にする、有望な見通しを提供する。 しかしながら、既存の手法は、ネットワークコンポーネントの理論的指針が欠如しているため、プランニング設計における訓練の非効率さと労力コストに依然として挑戦されている。 本稿では,高階特徴写像(HRank)を探索し,新しいフィルタプルーニング手法を提案する。 私たちのHRankは、CNNが受信する画像バッチの数に関係なく、単一のフィルタによって生成された複数の特徴マップの平均ランクが常に同じである、という発見にインスピレーションを受けています。 HRankに基づいて,低ランク特徴写像を持つプーンフィルタに数学的に定式化する手法を開発した。 プルーニングの背後にある原則は、低ランクのフィーチャーマップは情報が少ないので、プルーニングの結果は簡単に再現できるということです。 また,高ランク特徴マップの重み付けには,更新されていない部分でもモデル性能にほとんどダメージが及ばないような重要な情報が含まれていることを実験的に示す。 追加の制約を導入することなく、HRankはFLOPとパラメータの削減の観点から、同様の精度で最先端よりも大幅に改善される。 例えば、resnet-110では、パラメータの59.2%を除去して58.2%のflops削減を達成し、cifar-10ではtop-1精度で0.14%の損失しか得られなかった。 Res-50では、パラメータの36.7%を削除して43.8%のFLOPを削減でき、ImageNetの1.17%の精度しか失われなかった。 コードはhttps://github.com/lmbxmu/HRank.comで入手できる。

Neural network pruning offers a promising prospect to facilitate deploying deep neural networks on resource-limited devices. However, existing methods are still challenged by the training inefficiency and labor cost in pruning designs, due to missing theoretical guidance of non-salient network components. In this paper, we propose a novel filter pruning method by exploring the High Rank of feature maps (HRank). Our HRank is inspired by the discovery that the average rank of multiple feature maps generated by a single filter is always the same, regardless of the number of image batches CNNs receive. Based on HRank, we develop a method that is mathematically formulated to prune filters with low-rank feature maps. The principle behind our pruning is that low-rank feature maps contain less information, and thus pruned results can be easily reproduced. Besides, we experimentally show that weights with high-rank feature maps contain more important information, such that even when a portion is not updated, very little damage would be done to the model performance. Without introducing any additional constraints, HRank leads to significant improvements over the state-of-the-arts in terms of FLOPs and parameters reduction, with similar accuracies. For example, with ResNet-110, we achieve a 58.2%-FLOPs reduction by removing 59.2% of the parameters, with only a small loss of 0.14% in top-1 accuracy on CIFAR-10. With Res-50, we achieve a 43.8%-FLOPs reduction by removing 36.7% of the parameters, with only a loss of 1.17% in the top-1 accuracy on ImageNet. The codes can be available at https://github.com/lmbxmu/HRank.
翻訳日:2022-12-29 04:06:11 公開日:2020-03-16
# イベントベース動作推定のためのグローバル最適コントラスト最大化

Globally Optimal Contrast Maximisation for Event-based Motion Estimation ( http://arxiv.org/abs/2002.10686v3 )

ライセンス: Link先を確認
Daqi Liu, \'Alvaro Parra, Tat-Jun Chin(参考訳) コントラスト最大化は、運動補償イベント画像のシャープネスを最大化することにより、イベントストリームでキャプチャされた動きを推定する。 コントラスト最大化を実行するために、以前の多くの作品は共役勾配のような反復最適化アルゴリズムを採用しており、悪い局所極小への収束を避けるために適切な初期化を必要とする。 そこで本稿では,この弱点を解消するために,新しいグローバル最適イベントベースモーション推定アルゴリズムを提案する。 本手法は,分枝バウンド(BnB)に基づいてイベントストリーム上での回転(3DoF)動作推定を解き,ビデオ安定化や姿勢推定などの実用的な応用を支援する。 本手法は, 理論的妥当性が厳密に確立されたコントラスト最大化のための新しい境界関数である。 コントラスト最大化の成功には,グローバルな最適解が不可欠である公開データセットの具体例を示す。 正確な性質にもかかわらず、現在アルゴリズムは、300秒で50,000のイベント入力を処理できる(ローカルに最適な解法器は、同じ入力で30秒かかる)。

Contrast maximisation estimates the motion captured in an event stream by maximising the sharpness of the motion compensated event image. To carry out contrast maximisation, many previous works employ iterative optimisation algorithms, such as conjugate gradient, which require good initialisation to avoid converging to bad local minima. To alleviate this weakness, we propose a new globally optimal event-based motion estimation algorithm. Based on branch-and-bound (BnB), our method solves rotational (3DoF) motion estimation on event streams, which supports practical applications such as video stabilisation and attitude estimation. Underpinning our method are novel bounding functions for contrast maximisation, whose theoretical validity is rigorously established. We show concrete examples from public datasets where globally optimal solutions are vital to the success of contrast maximisation. Despite its exact nature, our algorithm is currently able to process a 50,000 event input in 300 seconds (a locally optimal solver takes 30 seconds on the same input), and has the potential to be further speeded-up using GPUs.
翻訳日:2022-12-28 21:46:50 公開日:2020-03-16
# 適応インスタンス正規化による合成から実雑音への伝達学習

Transfer Learning from Synthetic to Real-Noise Denoising with Adaptive Instance Normalization ( http://arxiv.org/abs/2002.11244v2 )

ライセンス: Link先を確認
Yoonsik Kim, Jae Woong Soh, Gu Yong Park, and Nam Ik Cho(参考訳) 実雑音の統計は正規分布に従わず、空間的・時間的にも変化するため、実雑音の分断は難しい課題である。 本稿では,様々な複雑な実雑音に対応するため,一般化した分節構造と転送学習方式を提案する。 具体的には、機能マップを正規化し、ネットワークがトレーニングセットに過度に適合することを防ぐdenoiserを構築するために、適応型インスタンス正規化を採用する。 また,合成雑音データから学習した知識を実雑音デノイザーに転送する転送学習方式を提案する。 提案する転送学習から,合成雑音デノイザーは様々な合成雑音データから一般特徴を学習でき,実雑音デノイザーは実データから実雑音特性を学習できる。 実験の結果,提案手法は,DND(Darmstadt Noise Dataset)において,合成ノイズで訓練したネットワークが最高の性能を発揮するように,高い一般化能力を有することがわかった。 また,非常に少数のラベル付きデータを用いた学習により,提案手法が実雑音画像に対して頑健に機能することが確認できた。

Real-noise denoising is a challenging task because the statistics of real-noise do not follow the normal distribution, and they are also spatially and temporally changing. In order to cope with various and complex real-noise, we propose a well-generalized denoising architecture and a transfer learning scheme. Specifically, we adopt an adaptive instance normalization to build a denoiser, which can regularize the feature map and prevent the network from overfitting to the training set. We also introduce a transfer learning scheme that transfers knowledge learned from synthetic-noise data to the real-noise denoiser. From the proposed transfer learning, the synthetic-noise denoiser can learn general features from various synthetic-noise data, and the real-noise denoiser can learn the real-noise characteristics from real data. From the experiments, we find that the proposed denoising method has great generalization ability, such that our network trained with synthetic-noise achieves the best performance for Darmstadt Noise Dataset (DND) among the methods from published papers. We can also see that the proposed transfer learning scheme robustly works for real-noise images through the learning with a very small number of labeled data.
翻訳日:2022-12-28 15:37:17 公開日:2020-03-16
# 自動エンコードツインボトルネックハッシュ

Auto-Encoding Twin-Bottleneck Hashing ( http://arxiv.org/abs/2002.11930v2 )

ライセンス: Link先を確認
Yuming Shen, Jie Qin, Jiaxin Chen, Mengyang Yu, Li Liu, Fan Zhu, Fumin Shen, Ling Shao(参考訳) 従来の教師なしハッシュ法は、通常、高次元空間で事前計算されるか、ランダムアンカー点から得られる類似性グラフを利用する。 一方,既存手法はハッシュ関数学習とグラフ構築の手順を分離する。 一方、原データ上に実証的に構築されたグラフは、データ関連性に関するバイアス付き事前知識を導入し、準最適検索性能をもたらす可能性がある。 本稿では,自動エンコーダのコンテキストにおけるデコードによって更新される,効率的で適応的なコード駆動グラフを提案することで,上記の問題に対処する。 具体的には、重要な情報を協調的に交換するフレームワークツインボトルネック(潜伏変数)を紹介します。 1つのボトルネック(すなわちバイナリコード)は、コード駆動グラフがキャプチャした高レベルの固有データ構造(すなわち、低レベルの詳細情報のための連続変数)を他方に伝達し、エンコーダがより識別可能なバイナリコードを学ぶために、更新されたネットワークフィードバックを伝播させる。 自動エンコーディング学習目標は、コード駆動グラフに文字通り報酬を与え、最適なエンコーダを学習する。 さらに, 2値制約に違反することなく, 勾配勾配による最適化が可能である。 ベンチマークデータセットに関する実験は、最先端のハッシュメソッドよりも、フレームワークの優位性を明確に示しています。 ソースコードはhttps://github.com/ymcidence/TBH.com/。

Conventional unsupervised hashing methods usually take advantage of similarity graphs, which are either pre-computed in the high-dimensional space or obtained from random anchor points. On the one hand, existing methods uncouple the procedures of hash function learning and graph construction. On the other hand, graphs empirically built upon original data could introduce biased prior knowledge of data relevance, leading to sub-optimal retrieval performance. In this paper, we tackle the above problems by proposing an efficient and adaptive code-driven graph, which is updated by decoding in the context of an auto-encoder. Specifically, we introduce into our framework twin bottlenecks (i.e., latent variables) that exchange crucial information collaboratively. One bottleneck (i.e., binary codes) conveys the high-level intrinsic data structure captured by the code-driven graph to the other (i.e., continuous variables for low-level detail information), which in turn propagates the updated network feedback for the encoder to learn more discriminative binary codes. The auto-encoding learning objective literally rewards the code-driven graph to learn an optimal encoder. Moreover, the proposed model can be simply optimized by gradient descent without violating the binary constraints. Experiments on benchmarked datasets clearly show the superiority of our framework over the state-of-the-art hashing methods. Our source code can be found at https://github.com/ymcidence/TBH.
翻訳日:2022-12-28 07:56:40 公開日:2020-03-16
# HVNet:LiDARによる3Dオブジェクト検出のためのハイブリッドVoxelネットワーク

HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection ( http://arxiv.org/abs/2003.00186v2 )

ライセンス: Link先を確認
Maosheng Ye, Shuangjie Xu and Tongyi Cao(参考訳) 我々は、ポイントクラウドに基づく自律運転のための3Dオブジェクト検出のための新しい一段階統合ネットワークであるHybrid Voxel Network(HVNet)を提案する。 近年の研究では、per voxel pointnetスタイルの特徴抽出器による2次元ボクセル化が、大規模な3dシーンの高精度かつ効率的な検出に繋がることが示された。 特徴マップのサイズが計算とメモリコストを決定するので、ボクセルのサイズはバランスの取れないパラメータとなる。 より小さなボクセルサイズでは、特に小さなオブジェクトではパフォーマンスが向上するが、推論時間が長くなる。 より大きなボクセルは、より小さな特徴マップで同じ領域をカバーできるが、複雑な特徴やより小さな物体の正確な位置を把握できない。 本稿では,異なるスケールのvoxel feature encoder (vfe) を用いて,複数の疑似画像特徴マップに投影することにより,この問題を解決するハイブリッドvoxelネットワークを提案する。 さらに,一般のVFEと機能融合ピラミッドネットワークを上回り,マルチスケール情報を特徴マップレベルで集約する注意的ボクセル特徴符号化を提案する。 KITTIベンチマークの実験では、1つのHVNetが31Hzのリアルタイム推論速度を持つ既存のすべての手法の中で最高のmAPを達成している。

We present Hybrid Voxel Network (HVNet), a novel one-stage unified network for point cloud based 3D object detection for autonomous driving. Recent studies show that 2D voxelization with per voxel PointNet style feature extractor leads to accurate and efficient detector for large 3D scenes. Since the size of the feature map determines the computation and memory cost, the size of the voxel becomes a parameter that is hard to balance. A smaller voxel size gives a better performance, especially for small objects, but a longer inference time. A larger voxel can cover the same area with a smaller feature map, but fails to capture intricate features and accurate location for smaller objects. We present a Hybrid Voxel network that solves this problem by fusing voxel feature encoder (VFE) of different scales at point-wise level and project into multiple pseudo-image feature maps. We further propose an attentive voxel feature encoding that outperforms plain VFE and a feature fusion pyramid network to aggregate multi-scale information at feature map level. Experiments on the KITTI benchmark show that a single HVNet achieves the best mAP among all existing methods with a real time inference speed of 31Hz.
翻訳日:2022-12-27 20:27:23 公開日:2020-03-16
# オープン空中データセットを用いた大規模マルチビューステレオ再構成のための新しいリカレントエンコーダ・デコーダ構造

A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction from An Open Aerial Dataset ( http://arxiv.org/abs/2003.00637v3 )

ライセンス: Link先を確認
Jin Liu and Shunping Ji(参考訳) 近年,多視点ステレオ(mvs)マッチングがディープラーニング手法で解決できることが実証されている。 しかし、これらの取り組みは近距離物体に焦点を当てており、多視点空中画像ベンチマークが欠如しているため、大規模3次元都市再建のために特に設計された深層学習に基づく手法はごくわずかであった。 本稿では,mvsタスク用に開発したwhuデータセットという合成空中データセットを提案する。 正確なカメラパラメータを持つ何千もの実際の空中画像から生成された高精度な3Dデジタルサーフェスモデルから生成された。 また,本論文では,奥行き間のコストマップを定式化する再帰エンコーダ・デコーダ構造と,2次元完全畳み込みネットワークをフレームワークとして開発した,red-netと呼ばれる新しい深み推定ネットワークについても紹介する。 RED-Netの低メモリ要件と高性能により、大規模かつ高精度な3次元地球表面再構成に適している。 実験により,本手法が現在のmvs法を50%以上超えただけでなく,メモリと計算コストを削減し,その効率も向上したことを確認した。 従来の方法に基づく最高の商用ソフトウェアプログラムの1つを上回り、効率を16倍改善した。 さらに, 合成WHUデータセット上で事前学習したRED-Netモデルを, 微調整なしで, 非常に異なる多視点空中画像データセットに効率的に転送できることを実証した。 データセットはhttp://gpcv.whu.edu.cn/dataで入手できる。

A great deal of research has demonstrated recently that multi-view stereo (MVS) matching can be solved with deep learning methods. However, these efforts were focused on close-range objects and only a very few of the deep learning-based methods were specifically designed for large-scale 3D urban reconstruction due to the lack of multi-view aerial image benchmarks. In this paper, we present a synthetic aerial dataset, called the WHU dataset, we created for MVS tasks, which, to our knowledge, is the first large-scale multi-view aerial dataset. It was generated from a highly accurate 3D digital surface model produced from thousands of real aerial images with precise camera parameters. We also introduce in this paper a novel network, called RED-Net, for wide-range depth inference, which we developed from a recurrent encoder-decoder structure to regularize cost maps across depths and a 2D fully convolutional network as framework. RED-Net's low memory requirements and high performance make it suitable for large-scale and highly accurate 3D Earth surface reconstruction. Our experiments confirmed that not only did our method exceed the current state-of-the-art MVS methods by more than 50% mean absolute error (MAE) with less memory and computational cost, but its efficiency as well. It outperformed one of the best commercial software programs based on conventional methods, improving their efficiency 16 times over. Moreover, we proved that our RED-Net model pre-trained on the synthetic WHU dataset can be efficiently transferred to very different multi-view aerial image datasets without any fine-tuning. Dataset are available at http://gpcv.whu.edu.cn/data.
翻訳日:2022-12-27 05:15:01 公開日:2020-03-16
# 難易度から複雑度への学習:ニューラルダイアログ生成のための適応型多言語学習

Learning from Easy to Complex: Adaptive Multi-curricula Learning for Neural Dialogue Generation ( http://arxiv.org/abs/2003.00639v2 )

ライセンス: Link先を確認
Hengyi Cai, Hongshen Chen, Cheng Zhang, Yonghao Song, Xiaofang Zhao, Yangxi Li, Dongsheng Duan, Dawei Yin(参考訳) 現在の最先端のニューラルダイアログシステムは、主にデータ駆動であり、人為的な応答に基づいて訓練されている。 しかし、人間の会話の主観性と開放的な性質から、対話の訓練の複雑さは大きく異なる。 問合せ応答対のノイズと不均一な複雑さは、学習効率とニューラル対話生成モデルの効果を阻害する。 さらに、これまでのところ、統一された対話の複雑さの測定は存在せず、対話の複雑さは属性の複数の側面(特異性、反復性、関連性など)を具現化している。 本稿では,子どもが対話から複雑なものへ簡単に学習し,学習の進捗を動的に調整する,会話の人間的行動に触発され,まず5つの対話属性を分析し,公に入手可能な3つのコーパスを用いて対話の複雑さを測定する。 そこで本研究では,組織的カリキュラムの委員会をスケジュールする適応型マルチカリキュラム学習フレームワークを提案する。 この枠組みは、神経対話生成モデルの学習状態に応じて、進化する学習過程において異なるカリキュラムを自動的に選択する強化学習パラダイムに基づいて確立される。 5つの最先端モデルで実施された大規模な実験は、13の自動評価指標と人的判断に対する学習効率と有効性を示している。

Current state-of-the-art neural dialogue systems are mainly data-driven and are trained on human-generated responses. However, due to the subjectivity and open-ended nature of human conversations, the complexity of training dialogues varies greatly. The noise and uneven complexity of query-response pairs impede the learning efficiency and effects of the neural dialogue generation models. What is more, so far, there are no unified dialogue complexity measurements, and the dialogue complexity embodies multiple aspects of attributes---specificity, repetitiveness, relevance, etc. Inspired by human behaviors of learning to converse, where children learn from easy dialogues to complex ones and dynamically adjust their learning progress, in this paper, we first analyze five dialogue attributes to measure the dialogue complexity in multiple perspectives on three publicly available corpora. Then, we propose an adaptive multi-curricula learning framework to schedule a committee of the organized curricula. The framework is established upon the reinforcement learning paradigm, which automatically chooses different curricula at the evolving learning process according to the learning status of the neural dialogue generation model. Extensive experiments conducted on five state-of-the-art models demonstrate its learning efficiency and effectiveness with respect to 13 automatic evaluation metrics and human judgments.
翻訳日:2022-12-27 05:06:12 公開日:2020-03-16
# 教師なし映像予測のための未知因子からの物理力学の分離

Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction ( http://arxiv.org/abs/2003.01460v2 )

ライセンス: Link先を確認
Vincent Le Guen, Nicolas Thome(参考訳) 偏微分方程式(PDE)によって記述される物理知識を活用することは、教師なしビデオ予測法を改善するための魅力的な方法である。 物理は、ジェネリックビデオの完全な視覚的内容を記述するには厳密すぎるため、未知の補完情報からPDEダイナミクスを明示的に切り離す2ブランチのディープアーキテクチャであるPhyDNetを導入する。 2つめの貢献は、潜時空間でpdeに拘束された予測を行うために、データ同化技術にインスパイアされた新しいリカレントな物理細胞(phycell)を提案することである。 4つのデータセットで広範な実験を行った結果、phydnetは最先端のメソッドよりも優れていた。 アブレーション研究は、歪曲とPDE制約予測の両方によって引き起こされる重要な利益も強調している。 最後に、PhyDNetは、欠落したデータと長期予測を扱う興味深い機能を示す。

Leveraging physical knowledge described by partial differential equations (PDEs) is an appealing way to improve unsupervised video prediction methods. Since physics is too restrictive for describing the full visual content of generic videos, we introduce PhyDNet, a two-branch deep architecture, which explicitly disentangles PDE dynamics from unknown complementary information. A second contribution is to propose a new recurrent physical cell (PhyCell), inspired from data assimilation techniques, for performing PDE-constrained prediction in latent space. Extensive experiments conducted on four various datasets show the ability of PhyDNet to outperform state-of-the-art methods. Ablation studies also highlight the important gain brought out by both disentanglement and PDE-constrained prediction. Finally, we show that PhyDNet presents interesting features for dealing with missing data and long-term forecasting.
翻訳日:2022-12-26 22:51:01 公開日:2020-03-16
# 3dポイントクラウドのためのエンド・ツー・エンド学習ローカルマルチビュー記述子

End-to-End Learning Local Multi-view Descriptors for 3D Point Clouds ( http://arxiv.org/abs/2003.05855v2 )

ライセンス: Link先を確認
Lei Li, Siyu Zhu, Hongbo Fu, Ping Tan, Chiew-Lan Tai(参考訳) 本研究では,3Dポイントクラウドのためのローカルマルチビュー記述子を学習するためのエンドツーエンドフレームワークを提案する。 同様の多視点表現を採用するために、既存の研究では、手作りの視点を用いて前処理段階のレンダリングを行う。 本フレームワークでは,関心点のより情報的なコンテキストを捉えるために,視点を最適化可能なパラメータとして,微分可能なレンダラを用いて,マルチビューレンダリングをニューラルネットワークに統合する。 識別用ディスクリプタを得るため、ビュー間で畳み込み機能を注意して融合させるソフトビュープーリングモジュールも設計する。 既存の3Dレジストレーションベンチマークの大規模な実験により,本手法は既存のローカルディスクリプタを定量的かつ定性的に上回ることがわかった。

In this work, we propose an end-to-end framework to learn local multi-view descriptors for 3D point clouds. To adopt a similar multi-view representation, existing studies use hand-crafted viewpoints for rendering in a preprocessing stage, which is detached from the subsequent descriptor learning stage. In our framework, we integrate the multi-view rendering into neural networks by using a differentiable renderer, which allows the viewpoints to be optimizable parameters for capturing more informative local context of interest points. To obtain discriminative descriptors, we also design a soft-view pooling module to attentively fuse convolutional features across views. Extensive experiments on existing 3D registration benchmarks show that our method outperforms existing local descriptors both quantitatively and qualitatively.
翻訳日:2022-12-24 15:06:11 公開日:2020-03-16
# SeqXY2SeqZ:2次元座標からの1次元占有セグメントの逐次予測による3次元形状の構造学習

SeqXY2SeqZ: Structure Learning for 3D Shapes by Sequentially Predicting 1D Occupancy Segments From 2D Coordinates ( http://arxiv.org/abs/2003.05559v2 )

ライセンス: Link先を確認
Zhizhong Han, Guanhui Qiao, Yu-Shen Liu, and Matthias Zwicker(参考訳) 3次元コンピュータビジョンには3次元形状の構造学習が不可欠である。 最先端の手法は、識別ニューラルネットワークを用いて学習した3次元の暗黙の関数を用いて形状を表現することで有望な結果を示す。 しかし、3次元空間における暗黙的関数の学習には密集的かつ不規則なサンプリングが必要であるため、サンプリング法は試験中の形状復元の精度に影響を与える。 3次元の高密度で不規則なサンプリングを避けるために,各2次元位置における関数の出力を形状内の線分列とする2次元関数を用いた形状表現を提案する。 提案手法は機能表現のパワーを活用するが、3dサンプリングの欠点はない。 具体的には、ボクセル格子をX、Y、またはZ軸のいずれかに沿ったチューブの集合として表現するためにボクセルチューブ化を用いる。 各チューブは、他の2つの軸にまたがる平面上の2d座標によってインデックス化することができる。 さらに,各管の占有部分の配列を単純化する。 各占有セグメントは、形状によって占有される連続したボクセルで構成されており、1dの開始位置と終了位置の単純な表現に繋がる。 チューブの2次元座標と形状特徴を条件として、チューブ内の各占有セグメントの開始位置と終了位置を逐次予測することにより、3次元形状構造を学習することができる。 このアプローチはseqxy2seqzと呼ばれる注意深いseq2seqモデルを用いて実装され、2つの任意の軸に沿った2d座標の列から3軸に沿った1d位置の配列へのマッピングを学ぶ。 SeqXY2SeqZは、トレーニングやテストにおけるボクセルグリッドの規則性の恩恵を受けるだけでなく、高いメモリ効率を実現する。 実験の結果,SeqXY2SeqZは広く使用されているベンチマークで最先端の手法よりも優れていることがわかった。

Structure learning for 3D shapes is vital for 3D computer vision. State-of-the-art methods show promising results by representing shapes using implicit functions in 3D that are learned using discriminative neural networks. However, learning implicit functions requires dense and irregular sampling in 3D space, which also makes the sampling methods affect the accuracy of shape reconstruction during test. To avoid dense and irregular sampling in 3D, we propose to represent shapes using 2D functions, where the output of the function at each 2D location is a sequence of line segments inside the shape. Our approach leverages the power of functional representations, but without the disadvantage of 3D sampling. Specifically, we use a voxel tubelization to represent a voxel grid as a set of tubes along any one of the X, Y, or Z axes. Each tube can be indexed by its 2D coordinates on the plane spanned by the other two axes. We further simplify each tube into a sequence of occupancy segments. Each occupancy segment consists of successive voxels occupied by the shape, which leads to a simple representation of its 1D start and end location. Given the 2D coordinates of the tube and a shape feature as condition, this representation enables us to learn 3D shape structures by sequentially predicting the start and end locations of each occupancy segment in the tube. We implement this approach using a Seq2Seq model with attention, called SeqXY2SeqZ, which learns the mapping from a sequence of 2D coordinates along two arbitrary axes to a sequence of 1D locations along the third axis. SeqXY2SeqZ not only benefits from the regularity of voxel grids in training and testing, but also achieves high memory efficiency. Our experiments show that SeqXY2SeqZ outperforms the state-ofthe-art methods under widely used benchmarks.
翻訳日:2022-12-24 15:00:04 公開日:2020-03-16
# 画像生成のための意味ピラミッド

Semantic Pyramid for Image Generation ( http://arxiv.org/abs/2003.06221v2 )

ライセンス: Link先を確認
Assaf Shocher, Yossi Gandelsman, Inbar Mosseri, Michal Yarom, Michal Irani, William T. Freeman and Tali Dekel(参考訳) 本稿では,事前学習した分類モデルから学習した深部特徴空間を利用した新しいGANモデルを提案する。 古典的なイメージピラミッド表現に触発されて、我々はモデルを意味生成ピラミッドとして構築する。これは、このような深い特徴にカプセル化された意味情報の連続性を利用する階層的フレームワークであり、細かな特徴に含まれる低レベル情報から、深い特徴に含まれる高レベルな意味情報まで幅広い。 より具体的には、参照画像から抽出された特徴の集合を考慮し、分類モデルの各意味レベルで一致する特徴を持つ多様な画像サンプルを生成する。 我々は,このモデルが様々な古典的および新しい画像生成タスクで使用できる汎用的で柔軟なフレームワークをもたらすことを実証する。 参照画像とコントロール可能なセマンティックな類似性を持つ画像を生成すること、セマンティック制御されたインペイントやコンポジションのようなさまざまな操作タスク、これらはすべて同じモデルで達成され、それ以上のトレーニングは行われない。

We present a novel GAN-based model that utilizes the space of deep features learned by a pre-trained classification model. Inspired by classical image pyramid representations, we construct our model as a Semantic Generation Pyramid -- a hierarchical framework which leverages the continuum of semantic information encapsulated in such deep features; this ranges from low level information contained in fine features to high level, semantic information contained in deeper features. More specifically, given a set of features extracted from a reference image, our model generates diverse image samples, each with matching features at each semantic level of the classification model. We demonstrate that our model results in a versatile and flexible framework that can be used in various classic and novel image generation tasks. These include: generating images with a controllable extent of semantic similarity to a reference image, and different manipulation tasks such as semantically-controlled inpainting and compositing; all achieved with the same model, with no further training.
翻訳日:2022-12-24 01:12:25 公開日:2020-03-16
# 接続ベクトルネットワークにおける時空間モデリングのための生成学習手法

A Generative Learning Approach for Spatio-temporal Modeling in Connected Vehicular Network ( http://arxiv.org/abs/2003.07004v1 )

ライセンス: Link先を確認
Rong Xia, Yong Xiao, Yingyu Li, Marwan Krunz, Dusit Niyato(参考訳) 無線アクセス遅延の時空間モデリングは、接続車両システムにとって非常に重要である。 成形結果の品質は, センサ配置密度, 交通量, 密度によって大きく変化する試料の数と品質に大きく依存する。 本稿では、広域にまたがる連結車両の無線アクセス遅延の包括的時空間を生成する新しいフレームワークであるLaMI(Latency Model Inpainting)を提案する。 LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。 特に,まず,各地域で収集されたサンプル間の空間的相関をパッチ方式で発見し,得られたサンプルと高度に相関したサンプルを,深部生成モデルである変分オートエンコーダ(VAE)に供給し,同一の確率分布を持つ遅延サンプルを生成する。 最後に、LaMIは遅延性能の実証的なPDFを確立し、PDFを異なる車両サービス要件の信頼性レベルにマッピングする。 大学構内の商用LTEネットワークで収集した実測値を用いて,大規模性能評価を行った。 シミュレーションの結果,提案手法は,補間法や近接近傍法などの既存手法と比較して,レイテンシモデリングの精度を大幅に向上できることがわかった。

Spatio-temporal modeling of wireless access latency is of great importance for connected-vehicular systems. The quality of the molded results rely heavily on the number and quality of samples which can vary significantly due to the sensor deployment density as well as traffic volume and density. This paper proposes LaMI (Latency Model Inpainting), a novel framework to generate a comprehensive spatio-temporal of wireless access latency of a connected vehicles across a wide geographical area. LaMI adopts the idea from image inpainting and synthesizing and can reconstruct the missing latency samples by a two-step procedure. In particular, it first discovers the spatial correlation between samples collected in various regions using a patching-based approach and then feeds the original and highly correlated samples into a Variational Autoencoder (VAE), a deep generative model, to create latency samples with similar probability distribution with the original samples. Finally, LaMI establishes the empirical PDF of latency performance and maps the PDFs into the confidence levels of different vehicular service requirements. Extensive performance evaluation has been conducted using the real traces collected in a commercial LTE network in a university campus. Simulation results show that our proposed model can significantly improve the accuracy of latency modeling especially compared to existing popular solutions such as interpolation and nearest neighbor-based methods.
翻訳日:2022-12-23 04:10:15 公開日:2020-03-16
# PCNN:短期交通渋滞予測のための深層畳み込みネットワーク

PCNN: Deep Convolutional Networks for Short-term Traffic Congestion Prediction ( http://arxiv.org/abs/2003.07033v1 )

ライセンス: Link先を確認
Meng Chen, Xiaohui Yu, Yang Liu(参考訳) 交通問題は人々の生活の質や都市開発に深刻な影響を与えており、短期的な交通渋滞の予測は個人と政府双方にとって非常に重要である。 しかし、交通状況の理解とモデル化は極めて困難であり、実際の交通データから、(1)隣り合う時間帯や仕事の日に類似した交通渋滞パターンが存在すること、(2)交通渋滞のレベルは明確なマルチスケール特性を持っていることが分かる。 これらの特徴を捉えるために,深層畳み込みニューラルネットワークに基づくpcnnという新しい手法を提案し,交通渋滞予測のための周期的トラヒックデータをモデル化する。 PCNNには時系列の折り畳みと多粒度学習という2つの重要な手順がある。 まず時系列を時間的に折り畳み、リアルタイムの交通条件と過去の交通パターンの両方をよく考慮したネットワーク入力として2次元行列を構築し、入力行列上の一連の畳み込みにより、局所的な時間依存性とマルチスケールの交通パターンをモデル化することができる。 特に、混雑の世界的な傾向は、マクロスケールで対処できるが、より詳細な混雑と変動は、マイクロスケールで捉えることができる。 実世界の都市交通データセットの実験結果から,2次元行列への折りたたみ時系列データの有効性が確認され,PCNNは短期混雑予測のタスクにおいて,ベースラインを大幅に上回る結果を得た。

Traffic problems have seriously affected people's life quality and urban development, and forecasting the short-term traffic congestion is of great importance to both individuals and governments. However, understanding and modeling the traffic conditions can be extremely difficult, and our observations from real traffic data reveal that (1) similar traffic congestion patterns exist in the neighboring time slots and on consecutive workdays; (2) the levels of traffic congestion have clear multiscale properties. To capture these characteristics, we propose a novel method named PCNN based on deep Convolutional Neural Network, modeling Periodic traffic data for short-term traffic congestion prediction. PCNN has two pivotal procedures: time series folding and multi-grained learning. It first temporally folds the time series and constructs a two-dimensional matrix as the network input, such that both the real-time traffic conditions and past traffic patterns are well considered; then with a series of convolutions over the input matrix, it is able to model the local temporal dependency and multiscale traffic patterns. In particular, the global trend of congestion can be addressed at the macroscale; whereas more details and variations of the congestion can be captured at the microscale. Experimental results on a real-world urban traffic dataset confirm that folding time series data into a two-dimensional matrix is effective and PCNN outperforms the baselines significantly for the task of short-term congestion prediction.
翻訳日:2022-12-23 04:09:55 公開日:2020-03-16
# 正方形に偏りのある${\mathbb z^n}$に埋め込まれた形状の複雑性

Complexity of Shapes Embedded in ${\mathbb Z^n}$ with a Bias Towards Squares ( http://arxiv.org/abs/2003.07341v1 )

ライセンス: Link先を確認
M. Ferhat Arslan (1), Sibel Tari (1) ((1) Middle East Technical University)(参考訳) 形状の複雑さは、その相対的な性質から、定量化が難しい品質である。 ユークリッド的思考の偏りから、円は最も単純なものと見なされる。 しかし、デジタル画像としてのそれらの構成は理想形への近似に過ぎない。 したがって、円を参照して計算される複雑性順序は不安定である。 デジタル画像で円をなくす円とは異なり、四角形は品質を保っている。 したがって、平方 (hypercubes in $\mathbb Z^n$) は複雑性の順序が構成される最も単純な形である。 L^\infty$ノルムと正方形の間の接続を用いて、スケールが境界への関心のレベルを決定するような多スケールの複雑性測度が得られるような平方度適応の単純化を効果的にエンコードする。 境界特徴(付与)の効果が消失する創発的尺度は、付属物の接触幅と本体の接触幅の比率に関係している。 情報繰り返しや構成可能性の観点からは,ゼロ複雑性がどのような意味を持つのか,また,正方形に加えて,どのような形状がゼロ複雑性を持つのかを論じる。

Shape complexity is a hard-to-quantify quality, mainly due to its relative nature. Biased by Euclidean thinking, circles are commonly considered as the simplest. However, their constructions as digital images are only approximations to the ideal form. Consequently, complexity orders computed in reference to circle are unstable. Unlike circles which lose their circleness in digital images, squares retain their qualities. Hence, we consider squares (hypercubes in $\mathbb Z^n$) to be the simplest shapes relative to which complexity orders are constructed. Using the connection between $L^\infty$ norm and squares we effectively encode squareness-adapted simplification through which we obtain multi-scale complexity measure, where scale determines the level of interest to the boundary. The emergent scale above which the effect of a boundary feature (appendage) disappears is related to the ratio of the contacting width of the appendage to that of the main body. We discuss what zero complexity implies in terms of information repetition and constructibility and what kind of shapes in addition to squares have zero complexity.
翻訳日:2022-12-23 04:09:07 公開日:2020-03-16
# リモートセンシングによる大規模表面・地下キャラクタリゼーションのための完全可逆ニューラルネットワーク

Fully reversible neural networks for large-scale surface and sub-surface characterization via remote sensing ( http://arxiv.org/abs/2003.07474v1 )

ライセンス: Link先を確認
Bas Peters, Eldad Haber, Keegan Lensink(参考訳) ハイパースペクトルと空中磁気および重力データの大規模な空間/周波数スケールは、(サブ)表面のキャラクタリゼーションに畳み込みニューラルネットワークを使用する際のメモリ問題を引き起こす。 近年開発された完全可逆的ネットワークは,ネットワーク状態の保存に必要なメモリ容量が低く固定されているため,メモリの制限を回避することができる。 完全な可逆性ネットワークは、データボリューム全体を取り込み、一行で意味セグメンテーションを作成するディープニューラルネットワークのトレーニングを可能にする。 このアプローチでは、小さなパッチで作業したり、中央のピクセルのみのクラスにデータパッチをマッピングする必要がなくなる。 クロスエントロピー損失関数は、完全に可逆的なネットワークと連携して動作し、完全なラベル付き基底真理を見ることなく、スパースサンプルラベルから学習するために小さな修正を必要とする。 本研究では,ハイパースペクトル時間経過データからの土地利用変化検出と,空中地球物理・地質データからの地域帯水層マッピングの例を示す。

The large spatial/frequency scale of hyperspectral and airborne magnetic and gravitational data causes memory issues when using convolutional neural networks for (sub-) surface characterization. Recently developed fully reversible networks can mostly avoid memory limitations by virtue of having a low and fixed memory requirement for storing network states, as opposed to the typical linear memory growth with depth. Fully reversible networks enable the training of deep neural networks that take in entire data volumes, and create semantic segmentations in one go. This approach avoids the need to work in small patches or map a data patch to the class of just the central pixel. The cross-entropy loss function requires small modifications to work in conjunction with a fully reversible network and learn from sparsely sampled labels without ever seeing fully labeled ground truth. We show examples from land-use change detection from hyperspectral time-lapse data, and regional aquifer mapping from airborne geophysical and geological data.
翻訳日:2022-12-23 04:08:51 公開日:2020-03-16
# 戦略的キューシステムにおける安定性と学習

Stability and Learning in Strategic Queuing Systems ( http://arxiv.org/abs/2003.07009v1 )

ライセンス: Link先を確認
Jason Gaitonde, Eva Tardos(参考訳) 参加者の利己的な行動による社会福祉への損害を定量化する無政府主義の価格設定は重要な研究分野である。 本稿では,この現象をゲームモデリングキューシステムという文脈で考察する: ルータはサーバと競合し,サービスを受けないパケットは今後のラウンドで再送され,各ラウンドにおけるパケットの数が前ラウンドでのルータの成功に依存するシステムとなる。 我々はこれを(無限に)繰り返しゲームとしてモデル化し、システムが前のラウンドの結果から生じる状態(各キューが保持するパケット数)を保持する。 ルータは、例えば、学習戦略を使って、パケットが最適なサービスを得るサーバを特定するなど、非レグレット条件を満たすと仮定する。 繰り返しゲームに関する古典的な研究は、後続のラウンドが(過去の歴史からの学習の影響に加えて)独立である、という強い仮定を下している。 このシステムに残されているパケットによって引き起こされるキャリーオーバー効果は、我々のコンテキストでの学習を高度に依存するランダムプロセスへと導く。 このランダムなプロセスを分析し、もしサーバのキャパシティが高くて、中央集権的で知識のあるスケジューラがパケット到着率の2倍でも全てのパケットを配信でき、キューが非Regret学習アルゴリズムを使用していれば、古いパケットが優先されていると仮定して、待ち行列内のパケットの数は時間とともに制限される。 本稿では,学習者がリソースを競うキューシステムにおいて,自己学習の効果を初めて研究した。しかしラウンドは必ずしも独立ではない。各ラウンドにおいてルーティングされるパケット数は,前ラウンドにおけるルータの成功に依存する。

Bounding the price of anarchy, which quantifies the damage to social welfare due to selfish behavior of the participants, has been an important area of research. In this paper, we study this phenomenon in the context of a game modeling queuing systems: routers compete for servers, where packets that do not get service will be resent at future rounds, resulting in a system where the number of packets at each round depends on the success of the routers in the previous rounds. We model this as an (infinitely) repeated game, where the system holds a state (number of packets held by each queue) that arises from the results of the previous round. We assume that routers satisfy the no-regret condition, e.g. they use learning strategies to identify the server where their packets get the best service. Classical work on repeated games makes the strong assumption that the subsequent rounds of the repeated games are independent (beyond the influence on learning from past history). The carryover effect caused by packets remaining in this system makes learning in our context result in a highly dependent random process. We analyze this random process and find that if the capacity of the servers is high enough to allow a centralized and knowledgeable scheduler to get all packets served even with double the packet arrival rate, and queues use no-regret learning algorithms, then the expected number of packets in the queues will remain bounded throughout time, assuming older packets have priority. This paper is the first to study the effect of selfish learning in a queuing system, where the learners compete for resources, but rounds are not all independent: the number of packets to be routed at each round depends on the success of the routers in the previous rounds.
翻訳日:2022-12-23 04:08:32 公開日:2020-03-16
# essentiaにおけるtensorflowオーディオモデル

TensorFlow Audio Models in Essentia ( http://arxiv.org/abs/2003.07393v1 )

ライセンス: Link先を確認
Pablo Alonso-Jim\'enez, Dmitry Bogdanov, Jordi Pons, Xavier Serra(参考訳) essentiaは、オーディオおよび音楽分析のためのオープンソースc++/pythonライブラリである。 本研究では,sentiaでtensorflowを活用し,事前学習したディープラーニングモデルによる予測を可能にし,柔軟性,拡張性,リアルタイム推論を提供するアルゴリズムを提案する。 TensorFlowによるこの新しいインターフェースの可能性を示すために、多くの事前訓練された最先端の音楽タグ付けとCNNモデルの分類を提供する。 開発したモデルを広範囲に評価する。 特に、外部タグデータセットと、モデルの分類に合わせた手動アノテーションの両方を用いて、クロスコレクション評価における一般化機能の評価を行う。

Essentia is a reference open-source C++/Python library for audio and music analysis. In this work, we present a set of algorithms that employ TensorFlow in Essentia, allow predictions with pre-trained deep learning models, and are designed to offer flexibility of use, easy extensibility, and real-time inference. To show the potential of this new interface with TensorFlow, we provide a number of pre-trained state-of-the-art music tagging and classification CNN models. We run an extensive evaluation of the developed models. In particular, we assess the generalization capabilities in a cross-collection evaluation utilizing both external tag datasets as well as manual annotations tailored to the taxonomies of our models.
翻訳日:2022-12-23 04:07:46 公開日:2020-03-16
# アクティブ深さ推定:安定性解析とその応用

Active Depth Estimation: Stability Analysis and its Applications ( http://arxiv.org/abs/2003.07137v1 )

ライセンス: Link先を確認
Romulo T. Rodrigues, Pedro Miraldo, Dimos V. Dimarogonas, and A. Pedro Aguiar(参考訳) 周囲環境の3次元構造を復元することは、視覚制御構造移動(sfm)方式において必須の課題である。 本稿では, 逐次能動深度推定法として知られるSfMの理論特性に着目した。 インクリメンタルという言葉は、画像フレームの時系列上のシーンの3次元構造を推定することを意味する。 アクティブとは、カメラのアクティベーションが推定性能を改善することを意味する。 本稿では,既知の深度推定フィルタから,カメラの制御入力に関して,フィルタの安定性解析を行う。 リアプノフ理論を用いて推定器の収束を解析することにより、画像平面内の3次元点の投影に対する制約を以前の結果と比較して緩和する。 それにもかかわらず、この方法はカメラの視野制限に対処できる。 主な結果はシミュレーションデータによる実験によって検証される。

Recovering the 3D structure of the surrounding environment is an essential task in any vision-controlled Structure-from-Motion (SfM) scheme. This paper focuses on the theoretical properties of the SfM, known as the incremental active depth estimation. The term incremental stands for estimating the 3D structure of the scene over a chronological sequence of image frames. Active means that the camera actuation is such that it improves estimation performance. Starting from a known depth estimation filter, this paper presents the stability analysis of the filter in terms of the control inputs of the camera. By analyzing the convergence of the estimator using the Lyapunov theory, we relax the constraints on the projection of the 3D point in the image plane when compared to previous results. Nonetheless, our method is capable of dealing with the cameras' limited field-of-view constraints. The main results are validated through experiments with simulated data.
翻訳日:2022-12-23 04:01:26 公開日:2020-03-16
# 車両再識別のための部分認識モデルを用いた識別特徴と辞書学習

Discriminative Feature and Dictionary Learning with Part-aware Model for Vehicle Re-identification ( http://arxiv.org/abs/2003.07139v1 )

ライセンス: Link先を確認
Huibing Wang, Jinjia Peng, Guangqi Jiang, Fengqiang Xu, Xianping Fu(参考訳) スマートシティーの発展に伴い、都市監視ビデオ分析はインテリジェントな交通システムにおいてさらに重要な役割を果たすだろう。 重複しないカメラから大規模データセット内の同じターゲット車両を特定することは強調されるべきであり、インテリジェントな輸送システムを促進する上でホットな話題となっている。 しかし, 車両再識別技術(re-ID)は, 同じ設計や製造者の車両が類似しているため, 課題である。 これらのギャップを埋めるため,我々は,車両の識別的特徴を活用し,車両再識別の精度を向上させる三重項中心損失型部分認識モデル(tcpm)を提案する。 部品発見におけるtcpmの基礎は、車両を水平方向と垂直方向に分けて車両の詳細を強化し、部品の内部整合性を強化することである。 さらに、車両の局所領域におけるクラス内差を排除するため、各部分の整合性を強調する外部メモリモジュールを提案し、データセット内の全カテゴリにまたがるグローバル辞書を形成する識別特徴を学習する。 TCPMでは、抽出された車両特徴の各々の部分がクラス内一貫性とクラス間分離性を持つことを保証するために、三重項中心損失を導入している。 実験の結果,提案するtcpmは,既存のベンチマークデータセットである vehicleid と veri-776 に対して非常に好まれることがわかった。

With the development of smart cities, urban surveillance video analysis will play a further significant role in intelligent transportation systems. Identifying the same target vehicle in large datasets from non-overlapping cameras should be highlighted, which has grown into a hot topic in promoting intelligent transportation systems. However, vehicle re-identification (re-ID) technology is a challenging task since vehicles of the same design or manufacturer show similar appearance. To fill these gaps, we tackle this challenge by proposing Triplet Center Loss based Part-aware Model (TCPM) that leverages the discriminative features in part details of vehicles to refine the accuracy of vehicle re-identification. TCPM base on part discovery is that partitions the vehicle from horizontal and vertical directions to strengthen the details of the vehicle and reinforce the internal consistency of the parts. In addition, to eliminate intra-class differences in local regions of the vehicle, we propose external memory modules to emphasize the consistency of each part to learn the discriminating features, which forms a global dictionary over all categories in dataset. In TCPM, triplet-center loss is introduced to ensure each part of vehicle features extracted has intra-class consistency and inter-class separability. Experimental results show that our proposed TCPM has an enormous preference over the existing state-of-the-art methods on benchmark datasets VehicleID and VeRi-776.
翻訳日:2022-12-23 04:01:12 公開日:2020-03-16
# ファブリック表面のキャラクタリゼーション:チェアリングデータセットを用いた深層学習に基づくテクスチャ表現の評価

Fabric Surface Characterization: Assessment of Deep Learning-based Texture Representations Using a Challenging Dataset ( http://arxiv.org/abs/2003.07725v1 )

ライセンス: Link先を確認
Yuting Hu, Zhiling Long, Anirudha Sundaresan, Motaz Alfarraj, Ghassan AlRegib, Sungmee Park, and Sundaresan Jayaraman(参考訳) 触覚またはファブリックハンドは、希望する用途のために利用可能なファブリックの範囲から特定のファブリックを購入するという個人の決定において重要な役割を果たす。 そのため、布地や衣料品のメーカーは長年、所望の手で織物を加工できる布地手を評価する客観的な方法を模索してきた。 現実画像におけるテクスチャや素材の認識は,物体認識やシーン理解において重要な役割を担っている。 本稿では, 物質認識を超越した計算材料表面のキャラクタリゼーションとして, 材料の見かけ的あるいは潜在的な特性(表面平滑性など)を計算的に特徴付ける方法を検討する。 この問題を, きめ細かいテクスチャ分類問題として定式化し, 深層学習に基づくテクスチャ表現技術が課題にどう取り組むかを検討する。 知的製造システムにおける繊維品質自動評価機構を指向した,大規模で挑戦的な顕微鏡材料表面データセット(CoMMonS)を導入する。 次に,CoMMonSを用いたテクスチャ分類のための最先端深層学習手法の総合評価を行う。 さらに,マルチレベルテクスチャエンコーディング・表現ネットワーク (multer) を提案する。このネットワークでは,テクスチャの詳細とテクスチャ表現における空間情報の両方を維持するために,低レベルと高レベルを同時に利用する。 その結果,最新の深層テクスチャ記述子と比較して,multerは材料特性評価のためのcommonsデータセットだけでなく,minc-2500やgtos-mobileのような確立されたデータセットでも高い精度が得られることがわかった。

Tactile sensing or fabric hand plays a critical role in an individual's decision to buy a certain fabric from the range of available fabrics for a desired application. Therefore, textile and clothing manufacturers have long been in search of an objective method for assessing fabric hand, which can then be used to engineer fabrics with a desired hand. Recognizing textures and materials in real-world images has played an important role in object recognition and scene understanding. In this paper, we explore how to computationally characterize apparent or latent properties (e.g., surface smoothness) of materials, i.e., computational material surface characterization, which moves a step further beyond material recognition. We formulate the problem as a very fine-grained texture classification problem, and study how deep learning-based texture representation techniques can help tackle the task. We introduce a new, large-scale challenging microscopic material surface dataset (CoMMonS), geared towards an automated fabric quality assessment mechanism in an intelligent manufacturing system. We then conduct a comprehensive evaluation of state-of-the-art deep learning-based methods for texture classification using CoMMonS. Additionally, we propose a multi-level texture encoding and representation network (MuLTER), which simultaneously leverages low- and high-level features to maintain both texture details and spatial information in the texture representation. Our results show that, in comparison with the state-of-the-art deep texture descriptors, MuLTER yields higher accuracy not only on our CoMMonS dataset for material characterization, but also on established datasets such as MINC-2500 and GTOS-mobile for material recognition.
翻訳日:2022-12-23 04:00:24 公開日:2020-03-16
# \. Insans{\i}z Ara\c{c}larla D\"uzlemsel Olmayan Ara\c{c}lar{\i}n Taranmas{\i}

\.Insans{\i}z Ara\c{c}larla D\"uzlemsel Olmayan Ara\c{c}lar{\i}n Taranmas{\i} ( http://arxiv.org/abs/2003.09310v1 )

ライセンス: Link先を確認
\c{C}a\u{g}lar Seylan, \"Ozg\"ur Sayg{\i}n Bican, Fatih Semiz(参考訳) 無人機におけるエリアカバレッジの重要性は、ロボットや無人機のような無人機と完全にまたは部分的にのコストで地域を旅行することであり、今日ではそのような車両の使用の増加とともに増大している。 無人機による地域被覆は、今日ではUAVによる地域探査、ロボットによる鉱山の掃討、大型ショッピングモールでのロボットの清掃、広いエリアでの芝刈り等に利用されている。 問題は、単一の無人車両によるエリアカバレッジ、複数の無人車両によるエリアカバレッジ、オンラインエリアカバレッジ(カバーされるエリアの地図は、カバー開始前には知られていない)、無人車両によるエリアカバレッジなどである。 さらに、このエリアには車両が移動できない障害があるかもしれない。 当然、多くの研究がこの問題に取り組んでおり、今日まで多くの研究が行われてきた。 スパンニングツリーカバレッジは、この問題に対する主要なアプローチの1つです。 このアプローチでは、基本レベルでは、車両の視界範囲に応じて平面領域を同一の正方形に分割し、これらの正方形の中心をグラフの頂点とみなす。 このグラフの頂点は、単位コストでエッジに接続され、グラフの最小分散木を見つけた後、車両は分散木の周りを散歩する。 提案手法は,非平面領域を無人車両でカバーする方法を提案する。 提案手法はスパンニングツリーのカバレッジ手法も活用するが,エッジに単位コストを割り当てる代わりに,エッジが接続する頂点間の傾斜を利用して各エッジに重みを割り当てる。 2つの正方形の間の傾斜を考慮せず、古典的なスパンニングツリーアプローチを使った結果よりも顕著に良い結果が得られた。

The importance of area coverage with unmanned vehicles, in other words, traveling an area with an unmanned vehicle such as a robot or a UAV completely or partially with minimum cost, is increasing with the increase in usage of such vehicles today. Area coverage with unmanned vehicles is used today in the exploration of an area with UAVs, sweeping mines with robots, cleaning ground with robots in large shopping malls, mowing lawn in a large area etc. The problem has versions such as area coverage with a single unmanned vehicle, area coverage with multiple unmanned vehicles, on-line area coverage (The map of the area that will be covered is not known before starting the coverage) with unmanned vehicles etc. In addition, the area may have obstacles that the vehicles cannot move over. Naturally, many researches are working on the problem and a lot of researches have been done on the problem until today. Spanning tree coverage is one of the major approaches to the problem. In this approach, at the basic level, the planar area is divided into identical squares according to the range of sight of the vehicle, and centers of these squares are assumed to be vertexes of a graph. The vertexes of this graph are connected with the edges with unit costs and after finding the minimum spanning tree of the graph, the vehicle strolls around the spanning tree. The method we propose suggests a way to cover a non-planar area with unmanned vehicles. The method we propose also takes advantage of the spanning-tree coverage approach, but instead of assigning unit costs to the edges, we assigned a weight to each edge using slopes between vertexes those the edges connect. We have gotten noticeably better results than the results we got when we did not consider the slope between two squares and used the classical spanning tree approach.
翻訳日:2022-12-23 03:59:39 公開日:2020-03-16
# 健康状態の推定

Health State Estimation ( http://arxiv.org/abs/2003.09312v1 )

ライセンス: Link先を確認
Nitish Nag(参考訳) 人生で最も価値ある資産は健康である。 健康状態の継続的な理解と、それがどのように進化するかのモデリングは、それを改善するためには不可欠です。 人々が現在、歴史上のあらゆる時間よりも、自分の人生に関するより多くのデータを持っている機会を考えると、このデータと、個人の健康状態を継続的に計算しモデル化するための知識の集団との相互作用が課題となる。 この論文は、個人モデルを構築し、マルチモーダルデータとドメイン知識を融合させて個人の健康状態を動的に推定するアプローチを示す。 システムは4つの重要な抽象要素から縫合される。 1 私たちの人生の出来事は 2. 生体系(分子から生物まで)の層 3 生物学的基盤から生じる機能的ユーティリティ、及び 4.日常生活の現実におけるこれらのユーティリティとのインタラクションの仕方 これら4つの要素をグラフネットワークブロックで接続することで、個々のデジタル双生児をインスタンス化するバックボーンを形成します。 このグラフ構造のエッジとノードは、データが継続的に消化されるにつれて、学習技術によって定期的に更新される。 実験は、個人の心血管状態を監視するために、様々な個人的・環境的センサーからの高密度で異種な実世界データの使用を実証する。 状態推定と個人モデリングは、疾患指向アプローチから完全な健康継続パラダイムに移行するための基本的な基礎である。 健康予測の精度は、状態の軌跡を理解する必要がある。 この推定をナビゲーションアプローチに含めることで、システマティックガイダンスフレームワークは、現在の状態を望ましい状態に移行するためのアクションを計画することができる。 この研究は、健康状態と個人グラフモデルを組み合わせたこの枠組みを永久に計画し、私たちの目標に向かって生きていくことを支援することで締めくくります。

Life's most valuable asset is health. Continuously understanding the state of our health and modeling how it evolves is essential if we wish to improve it. Given the opportunity that people live with more data about their life today than any other time in history, the challenge rests in interweaving this data with the growing body of knowledge to compute and model the health state of an individual continually. This dissertation presents an approach to build a personal model and dynamically estimate the health state of an individual by fusing multi-modal data and domain knowledge. The system is stitched together from four essential abstraction elements: 1. the events in our life, 2. the layers of our biological systems (from molecular to an organism), 3. the functional utilities that arise from biological underpinnings, and 4. how we interact with these utilities in the reality of daily life. Connecting these four elements via graph network blocks forms the backbone by which we instantiate a digital twin of an individual. Edges and nodes in this graph structure are then regularly updated with learning techniques as data is continuously digested. Experiments demonstrate the use of dense and heterogeneous real-world data from a variety of personal and environmental sensors to monitor individual cardiovascular health state. State estimation and individual modeling is the fundamental basis to depart from disease-oriented approaches to a total health continuum paradigm. Precision in predicting health requires understanding state trajectory. By encasing this estimation within a navigational approach, a systematic guidance framework can plan actions to transition a current state towards a desired one. This work concludes by presenting this framework of combining the health state and personal graph model to perpetually plan and assist us in living life towards our goals.
翻訳日:2022-12-23 03:59:07 公開日:2020-03-16
# 部分空間同定と動的モード分解のための統一定理

Unifying Theorems for Subspace Identification and Dynamic Mode Decomposition ( http://arxiv.org/abs/2003.07410v1 )

ライセンス: Link先を確認
Sungho Shin, Qiugang Lu, Victor M. Zavala(参考訳) 本稿では,自律力学系における部分空間識別(SID)と動的モード分解(DMD)の統一結果を提案する。 sidは拡張可観測性行列と状態空間モデルの予測誤差を最小化する状態系列を推定するために最適化問題を解こうとしている。 さらに,dmdは拡張自己回帰モデルの予測誤差を最小化する階数制約行列回帰問題を解こうとしている。 完全(エラーのない)状態空間と低ランク拡張自己回帰モデルの存在条件は等価であり、SIDおよびDMD最適化問題は等価であることを示す。 これらの結果を利用して、証明可能な最適モデルを提供し、実装が容易なSID-DMDアルゴリズムを提案する。 ビデオデータから直接動的モデルを構築することを目的としたケーススタディを用いて,我々の開発を実証する。

This paper presents unifying results for subspace identification (SID) and dynamic mode decomposition (DMD) for autonomous dynamical systems. We observe that SID seeks to solve an optimization problem to estimate an extended observability matrix and a state sequence that minimizes the prediction error for the state-space model. Moreover, we observe that DMD seeks to solve a rank-constrained matrix regression problem that minimizes the prediction error of an extended autoregressive model. We prove that existence conditions for perfect (error-free) state-space and low-rank extended autoregressive models are equivalent and that the SID and DMD optimization problems are equivalent. We exploit these results to propose a SID-DMD algorithm that delivers a provably optimal model and that is easy to implement. We demonstrate our developments using a case study that aims to build dynamical models directly from video data.
翻訳日:2022-12-23 03:58:21 公開日:2020-03-16
# UAVによる地域被覆問題の解決: Windows 変動を考慮した車両ルーティング

Solving Area Coverage Problem with UAVs: A Vehicle Routing with Time Windows Variation ( http://arxiv.org/abs/2003.07124v1 )

ライセンス: Link先を確認
Fatih Semiz and Faruk Polat(参考訳) 実生活では、無人航空機(uav)で地域をカバーすることで、広い範囲のセキュリティを提供することは、複数の目的からなる難しい問題である。 これらの困難は、特定の時間帯を通して範囲をカバーし続けなければならない場合にさらに大きい。 エージェントの容量が1つであり、各顧客(ターゲットエリア)が時間窓に違反することなく同時に複数の車両を供給しなければならないVRPTW(Vine Routing Problem with Time Windows)の変動を考慮することで、この問題に対処する。 この問題において,我々は,すべての領域を時間窓内で必要な数のuavでカバーする方法を見つけ,移動距離を最小化し,各エージェントが制限された燃料を持つという追加の制約を満たすことで,高速なソリューションを提供することを目的としている。 本稿では,対象エリアを時間ウィンドウに従ってクラスタリングし,各クラスタと準備可能なUAVの輸送問題を段階的に生成するアルゴリズムを提案する。 次に,simplexアルゴリズムを用いて輸送問題を解き,その解を導出する。 提案するアルゴリズムと他の実装アルゴリズムの性能を,実際の問題サイズを例に挙げて評価した。

In real life, providing security for a set of large areas by covering the area with Unmanned Aerial Vehicles (UAVs) is a difficult problem that consist of multiple objectives. These difficulties are even greater if the area coverage must continue throughout a specific time window. We address this by considering a Vehicle Routing Problem with Time Windows (VRPTW) variation in which capacity of agents is one and each customer (target area) must be supplied with more than one vehicles simultaneously without violating time windows. In this problem, our aim is to find a way to cover all areas with the necessary number of UAVs during the time windows, minimize the total distance traveled, and provide a fast solution by satisfying the additional constraint that each agent has limited fuel. We present a novel algorithm that relies on clustering the target areas according to their time windows, and then incrementally generating transportation problems with each cluster and the ready UAVs. Then we solve transportation problems with the simplex algorithm to generate the solution. The performance of the proposed algorithm and other implemented algorithms to compare the solution quality is evaluated on example scenarios with practical problem sizes.
翻訳日:2022-12-23 03:51:25 公開日:2020-03-16
# コントラスト的説明による透明ロボット計画に向けて

Towards Transparent Robotic Planning via Contrastive Explanations ( http://arxiv.org/abs/2003.07425v1 )

ライセンス: Link先を確認
Shenghui Chen, Kayla Boggess and Lu Feng(参考訳) 選択されたロボット行動の説明を提供することは、ロボット計画の透明性を高め、ユーザの信頼を高めるのに役立つ。 社会科学は、最良の説明は対照的であり、ある行動がなぜ取られるのかだけでなく、ある行動が他の行動から取られるのかを説明する。 我々は,マルコフ決定過程に基づくロボット計画政策の対比的説明の概念を定式化し,社会科学からの洞察を導き出す。 本稿では, 選択性, 拘束性, 責任の3つの要因を伴って, 矛盾説明の自動生成手法を提案する。 amazon mechanical turk platformの100名の参加者によるユーザ調査の結果,当社が生成した対照的な説明は,ユーザのロボット計画方針に対する理解と信頼を高め,ユーザの認知的負担を軽減する上で有用であることが示された。

Providing explanations of chosen robotic actions can help to increase the transparency of robotic planning and improve users' trust. Social sciences suggest that the best explanations are contrastive, explaining not just why one action is taken, but why one action is taken instead of another. We formalize the notion of contrastive explanations for robotic planning policies based on Markov decision processes, drawing on insights from the social sciences. We present methods for the automated generation of contrastive explanations with three key factors: selectiveness, constrictiveness, and responsibility. The results of a user study with 100 participants on the Amazon Mechanical Turk platform show that our generated contrastive explanations can help to increase users' understanding and trust of robotic planning policies while reducing users' cognitive burden.
翻訳日:2022-12-23 03:50:51 公開日:2020-03-16
# TTDM:次の位置予測のための旅行時間差モデル

TTDM: A Travel Time Difference Model for Next Location Prediction ( http://arxiv.org/abs/2003.07781v1 )

ライセンス: Link先を確認
Qingjie Liu, Yixuan Zuo, Xiaohui Yu, Meng Chen(参考訳) 次の位置予測は、多くのロケーションベースのアプリケーションにとって非常に重要であり、ビジネスや政府に不可欠な情報を提供する。 既存の研究において、次の位置予測への一般的なアプローチは、条件付き確率に基づいて、巨大な歴史的軌跡を持つ逐次遷移を学ぶことである。 残念ながら、時間と空間の複雑さのため、これらの方法(例えばマルコフモデル)は、軌道のすべての通過位置を考慮せずに、次の位置を予測するために通過した場所のみを使用する。 本稿では,探索路内のすべての通過地点から次の候補地点への移動時間を考慮し,予測性能の向上を図る。 特に,最短走行時間と実走行時間との差を利用して次の位置を推定する旅行時間差モデル(TTDM)を提案する。 さらに,TTDMを線形補間によりマルコフモデルに統合し,各次の位置に到達する確率を計算し,その結果として上位値を返すジョイントモデルを生成する。 車両通過記録(VPR)データとタクシー軌道データという,2つの実際のデータセットに関する広範な実験を行った。 実験の結果,既存の解に対する予測精度が大幅に向上した。 例えば、マルコフモデルと比較して、トップ1の精度はVPRデータでは40%、タクシーデータでは15.6%向上している。

Next location prediction is of great importance for many location-based applications and provides essential intelligence to business and governments. In existing studies, a common approach to next location prediction is to learn the sequential transitions with massive historical trajectories based on conditional probability. Unfortunately, due to the time and space complexity, these methods (e.g., Markov models) only use the just passed locations to predict next locations, without considering all the passed locations in the trajectory. In this paper, we seek to enhance the prediction performance by considering the travel time from all the passed locations in the query trajectory to a candidate next location. In particular, we propose a novel method, called Travel Time Difference Model (TTDM), which exploits the difference between the shortest travel time and the actual travel time to predict next locations. Further, we integrate the TTDM with a Markov model via a linear interpolation to yield a joint model, which computes the probability of reaching each possible next location and returns the top-rankings as results. We have conducted extensive experiments on two real datasets: the vehicle passage record (VPR) data and the taxi trajectory data. The experimental results demonstrate significant improvements in prediction accuracy over existing solutions. For example, compared with the Markov model, the top-1 accuracy improves by 40% on the VPR data and by 15.6% on the Taxi data.
翻訳日:2022-12-23 03:50:36 公開日:2020-03-16
# カメラトレースの消去

Camera Trace Erasing ( http://arxiv.org/abs/2003.06951v1 )

ライセンス: Link先を確認
Chang Chen, Zhiwei Xiong, Xiaoming Liu, Feng Wu(参考訳) カメラトレースはデジタルイメージングプロセスで発生するユニークなノイズである。 既存の法医学的手法の多くは、画像の起源を特定するためにカメラトレースを分析する。 本稿では,トレースに基づく法医学的手法の弱点を明らかにするために,新しい低レベル視覚問題であるカメラトレース消去に対処する。 既存のアンチフォーレンス手法に関する包括的調査により、コンテンツ信号の破壊を回避しつつ、カメラトレースを効果的に消去することは非自明であることが明らかとなった。 これら2つの要求を整合させるために、ネットワークトレーニングのためのシムセアーキテクチャに基づいて、新しいハイブリッドロスを設計したシムセトレース消去(SiamTE)を提案する。 具体的には,ハイブリッド損失を形成するために,組込み類似性,切断された忠実性,クロスアイデンティティを提案する。 既存の法医学的手法と比較して、SiamTEはカメラトレースの消去に明確な利点があり、3つの代表的なタスクで実証されている。 コードとデータセットはhttps://github.com/ngchc/camerateで入手できる。

Camera trace is a unique noise produced in digital imaging process. Most existing forensic methods analyze camera trace to identify image origins. In this paper, we address a new low-level vision problem, camera trace erasing, to reveal the weakness of trace-based forensic methods. A comprehensive investigation on existing anti-forensic methods reveals that it is non-trivial to effectively erase camera trace while avoiding the destruction of content signal. To reconcile these two demands, we propose Siamese Trace Erasing (SiamTE), in which a novel hybrid loss is designed on the basis of Siamese architecture for network training. Specifically, we propose embedded similarity, truncated fidelity, and cross identity to form the hybrid loss. Compared with existing anti-forensic methods, SiamTE has a clear advantage for camera trace erasing, which is demonstrated in three representative tasks. Code and dataset are available at https://github.com/ngchc/CameraTE.
翻訳日:2022-12-23 03:49:41 公開日:2020-03-16
# CNNを用いた内視鏡画像のブラインドデノイング法

A CNN-Based Blind Denoising Method for Endoscopic Images ( http://arxiv.org/abs/2003.06986v1 )

ライセンス: Link先を確認
Shaofeng Zou, Mingzhu Long, Xuyang Wang, Xiang Xie, Guolin Li, Zhihua Wang(参考訳) wireless capsule endoscopy (wce) で撮影された画像の品質は、消化管疾患の診断の鍵となる。 しかし, 照明や複雑な環境により, 低画質の内視鏡画像が多数存在する。 強化処理後、重騒音は許容できない問題となる。 ノイズは、さまざまなカメラ、giパス環境、画像エンハンスメントによって異なる。 そして、ノイズモデルを得るのは難しいです。 本稿では,内視鏡画像のための畳み込みブラインドデノージングネットワークを提案する。 ノイズモデルや地中真実を伴わないノイズ画像を用いてクリーンな画像を反復的に再構成するために,Deep Image Prior (DIP) 法を適用した。 次に,mobilenetに基づくブラインド画像品質評価ネットワークを設計し,再構成画像の品質を推定する。 推定品質は、DIP法における反復操作を止めるために使用される。 DIPプロセスで転送学習を使用することで、イテレーションの回数は約36%削減されます。 内視鏡的画像と実世界のノイズ画像を用いた実験により,提案手法が視覚品質と定量的指標の面で最先端手法よりも優れていることが示された。

The quality of images captured by wireless capsule endoscopy (WCE) is key for doctors to diagnose diseases of gastrointestinal (GI) tract. However, there exist many low-quality endoscopic images due to the limited illumination and complex environment in GI tract. After an enhancement process, the severe noise become an unacceptable problem. The noise varies with different cameras, GI tract environments and image enhancement. And the noise model is hard to be obtained. This paper proposes a convolutional blind denoising network for endoscopic images. We apply Deep Image Prior (DIP) method to reconstruct a clean image iteratively using a noisy image without a specific noise model and ground truth. Then we design a blind image quality assessment network based on MobileNet to estimate the quality of the reconstructed images. The estimated quality is used to stop the iterative operation in DIP method. The number of iterations is reduced about 36% by using transfer learning in our DIP process. Experimental results on endoscopic images and real-world noisy images demonstrate the superiority of our proposed method over the state-of-the-art methods in terms of visual quality and quantitative metrics.
翻訳日:2022-12-23 03:49:25 公開日:2020-03-16
# 肺癌分類器の放射線学的特徴選択

Radiomic feature selection for lung cancer classifiers ( http://arxiv.org/abs/2003.07098v1 )

ライセンス: Link先を確認
Hina Shakir, Haroon Rasheed and Tariq Mairaj Rasool Khan(参考訳) 近年,肺結節分類において定量的画像特徴統合を用いた機械学習が注目されている。 しかし,分類目的の効果的な特徴分類法に関する文献には多くの研究がなされている。 また,分類作業に必要な特徴の最適な数も評価する必要がある。 本研究では,CT画像の結節分類における教師付き特徴選択手法が機械学習手法に与える影響について検討した。 本研究では,2,4,8,12,16,20の高度にランク付けされた特徴を教師なし,教師なしのランク付けアプローチから学習した上で,SVM(Naive Bayes and Support Vector Machine)の分類性能について検討する。 教師付き特徴ランキング法から選択した8つの放射能特徴を訓練したSVMを用いて,最高の分類結果を得た。 さらに、SVMやネイブベイズの放射能特性を低下させることで、非常に優れた結節分類が達成できることを明らかにした。 2から20までの放射能特徴数の周期的な増加は,教師付きか教師なしかの選択による分類結果の改善には至らなかった。

Machine learning methods with quantitative imaging features integration have recently gained a lot of attention for lung nodule classification. However, there is a dearth of studies in the literature on effective features ranking methods for classification purpose. Moreover, optimal number of features required for the classification task also needs to be evaluated. In this study, we investigate the impact of supervised and unsupervised feature selection techniques on machine learning methods for nodule classification in Computed Tomography (CT) images. The research work explores the classification performance of Naive Bayes and Support Vector Machine(SVM) when trained with 2, 4, 8, 12, 16 and 20 highly ranked features from supervised and unsupervised ranking approaches. The best classification results were achieved using SVM trained with 8 radiomic features selected from supervised feature ranking methods and the accuracy was 100%. The study further revealed that very good nodule classification can be achieved by training any of the SVM or Naive Bayes with a fewer radiomic features. A periodic increment in the number of radiomic features from 2 to 20 did not improve the classification results whether the selection was made using supervised or unsupervised ranking approaches.
翻訳日:2022-12-23 03:49:10 公開日:2020-03-16
# 人物再同定における服装変化の学習形状表現

Learning Shape Representations for Clothing Variations in Person Re-Identification ( http://arxiv.org/abs/2003.07340v1 )

ライセンス: Link先を確認
Yu-Jhe Li, Zhengyi Luo, Xinshuo Weng, Kris M. Kitani(参考訳) 人物再識別(re-ID)は、異なるカメラで撮影された複数の画像に含まれる同一人物のインスタンスを認識することを目的としている。 既存のre-IDの方法は、同一人物のクエリ画像とギャラリー画像の両方が同じ衣服を持っているという仮定に大きく依存する傾向がある。 残念ながら、この仮定は、長い時間(例えば、週、月、年など)でキャプチャされたデータセットには当てはまらないかもしれない。 衣料変化の文脈での再認識問題に取り組むため,衣服の色やパターンに影響されることなく体型特徴表現を生成できる新しい表現学習モデルを提案する。 我々は、我々のモデルをColor Agnostic Shape extract Network (CASE-Net)と呼ぶ。 case-netは、敵対的な学習と特徴の絡み合いを通じて体型のみに依存するアイデンティティの表現を学ぶ。 衣服の着替えを含む大規模なre-IDデータセットがないため,評価のための2つの合成データセットを提案する。 着衣パターンが異なるレンダリングデータセットSMPL-reIDと着衣色が異なる合成データセットDiv-Marketを作成し、2種類の着衣変化をシミュレートする。 5つのデータセット(smpl-reid, div-market, 2つのベンチマークre-idデータセット, クロスモダリティre-idデータセット)における定量的・質的結果から, 最先端アプローチに対する我々のアプローチの堅牢性と優越性を確認した。

Person re-identification (re-ID) aims to recognize instances of the same person contained in multiple images taken across different cameras. Existing methods for re-ID tend to rely heavily on the assumption that both query and gallery images of the same person have the same clothing. Unfortunately, this assumption may not hold for datasets captured over long periods of time (e.g., weeks, months or years). To tackle the re-ID problem in the context of clothing changes, we propose a novel representation learning model which is able to generate a body shape feature representation without being affected by clothing color or patterns. We call our model the Color Agnostic Shape Extraction Network (CASE-Net). CASE-Net learns a representation of identity that depends only on body shape via adversarial learning and feature disentanglement. Due to the lack of large-scale re-ID datasets which contain clothing changes for the same person, we propose two synthetic datasets for evaluation. We create a rendered dataset SMPL-reID with different clothes patterns and a synthesized dataset Div-Market with different clothing color to simulate two types of clothing changes. The quantitative and qualitative results across 5 datasets (SMPL-reID, Div-Market, two benchmark re-ID datasets, a cross-modality re-ID dataset) confirm the robustness and superiority of our approach against several state-of-the-art approaches
翻訳日:2022-12-23 03:42:01 公開日:2020-03-16
# Scan2Plan:3次元室内シーンからの効率的なフロアプラン生成

Scan2Plan: Efficient Floorplan Generation from 3D Scans of Indoor Scenes ( http://arxiv.org/abs/2003.07356v1 )

ライセンス: Link先を確認
Ameya Phalak, Vijay Badrinarayanan, Andrew Rabinovich(参考訳) Scan2Planは,室内環境の構造要素の3次元スキャンから,フロアプランを正確に推定するための新しい手法である。 提案手法は,初期ステージがシーンの無秩序な点クラウド表現を,ディープニューラルネットワークによる投票手法を用いて部屋のインスタンスや壁のインスタンスにクラスタする2段階のアプローチを含む。 その後の段階では、予測された部屋と壁のキーポイントに沿った最短経路を見つけることで、各部屋に対して単純なポリゴンでパラメータ化された閉周を推定する。 最後のフロアプランは、グローバルなコーディネートシステムにおけるすべての部屋周の集合である。 scan2planパイプラインは複雑なレイアウトの正確なフロアプランを生成し、非常に並列性があり、既存の方法に比べて非常に効率的である。 投票モジュールは合成データのみに基づいてトレーニングされ、公開利用可能なstructured3dおよびbkeデータセット上で評価され、最先端技術よりも優れた質的かつ定量的な結果を示す。

We introduce Scan2Plan, a novel approach for accurate estimation of a floorplan from a 3D scan of the structural elements of indoor environments. The proposed method incorporates a two-stage approach where the initial stage clusters an unordered point cloud representation of the scene into room instances and wall instances using a deep neural network based voting approach. The subsequent stage estimates a closed perimeter, parameterized by a simple polygon, for each individual room by finding the shortest path along the predicted room and wall keypoints. The final floorplan is simply an assembly of all such room perimeters in the global co-ordinate system. The Scan2Plan pipeline produces accurate floorplans for complex layouts, is highly parallelizable and extremely efficient compared to existing methods. The voting module is trained only on synthetic data and evaluated on publicly available Structured3D and BKE datasets to demonstrate excellent qualitative and quantitative results outperforming state-of-the-art techniques.
翻訳日:2022-12-23 03:41:19 公開日:2020-03-16
# NLPMM:マルコフモデリングによる次の位置予測器

NLPMM: a Next Location Predictor with Markov Modeling ( http://arxiv.org/abs/2003.07037v1 )

ライセンス: Link先を確認
Meng Chen, Yang Liu, Xiaohui Yu(参考訳) 本稿では,移動物体の次の位置を過去の軌跡データを用いて予測する問題を解く。 マルコフモデリング(NLPMM)を用いた次の位置予測器について述べる。(1)予測において個人と集団の両方の動きパターンを考慮し、(2)軌道データがスパースである場合でも有効であり、(3)時間係数を考慮し、異なる期間に適合するモデルを構築する。 実データを用いて実験を行い,既存の手法よりもNLPMMの方が優れていることを示す。

In this paper, we solve the problem of predicting the next locations of the moving objects with a historical dataset of trajectories. We present a Next Location Predictor with Markov Modeling (NLPMM) which has the following advantages: (1) it considers both individual and collective movement patterns in making prediction, (2) it is effective even when the trajectory data is sparse, (3) it considers the time factor and builds models that are suited to different time periods. We have conducted extensive experiments in a real dataset, and the results demonstrate the superiority of NLPMM over existing methods.
翻訳日:2022-12-23 03:40:51 公開日:2020-03-16
# オントロジーに基づく意思決定への協調的アプローチと危機管理へのマルチエージェントシステムの適用

Towards a Collaborative Approach to Decision Making Based on Ontology and Multi-Agent System Application to crisis management ( http://arxiv.org/abs/2003.07096v1 )

ライセンス: Link先を確認
Ahmed Maalel and Henda Ben Gh\'ezala(参考訳) 関係するすべての利害関係者の調整と協力は、問題のコントロールと解決のための決定的なポイントです。 非セキュリティイベントにおいて、解決は、実施すべき手続きの一般的な枠組みと遵守すべき指示を定義する計画を参照すべきであり、また、現在の状況の特定の問題に代表されるケースを扱うために、アクターによってより正確なプロセスを定義する必要がある。 実際、このプロセスは、利害関係者の多様性と重複、そして最終的には地理的分布の可能性のために、動的で不安定で予測不能な環境に対処する必要がある。 本稿では,交通事故などの危機状況の文脈における協調的意思決定アプローチの検証の第一段階について述べる。 このアプローチはオントロジーとマルチエージェントシステムに基づいている。

The coordination and cooperation of all the stakeholders involved is a decisive point for the control and the resolution of problems. In the insecurity events, the resolution should refer to a plan that defines a general framework of the procedures to be undertaken and the instructions to be complied with; also, a more precise process must be defined by the actors to deal with the case represented by the particular problem of the current situation. Indeed, this process has to cope with a dynamic, unstable and unpredictable environment, due to the heterogeneity and multiplicity of stakeholders, and finally due to their possible geographical distribution. In this article, we will present the first steps of validation of a collaborative decision-making approach in the context of crisis situations such as road accidents. This approach is based on ontologies and multi-agent systems.
翻訳日:2022-12-23 03:40:15 公開日:2020-03-16
# 映像中のテキストクェリのグラウンド化のための弱教師付きマルチレベルアテンショナル再構成ネットワーク

Weakly-Supervised Multi-Level Attentional Reconstruction Network for Grounding Textual Queries in Videos ( http://arxiv.org/abs/2003.07048v1 )

ライセンス: Link先を確認
Yijun Song, Jingwen Wang, Lin Ma, Zhou Yu, Jun Yu(参考訳) ビデオ内のテキストクエリを一時的に接地するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。 既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。 本研究では,学習段階における映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)という,効果的な弱教師付きモデルを提案する。 提案手法では,注意再構築の考え方を活用し,学習した提案レベルでの注意で候補セグメントを直接スコア付けする。 さらに、別のブランチ学習クリップレベルの注意が、トレーニングとテストの段階で提案を洗練するために利用される。 提案手法は,提案表現の学習にプロモーザ内情報を活用するための新しい提案手法を開発し,プロポーザ間手がかりを利用して信頼性の高い注意マップを学習する。 Charades-STAとActivityNet-Captionsデータセットの実験は、既存の弱教師付き手法よりもMARNの方が優れていることを示している。

The task of temporally grounding textual queries in videos is to localize one video segment that semantically corresponds to the given query. Most of the existing approaches rely on segment-sentence pairs (temporal annotations) for training, which are usually unavailable in real-world scenarios. In this work we present an effective weakly-supervised model, named as Multi-Level Attentional Reconstruction Network (MARN), which only relies on video-sentence pairs during the training stage. The proposed method leverages the idea of attentional reconstruction and directly scores the candidate segments with the learnt proposal-level attentions. Moreover, another branch learning clip-level attention is exploited to refine the proposals at both the training and testing stage. We develop a novel proposal sampling mechanism to leverage intra-proposal information for learning better proposal representation and adopt 2D convolution to exploit inter-proposal clues for learning reliable attention map. Experiments on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our MARN over the existing weakly-supervised methods.
翻訳日:2022-12-23 03:33:44 公開日:2020-03-16
# 条件付き畳み込みデコーダを用いた自然画像からのヒト様スケッチの合成

Synthesizing human-like sketches from natural images using a conditional convolutional decoder ( http://arxiv.org/abs/2003.07101v1 )

ライセンス: Link先を確認
Moritz Kampelm\"uhler and Axel Pinz(参考訳) 人間は、視覚コンテンツの非常に小さく抽象的な表現であるスケッチを使用することで、多様な概念を正確に伝達することができる。 自然画像中の物体の人間的なスケッチを,潜在的に散らばった背景で合成できる,完全な畳み込み型エンドツーエンドアーキテクチャを初めて提案する。 この高度に抽象的なマッピングをアーキテクチャが学べるようにするために、(1)完全畳み込みエンコーダ・デコーダ構造、(2)抽象的特徴空間で動作する知覚的類似性損失関数、(3)スケッチされる対象のラベル上のデコーダの条件付け、というキーコンポーネントを用いる。 これらのアーキテクチャの概念を組み合わせることで、スケッチとイメージのペアのコレクション上で、エンドツーエンドで構造をトレーニングすることができます。 生成したアーキテクチャのスケッチを85.6%の精度で分類し,ユーザスタディを通じてその視覚的品質を検証する。 知覚的類似度指標としての深い特徴により、大きな領域ギャップを持つ画像翻訳が可能となり、さらに画像分類タスクで訓練された畳み込みニューラルネットワークが暗黙的に形状情報をエンコードすることを学んでいることを示す。 コードはhttps://github.com/kampelmuehler/synthesizing_human_like_sketchesで入手できる。

Humans are able to precisely communicate diverse concepts by employing sketches, a highly reduced and abstract shape based representation of visual content. We propose, for the first time, a fully convolutional end-to-end architecture that is able to synthesize human-like sketches of objects in natural images with potentially cluttered background. To enable an architecture to learn this highly abstract mapping, we employ the following key components: (1) a fully convolutional encoder-decoder structure, (2) a perceptual similarity loss function operating in an abstract feature space and (3) conditioning of the decoder on the label of the object that shall be sketched. Given the combination of these architectural concepts, we can train our structure in an end-to-end supervised fashion on a collection of sketch-image pairs. The generated sketches of our architecture can be classified with 85.6% Top-5 accuracy and we verify their visual quality via a user study. We find that deep features as a perceptual similarity metric enable image translation with large domain gaps and our findings further show that convolutional neural networks trained on image classification tasks implicitly learn to encode shape information. Code is available under https://github.com/kampelmuehler/synthesizing_human_like_sketches
翻訳日:2022-12-23 03:32:08 公開日:2020-03-16
# 室内UAV測位のための最小解法

Minimal Solvers for Indoor UAV Positioning ( http://arxiv.org/abs/2003.07111v1 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,視覚的室内UAVナビゲーションへの応用において自然に発生する相対的なポーズ問題について考察する。 我々は、搭載したIMUから追加情報が得られるケースに焦点を当て、重力ベクトルによる部分的な外因性キャリブレーションを提供する。 ソルバーは部分的に調整されたカメラ用に設計されており、様々なリアルな屋内シナリオのために設計されている。 現在の最先端の解決者は任意の平面構造を使用するなど、より一般的な仮定を用いているが、実際のシーンに対して適切な再構築を行なわず、リアルタイムシステムに組み込むのに十分な性能を発揮できない。 提案した解法は, 数値安定性が向上し, より高速で, より少ない点対応を必要とする。 これらの特性は, リアルタイムシステムにおけるロバストナビゲーションに欠かせない要素であり, 提案手法が他の手法より優れ, より優れた動き推定が得られることを示す。

In this paper we consider a collection of relative pose problems which arise naturally in applications for visual indoor UAV navigation. We focus on cases where additional information from an onboard IMU is available and thus provides a partial extrinsic calibration through the gravitational vector. The solvers are designed for a partially calibrated camera, for a variety of realistic indoor scenarios, which makes it possible to navigate using images of the ground floor. Current state-of-the-art solvers use more general assumptions, such as using arbitrary planar structures; however, these solvers do not yield adequate reconstructions for real scenes, nor do they perform fast enough to be incorporated in real-time systems. We show that the proposed solvers enjoy better numerical stability, are faster, and require fewer point correspondences, compared to state-of-the-art solvers. These properties are vital components for robust navigation in real-time systems, and we demonstrate on both synthetic and real data that our method outperforms other methods, and yields superior motion estimation.
翻訳日:2022-12-23 03:31:44 公開日:2020-03-16
# フラストレーションに簡単なFew-Shotオブジェクト検出

Frustratingly Simple Few-Shot Object Detection ( http://arxiv.org/abs/2003.06957v1 )

ライセンス: Link先を確認
Xin Wang, Thomas E. Huang, Trevor Darrell, Joseph E. Gonzalez, Fisher Yu(参考訳) いくつかの例からレアオブジェクトを検出することは、新たな問題である。 先行研究によると、メタラーニングは有望なアプローチである。 しかし、微調整技術は注意を引いている。 希少なクラスにおける既存検出器の最後の層のみを微調整することは、オブジェクト検出タスクにおいて極めて重要である。 このような単純なアプローチは、現在のベンチマークで約2~20ポイントのメタ学習メソッドを上回り、時には以前のメソッドの精度を2倍にすることもある。 しかし、少数のサンプルの高分散は、しばしば既存のベンチマークの信頼性を損なう。 我々は,複数のトレーニングサンプルをサンプリングして評価プロトコルを改訂し,安定した比較結果を得るとともに,PASCAL VOC,COCO,LVISの3つのデータセットに基づいて新しいベンチマークを構築する。 繰り返しますが、我々の微調整アプローチは、改訂されたベンチマークに関する新しい最先端技術を確立します。 コードと事前学習されたモデルはhttps://github.com/ucbdrive/few-shot-object-detectionで入手できる。

Detecting rare objects from a few examples is an emerging problem. Prior works show meta-learning is a promising approach. But, fine-tuning techniques have drawn scant attention. We find that fine-tuning only the last layer of existing detectors on rare classes is crucial to the few-shot object detection task. Such a simple approach outperforms the meta-learning methods by roughly 2~20 points on current benchmarks and sometimes even doubles the accuracy of the prior methods. However, the high variance in the few samples often leads to the unreliability of existing benchmarks. We revise the evaluation protocols by sampling multiple groups of training examples to obtain stable comparisons and build new benchmarks based on three datasets: PASCAL VOC, COCO and LVIS. Again, our fine-tuning approach establishes a new state of the art on the revised benchmarks. The code as well as the pretrained models are available at https://github.com/ucbdrive/few-shot-object-detection.
翻訳日:2022-12-23 03:25:15 公開日:2020-03-16
# vec2face:顔認識のブラックボックス機能から人間の顔を公開

Vec2Face: Unveil Human Faces from their Blackbox Features in Face Recognition ( http://arxiv.org/abs/2003.06958v1 )

ライセンス: Link先を確認
Chi Nhan Duong, Thanh-Dat Truong, Kha Gia Quach, Hung Bui, Kaushik Roy, Khoa Luu(参考訳) ブラックボックス顔認識エンジンから抽出したハイレベルな表現が与えられた被験者の顔画像の公開は極めて困難である。 それは、その構造と解釈不能な特徴を含む、そのエンジンからアクセス可能な情報の制限のためである。 本稿では,その人の特徴を生かした顔の合成を目的とした,客観的距離学習(Bijective Metric Learning, Bijective Generative Adversarial Networks in a Distillation framework, DiBiGAN)による新規な生成構造を提案する。 この課題を効果的に解決するために,本研究では,画像再構成タスクにおいて距離計測と距離学習のプロセスを画像領域に直接適用できるように,最初に単射距離を導入する。 次に、ブラックボックス顔認識エンジンから利用される情報を最大化するために蒸留プロセスを導入する。 次に, 指数重み付け戦略を持つ特徴条件発生器構造を, id保存によりリアルな顔を合成可能なより頑健な生成器として提示する。 CelebA,LFW, AgeDB, CFP-FPなどのベンチマークデータセットをマッチングエンジンと比較した結果, 画像リアリズムとID保存特性の両方においてDiBiGANの有効性が示された。

Unveiling face images of a subject given his/her high-level representations extracted from a blackbox Face Recognition engine is extremely challenging. It is because the limitations of accessible information from that engine including its structure and uninterpretable extracted features. This paper presents a novel generative structure with Bijective Metric Learning, namely Bijective Generative Adversarial Networks in a Distillation framework (DiBiGAN), for synthesizing faces of an identity given that person's features. In order to effectively address this problem, this work firstly introduces a bijective metric so that the distance measurement and metric learning process can be directly adopted in image domain for an image reconstruction task. Secondly, a distillation process is introduced to maximize the information exploited from the blackbox face recognition engine. Then a Feature-Conditional Generator Structure with Exponential Weighting Strategy is presented for a more robust generator that can synthesize realistic faces with ID preservation. Results on several benchmarking datasets including CelebA, LFW, AgeDB, CFP-FP against matching engines have demonstrated the effectiveness of DiBiGAN on both image realism and ID preservation properties.
翻訳日:2022-12-23 03:24:59 公開日:2020-03-16
# house-gan: graph-constrained house layout生成のための関係生成型逆ネットワーク

House-GAN: Relational Generative Adversarial Networks for Graph-constrained House Layout Generation ( http://arxiv.org/abs/2003.06988v1 )

ライセンス: Link先を確認
Nelson Nauata, Kai-Hung Chang, Chin-Yi Cheng, Greg Mori, Yasutaka Furukawa(参考訳) 本稿では,リレーショナルアーキテクチャ上にジェネレータとディスクリミネータを組み込んだ,グラフ制約付き生成逆数ネットワークを提案する。 主なアイデアは、制約をその関係ネットワークのグラフ構造にエンコードすることである。 提案手法は,建築上の制約をグラフとして(空間に隣接した部屋の数と種類を)取り込んで,軸に並ぶ一連の部屋のバウンディングボックスを作成するという新しい住宅レイアウト生成問題に対して提案するアーキテクチャを実証した。 生成した住宅レイアウトの質を,リアル性,多様性,入力グラフの制約との整合性という3つの指標で測定する。 117,000以上の実床計画画像の質的定量的評価は,提案手法が既存手法やベースラインを上回っていることを示している。 すべてのコードとデータを公開します。

This paper proposes a novel graph-constrained generative adversarial network, whose generator and discriminator are built upon relational architecture. The main idea is to encode the constraint into the graph structure of its relational networks. We have demonstrated the proposed architecture for a new house layout generation problem, whose task is to take an architectural constraint as a graph (i.e., the number and types of rooms with their spatial adjacency) and produce a set of axis-aligned bounding boxes of rooms. We measure the quality of generated house layouts with the three metrics: the realism, the diversity, and the compatibility with the input graph constraint. Our qualitative and quantitative evaluations over 117,000 real floorplan images demonstrate that the proposed approach outperforms existing methods and baselines. We will publicly share all our code and data.
翻訳日:2022-12-23 03:24:29 公開日:2020-03-16
# エージェント共有ネットワークを用いた多次元単一物体追跡

Multi-Drone based Single Object Tracking with Agent Sharing Network ( http://arxiv.org/abs/2003.06994v1 )

ライセンス: Link先を確認
Pengfei Zhu, Jiayu Zheng, Dawei Du, Longyin Wen, Yiming Sun, Qinghua Hu(参考訳) カメラを搭載したドローンは、静止カメラや地上の移動センサーと比較して、より広い視点から空中のターゲットを動的に追跡することができる。 しかし、外観の変化や激しい閉塞など、いくつかの要因により、単一のドローンでターゲットを正確に追跡することは依然として困難である。 本稿では,2台のドローンで113,918フレーム,63台のビデオクリップで115,875台のドローンで115,875台の高解像度フレームで92個のビデオクリップからなる,MDOT(Multi-Drone Single Object Tracking)データセットを新たに収集する。 さらに、マルチdrone single object tracking、すなわちautomatic fusion score (afs) と ideal fusion score (ifs) の2つの評価指標が特別に設計されている。 さらに, エージェント共有ネットワーク (ASNet) は, 複数のドローンからのターゲットの自己教師型テンプレート共有とビューアウェア融合によって提案され, 単一ドローン追跡と比較してトラッキング精度が向上する。 MDOTの大規模な実験により、ASNetは最近の最先端トラッカーよりも大幅に優れています。

Drone equipped with cameras can dynamically track the target in the air from a broader view compared with static cameras or moving sensors over the ground. However, it is still challenging to accurately track the target using a single drone due to several factors such as appearance variations and severe occlusions. In this paper, we collect a new Multi-Drone single Object Tracking (MDOT) dataset that consists of 92 groups of video clips with 113,918 high resolution frames taken by two drones and 63 groups of video clips with 145,875 high resolution frames taken by three drones. Besides, two evaluation metrics are specially designed for multi-drone single object tracking, i.e. automatic fusion score (AFS) and ideal fusion score (IFS). Moreover, an agent sharing network (ASNet) is proposed by self-supervised template sharing and view-aware fusion of the target from multiple drones, which can improve the tracking accuracy significantly compared with single drone tracking. Extensive experiments on MDOT show that our ASNet significantly outperforms recent state-of-the-art trackers.
翻訳日:2022-12-23 03:24:14 公開日:2020-03-16
# ReLaText:グラフ畳み込みネットワークを用いた任意形状のシーンテキスト検出のための視覚的関係の爆発

ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene Text Detection with Graph Convolutional Networks ( http://arxiv.org/abs/2003.06999v1 )

ライセンス: Link先を確認
Chixiang Ma, Lei Sun, Zhuoyao Zhong, Qiang Huo(参考訳) 本稿では,テキスト検出を視覚的関係検出問題として定式化することで,ReLaTextという任意の形状のテキスト検出手法を提案する。 この新しい定式化の有効性を示すために,まず「リンク」関係を用いて,難解なテキスト・ライン・グルーピング問題に対処する。 鍵となる考え方は、テキスト検出を2つのサブプロブレム、すなわちテキストプリミティブの検出と、近隣のテキストプリミティブペア間のリンク関係の予測に分解することである。 具体的には、アンカーフリー領域提案ネットワークに基づくテキスト検出器を用いて、特徴ピラミッドネットワークの異なる特徴マップから異なるスケールのテキストプリミティブを検知し、同じ特徴マップから検出された近傍のテキストプリミティブのペアをエッジにリンクすることにより、テキストプリミティブグラフを構築する。 次に、グラフ畳み込みネットワーク(GCN)ベースのリンク関係予測モジュールを使用して、テキストプリミティブグラフ内の誤ってリンクされたエッジをプルークし、検出されたテキストインスタンスを表す多数の不整合部分グラフを生成する。 GCNはコンテキスト情報を有効活用してリンク予測精度を向上させるため、GCNベースのテキストライングルーピングアプローチは従来のテキストライングルーピング手法よりも優れたテキスト検出精度を実現することができる。 その結果,提案手法はrctw-17,msra-td500,total-text,ctw1500,dast1500の5つの公開テキスト検出ベンチマークにおいて最先端のパフォーマンスを実現する。

We introduce a new arbitrary-shaped text detection approach named ReLaText by formulating text detection as a visual relationship detection problem. To demonstrate the effectiveness of this new formulation, we start from using a "link" relationship to address the challenging text-line grouping problem firstly. The key idea is to decompose text detection into two subproblems, namely detection of text primitives and prediction of link relationships between nearby text primitive pairs. Specifically, an anchor-free region proposal network based text detector is first used to detect text primitives of different scales from different feature maps of a feature pyramid network, from which a text primitive graph is constructed by linking each pair of nearby text primitives detected from a same feature map with an edge. Then, a Graph Convolutional Network (GCN) based link relationship prediction module is used to prune wrongly-linked edges in the text primitive graph to generate a number of disjoint subgraphs, each representing a detected text instance. As GCN can effectively leverage context information to improve link prediction accuracy, our GCN based text-line grouping approach can achieve better text detection accuracy than previous text-line grouping methods, especially when dealing with text instances with large inter-character or very small inter-line spacings. Consequently, the proposed ReLaText achieves state-of-the-art performance on five public text detection benchmarks, namely RCTW-17, MSRA-TD500, Total-Text, CTW1500 and DAST1500.
翻訳日:2022-12-23 03:23:54 公開日:2020-03-16
# Any-Shotオブジェクト検出

Any-Shot Object Detection ( http://arxiv.org/abs/2003.07003v1 )

ライセンス: Link先を確認
Shafin Rahman and Salman Khan and Nick Barnes and Fahad Shahbaz Khan(参考訳) 新規なオブジェクト検出に関する以前の作業では、各カテゴリのサンプルがトレーニングに利用できないゼロまたはマイショットの設定が検討されている。 現実のシナリオでは、すべての'すべての'新しいクラスが目に見えないか、または'have'の少数例であることを期待するのは現実的ではない。 ここでは、全く見えず、少数のカテゴリが推論中に同時に一致するような、より現実的な「Any-shot Detection」を提案する。 any-shot検出は、目立たない、少ない、見られているオブジェクトクラスと高い不均衡、新しいクラスを学習しながらベーストレーニングを忘れやすく、背景から新しいクラスを区別するなど、従来の新しいオブジェクト検出と比較して、ユニークな課題を提供する。 これらの課題に対処するために,ゼロショットとマイショットの両方のオブジェクトクラスを同時検出できる統一any-shot検出モデルを提案する。 私たちの中核となる考え方は、オブジェクト検出のプロトタイプとしてクラスセマンティクスを使用することです。 さらに,難易度に重きを置く再均衡損失関数を提案するが,全く見えないクラスを検出できるような新しいクラスへの過度な適合は避ける。 ベルとホイッスルがなければ、我々のフレームワークはゼロショット検出とFewショット検出タスクにのみ使用できる。 我々は,Pascal VOCおよびMS-COCOデータセットに関する広範な実験を行い,本手法が大きな改善をもたらすことを示した。

Previous work on novel object detection considers zero or few-shot settings where none or few examples of each category are available for training. In real world scenarios, it is less practical to expect that 'all' the novel classes are either unseen or {have} few-examples. Here, we propose a more realistic setting termed 'Any-shot detection', where totally unseen and few-shot categories can simultaneously co-occur during inference. Any-shot detection offers unique challenges compared to conventional novel object detection such as, a high imbalance between unseen, few-shot and seen object classes, susceptibility to forget base-training while learning novel classes and distinguishing novel classes from the background. To address these challenges, we propose a unified any-shot detection model, that can concurrently learn to detect both zero-shot and few-shot object classes. Our core idea is to use class semantics as prototypes for object detection, a formulation that naturally minimizes knowledge forgetting and mitigates the class-imbalance in the label space. Besides, we propose a rebalanced loss function that emphasizes difficult few-shot cases but avoids overfitting on the novel classes to allow detection of totally unseen classes. Without bells and whistles, our framework can also be used solely for Zero-shot detection and Few-shot detection tasks. We report extensive experiments on Pascal VOC and MS-COCO datasets where our approach is shown to provide significant improvements.
翻訳日:2022-12-23 03:23:23 公開日:2020-03-16
# AVR:注意に基づく視覚的関係検出

AVR: Attention based Salient Visual Relationship Detection ( http://arxiv.org/abs/2003.07012v1 )

ライセンス: Link先を確認
Jianming Lv, Qinzhe Xiao, Jiajie Zhong(参考訳) 視覚関係検出は、画像中のオブジェクトを見つけ、オブジェクト間の関係を認識することを目的としている。 従来の手法では、画像内の全ての観察された関係を等しく扱うため、大量の視覚オブジェクトと様々な関係を持つ複雑な画像における検出タスクにおいて、比較的貧弱な性能をもたらす。 この問題に対処するために,局所的およびグローバルな関係の文脈に基づいて,健全な視覚的関係を実現するためのアテンションベースモデル,すなわちAVRを提案する。 具体的には、AVRは関係を認識し、その関係の視覚的特徴、意味的、空間的情報を融合することにより、入力画像の局所的文脈における関係に注意を向ける。 次に、avrは、効果的な情報フィルタリングのために、より大きいサルエントウェイトと重要な関係を割り当てるために注意を向ける。 さらに、画像データセットのグローバルコンテキストにおける優先順位知識と統合し、文脈を不均一グラフとしてモデル化し、ランダムウォークアルゴリズムに基づいて関係の優先順位確率を測定する関係予測の精度を向上させる。 いくつかの実世界の画像データセットにおけるavrの有効性を示すために包括的な実験を行い、その結果、avrはリコールの観点で、最先端の視覚関係検出手法を最大87.5セントで上回っていることが示された。

Visual relationship detection aims to locate objects in images and recognize the relationships between objects. Traditional methods treat all observed relationships in an image equally, which causes a relatively poor performance in the detection tasks on complex images with abundant visual objects and various relationships. To address this problem, we propose an attention based model, namely AVR, to achieve salient visual relationships based on both local and global context of the relationships. Specifically, AVR recognizes relationships and measures the attention on the relationships in the local context of an input image by fusing the visual features, semantic and spatial information of the relationships. AVR then applies the attention to assign important relationships with larger salient weights for effective information filtering. Furthermore, AVR is integrated with the priori knowledge in the global context of image datasets to improve the precision of relationship prediction, where the context is modeled as a heterogeneous graph to measure the priori probability of relationships based on the random walk algorithm. Comprehensive experiments are conducted to demonstrate the effectiveness of AVR in several real-world image datasets, and the results show that AVR outperforms state-of-the-art visual relationship detection methods significantly by up to $87.5\%$ in terms of recall.
翻訳日:2022-12-23 03:22:59 公開日:2020-03-16
# slimconv:重み付け反転による畳み込みニューラルネットワークのチャネル冗長性低減

SlimConv: Reducing Channel Redundancy in Convolutional Neural Networks by Weights Flipping ( http://arxiv.org/abs/2003.07469v1 )

ライセンス: Link先を確認
Jiaxiong Qiu, Cai Chen, Shuaicheng Liu, Bing Zeng(参考訳) 畳み込みニューラルネットワーク(CNN)の機能マップにおけるチャネル冗長性は、メモリと計算資源の大量消費をもたらす。 本研究では,チャネル冗長性を低減し,CNNの性能を向上させる新しいSlim Convolution(SlimConv)モジュールを設計する。 私たちのslimconvは、再構築、変換、融合の3つの主要なステップで構成されています。 特に、我々のモデルの中核は重み付け操作であり、特徴の多様性を大幅に改善し、性能に決定的に寄与する。 私たちのslimconvはプラグアンドプレイのアーキテクチャユニットで、cnnの畳み込みレイヤを直接置き換えることができます。 我々は、ImageNet、MS COCO2014、Pascal VOC2012セグメンテーション、Pascal VOC2007検出データセットの総合的な実験を行い、SlimConvの有効性を検証する。 実験により、SlimConv搭載モデルは、非装備のコンター部品よりもメモリや計算資源の消費が少なく、一貫して優れた性能を達成できることが示された。 例えば、SlimConvを搭載したResNet-101は、ImageNetの4.87 GFLOPsと27.96Mパラメータで77.84%のトップ-1の精度を達成し、約3 GFLOPsと38%のパラメータが削減された。

The channel redundancy in feature maps of convolutional neural networks (CNNs) results in the large consumption of memories and computational resources. In this work, we design a novel Slim Convolution (SlimConv) module to boost the performance of CNNs by reducing channel redundancies. Our SlimConv consists of three main steps: Reconstruct, Transform and Fuse, through which the features are splitted and reorganized in a more efficient way, such that the learned weights can be compressed effectively. In particular, the core of our model is a weight flipping operation which can largely improve the feature diversities, contributing to the performance crucially. Our SlimConv is a plug-and-play architectural unit which can be used to replace convolutional layers in CNNs directly. We validate the effectiveness of SlimConv by conducting comprehensive experiments on ImageNet, MS COCO2014, Pascal VOC2012 segmentation, and Pascal VOC2007 detection datasets. The experiments show that SlimConv-equipped models can achieve better performances consistently, less consumption of memory and computation resources than non-equipped conterparts. For example, the ResNet-101 fitted with SlimConv achieves 77.84% top-1 classification accuracy with 4.87 GFLOPs and 27.96M parameters on ImageNet, which shows almost 0.5% better performance with about 3 GFLOPs and 38% parameters reduced.
翻訳日:2022-12-23 03:14:58 公開日:2020-03-16
# 高次元ガウス図形モデルにおける局所的異常変化のオンライン検出

Online detection of local abrupt changes in high-dimensional Gaussian graphical models ( http://arxiv.org/abs/2003.06961v1 )

ライセンス: Link先を確認
Hossein Keshavarz, George Michailidis(参考訳) 高次元ガウス図形モデル(ggm)における変化点をオンライン形式で識別する問題は、生物学、経済学、社会科学の新たな応用によって興味深い。 問題のオフラインバージョンは、すべてのデータが利用できる優先順位であり、正規化損失関数を含む多くのメソッドと関連するアルゴリズムにつながっている。 しかしながら、オンライン版では、シーケンシャルなテスト手順を開発し、その漸近的な誤報の確率とパワーを研究する文献は1つしかない。 後者のテストは、多くのエッジが関与しているという意味で、GGMの精度行列の構造のグローバルな変化によって引き起こされる変化点の検出に最適である。 それにもかかわらず、多くの実践的な設定では、変化点が局所的な変化によって駆動される。 そこで本研究では,入力データの適切な選択部分の正規化共分散行列の$\ell_\infty$ノルムに基づいて,この問題に対処する新しいテストを開発する。 提案した試験統計量の漸近分布(変化点の存在なし)と代替(変化点の存在)仮説(変化点の存在)の研究は、グラフ依存ガウス確率変数の最大値と独立な興味を持つものを調べる新しい技術ツールを必要とする。 さらに,これらのツールは,従来使用されていた手法を文献上の問題点に活用することにより,より厳密な手法ではなく,キーモデルパラメータに対する軽度正規性条件の付与に繋がることを示した。 合成データに関する数値研究は, 多数の実験環境における計算効率と統計効率の両面で, 提案手法の良好な性能を示す。

The problem of identifying change points in high-dimensional Gaussian graphical models (GGMs) in an online fashion is of interest, due to new applications in biology, economics and social sciences. The offline version of the problem, where all the data are a priori available, has led to a number of methods and associated algorithms involving regularized loss functions. However, for the online version, there is currently only a single work in the literature that develops a sequential testing procedure and also studies its asymptotic false alarm probability and power. The latter test is best suited for the detection of change points driven by global changes in the structure of the precision matrix of the GGM, in the sense that many edges are involved. Nevertheless, in many practical settings the change point is driven by local changes, in the sense that only a small number of edges exhibit changes. To that end, we develop a novel test to address this problem that is based on the $\ell_\infty$ norm of the normalized covariance matrix of an appropriately selected portion of incoming data. The study of the asymptotic distribution of the proposed test statistic under the null (no presence of a change point) and the alternative (presence of a change point) hypotheses requires new technical tools that examine maxima of graph-dependent Gaussian random variables, and that of independent interest. It is further shown that these tools lead to the imposition of mild regularity conditions for key model parameters, instead of more stringent ones required by leveraging previously used tools in related problems in the literature. Numerical work on synthetic data illustrates the good performance of the proposed detection procedure both in terms of computational and statistical efficiency across numerous experimental settings.
翻訳日:2022-12-23 03:14:30 公開日:2020-03-16
# MisogynyとAggressionの多言語アノテーションコーパスの開発

Developing a Multilingual Annotated Corpus of Misogyny and Aggression ( http://arxiv.org/abs/2003.07428v1 )

ライセンス: Link先を確認
Shiladitya Bhattacharya, Siddharth Singh, Ritesh Kumar, Akanksha Bansal, Akash Bhagat, Yogesh Dawer, Bornini Lahiri, Atul Kr. Ojha(参考訳) 本稿では,インド英語,ヒンディー語,インドバングラ語において,ソーシャルメディア上でミソジニーとコミュニタリズムを学習し,自動的に識別するプロジェクトの一環として,多言語対応のミソジニー・アグレッシブションコーパスの開発について論じる(commaプロジェクト)。 データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。 コメントには攻撃性(過度に攻撃的、隠密に攻撃的、非攻撃的)と非攻撃性(性別と非性別)という2つのレベルがある。 本稿では,データ収集のプロセス,アノテーションに使用されるタグセット,アノテーションのプロセス中に直面する課題と課題について述べる。 最後に,三つの言語におけるミソジニーの分類器を開発するためのベースライン実験の結果について考察する。

In this paper, we discuss the development of a multilingual annotated corpus of misogyny and aggression in Indian English, Hindi, and Indian Bangla as part of a project on studying and automatically identifying misogyny and communalism on social media (the ComMA Project). The dataset is collected from comments on YouTube videos and currently contains a total of over 20,000 comments. The comments are annotated at two levels - aggression (overtly aggressive, covertly aggressive, and non-aggressive) and misogyny (gendered and non-gendered). We describe the process of data collection, the tagset used for annotation, and issues and challenges faced during the process of annotation. Finally, we discuss the results of the baseline experiments conducted to develop a classifier for misogyny in the three languages.
翻訳日:2022-12-23 03:13:19 公開日:2020-03-16
# Hebrew-Greek-Finnish並列聖書コーパスHELFI

HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual Morpheme Alignment ( http://arxiv.org/abs/2003.07456v1 )

ライセンス: Link先を確認
Anssi Yli-Jyr\"a and Josi Purhonen and Matti Liljeqvist and Arto Antturi and Pekka Nieminen and Kari M. R\"antil\"a and Valtter Luoto(参考訳) 205年前、フィンランドの聖書の翻訳のための分析的一致(Luoto et al., 1997)を作成するために、ヘブライ語・フィンランド語とギリシア語・フィンランド語のビットックス(翻訳を伴う文章)が手作業で構築された。 バイテキストの作成者は、最近出版社が細かなアライメントをリリースする許可を得たが、このアライメントは著作権付きテキストエディションや原文の独自形態分析といった、プロプライエタリなサードパーティのリソースに依存していた。 本稿では,原目的データベースの作成から自由利用可能なテキスト版と注釈のみを使用して,その再構築を終える非自明な編集プロセスについて述べる。 このプロセスは、オープンに利用可能なデータセットを生成しました (i)原文とその翻訳 (II)形態素解析 (iii)言語交叉形態素アライメント。

Twenty-five years ago, morphologically aligned Hebrew-Finnish and Greek-Finnish bitexts (texts accompanied by a translation) were constructed manually in order to create an analytical concordance (Luoto et al., 1997) for a Finnish Bible translation. The creators of the bitexts recently secured the publisher's permission to release its fine-grained alignment, but the alignment was still dependent on proprietary, third-party resources such as a copyrighted text edition and proprietary morphological analyses of the source texts. In this paper, we describe a nontrivial editorial process starting from the creation of the original one-purpose database and ending with its reconstruction using only freely available text editions and annotations. This process produced an openly available dataset that contains (i) the source texts and their translations, (ii) the morphological analyses, (iii) the cross-lingual morpheme alignments.
翻訳日:2022-12-23 03:13:03 公開日:2020-03-16
# ランダムフォレスト回帰器の数値変換による体系的バイアス予測

A Numerical Transform of Random Forest Regressors corrects Systematically-Biased Predictions ( http://arxiv.org/abs/2003.07445v1 )

ライセンス: Link先を確認
Shipra Malhotra and John Karanicolas(参考訳) 過去10年間で、ランダム森林モデルは高次元データ回帰タスクの堅牢な方法として広く利用されている。 これらのモデルの人気は、過度なパラメータチューニングをほとんど必要とせず、過度に適合する可能性があまりないという事実から生じる。 ランダム森林回帰モデルは、(連続的な)依存変数の値を独立して予測する決定木からなる。 代表的な実世界のデータセットの集合を用いて、ランダムな森林モデルからの予測に体系的なバイアスを見出す。 このバイアスは、データに既約誤差(ノイズ)を含むかどうかに関わらず、単純な合成データセットで再認識されるが、ブースティングを利用するモデルでは、このバイアスは示されない。 ここでは、この問題の基礎を実証し、トレーニングデータを用いて、それを完全に修正する数値変換を定義する。 この変換の適用により,本研究で評価した実世界および合成データセットの予測精度が向上した。

Over the past decade, random forest models have become widely used as a robust method for high-dimensional data regression tasks. In part, the popularity of these models arises from the fact that they require little hyperparameter tuning and are not very susceptible to overfitting. Random forest regression models are comprised of an ensemble of decision trees that independently predict the value of a (continuous) dependent variable; predictions from each of the trees are ultimately averaged to yield an overall predicted value from the forest. Using a suite of representative real-world datasets, we find a systematic bias in predictions from random forest models. We find that this bias is recapitulated in simple synthetic datasets, regardless of whether or not they include irreducible error (noise) in the data, but that models employing boosting do not exhibit this bias. Here we demonstrate the basis for this problem, and we use the training data to define a numerical transformation that fully corrects it. Application of this transformation yields improved predictions in every one of the real-world and synthetic datasets evaluated in our study.
翻訳日:2022-12-23 03:07:28 公開日:2020-03-16
# u-net cnnベースのフーリエptychography

u-net CNN based fourier ptychography ( http://arxiv.org/abs/2003.07460v1 )

ライセンス: Link先を確認
Yican Chen, Zhi Luo, Xia Wu, Huidong Yang, and Bo Huang(参考訳) Fourier ptychographyは、従来のカメラの回折限界を克服し、顕微鏡や高解像度画像に応用するための、最近の研究である。 コヒーレント光源の異なる照明角度で撮像された低解像度画像をスプライシングするために反復位相検索アルゴリズムを採用する。 しかし、再構成手順は遅く、連続した低解像度画像に対してフーリエ領域に多くの重複が必要であり、ノイズやランダム更新シーケンスなどのシステム異常の下でも悪化する。 本稿では,畳み込みニューラルネットワークに基づく新しい検索アルゴリズムを提案する。 トレーニングがうまくいけば、グラフィック処理ユニットを用いて高品質な再構築を迅速に行うことができる。 実験により,本モデルにより再現性が向上し,システム収差下ではより堅牢であることが示された。

Fourier ptychography is a recently explored imaging method for overcoming the diffraction limit of conventional cameras with applications in microscopy and yielding high-resolution images. In order to splice together low-resolution images taken under different illumination angles of coherent light source, an iterative phase retrieval algorithm is adopted. However, the reconstruction procedure is slow and needs a good many of overlap in the Fourier domain for the continuous recorded low-resolution images and is also worse under system aberrations such as noise or random update sequence. In this paper, we propose a new retrieval algorithm that is based on convolutional neural networks. Once well trained, our model can perform high-quality reconstruction rapidly by using the graphics processing unit. The experiments demonstrate that our model achieves better reconstruction results and is more robust under system aberrations.
翻訳日:2022-12-23 03:06:50 公開日:2020-03-16
# TraLFM:交通軌跡データの潜在因子モデリング

TraLFM: Latent Factor Modeling of Traffic Trajectory Data ( http://arxiv.org/abs/2003.07780v1 )

ライセンス: Link先を確認
Meng Chen, Xiaohui Yu, Yang Liu(参考訳) 測位装置(GPSなど)の広範囲な使用は、しばしば軌跡の形で、膨大な量の人体の動きデータを生み出している。 人間の移動パターンを理解することは、多くの位置情報ベースのアプリケーションに役立つ。 本稿では,交通軌跡に基づく人間の移動パターンをマイニングするために,潜在因子モデルを用いた新しい生成モデルTraLFMを提案する。 TraLFMは,(1)人体移動パターンが軌道内の位置の列によって反映される,(2)人体移動パターンが人によって異なる,(3)人体移動パターンが周期的かつ時間とともに変化する,という3つの重要な観察に基づいている。 このように、TraLFMは逐次的、個人的、時間的要素の結合行動を統一的にモデル化し、潜在因子分析や次の位置予測といった多くの応用に新たな視点をもたらす。 実際の2つのデータセットについて徹底した実験を行い, 実験結果から, tralfm が最先端の手法を著しく上回っていることを確認した。

The widespread use of positioning devices (e.g., GPS) has given rise to a vast body of human movement data, often in the form of trajectories. Understanding human mobility patterns could benefit many location-based applications. In this paper, we propose a novel generative model called TraLFM via latent factor modeling to mine human mobility patterns underlying traffic trajectories. TraLFM is based on three key observations: (1) human mobility patterns are reflected by the sequences of locations in the trajectories; (2) human mobility patterns vary with people; and (3) human mobility patterns tend to be cyclical and change over time. Thus, TraLFM models the joint action of sequential, personal and temporal factors in a unified way, and brings a new perspective to many applications such as latent factor analysis and next location prediction. We perform thorough empirical studies on two real datasets, and the experimental results confirm that TraLFM outperforms the state-of-the-art methods significantly in these applications.
翻訳日:2022-12-23 03:06:35 公開日:2020-03-16
# ニューラルネットワークと遺伝的アルゴリズムを用いた多層ナノ粒子の逆設計

Inverse design of multilayer nanoparticles using artificial neural networks and genetic algorithm ( http://arxiv.org/abs/2003.08356v1 )

ライセンス: Link先を確認
Cankun Qiu, Zhi Luo, Xia Wu, Huidong Yang, Bo Huang(参考訳) 多層ナノ粒子の光散乱はマクスウェル方程式によって解くことができる。 しかし,従来の試行錯誤法を用いて多層ナノ粒子の逆設計を解くことは困難である。 本稿では,多層ナノ粒子のフォワードシミュレーションと逆設計法を提案する。 遺伝的アルゴリズムのグローバル検索能力とニューラルネットワークのローカル検索能力を組み合わせた。 第一に、遺伝的アルゴリズムは適切な解を見つけるために使用され、次にニューラルネットワークを使用してそれを微調整する。 物理構造と光学応答の非特異性により、まず前方ニューラルネットワークを訓練し、次に多層ナノ粒子の逆設計に適用する。 ここでだけでなく、この手法は容易に拡張でき、他の光学構造の最適な設計パラメータを予測し、見つけることができる。

The light scattering of multilayer nanoparticles can be solved by Maxwell equations. However, it is difficult to solve the inverse design of multilayer nanoparticles by using the traditional trial-and-error method. Here, we present a method for forward simulation and inverse design of multilayer nanoparticles. We combine the global search ability of genetic algorithm with the local search ability of neural network. First, the genetic algorithm is used to find a suitable solution, and then the neural network is used to fine-tune it. Due to the non-unique relationship between physical structures and optical responses, we first train a forward neural network, and then it is applied to the inverse design of multilayer nanoparticles. Not only here, this method can easily be extended to predict and find the best design parameters for other optical structures.
翻訳日:2022-12-23 03:06:15 公開日:2020-03-16
# 衛星データによる水質予測のための時系列と機械学習

Time series and machine learning to forecast the water quality from satellite data ( http://arxiv.org/abs/2003.11923v1 )

ライセンス: Link先を確認
Maryam R. Al Shehhi and Abdullah Kaya(参考訳) 現在及び将来の沿岸地域の水質管理は、市民と公務員の双方にとって中心的な関心事である。 リモートセンシングは、沿岸の水と汚染物質の管理とモニタリングに寄与する。 アルガルブルームは沿岸の汚染物質であり、その原因となっている。 MODISのような多くの衛星データは、クロロフィルa(Chl-a)、蛍光線高さ(FLH)と呼ばれる光合成指数、海面温度(SST)など、水質の高い生成物を生成するために使用されている。 これらの生成物の数学的モデルを用いて、これらの水質生成物の空間的および時間的変動を特徴付けることが重要である。 しかし、監視のためには、汚染管理委員会がいかなる汚染も予測する。 そこで本研究では,MODIS Chl-a, FLH, SSTの今後の値を予測することを目的とする。 これは1種類の水に限らず、深さや濁度によって異なる種類の水をカバーする。 これはChl-a, FLH, SSTの時間的傾向が空間的および水的特性に依存するため, 非常に重要である。 この目的のために、各ピクセルの時系列をトレンド、年内変動、季節周期、確率定常といったいくつかの構成要素に分解する。 本研究では,非定常時系列データを特徴付ける3つの時系列機械学習モデルを探索し,季節的ARIMA(Auto Regressive Integrated Average, SARIMA)や回帰, ニューラルネットワークなどの将来の値を予測する。 その結果,これらの手法はChl-a,FLH,SSTの時系列をモデル化し,適切な値の予測に有効であることが示唆された。 しかし、回帰とニューラルネットワークはあらゆる種類の水(濁度と浅度)でChl-aを予測するのに最適である。 一方、SARIMAモデルはFLHとSSTの最良の予測を提供する。

Managing the quality of water for present and future generations of coastal regions should be a central concern of both citizens and public officials. Remote sensing can contribute to the management and monitoring of coastal water and pollutants. Algal blooms are a coastal pollutant that is a cause of concern. Many satellite data, such as MODIS, have been used to generate water-quality products to detect the blooms such as chlorophyll a (Chl-a), a photosynthesis index called fluorescence line height (FLH), and sea surface temperature (SST). It is important to characterize the spatial and temporal variations of these water quality products by using the mathematical models of these products. However, for monitoring, pollution control boards will need nowcasts and forecasts of any pollution. Therefore, we aim to predict the future values of the MODIS Chl-a, FLH, and SST of the water. This will not be limited to one type of water but, rather, will cover different types of water varying in depth and turbidity. This is very significant because the temporal trend of Chl-a, FLH, and SST is dependent on the geospatial and water properties. For this purpose, we will decompose the time series of each pixel into several components: trend, intra-annual variations, seasonal cycle, and stochastic stationary. We explore three such time series machine learning models that can characterize the non-stationary time series data and predict future values, including the Seasonal ARIMA (Auto Regressive Integrated Moving Average) (SARIMA), regression, and neural network. The results indicate that all these methods are effective at modelling Chl-a, FLH, and SST time series and predicting the values reasonably well. However, regression and neural network are found to be the best at predicting Chl-a in all types of water (turbid and shallow). Meanwhile, the SARIMA model provides the best prediction of FLH and SST.
翻訳日:2022-12-23 03:06:04 公開日:2020-03-16
# OmniTact:多方向高解像度タッチセンサー

OmniTact: A Multi-Directional High Resolution Touch Sensor ( http://arxiv.org/abs/2003.06965v1 )

ライセンス: Link先を確認
Akhil Padmanabha, Frederik Ebert, Stephen Tian, Roberto Calandra, Chelsea Finn, Sergey Levine(参考訳) 触覚をロボットの知覚モダリティとして組み込むことで、よりきめ細やかで堅牢な操作技術を実現できる。 既存の触覚センサーは平坦で、感度が小さいか、低解像度の信号のみを提供する。 本稿では,多方向高解像度触覚センサOmniTactを紹介する。 OmniTactはロボットハンドで操作するための指先として使われ、複数のマイクロカメラを使ってゲルベースの皮膚の多方向変形を検出する。 これは、様々な異なる接触状態変数を現代の画像処理とコンピュータビジョン手法を用いて推論できるリッチな信号を提供する。 我々は,電気コネクタをコンセントに挿入する難易度の高いロボット制御作業において,OmniTactの能力を評価するとともに,物体に圧接する曲面指の接触角度を推定することを目的とした,器用なロボット操作で通常遭遇する人を代表する状態推定問題を評価する。 どちらのタスクも、タッチセンシングと深い畳み込みニューラルネットワークだけで、センサーのカメラから画像を処理します。 我々は,片面のみに敏感な最先端の触覚センサと最先端の多方向触覚センサを比較し,omnitactの高分解能・多方向センシングの組み合わせが電気コネクタを確実に挿入する上で重要であり,状態推定タスクにおいて高い精度を実現することを見出した。 ビデオと補足資料はhttps://sites.google.com/berkeley.edu/omnitactにある。

Incorporating touch as a sensing modality for robots can enable finer and more robust manipulation skills. Existing tactile sensors are either flat, have small sensitive fields or only provide low-resolution signals. In this paper, we introduce OmniTact, a multi-directional high-resolution tactile sensor. OmniTact is designed to be used as a fingertip for robotic manipulation with robotic hands, and uses multiple micro-cameras to detect multi-directional deformations of a gel-based skin. This provides a rich signal from which a variety of different contact state variables can be inferred using modern image processing and computer vision methods. We evaluate the capabilities of OmniTact on a challenging robotic control task that requires inserting an electrical connector into an outlet, as well as a state estimation problem that is representative of those typically encountered in dexterous robotic manipulation, where the goal is to infer the angle of contact of a curved finger pressing against an object. Both tasks are performed using only touch sensing and deep convolutional neural networks to process images from the sensor's cameras. We compare with a state-of-the-art tactile sensor that is only sensitive on one side, as well as a state-of-the-art multi-directional tactile sensor, and find that OmniTact's combination of high-resolution and multi-directional sensing is crucial for reliably inserting the electrical connector and allows for higher accuracy in the state estimation task. Videos and supplementary material can be found at https://sites.google.com/berkeley.edu/omnitact
翻訳日:2022-12-23 03:05:32 公開日:2020-03-16
# PS-RCNN:プライマリ・オブジェクト・サプレッションによる集団における二次的ヒューマン・インスタンスの検出

PS-RCNN: Detecting Secondary Human Instances in a Crowd via Primary Object Suppression ( http://arxiv.org/abs/2003.07080v1 )

ライセンス: Link先を確認
Zheng Ge, Zequn Jie, Xin Huang, Rong Xu and Osamu Yoshie(参考訳) 混み合った場面で人体を検出することは難しい問題である。 主な理由は2つある: 1)。 密集したインスタンスの弱い視覚的手がかりは、正確な検出に十分な情報を提供できない。 非最大抑制 (nms) により、多くのオクルードインスタンスの抑制が容易である。 これら2つの問題に対処するため,PS-RCNNと呼ばれる2段階検出器を導入している。 PS-RCNNはまず、R-CNNモジュール(P-RCNNと呼ばれる)によってわずかに隠されたオブジェクトを検出し、その検出されたインスタンスを人型マスクによって抑制し、密閉されたインスタンスの特徴を際立たせる。 その後、PS-RCNNは、P-RCNNによって失われた残りのオブジェクトを検出するために、密閉された人間検出(S-RCNN)に特化した別のR-CNNモジュールを使用する。 最終的な結果は、これらの2つのR-CNNからの出力のアンサンブルである。 さらに,高分解能RoI Align (HRRA)モジュールを導入し,高度に閉塞されたヒトの可視部の微細な特徴を可能な限り保持する。 我々のPS-RCNNは、ベースラインと比較して、CrowdHumanでそれぞれ4.49%、APで2.92%改善している。 Widerpersonの同様の改善はPS-RCNNでも達成されている。

Detecting human bodies in highly crowded scenes is a challenging problem. Two main reasons result in such a problem: 1). weak visual cues of heavily occluded instances can hardly provide sufficient information for accurate detection; 2). heavily occluded instances are easier to be suppressed by Non-Maximum-Suppression (NMS). To address these two issues, we introduce a variant of two-stage detectors called PS-RCNN. PS-RCNN first detects slightly/none occluded objects by an R-CNN module (referred as P-RCNN), and then suppress the detected instances by human-shaped masks so that the features of heavily occluded instances can stand out. After that, PS-RCNN utilizes another R-CNN module specialized in heavily occluded human detection (referred as S-RCNN) to detect the rest missed objects by P-RCNN. Final results are the ensemble of the outputs from these two R-CNNs. Moreover, we introduce a High Resolution RoI Align (HRRA) module to retain as much of fine-grained features of visible parts of the heavily occluded humans as possible. Our PS-RCNN significantly improves recall and AP by 4.49% and 2.92% respectively on CrowdHuman, compared to the baseline. Similar improvements on Widerperson are also achieved by the PS-RCNN.
翻訳日:2022-12-23 03:04:08 公開日:2020-03-16
# 分散逆ネットワークによる大規模多目的最適化

Large Scale Many-Objective Optimization Driven by Distributional Adversarial Networks ( http://arxiv.org/abs/2003.07013v1 )

ライセンス: Link先を確認
Zhenyu Liang, Yunfan Li, Zhongwei Wan(参考訳) 分布アルゴリズム(EDA)をEAの1つとして推定することは確率的最適化問題であり、解の分布を記述する確率モデルを確立し、確率モデルをランダムにサンプリングし、子孫を作り、モデルと人口を最適化する。 EDAフレームワークに基づいた参照ベクターガイド進化(RVEA)は、MaOPを解くためのより良いパフォーマンスを持つ。 さらに、生成的対向ネットワークを用いて子孫の解を生成することは、EAにおいてクロスオーバーや突然変異ではなく最先端の思考である。 本稿では, RVEA[1] フレームワークをベースとした新しいアルゴリズムを提案し, 分散適応ネットワーク(DAN) [2] を用いて新たな子孫を生成する。 dan氏は、ニューラルネットワークの敵対的なトレーニングに新たな分散フレームワークを使用しており、単一のポイントではなく、本物のサンプルで動作する。 これにより、同じデータ分布について高い収束率で迅速に子孫を発生させることができる。 さらに,競争型swarmオプティマイザ(lmocso)[3]に基づく大規模多目的最適化を用いて,新たな2段階戦略を適用して位置更新を行い,検索効率を大幅に向上させ,巨大な意思決定空間における最適解を求める。 提案アルゴリズムは,大規模多目的問題 (LSMOP) における9つのベンチマーク問題に対して検証を行う。 性能を測定するために,提案アルゴリズムをrm-meda[4],mo-cma[10],nsga-iiなどの最先端のアルゴリズムと比較する。

Estimation of distribution algorithms (EDA) as one of the EAs is a stochastic optimization problem which establishes a probability model to describe the distribution of solutions and randomly samples the probability model to create offspring and optimize model and population. Reference Vector Guided Evolutionary (RVEA) based on the EDA framework, having a better performance to solve MaOPs. Besides, using the generative adversarial networks to generate offspring solutions is also a state-of-art thought in EAs instead of crossover and mutation. In this paper, we will propose a novel algorithm based on RVEA[1] framework and using Distributional Adversarial Networks (DAN) [2]to generate new offspring. DAN uses a new distributional framework for adversarial training of neural networks and operates on genuine samples rather than a single point because the framework also leads to more stable training and extraordinarily better mode coverage compared to single-point-sample methods. Thereby, DAN can quickly generate offspring with high convergence regarding the same distribution of data. In addition, we also use Large-Scale Multi-Objective Optimization Based on A Competitive Swarm Optimizer (LMOCSO)[3] to adopts a new two-stage strategy to update the position in order to significantly increase the search efficiency to find optimal solutions in huge decision space. The propose new algorithm will be tested on 9 benchmark problems in Large scale multi-objective problems (LSMOP). To measure the performance, we will compare our proposal algorithm with some state-of-art EAs e.g., RM-MEDA[4], MO-CMA[10] and NSGA-II.
翻訳日:2022-12-23 02:57:18 公開日:2020-03-16
# WGAN-GPに基づく分布最適化アルゴリズムの多目的推定

Many-Objective Estimation of Distribution Optimization Algorithm Based on WGAN-GP ( http://arxiv.org/abs/2003.08295v1 )

ライセンス: Link先を確認
Zhenyu Liang, Yunfan Li, Zhongwei Wan(参考訳) 分布アルゴリズム(eda)の推定は確率的最適化アルゴリズムである。 edaは、統計学習法を用いて、人口の視点から解の分布を記述する確率モデルを確立し、確率モデルをランダムにサンプリングして新しい人口を生成する。 EDAは多目的最適問題(MOP)をよりよく解くことができる。 しかし、EDAの性能は、3つ以上の目的を含む多目的最適問題(MaOP)の解決において低下する。 EDAフレームワークに基づいた参照ベクトルガイド進化アルゴリズム(RVEA)は、MaOPをよりよく解くことができる。 本稿では,rveaの枠組みについて述べる。 しかし,WGAN-GP(Warsserstein Generative Adversarial Networks-Gradient Penalty)では,交叉や突然変異ではなく新たな集団を生成する。 WGAN-GPは、高速収束、優れた安定性、高い試料品質の利点がある。 WGAN-GPは、標準正規分布から与えられたデータセット分布へのマッピング関係を、同じ分布を受ける所定のデータセットに基づいて学習する。 多様性が高く、収束性が高い集団を素早く生み出すことができる。 RM-MEDA, MOPSO, NSGA-IIを用いて, 3, 5-, 8-, 10-, 15-対象のDTLZおよびLSMOPテストスイートの比較実験を行った。

Estimation of distribution algorithms (EDA) are stochastic optimization algorithms. EDA establishes a probability model to describe the distribution of solution from the perspective of population macroscopically by statistical learning method, and then randomly samples the probability model to generate a new population. EDA can better solve multi-objective optimal problems (MOPs). However, the performance of EDA decreases in solving many-objective optimal problems (MaOPs), which contains more than three objectives. Reference Vector Guided Evolutionary Algorithm (RVEA), based on the EDA framework, can better solve MaOPs. In our paper, we use the framework of RVEA. However, we generate the new population by Wasserstein Generative Adversarial Networks-Gradient Penalty (WGAN-GP) instead of using crossover and mutation. WGAN-GP have advantages of fast convergence, good stability and high sample quality. WGAN-GP learn the mapping relationship from standard normal distribution to given data set distribution based on a given data set subject to the same distribution. It can quickly generate populations with high diversity and good convergence. To measure the performance, RM-MEDA, MOPSO and NSGA-II are selected to perform comparison experiments over DTLZ and LSMOP test suites with 3-, 5-, 8-, 10- and 15-objective.
翻訳日:2022-12-23 02:56:50 公開日:2020-03-16
# 時間差学習は最適か? インスタンス依存分析

Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis ( http://arxiv.org/abs/2003.07337v1 )

ライセンス: Link先を確認
Koulik Khamaru, Ashwin Pananjady, Feng Ruan, Martin J. Wainwright, Michael I. Jordan(参考訳) 割引マルコフ決定過程における政策評価の問題に対処し、生成モデルの下での$\ell_\infty$-errorのインスタンス依存保証を提供する。 我々は,局所的minimax下限の漸近的および非漸近的バージョンを政策評価のために確立し,アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。 理論に着想を得たシミュレーションでは、ポリアック・ラッパート・イテレート平均化と組み合わせても、非漸近条件で評価した場合、広範に使用される時間差(TD)アルゴリズムが厳密に最適であることが示された。 確率近似の分散還元形式を導入,解析することによりこの問題を解決し,非漸近的,インスタンス依存的最適性を対数的因子まで達成することを示した。

We address the problem of policy evaluation in discounted Markov decision processes, and provide instance-dependent guarantees on the $\ell_\infty$-error under a generative model. We establish both asymptotic and non-asymptotic versions of local minimax lower bounds for policy evaluation, thereby providing an instance-dependent baseline by which to compare algorithms. Theory-inspired simulations show that the widely-used temporal difference (TD) algorithm is strictly suboptimal when evaluated in a non-asymptotic setting, even when combined with Polyak-Ruppert iterate averaging. We remedy this issue by introducing and analyzing variance-reduced forms of stochastic approximation, showing that they achieve non-asymptotic, instance-dependent optimality up to logarithmic factors.
翻訳日:2022-12-23 02:55:11 公開日:2020-03-16
# 電気ネットワーク運用のための強化学習

Reinforcement Learning for Electricity Network Operation ( http://arxiv.org/abs/2003.07339v1 )

ライセンス: Link先を確認
Adrian Kelly and Aidan O'Sullivan and Patrick de Mars and Antoine Marot(参考訳) 本稿では,Learning to Run Power Networks Challengeに必要な背景資料について述べる。 この課題は、強化学習を使用してエージェントを訓練し、電力グリッドのリアルタイム操作を管理し、電力の流れのバランスをとり、安定性を維持するための介入を行うことに重点を置いている。 本稿では,機械学習コミュニティを対象とした電力システムの導入と,電力システムコミュニティを対象とした強化学習の導入を紹介する。 これは、これらの2つのコミュニティ間のチャレンジとコラボレーションへの幅広い参加を可能にするためです。

This paper presents the background material required for the Learning to Run Power Networks Challenge. The challenge is focused on using Reinforcement Learning to train an agent to manage the real-time operations of a power grid, balancing power flows and making interventions to maintain stability. We present an introduction to power systems targeted at the machine learning community and an introduction to reinforcement learning targeted at the power systems community. This is to enable and encourage broader participation in the challenge and collaboration between these two communities.
翻訳日:2022-12-23 02:54:55 公開日:2020-03-16
# 文脈依存自己引用点過程:高次元におけるモデル、方法、リスク境界

Context-dependent self-exciting point processes: models, methods, and risk bounds in high dimensions ( http://arxiv.org/abs/2003.07429v1 )

ライセンス: Link先を確認
Lili Zheng, Garvesh Raskutti, Rebecca Willett, Benjamin Mark(参考訳) 高次元自己回帰ポイントプロセスは、現在のイベントが、ソーシャルネットワークの1人のメンバーによる活動のような将来の出来事を誘発または抑制する方法をモデル化する。 過去の研究は,ネットワークの各ノードにイベントが発生する時間のみに基づいて,基盤となるネットワーク構造を推定することに注力してきたが,本稿では,イベントに関連する特徴(ソーシャルメディア投稿の内容など)がノード間の影響の強さをどう調節するかを反映した,コンテキスト依存ネットワークを推定するという,より曖昧な問題を考察した。 具体的には,機械学習における合成時系列と正規化法のアイデアを活用し,高次元マーキングポイントプロセスに対するネットワーク推定を行う。 2つのモデルと対応する推定器が詳細に検討されている: 分類的マークに適した自己回帰的多項モデルと、異なるカテゴリの混合メンバシップを持つマークに適したロジスティック正規モデルである。 重要なことに、ロジスティック正規化モデルは凸負の対数様の目的をもたらし、カテゴリ間の依存を捉える。 シミュレーションと合成データ生成モデルによって検証される推定器について, 理論的な保証を提供する。 さらに,本手法を実例2例を通して検証し,両手法の利点と欠点を実証する。

High-dimensional autoregressive point processes model how current events trigger or inhibit future events, such as activity by one member of a social network can affect the future activity of his or her neighbors. While past work has focused on estimating the underlying network structure based solely on the times at which events occur on each node of the network, this paper examines the more nuanced problem of estimating context-dependent networks that reflect how features associated with an event (such as the content of a social media post) modulate the strength of influences among nodes. Specifically, we leverage ideas from compositional time series and regularization methods in machine learning to conduct network estimation for high-dimensional marked point processes. Two models and corresponding estimators are considered in detail: an autoregressive multinomial model suited to categorical marks and a logistic-normal model suited to marks with mixed membership in different categories. Importantly, the logistic-normal model leads to a convex negative log-likelihood objective and captures dependence across categories. We provide theoretical guarantees for both estimators, which we validate by simulations and a synthetic data-generating model. We further validate our methods through two real data examples and demonstrate the advantages and disadvantages of both approaches.
翻訳日:2022-12-23 02:54:48 公開日:2020-03-16
# 集約システムにおける近似平衡学習のための値変数最小化

Value Variance Minimization for Learning Approximate Equilibrium in Aggregation Systems ( http://arxiv.org/abs/2003.07088v1 )

ライセンス: Link先を確認
Tanvi Verma, Pradeep Varakantham(参考訳) 顧客需要に対する資源(タクシー、食品、自転車、ショッピングアイテムなど)の効果的なマッチングのために、集約システムは極めて成功した。 集約システムでは、中央のエンティティ(Uber、Food Panda、Ofoなど)が供給(ドライバー、配送担当者など)を集約し、継続的に供給する需要と一致させる(シークエンシャルな決定)。 利益を最大化するための中央機関の目的により、個々のサプライヤは犠牲にされ、個人がシステムを離れるインセンティブが生まれる。 本稿では,アグリゲーションシステムにおける近似平衡解(ウィンウィン解)の学習の問題を考える。 残念ながら、このようなシステムは何千ものエージェントを持ち、需要の不確実性を考慮する必要があり、根底にある問題は(部分的に観察可能な)確率ゲームである。 確率ゲームにおける学習や計画の重大な複雑さを考えると、3つの重要な貢献をします。 a) 相互作用における各エージェントの無限に小さな貢献と匿名性(エージェント間の遷移はエージェント数に依存する)を利用するため、これをマルチエージェント強化学習(marl)問題として表現し、非原子間混雑ゲームモデルからの洞察に基づいている。 b) 各エージェントの無限小の寄与を生かしたナッシュ平衡へのジョイント溶液の移動のための新しい分散還元機構を提供する。 c) 3つの異なるドメインについて詳細な結果を提供し,最先端手法と比較して,このアプローチの有用性を実証する。

For effective matching of resources (e.g., taxis, food, bikes, shopping items) to customer demand, aggregation systems have been extremely successful. In aggregation systems, a central entity (e.g., Uber, Food Panda, Ofo) aggregates supply (e.g., drivers, delivery personnel) and matches demand to supply on a continuous basis (sequential decisions). Due to the objective of the central entity to maximize its profits, individual suppliers get sacrificed thereby creating incentive for individuals to leave the system. In this paper, we consider the problem of learning approximate equilibrium solutions (win-win solutions) in aggregation systems, so that individuals have an incentive to remain in the aggregation system. Unfortunately, such systems have thousands of agents and have to consider demand uncertainty and the underlying problem is a (Partially Observable) Stochastic Game. Given the significant complexity of learning or planning in a stochastic game, we make three key contributions: (a) To exploit infinitesimally small contribution of each agent and anonymity (reward and transitions between agents are dependent on agent counts) in interactions, we represent this as a Multi-Agent Reinforcement Learning (MARL) problem that builds on insights from non-atomic congestion games model; (b) We provide a novel variance reduction mechanism for moving joint solution towards Nash Equilibrium that exploits the infinitesimally small contribution of each agent; and finally (c) We provide detailed results on three different domains to demonstrate the utility of our approach in comparison to state-of-the-art methods.
翻訳日:2022-12-23 02:49:30 公開日:2020-03-16
# DisCor: 分散補正による強化学習における補正フィードバック

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction ( http://arxiv.org/abs/2003.07305v1 )

ライセンス: Link先を確認
Aviral Kumar, Abhishek Gupta, Sergey Levine(参考訳) 深層強化学習は、幅広いタスクに対して効果的なポリシーを学ぶことができるが、不安定性と過度パラメータに対する感受性のため、使用が難しいことが知られている。 その理由は定かではない。 標準的な教師付きメソッド(例えばバンドイット)を使用する場合、オン・ポリティカルなデータ収集は、ポリシーが訪れるであろう状態やアクションを正確に修正する"ハード・ネガティブ"を提供する。 この現象を「正しいフィードバック」と呼ぶ。 ブートストラップ型q-ラーニングアルゴリズムは,この補正フィードバックの恩恵を受ける必要はなく,q-関数の誤りを正すにはアルゴリズムが収集した経験のトレーニングが不十分であることを示す。 実際、Q-ラーニングと関連する手法は、エージェントが収集した経験の分布と、その経験に基づくトレーニングによって引き起こされるポリシーの間の病理学的相互作用を示すことができ、ノイズ、スパース、遅延報酬から学ぶときの潜在的な不安定性、準最適収束、および貧弱な結果をもたらす。 我々は、理論的にも経験的にも、この問題の存在を実証する。 次に,データ分布の特定の補正によってこの問題を緩和できることを示す。 これらの観察に基づいて,この最適分布の近似を計算し,それを用いてトレーニングに使用する遷移の重み付けを行う新しいアルゴリズム discor を提案する。 この作業の概要を示すブログ記事は、https://bair.berkeley.edu/blog/2020/03/16/discor/で公開されている。

Deep reinforcement learning can learn effective policies for a wide range of tasks, but is notoriously difficult to use due to instability and sensitivity to hyperparameters. The reasons for this remain unclear. When using standard supervised methods (e.g., for bandits), on-policy data collection provides "hard negatives" that correct the model in precisely those states and actions that the policy is likely to visit. We call this phenomenon "corrective feedback." We show that bootstrapping-based Q-learning algorithms do not necessarily benefit from this corrective feedback, and training on the experience collected by the algorithm is not sufficient to correct errors in the Q-function. In fact, Q-learning and related methods can exhibit pathological interactions between the distribution of experience collected by the agent and the policy induced by training on that experience, leading to potential instability, sub-optimal convergence, and poor results when learning from noisy, sparse or delayed rewards. We demonstrate the existence of this problem, both theoretically and empirically. We then show that a specific correction to the data distribution can mitigate this issue. Based on these observations, we propose a new algorithm, DisCor, which computes an approximation to this optimal distribution and uses it to re-weight the transitions used for training, resulting in substantial improvements in a range of challenging RL settings, such as multi-task learning and learning from noisy reward signals. Blog post presenting a summary of this work is available at: https://bair.berkeley.edu/blog/2020/03/16/discor/.
翻訳日:2022-12-23 02:49:00 公開日:2020-03-16
# actilabel: アクティビティ認識のための組合せ転送学習フレームワーク

ActiLabel: A Combinatorial Transfer Learning Framework for Activity Recognition ( http://arxiv.org/abs/2003.07415v1 )

ライセンス: Link先を確認
Parastoo Alinia, Iman Mirzadeh, and Hassan Ghasemzadeh(参考訳) センサに基づく人間行動認識は、行動医学からゲームまで、多くの新興アプリケーションにおいて重要な要素となっている。 しかし、インターネット・オブ・Things時代のセンサデバイスの多様性は前例のないほど増加し、さまざまな領域にまたがる活動認識モデルの採用が制限された。 任意のドメイン内のイベントと異なるドメインのイベントの構造的類似性を学習する組み合わせフレームワークであるactilabelを提案する。 構造的類似性は、低レベルの信号と特徴空間におけるアクティビティパターンの詳細を抽象化するitdependency graphと呼ばれるグラフモデルを通じて取得される。 アクティビティラベルは、依存グラフ間の最適結合マッピングを見つけることによって、自律的に学習される。 3つの公開データセットに基づく大規模な実験は、最先端のトランスファー学習やディープラーニング手法よりもActiLabelの方が優れていることを示す。

Sensor-based human activity recognition has become a critical component of many emerging applications ranging from behavioral medicine to gaming. However, an unprecedented increase in the diversity of sensor devices in the Internet-of-Things era has limited the adoption of activity recognition models for use across different domains. We propose ActiLabel a combinatorial framework that learns structural similarities among the events in an arbitrary domain and those of a different domain. The structural similarities are captured through a graph model, referred to as the it dependency graph, which abstracts details of activity patterns in low-level signal and feature space. The activity labels are then autonomously learned by finding an optimal tiered mapping between the dependency graphs. Extensive experiments based on three public datasets demonstrate the superiority of ActiLabel over state-of-the-art transfer learning and deep learning methods.
翻訳日:2022-12-23 02:47:56 公開日:2020-03-16
# MPE: 次のロケーションを予測するためのモビリティパターン埋め込みモデル

MPE: A Mobility Pattern Embedding Model for Predicting Next Locations ( http://arxiv.org/abs/2003.07782v1 )

ライセンス: Link先を確認
Meng Chen, Xiaohui Yu, Yang Liu(参考訳) 位置決めと撮影装置の広範な使用により、交通軌跡データ(例えば、車道記録やタクシー軌跡データ)が不足し、各レコードは、オブジェクトID、位置ID、タイムスタンプの少なくとも3つの属性を持つ。 本稿では,逐次的,個人的,時間的要因を含む複数の側面から,トラヒック軌跡データにおける人々のモビリティパターンに光を当てるために,mpeと呼ばれる新しいモビリティパターン埋め込みモデルを提案する。 mpeには2つの特徴がある:(1)様々な種類の情報(物体、位置、時間)を統合された低次元潜在空間に流すことができる;(2)道路網から発生する「ファントム遷移」の効果を交通軌道データとして考慮する。 この埋め込みモデルは、次の位置予測や可視化のような幅広いアプリケーションへの扉を開く。 2つの実世界のデータセットによる実験結果から、MPPは有効であり、様々なタスクにおいて最先端の手法よりも優れていた。

The wide spread use of positioning and photographing devices gives rise to a deluge of traffic trajectory data (e.g., vehicle passage records and taxi trajectory data), with each record having at least three attributes: object ID, location ID, and time-stamp. In this paper, we propose a novel mobility pattern embedding model called MPE to shed the light on people's mobility patterns in traffic trajectory data from multiple aspects, including sequential, personal, and temporal factors. MPE has two salient features: (1) it is capable of casting various types of information (object, location and time) to an integrated low-dimensional latent space; (2) it considers the effect of ``phantom transitions'' arising from road networks in traffic trajectory data. This embedding model opens the door to a wide range of applications such as next location prediction and visualization. Experimental results on two real-world datasets show that MPE is effective and outperforms the state-of-the-art methods significantly in a variety of tasks.
翻訳日:2022-12-23 02:47:11 公開日:2020-03-16
# Trans-BLSTM:言語理解のための双方向LSTM変換器

TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding ( http://arxiv.org/abs/2003.07000v1 )

ライセンス: Link先を確認
Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang(参考訳) 変換器による双方向エンコーダ表現(BERT)は、最近、文分類、機械翻訳、質問応答を含む幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。 BERTモデルアーキテクチャは主にトランスから派生している。 変換器時代以前、双方向Long-Term Memory (BLSTM) はニューラルマシン翻訳と質問応答の主要なモデリングアーキテクチャであった。 本稿では,これら2つのモデリング技術を組み合わせて,より強力なモデルアーキテクチャを構築する方法について検討する。 本稿では,各トランスブロックにBLSTM層を組み込んだBLSTMを用いたトランスフォーマー(TRANS-BLSTM)を提案する。 本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。 我々のTrans-BLSTMモデルは、SQuAD 1.1開発データセット上で94.01%のF1スコアを得る。

Bidirectional Encoder Representations from Transformers (BERT) has recently achieved state-of-the-art performance on a broad range of NLP tasks including sentence classification, machine translation, and question answering. The BERT model architecture is derived primarily from the transformer. Prior to the transformer era, bidirectional Long Short-Term Memory (BLSTM) has been the dominant modeling architecture for neural machine translation and question answering. In this paper, we investigate how these two modeling techniques can be combined to create a more powerful model architecture. We propose a new architecture denoted as Transformer with BLSTM (TRANS-BLSTM) which has a BLSTM layer integrated to each transformer block, leading to a joint modeling framework for transformer and BLSTM. We show that TRANS-BLSTM models consistently lead to improvements in accuracy compared to BERT baselines in GLUE and SQuAD 1.1 experiments. Our TRANS-BLSTM model obtains an F1 score of 94.01% on the SQuAD 1.1 development dataset, which is comparable to the state-of-the-art result.
翻訳日:2022-12-23 02:46:21 公開日:2020-03-16
# 共通地におけるマルチモーダル参照戦略の形式的解析

A Formal Analysis of Multimodal Referring Strategies Under Common Ground ( http://arxiv.org/abs/2003.07385v1 )

ライセンス: Link先を確認
Nikhil Krishnaswamy and James Pustejovsky(参考訳) 本稿では,ジェスチャと言語記述の組み合わせを用いた,計算によって生成された混合モダリティ定型表現の解析を行う。 そこで我々は,ジェスチャーと言語間の相互作用の顕著な形式的意味的特性を明らかにするとともに,(計算的)話者と(人間的)視聴者の共通場へのコンテンツ導入を条件とし,これらの形式的特徴が,参照表現に対する視聴者の判断を予測し,より自然で情報的な参照表現の生成にどのように寄与するかを示す。

In this paper, we present an analysis of computationally generated mixed-modality definite referring expressions using combinations of gesture and linguistic descriptions. In doing so, we expose some striking formal semantic properties of the interactions between gesture and language, conditioned on the introduction of content into the common ground between the (computational) speaker and (human) viewer, and demonstrate how these formal features can contribute to training better models to predict viewer judgment of referring expressions, and potentially to the generation of more natural and informative referring expressions.
翻訳日:2022-12-23 02:38:51 公開日:2020-03-16
# Deep Adaptive Semantic Logic (DASL):Deep Neural Networksへの宣言的知識のコンパイル

Deep Adaptive Semantic Logic (DASL): Compiling Declarative Knowledge into Deep Neural Networks ( http://arxiv.org/abs/2003.07344v1 )

ライセンス: Link先を確認
Karan Sikka, Andrew Silberfarb, John Byrnes, Indranil Sur, Ed Chow, Ajay Divakaran, Richard Rohwer(参考訳) 本稿では,ユーザが提供する形式的知識を組み込んだ深層ニューラルネットワークの自動生成フレームワークであるdeep adaptive semantic logic (dasl)を提案する。 我々は、知識表現が一階述語論理の全てを捉え、無限領域からの有限サンプリングが正しい真理値に収束することを示す形式的意味論を提供する。 daslの表現は、勾配の消失を回避し、より深い論理構造を可能にし、知識と学習コンポーネント間のより豊かな相互作用を可能にすることで、事前のニューラルシンボリックな作業を改善する。 我々は,画像分類問題に構造を加え,その構造に関する知識がデータ要求を1,000ドル程度削減することを示す玩具問題を通してDASLを説明する。 次に、視覚的関係検出タスク上でDASLを評価し、コモンセンス知識の追加によりデータ不足時の性能が10.7\%向上することを示す。

We introduce Deep Adaptive Semantic Logic (DASL), a novel framework for automating the generation of deep neural networks that incorporates user-provided formal knowledge to improve learning from data. We provide formal semantics that demonstrate that our knowledge representation captures all of first order logic and that finite sampling from infinite domains converges to correct truth values. DASL's representation improves on prior neural-symbolic work by avoiding vanishing gradients, allowing deeper logical structure, and enabling richer interactions between the knowledge and learning components. We illustrate DASL through a toy problem in which we add structure to an image classification problem and demonstrate that knowledge of that structure reduces data requirements by a factor of $1000$. We then evaluate DASL on a visual relationship detection task and demonstrate that the addition of commonsense knowledge improves performance by $10.7\%$ in a data scarce setting.
翻訳日:2022-12-23 02:38:07 公開日:2020-03-16
# 複合配置におけるキーフレーズ分類

Key Phrase Classification in Complex Assignments ( http://arxiv.org/abs/2003.07019v1 )

ライセンス: Link先を確認
Manikandan Ravikiran(参考訳) 複雑な課題は通常、教室とオンラインの大学院プログラムの両方の文脈で、大きく多様なコンテンツを持つオープンエンドの質問からなる。 これらのプログラムの規模が大きくなれば、査読や専門家からのフィードバックにはさまざまな問題がある。 レビューに必要な重要な内容を特定することを目的として,本研究は,従来の言語モデルアプローチおよび最新の言語モデリングアプローチに関する詳細な実証研究とともに,キーフレーズ分類に関する最初の研究を示す。 本研究では,キーフレーズの分類作業が,新しいデータセット上で0.77のコーエンのカッパを生成する人間レベルで曖昧であることを示す。 事前訓練された言語モデルと単純なtfidf svm分類器の両方が、前者の平均0.6 f1よりも高い結果を生成する。 今後の教育報告から重要なフレーズ分類に関心のある人々に対して、実験的およびモデル解釈可能性の結果から実践的アドバイスを導き出した。

Complex assignments typically consist of open-ended questions with large and diverse content in the context of both classroom and online graduate programs. With the sheer scale of these programs comes a variety of problems in peer and expert feedback, including rogue reviews. As such with the hope of identifying important contents needed for the review, in this work we present a very first work on key phrase classification with a detailed empirical study on traditional and most recent language modeling approaches. From this study, we find that the task of classification of key phrases is ambiguous at a human level producing Cohen's kappa of 0.77 on a new data set. Both pretrained language models and simple TFIDF SVM classifiers produce similar results with a former producing average of 0.6 F1 higher than the latter. We finally derive practical advice from our extensive empirical and model interpretability results for those interested in key phrase classification from educational reports in the future.
翻訳日:2022-12-23 02:37:49 公開日:2020-03-16
# AIと人間を橋渡しするハーネス

Harnessing Explanations to Bridge AI and Humans ( http://arxiv.org/abs/2003.07370v1 )

ライセンス: Link先を確認
Vivian Lai, Samuel Carton, Chenhao Tan(参考訳) 機械学習モデルは、その優れた予測能力のおかげで、レシディビズム予測や医療診断のような社会的に重要な応用にますます統合されている。 しかし、これらのアプリケーションでは、倫理的および法的懸念のため、完全な自動化は望まないことが多い。 研究コミュニティは、機械の予測を説明する解釈可能な方法の開発に力を入れている。 これらの説明は、人間が機械の予測を理解するのを助けることを目的としているが、最近の多くの研究では、この仮説は支持されていない。 ai支援による人的意思決定を改善するために,説明の有効性と人的パフォーマンスの改善とのギャップを埋めるための今後の方向性を提案する。

Machine learning models are increasingly integrated into societally critical applications such as recidivism prediction and medical diagnosis, thanks to their superior predictive power. In these applications, however, full automation is often not desired due to ethical and legal concerns. The research community has thus ventured into developing interpretable methods that explain machine predictions. While these explanations are meant to assist humans in understanding machine predictions and thereby allowing humans to make better decisions, this hypothesis is not supported in many recent studies. To improve human decision-making with AI assistance, we propose future directions for closing the gap between the efficacy of explanations and improvement in human performance.
翻訳日:2022-12-23 02:37:38 公開日:2020-03-16
# ブーストツリーを用いた不均質領域からの解釈可能なMTL

Interpretable MTL from Heterogeneous Domains using Boosted Tree ( http://arxiv.org/abs/2003.07077v1 )

ライセンス: Link先を確認
Ya-Lin Zhang and Longfei Li(参考訳) マルチタスク学習 (MTL) は, それらに含まれる有用な情報を活用することで, 関連タスクの一般化性能を向上させることを目的としている。 しかし、産業シナリオでは、解釈可能性は常に要求され、異なるタスクのデータは異種ドメインにある可能性があり、既存のメソッドは不適切または不十分である。 本稿では,ブーストツリーの哲学に従い,二段階法を提案する。 ステージ1では、すべてのインスタンスの共通機能を使用して共通性を学ぶための共通モデルが構築されます。 従来のブースト木モデルのトレーニングとは異なり,マルチタスク学習プロセスを最適化するための正規化戦略と早期停止機構を提案した。 ステージ2では、共通モデルの残差誤差を満たして開始し、タスク固有のインスタンスで特定のモデルを構築し、パフォーマンスをさらに向上させる。 ベンチマークおよび実世界のデータセットにおける実験は、提案手法の有効性を検証する。 さらに、解釈性は、産業のニーズを満たす木ベースの手法から自然に得ることができる。

Multi-task learning (MTL) aims at improving the generalization performance of several related tasks by leveraging useful information contained in them. However, in industrial scenarios, interpretability is always demanded, and the data of different tasks may be in heterogeneous domains, making the existing methods unsuitable or unsatisfactory. In this paper, following the philosophy of boosted tree, we proposed a two-stage method. In stage one, a common model is built to learn the commonalities using the common features of all instances. Different from the training of conventional boosted tree model, we proposed a regularization strategy and an early-stopping mechanism to optimize the multi-task learning process. In stage two, started by fitting the residual error of the common model, a specific model is constructed with the task-specific instances to further boost the performance. Experiments on both benchmark and real-world datasets validate the effectiveness of the proposed method. What's more, interpretability can be naturally obtained from the tree based method, satisfying the industrial needs.
翻訳日:2022-12-23 02:36:30 公開日:2020-03-16
# ニューラルネットワークの分割一般化による強化学習の性能向上

Improving Performance in Reinforcement Learning by Breaking Generalization in Neural Networks ( http://arxiv.org/abs/2003.07417v1 )

ライセンス: Link先を確認
Sina Ghiassian, Banafsheh Rafiee, Yat Long Lo, Adam White(参考訳) 強化学習システムは優れた表現を必要とする。 何十年もの間、強化学習の実際的な成功は小さな領域に限られていた。 一方、深層強化学習システムはスケーラブルであり、ドメイン固有の事前知識に依存しておらず、Atariのプレイや画素からの3Dナビゲーション、高度な自由度ロボットの制御に成功している。 残念ながら、深層強化学習システムの性能はハイパーパラメータ設定やアーキテクチャの選択に敏感である。 十分に調整されたシステムでさえ、試行と実験の複製の両方において重大な不安定性を示す。 実際、優れたパフォーマンスを達成するためには、重要な専門知識と試行錯誤が必要となる。 この問題の潜在的な原因の1つは、破滅的干渉(catastrophic interference)として知られる: 後のトレーニングが以前の学習を過大にすることでパフォーマンスを低下させるとき。 興味深いことに、ニューラルネットワーク(NN)をバッチ教師付き学習に効果的にする強力な一般化は、強化学習タスクにニューラルネットワークを適用する際の課題を説明するかもしれない。 本稿では,強化学習におけるオンラインNNトレーニングと干渉の相互作用について考察する。 入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。 また,この前処理は予測タスクの干渉を減少させることを示した。 より現実的には、実装が容易で、追加の計算をほとんど必要としないNNトレーニングに簡単なアプローチを提供する。 提案手法は,従来の制御領域における多数の実験により,予測と制御の両方のパフォーマンスを向上させることを実証する。

Reinforcement learning systems require good representations to work well. For decades practical success in reinforcement learning was limited to small domains. Deep reinforcement learning systems, on the other hand, are scalable, not dependent on domain specific prior knowledge and have been successfully used to play Atari, in 3D navigation from pixels, and to control high degree of freedom robots. Unfortunately, the performance of deep reinforcement learning systems is sensitive to hyper-parameter settings and architecture choices. Even well tuned systems exhibit significant instability both within a trial and across experiment replications. In practice, significant expertise and trial and error are usually required to achieve good performance. One potential source of the problem is known as catastrophic interference: when later training decreases performance by overriding previous learning. Interestingly, the powerful generalization that makes Neural Networks (NN) so effective in batch supervised learning might explain the challenges when applying them in reinforcement learning tasks. In this paper, we explore how online NN training and interference interact in reinforcement learning. We find that simply re-mapping the input observations to a high-dimensional space improves learning speed and parameter sensitivity. We also show this preprocessing reduces interference in prediction tasks. More practically, we provide a simple approach to NN training that is easy to implement, and requires little additional computation. We demonstrate that our approach improves performance in both prediction and control with an extensive batch of experiments in classic control domains.
翻訳日:2022-12-23 02:30:46 公開日:2020-03-16
# 1d cnnモデルの分割学習をプライバシ保護トレーニングに使用できるか?

Can We Use Split Learning on 1D CNN Models for Privacy Preserving Training? ( http://arxiv.org/abs/2003.12365v1 )

ライセンス: Link先を確認
Sharif Abuadbba, Kyuyeon Kim, Minki Kim, Chandra Thapa, Seyit A. Camtepe, Yansong Gao, Hyoungshick Kim, Surya Nepal(参考訳) スプリットラーニングと呼ばれる新しいコラボレーティブラーニングが最近導入され、サーバに生の入力データを公開せずにユーザのデータプライバシを保護することを目的としている。 モデルがクライアントとサーバの2つの部分に分割される、ディープニューラルネットワークモデルが協調して実行される。 したがって、サーバはクライアントで処理された生データに直接アクセスすることができない。 これまでのスプリットラーニングは、クライアントの生データを保護するための有望なアプローチであると考えられており、例えば、クライアントのデータは、2D畳み込みニューラルネットワーク(CNN)モデルを使用して医療画像アプリケーションで保護されていた。 しかし、この分割学習が他のディープラーニングモデル、特に1D CNNに適用できるかどうかはまだ不明である。 本稿では,分割学習を用いて1次元CNNモデルのプライバシー保護訓練を行うかを検討する。 そこで我々はまず,分割学習下での1次元CNNモデルの設計と実装を行い,心電図データを用いた心臓異常検出の有効性を検証した。 分割学習下の1次元CNNモデルは、元の(非分割)モデルと同じ精度で98.9\%を得ることができた。 しかし,本評価は,分割学習が1次元CNNモデルの生データプライバシ保護に失敗することを示した。 分割学習におけるプライバシー漏洩に対処するため、我々は2つのプライバシー漏洩軽減手法を採用した。 1) クライアント側にさらに隠れたレイヤを追加すること 2) 差分プライバシーの適用。 これらの緩和技術は、プライバシーの漏洩を減らすのに役立ちますが、モデルの精度に大きな影響を与えます。 その結果,1次元cnnモデルでは分割学習だけでは生のシーケンシャルデータの秘密性を維持するには不十分であることがわかった。

A new collaborative learning, called split learning, was recently introduced, aiming to protect user data privacy without revealing raw input data to a server. It collaboratively runs a deep neural network model where the model is split into two parts, one for the client and the other for the server. Therefore, the server has no direct access to raw data processed at the client. Until now, the split learning is believed to be a promising approach to protect the client's raw data; for example, the client's data was protected in healthcare image applications using 2D convolutional neural network (CNN) models. However, it is still unclear whether the split learning can be applied to other deep learning models, in particular, 1D CNN. In this paper, we examine whether split learning can be used to perform privacy-preserving training for 1D CNN models. To answer this, we first design and implement an 1D CNN model under split learning and validate its efficacy in detecting heart abnormalities using medical ECG data. We observed that the 1D CNN model under split learning can achieve the same accuracy of 98.9\% like the original (non-split) model. However, our evaluation demonstrates that split learning may fail to protect the raw data privacy on 1D CNN models. To address the observed privacy leakage in split learning, we adopt two privacy leakage mitigation techniques: 1) adding more hidden layers to the client side and 2) applying differential privacy. Although those mitigation techniques are helpful in reducing privacy leakage, they have a significant impact on model accuracy. Hence, based on those results, we conclude that split learning alone would not be sufficient to maintain the confidentiality of raw sequential data in 1D CNN models.
翻訳日:2022-12-23 02:30:27 公開日:2020-03-16
# 不均衡データを用いた一般文分類のためのコスト感性BERT

Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data ( http://arxiv.org/abs/2003.11563v1 )

ライセンス: Link先を確認
Harish Tayyar Madabushi, Elena Kochkina, Michael Castelle(参考訳) プロパガンダの自動識別は、ニュースの生成と消費の方法の技術的および社会的変化によって、近年、重要性を増している。 このタスクは、テキスト分類タスクのために微調整できる強力な新しいアーキテクチャであるBERTを使って効果的に処理できるので、驚くにはあたらない。 しかし、プロパガンダ検出は、ニュース文書やその他の非コンテキスト化された社会コミュニケーション(感情分析など)を扱う他のタスクと同様に、本質的にはカテゴリが不均衡で相容れないデータを扱う。 bertは、追加のデータ拡張なしで不均衡なクラスを処理できるが、トレーニングとテストデータが十分に異なる場合(しばしばニュースソースの場合のように、時間とともにトピックが進化する)はうまく一般化しない。 本稿では,データセット間の類似性の統計的尺度と,トレーニングとテストセットが異なる場合のコスト重み付けをBERTに組み込むことにより,この問題に対処する方法を示す。 本稿では,これらの手法をPropaganda Techniques Corpus (PTC) で検証し,文レベルのプロパガンダ分類における2番目に高いスコアを得た。

The automatic identification of propaganda has gained significance in recent years due to technological and social changes in the way news is generated and consumed. That this task can be addressed effectively using BERT, a powerful new architecture which can be fine-tuned for text classification tasks, is not surprising. However, propaganda detection, like other tasks that deal with news documents and other forms of decontextualized social communication (e.g. sentiment analysis), inherently deals with data whose categories are simultaneously imbalanced and dissimilar. We show that BERT, while capable of handling imbalanced classes with no additional data augmentation, does not generalise well when the training and test data are sufficiently dissimilar (as is often the case with news sources, whose topics evolve over time). We show how to address this problem by providing a statistical measure of similarity between datasets and a method of incorporating cost-weighting into BERT when the training and test sets are dissimilar. We test these methods on the Propaganda Techniques Corpus (PTC) and achieve the second-highest score on sentence-level propaganda classification.
翻訳日:2022-12-23 02:29:16 公開日:2020-03-16
# 時系列予測のためのドリフト調整・調整アンサンブルフレームワーク

Drift-Adjusted And Arbitrated Ensemble Framework For Time Series Forecasting ( http://arxiv.org/abs/2003.09311v1 )

ライセンス: Link先を確認
Anirban Chatterjee, Subhadip Paul, Uddipto Dutta, Smaranya Dey(参考訳) 時系列予測は、ビジネスの営業予測、農業の降雨予測など、多くの実用的な応用の中核にある。 この問題は長年にわたって研究されてきたが、時系列データの複雑で進化的な性質のため、依然として難しい問題とみなされている。 データ観測間の線形あるいは非線形の依存関係をモデル化した時系列予測のための典型的な手法を提案する。 しかし、全ての時系列データに対して普遍的に有効な方法はないという一般に受け入れられている考え方である。 不均一な予測モデルと独立な予測モデルの動的および重み付けの組み合わせが試みられ、この問題に取り組む上で有望な方向であることが判明した。 この方法は、異なる予測器が異なる特殊化を持ち、異なるデータ分布と重みの異なる性能が複数の予測器に動的に割り当てられるという仮定に基づいている。 しかし、多くの実用的な時系列データセットでは、データの分布は時間とともに徐々に進化する。 そこで本研究では, 各種予測器に割り当てられた重みを調整し, 再重み付け方式を採用することを提案する。 実世界と合成時系列の両方に対して徹底的なテストが行われた。 実験結果から,予測器とドリフト処理を組み合わせた最先端手法と比較して,提案手法の競争性を示した。

Time Series Forecasting is at the core of many practical applications such as sales forecasting for business, rainfall forecasting for agriculture and many others. Though this problem has been extensively studied for years, it is still considered a challenging problem due to complex and evolving nature of time series data. Typical methods proposed for time series forecasting modeled linear or non-linear dependencies between data observations. However it is a generally accepted notion that no one method is universally effective for all kinds of time series data. Attempts have been made to use dynamic and weighted combination of heterogeneous and independent forecasting models and it has been found to be a promising direction to tackle this problem. This method is based on the assumption that different forecasters have different specialization and varying performance for different distribution of data and weights are dynamically assigned to multiple forecasters accordingly. However in many practical time series data-set, the distribution of data slowly evolves with time. We propose to employ a re-weighting based method to adjust the assigned weights to various forecasters in order to account for such distribution-drift. An exhaustive testing was performed against both real-world and synthesized time-series. Experimental results show the competitiveness of the method in comparison to state-of-the-art approaches for combining forecasters and handling drift.
翻訳日:2022-12-23 02:28:55 公開日:2020-03-16
# 実時間超音波映像における舌表面の自動追跡のための深層学習

Deep Learning for Automatic Tracking of Tongue Surface in Real-time Ultrasound Videos, Landmarks instead of Contours ( http://arxiv.org/abs/2003.08808v1 )

ライセンス: Link先を確認
M. Hamed Mozaffari, Won-Sook Lee(参考訳) 医用超音波イメージングの1つの用途は、人間の舌の形と動きをリアルタイムに可視化し、特徴付け、健康的または障害のある音声生成を研究することである。 超音波画像の低コントラスト特性とノイズ特性のため、第2言語の視覚訓練などの応用において、非熟練者が舌のジェスチャーを認識するための専門知識が必要である。 さらに,舌運動の定量的解析には舌背輪郭の抽出,追跡,可視化が必要である。 手動の舌輪郭抽出は面倒で主観的で、誤りやすい作業である。 さらに、リアルタイムアプリケーションでは実現不可能なソリューションである。 深層学習の成長は、超音波舌輪郭追跡など、様々なコンピュータビジョンタスクで活発に活用されている。 現在の方法では、舌輪郭抽出の工程は、画像分割と後処理の2段階からなる。 本稿では,ディープニューラルネットワークを用いた自動・リアルタイム舌輪郭追跡手法を提案する。 提案手法では,2段階の手順の代わりに舌表面のランドマークが追跡される。 この新しいアイデアにより、研究者は、既に注釈付きデータベースが利用できることで、高精度な結果が得られる。 本実験では,提案手法の一般化,性能,精度の面で優れた性能を明らかにした。

One usage of medical ultrasound imaging is to visualize and characterize human tongue shape and motion during a real-time speech to study healthy or impaired speech production. Due to the low-contrast characteristic and noisy nature of ultrasound images, it might require expertise for non-expert users to recognize tongue gestures in applications such as visual training of a second language. Moreover, quantitative analysis of tongue motion needs the tongue dorsum contour to be extracted, tracked, and visualized. Manual tongue contour extraction is a cumbersome, subjective, and error-prone task. Furthermore, it is not a feasible solution for real-time applications. The growth of deep learning has been vigorously exploited in various computer vision tasks, including ultrasound tongue contour tracking. In the current methods, the process of tongue contour extraction comprises two steps of image segmentation and post-processing. This paper presents a new novel approach of automatic and real-time tongue contour tracking using deep neural networks. In the proposed method, instead of the two-step procedure, landmarks of the tongue surface are tracked. This novel idea enables researchers in this filed to benefits from available previously annotated databases to achieve high accuracy results. Our experiment disclosed the outstanding performances of the proposed technique in terms of generalization, performance, and accuracy.
翻訳日:2022-12-23 02:28:35 公開日:2020-03-16
# context-transformer: 少数ショット検出のためのオブジェクト混乱に取り組む

Context-Transformer: Tackling Object Confusion for Few-Shot Detection ( http://arxiv.org/abs/2003.07304v1 )

ライセンス: Link先を確認
Ze Yang (1), Yali Wang (1), Xianyu Chen (1), Jianzhuang Liu (2), Yu Qiao (1 and 3) ((1) ShenZhen Key Lab of Computer Vision and Pattern Recognition, SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, (2) Huawei Noah's Ark Lab, (3) SIAT Branch, Shenzhen Institute of Artificial Intelligence and Robotics for Society)(参考訳) オブジェクト検出は難しいが現実的なシナリオであり、ディテクターのトレーニングにはいくつかの注釈付きトレーニングイメージしか利用できない。 この問題に対処するための一般的なアプローチは、転送学習、すなわちソースドメインベンチマークで事前訓練された検出器の微調整である。 しかし、そのような移動検出器は、訓練サンプルのデータ多様性が低いため、しばしばターゲット領域内の新しい物体を認識できない。 この問題に対処するため,我々は簡潔なディープトランスフレームワーク内に新しいコンテキスト変換器を提案する。 具体的には、Context-Transformerは、ソースドメインオブジェクトの知識をガイダンスとして有効活用し、ターゲットドメイン内の少数のトレーニングイメージからコンテキストを自動的に活用する。 その後、これらのリレーショナルヒントを適応的に統合して検出器の識別力を高めることで、少数のシナリオにおけるオブジェクトの混乱を減らすことができる。 さらにContext-Transformerは、人気のあるSSDスタイルの検出器に柔軟に組み込まれており、エンドツーエンドの数ショット学習のためのプラグイン・アンド・プレイモジュールとなっている。 最後に、数ショット検出とインクリメンタル数ショット検出の困難な設定に対してContext-Transformerを評価する。 実験の結果,我々のフレームワークは最近の最先端のアプローチよりも優れていることがわかった。

Few-shot object detection is a challenging but realistic scenario, where only a few annotated training images are available for training detectors. A popular approach to handle this problem is transfer learning, i.e., fine-tuning a detector pretrained on a source-domain benchmark. However, such transferred detector often fails to recognize new objects in the target domain, due to low data diversity of training samples. To tackle this problem, we propose a novel Context-Transformer within a concise deep transfer framework. Specifically, Context-Transformer can effectively leverage source-domain object knowledge as guidance, and automatically exploit contexts from only a few training images in the target domain. Subsequently, it can adaptively integrate these relational clues to enhance the discriminative power of detector, in order to reduce object confusion in few-shot scenarios. Moreover, Context-Transformer is flexibly embedded in the popular SSD-style detectors, which makes it a plug-and-play module for end-to-end few-shot learning. Finally, we evaluate Context-Transformer on the challenging settings of few-shot detection and incremental few-shot detection. The experimental results show that, our framework outperforms the recent state-of-the-art approaches.
翻訳日:2022-12-23 02:28:17 公開日:2020-03-16