このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200415となっている論文です。

PDF登録状況(公開日: 20200415)

TitleAuthorsAbstract論文公表日・翻訳日
# 分類器チェーン:レビューと展望

Classifier Chains: A Review and Perspectives ( http://arxiv.org/abs/1912.13405v2 )

ライセンス: Link先を確認
Jesse Read, Bernhard Pfahringer, Geoff Holmes, Eibe Frank(参考訳) 分類器チェーンと呼ばれる手法群は、多ラベル学習問題に対する一般的なアプローチとなっている。 このアプローチでは、クラスラベルの予測が他の分類器の機能になるように、チェーン構造内の既成のバイナリ分類器をリンクする。 このような手法は柔軟かつ効果的であることが証明され、多くのデータセットとマルチラベル評価メトリクスで最先端の経験的パフォーマンスが得られた。 この性能は、それがどのように機能するか、どのように改善されるのかをさらに研究し、近年10年間に多くの研究が理論レベルで分類器連鎖のメカニズムを探求し、この方法がマルチラボラーニングの最先端の選択肢として残るように、トレーニングと推論手順に多くの改良が加えられている。 幅広い応用と研究テーマをカバーするこの過去と現在進行中の関心を踏まえると、本研究の目的は、分類器チェーンのレビュー、文献で提供される技術と拡張のサーベイ、そしてこのアプローチの今後のマルチラベル分類の領域における展望を提供することである。 我々は,多くの研究者や実践者への推薦とともに,今後の研究分野について概説した。

The family of methods collectively known as classifier chains has become a popular approach to multi-label learning problems. This approach involves linking together off-the-shelf binary classifiers in a chain structure, such that class label predictions become features for other classifiers. Such methods have proved flexible and effective and have obtained state-of-the-art empirical performance across many datasets and multi-label evaluation metrics. This performance led to further studies of how exactly it works, and how it could be improved, and in the recent decade numerous studies have explored classifier chains mechanisms on a theoretical level, and many improvements have been made to the training and inference procedures, such that this method remains among the state-of-the-art options for multi-label learning. Given this past and ongoing interest, which covers a broad range of applications and research themes, the goal of this work is to provide a review of classifier chains, a survey of the techniques and extensions provided in the literature, as well as perspectives for this approach in the domain of multi-label classification in the future. We conclude positively, with a number of recommendations for researchers and practitioners, as well as outlining a number of areas for future research.
翻訳日:2023-06-10 07:51:06 公開日:2020-04-15
# カテゴリー量子力学における純度と混合

Beyond Purity and Mixtures in Categorical Quantum Mechanics ( http://arxiv.org/abs/2002.04423v2 )

ライセンス: Link先を確認
Christian de Ronde, C\'esar Massri(参考訳) 最近の論文[12]では、純粋状態の概念の操作的および数学的定義における真剣な矛盾について論じている。 この分析を続けて、本稿では、Chris Isham と Jeremy Butterfield [27, 28, 29] によって提示されたトポスアプローチと、この記事の著者によって提示されたより最近のロゴカテゴリーアプローチという、QM に対する2つの異なるカテゴリ的アプローチにおける「純粋」と「混合」の役割に対処しようと試みる。 最初のアプローチでは純粋状態と混合状態の一貫した理解を得るのが困難であるが、後者のアプローチは、射影演算子と量子重ね合わせの集中的な理解を優先して、それらの参照を最初から消去する新しいスキームを示す。 この理論の新たな説明は、ボルン規則の集中的な解釈に基づいており、射影作用素の正統的な解釈(定値の性質や測定結果を参照すること)を回避できるだけでなく、すべての行列(任意の階数)を等しい足元で考えることができる。 この後者の立場から、純粋な状態と混合状態を区別する代わりに、1925年にヴェルナー・ハイゼンベルクによって提示された量子力学の元の行列定式化に戻すために、量子化の理論を適切に理解することが推奨される。

In a recent paper [12], we discussed the serious inconsistency present within the operational and mathematical definition(s) of the notion of pure state. Continuing this analysis, in this work we attempt to address the role of 'purity' and 'mixtures' within two different categorical approaches to QM, namely, the topos approach originally presented by Chris Isham and Jeremy Butterfield [27, 28, 29] and the more recent logos categorical approach presented by the authors of this article [10, 11, 13]. While the first approach exposes the difficulties to produce a consistent understanding of pure states and mixtures, the latter approach presents a new scheme in which their reference is erased right from the start in favor of an intensive understanding of projection operators and quantum superpositions. This new account of the theory, grounded on an intensive interpretation of the Born rule, allows us not only to avoid the orthodox interpretation of projection operators --either as referring to definite valued properties or measurement outcomes-- but also to consider all matrices (of any rank) on equal footing. It is from this latter standpoint that we conclude that instead of distinguishing between pure and mixed states it would be recommendable --for a proper understanding of the theory of quanta-- to return to the original matrix formulation of quantum mechanics presented by Werner Heisenberg in 1925.
翻訳日:2023-06-04 05:37:33 公開日:2020-04-15
# 一般化パウリチャネルの幾何学

Geometry of generalized Pauli channels ( http://arxiv.org/abs/2002.04657v2 )

ライセンス: Link先を確認
Katarzyna Siudzi\'nska(参考訳) 相互に偏りのない基底から構築した一般化されたパウリチャネルの形状を解析した。 choi-jamio{\l}kowski同型により、一般化されたパウリ写像の固有値を用いてヒルベルト・シュミット直線と体積元を表現することができる。 適切な積分領域を決定すると、一般化されたパウリチャネルの体積とその重要なサブクラスを解析的に計算する。 特に、正規生成子によって生成され、絡み合う破壊である一般化されたパウリチャネルの体積を得る。 また、正のトレース保存された一般化されたパウリ写像の体積の上限も提供する。

We analyze the geometry of the generalized Pauli channels constructed from the mutually unbiased bases. The Choi-Jamio{\l}kowski isomorphism allows us to express the Hilbert-Schmidt line and volume elements in terms of the eigenvalues of the generalized Pauli maps. After determining appropriate regions of integration, we analytically compute the volume of generalized Pauli channels and their important subclasses. In particular, we obtain the volumes of the generalized Pauli channels that can be generated by a legitimate generator and are entanglement breaking. We also provide the upper bound for the volume of positive, trace-preserving generalized Pauli maps.
翻訳日:2023-06-03 23:21:51 公開日:2020-04-15
# 相対論的量子力学における位置とスピン

Position and spin in relativistic quantum mechanics ( http://arxiv.org/abs/2003.06572v2 )

ライセンス: Link先を確認
Liping Zou, Pengming Zhang and Alexander J. Silenko(参考訳) 相対論的量子力学における位置とスピンの問題は詳細に分析される。 foldy-wouthuysen表現における位置とスピン作用素は、古典的位置とスピン変数の量子力学的対応するものであることが決定的に示されている。 確率論的解釈はFoldy-Wouthuysen波動関数にのみ有効である。 相対論的スピン作用素について論じる。 軌道角運動量とレストフレームスピンの従来の作用素を用いると、スピン軌道相互作用は自由粒子には存在しない。 軌道角運動量とスピンの別の定義は非可換幾何学に基づいており、標準可換関係を満足せず、スピン-軌道相互作用を許容することができる。

The problem of the position and spin in relativistic quantum mechanics is analyzed in detail. It is definitively shown that the position and spin operators in the Foldy-Wouthuysen representation (but not in the Dirac one) are quantum-mechanical counterparts of the classical position and spin variables. The probabilistic interpretation is valid only for Foldy-Wouthuysen wave functions. The relativistic spin operators are discussed. The spin-orbit interaction does not exist for a free particle if the conventional operators of the orbital angular momentum and the rest-frame spin are used. Alternative definitions of the orbital angular momentum and the spin are based on noncommutative geometry, do not satisfy standard commutation relations, and can allow the spin-orbit interaction.
翻訳日:2023-05-29 04:20:58 公開日:2020-04-15
# 脱音路におけるコヒーレント情報重畳性の実験的観察

Experimental observation of coherent-information superadditivity in a dephrasure channel ( http://arxiv.org/abs/2003.13000v2 )

ライセンス: Link先を確認
Shang Yu, Yu Meng, Raj B. Patel, Yi-Tao Wang, Zhi-Jin Ke, Wei Liu, Zhi-Peng Li, Yuan-Ze Yang, Wen-Hao Zhang, Jian-Shun Tang, Chuan-Feng Li and Guang-Can Guo(参考訳) 本稿では,ノイズの強調と消去を両立させ,コヒーレント情報の超結合性を調べるための効率的なツールとして使用できるデフレアチャネルを構築するための実験的手法を提案する。 3倍のdephrasureチャネルを用いることで、コヒーレント情報の重付加性が観察され、ゼロシングルレターコヒーレント情報とゼロ量子容量の間に実質的なギャップが見つかる。 特に、nチャネルのコヒーレント情報が0である場合、より多くのチャネルが使用される場合、正となる。 これらの現象は、以前の研究よりもコヒーレントな情報の明らかな過剰付加性を示し、非ゼロ量子容量に対する高い閾値を示す。 このような新しいチャネルは、コヒーレント情報と量子チャネル容量の非加法的性質を研究するための有用なプラットフォームを提供することもできる。

We present an experimental approach to construct a dephrasure channel, which contains both dephasing and erasure noises, and can be used as an efficient tool to study the superadditivity of coherent information. By using a three-fold dephrasure channel, the superadditivity of coherent information is observed, and a substantial gap is found between the zero single-letter coherent information and zero quantum capacity. Particularly, we find that when the coherent information of n channel uses is zero, in the case of larger number of channel uses, it will become positive. These phenomena exhibit a more obvious superadditivity of coherent information than previous works, and demonstrate a higher threshold for non-zero quantum capacity. Such novel channels built in our experiment also can provide a useful platform to study the non-additive properties of coherent information and quantum channel capacity.
翻訳日:2023-05-27 14:19:13 公開日:2020-04-15
# 開空洞パラメトリック発振器における絡み合いの探索--三重から二重共振キャビティへ

Exploring entanglement in open cavity parametric oscillators: from triply to doubly resonant cavities ( http://arxiv.org/abs/2004.06219v2 )

ライセンス: Link先を確認
Barbara Abigail Ferreira Ribeiro, Rayssa Bruzaca de Andrade, Marcelo Martinelli, and Breno Marques(参考訳) 光パラメトリック発振器における多成分の絡み合いと非古典光発生の評価に汎用モデルを用い,二重共振キャビティ配置と三重共振キャビティ配置の違いについて検討した。 両条件の変換場によるポンプモードの絡み合いとパラメトリックダウン変換と4つの波動混合プロセスを用いた発振器の基本的相違をキャビティ内増幅法として示す。 ポンプのサイドバンドと変換されたフィールドとの強い相関は、多成分の絡み合いのリッチなダイナミクスのシグネチャを与える。

We use a versatile model to evaluate the multipartite entanglement and the nonclassical light generation in optical parametric oscillators, exploring the differences between doubly and triply resonant cavity configurations. We demonstrate the entanglement of the pump mode with converted fields in both situations, and the fundamental differences of oscillators using parametric down conversion and four wave mixing processes as the intracavity amplification technique. The strong correlations involving the sidebands of the pump and converted fields gives the signatures of a rich dynamic of multipartite entanglement.
翻訳日:2023-05-24 11:20:29 公開日:2020-04-15
# バングラデシュにおけるモバイル健康アプリケーションのユーザビリティ調査

Investigating usability of mobile health applications in Bangladesh ( http://arxiv.org/abs/2004.07044v1 )

ライセンス: Link先を確認
Muhammad Nazrul Islam, Md. Mahboob Karim, Toki Tahmid Inan, A. K. M. Najmul Islam(参考訳) 背景: ユーザビリティの欠如は、モバイルサービスの急速な普及にとって大きな障害になり得る。 そこで本研究ではバングラデシュにおけるモバイルヘルスアプリケーションの有用性について検討する。 方法: 3段階のアプローチで研究を行った。 まず,人気アプリストアでキーワードベースのアプリケーション検索を行った。 アフィニティ・ダイアグラムのアプローチに従い、見つけたアプリケーションを9つのグループにまとめました。 第2に,各グループからランダムに4つのアプリ(合計36アプリ)を選択し,ヒューリスティックな評価を行った。 最後に,各グループから最もダウンロード率の高いアプリを選択し,30名を対象にユーザ調査を行った。 結果:61%のユーザビリティ問題は,ヒューリスティック検査による災害か,あるいは本質的な問題であった。 最も(21%)のヒューリスティックに反するデザインは美学とミニマリストデザインである。 ユーザスタディでは,ヒューリスティック評価に基づくユーザビリティ問題の多いアプリに対して,システムユーザビリティ尺度(SUS)のスコアが低かった。 したがって,ヒューリスティック評価の結果とユーザスタディは相互に補完する。 結論: 総じて、バングラデシュにおけるモバイル健康アプリのユーザビリティは一般的には満足せず、モバイル健康サービスの普及の障壁になり得ることを示唆している。

Background: Lack of usability can be a major barrier for the rapid adoption of mobile services. Therefore, the purpose of this paper is to investigate the usability of Mobile Health applications in Bangladesh. Method: We followed a 3-stage approach in our research. First, we conducted a keyword-based application search in the popular app stores. We followed the affinity diagram approach and clustered the found applications into nine groups. Second, we randomly selected four apps from each group (36 apps in total) and conducted a heuristic evaluation. Finally, we selected the highest downloaded app from each group and conducted user studies with 30 participants. Results: We found 61% usability problems are catastrophe or major in nature from heuristic inspection. The most (21%) violated heuristic is aesthetic and minimalist design. The user studies revealed low System Usability Scale (SUS) scores for those apps that had a high number of usability problems based on the heuristic evaluation. Thus, the results of heuristic evaluation and user studies complement each other. Conclusion: Overall, the findings suggest that the usability of the mobile health apps in Bangladesh is not satisfactory in general and could be a potential barrier for wider adoption of mobile health services.
翻訳日:2023-05-23 11:41:47 公開日:2020-04-15
# ボース・フェルミ混合物の安定性

Bistability of Bose-Fermi mixtures ( http://arxiv.org/abs/2004.07008v1 )

ライセンス: Link先を確認
Tomasz Karpiuk, Mariusz Gajda, Miros{\l}aw Brewczyk(参考訳) ボース-フェルミ混合物の性質を, 自己結合型量子液滴の状態の到達の観点から検討した。 変分解析は、システムが不安定性を示すことを示している。 平衡状態の1つ、サイズが小さく、球対称で、負のエネルギーを持つボソン間の弱い反発は、常に正のエネルギーを持つ別の粒子は、フェルミオン雲の海に浸された細長い液滴のような状態を表す。 ボソン間のより強い反発のために、分岐は差し押さえられ、前の状態だけが残る。 今やそれは、十分に強いボソンフェルミオンアトラクションのために負のエネルギーを得る、細長い物体を表している。 トラップが放出されるとボース・フェルミ液滴となり、ボース・フェルミ系の量子力学方程式を解くことで示される。 我々の考えを説明するために、理想的な条件下では$^{133}$Cs-$^6$Li混合を考える。

We study the properties of the Bose-Fermi mixture from the perspective of reaching a state of a self-bound quantum droplet. The variational analysis shows that the system exhibits bistability. For weak repulsion between bosons, one of the equilibrium states, smaller in size, spherically symmetric, and with negative energy, corresponds to quantum droplet, the other with always positive energy represents the elongated droplet-like state immersed in the sea of a fermionic cloud. For stronger repulsion between bosons the bifurcation is seized and only the former state is left. Now it represents an elongated object which, for strong enough boson-fermion attraction, gets negative energy. It becomes an excited Bose-Fermi droplet when the trap is released, what is demonstrated by solving the quantum hydrodynamics equations for the Bose-Fermi system. To depict our ideas we consider the $^{133}$Cs-$^6$Li mixture under ideal conditions, i.e. we assume no losses.
翻訳日:2023-05-23 11:40:50 公開日:2020-04-15
# 産業4.0技術が生産・サプライチェーンに与える影響

The impact of Industry 4.0 technologies on production and supply chains ( http://arxiv.org/abs/2004.06983v1 )

ライセンス: Link先を確認
Davood Qorbani, Stefan Groesser(参考訳) 本稿では,先進国(ドイツ,日本,スイスなど)における高度統合型・自律型生産システムの動向について述べる。 問題は、このような生産インフラの移行がいかに効率的に行われるかである。 本研究は,従来の生産システムから高度に統合された生産システム(産業4.0システム)へ,この複雑な移行プロセスに対処するために,システムダイナミクス手法を用いる。 本研究は,産業4.0の観点からのシステム構造の同定を主目的とする。 我々の研究は、業界4.0への移行に対処する因果モデルを示す、この種の最初の研究である。

This paper sheds light on the current development in major industrialized countries (such as Germany, Japan, and Switzerland): the trend towards highly-integrated and autonomous production systems. The question is how such a transition of a production infrastructure can take place most efficiently. This research uses the system dynamics method to address this complex transition process from a legacy production system to a modern and highly integrated production system (an Industry 4.0 system). The findings mainly relate to the identification of system structures that are relevant for an Industry 4.0 perspective. Our research is the first in its kind which presents a causal model that addresses the transition to Industry 4.0.
翻訳日:2023-05-23 11:40:10 公開日:2020-04-15
# 擬球面上の一般系の対称性代数としての一般ラカフ代数

The general Racah algebra as the symmetry algebra of generic systems on pseudo--spheres ( http://arxiv.org/abs/2004.07048v1 )

ライセンス: Link先を確認
S. Kuru, I. Marquette and J. Negro(参考訳) 我々は、一様空間 $so(p,q+1)/so(p,q)$ where $p+q={\cal n}$, ${\cal n}\in\mathbb n$ に対応する擬球面上の一般超可積分系の対称性代数を特徴づける。 この代数は計量の符号 $(p,q+1)$ とは独立であり、ラカフ代数 ${\cal R}({\cal N}+1)$ と同じであることを示す。 ダスカロヤニス法による${\cal R}({\cal N}+1)$から得られるスペクトルは、シグネチャに関連付けられる未決定符号に依存する。 2つの例は、変数の分離によって得られるスペクトルが対称性代数 ${\cal R}(3)$ のスペクトルの特定のシグネチャに対応する符号の特定の選択と一致することを示す場合、$SO(2,1)/SO(2)$ と $SO(3)/SO(2)$ に対して明示的に行われる。

We characterize the symmetry algebra of the generic superintegrable system on a pseudo-sphere corresponding to the homogeneous space $SO(p,q+1)/SO(p,q)$ where $p+q={\cal N}$, ${\cal N}\in\mathbb N$. We show that this algebra is independent of the signature $(p,q+1)$ of the metric and that it is the same as the Racah algebra ${\cal R}({\cal N}+1)$. The spectrum obtained from ${\cal R}({\cal N}+1)$ via the Daskaloyannis method depends on undetermined signs that can be associated to the signatures. Two examples are worked out explicitly for the cases $SO(2,1)/SO(2)$ and $SO(3)/SO(2)$ where it is shown that their spectrum obtained by means of separation of variables coincide with particular choices of the signs corresponding to the specific signatures of the spectrum for the symmetry algebra ${\cal R}(3)$.
翻訳日:2023-05-23 11:29:21 公開日:2020-04-15
# 四面体対称性を持たないユニタリ融合圏に対する一般化文字列ネット

Generalized string-nets for unitary fusion categories without tetrahedral symmetry ( http://arxiv.org/abs/2004.07045v1 )

ライセンス: Link先を確認
Alexander Hahn and Ramona Wolf(参考訳) 弦-網凝縮のレビン-ウェン模型は、物理系の微視的自由度から位相相がどのように出現するかを説明する。 しかし、f$-symbols に対する追加の対称性が課されるため、元の構成はすべてのユニタリ融合圏に適用できない。 特に、いわゆる四面体対称性は多くの興味深いユニタリ融合圏によって満たされない。 本稿では,これらの付加対称性を必要とせず,任意の多重度フリーユニタリ融合圏に対するレビン・ウェンモデルの一般化構成について述べる。 我々は、ハミルトニアンの行列元を明示的に計算し、さらに、元の行列元と同じ性質を持つことを示す。

The Levin-Wen model of string-net condensation explains how topological phases emerge from the microscopic degrees of freedom of a physical system. However, the original construction is not applicable to all unitary fusion category since some additional symmetries for the $F$-symbols are imposed. In particular, the so-called tetrahedral symmetry is not fulfilled by many interesting unitary fusion categories. In this paper, we present a generalized construction of the Levin-Wen model for arbitrary multiplicity-free unitary fusion categories that works without requiring these additional symmetries. We explicitly calculate the matrix elements of the Hamiltonian and, furthermore, show that it has the same properties as the original one.
翻訳日:2023-05-23 11:29:04 公開日:2020-04-15
# オープンソースハードウェアにおけるプラクティスの標準化

Standardisation of practices in Open Source Hardware ( http://arxiv.org/abs/2004.07143v1 )

ライセンス: Link先を確認
J\'er\'emy Bonvoisin, Jenny Molloy, Martin Haeuer, Tobias Wenzel(参考訳) 標準化は技術分野の成熟において重要な要素である。 認識可能なアイデンティティの形成に寄与し、より広いコミュニティとの交流を可能にする。 この記事では、オープンソースハードウェア(OSH)分野における過去および現在の標準化イニシアチブについてレビューする。 初期のイニシアチブはライセンス、知的財産、ドキュメントフォーマットといった側面に焦点を当てていたが、最近の取り組みは、ユーザーがオープンライセンスの下で権利を行使し、oshプロジェクトをオンラインで発見しアクセス可能にする方法に拡張されている。 具体的には、現在リリースされている2つの標準を紹介し、初期ユーザとコントリビューター、din spec 3105とopen know how manifest specificationを求めます。 最後に,コミュニティの標準化に関する課題と,オープンツールチェーンやモジュール性,ハードウェア固有のインターフェース標準など,今後の開発に関連する領域について考察する。

Standardisation is an important component in the maturation of any field of technology. It contributes to the formation of a recognisable identity and enables interactions with a wider community. This article reviews past and current standardisation initiatives in the field of Open Source Hardware (OSH). While early initiatives focused on aspects such as licencing, intellectual property and documentation formats, recent efforts extend to ways for users to exercise their rights under open licences and to keep OSH projects discoverable and accessible online. We specifically introduce two standards that are currently being released and call for early users and contributors, the DIN SPEC 3105 and the Open Know How Manifest Specification. Finally, we reflect on challenges around standardisation in the community and relevant areas for future development such as an open tool chain, modularity and hardware specific interface standards.
翻訳日:2023-05-23 11:13:59 公開日:2020-04-15
# アルゴリズム時代における公正な雇用

Hiring Fairly in the Age of Algorithms ( http://arxiv.org/abs/2004.07132v1 )

ライセンス: Link先を確認
Max Langenkamp, Allan Costa, Chris Cheung(参考訳) 自動化の広範な発展により、人間の入力の必要性は減った。 しかし、機械学習の力の増大にもかかわらず、多くの文脈において、これらのプログラムは問題となる決定を行う。 データと不透明なモデル内のバイアスは人間の偏見を増幅し、Amazon(現在は廃止)の実験的な雇用アルゴリズムのようなツールが出現した。 本稿では,アルゴリズム採用を取り巻く既存の法律・技術状況について批判的に調査する。 雇用アルゴリズムのネガティブな影響は、雇用者から公衆への透明性の向上によって軽減され、市民擁護団体が雇用者に対して責任を負うことができるようになり、またアメリカ合衆国司法省がライトゲートを許可する。 私たちの主な貢献は、自動化された雇用の透明性のためのフレームワーク、アルゴリズムによる透明性レポートです。 また、雇用秘密法における既存の規制を等雇用機会委員会及び議会によってどのように拡張し、これらの報告に対応するかについても説明する。

Widespread developments in automation have reduced the need for human input. However, despite the increased power of machine learning, in many contexts these programs make decisions that are problematic. Biases within data and opaque models have amplified human prejudices, giving rise to such tools as Amazon's (now defunct) experimental hiring algorithm, which was found to consistently downgrade resumes when the word "women's" was added before an activity. This article critically surveys the existing legal and technological landscape surrounding algorithmic hiring. We argue that the negative impact of hiring algorithms can be mitigated by greater transparency from the employers to the public, which would enable civil advocate groups to hold employers accountable, as well as allow the U.S. Department of Justice to litigate. Our main contribution is a framework for automated hiring transparency, algorithmic transparency reports, which employers using automated hiring software would be required to publish by law. We also explain how existing regulations in employment and trade secret law can be extended by the Equal Employment Opportunity Commission and Congress to accommodate these reports.
翻訳日:2023-05-23 11:13:24 公開日:2020-04-15
# 高校生に量子コンピューティングを教える

Teaching Quantum Computing to High School Students ( http://arxiv.org/abs/2004.07206v1 )

ライセンス: Link先を確認
Ciaran Hughes, Joshua Isaacson, Anastasia Perry, Ranbel Sun, Jessica Turner(参考訳) 量子コンピューティング(quantum computing)は、物理学とコンピュータ科学の交わる分野である。 本稿の目的は、15歳から18歳までの高校生を対象とした量子コンピューティングの試行を成功に導くことである。 このコースは、人気のある科学論文と上級学部の教科書のギャップを埋める。 テキストの概念は、インタラクティブな問題セットやシミュレーションベースのラボなど、様々なレベルで活発な学習技術で強化されている。 このコースはCreative Commons "AttributionNonCommercial-ShareAlike 4.0 International"ライセンスで無料で利用可能である。

Quantum computing is a growing field at the intersection of physics and computer science. The goal of this article is to highlight a successfully trialled quantum computing course for high school students between the ages of 15 and 18 years old. This course bridges the gap between popular science articles and advanced undergraduate textbooks. Conceptual ideas in the text are reinforced with active learning techniques, such as interactive problem sets and simulation-based labs at various levels. The course is freely available for use and download under the Creative Commons "Attribution- NonCommercial-ShareAlike 4.0 International" license.
翻訳日:2023-05-23 09:09:19 公開日:2020-04-15
# 非エルミートハミルトニアンを持つ量子系

A quantum system with a non-Hermitian Hamiltonian ( http://arxiv.org/abs/2004.07205v1 )

ライセンス: Link先を確認
Nat\'alia Bebiano, Jo\~ao da Provid\^encia, S.Nishiyama, Jo\~ao P. da Provid\^encia(参考訳) 実固有値を持つ非エルミート作用素の物理学の関連性は、量子力学だけでなく、量子光学、量子流体力学、量子場理論など他の分野でも広く認識されている。 %stochastic processなど。 本稿では,2種類の相互作用ボソンからなる非エルミートハミルトニアンによって記述された量子系について検討する。 ハミルトニアンの真の固有値は、ハミルトニアンとその随伴体の固有関数の完全な直交集合と同様に明示的に決定される。 h$ の対角表現は擬ボソニック作用素を用いて得られる。

The relevance in Physics of non-Hermitian operators with real eigenvalues is being widely recognized not only in quantum mechanics but also in other areas, such as quantum optics, quantum fluid dynamics and quantum field theory. %stochastic processesand so on. In this note, a quantum system described by a non-Hermitian Hamiltonian, which is constituted by two types of interacting bosons, is investigated. The real eigenvalues of the Hamiltonian are explicitly determined, as well as complete biorthogonal sets of eigenfunctions of the Hamiltonian and its adjoint. The diagonal representation of $H$ is obtained using pseudo-bosonic operators.
翻訳日:2023-05-23 09:09:11 公開日:2020-04-15
# スマートヘルスのためのエッジコンピューティング:コンテキスト認識アプローチ、機会、課題

Edge Computing For Smart Health: Context-aware Approaches, Opportunities, and Challenges ( http://arxiv.org/abs/2004.07311v1 )

ライセンス: Link先を確認
Alaa Awad Abdellatif, Amr Mohamed, Carla Fabiana Chiasserini, Mounira Tlili, Aiman Erbad(参考訳) 医療システムの効率性の向上は、世界有数の国家的関心事である。 しかし、患者にスケーラブルな医療サービスを提供し、コストを下げる必要性は、難しい問題である。 スマートヘルスケア(s-health)を実現する最も有望なアプローチは、エッジコンピューティング機能と、リアルタイムで費用対効果の高い患者リモート監視を提供する次世代無線ネットワーク技術である。 本稿では,マルチアクセスエッジコンピューティング(MEC)をSヘルスアプリケーションに適用するビジョンについて述べる。 我々は、MECベースのアーキテクチャを構想し、Sヘルス要件を満たすために、ネットワーク内およびコンテキスト対応処理を実現するための利点について論じる。 次に,このようなアーキテクチャを活用して,効率的なデータ配信を実現するための2つの機能,すなわちマルチモーダルデータ圧縮とイベント検出のためのエッジベースの特徴抽出を提案する。 前者は効率的で低歪み圧縮が可能で、後者は緊急時に高い信頼性と高速な応答を保証する。 最後に、エッジコンピューティングが提供する主な課題と機会、今後の研究の方向性について論じる。

Improving efficiency of healthcare systems is a top national interest worldwide. However, the need of delivering scalable healthcare services to the patients while reducing costs is a challenging issue. Among the most promising approaches for enabling smart healthcare (s-health) are edge-computing capabilities and next-generation wireless networking technologies that can provide real-time and cost-effective patient remote monitoring. In this paper, we present our vision of exploiting multi-access edge computing (MEC) for s-health applications. We envision a MEC-based architecture and discuss the benefits that it can bring to realize in-network and context-aware processing so that the s-health requirements are met. We then present two main functionalities that can be implemented leveraging such an architecture to provide efficient data delivery, namely, multimodal data compression and edge-based feature extraction for event detection. The former allows efficient and low distortion compression, while the latter ensures high-reliability and fast response in case of emergency applications. Finally, we discuss the main challenges and opportunities that edge computing could provide and possible directions for future research.
翻訳日:2023-05-23 09:01:03 公開日:2020-04-15
# qubitプローブによるqubitの保護測定

Protective measurement of a qubit by a qubit probe ( http://arxiv.org/abs/2004.07281v1 )

ライセンス: Link先を確認
Maximilian Schlosshauer(参考訳) プローブとして作用する第2量子ビットによる量子ビットの保護測定について検討する。 このモデルの考察は、トラップイオンのような多ビット系における実験的実装の可能性によって動機付けられている。 本稿では,システムキュービットの任意の観測値の期待値に関する情報を,プローブキュービットの状態の回転に符号化する。 本研究は, この測定結果をもたらすハミルトニアンの構造について述べるとともに, 非無限の計測強度, 繰り返し測定, プローブの非無視可能な固有力学, システムとプローブの量子ビットと環境との相互作用など, 様々な現実的な条件下でのダイナミクスの解析を行う。 イオントラップを用いた実験によるモデルの実現を提案する。 この実験は既存の技術で実施され、量子ゲートとスピン系の量子シミュレーションのためにハミルトンの工学と制御のための確立された実験手法を利用することができる。

We study the protective measurement of a qubit by a second qubit acting as a probe. Consideration of this model is motivated by the possibility of its experimental implementation in multiqubit systems such as trapped ions. In our scheme, information about the expectation value of an arbitrary observable of the system qubit is encoded in the rotation of the state of the probe qubit. We describe the structure of the Hamiltonian that gives rise to this measurement and analyze the resulting dynamics under a variety of realistic conditions, such as noninfinitesimal measurement strengths, repeated measurements, non-negligible intrinsic dynamics of the probe, and interactions of the system and probe qubits with an environment. We propose an experimental realization of our model in an ion trap. The experiment may be performed with existing technology and makes use of established experimental methods for the engineering and control of Hamiltonians for quantum gates and quantum simulations of spin systems.
翻訳日:2023-05-23 09:00:28 公開日:2020-04-15
# 量子相関関数のシミュレーションは量子エンタングルメントを記述するのに十分な資源ではない

Simulation of Quantum Correlation Functions is not Sufficient Resource to Describe Quantum Entanglement ( http://arxiv.org/abs/2004.07278v1 )

ライセンス: Link先を確認
Akbar Fahmi(参考訳) ベルの定理は、量子力学は局所現実論ではなく、しばしば自然の非局所性として解釈される。 この結果は、非局所性と絡み合いが同じ資源であるという考えにつながった。 しかし、この信念は文学において批判的に批判されている。 ここでは、ベル状態の量子相関を古典的通信によって拡張された共有確率変数を用いてシミュレーションするために、ブラザード・クリーブ・タップ(BCT)モデルを用いて非局所性と絡み合いの関係を再検討する。 完全相関関係(反相関関係)に基づいて観測可能な事象を提案することによって、BCTモデルと量子力学を区別するための新しい基準を導出する。 特に,BCTモデルでは,非ゼロ確率0.284の2つの逆入力設定に対して等しい出力が得られることを示す。 したがって、この意味では、BCTモデルが非物理的結果をもたらす可能性があると論じる。 また,BCTモデルの非局所バージョンでも同様の問題を示す。

The Bell theorem expresses that quantum mechanics is not a local-realistic theory, which is often interpreted as nonlocality of the nature. This result has led to this belief that nonlocality and entanglement are the same resources. However, this belief has been critically challenged in the literature. Here, we reexamine the relation between nonlocality and entanglement in light of the Brassard-Cleve-Tapp (BCT) model, which was originally proposed for simulating quantum correlation of Bell's states by using shared random variables augmented by classical communications. We derive a new criterion for distinguishing quantum mechanics from the BCT model through suggesting an observable event based on the perfect correlations (anti-correlations) relation. In particular, we show that in the BCT model one can obtain equal outputs for two opposite input settings with the nonzero probability 0.284. Hence, in this sense we argue that the BCT model can give rise to an unphysical result. We also show the same problem with a nonlocal version of the BCT model.
翻訳日:2023-05-23 08:59:55 公開日:2020-04-15
# 量子ビット周波数誤差にロバストな閉じ込めイオン絡みゲート

Trapped-Ion Entangling Gates Robust Against Qubit Frequency Errors ( http://arxiv.org/abs/2004.07253v1 )

ライセンス: Link先を確認
Jake Lishman, Florian Mintert(参考訳) エンタングリング操作は大規模な量子情報処理に必要なツールであるが、実験的な欠陥は、量子ビットの数が増加するにつれて、現在のスキームが十分な忠実度に達するのを防ぐことができる。 ここでは、標準捕捉イオン絡みゲートのマルチトン一般化が、個々の量子ビットの周波数のノイズやミスセットに対して、同時にロバストにできるかを数値的に示す。 これはトラップ場に必要な均質性の度合いを緩和し、物理的により大きな系をより実用的にする。

Entangling operations are a necessary tool for large-scale quantum information processing, but experimental imperfections can prevent current schemes from reaching sufficient fidelities as the number of qubits is increased. Here it is shown numerically how multi-toned generalizations of standard trapped-ion entangling gates can simultaneously be made robust against noise and mis-sets of the frequencies of the individual qubits. This relaxes the degree of homogeneity required in the trapping field, making physically larger systems more practical.
翻訳日:2023-05-23 08:58:42 公開日:2020-04-15
# 位相層からの非アベリアフラクトンの設計

Designer non-Abelian fractons from topological layers ( http://arxiv.org/abs/2004.07251v1 )

ライセンス: Link先を確認
Dominic J. Williamson, Meng Cheng(参考訳) 我々は,3次元空間次元に積み重ねられた位相的に順序付けられた2次元層の平面サブシステム対称性に基づくタイプIフラクトンモデルの構築を定式化する。 この構成により、2次元対称性エンリッチ位相次数のアーベル対称性群の欠陥はフラクトンへと促進することができる。 これにより、非整数量子次元のキラル境界とフラクトンをサポートするフラクトンモデルを構築することができる。 また, 境界面上の非アベリア面フラクトンを支持する線形モデルも見いだす。

We formulate a construction of type-I fracton models based on gauging planar subsystem symmetries of topologically ordered two dimensional layers that have been stacked in three ambient spatial dimensions. Via our construction, any defect of an Abelian symmetry group in a two dimensional symmetry-enriched topological order can be promoted into a fracton. This allows us to construct fracton models supporting chiral boundaries and fractons of noninteger quantum dimension. We also find a lineon model supporting non-Abelian surface fractons on its boundary.
翻訳日:2023-05-23 08:58:31 公開日:2020-04-15
# データ駆動ネットワーク分析を用いた急性冠症候群患者の医療提供における病院部門連携の検討

Investigating Coordination of Hospital Departments in Delivering Healthcare for Acute Coronary Syndrome Patients using Data-Driven Network Analysis ( http://arxiv.org/abs/2004.09290v1 )

ライセンス: Link先を確認
Tesfamariam M Abuhay, Yemisrach G Getinet, Oleg G Metsker, Alexey N Yakovlev and Sergey V Kovalchuk(参考訳) 医療システムは高品質で効率的な医療を提供することが課題である。 病院における患者フローの研究は, 病院の有効性と効率性を示すため, 特に重要である。 病院は1つの管理下で物理的に近接するサービスのコレクションであるため、その性能と成果は個々のコンポーネントの相互作用によって形成される。 病院の組織構造の異なるレベルでのプロセスの調整は、ネットワーク分析を用いて研究できる。 そこで本論文では,データ駆動型静的ネットワークと時間的ネットワークについて述べる。 どちらのネットワークも指示され、重み付けされ、24902人の急性冠症候群(acs)患者の7年間(2010-2016)の経験データを用いて構築される。 ACS患者が病院の部署から部署へ転院するエピソードを反映している。 体重は部署間で転院した患者数を表す。 その結果、ACS患者に医療を提供する部門ネットワークの基盤構造について述べ、ACS患者の診断・治療過程における主要な部門とそれらの役割を特定し、7年以上にわたる部門の役割を分析し、各部門のコミュニティを明らかにする。 本研究は, 病院行政が, その意義, 戦略的位置, 診断・治療プロセスにおける役割に基づいて, 価値ベース医療と精密医療を育成し, 効果的に連携し, 管理する上で有効であると考えられる。

Healthcare systems are challenged to deliver high-quality and efficient care. Studying patient flow in a hospital is particularly fundamental as it demonstrates effectiveness and efficiency of a hospital. Since hospital is a collection of physically nearby services under one administration, its performance and outcome are shaped by the interaction of its discrete components. Coordination of processes at different levels of organizational structure of a hospital can be studied using network analysis. Hence, this article presents a data-driven static and temporal network of departments. Both networks are directed and weighted and constructed using seven years' (2010-2016) empirical data of 24902 Acute Coronary Syndrome (ACS) patients. The ties reflect an episode-based transfer of ACS patients from department to department in a hospital. The weight represents the number of patients transferred among departments. As a result, the underlying structure of a network of departments that deliver healthcare for ACS patients is described, the main departments and their role in the diagnosis and treatment process of ACS patients are identified, the role of departments over seven years is analyzed and communities of departments are discovered. The results of this study may help hospital administration to effectively organize and manage the coordination of departments based on their significance, strategic positioning and role in the diagnosis and treatment process which, in turn, nurtures value-based and precision healthcare.
翻訳日:2023-05-23 08:51:50 公開日:2020-04-15
# 粒子準物理学を超えた量子個性のジレンマ

The Dilemma of Quantum Individuality Beyond Particle Metaphysics ( http://arxiv.org/abs/2004.07816v1 )

ライセンス: Link先を確認
Christian de Ronde, Raimundo Fern\'andez Mouj\'an(参考訳) 量子力学は、素粒子からなる微視的な領域に言及する、という主張が一般的である。 しかし、erwin schr\"odingerによって初めて発見されたように、これらの量子粒子が実際に何であるのかははっきりしない。 専門文献によれば、これらの微視的実体がそれぞれ独自の同一性を持っているかどうかも明確ではない。 最近では、ジョナス・アレンハート(Jonas Arenhart)がジレンマ(Dilemma)という用語で量子オブジェクトの区別を提案した。 本研究では,量子オブジェクトの存在に関する強い前提条件について,qmにおける個性問題の基礎となる arehart のジレンマにおける(メタフィジカルな)前提条件に対処しようとする。 物理学においてメタ物理が果たす役割を再考した後、我々は、粒子のメタ物理を超えたジレンマの完全な再定義だけでなく、量子論の不変目的表現を発展させようとする新しい(古典的でない)概念の枠組みを基礎とした現実主義的な解決法を提案する。

It is commonly claimed that quantum mechanics makes reference to a microscopic realm constituted by elementary particles. However, as first famously noticed by Erwin Schr\"odinger, it is not at all clear what these quantum particles really are. According to the specialized literature, it is not even clear if each of these microscopic entities possess their own identity. Recently, Jonas Arenhart proposed a distinction of quantum objects in terms of a dilemma which forces a choice between their characterization either as individuals or as non-individuals. In this work we attempt to address the (metaphysical) presuppositions involved within Arenhart's dilemma which ground the question of individuality in QM on a strong presupposition regarding the existence of quantum objects. After providing a reconsideration of the role played by metaphysics within physics we attempt to propose, not only a complete redefinition of the dilemma beyond particle metaphysics, but also a possible realist solution grounded on the provision of a new (non-classical) conceptual framework which seeks to develop an invariant-objective representation of the theory of quanta.
翻訳日:2023-05-23 08:50:58 公開日:2020-04-15
# 使用可能、許容可能、適用可能: 実用可能なプライバシーに向けて

Usable, Acceptable, Appropriable: Towards Practicable Privacy ( http://arxiv.org/abs/2004.07359v1 )

ライセンス: Link先を確認
Aakash Gautam(参考訳) デジタルプライバシーとセキュリティに関する研究の大半は、世界の人口の約20%を占める先進国からのユーザーに焦点を当てている。 さらに、すでに疎外化され脆弱な人口に対するプライバシーの必要性は、より大きなソーシャルサポートシステムにアクセスする特権を持つユーザとは異なる。 ネパールのセクハラ被害者グループにコンピュータとインターネットを導入した経験を振り返り、デジタルプライバシに関するデザイン空間に影響を与えたいくつかの社会的政治的要因を強調します。 これらの要因には、人口のデジタルリテラシーとテキストリテラシーのスキルの制限、ネパール社会で広く普及している人身売買者に対するスティグマの恐れが含まれる。 我々は,(1)利用可能,(2)許容,(3)適用可能なプライバシプラクティスという,実用可能なプライバシを重視して,私たちの視点を広げる必要性を強調する。

A majority of the work on digital privacy and security has focused on users from developed countries who account for only around 20\% of the global population. Moreover, the privacy needs for population that is already marginalized and vulnerable differ from users who have privilege to access a greater social support system. We reflect on our experiences of introducing computers and the Internet to a group of sex-trafficking survivors in Nepal and highlight a few socio-political factors that have influenced the design space around digital privacy. These factors include the population's limited digital and text literacy skills and the fear of stigma against trafficked persons widely prevalent in Nepali society. We underscore the need to widen our perspective by focusing on practicable privacy, that is, privacy practices that are (1) usable, (2) acceptable, and (3) appropriable.
翻訳日:2023-05-23 08:49:51 公開日:2020-04-15
# 磁気共鳴系のホール粘度モデリング

Modeling Hall viscosity in magnetic-skyrmion systems ( http://arxiv.org/abs/2004.07326v1 )

ライセンス: Link先を確認
Bom Soo Kim(参考訳) 磁気スキャミオンは位相的に安定な物体であり、滑らかに配列されたスピンの束で作られる。 そのトポロジカルな性質は、スカイミオンホール効果のような異常で複雑な輸送特性をもたらす。 広範ホールデータは、既知のメカニズムでは説明できないスカイミオンと反スケミオンホールの角度の間の非対称性をさらに明らかにしている。 ここでは、量子ホール系で広く研究されている「ホール粘性」と呼ばれる別の普遍輸送係数を用いて、この非対称性を説明する。 ホール粘度は、ティエレ方程式を横速度成分で一般化し、スキャミオン電荷とは独立な定常スキャミオン運動でモデル化される。 非対称ホールアングルデータに基づく解析の結果、スキャミオンホール効果により、この横力の3-%から5.4-%の力が得られた。 ホール粘度のさらなる解明は、自然の基本的な性質の深い理解だけでなく、次世代のストレージデバイスを適切に設計するためにも不可欠である。

Magnetic skyrmions are topologically stable objects that are made with a bunch of spins tightly arranged in a smooth fashion. Their topological nature provides unusual and complex transport properties, such as the skyrmion Hall effect. Extensive Hall data have further revealed asymmetry between skyrmion and antiskyrmion Hall angles, which cannot be accounted by known mechanisms. Here, we explain this asymmetry by utilizing another universal transport coefficient called `Hall viscosity,' extensively studied in quantum Hall systems. Hall viscosity is modeled in steady-state skyrmions motion by generalizing the Thiele equation with a transverse velocity component and is independent of the skyrmion charge. Our analyses, based on available asymmetric Hall angle data, reveal this transverse force amounts 3\% - 5.4\% of the force due to the skyrmion Hall effect. Further clarification of Hall viscosity will be essential for designing next generation storage devices properly, not to mention for our deeper understanding of fundamental properties of nature.
翻訳日:2023-05-23 08:49:35 公開日:2020-04-15
# 光渦と四重極活性遷移の相互作用における原子トラップとダイナミクス

Atom trapping and dynamics in the interaction of optical vortices with quadrupole-active transitions ( http://arxiv.org/abs/2001.03193v2 )

ライセンス: Link先を確認
Smail Bougouffa and Mohamed Babiker(参考訳) 近年の研究では、Laguerre-GaussianモードやBessel-Gaussianモードのような光学渦が四重極活性原子遷移に結合していることが確認されている。 この相互作用は、勾配結合によるラゲール・ガウシアンビームの場合、特に比較的大きな巻線数の場合、かなり強化されていることが示されている。 ここでは,2つの同軸対向光渦ビームによって発生する光四極子ポテンシャルにおける原子のトラップとダイナミクスについて考察する。 原子遷移は6^2S_{1/2}\rightarrow 5^2D_{5/2}$であり、これは双極子禁止であるが四重極子許容遷移である。 この原子遷移が、ほぼ共鳴の光渦場とどのように関係し、翻訳運動を伴う光四極子ポテンシャルの原子トラップに繋がるかを示す。 光力によって四重極ポテンシャル内に閉じ込められた原子の運動が生成され、実験で利用できる典型的なパラメータを用いてその結果が説明される。

Recent studies have confirmed the coupling of optical vortices, such as Laguerre-Gaussian and Bessel-Gaussian modes, to quadrupole-active atomic transitions. This interaction has been shown to be enhanced considerably in the case of Laguerre-Gaussian beams due to the gradient coupling, particularly in the case of a relatively large winding number. Here we consider the trapping and the dynamics of atoms in the optical quadrupole potential generated by two co-axial counter-propagating optical vortex beams. We focus on the atomic transition $6^2S_{1/2}\rightarrow 5^2D_{5/2}$ in Cs which is a dipole-forbidden, but a quadrupole-allowed transition. We show how this atomic transition engages with the optical vortex fields at near-resonance, leading to atom trapping in the optical quadrupole potential well accompanied by translational motion. We show how the optical forces generate the motion of the atoms trapped within the quadrupole potential, illustrating the results using typical experimentally accessible parameters.
翻訳日:2023-01-13 05:33:10 公開日:2020-04-15
# 非定常クラス不均衡下におけるモデル評価について

On Model Evaluation under Non-constant Class Imbalance ( http://arxiv.org/abs/2001.05571v2 )

ライセンス: Link先を確認
Jan Brabec, Tom\'a\v{s} Kom\'arek, Vojt\v{e}ch Franc, Luk\'a\v{s} Machlica(参考訳) 多くの現実世界の分類問題は、興味のクラスを損なうために著しくクラス不均衡である。 適切な評価指標の標準セットはよく知られているが、通常の仮定では、テストデータセットの不均衡は実世界の不均衡と等しい。 実際には、この仮定は様々な理由でしばしば破られる。 報告された結果は楽観的すぎることが多く、提案手法の産業的影響と適合性に関する誤った結論につながる可能性がある。 非定常クラス不均衡下における評価に着目した手法を提案する。 その結果, 一般的な測定値の絶対値だけでなく, 評価指標に関連した分類器の順序も不均衡率の変化に影響していることがわかった。 最後に,ワイルドで観測されたデータと同等のクラス不均衡を持つテストデータセットを取得するためにサブサンプリングを使用することは不要であり,最終的に分類器の性能推定に重大な誤りをもたらす可能性があることを実証する。

Many real-world classification problems are significantly class-imbalanced to detriment of the class of interest. The standard set of proper evaluation metrics is well-known but the usual assumption is that the test dataset imbalance equals the real-world imbalance. In practice, this assumption is often broken for various reasons. The reported results are then often too optimistic and may lead to wrong conclusions about industrial impact and suitability of proposed techniques. We introduce methods focusing on evaluation under non-constant class imbalance. We show that not only the absolute values of commonly used metrics, but even the order of classifiers in relation to the evaluation metric used is affected by the change of the imbalance rate. Finally, we demonstrate that using subsampling in order to get a test dataset with class imbalance equal to the one observed in the wild is not necessary, and eventually can lead to significant errors in classifier's performance estimate.
翻訳日:2023-01-11 05:56:01 公開日:2020-04-15
# PDANet: 正確なクラウドカウントのためのピラミッド密度認識アテンションネット

PDANet: Pyramid Density-aware Attention Net for Accurate Crowd Counting ( http://arxiv.org/abs/2001.05643v10 )

ライセンス: Link先を確認
Saeed Amirgholipour, Xiangjian He, Wenjing Jia, Dadong Wang, and Lei Liu(参考訳) 群衆の数え方、すなわち混雑した地域の人々の数を推定することは、研究コミュニティに大きな関心を集めている。 多くの試みが報告されているが、興味のあるエリア内の群衆密度の広範囲な変動と、群衆の激しい閉塞のために、群衆の数え上げはオープンな現実の問題のままである。 本稿では,注意度,ピラミッドスケール,および2つの分岐デコーダモジュールを利用した,pdanetと略される新しいピラミッド密度認識アテンションベースネットワークを提案する。 PDANetはこれらのモジュールを使用して、異なるスケールの特徴を抽出し、関連する情報に集中し、誤解を招くものを抑制する。 また,専用密度認識デコーダ(DAD)を用いて,画像間の密集度の変化に対処する。 この目的のために、分類器は入力特徴の密度レベルを評価し、対応する高密度かつ低密度のDADモジュールに渡す。 最後に,空間的注意として低密度・高密度マップの総和を考慮し,全体密度マップを生成する。 一方,入力シーンの正確な密度マップを作成するのに2つの損失を用いる。 難解なベンチマークデータセットで行った広範な評価は、よく知られた芸術の状況に対するカウントと生成密度マップの精度の観点から、提案するpdanetの優れた性能を示している。

Crowd counting, i.e., estimating the number of people in a crowded area, has attracted much interest in the research community. Although many attempts have been reported, crowd counting remains an open real-world problem due to the vast scale variations in crowd density within the interested area, and severe occlusion among the crowd. In this paper, we propose a novel Pyramid Density-Aware Attention-based network, abbreviated as PDANet, that leverages the attention, pyramid scale feature and two branch decoder modules for density-aware crowd counting. The PDANet utilizes these modules to extract different scale features, focus on the relevant information, and suppress the misleading ones. We also address the variation of crowdedness levels among different images with an exclusive Density-Aware Decoder (DAD). For this purpose, a classifier evaluates the density level of the input features and then passes them to the corresponding high and low crowded DAD modules. Finally, we generate an overall density map by considering the summation of low and high crowded density maps as spatial attention. Meanwhile, we employ two losses to create a precise density map for the input scene. Extensive evaluations conducted on the challenging benchmark datasets well demonstrate the superior performance of the proposed PDANet in terms of the accuracy of counting and generated density maps over the well-known state of the arts.
翻訳日:2023-01-10 23:44:18 公開日:2020-04-15
# 連続可変量子通信のための実験的受動状態準備

Experimental passive state preparation for continuous variable quantum communications ( http://arxiv.org/abs/2001.06417v2 )

ライセンス: Link先を確認
Bing Qi, Hyrum Gunther, Philip G. Evans, Brian P. Williams, Ryan M. Camacho, and Nicholas A. Peters(参考訳) ガウス変調コヒーレント状態量子鍵分布(QKD)プロトコルにおいて、送信者はまずガウス分布乱数を生成し、振幅変調と位相変調によって弱いレーザーパルスに積極的に符号化する。 近年、熱源(B. Qi, P. G. Evans, W. P. Grice, Phys. A 97, 012317 (2018))の固有磁場変動を探索し、等価な受動QKDスキームを提案した。 このパッシブQKD方式は、アクティブな変調を必要としないため、チップスケールの実装に特に魅力的である。 本稿では,連続波モードで動作する既設増幅自然放出源を用いた受動符号化QKD方式の実験的検討を行う。 その結果, 受動状態調整方式によって生じる余剰ノイズは, 光減衰を施すことで効果的に抑制でき, 安全な鍵をメトロエリア距離で生成できることが示唆された。

In the Gaussian-modulated coherent state quantum key distribution (QKD) protocol, the sender first generates Gaussian distributed random numbers and then encodes them on weak laser pulses actively by performing amplitude and phase modulations. Recently, an equivalent passive QKD scheme was proposed by exploring the intrinsic field fluctuations of a thermal source [B. Qi, P. G. Evans, and W. P. Grice, Phys. Rev. A 97, 012317 (2018)]. This passive QKD scheme is especially appealing for chip-scale implementation since no active modulations are required. In this paper, we conduct an experimental study of the passively encoded QKD scheme using an off-the-shelf amplified spontaneous emission source operated in continuous-wave mode. Our results show that the excess noise introduced by the passive state preparation scheme can be effectively suppressed by applying optical attenuation and secure key could be generated over metro-area distances.
翻訳日:2023-01-10 12:44:50 公開日:2020-04-15
# ABAW 2020第1回大会における影響行動の分析

Analysing Affective Behavior in the First ABAW 2020 Competition ( http://arxiv.org/abs/2001.11409v2 )

ライセンス: Link先を確認
Dimitrios Kollias, Attila Schulc, Elnar Hajiyev and Stefanos Zafeiriou(参考訳) 感情行動分析 in-the-wild (abaw) 2020 コンペティションは、ヴァレンス覚醒推定、基本表現認識、行動単位検出の3つの主要な行動課題の自動分析を目的とした最初のコンペティションである。 3つのチャレンジに分かれ、それぞれがそれぞれの行動タスクに対処します。 課題については、一般的なベンチマークデータベースであるaf-wild2を提供し、これは大規模なインザ・ワイルドデータベースであり、最初のベンチマークデータベースはこれら3つのタスクすべてにアノテートされています。 本稿では,アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるコンペティションについて述べる。 本稿では,活用コンペティションコーパスを用いた3つのチャレンジを紹介する。 評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。 コンペティションに関するより詳細な情報は、各チャレンジのリーダーボードと利用データベースへのアクセスの詳細が、コンペティションサイトで提供されている。

The Affective Behavior Analysis in-the-wild (ABAW) 2020 Competition is the first Competition aiming at automatic analysis of the three main behavior tasks of valence-arousal estimation, basic expression recognition and action unit detection. It is split into three Challenges, each one addressing a respective behavior task. For the Challenges, we provide a common benchmark database, Aff-Wild2, which is a large scale in-the-wild database and the first one annotated for all these three tasks. In this paper, we describe this Competition, to be held in conjunction with the IEEE Conference on Face and Gesture Recognition, May 2020, in Buenos Aires, Argentina. We present the three Challenges, with the utilized Competition corpora. We outline the evaluation metrics, present both the baseline system and the top-3 performing teams' methodologies per Challenge and finally present their obtained results. More information regarding the Competition, the leaderboard of each Challenge and details for accessing the utilized database, are provided in the Competition site: http://ibug.doc.ic.ac.uk/resources/fg-2020-competition-affective-behavior-analysis.
翻訳日:2023-01-05 11:45:52 公開日:2020-04-15
# BADGR:自律的自己監督型学習ベースナビゲーションシステム

BADGR: An Autonomous Self-Supervised Learning-Based Navigation System ( http://arxiv.org/abs/2002.05700v2 )

ライセンス: Link先を確認
Gregory Kahn, Pieter Abbeel, Sergey Levine(参考訳) 移動ロボットのナビゲーションは一般的に幾何学的な問題と見なされ、ロボットの目的は、望ましい目標に向かって衝突のない経路を計画するために環境の幾何学を知覚することである。 しかし、純粋に幾何学的な世界観は多くのナビゲーション問題に対して不十分である可能性がある。 例えば、幾何学に基づいてナビゲートするロボットは、横断不可能であると信じており、目的を達成することができないため、背の高い草のフィールドを避ける可能性がある。 本研究では,これらの純粋幾何学的アプローチを乗り越える方法について,経験から物理的なナビゲーション能力を学ぶ手法を用いて検討する。 badgrと呼ばれるこのアプローチは、エンド・ツー・エンドの学習ベースのモバイルロボットナビゲーションシステムで、シミュレーションや人間の監督なしに、現実世界の環境で収集された自己監視オフポリシーデータを訓練することができる。 BADGRは、幾何学的に障害物を逸らすことなく、現実世界の都市やオフロード環境をナビゲートすることができる。 また、地形の好みを取り入れ、新しい環境に一般化し、より多くのデータを集めることで自律的に改善を続けることもできる。 ビデオ、コード、その他の補足資料は、我々のWebサイトhttps://sites.google.com/view/badgrで入手できる。

Mobile robot navigation is typically regarded as a geometric problem, in which the robot's objective is to perceive the geometry of the environment in order to plan collision-free paths towards a desired goal. However, a purely geometric view of the world can can be insufficient for many navigation problems. For example, a robot navigating based on geometry may avoid a field of tall grass because it believes it is untraversable, and will therefore fail to reach its desired goal. In this work, we investigate how to move beyond these purely geometric-based approaches using a method that learns about physical navigational affordances from experience. Our approach, which we call BADGR, is an end-to-end learning-based mobile robot navigation system that can be trained with self-supervised off-policy data gathered in real-world environments, without any simulation or human supervision. BADGR can navigate in real-world urban and off-road environments with geometrically distracting obstacles. It can also incorporate terrain preferences, generalize to novel environments, and continue to improve autonomously by gathering more data. Videos, code, and other supplemental material are available on our website https://sites.google.com/view/badgr
翻訳日:2023-01-01 10:10:47 公開日:2020-04-15
# 自己スーパービジョンを用いた道路シーンの方向性ソフトレーン予測モデル学習

Learning a Directional Soft Lane Affordance Model for Road Scenes Using Self-Supervision ( http://arxiv.org/abs/2002.11477v2 )

ライセンス: Link先を確認
Robin Karlsson, Erik Sjoberg(参考訳) 人間は複雑な環境を組織的かつ柔軟な方法でナビゲートし、文脈や暗黙の社会ルールに適応する。 これらの自然に学習された行動パターンを理解することは、自動運転車のような応用に不可欠である。 しかし、人間の行動の暗黙の規則をアルゴリズムで定義することは依然として困難である。 そこで本研究では, 確率的ネットワークモデルを学習し, 移動方向推定のマルチモーダル表現だけでなく, 運転する可能性が最も高い地域を推定する新しい自己教師あり手法を提案する。 モデルは、運転環境の表現に基づいて、個々の人間の軌跡に基づいて訓練される。 このモデルは、新しい道路シーンへの一般化に成功し、明示的な交通規則によって不十分に扱われる困難または曖昧なシナリオにおいて、社会的に許容される運転行動の先駆けとして現実世界の応用の可能性を示す。

Humans navigate complex environments in an organized yet flexible manner, adapting to the context and implicit social rules. Understanding these naturally learned patterns of behavior is essential for applications such as autonomous vehicles. However, algorithmically defining these implicit rules of human behavior remains difficult. This work proposes a novel self-supervised method for training a probabilistic network model to estimate the regions humans are most likely to drive in as well as a multimodal representation of the inferred direction of travel at each point. The model is trained on individual human trajectories conditioned on a representation of the driving environment. The model is shown to successfully generalize to new road scenes, demonstrating potential for real-world application as a prior for socially acceptable driving behavior in challenging or ambiguous scenarios which are poorly handled by explicit traffic rules.
翻訳日:2022-12-31 11:49:36 公開日:2020-04-15
# エンベッドスペースのアライメントは難しいタスクか? 不均質埋め込みアライメント法に関する研究

Is Aligning Embedding Spaces a Challenging Task? A Study on Heterogeneous Embedding Alignment Methods ( http://arxiv.org/abs/2002.09247v2 )

ライセンス: Link先を確認
Russa Biswas, Mehwish Alam, and Harald Sack(参考訳) 単語と知識グラフ(kg)の低次元ベクトル空間への表現学習とその実世界のシナリオへの応用が最近勢いを増している。 質問応答、名前付きエンティティの曖昧さ、知識グラフ補完など、知識駆動型アプリケーションに複数のKG埋め込みを利用するためには、異なるKG埋め込み空間のアライメントが必要である。 多言語性やドメイン固有情報に加えて、異なるKGは構造的差異の問題を引き起こし、KG埋め込みのアライメントがより困難になる。 本稿では、エンティティ・エンティリティとエンティティ・ワードを表す2つの埋め込み空間間の最先端アライメント手法の理論解析と比較を行う。 本稿は,既存のアライメント手法の様々なアプリケーションの序文における能力と短所を評価することを目的とした。

Representation Learning of words and Knowledge Graphs (KG) into low dimensional vector spaces along with its applications to many real-world scenarios have recently gained momentum. In order to make use of multiple KG embeddings for knowledge-driven applications such as question answering, named entity disambiguation, knowledge graph completion, etc., alignment of different KG embedding spaces is necessary. In addition to multilinguality and domain-specific information, different KGs pose the problem of structural differences making the alignment of the KG embeddings more challenging. This paper provides a theoretical analysis and comparison of the state-of-the-art alignment methods between two embedding spaces representing entity-entity and entity-word. This paper also aims at assessing the capability and short-comings of the existing alignment methods on the pretext of different applications.
翻訳日:2022-12-30 00:07:18 公開日:2020-04-15
# 3次元形状再構成と完成のための特徴空間のインプシット関数

Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion ( http://arxiv.org/abs/2003.01456v2 )

ライセンス: Link先を確認
Julian Chibane, Thiemo Alldieck, Gerard Pons-Moll(参考訳) 画像からの3次元復元に多くの研究が集中しているが,本稿では,低分解能・高分解能ボクセル,疎密点雲,完全・不完全といった,様々な3次元入力からの3次元形状復元と完成に焦点をあてる。 このような3d入力の処理は、3dスキャナの出力がよりアクセスしやすくなり、3dコンピュータビジョンアルゴリズムの中間出力となるため、ますます重要な問題となっている。 近年,学習された暗黙関数は,連続的な再構築を実現する上で大きな期待が持たれている。 しかし,3次元入力からの復元には2つの限界があった。 1)入力データに含まれている詳細は保持されず、かつ 2)ヒトの関節再建は不良であった。 そこで本研究では,連続的な出力を処理し,複数のトポロジを処理可能な暗黙的特徴ネットワーク (if-nets) を提案する。 私たちの仕事は2つの重要な点で以前の仕事と異なる。 まず,1つのベクトルを用いて3次元形状を符号化する代わりに,その形状を埋め込んだユークリッド空間と整合した深部特徴の学習可能な3次元多次元テンソルを抽出する。 第2に、x-y-z点座標を直接分類するのではなく、テンソルから抽出した深い特徴を連続的なクエリポイントで分類する。 これは、ユークリッド変換の下で任意の点座標に対して、我々のモデルが大域的および局所的な形状構造に基づいて決定を迫ることを示している。 実験により、IF-NetはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人体再構成が得られることが示された。

While many works focus on 3D reconstruction from images, in this paper, we focus on 3D shape reconstruction and completion from a variety of 3D inputs, which are deficient in some respect: low and high resolution voxels, sparse and dense point clouds, complete or incomplete. Processing of such 3D inputs is an increasingly important problem as they are the output of 3D scanners, which are becoming more accessible, and are the intermediate output of 3D computer vision algorithms. Recently, learned implicit functions have shown great promise as they produce continuous reconstructions. However, we identified two limitations in reconstruction from 3D inputs: 1) details present in the input data are not retained, and 2) poor reconstruction of articulated humans. To solve this, we propose Implicit Feature Networks (IF-Nets), which deliver continuous outputs, can handle multiple topologies, and complete shapes for missing or sparse input data retaining the nice properties of recent learned implicit functions, but critically they can also retain detail when it is present in the input data, and can reconstruct articulated humans. Our work differs from prior work in two crucial aspects. First, instead of using a single vector to encode a 3D shape, we extract a learnable 3-dimensional multi-scale tensor of deep features, which is aligned with the original Euclidean space embedding the shape. Second, instead of classifying x-y-z point coordinates directly, we classify deep features extracted from the tensor at a continuous query point. We show that this forces our model to make decisions based on global and local shape structure, as opposed to point coordinates, which are arbitrary under Euclidean transformations. Experiments demonstrate that IF-Nets clearly outperform prior work in 3D object reconstruction in ShapeNet, and obtain significantly more accurate 3D human reconstructions.
翻訳日:2022-12-26 22:16:50 公開日:2020-04-15
# 暗黙の談話関係分類のための教師なし反転領域適応

Unsupervised Adversarial Domain Adaptation for Implicit Discourse Relation Classification ( http://arxiv.org/abs/2003.02244v2 )

ライセンス: Link先を確認
Hsin-Ping Huang, Junyi Jessy Li(参考訳) 暗黙的な談話の関係は、それらの明示的な関係よりも分類が難しいだけでなく、注釈も難しい。 暗黙関係のためのトレーニングデータが不足している状況に対処し、明示的関係からドメイン適応を活用する(Ji et al., 2015)。 本稿では、再構成コンポーネントを備えた教師なし対向ドメイン適応ネットワークを提案する。 我々のシステムは、教師なしドメイン適応のための先行研究やその他の敵ベンチマークよりも優れています。 さらに、利用可能であればラベル付きデータを活用できるようにシステムを拡張します。

Implicit discourse relations are not only more challenging to classify, but also to annotate, than their explicit counterparts. We tackle situations where training data for implicit relations are lacking, and exploit domain adaptation from explicit relations (Ji et al., 2015). We present an unsupervised adversarial domain adaptive network equipped with a reconstruction component. Our system outperforms prior works and other adversarial benchmarks for unsupervised domain adaptation. Additionally, we extend our system to take advantage of labeled data if some are available.
翻訳日:2022-12-26 13:08:45 公開日:2020-04-15
# 遠隔または弱い監督を伴うcord-19の包括的名前付きエンティティ認識

Comprehensive Named Entity Recognition on CORD-19 with Distant or Weak Supervision ( http://arxiv.org/abs/2003.12218v5 )

ライセンス: Link先を確認
Xuan Wang, Xiangchen Song, Bangzheng Li, Yingjun Guan, Jiawei Han(参考訳) 我々はこのCORD-NERデータセットを、COVID-19 Open Research Dataset Challenge (CORD-19) コーパス (2020-03-13。 CORD-NERデータセットは75種類の微細な実体型をカバーしている: 一般的な生物医学的な実体型(遺伝子、化学物質、疾患など)に加えて、新型コロナウイルス研究(例えば、ウイルス、ウイルスタンパク質、進化、物質、基質、免疫反応)に関連する多くの新しい実体タイプをカバーし、新型コロナウイルス関連ウイルス、拡散機構、ワクチンの研究に有用である。 CORD-NERアノテーションは4つのソースと異なるNERメソッドの組み合わせである。 CORD-NERアノテーションの品質は、完全に管理されたBioNERツールであるSciSpacy(文書のサンプルセットに基づいてF1スコアよりも10%以上高い)を上回っている。 さらに、CORD-NERはインクリメンタルに新しいドキュメントの追加をサポートし、入力例に数十の種を追加することで、必要に応じて新しいエンティティタイプを追加する。 我々は,CORD-19コーパスの増分更新とシステムの改良に基づき,常にCORD-NERを更新する。

We created this CORD-NER dataset with comprehensive named entity recognition (NER) on the COVID-19 Open Research Dataset Challenge (CORD-19) corpus (2020-03-13). This CORD-NER dataset covers 75 fine-grained entity types: In addition to the common biomedical entity types (e.g., genes, chemicals and diseases), it covers many new entity types related explicitly to the COVID-19 studies (e.g., coronaviruses, viral proteins, evolution, materials, substrates and immune responses), which may benefit research on COVID-19 related virus, spreading mechanisms, and potential vaccines. CORD-NER annotation is a combination of four sources with different NER methods. The quality of CORD-NER annotation surpasses SciSpacy (over 10% higher on the F1 score based on a sample set of documents), a fully supervised BioNER tool. Moreover, CORD-NER supports incrementally adding new documents as well as adding new entity types when needed by adding dozens of seeds as the input examples. We will constantly update CORD-NER based on the incremental updates of the CORD-19 corpus and the improvement of our system.
翻訳日:2022-12-19 04:26:40 公開日:2020-04-15
# 物体運動予測による将来の映像合成

Future Video Synthesis with Object Motion Prediction ( http://arxiv.org/abs/2004.00542v2 )

ライセンス: Link先を確認
Yue Wu, Rongrong Gao, Jaesik Park, Qifeng Chen(参考訳) 本稿では,過去の連続的な映像フレームの系列から,将来の映像フレームを予測する手法を提案する。 画像を直接合成する代わりに、背景シーンと動くオブジェクトを分離することで複雑なシーンのダイナミクスを理解するように設計されている。 未来におけるシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。 予想された外観が組み合わさって、将来の妥当なビデオが作られる。 この方法では, 他の手法に比べ, 破断や歪みのアーチファクトがはるかに少ない。 CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。

We present an approach to predict future video frames given a sequence of continuous video frames in the past. Instead of synthesizing images directly, our approach is designed to understand the complex scene dynamics by decoupling the background scene and moving objects. The appearance of the scene components in the future is predicted by non-rigid deformation of the background and affine transformation of moving objects. The anticipated appearances are combined to create a reasonable video in the future. With this procedure, our method exhibits much less tearing or distortion artifact compared to other approaches. Experimental results on the Cityscapes and KITTI datasets show that our model outperforms the state-of-the-art in terms of visual quality and accuracy.
翻訳日:2022-12-17 19:02:56 公開日:2020-04-15
# 冗長性文脈における逐次的特徴分類

Sequential Feature Classification in the Context of Redundancies ( http://arxiv.org/abs/2004.00658v2 )

ライセンス: Link先を確認
Lukas Pfannschmidt, Barbara Hammer(参考訳) 全関連特徴選択の問題は、保存された冗長性のある関連する特徴を見つけることである。 この問題を解決するための近似はいくつか存在するが、強い関係と弱い関係を区別できるのは1つだけである。 このアプローチは線形問題の場合に限定された。 本研究では,ランダムフォレストモデルと統計的手法を用いて,非線形の場合におけるこの区別に対する新しい解を提案する。

The problem of all-relevant feature selection is concerned with finding a relevant feature set with preserved redundancies. There exist several approximations to solve this problem but only one could give a distinction between strong and weak relevance. This approach was limited to the case of linear problems. In this work, we present a new solution for this distinction in the non-linear case through the use of random forest models and statistical methods.
翻訳日:2022-12-17 18:09:40 公開日:2020-04-15
# 一貫性多重シーケンス復号法

Consistent Multiple Sequence Decoding ( http://arxiv.org/abs/2004.00760v2 )

ライセンス: Link先を確認
Bicheng Xu, Leonid Sigal(参考訳) シーケンスデコーディングは、ほとんどの視覚言語モデルのコアコンポーネントの1つである。 しかし、典型的なニューラルデコーダは、複数の、おそらく相関関係のあるトークンのシーケンスをデコードする場合、単純な独立デコードスキームに依存する。 本稿では,比較的単純ながら汎用的で,任意の数のシーケンスを一貫した同時復号化が可能な,一貫した多重シーケンス復号化アーキテクチャを提案する。 我々の定式化は、グラフニューラルネットワーク(GNN)でメッセージパッシングを用いて実装された一貫性融合機構を用いて、関連するデコーダのコンテキストを集約する。 このコンテキストは、予め生成された出力に加えて二次入力として利用され、デコーディングの特定のステップで予測される。 GNNでは、各ノードとデコードプロセスの各ステップで融合機構を局所的に変調するためにセルフアテンションが使用される。 本稿では,高密度リレーショナル画像キャプションタスクにおける一貫した多重シーケンスデコーダの有効性を示し,そのタスクにおける最先端性能(mAPの5.2%以上)を示す。 より重要なことに、デコードされた文章は、同じ領域において、より一貫性があり(9.5%の改善)、一方、画像と領域は多様性を維持している。

Sequence decoding is one of the core components of most visual-lingual models. However, typical neural decoders when faced with decoding multiple, possibly correlated, sequences of tokens resort to simple independent decoding schemes. In this paper, we introduce a consistent multiple sequence decoding architecture, which is while relatively simple, is general and allows for consistent and simultaneous decoding of an arbitrary number of sequences. Our formulation utilizes a consistency fusion mechanism, implemented using message passing in a Graph Neural Network (GNN), to aggregate context from related decoders. This context is then utilized as a secondary input, in addition to previously generated output, to make a prediction at a given step of decoding. Self-attention, in the GNN, is used to modulate the fusion mechanism locally at each node and each step in the decoding process. We show the efficacy of our consistent multiple sequence decoder on the task of dense relational image captioning and illustrate state-of-the-art performance (+ 5.2% in mAP) on the task. More importantly, we illustrate that the decoded sentences, for the same regions, are more consistent (improvement of 9.5%), while across images and regions maintain diversity.
翻訳日:2022-12-17 12:36:55 公開日:2020-04-15
# 任意の介入分布を入力とする同定法

Identification Methods With Arbitrary Interventional Distributions as Inputs ( http://arxiv.org/abs/2004.01157v2 )

ライセンス: Link先を確認
Jaron J. R. Lee, Ilya Shpitser(参考訳) 因果推論はデータから偽のパラメータを推定することで因果関係を定量化する。 これは「emph{identification theory」を用いて、関心の反実的パラメータとデータが利用可能な分布のリンクを確立する。 研究の行は、多種多様な因果パラメータの非パラメトリック同定を \emph{observed data distribution} で特徴づけた。 より最近では、介入分布の実験データも利用できる設定に識別結果が拡張されている。 本稿では,単一世界干渉グラフと混合グラフに関連付けられたモデルの入れ子分解を用いて,実験データに対する既存同定理論の非常に単純な見解を示す。 この視点を用いて,入力分布が任意の観測分布と実験分布からなる設定に対して,限界分布と条件分布を含む一般化同定アルゴリズムを導出する。 入力が特定の型(祖先辺縁)の介入辺分布である問題に対して、アルゴリズムは完全であることを示す。

Causal inference quantifies cause-effect relationships by estimating counterfactual parameters from data. This entails using \emph{identification theory} to establish a link between counterfactual parameters of interest and distributions from which data is available. A line of work characterized non-parametric identification for a wide variety of causal parameters in terms of the \emph{observed data distribution}. More recently, identification results have been extended to settings where experimental data from interventional distributions is also available. In this paper, we use Single World Intervention Graphs and a nested factorization of models associated with mixed graphs to give a very simple view of existing identification theory for experimental data. We use this view to yield general identification algorithms for settings where the input distributions consist of an arbitrary set of observational and experimental distributions, including marginal and conditional distributions. We show that for problems where inputs are interventional marginal distributions of a certain type (ancestral marginals), our algorithm is complete.
翻訳日:2022-12-17 09:47:17 公開日:2020-04-15
# 教師付き学習における劣化問題の確率論的診断

Probabilistic Diagnostic Tests for Degradation Problems in Supervised Learning ( http://arxiv.org/abs/2004.02988v2 )

ライセンス: Link先を確認
Gustavo A. Valencia-Zapata, Carolina Gonzalez-Canas, Michael G. Zentner, Okan Ersoy, and Gerhard Klimeck(参考訳) いくつかの研究は、教師あり機械学習における性能劣化の原因を指摘している。 分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。 方法論やアルゴリズムという形で多くのアプローチがパフォーマンスの低下を最小限に抑えようと試みているが、それらは限られた範囲で孤立した取り組みであった。 これらのアプローチの多くは、少数のデータセットと分類アルゴリズムによる実験結果、予測能力の不十分な測定結果、提案したアプローチの真のメリットをテストするための統計的検証の欠如など、多くの問題の修正に重点を置いている。 本論文は2つの主要な部分から構成される。まず,各問題の兆候と症状を同定した新しい確率的診断モデルを示す。 これにより、最も便利な修復治療だけでなく、偏りのないパフォーマンス指標を選択するために、これらの問題の早期かつ正確な診断が達成される。 次に,複数の教師付きアルゴリズムの動作と性能について,学習集合がそのような問題を持つ場合に検討する。 したがって、治療の成功予測は分類器間で推定できる。

Several studies point out different causes of performance degradation in supervised machine learning. Problems such as class imbalance, overlapping, small-disjuncts, noisy labels, and sparseness limit accuracy in classification algorithms. Even though a number of approaches either in the form of a methodology or an algorithm try to minimize performance degradation, they have been isolated efforts with limited scope. Most of these approaches focus on remediation of one among many problems, with experimental results coming from few datasets and classification algorithms, insufficient measures of prediction power, and lack of statistical validation for testing the real benefit of the proposed approach. This paper consists of two main parts: In the first part, a novel probabilistic diagnostic model based on identifying signs and symptoms of each problem is presented. Thereby, early and correct diagnosis of these problems is to be achieved in order to select not only the most convenient remediation treatment but also unbiased performance metrics. Secondly, the behavior and performance of several supervised algorithms are studied when training sets have such problems. Therefore, prediction of success for treatments can be estimated across classifiers.
翻訳日:2022-12-16 05:26:58 公開日:2020-04-15
# 運動制御コパートセグメンテーション

Motion-supervised Co-Part Segmentation ( http://arxiv.org/abs/2004.03234v2 )

ライセンス: Link先を確認
Aliaksandr Siarohin, Subhankar Roy, St\'ephane Lathuili\`ere, Sergey Tulyakov, Elisa Ricci and Nicu Sebe(参考訳) 最近のコパートセグメンテーション手法は、トレーニングのために大量の注釈データを必要とする教師付き学習設定で主に機能する。 この制限を克服するために,コパートセグメンテーションのための自己教師あり深層学習法を提案する。 従来の作品と異なるアプローチでは,映像から推定された動作情報を活用して意味のある物体を発見できる,という考え方を展開する。 この目的のために、本手法は同一ビデオからサンプリングされたフレームのペアに依存する。 ネットワークは、2つのフレーム間の動きの表現と共に部分セグメントを予測し、対象画像の再構成を可能にする。 公開ビデオシーケンスの広範な実験評価を通じて,従来の自己教師付きコパートセグメンテーションアプローチに対して,改良されたセグメンテーションマップを作成できることを実証する。

Recent co-part segmentation methods mostly operate in a supervised learning setting, which requires a large amount of annotated data for training. To overcome this limitation, we propose a self-supervised deep learning method for co-part segmentation. Differently from previous works, our approach develops the idea that motion information inferred from videos can be leveraged to discover meaningful object parts. To this end, our method relies on pairs of frames sampled from the same video. The network learns to predict part segments together with a representation of the motion between two frames, which permits reconstruction of the target image. Through extensive experimental evaluation on publicly available video sequences we demonstrate that our approach can produce improved segmentation maps with respect to previous self-supervised co-part segmentation approaches.
翻訳日:2022-12-16 00:15:27 公開日:2020-04-15
# 複数の知識源を用いた推論テキスト生成とメタラーニング

Inferential Text Generation with Multiple Knowledge Sources and Meta-Learning ( http://arxiv.org/abs/2004.03070v2 )

ライセンス: Link先を確認
Daya Guo, Akari Asai, Duyu Tang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Jian Yin and Ming Zhou(参考訳) 本稿では, 様々なコモンセンスに対して, イベントの推論テキストを生成する問題について検討する。 既存のアプローチでは、トレーニング例から限られたエビデンスを使用して、それぞれの関係を個別に学習する。 この研究では、モデルのための燃料として複数の知識ソースを使用します。 コンセプションネットのような既存の常識知識基盤は分類学的知識(例えば、textit{isA} と \textit{relatedTo} の関係)に支配されており、推論知識の数が限られている。 構造化されたコモンセンス知識ベースだけでなく,検索エンジンの自然言語スニペットも使用しています。 これらのソースはキー値メモリネットワークを介して生成ベースモデルに組み込まれている。 さらに,メタ学習に基づくマルチタスク学習アルゴリズムを導入する。 対象としたコモンセンス関係について,他の関係からの例の学習をメタトレーニングプロセス,対象関係からの例をメタテストプロセスとして評価する。 Event2MindおよびATOMICデータセットの実験を行った。 その結果,複数の知識源の統合とメタラーニングアルゴリズムの利用により,性能が向上した。

We study the problem of generating inferential texts of events for a variety of commonsense like \textit{if-else} relations. Existing approaches typically use limited evidence from training examples and learn for each relation individually. In this work, we use multiple knowledge sources as fuels for the model. Existing commonsense knowledge bases like ConceptNet are dominated by taxonomic knowledge (e.g., \textit{isA} and \textit{relatedTo} relations), having a limited number of inferential knowledge. We use not only structured commonsense knowledge bases, but also natural language snippets from search-engine results. These sources are incorporated into a generative base model via key-value memory network. In addition, we introduce a meta-learning based multi-task learning algorithm. For each targeted commonsense relation, we regard the learning of examples from other relations as the meta-training process, and the evaluation on examples from the targeted relation as the meta-test process. We conduct experiments on Event2Mind and ATOMIC datasets. Results show that both the integration of multiple knowledge sources and the use of the meta-learning algorithm improve the performance.
翻訳日:2022-12-15 22:43:32 公開日:2020-04-15
# 重なり合う細胞質セグメンテーションのための制約付き多形進化

Constrained Multi-shape Evolution for Overlapping Cytoplasm Segmentation ( http://arxiv.org/abs/2004.03892v2 )

ライセンス: Link先を確認
Youyi Song, Lei Zhu, Baiying Lei, Bin Sheng, Qi Dou, Jing Qin, Kup-Sze Choi(参考訳) 子宮頸癌を診断するために細胞レベルの特徴を定量的に測定するため,子宮頸部スメア画像における細胞重複細胞質の分節化は臨床的に重要な課題である。 しかし、このタスクは、主に重なり合う領域における強度(または色)の情報不足のために、かなり難しいままである。 細胞質に関する事前の形状情報(形状前)を導入して強度不足を補正する形状先行モデルが確立されているが、主に細胞質に関する限られた形状仮説によってのみ形状前をモデル化し、細胞質レベルの形状前を単独で利用し、その結果の細胞質の形状に形制約を課さないため、視覚的に不明瞭な結果をもたらすことが多い。 本稿では,各細胞質の形状をモデル化された形状にガイドすることで,細胞質の重なり合う細胞質を同時に分割する,制約型多形進化という,新規で効果的な形状事前ベースアプローチを提案する。 細胞質のあらゆる可能な形状を含む無限大形状仮説セットにより局所形状前駆体(細胞質レベル)をモデル化し、形状進化において、モデル化された局所形状前駆体だけでなく、クランプ内の細胞質の相互形状制約を考慮したグローバル形状前駆体(クランプレベル)も導入することにより、セグメンテーションの強度不足を補う。 また,各進化の結果として得られた形状を構築形状仮説集合に限定し,さらに予測不能な分割結果を削減する。 2つの典型的な頚椎スメアデータセットにおいて提案手法を評価し,提案手法が細胞質の重複を分節するのに有効であることを実験的に検討した。

Segmenting overlapping cytoplasm of cells in cervical smear images is a clinically essential task, for quantitatively measuring cell-level features in order to diagnose cervical cancer. This task, however, remains rather challenging, mainly due to the deficiency of intensity (or color) information in the overlapping region. Although shape prior-based models that compensate intensity deficiency by introducing prior shape information (shape priors) about cytoplasm are firmly established, they often yield visually implausible results, mainly because they model shape priors only by limited shape hypotheses about cytoplasm, exploit cytoplasm-level shape priors alone, and impose no shape constraint on the resulting shape of the cytoplasm. In this paper, we present a novel and effective shape prior-based approach, called constrained multi-shape evolution, that segments all overlapping cytoplasms in the clump simultaneously by jointly evolving each cytoplasm's shape guided by the modeled shape priors. We model local shape priors (cytoplasm--level) by an infinitely large shape hypothesis set which contains all possible shapes of the cytoplasm. In the shape evolution, we compensate intensity deficiency for the segmentation by introducing not only the modeled local shape priors but also global shape priors (clump--level) modeled by considering mutual shape constraints of cytoplasms in the clump. We also constrain the resulting shape in each evolution to be in the built shape hypothesis set, for further reducing implausible segmentation results. We evaluated the proposed method in two typical cervical smear datasets, and the extensive experimental results show that the proposed method is effective to segment overlapping cytoplasm, consistently outperforming the state-of-the-art methods.
翻訳日:2022-12-15 09:13:52 公開日:2020-04-15
# 自己監督型単分子シーンフロー推定

Self-Supervised Monocular Scene Flow Estimation ( http://arxiv.org/abs/2004.04143v2 )

ライセンス: Link先を確認
Junhwa Hur, Stefan Roth(参考訳) シーンフロー推定は3次元環境認識に注目が集まっている。 2つの時間的連続した画像から3次元構造と3次元運動を求める単眼のシーンフロー推定は、非常に不適切な問題であり、現実的な解決策が今までにない。 本稿では,競争精度と実時間性能を両立させる単眼シーンフロー法を提案する。 逆問題ビューを用いて,従来の光学フローコストボリュームから深さと3次元運動を同時に推定する単一畳み込みニューラルネットワーク(cnn)を設計する。 3次元損失関数と咬合推論を用いた自己教師あり学習を採用し,ラベルなしデータを活用する。 プロキシ損失や拡張設定など、設計上の選択を検証する。 本モデルは,単眼的シーンフローに対する教師なし/教師なし学習手法の最先端精度を実現し,光学的フローと単眼的深さ推定サブタスクの競合結果を得る。 半教師付き微調整により精度が向上し、有望な結果をリアルタイムで得られる。

Scene flow estimation has been receiving increasing attention for 3D environment perception. Monocular scene flow estimation -- obtaining 3D structure and 3D motion from two temporally consecutive images -- is a highly ill-posed problem, and practical solutions are lacking to date. We propose a novel monocular scene flow method that yields competitive accuracy and real-time performance. By taking an inverse problem view, we design a single convolutional neural network (CNN) that successfully estimates depth and 3D motion simultaneously from a classical optical flow cost volume. We adopt self-supervised learning with 3D loss functions and occlusion reasoning to leverage unlabeled data. We validate our design choices, including the proxy loss and augmentation setup. Our model achieves state-of-the-art accuracy among unsupervised/self-supervised learning approaches to monocular scene flow, and yields competitive results for the optical flow and monocular depth estimation sub-tasks. Semi-supervised fine-tuning further improves the accuracy and yields promising results in real-time.
翻訳日:2022-12-15 08:36:02 公開日:2020-04-15
# 自動鋼板欠陥検出のためのDeepLabV3+の性能解析

Analysis on DeepLabV3+ Performance for Automatic Steel Defects Detection ( http://arxiv.org/abs/2004.04822v2 )

ライセンス: Link先を確認
Zheng Nie, Jiachen Xu, Shengchang Zhang(参考訳) 我々の研究は、異なる種類の鋼の欠陥を自動的に検出することを目的として、大量のスチール画像上に異なるバックボーンを持つDeepLabV3+を実験した。 トレーニングセットの異なる欠陥タイプをバランスさせるために,ランダム重み付け法を適用した。 そして、deeplabv3+モデル3つの異なるバックボーン、resnet, densenet, efficientnetをスチール画像のセグメンテーション欠陥領域に適用した。 実験の結果,ResNet101やEfficientNetをバックボーンとして適用すれば,テストセット上で最高のIoUスコアが得られることがわかった。 また、ResNet101をバックボーンとするDeepLabV3+モデルは、最も少ないトレーニング時間を持つ。

Our works experimented DeepLabV3+ with different backbones on a large volume of steel images aiming to automatically detect different types of steel defects. Our methods applied random weighted augmentation to balance different defects types in the training set. And then applied DeeplabV3+ model three different backbones, ResNet, DenseNet and EfficientNet, on segmenting defection regions on the steel images. Based on experiments, we found that applying ResNet101 or EfficientNet as backbones could reach the best IoU scores on the test set, which is around 0.57, comparing with 0.325 for using DenseNet. Also, DeepLabV3+ model with ResNet101 as backbone has the fewest training time.
翻訳日:2022-12-15 03:13:03 公開日:2020-04-15
# 長文回答からの質問の自動生成に向けて

Towards Automatic Generation of Questions from Long Answers ( http://arxiv.org/abs/2004.05109v3 )

ライセンス: Link先を確認
Shlok Kumar Mishra, Pranav Goel, Abhishek Sharma, Abhyuday Jagannatha, David Jacobs, Hal Daum\'e III(参考訳) 自動質問生成(AQG)は、学習システム、会話エージェント、医療リテラシー、情報検索などの分野に適用可能である。 AQGの既存の取り組みは、最大2、3文までの短い回答に制限されている。 しかし、いくつかの実世界のアプリケーションでは、複数の文にまたがる回答から質問を生成する必要がある。 そこで本研究では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。 大規模なオープンソースであるGoogle Natural Questionsデータセットを活用して、前述の長文のAQGベンチマークを作成します。 我々は,既存の aqg メソッドの性能が,回答長の増加とともに著しく低下することを示す。 トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れている。 しかし, 文長の増大に伴う最高の性能モデルの性能低下は引き続き観察され, 今後の研究において, 長解QAが課題となることが示唆された。

Automatic question generation (AQG) has broad applicability in domains such as tutoring systems, conversational agents, healthcare literacy, and information retrieval. Existing efforts at AQG have been limited to short answer lengths of up to two or three sentences. However, several real-world applications require question generation from answers that span several sentences. Therefore, we propose a novel evaluation benchmark to assess the performance of existing AQG systems for long-text answers. We leverage the large-scale open-source Google Natural Questions dataset to create the aforementioned long-answer AQG benchmark. We empirically demonstrate that the performance of existing AQG methods significantly degrades as the length of the answer increases. Transformer-based methods outperform other existing AQG methods on long answers in terms of automatic as well as human evaluation. However, we still observe degradation in the performance of our best performing models with increasing sentence length, suggesting that long answer QA is a challenging benchmark task for future research.
翻訳日:2022-12-14 21:05:13 公開日:2020-04-15
# ビデオ予測のための深層学習手法のレビュー

A Review on Deep Learning Techniques for Video Prediction ( http://arxiv.org/abs/2004.05214v2 )

ライセンス: Link先を確認
Sergiu Oprea, Pablo Martinez-Gonzalez, Alberto Garcia-Garcia, John Alejandro Castro-Vargas, Sergio Orts-Escolano, Jose Garcia-Rodriguez and Antonis Argyros(参考訳) 将来の成果を予測、予測、推論する能力は、インテリジェントな意思決定システムの重要なコンポーネントである。 コンピュータビジョンにおけるディープラーニングの成功を踏まえて、ディープラーニングに基づくビデオ予測が有望な研究方向として現れた。 自己教師付き学習タスクとして定義されるビデオ予測は、自然ビデオの基盤となるパターンの有意義な表現を抽出する可能性を示すため、表現学習に適したフレームワークである。 この課題への関心の高まりに動機づけられ,ビデオシーケンスにおける予測のための深層学習法についてレビューを行う。 まず、ビデオ予測の基礎と、必須の背景概念と最も使用されるデータセットを定義します。 次に,提案する分類に従って整理された既存の映像予測モデルを注意深く分析し,その分野における貢献とその意義を強調する。 データセットと手法の要約には,定量的な評価を容易にする実験結果が添付されている。 この論文は、いくつかの一般的な結論を描き、オープンリサーチの課題を特定し、今後の研究の方向性を指摘してまとめる。

The ability to predict, anticipate and reason about future outcomes is a key component of intelligent decision-making systems. In light of the success of deep learning in computer vision, deep-learning-based video prediction emerged as a promising research direction. Defined as a self-supervised learning task, video prediction represents a suitable framework for representation learning, as it demonstrated potential capabilities for extracting meaningful representations of the underlying patterns in natural videos. Motivated by the increasing interest in this task, we provide a review on the deep learning methods for prediction in video sequences. We firstly define the video prediction fundamentals, as well as mandatory background concepts and the most used datasets. Next, we carefully analyze existing video prediction models organized according to a proposed taxonomy, highlighting their contributions and their significance in the field. The summary of the datasets and methods is accompanied with experimental results that facilitate the assessment of the state of the art on a quantitative basis. The paper is summarized by drawing some general conclusions, identifying open research challenges and by pointing out future research directions.
翻訳日:2022-12-14 20:44:21 公開日:2020-04-15
# VQAのための視覚的接地手法の負のケース解析

A negative case analysis of visual grounding methods for VQA ( http://arxiv.org/abs/2004.05704v2 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan(参考訳) 既存のVisual Question Answering (VQA)メソッドは、正しい理由のために正しい回答を生成するのではなく、データセットのバイアスと突発的な統計的相関を利用する傾向がある。 この問題に対処するため、近年のVQAのバイアス軽減手法では、視覚的手がかり(人間の注意マップなど)を取り入れてVQAモデルを改善することが提案されている。 しかし, 性能改善は視覚的接地の改善の結果ではなく, 言語的先行に過度に適合しない正規化効果を示す。 例えば、適切な人間ベースの手がかりを提供する必要はなく、ランダムで無感覚な手がかりも同様の改善をもたらす。 そこで本研究では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現した簡易な正規化手法を提案する。

Existing Visual Question Answering (VQA) methods tend to exploit dataset biases and spurious statistical correlations, instead of producing right answers for the right reasons. To address this issue, recent bias mitigation methods for VQA propose to incorporate visual cues (e.g., human attention maps) to better ground the VQA models, showcasing impressive gains. However, we show that the performance improvements are not a result of improved visual grounding, but a regularization effect which prevents over-fitting to linguistic priors. For instance, we find that it is not actually necessary to provide proper, human-based cues; random, insensible cues also result in similar improvements. Based on this observation, we propose a simpler regularization scheme that does not require any external annotations and yet achieves near state-of-the-art performance on VQA-CPv2.
翻訳日:2022-12-14 04:55:31 公開日:2020-04-15
# 高速MRI再構成のためのエンド・ツー・エンド変分ネットワーク

End-to-End Variational Networks for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2004.06688v2 )

ライセンス: Link先を確認
Anuroop Sriram, Jure Zbontar, Tullie Murrell, Aaron Defazio, C. Lawrence Zitnick, Nafissa Yakubova, Florian Knoll, and Patricia Johnson(参考訳) 磁気共鳴イメージング(mri)の低速な獲得速度は、解剖学の複数のビューを同時に取得(並列イメージング)し、従来の信号処理法(圧縮センシング)よりも少ないサンプルを取得するという、2つの補完的手法の開発につながった。 これらの手法を組み合わせることでより高速なスキャンが可能となるが、そのようなアンサンプされたマルチコイルデータからの再構成は未解決の問題のままである。 本稿では,本問題に対する新しいアプローチとして,前述した変分法を完全エンドツーエンドに学習することで拡張する。 提案手法は,脳と膝のMRI画像に対する高速MRIデータセットを用いて,新しい最先端結果を得る。

The slow acquisition speed of magnetic resonance imaging (MRI) has led to the development of two complementary methods: acquiring multiple views of the anatomy simultaneously (parallel imaging) and acquiring fewer samples than necessary for traditional signal processing methods (compressed sensing). While the combination of these methods has the potential to allow much faster scan times, reconstruction from such undersampled multi-coil data has remained an open problem. In this paper, we present a new approach to this problem that extends previously proposed variational methods by learning fully end-to-end. Our method obtains new state-of-the-art results on the fastMRI dataset for both brain and knee MRIs.
翻訳日:2022-12-13 10:07:36 公開日:2020-04-15
# Co-eye: TimeSeries Diversified Ensemble 分類のためのマルチレゾリューション記号表現

Co-eye: A Multi-resolution Symbolic Representation to TimeSeries Diversified Ensemble Classification ( http://arxiv.org/abs/2004.06668v2 )

ライセンス: Link先を確認
Zahraa S. Abdallah, Mohamed Medhat Gaber(参考訳) 時系列分類(TSC)は、ここ数年で多くの研究者を惹きつけた課題である。 TSCの主な課題の1つは、時系列データが生まれる領域の多様性である。 したがって、tscには「すべてに適合する1つのモデル」は存在しない。 一部のアルゴリズムは、シリーズ全体を考える際に特定の種類の時系列を分類するのに非常に正確であるが、特定のパターン/シェープレットの存在/存在しないことのみをターゲットとするアルゴリズムもある。 しかし、他の技法はパターンや特徴を識別する頻度に焦点を当てている。 本稿では,自然に着想を得た手法を用いて,TSCの多様性問題に対処する新しい分類手法を提案する。 この技術は、ハエが何千ものレンズ、オムマティディア(ommatidia)でできている「コンパウンドアイ(compound eyes)」を通して世界を見る方法によって刺激される。 それぞれのオムマチジウムは独自のレンズを持つ眼であり、何千ものオムマチジウムが共に広い視野を形成している。 開発された技術は同様に、異なるレンズと表現を使って時系列を観察し、それらを組み合わせてより広い視認性を実現する。 これらのレンズは記号表現の超パラメトリゼーション(Piecewise Aggregate and Fourier approximations)によって作成されている。 アルゴリズムは各レンズにランダムなフォレストを構築し、最も自信のある目、すなわちフォレストを使って新しいインスタンスを分類するためにソフトな動的投票を行う。 我々は、最近リリースされたUCRアーカイブの拡張版を使用して、Co-eyeと呼ばれる新しいテクニックを評価し、幅広いドメインに100以上のデータセットを含む。 その結果、他の最先端技術と比較して、コアイの正確性と堅牢性に反映した異なる視点をまとめることの利点が示された。

Time series classification (TSC) is a challenging task that attracted many researchers in the last few years. One main challenge in TSC is the diversity of domains where time series data come from. Thus, there is no "one model that fits all" in TSC. Some algorithms are very accurate in classifying a specific type of time series when the whole series is considered, while some only target the existence/non-existence of specific patterns/shapelets. Yet other techniques focus on the frequency of occurrences of discriminating patterns/features. This paper presents a new classification technique that addresses the inherent diversity problem in TSC using a nature-inspired method. The technique is stimulated by how flies look at the world through "compound eyes" that are made up of thousands of lenses, called ommatidia. Each ommatidium is an eye with its own lens, and thousands of them together create a broad field of vision. The developed technique similarly uses different lenses and representations to look at the time series, and then combines them for broader visibility. These lenses have been created through hyper-parameterisation of symbolic representations (Piecewise Aggregate and Fourier approximations). The algorithm builds a random forest for each lens, then performs soft dynamic voting for classifying new instances using the most confident eyes, i.e, forests. We evaluate the new technique, coined Co-eye, using the recently released extended version of UCR archive, containing more than 100 datasets across a wide range of domains. The results show the benefits of bringing together different perspectives reflecting on the accuracy and robustness of Co-eye in comparison to other state-of-the-art techniques.
翻訳日:2022-12-13 09:06:44 公開日:2020-04-15
# 大規模海底地震波場復元における伝達学習

Transfer learning in large-scale ocean bottom seismic wavefield reconstruction ( http://arxiv.org/abs/2004.07388v1 )

ライセンス: Link先を確認
Mi Zhang and Ali Siahkoohi and Felix J. Herrmann(参考訳) 海底買収において望ましい受信機サンプリングを実現することは、コストの考慮からしばしば不可能である。 相互性や近代的ランダム化(同時ソース)海洋獲得技術によって得られる適切なソースサンプリングが可能であると仮定すると、我々は畳み込みニューラルネットワーク(CNN)を訓練して、レシーバサンプリングを高密度ソースサンプリングと同じ空間グリッドに持ってくる立場にある。 この課題を達成するために、互いに相反する議論とソースサイトサンプリングが密集した仮定を用いて、高密度なサンプルデータと人工的なサブサンプルデータからなるトレーニングペアを形成する。 このアプローチは単色周波数スライス回復に成功しているが、実際は時間領域データの波動場再構成に応用されている。 並列化オプションがあるにもかかわらず、各周波数でトレーニングと回復を独立に行うと、このアプローチの全体的なコストは禁じられる。 異なる周波数スライスが情報を共有するため、隣接する周波数スライスから得られたcnn重みを温めてトレーニングを開始することにより、計算効率を高めるために転送訓練法を提案する。 2つの隣接周波数スライスが情報を共有すれば、トレーニングが改善され、より速く収束することを期待します。 本研究の目的は,広帯域3次元海底ノード取得に伴う比較的大規模な5次元データ合成データ量について,慎重に選択した実験を行うことで,この原理を実証することである。 これらの実験から,トランスファートレーニングにより,連続周波数スライスがより相関する比較的高い周波数において,トレーニングの大幅な高速化が達成できることがわかった。

Achieving desirable receiver sampling in ocean bottom acquisition is often not possible because of cost considerations. Assuming adequate source sampling is available, which is achievable by virtue of reciprocity and the use of modern randomized (simultaneous-source) marine acquisition technology, we are in a position to train convolutional neural networks (CNNs) to bring the receiver sampling to the same spatial grid as the dense source sampling. To accomplish this task, we form training pairs consisting of densely sampled data and artificially subsampled data using a reciprocity argument and the assumption that the source-site sampling is dense. While this approach has successfully been used on the recovery monochromatic frequency slices, its application in practice calls for wavefield reconstruction of time-domain data. Despite having the option to parallelize, the overall costs of this approach can become prohibitive if we decide to carry out the training and recovery independently for each frequency. Because different frequency slices share information, we propose the use the method of transfer training to make our approach computationally more efficient by warm starting the training with CNN weights obtained from a neighboring frequency slices. If the two neighboring frequency slices share information, we would expect the training to improve and converge faster. Our aim is to prove this principle by carrying a series of carefully selected experiments on a relatively large-scale five-dimensional data synthetic data volume associated with wide-azimuth 3D ocean bottom node acquisition. From these experiments, we observe that by transfer training we are able t significantly speedup in the training, specially at relatively higher frequencies where consecutive frequency slices are more correlated.
翻訳日:2022-12-13 04:33:09 公開日:2020-04-15
# 深部ニューラルネットワークを用いたリアルタイムスパースサンプリング画像

Real-time sparse-sampled Ptychographic imaging through deep neural networks ( http://arxiv.org/abs/2004.08247v1 )

ライセンス: Link先を確認
Mathew J. Cherukara, Tao Zhou, Youssef Nashed, Pablo Enfedaque, Alex Hexemer, Ross J. Harder and Martin V. Holt(参考訳) ptychographyは、試料から化学または磁気情報を検索しながら、前例のないナノまたは原子スケールの解像度を達成する能力を持つため、x線および電子イメージングの分野で急速に成長してきた。 ptychographic reconstructionは、データの取得と分析の両方に制約を課す複雑な逆問題を解くことで実現される。 本研究では,深層畳み込みニューラルネットワークに基づくptychographyの再構成問題を解決する新しい手法であるptychonnを提案する。 提案手法は,各走査点における実空間構造と位相を,対応する遠距離回折データからのみ予測できることを示す。 そこで本研究では,ptychonnを実験データに効果的に用いる方法を示し,従来から訓練されていたptychonnリコンストラクションソリューションの数百倍の速さでサンプルの高品質な再構成を実現できることを示した。 反復モデルに基づく手法の典型的な制約を超越することで、データ取得サンプリング条件を著しく緩和し、等しく満足できる再構成を行うことができる。 この機能は、獲得と分析を劇的に加速するだけでなく、線量に敏感でダイナミックで非常に明るいサンプルの場合、以前は不可能だった新しいイメージングシナリオを可能にする。

Ptychography has rapidly grown in the fields of X-ray and electron imaging for its unprecedented ability to achieve nano or atomic scale resolution while simultaneously retrieving chemical or magnetic information from a sample. A ptychographic reconstruction is achieved by means of solving a complex inverse problem that imposes constraints both on the acquisition and on the analysis of the data, which typically precludes real-time imaging due to computational cost involved in solving this inverse problem. In this work we propose PtychoNN, a novel approach to solve the ptychography reconstruction problem based on deep convolutional neural networks. We demonstrate how the proposed method can be used to predict real-space structure and phase at each scan point solely from the corresponding far-field diffraction data. The presented results demonstrate how PtychoNN can effectively be used on experimental data, being able to generate high quality reconstructions of a sample up to hundreds of times faster than state-of-the-art ptychography reconstruction solutions once trained. By surpassing the typical constraints of iterative model-based methods, we can significantly relax the data acquisition sampling conditions and produce equally satisfactory reconstructions. Besides drastically accelerating acquisition and analysis, this capability can enable new imaging scenarios that were not possible before, in cases of dose sensitive, dynamic and extremely voluminous samples.
翻訳日:2022-12-13 04:32:26 公開日:2020-04-15
# conditional-unet: ウェアラブルからの人間行動認識のための条件認識深層モデル

Conditional-UNet: A Condition-aware Deep Model for Coherent Human Activity Recognition From Wearables ( http://arxiv.org/abs/2004.09376v1 )

ライセンス: Link先を確認
Liming Zhang(参考訳) ウェアラブルセンサーから収集したマルチチャネル時系列データから人間の活動を認識することは、より実用的です。 しかし、現実の環境では、歩いたり座ったりしながら頭を動かすなど、コヒーレントな活動と体の動きが同時に起こる可能性がある。 コヒーレントヒューマンアクティビティ認識(Co-HAR)と呼ばれる新しい問題は、異なる動きの信号が混在して干渉されるため、通常の多クラス分類タスクよりも複雑である。 一方、このようなCo-HARは、各サンプルをラベル付きタイムステップで分類し、アプリケーションへの高忠実度と長寿命サポートを提供する密着なラベル付け問題であると考えている。 本稿では,Co-HAR問題に対する高密度ラベリングを実現するために,条件対応の深層アーキテクチャ"Conditional-UNet"を開発した。 また,歩行条件や座り条件下での頭部運動認識のためのCo-HARデータセットも提案する。 ヘッドジェスチャ認識実験により,既存の最先端のディープメソッドよりもF1スコアが2%~3%向上し,さらに重要な点として,実頭部ジェスチャクラスに対する体系的・包括的改善が得られた。

Recognizing human activities from multi-channel time series data collected from wearable sensors is ever more practical. However, in real-world conditions, coherent activities and body movements could happen at the same time, like moving head during walking or sitting. A new problem, so-called "Coherent Human Activity Recognition (Co-HAR)", is more complicated than normal multi-class classification tasks since signals of different movements are mixed and interfered with each other. On the other side, we consider such Co-HAR as a dense labelling problem that classify each sample on a time step with a label to provide high-fidelity and duration-varied support to applications. In this paper, a novel condition-aware deep architecture "Conditional-UNet" is developed to allow dense labeling for Co-HAR problem. We also contribute a first-of-its-kind Co-HAR dataset for head movement recognition under walk or sit condition for future research. Experiments on head gesture recognition show that our model achieve overall 2%-3% performance gain of F1 score over existing state-of-the-art deep methods, and more importantly, systematic and comprehensive improvements on real head gesture classes.
翻訳日:2022-12-13 04:31:30 公開日:2020-04-15
# モバイルクラウドベースのeヘルススキーム

A Mobile Cloud-Based eHealth Scheme ( http://arxiv.org/abs/2004.11842v1 )

ライセンス: Link先を確認
Yihe Liu, Aaqif Afzaal Abbasi, Atefeh Aghaei, Almas Abbasi, Amir Mosavi, Shahab Shamshirband, and Mohammed A. A. Al-qaness(参考訳) モバイルクラウドコンピューティングは、国境を越えて急速に普及している新興分野である。 同様に、健康情報学の分野も極めて重要な分野と考えられている。 本研究は, 心電図信号をトレースレポートから抽出し, 解析する従来の課題を解決するために, これら2つの分野間の協調を観察する。 開発したシステムは,ユーザがトレースレポートの撮影を行うための第1のフロントエンドを2つ備えている。 撮影が完了すると、モバイルコンピューティングを使用して信号を抽出する。 信号が抽出されると、それをサーバにアップロードし、クラウド上の信号に対してさらに分析を行う。 これが終わったら、医師の使用を意図した2番目のインターフェースが、クラウドからトレースをダウンロードして閲覧することができる。 データはパスワードベースの認証方式でセキュアに保持される。 ここで提示されたシステムは、完全なソリューションを提供する最初の試みの1つであり、さらなるアップグレードの後、システムを商用環境でデプロイすることができる。

Mobile cloud computing is an emerging field that is gaining popularity across borders at a rapid pace. Similarly, the field of health informatics is also considered as an extremely important field. This work observes the collaboration between these two fields to solve the traditional problem of extracting Electrocardiogram signals from trace reports and then performing analysis. The developed system has two front ends, the first dedicated for the user to perform the photographing of the trace report. Once the photographing is complete, mobile computing is used to extract the signal. Once the signal is extracted, it is uploaded into the server and further analysis is performed on the signal in the cloud. Once this is done, the second interface, intended for the use of the physician, can download and view the trace from the cloud. The data is securely held using a password-based authentication method. The system presented here is one of the first attempts at delivering the total solution, and after further upgrades, it will be possible to deploy the system in a commercial setting.
翻訳日:2022-12-13 04:31:02 公開日:2020-04-15
# 4DFlowNet:Deep LearningとComputational fluid Dynamicsを用いた超解像4D Flow MRI

4DFlowNet: Super-Resolution 4D Flow MRI using Deep Learning and Computational Fluid Dynamics ( http://arxiv.org/abs/2004.07035v1 )

ライセンス: Link先を確認
Edward Ferdian, Avan Suinesiaputra, David Dubowitz, Debbie Zhao, Alan Wang, Brett Cowan, Alistair Young(参考訳) 4d-flow magnetic resonance imaging(mri)は、時空間的3d血流速度を1回の非侵襲的検査で全容積で計測できる新しいイメージング技術である。 これにより、心臓と大血管の血行動態パラメータの質的および定量的解析が可能になる。 画像解像度の上昇は、特に異常な血流を持つ患者において、より正確で、血流のより良い評価を可能にする。 しかし、これは撮像時間の増加とバランスをとらなければならない。 超高解像度画像の生成におけるディープラーニングの最近の成功は、医療画像の実装を約束していることを示している。 数値流体力学シミュレーションを用いて流体シミュレーションを行い, 合成4次元流mriデータとして表現した。 我々は、実際の4次元フローMRIデータをそれに対応する雑音分布で模倣する訓練データセットを構築した。 我々の新しい4DFlowNetネットワークは, この合成4Dフローデータをトレーニングし, 2。 また, ファントムの4dフローmr画像と正常ボランティアデータの4dフローmr画像を用いて4dフローネットをテストした結果, ファントムデータと正常ボランティアデータでは0.6~5.8%, 1.1〜3.8%の絶対相対誤差を与える実際の流量測定と同等の結果が得られた。

4D-flow magnetic resonance imaging (MRI) is an emerging imaging technique where spatiotemporal 3D blood velocity can be captured with full volumetric coverage in a single non-invasive examination. This enables qualitative and quantitative analysis of hemodynamic flow parameters of the heart and great vessels. An increase in the image resolution would provide more accuracy and allow better assessment of the blood flow, especially for patients with abnormal flows. However, this must be balanced with increasing imaging time. The recent success of deep learning in generating super resolution images shows promise for implementation in medical images. We utilized computational fluid dynamics simulations to generate fluid flow simulations and represent them as synthetic 4D flow MRI data. We built our training dataset to mimic actual 4D flow MRI data with its corresponding noise distribution. Our novel 4DFlowNet network was trained on this synthetic 4D flow data and was capable in producing noise-free super resolution 4D flow phase images with upsample factor of 2. We also tested the 4DFlowNet in actual 4D flow MR images of a phantom and normal volunteer data, and demonstrated comparable results with the actual flow rate measurements giving an absolute relative error of 0.6 to 5.8% and 1.1 to 3.8% in the phantom data and normal volunteer data, respectively.
翻訳日:2022-12-13 04:26:43 公開日:2020-04-15
# ディープ・ラーニング・フレームワークを用いた英国バイオバンクにおけるcmrタグ付き画像からの完全自動心筋ひずみ推定

Fully Automated Myocardial Strain Estimation from CMR Tagged Images using a Deep Learning Framework in the UK Biobank ( http://arxiv.org/abs/2004.07064v1 )

ライセンス: Link先を確認
Edward Ferdian, Avan Suinesiaputra, Kenneth Fung, Nay Aung, Elena Lukaschuk, Ahmet Barutcu, Edd Maclean, Jose Paiva, Stefan K. Piechnik, Stefan Neubauer, Steffen E Petersen, and Alistair A. Young(参考訳) 目的: 完全自動ディープラーニングフレームワークの実現可能性と性能を実証し, 短軸磁気共鳴タグ付き画像から心筋ひずみを推定する。 方法と材料:本調査では,英国バイオバンクの4508例をランダムに3244例,検証ケース812例,検査ケース452例に分けた。 手動初期化と変形性画像登録の補正により, 5人の読者による検証済みのソフトウェアを用いて, 心電図の撮影と追跡を行った。 完全に自動化された枠組みは 1)局在化のための畳み込みニューラルネットワーク(cnn)および 2)リカレントニューラルネットワーク(RNN)とCNNの組み合わせにより、スライス毎に画像シーケンスを介して心筋のランドマークを検出し、追跡する。 その後、ランドマークの動きから放射ひずみと周ひずみを計算し、スライスベースで平均化した。 結果: テストセットでは, 胸部, 中, 腹側スライスでは-0.001 +/- 0.025, -0.001 +/- 0.021, 0.004 +/- 0.035であった。 この枠組みは、糖尿病、高血圧症、および前回の心臓発作の参加者の周縁系統の有意な減少を再現した。 典型的な処理時間はNVIDIA Tesla K40の12GB RAMで毎秒260フレーム (~13スライス)、マニュアル分析では6-8分であった。 結論: 完全自動化されたrnncnnフレームワークにより, 糖尿病, 高血圧, 先天性心筋梗塞による障害を鑑別する能力を持つ高スループットワークフローにおいて, 偏りのないひずみ評価が可能となった。

Purpose: To demonstrate the feasibility and performance of a fully automated deep learning framework to estimate myocardial strain from short-axis cardiac magnetic resonance tagged images. Methods and Materials: In this retrospective cross-sectional study, 4508 cases from the UK Biobank were split randomly into 3244 training and 812 validation cases, and 452 test cases. Ground truth myocardial landmarks were defined and tracked by manual initialization and correction of deformable image registration using previously validated software with five readers. The fully automatic framework consisted of 1) a convolutional neural network (CNN) for localization, and 2) a combination of a recurrent neural network (RNN) and a CNN to detect and track the myocardial landmarks through the image sequence for each slice. Radial and circumferential strain were then calculated from the motion of the landmarks and averaged on a slice basis. Results: Within the test set, myocardial end-systolic circumferential Green strain errors were -0.001 +/- 0.025, -0.001 +/- 0.021, and 0.004 +/- 0.035 in basal, mid, and apical slices respectively (mean +/- std. dev. of differences between predicted and manual strain). The framework reproduced significant reductions in circumferential strain in diabetics, hypertensives, and participants with previous heart attack. Typical processing time was ~260 frames (~13 slices) per second on an NVIDIA Tesla K40 with 12GB RAM, compared with 6-8 minutes per slice for the manual analysis. Conclusions: The fully automated RNNCNN framework for analysis of myocardial strain enabled unbiased strain evaluation in a high-throughput workflow, with similar ability to distinguish impairment due to diabetes, hypertension, and previous heart attack.
翻訳日:2022-12-13 04:26:20 公開日:2020-04-15
# ニューロモルフィックアイ・イン・ハンド視覚サーボ

Neuromorphic Eye-in-Hand Visual Servoing ( http://arxiv.org/abs/2004.07398v1 )

ライセンス: Link先を確認
Rajkumar Muthusamy, Abdulla Ayyad, Mohamad Halwani, Yahya Zweiri, Dongming Gan and Lakmal Seneviratne(参考訳) ロボットビジョンは、ロボットアプリケーションを提供する工場自動化において重要な役割を果たしている。 しかし、フレームベースカメラの従来の使用は、特に高速なタスクにおいて、サンプリングレートの低さとリアルタイム画像処理における冗長なデータのために、連続的な視覚フィードバックに制限を課している。 イベントカメラは、低レイテンシと広いダイナミックレンジの高時間分解能($1\mu s$)での動的変化を非同期に観察するなど、人間のような視覚能力を提供する。 本稿では,イベントカメラを用いた視覚サーボ手法と,操作タスクの探索,到達,把握のためのスイッチング制御戦略を提案する。 相対的な動きからイベントの流れを直接処理するために、アクティブなイベントの3つの表面層を考案する。 純粋にイベントベースのアプローチが採用され、コーナーの特徴を抽出し、ヒートマップを使用してロケライズし、追跡とアライメントのための仮想特徴を生成する。 視覚フィードバックに基づいて、ロボットの動作を制御して、時空間における所望のイベントに時近イベントの特徴を収束させる。 制御器は、操作順序に基づいて戦略を切り替え、安定した把握を確立する。 イベントベース視覚サーボ法 (EVBS) は, 商用ロボットマニピュレータを目視で操作することで実験的に検証する。 実験は、異なる形状の物体を再調整することなく追跡・把握するebvs法の有効性を実証する。

Robotic vision plays a major role in factory automation to service robot applications. However, the traditional use of frame-based camera sets a limitation on continuous visual feedback due to their low sampling rate and redundant data in real-time image processing, especially in the case of high-speed tasks. Event cameras give human-like vision capabilities such as observing the dynamic changes asynchronously at a high temporal resolution ($1\mu s$) with low latency and wide dynamic range. In this paper, we present a visual servoing method using an event camera and a switching control strategy to explore, reach and grasp to achieve a manipulation task. We devise three surface layers of active events to directly process stream of events from relative motion. A purely event based approach is adopted to extract corner features, localize them robustly using heat maps and generate virtual features for tracking and alignment. Based on the visual feedback, the motion of the robot is controlled to make the temporal upcoming event features converge to the desired event in spatio-temporal space. The controller switches its strategy based on the sequence of operation to establish a stable grasp. The event based visual servoing (EVBS) method is validated experimentally using a commercial robot manipulator in an eye-in-hand configuration. Experiments prove the effectiveness of the EBVS method to track and grasp objects of different shapes without the need for re-tuning.
翻訳日:2022-12-13 04:25:42 公開日:2020-04-15
# Yahoo!ナレッジグラフにおけるWikipediaを用いたエンティティレコメンデーションのための階層グラフ埋め込み

Layered Graph Embedding for Entity Recommendation using Wikipedia in the Yahoo! Knowledge Graph ( http://arxiv.org/abs/2004.06842v1 )

ライセンス: Link先を確認
Chien-Chun Ni, Kin Sum Liu, Nicolas Torzec(参考訳) 本稿では,ウィキペディアの組込み型エンティティレコメンデーションフレームワークについて述べる。このフレームワークは,ウィキペディアを階層化されたグラフの集合に整理し,そのトポロジとコンテンツから補完的なエンティティ表現を学習し,それらをウィキペディア上の関連エンティティを推薦するための軽量な学習-ランクアプローチと組み合わせる。 オフラインおよびオンライン評価を通じて,結果の埋め込みとレコメンデーションが品質とユーザのエンゲージメントの観点から良好に機能することを示す。 シンプルさと品質のバランスをとるこのフレームワークは、wikipediaのコアサブセットであるyahoo! knowledge graphで英語やその他の言語に対するデフォルトエンティティレコメンデーションを提供する。

In this paper, we describe an embedding-based entity recommendation framework for Wikipedia that organizes Wikipedia into a collection of graphs layered on top of each other, learns complementary entity representations from their topology and content, and combines them with a lightweight learning-to-rank approach to recommend related entities on Wikipedia. Through offline and online evaluations, we show that the resulting embeddings and recommendations perform well in terms of quality and user engagement. Balancing simplicity and quality, this framework provides default entity recommendations for English and other languages in the Yahoo! Knowledge Graph, which Wikipedia is a core subset of.
翻訳日:2022-12-13 04:25:19 公開日:2020-04-15
# MeshingNet: ディープラーニングに基づく新しいメッシュ生成方法

MeshingNet: A New Mesh Generation Method based on Deep Learning ( http://arxiv.org/abs/2004.07016v1 )

ライセンス: Link先を確認
Zheyan Zhang, Yongxing Wang, Peter K. Jimack, and He Wang(参考訳) 本稿では,機械学習を用いた非構造化メッシュの自動生成手法を提案し,未発見問題に対する最適有限要素メッシュの予測を行う。 私たちが開発したフレームワークは、ドメイン全体で必要なローカルメッシュ密度の予測に基づいて、標準メッシュ生成ソフトウェアをガイドする、人工知能ニューラルネットワーク(ANN)のトレーニングに基づいています。 本稿では,<emph{a reari} 誤差推定を用いたトレーニング体制について述べるとともに,これまでに検討した ANN のトポロジについて考察する。 次に, 単楕円偏微分方程式(PDE)と線形弾性に付随するPDE系の2つの標準試験問題を用いて, 性能を解説する。 任意の多角形測地および材料パラメータに対して,様々なユーザ選択誤り規範を用いて,高品質メッシュを効果的に生成することを示す。

We introduce a novel approach to automatic unstructured mesh generation using machine learning to predict an optimal finite element mesh for a previously unseen problem. The framework that we have developed is based around training an artificial neural network (ANN) to guide standard mesh generation software, based upon a prediction of the required local mesh density throughout the domain. We describe the training regime that is proposed, based upon the use of \emph{a posteriori} error estimation, and discuss the topologies of the ANNs that we have considered. We then illustrate performance using two standard test problems, a single elliptic partial differential equation (PDE) and a system of PDEs associated with linear elasticity. We demonstrate the effective generation of high quality meshes for arbitrary polygonal geometries and a range of material parameters, using a variety of user-selected error norms.
翻訳日:2022-12-13 04:24:28 公開日:2020-04-15
# 量子多体系のサンプル効率学習

Sample-efficient learning of quantum many-body systems ( http://arxiv.org/abs/2004.07266v1 )

ライセンス: Link先を確認
Anurag Anshu, Srinivasan Arunachalam, Tomotaka Kuwahara, Mehdi Soleimanifar(参考訳) ギブス(熱的)状態からサンプルを得た量子多体系のハミルトニアンを学習する問題について検討する。 この問題の古典的なアナログは、グラフィカルモデルやボルツマンマシンと呼ばれるもので、機械学習と統計学においてよく研究されている問題である。 本研究では,量子ハミルトン学習問題に対する最初のサンプル効率アルゴリズムを提案する。 特に,l_2-ノルムにおける局所ハミルトニアンのパラメータを学習するには,粒子数(量子)の多項式的に多数のサンプルが必要であり十分であることを示す。 我々の主な貢献は、量子多体系の対数分割関数の強い凸性を確立することである。 古典的には、分割函数の強い凸性はギブス分布のマルコフ特性から従う。 しかし、これは量子の場合の正確な形に反することが知られている。 量子系のマルコフの性質に依存しない無条件結果を得るための新しいアイデアをいくつか導入する。 特に、ギブス状態に関して準局所作用素の分散に関する下界を証明し、これは独立興味を持つかもしれない。 我々の研究は、量子多体問題に対する機械学習技術のより厳密な応用に向けた道を開いた。

We study the problem of learning the Hamiltonian of a quantum many-body system given samples from its Gibbs (thermal) state. The classical analog of this problem, known as learning graphical models or Boltzmann machines, is a well-studied question in machine learning and statistics. In this work, we give the first sample-efficient algorithm for the quantum Hamiltonian learning problem. In particular, we prove that polynomially many samples in the number of particles (qudits) are necessary and sufficient for learning the parameters of a spatially local Hamiltonian in l_2-norm. Our main contribution is in establishing the strong convexity of the log-partition function of quantum many-body systems, which along with the maximum entropy estimation yields our sample-efficient algorithm. Classically, the strong convexity for partition functions follows from the Markov property of Gibbs distributions. This is, however, known to be violated in its exact form in the quantum case. We introduce several new ideas to obtain an unconditional result that avoids relying on the Markov property of quantum systems, at the cost of a slightly weaker bound. In particular, we prove a lower bound on the variance of quasi-local operators with respect to the Gibbs state, which might be of independent interest. Our work paves the way toward a more rigorous application of machine learning techniques to quantum many-body problems.
翻訳日:2022-12-13 04:24:13 公開日:2020-04-15
# 大規模なオーナシップ -- オープン問題とオーナシップ管理の課題

Ownership at Large -- Open Problems and Challenges in Ownership Management ( http://arxiv.org/abs/2004.07352v1 )

ライセンス: Link先を確認
John Ahlgren, Maria Eugenia Berezin, Kinga Bojarczuk, Elena Dulskyte, Inna Dvortsova, Johann George, Natalija Gucevska, Mark Harman, Shan He, Ralf L\"ammel, Erik Meijer, Silvia Sapora, and Justin Spahr-Summers(参考訳) ソフトウェア集約型組織は、ソースコードファイル、データウェアハウスのテーブル、ソフトウェア構成など、さまざまなタイプのソフトウェア資産を多数依存している。 特定の資産変更の最も適切な所有者は誰か。例えば、再編成や個々の機能変更によって。 新しい形の自動化は、特定の時点における任意の資産に対して、より適切な所有者を示唆するのに役立つ。 このようなオーナーシップの健全性に対する努力により、オーナーシップの説明責任が増大する。 資産の最も適切な所有者を見つけるという問題は、本質的には、プログラムの理解の問題である。 本稿では、超大規模データマイニングと機械学習を組み合わせたFacebook Ownestyシステムを紹介し、同社のオーナシップ管理アプローチの一環としてFacebookにデプロイされている。 ownestyは数百万のソフトウェア資産(ソースコードファイルなど)を処理し、ワークフローや組織的な側面を考慮に入れます。 この論文は、ソフトウェア工学、プログラミング言語、機械学習の分野から期待される進歩によって、研究コミュニティの所有権に関するオープンな問題と課題を提起する。

Software-intensive organizations rely on large numbers of software assets of different types, e.g., source-code files, tables in the data warehouse, and software configurations. Who is the most suitable owner of a given asset changes over time, e.g., due to reorganization and individual function changes. New forms of automation can help suggest more suitable owners for any given asset at a given point in time. By such efforts on ownership health, accountability of ownership is increased. The problem of finding the most suitable owners for an asset is essentially a program comprehension problem: how do we automatically determine who would be best placed to understand, maintain, evolve (and thereby assume ownership of) a given asset. This paper introduces the Facebook Ownesty system, which uses a combination of ultra large scale data mining and machine learning and has been deployed at Facebook as part of the company's ownership management approach. Ownesty processes many millions of software assets (e.g., source-code files) and it takes into account workflow and organizational aspects. The paper sets out open problems and challenges on ownership for the research community with advances expected from the fields of software engineering, programming languages, and machine learning.
翻訳日:2022-12-13 04:23:06 公開日:2020-04-15
# MLに基づくフィッシングウェブサイト分類器の高度な侵入攻撃と軽減

Advanced Evasion Attacks and Mitigations on Practical ML-Based Phishing Website Classifiers ( http://arxiv.org/abs/2004.06954v1 )

ライセンス: Link先を確認
Yusi Lei, Sen Chen, Lingling Fan, Fu Song, and Yang Liu(参考訳) 機械学習(ML)ベースのアプローチは、アンチフィッシング検出の主流ソリューションである。 クライアント側にデプロイされると、mlベースの分類器は回避攻撃に弱い。 しかし、既存の攻撃でWebページの機能や外観が損なわれ、ホワイトボックスのシナリオで実行されるため、そのような潜在的な脅威は比較的注目されていない。 したがって、機能や外観を保ちつつ、分類器の知識を限定して回避攻撃を起動できるかどうかを理解することが不可欠となる。 本研究では,グレー,ブラックボックスのシナリオにおいても,回避攻撃は実用的なMLベース分類器に有効であるだけでなく,機能や外観を損なうことなく効率的に起動可能であることを示す。 そこで本研究では,対象分類器の知識によって異なる3つの突然変異に基づく攻撃を提案し,既知のフィッシングサイトから敵のサンプルを自動的に作成し,分類器を誤誘導する手法を提案する。 白とグレーのボックスシナリオで攻撃を開始するために、ターゲット分類器の知識を得るためにサンプルベースの衝突攻撃を提案する。 我々は、最先端のGoogleのフィッシングページフィルタに対する回避攻撃の有効性と効率を実証し、Webサイト当たり1秒未満で100%の攻撃成功率を達成した。 さらに、BitDefenderの産業用フィッシングページ分類器であるTrafficLightへの転送可能性攻撃は81.25%の攻撃成功率を達成した。 さらに,このような回避攻撃を緩和する類似性に基づく手法を提案する。 ペリカンが効果的に回避攻撃を検知できることを実証する。 本研究は,より堅牢なフィッシングサイト分類器の設計に寄与する。

Machine learning (ML) based approaches have been the mainstream solution for anti-phishing detection. When they are deployed on the client-side, ML-based classifiers are vulnerable to evasion attacks. However, such potential threats have received relatively little attention because existing attacks destruct the functionalities or appearance of webpages and are conducted in the white-box scenario, making it less practical. Consequently, it becomes imperative to understand whether it is possible to launch evasion attacks with limited knowledge of the classifier, while preserving the functionalities and appearance. In this work, we show that even in the grey-, and black-box scenarios, evasion attacks are not only effective on practical ML-based classifiers, but can also be efficiently launched without destructing the functionalities and appearance. For this purpose, we propose three mutation-based attacks, differing in the knowledge of the target classifier, addressing a key technical challenge: automatically crafting an adversarial sample from a known phishing website in a way that can mislead classifiers. To launch attacks in the white- and grey-box scenarios, we also propose a sample-based collision attack to gain the knowledge of the target classifier. We demonstrate the effectiveness and efficiency of our evasion attacks on the state-of-the-art, Google's phishing page filter, achieved 100% attack success rate in less than one second per website. Moreover, the transferability attack on BitDefender's industrial phishing page classifier, TrafficLight, achieved up to 81.25% attack success rate. We further propose a similarity-based method to mitigate such evasion attacks, Pelican. We demonstrate that Pelican can effectively detect evasion attacks. Our findings contribute to design more robust phishing website classifiers in practice.
翻訳日:2022-12-13 04:17:02 公開日:2020-04-15
# Prolog Technology Reinforcement Learning Prover

Prolog Technology Reinforcement Learning Prover ( http://arxiv.org/abs/2004.06997v1 )

ライセンス: Link先を確認
Zsolt Zombori, Josef Urban, Chad E. Brown(参考訳) 本稿では,接続計算における自動定理の導出実験のための強化学習ツールキットを提案する。 このツールキットのコアはコンパクトで拡張しやすいprologベースの自動定理証明器plcopである。 plCoPは、LeadCoP Prologの実装に基づいて構築されており、rlCoPシステムで実施された学習誘導のMonte-Carlo Tree Searchを追加している。 その他のコンポーネントには、plCoPとマシン学習者のPythonインターフェース、plCoP証明の有効性を検証する外部証明チェッカーなどがある。 このツールキットは2つのベンチマークで評価され,(1)ガイダンスを縮小ステップに拡張し,(2)標準の leanCoP 計算を書き換えステップと学習ガイダンスで拡張する,という2つの追加によって拡張性を示す。 プロログ設定は統計的学習法と記号的学習法を組み合わせるのに適している。 完全なツールキットが公開されている。

We present a reinforcement learning toolkit for experiments with guiding automated theorem proving in the connection calculus. The core of the toolkit is a compact and easy to extend Prolog-based automated theorem prover called plCoP. plCoP builds on the leanCoP Prolog implementation and adds learning-guided Monte-Carlo Tree Search as done in the rlCoP system. Other components include a Python interface to plCoP and machine learners, and an external proof checker that verifies the validity of plCoP proofs. The toolkit is evaluated on two benchmarks and we demonstrate its extendability by two additions: (1) guidance is extended to reduction steps and (2) the standard leanCoP calculus is extended with rewrite steps and their learned guidance. We argue that the Prolog setting is suitable for combining statistical and symbolic learning methods. The complete toolkit is publicly released.
翻訳日:2022-12-13 04:16:37 公開日:2020-04-15
# NNを用いたDISTINCT, AND, OR, NOT処理用SQL心電図の変換

NN-based Transformation of Any SQL Cardinality Estimator for Handling DISTINCT, AND, OR and NOT ( http://arxiv.org/abs/2004.07009v1 )

ライセンス: Link先を確認
Rojeh Hayek, Oded Shmueli(参考訳) AND、OR、NOT演算子を含むSQLクエリは、非常によく使われているクエリの幅広いクラスを構成する。 したがって、その濃度推定はクエリ最適化に重要である。 さらに、クエリプランナは、例えばソートオプションを検討する際に、DISTINCTのクエリや計画において、セット理論の濃度(すなわち重複のない)を必要とする。 しかし, DISTINCT, AND, OR, NOTの存在下では, 問合せ基準を推定することが重要であるにもかかわらず, 重複をカウントした共役クエリのみの問合せ基準を推定することに限定されている。 この研究の焦点は、任意の限られた濃度推定モデルに適用できるこの欠陥を扱う2つの方法である。 まず,連結型sqlクエリを表現し,クエリ結果のユニークな行の割合を重複行で予測する,特別なディープラーニングスキームである punq について述べる。 punqによって得られた予測割合を用いて、連結クエリのみを推定し、重複のある基数(例えばmscn)で基数を推定する任意の基数推定方法を、重複せずにクエリ基数を推定する手法に変換することができる。 これにより、クエリの濃度をDISTINCTキーワードで推定できる。 さらに,結合的問合せのみを扱う任意の濃度推定法mを,より一般的な問合せ(含まない,含まない)の基数を推定する方法m自体を変更することなく拡張する再帰的アルゴリズムgencrdについて述べる。 本評価は,特定のキーワードやand,あるいは演算子を含む汎用クエリを持つ,挑戦的で実世界のデータベース上で実施する。 実験により,提案手法は元の変換手法と同じ精度で精度の高い濃度推定値が得られることを示した。

SQL queries, with the AND, OR, and NOT operators, constitute a broad class of highly used queries. Thus, their cardinality estimation is important for query optimization. In addition, a query planner requires the set-theoretic cardinality (i.e., without duplicates) for queries with DISTINCT as well as in planning; for example, when considering sorting options. Yet, despite the importance of estimating query cardinalities in the presence of DISTINCT, AND, OR, and NOT, many cardinality estimation methods are limited to estimating cardinalities of only conjunctive queries with duplicates counted. The focus of this work is on two methods for handling this deficiency that can be applied to any limited cardinality estimation model. First, we describe a specialized deep learning scheme, PUNQ, which is tailored to representing conjunctive SQL queries and predicting the percentage of unique rows in the query's result with duplicate rows. Using the predicted percentages obtained via PUNQ, we are able to transform any cardinality estimation method that only estimates for conjunctive queries, and which estimates cardinalities with duplicates (e.g., MSCN), to a method that estimates queries cardinalities without duplicates. This enables estimating cardinalities of queries with the DISTINCT keyword. In addition, we describe a recursive algorithm, GenCrd, for extending any cardinality estimation method M that only handles conjunctive queries to one that estimates cardinalities for more general queries (that include AND, OR, and NOT), without changing the method M itself. Our evaluation is carried out on a challenging, real-world database with general queries that include either the DISTINCT keyword or the AND, OR, and NOT operators. Experimentally, we show that the proposed methods obtain accurate cardinality estimates with the same level of accuracy as that of the original transformed methods.
翻訳日:2022-12-13 04:16:23 公開日:2020-04-15
# オンライン・マルチサーバ・凸追跡と最適化

Online Multiserver Convex Chasing and Optimization ( http://arxiv.org/abs/2004.07346v1 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Yuval Rabani, Mark Sellke(参考訳) 本稿では、凸関数の$k$-chasingの問題、有名なkサーバ問題を$R^d$で同時に一般化すること、および凸体や関数を追尾する問題を紹介する。 この一般的な形式に対する基本的な関心とは別に、$k$-medianや$k$-meansのような目的を持ったオンラインの$k$-clustering問題への自然な応用がある。 この問題は行動の豊かな景観を示している。 一般に、$k > 1$ と $d > 1$ の両方が有界な競合性を持つオンラインアルゴリズムは存在しない。 これとは対照的に、優れた振る舞いをする関数(特に上記のクラスタリング問題を含む)のクラスを示し、競争力のあるオンラインアルゴリズムの存在を示し、さらに次元のない競争比率を示す。 また,オンライン凸最適化の分野では,最大$k$アクション後悔最小化という並列問題も導入する。 さらには、$k > 1$という、より粗いランドスケープも出現する。 後悔を消失させることは可能であるが、トップワンのアクションケースとは異なり、消失の速度は強い凸関数に対して加速しない。 さらに、失う後悔は、難解な計算とランダム性の両方を必要とします。 最後に、ほぼ次元のない後悔が、k > 1$ と一般凸損失で達成可能かどうかを明記する。 可能かもしれないという証拠として、情報理論的な議論を通じて線形損失に対する次元フリーな後悔を証明する。

We introduce the problem of $k$-chasing of convex functions, a simultaneous generalization of both the famous k-server problem in $R^d$, and of the problem of chasing convex bodies and functions. Aside from fundamental interest in this general form, it has natural applications to online $k$-clustering problems with objectives such as $k$-median or $k$-means. We show that this problem exhibits a rich landscape of behavior. In general, if both $k > 1$ and $d > 1$ there does not exist any online algorithm with bounded competitiveness. By contrast, we exhibit a class of nicely behaved functions (which include in particular the above-mentioned clustering problems), for which we show that competitive online algorithms exist, and moreover with dimension-free competitive ratio. We also introduce a parallel question of top-$k$ action regret minimization in the realm of online convex optimization. There, too, a much rougher landscape emerges for $k > 1$. While it is possible to achieve vanishing regret, unlike the top-one action case the rate of vanishing does not speed up for strongly convex functions. Moreover, vanishing regret necessitates both intractable computations and randomness. Finally we leave open whether almost dimension-free regret is achievable for $k > 1$ and general convex losses. As evidence that it might be possible, we prove dimension-free regret for linear losses via an information-theoretic argument.
翻訳日:2022-12-13 04:14:51 公開日:2020-04-15
# 変分劣化を伴う超解法のための統一動的畳み込みネットワーク

Unified Dynamic Convolutional Network for Super-Resolution with Variational Degradations ( http://arxiv.org/abs/2004.06965v1 )

ライセンス: Link先を確認
Yu-Syuan Xu, Shou-Yao Roy Tseng, Yu Tseng, Hsien-Kai Kuo, Yi-Min Tsai(参考訳) Deep Convolutional Neural Networks (CNN) は、Single Image Super-Resolution (SISR) において顕著な成果を上げている。 単一の分解だけを考えると、最近の研究では現実世界のケースをよりよく反映する複数の劣化効果も含まれている。 しかし、ほとんどの作品では、劣化効果の固定的な組み合わせや、異なる組み合わせのために個々のネットワークを訓練することさえある。 代わりに、より実用的なアプローチは、広帯域かつ変分分解のための単一のネットワークを訓練することである。 この要件を満たすために,画像間(画像間変動)と画像内変動(空間的変動)のバリエーションに対応する統一ネットワークを提案する。 既存の作業と異なり、異なるバリエーションを扱うための、はるかに柔軟な代替手段である動的畳み込みを取り入れています。 非盲点設定のSISRでは、変分分解のためのUnified Dynamic Convolutional Network for Variational Degradations (UDVD) を、広範囲な変分集合を持つ合成画像と実画像の両方で評価する。 定性的な結果は既存の様々な作品に対してUDVDの有効性を示す。 広汎な実験により,我々のUDVDは,合成画像と実画像の両方において好意的あるいは同等のパフォーマンスを達成できた。

Deep Convolutional Neural Networks (CNNs) have achieved remarkable results on Single Image Super-Resolution (SISR). Despite considering only a single degradation, recent studies also include multiple degrading effects to better reflect real-world cases. However, most of the works assume a fixed combination of degrading effects, or even train an individual network for different combinations. Instead, a more practical approach is to train a single network for wide-ranging and variational degradations. To fulfill this requirement, this paper proposes a unified network to accommodate the variations from inter-image (cross-image variations) and intra-image (spatial variations). Different from the existing works, we incorporate dynamic convolution which is a far more flexible alternative to handle different variations. In SISR with non-blind setting, our Unified Dynamic Convolutional Network for Variational Degradations (UDVD) is evaluated on both synthetic and real images with an extensive set of variations. The qualitative results demonstrate the effectiveness of UDVD over various existing works. Extensive experiments show that our UDVD achieves favorable or comparable performance on both synthetic and real images.
翻訳日:2022-12-13 04:08:01 公開日:2020-04-15
# 部分観測室の配置予測のための室内環境の探索

Exploration of Indoor Environments Predicting the Layout of Partially Observed Rooms ( http://arxiv.org/abs/2004.06967v1 )

ライセンス: Link先を確認
Matteo Luperto, Luca Fochetta, Francesco Amigoni(参考訳) 自律移動ロボットが当初未知の屋内環境の地図を段階的に構築する探索作業を検討する。 このようなタスクでは、ロボットは次に移動する場所について一連の決定を行い、通常、環境の観察された部分に関する知識に基づいて決定する。 本稿では,未知の環境の幾何学的構造の予測を利用して探索性能を向上させる手法を提案する。 特に,室内環境の正則性を表す幾何学的特徴に基づいて,部分的グリッドマップから環境のレイアウトを再構成し,部分的に観察された部屋の形状を予測する既存の手法を活用する。 そこで,我々はまず,ロボットが観測する新たな領域の量を推定するために,予測レイアウトを用いて,次の最適な場所の選択を通知し,さらに関連する領域が発見されない場合に探索を早期に停止する。 実験により,我々は,部分的に観察された部屋の配置を効果的に予測し,その知識を用いて探索を高速化できることを示した。

We consider exploration tasks in which an autonomous mobile robot incrementally builds maps of initially unknown indoor environments. In such tasks, the robot makes a sequence of decisions on where to move next that, usually, are based on knowledge about the observed parts of the environment. In this paper, we present an approach that exploits a prediction of the geometric structure of the unknown parts of an environment to improve exploration performance. In particular, we leverage an existing method that reconstructs the layout of an environment starting from a partial grid map and that predicts the shape of partially observed rooms on the basis of geometric features representing the regularities of the indoor environment. Then, we originally employ the predicted layout to estimate the amount of new area the robot would observe from candidate locations in order to inform the selection of the next best location and to early stop the exploration when no further relevant area is expected to be discovered. Experimental activities show that our approach is able to effectively predict the layout of partially observed rooms and to use such knowledge to speed up the exploration.
翻訳日:2022-12-13 04:07:41 公開日:2020-04-15
# リアルタイムハイパースペクトル再構成のためのMXR-U-Nets

MXR-U-Nets for Real Time Hyperspectral Reconstruction ( http://arxiv.org/abs/2004.07003v1 )

ライセンス: Link先を確認
Atmadeep Banerjee, Akash Palrecha(参考訳) 近年、CNNは画像生成、超解像度、スタイル転送の応用に多大な貢献をしている。 本稿では,Howard and Gugger,He et al.,Misra,D.の業績に基づいて,RGBの高スペクトル像を正確に再構成するCNNアーキテクチャを提案する。 また,10%の相対メモリフットプリントと3倍の高速化を実現した最良モデルのより浅いバージョンを提案する。

In recent times, CNNs have made significant contributions to applications in image generation, super-resolution and style transfer. In this paper, we build upon the work of Howard and Gugger, He et al. and Misra, D. and propose a CNN architecture that accurately reconstructs hyperspectral images from their RGB counterparts. We also propose a much shallower version of our best model with a 10% relative memory footprint and 3x faster inference, thus enabling real-time video applications while still experiencing only about a 0.5% decrease in performance.
翻訳日:2022-12-13 04:06:58 公開日:2020-04-15
# ハイブリッド表現を用いた画像分割

Image Segmentation Using Hybrid Representations ( http://arxiv.org/abs/2004.07071v1 )

ライセンス: Link先を確認
Alakh Desai, Ruchi Chauhan, Jayanthi Sivaswamy(参考訳) この研究は、純粋データ駆動アプローチの代替としてセグメンテーションへのハイブリッドアプローチを探求する。 本稿では,医用画像のセグメンテーションにScattering Coefficients (SC) という周波数保存機能を付加した,DU-Netと呼ばれるエンドツーエンドU-Netネットワークを提案する。 SCは変換不変であり、DU-Netが従来のCNNの4つのデータセットと2つのセグメンテーションタスクでパフォーマンスを向上するのに役立つ変形に対するリプシッツは連続している。 提案手法は,最先端手法と競合する性能を持つ基本U-Netよりも優れた性能を示す。 その結果、より少ない画像で訓練されたより軽いネットワークを使用して、良好なセグメンテーション結果を得ることができた。

This work explores a hybrid approach to segmentation as an alternative to a purely data-driven approach. We introduce an end-to-end U-Net based network called DU-Net, which uses additional frequency preserving features, namely the Scattering Coefficients (SC), for medical image segmentation. SC are translation invariant and Lipschitz continuous to deformations which help DU-Net outperform other conventional CNN counterparts on four datasets and two segmentation tasks: Optic Disc and Optic Cup in color fundus images and fetal Head in ultrasound images. The proposed method shows remarkable improvement over the basic U-Net with performance competitive to state-of-the-art methods. The results indicate that it is possible to use a lighter network trained with fewer images (without any augmentation) to attain good segmentation results.
翻訳日:2022-12-13 04:06:48 公開日:2020-04-15
# RescueNet:衛星画像による共同建物セグメンテーションと損傷評価

RescueNet: Joint Building Segmentation and Damage Assessment from Satellite Imagery ( http://arxiv.org/abs/2004.07312v1 )

ライセンス: Link先を確認
Rohit Gupta and Mubarak Shah(参考訳) 自然災害の直後の人道支援・災害対応(HADR)業務を指示するためには,建物への被害の程度に関する正確な,きめ細かい情報が必要である。 近年、衛星とuav (drone) の画像はこの目的のために使われており、コンピュータビジョンアルゴリズムによって支援されている。 建物損傷評価のための既存のコンピュータビジョンアプローチは、通常、物体検出モデルを用いた建物検出と、検出された建物タイルの分類による損傷評価の2段階のアプローチに依存している。 これらの多段階の手法はエンドツーエンドのトレーニングには適せず、全体的な結果に乏しい。 本研究では,建物を分割し,個々の建物に対する被害度を評価できる統一モデルであるrescuenetを提案する。 本研究では, 建物セグメンテーションにおける二元的クロス・エントロピー損失と, 被害分類のための前景のみの選択的カテゴリ的クロス・エントロピー損失とからなり, 広く使用されているクロス・エントロピー損失よりも大幅に改善された新しい局所化対応損失関数を提案する。 RescueNetは大規模で多様なxBDデータセットでテストされており、従来の手法よりもはるかに優れたセグメンテーションと損傷分類性能を実現し、さまざまな地理的地域や災害タイプをまたいだ一般化を実現している。

Accurate and fine-grained information about the extent of damage to buildings is essential for directing Humanitarian Aid and Disaster Response (HADR) operations in the immediate aftermath of any natural calamity. In recent years, satellite and UAV (drone) imagery has been used for this purpose, sometimes aided by computer vision algorithms. Existing Computer Vision approaches for building damage assessment typically rely on a two stage approach, consisting of building detection using an object detection model, followed by damage assessment through classification of the detected building tiles. These multi-stage methods are not end-to-end trainable, and suffer from poor overall results. We propose RescueNet, a unified model that can simultaneously segment buildings and assess the damage levels to individual buildings and can be trained end-toend. In order to to model the composite nature of this problem, we propose a novel localization aware loss function, which consists of a Binary Cross Entropy loss for building segmentation, and a foreground only selective Categorical Cross-Entropy loss for damage classification, and show significant improvement over the widely used Cross-Entropy loss. RescueNet is tested on the large scale and diverse xBD dataset and achieves significantly better building segmentation and damage classification performance than previous methods and achieves generalization across varied geographical regions and disaster types.
翻訳日:2022-12-13 04:06:15 公開日:2020-04-15
# ロボットグラスピングとマニピュレーションにおけるニューロモルフィック事象に基づくすべりの検出と抑制

Neuromorphic Event-Based Slip Detection and suppression in Robotic Grasping and Manipulation ( http://arxiv.org/abs/2004.07386v1 )

ライセンス: Link先を確認
Rajkumar Muthusamy, Xiaoqian Huang, Yahya Zweiri, Lakmal Seneviratne and Dongming Gan(参考訳) スリップ検出は、ロボットがしっかりと把握し、細かい操作を行うのに不可欠である。 本稿では,スリップ検出と抑制のための動的視覚に基づく指システムを提案する。 また,照明や振動の不確かさ下で物体のすべりを検出するためのベースラインと特徴に基づく手法を提案する。 スリップ検出を改善するために,ノイズをリアルタイムに自動サンプリングするしきい値法を考案した。 また,グリップ力の制御に初期すべりフィードバックを用いたファジィ型抑制戦略を提案する。 不確実性と高精度操作のためのシステムに基づく提案手法の包括的実験を行った。 また,その性能を定量的に評価するスリップ指標を提案する。 その結果,本システムは2kHz (\Delta t = 500\mu s$) のサンプリング速度で初期すべり現象を効果的に検出し,大すべりが起こる前に抑制できることが示唆された。 イベントベースのアプローチは、工業生産および家庭用サービスにおける高精度な操作タスク要求を約束する。

Slip detection is essential for robots to make robust grasping and fine manipulation. In this paper, a novel dynamic vision-based finger system for slip detection and suppression is proposed. We also present a baseline and feature based approach to detect object slips under illumination and vibration uncertainty. A threshold method is devised to autonomously sample noise in real-time to improve slip detection. Moreover, a fuzzy based suppression strategy using incipient slip feedback is proposed for regulating the grip force. A comprehensive experimental study of our proposed approaches under uncertainty and system for high-performance precision manipulation are presented. We also propose a slip metric to evaluate such performance quantitatively. Results indicate that the system can effectively detect incipient slip events at a sampling rate of 2kHz ($\Delta t = 500\mu s$) and suppress them before a gross slip occurs. The event-based approach holds promises to high precision manipulation task requirement in industrial manufacturing and household services.
翻訳日:2022-12-13 04:05:35 公開日:2020-04-15
# 幾何と情報理論を組み合わせたマルチロボット探査

Combining Geometric and Information-Theoretic Approaches for Multi-Robot Exploration ( http://arxiv.org/abs/2004.06856v1 )

ライセンス: Link先を確認
Aravind Preshant Premkumar, Kevin Yu, and Pratap Tokekar(参考訳) p$ロボットのチームを用いて直交多角形を探索するアルゴリズムを提案する。 このアルゴリズムは、情報理論探索アルゴリズムと計算幾何学に基づく探索アルゴリズムのアイデアを組み合わせる。 我々は,オフライン最適探索アルゴリズムに関して,アルゴリズムの探索時間が($p$の関数として)競争的であることを示す。 このアルゴリズムは、単ロボット多角探索アルゴリズム、高レベル計画のための木探索アルゴリズム、低レベル計画のためのサブモジュラーオリエンテーリングアルゴリズムに基づいている。 我々は、この戦略を現実世界の設定に応用し、ノイズの多いセンサを扱う方法について論じる。 理論解析に加えて,複数ロボットのシミュレーションと単一ロボットによる実験により,アルゴリズムの性能について検討した。

We present an algorithm to explore an orthogonal polygon using a team of $p$ robots. This algorithm combines ideas from information-theoretic exploration algorithms and computational geometry based exploration algorithms. We show that the exploration time of our algorithm is competitive (as a function of $p$) with respect to the offline optimal exploration algorithm. The algorithm is based on a single-robot polygon exploration algorithm, a tree exploration algorithm for higher level planning and a submodular orienteering algorithm for lower level planning. We discuss how this strategy can be adapted to real-world settings to deal with noisy sensors. In addition to theoretical analysis, we investigate the performance of our algorithm through simulations for multiple robots and experiments with a single robot.
翻訳日:2022-12-13 03:58:42 公開日:2020-04-15
# ミラーリチュアル:人間と機械による感情の共作

Mirror Ritual: Human-Machine Co-Construction of Emotion ( http://arxiv.org/abs/2004.06883v1 )

ライセンス: Link先を確認
Nina Rajcic and Jon McCormack(参考訳) mirror ritualは、人間の感情と機械の知覚を理解する既存のパラダイムに挑戦するインタラクティブなインストレーションです。 規範的なインターフェイスとは対照的に、作品のリアルタイム感情的インターフェイスは、感情的にチャージされた機械による詩を用いて感情状態の反復的な概念化において観客を惹きつける。 観客は、近年の生活経験を反映して鏡の詩を熟読し、感情の感情を効果的に表現することで、鏡の詩を理解することを奨励される。 ラベル付けと文脈化に影響を与えるこのプロセスは、感情を調節するだけでなく、人間のアイデンティティを構成する豊かな個人的物語を構築するのに役立つ。

Mirror Ritual is an interactive installation that challenges the existing paradigms in our understanding of human emotion and machine perception. In contrast to prescriptive interfaces, the work's real-time affective interface engages the audience in the iterative conceptualisation of their emotional state through the use of affectively-charged machine generated poetry. The audience are encouraged to make sense of the mirror's poetry by framing it with respect to their recent life experiences, effectively `putting into words' their felt emotion. This process of affect labelling and contextualisation works to not only regulate emotion, but helps to construct the rich personal narratives that constitute human identity.
翻訳日:2022-12-13 03:58:33 公開日:2020-04-15
# 人間による解釈可能性の評価:AIによる音楽知識の事例

Human Evaluation of Interpretability: The Case of AI-Generated Music Knowledge ( http://arxiv.org/abs/2004.06894v1 )

ライセンス: Link先を確認
Haizi Yu, Heinrich Taube, James A. Evans, Lav R. Varshney(参考訳) 機械学習モデルの解釈性は、ai(artificial intelligence)とhci(human-computer interaction)コミュニティの研究者の間でますます注目を集めている。 既存の作業のほとんどは意思決定に重点を置いています。 特に、芸術と人文科学におけるAIによる知識/ルールの評価に焦点を当てる。 特定のシナリオから,洗練された記号・数値オブジェクトとして表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。 私たちの目標は、AIソースから表現力のあるメッセージをデコードするプロセスにおける可能性と課題の両方を明らかにすることです。 これを第一歩として扱う 1)人間の解釈可能なAI表現のより良い設計 2)AIが発見する知識表現の解釈可能性を評価するための一般的な手法。

Interpretability of machine learning models has gained more and more attention among researchers in the artificial intelligence (AI) and human-computer interaction (HCI) communities. Most existing work focuses on decision making, whereas we consider knowledge discovery. In particular, we focus on evaluating AI-discovered knowledge/rules in the arts and humanities. From a specific scenario, we present an experimental procedure to collect and assess human-generated verbal interpretations of AI-generated music theory/rules rendered as sophisticated symbolic/numeric objects. Our goal is to reveal both the possibilities and the challenges in such a process of decoding expressive messages from AI sources. We treat this as a first step towards 1) better design of AI representations that are human interpretable and 2) a general methodology to evaluate interpretability of AI-discovered knowledge representations.
翻訳日:2022-12-13 03:58:21 公開日:2020-04-15
# CoqにおけるTrakhtenbrotの理論 : 有限モデル理論への構成的アプローチ

Trakhtenbrot's Theorem in Coq, A Constructive Approach to Finite Model Theory ( http://arxiv.org/abs/2004.07390v1 )

ライセンス: Link先を確認
Dominik Kirst and Dominique Larchey-Wendling(参考訳) 従属型理論の構成的設定における有限一階満足度(FSAT)について検討する。 可算性と決定可能性の総合的な説明を用いて、非論理記号の1次符号に依存するFSATの完全な分類を行う。 一方、我々の発展はトラクテンブロットの定理に焦点を合わせ、符号が少なくとも二項関係記号を含むと、FSATは決定不能であると述べた。 我々の証明はPost対応問題から始まる多くの還元鎖によって進行する。 一方、モナディックな一階述語論理に対する FSAT の決定性、すなわち、シグネチャがほとんどの単項関数と関係記号のみを含む場合、および任意の可算シグネチャに対する FSAT の可算性を確立する。 すべての結果は、合成不確定性証明のcoqライブラリの枠組みで機械化されています。

We study finite first-order satisfiability (FSAT) in the constructive setting of dependent type theory. Employing synthetic accounts of enumerability and decidability, we give a full classification of FSAT depending on the first-order signature of non-logical symbols. On the one hand, our development focuses on Trakhtenbrot's theorem, stating that FSAT is undecidable as soon as the signature contains an at least binary relation symbol. Our proof proceeds by a many-one reduction chain starting from the Post correspondence problem. On the other hand, we establish the decidability of FSAT for monadic first-order logic, i.e. where the signature only contains at most unary function and relation symbols, as well as the enumerability of FSAT for arbitrary enumerable signatures. All our results are mechanised in the framework of a growing Coq library of synthetic undecidability proofs.
翻訳日:2022-12-13 03:57:28 公開日:2020-04-15
# 非線形特徴を用いたベンガル語の話者認識

Speaker Recognition in Bengali Language from Nonlinear Features ( http://arxiv.org/abs/2004.07820v1 )

ライセンス: Link先を確認
Uddalok Sarkar, Soumyadeep Pal, Sayan Nag, Chirayata Bhattacharya, Shankha Sanyal, Archi Banerjee, Ranjan Sengupta and Dipak Ghosh(参考訳) 現在,多種多様な応用のために,自動話者認識システムは非常に重要な課題である。 したがって、人の話し方、声道情報、彼の声の音節品質、および彼の声に関する他の先天的な情報を考慮したモデルを得る必要がある。 ベンガル語音声認識と話者識別の研究は文献にはほとんどない。 したがって、ベンガルの被験者が話者識別エンジンをモデル化する必要性が生じる。 本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。 Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。 ソース特性は相関行列やMFDFAスペクトルの歪度などの異なる手法の助けを借りて定量化されている。 本研究の結果はベンガル語話者の認識率に優れていた。

At present Automatic Speaker Recognition system is a very important issue due to its diverse applications. Hence, it becomes absolutely necessary to obtain models that take into consideration the speaking style of a person, vocal tract information, timbral qualities of his voice and other congenital information regarding his voice. The study of Bengali speech recognition and speaker identification is scarce in the literature. Hence the need arises for involving Bengali subjects in modelling our speaker identification engine. In this work, we have extracted some acoustic features of speech using non linear multifractal analysis. The Multifractal Detrended Fluctuation Analysis reveals essentially the complexity associated with the speech signals taken. The source characteristics have been quantified with the help of different techniques like Correlation Matrix, skewness of MFDFA spectrum etc. The Results obtained from this study gives a good recognition rate for Bengali Speakers.
翻訳日:2022-12-13 03:57:12 公開日:2020-04-15
# 脊髄x線画像からのスコリオーシスの解析

Analysis of Scoliosis From Spinal X-Ray Images ( http://arxiv.org/abs/2004.06887v1 )

ライセンス: Link先を確認
Abdullah-Al-Zubaer Imran, Chao Huang, Hui Tang, Wei Fan, Kenneth M.C. Cheung, Michael To, Zhen Qian, Demetri Terzopoulos(参考訳) スコリシス(scoliosis)は、脊椎が正常な形状から変形する先天性疾患である。 脊柱管の計測には脊椎のラベル付けと識別が必要である。 脊椎x線撮影は、脊椎の撮影に最も費用対効果が高く、アクセスしやすい方法である。 脊椎X線写真における信頼性と正確性は、画像誘導脊椎評価、疾患診断、治療計画において重要である。 従来のアセスメントは退屈で時間のかかる手動測定に依存しており、これはサーバ間変動の対象となる。 文献では、関連する椎骨を正確に識別・分節できる完全自動的な方法が使用できない。 進行側出力を用いた慎重に調整したU-Netモデルを用いて, 脊柱管計測に伴う脊椎の完全自動的かつ信頼性の高いセグメンテーションを行うエンド・ツー・エンドセグメンテーションモデルを提案する。 前脊椎x線画像から得られた実験結果から,平均黄斑スコア0.993のモデルが椎骨の同定と分類に有効なツールであることを証明し,最終的には医師によるスコリオシスの信頼性評価に役立てることができた。 さらに, 分節椎骨からのコブ角の推定により, モデルの有効性がさらに示された。

Scoliosis is a congenital disease in which the spine is deformed from its normal shape. Measurement of scoliosis requires labeling and identification of vertebrae in the spine. Spine radiographs are the most cost-effective and accessible modality for imaging the spine. Reliable and accurate vertebrae segmentation in spine radiographs is crucial in image-guided spinal assessment, disease diagnosis, and treatment planning. Conventional assessments rely on tedious and time-consuming manual measurement, which is subject to inter-observer variability. A fully automatic method that can accurately identify and segment the associated vertebrae is unavailable in the literature. Leveraging a carefully-adjusted U-Net model with progressive side outputs, we propose an end-to-end segmentation model that provides a fully automatic and reliable segmentation of the vertebrae associated with scoliosis measurement. Our experimental results from a set of anterior-posterior spine X-Ray images indicate that our model, which achieves an average Dice score of 0.993, promises to be an effective tool in the identification and labeling of spinal vertebrae, eventually helping doctors in the reliable estimation of scoliosis. Moreover, estimation of Cobb angles from the segmented vertebrae further demonstrates the effectiveness of our model.
翻訳日:2022-12-13 03:57:01 公開日:2020-04-15
# 可視光と赤外線イメージングを併用したポータブルデバイス上でのCOVID-19などの呼吸器感染症の効率的な検出

Combining Visible Light and Infrared Imaging for Efficient Detection of Respiratory Infections such as COVID-19 on Portable Device ( http://arxiv.org/abs/2004.06912v1 )

ライセンス: Link先を確認
Zheng Jiang, Menghan Hu, Lei Fan, Yaling Pan, Wei Tang, Guangtao Zhai, Yong Lu(参考訳) コロナウイルス病2019(COVID-19)は、ここ数ヶ月で深刻な世界的な流行となり、世界中の人間社会に大きな損失をもたらした。 このような大規模な流行に対して、ウイルスキャリアの早期発見と隔離は、感染拡大を抑制するために不可欠である。 最近の研究では、covid-19の重要な特徴の1つは、ウイルス感染によって引き起こされる呼吸状態の異常であることが示された。 流行の間、多くの人々がマスクを着用して病気のリスクを減らす傾向にある。 そこで本稿では,マスクを着用している人の健康状態を呼吸特性の分析によりスクリーニングする携帯型非接触法を提案する。 このデバイスは主にFLIRカメラとAndroidスマートフォンで構成されている。 これは、学校や病院での事前検査のような実用的なシナリオの下で、新型コロナウイルス(covid-19)の潜在的な患者を特定するのに役立つかもしれない。 本研究では,dual-modeカメラとdeep learningアーキテクチャから得られたrgbとサーマルビデオの組み合わせによる健康スクリーニングを行い,まず顔認証を用いてマスク着用者の呼吸データ取得技術を実現する。 そして、呼吸データに注目機構を有する双方向GRUニューラルネットワークを適用し、健康スクリーニング結果を得る。 バリデーション実験の結果,本モデルは実世界のデータセット上で83.7\%の精度で呼吸の健康状態を同定できることがわかった。 この異常呼吸データおよび正常呼吸データの一部は、上海東大医科大学附属の類人病院から収集される。 他の正常な呼吸データは、研究者の周りの健康な人々から得られる。 本研究は、現在の新型コロナウイルスの流行と闘うための、呼吸器感染症の事前スキャン方法として、ポータブルでインテリジェントな健康スクリーニングデバイスが利用可能であることを実証する。

Coronavirus Disease 2019 (COVID-19) has become a serious global epidemic in the past few months and caused huge loss to human society worldwide. For such a large-scale epidemic, early detection and isolation of potential virus carriers is essential to curb the spread of the epidemic. Recent studies have shown that one important feature of COVID-19 is the abnormal respiratory status caused by viral infections. During the epidemic, many people tend to wear masks to reduce the risk of getting sick. Therefore, in this paper, we propose a portable non-contact method to screen the health condition of people wearing masks through analysis of the respiratory characteristics. The device mainly consists of a FLIR one thermal camera and an Android phone. This may help identify those potential patients of COVID-19 under practical scenarios such as pre-inspection in schools and hospitals. In this work, we perform the health screening through the combination of the RGB and thermal videos obtained from the dual-mode camera and deep learning architecture.We first accomplish a respiratory data capture technique for people wearing masks by using face recognition. Then, a bidirectional GRU neural network with attention mechanism is applied to the respiratory data to obtain the health screening result. The results of validation experiments show that our model can identify the health status on respiratory with the accuracy of 83.7\% on the real-world dataset. The abnormal respiratory data and part of normal respiratory data are collected from Ruijin Hospital Affiliated to The Shanghai Jiao Tong University Medical School. Other normal respiratory data are obtained from healthy people around our researchers. This work demonstrates that the proposed portable and intelligent health screening device can be used as a pre-scan method for respiratory infections, which may help fight the current COVID-19 epidemic.
翻訳日:2022-12-13 03:56:40 公開日:2020-04-15
# マルチモーダルAIにおけるバイアス: 公正な自動リクルートのためのテストベッド

Bias in Multimodal AI: Testbed for Fair Automatic Recruitment ( http://arxiv.org/abs/2004.07173v1 )

ライセンス: Link先を確認
Alejandro Pe\~na, Ignacio Serna, Aythami Morales, and Julian Fierrez(参考訳) 社会における意思決定アルゴリズムの存在は急速に増加しており、その透明性とこれらのアルゴリズムが新たな差別源となる可能性への懸念が生まれている。 実際、関連する多くの自動化システムは、機密情報に基づいて決定を下したり、特定の社会的グループ(例えば、特定の人物認識のための生体認証システム)を識別することが示されている。 異質な情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中のセンシティブな要素や内部バイアスによってどのように影響を受けるかを研究することを目的として、架空の自動採用テストベッドであるFairCVtestを提案する。 性別や人種バイアスを意識して得点したマルチモーダル合成プロファイルを用いて,自動採用アルゴリズムを訓練する。 faircvtestは、そのような採用ツールの背後にある人工知能(ai)の能力を示し、非構造化データから機密情報を抽出し、望ましくない(公正な)方法でデータバイアスと組み合わせて活用する。 最後に,深層学習アーキテクチャの意思決定プロセスからセンシティブな情報を除去可能な最近の開発手法の一覧を示す。 我々は、これらのアルゴリズムのうちの1つ(SensitiveNets)を使って、マルチモーダルAIフレームワークにおけるセンシティブな情報の排除のための差別認識学習を実験しました。 我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。

The presence of decision-making algorithms in society is rapidly increasing nowadays, while concerns about their transparency and the possibility of these algorithms becoming new sources of discrimination are arising. In fact, many relevant automated systems have been shown to make decisions based on sensitive information or discriminate certain social groups (e.g. certain biometric systems for person recognition). With the aim of studying how current multimodal algorithms based on heterogeneous sources of information are affected by sensitive elements and inner biases in the data, we propose a fictitious automated recruitment testbed: FairCVtest. We train automatic recruitment algorithms using a set of multimodal synthetic profiles consciously scored with gender and racial biases. FairCVtest shows the capacity of the Artificial Intelligence (AI) behind such recruitment tool to extract sensitive information from unstructured data, and exploit it in combination to data biases in undesirable (unfair) ways. Finally, we present a list of recent works developing techniques capable of removing sensitive information from the decision-making process of deep learning architectures. We have used one of these algorithms (SensitiveNets) to experiment discrimination-aware learning for the elimination of sensitive information in our multimodal AI framework. Our methodology and results show how to generate fairer AI-based tools in general, and in particular fairer automated recruitment systems.
翻訳日:2022-12-13 03:50:23 公開日:2020-04-15
# サッカー選手のボディーオリエンテーションを用いたサッカーにおけるパスファシビリティのモデル化

Using Player's Body-Orientation to Model Pass Feasibility in Soccer ( http://arxiv.org/abs/2004.07209v1 )

ライセンス: Link先を確認
Adri\`a Arbu\'es-Sang\"uesa, Adri\'an Mart\'in, Javier Fern\'andez, Coloma Ballester, Gloria Haro(参考訳) 本稿では,サッカーの試合のモノラルな映像から,任意の時間に最も実現可能なパスを推定する計算モデルを提案する。 この方法は、攻撃的な選手の方向(および位置)と相手の空間構成を利用して、同じチームの選手内でのパスイベントの実現可能性を計算する。 また、2dゲームフィールド上に適切に投影された体格推定から方位データを収集し、その実現可能性測度の定義を通じて幾何解を提供し、どのプレイヤーが互いによりよく向き合うかを決定する。 6000回以上のイベントを分析した結果、実現可能性尺度として向きを含めることで、堅牢な計算モデルを構築することができ、0.7 Top-3の精度に達した。 最後に,最近導入された期待可能性値測定値と指向性実現可能性測定値の組み合わせについて検討し,有望な結果を得た結果,既存のモデルを重要な特徴として用いて改良できることが示唆された。 これらのモデルは、コーチとアナリストの両方がゲームの理解を深め、プレイヤーの意思決定プロセスを改善するのに役立つ。

Given a monocular video of a soccer match, this paper presents a computational model to estimate the most feasible pass at any given time. The method leverages offensive player's orientation (plus their location) and opponents' spatial configuration to compute the feasibility of pass events within players of the same team. Orientation data is gathered from body pose estimations that are properly projected onto the 2D game field; moreover, a geometrical solution is provided, through the definition of a feasibility measure, to determine which players are better oriented towards each other. Once analyzed more than 6000 pass events, results show that, by including orientation as a feasibility measure, a robust computational model can be built, reaching more than 0.7 Top-3 accuracy. Finally, the combination of the orientation feasibility measure with the recently introduced Expected Possession Value metric is studied; promising results are obtained, thus showing that existing models can be refined by using orientation as a key feature. These models could help both coaches and analysts to have a better understanding of the game and to improve the players' decision-making process.
翻訳日:2022-12-13 03:49:37 公開日:2020-04-15
# 歴史新聞のページセグメンテーションのためのDNNアーキテクチャの評価

An Evaluation of DNN Architectures for Page Segmentation of Historical Newspapers ( http://arxiv.org/abs/2004.07317v1 )

ライセンス: Link先を確認
Bernhard Liebl and Manuel Burghardt(参考訳) 新聞などの複雑なレイアウトを持つ歴史文書の光学的文字認識(OCR)において重要な、特に困難なステップは、非テキストコンテンツ(例えばページ境界やイラスト)からテキストを分離することである。 このステップは一般にページセグメンテーションと呼ばれる。 様々なルールベースのアルゴリズムが提案されているが、近年、ディープニューラルネットワーク(DNN)の適用性に大きな注目を集めている。 本稿では,11の異なるDNNバックボーンアーキテクチャと,テキスト,テーブル,テーブル列を分離するための9の異なるタイリングおよびスケーリング構成を体系的に評価する。 また,matthews相関係数を用いて測定したセグメンテーション品質に対するラベル数とトレーニングページ数の影響を示す。 この結果から,インセプション-ResNet-v2とEfficientNetのバックボーンが最適であること,垂直タイリングが他のタイリング手法よりも好まれていること,30ページから40ページのトレーニングデータが十分であることがわかった。

One important and particularly challenging step in the optical character recognition (OCR) of historical documents with complex layouts, such as newspapers, is the separation of text from non-text content (e.g. page borders or illustrations). This step is commonly referred to as page segmentation. While various rule-based algorithms have been proposed, the applicability of Deep Neural Networks (DNNs) for this task recently has gained a lot of attention. In this paper, we perform a systematic evaluation of 11 different published DNN backbone architectures and 9 different tiling and scaling configurations for separating text, tables or table column lines. We also show the influence of the number of labels and the number of training pages on the segmentation quality, which we measure using the Matthews Correlation Coefficient. Our results show that (depending on the task) Inception-ResNet-v2 and EfficientNet backbones work best, vertical tiling is generally preferable to other tiling approaches, and training data that comprises 30 to 40 pages will be sufficient most of the time.
翻訳日:2022-12-13 03:49:18 公開日:2020-04-15
# 3次元実世界課題のための共同指導と自己指導型学習

Joint Supervised and Self-Supervised Learning for 3D Real-World Challenges ( http://arxiv.org/abs/2004.07392v1 )

ライセンス: Link先を確認
Antonio Alliegro, Davide Boscaini, Tatiana Tommasi(参考訳) ポイントクラウド処理と3D形状理解は、ディープラーニング技術が大きな可能性を実証する上で非常に難しいタスクです。 それでも、人工知能エージェントが現実世界と対話できるようにするには、さらなる進歩が不可欠であり、注釈付きデータの量が制限され、新しい知識ソースの統合が自律学習をサポートするために不可欠になる。 ここでは、データ不足と大きなドメインギャップにより教師付き学習が失敗する合成および実世界の点雲を含むいくつかのシナリオについて考察する。 形状分類や部分分割のメインタスクを学習しながら,3次元パズルを解くマルチタスクモデルを通じて,自己スーパービジョンを活用し,標準的な特徴表現を充実させる。 本手法が3次元形状分類と部分分割に有効であることを示すために, 少数ショット, 移動学習, クロスドメイン設定の広範な解析を行った。

Point cloud processing and 3D shape understanding are very challenging tasks for which deep learning techniques have demonstrated great potentials. Still further progresses are essential to allow artificial intelligent agents to interact with the real world, where the amount of annotated data may be limited and integrating new sources of knowledge becomes crucial to support autonomous learning. Here we consider several possible scenarios involving synthetic and real-world point clouds where supervised learning fails due to data scarcity and large domain gaps. We propose to enrich standard feature representations by leveraging self-supervision through a multi-task model that can solve a 3D puzzle while learning the main task of shape classification or part segmentation. An extensive analysis investigating few-shot, transfer learning and cross-domain settings shows the effectiveness of our approach with state-of-the-art results for 3D shape classification and part segmentation.
翻訳日:2022-12-13 03:48:58 公開日:2020-04-15
# 線形最小二乗問題に対するディープネットワークの固有分解自由学習

Eigendecomposition-Free Training of Deep Networks for Linear Least-Square Problems ( http://arxiv.org/abs/2004.07931v1 )

ライセンス: Link先を確認
Zheng Dang, Kwang Moo Yi, Yinlin Hu, Fei Wang, Pascal Fua and Mathieu Salzmann(参考訳) 基本行列計算や3次元から2次元対応からのポーズ推定といった古典的コンピュータビジョン問題の多くは、線形系を表す行列の最小、またはゼロの固有値に対応する固有ベクトルを見つけることで、線形最小二乗問題を解くことで解決することができる。 これをディープラーニングフレームワークに組み込むことで、ネットワークが暗黙的にデータから学習するのではなく、既知の幾何学の概念を明示的にエンコードすることが可能になります。 しかし、ネットワーク内で固有分解を行うには、この操作を区別する能力が必要である。 理論的には可能であるが、これは実際に最適化プロセスにおいて数値不安定をもたらす。 本稿では,ネットワークが予測する行列のゼロ固有値に対応する固有ベクトルに依存する深層ネットワークを学習するための固有分解のない手法を提案する。 提案手法は, 広帯域ステレオ, 遠近法n点問題, 楕円フィッティングなどの実例を用いて, 2つの一般的なタスクを用いた固有分解の明示的な微分よりも, はるかに頑健であることを示す。 実験により,本手法は収束特性が向上し,最先端の結果が得られた。

Many classical Computer Vision problems, such as essential matrix computation and pose estimation from 3D to 2D correspondences, can be tackled by solving a linear least-square problem, which can be done by finding the eigenvector corresponding to the smallest, or zero, eigenvalue of a matrix representing a linear system. Incorporating this in deep learning frameworks would allow us to explicitly encode known notions of geometry, instead of having the network implicitly learn them from data. However, performing eigendecomposition within a network requires the ability to differentiate this operation. While theoretically doable, this introduces numerical instability in the optimization process in practice. In this paper, we introduce an eigendecomposition-free approach to training a deep network whose loss depends on the eigenvector corresponding to a zero eigenvalue of a matrix predicted by the network. We demonstrate that our approach is much more robust than explicit differentiation of the eigendecomposition using two general tasks, outlier rejection and denoising, with several practical examples including wide-baseline stereo, the perspective-n-point problem, and ellipse fitting. Empirically, our method has better convergence properties and yields state-of-the-art results.
翻訳日:2022-12-13 03:48:25 公開日:2020-04-15
# ALCN: 適応型局所コントラスト正規化

ALCN: Adaptive Local Contrast Normalization ( http://arxiv.org/abs/2004.07945v1 )

ライセンス: Link先を確認
Mahdi Rad, Peter M. Roth, Vincent Lepetit(参考訳) ロボティクスと拡張現実のアプリケーションを照明の変化に頑健にするために、最近のトレンドは、さまざまな照明条件下で撮影されたトレーニングイメージでディープネットワークを訓練することだ。 残念ながら、このようなトレーニングセットを作成するのは、非常に面倒で複雑な作業です。 そこで本稿では,異なる照明条件の異なる問題に対して容易に使用できる新しい照明正規化法を提案する。 予備実験により,現在の正規化法のうち,ガウス法の差分法は非常に良いベースラインであり,これを一般化した新しい照明正規化モデルを提案する。 その上で, 正規化パラメータは入力画像に依存するべきであり, 畳み込みニューラルネットワークを訓練し, 入力画像からこれらのパラメータを予測することを目指す。 しかし、最適パラメータは事前パラメータを知らないため、教師付き方法では実行できない。 そこで我々は,このネットワークを,異なる照度の下で物体を識別することを目的とした他のネットワークと協調してトレーニングする手法を考案した。 我々は,本手法が標準正規化法を大幅に上回ることを示すとともに,新しいアプリケーション毎に再学習する必要がなくなるため,普遍的であることを示す。 本手法は,最先端の3Dオブジェクト検出および顔認識手法の光度変化に対するロバスト性を向上させる。

To make Robotics and Augmented Reality applications robust to illumination changes, the current trend is to train a Deep Network with training images captured under many different lighting conditions. Unfortunately, creating such a training set is a very unwieldy and complex task. We therefore propose a novel illumination normalization method that can easily be used for different problems with challenging illumination conditions. Our preliminary experiments show that among current normalization methods, the Difference-of Gaussians method remains a very good baseline, and we introduce a novel illumination normalization model that generalizes it. Our key insight is then that the normalization parameters should depend on the input image, and we aim to train a Convolutional Neural Network to predict these parameters from the input image. This, however, cannot be done in a supervised manner, as the optimal parameters are not known a priori. We thus designed a method to train this network jointly with another network that aims to recognize objects under different illuminations: The latter network performs well when the former network predicts good values for the normalization parameters. We show that our method significantly outperforms standard normalization methods and would also be appear to be universal since it does not have to be re-trained for each new application. Our method improves the robustness to light changes of state-of-the-art 3D object detection and face recognition methods.
翻訳日:2022-12-13 03:48:06 公開日:2020-04-15
# LTLfおよびPLTLf目標のFOND計画

FOND Planning for LTLf and PLTLf Goals ( http://arxiv.org/abs/2004.07027v1 )

ライセンス: Link先を確認
Francesco Fuggitti(参考訳) 本報告では,長期的目標に対する非決定論的計画問題に対する新しいアプローチを定義する。 特に、この問題の解決策を、完全に観測可能な非決定論的(FOND)計画問題に還元し、LTLfToDFAツールを活用する。 まず最初に、私たちのアプローチをサポートする主なアイデアとモチベーションを紹介します。 次に、計画ドメイン定義言語(PDDL)言語とFOND計画問題について、いくつかの予備的な説明を行う。 その後、FOND4LTLfPLTLf(オンライン)アプローチについて、PDDLドメインと問題への時間的目標の符号化について説明します。 最後に,提案手法の適用により得られた結果をいくつか提示する。

In this report, we will define a new approach to the problem of non deterministic planning for extended temporal goals. In particular, we will give a solution to this problem reducing it to a fully observable non deterministic (FOND) planning problem and taking advantage of the LTLfToDFA tool. First of all, we will introduce the main idea and motivations supporting our approach. Then, we will give some preliminaries explaining the Planning Domain Definition Language (PDDL) language and the FOND planning problem formally. After that, we will illustrate our FOND4LTLfPLTLf (also available online) approach with the encoding of temporal goals into a PDDL domain and problem. Finally, we will present some of the results obtained through the application of the proposed solution.
翻訳日:2022-12-13 03:41:34 公開日:2020-04-15
# 画像認証のための画像ハッシュを用いた実用的なブロックチェーンフレームワーク

A Practical Blockchain Framework using Image Hashing for Image Authentication ( http://arxiv.org/abs/2004.06860v1 )

ライセンス: Link先を確認
Cameron White, Manoranjan Paul, and Subrata Chakraborty(参考訳) Blockchainは比較的新しい技術であり、分散データベースと見なすことができる。 ブロックチェーンシステムは、データを格納するために暗号ハッシュ関数に大きく依存しているため、システムに格納されているデータに干渉するのは難しい。 ブロックチェーンとともに研究されたトピックは、画像認証である。 画像認証は、画像の完全性の調査と維持に焦点を当てる。 ブロックチェーンシステムはデータの整合性を維持するのに役立つため、画像認証はブロックチェーンによって強化される可能性がある。 画像の認証に使用できる技術は数多くあり、この研究で研究されている技術は画像ハッシュである。 イメージハッシュ(英: image hashing)とは、画像の類似度を計算する手法である。 これは、画像をハッシュに変換し、距離公式を使って比較することで行われる。 このトピックを調べるために、シミュレートされたブロックチェーンを含む実験が作成された。 ブロックチェーンはイメージのデータベースとして機能した。 このブロックチェーンは、独自のイメージハッシュアルゴリズムを含むデバイスで構成されている。 ブロックチェーンは、データベースに含まれるイメージの修正されたコピーを作成して、元のイメージを返すかどうかを確認するためにブロックチェーンに送信することでテストされた。 この実験により,ブロックチェーンとイメージハッシュを用いた画像認証システムの構築が可能であることが判明した。 しかし、この作品によって提案された設計は、いくつかの状況で苦労しているように見えるため、洗練を必要とする。 この研究は、ブロックチェーンが画像認証、特に画像ハッシュによる適切なアプローチであることを示している。 他にも、複数のイメージハッシュアルゴリズムを同時に使用すると、場合によってはパフォーマンスが向上する場合がある、ブロックチェーンで実行されるテストの種類ごとに独自のパターンがある、といった観測もある。

Blockchain is a relatively new technology that can be seen as a decentralised database. Blockchain systems heavily rely on cryptographic hash functions to store their data, which makes it difficult to tamper with any data stored in the system. A topic that was researched along with blockchain is image authentication. Image authentication focuses on investigating and maintaining the integrity of images. As a blockchain system can be useful for maintaining data integrity, image authentication has the potential to be enhanced by blockchain. There are many techniques that can be used to authenticate images; the technique investigated by this work is image hashing. Image hashing is a technique used to calculate how similar two different images are. This is done by converting the images into hashes and then comparing them using a distance formula. To investigate the topic, an experiment involving a simulated blockchain was created. The blockchain acted as a database for images. This blockchain was made up of devices which contained their own unique image hashing algorithms. The blockchain was tested by creating modified copies of the images contained in the database, and then submitting them to the blockchain to see if it will return the original image. Through this experiment it was discovered that it is plausible to create an image authentication system using blockchain and image hashing. However, the design proposed by this work requires refinement, as it appears to struggle in some situations. This work shows that blockchain can be a suitable approach for authenticating images, particularly via image hashing. Other observations include that using multiple image hash algorithms at the same time can increase performance in some cases, as well as that each type of test done to the blockchain has its own unique pattern to its data.
翻訳日:2022-12-13 03:41:23 公開日:2020-04-15
# 回帰に基づくニューラルネットワークモデルの説明

Explaining Regression Based Neural Network Model ( http://arxiv.org/abs/2004.06918v1 )

ライセンス: Link先を確認
M\'egane Millan and Catherine Achard(参考訳) ディープニューラルネットワーク(DNN)を説明するためにいくつかの方法が提案されている。 しかし、我々の知る限りでは、どの入力次元が決定を動機づけるかを決定するために分類網のみが研究されている。 さらに、この問題には根拠がないため、結果は人間にとって意味のあるものに関して質的にのみ評価される。 本研究では、理想的な信号を生成し、エラーを伴って信号を破壊し、信号の品質を決定するニューラルネットワークを学習する実験的な設定を設計する。 この品質は単に破壊された信号と対応する理想信号の間の距離に基づくスコアである。 次に、ネットワークがこのスコアをどのように見積もったかを探り、エラーが存在する信号の時間的ステップと寸法を見つけ出そうとします。 この実験により、ネットワーク説明のためのいくつかの手法を比較することができ、また、ほとんどの最先端結果に発生するノイズを低減させるいくつかのトレーニングに基づいて、AGRA for Accurate Gradientという新しい手法を提案することができる。 比較の結果,提案手法は信号にエラーが発生した時間ステップを同定する最先端手法よりも優れていることがわかった。

Several methods have been proposed to explain Deep Neural Network (DNN). However, to our knowledge, only classification networks have been studied to try to determine which input dimensions motivated the decision. Furthermore, as there is no ground truth to this problem, results are only assessed qualitatively in regards to what would be meaningful for a human. In this work, we design an experimental settings where the ground truth can been established: we generate ideal signals and disrupted signals with errors and learn a neural network that determines the quality of the signals. This quality is simply a score based on the distance between the disrupted signals and the corresponding ideal signal. We then try to find out how the network estimated this score and hope to find the time-step and dimensions of the signal where errors are present. This experimental setting enables us to compare several methods for network explanation and to propose a new method, named AGRA for Accurate Gradient, based on several trainings that decrease the noise present in most state-of-the-art results. Comparative results show that the proposed method outperforms state-of-the-art methods for locating time-steps where errors occur in the signal.
翻訳日:2022-12-13 03:40:59 公開日:2020-04-15
# 単眼ビデオからの視覚記述子学習

Visual Descriptor Learning from Monocular Video ( http://arxiv.org/abs/2004.07007v1 )

ライセンス: Link先を確認
Umashankar Deekshith, Nishit Gajjar, Max Schwarz, Sven Behnke(参考訳) 対応推定は最も広く研究されているものの1つであり、追跡、マッピング、オブジェクトの認識、環境における多くの応用を含むコンピュータビジョンの部分的に解決された領域である。 本稿では,完全な畳み込みネットワークをトレーニングすることにより,映像の例から視覚記述子を学習するRGB画像上での高密度対応を推定する手法を提案する。 ほとんどのディープラーニング手法は、高額なラベル付きデータでネットワークをトレーニングし、RGB-Dビデオを使用して強力な3D生成モデルを通じてラベル付けを行う。 本手法は,相対ラベリングを光学フローから推定するコントラスト損失を用いて,rgbビデオから学習する。 地上の真理情報が得られるレンダリングビデオの定量的分析で,その機能を実証する。 同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。 学んだディスクリプタはユニークであり、ネットワークによって決定される表現はグローバルである。 さらに,本手法を実世界ビデオに適用する可能性を示す。

Correspondence estimation is one of the most widely researched and yet only partially solved area of computer vision with many applications in tracking, mapping, recognition of objects and environment. In this paper, we propose a novel way to estimate dense correspondence on an RGB image where visual descriptors are learned from video examples by training a fully convolutional network. Most deep learning methods solve this by training the network with a large set of expensive labeled data or perform labeling through strong 3D generative models using RGB-D videos. Our method learns from RGB videos using contrastive loss, where relative labeling is estimated from optical flow. We demonstrate the functionality in a quantitative analysis on rendered videos, where ground truth information is available. Not only does the method perform well on test data with the same background, it also generalizes to situations with a new background. The descriptors learned are unique and the representations determined by the network are global. We further show the applicability of the method to real-world videos.
翻訳日:2022-12-13 03:40:28 公開日:2020-04-15
# マルチモーダルリモートセンシング画像における教師なし変更検出のためのコード付きオートエンコーダ

Code-Aligned Autoencoders for Unsupervised Change Detection in Multimodal Remote Sensing Images ( http://arxiv.org/abs/2004.07011v1 )

ライセンス: Link先を確認
Luigi T.Luppino, Mads A. Hansen, Michael Kampffmeyer, Filippo M. Bianchi, Gabriele Moser, Robert Jenssen, Stian N. Anfinsen(参考訳) 畳み込みオートエンコーダを用いた画像翻訳は,近年,バイテンポラル衛星画像におけるマルチモーダル変化検出へのアプローチとして利用されている。 主な課題は、変換関数の学習に対する変更画素の寄与を減らすことで、コード空間のアライメントである。 既存の多くのアプローチでは、常に利用できるわけではない変更領域の教師付き情報を利用してネットワークを訓練している。 本稿では,入力のドメイン固有アフィニティ行列で取得した関係画素情報を抽出し,これを用いてコード空間のアライメントを強制し,学習目的に対する変更画素の影響を低減することを提案する。 以前の変更は、ドメイン間で同等のピクセル対親和性から教師なしの方法で引き起こされる。 符号空間アライメントを達成するために、入力領域における類似した親和性を持つ画素をコード空間でも関連付けるべきである。 サイクル整合性と組み合わせて,本手法の有用性を実証する。 提案手法は最先端のディープラーニングアルゴリズムと比較される。 4つの実データを用いた実験により,本手法の有効性を示す。

Image translation with convolutional autoencoders has recently been used as an approach to multimodal change detection in bitemporal satellite images. A main challenge is the alignment of the code spaces by reducing the contribution of change pixels to the learning of the translation function. Many existing approaches train the networks by exploiting supervised information of the change areas, which, however, is not always available. We propose to extract relational pixel information captured by domain-specific affinity matrices at the input and use this to enforce alignment of the code spaces and reduce the impact of change pixels on the learning objective. A change prior is derived in an unsupervised fashion from pixel pair affinities that are comparable across domains. To achieve code space alignment we enforce that pixel with similar affinity relations in the input domains should be correlated also in code space. We demonstrate the utility of this procedure in combination with cycle consistency. The proposed approach are compared with state-of-the-art deep learning algorithms. Experiments conducted on four real datasets show the effectiveness of our methodology.
翻訳日:2022-12-13 03:40:14 公開日:2020-04-15
# 空中画像における建物セグメンテーションのためのコンテキストピラミッドアテンションネットワーク

Contextual Pyramid Attention Network for Building Segmentation in Aerial Imagery ( http://arxiv.org/abs/2004.07018v1 )

ライセンス: Link先を確認
Clint Sebastian, Raffaele Imbriaco, Egor Bondarev, Peter H.N. de With(参考訳) 航空画像からのビル抽出は、都市計画、変更検出、災害管理などの問題にいくつかの応用がある。 データの可用性向上に伴い、遠隔センシング画像の意味セグメンテーションのための畳み込みニューラルネットワーク(cnns)が近年大幅に改善されている。 しかし、畳み込みは近隣で動作し、航空画像の意味理解に不可欠な非局所的な特徴を捉えることができない。 本研究では,コンテキストピラミッドアテンション(CPA)を用いた長距離依存関係のキャプチャにより,異なるサイズのセグメンテーションを改善することを提案する。 経路は複数のスケールで効率的に入力を処理し、アンサンブルモデルと同様に重み付けされた方法でそれらを結合する。 提案手法は,最小計算コストでInria Aerial Image Labelling Datasetの最先端性能を得る。 本手法は,現状の手法よりも1.8ポイント向上し,後処理を伴わずに既存の基準値よりも12.6ポイント向上する。 コードとモデルは公開される予定だ。

Building extraction from aerial images has several applications in problems such as urban planning, change detection, and disaster management. With the increasing availability of data, Convolutional Neural Networks (CNNs) for semantic segmentation of remote sensing imagery has improved significantly in recent years. However, convolutions operate in local neighborhoods and fail to capture non-local features that are essential in semantic understanding of aerial images. In this work, we propose to improve building segmentation of different sizes by capturing long-range dependencies using contextual pyramid attention (CPA). The pathways process the input at multiple scales efficiently and combine them in a weighted manner, similar to an ensemble model. The proposed method obtains state-of-the-art performance on the Inria Aerial Image Labelling Dataset with minimal computation costs. Our method improves 1.8 points over current state-of-the-art methods and 12.6 points higher than existing baselines on the Intersection over Union (IoU) metric without any post-processing. Code and models will be made publicly available.
翻訳日:2022-12-13 03:39:58 公開日:2020-04-15
# スマートフォンカメラを用いたPSGバイオメトリックス

Seeing Red: PPG Biometrics Using Smartphone Cameras ( http://arxiv.org/abs/2004.07088v1 )

ライセンス: Link先を確認
Giulio Lovisotto, Henry Turner, Simon Eberz and Ivan Martinovic(参考訳) 本稿では,スマートフォンカメラを用いた光ポジソグラム(PPG)による認証を実現するシステムを提案する。 PPG信号は、ユーザーがカメラレンズの上に指を置いているときに、カメラからビデオを記録することで得られる。 この信号は、指を通して血液が流れると皮膚の光反射特性が変化することによるビデオの微妙な変化に基づいて抽出される。 我々は,iPhone Xを用いて,ユーザ毎の6~11セッションで15人のユーザからPSG測定値のデータセットを収集した。 各心血管系の特異性を活かした認証パイプラインを設計し、各心拍から特徴的な特徴のセットを同定する。 我々は,これまでの研究で無視されたクロスセッションシナリオを含む,ppgバイオメトリック特性の認識性能を評価するための一連の実験を行う。 判定に十分なサンプルを集約すると,EERは8%まで低下するが,クロスセッションシナリオでは性能が大幅に低下し,平均20%となることがわかった。

In this paper, we propose a system that enables photoplethysmogram (PPG)-based authentication by using a smartphone camera. PPG signals are obtained by recording a video from the camera as users are resting their finger on top of the camera lens. The signals can be extracted based on subtle changes in the video that are due to changes in the light reflection properties of the skin as the blood flows through the finger. We collect a dataset of PPG measurements from a set of 15 users over the course of 6-11 sessions per user using an iPhone X for the measurements. We design an authentication pipeline that leverages the uniqueness of each individual's cardiovascular system, identifying a set of distinctive features from each heartbeat. We conduct a set of experiments to evaluate the recognition performance of the PPG biometric trait, including cross-session scenarios which have been disregarded in previous work. We found that when aggregating sufficient samples for the decision we achieve an EER as low as 8%, but that the performance greatly decreases in the cross-session scenario, with an average EER of 20%.
翻訳日:2022-12-13 03:39:42 公開日:2020-04-15
# DeeSCo:視線推定のためのStochastic Combinatoryの損失を伴う深い異種アンサンブル

DeeSCo: Deep heterogeneous ensemble with Stochastic Combinatory loss for gaze estimation ( http://arxiv.org/abs/2004.07098v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, and K\'evin Bailly(参考訳) 医学研究からゲームアプリケーションまで、視線推定は貴重なツールになりつつある。 ハードウェアベースのソリューションは数多く存在するが、最近のディープラーニングベースのアプローチと大規模データベースの可用性が相まって、コンシューマセンサーのみを使用して正確な視線推定が可能になる。 しかし、特定のハードウェアを含む幾何学ベースのシステムと消費者センサのみを用いたアプローチとのギャップを埋めるため、視線推定システムを設計するための問題定式化、アーキテクチャの選択、学習パラダイムに関して、多くの疑問が残る。 本稿では,2次元/3次元視線推定のためのヒートマップ型弱予測器の,エンドツーエンドの訓練可能な深層アンサンブルを提案する。 これらの弱い予測器の異種アーキテクチャ設計により、より強固な深層アンサンブルモデルを設計するために、後者の予測器間の相関を改善することができる。 さらに,列車時弱予測器の組み合わせをランダムにサンプリングした確率的組合せ損失を提案する。 これにより、より弱い予測器を訓練し、それらの相関を低くすることができる。 これにより、ディープアンサンブルの性能を大幅に向上させることができる。 我々は,Stochastic Combinatory Losy (DeeSCo) を用いた深部異種アンサンブルが,複数のデータセットにおける2D/3D視線推定の最先端手法より優れていることを示す。

From medical research to gaming applications, gaze estimation is becoming a valuable tool. While there exists a number of hardware-based solutions, recent deep learning-based approaches, coupled with the availability of large-scale databases, have allowed to provide a precise gaze estimate using only consumer sensors. However, there remains a number of questions, regarding the problem formulation, architectural choices and learning paradigms for designing gaze estimation systems in order to bridge the gap between geometry-based systems involving specific hardware and approaches using consumer sensors only. In this paper, we introduce a deep, end-to-end trainable ensemble of heatmap-based weak predictors for 2D/3D gaze estimation. We show that, through heterogeneous architectural design of these weak predictors, we can improve the decorrelation between the latter predictors to design more robust deep ensemble models. Furthermore, we propose a stochastic combinatory loss that consists in randomly sampling combinations of weak predictors at train time. This allows to train better individual weak predictors, with lower correlation between them. This, in turns, allows to significantly enhance the performance of the deep ensemble. We show that our Deep heterogeneous ensemble with Stochastic Combinatory loss (DeeSCo) outperforms state-of-the-art approaches for 2D/3D gaze estimation on multiple datasets.
翻訳日:2022-12-13 03:39:25 公開日:2020-04-15
# 曲線のフラット化:covid-19のオンオフロックダウン戦略とbraziへの応用

Flattening the curves: on-off lock-down strategies for COVID-19 with an application to Brazi ( http://arxiv.org/abs/2004.06916v1 )

ライセンス: Link先を確認
L. Tarrataca, C.M. Dias, D. B. Haddad, and E. F. Arruda(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、さまざまな方法で異なる国に影響を与えている。 過度の報告や予算制約といった他の問題と並行して報告技術が組み合わさって、ウイルスの拡散と致命性を予測することが困難な課題となっている。 この研究は、新型コロナウイルス(COVID-19)が最も研究の浅い国、ブラジルにどのように影響するかをよりよく理解しようと試みている。 現在、ブラジルのいくつかの州はロックダウン状態にある。 しかし、こうした措置を解除すべきという政治的圧力もある。 この研究は、そのような終了がウイルスの局所的な進化に与える影響を考察する。 これはSEIRモデルをオン/オフ戦略で拡張することで実現された。 SEIRの単純さを考えると、私たちはニューラル回帰器を開発することで、より多くの洞察を得ようとしました。 私たちは、新型コロナウイルスの致死性に関連している現在の臨床研究で指摘されている特徴を採用することを選んだ。 堅牢な評価を得るために、このデータをどのように処理できるかを論じる。

The current COVID-19 pandemic is affecting different countries in different ways. The assortment of reporting techniques alongside other issues, such as underreporting and budgetary constraints, makes predicting the spread and lethality of the virus a challenging task. This work attempts to gain a better understanding of how COVID-19 will affect one of the least studied countries, namely Brazil. Currently, several Brazilian states are in a state of lock-down. However, there is political pressure for this type of measures to be lifted. This work considers the impact that such a termination would have on how the virus evolves locally. This was done by extending the SEIR model with an on / off strategy. Given the simplicity of SEIR we also attempted to gain more insight by developing a neural regressor. We chose to employ features that current clinical studies have pinpointed has having a connection to the lethality of COVID-19. We discuss how this data can be processed in order to obtain a robust assessment.
翻訳日:2022-12-13 03:32:19 公開日:2020-04-15
# タスクコンテキストにおける言語のトップダウンおよびボトムアップ処理を統合するフレームワークとしての確率的ソフトロジックの検討

Exploring Probabilistic Soft Logic as a framework for integrating top-down and bottom-up processing of language in a task context ( http://arxiv.org/abs/2004.07000v1 )

ライセンス: Link先を確認
Johannes Dellert(参考訳) 本技術報告では,非標準言語入力におけるトップダウンおよびボトムアップ解析を統合するために設計された新しいプロトタイプアーキテクチャについて述べる。 アーキテクチャは一般的に当てはまるが、アーキテクチャの具体的なユースケースとして、ドイツの学習者によって書かれた回答に対する意味論的に変形した目標仮説の生成を対象とし、理解的な質問を読み取る。 このアーキテクチャは、既存のnlpコンポーネントを統合して8段階の言語モデリングの候補分析を行い、それら全てはアトミックステートメントに分解され、確率的ソフトロジック(psl)をフレームワークとして、大きなグラフィカルモデルに接続される。 結果のグラフィカルモデルに対する最大後進推論は、候補のターゲット仮説に信念分布を割り当てる。 アーキテクチャの現在のバージョンは、形式レベルでの表現形式としてUniversal Dependencies (UD) と、学習者回答のセマンティック分析と対象回答が提供するコンテキスト情報を表現するための抽象的意味表現 (AMR) に基づいている。 これらの一般的な選択は、アーキテクチャを他のタスクや他の言語に適用することが比較的簡単になります。

This technical report describes a new prototype architecture designed to integrate top-down and bottom-up analysis of non-standard linguistic input, where a semantic model of the context of an utterance is used to guide the analysis of the non-standard surface forms, including their automated normalization in context. While the architecture is generally applicable, as a concrete use case of the architecture we target the generation of semantically-informed target hypotheses for answers written by German learners in response to reading comprehension questions, where the reading context and possible target answers are given. The architecture integrates existing NLP components to produce candidate analyses on eight levels of linguistic modeling, all of which are broken down into atomic statements and connected into a large graphical model using Probabilistic Soft Logic (PSL) as a framework. Maximum a posteriori inference on the resulting graphical model then assigns a belief distribution to candidate target hypotheses. The current version of the architecture builds on Universal Dependencies (UD) as its representation formalism on the form level and on Abstract Meaning Representations (AMRs) to represent semantic analyses of learner answers and the context information provided by the target answers. These general choices will make it comparatively straightforward to apply the architecture to other tasks and other languages.
翻訳日:2022-12-13 03:31:35 公開日:2020-04-15
# 逆学習フレームワークを用いた知識グラフの構造化埋め込み学習

Learning Structured Embeddings of Knowledge Graphs with Adversarial Learning Framework ( http://arxiv.org/abs/2004.07265v1 )

ライセンス: Link先を確認
Jiehang Zeng, Lu Liu and Xiaoqing Zheng(参考訳) 多くの大規模知識グラフが利用可能となり、質問応答および意思決定支援タスクの重要なリソースとみなされる意味的に構造化された情報を提供する準備ができている。 しかし、それらは厳格なシンボリックフレームワーク上に構築されており、他のインテリジェントシステムでの使用を困難にしている。 本稿では,知識グラフの実体と関係を連続ベクトル空間に埋め込むために,生成的対角的アーキテクチャを用いた学習手法を提案する。 生成ネットワーク(GN)は、入力として(対象、述語、対象)の2つの要素を取り、欠落した要素のベクトル表現を生成する。 判別ネットワーク(DN)は、GNが生成したものと正の三重項を区別するために三重項をスコアする。 GNのトレーニング目標はDNを騙して間違った分類をすることです。 収束に着くと、GNはトレーニングデータを回復し、知識グラフの補完に使用できる。 生成的敵対的アーキテクチャに基づく以前の研究とは異なり、我々のGNは未知のインスタンスを生成し、GNを使ってDNの負のサンプル(すでに存在する)を選択できる。 実験により,従来の関係学習モデル(TransEなど)を,リンク予測と三重分類の両方において有意差で改善できることを示した。

Many large-scale knowledge graphs are now available and ready to provide semantically structured information that is regarded as an important resource for question answering and decision support tasks. However, they are built on rigid symbolic frameworks which makes them hard to be used in other intelligent systems. We present a learning method using generative adversarial architecture designed to embed the entities and relations of the knowledge graphs into a continuous vector space. A generative network (GN) takes two elements of a (subject, predicate, object) triple as input and generates the vector representation of the missing element. A discriminative network (DN) scores a triple to distinguish a positive triple from those generated by GN. The training goal for GN is to deceive DN to make wrong classification. When arriving at a convergence, GN recovers the training data and can be used for knowledge graph completion, while DN is trained to be a good triple classifier. Unlike few previous studies based on generative adversarial architectures, our GN is able to generate unseen instances while they just use GN to better choose negative samples (already existed) for DN. Experiments demonstrate our method can improve classical relational learning models (e.g.TransE) with a significant margin on both the link prediction and triple classification tasks.
翻訳日:2022-12-13 03:30:54 公開日:2020-04-15
# 知識蒸留を用いた多領域ニューラルマシン翻訳モデルの構築

Building a Multi-domain Neural Machine Translation Model using Knowledge Distillation ( http://arxiv.org/abs/2004.07324v1 )

ライセンス: Link先を確認
Idriss Mghabbar, Pirashanth Ratnamogan(参考訳) 専門データの不足により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。 低リソース言語を扱う新興文献は有望な結果を示し始めているが、ほとんどの最先端のモデルは数百万の文を使った。 現在、マルチドメイン適応技術の大部分は、現実世界のアプリケーションに適応しない複雑で洗練されたアーキテクチャに基づいている。 これまでのところ、すべての特殊なデータと汎用データの混合でジェネリックモデルを微調整する、単純で効果的な混合ファインタニングよりもパフォーマンスが良い方法は存在しない。 本稿では,知識蒸留と複数の専門教員が,推論時に新たなコストを伴わずにモデルを効率的に微調整できる新たな訓練パイプラインを提案する。 実験の結果,BLEUでは,2,3,4ドメインの微調整によるマルチドメイン翻訳の性能を最大2ポイント向上できることがわかった。

Lack of specialized data makes building a multi-domain neural machine translation tool challenging. Although emerging literature dealing with low resource languages starts to show promising results, most state-of-the-art models used millions of sentences. Today, the majority of multi-domain adaptation techniques are based on complex and sophisticated architectures that are not adapted for real-world applications. So far, no scalable method is performing better than the simple yet effective mixed-finetuning, i.e finetuning a generic model with a mix of all specialized data and generic data. In this paper, we propose a new training pipeline where knowledge distillation and multiple specialized teachers allow us to efficiently finetune a model without adding new costs at inference time. Our experiments demonstrated that our training pipeline allows improving the performance of multi-domain translation over finetuning in configurations with 2, 3, and 4 domains by up to 2 points in BLEU.
翻訳日:2022-12-13 03:30:32 公開日:2020-04-15
# ブラックボックスロバスト最適化問題に対するアルゴリズムの自動生成

Automatic Generation of Algorithms for Black-Box Robust Optimisation Problems ( http://arxiv.org/abs/2004.07294v1 )

ライセンス: Link先を確認
Martin Hughes, Marc Goerigk, Trivikram Dokka(参考訳) 我々は,モデルの実行数に制限があるロバストなブラックボックス最適化問題に取り組むアルゴリズムを開発した。 所望の解が正確に実装できない場合、解周辺の不確実性近傍の最悪のケースがうまく機能するロバストな解を見つけることが目的である。 これは、グローバル最小化内の局所的な最大化を必要とする。 頑健な問題に対する最適化手法の改善を検討し,効率的なヒューリスティックとパラメータの設定を手作業で決定する必要をなくすため,文法誘導型遺伝的プログラミングというアルゴリズムの自動生成手法を採用した。 粒子群最適化フレームワークで実装するアルゴリズム構築ブロックを開発し、これらのコンポーネントからヒューリスティックを構築するためのルールを定義し、探索アルゴリズムの集団を進化させる。 我々のアルゴリズム構築ブロックは既存の技術と新機能の要素を組み合わせることで、新しいヒューリスティックな解空間の研究に繋がる。 この進化過程の結果として、我々は現在の技術状況を改善するアルゴリズムを得る。 また,ロバストな問題に対して高パフォーマンスなヒューリスティック成分を同定するために,アルゴリズムの性能に対して開発された集団の成分レベルでの分解分析を行った。

We develop algorithms capable of tackling robust black-box optimisation problems, where the number of model runs is limited. When a desired solution cannot be implemented exactly the aim is to find a robust one, where the worst case in an uncertainty neighbourhood around a solution still performs well. This requires a local maximisation within a global minimisation. To investigate improved optimisation methods for robust problems, and remove the need to manually determine an effective heuristic and parameter settings, we employ an automatic generation of algorithms approach: Grammar-Guided Genetic Programming. We develop algorithmic building blocks to be implemented in a Particle Swarm Optimisation framework, define the rules for constructing heuristics from these components, and evolve populations of search algorithms. Our algorithmic building blocks combine elements of existing techniques and new features, resulting in the investigation of a novel heuristic solution space. As a result of this evolutionary process we obtain algorithms which improve upon the current state of the art. We also analyse the component level breakdowns of the populations of algorithms developed against their performance, to identify high-performing heuristic components for robust problems.
翻訳日:2022-12-13 03:30:20 公開日:2020-04-15
# 生成モデルを用いた直観的・インタラクティブなひげ・毛髪合成

Intuitive, Interactive Beard and Hair Synthesis with Generative Models ( http://arxiv.org/abs/2004.06848v1 )

ライセンス: Link先を確認
Kyle Olszewski, Duygu Ceylan, Jun Xing, Jose Echevarria, Zhili Chen, Weikai Chen, Hao Li(参考訳) 本稿では,顔の毛髪のリアルなバリエーションを画像で合成するインタラクティブな手法を提案する。 従来のグラフィクスパイプラインを用いて,対象毛髪の3次元形状をモデリング,レンダリング,合成する,退屈で計算コストのかかる作業を回避するため,ニューラルネットワークパイプラインを用いて,対象毛髪のリアルかつ詳細な画像を1秒以内に合成する。 この合成は、ターゲットヘアスタイルの一般的な構造および色特性を定義するユーザからの単純でスパースなガイドストロークによって制御される。 いくつかの代替手法と比較して,選択した手法を質的,定量的に評価する。 プロトタイプユーザインタフェースを用いたインタラクティブな編集結果を示し、初心者のユーザが生成した画像を段階的に洗練して所望のヘアスタイルに適合させることができるとともに、当社のアプローチが柔軟で高忠実な頭皮毛髪合成を可能にすることを示す。

We present an interactive approach to synthesizing realistic variations in facial hair in images, ranging from subtle edits to existing hair to the addition of complex and challenging hair in images of clean-shaven subjects. To circumvent the tedious and computationally expensive tasks of modeling, rendering and compositing the 3D geometry of the target hairstyle using the traditional graphics pipeline, we employ a neural network pipeline that synthesizes realistic and detailed images of facial hair directly in the target image in under one second. The synthesis is controlled by simple and sparse guide strokes from the user defining the general structural and color properties of the target hairstyle. We qualitatively and quantitatively evaluate our chosen method compared to several alternative approaches. We show compelling interactive editing results with a prototype user interface that allows novice users to progressively refine the generated image to match their desired hairstyle, and demonstrate that our approach also allows for flexible and high-fidelity scalp hair synthesis.
翻訳日:2022-12-13 03:24:33 公開日:2020-04-15
# 逐次特徴ピラミッドネットワークによるモザイク超解像

Mosaic Super-resolution via Sequential Feature Pyramid Networks ( http://arxiv.org/abs/2004.06853v1 )

ライセンス: Link先を確認
Mehrdad Shoeiby, Mohammad Ali Armin, Sadegh Aliakbarian, Saeed Anwar, Lars Petersson(参考訳) マルチスペクトルカメラの設計の進歩は、天文学から自動運転まで、幅広い応用分野において大きな関心を寄せている。 しかし、このようなカメラは本質的に空間分解能とスペクトル分解能のトレードオフに悩まされている。 本稿では,近年のリアルタイム・シングルショット・モザイク・センサを用いて,生モザイク画像,マルチスペクトルまたはrgbバイヤーの超解像を行う新しい手法を提案する。 この目的のために、ネットワークの深さに沿ったシーケンシャルな特徴ピラミッドの恩恵を受ける、深い超解像アーキテクチャを設計する。 これは、畳み込みLSTM(ConvLSTM)を利用して、異なる受容領域における特徴間の依存性を学習することで実現される。 さらに,我々のフレームワークにおける異なる注意機構の効果を調べることにより,convlstmにインスパイアされたモジュールが我々のコンテキストにおいて優れた注意を向けることができることを示す。 広範にわたる実験と解析の結果,本手法はバイエル像とマルチスペクトル像の両面において,最先端のモザイク超解像法よりも優れた高分解能性が得られることが示された。 さらに,本手法は,マルチスペクトルでもバイエルでも,モザイク画像の超解像法としては最初のものである。

Advances in the design of multi-spectral cameras have led to great interests in a wide range of applications, from astronomy to autonomous driving. However, such cameras inherently suffer from a trade-off between the spatial and spectral resolution. In this paper, we propose to address this limitation by introducing a novel method to carry out super-resolution on raw mosaic images, multi-spectral or RGB Bayer, captured by modern real-time single-shot mosaic sensors. To this end, we design a deep super-resolution architecture that benefits from a sequential feature pyramid along the depth of the network. This, in fact, is achieved by utilizing a convolutional LSTM (ConvLSTM) to learn the inter-dependencies between features at different receptive fields. Additionally, by investigating the effect of different attention mechanisms in our framework, we show that a ConvLSTM inspired module is able to provide superior attention in our context. Our extensive experiments and analyses evidence that our approach yields significant super-resolution quality, outperforming current state-of-the-art mosaic super-resolution methods on both Bayer and multi-spectral images. Additionally, to the best of our knowledge, our method is the first specialized method to super-resolve mosaic images, whether it be multi-spectral or Bayer.
翻訳日:2022-12-13 03:24:15 公開日:2020-04-15
# 顔属性合成の継続的学習

Continuous learning of face attribute synthesis ( http://arxiv.org/abs/2004.06904v1 )

ライセンス: Link先を確認
Xin Ning, Shaohui Xu, Xiaoli Dong, Weijun Li, Fangzhe Nan and Yuanzhou Yao(参考訳) GAN(Generative Adversarial Network)は,顔属性合成タスクにおいて優れた性能を示す。 しかし、既存の手法は、新しい属性の拡張に非常に限定的な影響を及ぼす。 本研究では,新しい属性合成における単一ネットワークの限界を克服するために,顔属性合成のための連続学習法を提案する。 まず、入力画像の特徴ベクトルを抽出し、特徴空間において属性方向回帰を行い、異なる属性の軸を得る。 特徴ベクトルは軸に沿って直線的に誘導され、対象属性を持つ画像はデコーダによって合成される。 最後に、連続学習が可能なネットワークを構築するために、新たに追加された属性を拡張するために直交方向修正モジュールを使用する。 実験の結果,提案手法は属性を連続的に学習できる単一のネットワークを付与でき,現在の最先端手法と比較すると,合成属性の方が精度が高いことがわかった。

The generative adversarial network (GAN) exhibits great superiority in the face attribute synthesis task. However, existing methods have very limited effects on the expansion of new attributes. To overcome the limitations of a single network in new attribute synthesis, a continuous learning method for face attribute synthesis is proposed in this work. First, the feature vector of the input image is extracted and attribute direction regression is performed in the feature space to obtain the axes of different attributes. The feature vector is then linearly guided along the axis so that images with target attributes can be synthesized by the decoder. Finally, to make the network capable of continuous learning, the orthogonal direction modification module is used to extend the newly-added attributes. Experimental results show that the proposed method can endow a single network with the ability to learn attributes continuously, and, as compared to those produced by the current state-of-the-art methods, the synthetic attributes have higher accuracy.
翻訳日:2022-12-13 03:23:51 公開日:2020-04-15
# マルチタスク学習による教師なしニューラルネットワーク圧縮の拡張

Extending Unsupervised Neural Image Compression With Supervised Multitask Learning ( http://arxiv.org/abs/2004.07041v1 )

ライセンス: Link先を確認
David Tellez, Diederik Hoppener, Cornelis Verhoef, Dirk Grunhagen, Pieter Nierop, Michal Drozdzal, Jeroen van der Laak, Francesco Ciompi(参考訳) 画像レベルのターゲットを予測するために,gigapixelの病理組織像に畳み込みニューラルネットワークを訓練する問題に焦点を当てた。 そこで本研究では,画像圧縮フレームワークであるneural image compression (nic)を拡張し,教師なしでトレーニングしたエンコーダネットワークを用いて,画像の次元性を低減する。 代わりに、教師付きマルチタスク学習(MTL)を用いて、このエンコーダを訓練することを提案する。 提案したMTL NICを2つの病理組織学的データセットと3つのタスクに適用した。 まず,2016年の腫瘍増殖評価チャレンジ(TUPAC16)で最先端の成績を得た。 第2に,大腸肝転移像(clm)の病理組織学的増殖パターンを分類した。 第3に,同一のCLMデータから生存率を直接学習し,死亡リスクを予測した。 MTLの目的によって学習された表現は,(1)教師付き訓練信号により高度に特定され,(2)伝達可能であり,また,同じ特徴が様々なタスクで良好に機能することが示唆された。 さらに、MTLの教師なしや変種など、異なるトレーニング目標を持つ複数のエンコーダを訓練し、MPLにおけるタスク数とTUPAC16データセット上でのシステムパフォーマンスとの間に正の相関を観測した。

We focus on the problem of training convolutional neural networks on gigapixel histopathology images to predict image-level targets. For this purpose, we extend Neural Image Compression (NIC), an image compression framework that reduces the dimensionality of these images using an encoder network trained unsupervisedly. We propose to train this encoder using supervised multitask learning (MTL) instead. We applied the proposed MTL NIC to two histopathology datasets and three tasks. First, we obtained state-of-the-art results in the Tumor Proliferation Assessment Challenge of 2016 (TUPAC16). Second, we successfully classified histopathological growth patterns in images with colorectal liver metastasis (CLM). Third, we predicted patient risk of death by learning directly from overall survival in the same CLM data. Our experimental results suggest that the representations learned by the MTL objective are: (1) highly specific, due to the supervised training signal, and (2) transferable, since the same features perform well across different tasks. Additionally, we trained multiple encoders with different training objectives, e.g. unsupervised and variants of MTL, and observed a positive correlation between the number of tasks in MTL and the system performance on the TUPAC16 dataset.
翻訳日:2022-12-13 03:23:38 公開日:2020-04-15
# ESResNet:ビジュアルドメインモデルに基づく環境音の分類

ESResNet: Environmental Sound Classification Based on Visual Domain Models ( http://arxiv.org/abs/2004.07301v1 )

ライセンス: Link先を確認
Andrey Guzhov, Federico Raue, J\"orn Hees and Andreas Dengel(参考訳) 環境音分類(ESC)は、オーディオ分野において活発な研究領域であり、ここ数年で多くの進歩を遂げてきた。 しかし、既存のアプローチの多くはドメイン固有の特徴やアーキテクチャに依存して高い精度を達成するため、他の分野(例えば画像領域)の進歩の恩恵を受けにくい。 さらに、過去の成功のいくつかは、結果がどのように評価されるか(UrbanSound8K(US8K)データセットの非公式な分割)の相違によるものであり、フィールド全体の進行を歪めている。 この論文の貢献は2つある。 まず,単音とステレオ音の入力に本質的に適合するモデルを提案する。 我々のモデルは単純な対数パワー短時間フーリエ変換(stft)スペクトログラムに基づいており、画像領域(resnet, siamese-like network and attention)からの既知のアプローチと組み合わせている。 クロスドメイン事前トレーニング,アーキテクチャ変更の影響を調査し,標準データセットに対するモデルの評価を行う。 本モデルでは,97.0 % (ESC-10), 91.5 % (ESC-50),84.2 % / 85.4 % (US8K mono / stereo) の精度を達成して,既知のアプローチを公平に比較した。 第2に,us8kデータセットで以前に報告されたいくつかの結果を公式と非公式の分割で区別することにより,フィールドの実際の状態を包括的に概観する。 再現性を向上するため、コード(再実装を含む)が利用可能です。

Environmental Sound Classification (ESC) is an active research area in the audio domain and has seen a lot of progress in the past years. However, many of the existing approaches achieve high accuracy by relying on domain-specific features and architectures, making it harder to benefit from advances in other fields (e.g., the image domain). Additionally, some of the past successes have been attributed to a discrepancy of how results are evaluated (i.e., on unofficial splits of the UrbanSound8K (US8K) dataset), distorting the overall progression of the field. The contribution of this paper is twofold. First, we present a model that is inherently compatible with mono and stereo sound inputs. Our model is based on simple log-power Short-Time Fourier Transform (STFT) spectrograms and combines them with several well-known approaches from the image domain (i.e., ResNet, Siamese-like networks and attention). We investigate the influence of cross-domain pre-training, architectural changes, and evaluate our model on standard datasets. We find that our model out-performs all previously known approaches in a fair comparison by achieving accuracies of 97.0 % (ESC-10), 91.5 % (ESC-50) and 84.2 % / 85.4 % (US8K mono / stereo). Second, we provide a comprehensive overview of the actual state of the field, by differentiating several previously reported results on the US8K dataset between official or unofficial splits. For better reproducibility, our code (including any re-implementations) is made available.
翻訳日:2022-12-13 03:22:25 公開日:2020-04-15
# マルチセルNOMAのユーザペアリングとアソシエーション:ポインタネットワークによるアプローチ

Joint User Pairing and Association for Multicell NOMA: A Pointer Network-based Approach ( http://arxiv.org/abs/2004.07395v1 )

ライセンス: Link先を確認
Manyou Ma and Vincent W.S. Wong(参考訳) 本稿では,マルチセル非直交多重アクセス(NOMA)システムにおけるユーザペアリングとアソシエーションの問題について検討する。 ユーザ機器(UE)を複数の基地局を備えたマルチセルネットワークに配置するシナリオを考察する。 各基地局は複数の直交物理資源ブロック(PRB)を有する。 各 PRB は NOMA を用いて一対の UE に割り当てることができる。 各UEは、基地局のいずれかが提供できる追加の自由を有しており、共同ユーザペアリングとアソシエーションアルゴリズムの設計の複雑さをさらに高めている。 数値最適化問題を解くために機械学習を用いた最近の成功を活かし、組合せ最適化問題としてユーザペアリングとアソシエーション問題を定式化した。 このソリューションはPointer Network(PtrNet)と呼ばれる新しいディープラーニングアーキテクチャを使っており、これは反復アルゴリズムに基づくソリューションに比べて計算の複雑さが低く、ほぼ最適性能を実現することが証明されている。 PtrNetのトレーニングフェーズは、深層強化学習(DRL)に基づいており、定式化問題の最適解をトレーニングラベルとして使用する必要はない。 シミュレーションの結果,提案手法は,集計データ率の観点からほぼ最適性能を達成し,ランダムなユーザペアリングとアソシエイトヒューリスティックを最大30%向上させることがわかった。

In this paper, we investigate the joint user pairing and association problem for multicell non-orthogonal multiple access (NOMA) systems. We consider a scenario where the user equipments (UEs) are located in a multicell network equipped with multiple base stations. Each base station has multiple orthogonal physical resource blocks (PRBs). Each PRB can be allocated to a pair of UEs using NOMA. Each UE has the additional freedom to be served by any one of the base stations, which further increases the complexity of the joint user pairing and association algorithm design. Leveraging the recent success on using machine learning to solve numerical optimization problems, we formulate the joint user pairing and association problem as a combinatorial optimization problem. The solution is found using an emerging deep learning architecture called Pointer Network (PtrNet), which has a lower computational complexity compared to solutions based on iterative algorithms and has been proven to achieve near-optimal performance. The training phase of the PtrNet is based on deep reinforcement learning (DRL), and does not require the use of the optimal solution of the formulated problem as training labels. Simulation results show that the proposed joint user pairing and association scheme achieves near-optimal performance in terms of the aggregate data rate, and outperforms the random user pairing and association heuristic by up to 30%.
翻訳日:2022-12-13 03:21:25 公開日:2020-04-15
# ネットワーク実験設計における干渉と選択バイアスの最小化

Minimizing Interference and Selection Bias in Network Experiment Design ( http://arxiv.org/abs/2004.07225v1 )

ライセンス: Link先を確認
Zahra Fatemi, Elena Zheleva(参考訳) ネットワークにおけるA/Bテストへの現在のアプローチは、干渉の制限、治療効果が治療ノードから制御ノードへ"スパイルオーバー"し、バイアス付き因果効果の推定につながるという懸念に焦点を当てている。 ネットワーク実験の設計において顕著な方法は、疎結合クラスタを識別し、クラスタランダム化がノードの処理と制御を規定する2段階のランダム化に依存する。 ここでは、クラスタランダム化が十分なノードランダム化を保証せず、処理ノードと制御ノードが異なるユーザの集団を表す選択バイアスをもたらす可能性があることを示す。 この問題に対処するために,干渉や選択バイアスを最小化するネットワーク実験設計の原理的枠組みを提案する。 本稿では,エッジの流出確率とクラスタマッチングの概念を導入し,ネットワークA/Bテストの設計の重要性を示す。 実世界の多くのデータセットに対する実験により,提案するフレームワークは既存のソリューションよりも因果効果推定の誤差が著しく低いことが示された。

Current approaches to A/B testing in networks focus on limiting interference, the concern that treatment effects can "spill over" from treatment nodes to control nodes and lead to biased causal effect estimation. Prominent methods for network experiment design rely on two-stage randomization, in which sparsely-connected clusters are identified and cluster randomization dictates the node assignment to treatment and control. Here, we show that cluster randomization does not ensure sufficient node randomization and it can lead to selection bias in which treatment and control nodes represent different populations of users. To address this problem, we propose a principled framework for network experiment design which jointly minimizes interference and selection bias. We introduce the concepts of edge spillover probability and cluster matching and demonstrate their importance for designing network A/B testing. Our experiments on a number of real-world datasets show that our proposed framework leads to significantly lower error in causal effect estimation than existing solutions.
翻訳日:2022-12-13 03:16:01 公開日:2020-04-15
# 条件付きオートエンコーダによるF0一貫性多対並列音声変換

F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder ( http://arxiv.org/abs/2004.07370v1 )

ライセンス: Link先を確認
Kaizhi Qian, Zeyu Jin, Mark Hasegawa-Johnson, Gautham J. Mysore(参考訳) 非並列多対多音声変換は、興味深いが難解な音声処理課題である。 generative adversarial networks (gans) や variational autoencoder (vaes) など、多くのスタイル転送に触発された手法が提案されている。 近年,条件付きオートエンコーダ(caes)ベースのautovcが,情報制約ボトルネックを用いて話者のアイデンティティと音声コンテンツの分離を行い,新たな音声合成のために異なる話者のアイデンティティ埋め込みを交換することでゼロショット変換を実現する。 しかし、話者識別が音声コンテンツから切り離されている間、音源F0などの相当量の韻律情報がボトルネックを突破し、ターゲットF0が不自然に変動することを発見した。 さらに、AutoVCは変換されたF0を制御せず、多くのアプリケーションには適さない。 本稿では,オートエンコーダに基づく音声変換を,不等角形,f0,話者識別に同時に修正・改良した。 したがって、F0輪郭を制御し、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。 私たちは量的および質的な分析を通じて改善を支援します。

Non-parallel many-to-many voice conversion remains an interesting but challenging speech processing task. Many style-transfer-inspired methods such as generative adversarial networks (GANs) and variational autoencoders (VAEs) have been proposed. Recently, AutoVC, a conditional autoencoders (CAEs) based method achieved state-of-the-art results by disentangling the speaker identity and speech content using information-constraining bottlenecks, and it achieves zero-shot conversion by swapping in a different speaker's identity embedding to synthesize a new voice. However, we found that while speaker identity is disentangled from speech content, a significant amount of prosodic information, such as source F0, leaks through the bottleneck, causing target F0 to fluctuate unnaturally. Furthermore, AutoVC has no control of the converted F0 and thus unsuitable for many applications. In the paper, we modified and improved autoencoder-based voice conversion to disentangle content, F0, and speaker identity at the same time. Therefore, we can control the F0 contour, generate speech with F0 consistent with the target speaker, and significantly improve quality and similarity. We support our improvement through quantitative and qualitative analysis.
翻訳日:2022-12-13 03:14:28 公開日:2020-04-15
# 生理的生体信号の逆変換学習

Disentangled Adversarial Transfer Learning for Physiological Biosignals ( http://arxiv.org/abs/2004.08289v1 )

ライセンス: Link先を確認
Mo Han, Ozan Ozdenizci, Ye Wang, Toshiaki Koike-Akino, Deniz Erdogmus(参考訳) ウェアラブルセンサーの最近の進歩は、生理的状態を効果的かつ快適にモニタリングするための有望な結果を示している。 生理的状態評価の大きな課題の1つは、ユーザ間でのバイオシグナーのドメイン不整合や、同一ユーザからの異なる記録セッションによる転送学習の問題である。 ストレスレベルアセスメントにおいて,生理的生体信号データから異方性ニュアサンス・ロバスト表現を抽出するために,トランスファー学習の敵対的推論手法を提案する。 課題関連特徴と個人識別情報との間のトレードオフを、敵ネットワークとニュアンスネットワークの両方を用いて、学習した潜伏表現をエンコーダで協調的に操作・解離させ、識別分類器に入力する。 クロス・サブジェクト・トランスファー評価の結果,提案手法の利点が示され,幅広い対象に適応する能力が示された。 最後に,提案手法が他の深層機能学習フレームワークにも適用可能であることを強調した。

Recent developments in wearable sensors demonstrate promising results for monitoring physiological status in effective and comfortable ways. One major challenge of physiological status assessment is the problem of transfer learning caused by the domain inconsistency of biosignals across users or different recording sessions from the same user. We propose an adversarial inference approach for transfer learning to extract disentangled nuisance-robust representations from physiological biosignal data in stress status level assessment. We exploit the trade-off between task-related features and person-discriminative information by using both an adversary network and a nuisance network to jointly manipulate and disentangle the learned latent representations by the encoder, which are then input to a discriminative classifier. Results on cross-subjects transfer evaluations demonstrate the benefits of the proposed adversarial framework, and thus show its capabilities to adapt to a broader range of subjects. Finally we highlight that our proposed adversarial transfer learning approach is also applicable to other deep feature learning frameworks.
翻訳日:2022-12-13 03:13:29 公開日:2020-04-15
# 機械常識推論のためのテキストからのパーソナリティ評価

Personality Assessment from Text for Machine Commonsense Reasoning ( http://arxiv.org/abs/2004.09275v1 )

ライセンス: Link先を確認
Niloofar Hezarjaribi, Zhila Esna Ashari, James F. Frenzel, Hassan Ghasemzadeh, and Saied Hemati(参考訳) 本稿では、表現されたテキストに基づいて人格特性を推定し、コモンセンス推論分析に利用するPerSenseについて述べる。 パーソナリティ評価アプローチには、集約された確率密度関数(PDF)と機械学習(ML)モデルが含まれる。 我々のゴールは、人格特性データに機械学習アルゴリズムを用いることで、オープンエンドのコモンセンス質問に対する人間の反応を予測できることを実証することである。 本研究では,精神保健分析や自殺予防に必須な性格特性であるニューロチミズムを主眼とした実験を行い,パーセンスアルゴリズムのパーセンス評価性能を,異なるニューロチミズムスコアを持つ多様な集団から収集したデータを用いて評価した。 分析の結果,アルゴリズムは真理データに匹敵する結果が得られることがわかった。 具体的には,第1推定確率と第2推定確率の対数比である信頼係数が3。 さらに、mlアプローチは、多層パーセプトロン分類器を備えた最高精度82.2%を得る。 我々は,コモンセンス推論分析の有効性を評価するために,コモンセンス質問に対する応答を予測するためにMLアルゴリズムを訓練する。 参加者300名を対象に分析を行った結果,persenseはランダム森林分類器を用いて82.3%の精度でコモンセンス質問に対する回答を予測できることが判明した。

This article presents PerSense, a framework to estimate human personality traits based on expressed texts and to use them for commonsense reasoning analysis. The personality assessment approaches include an aggregated Probability Density Functions (PDF), and Machine Learning (ML) models. Our goal is to demonstrate the feasibility of using machine learning algorithms on personality trait data to predict humans' responses to open-ended commonsense questions. We assess the performance of the PerSense algorithms for personality assessment by conducting an experiment focused on Neuroticism, an important personality trait crucial in mental health analysis and suicide prevention by collecting data from a diverse population with different Neuroticism scores. Our analysis shows that the algorithms achieve comparable results to the ground truth data. Specifically, the PDF approach achieves 97% accuracy when the confidence factor, the logarithmic ratio of the first to the second guess probability, is greater than 3. Additionally, ML approach obtains its highest accuracy, 82.2%, with a multilayer Perceptron classifier. To assess the feasibility of commonsense reasoning analysis, we train ML algorithms to predict responses to commonsense questions. Our analysis of data collected with 300 participants demonstrate that PerSense predicts answers to commonsense questions with 82.3% accuracy using a Random Forest classifier.
翻訳日:2022-12-13 03:13:10 公開日:2020-04-15
# DyslexiaとDysgraphia予測:新しい機械学習アプローチ

Dyslexia and Dysgraphia prediction: A new machine learning approach ( http://arxiv.org/abs/2005.06401v1 )

ライセンス: Link先を確認
Gilles Richard and Mathieu Serrurier(参考訳) 失書症、失読症、失行症などの学習障害は学業成績を阻害するが、学業期間を超えて長期的な影響も持つ。 世界の人口の5%から10%がこの種の障害を受けていることが広く認められている。 幼児期における障害の診断には, 様々な検査をしなければならない。 人間の専門家はこれらのテストにスコアを付け、子どもが特定の教育戦略を必要とするかどうかをスコアに基づいて決定する。 評価は長く、費用がかかり、感情的に痛みます。 本稿では,人工知能がこの評価の自動化にどう役立つかを検討する。 本研究は,手書きテキスト画像と音声記録のデータセットを一般の子供および読字障害児および/またはディスコグラフィック児の両方から収集し,読字障害/辞書と標準読字/書き手の違いを分析し,モデルを構築するために,分類に機械学習技術を適用する。 モデルは、画像とオーディオファイルを分析して得られる単純な特徴に基づいて訓練される。 我々のプリミティブ実装は、私たちが使ったデータセット上で比較的高いパフォーマンスを示しています。 これは、十分なデータが手に入る限り、正確な方法で非侵襲的な方法でジスレキシンとジストロフィーをスクリーニングできる可能性を示唆している。

Learning disabilities like dysgraphia, dyslexia, dyspraxia, etc. interfere with academic achievements but have also long terms consequences beyond the academic time. It is widely admitted that between 5% to 10% of the world population is subject to this kind of disabilities. For assessing such disabilities in early childhood, children have to solve a battery of tests. Human experts score these tests, and decide whether the children require specific education strategy on the basis of their marks. The assessment can be lengthy, costly and emotionally painful. In this paper, we investigate how Artificial Intelligence can help in automating this assessment. Gathering a dataset of handwritten text pictures and audio recordings, both from standard children and from dyslexic and/or dysgraphic children, we apply machine learning techniques for classification in order to analyze the differences between dyslexic/dysgraphic and standard readers/writers and to build a model. The model is trained on simple features obtained by analysing the pictures and the audio files. Our preliminary implementation shows relatively high performances on the dataset we have used. This suggests the possibility to screen dyslexia and dysgraphia via non-invasive methods in an accurate way as soon as enough data are available.
翻訳日:2022-12-13 03:12:47 公開日:2020-04-15
# グラフニューラルネットワークとの学習家具互換性

Learning Furniture Compatibility with Graph Neural Networks ( http://arxiv.org/abs/2004.07268v1 )

ライセンス: Link先を確認
Luisa F. Polania, Mauricio Flores, Yiran Li, and Matthew Nokleby(参考訳) 本稿では,画像から家具のセットのスタイリスティックな適合性を予測するためのグラフニューラルネットワーク(gnn)手法を提案する。 既存の成果のほとんどは、アイテム間の相互互換性を評価するシアムネットワークに基づいているが、提案したGNNアーキテクチャはアイテム群間の関係情報を利用する。 本稿では,各画像の特徴表現を抽出する深層CNNと,集合内の家具品間の相互作用をモデル化するゲートリカレント・ユニット(GRU)ネットワークと,適合点を算出する集約関数からなる2つのGNNモデルを提案する。 第1のモデルでは、同一の家具セットに属するアイテムに対するクラスタ化埋め込みの生成を促進する一般化コントラスト損失関数を導入する。 また、第1モデルでは、GRU内のノードと集約関数の間のエッジ関数をモデル複雑性を制限し、より小さなデータセットのトレーニングを可能にするために固定し、第2モデルでは、エッジ関数と集約関数を直接データから学習する。 本研究は,Bonn と Singapore の家具データセット上で,互換性予測と "空白化" タスクの最先端の精度を示す。 さらに新しいデータセットであるTarget Furniture Collectionsデータセットを導入し、1632の互換セットを構成するためにスタイリストによって手作業で計算された6000以上の家具アイテムを含む。 このデータセットでは予測精度も優れている。

We propose a graph neural network (GNN) approach to the problem of predicting the stylistic compatibility of a set of furniture items from images. While most existing results are based on siamese networks which evaluate pairwise compatibility between items, the proposed GNN architecture exploits relational information among groups of items. We present two GNN models, both of which comprise a deep CNN that extracts a feature representation for each image, a gated recurrent unit (GRU) network that models interactions between the furniture items in a set, and an aggregation function that calculates the compatibility score. In the first model, a generalized contrastive loss function that promotes the generation of clustered embeddings for items belonging to the same furniture set is introduced. Also, in the first model, the edge function between nodes in the GRU and the aggregation function are fixed in order to limit model complexity and allow training on smaller datasets; in the second model, the edge function and aggregation function are learned directly from the data. We demonstrate state-of-the art accuracy for compatibility prediction and "fill in the blank" tasks on the Bonn and Singapore furniture datasets. We further introduce a new dataset, called the Target Furniture Collections dataset, which contains over 6000 furniture items that have been hand-curated by stylists to make up 1632 compatible sets. We also demonstrate superior prediction accuracy on this dataset.
翻訳日:2022-12-13 03:06:26 公開日:2020-04-15
# 極端な一貫性:アノテーション不足とドメインシフトを克服する

Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts ( http://arxiv.org/abs/2004.11966v1 )

ライセンス: Link先を確認
Gaurav Fotedar, Nima Tajbakhsh, Shilpa Ananth, and Xiaowei Ding(参考訳) 教師付き学習は医用画像解析に有効であることが判明した。 しかし、それは小さなラベル付きデータのみを利用することができ、医療画像データセットで利用可能な大量のラベル付きデータを利用することができない。 ラベル付きデータセットが十分に大きいにもかかわらず、異なるプロトコルや民族をカバーすることができない場合、監視されたモデルはドメインシフトによってさらに障害を受ける。 本稿では,教師が指導する半教師のパラダイムにおいて,同じ領域や異なる領域のラベルなしデータを最大限に活用することにより,上記の制限を克服した「emph{extreme consistency}」を導入する。 極端整合性(Extreme consistency)とは、与えられたイメージの極端な変換を学生ネットワークに送信し、その予測を教師ネットワークの未変換画像に対する予測と一致させるプロセスである。 一貫性損失の極端な性質は, 軽度な予測一貫性のみを行使することにより, 準最適性能をもたらす関連作業と, 本手法を区別する。 我々の方法は 1) 追加の専門家アノテーションを必要としないため,オートディディクティクス。 2) ドメインシフトと限定的なアノテーション問題の両方を扱うため,汎用性 3) 分類,区分,検出タスクに容易に適用できるため,総称的に,及び 4) 敵対的なトレーニングを必要としないため、実装が簡単である。 皮膚および眼底画像における病変および網膜血管分画の課題について検討した。 我々の実験は、現代の教師付きネットワークと最近の半教師付きモデルの両方よりも大きな性能向上を示した。 この性能は、極端な一貫性によって強制される強い正規化に起因するため、学生ネットワークはラベル付き画像とラベルなし画像の両方の極端な変種を扱う方法を学ぶことができる。 これにより、推論中に避けられない同領域とクロスドメインのデータバリアビリティに取り組むネットワークの能力が向上する。

Supervised learning has proved effective for medical image analysis. However, it can utilize only the small labeled portion of data; it fails to leverage the large amounts of unlabeled data that is often available in medical image datasets. Supervised models are further handicapped by domain shifts, when the labeled dataset, despite being large enough, fails to cover different protocols or ethnicities. In this paper, we introduce \emph{extreme consistency}, which overcomes the above limitations, by maximally leveraging unlabeled data from the same or a different domain in a teacher-student semi-supervised paradigm. Extreme consistency is the process of sending an extreme transformation of a given image to the student network and then constraining its prediction to be consistent with the teacher network's prediction for the untransformed image. The extreme nature of our consistency loss distinguishes our method from related works that yield suboptimal performance by exercising only mild prediction consistency. Our method is 1) auto-didactic, as it requires no extra expert annotations; 2) versatile, as it handles both domain shift and limited annotation problems; 3) generic, as it is readily applicable to classification, segmentation, and detection tasks; and 4) simple to implement, as it requires no adversarial training. We evaluate our method for the tasks of lesion and retinal vessel segmentation in skin and fundus images. Our experiments demonstrate a significant performance gain over both modern supervised networks and recent semi-supervised models. This performance is attributed to the strong regularization enforced by extreme consistency, which enables the student network to learn how to handle extreme variants of both labeled and unlabeled images. This enhances the network's ability to tackle the inevitable same- and cross-domain data variability during inference.
翻訳日:2022-12-13 03:06:02 公開日:2020-04-15
# Yelpレビューの感性分析:技術とモデルの比較

Sentiment Analysis of Yelp Reviews: A Comparison of Techniques and Models ( http://arxiv.org/abs/2004.13851v1 )

ライセンス: Link先を確認
Siqi Liu(参考訳) 我々は5000のレストランで35万以上のYelpレビューを使用して、テキスト前処理技術に関するアブレーション調査を行います。 また,複数の機械学習モデルとディープラーニングモデルによるユーザの感情予測(否定的,中立的,肯定的)の有効性を比較した。 機械学習モデルでは、二項のバガオブワード表現、二元グラフの追加、最小周波数制約の付与、テキストの正規化がモデル性能に肯定的な影響を与えていることがわかった。 ディープラーニングモデルでは、事前学習された単語埋め込みと最大長のカプセル化によってモデル性能が向上することがよく見られる。 最後に、マクロF1スコアを比較指標として、ロジスティック回帰やサポートベクトルマシンのような単純なモデルの方が、グラディエントブースティングやLSTM、BERTといったより複雑なモデルよりも感情を予測するのに効果的であることを示す。

We use over 350,000 Yelp reviews on 5,000 restaurants to perform an ablation study on text preprocessing techniques. We also compare the effectiveness of several machine learning and deep learning models on predicting user sentiment (negative, neutral, or positive). For machine learning models, we find that using binary bag-of-word representation, adding bi-grams, imposing minimum frequency constraints and normalizing texts have positive effects on model performance. For deep learning models, we find that using pre-trained word embeddings and capping maximum length often boost model performance. Finally, using macro F1 score as our comparison metric, we find simpler models such as Logistic Regression and Support Vector Machine to be more effective at predicting sentiments than more complex models such as Gradient Boosting, LSTM and BERT.
翻訳日:2022-12-13 03:05:16 公開日:2020-04-15
# 胸部X線画像における疾患検出のための伝達学習型神経進化

Transfer-Learning-Aware Neuro-Evolution for Diseases Detection in Chest X-Ray Images ( http://arxiv.org/abs/2004.07136v1 )

ライセンス: Link先を確認
Albert Susanto, Herman, Tjeng Wawan Cenggoro, Suharjito, Bens Pardamean(参考訳) ニューラルネットワークは、画像でトレーニングする際のアーキテクチャの複雑さのために、過度な時間のコストを必要とする。 転送学習と微調整は、ニューラルネットワークをトレーニングする際の時間とコスト効率を改善するのに役立つ。 しかし、転送学習と微調整には、試すべき多くの実験が必要です。 そのため、転送学習や微調整に最適なアーキテクチャを見つける方法が必要となる。 この問題を克服するために、遺伝的アルゴリズムを用いた神経進化は、転送学習に最適なアーキテクチャを見つけるために使用できる。 本研究のパフォーマンスを確認するために,ベースニューラルネットワークモデルとしてChestX-Ray 14とDenseNet-121をデータセット化した。 本研究は、AUCスコア、トレーニングの実行時間の違い、および重要度テストに対するMcNemarのテストを用いた。 その結果,AUCスコアでは5%,実行時間では3%,疾患検出では多く,有意な差が認められた。 最後に,神経進化変換学習が伝達学習や微調整の分野でどのように役立つか,その具体的な概要を述べる。

The neural network needs excessive costs of time because of the complexity of architecture when trained on images. Transfer learning and fine-tuning can help improve time and cost efficiency when training a neural network. Yet, Transfer learning and fine-tuning needs a lot of experiment to try with. Therefore, a method to find the best architecture for transfer learning and fine-tuning is needed. To overcome this problem, neuro-evolution using a genetic algorithm can be used to find the best architecture for transfer learning. To check the performance of this study, dataset ChestX-Ray 14 and DenseNet-121 as a base neural network model are used. This study used the AUC score, differences in execution time for training, and McNemar's test to the significance test. In terms of result, this study got a 5% difference in the AUC score, 3 % faster in terms of execution time, and significance in most of the disease detection. Finally, this study gives a concrete summary of how neuro-evolution transfer learning can help in terms of transfer learning and fine-tuning.
翻訳日:2022-12-13 03:04:40 公開日:2020-04-15
# タブラルおよびシークエンシャル集団合成のための複合旅行生成逆ネットワーク

Composite Travel Generative Adversarial Networks for Tabular and Sequential Population Synthesis ( http://arxiv.org/abs/2004.06838v1 )

ライセンス: Link先を確認
Godwin Badu-Marfo, Bilal Farooq, and Zachary Paterson(参考訳) エージェントベースの交通モデルが旅行行動、移動選択、行動選好をシミュレートする標準となり、人口全体の旅行需要データを分解する。 この目的で人口データを合成する様々な方法が提案されている。 本研究では, 表型(年齢, 性別など)と連続移動データ(トリップ軌跡, シーケンスなど)を有する複合合成エージェントを再構築可能な, 集団の結合分布を推定する新しい深層生成モデルである複合旅行生成逆ネットワーク(ctgan)を提案する。 CTGANモデルは、高次元の表層集団合成に成功した変分オートエンコーダ(VAE)法など、最近提案された他の手法と比較される。 本研究では,分布類似性,多変量相関,時空間メトリクスに基づく合成出力の性能評価を行った。 その結果, 空間規模や次元の異なる合成個体群とその表層および空間的連続特性の一貫性と精度が示された。

Agent-based transportation modelling has become the standard to simulate travel behaviour, mobility choices and activity preferences using disaggregate travel demand data for entire populations, data that are not typically readily available. Various methods have been proposed to synthesize population data for this purpose. We present a Composite Travel Generative Adversarial Network (CTGAN), a novel deep generative model to estimate the underlying joint distribution of a population, that is capable of reconstructing composite synthetic agents having tabular (e.g. age and sex) as well as sequential mobility data (e.g. trip trajectory and sequence). The CTGAN model is compared with other recently proposed methods such as the Variational Autoencoders (VAE) method, which has shown success in high dimensional tabular population synthesis. We evaluate the performance of the synthesized outputs based on distribution similarity, multi-variate correlations and spatio-temporal metrics. The results show the consistent and accurate generation of synthetic populations and their tabular and spatially sequential attributes, generated over varying spatial scales and dimensions.
翻訳日:2022-12-13 03:04:24 公開日:2020-04-15
# 分散階層エッジコンピューティングにおけるIoTデータのコンテキスト境界異常検出

Contextual-Bandit Anomaly Detection for IoT Data in Distributed Hierarchical Edge Computing ( http://arxiv.org/abs/2004.06896v1 )

ライセンス: Link先を確認
Mao V. Ngo, Tie Luo, Hakima Chaouchi, and Tony Q.S. Quek(参考訳) ディープニューラルネットワーク(DNN)の進歩は、異常なIoTデータのリアルタイム検出を大幅に加速させる。 しかし、IoTデバイスは複雑なDNNモデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。 本稿では,分散階層型エッジコンピューティング(HEC)システムに対して,一変量および多変量IoTデータを対象とした適応型異常検出手法のデモと構築を行う。 まず,複雑性を増した複数の異常検出DNNモデルを構築し,各モデルを底面から上部までのHEC層に関連付ける。 そして、各入力データから抽出した文脈情報に基づいて、これらのモデルのうちの1つをオンザフライで選択する適応的スキームを設計する。 モデル選択は、単一ステップマルコフ決定過程を特徴とする文脈的バンディット問題として定式化し、強化学習方針ネットワークを用いて解く。 HECテストベッドを構築し、提案したアプローチを実装し、実際のIoTデータセットを使用して評価します。 提案手法は,検出タスクをクラウドにオフロードする場合と比較して,精度を犠牲にすることなく検出遅延を大幅に削減できることが実証された。 また、他のベースラインスキームと比較し、それが最高の精度と遅延のトレードオフを達成することを示す。 私たちのデモもオンラインで公開されている。

Advances in deep neural networks (DNN) greatly bolster real-time detection of anomalous IoT data. However, IoT devices can hardly afford complex DNN models, and offloading anomaly detection tasks to the cloud incurs long delay. In this paper, we propose and build a demo for an adaptive anomaly detection approach for distributed hierarchical edge computing (HEC) systems to solve this problem, for both univariate and multivariate IoT data. First, we construct multiple anomaly detection DNN models with increasing complexity, and associate each model with a layer in HEC from bottom to top. Then, we design an adaptive scheme to select one of these models on the fly, based on the contextual information extracted from each input data. The model selection is formulated as a contextual bandit problem characterized by a single-step Markov decision process, and is solved using a reinforcement learning policy network. We build an HEC testbed, implement our proposed approach, and evaluate it using real IoT datasets. The demo shows that our proposed approach significantly reduces detection delay (e.g., by 71.4% for univariate dataset) without sacrificing accuracy, as compared to offloading detection tasks to the cloud. We also compare it with other baseline schemes and demonstrate that it achieves the best accuracy-delay tradeoff. Our demo is also available online: https://rebrand.ly/91a71
翻訳日:2022-12-13 03:04:05 公開日:2020-04-15
# 学習率とシュリンガー演算子について

On Learning Rates and Schr\"odinger Operators ( http://arxiv.org/abs/2004.06977v1 )

ライセンス: Link先を確認
Bin Shi, Weijie J. Su, Michael I. Jordan(参考訳) 学習速度はおそらく、ニューラルネットワークのトレーニングや、より広い意味で、確率的(非凸)最適化において最も重要なパラメータである。 したがって、学習率の低下を含む学習率の調整には、徐々に低下する大きな初歩的な学習率から始まる多くの効果があるが、十分に理解されていない技術がある。 本稿では,確率勾配降下 (sgd) における学習速度の影響に関する一般理論的解析を行う。 解析は,SGDの代用として機能する学習速度依存確率微分方程式(Lr依存SDE)を用いて行う。 目的関数の幅広いクラスに対して、このSGDの連続時間定式化に対する収束の線形性を確立し、SGDにおける学習速度の基本的な重要性を強調し、勾配降下や確率勾配ランゲヴィンダイナミクスと対比する。 さらに、Lr依存SDEに付随するシュリンガー作用素の特別な場合であるウィッテン・ラプラシアンのスペクトルを解析することにより、最適線形率の明示的な式を得る。 驚くべきことに、この表現は学習速度に対する線形収束率の依存性を明確に示しており、学習速度は幅広い非凸関数に対してゼロになる傾向があるが、強い凸関数に対しては定数である。 非凸問題と凸問題との鋭い区別に基づいて,非凸最適化における学習率減衰の利点を数学的に解釈する。

The learning rate is perhaps the single most important parameter in the training of neural networks and, more broadly, in stochastic (nonconvex) optimization. Accordingly, there are numerous effective, but poorly understood, techniques for tuning the learning rate, including learning rate decay, which starts with a large initial learning rate that is gradually decreased. In this paper, we present a general theoretical analysis of the effect of the learning rate in stochastic gradient descent (SGD). Our analysis is based on the use of a learning-rate-dependent stochastic differential equation (lr-dependent SDE) that serves as a surrogate for SGD. For a broad class of objective functions, we establish a linear rate of convergence for this continuous-time formulation of SGD, highlighting the fundamental importance of the learning rate in SGD, and contrasting to gradient descent and stochastic gradient Langevin dynamics. Moreover, we obtain an explicit expression for the optimal linear rate by analyzing the spectrum of the Witten-Laplacian, a special case of the Schr\"odinger operator associated with the lr-dependent SDE. Strikingly, this expression clearly reveals the dependence of the linear convergence rate on the learning rate -- the linear rate decreases rapidly to zero as the learning rate tends to zero for a broad class of nonconvex functions, whereas it stays constant for strongly convex functions. Based on this sharp distinction between nonconvex and convex problems, we provide a mathematical interpretation of the benefits of using learning rate decay for nonconvex optimization.
翻訳日:2022-12-13 03:03:41 公開日:2020-04-15
# mxpool:階層グラフ表現学習のための多重化プール

MxPool: Multiplex Pooling for Hierarchical Graph Representation Learning ( http://arxiv.org/abs/2004.06846v1 )

ライセンス: Link先を確認
Yanyan Liang, Yanfeng Zhang, Dechao Gao, Qian Xu(参考訳) グラフ分類タスクにディープラーニングの手法をどのように利用するかは、ここ数年でかなりの研究の注目を集めている。 グラフ分類タスクに関して、分類すべきグラフは、様々なグラフサイズ(例えば、異なるノード数とエッジ)を持ち、様々なグラフ特性(例えば、平均ノード次数、直径、クラスタリング係数)を持つ。 グラフの多様な性質は、グラフの最も適したハイパーパラメータが異なるため、既存のグラフ学習技術に重大な課題を課している。 統一グラフニューラルネットワークにより、多様なグラフの集合からグラフの特徴を学ぶことは困難である。 これにより、多元的構造を多様に利用し、グラフの優先度特性を利用して学習を導くことができる。 本稿では,複数のグラフ畳み込み/プールネットワークを用いて,グラフ表現学習タスクのための階層的学習構造を構築するmxpoolを提案する。 多数のグラフ分類ベンチマーク実験により、MxPoolは他の最先端グラフ表現学習法よりも優れていることが示された。

How to utilize deep learning methods for graph classification tasks has attracted considerable research attention in the past few years. Regarding graph classification tasks, the graphs to be classified may have various graph sizes (i.e., different number of nodes and edges) and have various graph properties (e.g., average node degree, diameter, and clustering coefficient). The diverse property of graphs has imposed significant challenges on existing graph learning techniques since diverse graphs have different best-fit hyperparameters. It is difficult to learn graph features from a set of diverse graphs by a unified graph neural network. This motivates us to use a multiplex structure in a diverse way and utilize a priori properties of graphs to guide the learning. In this paper, we propose MxPool, which concurrently uses multiple graph convolution/pooling networks to build a hierarchical learning structure for graph representation learning tasks. Our experiments on numerous graph classification benchmarks show that our MxPool has superiority over other state-of-the-art graph representation learning methods.
翻訳日:2022-12-13 02:56:57 公開日:2020-04-15
# リアル合成データを用いた教師なし異常検出のベンチマーク

Benchmarking Unsupervised Outlier Detection with Realistic Synthetic Data ( http://arxiv.org/abs/2004.06947v1 )

ライセンス: Link先を確認
Georg Steinbuss and Klemens B\"ohm(参考訳) 教師なしの異常検出のベンチマークは難しい。 外乱はまれであり、既存のベンチマークデータは様々な特徴と未知の特徴を持つ外乱を含む。 完全な合成データは、通常、外れ値と明確な特徴を持つ通常のインスタンスで構成されており、原理的に検出方法のより有意義な評価を可能にする。 それでも、異常検出のためのベンチマークに合成データを含める試みはごくわずかである。 これは、不正確な外れ値の概念や、合成データで異なるドメインの適切なカバレッジに到達するのが難しいためかもしれない。 本研究では,このようなベンチマークのためのデータセット生成のための汎用プロセスを提案する。 コアとなるアイデアは、既存の実世界のベンチマークデータから通常のインスタンスを再構築し、異常値を生成して洞察に富んだ特性を示すことだ。 これにより、ドメインの優れたカバレッジと結果の有用な解釈の両方が可能になる。 また、局所的な外れ値のような特定の特性を持つ外れ値を生成する一般的なプロセスの3つのインスタンス化についても述べる。 最先端検出手法を用いたベンチマークでは,本手法が実用的であることを確認した。

Benchmarking unsupervised outlier detection is difficult. Outliers are rare, and existing benchmark data contains outliers with various and unknown characteristics. Fully synthetic data usually consists of outliers and regular instance with clear characteristics and thus allows for a more meaningful evaluation of detection methods in principle. Nonetheless, there have only been few attempts to include synthetic data in benchmarks for outlier detection. This might be due to the imprecise notion of outliers or to the difficulty to arrive at a good coverage of different domains with synthetic data. In this work we propose a generic process for the generation of data sets for such benchmarking. The core idea is to reconstruct regular instances from existing real-world benchmark data while generating outliers so that they exhibit insightful characteristics. This allows both for a good coverage of domains and for helpful interpretations of results. We also describe three instantiations of the generic process that generate outliers with specific characteristics, like local outliers. A benchmark with state-of-the-art detection methods confirms that our generic process is indeed practical.
翻訳日:2022-12-13 02:56:42 公開日:2020-04-15
# モデルベースrlにおける不確実性を考慮した計画のためのブートストラップモデル学習と誤り訂正

Bootstrapped model learning and error correction for planning with uncertainty in model-based RL ( http://arxiv.org/abs/2004.07155v1 )

ライセンス: Link先を確認
Alvaro Ovalle, Simon M. Lucas(参考訳) フォワードモデルへのアクセスは、Monte Carlo Tree SearchやRolling Horizon Evolutionといった計画アルゴリズムの利用を可能にする。 モデルが利用できない場合、自然な目的は環境のダイナミクスを正確に反映したモデルを学ぶことである。 多くの状況では不可能であり、モデル内の最小限の不具合は、パフォーマンスと失敗につながる可能性がある。 本稿では,不確実性に着目した強化学習エージェントによるモデル誤特定の問題について検討する。 本稿では,将来状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。 我々は、最も可能性の高い予測を抽出するために、いくつかのスキームを実験する。 さらに,予測分布を通して提供される文脈に導かれる高次制約を適用した大域的誤り訂正フィルタも導入する。 私たちはminipacmanのアプローチを説明します。 提案手法は,不完全なモデルを扱う場合,モデル精度と計画アルゴリズム内での使用の両方において,性能と安定性が向上することを示す。

Having access to a forward model enables the use of planning algorithms such as Monte Carlo Tree Search and Rolling Horizon Evolution. Where a model is unavailable, a natural aim is to learn a model that reflects accurately the dynamics of the environment. In many situations it might not be possible and minimal glitches in the model may lead to poor performance and failure. This paper explores the problem of model misspecification through uncertainty-aware reinforcement learning agents. We propose a bootstrapped multi-headed neural network that learns the distribution of future states and rewards. We experiment with a number of schemes to extract the most likely predictions. Moreover, we also introduce a global error correction filter that applies high-level constraints guided by the context provided through the predictive distribution. We illustrate our approach on Minipacman. The evaluation demonstrates that when dealing with imperfect models, our methods exhibit increased performance and stability, both in terms of model accuracy and in its use within a planning algorithm.
翻訳日:2022-12-13 02:56:02 公開日:2020-04-15
# 連続的少数ショット学習のためのベンチマーク定義

Defining Benchmarks for Continual Few-Shot Learning ( http://arxiv.org/abs/2004.11967v1 )

ライセンス: Link先を確認
Antreas Antoniou, Massimiliano Patacchiola, Mateusz Ochal and Amos Storkey(参考訳) 数ショットと連続学習の両方が、適切なベンチマークの導入により、ここ数年でかなりの進歩を遂げている。 そうは言っても、この分野は依然として、学習者が次々にいくつかの数発のタスクを提示し、前述したすべてのタスクから引き起こされた検証セットでうまく実行するように要求される、継続的な数発学習の、非常に望ましい設定のための一連のベンチマークを組み立てている。 連続的な少数ショット学習は計算量が少なく、効率的な調査と実験のための優れた設定である。 本稿では,近年の文献を考慮し,連続的少数ショット学習のための理論的枠組みを最初に定義し,評価基準を統一し,複数の視点から問題を探索するフレキシブルベンチマークを提案する。 ベンチマークの一環として、SlimageNet64と呼ばれるImageNetのコンパクト版を導入し、元の1000クラスのすべてを保持するが、各クラスの200インスタンス(合計200Kデータポイント)を64×64ピクセルにダウンスケールするのみである。 提案するベンチマークのベースラインとして,いくつかの一般的な数ショット学習アルゴリズムを用いて,従来知られていなかった長所と短所を連続的およびデータ制限設定で明らかにする。

Both few-shot and continual learning have seen substantial progress in the last years due to the introduction of proper benchmarks. That being said, the field has still to frame a suite of benchmarks for the highly desirable setting of continual few-shot learning, where the learner is presented a number of few-shot tasks, one after the other, and then asked to perform well on a validation set stemming from all previously seen tasks. Continual few-shot learning has a small computational footprint and is thus an excellent setting for efficient investigation and experimentation. In this paper we first define a theoretical framework for continual few-shot learning, taking into account recent literature, then we propose a range of flexible benchmarks that unify the evaluation criteria and allows exploring the problem from multiple perspectives. As part of the benchmark, we introduce a compact variant of ImageNet, called SlimageNet64, which retains all original 1000 classes but only contains 200 instances of each one (a total of 200K data-points) downscaled to 64 x 64 pixels. We provide baselines for the proposed benchmarks using a number of popular few-shot learning algorithms, as a result, exposing previously unknown strengths and weaknesses of those algorithms in continual and data-limited settings.
翻訳日:2022-12-13 02:48:29 公開日:2020-04-15
# MOEA/Dにおける人口規模とサブプロブレム選択の影響について

On the Combined Impact of Population Size and Sub-problem Selection in MOEA/D ( http://arxiv.org/abs/2004.06961v1 )

ライセンス: Link先を確認
Geoffrey Pruvost (BONUS), Bilel Derbel (BONUS), Arnaud Liefooghe (BONUS), Ke Li, Qingfu Zhang (CUHK)(参考訳) 本稿では,分解に基づく多目的進化アルゴリズムの動作原理を理解し,改善することを目的とする。 我々は,各世代における集団規模と子孫数の役割を強調しつつ,サブプロブレム選択のための様々な戦略の円滑な統合を支援するために,確立されたMoea/dフレームワークの設計をレビューする。 多様な多目的組合せnkランドスケープに関する包括的実証分析を行い,それらのパラメータが基礎となる検索プロセスの任意の時間性能に与える影響について新たな知見を与える。 特に,サブプロブレムをランダムに選択する単純なランダム戦略であっても,既存の高度な戦略よりも優れていることを示す。 また,このような戦略の頑丈さと対象問題の目的空間次元に対する感度について検討した。

This paper intends to understand and to improve the working principle of decomposition-based multi-objective evolutionary algorithms. We review the design of the well-established Moea/d framework to support the smooth integration of different strategies for sub-problem selection, while emphasizing the role of the population size and of the number of offspring created at each generation. By conducting a comprehensive empirical analysis on a wide range of multi-and many-objective combinatorial NK landscapes, we provide new insights into the combined effect of those parameters on the anytime performance of the underlying search process. In particular, we show that even a simple random strategy selecting sub-problems at random outperforms existing sophisticated strategies. We also study the sensitivity of such strategies with respect to the ruggedness and the objective space dimension of the target problem.
翻訳日:2022-12-13 02:47:54 公開日:2020-04-15
# 深層学習による美的評価の理解

Understanding Aesthetic Evaluation using Deep Learning ( http://arxiv.org/abs/2004.06874v1 )

ライセンス: Link先を確認
Jon McCormack and Andy Lomas(参考訳) 進化的アートシステムのボトルネックは美的評価である。 対称性, コヒーレンス, 複雑性, コントラスト, グループ化など, 美学の評価を自動化するための様々な方法が提案されている。 対話型遺伝的アルゴリズム (IGA) は, 利用者の疲労や人口規模が小さいため, 美学の主観的評価に頼っているが, 大規模な探索の可能性には限界がある。 本稿では,近年の深層学習の進歩が,個人的審美判断の自動化にどのように役立つかを検討する。 先導的なアーティストのコンピュータアートデータセットを用いて, ジェノタイプと表現型空間の両方を可視化し, 生成系における新しい領域の探索を支援する。 ユーザの以前の審美評価に基づいてトレーニングされた畳み込みニューラルネットワークは、既知の高品質なジェノタイプ-フェノタイプマッピング間の新たな可能性を提案するために使用される。

A bottleneck in any evolutionary art system is aesthetic evaluation. Many different methods have been proposed to automate the evaluation of aesthetics, including measures of symmetry, coherence, complexity, contrast and grouping. The interactive genetic algorithm (IGA) relies on human-in-the-loop, subjective evaluation of aesthetics, but limits possibilities for large search due to user fatigue and small population sizes. In this paper we look at how recent advances in deep learning can assist in automating personal aesthetic judgement. Using a leading artist's computer art dataset, we use dimensionality reduction methods to visualise both genotype and phenotype space in order to support the exploration of new territory in any generative system. Convolutional Neural Networks trained on the user's prior aesthetic evaluations are used to suggest new possibilities similar or between known high quality genotype-phenotype mappings.
翻訳日:2022-12-13 02:47:10 公開日:2020-04-15
# 改良型樹状細胞アルゴリズムを用いた新しい侵入検出システム

A New Intrusion Detection System using the Improved Dendritic Cell Algorithm ( http://arxiv.org/abs/2004.09274v1 )

ライセンス: Link先を確認
Ehsan Farzadnia, Hossein Shirazi, Alireza Nowroozi(参考訳) 新たな進化アルゴリズムの1つである樹状細胞アルゴリズム(DCA)は、樹状細胞(DCs)として知られる特定の免疫剤の挙動に基づいている。 DCAには、二項分類問題に有効ないくつかの特徴がある。 本稿では,ネットワーク侵入検知問題における防御シールドとなる半教師付き分類器として機能する免疫誘導機構の新バージョンの提供を目的とする。 今のところ、検出フェーズでGetAntigen()関数に戦略やアイデアは採用されていないが、ランダムにサンプリングすることで、複数のサイクルで望ましくない結果が得られる。 これは不確実性につながる。 組織中のdcsの生物学的挙動によって達成される必要があるが、樹状細胞の免疫学的機能に基づいて正確に作用する新しい戦略を提案する。 提案するメカニズムは2つの項目に焦点をあてる: 第一に、危険信号を計算するための事前の抗原セットを持つことの難しさを回避し、第二に、非ランダムなデータサンプリングのために、新しい免疫に触発されたアイデアを提供する。 可変機能移行しきい値もまた、移行しきい値(MT)の柔軟性の必要性を示すサイクルごとに計算される。 テストに使用される侵入検知能力(CID)と呼ばれる重要な基準。 すべてのテストはUNSW-NB15という新しいベンチマークデータセットで実施された。 実験結果から,本スキーマが標準DCAを支配し,文献上の他のアプローチと比較して高いCIDを有することが示された。

The Dendritic Cell Algorithm (DCA) as one of the emerging evolutionary algorithms is based on the behavior of the specific immune agents; known as Dendritic Cells (DCs). DCA has several potentially beneficial features for binary classification problems. In this paper, we aim at providing a new version of this immune-inspired mechanism acts as a semi-supervised classifier which can be a defensive shield in network intrusion detection problem. Till now, no strategy or idea has already been adopted on the GetAntigen() function on detection phase, but randomly sampling entails the DCA to provide undesirable results in several cycles in each time. This leads to uncertainty. Whereas it must be accomplished by biological behaviors of DCs in tissues, we have proposed a novel strategy which exactly acts based on its immunological functionalities of dendritic cells. The proposed mechanism focuses on two items: First, to obviate the challenge of needing to have a preordered antigen set for computing danger signal, and the second, to provide a novel immune-inspired idea in order to non-random data sampling. A variable functional migration threshold is also computed cycle by cycle that shows necessity of the Migration threshold (MT) flexibility. A significant criterion so called capability of intrusion detection (CID) used for tests. All of the tests have been performed in a new benchmark dataset named UNSW-NB15. Experimental consequences demonstrate that the present schema dominates the standard DCA and has higher CID in comparison with other approaches found in literature.
翻訳日:2022-12-13 02:46:18 公開日:2020-04-15
# 物理に着想を得たセミマルコフ環境における強化学習

Reinforcement Learning in a Physics-Inspired Semi-Markov Environment ( http://arxiv.org/abs/2004.07333v1 )

ライセンス: Link先を確認
Colin Bellinger, Rory Coles, Mark Crowley, and Isaac Tamblyn(参考訳) 強化学習(rl)は科学的発見と設計の多くの応用において大きな可能性を秘めている。 最近の研究には、例えば、治療薬のための新しい構造と分子の組成の設計が含まれる。 しかし、RLの科学領域への応用に関する既存の研究の多くは、利用可能な状態表現がマルコフの性質に従うと仮定している。 時間、コスト、センサーの精度、科学知識のギャップに関連する理由から、多くの科学的設計や発見問題はマルコフの性質を満たしていない。 したがって、マルコフ決定プロセス(MDP)以外のものは、最適なポリシーを計画/発見するために使われるべきです。 本稿では,物理に着想を得た準マルコフRL環境,すなわち位相変化環境について述べる。 さらに,提案環境におけるMDPと部分観測可能なMDPの両方に対する値ベースRLアルゴリズムの性能評価を行った。 以上の結果から, 深部Q-networks (DRQN) は深部Q-networks (DQN) より有意に優れており, DRQN は後視体験リプレイによるトレーニングの恩恵を受けることが示唆された。 セミマルコフRLとPMDPの科学実験への応用についても論じる。

Reinforcement learning (RL) has been demonstrated to have great potential in many applications of scientific discovery and design. Recent work includes, for example, the design of new structures and compositions of molecules for therapeutic drugs. Much of the existing work related to the application of RL to scientific domains, however, assumes that the available state representation obeys the Markov property. For reasons associated with time, cost, sensor accuracy, and gaps in scientific knowledge, many scientific design and discovery problems do not satisfy the Markov property. Thus, something other than a Markov decision process (MDP) should be used to plan / find the optimal policy. In this paper, we present a physics-inspired semi-Markov RL environment, namely the phase change environment. In addition, we evaluate the performance of value-based RL algorithms for both MDPs and partially observable MDPs (POMDPs) on the proposed environment. Our results demonstrate deep recurrent Q-networks (DRQN) significantly outperform deep Q-networks (DQN), and that DRQNs benefit from training with hindsight experience replay. Implications for the use of semi-Markovian RL and POMDPs for scientific laboratories are also discussed.
翻訳日:2022-12-13 02:45:34 公開日:2020-04-15
# 畳み込みニューラルネットワークのハイブリッド学習法

A Hybrid Method for Training Convolutional Neural Networks ( http://arxiv.org/abs/2005.04153v1 )

ライセンス: Link先を確認
Vasco Lopes, Paulo Fazendeiro(参考訳) 人工知能アルゴリズムの人気と利用は着実に増加している。 Deep Learningは、巨大なデータセットを使用してニューラルネットワークをトレーニングすることを可能にし、機能学習プロセスを自動化するため、人間の抽出された機能の必要性を取り除く。 畳み込みニューラルネットワーク(Convolutional Neural Networks)のような深層ニューラルネットワークを訓練する余地では、与えられた入力に対するネットワークの重みに関する損失関数の勾配を計算することによって、ネットワークの重みを調整して、与えられたタスクでよりよく機能するようにすることで、バックプロパゲーションが得られます。 本稿では,畳み込みニューラルネットワークを学習するために,バックプロパゲーションと進化戦略の両方を用いたハイブリッド手法を提案する。 提案手法は,VGG16モデルを用いたCIFAR-10における画像分類のタスクにおいて,通常の訓練において改善が可能であり,最終試験結果は,バックプロパゲーションのみを用いた場合に比べて平均0.61%増加した。

Artificial Intelligence algorithms have been steadily increasing in popularity and usage. Deep Learning, allows neural networks to be trained using huge datasets and also removes the need for human extracted features, as it automates the feature learning process. In the hearth of training deep neural networks, such as Convolutional Neural Networks, we find backpropagation, that by computing the gradient of the loss function with respect to the weights of the network for a given input, it allows the weights of the network to be adjusted to better perform in the given task. In this paper, we propose a hybrid method that uses both backpropagation and evolutionary strategies to train Convolutional Neural Networks, where the evolutionary strategies are used to help to avoid local minimas and fine-tune the weights, so that the network achieves higher accuracy results. We show that the proposed hybrid method is capable of improving upon regular training in the task of image classification in CIFAR-10, where a VGG16 model was used and the final test results increased 0.61%, in average, when compared to using only backpropagation.
翻訳日:2022-12-13 02:38:23 公開日:2020-04-15
# BabyAI++: 記憶を超えた基礎的な言語学習を目指す

BabyAI++: Towards Grounded-Language Learning beyond Memorization ( http://arxiv.org/abs/2004.07200v1 )

ライセンス: Link先を確認
Tianshi Cao, Jingkang Wang, Yining Zhang, Sivabalan Manivasagam(参考訳) 多くの現実世界のタスク(例えばロボティクス)の成功にもかかわらず、強化学習(RL)エージェントは、新しい動的シナリオに直面した時でもタトゥーララサから学習する。 対照的に、人間はテキスト記述によってこの負担を和らげることができる。 最近の研究は、目標条件付きRLにおけるインストラクティブテキストの利点を示しているが、記述テキストがエージェントが動的環境全体にわたって一般化するのに役立つかどうかの研究は少ない。 この方向の研究を促進するため、我々はBabyAI++という新しいプラットフォームを導入し、対応する記述テキストとともに様々な動的環境を生成する。 さらに,本プラットフォーム上での視覚的接地型言語学習への新しいアプローチとして,授業から受け継いだいくつかのベースラインのベンチマークを行った。 広範な実験により、記述的テキストを使用することで、様々な動的環境におけるRLエージェントの一般化が向上することを示す。

Despite success in many real-world tasks (e.g., robotics), reinforcement learning (RL) agents still learn from tabula rasa when facing new and dynamic scenarios. By contrast, humans can offload this burden through textual descriptions. Although recent works have shown the benefits of instructive texts in goal-conditioned RL, few have studied whether descriptive texts help agents to generalize across dynamic environments. To promote research in this direction, we introduce a new platform, BabyAI++, to generate various dynamic environments along with corresponding descriptive texts. Moreover, we benchmark several baselines inherited from the instruction following setting and develop a novel approach towards visually-grounded language learning on our platform. Extensive experiments show strong evidence that using descriptive texts improves the generalization of RL agents across environments with varied dynamics.
翻訳日:2022-12-13 02:38:03 公開日:2020-04-15
# lamBERT:マルチモーダルBERTを用いた言語とアクション学習

lamBERT: Language and Action Learning Using Multimodal BERT ( http://arxiv.org/abs/2004.07093v1 )

ライセンス: Link先を確認
Kazuki Miyazawa, Tatsuya Aoki, Takato Horii, and Takayuki Nagai(参考訳) 近年,変換器(BERT)モデルからの双方向エンコーダ表現が自然言語処理の分野で注目を集めている。 BERTモデルは,大規模コーパスを教師なしで事前学習することで,様々なタスクに適応可能な言語表現を学習する。 本研究では,マルチモーダルBERT(lamBERT)モデルを用いて,言語と行動の学習を可能にする言語と行動学習を提案する。 1) bert モデルをマルチモーダル表現に拡張し, 2)強化学習と統合する。 提案モデルを検証するために,エージェントが適切に行動するために言語理解を必要とするグリッド環境で実験を行う。 その結果、ランベルトモデルは、畳み込みニューラルネットワークモデルや事前学習を行わないランバートモデルなど、他のモデルと比較して、マルチタスク設定や転送設定でより高い報酬を得た。

Recently, the bidirectional encoder representations from transformers (BERT) model has attracted much attention in the field of natural language processing, owing to its high performance in language understanding-related tasks. The BERT model learns language representation that can be adapted to various tasks via pre-training using a large corpus in an unsupervised manner. This study proposes the language and action learning using multimodal BERT (lamBERT) model that enables the learning of language and actions by 1) extending the BERT model to multimodal representation and 2) integrating it with reinforcement learning. To verify the proposed model, an experiment is conducted in a grid environment that requires language understanding for the agent to act properly. As a result, the lamBERT model obtained higher rewards in multitask settings and transfer settings when compared to other models, such as the convolutional neural network-based model and the lamBERT model without pre-training.
翻訳日:2022-12-13 02:37:16 公開日:2020-04-15
# 木に基づく手法による分類構造の利用

Exploiting Categorical Structure Using Tree-Based Methods ( http://arxiv.org/abs/2004.07383v1 )

ライセンス: Link先を確認
Brian Lucena(参考訳) カテゴリー変数を予測器として使用する標準的な方法は、順序構造を持つか、全く構造を持たないと仮定する。 しかし、分類変数は、線形順序付けよりも複雑な構造を持つことが多い。 分類変数の構造を表現する数学的枠組みを開発し、この構造を利用するための決定木を一般化する方法を示す。 このアプローチは、下層の学習者として決定木を使用するGradient Boosted Treesのような手法に適用できる。 本手法により得られた改善を示すため,気象データに結果を示す。

Standard methods of using categorical variables as predictors either endow them with an ordinal structure or assume they have no structure at all. However, categorical variables often possess structure that is more complicated than a linear ordering can capture. We develop a mathematical framework for representing the structure of categorical variables and show how to generalize decision trees to make use of this structure. This approach is applicable to methods such as Gradient Boosted Trees which use a decision tree as the underlying learner. We show results on weather data to demonstrate the improvement yielded by this approach.
翻訳日:2022-12-13 02:37:01 公開日:2020-04-15
# GANにおける入力雑音の影響

Effect of Input Noise Dimension in GANs ( http://arxiv.org/abs/2004.06882v1 )

ライセンス: Link先を確認
Manisha Padala, Debojit Das, and Sujit Gujar(参考訳) GAN(Generative Adversarial Networks)は、最も成功した生成モデルである。 低次元の入力ノイズをデータ分布にマッピングする変換を学習することはganの基礎となる。 様々な分野に適用されているが、モードの崩壊や不安定なトレーニングといった特定の課題に直面している。 この課題を克服するため、研究者は新たな損失関数、アーキテクチャ、最適化手法を提案している。 ここでの作業では、従来のアプローチとは異なり、入力ノイズとその世代における役割に焦点を当てています。 入力雑音の次元がGANの性能に与える影響を定量的に定性的に研究することを目的としている。 定量的尺度では、画像データセットのパフォーマンス指標として、通常 \emph{Fr\'{e}chet Inception Distance (FID) と \emph{Inception Score (IS) が用いられる。 我々はDCGANとWGAN-GPのFIDとIS値を比較した。 3つの異なるイメージデータセット - それぞれが異なるレベルの複雑さで構成されています。 本実験により,最適結果に対する入力雑音の適切な次元は,使用するデータセットとアーキテクチャに依存することを示した。 また,アートパフォーマンス対策の現状は十分な洞察を提供していないことも確認した。 したがって,低次元分布と生成画像の関係を理解するためには,さらなる理論的解析が必要である。 パフォーマンスの向上も必要です。

Generative Adversarial Networks (GANs) are by far the most successful generative models. Learning the transformation which maps a low dimensional input noise to the data distribution forms the foundation for GANs. Although they have been applied in various domains, they are prone to certain challenges like mode collapse and unstable training. To overcome the challenges, researchers have proposed novel loss functions, architectures, and optimization methods. In our work here, unlike the previous approaches, we focus on the input noise and its role in the generation. We aim to quantitatively and qualitatively study the effect of the dimension of the input noise on the performance of GANs. For quantitative measures, typically \emph{Fr\'{e}chet Inception Distance (FID)} and \emph{Inception Score (IS)} are used as performance measure on image data-sets. We compare the FID and IS values for DCGAN and WGAN-GP. We use three different image data-sets -- each consisting of different levels of complexity. Through our experiments, we show that the right dimension of input noise for optimal results depends on the data-set and architecture used. We also observe that the state of the art performance measures does not provide enough useful insights. Hence we conclude that we need further theoretical analysis for understanding the relationship between the low dimensional distribution and the generated images. We also require better performance measures.
翻訳日:2022-12-13 02:36:19 公開日:2020-04-15
# 監視映像における異常検出の連続学習

Continual Learning for Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2004.07941v1 )

ライセンス: Link先を確認
Keval Doshi, Yasin Yilmaz(参考訳) 近年,監視ビデオの異常検出が注目されている。 ビデオ監視のような高次元応用の課題は連続学習である。 現在の最先端のディープラーニングアプローチは、既存の公開データセットでうまく機能するが、計算とストレージの問題のため、継続的な学習フレームワークでは機能しない。 さらに、オンライン意思決定はこのドメインにおいて重要ではあるが、ほとんど無視されている要素である。 これらの研究ギャップによって,移動学習と連続学習を用いた監視ビデオのオンライン異常検出手法が提案され,トレーニングの複雑さを著しく低減し,破滅的な忘れ込みを伴わずに最新のデータから継続的に学習するメカニズムが提供される。 提案アルゴリズムは,移動学習のためのニューラルネットワークモデルの特徴抽出能力と,統計的検出手法の連続学習能力を利用する。

Anomaly detection in surveillance videos has been recently gaining attention. A challenging aspect of high-dimensional applications such as video surveillance is continual learning. While current state-of-the-art deep learning approaches perform well on existing public datasets, they fail to work in a continual learning framework due to computational and storage issues. Furthermore, online decision making is an important but mostly neglected factor in this domain. Motivated by these research gaps, we propose an online anomaly detection method for surveillance videos using transfer learning and continual learning, which in turn significantly reduces the training complexity and provides a mechanism for continually learning from recent data without suffering from catastrophic forgetting. Our proposed algorithm leverages the feature extraction power of neural network-based models for transfer learning, and the continual learning capability of statistical detection methods.
翻訳日:2022-12-13 02:36:00 公開日:2020-04-15