このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210321となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子スピードアップの量子化:より厳密なマジックモノトンによる古典的シミュレーションの改良 Quantifying quantum speedups: improved classical simulation from tighter magic monotones ( http://arxiv.org/abs/2002.06181v4 ) ライセンス: Link先を確認 | James R. Seddon, Bartosz Regula, Hakop Pashayan, Yingkai Ouyang and Earl T. Campbell | (参考訳) マジック状態の消費は、計算の安定化モデルを普遍的な量子計算に促進する。
本稿では,そのような普遍量子回路をシミュレートするための3つの古典的アルゴリズムを提案する。
我々の最初のシミュレーターは、新しい準確率分布のクラスを導入し、そのランタイムを一般化された負性の概念に接続する。
このアルゴリズムは,従来の量子ビットの準確率シミュレータと比較して,指数スケーリングを著しく改善したことを示す。
第2のシミュレータは安定化器ランクシミュレーションアルゴリズムの新しい変種であり、混合状態と大幅に改善されたランタイム境界で動作するように拡張されている。
第3のシミュレータは負の準確率を捨てることで精度と速度を交換する。
各アルゴリズムの性能を対応するマジックモノトーンに結びつけ、そのモノトーンを包括的に特徴付けることにより、シミュレーション実行時間と誤差境界の正確な理解を得る。
解析の結果,これら3つの非関連なシミュレーション手法と関連するモノトンとの深い関係が明らかになった。
シングルキュービット状態のテンソル積に対しては、モノトーンが全て互いに等しく、乗法的かつ効率的に計算可能であることを証明し、シミュレータのパフォーマンススケーリングを明確に比較することができる。
さらに, モノトンは, 状態相互変換および蒸留速度にいくつかの漸近的および非漸近的境界を定めている。
マジック状態の理論を超えて、我々の古典的シミュレータは特定の公理の下で他の資源理論に適応することができ、量子コヒーレンス理論への明示的な応用によって証明する。 Consumption of magic states promotes the stabilizer model of computation to universal quantum computation. Here, we propose three different classical algorithms for simulating such universal quantum circuits, and characterize them by establishing precise connections with a family of magic monotones. Our first simulator introduces a new class of quasiprobability distributions and connects its runtime to a generalized notion of negativity. We prove that this algorithm has significantly improved exponential scaling compared to all prior quasiprobability simulators for qubits. Our second simulator is a new variant of the stabilizer-rank simulation algorithm, extended to work with mixed states and with significantly improved runtime bounds. Our third simulator trades precision for speed by discarding negative quasiprobabilities. We connect each algorithm's performance to a corresponding magic monotone and, by comprehensively characterizing the monotones, we obtain a precise understanding of the simulation runtime and error bounds. Our analysis reveals a deep connection between all three seemingly unrelated simulation techniques and their associated monotones. For tensor products of single-qubit states, we prove that our monotones are all equal to each other, multiplicative and efficiently computable, allowing us to make clear-cut comparisons of the simulators' performance scaling. Furthermore, our monotones establish several asymptotic and non-asymptotic bounds on state interconversion and distillation rates. Beyond the theory of magic states, our classical simulators can be adapted to other resource theories under certain axioms, which we demonstrate through an explicit application to the theory of quantum coherence. | 翻訳日:2023-06-03 16:53:18 公開日:2021-03-21 |
# 周波数後共通原因チャネル:局所演算の資源理論と共有絡み合い Postquantum common-cause channels: the resource theory of local operations and shared entanglement ( http://arxiv.org/abs/2004.06133v4 ) ライセンス: Link先を確認 | David Schmid, Haoxing Du, Maryam Mudassar, Ghi Coulter-de Wit, Denis Rosset, Matty J. Hoban | (参考訳) ローカル操作と共有絡み合い(LOSE)のタイプ非依存資源理論を定義する。
これにより、ベルシナリオのような共通原因シナリオにおける時間後性を正式に定量化できる。
損失演算で生成できない非符号二成分量子チャネルは、量子後共通の原因を生成し、貴重な資源を構成する。
私たちのフレームワークは、異なるタイプのリソース間で任意に変換される損失操作を可能にします。
これらのうち3つのみが従来認識されており、例えば、時間後相関、時間後ステアリング、非局所化可能なチャネルは、いずれも我々のフレームワークにおけるリソースの特別なケースとして仮定されている。
最後に,リソースの種類が,他のリソースへの変換を可能にするかを決定する上で,いくつかの基本的な結果を示すとともに,非ローカルゲームやセミクォンタムゲーム,ステアリングゲームなどの分散タスクにおいて,リソースのメリットを提供する能力に制約を設ける。 We define the type-independent resource theory of local operations and shared entanglement (LOSE). This allows us to formally quantify postquantumness in common-cause scenarios such as the Bell scenario. Any nonsignaling bipartite quantum channel which cannot be generated by LOSE operations requires a postquantum common cause to generate, and constitutes a valuable resource. Our framework allows LOSE operations that arbitrarily transform between different types of resources, which in turn allows us to undertake a systematic study of the different manifestations of postquantum common causes. Only three of these have been previously recognized, namely postquantum correlations, postquantum steering, and non-localizable channels, all of which are subsumed as special cases of resources in our framework. Finally, we prove several fundamental results regarding how the type of a resource determines what conversions into other resources are possible, and also places constraints on the resource's ability to provide an advantage in distributed tasks such as nonlocal games, semiquantum games, steering games, etc. | 翻訳日:2023-05-24 11:19:10 公開日:2021-03-21 |
# 単一量子ビットゲートのみを行うユーザのためのブラインド量子計算 Blind quantum computation for a user who only performs single-qubit gates ( http://arxiv.org/abs/2006.07932v3 ) ライセンス: Link先を確認 | Qin Li, Chengdong Liu, Yu Peng, Fang Yu, and Cai Zhang | (参考訳) ブラインド量子計算(Blind quantum compute, BQC)は、量子能力に制限のあるユーザが、リモート量子サーバの助けを借りて量子計算タスクを完了することを可能にするもので、ユーザの入力、出力、さらにはアルゴリズムさえもサーバから隠蔽することができる。
現在までには主にbqcの2つのモデルがある。
ひとつは、クライアントはbroadbent、fitzsimons、kashefiによって開始されたシングルキュービットを準備する能力だけで、もうひとつは、クライアントは最初にmorimaeによって与えられたシングルキュービットの計測を実行するだけでよいということです。
本稿では,ユーザが数個の単一ビットゲートを実装するだけでよいBQCの新しいモデルを提案する。
また,提案するモデルの実現可能性を示すために,ユーザが2種類のシングルキュービットゲートを実装する必要がある,特定のBQCプロトコルを提案する。
この回路モデルは、異なるシングルキュービットゲートを実行できる様々なユーザがbqcを実現できる可能性があるため、非常に柔軟である。
さらに、他の2つのモデルと比較して、単一量子ビットゲートがそのようなシステムでもっとも正確な操作であるため、閉じ込められたイオンや超伝導系のような実験的な装置で実装するのにより適しているかもしれない。 Blind quantum computation (BQC) allows a user who has limited quantum capability to complete a quantum computational task with the aid of a remote quantum server, such that the user's input, output, and even the algorithm can be kept hidden from the server. Up to now, there are mainly two models of BQC. One is that the client just needs the ability to prepare single qubits initiated by Broadbent, Fitzsimons, and Kashefi, and the other is that the client only needs perform single-qubit measurements first given by Morimae. In this paper, we put forward a new model of BQC in which a user only requires implementing a few single-qubit gates. We also propose a specific BQC protocol where a user only needs to implement two kinds of single-qubit gates to show the feasibility of the presented model. This circuit model is quite flexible since various users with the ability to perform different single-qubit gates may all have the chance to achieve BQC. Furthermore, compared with the other two models, it may be more suitable for practical implementation in some experimental setups such as trapped ions and superconducting systems since the single-qubit gates are the most exact operations in such systems. | 翻訳日:2023-05-14 19:12:37 公開日:2021-03-21 |
# 量子チャネルのマルチレベル偏光 Multilevel Polarization for Quantum Channels ( http://arxiv.org/abs/2006.12652v2 ) ライセンス: Link先を確認 | Ashutosh Goswami, Mehdi Mhalla, Valentin Savin | (参考訳) 近年では、ランダムに選択された2量子ビットクリフォードユニタリがチャネル結合演算として働く量子チャネル結合と分割手順に基づいて、純粋に量子バージョンの極性符号が[1]で提案されている。
ここでは、 [1] と同じチャネル合成と分割の手順を用いる量子極符号の構成を、固定された2量子クリフォードユニタリで検討する。
パウリ系では、合成量子仮想チャネルが完全にノイズ、半ノイズ、ノイズのない状態になりがちな、多層的に偏極が発生することを示す。
さらに、偏極の多レベル性質を利用した量子極符号を示し、この符号の効率的な復号を提供する。
その結果,入力を振幅または位相基底のいずれかに固定することで,半ノイズチャネルを凍結できることが分かった。
我々は、量子消去チャネルの場合の等価性である事前共有されたEPRペアの数に上限を与える。
偏光速度を向上させるために,マルチレベルにおいて再び偏光し,事前共有したeprペア数に対する以前の上限も保持する代替構成を提案する。
量子消去チャネルでは,マルチレベル偏光が他の構成に対して比較的高速に発生することを数値解析により確認する。 Recently, a purely quantum version of polar codes has been proposed in [1] based on a quantum channel combining and splitting procedure, where a randomly chosen two-qubit Clifford unitary acts as channel combining operation. Here, we consider the quantum polar code construction using the same channel combining and splitting procedure as in [1], but with a fixed two-qubit Clifford unitary. For the family of Pauli channels, we show that polarization happens in multi-levels, where synthesized quantum virtual channels tend to become completely noisy, half-noisy, or noiseless. Further, we present a quantum polar code exploiting the multilevel nature of polarization, and provide an efficient decoding for this code. We show that half-noisy channels can be frozen by fixing their inputs in either the amplitude or the phase basis, which allows reducing the number of preshared EPR pairs compared to the construction in [1]. We provide an upper bound on the number of preshared EPR pairs, which is an equality in the case of the quantum erasure channel. To improve the speed of polarization, we propose an alternative construction, which again polarizes in multi-levels, and the previous upper bound on the number of preshared EPR pairs also holds. For a quantum erasure channel, we confirm by numerical analysis that the multilevel polarization happens relatively faster for the alternative construction. | 翻訳日:2023-05-13 04:40:42 公開日:2021-03-21 |
# Bardeen-Cooper-Schrieffer超伝導体におけるソーター・シュウィンガー効果 Sauter-Schwinger effect in a Bardeen-Cooper-Schrieffer superconductor ( http://arxiv.org/abs/2007.08323v3 ) ライセンス: Link先を確認 | Paolo Solinas, Andrea Amoretti and Francesco Giazotto | (参考訳) 60年代からは、超伝導と量子場理論の発展に続き、深い驚きのつながりが生まれた。
アンダーソン・ヒッグス機構とディラック方程式とボゴリューボフ・ド・ジェンヌ方程式の類似性は最も興味深い例である。
この最後の例では、巨大なディラック粒子は準粒子励起と超伝導ギャップエネルギーを持つフェルミオン質量エネルギーと同一視される。
ここでは、この並列性をさらに追求し、超伝導シュウィンガー効果(SSE)という顕著な現象を予測する。
電子-ポジトロン結合が真空から強電場によって生成される量子電気力学シュウィンガー効果のように、静電場は超伝導基底状態凝縮体から2つのコヒーレント励起を生成することができる。
散逸性熱励起とは異なり、これらは新しい巨視的にコヒーレントで散逸のない状態を形成する。
この種の励起の生成により超伝導状態がいかに弱まるかについて議論する。
異なる光を遮蔽し,シュウィンガー効果の実験的検証法を提案するとともに,超伝導体と電場との相互作用の理解と活用への道を開いた。 From the sixties a deep and surprising connection has followed the development of superconductivity and quantum field theory. The Anderson-Higgs mechanism and the similarities between the Dirac and Bogoliubov-de Gennes equations are the most intriguing examples. In this last analogy, the massive Dirac particle is identified with a quasiparticle excitation and the fermion mass energy with the superconducting gap energy. Here we follow further this parallelism and show that it predicts an outstanding phenomenon: the superconducting Schwinger effect (SSE). As in the quantum electrodynamics Schwinger effect, where an electron-positron couple is created from the vacuum by an intense electric field, we show that an electrostatic field can generate two coherent excitations from the superconducting ground-state condensate. Differently from the dissipative thermal excitation, these form a new macroscopically coherent and dissipationless state. We discuss how the superconducting state is weakened by the creation of this kind of excitations. In addition to shed a different light and suggest a method for the experimental verification of the Schwinger effect, our results pave the way to the understanding and exploitation of the interaction between superconductors and electric fields. | 翻訳日:2023-05-09 07:13:43 公開日:2021-03-21 |
# マクロリアリズムのためのレゲット・ガーグ試験-干渉実験と単純な高調波発振器 Leggett-Garg tests for macrorealism: interference experiments and the simple harmonic oscillator ( http://arxiv.org/abs/2009.03856v4 ) ライセンス: Link先を確認 | J.J.Halliwell, A.Bhatnagar, E.Ireland, H.Nadeem and V.Wimalaweera | (参考訳) leggett-garg (lg) test for macrorealismはもともと、マクロスケールでの量子コヒーレンスを探索するために設計された。
調和振動子によってモデル化された干渉実験とシステムは、大局的近視性が実験的に接近し、単一の双調変数qのlgテストに容易に変換される状況の有用な例を提供する。
これらの違反は常に破壊的な干渉を伴う。
逆は一般には正しくなく、破壊的な干渉があるような非自明な規則が存在するが、2時間LGの不等式が満たされることから、干渉計の経路に(間接的に決定される)確率を割り当てることがしばしば可能であることが分かる。
同様の特徴は近年,マッハ・ツェンダー干渉計のLG解析を含む研究で見られ,これらの結果と比較した。
また,lgの不等式と2次変数に存在しないnsit条件との間には驚くべき関係があることを示す。
単純な高調波発振器については、ガウス初期状態の2回lg違反を解析的に把握可能な例を示し、bose et al (phys) の最近の結果と共鳴する。
Rev. Lett.
120, 210402 (2018)). Leggett-Garg (LG) tests for macrorealism were originally designed to explore quantum coherence on the macroscopic scale. Interference experiments and systems modelled by harmonic oscillators provide useful examples of situations in which macroscopicity has been approached experimentally and are readily turned into LG tests for a single dichotomic variable Q. Applying this approach to the double-slit experiment in which a non-invasive measurement at the slits is included, we exhibit LG violations. We find that these violations are always accompanied by destructive interference. The converse is not true in general and we find that there are non-trivial regimes in which there is destructive interference but the two-time LG inequalities are satisfied which implies that it is in fact often possible to assign (indirectly determined) probabilities for the interferometer paths. Similar features have been observed in recent work involving a LG analysis of a Mach-Zehnder interferometer and we compare with those results. We extend the analysis to the triple-slit experiment again finding LG violations, and we also exhibit examples of some surprising relationships between LG inequalities and NSIT conditions that do not exist for dichotomic variables. For the simple harmonic oscillator, we find an analytically tractable example showing a two-time LG violation with a gaussian initial state, echoing in simpler form recent results of Bose et al (Phys. Rev. Lett. 120, 210402 (2018)). | 翻訳日:2023-05-03 05:05:24 公開日:2021-03-21 |
# 相互作用しないジグザググラフェンリボンのトポロジ的絡み合いエントロピー Topological entanglement entropy of interacting disordered zigzag graphene ribbons ( http://arxiv.org/abs/2011.13720v2 ) ライセンス: Link先を確認 | Young Heon Kim, Hye Jeong Lee, S.-R. Eric Yang | (参考訳) 相互作用しないジグザググラフェンナノリボンは分数電荷を持ち、準1次元であり、指数的に小さなギャップを示す。
数値計算により、これらの系のトポロジ的絡み合いエントロピーは、相互作用と障害の強さとは無関係に、有限だが普遍的な値を持つことが示された。
トポロジカルエントロピーで得られた結果は、障害のない位相が重要であり、障害の存在下で不安定になることを示している。 Interacting disordered zigzag graphene nanoribbons have fractional charges, are quasi-one-dimensional, and display an exponentially small gap. Our numerical computations showed that the topological entanglement entropy of these systems has a small finite but universal value, independent of the strength of the interaction and the disorder. The result that was obtained for the topological entanglement entropy shows that the disorder-free phase is critical and becomes unstable in the presence of disorder. | 翻訳日:2023-04-22 20:37:06 公開日:2021-03-21 |
# カオス多体量子系を構成する粒子はいくつあるか? How many particles make up a chaotic many-body quantum system? ( http://arxiv.org/abs/2012.14436v3 ) ライセンス: Link先を確認 | Guy Zisling and Lea F. Santos and Yevgeny Bar Lev | (参考訳) 短距離および長距離相互作用を持つ1次元格子上の量子系における強いカオスの開始に必要となる相互作用粒子の最小数を数値的に検討する。
粒子数より少なくとも3倍大きい複数の系の大きさを考えると、短距離相互作用の場合は量子カオスのロバストなシグネチャが少なくとも4個、長距離相互作用では3個の粒子が出現し、系の大きさに明確な依存がないことが分かる。 We numerically investigate the minimum number of interacting particles, which is required for the onset of strong chaos in quantum systems on a one-dimensional lattice with short-range and long-range interactions. We consider multiple system sizes which are at least three times larger than the number of particles and find that robust signatures of quantum chaos emerge for as few as 4 particles in the case of short-range interactions and as few as 3 particles for long-range interactions, and without any apparent dependence on the size of the system. | 翻訳日:2023-04-19 01:39:57 公開日:2021-03-21 |
# マルチキュービットシステムにおける忠実度に基づく絡み合い対策の一手法 Monogamy of Entanglement Measures Based on Fidelity in Multiqubit Systems ( http://arxiv.org/abs/2103.11296v1 ) ライセンス: Link先を確認 | Limin Gao, Fengli Yan, Ting Gao | (参考訳) ビューズのエンタングルメント測度と幾何学的エンタングルメント測度(英語版)の$\alpha$th Power of Bures as special case of entanglement measures based on fidelity, follow a class of general monogamy inequalities in a arbitrary multiqubit mixed state for $\alpha\geq1$。 We show exactly that the $\alpha$th power of Bures measure of entanglement and geometric measure of entanglement, as special case of entanglement measures based on fidelity, obey a class of general monogamy inequalities in an arbitrary multiqubit mixed state for $\alpha\geq1$. | 翻訳日:2023-04-07 06:37:30 公開日:2021-03-21 |
# PCGワークショップの10年:過去と未来 10 Years of the PCG workshop: Past and Future Trends ( http://arxiv.org/abs/2104.11037v1 ) ライセンス: Link先を確認 | Antonios Liapis | (参考訳) 2020年現在、手続き的コンテンツ生成に関する国際ワークショップが2年目を迎える。
デジタルゲーム財団に関する国際会議が主催するこの年次ワークショップは、最初の10年間に発行された95の論文のコーパスを集めた。
本稿では,ワークショップの活動を概観し,長年にわたる研究課題について調査する。 As of 2020, the international workshop on Procedural Content Generation enters its second decade. The annual workshop, hosted by the international conference on the Foundations of Digital Games, has collected a corpus of 95 papers published in its first 10 years. This paper provides an overview of the workshop's activities and surveys the prevalent research topics emerging over the years. | 翻訳日:2023-04-07 06:35:26 公開日:2021-03-21 |
# 文書レベル構造情報を用いた画像文マッチングのための教師なしサンプリング手法 An Unsupervised Sampling Approach for Image-Sentence Matching Using Document-Level Structural Information ( http://arxiv.org/abs/2104.02605v1 ) ライセンス: Link先を確認 | Zejun Li, Zhongyu Wei, Zhihao Fan, Haijun Shan, Xuanjing Huang | (参考訳) 本稿では,教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
このアプローチはポジティブな結果をもたらすが、サンプリングバイアスを導入し、意味的類似性の高いインスタンスを区別できない。
バイアスを軽減するために,文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
さらに, 文書内サンプルの複雑なパターンを認識するために, 細粒度特徴をキャプチャし, 各文書に対して暗黙的にグラフを構築するトランスフォーマモデルを提案し, 文書内の概念を導入して, 文書の文脈における画像や文の表現学習の橋渡しを行う。
実験結果から, 偏りを緩和し, マルチモーダル表現を適切に学習する手法の有効性が示された。 In this paper, we focus on the problem of unsupervised image-sentence matching. Existing research explores to utilize document-level structural information to sample positive and negative instances for model training. Although the approach achieves positive results, it introduces a sampling bias and fails to distinguish instances with high semantic similarity. To alleviate the bias, we propose a new sampling strategy to select additional intra-document image-sentence pairs as positive or negative samples. Furthermore, to recognize the complex pattern in intra-document samples, we propose a Transformer based model to capture fine-grained features and implicitly construct a graph for each document, where concepts in a document are introduced to bridge the representation learning of images and sentences in the context of a document. Experimental results show the effectiveness of our approach to alleviate the bias and learn well-aligned multimodal representations. | 翻訳日:2023-04-07 06:35:16 公開日:2021-03-21 |
# ヨーロッパ30都市の地域間中心性分析 Local Betweenness Centrality Analysis of 30 European Cities ( http://arxiv.org/abs/2103.11437v1 ) ライセンス: Link先を確認 | Kaoru Yamaoka, Yusuke Kumakoshi, Yuji Yoshimura | (参考訳) 都市の都市形態と社会経済的側面は、都市街路ネットワークの分析によって研究されてきた。
ネットワークを解析するために、中央性指標の様々なバリエーションがしばしば使用される。
しかし、その性質はまだ広く研究されていないため、都市道路網特性の堅牢な可視化方法が欠如している。
このギャップを埋めるために,局所的な間隙中心性と,新しい単純でロバストな可視化手法を提案する。
欧州30都市を分析した結果, 長距離交通にとって重要な道路セグメントが大通りに沿って集中し, 短距離交通がCBD, 歴史地区, 住宅地区周辺のクラスターを形成していることがわかった。
定量的分析はこれらの発見を裏付けている。
都市プランナーや意思決定者にとって,都市の状況を理解し,情報的意思決定を行う上で有用である。 Urban morphology and socioeconomic aspects of cities have been explored by analysing urban street network. To analyse the network, several variations of the centrality indices are often used. However, its nature has not yet been widely studied, thus leading to an absence of robust visualisation method of urban road network characteristics. To fill this gap, we propose to use a set of local betweenness centrality and a new simple and robust visualisation method. By analysing 30 European cities, we found that our method illustrates common structures of the cities: road segments important for long-distance transportations are concentrated along larger streets while those for short range transportations form clusters around CBD, historical, or residential districts. Quantitative analysis has corroborated these findings. Our findings are useful for urban planners and decision-makers to understand the current situation of the city and make informed decisions. | 翻訳日:2023-04-07 06:33:41 公開日:2021-03-21 |
# BatchNormとBatchNormのトレーニング: CNNにおけるランダム機能の表現力について Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs ( http://arxiv.org/abs/2003.00152v3 ) ライセンス: Link先を確認 | Jonathan Frankle, David J. Schwab, and Ari S. Morcos | (参考訳) スタイル伝達からマルチタスク学習までの幅広いディープラーニング技術は、特徴のアフィン変換のトレーニングに依存している。
最も顕著なのは、アクティベーションを正規化し、その後学習されたアフィン変換を適用する、人気のある機能正規化テクニックであるBatchNormである。
本稿では,機能変換に使用されるアフィンパラメータの役割と表現力を理解することを目的とする。
これらのパラメータの寄与を変換した学習特徴から分離するために,BatchNormでこれらのパラメータのみをトレーニングし,ランダムな初期化ですべての重みを凍結する際の性能について検討する。
そうすることで、このトレーニングスタイルが課す大きな制限を考えると、驚くほど高いパフォーマンスが得られます。
例えば、十分に深い再ネットは82% (cifar-10) と32% (imagenet, top-5) の精度に達し、ネットワーク内の他の場所で同じ数のランダムに選択されたパラメータをトレーニングする場合よりもはるかに高い。
BatchNormは、ランダムな機能の3分の1を無効にすることを自然に学習することで、このパフォーマンスを達成する。
これらの結果は、ディープラーニングにおけるアフィンパラメータの表現力を強調するだけでなく、より広い意味では、ランダムな特徴のシフトと再スケーリングによって構築されたニューラルネットワークの表現力を特徴付ける。 A wide variety of deep learning techniques from style transfer to multitask learning rely on training affine transformations of features. Most prominent among these is the popular feature normalization technique BatchNorm, which normalizes activations and then subsequently applies a learned affine transform. In this paper, we aim to understand the role and expressive power of affine parameters used to transform features in this way. To isolate the contribution of these parameters from that of the learned features they transform, we investigate the performance achieved when training only these parameters in BatchNorm and freezing all weights at their random initializations. Doing so leads to surprisingly high performance considering the significant limitations that this style of training imposes. For example, sufficiently deep ResNets reach 82% (CIFAR-10) and 32% (ImageNet, top-5) accuracy in this configuration, far higher than when training an equivalent number of randomly chosen parameters elsewhere in the network. BatchNorm achieves this performance in part by naturally learning to disable around a third of the random features. Not only do these results highlight the expressive power of affine parameters in deep learning, but - in a broader sense - they characterize the expressive power of neural networks constructed simply by shifting and rescaling random features. | 翻訳日:2022-12-27 20:00:14 公開日:2021-03-21 |
# MiniSeg: 新型コロナウイルスの効果的なセグメンテーションのための最小限のネットワーク MiniSeg: An Extremely Minimum Network for Efficient COVID-19 Segmentation ( http://arxiv.org/abs/2004.09750v3 ) ライセンス: Link先を確認 | Yu Qiu and Yun Liu and Shijie Li and Jing Xu | (参考訳) 新型コロナウイルス(COVID-19)の感染拡大は世界的な健康を脅かしている。
ディープラーニングベースのコンピュータ支援スクリーニング(例えば、COVID-19感染したCT領域のセグメンテーション)が注目されている。
しかし、一般公開されている新型コロナウイルスのトレーニングデータは限られており、数百万のパラメータでデータ収集される従来のディープラーニング手法に簡単に適合する。
一方で、covid-19スクリーニングシステムの迅速な展開と開発には、高速なトレーニング/テストと低い計算コストが必要であるが、従来のディープラーニング手法は通常、計算集約的だ。
以上の課題に対処するため,我々は,効率的なCOVID-19セグメンテーションのための軽量ディープラーニングモデルであるMiniSegを提案する。
従来のセグメンテーション手法と比較して、MiniSegにはいくつかの大きな長所がある。
一 83Kパラメータしか持たず、したがって過度に適合し難い。
二 高い計算効率を有し、かつ、実用的な配備に有用であること。
三 自己のプライベートなCOVID-19データを用いて、さらなるパフォーマンス向上を図ることができる。
さらに、MiniSegを従来の方法と比較するための包括的なCOVID-19セグメンテーションベンチマークを構築しました。 The rapid spread of the new pandemic, i.e., COVID-19, has severely threatened global health. Deep-learning-based computer-aided screening, e.g., COVID-19 infected CT area segmentation, has attracted much attention. However, the publicly available COVID-19 training data are limited, easily causing overfitting for traditional deep learning methods that are usually data-hungry with millions of parameters. On the other hand, fast training/testing and low computational cost are also necessary for quick deployment and development of COVID-19 screening systems, but traditional deep learning methods are usually computationally intensive. To address the above problems, we propose MiniSeg, a lightweight deep learning model for efficient COVID-19 segmentation. Compared with traditional segmentation methods, MiniSeg has several significant strengths: i) it only has 83K parameters and is thus not easy to overfit; ii) it has high computational efficiency and is thus convenient for practical deployment; iii) it can be fast retrained by other users using their private COVID-19 data for further improving performance. In addition, we build a comprehensive COVID-19 segmentation benchmark for comparing MiniSeg to traditional methods. | 翻訳日:2022-12-11 07:06:57 公開日:2021-03-21 |
# 欠落データの存在下でのVAE VAEs in the Presence of Missing Data ( http://arxiv.org/abs/2006.05301v3 ) ライセンス: Link先を確認 | Mark Collier, Alfredo Nazabal and Christopher K.I. Williams | (参考訳) 現実世界のデータセットは、医療データセットのような欠落した要素を持つエントリを含むことが多いが、患者があらゆる診断テストを受ける可能性は低い。
変分オートエンコーダ(VAE)は、教師なし学習によく使われる一般的な生成モデルである。
広く使われているにも関わらず、データが不足しているデータセットにvaesを適用する最善の方法は不明だ。
我々は,データ欠落を発生させる腐敗過程の新規な潜在変数モデルを開発し,それに対応する導出可能な証拠を低バウンド(elbo)に導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元の入力にスケールし、データ要素が欠落しているか否かの指標変数へのアクセスをVAEエンコーダとデコーダの両方に委ねることができる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。 Real world datasets often contain entries with missing elements e.g. in a medical dataset, a patient is unlikely to have taken all possible diagnostic tests. Variational Autoencoders (VAEs) are popular generative models often used for unsupervised learning. Despite their widespread use it is unclear how best to apply VAEs to datasets with missing data. We develop a novel latent variable model of a corruption process which generates missing data, and derive a corresponding tractable evidence lower bound (ELBO). Our model is straightforward to implement, can handle both missing completely at random (MCAR) and missing not at random (MNAR) data, scales to high dimensional inputs and gives both the VAE encoder and decoder principled access to indicator variables for whether a data element is missing or not. On the MNIST and SVHN datasets we demonstrate improved marginal log-likelihood of observed data and better missing data imputation, compared to existing approaches. | 翻訳日:2022-11-23 14:01:36 公開日:2021-03-21 |
# よりスマートな局所サンプリングによるLIMEロバストネスの改善 Improving LIME Robustness with Smarter Locality Sampling ( http://arxiv.org/abs/2006.12302v3 ) ライセンス: Link先を確認 | Sean Saito, Eugene Chua, Nicholas Capel, Rocco Hu | (参考訳) LIMEのような説明可能性アルゴリズムにより、機械学習システムは透明性と公正さを適用できるようになった。
しかし、近年の研究では、LIMEの素直なサンプリング戦略が敵に悪用され、偏見があり有害な行動を隠すことができることが示されている。
そこで本稿では,LIME がより現実的な合成データを抽出し,説明文を生成することによって,LIME をより堅牢にすることを提案する。
提案手法は,実世界の3つのデータセットにおいて,バニラライムと比較して偏りのある逆挙動の検出において精度が向上することを示す。
これは比較可能な説明品質を維持しながら達成され、場合によってはトップ1の精度で最大99.94\%に達する。 Explainability algorithms such as LIME have enabled machine learning systems to adopt transparency and fairness, which are important qualities in commercial use cases. However, recent work has shown that LIME's naive sampling strategy can be exploited by an adversary to conceal biased, harmful behavior. We propose to make LIME more robust by training a generative adversarial network to sample more realistic synthetic data which the explainer uses to generate explanations. Our experiments demonstrate that our proposed method demonstrates an increase in accuracy across three real-world datasets in detecting biased, adversarial behavior compared to vanilla LIME. This is achieved while maintaining comparable explanation quality, with up to 99.94\% in top-1 accuracy in some cases. | 翻訳日:2022-11-18 05:03:00 公開日:2021-03-21 |
# 不均一ネットワークにおけるリンク予測のための文脈埋め込みの自己教師付き学習 Self-Supervised Learning of Contextual Embeddings for Link Prediction in Heterogeneous Networks ( http://arxiv.org/abs/2007.11192v3 ) ライセンス: Link先を確認 | Ping Wang, Khushbu Agarwal, Colby Ham, Sutanay Choudhury, Chandan K. Reddy | (参考訳) 不均一ネットワークの表現学習法は、ノードを含む全てのタスクに対して通常固定される各ノードに対して低次元ベクトル埋め込みを生成する。
既存のメソッドの多くは、使用中のダウンストリームアプリケーションに非依存な方法でノードの静的ベクトル表現を取得することに重点を置いている。
しかし、実際には、リンク予測のような下流タスクは、タスクへの入力として提供されるノードに関連するサブグラフから抽出できる特定のコンテキスト情報を必要とする。
この課題に取り組むために,グラフ全体からグローバル情報を用いた静的表現学習手法と,局所的な注意駆動機構とを橋渡しし,文脈ノード表現を学習するフレームワークであるsliceを開発した。
まず,高次意味関係とマスキングノードを導入し,自己教師付きでモデルを事前学習した上で,リンク予測タスクに対してモデルを微調整した。
メタパスを介して接続されるすべての意味の隣人から情報を集約してノード表現をトレーニングする代わりに、事前定義されたメタパスを必要とせずに、特定のタスクのコンテキストを特徴付ける異なるメタパスの構成を自動的に学習します。
sliceは、いくつかの公開ベンチマークネットワークデータセットで静的およびコンテキストの埋め込み学習メソッドを著しく上回っている。
また、セマンティックアソシエーション行列を解釈し、ネットワーク内の異種ノード間のリンク予測を成功させるための有用性と関連性を提供する。 Representation learning methods for heterogeneous networks produce a low-dimensional vector embedding for each node that is typically fixed for all tasks involving the node. Many of the existing methods focus on obtaining a static vector representation for a node in a way that is agnostic to the downstream application where it is being used. In practice, however, downstream tasks such as link prediction require specific contextual information that can be extracted from the subgraphs related to the nodes provided as input to the task. To tackle this challenge, we develop SLiCE, a framework bridging static representation learning methods using global information from the entire graph with localized attention driven mechanisms to learn contextual node representations. We first pre-train our model in a self-supervised manner by introducing higher-order semantic associations and masking nodes, and then fine-tune our model for a specific link prediction task. Instead of training node representations by aggregating information from all semantic neighbors connected via metapaths, we automatically learn the composition of different metapaths that characterize the context for a specific task without the need for any pre-defined metapaths. SLiCE significantly outperforms both static and contextual embedding learning methods on several publicly available benchmark network datasets. We also interpret the semantic association matrix and provide its utility and relevance in making successful link predictions between heterogeneous nodes in the network. | 翻訳日:2022-11-07 22:21:27 公開日:2021-03-21 |
# ロボット行動の自動自己爆発のための開発サイクル A Development Cycle for Automated Self-Exploration of Robot Behaviors ( http://arxiv.org/abs/2007.14928v2 ) ライセンス: Link先を確認 | Thomas M. Roehr, Daniel Harnack, Hendrik W\"ohrle, Felix Wiebe, Moritz Schilling, Oscar Lima, Malte Langosz, Shivesh Kumar, Sirko Straube, Frank Kirchner | (参考訳) 本稿では,ロボット行動の自動自己探索と資格評価のための開発サイクルであるq-rockを提案する。
Q-Rockでは,ロボット開発プロセスを自動化する新しい統合的アプローチを提案する。
q-rockは、ロボットシステムの設計における複雑さの増加に対処するために、いくつかの機械学習と推論技術を組み合わせる。
Q-Rock開発サイクルは,(1)ロボットハードウェアが提供する機能の自動探索,(2)より複雑な動作を生成する能力の分類と意味アノテーション,(3)アプリケーション要件と利用可能な動作のマッピングの3つの補完プロセスから構成される。
これらのプロセスは、ハードウェアやソフトウェアコンポーネントを含む、ロボットの構造のグラフベースの表現に基づいている。
中央的でスケーラブルな知識ベースは、機械、電気、システムエンジニア、ソフトウェア開発者、機械学習の専門家を含むロボットデザイナーのコラボレーションを可能にする。
本稿では,Q-Rockのインテグレーティブ開発サイクルを形式化し,概念実証実装とユースケース実証でその利点を明らかにする。 In this paper we introduce Q-Rock, a development cycle for the automated self-exploration and qualification of robot behaviors. With Q-Rock, we suggest a novel, integrative approach to automate robot development processes. Q-Rock combines several machine learning and reasoning techniques to deal with the increasing complexity in the design of robotic systems. The Q-Rock development cycle consists of three complementary processes: (1) automated exploration of capabilities that a given robotic hardware provides, (2) classification and semantic annotation of these capabilities to generate more complex behaviors, and (3) mapping between application requirements and available behaviors. These processes are based on a graph-based representation of a robot's structure, including hardware and software components. A central, scalable knowledge base enables collaboration of robot designers including mechanical, electrical and systems engineers, software developers and machine learning experts. In this paper we formalize Q-Rock's integrative development cycle and highlight its benefits with a proof-of-concept implementation and a use case demonstration. | 翻訳日:2022-11-05 20:35:30 公開日:2021-03-21 |
# 生成エンサンブル回帰:物理インフォームド深部生成モデルを用いたエンサンブルの観察から粒子ダイナミクスを学ぶ Generative Ensemble Regression: Learning Particle Dynamics from Observations of Ensembles with Physics-Informed Deep Generative Models ( http://arxiv.org/abs/2008.01915v2 ) ライセンス: Link先を確認 | Liu Yang, Constantinos Daskalakis, George Em Karniadakis | (参考訳) 本研究では,離散時間およびスパース時間における粒子のアンサンブル,すなわち複数の「スナップショット」を観測し,確率的常微分方程式(sodes)を推定する新しい手法を提案する。
粒子座標は、瞬時に、おそらくは騒がしいか、途切れた状態で、スナップショットに記録されるが、スナップショット全体にわたってペアリングされない。
本研究では,「フェイク」サンプル経路を生成する物理インフォームド生成モデルを訓練することにより,観測された粒子アンサンブル分布を,推定粒子力学から誘導される確率測度空間の曲線に適合させることを目的とする。
生成逆数ネットワーク(GAN)におけるスライスされたワッサーシュタイン距離と逆数損失などの分布の違いを定量化するために、異なる指標を用いる。
この手法を生成的「センスブル回帰(ger)」と呼び、ユークリッド空間で回帰を行うことでダイナミクスを推測する古典的な「ポイント回帰(point-regression)」と類似している。
最大100次元のブラウン運動とレヴィ過程を持つSODEによって支配される粒子アンサンブルのドリフトと拡散項を学習することにより、GERを説明する。
また, ノイズや経過観察で症例を治療する方法についても論じる。
また、独立粒子からなる系とは別に、物理インフォームド損失関数を構築することにより、未知の相互作用ポテンシャルパラメータを持つ非局所相互作用粒子系にも取り組む。
最後に, 対観測のシナリオを考察し, 理論的支援を与える収束定理を証明し, それらの場合の次元性を低減する方法について考察する。 We propose a new method for inferring the governing stochastic ordinary differential equations (SODEs) by observing particle ensembles at discrete and sparse time instants, i.e., multiple "snapshots". Particle coordinates at a single time instant, possibly noisy or truncated, are recorded in each snapshot but are unpaired across the snapshots. By training a physics-informed generative model that generates "fake" sample paths, we aim to fit the observed particle ensemble distributions with a curve in the probability measure space, which is induced from the inferred particle dynamics. We employ different metrics to quantify the differences between distributions, e.g., the sliced Wasserstein distances and the adversarial losses in generative adversarial networks (GANs). We refer to this method as generative "ensemble-regression" (GER), in analogy to the classic "point-regression", where we infer the dynamics by performing regression in the Euclidean space. We illustrate the GER by learning the drift and diffusion terms of particle ensembles governed by SODEs with Brownian motions and Levy processes up to 100 dimensions. We also discuss how to treat cases with noisy or truncated observations. Apart from systems consisting of independent particles, we also tackle nonlocal interacting particle systems with unknown interaction potential parameters by constructing a physics-informed loss function. Finally, we investigate scenarios of paired observations and discuss how to reduce the dimensionality in such cases by proving a convergence theorem that provides theoretical support. | 翻訳日:2022-11-02 17:37:53 公開日:2021-03-21 |
# 確率微分ゲームにおけるディープフィクションプレイの収束性 Convergence of Deep Fictitious Play for Stochastic Differential Games ( http://arxiv.org/abs/2008.05519v2 ) ライセンス: Link先を確認 | Jiequn Han, Ruimeng Hu, Jihao Long | (参考訳) 確率的微分ゲームは、例えばフィンテック業界やシステムリスクの銀行システム、保険市場からのp2p融資プラットフォームにおける金融におけるエージェントの競争をモデル化するために広く使われている。
最近提案された機械学習アルゴリズムdeep fictitious playは、大規模なn$-player asymmetric stochastic differential games [j. han and r. hu, mathematical and scientific machine learning conference, pages 221-245, pmlr, 2020]のマルコフナッシュ平衡を見つけるための新しい効率的なツールを提供する。
架空のプレイの概念を取り入れることで、アルゴリズムはゲームを$N$のサブ最適化問題に分解し、各プレイヤーの最適な戦略を奥行き確率微分方程式(BSDE)法で並列かつ繰り返し識別する。
本稿では,深い架空の遊び(DFP)の真のナッシュ均衡への収束を実証する。
また、DFPに基づく戦略が$\eps$-Nash均衡を形成することを示すこともできる。
我々は,このアルゴリズムをゲームを切り離す新しいアプローチを提案し,定理の技術的仮定を超えたアルゴリズムの実証的な収束を示す大集団ゲームの数値結果を示すことによって一般化する。 Stochastic differential games have been used extensively to model agents' competitions in Finance, for instance, in P2P lending platforms from the Fintech industry, the banking system for systemic risk, and insurance markets. The recently proposed machine learning algorithm, deep fictitious play, provides a novel efficient tool for finding Markovian Nash equilibrium of large $N$-player asymmetric stochastic differential games [J. Han and R. Hu, Mathematical and Scientific Machine Learning Conference, pages 221-245, PMLR, 2020]. By incorporating the idea of fictitious play, the algorithm decouples the game into $N$ sub-optimization problems, and identifies each player's optimal strategy with the deep backward stochastic differential equation (BSDE) method parallelly and repeatedly. In this paper, we prove the convergence of deep fictitious play (DFP) to the true Nash equilibrium. We can also show that the strategy based on DFP forms an $\eps$-Nash equilibrium. We generalize the algorithm by proposing a new approach to decouple the games, and present numerical results of large population games showing the empirical convergence of the algorithm beyond the technical assumptions in the theorems. | 翻訳日:2022-10-31 06:20:08 公開日:2021-03-21 |
# 都市中心部における殺人予測 : 機械学習によるアプローチ Prediction of Homicides in Urban Centers: A Machine Learning Approach ( http://arxiv.org/abs/2008.06979v4 ) ライセンス: Link先を確認 | Jos\'e Ribeiro, Lair Meneses, Denis Costa, Wando Miranda, Ronnie Alves | (参考訳) コンピュータコミュニティにおいて、犯罪の発生を予測し、犯罪の文脈を分析し、犯罪に関連する個人のプロファイルを抽出し、時間の経過とともに犯罪を分析する機械学習モデルを開発するための関連研究が強調されている。
しかし、殺人などの特定の犯罪を予測できるモデルは、現在の文献にはあまり見出されていない。
本研究は、34種類の犯罪のインシデントレポート記録と犯罪報告からの時間と空間データに基づいて、一般的なデータ(研究場所に依存しない)を用いて殺人犯罪を予測する機械学習モデルを提案する。
実験では、ブラジルのベルジュエム - パルジュア市からのデータを使用した。
これらのデータは問題をジェネリックにするために変換され、このモデルの他の場所へのレプリケーションを可能にした。
研究では、生成されたデータセット上で、単純で堅牢なアルゴリズムを用いて分析を行った。
これにより,11種類の分類法を用いて統計検査を行い,ランダムフォレスト(Random Forest)を用いて,他の登録犯罪の発生後の1カ月間の予測と殺人犯罪の発生と非発生とを関連づけた。
結果は提案問題のベースラインと見なされる。 Relevant research has been highlighted in the computing community to develop machine learning models capable of predicting the occurrence of crimes, analyzing contexts of crimes, extracting profiles of individuals linked to crime, and analyzing crimes over time. However, models capable of predicting specific crimes, such as homicide, are not commonly found in the current literature. This research presents a machine learning model to predict homicide crimes, using a dataset that uses generic data (without study location dependencies) based on incident report records for 34 different types of crimes, along with time and space data from crime reports. Experimentally, data from the city of Bel\'em - Par\'a, Brazil was used. These data were transformed to make the problem generic, enabling the replication of this model to other locations. In the research, analyses were performed with simple and robust algorithms on the created dataset. With this, statistical tests were performed with 11 different classification methods and the results are related to the prediction's occurrence and non-occurrence of homicide crimes in the month subsequent to the occurrence of other registered crimes, with 76% assertiveness for both classes of the problem, using Random Forest. Results are considered as a baseline for the proposed problem. | 翻訳日:2022-10-28 09:04:55 公開日:2021-03-21 |
# 有界リスクに敏感なマルコフゲーム:反復推論と累積予測理論を用いた前方政策設計と逆報酬学習 Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse Reward Learning with Iterative Reasoning and Cumulative Prospect Theory ( http://arxiv.org/abs/2009.01495v7 ) ライセンス: Link先を確認 | Ran Tian, Liting Sun, and Masayoshi Tomizuka | (参考訳) フォワードポリシー設計問題と逆報酬学習問題の両方におけるマルチエージェントシステムに対する古典的なゲーム理論的アプローチは、しばしば強い合理性仮定をもたらす。
しかし、そのような仮定は、準最適性、リスク探索、損失回避決定に満足するといった観察された人間の行動と実質的には一致しない。
本稿では,人間の現実的行動をモデル化し,人間の行動モデルを学ぶための境界的リスク感応マルコフゲーム(brsmg)とその逆報酬学習問題について検討する。
反復的推論モデルと累積的予測理論に基づいて、BRSMGにおける人間は知性に縛られ、リスクに敏感なユーティリティを最大化する。
BRSMGフレームワークでは、フォワードポリシー設計と逆報酬学習の問題の両方の収束解析が確立されている。
ナビゲーションシナリオにおいて提案した前方ポリシー設計と逆報酬学習アルゴリズムを検証する。
その結果, 薬剤の挙動は, リスク回避特性とリスク発見特性の両方を示した。
さらに,提案手法は,より正確な報酬値だけでなく,エージェントの対話行動のデモンストレーションによって与えられた知性レベルやリスク測定パラメータを効果的に回復することにより,ベースラインのリスク中立な逆学習アルゴリズムよりも優れている。 Classical game-theoretic approaches for multi-agent systems in both the forward policy design problem and the inverse reward learning problem often make strong rationality assumptions: agents perfectly maximize expected utilities under uncertainties. Such assumptions, however, substantially mismatch with observed humans' behaviors such as satisficing with sub-optimal, risk-seeking, and loss-aversion decisions. In this paper, we investigate the problem of bounded risk-sensitive Markov Game (BRSMG) and its inverse reward learning problem for modeling human realistic behaviors and learning human behavioral models. Drawing on iterative reasoning models and cumulative prospect theory, we embrace that humans have bounded intelligence and maximize risk-sensitive utilities in BRSMGs. Convergence analysis for both the forward policy design and the inverse reward learning problems are established under the BRSMG framework. We validate the proposed forward policy design and inverse reward learning algorithms in a navigation scenario. The results show that the behaviors of agents demonstrate both risk-averse and risk-seeking characteristics. Moreover, in the inverse reward learning task, the proposed bounded risk-sensitive inverse learning algorithm outperforms a baseline risk-neutral inverse learning algorithm by effectively recovering not only more accurate reward values but also the intelligence levels and the risk-measure parameters given demonstrations of agents' interactive behaviors. | 翻訳日:2022-10-22 07:09:30 公開日:2021-03-21 |
# ブラインドフェース修復のためのプログレッシブ・セマンティクス・アウェア・スタイル変換 Progressive Semantic-Aware Style Transformation for Blind Face Restoration ( http://arxiv.org/abs/2009.08709v2 ) ライセンス: Link先を確認 | Chaofeng Chen, Xiaoming Li, Lingbo Yang, Xianhui Lin, Lei Zhang, Kwan-Yee K. Wong | (参考訳) 顔の復元は顔の画像処理において重要であり、近年広く研究されている。
しかし、以前の研究では、実世界の低品質 (LQ) の顔画像に対して、高画質 (HQ) の結果が得られなかった場合が多い。
本稿では,顔の復元のためのプログレッシブセマンティック・アウェア変換フレームワークPSFR-GANを提案する。
具体的には,先行手法としてエンコーダ・デコーダ・フレームワークを使用する代わりに,意味認識型変換による多元的プログレッシブ復元手順としてlq顔画像の復元を定式化する。
1対のLQ顔画像とそれに対応する解析マップが与えられた後、まず入力のマルチスケールピラミッドを生成し、その後、意味認識スタイルの転送方法で、粗大から細大まで様々な特徴を段階的に変調する。
従来のネットワークと比較して,提案したPSFR-GANは,入力ペアの異なるスケールのセマンティック(パーシングマップ)とピクセル(LQ画像)空間情報をフル活用している。
さらに,各セマンティクス領域における特徴スタイルロスを個別に算出し,顔テクスチャの詳細を改善するセマンティクス認識スタイルロスについても紹介する。
最後に,実世界のlq顔画像から適切なパースマップを生成する顔解析ネットワークを事前学習する。
実験の結果, 合成データを用いたモデルでは, 合成lq入力に対してよりリアルな高分解能結果を生成するだけでなく, 最先端手法と比較して自然なlq顔画像への一般化が期待できることがわかった。
コードはhttps://github.com/chaofengc/psfrganで入手できる。 Face restoration is important in face image processing, and has been widely studied in recent years. However, previous works often fail to generate plausible high quality (HQ) results for real-world low quality (LQ) face images. In this paper, we propose a new progressive semantic-aware style transformation framework, named PSFR-GAN, for face restoration. Specifically, instead of using an encoder-decoder framework as previous methods, we formulate the restoration of LQ face images as a multi-scale progressive restoration procedure through semantic-aware style transformation. Given a pair of LQ face image and its corresponding parsing map, we first generate a multi-scale pyramid of the inputs, and then progressively modulate different scale features from coarse-to-fine in a semantic-aware style transfer way. Compared with previous networks, the proposed PSFR-GAN makes full use of the semantic (parsing maps) and pixel (LQ images) space information from different scales of input pairs. In addition, we further introduce a semantic aware style loss which calculates the feature style loss for each semantic region individually to improve the details of face textures. Finally, we pretrain a face parsing network which can generate decent parsing maps from real-world LQ face images. Experiment results show that our model trained with synthetic data can not only produce more realistic high-resolution results for synthetic LQ inputs and but also generalize better to natural LQ face images compared with state-of-the-art methods. Codes are available at https://github.com/chaofengc/PSFRGAN. | 翻訳日:2022-10-17 03:17:52 公開日:2021-03-21 |
# 初期化時にニューラルネットワークを実行する: なぜマークを欠いているのか? Pruning Neural Networks at Initialization: Why are We Missing the Mark? ( http://arxiv.org/abs/2009.08576v2 ) ライセンス: Link先を確認 | Jonathan Frankle, Gintare Karolina Dziugaite, Daniel M. Roy, Michael Carbin | (参考訳) 最近の研究は、初期化時にニューラルネットワークを刈り取る可能性を探っている。
我々は,snip (lee et al., 2019), grab (wang et al., 2020), synflow (tanaka et al., 2020), magnitude pruningという提案を評価した。
これらの方法はランダムな刈り取りの自明なベースラインを超えているが、トレーニング後の刈り取りの精度は低く、その理由を理解するために努力している。
トレーニング後の刈り取りと異なり,各層内でランダムに重み付けを行うか,新たな初期値のサンプリングによって精度が保たれるか,あるいは向上することを示す。
したがって、これらの方法によって決定される1重当たりのプルーニングは、プルーンの重量の分数の層ごとの選択に置き換えることができる。
この性質は、根底にある刈り取りのヒューリスティック、初期化時にプルーンしたいという願望、あるいはその両方に対する幅広い挑戦を示唆する。 Recent work has explored the possibility of pruning neural networks at initialization. We assess proposals for doing so: SNIP (Lee et al., 2019), GraSP (Wang et al., 2020), SynFlow (Tanaka et al., 2020), and magnitude pruning. Although these methods surpass the trivial baseline of random pruning, they remain below the accuracy of magnitude pruning after training, and we endeavor to understand why. We show that, unlike pruning after training, randomly shuffling the weights these methods prune within each layer or sampling new initial values preserves or improves accuracy. As such, the per-weight pruning decisions made by these methods can be replaced by a per-layer choice of the fraction of weights to prune. This property suggests broader challenges with the underlying pruning heuristics, the desire to prune at initialization, or both. | 翻訳日:2022-10-17 02:07:13 公開日:2021-03-21 |
# 確率的マルチエージェントシステムのための協調経路積分制御 Cooperative Path Integral Control for Stochastic Multi-Agent Systems ( http://arxiv.org/abs/2009.14775v2 ) ライセンス: Link先を確認 | Neng Wan, Aditya Gahlawat, Naira Hovakimyan, Evangelos A. Theodorou, and Petros G. Voulgaris | (参考訳) 協調型マルチエージェントシステムのための分散確率最適制御ソリューションを提案する。
エージェントのネットワークは複数の因子サブシステムに分割され、それぞれ中央エージェントと隣接エージェントで構成されている。
エージェントの局所観測のみに依存する局所制御アクションは、サブシステムの合同コスト関数を最適化するように設計されている。
局所制御作用を解くとき、各サブシステムの合同最適式を線形偏微分方程式としてキャストし、ファインマン・カック公式を用いて解く。
解と最適制御作用は経路積分として定式化され、モンテカルロ法で近似される。
数値検証は、協力型UAVチームからなるシミュレーション例を通して行われる。 A distributed stochastic optimal control solution is presented for cooperative multi-agent systems. The network of agents is partitioned into multiple factorial subsystems, each of which consists of a central agent and neighboring agents. Local control actions that rely only on agents' local observations are designed to optimize the joint cost functions of subsystems. When solving for the local control actions, the joint optimality equation for each subsystem is cast as a linear partial differential equation and solved using the Feynman-Kac formula. The solution and the optimal control action are then formulated as path integrals and approximated by a Monte-Carlo method. Numerical verification is provided through a simulation example consisting of a team of cooperative UAVs. | 翻訳日:2022-10-13 00:41:45 公開日:2021-03-21 |
# インクリメンタルサンプリングと確率的ロードマップによる動的環境の自律的UAV探査 Autonomous UAV Exploration of Dynamic Environments via Incremental Sampling and Probabilistic Roadmap ( http://arxiv.org/abs/2010.07429v3 ) ライセンス: Link先を確認 | Zhefan Xu, Di Deng, Kenji Shimada | (参考訳) 自律探査では、ロボットが情報を反復的に生成する必要がある。
サンプリングに基づく手法は無人航空機の探索において非常に効率的であるが、これらの手法の多くは以前の計画の繰り返しから得られたサンプル情報を効果的に利用せず、冗長な計算と長い探査時間をもたらす。
また、リアルタイムに実行可能であるにもかかわらず、動的環境での探索能力を明確に示すものはほとんどない。
これらの制約を克服するために,インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
サンプリング戦略では、ノードを段階的に追加し、探索した領域に均等に分散し、最適な視点を与えます。
探索時間を短縮し,安全性を確保するため,計画者はユークリッド符号距離関数 (ESDF) マップに基づいて経路を最適化し,それらを改良する。
一方、マルチクエリのプランナーであるPRMは、提案したプランナーが安全な探索のために動的障害物を避けるために、迅速に代替経路を探索できるようにする。
シミュレーション実験により, 本手法は動的環境を安全に探索し, 探索時間, 経路長, 計算時間の観点からベンチマークプランナーを上回った。 Autonomous exploration requires robots to generate informative trajectories iteratively. Although sampling-based methods are highly efficient in unmanned aerial vehicle exploration, many of these methods do not effectively utilize the sampled information from the previous planning iterations, leading to redundant computation and longer exploration time. Also, few have explicitly shown their exploration ability in dynamic environments even though they can run real-time. To overcome these limitations, we propose a novel dynamic exploration planner (DEP) for exploring unknown environments using incremental sampling and Probabilistic Roadmap (PRM). In our sampling strategy, nodes are added incrementally and distributed evenly in the explored region, yielding the best viewpoints. To further shortening exploration time and ensuring safety, our planner optimizes paths locally and refine them based on the Euclidean Signed Distance Function (ESDF) map. Meanwhile, as the multi-query planner, PRM allows the proposed planner to quickly search alternative paths to avoid dynamic obstacles for safe exploration. Simulation experiments show that our method safely explores dynamic environments and outperforms the benchmark planners in terms of exploration time, path length, and computational time. | 翻訳日:2022-10-07 14:03:41 公開日:2021-03-21 |
# 連続整列バンド:関数空間の展望 Continuum-Armed Bandits: A Function Space Perspective ( http://arxiv.org/abs/2010.08007v4 ) ライセンス: Link先を確認 | Shashank Singh | (参考訳) 連続武装バンディット(英: Continuum-armed bandits、別名 black-box または $0^{th}$-order optimization)は、クエリポイントで関数を評価するオラクルが与えられた未知の目的関数を最適化する。
最もよく研究されたケースでは、目的関数はリプシッツ連続であり、単純で累積な後悔の最小速度は無音と無音の両方で知られている。
本稿では,より汎用的な平滑性条件,すなわちベッソフ平滑性条件下での連続武装バンディットの客観的機能について検討する。
ノイズのない条件とノイズの多い条件の両方において、単純かつ累積的な後悔の下でミニマックスレートを導出する。
以上の結果から, ベソフ空間の目的関数に対するミニマックス速度は, ベソフ空間が埋め込まれる最小のH\"古い空間における目的関数に対するミニマックス速度と同一であることが示された。 Continuum-armed bandits (a.k.a., black-box or $0^{th}$-order optimization) involves optimizing an unknown objective function given an oracle that evaluates the function at a query point, with the goal of using as few query points as possible. In the most well-studied case, the objective function is assumed to be Lipschitz continuous and minimax rates of simple and cumulative regrets are known in both noiseless and noisy settings. This paper studies continuum-armed bandits under more general smoothness conditions, namely Besov smoothness conditions, on the objective function. In both noiseless and noisy conditions, we derive minimax rates under simple and cumulative regrets. Our results show that minimax rates over objective functions in a Besov space are identical to minimax rates over objective functions in the smallest H\"older space into which the Besov space embeds. | 翻訳日:2022-10-07 03:42:37 公開日:2021-03-21 |
# 表現問題:ロボットの認識と探索を改善する Representation Matters: Improving Perception and Exploration for Robotics ( http://arxiv.org/abs/2011.01758v2 ) ライセンス: Link先を確認 | Markus Wulfmeier, Arunkumar Byravan, Tim Hertweck, Irina Higgins, Ankush Gupta, Tejas Kulkarni, Malcolm Reynolds, Denis Teplyashin, Roland Hafner, Thomas Lampe, Martin Riedmiller | (参考訳) 低次元構造表現に高次元環境観測を投影することで、ロボット工学のような限られたデータを持つ領域における強化学習におけるデータ効率を大幅に向上させることができる。
一般的に有用な1つの表現が見つかるか?
この質問に答えるためには、エージェントによってどのように表現が使われるか、そしてそのような'良い'表現が持つべき特性を理解することが重要である。
本稿では,3Dブロックの持ち上げ,積み上げ,押し上げという3つのロボット作業の文脈において,多くの共通学習表現と手作業表現を体系的に評価する。
表現はエージェントへの入力として、または補助的なタスクのソースとして、2つのユースケースで評価される。
さらに、各表現の値は次元性、可観測性、ゆがみの3つの性質で評価される。
両方のユースケースで性能を著しく向上させ、エージェント入力として状態のシミュレーションに相乗効果を発揮できることを示す。
最後に、この結果は共通の直観に挑戦します。
1) 次元性はタスク生成には重要であるが,入力には無視できる。
2)タスク関連面の可観測性は入力表現のユースケースに大きく影響し,
3) 絡み合いは補助作業の改善につながるが, 入力表現の利点は限られている。
この研究は、ロボット工学における制御の「良い」表現となるものをより体系的に理解するための一歩となり、実践者が新しい学習や手作業による表現を開発するためのよりインフォームドな選択を行うことを可能にする。 Projecting high-dimensional environment observations into lower-dimensional structured representations can considerably improve data-efficiency for reinforcement learning in domains with limited data such as robotics. Can a single generally useful representation be found? In order to answer this question, it is important to understand how the representation will be used by the agent and what properties such a 'good' representation should have. In this paper we systematically evaluate a number of common learnt and hand-engineered representations in the context of three robotics tasks: lifting, stacking and pushing of 3D blocks. The representations are evaluated in two use-cases: as input to the agent, or as a source of auxiliary tasks. Furthermore, the value of each representation is evaluated in terms of three properties: dimensionality, observability and disentanglement. We can significantly improve performance in both use-cases and demonstrate that some representations can perform commensurate to simulator states as agent inputs. Finally, our results challenge common intuitions by demonstrating that: 1) dimensionality strongly matters for task generation, but is negligible for inputs, 2) observability of task-relevant aspects mostly affects the input representation use-case, and 3) disentanglement leads to better auxiliary tasks, but has only limited benefits for input representations. This work serves as a step towards a more systematic understanding of what makes a 'good' representation for control in robotics, enabling practitioners to make more informed choices for developing new learned or hand-engineered representations. | 翻訳日:2022-09-30 03:41:02 公開日:2021-03-21 |
# シングルショットフリースタイルダンス再現 Single-Shot Freestyle Dance Reenactment ( http://arxiv.org/abs/2012.01158v2 ) ライセンス: Link先を確認 | Oran Gafni, Oron Ashual, Lior Wolf | (参考訳) 光源ダンサーと対象者との移動移動のタスクは、ダンサーの動作に応じて対象者がポーズを変更するポーズ伝達問題(英語版)の特別な場合である。
そこで本研究では,任意の映像列で1つの映像を再現し,訓練中は見当たらない新しい手法を提案する。
この方法は、(i)セグメンテーションマッピングネットワーク、(ii)現実的なフレームレンダリングネットワーク、(iii)顔改善ネットワークの3つのネットワークを組み合わせたものである。
このタスクを3つのステージに分割することで、自然な動きと外観をキャプチャして、新しいリアルなフレームのシーケンスを実現できる。
提案手法は,従来手法に比べて視覚品質が著しく向上し,実験や補足ビデオに示すように,挑戦的なポーズでキャプチャされる多様な体型や外観をアニメートすることができる。 The task of motion transfer between a source dancer and a target person is a special case of the pose transfer problem, in which the target person changes their pose in accordance with the motions of the dancer. In this work, we propose a novel method that can reanimate a single image by arbitrary video sequences, unseen during training. The method combines three networks: (i) a segmentation-mapping network, (ii) a realistic frame-rendering network, and (iii) a face refinement network. By separating this task into three stages, we are able to attain a novel sequence of realistic frames, capturing natural motion and appearance. Our method obtains significantly better visual quality than previous methods and is able to animate diverse body types and appearances, which are captured in challenging poses, as shown in the experiments and supplementary video. | 翻訳日:2021-05-25 04:07:20 公開日:2021-03-21 |
# テキストキャップ用信頼度対応非繰り返しマルチモーダルトランスフォーマー Confidence-aware Non-repetitive Multimodal Transformers for TextCaps ( http://arxiv.org/abs/2012.03662v3 ) ライセンス: Link先を確認 | Zhaokai Wang, Renda Bao, Qi Wu, Si Liu | (参考訳) 画像を記述する場合、視覚的なシーンでテキストを読むことは重要な情報を理解するのに不可欠である。
最近の研究はTextCapsタスク、すなわち
読解光学文字認識(ocr)トークンを用いた画像キャプションは、モデルがテキストを読解し、生成されたキャプションでカバーする必要がある。
既存の手法では,(1)読解能力の低下,(2)抽出したOCRトークンの中から重要な単語を選択できないこと,(3)予測キャプション中の単語の繰り返しなど,正確な記述が得られない。
そこで本研究では,信頼度に着目した非反復マルチモーダルトランスフォーマ(cnmt)を提案する。
我々のCNMTは、読み出し、推論、生成モジュールで構成されており、読み出しモジュールはより優れたOCRシステムを使用してテキスト読み出し能力を高め、信頼度を組み込んで最も注目すべきトークンを選択する。
キャプションにおける単語冗長性の問題に対処するため,キャプションにおける単語の繰り返し予測を避けるための繰り返しマスクを備える。
私たちのモデルはtextcapsデータセットで最先端のモデルを上回り、ciderでは81.0から93.0に改善しました。
ソースコードは公開されています。 When describing an image, reading text in the visual scene is crucial to understand the key information. Recent work explores the TextCaps task, i.e. image captioning with reading Optical Character Recognition (OCR) tokens, which requires models to read text and cover them in generated captions. Existing approaches fail to generate accurate descriptions because of their (1) poor reading ability; (2) inability to choose the crucial words among all extracted OCR tokens; (3) repetition of words in predicted captions. To this end, we propose a Confidence-aware Non-repetitive Multimodal Transformers (CNMT) to tackle the above challenges. Our CNMT consists of a reading, a reasoning and a generation modules, in which Reading Module employs better OCR systems to enhance text reading ability and a confidence embedding to select the most noteworthy tokens. To address the issue of word redundancy in captions, our Generation Module includes a repetition mask to avoid predicting repeated word in captions. Our model outperforms state-of-the-art models on TextCaps dataset, improving from 81.0 to 93.0 in CIDEr. Our source code is publicly available. | 翻訳日:2021-05-16 21:53:01 公開日:2021-03-21 |
# Deep-CR MTLR:競合リスクを伴う癌生存予測のためのマルチモーダルアプローチ Deep-CR MTLR: a Multi-Modal Approach for Cancer Survival Prediction with Competing Risks ( http://arxiv.org/abs/2012.05765v3 ) ライセンス: Link先を確認 | Sejin Kim, Michal Kazmierski and Benjamin Haibe-Kains | (参考訳) 正確な生存予測は、精密がん医学の発展に不可欠であり、新しい予後情報ソースの必要性が生じる。
近年,日常的に収集された臨床・医用画像データを用いて,複数のがんの新たな予後マーカーの発見が注目されている。
しかし,従来の研究のほとんどは個々のデータモダリティのみに焦点をあてており,機械学習の最近の進歩を生存予測に利用していない。
本稿では,ニューラルネットワークとマルチタスクロジスティック回帰フレームワークの拡張に基づく競合リスクの存在下で,マルチモーダル臨床および画像データから正確ながん生存予測を行うための新しい機械学習手法であるdeep-cr mtlrを提案する。
頭頸部癌2552例のコホートにおいて, 単一モダリティ予測器に対するマルチモーダルアプローチの予後改善効果を実証し, 特に癌特異的生存例では, アプローチが0.774AUROC, および0.788AUROC$C$-indexを達成した。 Accurate survival prediction is crucial for development of precision cancer medicine, creating the need for new sources of prognostic information. Recently, there has been significant interest in exploiting routinely collected clinical and medical imaging data to discover new prognostic markers in multiple cancer types. However, most of the previous studies focus on individual data modalities alone and do not make use of recent advances in machine learning for survival prediction. We present Deep-CR MTLR -- a novel machine learning approach for accurate cancer survival prediction from multi-modal clinical and imaging data in the presence of competing risks based on neural networks and an extension of the multi-task logistic regression framework. We demonstrate improved prognostic performance of the multi-modal approach over single modality predictors in a cohort of 2552 head and neck cancer patients, particularly for cancer specific survival, where our approach achieves 2-year AUROC of 0.774 and $C$-index of 0.788. | 翻訳日:2021-05-15 06:16:24 公開日:2021-03-21 |
# (参考訳) データ抽出検出のための機械学習: レビュー Machine Learning for Detecting Data Exfiltration: A Review ( http://arxiv.org/abs/2012.09344v2 ) ライセンス: CC BY 4.0 | Bushra Sabir, Faheem Ullah, M. Ali Babar and Raj Gaire | (参考訳) コンテキスト: サイバーセキュリティ、機械学習(ML)、ソフトウェアエンジニアリング(SE)の交差点での研究は、最近、高度なデータ流出攻撃を検出するための対策を提案している。
この重要なトピックに関する知識の体系化のためのMLベースのデータ抽出対策を体系的にレビューし、合成することが重要である。
目的: 本論文は,ML のアプローチ,特徴工学的手法,評価データセット,これらの対策に用いられるパフォーマンス指標を識別・分類するために,ML ベースのデータ抽出対策を体系的にレビューすることを目的とする。
また,MLに基づくデータ抽出対策の研究におけるギャップの特定も目的とする。
方法: 体系的文献レビュー(SLR)法を用いて, {92} 論文の選択とレビューを行った。
結果: a) 対策に使用されるmlアプローチをデータ駆動型, 行動駆動型, b) 特徴を行動型, コンテンツベース, 統計型, 合成型, 空間型, 時間型に分類し, (c) 評価データセットをシミュレーション, 合成, 実データセットに分類し, (d) これらの研究で使用されている11の性能指標を特定した。
Conclusion: We conclude that: (i) the integration of data-driven and behaviour-driven approaches should be explored; (ii) There is a need of developing high quality and large size evaluation datasets; (iii) Incremental ML model training should be incorporated in countermeasures; (iv) resilience to adversarial learning should be considered and explored during the development of countermeasures to avoid poisoning attacks; and (v) the use of automated feature engineering should be encouraged for efficiently detecting data exfiltration attacks. Context: Research at the intersection of cybersecurity, Machine Learning (ML), and Software Engineering (SE) has recently taken significant steps in proposing countermeasures for detecting sophisticated data exfiltration attacks. It is important to systematically review and synthesize the ML-based data exfiltration countermeasures for building a body of knowledge on this important topic. Objective: This paper aims at systematically reviewing ML-based data exfiltration countermeasures to identify and classify ML approaches, feature engineering techniques, evaluation datasets, and performance metrics used for these countermeasures. This review also aims at identifying gaps in research on ML-based data exfiltration countermeasures. Method: We used a Systematic Literature Review (SLR) method to select and review {92} papers. Results: The review has enabled us to (a) classify the ML approaches used in the countermeasures into data-driven, and behaviour-driven approaches, (b) categorize features into six types: behavioural, content-based, statistical, syntactical, spatial and temporal, (c) classify the evaluation datasets into simulated, synthesized, and real datasets and (d) identify 11 performance measures used by these studies. Conclusion: We conclude that: (i) the integration of data-driven and behaviour-driven approaches should be explored; (ii) There is a need of developing high quality and large size evaluation datasets; (iii) Incremental ML model training should be incorporated in countermeasures; (iv) resilience to adversarial learning should be considered and explored during the development of countermeasures to avoid poisoning attacks; and (v) the use of automated feature engineering should be encouraged for efficiently detecting data exfiltration attacks. | 翻訳日:2021-05-03 00:36:15 公開日:2021-03-21 |
# (参考訳) サンゴ礁生物音響の深部埋め込みクラスタリング Deep embedded clustering of coral reef bioacoustics ( http://arxiv.org/abs/2012.09982v2 ) ライセンス: CC BY 4.0 | Emma Ozanich and Aaron Thode and Peter Gerstoft and Lauren A. Freeman and Simon Freeman | (参考訳) 魚の脈波をクジラの鳴き声と区別するために,サンゴ礁の鳴き声にラベルなし,自動的に検出された信号に対して深層クラスタリングを施した。
ディープ組込みクラスタリング(DEC)は遅延特徴を学習し、信号の固定長パワースペクトログラムを用いて分類クラスタを形成する。
また, ガウス混合モデル (GMM) と従来のクラスタリングを用いて, スペクトル・時間特性の抽出とクラスタリングを行った。
dec, gmm, および従来のクラスタリングは, ランダム帯域幅, 持続時間, snrを有する魚のパルスコール (fish) とクジラの歌ユニット (whale) のシミュレーションデータセット上でテストされた。
GMMとDECはどちらも精度が高く、魚、クジラ、魚、クジラの信号が重なり合うクラスターを同定した。
従来のクラスタリング手法は、不等サイズのクラスタや重複信号のシナリオでは精度が低かった。
2020年2月から3月にかけてハワイ近郊で記録された魚やクジラの信号は、DEC、GMM、および従来のクラスタリングで収集された。
DECの特徴は、魚やクジラの群れに信号を分類するための小さなラベル付きデータセットで77.5%の精度を示した。 Deep clustering was applied to unlabeled, automatically detected signals in a coral reef soundscape to distinguish fish pulse calls from segments of whale song. Deep embedded clustering (DEC) learned latent features and formed classification clusters using fixed-length power spectrograms of the signals. Handpicked spectral and temporal features were also extracted and clustered with Gaussian mixture models (GMM) and conventional clustering. DEC, GMM, and conventional clustering were tested on simulated datasets of fish pulse calls (fish) and whale song units (whale) with randomized bandwidth, duration, and SNR. Both GMM and DEC achieved high accuracy and identified clusters with fish, whale, and overlapping fish and whale signals. Conventional clustering methods had low accuracy in scenarios with unequal-sized clusters or overlapping signals. Fish and whale signals recorded near Hawaii in February-March 2020 were clustered with DEC, GMM, and conventional clustering. DEC features demonstrated the highest accuracy of 77.5% on a small, manually labeled dataset for classifying signals into fish and whale clusters. | 翻訳日:2021-05-02 09:05:10 公開日:2021-03-21 |
# ディープラーニングによる予測 - S&P 500インデックス Forecasting with Deep Learning: S&P 500 index ( http://arxiv.org/abs/2103.14080v1 ) ライセンス: Link先を確認 | Firuz Kamalov, Linda Smail, Ikhlaas Gurrib | (参考訳) 株価予測は大量の研究の焦点だったが、これまでのところ許容できる解決策は学者を逃がした。
近年のディープラーニングの進歩は、ニューラルネットワークをストック予測に適用する動機となった。
本稿では,S&P500インデックスの今後の価値を予測するために,畳み込みに基づくニューラルネットワークモデルを提案する。
提案モデルは,インデックスの前の値に基づいて,インデックスの次の日の方向を予測することができる。
実験の結果,本モデルが精度55%以上のベンチマークを上回っていることがわかった。 Stock price prediction has been the focus of a large amount of research but an acceptable solution has so far escaped academics. Recent advances in deep learning have motivated researchers to apply neural networks to stock prediction. In this paper, we propose a convolution-based neural network model for predicting the future value of the S&P 500 index. The proposed model is capable of predicting the next-day direction of the index based on the previous values of the index. Experiments show that our model outperforms a number of benchmarks achieving an accuracy rate of over 55%. | 翻訳日:2021-04-05 01:07:54 公開日:2021-03-21 |
# ディープラーニングによる株価予測 Stock price forecast with deep learning ( http://arxiv.org/abs/2103.14081v1 ) ライセンス: Link先を確認 | Firuz Kamalov, Linda Smail, Ikhlaas Gurrib | (参考訳) 本稿では,ニューラルネットワークを用いた株価予測への様々なアプローチを比較する。
我々は,S&P500指数の翌日の値を予測するために,完全連結型,畳み込み型,反復型アーキテクチャの性能解析を行った。
さらに, 確率勾配降下, 根平均二乗伝播, 適応モーメント推定という3つの最適化手法を含め, 解析をさらに拡張する。
数値実験により、rmspropオプティマイザを用いた単層リカレントニューラルネットワークは、それぞれ0.0150と0.00148の検証とテスト平均絶対誤差で最適結果を生成することが分かった。 In this paper, we compare various approaches to stock price prediction using neural networks. We analyze the performance fully connected, convolutional, and recurrent architectures in predicting the next day value of S&P 500 index based on its previous values. We further expand our analysis by including three different optimization techniques: Stochastic Gradient Descent, Root Mean Square Propagation, and Adaptive Moment Estimation. The numerical experiments reveal that a single layer recurrent neural network with RMSprop optimizer produces optimal results with validation and test Mean Absolute Error of 0.0150 and 0.0148 respectively. | 翻訳日:2021-04-05 01:07:47 公開日:2021-03-21 |
# ニューラルネットワーク翻訳のためのコンテキスト・シーケンス対応畳み込みリカレントエンコーダ Context- and Sequence-Aware Convolutional Recurrent Encoder for Neural Machine Translation ( http://arxiv.org/abs/2101.04030v2 ) ライセンス: Link先を確認 | Ritam Mallick, Seba Susan, Vaibhaw Agrawal, Rizul Garg, Prateek Rawal | (参考訳) ニューラルネットワークに基づくシーケンス・ツー・シーケンス変換モデルである。
既存のモデルは、エンコーダとデコーダモジュールの両方を構築するためにリカレントニューラルネットワークを使用する。
代替研究として、リカレントネットワークを畳み込みニューラルネットワークで代用し、入力文の構文構造を捕捉し、処理時間を短縮した。
本稿では、コンテクスト情報とソース文からのシーケンシャル情報を取得する畳み込み再帰エンコーダを提案することにより、両方のアプローチの良さを取り入れる。
語句レベルの文脈情報をキャプチャするn-gram特徴抽出器である畳み込み符号化層に先立って、原文の単語埋め込みと位置埋め込みを行う。
元の埋め込みベクトルに畳み込み符号化層の補正出力を追加し、その和を層正規化により正規化する。
正規化出力は、シーケンス内の時間情報をキャプチャする再帰符号化層への逐次入力として与えられる。
デコーダには注意に基づくリカレントニューラルネットワークを使用する。
ドイツ語と英語のデータセットの翻訳タスクは、提案されたアプローチの有効性を、芸術の状況と比較して達成された高得点から検証する。 Neural Machine Translation model is a sequence-to-sequence converter based on neural networks. Existing models use recurrent neural networks to construct both the encoder and decoder modules. In alternative research, the recurrent networks were substituted by convolutional neural networks for capturing the syntactic structure in the input sentence and decreasing the processing time. We incorporate the goodness of both approaches by proposing a convolutional-recurrent encoder for capturing the context information as well as the sequential information from the source sentence. Word embedding and position embedding of the source sentence is performed prior to the convolutional encoding layer which is basically a n-gram feature extractor capturing phrase-level context information. The rectified output of the convolutional encoding layer is added to the original embedding vector, and the sum is normalized by layer normalization. The normalized output is given as a sequential input to the recurrent encoding layer that captures the temporal information in the sequence. For the decoder, we use the attention-based recurrent neural network. Translation task on the German-English dataset verifies the efficacy of the proposed approach from the higher BLEU scores achieved as compared to the state of the art. | 翻訳日:2021-04-04 14:45:08 公開日:2021-03-21 |
# MONAIfbs: monAIを用いた胎児脳MRIによる深層学習 MONAIfbs: MONAI-based fetal brain MRI deep learning segmentation ( http://arxiv.org/abs/2103.13314v1 ) ライセンス: Link先を確認 | Marta B.M. Ranzini, Lucas Fidon, S\'ebastien Ourselin, Marc Modat and Tom Vercauteren | (参考訳) 胎児磁気共鳴イメージングでは、2次元スライスの低分解能スタックから高分解能3次元ボリューム再構成を得るために,超分解能再構成(SRR)アルゴリズムが普及している。
効果的に、これらのアルゴリズムは、しばしば、疑わしい病理症例において、胎児の脳のような興味のある領域の正確な分割を必要とする。
Spina Bifida, Ebner, Wang et al。
(NeuroImage, 2020)はSRRアルゴリズムと2ステップセグメンテーションパイプライン(2Dローカライゼーションと2Dセグメンテーションネットワーク)を組み合わせた。
しかし、ローカライズステップが失敗すると、第2のネットワークは正しいブレインマスクを回収できないため、効果的なsrrを手動で修正する必要がある。
本研究では,Spina BifidaにおけるSRRの胎児脳セグメンテーションの改善を目的とした。
我々は、2段階のアプローチを必要とせず、訓練された単一ステップのunetが正確な性能を達成することができると仮定する。
本研究では,monaifbs(medical open network for artificial intelligence)フレームワークを利用した胎児脳セグメンテーションのための新しいツールを提案する。
我々のネットワークは、nnU-Netフレームワークの適応である動的UNet(dynUNet)に基づいている。
Ebner-Wangで提案された2段階のアプローチと、この作業で利用可能な拡張データセットで再トレーニングされたEbner-Wangアプローチを比較すると、dynUNetは単一のステップのみを使用してより高いパフォーマンスを実現することを示した。
また、Ebner-Wang と 53 Ebner-Wang が拡張したのに対し、Dice のスコアは 0.9 未満の28個のスタックしか得られなかったため、外れ値の減少も示された。
提案するdynunetモデルは胎児脳の分節技術を改良し,自動srrパイプラインにおける手作業による補正の必要性を低減した。
私たちのコードとトレーニングされたモデルはhttps://github.com/gift-surg/MONAIfbs.comで公開されています。 In fetal Magnetic Resonance Imaging, Super Resolution Reconstruction (SRR) algorithms are becoming popular tools to obtain high-resolution 3D volume reconstructions from low-resolution stacks of 2D slices, acquired at different orientations. To be effective, these algorithms often require accurate segmentation of the region of interest, such as the fetal brain in suspected pathological cases. In the case of Spina Bifida, Ebner, Wang et al. (NeuroImage, 2020) combined their SRR algorithm with a 2-step segmentation pipeline (2D localisation followed by a 2D segmentation network). However, if the localisation step fails, the second network is not able to recover a correct brain mask, thus requiring manual corrections for an effective SRR. In this work, we aim at improving the fetal brain segmentation for SRR in Spina Bifida. We hypothesise that a well-trained single-step UNet can achieve accurate performance, avoiding the need of a 2-step approach. We propose a new tool for fetal brain segmentation called MONAIfbs, which takes advantage of the Medical Open Network for Artificial Intelligence (MONAI) framework. Our network is based on the dynamic UNet (dynUNet), an adaptation of the nnU-Net framework. When compared to the original 2-step approach proposed in Ebner-Wang, and the same Ebner-Wang approach retrained with the expanded dataset available for this work, the dynUNet showed to achieve higher performance using a single step only. It also showed to reduce the number of outliers, as only 28 stacks obtained Dice score less than 0.9, compared to 68 for Ebner-Wang and 53 Ebner-Wang expanded. The proposed dynUNet model thus provides an improvement of the state-of-the-art fetal brain segmentation techniques, reducing the need for manual correction in automated SRR pipelines. Our code and our trained model are made publicly available at https://github.com/gift-surg/MONAIfbs. | 翻訳日:2021-03-25 14:08:47 公開日:2021-03-21 |
# (参考訳) ハイパーグラフに基づく構造繊維パターン認識と加工 Structural Textile Pattern Recognition and Processing Based on Hypergraphs ( http://arxiv.org/abs/2103.11271v1 ) ライセンス: CC BY 4.0 | Vuong M. Ngo and Sven Helmer and Nhien-An Le-Khac and M-Tahar Kechadi | (参考訳) 人文科学は、他の社会の多くの分野と同様に、現在デジタルトランスフォーメーションの後に大きな変化を遂げている。
しかし,この領域におけるデジタル資料の収集が容易になるためには,検索機能に十分不足することが多い。
例えば、織物のデジタルアーカイブはキーワード検索を提供しており、かなりよく理解されており、特定の分類に従ってコンテンツを配置するが、スレッド構造のレベルでの検索機能はいまだに欠けている。
クラスタリングと探索を容易にするために,繊維アーカイブの構造に基づいて類似した織物パターンを認識する手法を提案する。
まず,ハイパーグラフを用いて織物構造を表現し,これらのグラフから織物パターンを記述するk-neighbourhoodの多重集合を抽出する。
得られた多重集合は、様々な距離測度と様々なクラスタリングアルゴリズムを用いてクラスタリングされる(K-Meansは単純性、階層的凝集アルゴリズムは正確性)。
提案手法の異なる変種を実験的に評価し、これを効率的に実装できること(つまり線形複雑である)を示し、大規模な繊維サンプルを含むデータセットをクエリしクラスタ化するための品質を示す。
我々の知る限りでは、これは検索に使用可能な複雑で不規則な織りパターンを明示的にモデル化するための最初の実践的アプローチである。 The humanities, like many other areas of society, are currently undergoing major changes in the wake of digital transformation. However, in order to make collection of digitised material in this area easily accessible, we often still lack adequate search functionality. For instance, digital archives for textiles offer keyword search, which is fairly well understood, and arrange their content following a certain taxonomy, but search functionality at the level of thread structure is still missing. To facilitate the clustering and search, we introduce an approach for recognising similar weaving patterns based on their structures for textile archives. We first represent textile structures using hypergraphs and extract multisets of k-neighbourhoods describing weaving patterns from these graphs. Then, the resulting multisets are clustered using various distance measures and various clustering algorithms (K-Means for simplicity and hierarchical agglomerative algorithms for precision). We evaluate the different variants of our approach experimentally, showing that this can be implemented efficiently (meaning it has linear complexity), and demonstrate its quality to query and cluster datasets containing large textile samples. As, to the est of our knowledge, this is the first practical approach for explicitly modelling complex and irregular weaving patterns usable for retrieval, we aim at establishing a solid baseline. | 翻訳日:2021-03-25 10:29:35 公開日:2021-03-21 |
# (参考訳) リアプノフ安定解析による不確かさ非線形システムのスライディングモード学習制御 Sliding Mode Learning Control of Uncertain Nonlinear Systems with Lyapunov Stability Analysis ( http://arxiv.org/abs/2103.11274v1 ) ライセンス: CC BY 4.0 | Erkan Kayacan | (参考訳) 本稿では、リアプノフ安定性解析を用いた不確実性非線形システムのスライディングモード学習制御(SMLC)について述べる。
制御方式では,2型ニューロファジィコントローラ(T2NFC)がシステム動作を学習し,T2NFCがシステム全体の制御を極めて短時間で完全に行うのに対して,システム安定性を提供するために,従来の制御用語を用いる。
スライディングモード学習アルゴリズムの安定性は文献で証明されたが、システム全体の安定性を欠いたシステムでは限定的である。
そこで本論文では, 新規なすべり面を有する新規な制御構造を提案し, n次不確実な非線形系に対して, システム全体の安定性を証明した。
提案する学習制御アルゴリズムの性能と有効性を検討するために, 雑音条件下でのシミュレーション実験を行った。
シミュレーションの結果,smlcアルゴリズムは,数学的モデル知識がなければシステムの挙動を学習でき,外部外乱に対してロバストな制御性能を示すことがわかった。 This paper addresses to Sliding Mode Learning Control (SMLC) of uncertain nonlinear systems with Lyapunov stability analysis. In the control scheme, a conventional control term is used to provide the system stability in compact space while a Type-2 Neuro-Fuzzy Controller (T2NFC) learns system behavior so that the T2NFC takes the overall control of the system completely in a very short time period. The stability of the sliding mode learning algorithm was proven in literature; however, it is so restrictive for systems without the overall system stability. To address this shortcoming, a novel control structure with a novel sliding surface is proposed in this paper and the stability of the overall system is proven for nth-order uncertain nonlinear systems. To investigate the capability and effectiveness of the proposed learning and control algorithms, the simulation studies have been achieved under noisy conditions. The simulation results confirm that the developed SMLC algorithm can learn the system behavior in the absence of any mathematical model knowledge and exhibit robust control performance against external disturbances. | 翻訳日:2021-03-25 10:26:42 公開日:2021-03-21 |
# (参考訳) 相対予測符号化を用いた自己教師付き表現学習 Self-supervised Representation Learning with Relative Predictive Coding ( http://arxiv.org/abs/2103.11275v1 ) ライセンス: CC BY 4.0 | Yao-Hung Hubert Tsai, Martin Q. Ma, Muqiao Yang, Han Zhao, Louis-Philippe Morency, Ruslan Salakhutdinov | (参考訳) 本稿では,トレーニング安定性,ミニバッチサイズ感度,ダウンストリームタスクパフォーマンスのバランスを良好に保った,新しいコントラスト表現学習目標である相対予測符号化(rpc)を提案する。
RPCの成功の鍵は2つある。
まず、RPCは、境界性と低分散の目的を規則化する相対パラメータを導入します。
第2に、RPCには対数や指数スコア関数がなく、これは事前のコントラスト目的におけるトレーニング不安定性の主な原因である。
ベンチマークビジョンと自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
最後に、RPCと相互情報(MI)推定を関連付け、低分散のMIを推定するためにRPCを使用できることを示す。 This paper introduces Relative Predictive Coding (RPC), a new contrastive representation learning objective that maintains a good balance among training stability, minibatch size sensitivity, and downstream task performance. The key to the success of RPC is two-fold. First, RPC introduces the relative parameters to regularize the objective for boundedness and low variance. Second, RPC contains no logarithm and exponential score functions, which are the main cause of training instability in prior contrastive objectives. We empirically verify the effectiveness of RPC on benchmark vision and speech self-supervised learning tasks. Lastly, we relate RPC with mutual information (MI) estimation, showing RPC can be used to estimate MI with low variance. | 翻訳日:2021-03-25 10:05:06 公開日:2021-03-21 |
# (参考訳) 農業用ロボットの高精度制御と深層学習に基づくコーンスタンドカウントアルゴリズム High precision control and deep learning-based corn stand counting algorithms for agricultural robot ( http://arxiv.org/abs/2103.11276v1 ) ライセンス: CC BY 4.0 | Zhongzhong Zhang, Erkan Kayacan, Benjamin Thompson and Girish Chowdhary | (参考訳) 本稿では,農業用3Dプリント・自律型フィールドロボットの高精度制御と深層学習に基づくコーンスタンドカウントアルゴリズムを提案する。
現在, 出芽率, バイオマス, ビゴール, スタンドカウントなどの植物特性を手動で測定している。
これは非常に労働集約的であり、エラーを起こしやすい。
terrasentiaと呼ばれるこのロボットは、植物形質の計測を自動化し、効率的な表現型を手作業による測定の代替として設計されている。
本稿では,車載ロボットセンサと学習に基づく非線形モデル予測制御(nmpc)を用いて,未知の車輪-地平線相互作用の存在下で高精度な経路追跡を実現する非線形移動地平線推定器(nmhe)を提案する。
さらに,実地を自律走行することで,超コンパクトな地上ロボットがトウモロコシスタンドを数えるように設計された機械ビジョンアルゴリズムを開発した。
このアルゴリズムは、画像中のトウモロコシの植物を検出するディープネットワークと、検出されたオブジェクトを異なる時間ステップで識別する視覚追跡モデルを活用する。
出芽後約14日後(ステージV3 - V4)に,トウモロコシの様々な畑の53種類のトウモロコシプロットのデータを収集した。
ロボットの予測は、$c_{robot}=1.02 \times c_{human}-0.86$と相関係数$r=0.96$で一致している。
このアルゴリズムによって与えられる平均相対誤差は$-3.78\%$であり、標準偏差は$6.76\%$である。
これらの結果は、低コストで超コンパクトな地上ロボットをトウモロコシやその他の作物に応用した、自律型ロボットによるリアルタイム表現への第一歩であり、重要なステップであることを示している。 This paper presents high precision control and deep learning-based corn stand counting algorithms for a low-cost, ultra-compact 3D printed and autonomous field robot for agricultural operations. Currently, plant traits, such as emergence rate, biomass, vigor, and stand counting, are measured manually. This is highly labor-intensive and prone to errors. The robot, termed TerraSentia, is designed to automate the measurement of plant traits for efficient phenotyping as an alternative to manual measurements. In this paper, we formulate a Nonlinear Moving Horizon Estimator (NMHE) that identifies key terrain parameters using onboard robot sensors and a learning-based Nonlinear Model Predictive Control (NMPC) that ensures high precision path tracking in the presence of unknown wheel-terrain interaction. Moreover, we develop a machine vision algorithm designed to enable an ultra-compact ground robot to count corn stands by driving through the fields autonomously. The algorithm leverages a deep network to detect corn plants in images, and a visual tracking model to re-identify detected objects at different time steps. We collected data from 53 corn plots in various fields for corn plants around 14 days after emergence (stage V3 - V4). The robot predictions have agreed well with the ground truth with $C_{robot}=1.02 \times C_{human}-0.86$ and a correlation coefficient $R=0.96$. The mean relative error given by the algorithm is $-3.78\%$, and the standard deviation is $6.76\%$. These results indicate a first and significant step towards autonomous robot-based real-time phenotyping using low-cost, ultra-compact ground robots for corn and potentially other crops. | 翻訳日:2021-03-25 09:15:47 公開日:2021-03-21 |
# (参考訳) アクティベーションネット : 工学設計における相互作用する3次元表面の接触品質予測のための表現学習 ActivationNet: Representation learning to predict contact quality of interacting 3-D surfaces in engineering designs ( http://arxiv.org/abs/2103.11288v1 ) ライセンス: CC BY 4.0 | Rishikesh Ranade and Jay Pathak | (参考訳) 構造系と流体系の解析のための工学シミュレーションは、それらの間の物理を正確にモデル化するために、幾何学の様々な3次元表面間の接触情報を必要とする。
機械学習アプリケーションでは、3次元曲面は点雲やメッシュで最も好適に表現され、相互作用するジオメトリの学習表現は点ベース表現では困難である。
この研究の目的は、相互作用する3次元表面の点群やメッシュから学習し、これらの表面間の接触の質を予測する機械学習アルゴリズム「アクティベーションネット」の導入である。
ActivationNetは多次元ビンニング手法を用いて表面の点ベース表現から活性化状態を生成する。
活性化状態はさらに、ディープニューラルネットワークを使用して表面間の品質に接触するために使用される。
本モデルの性能は,工学的ジオメトリから抽出した相互作用面の試験を含むいくつかの実験を用いて実証した。
本稿では,すべての実験において,ActivationNetの接触品質予測は期待とよく一致している。 Engineering simulations for analysis of structural and fluid systems require information of contacts between various 3-D surfaces of the geometry to accurately model the physics between them. In machine learning applications, 3-D surfaces are most suitably represented with point clouds or meshes and learning representations of interacting geometries form point-based representations is challenging. The objective of this work is to introduce a machine learning algorithm, ActivationNet, that can learn from point clouds or meshes of interacting 3-D surfaces and predict the quality of contact between these surfaces. The ActivationNet generates activation states from point-based representation of surfaces using a multi-dimensional binning approach. The activation states are further used to contact quality between surfaces using deep neural networks. The performance of our model is demonstrated using several experiments, including tests on interacting surfaces extracted from engineering geometries. In all the experiments presented in this paper, the contact quality predictions of ActivationNet agree well with the expectations. | 翻訳日:2021-03-25 08:50:40 公開日:2021-03-21 |
# (参考訳) ビデオ異常の検出とローカライズのためのモジュール型統一フレームワーク A Modular and Unified Framework for Detecting and Localizing Video Anomalies ( http://arxiv.org/abs/2103.11299v1 ) ライセンス: CC BY 4.0 | Keval Doshi and Yasin Yilmaz | (参考訳) ビデオにおける異常検出は、ますます注目を集めている。
ベンチマークデータセットにおける最近の方法の競合性能にもかかわらず、モジュール性、クロスドメイン適応性、解釈性、リアルタイム異常なイベント検出といった望ましい機能が欠如している。
さらに,映像の異常検出には理想的ではない映像フレームを独立したインスタンスとして考慮し,標準のインスタンスベース検出メトリックを用いて現在の最先端手法を評価する。
これらの研究のギャップに動機付けられ、movadと呼ばれるオンラインビデオ異常検出とローカライズ問題に対するモジュラーで統一的なアプローチを提案する。movadは、新しい転送学習ベースのプラグアンドプレイアーキテクチャ、シーケンシャル異常検出器、検出しきい値の選択のための数学的フレームワーク、ビデオにおけるリアルタイム異常イベント検出に適したパフォーマンス指標で構成されている。
ベンチマークデータセットの大規模なパフォーマンス評価は、提案フレームワークが現在の最先端アプローチを大きく上回っていることを示している。 Anomaly detection in videos has been attracting an increasing amount of attention. Despite the competitive performance of recent methods on benchmark datasets, they typically lack desirable features such as modularity, cross-domain adaptivity, interpretability, and real-time anomalous event detection. Furthermore, current state-of-the-art approaches are evaluated using the standard instance-based detection metric by considering video frames as independent instances, which is not ideal for video anomaly detection. Motivated by these research gaps, we propose a modular and unified approach to the online video anomaly detection and localization problem, called MOVAD, which consists of a novel transfer learning based plug-and-play architecture, a sequential anomaly detector, a mathematical framework for selecting the detection threshold, and a suitable performance metric for real-time anomalous event detection in videos. Extensive performance evaluations on benchmark datasets show that the proposed framework significantly outperforms the current state-of-the-art approaches. | 翻訳日:2021-03-25 08:37:12 公開日:2021-03-21 |
# (参考訳) 暗黙的要求に対する常識知識・オントロジー・テキストマイニング Common Sense Knowledge, Ontology and Text Mining for Implicit Requirements ( http://arxiv.org/abs/2103.11302v1 ) ライセンス: CC BY-SA 4.0 | Onyeka Emebo, Aparna S. Varde, Olawande Daramola | (参考訳) システムの要求を満たす能力は、成功の強力な決定要因である。
したがって、効果的な要求仕様は不可欠である。
明示的な要求は、システムが実行するための明確に定義されたニーズである。
IMPlicit Requirements (IMRs) は、要求収集中に要求されることなくシステムが満たされることを前提としている。
研究によると、ソフトウェアシステムの失敗の主な要因は、未処理のimrの存在である。
IMRの関連性は効率的なシステム機能にとって重要であるため、IMRの識別と管理を支援する手法が開発されている。
本稿では,aiにおける知識表現の分野における常識知識が,imrの自動識別と管理に有用であることを強調する。
本稿では,imrの発生源を特定し,組織的コンテキスト内でimrを管理するための自動支援ツールを提案する。
これは実践上のギャップであることがわかったので、我々の研究はここで貢献します。
本稿では, 常識知識, テキストマイニング, オントロジーという3つのコア技術を組み合わせて, IMRの識別と管理を行う新しい手法を提案する。
未知の要件や非必要条件の発見とハンドリングは、ソフトウェア開発におけるリスクとコストを低減します。 The ability of a system to meet its requirements is a strong determinant of success. Thus effective requirements specification is crucial. Explicit Requirements are well-defined needs for a system to execute. IMplicit Requirements (IMRs) are assumed needs that a system is expected to fulfill though not elicited during requirements gathering. Studies have shown that a major factor in the failure of software systems is the presence of unhandled IMRs. Since relevance of IMRs is important for efficient system functionality, there are methods developed to aid the identification and management of IMRs. In this paper, we emphasize that Common Sense Knowledge, in the field of Knowledge Representation in AI, would be useful to automatically identify and manage IMRs. This paper is aimed at identifying the sources of IMRs and also proposing an automated support tool for managing IMRs within an organizational context. Since this is found to be a present gap in practice, our work makes a contribution here. We propose a novel approach for identifying and managing IMRs based on combining three core technologies: common sense knowledge, text mining and ontology. We claim that discovery and handling of unknown and non-elicited requirements would reduce risks and costs in software development. | 翻訳日:2021-03-25 08:23:57 公開日:2021-03-21 |
# (参考訳) PGT:ロングビデオのトレーニングモデルのためのプログレッシブな方法 PGT: A Progressive Method for Training Models on Long Videos ( http://arxiv.org/abs/2103.11313v1 ) ライセンス: CC BY 4.0 | Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu | (参考訳) 畳み込みビデオモデルは、対応する画像レベルモデルよりも計算の複雑さが桁違いに大きい。
計算資源によって制約を受けるため、エンドツーエンドで長いビデオシーケンスをトレーニングできるモデルやトレーニング方法は存在しない。
現在、メインストリームの方法は生のビデオをクリップに分割し、不完全な断片的な時間的情報の流れをもたらす。
長い文を扱う自然言語処理技術に着想を得て,動画をマルコフ特性を満たす連続断片として扱い,複数のステップで時間的次元を通じて情報を段階的に伝播させることで,それを総合的に訓練する。
このプログレッシブトレーニング(PGT)手法は、限られたリソースでエンドツーエンドの動画をトレーニングし、情報の効果的な伝達を保証する。
汎用的かつ堅牢なトレーニング手法として、異なるモデルやデータセットに対して大きなパフォーマンス向上をもたらすことを実証的に示す。
実例として,提案手法では,シャレード上のSlowOnlyネットワークを3.7 mAPで改善し,パラメータや計算オーバーヘッドが無視できるキネティクス上の1.9トップ-1の精度を向上する。
コードはhttps://github.com/BoPang1996/PGTで入手できる。 Convolutional video models have an order of magnitude larger computational complexity than their counterpart image-level models. Constrained by computational resources, there is no model or training method that can train long video sequences end-to-end. Currently, the main-stream method is to split a raw video into clips, leading to incomplete fragmentary temporal information flow. Inspired by natural language processing techniques dealing with long sentences, we propose to treat videos as serial fragments satisfying Markov property, and train it as a whole by progressively propagating information through the temporal dimension in multiple steps. This progressive training (PGT) method is able to train long videos end-to-end with limited resources and ensures the effective transmission of information. As a general and robust training method, we empirically demonstrate that it yields significant performance improvements on different models and datasets. As an illustrative example, the proposed method improves SlowOnly network by 3.7 mAP on Charades and 1.9 top-1 accuracy on Kinetics with negligible parameter and computation overhead. Code is available at https://github.com/BoPang1996/PGT. | 翻訳日:2021-03-25 08:13:26 公開日:2021-03-21 |
# (参考訳) 構造と文脈からのソースコードの言語非依存表現学習 Language-Agnostic Representation Learning of Source Code from Structure and Context ( http://arxiv.org/abs/2103.11318v1 ) ライセンス: CC BY 4.0 | Daniel Z\"ugner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, Stephan G\"unnemann | (参考訳) ソースコード(Context)とその解析された抽象構文木(AST; Structure)は、同じコンピュータプログラムの2つの補完的な表現である。
伝統的に、機械学習モデルの設計者は、主に構造か文脈に依存してきた。
ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
従来のアプローチとは対照的に,私たちのモデルは,ASTから直接計算可能なソースコードや特徴など,言語に依存しない機能のみを使用する。
本研究は,本研究で検討した5言語すべてに対する単言語コード要約の最先端化に加えて,最初の多言語コード要約モデルを提案する。
複数言語からの並列でないデータの共同トレーニングにより,低リソース言語が最強となる各言語における結果が向上することを示す。
注目すべきなのは、Contextからの多言語トレーニングは、コードでの表現学習において、StructureとContextを組み合わせるメリットを強調しながら、同じ改善につながらないことだ。 Source code (Context) and its parsed abstract syntax tree (AST; Structure) are two complementary representations of the same computer program. Traditionally, designers of machine learning models have relied predominantly either on Structure or Context. We propose a new model, which jointly learns on Context and Structure of source code. In contrast to previous approaches, our model uses only language-agnostic features, i.e., source code and features that can be computed directly from the AST. Besides obtaining state-of-the-art on monolingual code summarization on all five programming languages considered in this work, we propose the first multilingual code summarization model. We show that jointly training on non-parallel data from multiple programming languages improves results on all individual languages, where the strongest gains are on low-resource languages. Remarkably, multilingual training only from Context does not lead to the same improvements, highlighting the benefits of combining Structure and Context for representation learning on code. | 翻訳日:2021-03-25 07:51:55 公開日:2021-03-21 |
# (参考訳) adaptsum: 抽象要約のための低リソースドメイン適応に向けて AdaptSum: Towards Low-Resource Domain Adaptation for Abstractive Summarization ( http://arxiv.org/abs/2103.11332v1 ) ライセンス: CC BY 4.0 | Tiezheng Yu, Zihan Liu, Pascale Fung | (参考訳) 最先端の抽象要約モデルは一般に広範なラベル付きデータに依存しているため、そのようなデータが利用できない領域での一般化能力が低下する。
本稿では,低リソース環境下での6つの対象領域間の抽象的要約タスクに対するドメイン適応について検討する。
具体的には,1)ソースドメイン事前学習,2)ドメイン適応事前学習,3)タスク適応事前学習の3つの異なる設定の下で,大規模生成モデルの事前学習の第2段階について検討する。
実験により,事前学習の有効性は,事前学習データと対象領域タスクの類似度と相関することが示された。
さらに,事前学習の継続は,事前学習モデルの破滅的な忘れ込みにつながる可能性があり,忘れることの少ない学習方法によりこの問題を軽減できることがわかった。
さらに,低リソース設定と高リソース設定の間には,依然として大きなギャップが存在することが示され,抽象的要約タスクに高度なドメイン適応法の必要性が浮き彫りにされる。 State-of-the-art abstractive summarization models generally rely on extensive labeled data, which lowers their generalization ability on domains where such data are not available. In this paper, we present a study of domain adaptation for the abstractive summarization task across six diverse target domains in a low-resource setting. Specifically, we investigate the second phase of pre-training on large-scale generative models under three different settings: 1) source domain pre-training; 2) domain-adaptive pre-training; and 3) task-adaptive pre-training. Experiments show that the effectiveness of pre-training is correlated with the similarity between the pre-training data and the target domain task. Moreover, we find that continuing pre-training could lead to the pre-trained model's catastrophic forgetting, and a learning method with less forgetting can alleviate this issue. Furthermore, results illustrate that a huge gap still exists between the low-resource and high-resource settings, which highlights the need for more advanced domain adaptation methods for the abstractive summarization task. | 翻訳日:2021-03-25 07:28:35 公開日:2021-03-21 |
# (参考訳) 都市スプロール予測のためのGISデータのマイニング Mining GIS Data to Predict Urban Sprawl ( http://arxiv.org/abs/2103.11338v1 ) ライセンス: CC BY-SA 4.0 | Anita Pampoore-Thampi, Aparna S. Varde, Danlin Yu | (参考訳) 本稿では,地理情報システム(GIS)におけるデータ処理と分析の興味深い問題に対処し,都市スプロールの明確な視点を実現する。
都市スプロール」という用語は、自動車依存や住宅と商業の分離といった問題を伴う低密度地域の過密と拡大を指す。
スプロールは環境と公衆衛生に影響を及ぼす。
本研究では,人口増加や人口統計などの都市スプロールに関するGISデータに関連する時空間的特徴を抽出し,意思決定支援の知識を明らかにする。
我々はデータマイニングアルゴリズム、アソシエーションルールマイニングのためのApriori、決定木分類のためのJ4.8、地理空間解析のためのArcGISツールを配置する。
この時空間データマイニングによって発見された知識は、空間決定支援システム(SDSS)のプロトタイプの実装に使用される。
このSDSSは都市スプロールが起こる可能性を予測する。
さらに、関連する変数の値を推定し、変数が相互にどのように影響するかを理解する。
SDSSは、意思決定者が問題を特定し、将来のスプロールの発生を回避し、既にスプロールが発生した都市計画を実施するためのソリューションを作成するのに役立つ。
この作業は、地理空間知能の広い領域に収まり、私たちの将来の作業の一部である複雑な環境でビッグデータを処理するために、大規模なsdsを設計する段階を定めています。 This paper addresses the interesting problem of processing and analyzing data in geographic information systems (GIS) to achieve a clear perspective on urban sprawl. The term urban sprawl refers to overgrowth and expansion of low-density areas with issues such as car dependency and segregation between residential versus commercial use. Sprawl has impacts on the environment and public health. In our work, spatiotemporal features related to real GIS data on urban sprawl such as population growth and demographics are mined to discover knowledge for decision support. We adapt data mining algorithms, Apriori for association rule mining and J4.8 for decision tree classification to geospatial analysis, deploying the ArcGIS tool for mapping. Knowledge discovered by mining this spatiotemporal data is used to implement a prototype spatial decision support system (SDSS). This SDSS predicts whether urban sprawl is likely to occur. Further, it estimates the values of pertinent variables to understand how the variables impact each other. The SDSS can help decision-makers identify problems and create solutions for avoiding future sprawl occurrence and conducting urban planning where sprawl already occurs, thus aiding sustainable development. This work falls in the broad realm of geospatial intelligence and sets the stage for designing a large scale SDSS to process big data in complex environments, which constitutes part of our future work. | 翻訳日:2021-03-25 07:10:30 公開日:2021-03-21 |
# (参考訳) FC層のためのProgressiveSpinalNetアーキテクチャ ProgressiveSpinalNet architecture for FC layers ( http://arxiv.org/abs/2103.11373v1 ) ライセンス: CC BY 4.0 | Praveen Chopra | (参考訳) ディープラーニングモデルでは、FC層は、前の層から学習した特徴に基づいて入力を分類する上で最も重要な役割を持つ。
FC層は高い数のパラメータを持ち、これらの大量のパラメータを微調整し、計算資源の大部分を消費する。
この動機はSpinalNetや他の生物学的アーキテクチャにインスパイアされている。
提案したアーキテクチャは入力層から出力層までの勾配のハイウェイを有しており,ディープネットワークにおける勾配の減少を解消する。
この方法では、すべてのレイヤが以前のレイヤから入力を受け取り、cnnレイヤから出力され、すべてのレイヤが最後のレイヤで意思決定に寄与する。
このアプローチはSpinalNetアーキテクチャ上での分類性能を改善し、Caltech101、KMNIST、QMNIST、EMNISTなどの多くのデータセット上でSOTA性能を持つ。
ソースコードはhttps://github.com/praveenchopra/ProgressiveSpinalNetで入手できる。 In deeplearning models the FC (fully connected) layer has biggest important role for classification of the input based on the learned features from previous layers. The FC layers has highest numbers of parameters and fine-tuning these large numbers of parameters, consumes most of the computational resources, so in this paper it is aimed to reduce these large numbers of parameters significantly with improved performance. The motivation is inspired from SpinalNet and other biological architecture. The proposed architecture has a gradient highway between input to output layers and this solves the problem of diminishing gradient in deep networks. In this all the layers receives the input from previous layers as well as the CNN layer output and this way all layers contribute in decision making with last layer. This approach has improved classification performance over the SpinalNet architecture and has SOTA performance on many datasets such as Caltech101, KMNIST, QMNIST and EMNIST. The source code is available at https://github.com/praveenchopra/ProgressiveSpinalNet. | 翻訳日:2021-03-25 07:01:36 公開日:2021-03-21 |
# (参考訳) maast: 効率的なビジュアルナビゲーションのためのセマンティックトランスフォーマーによるマップアテンション MaAST: Map Attention with Semantic Transformersfor Efficient Visual Navigation ( http://arxiv.org/abs/2103.11374v1 ) ライセンス: CC BY 4.0 | Zachary Seymour, Kowshik Thopalli, Niluthpol Mithun, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar | (参考訳) 自律エージェントのための視覚ナビゲーションは、コンピュータビジョンとロボット工学の分野における中核的なタスクである。
深層強化学習のような学習ベースの手法は、このタスクのために開発された古典的ソリューションよりも優れる可能性があるが、計算負荷は著しく増加する。
本研究では,既存の学習ベースのソリューションよりも優れた,あるいは同等なパフォーマンスを目標とした,明確な時間/計算予算の下での新たなアプローチをデザインする。
そこで本研究では,RGBや深度,セマンティックセグメンテーションマスクなどの生の視覚的ストリームとともに,トラバーサブルパスや未探索領域,観察されたシーンオブジェクトなどの重要なシーンセマンティクスを,意味的に理解されたトップダウンの地図表現にエンコードする手法を提案する。
さらに, この情報を効果的に活用するために, 多層トランスフォーマーネットワークを用いた新しい2次元マップアテンション機構を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
我々は,新たな注意スキーマと助成報酬を用いてシーンセマンティクスをより有効に活用することにより,エージェントの経験を80%減少させながら,生の入力や暗黙のセマンティクス情報のみを訓練した複数のベースラインよりも優れることを示す。 Visual navigation for autonomous agents is a core task in the fields of computer vision and robotics. Learning-based methods, such as deep reinforcement learning, have the potential to outperform the classical solutions developed for this task; however, they come at a significantly increased computational load. Through this work, we design a novel approach that focuses on performing better or comparable to the existing learning-based solutions but under a clear time/computational budget. To this end, we propose a method to encode vital scene semantics such as traversable paths, unexplored areas, and observed scene objects -- alongside raw visual streams such as RGB, depth, and semantic segmentation masks -- into a semantically informed, top-down egocentric map representation. Further, to enable the effective use of this information, we introduce a novel 2-D map attention mechanism, based on the successful multi-layer Transformer networks. We conduct experiments on 3-D reconstructed indoor PointGoal visual navigation and demonstrate the effectiveness of our approach. We show that by using our novel attention schema and auxiliary rewards to better utilize scene semantics, we outperform multiple baselines trained with only raw inputs or implicit semantic information while operating with an 80% decrease in the agent's experience. | 翻訳日:2021-03-25 06:56:58 公開日:2021-03-21 |
# (参考訳) 画像認識のためのマルチレベルメトリック学習 Multi-level Metric Learning for Few-shot Image Recognition ( http://arxiv.org/abs/2103.11383v1 ) ライセンス: CC BY 4.0 | Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen | (参考訳) 少数ショット学習は、少数のサンプルでモデルをトレーニングすることに専念する。
近年,局所ディスクリプタを用いたメトリックラーニング手法が大きな成果を上げている。
これらのアプローチのほとんどは、ピクセルレベルのメトリックに基づいてモデルを学ぶ。
しかし、そのような作品はそれらの間の関係を単一のレベルでしか測定できないため、包括的で効果的ではない。
問合せ画像が3つの異なるレベルの類似度指標で同時に分類できる場合、クラス内の問合せ画像はより小さな特徴空間でより密に分布し、より差別的な特徴マップを生成することができる。
そこで本研究では,画素レベルの類似性だけでなく,部分レベルの特徴の類似性や分布の類似性も考慮した,マルチレベル・メトリック・ラーニング(MML)手法を提案する。
まず,特徴抽出器を用いて画像の特徴マップを取得する。
第2に,部分レベル,画素レベル,分布レベルの類似性を同時に計算するために,マルチレベルメトリックモジュールを提案する。
具体的には、分散レベル類似度メトリックは、クエリ画像とサポートセットと、画素レベルと、部分レベル類似度とをそれぞれ算出し、各画素レベル類似度を算出する。
最後に、融合層は3種類の関係スコアを融合して最終類似点を得る。
一般的なベンチマーク実験により、MML法は現在の最先端手法よりも大幅に優れていることが示された。 Few-shot learning is devoted to training a model on few samples. Recently, the method based on local descriptor metric-learning has achieved great performance. Most of these approaches learn a model based on a pixel-level metric. However, such works can only measure the relations between them on a single level, which is not comprehensive and effective. We argue that if query images can simultaneously be well classified via three distinct level similarity metrics, the query images within a class can be more tightly distributed in a smaller feature space, generating more discriminative feature maps. Motivated by this, we propose a novel Multi-level Metric Learning (MML) method for few-shot learning, which not only calculates the pixel-level similarity but also considers the similarity of part-level features and the similarity of distributions. First, we use a feature extractor to get the feature maps of images. Second, a multi-level metric module is proposed to calculate the part-level, pixel-level, and distribution-level similarities simultaneously. Specifically, the distribution-level similarity metric calculates the distribution distance (i.e., Wasserstein distance, Kullback-Leibler divergence) between query images and the support set, the pixel-level, and the part-level metric calculates the pixel-level and part-level similarities respectively. Finally, the fusion layer fuses three kinds of relation scores to obtain the final similarity score. Extensive experiments on popular benchmarks demonstrate that the MML method significantly outperforms the current state-of-the-art methods. | 翻訳日:2021-03-25 06:36:39 公開日:2021-03-21 |
# (参考訳) 階層表現型クエリ固有プロトタイプネットワークによる少数ショット画像分類 Hierarchical Representation based Query-Specific Prototypical Network for Few-Shot Image Classification ( http://arxiv.org/abs/2103.11384v1 ) ライセンス: CC BY 4.0 | Yaohui Li and Huaxiong Li and Haoxing Chen and Chunlin Chen | (参考訳) 少数ショット画像分類は、少数のラベル付きトレーニングデータで、目に見えないカテゴリを認識することを目的としている。
最近のメトリックベースのフレームワークは、固定されたプロトタイプ(例えば、サポートカテゴリの平均)でサポートクラスを表現し、クエリインスタンスとサポートプロトタイプの類似性に応じて分類する傾向にある。
しかし、差別的な支配地域は画像の不確かさのある領域を見つけ出し、様々なスケールを持つ可能性がある。
さらに、1つのサポートカテゴリの固定されたプロトタイプは、すべてのクエリインスタンスに適合せず、このカテゴリとの距離を正確に反映できないため、メトリックの効率が低下する。
したがって, 高品質な指標として, サポートサンプル中のクエリ固有支配領域を抽出する必要がある。
これらの問題に対処するために,各クエリの領域レベルのプロトタイプを生成し,位置的および次元的セマンティックアライメントを同時に実現する階層的表現に基づくクエリ特化プロトタイプネットワーク(QPN)を提案する。
5つのベンチマークデータセット(3つのきめ細かいデータセットを含む)で実施された大規模な実験により、提案手法が現在の最先端手法よりも優れていることが示された。 Few-shot image classification aims at recognizing unseen categories with a small number of labeled training data. Recent metric-based frameworks tend to represent a support class by a fixed prototype (e.g., the mean of the support category) and make classification according to the similarities between query instances and support prototypes. However, discriminative dominant regions may locate uncertain areas of images and have various scales, which leads to the misaligned metric. Besides, a fixed prototype for one support category cannot fit for all query instances to accurately reflect their distances with this category, which lowers the efficiency of metric. Therefore, query-specific dominant regions in support samples should be extracted for a high-quality metric. To address these problems, we propose a Hierarchical Representation based Query-Specific Prototypical Network (QPN) to tackle the limitations by generating a region-level prototype for each query sample, which achieves both positional and dimensional semantic alignment simultaneously. Extensive experiments conducted on five benchmark datasets (including three fine-grained datasets) show that our proposed method outperforms the current state-of-the-art methods. | 翻訳日:2021-03-25 06:23:42 公開日:2021-03-21 |
# (参考訳) ScanMix: セマンティッククラスタリングと半教師付き学習によるラベルノイズからの学習 ScanMix: Learning from Severe Label Noise via Semantic Clustering and Semi-Supervised Learning ( http://arxiv.org/abs/2103.11395v1 ) ライセンス: CC BY 4.0 | Ragav Sachdeva, Filipe R Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro | (参考訳) 本稿では,重篤なラベル雑音の存在下で深層ニューラルネットワークを訓練する問題に対処する。
提案するトレーニングアルゴリズムであるScanMixは,意味クラスタリングと半教師付き学習(SSL)を組み合わせることで,特徴表現の改善と,重度ラベルノイズシナリオにおいても,ノイズの多いサンプルの正確な識別を可能にする。
具体的には、ScanMixは予測最大化(EM)フレームワークに基づいて設計されており、Eステップは、その外観表現と分類結果に基づいてトレーニングイメージをクラスタリングするために潜伏変数の値を推定し、MステップはSSL分類を最適化し、セマンティッククラスタリングを介して効果的な特徴表現を学ぶ。
本評価では,CIFAR-10とCIFAR-100の対称,非対称,セマンティックなラベルノイズに対する標準ベンチマークおよびWebVisionの大規模実ラベルノイズについて,その現状について述べる。
最も注目すべきは、大きなノイズ率(80%以上)で汚染されたベンチマークの場合、我々の結果は関連する研究よりも最大27%良い。
コードはhttps://github.com/ragavsachdeva/scanmixで入手できる。 In this paper, we address the problem of training deep neural networks in the presence of severe label noise. Our proposed training algorithm ScanMix, combines semantic clustering with semi-supervised learning (SSL) to improve the feature representations and enable an accurate identification of noisy samples, even in severe label noise scenarios. To be specific, ScanMix is designed based on the expectation maximisation (EM) framework, where the E-step estimates the value of a latent variable to cluster the training images based on their appearance representations and classification results, and the M-step optimises the SSL classification and learns effective feature representations via semantic clustering. In our evaluations, we show state-of-the-art results on standard benchmarks for symmetric, asymmetric and semantic label noise on CIFAR-10 and CIFAR-100, as well as large scale real label noise on WebVision. Most notably, for the benchmarks contaminated with large noise rates (80% and above), our results are up to 27% better than the related work. The code is available at https://github.com/ragavsachdeva/ScanMix. | 翻訳日:2021-03-25 06:09:39 公開日:2021-03-21 |
# 単一画像超解像のための新しいパブリックAlsat-2Bデータセット A new public Alsat-2B dataset for single-image super-resolution ( http://arxiv.org/abs/2103.12547v1 ) ライセンス: Link先を確認 | Achraf Djerida, Khelifa Djerriri, Moussa Sofiane Karoui and Mohammed El Amin larabi | (参考訳) 現在、信頼できるトレーニングデータセットが利用可能である場合には、画像超解のための提案されたソリューションをディープラーニングが支配している。
しかし、リモートセンシングベンチマークでは、高解像度画像を得るのは非常に高価である。
スーパーレゾリューションの手法のほとんどはダウンサンプリング技術を使用して、低解像度と高解像度のペアをシミュレートし、トレーニングサンプルを構築する。
そこで,本稿では,高解像度画像(10m,2.5m)と低解像度画像(10m,2.5m)の新規なリモートセンシングデータセット(Alsat2B)を提案する。
パンシャープ化により高分解能画像を得る。
さらに,データセット上での超解像法の性能を,共通基準に基づいて評価する。
その結果,提案手法は有望であり,低分解能パッチと高分解能パッチの関係を把握するための高度な手法の必要性を示すデータセットの課題を浮き彫りにした。 Currently, when reliable training datasets are available, deep learning methods dominate the proposed solutions for image super-resolution. However, for remote sensing benchmarks, it is very expensive to obtain high spatial resolution images. Most of the super-resolution methods use down-sampling techniques to simulate low and high spatial resolution pairs and construct the training samples. To solve this issue, the paper introduces a novel public remote sensing dataset (Alsat2B) of low and high spatial resolution images (10m and 2.5m respectively) for the single-image super-resolution task. The high-resolution images are obtained through pan-sharpening. Besides, the performance of some super-resolution methods on the dataset is assessed based on common criteria. The obtained results reveal that the proposed scheme is promising and highlight the challenges in the dataset which shows the need for advanced methods to grasp the relationship between the low and high-resolution patches. | 翻訳日:2021-03-24 14:00:36 公開日:2021-03-21 |
# 実験データを用いた溶融プール条件-品質関係モデルによるその場品質推定に基づく機械学習 Machine learning based in situ quality estimation by molten pool condition-quality relations modeling using experimental data ( http://arxiv.org/abs/2103.12066v1 ) ライセンス: Link先を確認 | Noopur Jamnikar, Sen Liu, Craig Brice, and Xiaoli Zhang | (参考訳) 機械学習の進歩は、金属添加物製造における新しいプロセスや特性設計の採用を加速する能力をもたらす。
溶融プール形状と溶融プール温度は, ワイヤフィードレーザ直接堆積法における最終部の幾何学的形状と微細構造特性の重要な指標である。
したがって, 溶融プール条件-純度関係はin situの品質保証において予備的に重要である。
ビーズ形状とキャラクタリゼーション特性のin situ品質モニタリングを可能にするためには,Wire-feed Laser Additive Manufacturing (WLAM) システムにおいて,溶融プール寸法と温度のセンサデータの連続監視を行う必要がある。
まず、計測可能な溶融プール画像と温度データから幾何学的形状と微構造特性に直接相関関係を確立する機械学習畳み込みニューラルネットワーク(CNN)モデルを構築した。
マルチモダリティネットワークは、カメラ画像と温度測定の両方を入力として受信し、最終構築部の対応するキャラクタリゼーション特性(例えば、融合ゾーン深さ、アルファラス厚さ)を生成する。
CNNモデルの性能をベースラインとして回帰モデルと比較する。
開発したモデルでは, 量的, 協調的品質推定・保証フレームワークを構築するために, 溶融プール条件品質関係マッピングが可能となる。 The advancement of machine learning promises the ability to accelerate the adoption of new processes and property designs for metal additive manufacturing. The molten pool geometry and molten pool temperature are the significant indicators for the final part's geometric shape and microstructural properties for the Wire-feed laser direct energy deposition process. Thus, the molten pool condition-property relations are of preliminary importance for in situ quality assurance. To enable in situ quality monitoring of bead geometry and characterization properties, we need to continuously monitor the sensor's data for molten pool dimensions and temperature for the Wire-feed laser additive manufacturing (WLAM) system. We first develop a machine learning convolutional neural network (CNN) model for establishing the correlations from the measurable molten pool image and temperature data directly to the geometric shape and microstructural properties. The multi-modality network receives both the camera image and temperature measurement as inputs, yielding the corresponding characterization properties of the final build part (e.g., fusion zone depth, alpha lath thickness). The performance of the CNN model is compared with the regression model as a baseline. The developed models enable molten pool condition-quality relations mapping for building quantitative and collaborative in situ quality estimation and assurance framework. | 翻訳日:2021-03-24 13:44:18 公開日:2021-03-21 |
# (参考訳) Instant-Teaching: 終端から終端までの半教師付きオブジェクト検出フレームワーク Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework ( http://arxiv.org/abs/2103.11402v1 ) ライセンス: CC BY 4.0 | Qiang Zhou, Chaohui Yu, Zhibin Wang, Qi Qian, Hao Li | (参考訳) 教師付き学習に基づくオブジェクト検出フレームワークは、実際のアプリケーションでは実用的でないかもしれない多くの面倒な手動アノテーションを必要とする。
半教師付きオブジェクト検出(SSOD)は、オブジェクト検出モデルの適用において非常に重要なモデル性能を向上させるために、ラベルのないデータを効果的に活用することができる。
本稿では,SSODを再検討し,ほぼエンドツーエンドかつ効果的なSSODフレームワークであるInstant-Teachingを提案する。
さらに,確認バイアス問題を緩和し,疑似アノテーションの品質を向上させるために,Instant-Teaching$^*$と表記されるInstant-Teachingに基づく共修正スキームを提案する。
MS-COCOとPASCALのVOCデータセットに関する大規模な実験は、我々のフレームワークの優位性を裏付けるものである。
具体的には,ラベル付きデータを用いてMS-COCOの4.2mAPを超える手法を提案する。
MS-COCOの完全な教師付き情報であっても,提案手法は現在でも約1.0mAPの最先端手法より優れている。
PASCAL VOCでは,ラベル付きデータとしてVOC07,ラベルなしデータとしてVOC12を適用することで,5mAP以上の改善を実現することができる。 Supervised learning based object detection frameworks demand plenty of laborious manual annotations, which may not be practical in real applications. Semi-supervised object detection (SSOD) can effectively leverage unlabeled data to improve the model performance, which is of great significance for the application of object detection models. In this paper, we revisit SSOD and propose Instant-Teaching, a completely end-to-end and effective SSOD framework, which uses instant pseudo labeling with extended weak-strong data augmentations for teaching during each training iteration. To alleviate the confirmation bias problem and improve the quality of pseudo annotations, we further propose a co-rectify scheme based on Instant-Teaching, denoted as Instant-Teaching$^*$. Extensive experiments on both MS-COCO and PASCAL VOC datasets substantiate the superiority of our framework. Specifically, our method surpasses state-of-the-art methods by 4.2 mAP on MS-COCO when using $2\%$ labeled data. Even with full supervised information of MS-COCO, the proposed method still outperforms state-of-the-art methods by about 1.0 mAP. On PASCAL VOC, we can achieve more than 5 mAP improvement by applying VOC07 as labeled data and VOC12 as unlabeled data. | 翻訳日:2021-03-24 13:32:02 公開日:2021-03-21 |
# (参考訳) 最適輸送を用いた深部分布保存不完全クラスタリング Deep Distribution-preserving Incomplete Clustering with Optimal Transport ( http://arxiv.org/abs/2103.11424v1 ) ライセンス: CC BY 4.0 | Mingjie Luo, Siwei Wang, Xinwang Liu, Wenxuan Tu, Yi Zhang, Xifeng Guo, Sihang Zhou and En Zhu | (参考訳) クラスタリングはコンピュータビジョンと機械学習コミュニティにおける基本的なタスクである。
様々な手法が提案されているが、既存の手法の性能は不完全な高次元データを扱う際に劇的に低下する。
そこで本研究では,ddic-ot(ddic-ot)を用いた深層分布保存型不完全クラスタリング法を提案する。
完全観測サンプルが少ない既存手法では, 試料利用の不十分さを回避するため, 従来の画素単位の損失関数ではなく, 最適輸送量を用いて分布距離を計測することを提案する。
さらに,潜伏特徴のクラスタリング損失を導入し,より識別能力の高い組込みを規則化する。
その結果、不足している機能に対するネットワークの堅牢性が向上し、クラスタリングとサンプルインプテーションを組み合わせた統一フレームワークによって、2つの手続きが相互によりよいサービスを提供するために交渉できるようになる。
大規模実験により,提案ネットワークは,既存の不完全クラスタリング手法に対して,異なる欠落率で優れたクラスタリング性能を向上できることが実証された。 Clustering is a fundamental task in the computer vision and machine learning community. Although various methods have been proposed, the performance of existing approaches drops dramatically when handling incomplete high-dimensional data (which is common in real world applications). To solve the problem, we propose a novel deep incomplete clustering method, named Deep Distribution-preserving Incomplete Clustering with Optimal Transport (DDIC-OT). To avoid insufficient sample utilization in existing methods limited by few fully-observed samples, we propose to measure distribution distance with the optimal transport for reconstruction evaluation instead of traditional pixel-wise loss function. Moreover, the clustering loss of the latent feature is introduced to regularize the embedding with more discrimination capability. As a consequence, the network becomes more robust against missing features and the unified framework which combines clustering and sample imputation enables the two procedures to negotiate to better serve for each other. Extensive experiments demonstrate that the proposed network achieves superior and stable clustering performance improvement against existing state-of-the-art incomplete clustering methods over different missing ratios. | 翻訳日:2021-03-24 13:11:59 公開日:2021-03-21 |
# (参考訳) SEMIE: ドメイン特異的スモールコーパスの解釈性を高めたSEMantically infusiond Embeddings SEMIE: SEMantically Infused Embeddings with Enhanced Interpretability for Domain-specific Small Corpus ( http://arxiv.org/abs/2103.11431v1 ) ライセンス: CC BY-SA 4.0 | Rishabh Gupta and Rajesh N Rao | (参考訳) ワード埋め込みは、現代のNLPパイプラインの基本的な構成要素である。
パブリックドメインで利用可能な大規模なジェネリックデータセットに対して、リッチで効率的で解釈可能な組込みを学ぶための努力がなされている。
しかし、これらの埋め込みは、自動車、製造、メンテナンス、サポートなど特定の分野の小さなコーパスに適用性に制限がある。
本研究では,単語埋め込みの包括的解釈可能性の概念を提示し,ドメイン固有小コーパスに対して高い解釈性と効率的な埋め込みを生成する手法を提案する。
本報告では,単語埋め込みの評価結果を報告するとともに,解釈可能性向上のための新しい特徴を示す。 Word embeddings are a basic building block of modern NLP pipelines. Efforts have been made to learn rich, efficient, and interpretable embeddings for large generic datasets available in the public domain. However, these embeddings have limited applicability for small corpora from specific domains such as automotive, manufacturing, maintenance and support, etc. In this work, we present a comprehensive notion of interpretability for word embeddings and propose a novel method to generate highly interpretable and efficient embeddings for a domain-specific small corpus. We report the evaluation results of our resulting word embeddings and demonstrate their novel features for enhanced interpretability. | 翻訳日:2021-03-24 12:47:42 公開日:2021-03-21 |
# (参考訳) レスポンシブルAI:感情認識におけるジェンダーバイアスアセスメント Responsible AI: Gender bias assessment in emotion recognition ( http://arxiv.org/abs/2103.11436v1 ) ライセンス: CC BY 4.0 | Artem Domnich and Gholamreza Anbarjafari | (参考訳) 人工知能(AI)システムの急速な発展は、社会における多くの懸念を増幅する。
これらのaiアルゴリズムは、神秘的な運用フローと、使用方法の悪さのために、人間から異なるバイアスを継承している。
その結果、研究者はResponsible and Explainable AIの方向性を深く調査し、この問題に対処し始めた。
AIの様々な応用の中で、表情認識が最も重要ではないかもしれないが、人間とAIの相互作用の貴重な部分と見なされている。
特徴に基づく手法からの表情認識の進化は、そのようなアルゴリズムの品質を大幅に向上させる。
本研究は,6つの異なるニューラルネットワークを探索し,それらを訓練することにより,表情認識のための深層学習手法における性別バイアスを研究することを目的とする。
主な結果は、どのモデルが性別バイアスであり、どのモデルではないか、そして、被験者の性別が感情認識にどのように影響するかを示す。
より偏りのあるニューラルネットワークは、男性と女性のテストセット間の感情認識において、より大きな精度のギャップを示す。
さらに、この傾向は真の陽性率と偽陽性率を維持している。
また,研究の性質から,男性と女性とではどの感情がよく分類されているかが観察できる。
表情認識におけるバイアスの話題はよく研究されていないため、この研究の継続スペクトルは真に広く、最先端の手法の詳細な分析と、他のバイアスをターゲットにしている可能性がある。 Rapid development of artificial intelligence (AI) systems amplify many concerns in society. These AI algorithms inherit different biases from humans due to mysterious operational flow and because of that it is becoming adverse in usage. As a result, researchers have started to address the issue by investigating deeper in the direction towards Responsible and Explainable AI. Among variety of applications of AI, facial expression recognition might not be the most important one, yet is considered as a valuable part of human-AI interaction. Evolution of facial expression recognition from the feature based methods to deep learning drastically improve quality of such algorithms. This research work aims to study a gender bias in deep learning methods for facial expression recognition by investigating six distinct neural networks, training them, and further analysed on the presence of bias, according to the three definition of fairness. The main outcomes show which models are gender biased, which are not and how gender of subject affects its emotion recognition. More biased neural networks show bigger accuracy gap in emotion recognition between male and female test sets. Furthermore, this trend keeps for true positive and false positive rates. In addition, due to the nature of the research, we can observe which types of emotions are better classified for men and which for women. Since the topic of biases in facial expression recognition is not well studied, a spectrum of continuation of this research is truly extensive, and may comprise detail analysis of state-of-the-art methods, as well as targeting other biases. | 翻訳日:2021-03-24 12:35:00 公開日:2021-03-21 |
# (参考訳) TextFlint:自然言語処理のための統一多言語ロバスト性評価ツールキット TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing ( http://arxiv.org/abs/2103.11441v1 ) ライセンス: CC BY 4.0 | Tao Gui, Xiao Wang, Qi Zhang, Qin Liu, Yicheng Zou, Xin Zhou, Rui Zheng, Chong Zhang, Qinzhuo Wu, Jiacheng Ye, Zexiong Pang, Yongxin Zhang, Zhengyan Li, Ruotian Ma, Zichu Fei, Ruijian Cai, Jun Zhao, Xinwu Hu, Zhiheng Yan, Yiding Tan, Yuan Hu, Qiyuan Bian, Zhihua Liu, Bolin Zhu, Shan Qin, Xiaoyu Xing, Jinlan Fu, Yue Zhang, Minlong Peng, Xiaoqing Zheng, Yaqian Zhou, Zhongyu Wei, Xipeng Qiu and Xuanjing Huang | (参考訳) 自然言語処理(NLP)タスクに対して,様々な観点から頑健性評価手法が提案されている。
これらの手法はしばしば普遍的あるいはタスク固有の一般化機能に焦点を合わせてきた。
本研究では, 汎用テキスト変換, タスク固有の変換, 対人攻撃, サブポピュレーション, およびそれらの組み合わせを組み込んだ, NLP タスクのための多言語頑健性評価プラットフォーム (TextFlint) を提案する。
TextFlintを使えば、実践者はすべての側面からモデルを自動的に評価したり、ほんの数行のコードで必要に応じて評価をカスタマイズできる。
ユーザのアクセシビリティを保証するために、すべてのテキスト変換は言語ベースであり、それぞれに人間による評価を提供する。
TextFlintは、モデルが堅牢であることの欠点に対処するために、完全な分析レポートとターゲットの強化データを生成する。
TextFlintの実用性を検証するため,最先端のディープラーニングモデル,古典的教師付き手法,実世界のシステムについて,大規模な経験的評価(67,000以上の評価)を行った。
ほぼ全てのモデルは、アスペクトレベルの感情分類、名前付きエンティティ認識、自然言語推論といったタスクにおけるBERTの予測精度の50%以上を低下させるなど、大幅な性能低下を示した。
そこで我々は,NLP技術の健全な開発を促進するため,モデル評価にロバスト性を含めるよう求めている。 Various robustness evaluation methodologies from different perspectives have been proposed for different natural language processing (NLP) tasks. These methods have often focused on either universal or task-specific generalization capabilities. In this work, we propose a multilingual robustness evaluation platform for NLP tasks (TextFlint) that incorporates universal text transformation, task-specific transformation, adversarial attack, subpopulation, and their combinations to provide comprehensive robustness analysis. TextFlint enables practitioners to automatically evaluate their models from all aspects or to customize their evaluations as desired with just a few lines of code. To guarantee user acceptability, all the text transformations are linguistically based, and we provide a human evaluation for each one. TextFlint generates complete analytical reports as well as targeted augmented data to address the shortcomings of the model's robustness. To validate TextFlint's utility, we performed large-scale empirical evaluations (over 67,000 evaluations) on state-of-the-art deep learning models, classic supervised methods, and real-world systems. Almost all models showed significant performance degradation, including a decline of more than 50% of BERT's prediction accuracy on tasks such as aspect-level sentiment classification, named entity recognition, and natural language inference. Therefore, we call for the robustness to be included in the model evaluation, so as to promote the healthy development of NLP technology. | 翻訳日:2021-03-24 11:34:14 公開日:2021-03-21 |
# (参考訳) セルレスC-RANシステムにおける集合論的学習 Set-Theoretic Learning for Detection in Cell-Less C-RAN Systems ( http://arxiv.org/abs/2103.11456v1 ) ライセンス: CC BY 4.0 | Daniyal Amir Awan, Renato L.G. Cavalcante, Zoran Utkovski, Slawomir Stanczak | (参考訳) クラウドラジオアクセスネットワーク(C-RAN)は、フロントホールリンクを介して分散リモート無線ヘッド(RRH)を強力な中央ユニットに接続することで、セルレス操作を可能にする。
従来のC-RANでは、RRHの複雑さを低く抑えるために、ベースバンド信号は量子化/圧縮後に中央ユニットに転送される。
しかし、フロントホールの限られた容量は、C-RANが大規模システム(例えば)をサポートする能力において重大なボトルネックであると考えられている。
大規模な機械型通信(mMTC)。
そこで,従来のC-RANとは対照的に,各RRHで局所的に検出を行い,その可能性情報のみをCUに伝達する学習ベースシステムを提案する。
そこで我々は,確率関数を推定する一般集合論学習手法を開発した。
この方法は既存の検出方法をC-RAN設定に拡張するために使用できる。 Cloud-radio access network (C-RAN) can enable cell-less operation by connecting distributed remote radio heads (RRHs) via fronthaul links to a powerful central unit. In conventional C-RAN, baseband signals are forwarded after quantization/ compression to the central unit for centralized processing to keep the complexity of the RRHs low. However, the limited capacity of the fronthaul is thought to be a significant bottleneck in the ability of C-RAN to support large systems (e.g. massive machine-type communications (mMTC)). Therefore, in contrast to the conventional C-RAN, we propose a learning-based system in which the detection is performed locally at each RRH and only the likelihood information is conveyed to the CU. To this end, we develop a general set-theoretic learningmethod to estimate likelihood functions. The method can be used to extend existing detection methods to the C-RAN setting. | 翻訳日:2021-03-24 10:48:33 公開日:2021-03-21 |
# (参考訳) ゴールデンサインアルゴリズムを用いた支援ベクトル回帰パラメータ最適化とその株式市場への応用 Support Vector Regression Parameters Optimization using Golden Sine Algorithm and its application in stock market ( http://arxiv.org/abs/2103.11459v1 ) ライセンス: CC BY 4.0 | Mohammadreza Ghanbari, Mahdi Goldani | (参考訳) サポートベクトルマシンモデリングは、小さなサンプルと高次元の予測問題において優れた性能を示す機械学習の新しい手法である。
その後、回帰問題に対してSVR(Support Vector Regression)に昇格した。
信頼性を達成するための大きな課題は、適切なパラメータの選択です。
ここではパラメータの適切な選択のために,Golden sineアルゴリズム(GSA)に基づくSVRを提案する。
比較のために,提案アルゴリズムの性能は,Mean Squared Error と Mean Absolute Percent Error に基づく Yahoo Finance ウェブサイトの技術的企業の歴史的株価に関する他の11のメタヒューリスティックアルゴリズムと比較した。
その結果、与えられたアルゴリズムはパラメータのチューニングに効率的であり、精度と計算時間という点で競合していることがわかった。 Support vector machine modeling is a new approach in machine learning for classification showing good performance on forecasting problems of small samples and high dimensions. Later, it promoted to Support Vector Regression (SVR) for regression problems. A big challenge for achieving reliable is the choice of appropriate parameters. Here, a novel Golden sine algorithm (GSA) based SVR is proposed for proper selection of the parameters. For comparison, the performance of the proposed algorithm is compared with eleven other meta-heuristic algorithms on some historical stock prices of technological companies from Yahoo Finance website based on Mean Squared Error and Mean Absolute Percent Error. The results demonstrate that the given algorithm is efficient for tuning the parameters and is indeed competitive in terms of accuracy and computing time. | 翻訳日:2021-03-24 10:35:10 公開日:2021-03-21 |
# (参考訳) 移動カメラからの物体検出のためのUAV画像データセット UAV Images Dataset for Moving Object Detection from Moving Cameras ( http://arxiv.org/abs/2103.11460v1 ) ライセンス: CC BY 4.0 | Ibrahim Delibasoglu | (参考訳) 本稿では,移動物体を手動でラベル付けする高解像度空中画像データセットを提案する。
移動カメラの移動物体検出手法の評価に寄与することを目的としている。
物体を空中画像から認識する問題は、コンピュータビジョンにおいて重要な問題の一つである。
UAVが撮影した画像の最大の問題は、背景がカメラの動きによって常に変化することだ。
文献には様々なデータセットがあり, 動き検出のための提案手法が評価されている。
準備されたデータセットは、他のデータセットと比較して小さなターゲットを含む挑戦的なイメージで構成されている。
用意されたデータセットに対して,文献中の2つの方法がテストされている。
また, 対象オブジェクトの移動に関して, これらの手法と比較してより簡単な方法が提案されている。 This paper presents a new high resolution aerial images dataset in which moving objects are labelled manually. It aims to contribute to the evaluation of the moving object detection methods for moving cameras. The problem of recognizing moving objects from aerial images is one of the important issues in computer vision. The biggest problem in the images taken by UAV is that the background is constantly variable due to camera movement. There are various datasets in the literature in which proposed methods for motion detection are evaluated. Prepared dataset consists of challenging images containing small targets compared to other datasets. Two methods in the literature have been tested for the prepared dataset. In addition, a simpler method compared to these methods has been proposed for moving object object in this paper. | 翻訳日:2021-03-24 10:16:49 公開日:2021-03-21 |
# (参考訳) 小さなサンプルセットによるロバストなセル負荷学習 Robust Cell-Load Learning with a Small Sample Set ( http://arxiv.org/abs/2103.11467v1 ) ライセンス: CC BY 4.0 | Daniyal Amir Awan, Renato L.G. Cavalcante, Slawomir Stanczak | (参考訳) 無線アクセスネットワーク(RAN)におけるセルローディングの学習は,短時間で行う必要がある。
そこで本研究では,比較的小さな学習サンプルセットに基づく学習の必要性から生じる不確実性に対して頑健な学習フレームワークを提案する。
この目的のために,我々は学習フレームワークにセル負荷に関する事前知識を取り入れた。
例えば、細胞負荷の固有の性質は、ダウンリンク(データ)レートにおいて単調であることである。
付加的な事前知識を得るために、我々はまず、実現可能なレート領域、すなわちネットワークで支持できる全てのユーザ率のベクトルの集合について研究する。
実現可能なレート領域がコンパクトであることを証明する。
さらに,実現可能な速度ベクトルをセル負荷ベクトルにマッピングするリプシッツ関数の存在を示す。
これらの結果から,事前知識と小規模な学習サンプルを用いて,最悪のシナリオにおける最小近似誤差を保証できる学習手法を提案する。
ネットワークシミュレータns3におけるシミュレーションにより,本手法は従来の多変量学習手法よりも頑健性と精度が向上することが示された。 Learning of the cell-load in radio access networks (RANs) has to be performed within a short time period. Therefore, we propose a learning framework that is robust against uncertainties resulting from the need for learning based on a relatively small training sample set. To this end, we incorporate prior knowledge about the cell-load in the learning framework. For example, an inherent property of the cell-load is that it is monotonic in downlink (data) rates. To obtain additional prior knowledge we first study the feasible rate region, i.e., the set of all vectors of user rates that can be supported by the network. We prove that the feasible rate region is compact. Moreover, we show the existence of a Lipschitz function that maps feasible rate vectors to cell-load vectors. With these results in hand, we present a learning technique that guarantees a minimum approximation error in the worst-case scenario by using prior knowledge and a small training sample set. Simulations in the network simulator NS3 demonstrate that the proposed method exhibits better robustness and accuracy than standard multivariate learning techniques, especially for small training sample sets. | 翻訳日:2021-03-24 10:09:19 公開日:2021-03-21 |
# (参考訳) トランスフォーマによる多場面の絶対ポーズ回帰学習 Learning Multi-Scene Absolute Pose Regression with Transformers ( http://arxiv.org/abs/2103.11468v1 ) ライセンス: CC0 1.0 | Yoli Shavit, Ron Ferens, Yosi Keller | (参考訳) 絶対的なカメラポーズは、キャプチャされた画像のみからカメラの位置と向きを推定する。
通常、多層パーセプトロンヘッドを持つ畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
近年,MLPヘッドを全接続層に置き換えることで,複数のシーンを学習するための手法が拡張されている。
本研究では,トランスフォーマーを用いてマルチシーンの絶対カメラポーズ回帰を学習し,エンコーダを用いてアクティベーションマップを自己アテンションで集約し,デコーダは潜在特徴やシーンを候補ポーズ予測に変換する。
この機構により,複数のシーンを並列に埋め込みながら,局所化に有用な一般的な特徴に集中することができる。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
ここからコードを公開しています。 Absolute camera pose regressors estimate the position and orientation of a camera from the captured image alone. Typically, a convolutional backbone with a multi-layer perceptron head is trained with images and pose labels to embed a single reference scene at a time. Recently, this scheme was extended for learning multiple scenes by replacing the MLP head with a set of fully connected layers. In this work, we propose to learn multi-scene absolute camera pose regression with Transformers, where encoders are used to aggregate activation maps with self-attention and decoders transform latent features and scenes encoding into candidate pose predictions. This mechanism allows our model to focus on general features that are informative for localization while embedding multiple scenes in parallel. We evaluate our method on commonly benchmarked indoor and outdoor datasets and show that it surpasses both multi-scene and state-of-the-art single-scene absolute pose regressors. We make our code publicly available from here. | 翻訳日:2021-03-24 09:30:40 公開日:2021-03-21 |
# (参考訳) 軌道シミュレーションにおける速度制御のための条件生成逆ネットワーク Conditional Generative Adversarial Networks for Speed Control in Trajectory Simulation ( http://arxiv.org/abs/2103.11471v1 ) ライセンス: CC BY 4.0 | Sahib Julka, Vishal Sowrirajan, Joerg Schloetterer, Michael Granitzer | (参考訳) 行動行動は、近隣のエージェントの目標、存在、行動、社会的関係、身体的および社会的規範、その変動特性を持つ環境など、いくつかの要因によって引き起こされる。
ほとんどの要素は直接観測可能ではなく、文脈からモデル化する必要がある。
軌道予測は難しい問題であり、近年は研究者の注目を集めている。
動きの予測は、応用において、現実的で、多様で、制御可能でなければならない。
マルチモーダルな軌道生成に注目が集まる一方で、ほとんどの手法にはデータ生成の異なるモードを明示的に制御する手段がない。
さらに、ほとんどの試みは、潜在空間における相互作用を学ぶための特別なメカニズムの設計に多大な投資をしている。
本研究では,ユーザ制御速度に基づいて,多様かつ社会的に許容されるトラジェクトリを制御可能なコンディショナル・スピード・ガン(CSG)を提案する。
予測中、csgは潜在空間からの将来の速度とそれに基づく状態を予測する。
CSGは、ベンチマーク距離の指標として最先端のGAN手法に匹敵するが、高速または遅いペースト環境などの異なる状況におけるシミュレーションやデータ拡張には単純で有用である。
さらに, 異なる凝集機構の効果を比較し, 結合のナイーブなアプローチが, その注意とプールの代替手段に匹敵することを示した。 Motion behaviour is driven by several factors -- goals, presence and actions of neighbouring agents, social relations, physical and social norms, the environment with its variable characteristics, and further. Most factors are not directly observable and must be modelled from context. Trajectory prediction, is thus a hard problem, and has seen increasing attention from researchers in the recent years. Prediction of motion, in application, must be realistic, diverse and controllable. In spite of increasing focus on multimodal trajectory generation, most methods still lack means for explicitly controlling different modes of the data generation. Further, most endeavours invest heavily in designing special mechanisms to learn the interactions in latent space. We present Conditional Speed GAN (CSG), that allows controlled generation of diverse and socially acceptable trajectories, based on user controlled speed. During prediction, CSG forecasts future speed from latent space and conditions its generation based on it. CSG is comparable to state-of-the-art GAN methods in terms of the benchmark distance metrics, while being simple and useful for simulation and data augmentation for different contexts such as fast or slow paced environments. Additionally, we compare the effect of different aggregation mechanisms and show that a naive approach of concatenation works comparable to its attention and pooling alternatives. | 翻訳日:2021-03-24 09:14:27 公開日:2021-03-21 |
# (参考訳) カメラポーズ回帰におけるアクティベーションマップへの注意 Paying Attention to Activation Maps in Camera Pose Regression ( http://arxiv.org/abs/2103.11477v1 ) ライセンス: CC0 1.0 | Yoli Shavit, Ron Ferens, Yosi Keller | (参考訳) カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
そのため、画像検索に基づく従来のローカライズ方式に代わる、高速で軽量な代替手段を提供する。
2つの回帰タスクを同時に学習し、畳み込みバックボーンによって計算される1つの埋め込みベクトルを用いて、カメラの位置と向きを共同で推定する。
本稿では,アクティベーションマップを逐次入力として用いる,ポーズ回帰に対する注意に基づくアプローチを提案する。
逐次アクティベーションマップを潜在ベクトルとしてエンコードするためにトランスフォーマーが適用され、カメラポーズの回帰に使用される。
これにより、空間的に変化する深い特徴に注意を払うことができます。
2つのトランスフォーマヘッドを使用して,タスク毎のインフォメーションに基づいて,カメラの位置と向きの機能を別々に注目する。
提案手法は,現代のポーズレグレッシブ・スキームと比較し,屋外と屋内の複数のベンチマークにおいて最先端の精度を実現する。
特に、私たちの知る限りでは、屋外のシーンにおいて、メートル未満の平均精度を達成する唯一の方法です。
ここからコードを公開しています。 Camera pose regression methods apply a single forward pass to the query image to estimate the camera pose. As such, they offer a fast and light-weight alternative to traditional localization schemes based on image retrieval. Pose regression approaches simultaneously learn two regression tasks, aiming to jointly estimate the camera position and orientation using a single embedding vector computed by a convolutional backbone. We propose an attention-based approach for pose regression, where the convolutional activation maps are used as sequential inputs. Transformers are applied to encode the sequential activation maps as latent vectors, used for camera pose regression. This allows us to pay attention to spatially-varying deep features. Using two Transformer heads, we separately focus on the features for camera position and orientation, based on how informative they are per task. Our proposed approach is shown to compare favorably to contemporary pose regressors schemes and achieves state-of-the-art accuracy across multiple outdoor and indoor benchmarks. In particular, to the best of our knowledge, our approach is the only method to attain sub-meter average accuracy across outdoor scenes. We make our code publicly available from here. | 翻訳日:2021-03-24 08:57:57 公開日:2021-03-21 |
# (参考訳) 強化学習と実証による産業会議のロバストなマルチモーダル政策--大規模研究 Robust Multi-Modal Policies for Industrial Assembly via Reinforcement Learning and Demonstrations: A Large-Scale Study ( http://arxiv.org/abs/2103.11512v1 ) ライセンス: CC BY 4.0 | Jianlan Luo, Oleg Sushkov, Rugile Pevceviciute, Wenzhao Lian, Chang Su, Mel Vecerik, Ning Ye, Stefan Schaal, Jon Scholz | (参考訳) 過去数年間、産業集合体への学習に基づくアプローチにかなりの研究投資がなされてきたが、大きな進歩にもかかわらず、これらの技術はまだ産業に採用されていない。
我々は、アルゴリズムの制約である$\textit{per se}$ではなく、Deep Reinforcement Learning(DRL)の禁止された大きなデザインスペースであると主張している。
これらのテクニックを産業の主流に押し込むには、学術的な考え方と大きく異なる産業指向のパラダイムが必要です。
本稿では,産業指向drlの基準を定義し,これら1つの学習手法であるdrlを,最近確立したnistアセンブリベンチマークにおいて,プロの産業インテグレータに対して徹底的に比較する。
設計の選択肢を説明し、数年にわたる調査を表現し、drlシステムは、速度と信頼性の両面で、インテグレータベースラインを一貫して上回ることを可能にしました。
最後に、DRLシステムと人間との競合を、ランダムに動くターゲットに挿入するチャレンジタスクで結論付ける。
この研究は、DRLが確立された技術アプローチだけでなく、人間のモーターシステムにも優れており、改善の余地が依然として大きいことを示唆している。
ビデオはプロジェクトのWebサイトで見ることができる。 Over the past several years there has been a considerable research investment into learning-based approaches to industrial assembly, but despite significant progress these techniques have yet to be adopted by industry. We argue that it is the prohibitively large design space for Deep Reinforcement Learning (DRL), rather than algorithmic limitations $\textit{per se}$, that are truly responsible for this lack of adoption. Pushing these techniques into the industrial mainstream requires an industry-oriented paradigm which differs significantly from the academic mindset. In this paper we define criteria for industry-oriented DRL, and perform a thorough comparison according to these criteria of one family of learning approaches, DRL from demonstration, against a professional industrial integrator on the recently established NIST assembly benchmark. We explain the design choices, representing several years of investigation, which enabled our DRL system to consistently outperform the integrator baseline in terms of both speed and reliability. Finally, we conclude with a competition between our DRL system and a human on a challenge task of insertion into a randomly moving target. This study suggests that DRL is capable of outperforming not only established engineered approaches, but the human motor system as well, and that there remains significant room for improvement. Videos can be found on our project website: https://sites.google.com/view/shield-nist. | 翻訳日:2021-03-24 08:41:51 公開日:2021-03-21 |
# (参考訳) Dual Monte Carlo Tree Search Dual Monte Carlo Tree Search ( http://arxiv.org/abs/2103.11517v1 ) ライセンス: CC BY 4.0 | Prashank Kadam, Ruiyang Xu, Karl Lieberherr | (参考訳) AlphaZeroはDeep Neural NetworksとMonte Carlo Tree Search(MCTS)を組み合わせて、タブラララサ方式で強化学習エージェントのトレーニングに成功した。
ニューラルMCTSアルゴリズムは、セルフプレイによるゲームの準最適戦略の発見に成功している。
しかし、alphazeroアルゴリズムは、チェス、go、shogiなどのゲームを解くために複雑なニューラルネットワークのため、収束するのに長い時間がかかり、高い計算能力を必要とするという大きな欠点がある。
このため、最先端のハードウェアを使わずに神経MCTSの研究を追求することは極めて困難であり、多くの神経MCTS研究者にとって障害となる。
本稿では,これらの欠点を克服するための新しいニューラルmctsアルゴリズム,dual mctsを提案する。
dual mctsは2つの異なる探索木、1つのディープニューラルネットワーク、pucb、スライディングウィンドウ、epsilon-greedyアルゴリズムを組み合わせた新しい探索木のアップデート技術を使用している。
この手法は任意のmctsベースのアルゴリズムに適用でき、木への更新回数を減らすことができる。
我々はDual MCTSが、様々な対称ゲームや非対称ゲームにおいて最も広く使われているニューラルMCTSアルゴリズムであるAlphaZeroよりも優れていることを示す。 AlphaZero, using a combination of Deep Neural Networks and Monte Carlo Tree Search (MCTS), has successfully trained reinforcement learning agents in a tabula-rasa way. The neural MCTS algorithm has been successful in finding near-optimal strategies for games through self-play. However, the AlphaZero algorithm has a significant drawback; it takes a long time to converge and requires high computational power due to complex neural networks for solving games like Chess, Go, Shogi, etc. Owing to this, it is very difficult to pursue neural MCTS research without cutting-edge hardware, which is a roadblock for many aspiring neural MCTS researchers. In this paper, we propose a new neural MCTS algorithm, called Dual MCTS, which helps overcome these drawbacks. Dual MCTS uses two different search trees, a single deep neural network, and a new update technique for the search trees using a combination of the PUCB, a sliding-window, and the epsilon-greedy algorithm. This technique is applicable to any MCTS based algorithm to reduce the number of updates to the tree. We show that Dual MCTS performs better than one of the most widely used neural MCTS algorithms, AlphaZero, for various symmetric and asymmetric games. | 翻訳日:2021-03-24 08:24:35 公開日:2021-03-21 |
# (参考訳) 条件付きフレシェット開始距離 Conditional Frechet Inception Distance ( http://arxiv.org/abs/2103.11521v1 ) ライセンス: CC BY-SA 4.0 | Michael Soloveitchik, Tzvi Diskin, Efrat Morin and Ami Wiesel | (参考訳) 条件分布関数間の距離関数を考える。
本稿では,Frechet Inception Distance(FID)として知られるワッサーシュタイン計量とそのガウス的ケースに着目し,これらの指標の条件付きバージョンを開発し,それらの関係を解析する。
そして,条件付き生成モデルの性能評価の文脈におけるメトリクスを数値的に比較する。
この結果は, 条件崩壊の影響を受けにくい古典的モデルに類似していることを示す。
しかし、インプットとアウトプットの関係を学習する現代の非視覚的、半教師的、未ペアモデルでは、条件距離の方がより有益である。 We consider distance functions between conditional distributions functions. We focus on the Wasserstein metric and its Gaussian case known as the Frechet Inception Distance (FID).We develop conditional versions of these metrics, and analyze their relations. Then, we numerically compare the metrics inthe context of performance evaluation of conditional generative models. Our results show that the metrics are similar in classical models which are less susceptible to conditional collapse. But the conditional distances are more informative in modern unsuper-vised, semisupervised and unpaired models where learning the relations between the inputs and outputs is the main challenge. | 翻訳日:2021-03-24 08:08:59 公開日:2021-03-21 |
# モデル選択、理解、解釈を改善するためのバランス平均精度としての深いROC分析とAUC Deep ROC Analysis and AUC as Balanced Average Accuracy to Improve Model Selection, Understanding and Interpretation ( http://arxiv.org/abs/2103.11357v1 ) ライセンス: Link先を確認 | Andr\'e M. Carrington, Douglas G. Manuel, Paul W. Fieguth, Tim Ramsay, Venet Osmani, Bernhard Wernly, Carol Bennett, Steven Hawken, Matthew McInnes, Olivia Magwood, Yusuf Sheikh, Andreas Holzinger | (参考訳) 医療から自律運転までの意思決定作業には最適なパフォーマンスが不可欠だが、一般的なパフォーマンス対策は多すぎるか、具体的すぎる可能性がある。
二分分類器では、診断検査や時点の予後は、受信者の動作特性曲線の下の領域や精密リコール曲線の領域といった指標は、非現実的な決定しきい値を含むため、あまりにも一般的である。
一方、精度、感度、F1スコアなどの尺度は、個人またはリスクの範囲ではなく、個々の単一確率または予測リスクを反映する単一のしきい値における尺度である。
本研究では,より洞察に富んだ解析を行うために,確率群や予測リスク群を調べる手法を提案する。
AUCと正規化部分AUCは平均精度(新たな発見)、正規化部分AUCは平均感度、正規化水平部分AUCは平均特異性である。
検査後対策とともに,各リスクグループの患者に対して,モデル選択を改善し,解釈と保証を行う方法を提案する。
2つのケーススタディで深いROC分析を示し、Pythonでツールキットを提供する。 Optimal performance is critical for decision-making tasks from medicine to autonomous driving, however common performance measures may be too general or too specific. For binary classifiers, diagnostic tests or prognosis at a timepoint, measures such as the area under the receiver operating characteristic curve, or the area under the precision recall curve, are too general because they include unrealistic decision thresholds. On the other hand, measures such as accuracy, sensitivity or the F1 score are measures at a single threshold that reflect an individual single probability or predicted risk, rather than a range of individuals or risk. We propose a method in between, deep ROC analysis, that examines groups of probabilities or predicted risks for more insightful analysis. We translate esoteric measures into familiar terms: AUC and the normalized concordant partial AUC are balanced average accuracy (a new finding); the normalized partial AUC is average sensitivity; and the normalized horizontal partial AUC is average specificity. Along with post-test measures, we provide a method that can improve model selection in some cases and provide interpretation and assurance for patients in each risk group. We demonstrate deep ROC analysis in two case studies and provide a toolkit in Python. | 翻訳日:2021-03-23 15:05:31 公開日:2021-03-21 |
# 非IIDカテゴリーデータにおけるホモフィリ・アウトリア検出 Homophily Outlier Detection in Non-IID Categorical Data ( http://arxiv.org/abs/2103.11516v1 ) ライセンス: Link先を確認 | Guansong Pang, Longbing Cao, Ling Chen | (参考訳) 既存の外れ値検出手法のほとんどは、データエンティティ(例えば、特徴値とデータオブジェクト)の外れ値(外れ値スコア尺度)が独立で、同一に分散している(iid)と仮定している。
この仮定は、異なる実体の外れ値が互いに依存したり、異なる確率分布(非IID)から取られたりする実世界の応用には当てはまらない。
これは、非IIDの性質を考慮せずには識別できない重要な外れ値の検出に失敗する可能性がある。
この問題は、例えば多くのノイズのある特徴を持つ高次元データなど、より困難な状況においてさらに強化されている。
本研究は,非IID外乱因子を捕捉することにより,カテゴリデータ中の外乱を識別する新しい外乱検出フレームワークとその2つのインスタンスを導入する。
提案手法はまず,分布に敏感な外部要因とその相互依存性を値値グラフに基づく表現に定義し,組み込む。
次に、値グラフ内の外れ値伝播プロセスをモデル化し、特徴値の外れ値を学ぶ。
学習した値の外れ度は、直接の外れ値検出または特徴選択の除外を可能にする。
グラフ表現とマイニングのアプローチは、豊富な非iid特性をうまく捉えるために使われる。
異なるデータ複雑度を持つ15の実世界のデータセットにおける実験結果から,提案手法は,95%/99%の信頼度で5つの最先端手法を著しく上回り,最も複雑な10のデータセットにおいて10%-28%のauc改善を達成していることがわかった。 Most of existing outlier detection methods assume that the outlier factors (i.e., outlierness scoring measures) of data entities (e.g., feature values and data objects) are Independent and Identically Distributed (IID). This assumption does not hold in real-world applications where the outlierness of different entities is dependent on each other and/or taken from different probability distributions (non-IID). This may lead to the failure of detecting important outliers that are too subtle to be identified without considering the non-IID nature. The issue is even intensified in more challenging contexts, e.g., high-dimensional data with many noisy features. This work introduces a novel outlier detection framework and its two instances to identify outliers in categorical data by capturing non-IID outlier factors. Our approach first defines and incorporates distribution-sensitive outlier factors and their interdependence into a value-value graph-based representation. It then models an outlierness propagation process in the value graph to learn the outlierness of feature values. The learned value outlierness allows for either direct outlier detection or outlying feature selection. The graph representation and mining approach is employed here to well capture the rich non-IID characteristics. Our empirical results on 15 real-world data sets with different levels of data complexities show that (i) the proposed outlier detection methods significantly outperform five state-of-the-art methods at the 95%/99% confidence level, achieving 10%-28% AUC improvement on the 10 most complex data sets; and (ii) the proposed feature selection methods significantly outperform three competing methods in enabling subsequent outlier detection of two different existing detectors. | 翻訳日:2021-03-23 15:05:09 公開日:2021-03-21 |
# 免疫組織化学的染色の増強法としての自己逆行性攻撃 Self adversarial attack as an augmentation method for immunohistochemical stainings ( http://arxiv.org/abs/2103.11362v1 ) ライセンス: Link先を確認 | Jelica Vasiljevi\'c, Friedrich Feuerhake, C\'edric Wemmert, Thomas Lampert | (参考訳) サイクルコンシスタンスに制約された非ペア画像から画像への変換手法は,正確な入力再構成に必要な情報を不可避なノイズとして隠蔽することが示されている。
病理組織学データに適用すると,この隠れたノイズは染色特異な特徴に関連し,腎病理学で一般的に用いられる組織化学的染色法である周期性酸性シフ (pas) への翻訳中に2つの免疫組織化学的染色が行われることが示されている。
さらに、この隠れた情報を摂動することで、翻訳モデルは異なる、もっともらしい出力を生成する。
この特性は, 制御された糸球体セグメンテーションの場合, 性能が向上する拡張法として利用できることを示す。 It has been shown that unpaired image-to-image translation methods constrained by cycle-consistency hide the information necessary for accurate input reconstruction as imperceptible noise. We demonstrate that, when applied to histopathology data, this hidden noise appears to be related to stain specific features and show that this is the case with two immunohistochemical stainings during translation to Periodic acid- Schiff (PAS), a histochemical staining method commonly applied in renal pathology. Moreover, by perturbing this hidden information, the translation models produce different, plausible outputs. We demonstrate that this property can be used as an augmentation method which, in a case of supervised glomeruli segmentation, leads to improved performance. | 翻訳日:2021-03-23 15:03:47 公開日:2021-03-21 |
# 微細不均衡データ分類のための時空間的特徴と形状に基づく事前知識 Geo-Spatiotemporal Features and Shape-Based Prior Knowledge for Fine-grained Imbalanced Data Classification ( http://arxiv.org/abs/2103.11285v1 ) ライセンス: Link先を確認 | Charles (A.) Kantor, Marta Skreta, Brice Rauby, L\'eonard Boussioux, Emmanuel Jehanno, Alexandra Luccioni, David Rolnick, Hugues Talbot | (参考訳) 細粒度分類は、類似のグローバル知覚とパターンを持つ項目を区別することを目的としているが、細部によって異なる。
私たちの主な課題は、小さなクラス間バリエーションと大きなクラス内バリエーションの両方から来ています。
本稿では,野生生物の利用事例におけるきめ細かい分類を改善するために,いくつかのイノベーションを組み合わせることを提案する。
地理空間データを用いて画像情報を強化し,さらに性能を向上させる。
また,不均衡データを扱うための最先端手法についても検討する。 Fine-grained classification aims at distinguishing between items with similar global perception and patterns, but that differ by minute details. Our primary challenges come from both small inter-class variations and large intra-class variations. In this article, we propose to combine several innovations to improve fine-grained classification within the use-case of wildlife, which is of practical interest for experts. We utilize geo-spatiotemporal data to enrich the picture information and further improve the performance. We also investigate state-of-the-art methods for handling the imbalanced data issue. | 翻訳日:2021-03-23 15:03:36 公開日:2021-03-21 |
# ニューラルネットワーク分類器の汎用ロバストネスのための自然摂動トレーニング Natural Perturbed Training for General Robustness of Neural Network Classifiers ( http://arxiv.org/abs/2103.11372v1 ) ライセンス: Link先を確認 | Sadaf Gulshad and Arnold Smeulders | (参考訳) 分類のためのニューラルネットワークの堅牢性に焦点を当てる。
頑健性を達成するための手法の比較を公平にするために,まず,分類器の劣化度測定に基づく基準を導入する。
そこで本研究では,ネットワーク強化のための自然摂動トレーニングを提案する。
同じ物体の2つの像の差は、(わずかに異なる視野角を持つ場合)弾性変形、(物体の後方に隠れている場合)オクルージョン、または飽和、ガウスノイズなどによって近似される。
このようなバリエーションのランダムなバージョンに関するエポックな部分のトレーニングは、分類器がよりよく学ぶのに役立つだろう。
大きさと粒度の異なる6つのデータセットについて広範な実験を行った。
自然摂動学習は、自然摂動画像だけでなく、清潔で敵意のある画像に対する敵の訓練よりも、より良く、はるかに速いパフォーマンスを示す。
トレーニング中に見えない摂動に対する一般的な堅牢性も向上する。
cifar-10とstl-10の自然摂動トレーニングでは、クリーンデータの精度が向上し、アートパフォーマンスが向上する。
アブレーション研究は自然摂動訓練の有効性を検証する。 We focus on the robustness of neural networks for classification. To permit a fair comparison between methods to achieve robustness, we first introduce a standard based on the mensuration of a classifier's degradation. Then, we propose natural perturbed training to robustify the network. Natural perturbations will be encountered in practice: the difference of two images of the same object may be approximated by an elastic deformation (when they have slightly different viewing angles), by occlusions (when they hide differently behind objects), or by saturation, Gaussian noise etc. Training some fraction of the epochs on random versions of such variations will help the classifier to learn better. We conduct extensive experiments on six datasets of varying sizes and granularity. Natural perturbed learning show better and much faster performance than adversarial training on clean, adversarial as well as natural perturbed images. It even improves general robustness on perturbations not seen during the training. For Cifar-10 and STL-10 natural perturbed training even improves the accuracy for clean data and reaches the state of the art performance. Ablation studies verify the effectiveness of natural perturbed training. | 翻訳日:2021-03-23 15:03:29 公開日:2021-03-21 |
# MoViNets:効率的なビデオ認識のためのモバイルビデオネットワーク MoViNets: Mobile Video Networks for Efficient Video Recognition ( http://arxiv.org/abs/2103.11511v1 ) ライセンス: Link先を確認 | Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong | (参考訳) 提案するMoViNet(Mobile Video Networks)は,オンライン推論のためのストリーミングビデオで動作する,計算とメモリ効率のよいビデオネットワークである。
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大規模な計算とメモリ予算を必要とし、オンライン推論をサポートしないので、モバイルデバイスで作業することが難しい。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
まず、ビデオネットワークの検索空間を設計し、ニューラルネットワークを用いて効率的で多様な3D CNNアーキテクチャを生成する。
第2に,ビデオクリップの持続時間からメモリを分離するStream Buffer技術を導入し,トレーニングと推論の両方に3D CNNを任意の長さのストリーミングビデオシーケンスを組み込むことができる。
第3に,効率を犠牲にすることなく精度を向上させるための簡易なセンシング手法を提案する。
これら3つのプログレッシブなテクニックにより、モビネットは、運動量、モーメント、チャレードのビデオアクション認識データセットにおいて最先端の精度と効率を実現できる。
例えば、MoViNet-A5-Stream は Kinetics 600 の X3D-XL と同じ精度で、FLOP の80%削減とメモリの65%削減を実現している。
コードはhttps://github.com/tensorflow/models/tree/master/official/visionで公開される。 We present Mobile Video Networks (MoViNets), a family of computation and memory efficient video networks that can operate on streaming video for online inference. 3D convolutional neural networks (CNNs) are accurate at video recognition but require large computation and memory budgets and do not support online inference, making them difficult to work on mobile devices. We propose a three-step approach to improve computational efficiency while substantially reducing the peak memory usage of 3D CNNs. First, we design a video network search space and employ neural architecture search to generate efficient and diverse 3D CNN architectures. Second, we introduce the Stream Buffer technique that decouples memory from video clip duration, allowing 3D CNNs to embed arbitrary-length streaming video sequences for both training and inference with a small constant memory footprint. Third, we propose a simple ensembling technique to improve accuracy further without sacrificing efficiency. These three progressive techniques allow MoViNets to achieve state-of-the-art accuracy and efficiency on the Kinetics, Moments in Time, and Charades video action recognition datasets. For instance, MoViNet-A5-Stream achieves the same accuracy as X3D-XL on Kinetics 600 while requiring 80% fewer FLOPs and 65% less memory. Code will be made available at https://github.com/tensorflow/models/tree/master/official/vision. | 翻訳日:2021-03-23 15:03:12 公開日:2021-03-21 |
# 相関抽出のための構造ブロック駆動-強化畳み込みニューラル表現 Structural block driven - enhanced convolutional neural representation for relation extraction ( http://arxiv.org/abs/2103.11356v1 ) ライセンス: Link先を確認 | Dongsheng Wang, Prayag Tiwari, Sahil Garg, Hongyin Zhu, Peter Bruza | (参考訳) 本稿では,構造ブロック駆動-畳み込みニューラルネットワークの軽量な関係抽出手法を提案する。
具体的には、構造ブロックとして名づけられた依存分析によってエンティティに関連付けられた必須のシーケンシャルトークンを検出し、マルチスケールcnnを用いてブロックとブロック間の表現のみをエンコードする。
これは、1)文の無関係部分からノイズを取り除く一方で、2)ブロックワイドとブロックワイドのセマンティックエンリッチド表現の両方で関連するブロック表現を強化する。
本手法は,ブロック境界内の逐次トークンのみをエンコードするため,長文文脈に依存しない利点を有する。
SemEval2010 と KBP37 の2つのデータセットの実験により,本手法の利点が示された。
特に,kbp37データセットにおける新たな最先端性能を達成し,semeval2010データセットの最先端性能と比較した。 In this paper, we propose a novel lightweight relation extraction approach of structural block driven - convolutional neural learning. Specifically, we detect the essential sequential tokens associated with entities through dependency analysis, named as a structural block, and only encode the block on a block-wise and an inter-block-wise representation, utilizing multi-scale CNNs. This is to 1) eliminate the noisy from irrelevant part of a sentence; meanwhile 2) enhance the relevant block representation with both block-wise and inter-block-wise semantically enriched representation. Our method has the advantage of being independent of long sentence context since we only encode the sequential tokens within a block boundary. Experiments on two datasets i.e., SemEval2010 and KBP37, demonstrate the significant advantages of our method. In particular, we achieve the new state-of-the-art performance on the KBP37 dataset; and comparable performance with the state-of-the-art on the SemEval2010 dataset. | 翻訳日:2021-03-23 15:01:28 公開日:2021-03-21 |
# 対象分類コード学習による非自己回帰翻訳 Non-Autoregressive Translation by Learning Target Categorical Codes ( http://arxiv.org/abs/2103.11405v1 ) ライセンス: Link先を確認 | Yu Bao, Shujian Huang, Tong Xiao, Dongqi Wang, Xinyu Dai, Jiajun Chen | (参考訳) Non-autoregressive Transformerは有望なテキスト生成モデルである。
しかし、現在の非自己回帰モデルは、翻訳品質において自己回帰モデルに遅れを取っている。
この精度のギャップはデコーダ入力間の依存性モデリングの欠如に起因する。
本稿では,非自己回帰復号に潜在変数として暗黙的にカテゴリコードを学ぶcnatを提案する。
これらの分類コード間の相互作用は、欠落した依存関係を修復し、モデルのキャパシティを改善する。
実験結果から,本モデルは機械翻訳作業において,いくつかの強いベースラインと比較して,同等あるいは優れた性能を達成できることがわかった。 Non-autoregressive Transformer is a promising text generation model. However, current non-autoregressive models still fall behind their autoregressive counterparts in translation quality. We attribute this accuracy gap to the lack of dependency modeling among decoder inputs. In this paper, we propose CNAT, which learns implicitly categorical codes as latent variables into the non-autoregressive decoding. The interaction among these categorical codes remedies the missing dependencies and improves the model capacity. Experiment results show that our model achieves comparable or better performance in machine translation tasks, compared with several strong baselines. | 翻訳日:2021-03-23 15:01:14 公開日:2021-03-21 |
# PraCegoVer: ポルトガル語で画像キャプチャ用の大規模なデータセット #PraCegoVer: A Large Dataset for Image Captioning in Portuguese ( http://arxiv.org/abs/2103.11474v1 ) ライセンス: Link先を確認 | Gabriel Oliveira dos Santos and Esther Luna Colombini and Sandra Avila | (参考訳) 自然文を用いた画像の自動記述は、視覚障害者のインターネットへの関与を支援する重要な課題である。
画像に存在するオブジェクトと、それらが関与している属性とアクションの関係を理解する必要があるのは、依然として大きな課題です。
そして、視覚的解釈法が必要であるが、言語モデルも意味的関係を言語的に記述する必要がある。
この問題はイメージキャプションとして知られている。
文献では多くのデータセットが提案されたが、大多数は英語のキャプションのみを含んでおり、他の言語で記述されたキャプション付きデータセットは少ない。
近年、PraCegoVerと呼ばれるムーブメントがインターネット上で発生し、ユーザーはソーシャルメディアから画像のパブリッシュ、#PraCegoVerのタグ付け、コンテンツの短い説明を追加できるようになった。
この動きに触発されて、我々はinstagramの記事に基づいたポルトガル語のキャプションを含むマルチモーダルデータセットである#pracegoverを提案しました。
これはポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
第一に、MS COCO Captionsのような一般的なデータセットとは対照的に、#PraCegoVerは各画像への参照が1つしかない。
これらの2つの特徴は、画像キャプション問題に導入される言語的側面と課題により、データセットを興味深いものにするのに役立つ。
データセットはhttps://github.com/gabrielsantosrv/PraCegoVer.comで公開しています。 Automatically describing images using natural sentences is an important task to support visually impaired people's inclusion onto the Internet. It is still a big challenge that requires understanding the relation of the objects present in the image and their attributes and actions they are involved in. Then, visual interpretation methods are needed, but linguistic models are also necessary to verbally describe the semantic relations. This problem is known as Image Captioning. Although many datasets were proposed in the literature, the majority contains only English captions, whereas datasets with captions described in other languages are scarce. Recently, a movement called PraCegoVer arose on the Internet, stimulating users from social media to publish images, tag #PraCegoVer and add a short description of their content. Thus, inspired by this movement, we have proposed the #PraCegoVer, a multi-modal dataset with Portuguese captions based on posts from Instagram. It is the first large dataset for image captioning in Portuguese with freely annotated images. Further, the captions in our dataset bring additional challenges to the problem: first, in contrast to popular datasets such as MS COCO Captions, #PraCegoVer has only one reference to each image; also, both mean and variance of our reference sentence length are significantly greater than those in the MS COCO Captions. These two characteristics contribute to making our dataset interesting due to the linguistic aspect and the challenges that it introduces to the image captioning problem. We publicly-share the dataset at https://github.com/gabrielsantosrv/PraCegoVer. | 翻訳日:2021-03-23 15:00:46 公開日:2021-03-21 |
# クロスドメイン人物再識別のための教師なし・自己適応的手法 Unsupervised and self-adaptative techniques for cross-domain person re-identification ( http://arxiv.org/abs/2103.11520v1 ) ライセンス: Link先を確認 | Gabriel Bertocco and Fernanda Andal\'o and Anderson Rocha | (参考訳) 重複しないカメラ間での人物再識別(ReID)は難しい作業であり、そのため、以前の技術では、ほとんどの作業はラベル付きデータセットからの教師付き特徴学習に依存している。
しかし、特に法医学的なシナリオにおいて、取得したデータをラベル付けし、迅速な展開を禁止する時間を要する。
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ソース上でトレーニングされたモデルから、IDラベルのアノテーションなしでターゲットドメインへのフィーチャーラーニング適応を実行することで、有望な代替手段として現れる。
しかし、ほとんどのUDAベースのアルゴリズムは、複数のハイパーパラメータを持つ複雑な損失関数に依存しており、異なるシナリオへの一般化を妨げる。
さらに、UDAはドメイン間の変換に依存するため、目に見えないドメインから最も信頼できるデータを選択することが重要です。
本研究では,1つのハイパーパラメータで単純な損失関数を最適化し,クラスタ内のカメラの多様性に基づいた新たなオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
この新たな戦略はモデルに適応し、ターゲットドメインの過度な適合を回避して正規化する。
また、異なるイテレーションの重みを集約し、適応の異なる瞬間からの知識を結合した最終モデルを作成する新しい自己認識戦略も導入する。
評価のために、よく知られた3つのディープラーニングアーキテクチャを検討し、それらを組み合わせて最終的な意思決定を行う。
提案手法では, 対象ドメイン上のラベルや人物の再ランクを使用せず, より単純な設定で, Market to Duke, 挑戦的な Market1501 から MSMT17, および Duke to MSMT17 の適応シナリオにおいて, 芸術の状態を向上させる。 Person Re-Identification (ReID) across non-overlapping cameras is a challenging task and, for this reason, most works in the prior art rely on supervised feature learning from a labeled dataset to match the same person in different views. However, it demands the time-consuming task of labeling the acquired data, prohibiting its fast deployment, specially in forensic scenarios. Unsupervised Domain Adaptation (UDA) emerges as a promising alternative, as it performs feature-learning adaptation from a model trained on a source to a target domain without identity-label annotation. However, most UDA-based algorithms rely upon a complex loss function with several hyper-parameters, which hinders the generalization to different scenarios. Moreover, as UDA depends on the translation between domains, it is important to select the most reliable data from the unseen domain, thus avoiding error propagation caused by noisy examples on the target data -- an often overlooked problem. In this sense, we propose a novel UDA-based ReID method that optimizes a simple loss function with only one hyper-parameter and that takes advantage of triplets of samples created by a new offline strategy based on the diversity of cameras within a cluster. This new strategy adapts the model and also regularizes it, avoiding overfitting on the target domain. We also introduce a new self-ensembling strategy, in which weights from different iterations are aggregated to create a final model combining knowledge from distinct moments of the adaptation. For evaluation, we consider three well-known deep learning architectures and combine them for final decision-making. The proposed method does not use person re-ranking nor any label on the target domain, and outperforms the state of the art, with a much simpler setup, on the Market to Duke, the challenging Market1501 to MSMT17, and Duke to MSMT17 adaptation scenarios. | 翻訳日:2021-03-23 14:59:31 公開日:2021-03-21 |
# L3CubeMahaSent: マラソンツイートに基づく感情分析データセット L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset ( http://arxiv.org/abs/2103.11408v1 ) ライセンス: Link先を確認 | Atharva Kulkarni, Meet Mandhane, Manali Likhitkar, Gayatri Kshirsagar, Raviraj Joshi | (参考訳) 感情分析は自然言語処理における最も基本的なタスクの1つである。
英語、アラビア語、ロシア語、マンダラン語、ヒンディー語、ベンガル語、タミル語などのインド諸語は、この地域でかなりの量の作業が行われている。
しかし、インドで3番目に人気のある言語であるマラタイ語は、適切なデータセットがないため、まだ遅れている。
本稿では,Marathi Sentiment Analysis Dataset - L3CubeMahaSentについて紹介する。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
当社のデータセットは,3つのクラスvizに分類された,約16,000の異なるツイートで構成されています。
正、負、中立。
また、ツイートに注釈を付けたガイドラインも提示する。
最後に, CNN, LSTM, ULMFiT, BERTに基づくディープラーニングモデルを用いて, データセットおよびベースライン分類結果の統計値を示す。 Sentiment analysis is one of the most fundamental tasks in Natural Language Processing. Popular languages like English, Arabic, Russian, Mandarin, and also Indian languages such as Hindi, Bengali, Tamil have seen a significant amount of work in this area. However, the Marathi language which is the third most popular language in India still lags behind due to the absence of proper datasets. In this paper, we present the first major publicly available Marathi Sentiment Analysis Dataset - L3CubeMahaSent. It is curated using tweets extracted from various Maharashtrian personalities' Twitter accounts. Our dataset consists of ~16,000 distinct tweets classified in three broad classes viz. positive, negative, and neutral. We also present the guidelines using which we annotated the tweets. Finally, we present the statistics of our dataset and baseline classification results using CNN, LSTM, ULMFiT, and BERT-based deep learning models. | 翻訳日:2021-03-23 14:56:58 公開日:2021-03-21 |
# 保証付き政策誘導ヒューリスティック探索 Policy-Guided Heuristic Search with Guarantees ( http://arxiv.org/abs/2103.11505v1 ) ライセンス: Link先を確認 | Laurent Orseau, Levi H. S. Lelis | (参考訳) 検索を導くためのポリシーとヒューリスティック関数の使用は、puct探索アルゴリズムに基づいたalphagoとその後継によって示されるように、敵対的問題において非常に効果的である。
PUCTは単エージェント決定論的問題を解くためにも使用できるが、その探索努力の保証が欠如しており、実際は計算的に非効率である。
A*アルゴリズムと学習されたヒューリスティック関数を組み合わせることはこれらの領域ではうまく機能するが、A*とその変種はポリシーを使用しない。
さらに、A* の使用の目的は最小コストのソリューションを見つけることであり、代わりに探索損失を最小化すること(例えば探索ステップの数)を目指している。
LevinTSはポリシーによってガイドされ、ポリシーの品質に関連する探索ステップの数を保証するが、ヒューリスティックな機能を使用しない。
本研究では, ヒューリスティック関数とポリシーを併用し, ヒューリスティックとポリシーの双方の品質に関連する探索損失を理論的に保証する新しい探索アルゴリズムである, ポリシー誘導ヒューリスティック探索(phs)を提案する。
市販ゲーム「the witness」の「slide-tile puzzle」「sokoban」「the witness」において、phsはポリシーとヒューリスティック機能の両方の迅速な学習を可能にし、a*, weighted a*, greedy best-first search, levints, puctと、テストされた3つの領域すべてにおいて解決された問題数と検索時間の観点から好意的に比較できることを示す。 The use of a policy and a heuristic function for guiding search can be quite effective in adversarial problems, as demonstrated by AlphaGo and its successors, which are based on the PUCT search algorithm. While PUCT can also be used to solve single-agent deterministic problems, it lacks guarantees on its search effort and it can be computationally inefficient in practice. Combining the A* algorithm with a learned heuristic function tends to work better in these domains, but A* and its variants do not use a policy. Moreover, the purpose of using A* is to find solutions of minimum cost, while we seek instead to minimize the search loss (e.g., the number of search steps). LevinTS is guided by a policy and provides guarantees on the number of search steps that relate to the quality of the policy, but it does not make use of a heuristic function. In this work we introduce Policy-guided Heuristic Search (PHS), a novel search algorithm that uses both a heuristic function and a policy and has theoretical guarantees on the search loss that relates to both the quality of the heuristic and of the policy. We show empirically on the sliding-tile puzzle, Sokoban, and a puzzle from the commercial game `The Witness' that PHS enables the rapid learning of both a policy and a heuristic function and compares favorably with A*, Weighted A*, Greedy Best-First Search, LevinTS, and PUCT in terms of number of problems solved and search time in all three domains tested. | 翻訳日:2021-03-23 14:56:15 公開日:2021-03-21 |
# 新型コロナウイルス感染症の重症度予測のための深層学習モデルの開発と妥当性の検討 Development and Validation of a Deep Learning Model for Prediction of Severe Outcomes in Suspected COVID-19 Infection ( http://arxiv.org/abs/2103.11269v1 ) ライセンス: Link先を確認 | Varun Buch, Aoxiao Zhong, Xiang Li, Marcio Aloisio Bezerra Cavalcanti Rockenbach, Dufan Wu, Hui Ren, Jiahui Guan, Andrew Liteplo, Sayon Dutta, Ittai Dayan, Quanzheng Li | (参考訳) 救急部門(ED)に初めて来院した患者の予測結果を伴う新型コロナウイルス患者のトリアージは、患者の予後を改善するだけでなく、病院の資源管理やクロス感染管理の改善にも不可欠である。
そこでは,患者のCXR画像に加えて,人口統計情報,共生情報,バイタルサイン,実験室計測を含むEHRデータを用いて,患者の予後を予測するための深部機能融合モデルを訓練した。
モデルアウトプットは、最も非感受性な酸素療法が要求される患者の結果であった。
CXR画像のない患者に対してはRandom Forest法を用いて予測を行った。
新型コロナウイルス重篤な結果(CO-RISKスコア)の予測リスクスコアは、モデルアウトプットから導出され、テストデータセットで評価され、ヒトのパフォーマンスと比較された。
この研究のデータセット("MGB COVID Cohort")は、2020年3月1日から6月1日まで、ミサジェネラル・ブリガム(MGB)医療システムに提示されたすべての患者から構築された。
不完全または誤ったデータによるED訪問は除外された。
検査の受注がない患者や陰性検査の結果が確認されていない患者は除外された。
15歳以下の患者も除外された。
最後に、合計11060人の新型コロナウイルス(covid-19)の電子健康記録(ehr)データを用いた。
胸部x線(cxr)画像も可能であれば各患者から採取した。
その結果,CO-RISKスコアはMV/死を予測する曲線(AUC)下において達成された。
テストデータセットでは、24時間で0.95、72時間で0.92である。
このモデルは、一般的に使用されるリスクスコア(CURB-65とMEWS)よりも優れた性能を示す。
医師の判断と比較すると、CO-RISKスコアはICU/フロア決定において人間よりも優れた性能を示した。 COVID-19 patient triaging with predictive outcome of the patients upon first present to emergency department (ED) is crucial for improving patient prognosis, as well as better hospital resources management and cross-infection control. We trained a deep feature fusion model to predict patient outcomes, where the model inputs were EHR data including demographic information, co-morbidities, vital signs and laboratory measurements, plus patient's CXR images. The model output was patient outcomes defined as the most insensitive oxygen therapy required. For patients without CXR images, we employed Random Forest method for the prediction. Predictive risk scores for COVID-19 severe outcomes ("CO-RISK" score) were derived from model output and evaluated on the testing dataset, as well as compared to human performance. The study's dataset (the "MGB COVID Cohort") was constructed from all patients presenting to the Mass General Brigham (MGB) healthcare system from March 1st to June 1st, 2020. ED visits with incomplete or erroneous data were excluded. Patients with no test order for COVID or confirmed negative test results were excluded. Patients under the age of 15 were also excluded. Finally, electronic health record (EHR) data from a total of 11060 COVID-19 confirmed or suspected patients were used in this study. Chest X-ray (CXR) images were also collected from each patient if available. Results show that CO-RISK score achieved area under the Curve (AUC) of predicting MV/death (i.e. severe outcomes) in 24 hours of 0.95, and 0.92 in 72 hours on the testing dataset. The model shows superior performance to the commonly used risk scores in ED (CURB-65 and MEWS). Comparing with physician's decisions, CO-RISK score has demonstrated superior performance to human in making ICU/floor decisions. | 翻訳日:2021-03-23 14:53:55 公開日:2021-03-21 |
# 隣接埋め込み変分オートエンコーダ Neighbor Embedding Variational Autoencoder ( http://arxiv.org/abs/2103.11349v1 ) ライセンス: Link先を確認 | Renfei Tu, Yang Liu, Yongzeng Xue, Cheng Wang and Maozu Guo | (参考訳) 最も一般的な生成枠組みの一つである変分オートエンコーダ(vae)は、後方崩壊と呼ばれる現象に苦しむことが知られている。
潜伏変分分布は、特に強いデコーダネットワークを使用する場合に、先行して崩壊する。
本研究では, 崩壊したVAEの潜時表現を解析し, 潜時空間に近い入力空間に近接する入力をエンコードするエンコーダを明示的に制約する, 近接埋め込みVAE(NE-VAE)という新しいモデルを提案する。
類似したelbo,kl発散,あるいは相互情報スコアを報告したvae変異株については,潜在組織ではなお全く異なる行動をとる可能性がある。
我々の実験では, NE-VAE は定性的に異なる潜在空間表現を生成でき, 潜在次元の大部分が有効であり, 下流潜在空間最適化の恩恵を受ける可能性がある。
ne-vaeは、前機種よりもはるかに後方崩壊を防ぎ、モデルコンポーネントの追加や複雑なトレーニングルーチンを導入することなく、任意のオートエンコーダフレームワークに簡単に接続できる。 Being one of the most popular generative framework, variational autoencoders(VAE) are known to suffer from a phenomenon termed posterior collapse, i.e. the latent variational distributions collapse to the prior, especially when a strong decoder network is used. In this work, we analyze the latent representation of collapsed VAEs, and proposed a novel model, neighbor embedding VAE(NE-VAE), which explicitly constraints the encoder to encode inputs close in the input space to be close in the latent space. We observed that for VAE variants that report similar ELBO, KL divergence or even mutual information scores may still behave quite differently in the latent organization. In our experiments, NE-VAE can produce qualitatively different latent representations with majority of the latent dimensions remained active, which may benefit downstream latent space optimization tasks. NE-VAE can prevent posterior collapse to a much greater extent than it's predecessors, and can be easily plugged into any autoencoder framework, without introducing addition model components and complex training routines. | 翻訳日:2021-03-23 14:53:33 公開日:2021-03-21 |
# UCBに基づく多項ロジスティック回帰帯域のアルゴリズム UCB-based Algorithms for Multinomial Logistic Regression Bandits ( http://arxiv.org/abs/2103.11489v1 ) ライセンス: Link先を確認 | Sanae Amani, Christos Thrampoulidis | (参考訳) 一般化された線形包帯の豊かなファミリーのうち、おそらく最もよく研究されているものは、二進報酬の問題に使用される対数的包帯である:例えば、学習者/エージェントが2つの可能な結果のうちの1つを選択できるユーザに対して利益を最大化しようとする場合(例:「クリック」対「ノークリック」)。
最近の顕著な進歩とロジスティック・バンディットのアルゴリズムの改善にもかかわらず、既存の作品は、ユーザーが選択できる結果の数が2より大きい(例えば、『click』、『show me later』、『never show again』、『no click』など)実用的な状況に対処していない。
本稿では,そのような拡張について検討する。
我々は、学習者のアクション $\mathbf{x}_t$ に対して、ユーザは$k+1\geq 2$ の結果の1つを選択し、その結果 $i$ を、対応する未知パラメータ $\bar{\boldsymbol\theta}_{\ast i}$ を持つマルチノミナルロジット (mnl) 確率モデルで選択する。
それぞれの結果$i$は収益パラメータ$\rho_i$と関連付けられており、目標は期待される収益を最大化することである。
この問題に対して、上信頼境界(UCB)に基づくアルゴリズムであるMNL-UCB(MNL-UCB)を、任意に大きい問題依存定数に小さな依存を伴って、後悔する$\tilde{\mathcal{O}}(dK\sqrt{T})$を達成する。
理論的結果を裏付ける数値シミュレーションを提案する。 Out of the rich family of generalized linear bandits, perhaps the most well studied ones are logisitc bandits that are used in problems with binary rewards: for instance, when the learner/agent tries to maximize the profit over a user that can select one of two possible outcomes (e.g., `click' vs `no-click'). Despite remarkable recent progress and improved algorithms for logistic bandits, existing works do not address practical situations where the number of outcomes that can be selected by the user is larger than two (e.g., `click', `show me later', `never show again', `no click'). In this paper, we study such an extension. We use multinomial logit (MNL) to model the probability of each one of $K+1\geq 2$ possible outcomes (+1 stands for the `not click' outcome): we assume that for a learner's action $\mathbf{x}_t$, the user selects one of $K+1\geq 2$ outcomes, say outcome $i$, with a multinomial logit (MNL) probabilistic model with corresponding unknown parameter $\bar{\boldsymbol\theta}_{\ast i}$. Each outcome $i$ is also associated with a revenue parameter $\rho_i$ and the goal is to maximize the expected revenue. For this problem, we present MNL-UCB, an upper confidence bound (UCB)-based algorithm, that achieves regret $\tilde{\mathcal{O}}(dK\sqrt{T})$ with small dependency on problem-dependent constants that can otherwise be arbitrarily large and lead to loose regret bounds. We present numerical simulations that corroborate our theoretical results. | 翻訳日:2021-03-23 14:53:14 公開日:2021-03-21 |
# 洞察中心の可視化レコメンデーション Insight-centric Visualization Recommendation ( http://arxiv.org/abs/2103.11297v1 ) ライセンス: Link先を確認 | Camille Harris, Ryan A. Rossi, Sana Malik, Jane Hoffswell, Fan Du, Tak Yeon Lee, Eunyee Koh, Handong Zhao | (参考訳) 可視化レコメンデーションシステムは、探索データ分析(EDA)を簡素化し、ユーザが探索する視覚化を自動的に生成することにより、すべてのスキルレベルのユーザに対して理解データをアクセスしやすくする。
しかし、既存の可視化レコメンデーションシステムは、すべての視覚化を、特定の属性やエンコーディングに基づいて単一のリストやグループにランク付けすることに集中している。
このグローバルランキングは、ユーザが最も興味深い、あるいは関連する洞察を見つけるのを難しく、時間がかかります。
これらの制限に対処するために,各グループ内の重要な洞察と関連する洞察の2つのグループを自動的にランク付けし,推奨する,新たなビジュアライゼーションレコメンデーションシステムを導入する。
提案手法は,様々な学習手法の結果を組み合わせて,洞察を自動的に発見する。
重要な利点は、このアプローチがカテゴリ型、数値型、時間型などの幅広い属性タイプに一般化され、これら異なる属性タイプの複雑な非自明な組み合わせが可能であることである。
提案手法の有効性を評価するために,各洞察を説明するために注釈付き視覚化を生成し,ランク付けする新しい洞察中心の可視化レコメンデーションシステムSpotLightを実装した。
12人の参加者と2つのデータセットでユーザ調査を行い,不慣れなデータからユーザが素早く理解し,関連する洞察を得ることができることを示した。 Visualization recommendation systems simplify exploratory data analysis (EDA) and make understanding data more accessible to users of all skill levels by automatically generating visualizations for users to explore. However, most existing visualization recommendation systems focus on ranking all visualizations into a single list or set of groups based on particular attributes or encodings. This global ranking makes it difficult and time-consuming for users to find the most interesting or relevant insights. To address these limitations, we introduce a novel class of visualization recommendation systems that automatically rank and recommend both groups of related insights as well as the most important insights within each group. Our proposed approach combines results from many different learning-based methods to discover insights automatically. A key advantage is that this approach generalizes to a wide variety of attribute types such as categorical, numerical, and temporal, as well as complex non-trivial combinations of these different attribute types. To evaluate the effectiveness of our approach, we implemented a new insight-centric visualization recommendation system, SpotLight, which generates and ranks annotated visualizations to explain each insight. We conducted a user study with 12 participants and two datasets which showed that users are able to quickly understand and find relevant insights in unfamiliar data. | 翻訳日:2021-03-23 14:49:20 公開日:2021-03-21 |
# 残余1アウトクロスバリデーションによるラベルノイズの検出 Detecting Label Noise via Leave-One-Out Cross Validation ( http://arxiv.org/abs/2103.11352v1 ) ライセンス: Link先を確認 | Yu-Hang Tang, Yuanran Zhu, Wibe A. de Jong | (参考訳) 本稿では,ガウス過程回帰法を用いて,クリーン試料と破損試料の混合試料から実値雑音ラベルを同定・修正するための簡易アルゴリズムを提案する。
独立分散を伴う付加的なガウス雑音項をそれぞれと観測されたラベルに関連付けるヘテロ代用ノイズモデルを用いる。
したがって、この方法はサンプル特異的ティホノフ正則化項を効果的に適用し、標準ガウス過程回帰で一般的な一様正則化を一般化する。
最大重み推定を用いた雑音モデルの最適化は、残余単価クロスバリデーションの後方標準偏差によるgprモデルの予測誤差の抑制に繋がる。
非負制約下での最大推定問題の解法として乗算更新方式を提案する。
ある特別な場合に対して単調収束の証明を提供する一方で、乗算スキームは事実上全ての数値実験において単調収束挙動を実証している。
提案手法は, 合成および実世界の科学データを用いた学習において, 劣化したサンプルを特定でき, より良い回帰モデルが得られることを示す。 We present a simple algorithm for identifying and correcting real-valued noisy labels from a mixture of clean and corrupted samples using Gaussian process regression. A heteroscedastic noise model is employed, in which additive Gaussian noise terms with independent variances are associated with each and all of the observed labels. Thus, the method effectively applies a sample-specific Tikhonov regularization term, generalizing the uniform regularization prevalent in standard Gaussian process regression. Optimizing the noise model using maximum likelihood estimation leads to the containment of the GPR model's predictive error by the posterior standard deviation in leave-one-out cross-validation. A multiplicative update scheme is proposed for solving the maximum likelihood estimation problem under non-negative constraints. While we provide a proof of monotonic convergence for certain special cases, the multiplicative scheme has empirically demonstrated monotonic convergence behavior in virtually all our numerical experiments. We show that the presented method can pinpoint corrupted samples and lead to better regression models when trained on synthetic and real-world scientific data sets. | 翻訳日:2021-03-23 14:47:05 公開日:2021-03-21 |
# データ駆動型モデルフリー価格とマーチンゲール最適輸送への深層学習アプローチ A deep learning approach to data-driven model-free pricing and to martingale optimal transport ( http://arxiv.org/abs/2103.11435v1 ) ライセンス: Link先を確認 | Ariel Neufeld, Julian Sester | (参考訳) 本稿では,ニューラルネットワークに基づく新しい,高次元の金融デリバティブのモデル自由価格境界の計算や,これらのバウンダリを達成するための最適なヘッジ戦略の決定に応用可能な,高度にトラクタブルな学習手法を提案する。
特に、我々の手法では、単一のニューラルネットワークをオフラインでトレーニングし、現在の市場データによる金融デリバティブのクラス全体のモデルフリー価格境界を迅速に決定するためにオンラインで使用することができる。
このアプローチの適用可能性を示し,実際の市場データを含むいくつかの例でその正確性を強調した。
さらに,金融市場データではなく,固定限界分布を伴うマルティンゲール最適輸送問題を解決するためにニューラルネットワークを訓練する方法を示す。 We introduce a novel and highly tractable supervised learning approach based on neural networks that can be applied for the computation of model-free price bounds of, potentially high-dimensional, financial derivatives and for the determination of optimal hedging strategies attaining these bounds. In particular, our methodology allows to train a single neural network offline and then to use it online for the fast determination of model-free price bounds of a whole class of financial derivatives with current market data. We show the applicability of this approach and highlight its accuracy in several examples involving real market data. Further, we show how a neural network can be trained to solve martingale optimal transport problems involving fixed marginal distributions instead of financial market data. | 翻訳日:2021-03-23 14:46:47 公開日:2021-03-21 |
# 弁護士は不正直?
コモンセンス知識資源における表現のハームの定量化 Lawyers are Dishonest? Quantifying Representational Harms in Commonsense Knowledge Resources ( http://arxiv.org/abs/2103.11320v1 ) ライセンス: Link先を確認 | Ninareh Mehrabi, Pei Zhou, Fred Morstatter, Jay Pujara, Xiang Ren, Aram Galstyan | (参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
多くの自然言語処理モデルは、ConceptNetナレッジベースを使用して、さまざまなタスクのパフォーマンスを改善することで、コモンセンスの注入を試みた。
しかし、conceptnetはほとんどが人間からクラウドソースされており、「弁護士は不正である」といった人間の偏見を反映している可能性がある。
これらのバイアスが常識の概念と混同されないことが重要である。
そこで我々は,概念ネットにおけるバイアスを,偏極知覚の過一般化と表現格差の2種類の表現的害として定義し,定量化する。
conceptnetには4つのカテゴリにまたがる厳格な偏見と格差が含まれていることがわかりました。
さらに,conceptnet をコモンセンス知識の源として使用する下流モデル2つを分析し,それらのモデルにもバイアスが存在することを発見した。
さらに,フィルタに基づくバイアス緩和手法を提案し,その有効性を検討した。
我々の緩和アプローチは、リソースとモデルの両方の問題を減らすことができるが、パフォーマンスの低下を招き、より公平で強力なコモンセンスモデルを構築する余地を残している。 Warning: this paper contains content that may be offensive or upsetting. Numerous natural language processing models have tried injecting commonsense by using the ConceptNet knowledge base to improve performance on different tasks. ConceptNet, however, is mostly crowdsourced from humans and may reflect human biases such as "lawyers are dishonest." It is important that these biases are not conflated with the notion of commonsense. We study this missing yet important problem by first defining and quantifying biases in ConceptNet as two types of representational harms: overgeneralization of polarized perceptions and representation disparity. We find that ConceptNet contains severe biases and disparities across four demographic categories. In addition, we analyze two downstream models that use ConceptNet as a source for commonsense knowledge and find the existence of biases in those models as well. We further propose a filtered-based bias-mitigation approach and examine its effectiveness. We show that our mitigation approach can reduce the issues in both resource and models but leads to a performance drop, leaving room for future work to build fairer and stronger commonsense models. | 翻訳日:2021-03-23 14:42:20 公開日:2021-03-21 |
# NameRec*: 高精度できめ細かい人物名認識 NameRec*: Highly Accurate and Fine-grained Person Name Recognition ( http://arxiv.org/abs/2103.11360v1 ) ライセンス: Link先を確認 | Rui Zhang, Yimeng Dai, Shijie Liu | (参考訳) 人物名は、名前付きエンティティ認識(NER)タスクにおいて必須のエンティティである。
従来のNERモデルは、ニュース記事のような一貫性のある完全な構文を持つテキストから、よくできた人物名を認識するのに優れた性能を持つ。
しかし、学術ホームページやオンラインフォーラムの記事などのユーザ生成文書には、不完全な構文と様々な形式の人名を含む自由形式のテキストが多数含まれている可能性がある。
この文脈で人名認識に対処するために,人類学に基づく微粒なアノテーションスキームを提案する。
粒度の細かいアノテーションを最大限に活用するために,人名認識のためのコグナーニューラルネットワーク(CogNN)を提案する。
CogNNは、名前形式の文内コンテキストと豊富な訓練信号を完全に探求する。
しかし、長い文書で人物名を認識するのに極めて不可欠である間関係や暗黙の関係は捉えられていない。
この問題に対処するために,重ね合わせ入力プロセッサによるマルチリファレンス重なりbertモデル(namerec*)と,双方向重ね合わせコンテキスト埋め込み学習と複数の推論機構を備えた相互エンコーダを提案する。
NameRec*は、長いドキュメントのインターセレンスコンテキストを最大限に活用する一方で、インターセレンスコンテキストをあまり必要とせずにショートドキュメントのアドバンテージを失う。
多様な文脈を持つ異なる文書から利益を得るため、我々はさらに、異なる文書に対する相互関係の重なり比を動的に調整する高度な適応型マルチ会議重なりbertモデル(ada-namerec*)を提案する。
学術ホームページとニュース記事の両方において,提案手法の優越性を示すため,広範な実験を行った。 Person names are essential entities in the Named Entity Recognition (NER) task. Traditional NER models have good performance in recognising well-formed person names from text with consistent and complete syntax, such as news articles. However, user-generated documents such as academic homepages and articles in online forums may contain lots of free-form text with incomplete syntax and person names in various forms. To address person name recognition in this context, we propose a fine-grained annotation scheme based on anthroponymy. To take full advantage of the fine-grained annotations, we propose a Co-guided Neural Network (CogNN) for person name recognition. CogNN fully explore the intra-sentence context and rich training signals of name forms. However, the inter-sentence context and implicit relations, which are extremely essential for recognizing person names in long documents, are not captured. To address this issue, we propose a Multi-inference Overlapped BERT Model (NameRec*) through an overlapped input processor, and an inter-sentence encoder with bidirectional overlapped contextual embedding learning and multiple inference mechanisms. NameRec* takes full advantage of inter-sentence context in long documents, while loses advantage for short documents without too much inter-sentence context. To derive benefit from different documents with diverse abundance of context, we further propose an advanced Adaptive Multi-inference Overlapping BERT Model (Ada-NameRec*) to dynamically adjust the inter-sentence overlapping ratio to different documents. We conduct extensive experiments to demonstrate the superiority of the proposed methods on both academic homepages and news articles. | 翻訳日:2021-03-23 14:42:04 公開日:2021-03-21 |
# ROSITA: InTegrAted 技術による改良BERTcOmpreSsion ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques ( http://arxiv.org/abs/2103.11367v1 ) ライセンス: Link先を確認 | Yuanxin Liu and Zheng Lin and Fengcheng Yuan | (参考訳) BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端の言語を定義している。
しかし、BERTベースのモデルの性能は、主に膨大な量のパラメータによって駆動され、リソース制限シナリオへの適用を妨げる。
この問題に直面した最近の研究は、BERTを小さなモデルに圧縮しようと試みている。
しかし、以前のほとんどの作品は、主に単一の種類の圧縮技術に焦点を当てており、異なる手法の組み合わせにはほとんど注意が払われていない。
BERTが統合された技術で圧縮されると、最適な性能を得るために圧縮フレームワーク全体をどのように設計するかが重要な問題となる。
そこで本研究では,3種類の圧縮手法(重プルーニング,低ランク因子化,知識蒸留(KD))を統合し,モデルアーキテクチャ,KD戦略,プルーニング頻度,学習率スケジュールに関する設計範囲を探索する。
圧縮モデルの性能には,設計の慎重な選択が不可欠であることがわかった。
InTegrAted Technique (ROSITA) を用いたRefined BERT cOmpreSsion (Refined BERT cOmpreSsion) と呼ばれる我々の最良の圧縮モデルは、BERTよりも7.5 \times$小さいが、GLUEベンチマークの5つのタスクのパフォーマンスは9,8.5 %であり、以前のBERT圧縮手法を同様のパラメータ予算で上回っている。
コードはhttps://github.com/llyx97/Rositaで入手できる。 Pre-trained language models of the BERT family have defined the state-of-the-arts in a wide range of NLP tasks. However, the performance of BERT-based models is mainly driven by the enormous amount of parameters, which hinders their application to resource-limited scenarios. Faced with this problem, recent studies have been attempting to compress BERT into a small-scale model. However, most previous work primarily focuses on a single kind of compression technique, and few attention has been paid to the combination of different methods. When BERT is compressed with integrated techniques, a critical question is how to design the entire compression framework to obtain the optimal performance. In response to this question, we integrate three kinds of compression methods (weight pruning, low-rank factorization and knowledge distillation (KD)) and explore a range of designs concerning model architecture, KD strategy, pruning frequency and learning rate schedule. We find that a careful choice of the designs is crucial to the performance of the compressed model. Based on the empirical findings, our best compressed model, dubbed Refined BERT cOmpreSsion with InTegrAted techniques (ROSITA), is $7.5 \times$ smaller than BERT while maintains $98.5\%$ of the performance on five tasks of the GLUE benchmark, outperforming the previous BERT compression methods with similar parameter budget. The code is available at https://github.com/llyx97/Rosita. | 翻訳日:2021-03-23 14:41:38 公開日:2021-03-21 |
# swissdial: スイス系ドイツ語の並列多方言コーパス SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German ( http://arxiv.org/abs/2103.11401v1 ) ライセンス: Link先を確認 | Pelin Dogan-Sch\"onberger, Julian M\"ader, Thomas Hofmann | (参考訳) スイスドイツ語(swiss german)は、方言の形式的変種とは大きく異なる方言である。
これらの方言は、主に言語コミュニケーションに使われ、標準的な正書法を持たない。
これにより、注釈付きデータセットが欠如し、多くのNLPメソッドの使用が不可能になった。
本稿では,8つの主要な方言にまたがるスイス系ドイツ語の注釈付き並列コーパスと標準ドイツ語の参照について紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
音声合成のための最近のニューラルモデルを用いて実験を行い,データ収集の手順を詳細に提示し,コーパスの品質を検証した。 Swiss German is a dialect continuum whose natively acquired dialects significantly differ from the formal variety of the language. These dialects are mostly used for verbal communication and do not have standard orthography. This has led to a lack of annotated datasets, rendering the use of many NLP methods infeasible. In this paper, we introduce the first annotated parallel corpus of spoken Swiss German across 8 major dialects, plus a Standard German reference. Our goal has been to create and to make available a basic dataset for employing data-driven NLP applications in Swiss German. We present our data collection procedure in detail and validate the quality of our corpus by conducting experiments with the recent neural models for speech synthesis. | 翻訳日:2021-03-23 14:41:10 公開日:2021-03-21 |
# コード要約を改善するためのメソッド名の利用: 検討的マルチタスク学習アプローチ Exploiting Method Names to Improve Code Summarization: A Deliberation Multi-Task Learning Approach ( http://arxiv.org/abs/2103.11448v1 ) ライセンス: Link先を確認 | Rui Xie, Wei Ye, Jinan Sun, Shikun Zhang | (参考訳) コード要約は、ソースコードの簡単な自然言語記述である。
コード要約の主な目的は、コードを理解する開発者を支援し、ドキュメントのワークロードを減らすことである。
本稿では,メソッドコード要約とメソッド名の関係をマイニングすることで,コード要約のための新しいマルチタスク学習(mtl)手法を提案する。
より具体的には、メソッド名はコード要約のより短いバージョンと見なすことができるので、まず、コード要約のための2つの補助訓練対象として、メソッド名の生成および情報性予測のタスクを紹介する。
次に,MTLアーキテクチャに新たな2パス分割機構を組み込んで,特に情報的メソッド名が存在しない場合に,要約デコーダに供給されるより一貫した中間状態を生成する。
検討のMDLアプローチを評価するため,JavaとPythonの既存の2つのデータセットに対して大規模な実験を行った。
実験の結果,本手法は多くの最先端ニューラルモデルに容易に適用でき,コード要約と性能向上が期待できることがわかった。
一方,提案手法は,非インフォーマティブな名前を持つメソッドの要約を生成する場合,大きな優位性を示す。 Code summaries are brief natural language descriptions of source code pieces. The main purpose of code summarization is to assist developers in understanding code and to reduce documentation workload. In this paper, we design a novel multi-task learning (MTL) approach for code summarization through mining the relationship between method code summaries and method names. More specifically, since a method's name can be considered as a shorter version of its code summary, we first introduce the tasks of generation and informativeness prediction of method names as two auxiliary training objectives for code summarization. A novel two-pass deliberation mechanism is then incorporated into our MTL architecture to generate more consistent intermediate states fed into a summary decoder, especially when informative method names do not exist. To evaluate our deliberation MTL approach, we carried out a large-scale experiment on two existing datasets for Java and Python. The experiment results show that our technique can be easily applied to many state-of-the-art neural models for code summarization and improve their performance. Meanwhile, our approach shows significant superiority when generating summaries for methods with non-informative names. | 翻訳日:2021-03-23 14:40:58 公開日:2021-03-21 |
# モンテカルロ情報指向計画 Monte Carlo Information-Oriented Planning ( http://arxiv.org/abs/2103.11345v1 ) ライセンス: Link先を確認 | Vincent Thomas, G\'er\'emy Hutin, Olivier Buffet | (参考訳) 本稿では,報奨法が信念状態に依存する部分観測可能マルコフ決定過程(POMDP)の拡張であるrho-POMDPsとして表される情報収集問題の解法について議論する。
POMDPを解くために使われる点ベースのアプローチは、その報酬rhoがBで凸である場合やリプシッツ連続である場合、Rho-POMDPを信念MDPとして解くように拡張されている。
本稿では,Rho-POMDPに対するモンテカルロ木探索を提案するためにPOMCPアルゴリズムを構築し,任意のRho関数に使用可能な効率的なオンラインプランナーを提案する。
信念に依存した報酬により、(i) 一度に複数の状態が伝播し、(ii) 価値推定のバイアスを防ぐために適応が必要である。
rho が連続であるときに、エプシロン最適値に対する漸近収束証明が与えられる。
これらのアルゴリズムを手元に分析し, 近視的アプローチよりも優れることを示す実験を行った。 In this article, we discuss how to solve information-gathering problems expressed as rho-POMDPs, an extension of Partially Observable Markov Decision Processes (POMDPs) whose reward rho depends on the belief state. Point-based approaches used for solving POMDPs have been extended to solving rho-POMDPs as belief MDPs when its reward rho is convex in B or when it is Lipschitz-continuous. In the present paper, we build on the POMCP algorithm to propose a Monte Carlo Tree Search for rho-POMDPs, aiming for an efficient on-line planner which can be used for any rho function. Adaptations are required due to the belief-dependent rewards to (i) propagate more than one state at a time, and (ii) prevent biases in value estimates. An asymptotic convergence proof to epsilon-optimal values is given when rho is continuous. Experiments are conducted to analyze the algorithms at hand and show that they outperform myopic approaches. | 翻訳日:2021-03-23 14:39:35 公開日:2021-03-21 |
# 積雪除去のための意味的・幾何学的事前手法を用いた深度マルチスケールネットワーク Deep Dense Multi-scale Network for Snow Removal Using Semantic and Geometric Priors ( http://arxiv.org/abs/2103.11298v1 ) ライセンス: Link先を確認 | Kaihao Zhang, Rongqing Li, Yanjiang Yu, Wenhan Luo, Changsheng Li, Hongdong Li | (参考訳) 雪の日に撮影された画像は、現在の視覚ベースのインテリジェントシステムのパフォーマンスを低下させるシーンの可視性が著しく低下する。
したがって、画像から雪を取り除くことはコンピュータビジョンにおいて重要なトピックである。
本稿では, 積雪除去のための深度多スケールネットワーク (Deep Dense Multi-Scale Network, DDMSNet) を提案する。
屋外で撮影された画像は、しばしば類似のシーンを共有し、その視界はカメラの深度によって異なるため、雪の復元に強い前兆となる。
セマンティクスマップと幾何マップを入力として取り入れ,セマンティクス・アウェア表現と幾何アウェア表現を学習して雪を取り除く。
特に,入力画像から雪を取り除くために,まず粗いネットワークを作成する。
そして、粗く認識された画像を別のネットワークに入力し、意味的および幾何学的ラベルを得る。
最後に,ddmsnetの設計により,最終的なクリーン画像を生成する自己照査機構を介して,意味認識および幾何学認識表現を学習する。
公共合成画像と実世界の雪画像を用いて評価した実験により,提案手法の有効性が検証され,定量的,質的にも良好な結果が得られた。 Images captured in snowy days suffer from noticeable degradation of scene visibility, which degenerates the performance of current vision-based intelligent systems. Removing snow from images thus is an important topic in computer vision. In this paper, we propose a Deep Dense Multi-Scale Network (\textbf{DDMSNet}) for snow removal by exploiting semantic and geometric priors. As images captured in outdoor often share similar scenes and their visibility varies with depth from camera, such semantic and geometric information provides a strong prior for snowy image restoration. We incorporate the semantic and geometric maps as input and learn the semantic-aware and geometry-aware representation to remove snow. In particular, we first create a coarse network to remove snow from the input images. Then, the coarsely desnowed images are fed into another network to obtain the semantic and geometric labels. Finally, we design a DDMSNet to learn semantic-aware and geometry-aware representation via a self-attention mechanism to produce the final clean images. Experiments evaluated on public synthetic and real-world snowy images verify the superiority of the proposed method, offering better results both quantitatively and qualitatively. | 翻訳日:2021-03-23 14:34:16 公開日:2021-03-21 |
# コンパクトで編集可能な光場表現法 A Learned Compact and Editable Light Field Representation ( http://arxiv.org/abs/2103.11314v1 ) ライセンス: Link先を確認 | Menghan Xia, Jose Echevarria, Minshan Xie and Tien-Tsin Wong | (参考訳) ライトフィールドは4dのシーン表現で、通常はビューの配列として構成されるか、1つのビューでピクセルごとに複数の方向のサンプルとして構成される。
しかし、この高相関構造は(特に編集のために)伝達や操作にあまり効率的ではない。
これらの問題に対処するため,一組の視覚チャネルからなる,コンパクトで編集可能な光場表現を提案する。
中央のRGBビュー)と、残余の幾何学的および外観情報を符号化する相補的なメタチャネル。
この表現の視覚チャネルは、既存の2D画像編集ツールを使用して編集し、編集された光フィールド全体を正確に再構築することができる。
我々は,この表現を,表現を学習するエンコーダと光場を再構成するデコーダからなるオートエンコーダフレームワークを用いて学習することを提案する。
編集の難易度や伝達に対処すべく,編集・認識型デコードネットワークとそれに関連するトレーニング戦略を具体的に設計し,リコンストラクション時に視覚チャネルへの編集を一貫して光野全体に伝播させるようにした。実験の結果,本手法は既存の手法の復元精度を上回っており,編集時の視覚的に快適な性能を実現する。 Light fields are 4D scene representation typically structured as arrays of views, or several directional samples per pixel in a single view. This highly correlated structure is not very efficient to transmit and manipulate (especially for editing), though. To tackle these problems, we present a novel compact and editable light field representation, consisting of a set of visual channels (i.e. the central RGB view) and a complementary meta channel that encodes the residual geometric and appearance information. The visual channels in this representation can be edited using existing 2D image editing tools, before accurately reconstructing the whole edited light field back. We propose to learn this representation via an autoencoder framework, consisting of an encoder for learning the representation, and a decoder for reconstructing the light field. To handle the challenging occlusions and propagation of edits, we specifically designed an editing-aware decoding network and its associated training strategy, so that the edits to the visual channels can be consistently propagated to the whole light field upon reconstruction.Experimental results show that our proposed method outperforms related existing methods in reconstruction accuracy, and achieves visually pleasant performance in editing propagation. | 翻訳日:2021-03-23 14:33:58 公開日:2021-03-21 |
# 映像人物再同定のための参照支援部分アライメント特徴分散 Reference-Aided Part-Aligned Feature Disentangling for Video Person Re-Identification ( http://arxiv.org/abs/2103.11319v1 ) ライセンス: Link先を確認 | Guoqing Zhang, Yuhao Chen, Yang Dai, Yuhui Zheng, Yi Wu | (参考訳) 近年,映像に基づく人物再識別 (re-ID) が実用化され,コンピュータビジョンコミュニティに注目が集まっている。
不正確な人物検出とポーズの変化により、歩行者のミスアライメントは特徴抽出とマッチングの難しさを著しく増大させる。
この問題に対処するため,本稿では,異なる部分のロバストな特徴を解消するための, \textbf{r}eference-\textbf{a}ided \textbf{p}art-\textbf{a}ligned (\textbf{rapa})フレームワークを提案する。
まず、異なるビデオ間の参照をより良くするために、ポーズベースの参照特徴学習モジュールを導入する。
第2に,ビデオ内のフレームのアライメントを効果的に行うために,関係性に基づく機能分離モジュールを探索する。
両方のモジュールを使用することにより、ビデオ中の歩行者の情報的な部分が整列し、より識別的な特徴表現が生成される。
広く使われている3つのベンチマーク、すなわち、包括的な実験
iLIDS-VID、PRID-2011、MARSデータセットは提案フレームワークの有効性を検証する。
私たちのコードは公開されます。 Recently, video-based person re-identification (re-ID) has drawn increasing attention in compute vision community because of its practical application prospects. Due to the inaccurate person detections and pose changes, pedestrian misalignment significantly increases the difficulty of feature extraction and matching. To address this problem, in this paper, we propose a \textbf{R}eference-\textbf{A}ided \textbf{P}art-\textbf{A}ligned (\textbf{RAPA}) framework to disentangle robust features of different parts. Firstly, in order to obtain better references between different videos, a pose-based reference feature learning module is introduced. Secondly, an effective relation-based part feature disentangling module is explored to align frames within each video. By means of using both modules, the informative parts of pedestrian in videos are well aligned and more discriminative feature representation is generated. Comprehensive experiments on three widely-used benchmarks, i.e. iLIDS-VID, PRID-2011 and MARS datasets verify the effectiveness of the proposed framework. Our code will be made publicly available. | 翻訳日:2021-03-23 14:33:37 公開日:2021-03-21 |
# セマンティクスセグメンテーションのためのクロスデータセット協調学習 Cross-Dataset Collaborative Learning for Semantic Segmentation ( http://arxiv.org/abs/2103.11351v1 ) ライセンス: Link先を確認 | Li Wang, Dong Li, Yousong Zhu, Lu Tian, Yi Shan | (参考訳) 最近の研究は、ターゲットデータセット上でよく設計されたアーキテクチャを探索することでセマンティックセグメンテーションのパフォーマンスを向上させる試みである。
しかし、異なるデータセットに固有の分散シフトがあるため、さまざまなデータセットから同時に学習する統一システムを構築するのは難しい。
本稿では,Cross-Dataset Collaborative Learning (CDCL) と呼ばれる,セマンティックセグメンテーションのためのシンプルで柔軟な,汎用的な手法を提案する。
複数のラベル付きデータセットが与えられた場合、各データセットにおける特徴表現の一般化と識別を改善することを目的としている。
具体的には、まず、ネットワークの基本計算単位としてDataset-Aware Blocks (DAB) のファミリーを導入し、異なるデータセットにわたる同種表現と異種統計をキャプチャする。
第2に、最適化手順を効率的に行うためのデータセット交換訓練(DAT)機構を提案する。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して広範な評価を行う。
実験により, FLOPを付加することなく, 従来のシングルデータセットおよびクロスデータセットのトレーニング手法よりも顕著な改善が得られた。
特に, PSPNet (ResNet-18) と同じアーキテクチャで, 都市景観, BDD100K, CamVid の検証セットに対して, 単一データセットベースラインを 5.65 %, 6.57 %, 5.79 % の mIoU より優れていた。
コードとモデルはリリースされる。 Recent work attempts to improve semantic segmentation performance by exploring well-designed architectures on a target dataset. However, it remains challenging to build a unified system that simultaneously learns from various datasets due to the inherent distribution shift across different datasets. In this paper, we present a simple, flexible, and general method for semantic segmentation, termed Cross-Dataset Collaborative Learning (CDCL). Given multiple labeled datasets, we aim to improve the generalization and discrimination of feature representations on each dataset. Specifically, we first introduce a family of Dataset-Aware Blocks (DAB) as the fundamental computing units of the network, which help capture homogeneous representations and heterogeneous statistics across different datasets. Second, we propose a Dataset Alternation Training (DAT) mechanism to efficiently facilitate the optimization procedure. We conduct extensive evaluations on four diverse datasets, i.e., Cityscapes, BDD100K, CamVid, and COCO Stuff, with single-dataset and cross-dataset settings. Experimental results demonstrate our method consistently achieves notable improvements over prior single-dataset and cross-dataset training methods without introducing extra FLOPs. Particularly, with the same architecture of PSPNet (ResNet-18), our method outperforms the single-dataset baseline by 5.65\%, 6.57\%, and 5.79\% of mIoU on the validation sets of Cityscapes, BDD100K, CamVid, respectively. Code and models will be released. | 翻訳日:2021-03-23 14:33:18 公開日:2021-03-21 |
# クロスビュートランスフォーマーを用いた未登録医用画像のマルチビュー解析 Multi-view analysis of unregistered medical images using cross-view transformers ( http://arxiv.org/abs/2103.11390v1 ) ライセンス: Link先を確認 | Gijs van Tulder, Yao Tong, Elena Marchiori | (参考訳) 多視点医用画像解析は、しばしば複数の視点からの情報の組み合わせに依存する。
しかし,登録は必ずしも可能とは限らないため,視点の違いや不一致は,視点を効果的に結合することは困難である。
登録がなければ、グローバルプーリングの後にフィーチャーベクターに参加することで、ビューはグローバルな機能レベルでのみ結合できる。
空間特徴写像のレベルにおける未登録ビュー間で情報を伝達する新しいクロスビュー変換器を提案する。
本手法はマルチビューマンモグラフィと胸部X線データセットで実証する。
両データセットにおいて,空間的特徴マップをリンクするクロスビュートランスフォーマーは,グローバルプール後の特徴ベクトルに結合するベースラインモデルより優れていることがわかった。 Multi-view medical image analysis often depends on the combination of information from multiple views. However, differences in perspective or other forms of misalignment can make it difficult to combine views effectively, as registration is not always possible. Without registration, views can only be combined at a global feature level, by joining feature vectors after global pooling. We present a novel cross-view transformer method to transfer information between unregistered views at the level of spatial feature maps. We demonstrate this method on multi-view mammography and chest X-ray datasets. On both datasets, we find that a cross-view transformer that links spatial feature maps can outperform a baseline model that joins feature vectors after global pooling. | 翻訳日:2021-03-23 14:32:50 公開日:2021-03-21 |
# 空中画像における物体検出のための学習校正ガイド Learning Calibrated-Guidance for Object Detection in Aerial Images ( http://arxiv.org/abs/2103.11399v1 ) ライセンス: Link先を確認 | Dong Liang, Zongqi Wei, Dong Zhang, Qixiang Geng, Liyan Zhang, Han Sun, Huiyu Zhou, Mingqiang Wei, Pan Gao | (参考訳) 近年,空中画像における物体検出の研究は,コンピュータビジョンのコミュニティにおいて大きな進歩を遂げている。
しかし、最先端の手法の多くは計算量の高い時空特徴量校正に精巧な注意機構を発達させる傾向があるが、チャネルにおける特徴量校正の重要性は驚くほど無視されている。
本研究では,グローバルな特徴親和性ペアに基づいて各チャネルのキャリブレーション重みを適応的に決定できる,機能トランスフォーマ方式でチャネル通信を強化するための,シンプルで効果的なキャリブレーション・ガイダンス(CG)方式を提案する。
具体的には、機能マップのセットを与えられたcgは、仲介キャリブレーションガイダンスとして、まず各チャネルと残りのチャネル間の特徴類似度を計算する。
そして、ガイドを介して重み付けされた全てのチャンネルを集約することで、各チャンネルを再表現する。
私たちのCGは、CG-Netという名前のディープニューラルネットワークに接続することができます。
その有効性と効率性を示すため、空中画像の指向性および水平方向の物体検出タスクについて広範な実験を行った。
2つの挑戦的なベンチマーク(DOTAとHRSC2016)の結果は、CG-Netが高い計算オーバーヘッドで最先端のパフォーマンスを達成できることを示した。
https://github.com/WeiZongqi/CG-Net Recently, the study on object detection in aerial images has made tremendous progress in the community of computer vision. However, most state-of-the-art methods tend to develop elaborate attention mechanisms for the space-time feature calibrations with high computational complexity, while surprisingly ignoring the importance of feature calibrations in channels. In this work, we propose a simple yet effective Calibrated-Guidance (CG) scheme to enhance channel communications in a feature transformer fashion, which can adaptively determine the calibration weights for each channel based on the global feature affinity-pairs. Specifically, given a set of feature maps, CG first computes the feature similarity between each channel and the remaining channels as the intermediary calibration guidance. Then, re-representing each channel by aggregating all the channels weighted together via the guidance. Our CG can be plugged into any deep neural network, which is named as CG-Net. To demonstrate its effectiveness and efficiency, extensive experiments are carried out on both oriented and horizontal object detection tasks of aerial images. Results on two challenging benchmarks (i.e., DOTA and HRSC2016) demonstrate that our CG-Net can achieve state-of-the-art performance in accuracy with a fair computational overhead. https://github.com/WeiZongqi/CG-Net | 翻訳日:2021-03-23 14:32:40 公開日:2021-03-21 |
# 車両消滅点検出による交通カメラの校正 Traffic Camera Calibration via Vehicle Vanishing Point Detection ( http://arxiv.org/abs/2103.11438v1 ) ライセンス: Link先を確認 | Viktor Kocur, Milan Ft\'a\v{c}nik | (参考訳) 本稿では,交通監視映像における車両に付随する一対の消失点の検出に基づく交通監視カメラの校正手法を提案する。
消失点を検出するために,ダイヤモンド空間のパラメトリゼーションを用いて消失点の位置を表現した熱マップを出力し,無限射影空間全体から消滅点を検出するCNNを提案する。
カメラの焦点距離と道路面の向きを推定することにより,複数の車両に対して検出された一対の消滅点からシーン形状を確定する。
本手法はbrnocarparkデータセットにおいて,現在の技術アプローチよりも少ない要件を持ちながら,競争力のある結果が得られることを示す。 In this paper we propose a traffic surveillance camera calibration method based on detection of pairs of vanishing points associated with vehicles in the traffic surveillance footage. To detect the vanishing points we propose a CNN which outputs heatmaps in which the positions of vanishing points are represented using the diamond space parametrization which enables us to detect vanishing points from the whole infinite projective space. From the detected pairs of vanishing points for multiple vehicles in a scene we establish the scene geometry by estimating the focal length of the camera and the orientation of the road plane. We show that our method achieves competitive results on the BrnoCarPark dataset while having fewer requirements than the current state of the art approach. | 翻訳日:2021-03-23 14:32:20 公開日:2021-03-21 |
# 機械学習を用いた調査における知識発見--uaeの起業女性を事例として Knowledge Discovery in Surveys using Machine Learning: A Case Study of Women in Entrepreneurship in UAE ( http://arxiv.org/abs/2103.11430v1 ) ライセンス: Link先を確認 | Syed Farhan Ahmad, Amrah Hermayen and Ganga Bhavani | (参考訳) 知識発見は、データを分析し、そこから洞察を得てよりよいビジネス上の決定を下す上で、非常に重要な役割を果たす。
知識に基づく経済における起業は、国の経済の発展に大きく貢献する。
本稿では,アラブ首長国連邦における起業女性に対する調査について分析する。
関連する洞察は、起業家精神における女性の現状をより深く理解し、未来を予測するのに役立つデータから抽出されます。
これらの機能は機械学習を使って分析され、将来より良いビジネス判断を導く。 Knowledge Discovery plays a very important role in analyzing data and getting insights from them to drive better business decisions. Entrepreneurship in a Knowledge based economy contributes greatly to the development of a country's economy. In this paper, we analyze surveys that were conducted on women in entrepreneurship in UAE. Relevant insights are extracted from the data that can help us to better understand the current landscape of women in entrepreneurship and predict the future as well. The features are analyzed using machine learning to drive better business decisions in the future. | 翻訳日:2021-03-23 14:23:47 公開日:2021-03-21 |
# パンデミックボードゲームにおける協調エージェントゲームプレイ Collaborative Agent Gameplay in the Pandemic Board Game ( http://arxiv.org/abs/2103.11388v1 ) ライセンス: Link先を確認 | Konstantinos Sfikas and Antonios Liapis | (参考訳) 人工知能は半世紀以上ボードゲームにおけるプレイヤーの決定を制御するために用いられてきたが、プレイヤーの競争のないゲームにはほとんど注意が払われていない。
パンデミック(英: Pandemic)は、ゲーム進行中に発生した出来事によって引き起こされる課題を克服するために、全てのプレイヤーが協調する卓越したボードゲームである。
本稿では,この高度確率環境において,全てのプレイヤーの行動を制御し,勝敗と敗敗のリスクをバランスさせる人工エージェントを提案する。
エージェントは、分岐係数を低くし、ゲームの確率性をシミュレートするゲーム状態の抽象化にローリング水平進化アルゴリズムを適用する。
提案アルゴリズムは,様々な難易度を持つ異なるゲームにおいて,より一貫した勝利戦略を見出すことができることを示す。
多くの状態評価指標の影響について検討し、勝利を支持する楽観的な戦略と敗退を防ぐ悲観的な戦略のバランスをとる。 While artificial intelligence has been applied to control players' decisions in board games for over half a century, little attention is given to games with no player competition. Pandemic is an exemplar collaborative board game where all players coordinate to overcome challenges posed by events occurring during the game's progression. This paper proposes an artificial agent which controls all players' actions and balances chances of winning versus risk of losing in this highly stochastic environment. The agent applies a Rolling Horizon Evolutionary Algorithm on an abstraction of the game-state that lowers the branching factor and simulates the game's stochasticity. Results show that the proposed algorithm can find winning strategies more consistently in different games of varying difficulty. The impact of a number of state evaluation metrics is explored, balancing between optimistic strategies that favor winning and pessimistic strategies that guard against losing. | 翻訳日:2021-03-23 14:22:17 公開日:2021-03-21 |
# NeBula: 混在する環境におけるロボット自律性の探求; TEAM CoSTAR at the DARPA Subterranean Challenge NeBula: Quest for Robotic Autonomy in Challenging Environments; TEAM CoSTAR at the DARPA Subterranean Challenge ( http://arxiv.org/abs/2103.11470v1 ) ライセンス: Link先を確認 | Ali Agha, Kyohei Otsu, Benjamin Morrell, David D. Fan, Rohan Thakker, Angel Santamaria-Navarro, Sung-Kyun Kim, Amanda Bouman, Xianmei Lei, Jeffrey Edlund, Muhammad Fadhil Ginting, Kamak Ebadi, Matthew Anderson, Torkom Pailevanian, Edward Terry, Michael Wolf, Andrea Tagliabue, Tiago Stegun Vaquero, Matteo Palieri, Scott Tepsuporn, Yun Chang, Arash Kalantari, Fernando Chavez, Brett Lopez, Nobuhiro Funabiki, Gregory Miles, Thomas Touma, Alessandro Buscicchio, Jesus Tordesillas, Nikhilesh Alatur, Jeremy Nash, William Walsh, Sunggoo Jung, Hanseob Lee, Christoforos Kanellakis, John Mayo, Scott Harper, Marcel Kaufmann, Anushri Dixit, Gustavo Correa, Carlyn Lee, Jay Gao, Gene Merewether, Jairo Maldonado-Contreras, Gautam Salhotra, Maira Saboia Da Silva, Benjamin Ramtoula, Seyed Fakoorian, Alexander Hatteland, Taeyeon Kim, Tara Bartlett, Alex Stephens, Leon Kim, Chuck Bergh, Eric Heiden, Thomas Lew, Abhishek Cauligi, Tristan Heywood, Andrew Kramer, Henry A. Leopold, Chris Choi, Shreyansh Daftry, Olivier Toupet, Inhwan Wee, Abhishek Thakur, Micah Feras, Giovanni Beltrame, George Nikolakopoulos, David Shim, Luca Carlone, Joel Burdick | (参考訳) 本稿では,TEAM CoSTAR(Collaborative SubTerranean Autonomous Robots)によって開発されたアルゴリズム,ハードウェア,ソフトウェアアーキテクチャについて論じ,DARPA Subterranean Challengeに出場する。
具体的には、CoSTARがそれぞれ2位と1位を獲得したトンネル(2019年)と都市(2020年)の競技会で使用されている技術を紹介する。
また,火星-アナログ表面でのCoSTARの実証と地下(ラバ管)探査についても論じる。
本稿では、NeBula(Networked Belief-aware Perceptual Autonomy)と呼ばれる自律性ソリューションを紹介します。
nebulaは、信念空間(ロボットと世界の確率分布の空間)で推論と意思決定を行うことで、レジリエントでモジュラーな自律性ソリューションを実現することを目的とした不確実性認識フレームワークである。
i)幾何的・セマンティックな環境マッピング, (ii) マルチモーダルな位置決めシステム, (iii) トラバーサビリティ分析と局所計画, (iv) グローバルな動き計画と探索行動, (i) リスク対応ミッション計画, (vi) ネットワークと分散推論, (vi) 学習可能な適応など,NeBulaフレームワークのさまざまなコンポーネントについて議論する。
複数種類のロボット上でのNeBulaの性能について論じる(例)。
様々な環境において、車輪、脚、飛行する。
本稿では,DARPAサブテランチャレンジ大会の挑戦コースにおいて,この問題の具体的成果と教訓について論じる。 This paper presents and discusses algorithms, hardware, and software architecture developed by the TEAM CoSTAR (Collaborative SubTerranean Autonomous Robots), competing in the DARPA Subterranean Challenge. Specifically, it presents the techniques utilized within the Tunnel (2019) and Urban (2020) competitions, where CoSTAR achieved 2nd and 1st place, respectively. We also discuss CoSTAR's demonstrations in Martian-analog surface and subsurface (lava tubes) exploration. The paper introduces our autonomy solution, referred to as NeBula (Networked Belief-aware Perceptual Autonomy). NeBula is an uncertainty-aware framework that aims at enabling resilient and modular autonomy solutions by performing reasoning and decision making in the belief space (space of probability distributions over the robot and world states). We discuss various components of the NeBula framework, including: (i) geometric and semantic environment mapping; (ii) a multi-modal positioning system; (iii) traversability analysis and local planning; (iv) global motion planning and exploration behavior; (i) risk-aware mission planning; (vi) networking and decentralized reasoning; and (vii) learning-enabled adaptation. We discuss the performance of NeBula on several robot types (e.g. wheeled, legged, flying), in various environments. We discuss the specific results and lessons learned from fielding this solution in the challenging courses of the DARPA Subterranean Challenge competition. | 翻訳日:2021-03-23 14:22:01 公開日:2021-03-21 |
# leo breiman の論文 "statistical modeling: the two cultures" (statistical science, 2001, 16(3), 199-231) に対するコメント Comments on Leo Breiman's paper 'Statistical Modeling: The Two Cultures' (Statistical Science, 2001, 16(3), 199-231) ( http://arxiv.org/abs/2103.11327v1 ) ライセンス: Link先を確認 | Jelena Bradic and Yinchu Zhu | (参考訳) breiman氏は統計学者に、未知のモデルフリーな学習の世界に足を踏み入れるために、もっと広く考えるように求めた。
統計コミュニティはわずかな楽観主義、いくつかの懐疑主義、多くの不信感で反応した。
今日、私たちは新しい交差点にいます。
モデルフリー、ディープ、そして機械学習の巨大な実践的な成功に直面した私たちは、すべてが解決されていると考える傾向があります。
アルゴリズムの役割、影響、安定性がもはや予測品質によって測定されるのではなく、推論的なものとなり、"it why} と "it if} の質問はもはや無視できない。 Breiman challenged statisticians to think more broadly, to step into the unknown, model-free learning world, with him paving the way forward. Statistics community responded with slight optimism, some skepticism, and plenty of disbelief. Today, we are at the same crossroad anew. Faced with the enormous practical success of model-free, deep, and machine learning, we are naturally inclined to think that everything is resolved. A new frontier has emerged; the one where the role, impact, or stability of the {\it learning} algorithms is no longer measured by prediction quality, but an inferential one -- asking the questions of {\it why} and {\it if} can no longer be safely ignored. | 翻訳日:2021-03-23 14:20:23 公開日:2021-03-21 |
# スパース光場カメラにおける奥行き推定と視覚オドメトリーの教師なし学習 Unsupervised Learning of Depth Estimation and Visual Odometry for Sparse Light Field Cameras ( http://arxiv.org/abs/2103.11322v1 ) ライセンス: Link先を確認 | S. Tejaswi Digumarti (1 and 2), Joseph Daniel (1), Ahalya Ravendran (1 and 2), Donald G. Dansereau (1 and 2) ((1) School of Aerospace, Mechanical and Mechatronic Engineering, The University of Sydney, (2) Sydney Institute for Robotics and Intelligent Systems) | (参考訳) ロボットの知覚を劇的に改善する新しい画像装置のエキサイティングな多様性が浮かび上がっているが、これらのカメラの校正と解釈の難しさは、ロボットコミュニティにおける彼らの獲得を制限している。
本研究では,ロボットが新しいカメラを自律的に解釈できるように,教師なし学習からの手法を一般化する。
本研究では,平面を通過する光線の集合を記述する4d lf関数のサブセットを捉えたsparse light field (lf)カメラについて検討する。
本稿では,計測と深度を教師なしで学習できるスパースLFの一般化符号化を導入する。
提案手法は, 単眼画像と従来の4次元画像の処理方法より優れており, より高精度なオドメトリーと深度マップが得られた。
我々は,LFカメラと疎LFカメラの幅広いクラスに一般化し,ロボットの生涯におけるカメラの挙動の変化に対処するための教師なしのリカバリを可能にすることを期待する。
この研究は、ロボットアプリケーションにおける新しい種類のイメージングデバイスの統合を合理化する第一歩である。 While an exciting diversity of new imaging devices is emerging that could dramatically improve robotic perception, the challenges of calibrating and interpreting these cameras have limited their uptake in the robotics community. In this work we generalise techniques from unsupervised learning to allow a robot to autonomously interpret new kinds of cameras. We consider emerging sparse light field (LF) cameras, which capture a subset of the 4D LF function describing the set of light rays passing through a plane. We introduce a generalised encoding of sparse LFs that allows unsupervised learning of odometry and depth. We demonstrate the proposed approach outperforming monocular and conventional techniques for dealing with 4D imagery, yielding more accurate odometry and depth maps and delivering these with metric scale. We anticipate our technique to generalise to a broad class of LF and sparse LF cameras, and to enable unsupervised recalibration for coping with shifts in camera behaviour over the lifetime of a robot. This work represents a first step toward streamlining the integration of new kinds of imaging devices in robotics applications. | 翻訳日:2021-03-23 14:19:45 公開日:2021-03-21 |
# BigCarl: 1つの大きなペトリネットから頻繁なサブネットをマイニング BigCarl: Mining frequent subnets from a single large Petri net ( http://arxiv.org/abs/2103.11342v1 ) ライセンス: Link先を確認 | Ruqian Lu, Shuhan Zhang | (参考訳) 頻繁なサブグラフマイニングの研究は数多く行われているが、ペトリネットのような複雑なデータ構造から頻繁にサブネットマイニングについて論じている出版物は非常に稀である。
本稿では,単一の大きなペトリネットからマイニングするサブネットについて検討する。
我々は、ペトリネットをネットグラフ形式に変換し、高複雑性を避けるために頻繁にサブネットグラフをマイニングするというアイデアに従う。
技術的には、我々はビッグネットグラフの標準ラベルを作成するために最小トラバーサルアプローチを取る。
我々は、最大独立埋め込みセットアプローチをネットグラフ表現に適用し、単一の大きなネットグラフから頻繁なサブネットグラフを発見できるインクリメンタルなパターン成長(独立埋め込みセット還元)手法を提案し、最終的に頻繁なサブネットに変換した。
10Kの事象、40Kの条件、30Kのアークを含む1つの大きなペトリネット上での大規模な性能研究は、我々のアプローチが正しく、複雑さが妥当であることを示した。 While there have been lots of work studying frequent subgraph mining, very rare publications have discussed frequent subnet mining from more complicated data structures such as Petri nets. This paper studies frequent subnets mining from a single large Petri net. We follow the idea of transforming a Petri net in net graph form and to mine frequent sub-net graphs to avoid high complexity. Technically, we take a minimal traversal approach to produce a canonical label of the big net graph. We adapted the maximal independent embedding set approach to the net graph representation and proposed an incremental pattern growth (independent embedding set reduction) way for discovering frequent sub-net graphs from the single large net graph, which are finally transformed back to frequent subnets. Extensive performance studies made on a single large Petri net, which contains 10K events, 40K conditions and 30 K arcs, showed that our approach is correct and the complexity is reasonable. | 翻訳日:2021-03-23 14:14:58 公開日:2021-03-21 |
# 未知の遅延を伴うオンラインコンベックス最適化 Online Strongly Convex Optimization with Unknown Delays ( http://arxiv.org/abs/2103.11354v1 ) ライセンス: Link先を確認 | Yuanyu Wan, Wei-Wei Tu, Lijun Zhang | (参考訳) 本研究では,決定のフィードバックが任意の遅延で到着する,未知の遅延を伴うオンライン凸最適化の問題について検討する。
これまでの研究では、オンライン勾配降下(英語版) (ogd) の遅延変種を示しており、d$ は$t$ のラウンドに対する遅延の和である凸条件のみを利用することで、o(\sqrt{t+d})$ の後悔の限界を達成した。
本稿では,この強い凸性を利用して,後悔関係を改善する。
具体的には、まず、強い凸関数に対するOGDの遅延変形を拡張し、$O(d\log T)$のより良い後悔境界を確立し、$d$が最大の遅延である。
基本的なアイデアは、受信したフィードバックの総数を直線的に学習率を減衰させることである。
さらに,提案手法に古典的多点勾配推定器を組み込むことにより,より困難な帯域設定を考察し,同様の理論的保証を得る。
私たちの知る限りでは、これは一般的な遅延設定の下で、オンラインの強い凸最適化を解決する最初の仕事です。 We investigate the problem of online convex optimization with unknown delays, in which the feedback of a decision arrives with an arbitrary delay. Previous studies have presented a delayed variant of online gradient descent (OGD), and achieved the regret bound of $O(\sqrt{T+D})$ by only utilizing the convexity condition, where $D$ is the sum of delays over $T$ rounds. In this paper, we further exploit the strong convexity to improve the regret bound. Specifically, we first extend the delayed variant of OGD for strongly convex functions, and establish a better regret bound of $O(d\log T)$, where $d$ is the maximum delay. The essential idea is to let the learning rate decay with the total number of received feedback linearly. Furthermore, we consider the more challenging bandit setting, and obtain similar theoretical guarantees by incorporating the classical multi-point gradient estimator into our extended method. To the best of our knowledge, this is the first work that solves online strongly convex optimization under the general delayed setting. | 翻訳日:2021-03-23 14:14:41 公開日:2021-03-21 |
# 連続スイッチング制約によるオンライン凸最適化 Online Convex Optimization with Continuous Switching Constraint ( http://arxiv.org/abs/2103.11370v1 ) ライセンス: Link先を確認 | Guanghui Wang, Yuanyu Wan, Tianbao Yang, Lijun Zhang | (参考訳) 多くのシーケンシャルな意思決定アプリケーションでは、意思決定の変更により、サーバの状態変更に伴う摩耗と耳のコストなどの追加コストが発生する。
スイッチングコストを制御するために,連続的なスイッチング制約を伴うオンライン凸最適化の問題を導入する。
まず問題の難易度を調査し,スイッチングコストが$s=\omega(\sqrt{t})$,$\omega(\min\{\frac {t}{s},t\})$ when $s=o(\sqrt{t})$,ただし$t$が時間軸である場合,$s=\omega(\sqrt{t})$ の順に下限を与える。
本研究の基本的な考え方は, 直交技術に基づいて, これまでのプレイヤーの累積スイッチングコストに応じて損失関数を調整可能な適応敵を慎重に設計することである。
次に,ミニマックス最適後悔境界を満足する簡単な勾配に基づくアルゴリズムを開発した。
最後に、強い凸関数の場合、後悔境界は$O(\log T)$ for $S=\Omega(\log T)$, $O(\min\{T/\exp(S)+S,T\})$ for $S=O(\log T)$に改善できることを示す。 In many sequential decision making applications, the change of decision would bring an additional cost, such as the wear-and-tear cost associated with changing server status. To control the switching cost, we introduce the problem of online convex optimization with continuous switching constraint, where the goal is to achieve a small regret given a budget on the \emph{overall} switching cost. We first investigate the hardness of the problem, and provide a lower bound of order $\Omega(\sqrt{T})$ when the switching cost budget $S=\Omega(\sqrt{T})$, and $\Omega(\min\{\frac{T}{S},T\})$ when $S=O(\sqrt{T})$, where $T$ is the time horizon. The essential idea is to carefully design an adaptive adversary, who can adjust the loss function according to the cumulative switching cost of the player incurred so far based on the orthogonal technique. We then develop a simple gradient-based algorithm which enjoys the minimax optimal regret bound. Finally, we show that, for strongly convex functions, the regret bound can be improved to $O(\log T)$ for $S=\Omega(\log T)$, and $O(\min\{T/\exp(S)+S,T\})$ for $S=O(\log T)$. | 翻訳日:2021-03-23 14:14:21 公開日:2021-03-21 |
# 非古典的シミュレート可能な特徴マップを用いたHQCアーキテクチャによる量子機械学習 Quantum Machine Learning with HQC Architectures using non-Classically Simulable Feature Maps ( http://arxiv.org/abs/2103.11381v1 ) ライセンス: Link先を確認 | Syed Farhan Ahmad, Raghav Rawat and Minal Moharir | (参考訳) ハイブリッド量子古典(HQC)アーキテクチャは、量子機械学習問題を解決するために、NISQ量子コンピュータで使用される。
量子のアドバンテージは、古典的コンピューティングよりも指数関数的なスピードアップによって浮かび上がっています。
このようなアルゴリズムの実装における大きな課題の1つは、量子埋め込みの選択と機能的に正しい量子変分回路の使用である。
本稿では,OSMIメンタルヘルス・テクノロジー・サーベイのデータセットを用いて,将来技術界でメンタルヘルスを求められるかどうかを予測するため,QSVM(Quantum Support Vector Machines)の応用を提案する。
量子機械学習のためのnisq hqcアーキテクチャは、短期的な実世界のアプリケーションで優れたパフォーマンスモデルを作成するために代替として使用できることを証明します。 Hybrid Quantum-Classical (HQC) Architectures are used in near-term NISQ Quantum Computers for solving Quantum Machine Learning problems. The quantum advantage comes into picture due to the exponential speedup offered over classical computing. One of the major challenges in implementing such algorithms is the choice of quantum embeddings and the use of a functionally correct quantum variational circuit. In this paper, we present an application of QSVM (Quantum Support Vector Machines) to predict if a person will require mental health treatment in the tech world in the future using the dataset from OSMI Mental Health Tech Surveys. We achieve this with non-classically simulable feature maps and prove that NISQ HQC Architectures for Quantum Machine Learning can be used alternatively to create good performance models in near-term real-world applications. | 翻訳日:2021-03-23 14:13:51 公開日:2021-03-21 |
# グラフ自動エンコーダの強化がリンク予測の安定化と強化に役立つ Deepened Graph Auto-Encoders Help Stabilize and Enhance Link Prediction ( http://arxiv.org/abs/2103.11414v1 ) ライセンス: Link先を確認 | Xinxing Wu and Qiang Cheng | (参考訳) グラフニューラルネットワークは、リンク予測、ノード分類、ノードクラスタリングなど、さまざまな学習タスクに使用されている。
それらのうちリンク予測は比較的未研究のグラフ学習タスクであり、現在の最先端モデルは浅いグラフオートエンコーダ(GAE)アーキテクチャの1層または2層に基づいている。
本稿では,浅いゲイや変動ゲイのみを使用できるリンク予測のための現在の手法の限界に対処し,安定した競合性能を達成するために(可変的な)gaeアーキテクチャを深く深める効果的な手法を作成することに焦点を当てる。
提案手法は,標準オートエンコーダ(AE)を革新的にGAEのアーキテクチャに組み込んだもので,標準AEを有効活用して,隣接情報とノード特徴をシームレスに統合することで,必要不可欠な低次元表現を学習し,GAEは残差接続を介してマルチスケールの低次元表現を構築し,リンク予測のためのコンパクトな総合埋め込みを学習する。
実験により,様々なベンチマークデータセットに対する広範囲な実験を行い,提案手法の有効性を検証し,リンク予測のためのグラフモデルの競争力を実証した。
理論的には、深い拡張が複数の多項式フィルタを異なる順序で包括的に表現することを証明する。 Graph neural networks have been used for a variety of learning tasks, such as link prediction, node classification, and node clustering. Among them, link prediction is a relatively under-studied graph learning task, with current state-of-the-art models based on one- or two-layer of shallow graph auto-encoder (GAE) architectures. In this paper, we focus on addressing a limitation of current methods for link prediction, which can only use shallow GAEs and variational GAEs, and creating effective methods to deepen (variational) GAE architectures to achieve stable and competitive performance. Our proposed methods innovatively incorporate standard auto-encoders (AEs) into the architectures of GAEs, where standard AEs are leveraged to learn essential, low-dimensional representations via seamlessly integrating the adjacency information and node features, while GAEs further build multi-scaled low-dimensional representations via residual connections to learn a compact overall embedding for link prediction. Empirically, extensive experiments on various benchmarking datasets verify the effectiveness of our methods and demonstrate the competitive performance of our deepened graph models for link prediction. Theoretically, we prove that our deep extensions inclusively express multiple polynomial filters with different orders. | 翻訳日:2021-03-23 14:13:36 公開日:2021-03-21 |
# オンライン不確実性推定を用いたハードウェアベースマルウェア検出装置の信頼性向上に向けて Towards Improving the Trustworthiness of Hardware based Malware Detector using Online Uncertainty Estimation ( http://arxiv.org/abs/2103.11519v1 ) ライセンス: Link先を確認 | Harshit Kumar, Nikhil Chawla, Saibal Mukhopadhyay | (参考訳) 機械学習(ML)モデルを使用したハードウェアベースのマルウェア検出(HMD)では、悪意のあるワークロードを検出することが保証されている。
しかし、これらのHMDで使用される従来のブラックボックスベースの機械学習(ML)アプローチでは、ゼロデイマルウェアを含む不確実な予測に対処できない。
HMDで使用されるMLモデルは、モデルが「知っていることを知っている」かどうかを判断する不確実性に非依存であり、信頼性を著しく損なう。
本稿では,HMDのMLモデルによる予測において,トレーニング対象よりも未知の作業負荷に遭遇した場合に不確実性を定量化するアンサンブルに基づく手法を提案する。
文献で提案されている2種類の異なるhmdを用いて実験を行った。
提案した不確実性推定器は、電力管理ベースのHMDの未知のワークロードの90%以上を検出でき、重なり合う良性およびマルウェアクラスは、パフォーマンスカウンタベースのHMDの信頼性を損なう。 Hardware-based Malware Detectors (HMDs) using Machine Learning (ML) models have shown promise in detecting malicious workloads. However, the conventional black-box based machine learning (ML) approach used in these HMDs fail to address the uncertain predictions, including those made on zero-day malware. The ML models used in HMDs are agnostic to the uncertainty that determines whether the model "knows what it knows," severely undermining its trustworthiness. We propose an ensemble-based approach that quantifies uncertainty in predictions made by ML models of an HMD, when it encounters an unknown workload than the ones it was trained on. We test our approach on two different HMDs that have been proposed in the literature. We show that the proposed uncertainty estimator can detect >90% of unknown workloads for the Power-management based HMD, and conclude that the overlapping benign and malware classes undermine the trustworthiness of the Performance Counter-based HMD. | 翻訳日:2021-03-23 14:13:14 公開日:2021-03-21 |
# フォッグ無線アクセスネットワークにおける最適フロントハウリングと分散エッジ計算の学習 Learning Optimal Fronthauling and Decentralized Edge Computation in Fog Radio Access Networks ( http://arxiv.org/abs/2103.11284v1 ) ライセンス: Link先を確認 | Hoon Lee, Junbeom Kim, Seok-Hwan Park | (参考訳) フォグ無線アクセスネットワーク (f-rans) はクラウドと複数のエッジノード (ens) をフロントホールリンクで接続し、有望なネットワークアーキテクチャと見なされている。
F-RANは、クラウドとエッジコンピューティングの協調最適化と、従来の最適化技術では難しいフロントホールインタラクションを必要とする。
本稿では、一般的なF-RAN最適化問題を扱うための構造的深層学習機構であるCloud-Enabled Cooperation-Inspired Learning (CECIL)フレームワークを提案する。
提案手法は,クラウド上の集中型コンピューティング,ENにおける分散決定,およびアップリンク-ダウンリンクフロントホール相互作用を含む,クラウド支援型協調最適化ポリシを模倣する。
クラウドとENの計算を特徴付けるために、ディープニューラルネットワーク(DNN)のグループが使用されている。
DNNのフォワードパスは、チャネルノイズやサインリングオーバーヘッドなどの実用的なフロントホールリンクの影響をトレーニングステップに含めるように慎重に設計されている。
その結果、クラウドとENの操作をエンドツーエンドで共同で訓練できる一方、リアルタイムの推論はフロントホール調整により分散的に行うことができる。
複数のen間のフロントホール連携を容易にするために、最適なフロントホール多重アクセススキームを設計する。
実用的フロントホール障害に対して堅牢なトレーニングアルゴリズムも提示する。
提案手法の有効性を数値計算により検証した。 Fog radio access networks (F-RANs), which consist of a cloud and multiple edge nodes (ENs) connected via fronthaul links, have been regarded as promising network architectures. The F-RAN entails a joint optimization of cloud and edge computing as well as fronthaul interactions, which is challenging for traditional optimization techniques. This paper proposes a Cloud-Enabled Cooperation-Inspired Learning (CECIL) framework, a structural deep learning mechanism for handling a generic F-RAN optimization problem. The proposed solution mimics cloud-aided cooperative optimization policies by including centralized computing at the cloud, distributed decision at the ENs, and their uplink-downlink fronthaul interactions. A group of deep neural networks (DNNs) are employed for characterizing computations of the cloud and ENs. The forwardpass of the DNNs is carefully designed such that the impacts of the practical fronthaul links, such as channel noise and signling overheads, can be included in a training step. As a result, operations of the cloud and ENs can be jointly trained in an end-to-end manner, whereas their real-time inferences are carried out in a decentralized manner by means of the fronthaul coordination. To facilitate fronthaul cooperation among multiple ENs, the optimal fronthaul multiple access schemes are designed. Training algorithms robust to practical fronthaul impairments are also presented. Numerical results validate the effectiveness of the proposed approaches. | 翻訳日:2021-03-23 14:10:44 公開日:2021-03-21 |
# ANITA: 最適ループレス加速分散誘導勾配法 ANITA: An Optimal Loopless Accelerated Variance-Reduced Gradient Method ( http://arxiv.org/abs/2103.11333v1 ) ライセンス: Link先を確認 | Zhize Li | (参考訳) 本稿では,有限サム最適化のための新しい高速化分散分散勾配法anitaを提案する。
本稿では,一般凸設定と強凸設定の両方を考える。
一般凸設定において、anita は、収束結果 $o\big(n\min\big\{1+\log\frac{1}{\epsilon\sqrt{n}}, \log\sqrt{n}\big\} + \sqrt{\frac{nl}{\epsilon}} \big)$ を達成し、これまでの最良の結果 $o\big(n\min\{\log\frac{1}{\epsilon}, \log n\}+\sqrt{\frac{nl}{\epsilon}}\big)$ をvarag (lan et al., 2019) によって与えられる。
特に、非常に広い範囲の$\epsilon$に対して、$\epsilon \in (0,\frac{L}{n\log^2\sqrt{n}}]\cup [\frac{1}{\sqrt{n}},+\infty)$, where $\epsilon$ is the error tolerance $f(x_T)-f^*\leq \epsilon$ and $n$ is the number of data sample, ANITA can achieve the optimal convergence result $O\big(n+\sqrt {\frac{nL}{\epsilon}}\big)$ matching the lower bound $\Omega\big(n+\sqrt {\frac{n}{\epsilon}}\big)$.
私たちの知る限りでは、anita は \emph{first} 加速アルゴリズムであり、一般凸有限和問題に対してこの最適結果 $o\big(n+\sqrt{\frac{nl}{\epsilon}}\big)$ を達成することができる。
強凸設定では、anita は lan と zhou (2015) によって提供された下限 $o\big(\big(n+\sqrt{\frac{nl}{\mu}}\big)\log\frac{1}{\epsilon}\big)$ を満たす最適収束結果 $o\big(\big(n+\sqrt{\frac{nl}{\mu}}\big)\log\frac{1}{\epsilon}\big)$ を実現できることを示した。
さらにanitaは、katyusha (allen-zhu, 2017)やvarag (lan et al., 2019)のような以前の高速化アルゴリズムとは異なり、ループレスなアルゴリズム構造を楽しんだ。
最後に,ANITAは従来のVarag(Lan et al., 2019)よりも早く収束し,理論的な結果が検証され,ANITAの実用的優位性が確認された。 We propose a novel accelerated variance-reduced gradient method called ANITA for finite-sum optimization. In this paper, we consider both general convex and strongly convex settings. In the general convex setting, ANITA achieves the convergence result $O\big(n\min\big\{1+\log\frac{1}{\epsilon\sqrt{n}}, \log\sqrt{n}\big\} + \sqrt{\frac{nL}{\epsilon}} \big)$, which improves the previous best result $O\big(n\min\{\log\frac{1}{\epsilon}, \log n\}+\sqrt{\frac{nL}{\epsilon}}\big)$ given by Varag (Lan et al., 2019). In particular, for a very wide range of $\epsilon$, i.e., $\epsilon \in (0,\frac{L}{n\log^2\sqrt{n}}]\cup [\frac{1}{\sqrt{n}},+\infty)$, where $\epsilon$ is the error tolerance $f(x_T)-f^*\leq \epsilon$ and $n$ is the number of data samples, ANITA can achieve the optimal convergence result $O\big(n+\sqrt{\frac{nL}{\epsilon}}\big)$ matching the lower bound $\Omega\big(n+\sqrt{\frac{nL}{\epsilon}}\big)$ provided by Woodworth and Srebro (2016). To the best of our knowledge, ANITA is the \emph{first} accelerated algorithm which can \emph{exactly} achieve this optimal result $O\big(n+\sqrt{\frac{nL}{\epsilon}}\big)$ for general convex finite-sum problems. In the strongly convex setting, we also show that ANITA can achieve the optimal convergence result $O\Big(\big(n+\sqrt{\frac{nL}{\mu}}\big)\log\frac{1}{\epsilon}\Big)$ matching the lower bound $\Omega\Big(\big(n+\sqrt{\frac{nL}{\mu}}\big)\log\frac{1}{\epsilon}\Big)$ provided by Lan and Zhou (2015). Moreover, ANITA enjoys a simpler loopless algorithmic structure unlike previous accelerated algorithms such as Katyusha (Allen-Zhu, 2017) and Varag (Lan et al., 2019) where they use an inconvenient double-loop structure. Finally, the experimental results also show that ANITA converges faster than previous state-of-the-art Varag (Lan et al., 2019), validating our theoretical results and confirming the practical superiority of ANITA. | 翻訳日:2021-03-23 14:10:20 公開日:2021-03-21 |
# 線形多段階法によるダイナミクスの発見と深層学習:誤差推定 The Discovery of Dynamics via Linear Multistep Methods and Deep Learning: Error Estimation ( http://arxiv.org/abs/2103.11488v1 ) ライセンス: Link先を確認 | Qiang Du and Yiqi Gu and Haizhao Yang and Chao Zhou | (参考訳) 観測データから隠れたダイナミクスを識別することは、幅広いアプリケーションにおいて重要かつ困難な課題である。
近年,線形多段法(lmms)と深層学習(deep learning)の組み合わせが力学の発見に成功している一方,この手法の完全収束解析はまだ開発途上である。
本研究では,ダイナミックス発見のための深層ネットワーク型LMMについて考察する。
深層ネットワークの近似特性を用いて,これらの手法の誤差推定を行った。
これは、ある lmm の族に対して、$\ell^2$ のグリッドエラーは $o(h^p)$ の合計とネットワーク近似誤差で区切られており、ここで $h$ は時間ステップサイズ、$p$ は局所トランザクションエラー順序であることを示している。
我々の理論を実証するために、いくつかの物理的に関係のある例の数値的な結果を提供する。 Identifying hidden dynamics from observed data is a significant and challenging task in a wide range of applications. Recently, the combination of linear multistep methods (LMMs) and deep learning has been successfully employed to discover dynamics, whereas a complete convergence analysis of this approach is still under development. In this work, we consider the deep network-based LMMs for the discovery of dynamics. We put forward error estimates for these methods using the approximation property of deep networks. It indicates, for certain families of LMMs, that the $\ell^2$ grid error is bounded by the sum of $O(h^p)$ and the network approximation error, where $h$ is the time step size and $p$ is the local truncation error order. Numerical results of several physically relevant examples are provided to demonstrate our theory. | 翻訳日:2021-03-23 14:08:59 公開日:2021-03-21 |
# 物理学習によるX線CTの散乱補正 Scatter Correction in X-ray CT by Physics-Inspired Deep Learning ( http://arxiv.org/abs/2103.11509v1 ) ライセンス: Link先を確認 | Berk Iskender, Yoram Bresler | (参考訳) X線CT(CT)の基本的な問題は、光子と画像オブジェクトの相互作用による散乱である。
修正されない限り、散乱は様々なアーティファクトの形での復元の劣化としてそれ自体を表わす。
したがって、散乱補正は再構成品質に不可欠である。
散乱補正法は、ハードウェアベースとソフトウェアベースの2つのカテゴリに分類できる。
特定の設定で成功したにもかかわらず、ハードウェアベースの方法はハードウェアの変更やスキャン時間や線量の増加を必要とする。
これにより、ソフトウェアベースのメソッドが魅力的になる。
この文脈では、モンテカルロに基づく散乱推定、解析的数値法およびカーネルに基づく手法が開発された。
さらに、この問題に対処するためのデータ駆動アプローチも最近実証された。
本研究では,PhILSCAT と OV-PhILSCAT という,物理に着想を得た新しい深層学習手法を提案する。
提案手法は, 得られた予測値の散乱を推定し, 補正する。
彼らは興味の対象の初期の再構築とそれに関連する散乱崩壊測定の両方を取り入れている。
彼らは共通のディープニューラルネットワークアーキテクチャとコスト関数を使用し、どちらも問題に合わせている。
ファントム画像のモンテカルロシミュレーションにより得られたデータを用いた数値実験により、最近の純射影領域深部ニューラルネットワーク散乱補正法よりも大幅に改善された。 A fundamental problem in X-ray Computed Tomography (CT) is the scatter due to interaction of photons with the imaged object. Unless corrected, scatter manifests itself as degradations in the reconstructions in the form of various artifacts. Scatter correction is therefore critical for reconstruction quality. Scatter correction methods can be divided into two categories: hardware-based; and software-based. Despite success in specific settings, hardware-based methods require modification in the hardware, or increase in the scan time or dose. This makes software-based methods attractive. In this context, Monte-Carlo based scatter estimation, analytical-numerical, and kernel-based methods were developed. Furthermore, data-driven approaches to tackle this problem were recently demonstrated. In this work, two novel physics-inspired deep-learning-based methods, PhILSCAT and OV-PhILSCAT, are proposed. The methods estimate and correct for the scatter in the acquired projection measurements. They incorporate both an initial reconstruction of the object of interest and the scatter-corrupted measurements related to it. They use a common deep neural network architecture and cost function, both tailored to the problem. Numerical experiments with data obtained by Monte-Carlo simulations of the imaging of phantoms reveal significant improvement over a recent purely projection-domain deep neural network scatter correction method. | 翻訳日:2021-03-23 14:08:43 公開日:2021-03-21 |
# (参考訳) 動的環境に対する位置認識のための識別的・意味的特徴選択 Discriminative and Semantic Feature Selection for Place Recognition towards Dynamic Environments ( http://arxiv.org/abs/2103.10023v2 ) ライセンス: CC BY-SA 4.0 | Yuxin Tian, Jinyu MIao, Xingming Wu, Haosong Yue, Zhong Liu, Weihai Chen | (参考訳) 様々な視覚的タスク、特に知覚変化環境に適用される視覚的位置認識において、特徴は重要な役割を果たす。
本稿では,DSFeatと呼ばれる識別的・意味的特徴選択ネットワークを提案することにより,動的・不整合パターンによる位置認識の課題に対処する。
セマンティクス情報とアテンション機構の両方によって監視され、特徴が抽出された静的かつ安定な領域の確率を示す特徴の画素単位での安定性を推定し、動的干渉に影響を受けず、正しくマッチングできる特徴を選択することができる。
デザインされた特徴選択モデルは、様々な外観と視点を持つ複数の公開データセットにおいて、位置認識とSLAMシステムで評価される。
実験の結果,提案手法の有効性が示唆された。
私たちの提案は、機能ベースのSLAMシステムに簡単にプラグインできることに注意してください。 Features play an important role in various visual tasks, especially in visual place recognition applied in perceptual changing environments. In this paper, we address the challenges of place recognition due to dynamics and confusable patterns by proposing a discriminative and semantic feature selection network, dubbed as DSFeat. Supervised by both semantic information and attention mechanism, we can estimate pixel-wise stability of features, indicating the probability of a static and stable region from which features are extracted, and then select features that are insensitive to dynamic interference and distinguishable to be correctly matched. The designed feature selection model is evaluated in place recognition and SLAM system in several public datasets with varying appearances and viewpoints. Experimental results conclude that the effectiveness of the proposed method. It should be noticed that our proposal can be readily pluggable into any feature-based SLAM system. | 翻訳日:2021-03-23 13:33:04 公開日:2021-03-21 |