このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200912となっている論文です。

PDF登録状況(公開日: 20200912)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルデコーダを用いたセミオン符号閾値の決定

Determination of the Semion Code Threshold using Neural Decoders ( http://arxiv.org/abs/2002.08666v2 )

ライセンス: Link先を確認
Santiago Varona and Miguel Angel Martin-Delgado(参考訳) 我々は、同じゲージ対称性群 $\mathbb{z}_2$ を持つキタエフトーリック符号のコンパニオンであるセミロン符号の誤差しきい値を計算する。 統計的メカニカルマッピング法の適用は、コードが非Pauliで非CSSであるため、セミオン符号には非常に不適である。 そこで我々は、ニューラルネットワークデコーダ(多層パーセプトロンと畳み込みニューラルネットワーク(CNN))のほぼ最適性能を利用する機械学習手法を用いた。 p_{\text {eff}}=9.5\%$ は非相関ビットフリップノイズと位相フリップノイズに、$p_{\text {eff}}=10.5\%$ は非分極ノイズに等しい。 これらの値を、同じ方法で六角形格子上のキタエフトーリック符号の類似解析と対比する。 畳み込みニューラルネットワークでは、resnetアーキテクチャを使用して、非常に深いネットワークを実装し、多層パーセプトロンアプローチよりも優れたパフォーマンスとスケーラビリティを実現しています。 両者のアプローチを詳細に分析・比較し,cnnをセミオン符号の最適数値法として好む明確な議論を提供する。

We compute the error threshold for the semion code, the companion of the Kitaev toric code with the same gauge symmetry group $\mathbb{Z}_2$. The application of statistical mechanical mapping methods is highly discouraged for the semion code, since the code is non-Pauli and non-CSS. Thus, we use machine learning methods, taking advantage of the near-optimal performance of some neural network decoders: multilayer perceptrons and convolutional neural networks (CNNs). We find the values $p_{\text {eff}}=9.5\%$ for uncorrelated bit-flip and phase-flip noise, and $p_{\text {eff}}=10.5\%$ for depolarizing noise. We contrast these values with a similar analysis of the Kitaev toric code on a hexagonal lattice with the same methods. For convolutional neural networks, we use the ResNet architecture, which allows us to implement very deep networks and results in better performance and scalability than the multilayer perceptron approach. We analyze and compare in detail both approaches and provide a clear argument favoring the CNN as the best suited numerical method for the semion code.
翻訳日:2023-06-03 02:50:40 公開日:2020-09-12
# 光顕微鏡の光障害限界を克服する量子相関

Quantum correlations overcome the photodamage limits of light microscopy ( http://arxiv.org/abs/2004.00178v2 )

ライセンス: Link先を確認
Catxere A. Casacio, Lars S. Madsen, Alex Terrasson, Muhammad Waleed, Kai Barnscheidt, Boris Hage, Michael A. Taylor and Warwick P. Bowen(参考訳) 最先端の顕微鏡は強いレーザーを使用し、生物学的プロセス、機能、生存性を著しく乱す。 これは量子光子相関のみを克服できる性能に厳しい制限をもたらす。 ここでは、この絶対的な量子アドバンテージを実証し、従来の顕微鏡の光害のない容量を超えて信号対ノイズを実現する。 これをコヒーレントラマン顕微鏡で達成し、量子エンハンスコントラストとサブ波長分解能の両方を持つ細胞内の分子結合を撮像する。 これにより、ナノスケールの生物学的構造の観察が可能となり、そうでなければ解決されない。 コヒーレントラマン顕微鏡は、未標識の標本において高い選択的生体分子の指印刷を可能にするが、多くの用途において光損傷は主要な障害である。 この障害を克服できることを示すことで、我々の研究は、感度と撮像速度の両方において、マグニチュードの改善への道を開く。

State-of-the-art microscopes use intense lasers that can severely disturb biological processes, function and viability. This introduces hard limits on performance that only quantum photon correlations can overcome. Here we demonstrate this absolute quantum advantage, achieving signal-to-noise beyond the photodamage-free capacity of conventional microscopy. We achieve this in a coherent Raman microscope, which we use to image molecular bonds within a cell with both quantum-enhanced contrast and sub-wavelength resolution. This allows the observation of nanoscale biological structures that would otherwise not be resolved. Coherent Raman microscopes allow highly selective biomolecular finger-printing in unlabelled specimens, but photodamage is a major roadblock for many applications. By showing that this roadblock can be overcome, our work provides a path towards order-of-magnitude improvements in both sensitivity and imaging speed.
翻訳日:2023-05-27 05:38:33 公開日:2020-09-12
# 短距離スピン交換相互作用によるスピンスクイージング

Spin squeezing with short-range spin-exchange interactions ( http://arxiv.org/abs/2006.00723v3 )

ライセンス: Link先を確認
Michael A. Perlin and Chunlei Qu and Ana Maria Rey(参考訳) 我々は、距離$r$=1/r^\alpha$ in $D=2$と空間次元$3$の相互作用を持つXXZモデルにおける多体スピンスクイージングダイナミクスについて検討する。 イジングモデルとは対照的に、スピンスクイージングが無限範囲の$\alpha=0$ 極限に匹敵する広いパラメータレジームは、相互作用が短距離の$\alpha>d$であっても達成可能である。 最適スクイージングがシステムサイズで成長する「集合的」な振る舞いの領域は、最も近い-neighbor相互作用の$\alpha\to\infty$の極限まで拡張される。 我々の予測は、離散的に切り離されたウィグナー近似(DTWA)を用いて、様々な実験的な低温原子、分子、光学プラットフォームで検証可能である。

We investigate many-body spin squeezing dynamics in an XXZ model with interactions that fall off with distance $r$ as $1/r^\alpha$ in $D=2$ and $3$ spatial dimensions. In stark contrast to the Ising model, we find a broad parameter regime where spin squeezing comparable to the infinite-range $\alpha=0$ limit is achievable even when interactions are short-ranged, $\alpha>D$. A region of "collective" behavior in which optimal squeezing grows with system size extends all the way to the $\alpha\to\infty$ limit of nearest-neighbor interactions. Our predictions, made using the discrete truncated Wigner approximation (DTWA), are testable in a variety of experimental cold atomic, molecular, and optical platforms.
翻訳日:2023-05-17 11:37:48 公開日:2020-09-12
# ガウス状態における多パラメータ量子推定理論

Multiparameter Quantum Estimation Theory in Quantum Gaussian states ( http://arxiv.org/abs/2009.00762v3 )

ライセンス: Link先を確認
Lahcen Bakmou, Mohammed Daoud, Rachid ahl laamara(参考訳) マルチパラメータ量子推定理論は、与えられた量子システムの状態に含まれる全てのパラメータの最終的な精度を同時に決定することを目的としている。 この究極の精度の決定は量子フィッシャー情報行列 (qfim) に依存するが、これは量子クレーダ-ラオ境界を得るのに必須である。 この研究の主な動機は、QFIMの解析的表現の計算に関するものである。 J. Physのレポートに触発された。 52, 035304 (2019) では、第一モーメントと第二モーメントという観点から、量子ガウス状態のマルチパラメータ量子推定理論の一般形式が与えられる。 右対数微分(RLD)および対称対数微分(SLD)演算子の解析式を与える。 次に、対応する量子フィッシャー情報行列の一般表現を導出する。 また,複数のパラメータを推定する際に,量子クレーア・ラオの飽和を保証する条件の明示的な表現も導出する。 最後に,結果の活用事例について考察する。

Multiparameter quantum estimation theory aims to determine simultaneously the ultimate precision of all parameters contained in the state of a given quantum system. Determining this ultimate precision depends on the quantum Fisher information matrix (QFIM) which is essential to obtaining the quantum Cram\'er-Rao bound. This is the main motivation of this work which concerns the computation of the analytical expression of the QFIM. Inspired by the results reported in J. Phys. A 52, 035304 (2019), the general formalism of the multiparameter quantum estimation theory of quantum Gaussian states in terms of their first and second moments are given. We give the analytical formulas of right logarithmic derivative (RLD) and symmetric logarithmic derivative (SLD) operators. Then we derive the general expressions of the corresponding quantum Fisher information matrices. We also derive an explicit expression of the condition which ensures the saturation of the quantum Cram\'er-Rao bound in estimating several parameters. Finally, we examine some examples to clarify the use of our results
翻訳日:2023-05-04 01:18:53 公開日:2020-09-12
# マルチモーダル型ラストマイル配送システムの設計とその応用

Multimodal Autonomous Last Mile Delivery System Design and Application ( http://arxiv.org/abs/2009.01960v2 )

ライセンス: Link先を確認
Farah Samouh and Veronica Gluza and Shadi Djavadian and Seyed Mehdi Meshkani and Bilal Farooq(参考訳) 渋滞の急増に伴い、既存のネットワークの容量を効率的に利用するための代替ソリューションが必要となる。 本稿では,人口密集都市におけるオンデマンドフードデリバリーの自動運転技術について検討する。 本研究では、航空・地上自動運転技術を用いた3種類の食品配送システムを提案する。 提案する3つのシステムは、ロボット配送システム、ドローン配送システム、ハイブリッド配送システムである。 ハイブリッドシステムでは、注文を集約し、より少ない時間でより多くの目的地に到達するために、ハブ・アンド・スポークネットワークの概念が検討されている。 提案する3つの配送システムの性能を調べるため,MATLABにおける社内エージェントによるシミュレーションにおいて,ミシサガネットワークの都市に適用した。 18のシナリオは、需要と艦隊の大きさの点で異なる。 その結果,ロボットとドローンのハイブリッド配送システムは,25機のロボットと15機のドローンで,それぞれ48%,42%の差で,個々のロボットとドローンシステムよりも平均して準備と配送に要する時間が短かった。

With the rapid increase in congestion, alternative solutions are needed to efficiently use the capacity of our existing networks. This paper focuses on exploring the emerging autonomous technologies for on-demand food delivery in congested urban cities. Three different last mile food delivery systems are proposed in this study employing aerial and ground autonomous vehicles technologies. The three proposed systems are: robot delivery system, drone delivery system and a hybrid delivery system. In the hybrid system the concept of hub-and-spoke network is explored in order to consolidate orders and reach more destinations in less time. To investigate the performance of the three proposed delivery systems, they are applied to the city of Mississauga network, in an in-house agent-based simulation in MATLAB. 18 Scenarios are tested differing in terms of demand and fleet size. The results show that the hybrid robot-drone delivery system performs the best with a fleet side of 25 robots and 15 drones and with an average preparation and delivery time less than the individual robot and drone system by 48% and 42% respectively.
翻訳日:2023-05-03 22:46:03 公開日:2020-09-12
# 有限磁場における超伝導リンクを介するスピン量子ビット間の長距離交換相互作用

Long-range exchange interaction between spin qubits mediated by a superconducting link at finite magnetic field ( http://arxiv.org/abs/2009.05775v1 )

ライセンス: Link先を確認
Lucia Gonzalez Rosado, Fabian Hassler, Gianluigi Catelani(参考訳) 固体スピン量子ビットはその長いコヒーレンス時間と簡単な電気操作により量子コンピュータの実現に有望な候補である。 しかし、ゲートを絡むのに必要なスピンスピン相互作用は、通常隣り合う量子ドット間のトンネルに依存するため、限られた範囲しか持たない。 これはスケーラビリティを厳しく制限する。 相互作用範囲を広げる提案は、概してドット間のコヒーレントな電子輸送やカップリング範囲の拡張に焦点を当てている。 本稿では,超伝導体を量子メディエータとして用いることにより,そのような拡張が得られるような構成について検討する。 そのギャップのため、超伝導体は長いトンネル障壁として効果的に作用する。 スピン軌道(so)結合、外部磁場、超伝導体の形状の影響を解析した。 結合によるドットと超伝導体の間のスピン非保存トンネルは交換相互作用に影響を与えないが、超伝導バルク内の散乱が有害であることを示す。 さらに,外部磁場の付加は交換相互作用の強度を低下させることがわかった。 幸いなことに、超伝導リンクの幾何学は相互作用範囲を最適化する多くの余地を提供し、2dフィルムから準1dストリップまで1桁以上得ることができる。 我々は,SO結合が弱い超伝導体(例えばアルミニウム)の場合,100\,mTの磁場の存在下では,ミクロンスケールで最大100\,MHzの交換速度を達成できると推定した。

Solid state spin qubits are promising candidates for the realization of a quantum computer due to their long coherence times and easy electrical manipulation. However, spin-spin interactions, which are needed for entangling gates, have only limited range as they generally rely on tunneling between neighboring quantum dots. This severely constrains scalability. Proposals to extend the interaction range generally focus on coherent electron transport between dots or on extending the coupling range. Here, we study a setup where such an extension is obtained by using a superconductor as a quantum mediator. Because of its gap, the superconductor effectively acts as a long tunnel barrier. We analyze the impact of spin-orbit (SO) coupling, external magnetic fields, and the geometry of the superconductor. We show that while spin non-conserving tunneling between the dots and the superconductor due to SO coupling does not affect the exchange interaction, strong SO scattering in the superconducting bulk is detrimental. Moreover, we find that the addition of an external magnetic field decreases the strength of the exchange interaction. Fortunately, the geometry of the superconducting link offers a lot of room to optimize the interaction range, with gains of over an order of magnitude from a 2D film to a quasi-1D strip. We estimate that for superconductors with weak SO coupling (\textit{e.g.}, aluminum) exchange rates of up to 100\,MHz over a micron-scale range can be achieved with this setup in the presence of magnetic fields of the order of 100\,mT.
翻訳日:2023-05-02 10:51:30 公開日:2020-09-12
# 散逸ダイスモデルにおける大きなチャーン数

Large Chern numbers in a dissipative dice model ( http://arxiv.org/abs/2009.05763v1 )

ライセンス: Link先を確認
Shujie Cheng and Gao Xianlong(参考訳) 何十年もの間、量子系のトポロジカル現象は私たちの注目を集めてきました。 近年、位相的に保護されたエッジ状態が存在するシステムには、非エルミーティ性の存在下でも多くの関心が寄せられている。 これらの研究によって動機付けられた非エルミートダイスモデルのトポロジカルな性質は、非エルミート的な2つのケース、不均衡および平衡な散逸において研究される。 以上より,位相相は実ギャップと実エッジ状態スペクトルに容易に見られるバルクエッジ対応によって保護されていることが示唆された。 さらに,Hermitianの場合のバルクエッジ対応の原理は,3バンド非Hermitianシステムの解析に依然として有効であることを示す。 散逸摂動に対して大きなチャーン数$c=-3$ロバストを持つ位相的非自明な位相が存在することが分かる。

For decades, the topological phenomena in quantum systems have always been catching our attention. Recently, there are many interests on the systems where topologically protected edge states exist, even in the presence of non-Hermiticity. Motivated by these researches, the topological properties of a non-Hermitian dice model are studied in two non-Hermitian cases, viz. in the imbalanced and the balanced dissipations. Our results suggest that the topological phases are protected by the real gaps and the bulk-edge correspondence readily seen in the real edge-state spectra. Besides, we show that the principle of the bulk-edge correspondence in Hermitian case is still effective in analyzing the three-band non-Hermitian system. We find that there are topological non-trivial phases with large Chern numbers $C=-3$ robust against the dissipative perturbations.
翻訳日:2023-05-02 10:51:07 公開日:2020-09-12
# ICTを活用した医療技術の国際パンデミックへの展開

The Adoption of ICT Powered Healthcare Technologies towards Managing Global Pandemics ( http://arxiv.org/abs/2009.05716v1 )

ライセンス: Link先を確認
Navod Neranjan Thilakarathne, Mohan Krishna Kagita, Thippa Reddy Gadekallu, Praveen Kumar Reddy Maddikunta(参考訳) パンデミック(英: Pandemic)は、新しい病原体が出現し、免疫力が低下し、ワクチンが使用できないため、人口の大部分に影響を及ぼす大規模な地理的領域で発生する流行である。 極めて短期間で人から人へと拡散する可能性があり、実際、この病気を患う患者のために、医療従事者は感染のリスクが高い。 21世紀には、誰もがデジタル技術、情報通信技術(ict)を通じてつながり、個人や大きなコミュニティの医療を改善する上で重要な役割を担っている。 ictは現在、主要な技術パラダイムとしての重要性を示す様々なアプリケーションドメインで切断されており、慢性疾患の増加、高齢化、人口増加、およびパンデミックの状況に起因する医療システムの負担を軽減する可能性の高い注目を集めている。 本稿では,パンデミック時の医療負担を軽減するためにデプロイ可能な4段階の枠組みを提示することにより,ict医療戦略が世界的なパンデミック管理にいかに有効であるかに関する調査と知見を提供する。 さらに, ICT を利用したパンデミック管理技術が, 単純疾患のパンデミックから世界的なパンデミックへの転換においてどのように活用できるかを論じる。

Pandemic is an outbreak that happens over a large geographic area affecting a greater portion of the population as new pathogens appear for which people have less immune and no vaccines are available. It can spread from person to person in a very short time, and in fact, the health workers are at greater risk of infection because of the patients who carry the disease. In the 21st century, where everyone is connected through digital technologies, Information and Communication Technology (ICT) plays a critical role in improving health care for individuals and larger communities. ICT has currently been severed in a variety of application domains which signifies its importance as a major technological paradigm, and it has drawn higher attention for its potential to alleviate the burden on healthcare systems caused by a rise in chronic diseases, aging and increased population and pandemic situations. This paper surveys and offers substantial knowledge about how effective ICT Healthcare strategy can be used to manage global pandemics by presenting a four-phased framework, which can be deployed to alleviate the strain on healthcare during a pandemic. In addition, we discuss how ICT powered technologies can be used towards managing a pandemic during the transformation of simple disease outbreak into a global pandemic.
翻訳日:2023-05-02 10:49:58 公開日:2020-09-12
# 完全肯定性と自己随伴性

Complete positivity and self-adjointness ( http://arxiv.org/abs/2009.05850v1 )

ライセンス: Link先を確認
\'Erik Amorim and Eric A. Carlen(参考訳) 我々は、内積の族に対して対称な完全正の作用素と量子マルコフ半群生成器の構造を明記し、また、以前に研究されたいくつかのケースにおいて、順序が極点を成す新しい情報を提供する。

We specify the structure of completely positive operators and quantum Markov semigroup generators that are symmetric with respect to a family of inner products, also providing new information on the order strucure an extreme points in some previously studied cases.
翻訳日:2023-05-02 10:42:08 公開日:2020-09-12
# IBM量子プロセッサを用いた素因数分解のハイブリッド手法とその実験的実装

A hybrid scheme for prime factorization and its experimental implementation using IBM quantum processor ( http://arxiv.org/abs/2009.05840v1 )

ライセンス: Link先を確認
Ashwin Saxena, Abhishek Shukla, and Anirban Pathak(参考訳) 我々は,IBMの量子プロセッサを用いた二素数(奇数および二乗数)の分解のための量子古典ハイブリッドスキームを報告する。 ここで提案されたハイブリッドスキームは、古典的最適化手法と断熱的量子最適化手法の両方を含み、従来のハイブリッド分解スキーム(Pal et al., Pramana 92, 26 (2019)とXu et al., Phys. Lett. 108, 130501 (2012))を拡張して構築されている。 このスキームの量子部分は、あらゆる量子コンピューティングアーキテクチャを使って実装できるという意味で非常に一般的である。 ここでは,ibmのqx4量子プロセッサを用いた素因数分解方式を実験的に実装し,35。

We report a quantum-classical hybrid scheme for factorization of bi-prime numbers (which are odd and square-free) using IBM's quantum processors. The hybrid scheme proposed here involves both classical optimization techniques and adiabatic quantum optimization techniques, and is build by extending a previous scheme of hybrid factorization [Pal et al., Pramana 92, 26 (2019) and Xu et al., Phys. Rev. Lett. 108, 130501 (2012)]. The quantum part of the scheme is very general in the sense that it can be implemented using any quantum computing architecture. Here, as an example, we experimentally implement our scheme for prime factorization using IBM's QX4 quantum processor and have factorised 35.
翻訳日:2023-05-02 10:41:49 公開日:2020-09-12
# 自動運転車展開における正の信頼バランス

Positive Trust Balance for Self-Driving Car Deployment ( http://arxiv.org/abs/2009.05801v1 )

ライセンス: Link先を確認
Philip Koopman, Michael Wagner(参考訳) 自動運転車の配備準備がいつ可能かという重要な決定は、許容可能な安全性の成果に高い信頼性を提供するために、十分な遅延指標データでなされる可能性が高い。 ポジティブな信頼バランスアプローチは、この不確実性にもかかわらず、責任あるデプロイメント決定を行うのに役立つ。 このアプローチでは、適切な初期安全性の期待は、実践可能な量のテスト、エンジニアリング厳密さ、安全文化、そして不確実性をさらに軽減するためにデプロイ後の運用フィードバックを使用するという強いコミットメントの組み合わせに基づいている。 これにより、強力な安全文化のコンテキストにおいて、より厳格なSPI(Safety Performance Indicator)フィールドフィードバックの要求と引き換えに、デプロイメント時に必要となる信頼性を低減し、従来の安全アプローチよりも高速なデプロイメントが可能になる。

The crucial decision about when self-driving cars are ready to deploy is likely to be made with insufficient lagging metric data to provide high confidence in an acceptable safety outcome. A Positive Trust Balance approach can help with making a responsible deployment decision despite this uncertainty. With this approach, a reasonable initial expectation of safety is based on a combination of a practicable amount of testing, engineering rigor, safety culture, and a strong commitment to use post-deployment operational feedback to further reduce uncertainty. This can enable faster deployment than would be required by more traditional safety approaches by reducing the confidence necessary at time of deployment in exchange for a more stringent requirement for Safety Performance Indicator (SPI) field feedback in the context of a strong safety culture.
翻訳日:2023-05-02 10:41:31 公開日:2020-09-12
# 新型コロナウイルス(covid-19)パンデミック第1波におけるcovid-19の死亡、免疫およびワクチン開発に関する科学的研究データの記録のマイニングと分析

Data mining and analysis of scientific research data records on Covid 19 mortality, immunity, and vaccine development in the first wave of the Covid 19 pandemic ( http://arxiv.org/abs/2009.05793v1 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure, Rob Walton(参考訳) 本研究は,パンデミックの初期段階における科学的研究の対応について検討し,先行流行の早期警戒システムがどのようにウイルスを封入するかについて,重要な知見を概説する。 データレコードは、R Studio、Bibliometrixパッケージ、Web of Scienceデータマイニングツールなど、可換な統計手法で分析されている。 運動,炎症,喫煙,肥満,その他多くの要因について,いくつかの異なるクラスターを同定した。 コビッドウイルスとワクチンの分析から、米国はコビッド19ワクチンに関する科学研究を主導しているが、主要な3つの研究機関(フダン、メルボルン、オックスフォード)は米国をベースとしていないことが判明した。 したがって、どの国が最初にコビッド19ワクチンを生産するかを予測するのは難しい。

In this study, we investigate the scientific research response from the early stages of the pandemic, and we review key findings on how the early warning systems developed in previous epidemics responded to contain the virus. The data records are analysed with commutable statistical methods, including R Studio, Bibliometrix package, and the Web of Science data mining tool. We identified few different clusters, containing references to exercise, inflammation, smoking, obesity and many additional factors. From the analysis on Covid-19 and vaccine, we discovered that although the USA is leading in volume of scientific research on Covid 19 vaccine, the leading 3 research institutions (Fudan, Melbourne, Oxford) are not based in the USA. Hence, it is difficult to predict which country would be first to produce a Covid 19 vaccine.
翻訳日:2023-05-02 10:41:18 公開日:2020-09-12
# 高分解能顔画像塗布用対称スキップ接続ワッサースタインGAN

Symmetric Skip Connection Wasserstein GAN for High-Resolution Facial Image Inpainting ( http://arxiv.org/abs/2001.03725v2 )

ライセンス: Link先を確認
Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Gee-Sern Hsu, and Moi Hoon Yap(参考訳) 最先端の顔面画像インパインティング手法は有望な結果を得たが、フェイスリアリズムの保存は依然として課題である。 これは、エッジの保存に失敗することやぼやけたアーティファクトなど、制限によるものだ。 これらの制約を克服するために,高精細な顔画像の描画のためのS-WGAN(Symmetric Skip Connection Wasserstein Generative Adversarial Network)を提案する。 アーキテクチャは畳み込みブロックを持つエンコーダデコーダで、スキップ接続によってリンクされる。 エンコーダは、入力画像のデータ抽象化をキャプチャして、入力(バイナリマスク画像)からグランド真実へのエンドツーエンドマッピングを学ぶ機能抽出器である。 デコーダは学習した抽象化を使用してイメージを再構築する。 スキップ接続では、S-WGANは画像の詳細をデコーダに転送する。 さらに,色を保存し,再構成画像上でリアリズムを維持するワッサースタイン知覚損失関数を提案する。 CelebA-HQデータセット上で,本手法と最先端手法の評価を行った。 その結果,S-WGANは他の手法と比較して,シャープでリアルな画像が得られることがわかった。 提案するs-wganはssim (best structure similarity index measure) が0.94であることを示す。

The state-of-the-art facial image inpainting methods achieved promising results but face realism preservation remains a challenge. This is due to limitations such as; failures in preserving edges and blurry artefacts. To overcome these limitations, we propose a Symmetric Skip Connection Wasserstein Generative Adversarial Network (S-WGAN) for high-resolution facial image inpainting. The architecture is an encoder-decoder with convolutional blocks, linked by skip connections. The encoder is a feature extractor that captures data abstractions of an input image to learn an end-to-end mapping from an input (binary masked image) to the ground-truth. The decoder uses learned abstractions to reconstruct the image. With skip connections, S-WGAN transfers image details to the decoder. Additionally, we propose a Wasserstein-Perceptual loss function to preserve colour and maintain realism on a reconstructed image. We evaluate our method and the state-of-the-art methods on CelebA-HQ dataset. Our results show S-WGAN produces sharper and more realistic images when visually compared with other methods. The quantitative measures show our proposed S-WGAN achieves the best Structure Similarity Index Measure (SSIM) of 0.94.
翻訳日:2023-01-12 09:44:11 公開日:2020-09-12
# 音声強調のためのgan改善

Improving GANs for Speech Enhancement ( http://arxiv.org/abs/2001.05532v3 )

ライセンス: Link先を確認
Huy Phan and Ian V. McLoughlin and Lam Pham and Oliver Y. Ch\'en and Philipp Koch and Maarten De Vos and Alfred Mertins(参考訳) generative adversarial networks (gan) は音声強調に効率的であることが最近示されている。 しかし、ほとんどの場合、既存の音声強調GAN(SEGAN)は1段拡張マッピングを実行するために1つのジェネレータを使用する。 本研究では,多段強調マッピングを行うために連鎖する複数の生成器を用いて,段階的にノイズの少ない入力信号を洗練する手法を提案する。 さらに,(1)ジェネレータのパラメータの共有,(2)ジェネレータのパラメータの独立性,という2つのシナリオについて検討した。 前者は、すべての拡張段階で反復的に適用され、結果として小さなモデルフットプリントとなる共通のマッピングを学ぶことをジェネレータに制約する。 それとは対照的に、ジェネレータはモデルサイズを増大させるコストで、ネットワークの異なるステージで異なる拡張マッピングを柔軟に学習することができる。 提案手法は1段のSEGANベースラインよりも優れており, 独立発電機の方が結合発電機よりも良好な結果が得られた。 ソースコードはhttp://github.com/pquochuy/idseganで入手できる。

Generative adversarial networks (GAN) have recently been shown to be efficient for speech enhancement. However, most, if not all, existing speech enhancement GANs (SEGAN) make use of a single generator to perform one-stage enhancement mapping. In this work, we propose to use multiple generators that are chained to perform multi-stage enhancement mapping, which gradually refines the noisy input signals in a stage-wise fashion. Furthermore, we study two scenarios: (1) the generators share their parameters and (2) the generators' parameters are independent. The former constrains the generators to learn a common mapping that is iteratively applied at all enhancement stages and results in a small model footprint. On the contrary, the latter allows the generators to flexibly learn different enhancement mappings at different stages of the network at the cost of an increased model size. We demonstrate that the proposed multi-stage enhancement approach outperforms the one-stage SEGAN baseline, where the independent generators lead to more favorable results than the tied generators. The source code is available at http://github.com/pquochuy/idsegan.
翻訳日:2023-01-11 06:14:44 公開日:2020-09-12
# モデルフリーで説明可能な強化学習のための遠心的説明

Distal Explanations for Model-free Explainable Reinforcement Learning ( http://arxiv.org/abs/2001.10284v2 )

ライセンス: Link先を確認
Prashan Madumal, Tim Miller, Liz Sonenberg, Frank Vetere(参考訳) 本稿では,「なぜ」質問や「なぜ」質問に対する説明を生成できるモデルフリー強化学習エージェントの遠位説明モデルを提案し,評価する。 我々の出発点は、因果モデルが『A possible B と B が C を引き起こす』という形式をとる機会連鎖を生成できるという観察である。 ヒト・エージェント実験で発生した240の説明の分析から得られた知見を用いて、決定木と因果モデルを用いて、反事実や機会連鎖を分析する遠位説明モデルを定義する。 機会連鎖を学習するためにリカレントニューラルネットワークを使用し、タスク予測の精度と生成された反事実を改善するために決定木を用いる。 異なる強化学習アルゴリズムを用いて6つの強化学習ベンチマークでモデルを計算的に評価する。 90人の被験者による研究から,遠位説明モデルは2つのベースライン説明モデルと比較して,3つのシナリオで結果が向上することが示された。

In this paper we introduce and evaluate a distal explanation model for model-free reinforcement learning agents that can generate explanations for `why' and `why not' questions. Our starting point is the observation that causal models can generate opportunity chains that take the form of `A enables B and B causes C'. Using insights from an analysis of 240 explanations generated in a human-agent experiment, we define a distal explanation model that can analyse counterfactuals and opportunity chains using decision trees and causal models. A recurrent neural network is employed to learn opportunity chains, and decision trees are used to improve the accuracy of task prediction and the generated counterfactuals. We computationally evaluate the model in 6 reinforcement learning benchmarks using different reinforcement learning algorithms. From a study with 90 human participants, we show that our distal explanation model results in improved outcomes over three scenarios compared with two baseline explanation models.
翻訳日:2023-01-06 02:15:01 公開日:2020-09-12
# PageRank と Persistent Homology を用いた高速かつスケーラブルな複雑ネットワーク記述子

Fast and Scalable Complex Network Descriptor Using PageRank and Persistent Homology ( http://arxiv.org/abs/2002.05158v2 )

ライセンス: Link先を確認
Mustafa Hajij, Elizabeth Munch, Paul Rosen(参考訳) グラフのページランク(英: PageRank)は、グラフのノード集合上に定義されたスカラー関数であり、グラフのノード集中情報を符号化する。 本稿では,pagerank関数と永続ホモロジーを用いてスケーラブルなグラフ記述子を取得し,グラフ間の類似性を比較する。 与えられたグラフ $G(V,E)$ に対して、我々の記述子は $O(|E|\alpha(|V|))$ で計算できる。 本手法は,複数のシェープメッシュデータセット上での利用により,その効果を示す。

The PageRank of a graph is a scalar function defined on the node set of the graph which encodes nodes centrality information of the graph. In this article, we use the PageRank function along with persistent homology to obtain a scalable graph descriptor and utilize it to compare the similarities between graphs. For a given graph $G(V,E)$, our descriptor can be computed in $O(|E|\alpha(|V|))$, where $\alpha$ is the inverse Ackermann function which makes it scalable and computable on massive graphs. We show the effectiveness of our method by utilizing it on multiple shape mesh datasets.
翻訳日:2023-01-01 19:03:32 公開日:2020-09-12
# ニューラルネットワークによるエントロピー生成学習

Learning entropy production via neural networks ( http://arxiv.org/abs/2003.04166v4 )

ライセンス: Link先を確認
Dong-Kyum Kim, Youngkyoung Bae, Sangyun Lee, and Hawoong Jeong(参考訳) このレターはエントロピー生成のための神経推定器(NEEP)を示し、系力学の詳細な情報なしで関連する変数の軌跡からエントロピー生成(EP)を推定する。 定常状態に対しては、深層ニューラルネットワークの異なる選択から構築できる推定器が、ここで提案する目的関数を最適化することで確率的EPを提供することを厳密に証明する。 ビーズスプリングモデルと離散点滅ラチェットモデルの確率過程を用いてニープを検証し,高次元データに適用でき,観測不能なマルコフ系に対して粗粒のepを提供できることを示す。

This Letter presents a neural estimator for entropy production, or NEEP, that estimates entropy production (EP) from trajectories of relevant variables without detailed information on the system dynamics. For steady state, we rigorously prove that the estimator, which can be built up from different choices of deep neural networks, provides stochastic EP by optimizing the objective function proposed here. We verify the NEEP with the stochastic processes of the bead-spring and discrete flashing ratchet models, and also demonstrate that our method is applicable to high-dimensional data and can provide coarse-grained EP for Markov systems with unobservable states.
翻訳日:2022-12-25 08:35:46 公開日:2020-09-12
# 凹凸最小化による対応のない線形回帰

Linear Regression without Correspondences via Concave Minimization ( http://arxiv.org/abs/2003.07706v2 )

ライセンス: Link先を確認
Liangzu Peng and Manolis C. Tsakiris(参考訳) 相関のない線形回帰は、観測と線形汎関数の対応が不明な線形回帰設定における信号の回復に関係している。 関連する最大可能性関数は、信号が1より大きい次元を持つとき、NPハードで計算する。 この目的関数を最適化するために、分岐とバウンドによって解ける凹最小化問題として再構成する。 これは計算可能な探索空間から分岐し、凸エンベロープ最小化による効果的な下限スキームと、凸最小化改革から自然に生じる洗練された上限によって支持される。 結果として得られたアルゴリズムは、完全にシャッフルされたデータのための最先端の手法よりも優れており、以前の作業では未修正のシステマである最大8ドル分の信号が処理可能である。

Linear regression without correspondences concerns the recovery of a signal in the linear regression setting, where the correspondences between the observations and the linear functionals are unknown. The associated maximum likelihood function is NP-hard to compute when the signal has dimension larger than one. To optimize this objective function we reformulate it as a concave minimization problem, which we solve via branch-and-bound. This is supported by a computable search space to branch, an effective lower bounding scheme via convex envelope minimization and a refined upper bound, all naturally arising from the concave minimization reformulation. The resulting algorithm outperforms state-of-the-art methods for fully shuffled data and remains tractable for up to $8$-dimensional signals, an untouched regime in prior work.
翻訳日:2022-12-22 22:06:17 公開日:2020-09-12
# 連続学習のための直交重み修正による生成的特徴再生

Generative Feature Replay with Orthogonal Weight Modification for Continual Learning ( http://arxiv.org/abs/2005.03490v3 )

ライセンス: Link先を確認
Gehui Shen, Song Zhang, Xiang Chen and Zhi-Hong Deng(参考訳) 知的エージェントが複数のタスクを逐次学習し記憶する能力は、人工知能の実現に不可欠である。 多くの連続学習(CL)法は、ニューラルネットワークのシーケンシャルラーニングにおける非i.dデータから生じる破滅的な忘れを克服するために提案されている。 本稿では,難解なCLシナリオであるクラスインクリメンタルラーニングに焦点を当てる。 このシナリオでは、生成的再生は、破滅的な忘れを緩和するために、以前のタスクの擬似データを生成し再生する有望な戦略である。 しかし、比較的複雑なデータに対して生成モデルを継続的に訓練することは困難である。 最近提案されている直交重み修正(owm)アルゴリズムに基づき,新しいタスクを学習する際に,事前学習した特徴量不変性をほぼ保持する手法を提案する。 1) 生成モデルによるペナルティファイト層の特徴の再生 2) 自己監督補助タスクを活用して特徴の安定性をさらに高める。 いくつかのデータセットにおける実験結果から,従来の生成的再生が常に負の効果をもたらすのに対して,我々の手法は常に強力なOWMよりも大幅に改善されることが示された。 一方,本手法は実データストレージに基づくものを含め,いくつかの強いベースラインを破る。 また,本手法が有効である理由を検討する実験を行った。

The ability of intelligent agents to learn and remember multiple tasks sequentially is crucial to achieving artificial general intelligence. Many continual learning (CL) methods have been proposed to overcome catastrophic forgetting which results from non i.i.d data in the sequential learning of neural networks. In this paper we focus on class incremental learning, a challenging CL scenario. For this scenario, generative replay is a promising strategy which generates and replays pseudo data for previous tasks to alleviate catastrophic forgetting. However, it is hard to train a generative model continually for relatively complex data. Based on recently proposed orthogonal weight modification (OWM) algorithm which can approximately keep previously learned feature invariant when learning new tasks, we propose to 1) replay penultimate layer feature with a generative model; 2) leverage a self-supervised auxiliary task to further enhance the stability of feature. Empirical results on several datasets show our method always achieves substantial improvement over powerful OWM while conventional generative replay always results in a negative effect. Meanwhile our method beats several strong baselines including one based on real data storage. In addition, we conduct experiments to study why our method is effective.
翻訳日:2022-12-05 22:39:10 公開日:2020-09-12
# 生成画像を用いた意味的写真操作

Semantic Photo Manipulation with a Generative Image Prior ( http://arxiv.org/abs/2005.07727v2 )

ライセンス: Link先を確認
David Bau, Hendrik Strobelt, William Peebles, Jonas Wulff, Bolei Zhou, Jun-Yan Zhu, Antonio Torralba(参考訳) ユーザスケッチやテキスト,セマンティックラベルなどの入力に条件付けされた画像の合成において,GANが近年成功しているにもかかわらず,既存の自然写真の高レベルな属性をGANで操作することは2つの理由から難しい。 まず、GANが入力画像を正確に再現することは困難である。 第2に、操作後、新しく合成された画素はしばしば元の画像に適合しない。 本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。 本手法は,入力画像の外観に合わせて,入力画像を正確に再構成し,新たなコンテンツを合成することができる。 我々は,背景に整合した新しいオブジェクトの合成,不要なオブジェクトの除去,オブジェクトの外観変更など,いくつかの意味的画像編集タスクにおけるインタラクティブなシステムを実証する。 いくつかの既存手法との比較により,本手法の有効性が示された。

Despite the recent success of GANs in synthesizing images conditioned on inputs such as a user sketch, text, or semantic labels, manipulating the high-level attributes of an existing natural photograph with GANs is challenging for two reasons. First, it is hard for GANs to precisely reproduce an input image. Second, after manipulation, the newly synthesized pixels often do not fit the original image. In this paper, we address these issues by adapting the image prior learned by GANs to image statistics of an individual image. Our method can accurately reconstruct the input image and synthesize new content, consistent with the appearance of the input image. We demonstrate our interactive system on several semantic image editing tasks, including synthesizing new objects consistent with background, removing unwanted objects, and changing the appearance of an object. Quantitative and qualitative comparisons against several existing methods demonstrate the effectiveness of our method.
翻訳日:2022-12-02 23:02:58 公開日:2020-09-12
# 高速レーンの計画--経路積分逆強化学習における注意機構を用いた相互作用の学習

Planning on the fast lane: Learning to interact using attention mechanisms in path integral inverse reinforcement learning ( http://arxiv.org/abs/2007.05798v2 )

ライセンス: Link先を確認
Sascha Rosbach, Xing Li, Simon Gro{\ss}johann, Silviu Homoceanu and Stefan Roth(参考訳) 自動運転のための汎用軌道計画アルゴリズムは、複雑な報酬関数を利用して、戦略的、行動的、キネマティックな特徴の最適化を行う。 単一報酬関数の仕様とチューニングは面倒な作業であり、多くの交通状況に対して一般化しない。 経路積分逆強化学習に基づく深層学習手法は,一組のサンプル駆動ポリシの特徴を用いた局所的な状況依存報酬関数の予測に成功している。 サンプルベースの軌道計画アルゴリズムは、状況の文脈をエンコードするために使用できる、実現可能な運転ポリシーの時空間を近似することができる。 しかし、動的オブジェクトとの相互作用は、シーケンシャルなコンテキストモデリングに依存する拡張計画の地平線を必要とする。 本研究では, 長期の地平線上での逐次報酬予測について検討する。 人のような運転スタイルで軌跡に集中して低次元の文脈ベクトルを生成するためにポリシーアテンション機構を用いたニューラルネットワークアーキテクチャを提案する。 これとは別に,文脈スイッチを識別し,報奨の安定した適応を可能にする時間的注意機構を提案する。 我々は、他の移動車両を含む複雑な運転状況について、結果を評価する。 評価の結果、ポリシー注目機構は、コンフィグレーション空間における衝突のないポリシーに焦点をあてることを学びます。 さらに、時間的注意機構は、拡張計画地平線上で他の車両との永続的な相互作用を学習する。

General-purpose trajectory planning algorithms for automated driving utilize complex reward functions to perform a combined optimization of strategic, behavioral, and kinematic features. The specification and tuning of a single reward function is a tedious task and does not generalize over a large set of traffic situations. Deep learning approaches based on path integral inverse reinforcement learning have been successfully applied to predict local situation-dependent reward functions using features of a set of sampled driving policies. Sample-based trajectory planning algorithms are able to approximate a spatio-temporal subspace of feasible driving policies that can be used to encode the context of a situation. However, the interaction with dynamic objects requires an extended planning horizon, which depends on sequential context modeling. In this work, we are concerned with the sequential reward prediction over an extended time horizon. We present a neural network architecture that uses a policy attention mechanism to generate a low-dimensional context vector by concentrating on trajectories with a human-like driving style. Apart from this, we propose a temporal attention mechanism to identify context switches and allow for stable adaptation of rewards. We evaluate our results on complex simulated driving situations, including other moving vehicles. Our evaluation shows that our policy attention mechanism learns to focus on collision-free policies in the configuration space. Furthermore, the temporal attention mechanism learns persistent interaction with other vehicles over an extended planning horizon.
翻訳日:2022-11-11 13:16:17 公開日:2020-09-12
# Few-shot Semantic Segmentationのためのパートアウェアプロトタイプネットワーク

Part-aware Prototype Network for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2007.06309v2 )

ライセンス: Link先を確認
Yongfei Liu, Xiangyi Zhang, Songyang Zhang, Xuming He(参考訳) 少数の意味セマンティクスセグメンテーションは、新しいオブジェクトクラスをいくつかの注釈付き例でセグメンテーションすることを目的としている。 既存のほとんどのメソッドは、一方通行の少数ショットセグメンテーションの制限的な設定に焦点を当てるか、またはオブジェクト領域の不完全なカバレッジに悩まされている。 本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。 私たちの重要なアイデアは、包括的クラス表現を、多種多様な粒度のオブジェクト特徴をキャプチャできる部分認識プロトタイプのセットに分解することです。 さらに,非ラベルデータを利用して部分認識プロトタイプを充実させ,意味オブジェクトのクラス内バリエーションのモデリングを向上させる手法を提案する。 ラベル付きおよびラベルなし画像に基づいて,提案するパートアウェアプロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。 2つのベンチマークにおける広範囲な実験結果から,本手法が先行技術よりもかなり高いマージンを示した。

Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
翻訳日:2022-11-11 00:06:28 公開日:2020-09-12
# Sparse Hyperspectral Unmixingのための超画素グラフラプラシアン正規化

Superpixel Based Graph Laplacian Regularization for Sparse Hyperspectral Unmixing ( http://arxiv.org/abs/2007.14033v2 )

ライセンス: Link先を確認
Taner Ince(参考訳) Sparse hyperspectral unmixing法において,超画素分割とグラフラプラシアン正規化を用いた効率的な空間正規化法を提案する。 スペクトル的に類似した画素が均質な領域で見つかる可能性が高いため、超画素分割アルゴリズムを用いて画像境界を考慮し均質な領域を抽出する。 まず、スーパーピクセルと呼ばれる均質な領域を抽出し、次に各スーパーピクセル内の重み付きグラフを、各スーパーピクセルに$k$-nearestピクセルを選択することで構築する。 グラフの各ノードはピクセルのスペクトルを表し、エッジはスーパーピクセル内の同様のピクセルを接続する。 空間的類似性はグラフラプラシアン正則化を用いて検討する。 重み付きスパーシティ促進ノルムを用いて、存在量行列のスパーシティ正規化を提供する。 シミュレーションおよび実データを用いた実験の結果,文献でよく知られたアルゴリズムよりも,提案アルゴリズムが優れていることが示された。

An efficient spatial regularization method using superpixel segmentation and graph Laplacian regularization is proposed for sparse hyperspectral unmixing method. Since it is likely to find spectrally similar pixels in a homogeneous region, we use a superpixel segmentation algorithm to extract the homogeneous regions by considering the image boundaries. We first extract the homogeneous regions, which are called superpixels, then a weighted graph in each superpixel is constructed by selecting $K$-nearest pixels in each superpixel. Each node in the graph represents the spectrum of a pixel and edges connect the similar pixels inside the superpixel. The spatial similarity is investigated using graph Laplacian regularization. Sparsity regularization for abundance matrix is provided using a weighted sparsity promoting norm. Experimental results on simulated and real data sets show the superiority of the proposed algorithm over the well-known algorithms in the literature.
翻訳日:2022-11-06 02:45:33 公開日:2020-09-12
# HyperFaceNet:ディープフュージョンに基づくハイパースペクトル顔認識手法

HyperFaceNet: A Hyperspectral Face Recognition Method Based on Deep Fusion ( http://arxiv.org/abs/2008.00498v2 )

ライセンス: Link先を確認
Zhicheng Cao, Xi Cen and Liaojun Pang(参考訳) 顔の認識は、可視光と赤外線の下で既によく研究されている。 しかし、様々な光バンド、すなわちハイパースペクトル顔認識を融合する方法は、依然としてオープンな研究課題であり、単一のバンドの顔認識よりもリッチな情報保持と全天候機能の利点がある。 ハイパースペクトル顔認識のためのごく少数の研究の中で、従来の非深度学習技術が主に使用されている。 そこで本稿では,ハイパースペクトル顔認識の話題にディープラーニングを取り入れ,特にハイパースペクトル顔のための新しい融合モデル(ハイパーフェースネット)を提案する。 提案する融合モデルの特徴は,残差密学習,フィードバック型エンコーダ,認識指向損失関数である。 実験中,本手法は可視光または赤外線を用いた顔認識よりも高い認識率を示した。 さらに,我々の融合モデルは,画像品質と認識性能の両面から,最先端技術を含む他の汎用画像融合法よりも優れていることを示す。

Face recognition has already been well studied under the visible light and the infrared,in both intra-spectral and cross-spectral cases. However, how to fuse different light bands, i.e., hyperspectral face recognition, is still an open research problem, which has the advantages of richer information retaining and all-weather functionality over single band face recognition. Among the very few works for hyperspectral face recognition, traditional non-deep learning techniques are largely used. Thus, we in this paper bring deep learning into the topic of hyperspectral face recognition, and propose a new fusion model (termed HyperFaceNet) especially for hyperspectral faces. The proposed fusion model is characterized by residual dense learning, a feedback style encoder and a recognition-oriented loss function. During the experiments, our method is proved to be of higher recognition rates than face recognition using either visible light or the infrared. Moreover, our fusion model is shown to be superior to other general-purposed image fusion methods including state-of-the-arts, in terms of both image quality and recognition performance.
翻訳日:2022-11-03 19:30:31 公開日:2020-09-12
# CSGツリー最適化のためのフレキシブルパイプライン

A Flexible Pipeline for the Optimization of CSG Trees ( http://arxiv.org/abs/2008.03674v2 )

ライセンス: Link先を確認
Markus Friedrich and Christoph Roch and Sebastian Feld and Carsten Hahn and Pierre-Alain Fayolle(参考訳) CSG木は、ブール集合演算と幾何学的プリミティブを組み合わせて幾何学を表現するための直感的だが強力な技法である。 一般に、同じ3次元固体を記述する無限個の木が存在する。 しかし、一部の木は使用済みの操作数、形状、その他の属性に関して最適であり、直感的で人間によって制御された編集に適している。 本稿では,新しい木最適化手法と既存の木最適化手法を体系的に比較し,木編集性を重視したフレキシブルな処理パイプラインを提案する。 パイプラインは、複雑さの低減と、残りの木最適化のための異なる(メタ-)ヒューリスティックスのために冗長除去と分解ステージを使用する。 また,csgツリーの編集性に関する新しい定量的尺度を導入し,最適化プロセスにおける制約としての利用方法を示す。

CSG trees are an intuitive, yet powerful technique for the representation of geometry using a combination of Boolean set-operations and geometric primitives. In general, there exists an infinite number of trees all describing the same 3D solid. However, some trees are optimal regarding the number of used operations, their shape or other attributes, like their suitability for intuitive, human-controlled editing. In this paper, we present a systematic comparison of newly developed and existing tree optimization methods and propose a flexible processing pipeline with a focus on tree editability. The pipeline uses a redundancy removal and decomposition stage for complexity reduction and different (meta-)heuristics for remaining tree optimization. We also introduce a new quantitative measure for CSG tree editability and show how it can be used as a constraint in the optimization process.
翻訳日:2022-11-01 04:35:15 公開日:2020-09-12
# 影響関数によるグラフニューラルネットワークへの侵入攻撃

Evasion Attacks to Graph Neural Networks via Influence Function ( http://arxiv.org/abs/2009.00203v2 )

ライセンス: Link先を確認
Binghui Wang, Tianxiang Zhou, Minhua Lin, Pan Zhou, Ang Li, Meng Pang, Cai Fu, Hai Li, Yiran Chen(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類など、多くのグラフ関連タスクにおいて最先端のパフォーマンスを達成した。 しかし、最近の研究では、GNNは回避攻撃に弱いことが示されており、すなわち、攻撃者はグラフ構造をわずかに乱し、GNNモデルを騙すことができる。 GNNへの既存の回避攻撃には、いくつかの大きな欠点がある。 1) 2層GNNの攻撃に限られている。 2)効率的でない,又は/及び 3) GNNモデルのパラメータを知る必要がある。 本稿では,上記の欠点に対処し,gnnに対する影響に基づく回避攻撃を提案する。 具体的には、まず、GNNとラベル伝搬(LP)に定義された2つの影響関数、すなわち特徴ラベルの影響とラベルの影響を導入する。 そして、GNNとLPの強いつながりを、影響力の観点から構築する。 次に,GNN モデルを知る必要のない多層 GNN に適用可能な LP 上のラベルの影響を計算するために,GNN に対する回避攻撃を再構成する。 また,ラベルの影響を計算するアルゴリズムを提案する。 最後に、3つのベンチマークグラフデータセットに対する影響に基づく攻撃を評価する。 実験の結果, 最先端攻撃と比較して, 攻撃性能は同等であるが, 2層GNN攻撃時の速度は5-50倍に向上した。 さらに,本攻撃は多層GNN攻撃に有効である。

Graph neural networks (GNNs) have achieved state-of-the-art performance in many graph-related tasks, e.g., node classification. However, recent works show that GNNs are vulnerable to evasion attacks, i.e., an attacker can slightly perturb the graph structure to fool GNN models. Existing evasion attacks to GNNs have several key drawbacks: 1) they are limited to attack two-layer GNNs; 2) they are not efficient; or/and 3) they need to know GNN model parameters. We address the above drawbacks in this paper and propose an influence-based evasion attack against GNNs. Specifically, we first introduce two influence functions, i.e., feature-label influence and label influence, that are defined on GNNs and label propagation (LP), respectively. Then, we build a strong connection between GNNs and LP in terms of influence. Next, we reformulate the evasion attack against GNNs to be related to calculating label influence on LP, which is applicable to multi-layer GNNs and does not need to know the GNN model. We also propose an efficient algorithm to calculate label influence. Finally, we evaluate our influence-based attack on three benchmark graph datasets. Our experimental results show that, compared to state-of-the-art attack, our attack can achieve comparable attack performance, but has a 5-50x speedup when attacking two-layer GNNs. Moreover, our attack is effective to attack multi-layer GNNs.
翻訳日:2022-10-23 01:54:18 公開日:2020-09-12
# 強化学習に基づくブラックボックス回避攻撃による動的グラフのリンク予測

Reinforcement Learning-based Black-Box Evasion Attacks to Link Prediction in Dynamic Graphs ( http://arxiv.org/abs/2009.00163v2 )

ライセンス: Link先を確認
Houxiang Fan, Binghui Wang, Pan Zhou, Ang Li, Meng Pang, Zichuan Xu, Cai Fu, Hai Li, Yiran Chen(参考訳) 動的グラフ(LPDG)におけるリンク予測は、オンラインレコメンデーション、病気の伝染に関する研究、組織研究など様々な応用を持つ重要な研究課題である。 グラフ埋め込みとグラフニューラルネットワークに基づく様々なLPDG法が最近提案され、最先端の性能を実現している。 本稿では,LPDG手法の脆弱性を調査し,最初の実用的なブラックボックス回避攻撃を提案する。 具体的には、トレーニングされたLPDGモデルを考えると、LPDGモデルが可能な限り多くの誤ったリンクを予測できるように、モデルパラメータやモデルアーキテクチャなどを知ることなく、グラフ構造を摂動させることが目的である。 我々は、確率的ポリシーに基づくRLアルゴリズムに基づいて攻撃を設計する。 さらに、異なるアプリケーションドメインの3つの実世界のグラフデータセットに対する攻撃を評価する。 実験の結果,我々の攻撃は効果的かつ効率的であることが判明した。

Link prediction in dynamic graphs (LPDG) is an important research problem that has diverse applications such as online recommendations, studies on disease contagion, organizational studies, etc. Various LPDG methods based on graph embedding and graph neural networks have been recently proposed and achieved state-of-the-art performance. In this paper, we study the vulnerability of LPDG methods and propose the first practical black-box evasion attack. Specifically, given a trained LPDG model, our attack aims to perturb the graph structure, without knowing to model parameters, model architecture, etc., such that the LPDG model makes as many wrong predicted links as possible. We design our attack based on a stochastic policy-based RL algorithm. Moreover, we evaluate our attack on three real-world graph datasets from different application domains. Experimental results show that our attack is both effective and efficient.
翻訳日:2022-10-23 00:53:03 公開日:2020-09-12
# プロセスマイニングのための説明可能な人工知能:予測プロセスモニタリングのための新しい局所的説明手法の概観と応用

Explainable Artificial Intelligence for Process Mining: A General Overview and Application of a Novel Local Explanation Approach for Predictive Process Monitoring ( http://arxiv.org/abs/2009.02098v2 )

ライセンス: Link先を確認
Nijat Mehdiyev and Peter Fettke(参考訳) 現代のプロセス認識情報システムは、プロセス実行中に生成されたアクティビティを記録する能力を持っている。 これらのプロセス固有の粒度データを活用するため、プロセスマイニングは有望な研究分野として最近登場した。 プロセスマイニングの重要な分野として、予測的ビジネスプロセス管理は、ビジネスプロセスを形成するための前向きで予測的な洞察を生み出す目的を追求します。 本研究では,意思決定環境,基盤となるビジネスプロセス,ユーザ特性の理解を確立・促進し,説明可能なビジネスプロセス予測ソリューションを開発するための概念的枠組みを提案する。 そこで本研究では,この枠組みの理論的,実際的意義について,モデル決定の正当化を促進することを目的とした,深層学習分類器に対する新しい局所的ポストホック説明手法を提案する。 本研究は、従来の摂動に基づく局所的説明手法とは対照的に、深層ニューラルネットワークで学習した中間潜時空間表現を用いて、検証データセットから局所領域を定義する。 提案手法の適用性を検証するため,Volvo IT Belgiumのインシデント管理システムが提供した実時間プロセスログデータを用いて,RCC曲線0.94の領域で優れた性能を実現する。 生成したローカル説明も可視化され,ブラックボックスモデルに対するユーザの信頼感を高めることが期待できる評価尺度が提示される。

The contemporary process-aware information systems possess the capabilities to record the activities generated during the process execution. To leverage these process specific fine-granular data, process mining has recently emerged as a promising research discipline. As an important branch of process mining, predictive business process management, pursues the objective to generate forward-looking, predictive insights to shape business processes. In this study, we propose a conceptual framework sought to establish and promote understanding of decision-making environment, underlying business processes and nature of the user characteristics for developing explainable business process prediction solutions. Consequently, with regard to the theoretical and practical implications of the framework, this study proposes a novel local post-hoc explanation approach for a deep learning classifier that is expected to facilitate the domain experts in justifying the model decisions. In contrary to alternative popular perturbation-based local explanation approaches, this study defines the local regions from the validation dataset by using the intermediate latent space representations learned by the deep neural networks. To validate the applicability of the proposed explanation method, the real-life process log data delivered by the Volvo IT Belgium's incident management system are used.The adopted deep learning classifier achieves a good performance with the Area Under the ROC Curve of 0.94. The generated local explanations are also visualized and presented with relevant evaluation measures that are expected to increase the users' trust in the black-box-model.
翻訳日:2022-10-22 01:33:59 公開日:2020-09-12
# 未熟児皮質表面の経時的予測のための成長軌跡の深部モデリング

Deep Modeling of Growth Trajectories for Longitudinal Prediction of Missing Infant Cortical Surfaces ( http://arxiv.org/abs/2009.02797v2 )

ライセンス: Link先を確認
Peirong Liu, Zhengwang Wu, Gang Li, Pew-Thian Yap and Dinggang Shen(参考訳) 皮質成長軌跡のグラフ化は、脳の発達を理解する上で最も重要である。 しかし、このような分析は縦断データの収集を必要とするため、被験者の欠落とスキャンの失敗が問題となる可能性がある。 本稿では,従来のCNNをユークリッド多様体から曲線多様体に拡張した空間グラフ畳み込みニューラルネットワーク(GCNN)を用いて,皮質表面の長手予測手法を提案する。 提案手法は,皮質成長軌跡をモデル化し,複数の点において内外皮質表面を共同予測する。 損失計算にバイナリフラグを適用して、すべての利用可能な皮質表面を、時系列データの完全な収集を必要とせず、深層学習モデルのトレーニングに活用する。 表面の予測は皮質の厚さ、曲率、凸度などの皮質特性を直接計算し、その後の解析を行う。 本研究では, 時空間的皮質成長パターンの非線形性を計測し, 精度を向上して皮質表面を予測できることを実験的に示す。

Charting cortical growth trajectories is of paramount importance for understanding brain development. However, such analysis necessitates the collection of longitudinal data, which can be challenging due to subject dropouts and failed scans. In this paper, we will introduce a method for longitudinal prediction of cortical surfaces using a spatial graph convolutional neural network (GCNN), which extends conventional CNNs from Euclidean to curved manifolds. The proposed method is designed to model the cortical growth trajectories and jointly predict inner and outer cortical surfaces at multiple time points. Adopting a binary flag in loss calculation to deal with missing data, we fully utilize all available cortical surfaces for training our deep learning model, without requiring a complete collection of longitudinal data. Predicting the surfaces directly allows cortical attributes such as cortical thickness, curvature, and convexity to be computed for subsequent analysis. We will demonstrate with experimental results that our method is capable of capturing the nonlinearity of spatiotemporal cortical growth patterns and can predict cortical surfaces with improved accuracy.
翻訳日:2022-10-21 08:32:27 公開日:2020-09-12
# 怒り検出のための遺伝的特徴選択に基づく2ストリームニューラルネットワーク

A Genetic Feature Selection Based Two-stream Neural Network for Anger Veracity Recognition ( http://arxiv.org/abs/2009.02650v3 )

ライセンス: Link先を確認
Chaoxing Huang, Xuanying Zhu, Tom Gedeon(参考訳) 人は他人と対話するときに感情表現を操ることができる。 例えば、刺激が真に怒らない場合には、観察者を操作する目的で行動的怒りを表現できる。 本稿では,観察者の瞳孔データを用いて,怒りの真性が認識できるかどうかを計算的手法で検証する。 我々は,映像刺激の行動と真の怒りを観察する観察者の時系列瞳孔の特徴を選択するために,GFS法を用いている。 次に、選択した機能を使用して、完全接続されたニューラルネットワークと2ストリームニューラルネットワークをトレーニングします。 その結果,両眼からの瞳孔反応が得られれば,93.58%の精度で有望な認識結果が得られることがわかった。 また,遺伝的アルゴリズムを用いた特徴選択手法により,分類精度を3.07%向上できることを示した。 私たちは、人間のマシンインタラクションや感情認識を必要とする心理学研究など、日々の研究に役立つことを願っています。

People can manipulate emotion expressions when interacting with others. For example, acted anger can be expressed when stimuli is not genuinely angry with an aim to manipulate the observer. In this paper, we aim to examine if the veracity of anger can be recognized with observers' pupillary data with computational approaches. We use Genetic-based Feature Selection (GFS) methods to select time-series pupillary features of of observers who observe acted and genuine anger of the video stimuli. We then use the selected features to train a simple fully connected neural work and a two-stream neural network. Our results show that the two-stream architecture is able to achieve a promising recognition result with an accuracy of 93.58% when the pupillary responses from both eyes are available. It also shows that genetic algorithm based feature selection method can effectively improve the classification accuracy by 3.07%. We hope our work could help daily research such as human machine interaction and psychology studies that require emotion recognition .
翻訳日:2022-10-21 08:29:52 公開日:2020-09-12
# ごく少数のサンプルから学ぶ:調査

Learning from Very Few Samples: A Survey ( http://arxiv.org/abs/2009.02653v2 )

ライセンス: Link先を確認
Jiang Lu, Pinghua Gong, Jieping Ye, and Changshui Zhang(参考訳) 機械学習の分野では、サンプル学習(fsl)は重要かつ困難である。 ごく少数のサンプルから学習と一般化を成功させる能力は、人工知能と人間の知能を区別する、注目すべき境界である。人間は1つまたは少数の例からノベルティへの認識を容易に確立することができるが、機械学習アルゴリズムは通常、一般化能力を保証するために数百から数千の教師付きサンプルを必要とする。 2000年代初頭にさかのぼる長い歴史と、近年のディープラーニング技術の普及による注目にもかかわらず、FSLに関する調査やレビューは今のところほとんど行われていない。 この文脈では、2000年代から2019年までのFSLの300以上の論文を概観し、FSLのタイムリーかつ総合的な調査を行っている。 本稿では、進化史とFSLの現在の進歩を概観し、FSLアプローチを生成モデルと識別モデルに基づく原則に分類し、メタラーニングに基づくFSLアプローチを特に重視する。 また,最近発表されたfslの拡張トピックをいくつか要約し,これらのトピックの最近の進歩を概観する。 さらに,コンピュータビジョン,自然言語処理,音声と音声,強化学習,ロボット,データ解析など,多くの研究ホットスポットをカバーする重要なFSLアプリケーションについても紹介する。 最後に,フォローアップ研究へのガイダンスと洞察の提供を期待して,将来性のある傾向に関する議論を締めくくった。

Few sample learning (FSL) is significant and challenging in the field of machine learning. The capability of learning and generalizing from very few samples successfully is a noticeable demarcation separating artificial intelligence and human intelligence since humans can readily establish their cognition to novelty from just a single or a handful of examples whereas machine learning algorithms typically entail hundreds or thousands of supervised samples to guarantee generalization ability. Despite the long history dated back to the early 2000s and the widespread attention in recent years with booming deep learning technologies, little surveys or reviews for FSL are available until now. In this context, we extensively review 300+ papers of FSL spanning from the 2000s to 2019 and provide a timely and comprehensive survey for FSL. In this survey, we review the evolution history as well as the current progress on FSL, categorize FSL approaches into the generative model based and discriminative model based kinds in principle, and emphasize particularly on the meta learning based FSL approaches. We also summarize several recently emerging extensional topics of FSL and review the latest advances on these topics. Furthermore, we highlight the important FSL applications covering many research hotspots in computer vision, natural language processing, audio and speech, reinforcement learning and robotic, data analysis, etc. Finally, we conclude the survey with a discussion on promising trends in the hope of providing guidance and insights to follow-up researches.
翻訳日:2022-10-21 07:55:19 公開日:2020-09-12
# LaSOT: 高品質な大規模オブジェクト追跡ベンチマーク

LaSOT: A High-quality Large-scale Single Object Tracking Benchmark ( http://arxiv.org/abs/2009.03465v3 )

ライセンス: Link先を確認
Heng Fan, Hexin Bai, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Harshit, Mingzhen Huang, Juehuan Liu, Yong Xu, Chunyuan Liao, Lin Yuan, Haibin Ling(参考訳) 近年のビジュアルトラッキングの進歩にもかかわらず、アルゴリズムの設計と評価を含むさらなる開発は、大規模なベンチマークが不足しているために制限されている。 この問題に対処するため,高品質な大規模オブジェクト追跡ベンチマークLaSOTを提案する。 LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。 各ビデオフレームは、バウンディングボックスで慎重に手動で注釈付けされる。 これによってLaSOTは,私たちの知る限り,最も高密度に注釈付けされたトラッキングベンチマークになります。 LaSOTのリリースの目標は、トラッカーのトレーニングと評価の両面において、高品質なプラットフォームを提供することです。 lasotの平均ビデオ長は約2500フレームで、それぞれのビデオには、ターゲットが消えて再現れるなど、現実世界のビデオ映像に存在するさまざまな課題要素が含まれている。 これらの長いビデオ長は、長期トラッカーの評価を可能にする。 視覚的な外観と自然言語との密接な関係を利用するため,lasotの各ビデオに言語仕様を提供する。 このような追加により、将来の研究は言語機能を使って追跡を改善することができると考えています。 フルオーバーラップとワンショットの2つのプロトコルは、トラッカーの柔軟な評価のために指定されている。 我々は,lasotの48のベースライントラッカを詳細な分析によって広範囲に評価し,改善の余地があることを明らかにした。 完全なベンチマーク、追跡結果、分析はhttp://vision.cs.stonybrook.edu/~lasot/で確認できる。

Despite great recent advances in visual tracking, its further development, including both algorithm design and evaluation, is limited due to lack of dedicated large-scale benchmarks. To address this problem, we present LaSOT, a high-quality Large-scale Single Object Tracking benchmark. LaSOT contains a diverse selection of 85 object classes, and offers 1,550 totaling more than 3.87 million frames. Each video frame is carefully and manually annotated with a bounding box. This makes LaSOT, to our knowledge, the largest densely annotated tracking benchmark. Our goal in releasing LaSOT is to provide a dedicated high quality platform for both training and evaluation of trackers. The average video length of LaSOT is around 2,500 frames, where each video contains various challenge factors that exist in real world video footage,such as the targets disappearing and re-appearing. These longer video lengths allow for the assessment of long-term trackers. To take advantage of the close connection between visual appearance and natural language, we provide language specification for each video in LaSOT. We believe such additions will allow for future research to use linguistic features to improve tracking. Two protocols, full-overlap and one-shot, are designated for flexible assessment of trackers. We extensively evaluate 48 baseline trackers on LaSOT with in-depth analysis, and results reveal that there still exists significant room for improvement. The complete benchmark, tracking results as well as analysis are available at http://vision.cs.stonybrook.edu/~lasot/.
翻訳日:2022-10-20 21:11:25 公開日:2020-09-12
# 深層ニューラルネットワークにおける個々の単位の役割を理解する

Understanding the Role of Individual Units in a Deep Neural Network ( http://arxiv.org/abs/2009.05041v2 )

ライセンス: Link先を確認
David Bau, Jun-Yan Zhu, Hendrik Strobelt, Agata Lapedriza, Bolei Zhou, Antonio Torralba(参考訳) ディープニューラルネットワークは、大規模なデータセット上の複雑なタスクを解決する階層的表現の発見に長けている。 これらの学習された表現をどのように理解できるか? 本稿では,画像分類と画像生成ネットワークにおける個々の隠れ単位の意味を体系的に識別する分析フレームワークであるネットワーク分割を提案する。 まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。 ネットワークがシーンクラスを分類する上で重要な役割を果たす多くのオブジェクトクラスを学習した証拠を見出した。 第2に、シーンを生成するために訓練されたGANモデルを分析するために、同様の分析手法を用いる。 小セットのユニットが活性化または非活性化された場合の変化を分析することで、コンテキストに適応しながらオブジェクトを出力シーンから追加・削除できることがわかった。 最後に、我々の分析フレームワークを敵攻撃の理解と意味的画像編集に応用する。

Deep neural networks excel at finding hierarchical representations that solve complex tasks over large data sets. How can we humans understand these learned representations? In this work, we present network dissection, an analytic framework to systematically identify the semantics of individual hidden units within image classification and image generation networks. First, we analyze a convolutional neural network (CNN) trained on scene classification and discover units that match a diverse set of object concepts. We find evidence that the network has learned many object classes that play crucial roles in classifying scene classes. Second, we use a similar analytic method to analyze a generative adversarial network (GAN) model trained to generate scenes. By analyzing changes made when small sets of units are activated or deactivated, we find that objects can be added and removed from the output scenes while adapting to the context. Finally, we apply our analytic framework to understanding adversarial attacks and to semantic image editing.
翻訳日:2022-10-20 02:35:06 公開日:2020-09-12
# 視覚に基づくキーストローク推論攻撃における脅威空間の再検討

Revisiting the Threat Space for Vision-based Keystroke Inference Attacks ( http://arxiv.org/abs/2009.05796v1 )

ライセンス: Link先を確認
John Lim, True Price, Fabian Monrose, Jan-Michael Frahm(参考訳) 視覚ベースのキーストローク推論攻撃(英: keytroke inference attack)は、攻撃者が光学デバイスを使用してモバイルデバイス上のユーザを記録し、キーストロークを推測するサイドチャネル攻撃である。 これらの攻撃の脅威空間は過去にも研究されてきたが、この脅威空間の定義的特徴、すなわち攻撃者の強さは時代遅れであると主張する。 これらのモデルは大量のトレーニングデータを必要とし、そのようなデータセットをキュレートする費用がかかるため、これまでの研究では、ディープニューラルネットワークでトレーニングされた視覚システムによる敵の研究は行われていない。 これに対処するために,キーストローク推論攻撃に対する攻撃シナリオをシミュレートする大規模な合成データセットを作成する。 まず合成データの事前学習を行い,その後に実生活データに転送学習技術を適用することで,ディープラーニングモデルの性能が向上することを示す。 これは、これらのモデルが私たちの合成データから豊かで有意義な表現を学ぶことができ、合成データに対するトレーニングは、視覚ベースのキーストローク推論攻撃のための小さな実生活データセットを持つという問題を克服するのに役立ちます。 本研究では,入力がキープレスのフレームであり,出力が予測キーである単一キープレス分類に焦点を当てる。 我々の合成データでcnnを事前トレーニングし、敵のドメイン適応フレームワークで小さな実データセットでトレーニングした後、95.6%の精度を得ることができます。 ソースコード: https://github.com/jlim13/key stroke-inference-attack-synthetic-dataset-generator

A vision-based keystroke inference attack is a side-channel attack in which an attacker uses an optical device to record users on their mobile devices and infer their keystrokes. The threat space for these attacks has been studied in the past, but we argue that the defining characteristics for this threat space, namely the strength of the attacker, are outdated. Previous works do not study adversaries with vision systems that have been trained with deep neural networks because these models require large amounts of training data and curating such a dataset is expensive. To address this, we create a large-scale synthetic dataset to simulate the attack scenario for a keystroke inference attack. We show that first pre-training on synthetic data, followed by adopting transfer learning techniques on real-life data, increases the performance of our deep learning models. This indicates that these models are able to learn rich, meaningful representations from our synthetic data and that training on the synthetic data can help overcome the issue of having small, real-life datasets for vision-based key stroke inference attacks. For this work, we focus on single keypress classification where the input is a frame of a keypress and the output is a predicted key. We are able to get an accuracy of 95.6% after pre-training a CNN on our synthetic data and training on a small set of real-life data in an adversarial domain adaptation framework. Source Code for Simulator: https://github.com/jlim13/keystroke-inference-attack-synthetic-dataset-generator-
翻訳日:2022-10-19 08:25:06 公開日:2020-09-12
# モノのインターネットにおけるサイバー犯罪のレビュー

A Review on Cyber Crimes on the Internet of Things ( http://arxiv.org/abs/2009.05708v1 )

ライセンス: Link先を確認
Mohan Krishna Kagita, Navod Thilakarathne, Thippa Reddy Gadekallu, Praveen Kumar Reddy Maddikunta, Saurabh Singh(参考訳) IoT(Internet of Things)デバイスは急速に普及しつつある。 今日のシナリオではIoTの成功は無視できないが、IoTデバイスや設備に対する攻撃や脅威も日々増加している。 サイバー攻撃はIoTの一部となり、ユーザーの生活と社会に影響を及ぼす。 サイバー犯罪は世界中の政府や企業のインフラを脅かし、無数の方法でユーザーを傷つける可能性がある。 世界的なサイバー犯罪による損害は、サイバー犯罪によって世界経済に年間6兆ドルに達すると予測されている。 オーストラリアのサイバー攻撃による年間損失は3億2800万ドルと見積もられている。 これらの攻撃を遅らせるために様々なステップが取られるが、残念ながら適切に成功できなかった。 セキュアなIoTは、この時間の必要性であり、IoT構造における攻撃と脅威の理解を研究する必要がある。 サイバー攻撃の理由は、週に1度のサイバーセキュリティーを保有する国、サイバー犯罪は攻撃に新しい技術を使用する国、サイバー犯罪はサービスやその他のビジネススキームで可能である。 MSP (Managed Service Providers) はサイバー犯罪と戦う上でさまざまな困難に直面している。 顧客のセキュリティと,サーバやデバイス,システムといった面でのセキュリティを確保する必要があります。 したがって、効果的で高速で使いやすいアンチウイルスおよびアンチマルウェアツールを使用する必要がある。

Internet of Things (IoT) devices are rapidly becoming universal. The success of IoT cannot be ignored in the scenario today, along with its attacks and threats on IoT devices and facilities are also increasing day by day. Cyber attacks become a part of IoT and affecting the life and society of users, so steps must be taken to defend cyber seriously. Cybercrimes threaten the infrastructure of governments and businesses globally and can damage the users in innumerable ways. With the global cybercrime damages predicted to cost up to 6 trillion dollars annually on the global economy by cyber crime. Estimated of 328 Million Dollar annual losses with the cyber attacks in Australia itself. Various steps are taken to slow down these attacks but unfortunately not able to achieve success properly. Therefor secure IoT is the need of this time and understanding of attacks and threats in IoT structure should be studied. The reasons for cyber-attacks can be Countries having week cyber securities, Cybercriminals use new technologies to attack, Cybercrime is possible with services and other business schemes. MSP (Managed Service Providers) face different difficulties in fighting with Cyber-crime. They have to ensure that security of the customer as well as their security in terms of their servers, devices, and systems. Hence, they must use effective, fast, and easily usable antivirus and antimalware tools.
翻訳日:2022-10-19 08:24:10 公開日:2020-09-12
# 高次元高度製造プロセスの誘導政策探索に基づく制御

Guided Policy Search Based Control of a High Dimensional Advanced Manufacturing Process ( http://arxiv.org/abs/2009.05838v1 )

ライセンス: Link先を確認
Amit Surana, Kishore Reddy, Matthew Siopis(参考訳) 本稿では,加法製造プロセスにおける高次元最適制御問題に対して,GPSに基づく強化学習フレームワークを適用した。 本発明の課題は, プロセスパラメータを制御することにより, 積層した材料を最小化しつつ, 材料表面の幾何学的特性を所望する。 繰り返し線形二次レギュレータをベースとしたガイド分布の慎重に選択されたセットとともに堆積過程の現実的なシミュレーションモデルを用いて,GPSを用いたニューラルネットワークポリシのトレーニングを行う。 トレーニングされたポリシと堆積プロファイルのその場測定に基づく閉ループ制御を実験的に検証し,有望な性能を示す。

In this paper we apply guided policy search (GPS) based reinforcement learning framework for a high dimensional optimal control problem arising in an additive manufacturing process. The problem comprises of controlling the process parameters so that layer-wise deposition of material leads to desired geometric characteristics of the resulting part surface while minimizing the material deposited. A realistic simulation model of the deposition process along with carefully selected set of guiding distributions generated based on iterative Linear Quadratic Regulator is used to train a neural network policy using GPS. A closed loop control based on the trained policy and in-situ measurement of the deposition profile is tested experimentally, and shows promising performance.
翻訳日:2022-10-19 08:23:35 公開日:2020-09-12
# 脳波信号からのEOGアーティファクト除去のためのDeep Learning denoising

Deep learning denoising for EOG artifacts removal from EEG signals ( http://arxiv.org/abs/2009.08809v1 )

ライセンス: Link先を確認
Najmeh Mashhadi, Abolfazl Zargari Khuzani, Morteza Heidari, Donya Khaledyan(参考訳) 脳波記録(EEG)には、特に眼、筋肉、心臓のアーチファクトに多くの干渉がある。 このようなアーティファクトは脳波信号解析に多くの問題を引き起こすため、脳波分析においてeegアーティファクトの拒絶は必須のプロセスである。 脳波発色過程における最も難しい問題の1つは、電気光学(eog)と脳波信号が周波数領域と時間領域の両方で重なり合うような眼のアーティファクトを取り除くことである。 本稿では,この課題に対処する深層学習モデルを構築・訓練し,眼のアーチファクトを効果的に除去する。 提案手法では,各脳波信号を画像に変換し,u-netモデルに供給する。 我々は3つの異なるスキームを提案し,このu-netモデルを用いて画像分割プロセスと類似した汚染された脳波信号の純化を学習させた。 その結果,提案手法の1つは,目標信号(Pure EEGs)と予測信号(Purified EEGs)との平均二乗誤差を低減するための信頼性が高く,有望な精度が得られることを確認した。

There are many sources of interference encountered in the electroencephalogram (EEG) recordings, specifically ocular, muscular, and cardiac artifacts. Rejection of EEG artifacts is an essential process in EEG analysis since such artifacts cause many problems in EEG signals analysis. One of the most challenging issues in EEG denoising processes is removing the ocular artifacts where Electrooculographic (EOG), and EEG signals have an overlap in both frequency and time domains. In this paper, we build and train a deep learning model to deal with this challenge and remove the ocular artifacts effectively. In the proposed scheme, we convert each EEG signal to an image to be fed to a U-NET model, which is a deep learning model usually used in image segmentation tasks. We proposed three different schemes and made our U-NET based models learn to purify contaminated EEG signals similar to the process used in the image segmentation process. The results confirm that one of our schemes can achieve a reliable and promising accuracy to reduce the Mean square error between the target signal (Pure EEGs) and the predicted signal (Purified EEGs).
翻訳日:2022-10-19 08:23:27 公開日:2020-09-12
# 近接場光度ステレオ問題に対するCNNに基づくアプローチ

A CNN Based Approach for the Near-Field Photometric Stereo Problem ( http://arxiv.org/abs/2009.05792v1 )

ライセンス: Link先を確認
Fotios Logothetis, Ignas Budvytis, Roberto Mecca, Roberto Cipolla(参考訳) 異なる光源下で複数の画像を用いて物体の3次元形状を再構成することは、特に光伝播や減衰、遠近視幾何学、鏡面反射といった現実的な仮定を考える場合、非常に難しい課題である。 光度ステレオ(PS)問題に取り組む多くの研究は、上記の仮定の多くを緩和する。 特に鏡面反射や全球照明効果を無視する。 本研究では,これらの現実的な仮定をPhotometric Stereoで処理できるCNNベースのアプローチを提案する。 本研究では,深層ニューラルネットワークの最近の改良を,遠方場測光ステレオに活用し,近接場設定に適用する。 2つの主要なステップを持つ形状推定を反復的に行うことでこれを実現する。 まず、ピクセル単位のcnnを訓練し、反射率サンプルから表面の正常値を予測する。 第2に、光方向を反復的に推定するために正規場を統合することで深度を計算し、入力画像の補正と次の反復に対する反射率サンプルの計算を行う。 我々の知る限りでは、これは、高精細な物体から3次元形状を正確に予測できる最初の近接場フレームワークである。 本手法は, 合成実験と実実験の両方において, 最先端の近距離場光度ステレオ法より優れる。

Reconstructing the 3D shape of an object using several images under different light sources is a very challenging task, especially when realistic assumptions such as light propagation and attenuation, perspective viewing geometry and specular light reflection are considered. Many of works tackling Photometric Stereo (PS) problems often relax most of the aforementioned assumptions. Especially they ignore specular reflection and global illumination effects. In this work, we propose the first CNN based approach capable of handling these realistic assumptions in Photometric Stereo. We leverage recent improvements of deep neural networks for far-field Photometric Stereo and adapt them to near field setup. We achieve this by employing an iterative procedure for shape estimation which has two main steps. Firstly we train a per-pixel CNN to predict surface normals from reflectance samples. Secondly, we compute the depth by integrating the normal field in order to iteratively estimate light directions and attenuation which is used to compensate the input images to compute reflectance samples for the next iteration. To the best of our knowledge this is the first near-field framework which is able to accurately predict 3D shape from highly specular objects. Our method outperforms competing state-of-the-art near-field Photometric Stereo approaches on both synthetic and real experiments.
翻訳日:2022-10-19 08:18:07 公開日:2020-09-12
# 視覚SLAMのためのマップマージアルゴリズム:実現可能性と実証評価

Map-merging Algorithms for Visual SLAM: Feasibility Study and Empirical Evaluation ( http://arxiv.org/abs/2009.05819v1 )

ライセンス: Link先を確認
Andrey Bokovoy, Kirill Muraviev and Konstantin Yakovlev(参考訳) ローカライゼーションとマッピングを同時に行うことは、特にビデオデータ(vSLAM)のみに依存する問題であり、ロボット工学やコンピュータビジョンで広く研究されている。 最先端のvslamアルゴリズムは正確な地図を構築することができ、モバイルロボットが未知の環境を自律的にナビゲートできる。 本稿では,vSLAMに関する重要な問題,すなわちマップのマージが,例えばマルチロボットのカバレッジシナリオなど,現実的に重要なシナリオに現れる可能性があることに関心がある。 この問題は、異なる vSLAM マップを一貫した単一の表現にマージできるかどうかを問うものである。 本研究では,既存の2次元および3次元マップマージアルゴリズムを検証し,実環境 (habitat) において広範囲な経験的評価を行う。 質的および定量的な比較を行い、得られた結果を報告して分析する。

Simultaneous localization and mapping, especially the one relying solely on video data (vSLAM), is a challenging problem that has been extensively studied in robotics and computer vision. State-of-the-art vSLAM algorithms are capable of constructing accurate-enough maps that enable a mobile robot to autonomously navigate an unknown environment. In this work, we are interested in an important problem related to vSLAM, i.e. map merging, that might appear in various practically important scenarios, e.g. in a multi-robot coverage scenario. This problem asks whether different vSLAM maps can be merged into a consistent single representation. We examine the existing 2D and 3D map-merging algorithms and conduct an extensive empirical evaluation in realistic simulated environment (Habitat). Both qualitative and quantitative comparison is carried out and the obtained results are reported and analyzed.
翻訳日:2022-10-19 08:17:48 公開日:2020-09-12
# 血縁検証への統一的アプローチ

A Unified Approach to Kinship Verification ( http://arxiv.org/abs/2009.05871v1 )

ライセンス: Link先を確認
Eran Dahan and Yosi Keller(参考訳) 本研究では,すべての親族クラスを共同で学習する統合マルチタスク学習方式を用いて,親族検証のための深層学習に基づくアプローチを提案する。 これにより、kin検証の典型的な小さなトレーニングセットをより活用できます。 本稿では,ネットワークのトレーニングにおいて一般的な問題であるオーバーフィッティングを回避するため,キンイメージの埋め込みを融合させる新しい手法を提案する。 kin検証データセットの固有の不均衡を解決するために、トレーニングセット画像に対する適応サンプリングスキームを導出する。 徹底的なアブレーション研究は、我々のアプローチの有効性を実証し、FG2020データセット、FG2018、FG2020データセットに適用した場合に、現代の最先端のキン検証結果より優れていることを示した。

In this work, we propose a deep learning-based approach for kin verification using a unified multi-task learning scheme where all kinship classes are jointly learned. This allows us to better utilize small training sets that are typical of kin verification. We introduce a novel approach for fusing the embeddings of kin images, to avoid overfitting, which is a common issue in training such networks. An adaptive sampling scheme is derived for the training set images to resolve the inherent imbalance in kin verification datasets. A thorough ablation study exemplifies the effectivity of our approach, which is experimentally shown to outperform contemporary state-of-the-art kin verification results when applied to the Families In the Wild, FG2018, and FG2020 datasets.
翻訳日:2022-10-19 08:17:31 公開日:2020-09-12
# faircvtestデモ: 公正な自動採用テストベッドによるマルチモーダル学習におけるバイアスの理解

FairCVtest Demo: Understanding Bias in Multimodal Learning with a Testbed in Fair Automatic Recruitment ( http://arxiv.org/abs/2009.07025v1 )

ライセンス: Link先を確認
Alejandro Pe\~na and Ignacio Serna and Aythami Morales and Julian Fierrez(参考訳) 異質な情報ソースに基づく現在のマルチモーダルAIアルゴリズムが、データの機密要素や内部バイアスによってどのように影響を受けるかを研究することを目的として、この実証はCurriculum Vitae: FairCVtestに基づいた自動採用テストベッド上での実証実験である。 社会における意思決定アルゴリズムの存在は急速に増加しており、その透明性とこれらのアルゴリズムが新たな差別源となる可能性への懸念が生まれている。 このデモでは、非構造化データから機密情報を抽出し、望ましくない(好ましくない)方法でデータバイアスと組み合わせて活用する、リクルートツールの背後にある人工知能(ai)の能力を示しています。 デモには、当社のマルチモーダルaiフレームワークにおける機密情報を排除する識別認識学習のための新しいアルゴリズム(sensitivenets)が含まれています。

With the aim of studying how current multimodal AI algorithms based on heterogeneous sources of information are affected by sensitive elements and inner biases in the data, this demonstrator experiments over an automated recruitment testbed based on Curriculum Vitae: FairCVtest. The presence of decision-making algorithms in society is rapidly increasing nowadays, while concerns about their transparency and the possibility of these algorithms becoming new sources of discrimination are arising. This demo shows the capacity of the Artificial Intelligence (AI) behind a recruitment tool to extract sensitive information from unstructured data, and exploit it in combination to data biases in undesirable (unfair) ways. Aditionally, the demo includes a new algorithm (SensitiveNets) for discrimination-aware learning which eliminates sensitive information in our multimodal AI framework.
翻訳日:2022-10-19 08:17:09 公開日:2020-09-12
# ベイズ推定によるスパースデータによる疾患発生の追跡

Tracking disease outbreaks from sparse data with Bayesian inference ( http://arxiv.org/abs/2009.05863v1 )

ライセンス: Link先を確認
Bryan Wilder, Michael J. Mina, Milind Tambe(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、疫学における古典的な問題に新たな動機を与えている。 標準的な方法は存在するが、粗粒度の高い国または州のスケールで、豊富なデータを持ち、より細かいスケール(例えば個々の学校や町)で一般的な部分的な可観測性とスパースなデータに対応するのに苦労している。 例えば、検査プログラムによって少数の感染が捕捉される場合、ケース数は不足する可能性がある。 あるいは、感染した個々のテストが陽性かどうかは、テストの種類やテストの時点によって異なります。 本稿では,部分可観測性を考慮したベイズフレームワークを提案する。 本モデルでは, 未知の再現数よりも前のガウス過程を各時間ステップに配置し, 特定のテストプログラムの分布から得られたモデル観察を行う。 例えば、我々のフレームワークは、様々な種類のテスト(ウイルスRNA、抗体、抗原など)とサンプリングスキーム(例えば、縦方向または横方向のスクリーニング)に対応できる。 このフレームワークの推論は数万から数十万の離散潜在変数の存在によって複雑である。 この課題に対処するために,変分目的のための新しい勾配推定器に依存する効率的な確率的変分推定法を提案する。 実験結果から, 再現数を推定する標準的な手法は失敗するが, 精度が高く, 校正後の精度は良好であることが明らかとなった。

The COVID-19 pandemic provides new motivation for a classic problem in epidemiology: estimating the empirical rate of transmission during an outbreak (formally, the time-varying reproduction number) from case counts. While standard methods exist, they work best at coarse-grained national or state scales with abundant data, and struggle to accommodate the partial observability and sparse data common at finer scales (e.g., individual schools or towns). For example, case counts may be sparse when only a small fraction of infections are caught by a testing program. Or, whether an infected individual tests positive may depend on the kind of test and the point in time when they are tested. We propose a Bayesian framework which accommodates partial observability in a principled manner. Our model places a Gaussian process prior over the unknown reproduction number at each time step and models observations sampled from the distribution of a specific testing program. For example, our framework can accommodate a variety of kinds of tests (viral RNA, antibody, antigen, etc.) and sampling schemes (e.g., longitudinal or cross-sectional screening). Inference in this framework is complicated by the presence of tens or hundreds of thousands of discrete latent variables. To address this challenge, we propose an efficient stochastic variational inference method which relies on a novel gradient estimator for the variational objective. Experimental results for an example motivated by COVID-19 show that our method produces an accurate and well-calibrated posterior, while standard methods for estimating the reproduction number can fail badly.
翻訳日:2022-10-19 08:16:04 公開日:2020-09-12
# 新型コロナウイルスパンデミックの国像-中国を事例に

Country Image in COVID-19 Pandemic: A Case Study of China ( http://arxiv.org/abs/2009.05817v1 )

ライセンス: Link先を確認
Huimin Chen, Zeyu Zhu, Fanchao Qi, Yining Ye, Zhiyuan Liu, Maosong Sun, Jianbin Jin(参考訳) 国像は国際関係と経済発展に大きな影響を与えている。 新型コロナウイルス(COVID-19)の世界的な流行で、各国と国民は異なる反応を示し、外国の人々の間でさまざまなイメージが認識される。 そこで本研究では,中国を具体的かつ典型的な事例として捉え,大規模Twitterデータセットのアスペクトベース感情分析を用いてそのイメージを考察する。 私たちの知る限りでは、このようなきめ細かい方法でカントリーイメージを探求する最初の研究です。 分析を行うために、まずアスペクトレベルの感情アノテーションを備えた手動ラベルのtwitterデータセットを構築します。 その後、bertとアスペクトベースの感情分析を行い、中国のイメージを探求する。 我々は,一般大衆における非否定的から否定的への感情変化を発見し,否定的イデオロギー的側面の言及の増加と非否定的事実的側面の言及の縮小について説明する。 米国議会の議員、英メディア、ソーシャルボットを含むさまざまなグループのtwitterユーザーのさらなる調査は、中国に対する態度の異なるパターンを明らかにしている。 この研究は、新型コロナウイルスのパンデミックにおける中国の変化像をより深く理解する。 また,側面に基づく感情分析が社会科学研究にどのように応用され,有益な洞察を提供するのかを実証する。

Country image has a profound influence on international relations and economic development. In the worldwide outbreak of COVID-19, countries and their people display different reactions, resulting in diverse perceived images among foreign public. Therefore, in this study, we take China as a specific and typical case and investigate its image with aspect-based sentiment analysis on a large-scale Twitter dataset. To our knowledge, this is the first study to explore country image in such a fine-grained way. To perform the analysis, we first build a manually-labeled Twitter dataset with aspect-level sentiment annotations. Afterward, we conduct the aspect-based sentiment analysis with BERT to explore the image of China. We discover an overall sentiment change from non-negative to negative in the general public, and explain it with the increasing mentions of negative ideology-related aspects and decreasing mentions of non-negative fact-based aspects. Further investigations into different groups of Twitter users, including U.S. Congress members, English media, and social bots, reveal different patterns in their attitudes toward China. This study provides a deeper understanding of the changing image of China in COVID-19 pandemic. Our research also demonstrates how aspect-based sentiment analysis can be applied in social science researches to deliver valuable insights.
翻訳日:2022-10-19 08:15:37 公開日:2020-09-12
# rgb2lidar:大規模クロスモーダル視覚定位解決に向けて

RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual Localization ( http://arxiv.org/abs/2009.05695v1 )

ライセンス: Link先を確認
Niluthpol Chowdhury Mithun, Karan Sikka, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar(参考訳) 地上RGB画像とジオレファレンスされた空中LIDAR 3D点雲(奥行き画像)をマッチングすることにより,大規模かつ未解明な大規模視像定位問題について検討した。 以前の作業は小さなデータセットで実証され、大規模アプリケーションのスケールアップには役立たなかった。 大規模評価を実現するため,RGBの550K対(143km^2領域をカバー)と空中LIDAR深度画像を含む新しいデータセットを導入した。 本稿では,両モードの外観と意味的手がかりを効果的に組み合わせて,劇的なクロスモーダル変動に対処する結合埋め込み方式を提案する。 提案するデータセットを用いた実験により,14km^2領域から収集した50kロケーションペアの大規模なテストセットにおいて,中央値5ランクの強い結果が得られた。 これは、パフォーマンスとスケールにおける以前の作業よりも大幅に進歩したことを示している。 我々は,この課題の難易度と提案モデルの利点を明らかにするための質的な結果で結論付けた。 我々の研究は、クロスモーダルな視覚的ローカライゼーションのさらなる研究の基盤を提供する。

We study an important, yet largely unexplored problem of large-scale cross-modal visual localization by matching ground RGB images to a geo-referenced aerial LIDAR 3D point cloud (rendered as depth images). Prior works were demonstrated on small datasets and did not lend themselves to scaling up for large-scale applications. To enable large-scale evaluation, we introduce a new dataset containing over 550K pairs (covering 143 km^2 area) of RGB and aerial LIDAR depth images. We propose a novel joint embedding based method that effectively combines the appearance and semantic cues from both modalities to handle drastic cross-modal variations. Experiments on the proposed dataset show that our model achieves a strong result of a median rank of 5 in matching across a large test set of 50K location pairs collected from a 14km^2 area. This represents a significant advancement over prior works in performance and scale. We conclude with qualitative results to highlight the challenging nature of this task and the benefits of the proposed model. Our work provides a foundation for further research in cross-modal visual localization.
翻訳日:2022-10-19 08:15:15 公開日:2020-09-12
# CIA_NITT at WNUT-2020 Task 2: Classification of COVID-19 Tweets using Pre-trained Language Models (英語)

CIA_NITT at WNUT-2020 Task 2: Classification of COVID-19 Tweets Using Pre-trained Language Models ( http://arxiv.org/abs/2009.05782v1 )

ライセンス: Link先を確認
Yandrapati Prakash Babu and Rajagopal Eswari(参考訳) 本稿では,WNUT 2020共有タスク2のモデルについて述べる。 共有タスク2は、covid-19関連のインフォメーションツイートの識別を含む。 我々はこれをバイナリテキスト分類問題として扱い,事前学習した言語モデルを用いて実験を行う。 CT-BERTをベースとした第1モデルはF1スコア88.7%、第2モデルはCT-BERT、RoBERTa、SVMのアンサンブルであるF1スコア88.52%を達成する。

This paper presents our models for WNUT 2020 shared task2. The shared task2 involves identification of COVID-19 related informative tweets. We treat this as binary text classification problem and experiment with pre-trained language models. Our first model which is based on CT-BERT achieves F1-score of 88.7% and second model which is an ensemble of CT-BERT, RoBERTa and SVM achieves F1-score of 88.52%.
翻訳日:2022-10-19 08:09:25 公開日:2020-09-12
# EdgeLoc: カプセルネットワークを使用したロバストな屋内ローカライゼーションのためのエッジIoTフレームワーク

EdgeLoc: An Edge-IoT Framework for Robust Indoor Localization Using Capsule Networks ( http://arxiv.org/abs/2009.05780v1 )

ライセンス: Link先を確認
Qianwen Ye, Xiaochen Fan, Gengfa Fang, Hongxia Bie, Chaocan Xiang, Xudong Song and Xiangjian He(参考訳) 屋内シナリオにおける位置情報サービスへの前例のない需要により、モバイルユーザにとってワイヤレス屋内位置決めが不可欠になっている。 GPSは屋内では利用できないが、WiFi RSS指紋認証はユビキタスアクセシビリティーで普及している。 しかし、2つの大きな課題により、堅牢で効率的な屋内ローカライズを実現することは困難である。 まず,手作りの特徴を生の指紋データから簡単に学習する従来の局所化アルゴリズムに影響を及ぼすような,ランダムな信号ゆらぎによって局所化精度を劣化させることができる。 第二に、モバイルユーザはローカライズ遅延に敏感だが、従来の屋内ローカライズアルゴリズムは計算集約的で時間を要する。 本稿では,カプセルネットワークを用いた効率的で堅牢な屋内ローカライズのためのエッジIoTフレームワークであるEdgeLocを提案する。 CapsNetを用いた深層学習モデルを構築し,WiFi指紋データから階層情報を効率的に抽出し,位置推定精度を大幅に向上させる。 さらに,エッジサーバで十分にトレーニングされたディープラーニングモデルを用いて,ほぼリアルタイムなローカライズ処理を実現するために,エッジ計算プロトタイプシステムを実装した。 33,600以上のデータポイントを用いた実世界実験と,オープンデータセットを用いた広範囲な合成実験を行い,edgelocの有効性を検証した。 edgelocシステムの最良のトレードオフは、フィールド実験で平均測位時間2.31msで98.5%の測位精度を達成している。

With the unprecedented demand for location-based services in indoor scenarios, wireless indoor localization has become essential for mobile users. While GPS is not available at indoor spaces, WiFi RSS fingerprinting has become popular with its ubiquitous accessibility. However, it is challenging to achieve robust and efficient indoor localization with two major challenges. First, the localization accuracy can be degraded by the random signal fluctuations, which would influence conventional localization algorithms that simply learn handcrafted features from raw fingerprint data. Second, mobile users are sensitive to the localization delay, but conventional indoor localization algorithms are computation-intensive and time-consuming. In this paper, we propose EdgeLoc, an edge-IoT framework for efficient and robust indoor localization using capsule networks. We develop a deep learning model with the CapsNet to efficiently extract hierarchical information from WiFi fingerprint data, thereby significantly improving the localization accuracy. Moreover, we implement an edge-computing prototype system to achieve a nearly real-time localization process, by enabling mobile users with the deep-learning model that has been well-trained by the edge server. We conduct a real-world field experimental study with over 33,600 data points and an extensive synthetic experiment with the open dataset, and the experimental results validate the effectiveness of EdgeLoc. The best trade-off of the EdgeLoc system achieves 98.5% localization accuracy within an average positioning time of only 2.31 ms in the field experiment.
翻訳日:2022-10-19 08:08:52 公開日:2020-09-12
# マルチタスクメモリニューラルネットワークを用いた需要予測のための知識適応

Knowledge Adaption for Demand Prediction based on Multi-task Memory Neural Network ( http://arxiv.org/abs/2009.05777v1 )

ライセンス: Link先を確認
Can Li, Lei Bai, Wei Liu, Lina Yao, S Travis Waller(参考訳) 公共交通モード(バスやライトレールなど)の正確な需要予測は、公共サービス運用には不可欠であるが、様々なモードの開発レベルが重要視されることが多く、知識不足や駅の分散(駅・スパースモード)が不足しているため、需要予測が困難である。 直観的には,都市内で異なる公共交通モードが時空間的に共有需要パターンを除外する可能性があり,そのために,局集中型モードと設計記憶型マルチタスクリカレントネットワーク(mature)のデータを用いて,局集中型モードから関連するパターンを適応させることで,各モードから転送可能な需要パターンを導出し,局スパースモードの予測を促進させる。 具体的には、3つのコンポーネントがある。 1) 長期情報を捕捉し、各トランジットモードの時間的知識を記憶する能力を強化するためのメモリ拡張リカレントネットワーク 2)rele-vant知識を局集中型ソースから局スパースソースに適応させるための知識適応モジュール 3)すべての情報を取り込んで複数のモードの需要を予測するためのマルチタスク学習フレームワーク。4つのpub-licトランスポートモードをカバーする実世界のデータセットにおける実験結果から,本モデルがステーションスパースモードの需要予測性能を促進できることが示されている。

Accurate demand forecasting of different public transport modes(e.g., buses and light rails) is essential for public service operation.However, the development level of various modes often varies sig-nificantly, which makes it hard to predict the demand of the modeswith insufficient knowledge and sparse station distribution (i.e.,station-sparse mode). Intuitively, different public transit modes mayexhibit shared demand patterns temporally and spatially in a city.As such, we propose to enhance the demand prediction of station-sparse modes with the data from station-intensive mode and designaMemory-Augmented Multi-taskRecurrent Network (MATURE)to derive the transferable demand patterns from each mode andboost the prediction of station-sparse modes through adaptingthe relevant patterns from the station-intensive mode. Specifically,MATUREcomprises three components: 1) a memory-augmentedrecurrent network for strengthening the ability to capture the long-short term information and storing temporal knowledge of eachtransit mode; 2) a knowledge adaption module to adapt the rele-vant knowledge from a station-intensive source to station-sparsesources; 3) a multi-task learning framework to incorporate all theinformation and forecast the demand of multiple modes jointly.The experimental results on a real-world dataset covering four pub-lic transport modes demonstrate that our model can promote thedemand forecasting performance for the station-sparse modes.
翻訳日:2022-10-19 08:08:27 公開日:2020-09-12
# Probabilistic Epistemic Argumentation を用いた法則による説明可能な自動推論

Explainable Automated Reasoning in Law using Probabilistic Epistemic Argumentation ( http://arxiv.org/abs/2009.05815v1 )

ライセンス: Link先を確認
Inga Ibs and Nico Potyka(参考訳) 法律における意思決定支援と分析のための自動推論ツールの適用は、裁判所の判断をより透明で客観的にする可能性がある。 証拠の正確性と妥当性に不確実性がしばしば存在するため、非古典的推論アプローチが必要である。 本稿では,判例の自動推論のためのツールとして,確率論的認識論的議論を検討する。 判例を確率論的認識論的議論問題としてモデル化し,証拠をモデル化する方法を説明し,法的決定のための説明を自動生成する方法を概説する。 我々のフレームワークは容易に解釈でき、循環構造や不正確な確率を扱うことができ、最悪の場合には多項式時間確率的推論を保証できる。

Applying automated reasoning tools for decision support and analysis in law has the potential to make court decisions more transparent and objective. Since there is often uncertainty about the accuracy and relevance of evidence, non-classical reasoning approaches are required. Here, we investigate probabilistic epistemic argumentation as a tool for automated reasoning about legal cases. We introduce a general scheme to model legal cases as probabilistic epistemic argumentation problems, explain how evidence can be modeled and sketch how explanations for legal decisions can be generated automatically. Our framework is easily interpretable, can deal with cyclic structures and imprecise probabilities and guarantees polynomial-time probabilistic reasoning in the worst-case.
翻訳日:2022-10-19 08:07:58 公開日:2020-09-12
# 映像インパインティングのための短期的・長期的コンテキスト集約ネットワーク

Short-Term and Long-Term Context Aggregation Network for Video Inpainting ( http://arxiv.org/abs/2009.05721v1 )

ライセンス: Link先を確認
Ang Li, Shanshan Zhao, Xingjun Ma, Mingming Gong, Jianzhong Qi, Rui Zhang, Dacheng Tao, Ramamohanarao Kotagiri(参考訳) Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。 しかし、既存の手法は、不正確な短期的文脈集約に悩まされるか、あるいは長期的フレーム情報を調べることは滅多にない。 本研究では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキストアグリゲーションネットワークを提案する。 符号化の段階では,隣接するフレームから,不足領域の境界コンテキストと密接に関連した局所領域を対象フレームにアライメントし,アグリゲーションする境界対応短期文脈アグリゲーションを提案する。 さらに, インペインティングプロセスを通じて動的に更新される長期フレーム機能を用いて, エンコーディング段階で生成された特徴マップをグローバルに洗練するために, 動的長期コンテキストアグリゲーションを提案する。 実験により,最先端の手法よりも優れた塗装結果と高速塗装速度が得られた。

Video inpainting aims to restore missing regions of a video and has many applications such as video editing and object removal. However, existing methods either suffer from inaccurate short-term context aggregation or rarely explore long-term frame information. In this work, we present a novel context aggregation network to effectively exploit both short-term and long-term frame information for video inpainting. In the encoding stage, we propose boundary-aware short-term context aggregation, which aligns and aggregates, from neighbor frames, local regions that are closely related to the boundary context of missing regions into the target frame. Furthermore, we propose dynamic long-term context aggregation to globally refine the feature map generated in the encoding stage using long-term frame features, which are dynamically updated throughout the inpainting process. Experiments show that it outperforms state-of-the-art methods with better inpainting results and fast inpainting speed.
翻訳日:2022-10-19 08:07:46 公開日:2020-09-12
# エンド・ツー・エンドシークエンシャルアプローチを用いたスキャン請求書(AIESI)からの抽象情報抽出

Abstractive Information Extraction from Scanned Invoices (AIESI) using End-to-end Sequential Approach ( http://arxiv.org/abs/2009.05728v1 )

ライセンス: Link先を確認
Shreeshiv Patel, Dvijesh Bhatt(参考訳) 近年の機械学習とディープラーニングの分野では,OCRモデルを高精度に生成できるようになっている。 光文字認識(OCR)は、文書やスキャン画像からテキストを抽出するプロセスである。 ドキュメントデータの合理化には、Payee名、総量、アドレスなどといったデータに興味があります。 抽出された情報はデータの完全な洞察を得るのに役立つ。高速なドキュメント検索、データベースの効率的なインデックス付け、データ分析などに役立つ。 AIESIを使用することで、スキャンした文書からキーパラメータを抽出する作業がなくなる。 スキャンされた請求書からの要約情報抽出(AIESI)は、スキャンされた領収書から日付、総金額、給与名等を抽出するプロセスである。 本稿では,Word wise BiLSTMを用いて,請求書からすべての視覚的特徴とテキスト的特徴をアンサンブルし,重要な請求書パラメータを抽出する手法を提案する。

Recent proliferation in the field of Machine Learning and Deep Learning allows us to generate OCR models with higher accuracy. Optical Character Recognition(OCR) is the process of extracting text from documents and scanned images. For document data streamlining, we are interested in data like, Payee name, total amount, address, and etc. Extracted information helps to get complete insight of data, which can be helpful for fast document searching, efficient indexing in databases, data analytics, and etc. Using AIESI we can eliminate human effort for key parameters extraction from scanned documents. Abstract Information Extraction from Scanned Invoices (AIESI) is a process of extracting information like, date, total amount, payee name, and etc from scanned receipts. In this paper we proposed an improved method to ensemble all visual and textual features from invoices to extract key invoice parameters using Word wise BiLSTM.
翻訳日:2022-10-19 08:07:13 公開日:2020-09-12
# 解釈可能な機械学習による慢性ホームレスの予測

Interpretable Machine Learning Approaches to Prediction of Chronic Homelessness ( http://arxiv.org/abs/2009.09072v1 )

ライセンス: Link先を確認
Blake VanBerlo, Matthew A. S. Ross, Jonathan Rivard and Ryan Booker(参考訳) 本稿では,カナダのホームレス管理情報システムから抽出された非特定顧客避難記録から慢性ホームレスを予測するための機械学習手法を提案する。 30日間のタイムステップを使用して、6521人のデータセットを生成した。 我々のモデルであるHIFIS-RNN-MLPは、クライアントの過去6ヶ月の慢性的なホームレスを予測するために、クライアントの履歴の静的特徴と動的特徴の両方を取り入れている。 訓練方法は高いF1スコアを達成するために微調整され、高いリコールと精度のバランスが望まれていた。 10倍のクロスバリデーションの平均リコールと精度はそれぞれ0.921と0.651であった。 個人の予測を説明するための解釈可能性手法を適用し, 調査対象者の慢性的なホームレスに寄与する全体的要因について考察した。 このモデルは最先端のパフォーマンスを達成し、解釈可能なaiを通じて通常「ブラックボックス」ニューラルネットワークモデルのステークホルダー信頼を向上させる。

We introduce a machine learning approach to predict chronic homelessness from de-identified client shelter records drawn from a commonly used Canadian homelessness management information system. Using a 30-day time step, a dataset for 6521 individuals was generated. Our model, HIFIS-RNN-MLP, incorporates both static and dynamic features of a client's history to forecast chronic homelessness 6 months into the client's future. The training method was fine-tuned to achieve a high F1-score, giving a desired balance between high recall and precision. Mean recall and precision across 10-fold cross validation were 0.921 and 0.651 respectively. An interpretability method was applied to explain individual predictions and gain insight into the overall factors contributing to chronic homelessness among the population studied. The model achieves state-of-the-art performance and improved stakeholder trust of what is usually a "black box" neural network model through interpretable AI.
翻訳日:2022-10-19 08:00:10 公開日:2020-09-12
# がんに対する機械学習:全ゲノムシークエンシングデータの機械学習分類による癌の正確な診断

Machine Learning Against Cancer: Accurate Diagnosis of Cancer by Machine Learning Classification of the Whole Genome Sequencing Data ( http://arxiv.org/abs/2009.05847v1 )

ライセンス: Link先を確認
Arash Hooshmand(参考訳) 機械学習は、そのゲノムプロファイルに基づいて、がん性および健康的なサンプルを分類することで、任意の段階で異なるがん腫瘍を正確に識別することができる。 我々は,MLAC(Machine Learning Against Cancer)の新たな手法を開発し,完全精度,感度,特異性を実現した。 我々は、癌ゲノムアトラスにおける次世代rnaシークエンシング技術によって得られた全ゲノムシークエンシングデータと、癌組織および健康組織に対する遺伝子型細胞発現プロジェクトを用いてきた。 さらに,教師なし機械学習クラスタリングが癌診断に有用である可能性が示唆された。 実際、データや一般的なアルゴリズムを扱う創造的な方法によって、全ての精度、感度、特異性は、わずかな量のデータであっても、多くの異なる腫瘍タイプに対して1に等しいという完全な分類が行われ、同じ方法は、一連のがんでうまく機能し、がんや健康なサンプルを大量に集める結果となった。 我々のシステムは、分類器が訓練されると、新しい潜在的な患者の新しいサンプルを分類するために使用できるため、実際に使用できる。 本研究の利点は, がんの早期を含むすべての段階の検体から, 上記の完全精度とリコールが得られたことであり, 早期のがん診断には有望なツールである。 我々の新しいモデルのもう1つの利点は、RNAシークエンシングデータの正規化値で動作するため、人々の機密性の高い医療データは隠蔽され、保護され、安全である。 この種の分析は将来的に広範かつ経済的に行われ、RNAシークエンシングデータを受け取り、医療システムを支援する可能性がある独自のがん研究を行うことができる。 持続可能な社会の主要な基盤である健康への大きな前進である。

Machine learning can precisely identify different cancer tumors at any stage by classifying cancerous and healthy samples based on their genomic profile. We have developed novel methods of MLAC (Machine Learning Against Cancer) achieving perfect results with perfect precision, sensitivity, and specificity. We have used the whole genome sequencing data acquired by next-generation RNA sequencing techniques in The Cancer Genome Atlas and Genotype-Tissue Expression projects for cancerous and healthy tissues respectively. Moreover, we have shown that unsupervised machine learning clustering has great potential to be used for cancer diagnosis. Indeed, a creative way to work with data and general algorithms has resulted in perfect classification i.e. all precision, sensitivity, and specificity are equal to 1 for most of the different tumor types even with a modest amount of data, and the same method works well on a series of cancers and results in great clustering of cancerous and healthy samples too. Our system can be used in practice because once the classifier is trained, it can be used to classify any new sample of new potential patients. One advantage of our work is that the aforementioned perfect precision and recall are obtained on samples of all stages including very early stages of cancer; therefore, it is a promising tool for diagnosis of cancers in early stages. Another advantage of our novel model is that it works with normalized values of RNA sequencing data, hence people's private sensitive medical data will remain hidden, protected, and safe. This type of analysis will be widespread and economical in the future and people can even learn to receive their RNA sequencing data and do their own preliminary cancer studies themselves which have the potential to help the healthcare systems. It is a great step forward toward good health that is the main base of sustainable societies.
翻訳日:2022-10-19 07:59:54 公開日:2020-09-12
# オープン問題:ハイパーグラフィック植込みクランク検出における平均硬度

Open Problem: Average-Case Hardness of Hypergraphic Planted Clique Detection ( http://arxiv.org/abs/2009.05870v1 )

ライセンス: Link先を確認
Yuetian Luo and Anru R. Zhang(参考訳) 我々は, 様々なテンソル問題に対する計算困難性の検討において, ハイパーグラフィック植込みクランク(hpc)検出の意義について考察する。 HPC検出の計算困難性のさらなる証拠が開発できるかどうかを問う。 特に、hpcとpc検出の間の計算困難性の同値性を確立することができるかどうかを推測する。

We note the significance of hypergraphic planted clique (HPC) detection in the investigation of computational hardness for a range of tensor problems. We ask if more evidence for the computational hardness of HPC detection can be developed. In particular, we conjecture if it is possible to establish the equivalence of the computational hardness between HPC and PC detection.
翻訳日:2022-10-19 07:59:19 公開日:2020-09-12
# ランダムな平滑化によるトポロジー攻撃に対するグラフ分類の認証ロバスト性

Certified Robustness of Graph Classification against Topology Attack with Randomized Smoothing ( http://arxiv.org/abs/2009.05872v1 )

ライセンス: Link先を確認
Zhidong Gao, Rui Hu, Yanmin Gong(参考訳) グラフ分類は様々な分野に応用できる。 最近の研究では、グラフベースの機械学習モデルは、非i.dなグラフデータの性質のため、特に敵の摂動に弱いことが示されている。 グラフに少数のエッジを追加または削除することで、敵はグラフ分類モデルによって予測されるグラフラベルを大きく変えることができる。 本研究では,堅牢性を保証するスムーズなグラフ分類モデルの構築を提案する。 得られたグラフ分類モデルは、$l_0$の有界対向摂動の下でグラフに対して同じ予測を出力することを証明した。 グラフ畳み込みネットワーク(GCN)に基づくマルチクラスグラフ分類モデルにおいて,提案手法の有効性を評価する。

Graph classification has practical applications in diverse fields. Recent studies show that graph-based machine learning models are especially vulnerable to adversarial perturbations due to the non i.i.d nature of graph data. By adding or deleting a small number of edges in the graph, adversaries could greatly change the graph label predicted by a graph classification model. In this work, we propose to build a smoothed graph classification model with certified robustness guarantee. We have proven that the resulting graph classification model would output the same prediction for a graph under $l_0$ bounded adversarial perturbation. We also evaluate the effectiveness of our approach under graph convolutional network (GCN) based multi-class graph classification model.
翻訳日:2022-10-19 07:59:13 公開日:2020-09-12
# 生成逆ネットワークを用いた胸部X線画像中の肺の分画

Segmentation of Lungs in Chest X-Ray Image Using Generative Adversarial Networks ( http://arxiv.org/abs/2009.05752v1 )

ライセンス: Link先を確認
Faizan Munawar, Shoaib Azmat, Talha Iqbal, Christer Gr\"onlund, Hazrat Ali(参考訳) Chest X-ray (CXR) は低コストの医用イメージング技術である。 MRI、CT、PETスキャンと比較すると、多くの呼吸器疾患を同定する一般的な方法である。 本稿では,特定のcxr上での肺分画作業を行うために,gan(generative adversarial network)を用いた。 GANは、あるドメインから別のドメインへのマッピングを学習することで、現実的なデータを生成するのに人気がある。 我々の研究では、GANの生成元を訓練し、与えられた入力CXRのセグメンテッドマスクを生成する。 判別器は、地上の真実と生成されたマスクとを区別し、対向損失対策により発電機を更新する。 目的は、入力されたcxrのマスクを生成することである。 D1、D2、D3、D4と呼ばれる4つの異なる識別器を用いて、モデルを訓練し評価する。 3つの異なるcxrデータセットにおける実験結果から,提案手法は0.9740のサイススコアと0.943のiouスコアを達成可能であることが明らかとなった。

Chest X-ray (CXR) is a low-cost medical imaging technique. It is a common procedure for the identification of many respiratory diseases compared to MRI, CT, and PET scans. This paper presents the use of generative adversarial networks (GAN) to perform the task of lung segmentation on a given CXR. GANs are popular to generate realistic data by learning the mapping from one domain to another. In our work, the generator of the GAN is trained to generate a segmented mask of a given input CXR. The discriminator distinguishes between a ground truth and the generated mask, and updates the generator through the adversarial loss measure. The objective is to generate masks for the input CXR, which are as realistic as possible compared to the ground truth masks. The model is trained and evaluated using four different discriminators referred to as D1, D2, D3, and D4, respectively. Experimental results on three different CXR datasets reveal that the proposed model is able to achieve a dice-score of 0.9740, and IOU score of 0.943, which are better than other reported state-of-the art results.
翻訳日:2022-10-19 07:59:03 公開日:2020-09-12
# 画像特徴量解析と機械学習を用いた人間の虹彩認識へのアプローチ

An approach to human iris recognition using quantitative analysis of image features and machine learning ( http://arxiv.org/abs/2009.05880v1 )

ライセンス: Link先を確認
Abolfazl Zargari Khuzani, Najmeh Mashhadi, Morteza Heidari, Donya Khaledyan(参考訳) アイリスパターンは個体ごとにユニークな生物学的特徴であり、人間の識別に有用で強力なツールである。 本稿では,虹彩認識のための効率的な枠組みを4つのステップで提案する。 1)Irisセグメンテーション(粗いアイリスの局所化を併用)、(2)特徴抽出(形状・密度・FFT・GLCM・GLDM・ウェーブレット)、(3)特徴低減(カーネルPCAの活用)、(4)分類(多層ニューラルネットワークの適用)により、ボランティア200名から得られたCASIA-Iris-Intervalデータセットの2000アイリス画像を分類した。 その結果,提案手法は最大99.64%の精度で信頼性の高い予測が可能となった。

The Iris pattern is a unique biological feature for each individual, making it a valuable and powerful tool for human identification. In this paper, an efficient framework for iris recognition is proposed in four steps. (1) Iris segmentation (using a relative total variation combined with Coarse Iris Localization), (2) feature extraction (using Shape&density, FFT, GLCM, GLDM, and Wavelet), (3) feature reduction (employing Kernel-PCA) and (4) classification (applying multi-layer neural network) to classify 2000 iris images of CASIA-Iris-Interval dataset obtained from 200 volunteers. The results confirm that the proposed scheme can provide a reliable prediction with an accuracy of up to 99.64%.
翻訳日:2022-10-19 07:58:44 公開日:2020-09-12
# 安全な群集ロボットインタラクションのためのマルチモーダルな人軌道予測によるリスク感作行動制御

Risk-Sensitive Sequential Action Control with Multi-Modal Human Trajectory Forecasting for Safe Crowd-Robot Interaction ( http://arxiv.org/abs/2009.05702v1 )

ライセンス: Link先を確認
Haruki Nishimura and Boris Ivanovic and Adrien Gaidon and Marco Pavone and Mac Schwager(参考訳) 本稿では,リスクに敏感な確率的最適制御に基づく,安全な群集ロボットインタラクションのための新しいオンラインフレームワークを提案する。 サンプリングベースモデル予測制御は、このリスク尺度に対するモード挿入勾配最適化と、複数の相互作用エージェントに対する多モード確率軌道予測を生成する最先端生成モデルであるTrjectron++に依存している。 我々のモジュラーアプローチは、学習に基づく予測とモデルベースの制御に群集とロボットの相互作用を分離する。 特に,ロボットはリスク感度パラメータを変化させることで,多様なインタラクション行動を示す。 シミュレーション研究と実世界の実験により、提案されたオンラインフレームワークは50人以上の人間との衝突を避けつつ、安全で効率的なナビゲーションを実現することができることが示された。

This paper presents a novel online framework for safe crowd-robot interaction based on risk-sensitive stochastic optimal control, wherein the risk is modeled by the entropic risk measure. The sampling-based model predictive control relies on mode insertion gradient optimization for this risk measure as well as Trajectron++, a state-of-the-art generative model that produces multimodal probabilistic trajectory forecasts for multiple interacting agents. Our modular approach decouples the crowd-robot interaction into learning-based prediction and model-based control, which is advantageous compared to end-to-end policy learning methods in that it allows the robot's desired behavior to be specified at run time. In particular, we show that the robot exhibits diverse interaction behavior by varying the risk sensitivity parameter. A simulation study and a real-world experiment show that the proposed online framework can accomplish safe and efficient navigation while avoiding collisions with more than 50 humans in the scene.
翻訳日:2022-10-19 07:58:25 公開日:2020-09-12
# 1次手法による分散最適化のための一般的なフレームワーク

A general framework for decentralized optimization with first-order methods ( http://arxiv.org/abs/2009.05837v1 )

ライセンス: Link先を確認
Ran Xin, Shi Pu, Angelia Nedi\'c, and Usman A. Khan(参考訳) ノードネットワーク上の関数の有限和を最小化する分散最適化は、制御と信号処理の研究において、最適な制御と信号推定の問題に自然に関係しているため重要な焦点となっている。 最近では、高度なコンピューティングと大規模データサイエンスの必要性が出現し、この分野の活動が復活した。 本稿では,制御,信号処理,機械学習問題において大きな成功を収めた分散一階勾配法について論じる。 特に,非指向型および指向型通信ネットワークにも適用可能な分散一階法の一般的なフレームワークを提供し,既存の最適化とコンセンサスに関する作業の多くが,このフレームワークに明示的に関連していることを示す。 さらに,各ノードの確率的勾配に依存する分散確率的一階法への議論を拡張し,局所分散還元スキームが,従来集中型設定において有望であった場合,勾配追跡と呼ばれる手法と組み合わせて分散的手法の性能を向上させる方法について述べる。 分散環境において発生する機械学習と信号処理の問題の文脈において,対応する手法の有効性を動機付け,実証する。

Decentralized optimization to minimize a finite sum of functions over a network of nodes has been a significant focus within control and signal processing research due to its natural relevance to optimal control and signal estimation problems. More recently, the emergence of sophisticated computing and large-scale data science needs have led to a resurgence of activity in this area. In this article, we discuss decentralized first-order gradient methods, which have found tremendous success in control, signal processing, and machine learning problems, where such methods, due to their simplicity, serve as the first method of choice for many complex inference and training tasks. In particular, we provide a general framework of decentralized first-order methods that is applicable to undirected and directed communication networks alike, and show that much of the existing work on optimization and consensus can be related explicitly to this framework. We further extend the discussion to decentralized stochastic first-order methods that rely on stochastic gradients at each node and describe how local variance reduction schemes, previously shown to have promise in the centralized settings, are able to improve the performance of decentralized methods when combined with what is known as gradient tracking. We motivate and demonstrate the effectiveness of the corresponding methods in the context of machine learning and signal processing problems that arise in decentralized environments.
翻訳日:2022-10-19 07:58:07 公開日:2020-09-12
# 神経意味的役割ラベリングにおける構文の役割

Syntax Role for Neural Semantic Role Labeling ( http://arxiv.org/abs/2009.05737v1 )

ライセンス: Link先を確認
Zuchao Li, Hai Zhao, Shexia He, Jiaxun Cai(参考訳) 意味的役割ラベリング(SRL)は文の意味的述語・代名詞構造を認識することを目的としている。 従来のモデルでは、構文情報はSRLのパフォーマンスに顕著な貢献をすることが示されたが、構文情報の必要性は、構文バックボーンを使わずに印象的なパフォーマンスを示すいくつかのニューラルSRL研究によって問題視され、特に最近のディープニューラルネットワークと大規模事前訓練言語モデルと組み合わせた場合、構文情報が神経意味的役割ラベリングにおいてはるかに重要でないことが示唆された。 この概念にもかかわらず、神経SRLフィールドは、依存と単言語および多言語設定の両方において、SRLの構文情報の関連性に関する体系的かつ完全な研究をまだ欠いている。 本稿では,ディープラーニングフレームワークにおけるニューラルSRLの構文情報の重要性を定量化する。 3つの典型的なsrlフレームワーク(ベースライン、シーケンスベース、ツリーベース、グラフベース)を導入し、構文情報を活用している2つのカテゴリ(構文プルーニングベースと構文機能ベース)を紹介します。 実験はCoNLL-2005、2009、2012のすべての言語に対するベンチマークで行われ、その結果、神経SRLモデルは特定の条件下での構文情報から恩恵を受けることができることが示された。 さらに、既存のモデルを用いた徹底的な実証調査とともに、ニューラルSRLモデルに対する構文の定量的意義を示す。

Semantic role labeling (SRL) is dedicated to recognizing the semantic predicate-argument structure of a sentence. Previous studies in terms of traditional models have shown syntactic information can make remarkable contributions to SRL performance; however, the necessity of syntactic information was challenged by a few recent neural SRL studies that demonstrate impressive performance without syntactic backbones and suggest that syntax information becomes much less important for neural semantic role labeling, especially when paired with recent deep neural network and large-scale pre-trained language models. Despite this notion, the neural SRL field still lacks a systematic and full investigation on the relevance of syntactic information in SRL, for both dependency and both monolingual and multilingual settings. This paper intends to quantify the importance of syntactic information for neural SRL in the deep learning framework. We introduce three typical SRL frameworks (baselines), sequence-based, tree-based, and graph-based, which are accompanied by two categories of exploiting syntactic information: syntax pruning-based and syntax feature-based. Experiments are conducted on the CoNLL-2005, 2009, and 2012 benchmarks for all languages available, and results show that neural SRL models can still benefit from syntactic information under certain conditions. Furthermore, we show the quantitative significance of syntax to neural SRL models together with a thorough empirical survey using existing models.
翻訳日:2022-10-19 07:57:47 公開日:2020-09-12
# シーングラフ生成のための関係ラベルの階層性を探る

Exploring the Hierarchy in Relation Labels for Scene Graph Generation ( http://arxiv.org/abs/2009.05834v1 )

ライセンス: Link先を確認
Yi Zhou, Shuyang Sun, Chao Zhang, Yikang Li, Wanli Ouyang(参考訳) 各関係を1つのラベルに割り当てることで、現在のアプローチは関係検出を分類問題として定式化する。 この定式化の下で、述語圏は完全に異なるクラスとして扱われる。 しかし、異なるクラスが明示的な境界を持つオブジェクトラベルとは異なり、述語は通常、意味意味において重複する。 例えば、 sit\_on と stand\_on は垂直関係において共通の意味を持つが、これらの2つのオブジェクトの垂直配置についての詳細は異なっている。 述語カテゴリーの固有構造を活用するために,まず言語階層を構築し,さらに階層的指導的特徴学習(HGFL)戦略を用いて,粗粒度レベルと細粒度レベルの両方の領域特徴を学習する。 また,粒度レベルの学習を導くために,粒度レベルを利用した階層型誘導モジュール(hgm)を提案する。 実験により、提案手法は、異なるデータセットにおけるシーングラフ生成のタスクにおけるrecall@50の観点で、いくつかの最先端ベースラインを大きなマージン(最大3,3$%$相対ゲイン)で改善できることが示されている。

By assigning each relationship a single label, current approaches formulate the relationship detection as a classification problem. Under this formulation, predicate categories are treated as completely different classes. However, different from the object labels where different classes have explicit boundaries, predicates usually have overlaps in their semantic meanings. For example, sit\_on and stand\_on have common meanings in vertical relationships but different details of how these two objects are vertically placed. In order to leverage the inherent structures of the predicate categories, we propose to first build the language hierarchy and then utilize the Hierarchy Guided Feature Learning (HGFL) strategy to learn better region features of both the coarse-grained level and the fine-grained level. Besides, we also propose the Hierarchy Guided Module (HGM) to utilize the coarse-grained level to guide the learning of fine-grained level features. Experiments show that the proposed simple yet effective method can improve several state-of-the-art baselines by a large margin (up to $33\%$ relative gain) in terms of Recall@50 on the task of Scene Graph Generation in different datasets.
翻訳日:2022-10-19 07:51:37 公開日:2020-09-12
# スムースネスセンサ:分散グラフクラスタリングのための適応型スムースネス-遷移グラフ畳み込み

Smoothness Sensor: Adaptive Smoothness-Transition Graph Convolutions for Attributed Graph Clustering ( http://arxiv.org/abs/2009.05743v1 )

ライセンス: Link先を確認
Chaojie Ji, Hongwei Chen, Ruxin Wang, Yunpeng Cai, Hongyan Wu(参考訳) クラスタリング技術は、類似したプロパティを持つオブジェクトをクラスタにグループ化しようとする。 各ノードが特徴属性のセットに関連付けられている属性グラフのノードをクラスタリングすることは、大きな注目を集めている。 グラフ畳み込みネットワーク(gcns)は、グラフクラスタリングのためのノード属性と構造情報の2つの補完的要素を統合する効果的なアプローチである。 しかし、gcnの過剰なスムーシングは、グラフ内のノードがより少ないクラスタにグループ化される傾向があり、結果としてパフォーマンスが低下するなど、ノードの識別不能な表現を生み出す。 本研究では,グラフの平滑度を感知し,平滑度が飽和した後に電流畳み込みを適応的に終了する適応平滑度・遷移グラフ畳み込みに基づく属性付きグラフクラスタリングのための平滑度センサを提案する。 さらに, グラフレベルの滑らかさの代替として, グラフ畳み込みの一定の順序で, 与えられたノードの近傍条件に応じて滑らかさを算出した, 新たな微細化ノード単位の滑らかさ評価法を提案する。 さらに、クラスタ内のタイト性とクラスタ間の分離の両方を考慮して、ニューラルネットワークトレーニングプロセス全体をガイドする自己スーパービジョン基準を設計する。 実験の結果,提案手法は4つのベンチマークデータセットにまたがる3つのメトリクスで,他の12の最先端のベースラインを著しく上回ることがわかった。 さらに、広範囲な研究によって、その効果と効率の理由が明らかになった。

Clustering techniques attempt to group objects with similar properties into a cluster. Clustering the nodes of an attributed graph, in which each node is associated with a set of feature attributes, has attracted significant attention. Graph convolutional networks (GCNs) represent an effective approach for integrating the two complementary factors of node attributes and structural information for attributed graph clustering. However, oversmoothing of GCNs produces indistinguishable representations of nodes, such that the nodes in a graph tend to be grouped into fewer clusters, and poses a challenge due to the resulting performance drop. In this study, we propose a smoothness sensor for attributed graph clustering based on adaptive smoothness-transition graph convolutions, which senses the smoothness of a graph and adaptively terminates the current convolution once the smoothness is saturated to prevent oversmoothing. Furthermore, as an alternative to graph-level smoothness, a novel fine-gained node-wise level assessment of smoothness is proposed, in which smoothness is computed in accordance with the neighborhood conditions of a given node at a certain order of graph convolution. In addition, a self-supervision criterion is designed considering both the tightness within clusters and the separation between clusters to guide the whole neural network training process. Experiments show that the proposed methods significantly outperform 12 other state-of-the-art baselines in terms of three different metrics across four benchmark datasets. In addition, an extensive study reveals the reasons for their effectiveness and efficiency.
翻訳日:2022-10-19 07:51:16 公開日:2020-09-12
# 画像認識と知識グラフ埋め込みを用いた意味的イメージ属性の学習

Learning semantic Image attributes using Image recognition and knowledge graph embeddings ( http://arxiv.org/abs/2009.05812v1 )

ライセンス: Link先を確認
Ashutosh Tiwari and Sandeep Varma(参考訳) テキストから構造化知識を抽出することは、伝統的に知識ベース生成に用いられてきた。 しかし、画像などの他の情報ソースはこのプロセスに活用でき、より完全でリッチな知識基盤を構築することができる。 画像の内容の構造化された意味表現と知識グラフ埋め込みは、画像エンティティ間の意味関係のユニークな表現を提供することができる。 知識グラフに既知のエンティティをリンクし、言語モデルを使ってオープンワールドイメージを学ぶことは、長年にわたって多くの関心を集めてきた。 本稿では,知識グラフ埋め込みモデルと画像の認識属性を組み合わせることで,画像の意味属性を学習するための共有学習手法を提案する。 提案するモデル前提は,画像のエンティティ間の意味的関係を理解し,知識グラフ埋め込みモデルを通じて抽出されたエンティティのリンクを暗黙的に提供する。 限られたデータを持つカスタムユーザ定義知識ベースの使用制限の下では,提案モデルは非常に精度が高く,従来のアプローチに代わる新しい代替手段を提供する。 提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。

Extracting structured knowledge from texts has traditionally been used for knowledge base generation. However, other sources of information, such as images can be leveraged into this process to build more complete and richer knowledge bases. Structured semantic representation of the content of an image and knowledge graph embeddings can provide a unique representation of semantic relationships between image entities. Linking known entities in knowledge graphs and learning open-world images using language models has attracted lots of interest over the years. In this paper, we propose a shared learning approach to learn semantic attributes of images by combining a knowledge graph embedding model with the recognized attributes of images. The proposed model premises to help us understand the semantic relationship between the entities of an image and implicitly provide a link for the extracted entities through a knowledge graph embedding model. Under the limitation of using a custom user-defined knowledge base with limited data, the proposed model presents significant accuracy and provides a new alternative to the earlier approaches. The proposed approach is a step towards bridging the gap between frameworks which learn from large amounts of data and frameworks which use a limited set of predicates to infer new knowledge.
翻訳日:2022-10-19 07:50:50 公開日:2020-09-12
# MeLIME: 機械学習モデルのための意味のあるローカル説明

MeLIME: Meaningful Local Explanation for Machine Learning Models ( http://arxiv.org/abs/2009.05818v1 )

ライセンス: Link先を確認
Tiago Botari, Frederik Hvilsh{\o}j, Rafael Izbicki, Andre C. P. L. F. de Carvalho(参考訳) ほとんどの最先端機械学習アルゴリズムはブラックボックスモデルを誘導し、多くのセンシティブな領域での応用を妨げている。 したがって、機械学習モデルを説明するための多くの手法が提案されている。 本研究では,ブラックボックスモデルの学習に使用されるデータの分布を考慮した局所的説明の改善戦略を提案する。 提案手法は,様々な種類のデータを扱う異なるMLモデルに対して,他の手法と比較して有意義な説明を行う。 MeLIMEはLIME法を一般化し、より柔軟な摂動サンプリングと異なる局所解釈可能なモデルの使用を可能にする。 さらに,よりロバストな説明を育成する局所解釈モデルの標準学習アルゴリズムの修正を導入し,反実例の生成も可能とした。 提案手法の強みを示すために,表データ,画像,テキストを用いた実験を行った。 特にMeLIMEは、 GuidedBackprop、SmoothGrad、Layer-wise Relevance Propagationといったメソッドよりも、MNISTデータセットについてより意味のある説明を生み出した。 MeLIMEはhttps://github.com/tiagobotari/melime.comで入手できる。

Most state-of-the-art machine learning algorithms induce black-box models, preventing their application in many sensitive domains. Hence, many methodologies for explaining machine learning models have been proposed to address this problem. In this work, we introduce strategies to improve local explanations taking into account the distribution of the data used to train the black-box models. We show that our approach, MeLIME, produces more meaningful explanations compared to other techniques over different ML models, operating on various types of data. MeLIME generalizes the LIME method, allowing more flexible perturbation sampling and the use of different local interpretable models. Additionally, we introduce modifications to standard training algorithms of local interpretable models fostering more robust explanations, even allowing the production of counterfactual examples. To show the strengths of the proposed approach, we include experiments on tabular data, images, and text; all showing improved explanations. In particular, MeLIME generated more meaningful explanations on the MNIST dataset than methods such as GuidedBackprop, SmoothGrad, and Layer-wise Relevance Propagation. MeLIME is available on https://github.com/tiagobotari/melime.
翻訳日:2022-10-19 07:50:32 公開日:2020-09-12
# LSSVMベースラーナとトランスダクティブモジュールによるFew-shot Learning

Few-shot Learning with LSSVM Base Learner and Transductive Modules ( http://arxiv.org/abs/2009.05786v1 )

ライセンス: Link先を確認
Haoqing Wang, Zhi-Hong Deng(参考訳) メタラーニング手法の性能は, 比較に適した特徴, 低データシナリオに適した分類器(基礎学習者), サンプルからの貴重な情報という3つの側面に概ね依存している。 この作業では、最後の2つの側面を改善します。 1) 有効な基礎学習者が多数存在するが, 一般化性能と計算オーバーヘッドとの間にはトレードオフがあるので, 計算オーバーヘッドの少ない既存学習者よりも優れた生成が得られる多クラス最小二乗支援ベクトルマシンをベース学習者として導入する。 さらに,クエリサンプルからの情報を活用するために,クエリサンプルを用いたサポートセットの変更,すなわちアテンション機構に基づくサポートサンプルの調整,疑似サポートサンプルとしてサポートセットに擬似ラベル付きクエリセットのプロトタイプの追加を行う,シンプルで効果的な2つのトランスダクティブモジュールを提案する。 これら2つのモジュールは、特に難しい1ショット設定において、少数ショットの分類精度を大幅に向上させる。 我々のモデルはFSLSTM(Few-Shot Learning with LSsvm base learner and Transductive Modules)と呼ばれ, miniImageNet と CIFAR-FS による数ショット学習ベンチマークで最先端のパフォーマンスを実現する。

The performance of meta-learning approaches for few-shot learning generally depends on three aspects: features suitable for comparison, the classifier ( base learner ) suitable for low-data scenarios, and valuable information from the samples to classify. In this work, we make improvements for the last two aspects: 1) although there are many effective base learners, there is a trade-off between generalization performance and computational overhead, so we introduce multi-class least squares support vector machine as our base learner which obtains better generation than existing ones with less computational overhead; 2) further, in order to utilize the information from the query samples, we propose two simple and effective transductive modules which modify the support set using the query samples, i.e., adjusting the support samples basing on the attention mechanism and adding the prototypes of the query set with pseudo labels to the support set as the pseudo support samples. These two modules significantly improve the few-shot classification accuracy, especially for the difficult 1-shot setting. Our model, denoted as FSLSTM (Few-Shot learning with LSsvm base learner and Transductive Modules), achieves state-of-the-art performance on miniImageNet and CIFAR-FS few-shot learning benchmarks.
翻訳日:2022-10-19 07:50:14 公開日:2020-09-12
# 空間持続可能な開発をモニタリングする:エネルギー遷移と持続可能性指標のための衛星・航空画像の半自動解析

Monitoring Spatial Sustainable Development: semi-automated analysis of Satellite and Aerial Images for Energy Transition and Sustainability Indicators ( http://arxiv.org/abs/2009.05738v1 )

ライセンス: Link先を確認
Tim De Jong (Statistics Netherlands), Stefano Bromuri (Open Universiteit Nederland), Xi Chang (Open Universiteit Nederland), Marc Debusschere (Statbel), Natalie Rosenski (Destatis), Clara Schartner (Destatis), Katharina Strauch (IT.NRW), Marion Boehmer (IT.NRW), Lyana Curier (Statistics Netherlands)(参考訳) 本報告では, ESS の「加盟国における地質統計と地理空間情報」に基づくDeepSolaris プロジェクトの結果について述べる。 プロジェクトでは、リモートセンシングデータからソーラーパネルを検出するために、いくつかのディープラーニングアルゴリズムが評価された。 このプロジェクトの目的は、欧州連合の様々な加盟国で機能するディープラーニングモデルを開発できるかどうかを評価することである。 2つのリモートセンシングデータソースが検討され、一方は航空画像、もう一方は衛星画像が検討された。 分類モデルと物体検出モデルという2種類のディープラーニングモデルの評価を行った。 深層学習モデルの評価には,1つの地理的領域でトレーニングを行い,それまでアルゴリズムでは認識できなかった異なる地理的領域で評価を行う深層学習モデルという,クロスサイト評価手法を用いた。 さらに、オランダで訓練されたディープラーニングモデルがドイツで評価され、その逆も行われた。 ディープラーニングモデルはソーラーパネルをうまく検出できたが、誤検出は問題だった。 さらに, クロスボーダ方式で評価すると, モデル性能は劇的に低下した。 したがって、欧州連合内の様々な国で確実に機能するモデルを訓練することは難しい課題である。 とはいえ、現在のソーラーパネルレジスタには存在しない多くのソーラーパネルが検出されているため、手作業でこれらのレジスタをチェックするのに役立てることができる。

This report presents the results of the DeepSolaris project that was carried out under the ESS action 'Merging Geostatistics and Geospatial Information in Member States'. During the project several deep learning algorithms were evaluated to detect solar panels in remote sensing data. The aim of the project was to evaluate whether deep learning models could be developed, that worked across different member states in the European Union. Two remote sensing data sources were considered: aerial images on the one hand, and satellite images on the other. Two flavours of deep learning models were evaluated: classification models and object detection models. For the evaluation of the deep learning models we used a cross-site evaluation approach: the deep learning models where trained in one geographical area and then evaluated on a different geographical area, previously unseen by the algorithm. The cross-site evaluation was furthermore carried out twice: deep learning models trained on he Netherlands were evaluated on Germany and vice versa. While the deep learning models were able to detect solar panels successfully, false detection remained a problem. Moreover, model performance decreased dramatically when evaluated in a cross-border fashion. Hence, training a model that performs reliably across different countries in the European Union is a challenging task. That being said, the models detected quite a share of solar panels not present in current solar panel registers and therefore can already be used as-is to help reduced manual labor in checking these registers.
翻訳日:2022-10-19 07:49:26 公開日:2020-09-12
# 深層学習アルゴリズムを用いたマイクロ顔表情認識

Micro-Facial Expression Recognition Based on Deep-Rooted Learning Algorithm ( http://arxiv.org/abs/2009.05778v1 )

ライセンス: Link先を確認
S. D. Lalitha, K. K. Thyagharajan(参考訳) 表情は人間の感情を観察するための重要な手がかりである。 顔の表情認識は長年にわたり多くの研究者を惹きつけてきたが、表情の特徴は様々な人物の頭部のポーズ、環境、バリエーションと大きく異なるため、依然として難しい話題である。 本研究は, マイクロインタフェース認識の性能向上のための3つの重要なステップである。 まず,適応型準同型フィルタを用いて顔検出と回転整流処理を行う。 第2に,テスト画像空間分析の外観変化を抽出するために,微小界面特性を用いた。 動き情報の特徴は、顔画像のシーケンスにおける表情認識に使用される。 本稿では,学習パラメータによる自発的マイクロ表現を最適特徴量で認識するために,mfedrl(deep-rooted learning)分類器を提案する。 提案手法は,クロスエントロピー損失関数とセンター損失関数の2つの損失関数を含む。 次に、認識率と誤測定値を用いてアルゴリズムの性能を評価する。 シミュレーションの結果,提案手法の予測性能は,畳み込みニューラルネットワーク(cnn),ディープニューラルネットワーク(dnn),人工ニューラルネットワーク(ann),サポートベクトルマシン(svm),k-nearest近傍(knn)といった既存の分類器よりも精度と平均絶対誤差(mae)の点で優れていることがわかった。

Facial expressions are important cues to observe human emotions. Facial expression recognition has attracted many researchers for years, but it is still a challenging topic since expression features vary greatly with the head poses, environments, and variations in the different persons involved. In this work, three major steps are involved to improve the performance of micro-facial expression recognition. First, an Adaptive Homomorphic Filtering is used for face detection and rotation rectification processes. Secondly, Micro-facial features were used to extract the appearance variations of a testing image-spatial analysis. The features of motion information are used for expression recognition in a sequence of facial images. An effective Micro-Facial Expression Based Deep-Rooted Learning (MFEDRL) classifier is proposed in this paper to better recognize spontaneous micro-expressions by learning parameters on the optimal features. This proposed method includes two loss functions such as cross entropy loss function and centre loss function. Then the performance of the algorithm will be evaluated using recognition rate and false measures. Simulation results show that the predictive performance of the proposed method outperforms that of the existing classifiers such as Convolutional Neural Network (CNN), Deep Neural Network (DNN), Artificial Neural Network (ANN), Support Vector Machine (SVM), and k-Nearest Neighbours (KNN) in terms of accuracy and Mean Absolute Error (MAE).
翻訳日:2022-10-19 07:49:03 公開日:2020-09-12
# 投影型絡み合ったペアステートによる教師付き学習

Supervised Learning with Projected Entangled Pair States ( http://arxiv.org/abs/2009.09932v1 )

ライセンス: Link先を確認
Song Cheng, Lei Wang, Pan Zhang(参考訳) 量子物理学から派生したテンソルネットワークは、近年、機械学習の効率的なモデルとして徐々に一般化されている。 しかし、正確な縮約を実現するため、画像などの二次元データモデリングにおいても、行列積状態や木テンソルネットワークのような木のようなテンソルネットワークのみが検討されている。 本研究では,自然画像に類似した構造を持つ2次元テンソルネットワークである射影エンタングルペア状態(peps)を用いて,画像の教師付き学習モデルを構築する。 当社のアプローチではまず,画像データをグリッド上の製品状態に変換した上で,トレーニング可能なパラメータを備えたpepに製品状態をコントラクトして,イメージラベルを予測するフィーチャーマップを実行します。 PEPSのテンソル要素は、トレーニングラベルと予測ラベルの差を最小限にして訓練される。 提案モデルは,mnist と fashion-mnist データセットを用いて画像分類を行った。 本モデルは,木型テンソルネットワークを用いた既存モデルよりもかなり優れていることを示す。 さらに,同じ入力機能を用いて,マルチ層パーセプトロン分類器と同様に動作するが,パラメータが少なく,より安定である。 機械学習における2次元テンソルネットワークモデルの応用可能性について考察した。

Tensor networks, a model that originated from quantum physics, has been gradually generalized as efficient models in machine learning in recent years. However, in order to achieve exact contraction, only tree-like tensor networks such as the matrix product states and tree tensor networks have been considered, even for modeling two-dimensional data such as images. In this work, we construct supervised learning models for images using the projected entangled pair states (PEPS), a two-dimensional tensor network having a similar structure prior to natural images. Our approach first performs a feature map, which transforms the image data to a product state on a grid, then contracts the product state to a PEPS with trainable parameters to predict image labels. The tensor elements of PEPS are trained by minimizing differences between training labels and predicted labels. The proposed model is evaluated on image classifications using the MNIST and the Fashion-MNIST datasets. We show that our model is significantly superior to existing models using tree-like tensor networks. Moreover, using the same input features, our method performs as well as the multilayer perceptron classifier, but with much fewer parameters and is more stable. Our results shed light on potential applications of two-dimensional tensor network models in machine learning.
翻訳日:2022-10-19 07:40:41 公開日:2020-09-12
# 置換フローショップのための反復ビーム探索アルゴリズム

Iterative beam search algorithms for the permutation flowshop ( http://arxiv.org/abs/2009.05800v1 )

ライセンス: Link先を確認
Luc Libralesso, Pablo Andres Focke, Aur\'elien Secardin, Vincent Jost(参考訳) 置換フローショップ(makespan and flowtime minimization)のための反復ビーム探索アルゴリズムについて検討した。 このアルゴリズムは、最近の分岐とバウンドにインスパイアされた分岐戦略と、LRヒューリスティックにインスパイアされたガイダンス戦略を組み合わせる。 VFRベンチマーク (makespan minimization) と Taillard ベンチマーク (flowtime minimization) でNEH ベースの分岐や反復グリーディ戦略を使わずに、多くの新しい最強のソリューションを報告している。 ソースコードはhttps://gitlab.com/librallu/cats-pfsp.com/で入手できる。

We study an iterative beam search algorithm for the permutation flowshop (makespan and flowtime minimization). This algorithm combines branching strategies inspired by recent branch-and-bounds and a guidance strategy inspired by the LR heuristic. It obtains competitive results, reports many new-best-so-far solutions on the VFR benchmark (makespan minimization) and the Taillard benchmark (flowtime minimization) without using any NEH-based branching or iterative-greedy strategy. The source code is available at: https://gitlab.com/librallu/cats-pfsp.
翻訳日:2022-10-19 07:40:23 公開日:2020-09-12
# ディープニューラルネットワークを用いたインドネシア語関係検出 -Support Vector Machine-

Relation Detection for Indonesian Language using Deep Neural Network -- Support Vector Machine ( http://arxiv.org/abs/2009.05698v1 )

ライセンス: Link先を確認
Ramos Janoah Hasudungan (1), Ayu Purwarianti (1) ((1) Institut Teknologi Bandung)(参考訳) 関係検出は2つの実体が関連しているかどうかを決定するタスクである。 本稿では,インドネシア語の2つの名前のエンティティ間の関係検出にニューラルネットワークを用いる。 単語埋め込み,位置埋め込み,posタグ埋め込み,文字埋め込みなどの特徴を用いた。 モデルでは、モデルを2つの部分に分割する: フロント部分分類器(畳み込み層またはLSTM層)とバック部分分類器(デンス層またはSVM)。 ニューラルネットワークのハイパーパラメータとsvmのグリッド探索を行った。 訓練には6000文, 試験には1,125文を用いた。 最大の成果はF1-Scoreの0.8083で、Convolutional Layerをフロントパート、SVMをバックパートとして使用しています。

Relation Detection is a task to determine whether two entities are related or not. In this paper, we employ neural network to do relation detection between two named entities for Indonesian Language. We used feature such as word embedding, position embedding, POS-Tag embedding, and character embedding. For the model, we divide the model into two parts: Front-part classifier (Convolutional layer or LSTM layer) and Back-part classifier (Dense layer or SVM). We did grid search method of neural network hyper parameter and SVM. We used 6000 Indonesian sentences for training process and 1,125 for testing. The best result is 0.8083 on F1-Score using Convolutional Layer as front-part and SVM as back-part.
翻訳日:2022-10-19 07:40:11 公開日:2020-09-12
# 多言語モデルを用いたインドネシア語テキスト分類の改善

Improving Indonesian Text Classification Using Multilingual Language Model ( http://arxiv.org/abs/2009.05713v1 )

ライセンス: Link先を確認
Ilham Firdausi Putra (1), Ayu Purwarianti (1 and 2) ((1) Institut Teknologi Bandung, (2) U-CoE AI-VLB)(参考訳) インドネシア語テキスト分類タスクのラベル付きデータの量は英語と比較して非常に少ない。 最近開発された多言語言語モデルは、多言語表現を効果的に作成する能力を示している。 本稿では,多言語モデルを用いたインドネシア語テキストの分類(感情分析やヘイトスピーチなど)における英語とインドネシア語データの組み合わせの効果について検討する。 特徴ベースアプローチを用いて,様々なデータサイズと総英語データに対する性能を観察した。 この実験は、特にインドネシアのデータ量が小さい場合、英語データの追加によりパフォーマンスが向上することを示した。 さらに,微調整手法を用いて,インドネシア語テキスト分類モデルの構築に英語の利用の有効性を示した。

Compared to English, the amount of labeled data for Indonesian text classification tasks is very small. Recently developed multilingual language models have shown its ability to create multilingual representations effectively. This paper investigates the effect of combining English and Indonesian data on building Indonesian text classification (e.g., sentiment analysis and hate speech) using multilingual language models. Using the feature-based approach, we observe its performance on various data sizes and total added English data. The experiment showed that the addition of English data, especially if the amount of Indonesian data is small, improves performance. Using the fine-tuning approach, we further showed its effectiveness in utilizing the English language to build Indonesian text classification models.
翻訳日:2022-10-19 07:39:58 公開日:2020-09-12
# パラグラフベクトルを用いたインドネシア感覚分析におけるBi-LSTMの性能向上

Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector ( http://arxiv.org/abs/2009.05720v1 )

ライセンス: Link先を確認
Ayu Purwarianti (1), Ida Ayu Putu Ari Crisdayanti (1) ((1) Institut Teknologi Bandung)(参考訳) Bidirectional Long Short-Term Memory Network (Bi-LSTM) は感情分類タスクにおいて有望な性能を示した。 入力を情報のシーケンスとして処理する。 このため、Bi-LSTMによる感情予測は単語列に影響され、テキストの第1または最後のフレーズは他のフレーズよりも強い特徴を持つ傾向にある。 一方、インドネシアの感情分析の問題領域では、ある文書の感情を表すフレーズは、その文書の最初の部分や最後の部分には現れず、誤った感情分類につながる可能性がある。 そこで本稿では,Bi-LSTMの付加的な入力特徴として,段落ベクトルと呼ばれる既存の文書表現手法を提案する。 このベクトルは、シーケンス処理毎に文書の情報コンテキストを提供する。 段落ベクトルは、文書の各ワードベクトルに単純に連結される。 この表現はまた、曖昧なインドネシア語の区別にも役立つ。 Bi-LSTMとパラグラフベクトルは、以前は別個の方法として使われていた。 2つの手法を組み合わせることで、インドネシアの感情分析モデルの性能が大幅に向上した。 テストデータに対するいくつかのケーススタディにより,Bi-LSTMが直面する感情句の位置問題に対処できることが示された。

Bidirectional Long Short-Term Memory Network (Bi-LSTM) has shown promising performance in sentiment classification task. It processes inputs as sequence of information. Due to this behavior, sentiment predictions by Bi-LSTM were influenced by words sequence and the first or last phrases of the texts tend to have stronger features than other phrases. Meanwhile, in the problem scope of Indonesian sentiment analysis, phrases that express the sentiment of a document might not appear in the first or last part of the document that can lead to incorrect sentiment classification. To this end, we propose the using of an existing document representation method called paragraph vector as additional input features for Bi-LSTM. This vector provides information context of the document for each sequence processing. The paragraph vector is simply concatenated to each word vector of the document. This representation also helps to differentiate ambiguous Indonesian words. Bi-LSTM and paragraph vector were previously used as separate methods. Combining the two methods has shown a significant performance improvement of Indonesian sentiment analysis model. Several case studies on testing data showed that the proposed method can handle the sentiment phrases position problem encountered by Bi-LSTM.
翻訳日:2022-10-19 07:39:47 公開日:2020-09-12
# 学術出版における引用内容分析のための微調整事前学習型文脈埋め込み

Fine-tuning Pre-trained Contextual Embeddings for Citation Content Analysis in Scholarly Publication ( http://arxiv.org/abs/2009.05836v1 )

ライセンス: Link先を確認
Haihua Chen and Huyen Nguyen(参考訳) 引用機能と引用感情は、引用内容分析(CCA)の2つの重要な側面であり、科学的出版物の推奨である影響分析に有用である。 しかし、既存の研究は主に従来の機械学習手法であるが、深層学習技術も検討されているが、訓練データ不足のため性能の改善は重要ではなく、アプリケーションに困難をもたらす。 本稿では,そのタスクに対して,事前学習したコンテキスト埋め込み ULMFiT,BERT,XLNet を微調整する。 3つの公開データセットの実験により、我々の戦略はF1スコアで全てのベースラインを上回ります。 XLNetモデルは、それぞれDFKI、UMICH、TKDE2019のデータセットで87.2%、86.90%、81.6%を達成し、DFKI、UMICHでは91.72%、91.56%を達成している。 本手法は,研究者や学術出版物の影響分析の促進に有用である。

Citation function and citation sentiment are two essential aspects of citation content analysis (CCA), which are useful for influence analysis, the recommendation of scientific publications. However, existing studies are mostly traditional machine learning methods, although deep learning techniques have also been explored, the improvement of the performance seems not significant due to insufficient training data, which brings difficulties to applications. In this paper, we propose to fine-tune pre-trained contextual embeddings ULMFiT, BERT, and XLNet for the task. Experiments on three public datasets show that our strategy outperforms all the baselines in terms of the F1 score. For citation function identification, the XLNet model achieves 87.2%, 86.90%, and 81.6% on DFKI, UMICH, and TKDE2019 datasets respectively, while it achieves 91.72% and 91.56% on DFKI and UMICH in term of citation sentiment identification. Our method can be used to enhance the influence analysis of scholars and scholarly publications.
翻訳日:2022-10-19 07:39:33 公開日:2020-09-12