このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210502となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ボソニック系の対称分離状態と基底状態エネルギーの分解 Decomposition of symmetric separable states and ground state energy of bosonic systems ( http://arxiv.org/abs/2005.11607v3 ) ライセンス: Link先を確認 | Stephan Weis | (参考訳) すべての対称可分状態が対称純積状態への凸分解を持つことを証明している。
結果自体は新しいものではないが、ここでは凸幾何学に焦点を当てる。
無限ボソニック系の数値的範囲と基底状態問題の文脈における分解について考察する。 We prove that every symmetric separable state admits a convex decomposition into symmetric pure product states. While the result is not new in itself, here we focus on convex geometry. We discuss the decomposition in the context of numerical ranges and ground state problems of infinite bosonic systems. | 翻訳日:2023-05-18 23:28:29 公開日:2021-05-02 |
# 量子チャネルで実現可能な入出力相関のための最適証人の明示的構成 Explicit construction of optimal witnesses for input-output correlations attainable by quantum channels ( http://arxiv.org/abs/2009.00866v2 ) ライセンス: Link先を確認 | Michele Dall'Arno, Sarah Brandsen, Francesco Buscemi | (参考訳) 量子チャネル --すなわち完全正のトレース保存線形写像 -- が2つの当事者間で利用可能な唯一の通信資源として与えられたとき、送信側と受信側において、それぞれ適切な古典量子符号化と量子古典復号によって得られる古典的なノイズチャネルの集合を特徴付ける問題を考える。
線形証人の様々なクラスを考察し、それらの最適値を量子チャネルのいくつかのクラスに対して閉じた形で計算する。
ここで私たちが考える証人はコミュニケーションゲームとして定式化され、アリスの目的は、ボブが外部の審判から受け取った情報を推測するために、与えられた量子チャネルの単一使用を利用することである。 Given a quantum channel -- that is, a completely positive trace-preserving linear map -- as the only communication resource available between two parties, we consider the problem of characterizing the set of classical noisy channels that can be obtained from it by means of suitable classical-quantum encodings and quantum-classical decodings, respectively, on the sender's and the receiver's side. We consider various classes of linear witnesses and compute their optimum values in closed form for several classes of quantum channels. The witnesses that we consider here are formulated as communication games, in which Alice's aim is to exploit a single use of a given quantum channel to help Bob guess some information she has received from an external referee. | 翻訳日:2023-05-04 01:11:36 公開日:2021-05-02 |
# 熱活性化ポラリトン化学におけるキャビティ漏れと振動散逸の非平衡効果 Nonequilibrium effects of cavity leakage and vibrational dissipation in thermally-activated polariton chemistry ( http://arxiv.org/abs/2011.08445v3 ) ライセンス: Link先を確認 | Matthew Du, Jorge A. Campos-Gonzalez-Angulo, Joel Yuen-Zhou | (参考訳) 振動強い結合(VSC)では、分子振動は光学キャビティのモードと強く相互作用し、振動分極として知られるハイブリッド光物質状態を形成する。
実験により、熱活性化化学反応の速度論がvscによって変化できることが示されている。
内部熱化が反応遷移と比較して速いと仮定する遷移状態理論は、観測された結果を説明することができなかった。
本稿では,vscが化学系に導入した散逸過程が,内部熱分解と反応遷移が類似した時間スケールで起こる反応にどのように影響するかを理解するために,速度論的シミュレーションを行う。
モデル反応としてmarcus-levich-jortner型電子移動を用いて, 内部熱分解を加速することで反応性が変化し, キャビティ外の反応で生じる非平衡効果を抑制することができることを示した。
この現象は主にキャビティの崩壊(つまり光子漏れ)に起因しているが、ポーラリトンとダーク状態の間の緩和によって補助的な役割が果たされる。
非平衡効果が素反応ですでに抑制されている場合(反応種は反応を通して本質的に内部熱平衡にある)、VSC下では反応性が著しく変化しない。
我々の結果と実験的な観察の間に関係がある。 In vibrational strong coupling (VSC), molecular vibrations strongly interact with the modes of an optical cavity to form hybrid light-matter states known as vibrational polaritons. Experiments show that the kinetics of thermally activated chemical reactions can be modified by VSC. Transition-state theory, which assumes that internal thermalization is fast compared to reactive transitions, has been unable to explain the observed findings. Here, we carry out kinetic simulations to understand how dissipative processes, namely those that VSC introduces to the chemical system, affect reactions where internal thermalization and reactive transitions occur on similar timescales. Using the Marcus-Levich-Jortner type of electron transfer as a model reaction, we show that such dissipation can change reactivity by accelerating internal thermalization, thereby suppressing nonequilibrium effects that occur in the reaction outside the cavity. This phenomenon is attributed mainly to cavity decay (i.e., photon leakage), but a supporting role is played by the relaxation between polaritons and dark states. When nonequilibrium effects are already suppressed in the bare reaction (the reactive species are essentially at internal thermal equilibrium throughout the reaction), we find that reactivity does not change significantly under VSC. Connections are made between our results and experimental observations. | 翻訳日:2023-04-23 21:37:06 公開日:2021-05-02 |
# 光子を用いたスマート量子技術 Smart Quantum Technologies using Photons ( http://arxiv.org/abs/2103.07081v3 ) ライセンス: Link先を確認 | Narayan Bhusal | (参考訳) 光の量子状態を利用する技術は、過去20年間注目されてきた。
この点において、量子メトロロジー、量子イメージング、量子光学通信は、量子重ね合わせ、量子相関、非古典的光子統計といった興味深い量子特性を利用する重要な応用である。
しかし、単一光子レベルで動作している最先端技術は、信頼できる量子フォトニクス技術を実現するのに十分ではない。
第1章では、光子技術の歴史について述べる。
さらに,近年の量子フォトニクス技術の発展と,信頼性の高い量子技術の実現に向けた大きな課題について論じ,それに対応するためのスマートな方法論を公開するためのステージを構築する。
同様に、第2章では量子光学と機械学習の基本的な概念を概説する。
第3章では、転位した光とオン/オフ検出を用いたサブショットノイズ制限位相推定を示す非線形量子メトロジースキームに関する理論的研究について述べる。
さらに,バランスのとれたホモダイン検出に代わる,スマートで時間効率のよいカメラベースの絞り光検出について論じる。
第4章では、コヒーレント光源から熱光を識別する効率を向上させるために、人工知能を組み込む取り組みについて論じる。
第5章ではランダム位相歪みが存在する通信プロトコルについて述べる。
畳み込みニューラルネットワークを用いて、単一光子の空間モード補正を行い、ほぼ統一された補正精度を得る。
最後に、歴史的文脈、最先端技術に直面する課題、そして量子技術に人工知能を導入することの重要性を要約して、第6章の論文をまとめます。 The technologies utilizing quantum states of light have been in the spotlight for the last two decades. In this regard, quantum metrology, quantum imaging, quantum-optical communication are some of the important applications that exploit fascinating quantum properties like quantum superposition, quantum correlations, and nonclassical photon statistics. However, the state-of-art technologies operating at the single-photon level are not robust enough to truly realize a reliable quantum-photonic technology. In Chapter 1, I present a historical account of photon-based technologies. Furthermore, I discuss recent encouraging developments in the field of quantum-photonic technologies, and major challenges for the implementation of reliable quantum technologies, setting up a stage for unveiling our smart methodologies to cope with them. Similarly, in Chapter 2, I review the fundamental concepts of quantum optics and machine learning. In Chapter 3, I present a theoretical work on a nonlinear quantum metrology scheme, showing a sub-shot-noise limited phase estimation using the displaced-squeezed light and on/off detection. Furthermore, I discuss a camera-based squeezed-light detection that can be a smart and time-efficient alternative to balanced-homodyne detection. In Chapter 4, I discuss our efforts to incorporate artificial intelligence in a quest to improve the efficiency of discriminating thermal light from coherent light sources. In Chapter 5, I present a communication protocol in presence of random phase distortions. We utilize convolutional neural networks to perform the spatial mode correction of single photons, resulting in a near-unity fidelity of correction. Finally, I wrap up my dissertation in Chapter 6 by summarizing the historical context, challenges facing state-of-art techniques, and the importance of our efforts to introduce artificial intelligence in quantum technologies. | 翻訳日:2023-04-08 08:59:02 公開日:2021-05-02 |
# サイエント・サイテーション・ネットワークにおける構造不平等の発生 Emergence of Structural Inequalities in Scientific Citation Networks ( http://arxiv.org/abs/2103.10944v2 ) ライセンス: Link先を確認 | Buddhika Nettasinghe, Nazanin Alipourfard, Vikram Krishnamurthy, Kristina Lerman | (参考訳) 構造的不平等は社会において持続し、例えば、より影響力と機会を与えることによって、他人を犠牲にして、体系的な優位性を与える。
学術出版物の著者に関する文献データを用いて, 科学的引用における構造的不等式を2種類同定する。
第一に、少数の研究者を代表する女性作家は、男性作家と比較して(引用を通じて)作品に対する認識が低く、第二に、少数派である上位機関に属する作家は、他の著者に比べて著しく高い評価を受けている。
そこで本研究では,指向的引用ネットワークの成長モデルを提案し,同一グループ(ホモフィア)の著者を引用する個人選好,引用率の高い著者や活動的著者(先行的添付),グループの大きさ,新規著者の参加頻度について述べる。
モデルを分析し,その予測が実世界の観測とよく合っていることを示す。
我々の理論的および実証分析は、科学における構造的不平等を緩和するための潜在的戦略も示唆している。
特に、少数群の規模を拡大するだけでは、格差を狭めることはほとんどない。
代わりに、各グループのホモフィリを削減し、しばしば研究分野に新しい著者を追加し、既存の確立された著者間でアクセス可能なプラットフォームを提供する。
我々の研究は、非対称関係(例えば、有向引用)から生じる構造格差を、対称関係(例えば、協調)と比較して緩和する追加の複雑さを強調している。 Structural inequalities persist in society, conferring systematic advantages to some people at the expense of others, for example, by giving them substantially more influence and opportunities. Using bibliometric data about authors of scientific publications, we identify two types of structural inequalities in scientific citations. First, female authors, who represent a minority of researchers, receive less recognition for their work (through citations) relative to male authors; second, authors affiliated with top-ranked institutions, who are also a minority, receive substantially more recognition compared to other authors. We present a model for the growth of directed citation networks and show that citations disparities arise from individual preferences to cite authors from the same group (homophily), highly cited or active authors (preferential attachment), as well as the size of the group and how frequently new authors join. We analyze the model and show that its predictions align well with real-world observations. Our theoretical and empirical analysis also suggests potential strategies to mitigate structural inequalities in science. In particular, we find that merely increasing the minority group size does little to narrow the disparities. Instead, reducing the homophily of each group, frequently adding new authors to a research field while providing them an accessible platform among existing, established authors, together with balanced group sizes can have the largest impact on reducing inequality. Our work highlights additional complexities of mitigating structural disparities stemming from asymmetric relations (e.g., directed citations) compared to symmetric relations (e.g., collaborations). | 翻訳日:2023-04-07 10:44:04 公開日:2021-05-02 |
# モデルチェック量子連続時間マルコフ連鎖 Model Checking Quantum Continuous-Time Markov Chains ( http://arxiv.org/abs/2105.00382v1 ) ライセンス: Link先を確認 | Ming Xu, Jingyi Mei, Ji Guan and Nengkun Yu | (参考訳) 量子システムの検証は、ここ数十年で多くの関心を集めている。
本稿では,量子連続時間マルコフ連鎖(QCTMC)のモデルチェックを初期化した。
リアルタイムシステムとして、信号時間論理(STL)によりQCTMC上の時間特性を規定する。
STLの原子命題を効果的に検証するために、Schanuelの予想に基づいて最先端の実根分離アルゴリズムを開発し、さらに、問合せの複雑さが入力式の大きさで線形であることが判明したボトムアップ方式で間隔演算により一般STL式をチェックする。
本手法を実証するために,オープン量子ウォークの動作例を示す。 Verifying quantum systems has attracted a lot of interests in the last decades. In this paper, we initialised the model checking of quantum continuous-time Markov chain (QCTMC). As a real-time system, we specify the temporal properties on QCTMC by signal temporal logic (STL). To effectively check the atomic propositions in STL, we develop a state-of-art real root isolation algorithm under Schanuel's conjecture; further, we check the general STL formula by interval operations with a bottom-up fashion, whose query complexity turns out to be linear in the size of the input formula by calling the real root isolation algorithm. A running example of an open quantum walk is provided to demonstrate our method. | 翻訳日:2023-04-01 19:52:49 公開日:2021-05-02 |
# 量子臨界点による非断熱励起の調和 Harnessing non-adiabatic excitations promoted by a quantum critical point ( http://arxiv.org/abs/2105.00362v1 ) ライセンス: Link先を確認 | Obinna Abah, Gabriele De Chiara, Mauro Paternostro, Ricardo Puebla | (参考訳) 有限時間における量子臨界点の交差は、エネルギーギャップの閉ざしによる断熱状態に挑戦し、最終的に励起の形成をもたらす。
このような非断熱的励起は、多くのシナリオで一般的に有害と見なされ、その結果、その形成を回避するためにいくつかの戦略が進められている。
しかし、これらの非断熱励起は、量子臨界点の存在による断熱条件に間に合わないことから生じるもので、制御可能であり、あるタスクを有利に実行するために利用されることを示す。
完全連結モデルの量子臨界点に達する閉サイクルに焦点をあて、2つの例を解析する。
まず、量子臨界点に近づくことでロードされる量子電池は、保存および抽出可能な作業が繰り返しサイクルを通じて指数関数的に増加する。
第二に、マルチパーティントの絡み合いを含むスピン圧縮状態の高速調製法は、メトロジー上の優位性をもたらす。
どちらの場合においても、メリットの数字は普遍的臨界指数と遷移の近傍でシステムを駆動するプロトコルのスケーリングに大きく依存する。
その結果, 量子熱力学と臨界非平衡動力学との豊富な相互作用が浮き彫りになった。 Crossing a quantum critical point in finite time challenges the adiabatic condition due to the closing of the energy gap, which ultimately results in the formation of excitations. Such non-adiabatic excitations are typically deemed detrimental in many scenarios, and consequently several strategies have been put forward to circumvent their formation. Here, however, we show how these non-adiabatic excitations -- originated from the failure to meet the adiabatic condition due to the presence of a quantum critical point -- can be controlled and thus harnessed to perform certain tasks advantageously. We focus on closed cycles reaching the quantum critical point of fully-connected models analyzing two examples. First, a quantum battery that is loaded by approaching a quantum critical point, whose stored and extractable work increases exponentially via repeating cycles. Second, a scheme for the fast preparation of spin squeezed states containing multipartite entanglement that offer a metrological advantage. The corresponding figure of merit in both cases crucially depends on universal critical exponents and the scaling of the protocol driving the system in the vicinity of the transition. Our results highlight the rich interplay between quantum thermodynamics and metrology with critical nonequilibrium dynamics. | 翻訳日:2023-04-01 19:52:37 公開日:2021-05-02 |
# 原子薄MoTe2におけるサイト制御型単一光子エミッタ Site-Controlled Telecom Single-Photon Emitters in Atomically-thin MoTe2 ( http://arxiv.org/abs/2105.00576v1 ) ライセンス: Link先を確認 | Huan Zhao, Michael T. Pettes, Yu Zheng, and Han Htoon | (参考訳) 2次元遷移金属ジカルコゲナイド (2d tmdc) の量子エミッタ (qes) は、ヴァレー準スピン自由度 (dof) へのアクセスと層・層・集合アプローチによる量子フォトニック・電子・センシングプラットフォームへのファシリ積分のユニークなポテンシャルにより、量子通信・トランスダクション研究の最前線に進んだ。
これまで,O-C通信帯で動作可能なQEはTMDCでは実証されていない。
本稿では,2Dモリブデンジテルリド (MoTe2) の結合により1080から1550nmの波長範囲で発生する通信QEを,ナノピラーアレイのひずみ誘導により決定的に生成する。
10kで行ったハンベリー・ブラウンとtwissの実験では、90%の光子純度を持つ透明な光子反束が示されました。
2次元エキシトンよりも4-6桁長い超長寿命も観察されている。
分極分析により, ひずみ誘起異方性交換相互作用により, 約1mVの分断で直線的に分極した2重項が示されるが, 他のQEでは谷縮退が保たれていることが明らかとなった。
8T磁場下では,バレーゼーマン分裂と谷対称性の復元が観察された。
他の通信事業者のQEとは対照的に、単一光子を介してバレーDOFにアクセスする可能性を提供する当社のQEは、光ファイバーベースの量子ネットワークにおいて前例のない優位性をもたらす可能性がある。 Quantum emitters (QEs) in two-dimensional transition metal dichalcogenides (2D TMDCs) have advanced to the forefront of quantum communication and transduction research due to their unique potentials in accessing valley pseudo-spin degree of freedom (DOF) and facile integration into quantum-photonic, electronic and sensing platforms via the layer-by-layer-assembly approach. To date, QEs capable of operating in O-C telecommunication bands have not been demonstrated in TMDCs. Here we report a deterministic creation of such telecom QEs emitting over the 1080 to 1550 nm wavelength range via coupling of 2D molybdenum ditelluride (MoTe2) to strain inducing nano-pillar arrays. Our Hanbury Brown and Twiss experiment conducted at 10 K reveals clear photon antibunching with 90% single photon purity. Ultra-long lifetimes, 4-6 orders of magnitude longer than that of the 2D exciton, are also observed. Polarization analysis further reveals that while some QEs display cross-linearly polarized doublets with ~1 meV splitting resulting from the strain induced anisotropic exchange interaction, valley degeneracy is preserved in other QEs. Valley Zeeman splitting as well as restoring of valley symmetry in cross-polarized doublets are observed under 8T magnetic field. In contrast to other telecom QEs, our QEs which offer the potential to access valley DOF through single photons, could lead to unprecedented advantages in optical fiber-based quantum networks. | 翻訳日:2023-04-01 19:51:12 公開日:2021-05-02 |
# anharmonic fluctuatorモデルにおける多体騒音と創発的1/f$行動の相関 Correlated many-body noise and emergent $1/f$ behavior in an anharmonic fluctuator model ( http://arxiv.org/abs/2105.00559v1 ) ライセンス: Link先を確認 | P N Thomas Lloyd, Valentin Walther, Hossein Sadeghpour | (参考訳) 表面から放出される変動する電場は、閉じ込められたイオン量子ビットにおけるデコヒーレンスの主な源である。
本研究では,超ラジアントフォノンによる原子間の励起交換が低温での電界ノイズの低減に繋がることを示す。
振動レベルが$M$のN$変動器の雑音スペクトルをN$M-1のN$1の2レベル双極子に正確にマッピングする。
1/f$のユビキタスなノイズが発生する条件を提供する。システムには1つのタイプの変動器のみで構成されるため、この現象の新しいメカニズムが示唆される。 Fluctuating electric fields emanating from surfaces are a primary source of decoherence in trapped ion qubits. Here, we show that superradiant phonon-induced excitation exchange between adatoms can lead to a reduction of electric field noise at low temperatures. We derive an exact mapping between the noise spectrum of $N$ fluctuators with $M$ vibrational levels to $N+M-1 \choose N$-1 two-level dipoles. We provide conditions for which the ubiquitous $1/f$ noise can emerge, even though the system is composed of only a single type of fluctuator, thus suggesting a new mechanism for the phenomenon. | 翻訳日:2023-04-01 19:50:42 公開日:2021-05-02 |
# D波と古典近似アルゴリズムの比較とイジングスピングラスの基底状態計算のためのヒューリスティック A comparison between D-wave and a classical approximation algorithm and a heuristic for computing the ground state of an Ising spin glass ( http://arxiv.org/abs/2105.00537v1 ) ライセンス: Link先を確認 | Ran Yaacoby, Nathan Schaar, Leon Kellerhals, Oren Raz, Danny Hermelin and Rami Pugatch | (参考訳) 一般グラフ上のイジン・スピンガラスの基底状態を見つけることは、NPハード問題のクラスに属し、それらの解法に効率的な多項式時間アルゴリズムが存在しないと広く信じられている。
このような問題に対処するためにコンピュータサイエンスで開発されたアプローチは、多項式時間で実行される近似アルゴリズムを考案し、最適な未知解の観点でその品質の証明可能な保証を提供する。
近年、異なる近似保証を提供するグラフ上のイジングスピングラス問題に対するいくつかのアルゴリズムが実装なしで導入された。
最近では、D波会社が断熱型量子コンピュータの物理的実現を開発し、研究者がアクセスできるようにした。
D波は特に、そのキメラグラフ上のイジングスピンガラスの基底状態(有界グラフ)の近似を計算するのに適している。
本研究では,d-waveコンピュータと有界次数グラフ上のイジングスピングラス問題を解くために最近開発した近似アルゴリズムの性能を比較する。
また、固定D波キメラグラフを扱うためのヒューリスティックな調整も行った。
d-waveコンピュータは、研究したすべてのランダムなインスタンスに対するより良い近似を見つけることができた。
さらにD波の収束時間も有意に改善した。
これらの結果は、特定の特定の事例下でのD波コンピュータの利点を示している。
より広範に、本手法は他の性能比較研究と関係がある。
我々は,量子コンピュータの性能を,古典的アルゴリズムと指数関数的実行時のスケーリングに加えて,多項式実行時のスケーリングと性能保証を備えた近似アルゴリズムと比較することが重要であることを示唆する。 Finding the ground state of an Ising-spin glass on general graphs belongs to the class of NP-hard problems, widely believed to have no efficient polynomial-time algorithms for solving them. An approach developed in computer science for dealing with such problems is to devise approximation algorithms that run in polynomial time, and provide solutions with provable guarantees on their quality in terms of the optimal unknown solution. Recently, several algorithms for the Ising-spin glass problem on a graph that provide different approximation guarantees were introduced albeit without implementation. Also recently, D-wave company constructed a physical realization of an adiabatic quantum computer, and enabled researchers to access it. D-wave is particularly suited for computing an approximation for the ground state of an Ising spin glass on its chimera graph -- a graph with bounded degree. In this work, we compare the performance of a recently developed approximation algorithm for solving the Ising spin glass problem on graphs of bounded degree against the D-wave computer. We also compared a heuristic tailored specifically to handle the fixed D-wave chimera graph. D-wave computer was able to find better approximations to all the random instances we studied. Furthermore the convergence times of D-wave were also significantly better. These results indicate the merit of D-wave computer under certain specific instances. More broadly, our method is relevant to other performance comparison studies. We suggest that it is important to compare the performance of quantum computers not only against exact classical algorithms with exponential run-time scaling, but also to approximation algorithms with polynomial run-time scaling and a provable guarantee on performance. | 翻訳日:2023-04-01 19:50:32 公開日:2021-05-02 |
# Paradiseo: 進化的計算のためのモジュラーフレームワークからメタヒューリスティックスの自動設計へ ---パラディシオの22年-- Paradiseo: From a Modular Framework for Evolutionary Computation to the Automated Design of Metaheuristics ---22 Years of Paradiseo--- ( http://arxiv.org/abs/2105.00420v1 ) ライセンス: Link先を確認 | Johann Dreo (Systems Biology Group, Department of Computational Biology, USR 3756, Institut Pasteur and CNRS, Paris, France), Arnaud Liefooghe (Univ. Lille, CNRS, Inria, Centrale Lille, UMR 9189 CRIStAL, Lille, France), S\'ebastien Verel (Univ. Littoral C\^ote d'Opale, Calais, France), Marc Schoenauer (TAU, Inria, CNRS and UPSaclay, LISN, Saclay, France), Juan J. Merelo (University of Granada, Granada, Spain), Alexandre Quemy (Poznan University of Technology, Poznan, Poland), Benjamin Bouvier, Jan Gmys (Inria, Lille, France) | (参考訳) メタヒューリスティック最適化手法の成功は、多種多様なアルゴリズムパラダイムの開発につながった。
しかし、すべての問題で競合相手を圧倒するアルゴリズムはない。
代わりに、最適化問題の根底にある様々な状況は、それらを効率的に解くための様々なアルゴリズムを要求する。
したがって、アルゴリズム設計スペースの効率的な探索を可能にする成熟した柔軟なソフトウェアフレームワークにアクセスすることが、事前に重要である。
このようなフレームワークはあらゆるメタヒューリスティックに適合するほど柔軟で、より高いレベルの最適化、監視、評価ソフトウェアと接続するのに十分なオープンであるべきです。
この記事では、モジュール化メタヒューリスティックスの開発を目標とする、包括的なC++フリーソフトウェアであるParadisEOフレームワークの特徴を要約する。
ParadisEOは、高度にモジュール化されたアーキテクチャ、大規模なコンポーネントセット、実行速度、自動アルゴリズム設計機能を提供する。 The success of metaheuristic optimization methods has led to the development of a large variety of algorithm paradigms. However, no algorithm clearly dominates all its competitors on all problems. Instead, the underlying variety of landscapes of optimization problems calls for a variety of algorithms to solve them efficiently. It is thus of prior importance to have access to mature and flexible software frameworks which allow for an efficient exploration of the algorithm design space. Such frameworks should be flexible enough to accommodate any kind of metaheuristics, and open enough to connect with higher-level optimization, monitoring and evaluation softwares. This article summarizes the features of the ParadisEO framework, a comprehensive C++ free software which targets the development of modular metaheuristics. ParadisEO provides a highly modular architecture, a large set of components, speed of execution and automated algorithm design features, which are key to modern approaches to metaheuristics development. | 翻訳日:2023-04-01 19:48:42 公開日:2021-05-02 |
# 一定垂直磁場下でのグラフェンの対称ゲージにおけるコヒーレント状態 Coherent states in the symmetric gauge for graphene under a constant perpendicular magnetic field ( http://arxiv.org/abs/2105.00394v1 ) ライセンス: Link先を確認 | Erik D\'iaz-Bautista, Javier Negro, Luis Miguel Nieto | (参考訳) 本研究では, 一定の垂直磁場下でのグラフェンの半古典状態について, バルト・ジャラルデッロ感覚におけるコヒーレント状態を構築して記述する。
角運動量を追跡したいので、対称ゲージと極座標の使用が最も論理的な選択であった。
異なるコヒーレント状態のクラスは、2つのハイゼンベルク・ワイル代数の直和からなる基底代数系によって得られる。
最も興味深いケースは、部分的なコヒーレント状態と、十分に定義された全角運動量を持つコヒーレント状態である。 In this work we describe semiclassical states in graphene under a constant perpendicular magnetic field by constructing coherent states in the Barut-Girardello sense. Since we want to keep track of the angular momentum, the use of the symmetric gauge and polar coordinates seemed the most logical choice. Different classes of coherent states are obtained by means of the underlying algebra system, which consists of the direct sum of two Heisenberg-Weyl algebras. The most interesting cases are a kind of partial coherent states and the coherent states with a well-defined total angular momentum. | 翻訳日:2023-04-01 19:48:09 公開日:2021-05-02 |
# ノックオフウェーブレットを用いた細菌ラマンスペクトルの解釈可能な分類 Interpretable Classification of Bacterial Raman Spectra with Knockoff Wavelets ( http://arxiv.org/abs/2006.04937v3 ) ライセンス: Link先を確認 | Charmaine Chia, Matteo Sesia, Chi-Sing Ho, Stefanie S. Jeffrey, Jennifer Dionne, Emmanuel J. Cand\`es, Roger T. Howe | (参考訳) 深層ニューラルネットワークやその他の高度な機械学習モデルは、複雑なパターンを検出し正確な予測を計算できるため、生体信号データに広く適用されている。
しかし、特に細菌感染の同定を含む、高リスク決定を含む応用においては、そのようなモデル解釈の困難さは限界である。
本稿では,高速ラマン分光データについて考察し,よりシンプルで透明なニューラルネットワークと同等の精度を,慎重に選択された特徴を持つロジスティック回帰モデルが達成できることを実証する。
本分析では,ウェーブレットの特徴を直感的な化学解釈で活用し,制御変数の選択をノックオフで行い,予測器が適切で冗長でないことを保証する。
我々は特定のデータセットに焦点をあてるが、提案手法は解釈可能性が重要である可能性のある他の種類の信号データにも広く適用できる。 Deep neural networks and other sophisticated machine learning models are widely applied to biomedical signal data because they can detect complex patterns and compute accurate predictions. However, the difficulty of interpreting such models is a limitation, especially for applications involving high-stakes decision, including the identification of bacterial infections. In this paper, we consider fast Raman spectroscopy data and demonstrate that a logistic regression model with carefully selected features achieves accuracy comparable to that of neural networks, while being much simpler and more transparent. Our analysis leverages wavelet features with intuitive chemical interpretations, and performs controlled variable selection with knockoffs to ensure the predictors are relevant and non-redundant. Although we focus on a particular data set, the proposed approach is broadly applicable to other types of signal data for which interpretability may be important. | 翻訳日:2022-11-24 02:37:51 公開日:2021-05-02 |
# 多国間アドレス解析のためのサブワード埋め込みの活用 Leveraging Subword Embeddings for Multinational Address Parsing ( http://arxiv.org/abs/2006.16152v3 ) ライセンス: Link先を確認 | Marouane Yassine, David Beauchemin, Fran\c{c}ois Laviolette, Luc Lamontagne | (参考訳) アドレス解析は、街路名や郵便番号などのアドレスを構成するセグメントを識別することから成り立っている。
レコードリンクのようなタスクで重要であるため、アドレス解析は多くのテクニックでアプローチされている。
ニューラルネットワークの手法は、アドレス解析のための新しい最先端技術を定義した。
このアプローチは顕著な結果をもたらしたが、以前の研究は、あるソース国からのアドレスのアドレス解析を達成するためにニューラルネットワークを適用することのみに焦点を当てていた。
本稿では,言語やアドレスフォーマッティングシステムの違いを考慮しつつ,複数の国から同時にアドレスを解析できる単一モデルを構築するために,サブワード埋め込みと再帰ニューラルネットワークアーキテクチャを採用する手法を提案する。
事前処理も後処理も必要とせず,訓練に使用する国で約99%の精度を達成した。
ゼロショット転校学習環境において、ある国の住所の訓練により得られた住所解析知識を、それ以上の訓練を受けずに他国に移す可能性を検討する。
我が国の80 % (41 点中33 点中 50 % (41 点中 20 点) は最先端性能に近い。
さらに、トレーニングされたモデルのPython実装をオープンソースで提案する。 Address parsing consists of identifying the segments that make up an address such as a street name or a postal code. Because of its importance for tasks like record linkage, address parsing has been approached with many techniques. Neural network methods defined a new state-of-the-art for address parsing. While this approach yielded notable results, previous work has only focused on applying neural networks to achieve address parsing of addresses from one source country. We propose an approach in which we employ subword embeddings and a Recurrent Neural Network architecture to build a single model capable of learning to parse addresses from multiple countries at the same time while taking into account the difference in languages and address formatting systems. We achieved accuracies around 99 % on the countries used for training with no pre-processing nor post-processing needed. We explore the possibility of transferring the address parsing knowledge obtained by training on some countries' addresses to others with no further training in a zero-shot transfer learning setting. We achieve good results for 80 % of the countries (33 out of 41), almost 50 % of which (20 out of 41) is near state-of-the-art performance. In addition, we propose an open-source Python implementation of our trained models. | 翻訳日:2022-11-15 13:29:00 公開日:2021-05-02 |
# 共分散物体検出の再考 Re-thinking Co-Salient Object Detection ( http://arxiv.org/abs/2007.03380v4 ) ライセンス: Link先を確認 | Deng-Ping Fan, Tengpeng Li, Zheng Lin, Ge-Peng Ji, Dingwen Zhang, Ming-Ming Cheng, Huazhu Fu, Jianbing Shen | (参考訳) 本稿では,画像のコサリアント物体検出(CoSOD)問題に関する包括的研究を行う。
CoSODは、画像群において共起するサルエントオブジェクトを検出することを目的とした、サルエントオブジェクト検出(SOD)の、新しく急速に成長する拡張である。
しかしながら、既存のcosodデータセットは、画像群が類似した視覚的な外観を持つサルエントオブジェクトを含むと仮定して、深刻なデータバイアスを持つことが多い。
このバイアスは、既存のデータセットでトレーニングされたモデルの理想的な設定と有効性につながる可能性がある。
この問題に対処するために、我々はまず、既存のcosodデータセットよりも難しい、大量の意味的コンテキストを必要とするcosod3k in the wildという新しいベンチマークを導入しました。
当社のCoSOD3kは,高品質で精巧に選択された3,316枚の画像から成っている。
画像は、カテゴリ、形状、オブジェクトサイズ、背景など幅広い範囲にまたがっている。
第2に、既存のSOD技術を統合して、この分野で長年遅れてきた、統一的でトレーニング可能なCoSODフレームワークを構築します。
具体的には,より高速な共通情報学習を実現するために,我々の先行モデルEGNetを協調型プロジェクション戦略で拡張する新しいCoEG-Netを提案する。
CoEG-Netは、以前の大規模SODデータセットを完全に活用し、モデルのスケーラビリティと安定性を大幅に改善する。
第3に、40の最先端アルゴリズムを包括的に要約し、3つの挑戦的なCoSODデータセット(iCoSeg、CoSal2015、CoSOD3k)をベンチマークし、より詳細な(グループレベルの)パフォーマンス分析を報告します。
最後に,CoSODの課題と今後の課題について論じる。
我々は、私たちの研究がCoSODコミュニティの成長を強く後押しすることを期待している。
ベンチマークツールボックスと結果は、プロジェクトページhttp://dpfan.net/cosod3k/で閲覧できます。 In this paper, we conduct a comprehensive study on the co-salient object detection (CoSOD) problem for images. CoSOD is an emerging and rapidly growing extension of salient object detection (SOD), which aims to detect the co-occurring salient objects in a group of images. However, existing CoSOD datasets often have a serious data bias, assuming that each group of images contains salient objects of similar visual appearances. This bias can lead to the ideal settings and effectiveness of models trained on existing datasets, being impaired in real-life situations, where similarities are usually semantic or conceptual. To tackle this issue, we first introduce a new benchmark, called CoSOD3k in the wild, which requires a large amount of semantic context, making it more challenging than existing CoSOD datasets. Our CoSOD3k consists of 3,316 high-quality, elaborately selected images divided into 160 groups with hierarchical annotations. The images span a wide range of categories, shapes, object sizes, and backgrounds. Second, we integrate the existing SOD techniques to build a unified, trainable CoSOD framework, which is long overdue in this field. Specifically, we propose a novel CoEG-Net that augments our prior model EGNet with a co-attention projection strategy to enable fast common information learning. CoEG-Net fully leverages previous large-scale SOD datasets and significantly improves the model scalability and stability. Third, we comprehensively summarize 40 cutting-edge algorithms, benchmarking 18 of them over three challenging CoSOD datasets (iCoSeg, CoSal2015, and our CoSOD3k), and reporting more detailed (i.e., group-level) performance analysis. Finally, we discuss the challenges and future works of CoSOD. We hope that our study will give a strong boost to growth in the CoSOD community. The benchmark toolbox and results are available on our project page at http://dpfan.net/CoSOD3K/. | 翻訳日:2022-11-12 19:59:21 公開日:2021-05-02 |
# 自己学習による教師なし制御可能生成 Unsupervised Controllable Generation with Self-Training ( http://arxiv.org/abs/2007.09250v2 ) ライセンス: Link先を確認 | Grigorios G Chrysos, Jean Kossaifi, Zhiding Yu, Anima Anandkumar | (参考訳) 最近のgans(generative adversarial network)は、印象的なフォトリアリスティックな画像を生成することができる。
しかし、GANによる制御可能な世代は依然として困難な研究課題である。
制御可能な生成を達成するには、意味論的に解釈可能で、ばらつきのある要因が必要である。
ガウス分布のような単純な固定分布を用いてこの目標を達成することは困難である。
代わりに、自己学習を通じてジェネレータを制御する潜在コードの分布を学ぶための教師なしフレームワークを提案する。
自己学習は、識別器からジェネレータへのGANトレーニングにおいて反復的なフィードバックを提供し、トレーニングが進むにつれて、潜伏コードの提案を徐々に改善する。
潜在コードは、識別器の特徴空間で学習される潜在変数モデルからサンプリングされる。
正規化独立成分分析モデルを検討し,高次モーメントのテンソル分解を通じてそのパラメータを学習する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較してより良い乱れを示し、いかなる監督もせずに意味的に意味のある潜在コードを見つけることができる。
学習したコードの各要素群が、ポーズや背景の変化といった意味的な意味を持つ変化のモードを制御することを、車と顔の両方で実証的に示す。
また,本手法が他の手法と比較して優れた結果をもたらすことを定量的に示す。 Recent generative adversarial networks (GANs) are able to generate impressive photo-realistic images. However, controllable generation with GANs remains a challenging research problem. Achieving controllable generation requires semantically interpretable and disentangled factors of variation. It is challenging to achieve this goal using simple fixed distributions such as Gaussian distribution. Instead, we propose an unsupervised framework to learn a distribution of latent codes that control the generator through self-training. Self-training provides an iterative feedback in the GAN training, from the discriminator to the generator, and progressively improves the proposal of the latent codes as training proceeds. The latent codes are sampled from a latent variable model that is learned in the feature space of the discriminator. We consider a normalized independent component analysis model and learn its parameters through tensor factorization of the higher-order moments. Our framework exhibits better disentanglement compared to other variants such as the variational autoencoder, and is able to discover semantically meaningful latent codes without any supervision. We demonstrate empirically on both cars and faces datasets that each group of elements in the learned code controls a mode of variation with a semantic meaning, e.g. pose or background change. We also demonstrate with quantitative metrics that our method generates better results compared to other approaches. | 翻訳日:2022-11-09 12:54:36 公開日:2021-05-02 |
# 異なる染色デジタル全スライド画像から情報を抽出するための自動的枠組み:腎組織学を例として An automatic framework for fusing information from differently stained consecutive digital whole slide images: A case study in renal histology ( http://arxiv.org/abs/2008.13050v2 ) ライセンス: Link先を確認 | Odyssee Merveille, Thomas Lampert, Jessica Schmitz, Germain Forestier, Friedrich Feuerhake, C\'edric Wemmert | (参考訳) 目的: 本論文は, 腎移植後の慢性腎拒絶症患者の染色形態が異なる連続スライド画像(wsis)における糸球体環境に関する定量的高レベル情報を抽出するための自動画像処理フレームワークを提案する。
メソッド: この4段階のフレームワークは:
1) 近似的厳格な登録
2)細胞と解剖学的構造区分
3)新規登録アルゴリズムを用いた異色染色からの情報の融合
4)特徴抽出。
結果: フレームワークの各ステップは,病理学者によって定量的にも質的にも独立に検証される。
抽出可能なさまざまなタイプの特徴の図示が提示される。
結論: 提案する汎用フレームワークは,(手動あるいは自動で)セグメント化可能な大型構造物を取り巻くマイクロ環境の分析を可能にする。
セグメンテーションアプローチとは独立しており、したがって様々な生物医学的研究問題に適用できる。
腎移植後の慢性組織リモデリングは間質性線維化と管状萎縮(ifta)と糸球体硬化を引き起こす可能性がある。
このパイプラインは、異なる連続するwsisからの情報を定量的に分析するツールを提供し、研究者がiftaや糸球体硬化につながる複雑なメカニズムを理解するのに役立つ。 Objective: This article presents an automatic image processing framework to extract quantitative high-level information describing the micro-environment of glomeruli in consecutive whole slide images (WSIs) processed with different staining modalities of patients with chronic kidney rejection after kidney transplantation. Methods: This four-step framework consists of: 1) approximate rigid registration, 2) cell and anatomical structure segmentation 3) fusion of information from different stainings using a newly developed registration algorithm 4) feature extraction. Results: Each step of the framework is validated independently both quantitatively and qualitatively by pathologists. An illustration of the different types of features that can be extracted is presented. Conclusion: The proposed generic framework allows for the analysis of the micro-environment surrounding large structures that can be segmented (either manually or automatically). It is independent of the segmentation approach and is therefore applicable to a variety of biomedical research questions. Significance: Chronic tissue remodelling processes after kidney transplantation can result in interstitial fibrosis and tubular atrophy (IFTA) and glomerulosclerosis. This pipeline provides tools to quantitatively analyse, in the same spatial context, information from different consecutive WSIs and help researchers understand the complex underlying mechanisms leading to IFTA and glomerulosclerosis. | 翻訳日:2022-10-23 17:20:07 公開日:2021-05-02 |
# 除音モジュロ試料:SDP緩和のk-NN回帰ときつい Denoising modulo samples: k-NN regression and tightness of SDP relaxation ( http://arxiv.org/abs/2009.04850v2 ) ライセンス: Link先を確認 | Micha\"el Fanuel and Hemant Tyagi | (参考訳) 現代の多くのアプリケーションは、関数のノイズの多いmoduloサンプルを$f$で取得し、元のサンプルの見積もりを$f$で回収することを目的としている。
リプシッツ函数 $f:[0,1]^d \to \mathbb{R}$ に対して、サンプル $y_i = (f(x_i) + \eta_i)\bmod 1; \quad i=1,\dots,n$ が与えられると仮定する。
例えば、$\eta_i$ が 0 平均 i.i.d Gaussian's であり、$x_i$'s が一様格子であると仮定すると、f(x_i)$ の誤差率 $O((\frac{\log n}{n})^{\frac{1}{d+2}})$ を高い確率で保持する2段階のアルゴリズムが導出される。
最初の段階は、単位複素円上に点を埋め込んで、$k$NN (nearest neighbor) 推定器を介して$f(x_i)\bmod 1$の分解推定値を得る。
第2段階はシーケンシャル・アンラッピング・プロシージャで、第1段階から denoized mod を1ドル見積もる。
サンプル$f(x_i)$の見積もりは、上記の均一なエラー率を持つ関数$f$の見積もりを構築するために使われる。
最近、Cucuringu と Tyagi は、単位複素円上のそれらの表現と連動するモジュロデータに1ドルを割る別の方法を提案した。
彼らは単位円の積多様体上の滑らかさの正則化最小二乗問題を定式化し、その滑らかさは近接グラフ $G$ のラプラシアンに対して$x_i$'s を含む。
これは非凸2次制約付き二次プログラム(qcqp)であり、半定義型プログラム(sdp)ベースの緩和の解法を提案した。
我々は、SDPがQCQPの厳密な緩和である十分な条件を導出する。
これらの条件下では、qcqpの大域解は多項式時間で得られる。 Many modern applications involve the acquisition of noisy modulo samples of a function $f$, with the goal being to recover estimates of the original samples of $f$. For a Lipschitz function $f:[0,1]^d \to \mathbb{R}$, suppose we are given the samples $y_i = (f(x_i) + \eta_i)\bmod 1; \quad i=1,\dots,n$ where $\eta_i$ denotes noise. Assuming $\eta_i$ are zero-mean i.i.d Gaussian's, and $x_i$'s form a uniform grid, we derive a two-stage algorithm that recovers estimates of the samples $f(x_i)$ with a uniform error rate $O((\frac{\log n}{n})^{\frac{1}{d+2}})$ holding with high probability. The first stage involves embedding the points on the unit complex circle, and obtaining denoised estimates of $f(x_i)\bmod 1$ via a $k$NN (nearest neighbor) estimator. The second stage involves a sequential unwrapping procedure which unwraps the denoised mod $1$ estimates from the first stage. The estimates of the samples $f(x_i)$ can be subsequently utilized to construct an estimate of the function $f$, with the aforementioned uniform error rate. Recently, Cucuringu and Tyagi proposed an alternative way of denoising modulo $1$ data which works with their representation on the unit complex circle. They formulated a smoothness regularized least squares problem on the product manifold of unit circles, where the smoothness is measured with respect to the Laplacian of a proximity graph $G$ involving the $x_i$'s. This is a nonconvex quadratically constrained quadratic program (QCQP) hence they proposed solving its semidefinite program (SDP) based relaxation. We derive sufficient conditions under which the SDP is a tight relaxation of the QCQP. Hence under these conditions, the global solution of QCQP can be obtained in polynomial time. | 翻訳日:2022-10-20 04:14:53 公開日:2021-05-02 |
# イベント関係抽出のための連立制約学習 Joint Constrained Learning for Event-Event Relation Extraction ( http://arxiv.org/abs/2010.06727v2 ) ライセンス: Link先を確認 | Haoyu Wang, Muhao Chen, Hongming Zhang, Dan Roth | (参考訳) 自然言語を理解するには、複数のイベントがどのように構造的に、時間的に相互に言及するかを認識する必要がある。
このプロセスでは、時間的順序とメンバーシップ関係を織り交ぜた多粒性イベントを組織するイベントコンプレックスを誘導することができる。
これらの関係現象に対する共同ラベルデータの欠如と,それらの構造に対する制約により,イベント・イベント関係をモデル化するための統合制約学習フレームワークを提案する。
具体的には、これらの制約を微分可能な学習目標に変換することにより、複数の時間的および亜時間的関係内および横断的な論理的制約を強制する。
本手法は,共同ラベル付きデータの欠如を効果的に補償し,時間的関係抽出とイベント階層構築のベンチマークにおいて,一般的に使用されるがより高価なグローバル推論プロセスを置き換えたsoma法を上回っていることを示す。
また,外部コーパスにイベントコンプレックスを誘導する手法の有効性を示す有望なケーススタディも提示した。 Understanding natural language involves recognizing how multiple event mentions structurally and temporally interact with each other. In this process, one can induce event complexes that organize multi-granular events with temporal order and membership relations interweaving among them. Due to the lack of jointly labeled data for these relational phenomena and the restriction on the structures they articulate, we propose a joint constrained learning framework for modeling event-event relations. Specifically, the framework enforces logical constraints within and across multiple temporal and subevent relations by converting these constraints into differentiable learning objectives. We show that our joint constrained learning approach effectively compensates for the lack of jointly labeled data, and outperforms SOTA methods on benchmarks for both temporal relation extraction and event hierarchy construction, replacing a commonly used but more expensive global inference process. We also present a promising case study showing the effectiveness of our approach in inducing event complexes on an external corpus. | 翻訳日:2022-10-07 22:56:12 公開日:2021-05-02 |
# ASRでの評価を再考する: 私たちのモデルはロバストか? Rethinking Evaluation in ASR: Are Our Models Robust Enough? ( http://arxiv.org/abs/2010.11745v3 ) ライセンス: Link先を確認 | Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Paden Tomasello, Jacob Kahn, Gilad Avidov, Ronan Collobert, Gabriel Synnaeve | (参考訳) 単一のベンチマークでの数値の押し付けは音声認識に有用か?
音響モデリングの研究結果は通常、単一のデータセットのパフォーマンスに基づいて評価される。
研究コミュニティはさまざまなベンチマークを中心に活動していますが、データセット間の音響モデルにおける一般化のパフォーマンスを理解することにしました。
一般に,残響および付加音の増大により,領域間の一般化性能が向上することを示す。
さらに,大量のベンチマークが使用されると,平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータに優れたプロキシを提供することを示した。
最後に、最も広く使われているデータセットで単一の音響モデルをトレーニングすることで、研究と実世界のベンチマークの両方で競合するパフォーマンスに達することを示す。 Is pushing numbers on a single benchmark valuable in automatic speech recognition? Research results in acoustic modeling are typically evaluated based on performance on a single dataset. While the research community has coalesced around various benchmarks, we set out to understand generalization performance in acoustic modeling across datasets - in particular, if models trained on a single dataset transfer to other (possibly out-of-domain) datasets. We show that, in general, reverberative and additive noise augmentation improves generalization performance across domains. Further, we demonstrate that when a large enough set of benchmarks is used, average word error rate (WER) performance over them provides a good proxy for performance on real-world noisy data. Finally, we show that training a single acoustic model on the most widely-used datasets - combined - reaches competitive performance on both research and real-world benchmarks. | 翻訳日:2022-10-04 05:56:08 公開日:2021-05-02 |
# 実例的自然画像によるCNN活動の可視化 Exemplary Natural Images Explain CNN Activations Better than State-of-the-Art Feature Visualization ( http://arxiv.org/abs/2010.12606v3 ) ライセンス: Link先を確認 | Judy Borowski, Roland S. Zimmermann, Judith Schepers, Robert Geirhos, Thomas S. A. Wallis, Matthias Bethge, Wieland Brendel | (参考訳) 合成最大活性化画像のような特徴可視化は、畳み込みニューラルネットワーク(CNN)の情報処理をよりよく理解するために広く使われている説明法である。
同時に、これらの視覚化がCNNの内部動作を正確に表現していないのではないかという懸念もある。
ここでは,ヒトがCNNの活性化を予測するのに,非常に活発な画像がどれほど役立つかを計測する。
良く制御された心理物理パラダイムを用いて、Olah et al. (2017) による合成画像の情報性と単純なベースラインの可視化、すなわち、特定の特徴写像を強く活性化する模範的な自然画像を比較した。
合成または自然な参照画像が与えられた場合、人間の参加者は2つのクエリ画像のうちどれが強い正の活性化をもたらすかを選択する。
実験は参加者のパフォーマンスを最大化するために設計され、最終層表現の代わりに中間層を探索する最初のものである。
合成画像は、機能マップのアクティベーションに関する有益な情報を提供している(82\pm4\%$精度、チャンスは50\%$)。
しかし、元々はベースラインアウトパーフォーミング合成画像として、広いマージン(92\pm2\%$)で意図されていた。
さらに、参加者は自然画像に対してより速く、より自信を持ち、一方、特徴視覚化の解釈可能性に関する主観的な印象は混在している。
自然画像のより高い情報性は、専門家と一般の参加者、そして手動とランダムに選択された特徴視覚化の双方にとって、ほとんどの層にわたって保持される。
単一の参照画像が与えられたとしても、合成画像は自然画像よりも少ない情報を提供する($65\pm5\%、$73\pm4\%)。
要約すると、人気のある特徴可視化手法による合成画像は、自然画像よりもcnnの活性化を評価するための情報量が少ない。
可視化手法はこの基準よりも改善されるべきである。 Feature visualizations such as synthetic maximally activating images are a widely used explanation method to better understand the information processing of convolutional neural networks (CNNs). At the same time, there are concerns that these visualizations might not accurately represent CNNs' inner workings. Here, we measure how much extremely activating images help humans to predict CNN activations. Using a well-controlled psychophysical paradigm, we compare the informativeness of synthetic images by Olah et al. (2017) with a simple baseline visualization, namely exemplary natural images that also strongly activate a specific feature map. Given either synthetic or natural reference images, human participants choose which of two query images leads to strong positive activation. The experiments are designed to maximize participants' performance, and are the first to probe intermediate instead of final layer representations. We find that synthetic images indeed provide helpful information about feature map activations ($82\pm4\%$ accuracy; chance would be $50\%$). However, natural images - originally intended as a baseline - outperform synthetic images by a wide margin ($92\pm2\%$). Additionally, participants are faster and more confident for natural images, whereas subjective impressions about the interpretability of the feature visualizations are mixed. The higher informativeness of natural images holds across most layers, for both expert and lay participants as well as for hand- and randomly-picked feature visualizations. Even if only a single reference image is given, synthetic images provide less information than natural images ($65\pm5\%$ vs. $73\pm4\%$). In summary, synthetic images from a popular feature visualization method are significantly less informative for assessing CNN activations than natural images. We argue that visualization methods should improve over this baseline. | 翻訳日:2022-10-03 21:34:48 公開日:2021-05-02 |
# 汎用データ分析とビジュアル情報分析:T-Algebra上での後方互換性のある半単純パラダイム General Data Analytics with Applications to Visual Information Analysis: A Provable Backward-Compatible Semisimple Paradigm over T-Algebra ( http://arxiv.org/abs/2011.00307v8 ) ライセンス: Link先を確認 | Liang Liao and Stephen John Maybank | (参考訳) 我々は、最近報告された半単純代数学(t-代数と呼ばれる)上の一般データ分析の新しい後方互換パラダイムを考える。
複素数の固定サイズのマルチウェイアレイと、直積成分の集合によるt-代数上の代数構造により、t-代数の要素を表現することによって、t-代数上の抽象的代数的枠組みを研究する。
t-代数上、この新しい半単純パラダイムを用いて、多くのアルゴリズムは単純に一般化される。
新しいパラダイムの性能とその後方互換性を示すために、視覚パターン分析のための標準アルゴリズムを一般化する。
公開データセットの実験では、一般化されたアルゴリズムは標準的アルゴリズムと好意的に比較されている。 We consider a novel backward-compatible paradigm of general data analytics over a recently-reported semisimple algebra (called t-algebra). We study the abstract algebraic framework over the t-algebra by representing the elements of t-algebra by fix-sized multi-way arrays of complex numbers and the algebraic structure over the t-algebra by a collection of direct-product constituents. Over the t-algebra, many algorithms are generalized in a straightforward manner using this new semisimple paradigm. To demonstrate the new paradigm's performance and its backward-compatibility, we generalize some canonical algorithms for visual pattern analysis. Experiments on public datasets show that the generalized algorithms compare favorably with their canonical counterparts. | 翻訳日:2022-10-01 04:37:07 公開日:2021-05-02 |
# 安定なビュー合成 Stable View Synthesis ( http://arxiv.org/abs/2011.07233v2 ) ライセンス: Link先を確認 | Gernot Riegler, Vladlen Koltun | (参考訳) 安定ビュー合成(SVS)について述べる。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新しいビューを合成する。
この方法は、構造からの移動と多視点ステレオによって計算された幾何学的足場で動作する。
この3d足場の各ポイントは、入力画像におけるこの点の外観をエンコードするビュー線および対応する特徴ベクトルと関連付けられている。
SVSのコアは、ビュー依存の地上特徴集約であり、各3Dポイントの方向特徴ベクトルを処理して、このポイントを新しいターゲットビューにマッピングする線のための新しい特徴ベクトルを生成する。
対象のビューは畳み込みネットワークによって、すべてのピクセルに対してこの方法で合成された特徴のテンソルからレンダリングされる。
この方法は異なるモジュールで構成され、エンドツーエンドで訓練されている。
空間的に異なる視点依存的重要度重み付けと各点におけるソース画像の特徴変換、対象視点における表面的特徴集約の滑らかな依存による空間的および時間的安定性、およびスペクトル反射のようなビュー依存的効果の合成をサポートする。
実験結果から,SVSは3つの実世界のデータセットを定量的かつ質的に比較し,大規模シーンに挑戦する自由視点ビデオにおいて,前例のないレベルのリアリズムを達成した。
コードはhttps://github.com/intel-isl/StableViewSynthesisで入手できる。 We present Stable View Synthesis (SVS). Given a set of source images depicting a scene from freely distributed viewpoints, SVS synthesizes new views of the scene. The method operates on a geometric scaffold computed via structure-from-motion and multi-view stereo. Each point on this 3D scaffold is associated with view rays and corresponding feature vectors that encode the appearance of this point in the input images. The core of SVS is view-dependent on-surface feature aggregation, in which directional feature vectors at each 3D point are processed to produce a new feature vector for a ray that maps this point into the new target view. The target view is then rendered by a convolutional network from a tensor of features synthesized in this way for all pixels. The method is composed of differentiable modules and is trained end-to-end. It supports spatially-varying view-dependent importance weighting and feature transformation of source images at each point; spatial and temporal stability due to the smooth dependence of on-surface feature aggregation on the target view; and synthesis of view-dependent effects such as specular reflection. Experimental results demonstrate that SVS outperforms state-of-the-art view synthesis methods both quantitatively and qualitatively on three diverse real-world datasets, achieving unprecedented levels of realism in free-viewpoint video of challenging large-scale scenes. Code is available at https://github.com/intel-isl/StableViewSynthesis | 翻訳日:2022-09-25 13:37:15 公開日:2021-05-02 |
# ベイズ学習のための近最適データソース選択 Near-Optimal Data Source Selection for Bayesian Learning ( http://arxiv.org/abs/2011.10712v2 ) ライセンス: Link先を確認 | Lintao Ye, Aritra Mitra and Shreyas Sundaram | (参考訳) 本研究では,ベイズ学習における基本的問題として,選択したデータストリームに基づいて一定の学習性能を達成しつつ,最小コストで複数のデータソースを選択することを目的とする。
まず,ベイズ学習におけるデータソース選択問題はNPハードであることを示す。
そこで,本研究では,データソース選択問題を文献で研究した部分モジュラー集合被覆問題の事例に変換できることを示し,検証可能な性能保証によるデータソース選択問題の解法として,標準グリーディアルゴリズムを提案する。
次に,標準グリードアルゴリズムと同等の性能保証を達成しつつ,標準グリードアルゴリズムの実行時間を改善する高速グリードアルゴリズムを提案する。
高速グリーディアルゴリズムは、性能保証の問題をカバーする一般的な部分モジュラー集合を解くためにも適用できる。
最後に, 数値例を用いて理論的結果を検証し, グリードアルゴリズムが実際にうまく動作することを示す。 We study a fundamental problem in Bayesian learning, where the goal is to select a set of data sources with minimum cost while achieving a certain learning performance based on the data streams provided by the selected data sources. First, we show that the data source selection problem for Bayesian learning is NP-hard. We then show that the data source selection problem can be transformed into an instance of the submodular set covering problem studied in the literature, and provide a standard greedy algorithm to solve the data source selection problem with provable performance guarantees. Next, we propose a fast greedy algorithm that improves the running times of the standard greedy algorithm, while achieving performance guarantees that are comparable to those of the standard greedy algorithm. The fast greedy algorithm can also be applied to solve the general submodular set covering problem with performance guarantees. Finally, we validate the theoretical results using numerical examples, and show that the greedy algorithms work well in practice. | 翻訳日:2022-09-22 23:48:20 公開日:2021-05-02 |
# 探索・移転のための潜在スキルプランニング Latent Skill Planning for Exploration and Transfer ( http://arxiv.org/abs/2011.13897v2 ) ライセンス: Link先を確認 | Kevin Xie, Homanga Bharadhwaj, Danijar Hafner, Animesh Garg, Florian Shkurti | (参考訳) 複雑な環境で新しいタスクを迅速に解決するには、インテリジェントエージェントは再利用可能な知識を構築する必要がある。
例えば、学習された世界モデルは、新しいタスクに適用される環境に関する知識を捉えます。
同様に、スキルは新しいタスクに適用できる一般的な振る舞いを捉えます。
本稿では,これら2つのアプローチを単一の強化学習エージェントに統合する方法について検討する。
具体的には、テスト時の高速適応に部分的アモート化の考え方を利用する。
そのため、アクションは時間とともに学習されるポリシーによって生成され、そのスキルはオンライン計画によって選択される。
難易度の高いロコモーションタスクのスイート間で設計決定の利点を実証し、競合するベースラインと比較して、単一タスクのサンプル効率の改善と、あるタスクから別のタスクへの転送を実証する。
https://sites.google.com/view/latent-skill-planning/ To quickly solve new tasks in complex environments, intelligent agents need to build up reusable knowledge. For example, a learned world model captures knowledge about the environment that applies to new tasks. Similarly, skills capture general behaviors that can apply to new tasks. In this paper, we investigate how these two approaches can be integrated into a single reinforcement learning agent. Specifically, we leverage the idea of partial amortization for fast adaptation at test time. For this, actions are produced by a policy that is learned over time while the skills it conditions on are chosen using online planning. We demonstrate the benefits of our design decisions across a suite of challenging locomotion tasks and demonstrate improved sample efficiency in single tasks as well as in transfer from one task to another, as compared to competitive baselines. Videos are available at: https://sites.google.com/view/latent-skill-planning/ | 翻訳日:2022-09-20 01:18:41 公開日:2021-05-02 |
# (参考訳) シルベスターソルバを用いたデータ駆動重み初期化 Data-driven Weight Initialization with Sylvester Solvers ( http://arxiv.org/abs/2105.10335v1 ) ライセンス: CC BY 4.0 | Debasmit Das, Yash Bhalgat and Fatih Porikli | (参考訳) 本研究では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
これは、変換された標準分布からサンプリングすることでパラメータをランダムに初期化する従来のアプローチとは対照的である。
このような方法は、トレーニングデータを使用して、より情報のある初期化を生成しない。
本手法では,各層が入力アクティベーションを用いて初期化される逐次的層分割アプローチを用いる。
初期化は、ユーザ定義の潜時符号によりさらに制約される入力アクティベーションの符号化と復号化の損失を最小化する最適化問題である。
最適化問題はよく知られたシルベスター方程式に再構成され、高速で効率的な勾配なし解を持つ。
データ駆動方式は,訓練開始前と訓練終了後の両方において,ランダム初期化法と比較して性能が向上する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
本稿では,時間複雑性と異なる潜在符号が認識性能に与える影響について解析を行った。 In this work, we propose a data-driven scheme to initialize the parameters of a deep neural network. This is in contrast to traditional approaches which randomly initialize parameters by sampling from transformed standard distributions. Such methods do not use the training data to produce a more informed initialization. Our method uses a sequential layer-wise approach where each layer is initialized using its input activations. The initialization is cast as an optimization problem where we minimize a combination of encoding and decoding losses of the input activations, which is further constrained by a user-defined latent code. The optimization problem is then restructured into the well-known Sylvester equation, which has fast and efficient gradient-free solutions. Our data-driven method achieves a boost in performance compared to random initialization methods, both before start of training and after training is over. We show that our proposed method is especially effective in few-shot and fine-tuning settings. We conclude this paper with analyses on time complexity and the effect of different latent codes on the recognition performance. | 翻訳日:2021-05-29 20:57:36 公開日:2021-05-02 |
# (参考訳) 合成開口レーダ画像のデスペックリングのための深層学習手法 : 動向と展望 Deep Learning Methods For Synthetic Aperture Radar Image Despeckling: An Overview Of Trends And Perspectives ( http://arxiv.org/abs/2012.05508v2 ) ライセンス: CC BY 4.0 | Giulia Fracastoro, Enrico Magli, Giovanni Poggi, Giuseppe Scarpa, Diego Valsesia, Luisa Verdoliva | (参考訳) 合成開口レーダ(sar)画像は、スペックル(speckle)と呼ばれる空間的関連と信号依存のノイズによって影響を受ける。
このようなノイズを除去し、下流の画像処理タスクの精度を向上させるために、デスペックリングは重要なタスクである。
最初のデスペックリング手法は1970年代まで遡り、その後いくつかのモデルベースのアルゴリズムが開発されてきた。
この分野は、画像処理における逆問題に優れたパフォーマンスをもたらす強力なディープラーニングモデルが利用可能になったことで、注目を集めている。
本稿では,sarデスペックリングに適用する深層学習手法に関する文献を調査し,教師ありアプローチと近年の自己教師ありアプローチの両方をカバーする。
本稿では,最有望な研究線を認識すること,深層モデルの成功を制限した要因を特定すること,SAR の深層学習の可能性を完全に活用する手法を提案することを目的として,既存手法の批判的分析を行う。 Synthetic aperture radar (SAR) images are affected by a spatially-correlated and signal-dependent noise called speckle, which is very severe and may hinder image exploitation. Despeckling is an important task that aims at removing such noise, so as to improve the accuracy of all downstream image processing tasks. The first despeckling methods date back to the 1970's, and several model-based algorithms have been developed in the subsequent years. The field has received growing attention, sparkled by the availability of powerful deep learning models that have yielded excellent performance for inverse problems in image processing. This paper surveys the literature on deep learning methods applied to SAR despeckling, covering both the supervised and the more recent self-supervised approaches. We provide a critical analysis of existing methods with the objective to recognize the most promising research lines, to identify the factors that have limited the success of deep models, and to propose ways forward in an attempt to fully exploit the potential of deep learning for SAR despeckling. | 翻訳日:2021-05-15 20:57:51 公開日:2021-05-02 |
# (参考訳) 海底画像におけるカニの物体検出 Object detection for crabs in top-view seabed imagery ( http://arxiv.org/abs/2105.02964v1 ) ライセンス: CC BY-SA 4.0 | Vlad Velici, Adam Pr\"ugel-Bennett | (参考訳) 本報告では, カニの異なる種の水中画像のデータベースと, カニの空中画像, 最後にはpascal vocデータセットに対する物体検出の応用について述べる。
このモデルは畳み込みネットワークベースとLong Short-Term Memory検出器に基づくエンドツーエンドのオブジェクト検出ニューラルネットワークである。 This report presents the application of object detection on a database of underwater images of different species of crabs, as well as aerial images of sea lions and finally the Pascal VOC dataset. The model is an end-to-end object detection neural network based on a convolutional network base and a Long Short-Term Memory detector. | 翻訳日:2021-05-11 09:01:20 公開日:2021-05-02 |
# (参考訳) ランドカバーマッピングのための注意喚起時空間分割 Attention-augmented Spatio-Temporal Segmentation for Land Cover Mapping ( http://arxiv.org/abs/2105.02963v1 ) ライセンス: CC BY 4.0 | Rahul Ghosh, Praveen Ravirathinam, Xiaowei Jia, Chenxi Lin, Zhenong Jin, Vipin Kumar | (参考訳) 大規模な地球観測衛星データの利用は、土地利用と土地被覆マッピングに大きな機会をもたらす。
しかし, 様々な土地被覆クラスの存在, 騒音データ, 適切なラベルの欠如などにより, マッピングの取り組みは困難である。
また、それぞれの土地被覆クラスは、典型的には独自の時間パターンを持ち、特定の期間にのみ識別できる。
本稿では,UNet構造に双方向LSTMとアテンション機構を組み込んだ新しいアーキテクチャを導入し,衛星データの空間的・時間的特性を両立させ,各土地被覆のユニークな時間的パターンをよりよく同定する。
世界中の複数地域で作物をマッピングする手法の評価を行った。
我々は,複数の土地被覆クラスを含む実世界の2つのデータセットを定量的に,質的に比較した。
また,注意重みを可視化し,騒音の緩和と識別における有効性について検討した。 The availability of massive earth observing satellite data provide huge opportunities for land use and land cover mapping. However, such mapping effort is challenging due to the existence of various land cover classes, noisy data, and the lack of proper labels. Also, each land cover class typically has its own unique temporal pattern and can be identified only during certain periods. In this article, we introduce a novel architecture that incorporates the UNet structure with Bidirectional LSTM and Attention mechanism to jointly exploit the spatial and temporal nature of satellite data and to better identify the unique temporal patterns of each land cover. We evaluate this method for mapping crops in multiple regions over the world. We compare our method with other state-of-the-art methods both quantitatively and qualitatively on two real-world datasets which involve multiple land cover classes. We also visualise the attention weights to study its effectiveness in mitigating noise and identifying discriminative time period. | 翻訳日:2021-05-11 08:52:28 公開日:2021-05-02 |
# (参考訳) 工学的機械学習システムに関するソフトウェア工学的視点--最先端の技術と課題 A Software Engineering Perspective on Engineering Machine Learning Systems: State of the Art and Challenges ( http://arxiv.org/abs/2012.07919v2 ) ライセンス: CC BY-SA 4.0 | G\"orkem Giray | (参考訳) コンテキスト: 機械学習(ML)の進歩は、アルゴリズムが人間によってハードコーディングされる従来のソフトウェア開発の視点から、データから学習することで実現されたMLシステムへとシフトする。
したがって、我々は、ソフトウェアシステムの開発方法を再考し、これらの新しいタイプのシステムに必要な特異性を検討する必要がある。
目的: 本研究の目的は, 工学MLシステムにおけるソフトウェア工学(SE)研究の現状を体系的に同定し, 分析し, 要約し, 合成することである。
方法: 体系的文献レビュー(SLR)を行った。
本研究は,SE会場から141の学習プールを体系的に選定し,これらのデータを用いて定量的,質的な分析を行った。
結果: MLシステムの非決定論的性質は、エンジニアリングMLシステムのすべてのSE側面を複雑にする。
2018年以降、関心が高まっているものの、seのどの側面も成熟したツールやテクニックを持っていないことが判明した。
テストは研究者の間では最も人気のある分野だ。
mlシステムをテストしても、実験的な証明が弱いツールプロトタイプとソリューションプロポーザルはいくつかしかない。
MLシステムエンジニアリングの課題の多くは、調査やインタビューを通じて特定された。
研究者はこれらの課題をさらに理解し、解決策を提案するために、理想的には工業環境で実験とケーススタディを実施する必要がある。
結論: 結果は,(1)MLシステム工学の課題を予見する実践者,(2)潜在的な研究課題を特定する研究者や学者,(3)SEコースを設計・更新し,MLシステム工学をカバーしている教育者に対して有効である。 Context: Advancements in machine learning (ML) lead to a shift from the traditional view of software development, where algorithms are hard-coded by humans, to ML systems materialized through learning from data. Therefore, we need to revisit our ways of developing software systems and consider the particularities required by these new types of systems. Objective: The purpose of this study is to systematically identify, analyze, summarize, and synthesize the current state of software engineering (SE) research for engineering ML systems. Method: I performed a systematic literature review (SLR). I systematically selected a pool of 141 studies from SE venues and then conducted a quantitative and qualitative analysis using the data extracted from these studies. Results: The non-deterministic nature of ML systems complicates all SE aspects of engineering ML systems. Despite increasing interest from 2018 onwards, the results reveal that none of the SE aspects have a mature set of tools and techniques. Testing is by far the most popular area among researchers. Even for testing ML systems, engineers have only some tool prototypes and solution proposals with weak experimental proof. Many of the challenges of ML systems engineering were identified through surveys and interviews. Researchers should conduct experiments and case studies, ideally in industrial environments, to further understand these challenges and propose solutions. Conclusion: The results may benefit (1) practitioners in foreseeing the challenges of ML systems engineering; (2) researchers and academicians in identifying potential research questions; and (3) educators in designing or updating SE courses to cover ML systems engineering. | 翻訳日:2021-05-08 18:35:12 公開日:2021-05-02 |
# AIリスク懐疑論 AI Risk Skepticism ( http://arxiv.org/abs/2105.02704v1 ) ライセンス: Link先を確認 | Roman V. Yampolskiy | (参考訳) 本研究では,AIリスクに関する懐疑論を調査し,他の科学懐疑論と類似点を示す。
まず、さまざまなタイプのAIリスク懐疑論を分類し、その根本原因を分析します。
結論として,少なくとも人工知能研究者の間では,aiリスク懐疑論の低減に成功している可能性がある介入アプローチを提案する。 In this work, we survey skepticism regarding AI risk and show parallels with other types of scientific skepticism. We start by classifying different types of AI Risk skepticism and analyze their root causes. We conclude by suggesting some intervention approaches, which may be successful in reducing AI risk skepticism, at least amongst artificial intelligence researchers. | 翻訳日:2021-05-07 13:18:08 公開日:2021-05-02 |
# (参考訳) MarkerPose: 正確なステレオポース推定のためのロバストなリアルタイム平面目標追跡 MarkerPose: Robust Real-time Planar Target Tracking for Accurate Stereo Pose Estimation ( http://arxiv.org/abs/2105.00368v1 ) ライセンス: CC BY 4.0 | Jhacson Meza, Lenny A. Romero, Andres G. Marrugo | (参考訳) 近年は注目マーカーレスポーズ推定が注目されているが、マーカーベースのアプローチは制御された環境条件下でも精度が低い。
したがって、ロボット工学やバイオメディカル応用など多くの分野で使用されているが、主に古典的なアプローチによって実装されているため、異なる環境下での信頼性の高いパフォーマンスには多くのヒューリスティックやパラメータチューニングが必要となる。
本研究では,3つの円の平面目標とステレオビジョンシステムに基づく,ロバストでリアルタイムなポーズ推定システムであるmarkerposeを提案する。
MarkerPoseは高精度なポーズ推定アプリケーションを目的としている。
本手法は,マーカー点検出のための2つの深層ニューラルネットワークからなる。
ピクセルレベルの精度キーポイントの同定と分類のためのスーパーポイントライクネットワークと,サブピクセルレベルの精度キーポイント検出のための軽量な楕円型セグメンテーションネットワークであるellipsegnetを紹介する。
マーカーのポーズはステレオ三角測量によって推定される。
目標点検出は、低い照明条件と動きのぼやき条件にロバストである。
我々は,ロボットアームを用いた従来のコンピュータビジョン技術に基づく検出手法と比較した。
その結果,従来の手法よりも精度が高いことがわかった。
最後に,高精度なポーズ推定が要求される3次元自由手超音波システムにおいて,マーカーポスが適合することを示す。
コードはPythonとC++でhttps://github.com/jhacsonmeza/MarkerPose>で入手できる。 Despite the attention marker-less pose estimation has attracted in recent years, marker-based approaches still provide unbeatable accuracy under controlled environmental conditions. Thus, they are used in many fields such as robotics or biomedical applications but are primarily implemented through classical approaches, which require lots of heuristics and parameter tuning for reliable performance under different environments. In this work, we propose MarkerPose, a robust, real-time pose estimation system based on a planar target of three circles and a stereo vision system. MarkerPose is meant for high-accuracy pose estimation applications. Our method consists of two deep neural networks for marker point detection. A SuperPoint-like network for pixel-level accuracy keypoint localization and classification, and we introduce EllipSegNet, a lightweight ellipse segmentation network for sub-pixel-level accuracy keypoint detection. The marker's pose is estimated through stereo triangulation. The target point detection is robust to low lighting and motion blur conditions. We compared MarkerPose with a detection method based on classical computer vision techniques using a robotic arm for validation. The results show our method provides better accuracy than the classical technique. Finally, we demonstrate the suitability of MarkerPose in a 3D freehand ultrasound system, which is an application where highly accurate pose estimation is required. Code is available in Python and C++ at <https://github.com/jhacsonmeza/MarkerPose>. | 翻訳日:2021-05-05 05:20:09 公開日:2021-05-02 |
# (参考訳) センサ配置による知覚改善:自律走行車用マルチライダーシステムの設計 Improving Perception via Sensor Placement: Designing Multi-LiDAR Systems for Autonomous Vehicles ( http://arxiv.org/abs/2105.00373v1 ) ライセンス: CC BY 4.0 | Sharad Chitlangia, Zuxin Liu, Akhil Agnihotri, Ding Zhao | (参考訳) 近年、自動運転車におけるLiDARの認識性能向上への関心が高まっている。
既存の研究のほとんどは、ポイントクラウドデータを処理するための新しいモデルアーキテクチャの開発に重点を置いているが、最適なセンシングの観点から問題を研究している。
この目的のために、LiDAR構成の知覚領域内におけるレイトレーシングに基づく高速な評価関数とともに、最大センシングのためのLiDAR配置を最適化するために、確率的占有グリッド(POG)に基づく簡易な情報理論サロゲートコストメトリックを提案する。
本稿では,サロゲート関数と共通物体検出性能指標との相関関係を示す。
本手法の有効性を,carlaシミュレータに基づくロバストで再現可能なデータ収集・抽出フレームワークを用いて検証することにより実証する。
以上の結果から,センサ配置は3次元点クラウドによる物体検出において重要な要素であり,最先端の認識アルゴリズムでは10%程度の性能変化が生じる可能性が示唆された。
我々は、LiDAR配置を用いて知覚のパフォーマンスを向上させる最初の研究の1つだと信じている。 Recent years have witnessed an increasing interest in improving the perception performance of LiDARs on autonomous vehicles. While most of the existing works focus on developing novel model architectures to process point cloud data, we study the problem from an optimal sensing perspective. To this end, together with a fast evaluation function based on ray tracing within the perception region of a LiDAR configuration, we propose an easy-to-compute information-theoretic surrogate cost metric based on Probabilistic Occupancy Grids (POG) to optimize LiDAR placement for maximal sensing. We show a correlation between our surrogate function and common object detection performance metrics. We demonstrate the efficacy of our approach by verifying our results in a robust and reproducible data collection and extraction framework based on the CARLA simulator. Our results confirm that sensor placement is an important factor in 3D point cloud-based object detection and could lead to a variation of performance by 10% ~ 20% on the state-of-the-art perception algorithms. We believe that this is one of the first studies to use LiDAR placement to improve the performance of perception. | 翻訳日:2021-05-05 05:09:53 公開日:2021-05-02 |
# (参考訳) 物理知能AIモデルによる自動車排出予測:予備結果 Vehicle Emissions Prediction with Physics-Aware AI Models: Preliminary Results ( http://arxiv.org/abs/2105.00375v1 ) ライセンス: CC BY 4.0 | Harish Panneer Selvam, Yan Li, Pengyue Wang, William F. Northrop, Shashi Shekhar | (参考訳) 本稿では,車載診断(OBD)データセットと物理に基づく排出予測モデルを用いて,正確な計算効率の高いAI(Artificial Intelligence)手法を開発することを目的とする。
気候変動を引き起こし、人間の健康に影響を及ぼすため、社会的な重要性が問題となっている。
obdデータは高次物理学モデルに必要な十分なパラメータを含まないため、この問題は難しい。
逆に、関連する研究により、OBDデータを使用する場合、低次物理モデルは予測精度が低いことが示されている。
本稿では、分散ウィンドウ共起パターン検出法を用いて、OBDデータセットからの放射値を予測するための時空間変動を考慮したAIモデルを開発する。
地方公共交通機関の実世界のobdデータを用いた事例研究を行った。
その結果,提案手法は非ai低次物理モデルよりも予測精度が約65%向上し,ベースラインモデルよりも約35%精度が向上した。 Given an on-board diagnostics (OBD) dataset and a physics-based emissions prediction model, this paper aims to develop an accurate and computational-efficient AI (Artificial Intelligence) method that predicts vehicle emissions. The problem is of societal importance because vehicular emissions lead to climate change and impact human health. This problem is challenging because the OBD data does not contain enough parameters needed by high-order physics models. Conversely, related work has shown that low-order physics models have poor predictive accuracy when using available OBD data. This paper uses a divergent window co-occurrence pattern detection method to develop a spatiotemporal variability-aware AI model for predicting emission values from the OBD datasets. We conducted a case study using real-world OBD data from a local public transportation agency. Results show that the proposed AI method has approximately 65% improved predictive accuracy than a non-AI low-order physics model and is approximately 35% more accurate than a baseline model. | 翻訳日:2021-05-05 04:55:37 公開日:2021-05-02 |
# (参考訳) anatomy-guided parallel bottleneck transformer network による根管治療の自動評価 Anatomy-Guided Parallel Bottleneck Transformer Network for Automated Evaluation of Root Canal Therapy ( http://arxiv.org/abs/2105.00381v1 ) ライセンス: CC BY 4.0 | Yunxiang Li, Guodong Zeng, Yifan Zhang, Jun Wang, Qianni Zhang, Qun Jin, Lingling Sun, Qisi Lian, Neng Xia, Ruizi Peng, Kai Tang, Yaqi Wang, Shuai Wang | (参考訳) 目的:X線画像における根管充填結果の正確な評価は根管治療において重要なステップであり,歯根の尖部領域境界と根管の充填したグスタパーチャの先端との相対的な位置、および歯根の形状などに基づいて,歯根の正しい充填, 埋入, 過剰充填と分類する。
方法:新しい解剖誘導型トランスフォーマー診断ネットワークを提案する。
正確な解剖学的特徴を得るために, ファジィ境界を分節する多項式曲線フィッティングセグメンテーションを提案する。
そして,最終評価のための分類ネットワークとして,並列ボトルネックトランスフォーマネットワーク(pbt-net)を導入した。
結果と結論:我々の数値実験により,我々の解剖誘導PBT-Netは,ベースライン分類網と比較して40 %から85 %の精度向上を実現している。
SOTAセグメンテーションネットワークと比較すると、ASDは我々のフィッティングセグメンテーションによって30.3\%削減される。
意義: 多項式曲線フィッティングセグメンテーションは、非常にファジィな境界に対して大きなセグメンテーション効果を持つ。
事前知識誘導分類ネットワークは根管治療の評価に非常に適している。
そして、新しい並列ボトルネックトランスフォーマは、自己着脱を実現するために一般的に設計されており、ほとんどのバックボーンネットワークで広く使われる。 Objective: Accurate evaluation of the root canal filling result in X-ray image is a significant step for the root canal therapy, which is based on the relative position between the apical area boundary of tooth root and the top of filled gutta-percha in root canal as well as the shape of the tooth root and so on to classify the result as correct-filling, under-filling or over-filling. Methods: We propose a novel anatomy-guided Transformer diagnosis network. For obtaining accurate anatomy-guided features, a polynomial curve fitting segmentation is proposed to segment the fuzzy boundary. And a Parallel Bottleneck Transformer network (PBT-Net) is introduced as the classification network for the final evaluation. Results, and conclusion: Our numerical experiments show that our anatomy-guided PBT-Net improves the accuracy from 40\% to 85\% relative to the baseline classification network. Comparing with the SOTA segmentation network indicates that the ASD is significantly reduced by 30.3\% through our fitting segmentation. Significance: Polynomial curve fitting segmentation has a great segmentation effect for extremely fuzzy boundaries. The prior knowledge guided classification network is suitable for the evaluation of root canal therapy greatly. And the new proposed Parallel Bottleneck Transformer for realizing self-attention is general in design, facilitating a broad use in most backbone networks. | 翻訳日:2021-05-05 04:47:59 公開日:2021-05-02 |
# (参考訳) OR-Net:部分観測によるデータ補完のポイントワイズ関係推論 OR-Net: Pointwise Relational Inference for Data Completion under Partial Observation ( http://arxiv.org/abs/2105.00397v1 ) ライセンス: CC BY 4.0 | Qianyu Feng, Linchao Zhu, Bang Zhang, Pan Pan, Yi Yang | (参考訳) 現代のデータ駆動手法は通常、適用性を制限する大規模なデータセットを全面的に監視する。
しかし、測定誤差やデータ取得問題などの制約のある実際のシステムでは、通常は不完全なデータを取得する。
データ補完は注目されているが、基礎となるデータパターンと相対性理論はまだ未開発である。
現在、潜在変数モデルのファミリーは、境界分布を適合させることで、観測変数よりも深い潜在変数を学習することができる。
私たちが知る限り、現在の方法では、部分的観測下でのデータ相対性理論を知覚できない。
不完全データをモデル化することを目的として、この研究は不完全データを埋めるために関係推論を使用する。
具体的には, 部分的観測値と潜在変数上の実合同分布を近似し, 対象を推定することを期待する。
そこで,本研究では,全相関ネットワーク (or-net) を提案する。一方,部分的観測における文脈点間に内的関係を構築し,他方では観測データ点との相互関係を学習することにより,見当たらない対象を推定する。
さらに, 物理構造が観察可能であるか否かに関わらず, 提案手法を様々なシナリオに一般化できることが判明した。
提案するor-netは,関数回帰,mnistおよびcelebaデータセットの画像補完,および観測されたポーズに条件付けられた逐次運動生成など,様々なモダリティのデータ補完タスクに対して十分に一般化できることが実証された。 Contemporary data-driven methods are typically fed with full supervision on large-scale datasets which limits their applicability. However, in the actual systems with limitations such as measurement error and data acquisition problems, people usually obtain incomplete data. Although data completion has attracted wide attention, the underlying data pattern and relativity are still under-developed. Currently, the family of latent variable models allows learning deep latent variables over observed variables by fitting the marginal distribution. As far as we know, current methods fail to perceive the data relativity under partial observation. Aiming at modeling incomplete data, this work uses relational inference to fill in the incomplete data. Specifically, we expect to approximate the real joint distribution over the partial observation and latent variables, thus infer the unseen targets respectively. To this end, we propose Omni-Relational Network (OR-Net) to model the pointwise relativity in two aspects: (i) On one hand, the inner relationship is built among the context points in the partial observation; (ii) On the other hand, the unseen targets are inferred by learning the cross-relationship with the observed data points. It is further discovered that the proposed method can be generalized to different scenarios regardless of whether the physical structure can be observed or not. It is demonstrated that the proposed OR-Net can be well generalized for data completion tasks of various modalities, including function regression, image completion on MNIST and CelebA datasets, and also sequential motion generation conditioned on the observed poses. | 翻訳日:2021-05-05 04:29:37 公開日:2021-05-02 |
# (参考訳) スパースサンプリング体制におけるモデル発見 Model discovery in the sparse sampling regime ( http://arxiv.org/abs/2105.00400v1 ) ライセンス: CC BY 4.0 | Gert-Jan Both, Georges Tod, Remy Kusters | (参考訳) 海洋力学や気象予報のような複雑な力学系の物理的理解と予測を改善するために、粗い観測とオフグリッドのサンプル観測から解釈可能なモデルを特定することが最重要となる。
本研究では,センサ間の間隔が大きく,サンプルがグリッド上に配置されていない場合,偏微分方程式のモデル発見をディープラーニングがいかに改善できるかを検討する。
本稿では,物理情報付きニューラルネットワークの補間と自動微分の活用により,従来のスプライン補間法や数値微分法と比較して,データとその時空間微分の適合性が向上することを示す。
その結果、深層学習に基づくモデル発見は、データの特性長さスケールや高いノイズレベルの存在からセンサーを離れて配置した場合でも、基礎となる方程式を回復することができる。
我々は, 合成データと実験データの両方について, (非) 線形移流, 反応, 拡散などの物理過程の組み合わせが正しく同定されるという主張を述べる。 To improve the physical understanding and the predictions of complex dynamic systems, such as ocean dynamics and weather predictions, it is of paramount interest to identify interpretable models from coarsely and off-grid sampled observations. In this work, we investigate how deep learning can improve model discovery of partial differential equations when the spacing between sensors is large and the samples are not placed on a grid. We show how leveraging physics informed neural network interpolation and automatic differentiation, allow to better fit the data and its spatiotemporal derivatives, compared to more classic spline interpolation and numerical differentiation techniques. As a result, deep learning-based model discovery allows to recover the underlying equations, even when sensors are placed further apart than the data's characteristic length scale and in the presence of high noise levels. We illustrate our claims on both synthetic and experimental data sets where combinations of physical processes such as (non)-linear advection, reaction, and diffusion are correctly identified. | 翻訳日:2021-05-05 04:13:37 公開日:2021-05-02 |
# (参考訳) PAN++: 任意形テキストの効率的なエンドツーエンドスポッティングを目指す PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text ( http://arxiv.org/abs/2105.00405v1 ) ライセンス: CC BY 4.0 | Wenhai Wang, Enze Xie, Xiang Li, Xuebo Liu, Ding Liang, Zhibo Yang, Tong Lu, Chunhua Shen | (参考訳) シーンテキストの検出と認識はここ数年よく研究されてきた。
進歩にもかかわらず、任意の形のテキストの効率的かつ正確なエンドツーエンドスポッティングは依然として困難である。
本研究では,自然シーンにおける任意の形状のテキストを効率よく検出・認識する,PAN++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
既存のシーンテキスト表現と体系的に比較することにより、カーネル表現は任意の形のテキストを記述できるだけでなく、隣接したテキストを適切に区別できることを示す。
さらに、ピクセルベースの表現として、カーネル表現は、リアルタイムアプリケーションに非常に親しみやすい単一の完全な畳み込みネットワークによって予測できる。
カーネル表現の利点を生かして,1)積み重ねられた特徴ピラミッド拡張モジュール(FPEM)からなる計算効率の良い特徴強調ネットワーク,2)Pixel Aggregation(PA)と連携した軽量検出ヘッド,3)Masked RoIを用いた効率的な注意に基づく認識ヘッドを設計する。
カーネル表現と調整済みコンポーネントの恩恵を受けることにより,競合精度を維持しつつ高い推論速度を実現する。
大規模な実験により,本手法の優位性を示した。
例えば、提案されているpan++は、全テキストデータセット上で64.9 fpsのエンドツーエンドテキストスポッティングf-measureを29.2 fpsで達成する。
コードはhttps://git.io/pan.com/で入手できる。 Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framework, termed PAN++, which can efficiently detect and recognize text of arbitrary shapes in natural scenes. PAN++ is based on the kernel representation that reformulates a text line as a text kernel (central region) surrounded by peripheral pixels. By systematically comparing with existing scene text representations, we show that our kernel representation can not only describe arbitrarily-shaped text but also well distinguish adjacent text. Moreover, as a pixel-based representation, the kernel representation can be predicted by a single fully convolutional network, which is very friendly to real-time applications. Taking the advantages of the kernel representation, we design a series of components as follows: 1) a computationally efficient feature enhancement network composed of stacked Feature Pyramid Enhancement Modules (FPEMs); 2) a lightweight detection head cooperating with Pixel Aggregation (PA); and 3) an efficient attention-based recognition head with Masked RoI. Benefiting from the kernel representation and the tailored components, our method achieves high inference speed while maintaining competitive accuracy. Extensive experiments show the superiority of our method. For example, the proposed PAN++ achieves an end-to-end text spotting F-measure of 64.9 at 29.2 FPS on the Total-Text dataset, which significantly outperforms the previous best method. Code will be available at: https://git.io/PAN. | 翻訳日:2021-05-05 03:56:34 公開日:2021-05-02 |
# (参考訳) TE-ESN:不規則サンプリング時系列データに基づく予測のための時間符号化エコー状態ネットワーク TE-ESN: Time Encoding Echo State Network for Prediction Based on Irregularly Sampled Time Series Data ( http://arxiv.org/abs/2105.00412v1 ) ライセンス: CC BY 4.0 | Chenxi Sun and Shenda Hong and Moxian Song and Yanxiu Zhou and Yongyue Sun and Derun Cai and Hongyan Li | (参考訳) 不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。
より正確な予測のために、この手法はより多くのデータ特性を把握できた。
通常の時系列とは異なり、ISTSはシリーズ内の不規則な時間間隔とシリーズ間のサンプリング率が異なる。
しかし,既存の手法では,これら2つの特性をモデル化する際に,時系列に新たな依存関係を人工的に導入し,時系列間の関係をバイアス的に学習するため,最適以下に予測できる。
本稿では,新しい時間符号化(te)機構を提案する。
teは時間情報を複素領域の時間ベクトルとして埋め込むことができる。
絶対距離と異なるサンプリング率の相対距離の性質を持ち、istの2つの不規則性を表現するのに役立つ。
一方,TE-ESN(Time Encoding Echo State Network)と呼ばれる新しいモデル構造を構築した。
ISTSデータを処理できる最初のESNベースのモデルである。
さらにTE-ESNは、長い短期記憶とシリーズ融合を組み込んで水平と垂直の関係を把握できる。
1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れた性能を示し、より優れた貯水性を持っていることを示している。 Prediction based on Irregularly Sampled Time Series (ISTS) is of wide concern in the real-world applications. For more accurate prediction, the methods had better grasp more data characteristics. Different from ordinary time series, ISTS is characterised with irregular time intervals of intra-series and different sampling rates of inter-series. However, existing methods have suboptimal predictions due to artificially introducing new dependencies in a time series and biasedly learning relations among time series when modeling these two characteristics. In this work, we propose a novel Time Encoding (TE) mechanism. TE can embed the time information as time vectors in the complex domain. It has the the properties of absolute distance and relative distance under different sampling rates, which helps to represent both two irregularities of ISTS. Meanwhile, we create a new model structure named Time Encoding Echo State Network (TE-ESN). It is the first ESNs-based model that can process ISTS data. Besides, TE-ESN can incorporate long short-term memories and series fusion to grasp horizontal and vertical relations. Experiments on one chaos system and three real-world datasets show that TE-ESN performs better than all baselines and has better reservoir property. | 翻訳日:2021-05-05 03:17:42 公開日:2021-05-02 |
# (参考訳) VQA_Datasetsとアプローチに関する調査 A survey on VQA_Datasets and Approaches ( http://arxiv.org/abs/2105.00421v1 ) ライセンス: CC BY 4.0 | Yeyun Zou, Qiyu Xie | (参考訳) 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の両方の技法を組み合わせたタスクである。
ビジュアルに含まれる情報に応じて、テキストベースの質問に答えるモデルが必要となる。
近年、VQAの研究分野が拡大している。
VQAに焦点を当てた科学図の推論能力とVQAについても研究が進められている。
一方で、よりマルチモーダルな特徴融合機構が提案されている。
本稿では,VQAタスクに提案されている既存のデータセット,メトリクス,モデルについてレビューし,分析する。 Visual question answering (VQA) is a task that combines both the techniques of computer vision and natural language processing. It requires models to answer a text-based question according to the information contained in a visual. In recent years, the research field of VQA has been expanded. Research that focuses on the VQA, examining the reasoning ability and VQA on scientific diagrams, has also been explored more. Meanwhile, more multimodal feature fusion mechanisms have been proposed. This paper will review and analyze existing datasets, metrics, and models proposed for the VQA task. | 翻訳日:2021-05-05 03:06:14 公開日:2021-05-02 |
# (参考訳) 連成形成によるマルチエージェントルーティングとスケジューリング Multi-Agent Routing and Scheduling Through Coalition Formation ( http://arxiv.org/abs/2105.00451v1 ) ライセンス: CC BY 4.0 | Luca Capezzuto, Danesh Tarapore, Sarvapali D. Ramchurn | (参考訳) 災害対応などのリアルタイムドメインのタスク割り当てでは、多数のタスクを実行するために限られた数のエージェントが広域に展開され、それぞれに前提条件、利益、タイムウインドウ、ワークロードがある。
時間的ペナルティを最小化しながら利益を最大化するためには、エージェントは連立の形成、解散、改革によって協力する必要がある。
本稿では,この問題をMARSC (Multi-Agent Routing and Scheduling through Coalition Formation) と命名し,タイムウインドウを用いたチームオリエンテーリング問題を一般化したことを示す。
我々は,バイナリ整数プログラムと,それを解決するためのいつでもスケーラブルなヒューリスティックを提案する。
ロンドン消防団の記録を使って,347588タスクのデータセットと,消防士の動員をシミュレートするテストフレームワークを作成しました。
最大150のエージェントと3000のタスクを持つ問題では、リアルタイムシステムで一般的に使用される最初期のdeadline firstアプローチよりも3.25倍のソリューションを見つけます。
この結果は,MARSC問題に対する最初の大規模ベンチマークとなる。 In task allocation for real-time domains, such as disaster response, a limited number of agents is deployed across a large area to carry out numerous tasks, each with its prerequisites, profit, time window and workload. To maximize profits while minimizing time penalties, agents need to cooperate by forming, disbanding and reforming coalitions. In this paper, we name this problem Multi-Agent Routing and Scheduling through Coalition formation (MARSC) and show that it generalizes the important Team Orienteering Problem with Time Windows. We propose a binary integer program and an anytime and scalable heuristic to solve it. Using public London Fire Brigade records, we create a dataset with 347588 tasks and a test framework that simulates the mobilization of firefighters. In problems with up to 150 agents and 3000 tasks, our heuristic finds solutions up to 3.25 times better than the Earliest Deadline First approach commonly used in real-time systems. Our results constitute the first large-scale benchmark for the MARSC problem. | 翻訳日:2021-05-05 02:47:17 公開日:2021-05-02 |
# (参考訳) マルチコントラスト情報を用いたMR画像の教師なし異常検出 Unsupervised Anomaly Detection in MR Images using Multi-Contrast Information ( http://arxiv.org/abs/2105.00463v1 ) ライセンス: CC BY 4.0 | Byungjai Kim, Kinam Kwon, Changheun Oh, and Hyunwook Park | (参考訳) 医用画像における異常検出は、疾患の関連バイオマーカーを正常な組織と区別することである。
深い教師付き学習法は、様々な検出タスクにおいてポテンシャルを示してきたが、そのパフォーマンスは、注釈付き異常データの収集が制限され、労働集約的な医療画像分野で制限される。
したがって、教師なし異常検出は、未ラベルの正常画像のみをトレーニングデータとして利用する臨床実践に有効なツールである。
本稿では,マルチコントラストMRI(Multi-Contrast MRI)における画素ワイド異常検出のための教師なし学習フレームワークを開発した。
このフレームワークは、ガウス混合モデル(gmm)による特徴生成と密度推定の2つのステップを持つ。
この特徴は、コントラストmriで正常な組織特性を効果的に捉えるコントラスト変換の学習を通して得られる。
この機能は、マルチコントラスト画像の低次元表現である別の特徴と協調的に使用される。
GMMを用いた密度推定では、結合学習過程を中断する特異性問題に対処するために、単純だが効率的な方法が導入された。
提案手法は従来の異常検出手法よりも優れている。
マルチコントラストMRIの異常検出における提案手法の有効性を定量的,定性的に検証した。 Anomaly detection in medical imaging is to distinguish the relevant biomarkers of diseases from those of normal tissues. Deep supervised learning methods have shown potentials in various detection tasks, but its performances would be limited in medical imaging fields where collecting annotated anomaly data is limited and labor-intensive. Therefore, unsupervised anomaly detection can be an effective tool for clinical practices, which uses only unlabeled normal images as training data. In this paper, we developed an unsupervised learning framework for pixel-wise anomaly detection in multi-contrast magnetic resonance imaging (MRI). The framework has two steps of feature generation and density estimation with Gaussian mixture model (GMM). A feature is derived through the learning of contrast-to-contrast translation that effectively captures the normal tissue characteristics in multi-contrast MRI. The feature is collaboratively used with another feature that is the low-dimensional representation of multi-contrast images. In density estimation using GMM, a simple but efficient way is introduced to handle the singularity problem which interrupts the joint learning process. The proposed method outperforms previous anomaly detection approaches. Quantitative and qualitative analyses demonstrate the effectiveness of the proposed method in anomaly detection for multi-contrast MRI. | 翻訳日:2021-05-05 02:36:16 公開日:2021-05-02 |
# (参考訳) DRIVE:高次元ゲノミクスデータとインプットラベルを用いた癌のドライバ同定のための機械学習 DRIVE: Machine Learning to Identify Drivers of Cancer with High-Dimensional Genomic Data & Imputed Labels ( http://arxiv.org/abs/2105.00469v1 ) ライセンス: CC BY 4.0 | Adnan Akbar, Andrey Solovyev, John W Cassidy, Nirmesh Patel, Harry W Clifford | (参考訳) がんの成長を促進する突然変異の同定は、臨床意思決定と正確な腫瘍学において鍵となる。
ドライバーの変異は選択的に有利であり、発生の可能性も高まるため、現在周波数ベースの統計モデルが好まれている。
これらの方法は稀で低頻度のドライバ突然変異には適していない。
これに対処する別のアプローチは機能的インパクトスコア(英語版)によるものであるが、このアプローチを用いる手法は偽陽性の傾向が高い。
本稿では,統計モデルと機能的影響に基づく手法の両方のパワーを用いた,ドライバ変異同定のための新しい組み合わせ手法を提案する。
最初の結果から,この手法は精度において最先端の手法よりも優れており,受信特性曲線(AU-ROC)の下での面積に匹敵する性能を提供する。
このような機械学習に基づくデータ駆動システムは、近い将来、精度オンコロジーの不可欠な部分になるだろうと考えています。 Identifying the mutations that drive cancer growth is key in clinical decision making and precision oncology. As driver mutations confer selective advantage and thus have an increased likelihood of occurrence, frequency-based statistical models are currently favoured. These methods are not suited to rare, low frequency, driver mutations. The alternative approach to address this is through functional-impact scores, however methods using this approach are highly prone to false positives. In this paper, we propose a novel combination method for driver mutation identification, which uses the power of both statistical modelling and functional-impact based methods. Initial results show this approach outperforms the state-of-the-art methods in terms of precision, and provides comparable performance in terms of area under receiver operating characteristic curves (AU-ROC). We believe that data-driven systems based on machine learning, such as these, will become an integral part of precision oncology in the near future. | 翻訳日:2021-05-05 02:15:06 公開日:2021-05-02 |
# (参考訳) 因果知識構造を用いたイベント引数抽出 Event Argument Extraction using Causal Knowledge Structures ( http://arxiv.org/abs/2105.00477v1 ) ライセンス: CC BY 4.0 | Debanjana Kar, Sudeshna Sarkar, Pawan Goyal | (参考訳) イベント引数抽出(event argument extraction)とは、特定の興味のあるイベントに対して、構造化されていないテキストから構造化情報を抽出するタスクである。
既存の研究は、ReasonやAfter Effectsといった因果イベントの議論を抽出する能力に乏しい。
さらに、既存の作業のほとんどは、このタスクを文レベルでモデル化し、コンテキストをローカルスコープに制限します。
短いテキストには有効かもしれないが、ニュース記事などの長いテキストには、イベントの議論がイベントトリガーを含むものと同じ文で必ずしも発生しないことがしばしば観察されている。
文間の議論散乱の問題に取り組むため、このタスクではグローバルコンテキストの使用が必須となる。
本研究では,文書レベルのイベント情報を融合し,複雑なイベント引数の抽出を支援する外部知識支援手法を提案する。
我々は、wikipediaからconceptnetと句から関連するイベント因果構造を抽出することにより、イベント注釈付きデータセットのための因果ネットワークを構築する。
双方向トランスフォーマエンコーダで抽出されたイベント因果特性を用いて,長距離の相互関係を効果的に捉える。
本稿では,定性解析と定量的解析の両面から提案手法の有効性を報告する。
本研究は,インド語5言語におけるイベントアノテートデータセットについて述べる。
このデータセットは、エンティティタイプ(時間、場所など)の引数と、より複雑な引数タイプ(Reason、After-Effectなど)をラベル付けすることで、タスクをさらに複雑にする。
提案手法は5言語すべてで最先端のパフォーマンスを実現する。
私たちの仕事は言語固有の機能に依存しないので、他の言語にも簡単に拡張できます。 Event Argument extraction refers to the task of extracting structured information from unstructured text for a particular event of interest. The existing works exhibit poor capabilities to extract causal event arguments like Reason and After Effects. Furthermore, most of the existing works model this task at a sentence level, restricting the context to a local scope. While it may be effective for short spans of text, for longer bodies of text such as news articles, it has often been observed that the arguments for an event do not necessarily occur in the same sentence as that containing an event trigger. To tackle the issue of argument scattering across sentences, the use of global context becomes imperative in this task. In our work, we propose an external knowledge aided approach to infuse document-level event information to aid the extraction of complex event arguments. We develop a causal network for our event-annotated dataset by extracting relevant event causal structures from ConceptNet and phrases from Wikipedia. We use the extracted event causal features in a bi-directional transformer encoder to effectively capture long-range inter-sentence dependencies. We report the effectiveness of our proposed approach through both qualitative and quantitative analysis. In this task, we establish our findings on an event annotated dataset in 5 Indian languages. This dataset adds further complexity to the task by labelling arguments of entity type (like Time, Place) as well as more complex argument types (like Reason, After-Effect). Our approach achieves state-of-the-art performance across all the five languages. Since our work does not rely on any language-specific features, it can be easily extended to other languages. | 翻訳日:2021-05-05 02:08:47 公開日:2021-05-02 |
# (参考訳) RパッケージBiDAGによるベイズネットワークのベイズ構造学習とサンプリング Bayesian structure learning and sampling of Bayesian networks with the R package BiDAG ( http://arxiv.org/abs/2105.00488v1 ) ライセンス: CC BY 4.0 | Polina Suter and Jack Kuipers and Giusi Moffa and Niko Beerenwinkel | (参考訳) RパッケージBiDAGはマルコフ連鎖モンテカルロ法(MCMC)を実装し、ベイズネットワークの構造学習とサンプリングを行う。
このパッケージには、最大 a posteriori (map) グラフを検索し、データが与えられた後続分布からグラフをサンプリングするツールが含まれている。
構造学習への新しいハイブリッドアプローチは、大きなグラフで推論を可能にする。
最初のステップでは,PCアルゴリズムを用いて,あるいは事前知識に基づいて,検索スペースの削減を定義する。
2番目のステップでは、反復順序MCMCスキームが制限された探索空間内で最適化し、MAPグラフを推定する。
後部分布からのサンプリングは順序または分割MCMCを用いて行う。
モデルとアルゴリズムは離散データと連続データの両方を扱うことができる。
BiDAGパッケージはまた、動的ベイズネットワークの構造学習とサンプリングのためのMCMCスキームの実装も提供する。 The R package BiDAG implements Markov chain Monte Carlo (MCMC) methods for structure learning and sampling of Bayesian networks. The package includes tools to search for a maximum a posteriori (MAP) graph and to sample graphs from the posterior distribution given the data. A new hybrid approach to structure learning enables inference in large graphs. In the first step, we define a reduced search space by means of the PC algorithm or based on prior knowledge. In the second step, an iterative order MCMC scheme proceeds to optimize within the restricted search space and estimate the MAP graph. Sampling from the posterior distribution is implemented using either order or partition MCMC. The models and algorithms can handle both discrete and continuous data. The BiDAG package also provides an implementation of MCMC schemes for structure learning and sampling of dynamic Bayesian networks. | 翻訳日:2021-05-05 01:58:18 公開日:2021-05-02 |
# (参考訳) 深層強化学習のためのCurious ExplorationとReturn-based Memory Restoration Curious Exploration and Return-based Memory Restoration for Deep Reinforcement Learning ( http://arxiv.org/abs/2105.00499v1 ) ライセンス: CC BY 4.0 | Saeed Tafazzol, Erfan Fathi, Mahdi Rezaei, Ehsan Asali | (参考訳) 報酬工学と報酬関数の設計は、複雑な環境でエージェントを訓練するための非自明なタスクである。
さらに、不正確な報酬関数は、効率的で最適化された行動に遠く及ばない偏った行動につながる可能性がある。
本稿では,ハーフフィールドオフセンス領域における2連成功/障害報酬関数を用いた目標達成のための単一エージェントのトレーニングに焦点をあてる。
この研究の主な利点として、このエージェントは環境についての仮定がなく、これは強化学習エージェントの元々の定式化にのみ従うことを意味する。
このような報酬関数を使用する主な課題は、ポジティブな報酬信号のスパース性が高いことである。
この問題に対処するために、我々は単純な予測に基づく探索戦略(Curious Exploration)と、より貴重な記憶を記憶する傾向にあるReturn-based Memory Restoration(RMR)技術を使用する。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
実験の結果,ベースライン法を含む最近のソリューションの多くは,複雑なサッカー領域において学習や実行に失敗していることがわかった。
しかし,提案手法は最適動作に容易に収束することができる。
トレーニングされたエージェントのパフォーマンスを示すビデオは、http://bit.ly/hfo_binary_rewardで閲覧できます。 Reward engineering and designing an incentive reward function are non-trivial tasks to train agents in complex environments. Furthermore, an inaccurate reward function may lead to a biased behaviour which is far from an efficient and optimised behaviour. In this paper, we focus on training a single agent to score goals with binary success/failure reward function in Half Field Offense domain. As the major advantage of this research, the agent has no presumption about the environment which means it only follows the original formulation of reinforcement learning agents. The main challenge of using such a reward function is the high sparsity of positive reward signals. To address this problem, we use a simple prediction-based exploration strategy (called Curious Exploration) along with a Return-based Memory Restoration (RMR) technique which tends to remember more valuable memories. The proposed method can be utilized to train agents in environments with fairly complex state and action spaces. Our experimental results show that many recent solutions including our baseline method fail to learn and perform in complex soccer domain. However, the proposed method can converge easily to the nearly optimal behaviour. The video presenting the performance of our trained agent is available at http://bit.ly/HFO_Binary_Reward. | 翻訳日:2021-05-05 01:36:35 公開日:2021-05-02 |
# (参考訳) ネットワーク型パブリックグッズゲームにおけるアルトリズムデザイン Altruism Design in Networked Public Goods Games ( http://arxiv.org/abs/2105.00505v1 ) ライセンス: CC BY 4.0 | Sixie Yu, David Kempe, Yevgeniy Vorobeychik | (参考訳) 多くの集団意思決定設定は、個人の利害から行動し、共通の利益を促進するエージェント間の戦略的緊張を特徴としている。
パンデミックの間、マスクを着用したり、投票したり、ワクチンを接種したりする。
ネットワーク化された公共財ゲームはこの緊張関係を捉え、ネットワークはエージェント間の戦略的相互依存をコーディングする。
公共グッズゲームの伝統的なモデルは、利他的な動機がエージェントの判断に重要な役割を果たすことが長年知られているにもかかわらず、個人の利害のみを動機とする。
本稿では,エージェントが他者の福祉から得ていると考えられる利益を,利他的グラフによって媒介するユーティリティ関数に用語を付加することにより,利他的動機を考慮し,公共財ゲームの新たな拡張を提案する。
最も重要なことは、利他主義は不変ではなく、むしろ共通の利益を促進するためのレバーであると考えることである。
我々の中心的なアルゴリズム問題は、望まれる公開財ゲーム投資プロファイルを達成するために、利他主義ネットワークを変更することの計算複雑性に関するものである。
まず,主幹が利他的ネットワークを微妙に修正できる場合,線形計画を用いてこの問題を解決できることを示す。
この問題は、校長の行動が全てまたは全くない場合、一般には難題となるが、いくつかの扱いやすい特別な場合を示す。 Many collective decision-making settings feature a strategic tension between agents acting out of individual self-interest and promoting a common good. These include wearing face masks during a pandemic, voting, and vaccination. Networked public goods games capture this tension, with networks encoding strategic interdependence among agents. Conventional models of public goods games posit solely individual self-interest as a motivation, even though altruistic motivations have long been known to play a significant role in agents' decisions. We introduce a novel extension of public goods games to account for altruistic motivations by adding a term in the utility function that incorporates the perceived benefits an agent obtains from the welfare of others, mediated by an altruism graph. Most importantly, we view altruism not as immutable, but rather as a lever for promoting the common good. Our central algorithmic question then revolves around the computational complexity of modifying the altruism network to achieve desired public goods game investment profiles. We first show that the problem can be solved using linear programming when a principal can fractionally modify the altruism network. While the problem becomes in general intractable if the principal's actions are all-or-nothing, we exhibit several tractable special cases. | 翻訳日:2021-05-05 01:27:46 公開日:2021-05-02 |
# (参考訳) 逆プリトレーニングトランスによる擬似優先項目による逐次推薦の強化 Augmenting Sequential Recommendation with Pseudo-Prior Items via Reversely Pre-training Transformer ( http://arxiv.org/abs/2105.00522v1 ) ライセンス: CC BY 4.0 | Zhiwei Liu, Ziwei Fan, Yu Wang, Philip S. Yu | (参考訳) 逐次レコメンデーションはアイテムシーケンスを時系列的にモデル化することで進化するパターンを特徴付ける。
重要なターゲットはアイテム遷移の相関を捉えることである。
トランスフォーマーの最近の発展は、コミュニティに効果的なシーケンスエンコーダである \textit{e.g.} SASRec と BERT4Rec を設計させるきっかけとなった。
しかし、これらのトランスフォーマーベースのモデルは、短いシーケンスでは性能の悪い \textit{i,e} というコールドスタート問題に苦しむことを観察する。
そこで本論文では,元の逐次相関を保ちつつ,短い系列を補うことを提案する。
本稿では,textbf{A}ugmenting \textbf{S}equential \textbf{Re}commendation with \textbf{P}seudo-prior items~(ASReP)を紹介する。
まず、逆方向のシーケンスを持つ変圧器を事前訓練し、先行項目を予測する。
そして、この変換器を用いて、短いシーケンスの開始時に製造された歴史的アイテムを生成する。
最後に、次の項目を予測するために、これらの拡張シーケンスを使用して変換器を微調整する。
実世界の2つのデータセットの実験は、ASRePの有効性を検証する。
コードは \url{https://github.com/dygrec/asrep} で入手できる。 Sequential Recommendation characterizes the evolving patterns by modeling item sequences chronologically. The essential target of it is to capture the item transition correlations. The recent developments of transformer inspire the community to design effective sequence encoders, \textit{e.g.,} SASRec and BERT4Rec. However, we observe that these transformer-based models suffer from the cold-start issue, \textit{i.e.,} performing poorly for short sequences. Therefore, we propose to augment short sequences while still preserving original sequential correlations. We introduce a new framework for \textbf{A}ugmenting \textbf{S}equential \textbf{Re}commendation with \textbf{P}seudo-prior items~(ASReP). We firstly pre-train a transformer with sequences in a reverse direction to predict prior items. Then, we use this transformer to generate fabricated historical items at the beginning of short sequences. Finally, we fine-tune the transformer using these augmented sequences from the time order to predict the next item. Experiments on two real-world datasets verify the effectiveness of ASReP. The code is available on \url{https://github.com/DyGRec/ASReP}. | 翻訳日:2021-05-05 01:05:18 公開日:2021-05-02 |
# (参考訳) 部分観測可能な環境におけるアクティブな支援計画 Planning for Proactive Assistance in Environments with Partial Observability ( http://arxiv.org/abs/2105.00525v1 ) ライセンス: CC BY 4.0 | Anagha Kulkarni, Siddharth Srivastava and Subbarao Kambhampati | (参考訳) 本稿では,共通の環境下で共存する工場フロアのような環境において,人間に積極的なタスク支援を提供するAIエージェントの動作を合成する問題に対処する。
要求された援助と異なり、人間は積極的援助を期待していないため、エージェントは、人がその援助が彼女のタスクにどう影響するかを知ることが不可欠である。
これは、人間がAIエージェントの能力について完全な知識を持っていないり、アクティビティの完全な可観測性を持っていない場合、難しくなります。
したがって、我々の \textit{proactive assistant} は以下の3つの原則によって導かれる: \textbf{(1)} その活動は人間の目標に対するコストを減少させる; \textbf{(2)} 人間は彼女のコストの潜在的な削減を認識することができる; \textbf{(3)} その活動は彼女の目標を達成するための全体のコスト(時間/資源)を最適化する。
経験的評価とユーザスタディを通して,本手法の有用性を実証する。 This paper addresses the problem of synthesizing the behavior of an AI agent that provides proactive task assistance to a human in settings like factory floors where they may coexist in a common environment. Unlike in the case of requested assistance, the human may not be expecting proactive assistance and hence it is crucial for the agent to ensure that the human is aware of how the assistance affects her task. This becomes harder when there is a possibility that the human may neither have full knowledge of the AI agent's capabilities nor have full observability of its activities. Therefore, our \textit{proactive assistant} is guided by the following three principles: \textbf{(1)} its activity decreases the human's cost towards her goal; \textbf{(2)} the human is able to recognize the potential reduction in her cost; \textbf{(3)} its activity optimizes the human's overall cost (time/resources) of achieving her goal. Through empirical evaluation and user studies, we demonstrate the usefulness of our approach. | 翻訳日:2021-05-05 00:55:36 公開日:2021-05-02 |
# (参考訳) CDRに基づく軌道:ピンポンハンドオーバのフィルタリング CDR Based Trajectories: Tentative for Filtering Ping-pong Handover ( http://arxiv.org/abs/2105.00526v1 ) ライセンス: CC BY 4.0 | Joonas L\~omps, Artjom Lind, Amnir Hadaci | (参考訳) コールディテール・レコード(cdr)とカバレッジエリアのロケーションが組み合わさって、オペレーターは顧客の位置や移動に関する驚くほどの量の情報を提供する。
アンテナカバー領域の非静的かつ重なり合う性質のため、ハンドオーバルールにより、地理的に近接した携帯電話が異なるアンテナに接続される状況が一般的である。
これにより,CDRデータから抽出した軌跡のピンポンハンドオーバ現象が,移動パターンの理解において誤解を招く可能性がある。
正確な軌道を再構築するには、データセットに現れるハンドオーバの数を減らす必要がある。
本文は,CDRに基づく軌道からピンポンハンドオーバをフィルタリングする新しい手法を提案する。
主に,CDRデータから抽出した被覆領域と再構成軌道の異なる特徴とパラメータを活かしたアンカーモデルに基づく。
この手法を用いることで,トラジェクタのピンポンハンドオーバノイズを著しく低減できるため,顧客の移動パターンをより正確に再構成できる。 Call Detail Records (CDRs) coupled with the coverage area locations provide the operator with an incredible amount of information on its customers' whereabouts and movement. Due to the non-static and overlapping nature of the antenna coverage area there commonly exist situations where cellphones geographically close to each other can be connected to different antennas due to handover rule - the operator hands over a certain cellphone to another antenna to spread the load between antennas. Hence, this aspect introduces a ping-pong handover phenomena in the trajectories extracted from the CDR data which can be misleading in understanding the mobility pattern. To reconstruct accurate trajectories it is a must to reduce the number of those handovers appearing in the dataset. This letter presents a novel approach for filtering ping-pong handovers from CDR based trajectories. Primarily, the approach is based on anchors model utilizing different features and parameters extracted from the coverage areas and reconstructed trajectories mined from the CDR data. Using this methodology we can significantly reduce the ping-pong handover noise in the trajectories, which gives a more accurate reconstruction of the customers' movement pattern. | 翻訳日:2021-05-05 00:42:22 公開日:2021-05-02 |
# (参考訳) IoTセンサにおける睡眠時無呼吸検出のための1D-CNNに基づくディープラーニング技術 A 1D-CNN Based Deep Learning Technique for Sleep Apnea Detection in IoT Sensors ( http://arxiv.org/abs/2105.00528v1 ) ライセンス: CC BY 4.0 | Arlene John, Barry Cardiff, and Deepu John | (参考訳) IoT(Internet of Things)による健康モニタリングのためのウェアラブルセンサーは、個人医療のコスト削減と生活の質向上に広く利用されている。
呼吸の異常な減少または停止を特徴とする睡眠時無呼吸症候群は、個人の睡眠の質に大きな影響を及ぼす。
本稿では,ウェアラブルデバイスから取得した心電図(ECG)信号から呼吸時無呼吸検出のための新しい手法を提案する。
1次元畳み込みニューラルネットワークを用いて睡眠時無呼吸イベントの特徴抽出と検出を行う。
提案手法は99.56%の精度と96.05%の感度を示す。
このモデルはいくつかの低分解能アパネ検出法より優れる。
提案するモデルの複雑さを解析する。
また,ウェアラブルIoTデバイスにおける資源要求を低減するため,モデルプルーニングとバイナライゼーションの実現可能性も分析した。
80\%の散布モデルでは97.34%の精度と86.48%の感度を示した。
双対化モデルは精度75.59%、感度63.23%であった。
また, 患者固有の要求に適合する既存モデルの再訓練の可能性を分析するため, 低複雑性患者固有モデルの性能も検討した。
患者固有のモデルは平均97.79%、感度92.23%であった。
この作業のソースコードは公開されています。 Internet of Things (IoT) enabled wearable sensors for health monitoring are widely used to reduce the cost of personal healthcare and improve quality of life. The sleep apnea-hypopnea syndrome, characterized by the abnormal reduction or pause in breathing, greatly affects the quality of sleep of an individual. This paper introduces a novel method for apnea detection (pause in breathing) from electrocardiogram (ECG) signals obtained from wearable devices. The novelty stems from the high resolution of apnea detection on a second-by-second basis, and this is achieved using a 1-dimensional convolutional neural network for feature extraction and detection of sleep apnea events. The proposed method exhibits an accuracy of 99.56% and a sensitivity of 96.05%. This model outperforms several lower resolution state-of-the-art apnea detection methods. The complexity of the proposed model is analyzed. We also analyze the feasibility of model pruning and binarization to reduce the resource requirements on a wearable IoT device. The pruned model with 80\% sparsity exhibited an accuracy of 97.34% and a sensitivity of 86.48%. The binarized model exhibited an accuracy of 75.59% and sensitivity of 63.23%. The performance of low complexity patient-specific models derived from the generic model is also studied to analyze the feasibility of retraining existing models to fit patient-specific requirements. The patient-specific models on average exhibited an accuracy of 97.79% and sensitivity of 92.23%. The source code for this work is made publicly available. | 翻訳日:2021-05-05 00:35:11 公開日:2021-05-02 |
# (参考訳) 構造的・非構造的プルーニングによるデータ不均一性下での個人化フェデレーション学習 Personalized Federated Learning by Structured and Unstructured Pruning under Data Heterogeneity ( http://arxiv.org/abs/2105.00562v1 ) ライセンス: CC BY 4.0 | Saeed Vahidian and Mahdi Morafah and Bill Lin | (参考訳) flの伝統的なアプローチは、中央サーバのオーケストレーションの下で多くのクライアントの助けを借りて、単一のグローバルモデルを協調的に学習しようとするものである。
しかし、単一のグローバルモデルを学ぶことは、データの不均一性の下でflに参加するすべてのクライアントにとってうまくいかないかもしれない。
したがって,グローバルモデルのパーソナライズは,統計的不均一性やデータの非IID分布に伴う課題を扱う上で重要である。
従来の作業とは異なり、この作業では、クライアントレベルの目的からパーソナライズされたモデルを得るための新しいアプローチを提案する。
これにより、中央サーバのデータやモデルトレーニングのソースに留まらず、統計的に異質な状況下であっても、すべてのクライアントがフェデレーションに参加するモチベーションが向上する。
このパーソナライゼーションを実現するために,ハイブリッド・プルーニング(構造化および非構造化プルーニングの組み合わせ)と非構造化プルーニングを適用し,クライアント毎に小さなサブネットワークを見つける。
異なるベンチマークで様々な実験を行い、類似したデータ(ラベル)を持つクライアントが同様のパラメータを共有するのを観察した。
各クライアントのサブネットワークを見つけることで... The traditional approach in FL tries to learn a single global model collaboratively with the help of many clients under the orchestration of a central server. However, learning a single global model might not work well for all clients participating in the FL under data heterogeneity. Therefore, the personalization of the global model becomes crucial in handling the challenges that arise with statistical heterogeneity and the non-IID distribution of data. Unlike prior works, in this work we propose a new approach for obtaining a personalized model from a client-level objective. This further motivates all clients to participate in federation even under statistical heterogeneity in order to improve their performance, instead of merely being a source of data and model training for the central server. To realize this personalization, we leverage finding a small subnetwork for each client by applying hybrid pruning (combination of structured and unstructured pruning), and unstructured pruning. Through a range of experiments on different benchmarks, we observed that the clients with similar data (labels) share similar personal parameters. By finding a subnetwork for each client ... | 翻訳日:2021-05-05 00:26:48 公開日:2021-05-02 |
# (参考訳) 遅延強化タスクのためのInferNet:時間的クレジット割り当て問題に対処する InferNet for Delayed Reinforcement Tasks: Addressing the Temporal Credit Assignment Problem ( http://arxiv.org/abs/2105.00568v1 ) ライセンス: CC BY-SA 4.0 | Markel Sanz Ausin, Hamoon Azizsoltani, Song Ju, Yeo Jin Kim, Min Chi | (参考訳) 一時的信用割り当て問題(CAP)は、AIにおけるよく知られた課題である。
強化学習(Reinforcement Learning, RL)、特にDeep RLは、即時報酬が利用可能であればうまく機能するが、遅延報酬のみが利用可能である場合や、報酬関数がうるさい場合は失敗することがある。
そこで本研究では,遅延報酬から即時報酬を推測するために明示的に学習するニューラルネットワークに基づくアルゴリズムinfernetにcapを委譲することを提案する。
InferNetの有効性は、2つのオンラインRLタスク(GridWorldと40のAtariゲーム)と2つのオフラインRLタスク(GridWorldと実生活のSepsis処理タスク)で評価された。
すべてのタスクにおいて、InferNetの推論された報酬の有効性は、2つの設定で即時と遅延した報酬と比較される。
以上の結果から,InferNetの有効性は,従来のRLシミュレーション環境から実世界のRL問題,オンラインおよびオフライン学習まで,幅広いRLタスクにおいて,時間的CAPを解くための効果的なアドオン機構であることがわかった。 The temporal Credit Assignment Problem (CAP) is a well-known and challenging task in AI. While Reinforcement Learning (RL), especially Deep RL, works well when immediate rewards are available, it can fail when only delayed rewards are available or when the reward function is noisy. In this work, we propose delegating the CAP to a Neural Network-based algorithm named InferNet that explicitly learns to infer the immediate rewards from the delayed rewards. The effectiveness of InferNet was evaluated on two online RL tasks: a simple GridWorld and 40 Atari games; and two offline RL tasks: GridWorld and a real-life Sepsis treatment task. For all tasks, the effectiveness of using the InferNet inferred rewards is compared against the immediate and the delayed rewards with two settings: with noisy rewards and without noise. Overall, our results show that the effectiveness of InferNet is robust against noisy reward functions and is an effective add-on mechanism for solving temporal CAP in a wide range of RL tasks, from classic RL simulation environments to a real-world RL problem and for both online and offline learning. | 翻訳日:2021-05-05 00:12:14 公開日:2021-05-02 |
# (参考訳) 多言語マスキング言語モデリングのための大規模トランスフォーマー Larger-Scale Transformers for Multilingual Masked Language Modeling ( http://arxiv.org/abs/2105.00572v1 ) ライセンス: CC BY 4.0 | Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau | (参考訳) 近年,言語間理解のための言語間モデルの事前学習の有効性が実証されている。
本研究では, 3.5B と 10.7B のパラメータを持つ多言語マスキング言語モデルについて述べる。
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
このことは、事前訓練されたモデルにより、高リソース言語の性能と低リソース言語の性能を両立させることができることを示唆している。
コードとモデルを公開しています。 Recent work has demonstrated the effectiveness of cross-lingual language model pretraining for cross-lingual understanding. In this study, we present the results of two larger multilingual masked language models, with 3.5B and 10.7B parameters. Our two new models dubbed XLM-R XL and XLM-R XXL outperform XLM-R by 1.8% and 2.4% average accuracy on XNLI. Our model also outperforms the RoBERTa-Large model on several English tasks of the GLUE benchmark by 0.3% on average while handling 99 more languages. This suggests pretrained models with larger capacity may obtain both strong performance on high-resource languages while greatly improving low-resource languages. We make our code and models publicly available. | 翻訳日:2021-05-04 23:58:31 公開日:2021-05-02 |
# (参考訳) アイデアマイニングにCRISP-DMを適用する:テキストデータセットを用いたアイデア生成のためのデータマイニングプロセス Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating Ideas Using a Textual Dataset ( http://arxiv.org/abs/2105.00574v1 ) ライセンス: CC BY 4.0 | W. Y. Ayele | (参考訳) データマイニングプロジェクトマネージャは、標準的なデータマイニングプロセスモデルを使用することでメリットを享受できる。
データマイニング(CRISP-DM)におけるデファクトや最も一般的なクロスインダストリー・スタンダード・プロセスモデルなどの標準的なプロセスモデルを使用することの利点は、コストと時間を削減できる。
また、標準モデルは知識伝達を促進し、ベストプラクティスを再利用し、知識要件を最小化する。
一方で、出版物、特許、ソーシャルメディアデータ、様々な形式の文書など、成長を続けるテキストデータの可能性を解き放つためには、デジタルイノベーションがますます必要とされている。
さらに、最先端の機械学習ツールや技術の導入により、アイデアの活用が可能になる。
新しく有用なアイデアを生み出すための構造化されていないテキストデータの処理は、アイデアマイニング(idea mining)と呼ばれる。
アイデアマイニングに関する既存の文献は、標準的なデータマイニングプロセスモデルの利用を単に見落としているに過ぎない。
そこで本研究では,アイデアマイニング(CRISP-IM)のための再利用可能なモデルであるCRISP-DMを提案する。
CRISP-IMの設計と開発は、設計科学のアプローチに従って行われる。
CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。
適応されたCRISP-IMは、学術文献データセットや時間的に組織された特許やその他のドメインのテキストデータセットを使用して、アイデアを導き出すトレンドを特定するプロセスのガイドに使用することができる。
CRISP-IMのポスト評価は今後の研究に残されている。 Data mining project managers can benefit from using standard data mining process models. The benefits of using standard process models for data mining, such as the de facto and the most popular, Cross-Industry-Standard-Process model for Data Mining (CRISP-DM) are reduced cost and time. Also, standard models facilitate knowledge transfer, reuse of best practices, and minimize knowledge requirements. On the other hand, to unlock the potential of ever-growing textual data such as publications, patents, social media data, and documents of various forms, digital innovation is increasingly needed. Furthermore, the introduction of cutting-edge machine learning tools and techniques enable the elicitation of ideas. The processing of unstructured textual data to generate new and useful ideas is referred to as idea mining. Existing literature about idea mining merely overlooks the utilization of standard data mining process models. Therefore, the purpose of this paper is to propose a reusable model to generate ideas, CRISP-DM, for Idea Mining (CRISP-IM). The design and development of the CRISP-IM are done following the design science approach. The CRISP-IM facilitates idea generation, through the use of Dynamic Topic Modeling (DTM), unsupervised machine learning, and subsequent statistical analysis on a dataset of scholarly articles. The adapted CRISP-IM can be used to guide the process of identifying trends using scholarly literature datasets or temporally organized patent or any other textual dataset of any domain to elicit ideas. The ex-post evaluation of the CRISP-IM is left for future study. | 翻訳日:2021-05-04 23:51:13 公開日:2021-05-02 |
# (参考訳) backdoorl: 競争強化学習に対するバックドア攻撃 BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning ( http://arxiv.org/abs/2105.00579v1 ) ライセンス: CC BY 4.0 | Lun Wang, Zaynah Javed, Xian Wu, Wenbo Guo, Xinyu Xing, Dawn Song | (参考訳) 近年,深層強化学習(rl)システムにおけるバックドア攻撃の可能性が確認されている。
しかし、既存の攻撃ではエージェントの観察を任意に修正し、アプリケーションの範囲をAtariゲームのような単純なRLシステムに制限する必要がある。
本稿では,複数のエージェントを含む複雑なRLシステムにバックドア攻撃を移行し,エージェントの観察を直接操作することなくバックドアを起動する可能性を探る。
概念実証として, 敵エージェントが, 2人の対戦型rlシステムにおいて, 相手エージェントのバックドアを自力で起動できることを実証する。
4つの競争環境におけるBACKDOORLの試作と評価を行った。
その結果, バックドアが作動すると, 有効でない場合と比較して, 勝利率は17%から37%に低下することがわかった。 Recent research has confirmed the feasibility of backdoor attacks in deep reinforcement learning (RL) systems. However, the existing attacks require the ability to arbitrarily modify an agent's observation, constraining the application scope to simple RL systems such as Atari games. In this paper, we migrate backdoor attacks to more complex RL systems involving multiple agents and explore the possibility of triggering the backdoor without directly manipulating the agent's observation. As a proof of concept, we demonstrate that an adversary agent can trigger the backdoor of the victim agent with its own action in two-player competitive RL systems. We prototype and evaluate BACKDOORL in four competitive environments. The results show that when the backdoor is activated, the winning rate of the victim drops by 17% to 37% compared to when not activated. | 翻訳日:2021-05-04 23:33:39 公開日:2021-05-02 |
# (参考訳) 遠隔操作支援のための視覚誘導潜伏動作の学習 Learning Visually Guided Latent Actions for Assistive Teleoperation ( http://arxiv.org/abs/2105.00580v1 ) ライセンス: CC BY 4.0 | Siddharth Karamcheti, Albert J. Zhai, Dylan P. Losey, Dorsa Sadigh | (参考訳) 人間(特に身体障害者)は、高次元の器用なロボットを制御することが難しい。
先行研究は、人間の低次元入力(例えばジョイスティック)を補助遠隔操作のための複雑な高次元ロボットアクションにマッピングする埋め込み関数の学習を探求するが、中心となる問題は、利用可能な低次元入力よりも多くの高次元アクションが存在することである。
正しい動作を抽出し、人間のコントローラーを最大限に支援するには、ロボットは、例えば、コーヒーカップと相互作用する際にジョイスティックを押下することは、ナイフと相互作用する場合とは異なる動作を示す。
本研究では,視覚入力への潜在埋め込みを条件とした補助ロボットを開発した。
ビジュアルエンコーダのスペクトルを探索し、少量の安価で簡単に収集可能な構造化データに事前訓練されたオブジェクト検出器を組み込むことで、(現在の状況を認識し、)新しいオブジェクトやタスクに制御埋め込みを一般化する。
高次元の物理ロボットアームを用いたユーザスタディでは、参加者はこのアプローチを利用して見えない物体で新しいタスクを実行する。
以上の結果から,構造化された視覚表現は少ないショット性能を向上し,主観的にユーザにより好まれることが示唆された。 It is challenging for humans -- particularly those living with physical disabilities -- to control high-dimensional, dexterous robots. Prior work explores learning embedding functions that map a human's low-dimensional inputs (e.g., via a joystick) to complex, high-dimensional robot actions for assistive teleoperation; however, a central problem is that there are many more high-dimensional actions than available low-dimensional inputs. To extract the correct action and maximally assist their human controller, robots must reason over their context: for example, pressing a joystick down when interacting with a coffee cup indicates a different action than when interacting with knife. In this work, we develop assistive robots that condition their latent embeddings on visual inputs. We explore a spectrum of visual encoders and show that incorporating object detectors pretrained on small amounts of cheap, easy-to-collect structured data enables i) accurately and robustly recognizing the current context and ii) generalizing control embeddings to new objects and tasks. In user studies with a high-dimensional physical robot arm, participants leverage this approach to perform new tasks with unseen objects. Our results indicate that structured visual representations improve few-shot performance and are subjectively preferred by users. | 翻訳日:2021-05-04 23:22:09 公開日:2021-05-02 |
# 自己指導型学習における特徴劣化について On Feature Decorrelation in Self-Supervised Learning ( http://arxiv.org/abs/2105.00470v1 ) ライセンス: Link先を確認 | Tianyu Hua, Wenxiao Wang, Zihui Xue, Yue Wang, Sucheng Ren, Hang Zhao | (参考訳) 自己教師あり表現学習(self-supervised representation learning)において、最先端のアプローチのほとんどを支える共通のアイデアは、事前定義された拡張に対して表現の堅牢性を強化することである。
このアイデアの潜在的な問題は、完全に崩壊した解(すなわち、一定の特徴)の存在であり、通常は慎重に選択された実装の詳細によって暗黙的に避けられる。
本研究では,最近のアプローチから最も一般的なコンポーネントを含む比較的簡潔なフレームワークについて検討する。
完全崩壊の存在を検証し、通常見過ごされる別の到達可能な崩壊パターン、すなわち次元崩壊を発見する。
我々は、次元の崩壊を軸間の強い相関と結び付け、そのような関係を特徴デコリレーション(すなわち共分散行列の標準化)の強い動機とみなす。
非教師付き計量としての相関の能力と特徴的デコレーションによる利得を実証的に検証し、この洞察の重要性と可能性を明らかにする。 In self-supervised representation learning, a common idea behind most of the state-of-the-art approaches is to enforce the robustness of the representations to predefined augmentations. A potential issue of this idea is the existence of completely collapsed solutions (i.e., constant features), which are typically avoided implicitly by carefully chosen implementation details. In this work, we study a relatively concise framework containing the most common components from recent approaches. We verify the existence of complete collapse and discover another reachable collapse pattern that is usually overlooked, namely dimensional collapse. We connect dimensional collapse with strong correlations between axes and consider such connection as a strong motivation for feature decorrelation (i.e., standardizing the covariance matrix). The capability of correlation as an unsupervised metric and the gains from feature decorrelation are verified empirically to highlight the importance and the potential of this insight. | 翻訳日:2021-05-04 14:23:52 公開日:2021-05-02 |
# MathBERT:数学式理解のための事前学習モデル MathBERT: A Pre-Trained Model for Mathematical Formula Understanding ( http://arxiv.org/abs/2105.00377v1 ) ライセンス: Link先を確認 | Shuai Peng, Ke Yuan, Liangcai Gao, Zhi Tang | (参考訳) bertのような大規模な事前学習されたモデルは、様々な自然言語処理(nlp)タスクで大きな成功を収めていますが、数学関連のタスクにそれらを適用することは依然として課題です。
現在の事前学習モデルは、公式とその文脈の間の構造的特徴と意味的対応を無視している。
これらの問題に対処するため,数式とそれに対応する文脈を併用した新しい事前学習モデルである「textbf{MathBERT}」を提案する。
また、式の意味レベルの構造的特徴をさらに捉えるために、演算木(opt)から抽出されたマスク式サブ構造(式の意味的構造表現)を予測するために、新しい事前学習タスクが設計されている。
我々は,数学情報検索,公式トピック分類,公式見出し生成など,3つの下流タスクについて様々な実験を行い,MathBERTの性能を評価する。
実験の結果、MathBERTはこれらの3つのタスクで既存のメソッドよりも大幅に優れていた。
さらに, この事前学習モデルは, 式の意味レベル構造情報を効果的に捉えることを定性的に示す。
我々の知る限りでは、MathBERTは数学式理解のための最初の事前学習モデルである。 Large-scale pre-trained models like BERT, have obtained a great success in various Natural Language Processing (NLP) tasks, while it is still a challenge to adapt them to the math-related tasks. Current pre-trained models neglect the structural features and the semantic correspondence between formula and its context. To address these issues, we propose a novel pre-trained model, namely \textbf{MathBERT}, which is jointly trained with mathematical formulas and their corresponding contexts. In addition, in order to further capture the semantic-level structural features of formulas, a new pre-training task is designed to predict the masked formula substructures extracted from the Operator Tree (OPT), which is the semantic structural representation of formulas. We conduct various experiments on three downstream tasks to evaluate the performance of MathBERT, including mathematical information retrieval, formula topic classification and formula headline generation. Experimental results demonstrate that MathBERT significantly outperforms existing methods on all those three tasks. Moreover, we qualitatively show that this pre-trained model effectively captures the semantic-level structural information of formulas. To the best of our knowledge, MathBERT is the first pre-trained model for mathematical formula understanding. | 翻訳日:2021-05-04 14:22:33 公開日:2021-05-02 |
# ディープフェイク検出のためのAIモデルの公正性の検討 An Examination of Fairness of AI Models for Deepfake Detection ( http://arxiv.org/abs/2105.00558v1 ) ライセンス: Link先を確認 | Loc Trinh, Yan Liu | (参考訳) 近年の研究では、人種や性別などの保護されたクラスに基づいてディープラーニングモデルを判別できることが示されている。
本研究では,保護サブグループ間のディープフェイクデータセットおよび検出モデルにおけるバイアスを評価する。
人種と性別のバランスの取れた顔データセットを用いて、3つの人気のディープフェイク検出器を調べ、人種間での予測性能に大きな差異を見出した。
より詳しく見ると、広く使われているfaceforensics++データセットは、圧倒的に白人の被験者で構成されており、その大半は女性白人である。
ディープフェイクの人種分布を調査したところ、ポジティブなトレーニング信号としてディープフェイクを作るのに使われた方法は、人の顔が別の人種や性別の別の人に置き換わるときに、"不規則"な顔を生み出す傾向があることが判明した。
これにより、検出器は前景の顔と偽物の相関関係を学習する。
さらに、Face X-RaysのBlended Image (BI)データセットで検出器を訓練すると、これらの検出器は特定の人種的サブグループ(主に女性アジア人)に対して体系的に識別される。 Recent studies have demonstrated that deep learning models can discriminate based on protected classes like race and gender. In this work, we evaluate bias present in deepfake datasets and detection models across protected subgroups. Using facial datasets balanced by race and gender, we examine three popular deepfake detectors and find large disparities in predictive performances across races, with up to 10.7% difference in error rate between subgroups. A closer look reveals that the widely used FaceForensics++ dataset is overwhelmingly composed of Caucasian subjects, with the majority being female Caucasians. Our investigation of the racial distribution of deepfakes reveals that the methods used to create deepfakes as positive training signals tend to produce "irregular" faces - when a person's face is swapped onto another person of a different race or gender. This causes detectors to learn spurious correlations between the foreground faces and fakeness. Moreover, when detectors are trained with the Blended Image (BI) dataset from Face X-Rays, we find that those detectors develop systematic discrimination towards certain racial subgroups, primarily female Asians. | 翻訳日:2021-05-04 14:22:14 公開日:2021-05-02 |
# インテリジェントな会話型Android ERICAによる聞き取りと求人面接 Intelligent Conversational Android ERICA Applied to Attentive Listening and Job Interview ( http://arxiv.org/abs/2105.00403v1 ) ライセンス: Link先を確認 | Tatsuya Kawahara, Koji Inoue, Divesh Lala | (参考訳) スマートフォンアシスタントとスマートスピーカーにおける音声対話システム(SDS)の成功に続いて、多数のコミュニケーションロボットが開発・商業化されている。
ヒューマンマシンインタフェースとして設計された従来のSDSと比較して,ロボットとのインタラクションは,人間同型性や身体的存在のため,人間と会話するよりは近いと考えられる。
対話の目的や課題は情報検索ではなく、会話そのものである。
人間レベルの「長く深い」会話を実現するために、我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
自発的かつ漸進的な複数発話を可能にするため,RTP(transition-relevance place)予測に基づいて頑健なターンテイクモデルを実装し,IPUに基づく予測ではなく,時間フレームの予測に基づいて様々なバックチャネルを生成する。
我々は、部分的な繰り返しと焦点単語に対する質問と評価応答を併用したオープンドメイン注意聴取システムを実現した。
40人の高齢者が会話を分解することなく5~7分間の会話を行った。
また、WOZ設定と比較された。
また,基本的な質問のセットと,質問の動的生成を伴う面接システムも実現している。
学生でも評価され、有望な結果を示している。 Following the success of spoken dialogue systems (SDS) in smartphone assistants and smart speakers, a number of communicative robots are developed and commercialized. Compared with the conventional SDSs designed as a human-machine interface, interaction with robots is expected to be in a closer manner to talking to a human because of the anthropomorphism and physical presence. The goal or task of dialogue may not be information retrieval, but the conversation itself. In order to realize human-level "long and deep" conversation, we have developed an intelligent conversational android ERICA. We set up several social interaction tasks for ERICA, including attentive listening, job interview, and speed dating. To allow for spontaneous, incremental multiple utterances, a robust turn-taking model is implemented based on TRP (transition-relevance place) prediction, and a variety of backchannels are generated based on time frame-wise prediction instead of IPU-based prediction. We have realized an open-domain attentive listening system with partial repeats and elaborating questions on focus words as well as assessment responses. It has been evaluated with 40 senior people, engaged in conversation of 5-7 minutes without a conversation breakdown. It was also compared against the WOZ setting. We have also realized a job interview system with a set of base questions followed by dynamic generation of elaborating questions. It has also been evaluated with student subjects, showing promising results. | 翻訳日:2021-05-04 14:20:58 公開日:2021-05-02 |
# 3次元全身皮膚テクスチャメッシュにおける色素性皮膚病変の検出と経時的追跡 Detection and Longitudinal Tracking of Pigmented Skin Lesions in 3D Total-Body Skin Textured Meshes ( http://arxiv.org/abs/2105.00374v1 ) ライセンス: Link先を確認 | Mengliu Zhao, Jeremy Kawahara, Sajjad Shamanian, Kumar Abhishek, Priyanka Chandrashekar, Ghassan Hamarneh | (参考訳) 3次元全身皮膚表面スキャンによる皮膚病変の検出と追跡のための自動的アプローチを提案する。
被検体の取得した3Dメッシュは、2Dテクスチャ画像にラップされず、トレーニングされた領域畳み込みニューラルネットワーク(R-CNN)が2Dドメイン内の病変をローカライズする。
これらの検出された皮膚病変を被験者の3d面にマッピングし、複数回の撮影では、メッシュ対間の解剖学的対応と病変間の測地線距離を経時的病変追跡アルゴリズムで活用する。
提案手法を3つのデータソースを用いて評価した。
まず、公共のFAUSTデータセットから人体の3Dメッシュを、さまざまなポーズ、テクスチャ、病変の画像で拡張する。
第2に, ハンドヘルド構造光3Dスキャナーを用いて, 複数の合成皮膚病変を有し, 形状, サイズ, 色が異なるマネキンを画像化した。
最後に、200人の被験者の有色(テキスト)肌を3dスキャンした公開データセットである3dbodytexを用いた。
有色皮膚病変を含むために人間の眼に現れた部位を手作業で注釈し,異なるポーズで撮影された同じ被験者に発生する病変のサブセットを追跡した。
以上の結果から, 訓練されたR-CNNは, ヒトのアノテータと同等の性能で病変を検出することが示唆された。
病変追跡アルゴリズムは,異なるポーズで画像化した被験者に対して,対応する病変のペアを同定する際に平均80%の精度を達成する。
現在,3次元全身皮膚病変の大規模データセットは存在しないため,10個のマネキンメッシュと25,000以上の3DBodyTexマニュアルアノテーションを公開し,全身皮膚病変解析のさらなる研究を期待する。 We present an automated approach to detect and longitudinally track skin lesions on 3D total-body skin surfaces scans. The acquired 3D mesh of the subject is unwrapped to a 2D texture image, where a trained region convolutional neural network (R-CNN) localizes the lesions within the 2D domain. These detected skin lesions are mapped back to the 3D surface of the subject and, for subjects imaged multiple times, the anatomical correspondences among pairs of meshes and the geodesic distances among lesions are leveraged in our longitudinal lesion tracking algorithm. We evaluated the proposed approach using three sources of data. Firstly, we augmented the 3D meshes of human subjects from the public FAUST dataset with a variety of poses, textures, and images of lesions. Secondly, using a handheld structured light 3D scanner, we imaged a mannequin with multiple synthetic skin lesions at selected location and with varying shapes, sizes, and colours. Finally, we used 3DBodyTex, a publicly available dataset composed of 3D scans imaging the colored (textured) skin of 200 human subjects. We manually annotated locations that appeared to the human eye to contain a pigmented skin lesion as well as tracked a subset of lesions occurring on the same subject imaged in different poses. Our results, on test subjects annotated by three human annotators, suggest that the trained R-CNN detects lesions at a similar performance level as the human annotators. Our lesion tracking algorithm achieves an average accuracy of 80% when identifying corresponding pairs of lesions across subjects imaged in different poses. As there currently is no other large-scale publicly available dataset of 3D total-body skin lesions, we publicly release the 10 mannequin meshes and over 25,000 3DBodyTex manual annotations, which we hope will further research on total-body skin lesion analysis. | 翻訳日:2021-05-04 14:18:34 公開日:2021-05-02 |
# 希少欠陥の自動検査:GP-WGANと高速化R-CNNに基づくフレームワーク Automatic Visual Inspection of Rare Defects: A Framework based on GP-WGAN and Enhanced Faster R-CNN ( http://arxiv.org/abs/2105.00447v1 ) ライセンス: Link先を確認 | Masoud Jalayer, Reza Jalayer, Amin Kaboli, Carlotta Orsenigo, Carlo Vercellis | (参考訳) 半導体やファウントリーなどの産業では、視覚検査のプロセスを自動視覚検査(Automatic Visual Inspection, AVI)システムに移行し、コスト、ミス、人間の専門家への依存を減らす傾向にある。
本稿では,AVIシステムのための2段階故障診断フレームワークを提案する。
第1段階では、実サンプルに基づいて新しいサンプルを合成する生成モデルが設計されている。
提案アルゴリズムは,実際のサンプルからオブジェクトを抽出し,ランダムにブレンドし,新しいサンプルを生成し,画像処理の性能を向上させる。
第2段階では、より高速なR-CNN、特徴ピラミッドネットワーク(FPN)、Residual Networkに基づく改良されたディープラーニングアーキテクチャを提案し、拡張データセット上でオブジェクト検出を行う。
アルゴリズムの性能は2つの多クラスデータセットで検証され評価される。
種々の不均衡性について行った実験結果は,提案手法が他の解よりも優れていることを示している。 A current trend in industries such as semiconductors and foundry is to shift their visual inspection processes to Automatic Visual Inspection (AVI) systems, to reduce their costs, mistakes, and dependency on human experts. This paper proposes a two-staged fault diagnosis framework for AVI systems. In the first stage, a generation model is designed to synthesize new samples based on real samples. The proposed augmentation algorithm extracts objects from the real samples and blends them randomly, to generate new samples and enhance the performance of the image processor. In the second stage, an improved deep learning architecture based on Faster R-CNN, Feature Pyramid Network (FPN), and a Residual Network is proposed to perform object detection on the enhanced dataset. The performance of the algorithm is validated and evaluated on two multi-class datasets. The experimental results performed over a range of imbalance severities demonstrate the superiority of the proposed framework compared to other solutions. | 翻訳日:2021-05-04 14:18:04 公開日:2021-05-02 |
# pyBKT: ベイジアン知識追跡モデルのアクセシブルPythonライブラリ pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models ( http://arxiv.org/abs/2105.00385v1 ) ライセンス: Link先を確認 | Anirudhan Badrinath, Frederic Wang, Zachary Pardos | (参考訳) 認知的熟達度推定のモデルであるベイズ知識追跡は、適応学習研究の目玉であり、デプロイされた知的学習システム(ITS)の不可欠な構成要素である。
本稿では,知識追跡モデル研究の簡単な歴史と,文献からのモデル拡張のアクセス性と計算効率のよいライブラリpyBKTを紹介する。
このライブラリは、データ生成、適合、予測、クロスバリデーションルーチンを提供すると同時に、典型的なチューターログデータセットフォーマットを取り込むためのデータヘルパーインターフェイスをシンプルに利用します。
さまざまなデータセットサイズでランタイムを評価し、過去の実装と比較する。
さらに、シミュレーションデータを用いてモデルの健全性チェックを行い、EMパラメータ学習の精度を評価し、実世界のデータを用いて予測を検証し、pyBKTがサポートするモデル変種と、当初導入した論文の結果を比較した。
このライブラリはオープンソースであり、知識のトレースを研究や実践のコミュニティによりアクセスしやすくし、過去のアプローチの複製を容易にすることでこの分野の進歩を促進する目的でオープンライセンスである。 Bayesian Knowledge Tracing, a model used for cognitive mastery estimation, has been a hallmark of adaptive learning research and an integral component of deployed intelligent tutoring systems (ITS). In this paper, we provide a brief history of knowledge tracing model research and introduce pyBKT, an accessible and computationally efficient library of model extensions from the literature. The library provides data generation, fitting, prediction, and cross-validation routines, as well as a simple to use data helper interface to ingest typical tutor log dataset formats. We evaluate the runtime with various dataset sizes and compare to past implementations. Additionally, we conduct sanity checks of the model using experiments with simulated data to evaluate the accuracy of its EM parameter learning and use real-world data to validate its predictions, comparing pyBKT's supported model variants with results from the papers in which they were originally introduced. The library is open source and open license for the purpose of making knowledge tracing more accessible to communities of research and practice and to facilitate progress in the field through easier replication of past approaches. | 翻訳日:2021-05-04 14:16:52 公開日:2021-05-02 |
# AirMixML: プライバシを保護したエッジ機械学習のためのオーバーザエアデータ混在 AirMixML: Over-the-Air Data Mixup for Inherently Privacy-Preserving Edge Machine Learning ( http://arxiv.org/abs/2105.00395v1 ) ライセンス: Link先を確認 | Yusuke Koda and Jihong Park and Mehdi Bennis and Praneeth Vepakomma and Ramesh Raskar | (参考訳) 無線チャネルは、受信した信号をチャネルノイズによって歪め、複数の信号を空中で重ね合わせることで、本質的にプライバシーを守ることができる。
そこで本稿では,これらの自然歪みと重畳を無線チャネルで利用することにより,ネットワークエッジにおける新たなプライバシ保護機械学習(ML)フレームワークを提案する。
AirMixMLでは、複数のワーカーがプライベートデータサンプルのアナログ変調信号をエッジサーバに送信し、受信したノイズと重畳されたサンプルを使用してMLモデルをトレーニングする。
AirMixMLは、ミックスアップデータ拡張を使用したモデルトレーニングと一致し、生のデータサンプルと同等の精度を実現している。
プライバシの観点からは、AirMixMLは、各ワーカーのプライベートサンプル情報のサーバでの開示を制限する差分プライベート(DP)メカニズムであり、ワーカーの送信パワーはプライバシ開示レベルを決定する。
本研究では,チャネル反転後に与えられた大域的電力スケーリング係数に対して,重畳信号に対する各作業者の局所電力寄与をディリクレ分散比 {\alpha} で制御する分数的チャネル反転電力制御 (pc) 法, {\alpha}-dirichlet mixup pc (dirmix({\alpha})-pc) を開発した。
数学的には,対象のDPレベルを保証するために,局所的なPC要因とグローバルなPC要因の関係を明らかにするクローズドフォーム表現を導出する。
シミュレーションにより,dirmix({\alpha})-pc設計ガイドラインを提供し,精度,プライバシ,エネルギー効率を向上させる。
最後に、DirMix({\alpha})-PCを用いたAirMixMLは、重ね合わせでもPCでもないプライバシ違反ベースラインと比較して、妥当な精度が得られることを示した。 Wireless channels can be inherently privacy-preserving by distorting the received signals due to channel noise, and superpositioning multiple signals over-the-air. By harnessing these natural distortions and superpositions by wireless channels, we propose a novel privacy-preserving machine learning (ML) framework at the network edge, coined over-the-air mixup ML (AirMixML). In AirMixML, multiple workers transmit analog-modulated signals of their private data samples to an edge server who trains an ML model using the received noisy-and superpositioned samples. AirMixML coincides with model training using mixup data augmentation achieving comparable accuracy to that with raw data samples. From a privacy perspective, AirMixML is a differentially private (DP) mechanism limiting the disclosure of each worker's private sample information at the server, while the worker's transmit power determines the privacy disclosure level. To this end, we develop a fractional channel-inversion power control (PC) method, {\alpha}-Dirichlet mixup PC (DirMix({\alpha})-PC), wherein for a given global power scaling factor after channel inversion, each worker's local power contribution to the superpositioned signal is controlled by the Dirichlet dispersion ratio {\alpha}. Mathematically, we derive a closed-form expression clarifying the relationship between the local and global PC factors to guarantee a target DP level. By simulations, we provide DirMix({\alpha})-PC design guidelines to improve accuracy, privacy, and energy-efficiency. Finally, AirMixML with DirMix({\alpha})-PC is shown to achieve reasonable accuracy compared to a privacy-violating baseline with neither superposition nor PC. | 翻訳日:2021-05-04 14:16:33 公開日:2021-05-02 |
# 時空間ダイナミクス学習のための物理のハードエンコーディング Hard Encoding of Physics for Learning Spatiotemporal Dynamics ( http://arxiv.org/abs/2105.00557v1 ) ライセンス: Link先を確認 | Chengping Rao, Hao Sun, Yang Liu | (参考訳) 非線形時空間力学系のモデリングは主に偏微分方程式(PDE)に依存している。
しかし、気候システム、生化学反応、疫学など、未調査の多くのプロセスにおけるPDEの明示的な定式化は、非常に限られた測定データしか得られていない、不確実または部分的には分かっていない。
この課題に取り組むために,既知の物理知識を強制的にエンコードし,データ駆動型学習を容易にする新しいディープラーニングアーキテクチャを提案する。
物理の強制的符号化機構は、ペナルティに基づく物理情報学習とは根本的に異なるが、ネットワークが与えられた物理に厳格に従うことを保証している。
非線形アクティベーション関数の代わりに、モデルの非線形性を達成するための新しい要素的積演算を提案する。
数値実験により、結果として得られる物理エンコード学習パラダイムは、データ駆動モデリングのための最先端モデルと比較して、データノイズ/スカルシティと一般化性に対して著しく頑健であることが示される。 Modeling nonlinear spatiotemporal dynamical systems has primarily relied on partial differential equations (PDEs). However, the explicit formulation of PDEs for many underexplored processes, such as climate systems, biochemical reaction and epidemiology, remains uncertain or partially unknown, where very limited measurement data is yet available. To tackle this challenge, we propose a novel deep learning architecture that forcibly encodes known physics knowledge to facilitate learning in a data-driven manner. The coercive encoding mechanism of physics, which is fundamentally different from the penalty-based physics-informed learning, ensures the network to rigorously obey given physics. Instead of using nonlinear activation functions, we propose a novel elementwise product operation to achieve the nonlinearity of the model. Numerical experiment demonstrates that the resulting physics-encoded learning paradigm possesses remarkable robustness against data noise/scarcity and generalizability compared with some state-of-the-art models for data-driven modeling. | 翻訳日:2021-05-04 14:16:01 公開日:2021-05-02 |
# 差の合成差 Synthesized Difference in Differences ( http://arxiv.org/abs/2105.00455v1 ) ライセンス: Link先を確認 | Eric V. Strobl, Thomas A. Lasko | (参考訳) ランダム化臨床試験 (Randomized Clinical trials, RCTs) は、臨床集団全体のサンプリングを防ぐために厳格な除外基準を課す。
観測データセットは包括的だが、欠点がある。
差分(DD)は治療前後の結果を比較することにより観察データとの相違を解消する。
しかし、このアルゴリズムは、時間にまたがるシフトを結合する場合に実際に適用できないパラレルスロープの仮定を必要とする。
本稿では,追加のRCTデータを用いてDDの条件付きバージョンを線形に調整することにより,正しい(おそらくは非並列な)勾配を推定するSynthesized difference in differences (SDD)を提案する。
このアルゴリズムは、rctが患者の大半を除外した場合でも、複数の合成データセットと実際のデータセットにわたる技術性能の状態を実現できる。 Randomized clinical trials (RCTs) eliminate confounding but impose strict exclusion criteria that prevent sampling of the entire clinical population. Observational datasets are more inclusive but suffer from confounding. Difference in Differences (DD) eliminates confounding from observational data by comparing outcomes before and after treatment administration. However, the algorithm requires a parallel slopes assumption that may not apply in practice when confounding shifts across time. In this paper, we propose Synthesized Difference in Differences (SDD) that infers the correct (possibly non-parallel) slopes by linearly adjusting a conditional version of DD using additional RCT data. The algorithm achieves state of the art performance across multiple synthetic and real datasets even when the RCT excludes the majority of patients. | 翻訳日:2021-05-04 14:12:35 公開日:2021-05-02 |
# ニューラルネットワークの勾配降下訓練における普遍的スケーリング則 Universal scaling laws in the gradient descent training of neural networks ( http://arxiv.org/abs/2105.00507v1 ) ライセンス: Link先を確認 | Maksim Velikanov and Dmitry Yarotsky | (参考訳) 勾配降下によって訓練されたニューラルネットワークの最適化軌道に関する現在の理論結果は、通常、損失値の厳密だがゆるい境界を持つ。
本研究では,異なるアプローチを採り,学習の軌跡を,大きな訓練時間において明示的な漸近性によって特徴づけることができることを示す。
特に、損失の漸近展開における先行項は、データ次元、活性化関数の滑らかさ、近似される関数のクラスを通してのみ表現される指数 $\xi$ で表されるパワーローム $l(t) \sim t^{-\xi}$ として振る舞う。
この結果は,期待損失に基づいて学習した大規模ネットワークの線形化進化を表す積分作用素のスペクトル解析に基づく。
重要なのは、私たちが採用するテクニックは、例えばgaussianのような、特定の形式のデータ分散を必要としないことです。 Current theoretical results on optimization trajectories of neural networks trained by gradient descent typically have the form of rigorous but potentially loose bounds on the loss values. In the present work we take a different approach and show that the learning trajectory can be characterized by an explicit asymptotic at large training times. Specifically, the leading term in the asymptotic expansion of the loss behaves as a power law $L(t) \sim t^{-\xi}$ with exponent $\xi$ expressed only through the data dimension, the smoothness of the activation function, and the class of function being approximated. Our results are based on spectral analysis of the integral operator representing the linearized evolution of a large network trained on the expected loss. Importantly, the techniques we employ do not require specific form of a data distribution, for example Gaussian, thus making our findings sufficiently universal. | 翻訳日:2021-05-04 14:12:18 公開日:2021-05-02 |
# 逆グラフニューラルネットワークを用いた脳グラフ超解法と機能的脳結合性への応用 Brain Graph Super-Resolution Using Adversarial Graph Neural Network with Application to Functional Brain Connectivity ( http://arxiv.org/abs/2105.00425v1 ) ライセンス: Link先を確認 | Megi Isallari and Islem Rekik | (参考訳) 脳画像解析は近年、異なる解像度で取得されたニューロイメージングデータセットの増殖によって大きく進歩している。
脳画像の超解像の研究は近年急速に進展しているが、非ユークリッドグラフデータの複雑な性質のため、脳グラフの超解像はいまだに不十分である。
本稿では,N < N' のノードを持つ低分解能(LR)グラフから N' ノードを持つ高分解能(HR)脳グラフを自動的に生成する,最初のディープグラフ超解法(GSR)フレームワークを提案する。
まず、GSR問題をノード機能埋め込み学習タスクとして定式化する。
HRノードの埋め込みが学習されると、新しいグラフU-Netアーキテクチャに基づいた集約ルールによって、脳ROI間の相互接続強度が導出される。
グラフU-Netは通常、グラフの埋め込みは主にノード属性に依存するノード中心アーキテクチャであるが、グラフトポロジに基づいてノード特徴の埋め込みを行うグラフ中心アーキテクチャを提案する。
次に、GSR層と2つのグラフ畳み込みネットワーク層で低分解能脳グラフ構造とノード内容の超解法により、U-Netアーキテクチャの対称性を破り、HRグラフへのノード埋め込みをさらに学習する。
第三に、接地構造と予測されたHR脳グラフの間の領域シフトを扱うために、各分布を整列するために逆正則化を組み込む。
提案する agsr-net フレームワークは,低分解能脳グラフから高分解能機能脳グラフを予測できる。
agsr-netコードはgithubのhttps://github.com/basiralab/agsr-netで入手できる。 Brain image analysis has advanced substantially in recent years with the proliferation of neuroimaging datasets acquired at different resolutions. While research on brain image super-resolution has undergone a rapid development in the recent years, brain graph super-resolution is still poorly investigated because of the complex nature of non-Euclidean graph data. In this paper, we propose the first-ever deep graph super-resolution (GSR) framework that attempts to automatically generate high-resolution (HR) brain graphs with N' nodes (i.e., anatomical regions of interest (ROIs)) from low-resolution (LR) graphs with N nodes where N < N'. First, we formalize our GSR problem as a node feature embedding learning task. Once the HR nodes' embeddings are learned, the pairwise connectivity strength between brain ROIs can be derived through an aggregation rule based on a novel Graph U-Net architecture. While typically the Graph U-Net is a node-focused architecture where graph embedding depends mainly on node attributes, we propose a graph-focused architecture where the node feature embedding is based on the graph topology. Second, inspired by graph spectral theory, we break the symmetry of the U-Net architecture by super-resolving the low-resolution brain graph structure and node content with a GSR layer and two graph convolutional network layers to further learn the node embeddings in the HR graph. Third, to handle the domain shift between the ground-truth and the predicted HR brain graphs, we incorporate adversarial regularization to align their respective distributions. Our proposed AGSR-Net framework outperformed its variants for predicting high-resolution functional brain graphs from low-resolution ones. Our AGSR-Net code is available on GitHub at https://github.com/basiralab/AGSR-Net. | 翻訳日:2021-05-04 14:10:40 公開日:2021-05-02 |
# grnn:生成回帰ニューラルネットワーク -- 連合学習のためのデータ漏洩攻撃 GRNN: Generative Regression Neural Network -- A Data Leakage Attack for Federated Learning ( http://arxiv.org/abs/2105.00529v1 ) ライセンス: Link先を確認 | Hanchi Ren, Jingjing Deng and Xianghua Xie | (参考訳) データプライバシーは、機械学習においてますます重要になっている。
暗号(正則暗号、微分プライバシーなど)など、この問題に取り組むために多くのアプローチが開発されている。
コラボレーショントレーニング(セキュアなマルチパーティ計算、分散学習、フェデレーション学習)。
これらの技術はデータ暗号化やセキュアな局所計算に特に重点を置いている。
中間情報を第三者に転送して最終結果を計算する。
グラディエント交換は、ディープラーニングにおいて協調的に堅牢なモデルをトレーニングするための安全な方法であると考えられている。
しかし、最近の研究では、共有勾配からセンシティブな情報を回収できることが示されている。
特にGAN(Generative Adversarial Networks)は,これらの情報の回復に有効であることが示されている。
しかし、GANベースの技術は、一般的にプライバシーを守らない学習では利用できないクラスラベルのような追加情報を必要とする。
本稿では,フェデレーション学習(fl)システムにおいて,画像ベースのプライバシデータは,提案する生成型回帰ニューラルネットワーク(grnn)によってのみ,共有勾配から完全に復元可能であることを示す。
回帰問題として攻撃を定式化し、勾配間の距離を最小化し、生成モデルの2つの分岐を最適化する。
本手法は,複数の画像分類タスクで評価する。
その結果,提案したGRNNは安定性,強靭性,高精度で最先端の手法より優れていた。
また、大域的FLモデルへの収束要求も持たない。
さらに,顔再同定による情報漏洩についても述べる。
本研究ではいくつかの防衛戦略についても論じている。 Data privacy has become an increasingly important issue in machine learning. Many approaches have been developed to tackle this issue, e.g., cryptography (Homomorphic Encryption, Differential Privacy, etc.) and collaborative training (Secure Multi-Party Computation, Distributed Learning and Federated Learning). These techniques have a particular focus on data encryption or secure local computation. They transfer the intermediate information to the third-party to compute the final result. Gradient exchanging is commonly considered to be a secure way of training a robust model collaboratively in deep learning. However, recent researches have demonstrated that sensitive information can be recovered from the shared gradient. Generative Adversarial Networks (GAN), in particular, have shown to be effective in recovering those information. However, GAN based techniques require additional information, such as class labels which are generally unavailable for privacy persevered learning. In this paper, we show that, in Federated Learning (FL) system, image-based privacy data can be easily recovered in full from the shared gradient only via our proposed Generative Regression Neural Network (GRNN). We formulate the attack to be a regression problem and optimise two branches of the generative model by minimising the distance between gradients. We evaluate our method on several image classification tasks. The results illustrate that our proposed GRNN outperforms state-of-the-art methods with better stability, stronger robustness, and higher accuracy. It also has no convergence requirement to the global FL model. Moreover, we demonstrate information leakage using face re-identification. Some defense strategies are also discussed in this work. | 翻訳日:2021-05-04 14:10:09 公開日:2021-05-02 |
# 数十億ドル規模の事前訓練Eコマース製品知識グラフモデル Billion-scale Pre-trained E-commerce Product Knowledge Graph Model ( http://arxiv.org/abs/2105.00388v1 ) ライセンス: Link先を確認 | Wen Zhang, Chi-Man Wong, Ganqiang Ye, Bo Wen, Wei Zhang, Huajun Chen | (参考訳) 近年、知識グラフは、人々の生活を大いに促進するオンラインショッピングなど、知識を必要とする多くのタスクを強化し、統一的な方法でデータを整理するために広く応用されている。
オンラインショッピングプラットフォームのバックボーンとして、アイテムレコメンデーションなどのさまざまなアイテム知識サービスのための10億規模のeコマース製品ナレッジグラフを構築しました。
しかし、そのような知識サービスは通常、退屈なデータ選択と知識注入のためのモデル設計を含んでおり、不適切な結果をもたらす可能性がある。
そこで本研究では,10億規模のeコマース製品知識グラフを対象とした事前学習型知識グラフモデル(PKGM)を提案する。
特に、PKGMはサーベイリング中に知識グラフを完成させ、知識グラフの共通不完全性問題を克服できる。
我々は,PKGMを項目分類,同一項目識別,レコメンデーションを含む3つの知識関連タスクでテストする。
実験の結果,pkgmは各タスクの性能を向上できた。 In recent years, knowledge graphs have been widely applied to organize data in a uniform way and enhance many tasks that require knowledge, for example, online shopping which has greatly facilitated people's life. As a backbone for online shopping platforms, we built a billion-scale e-commerce product knowledge graph for various item knowledge services such as item recommendation. However, such knowledge services usually include tedious data selection and model design for knowledge infusion, which might bring inappropriate results. Thus, to avoid this problem, we propose a Pre-trained Knowledge Graph Model (PKGM) for our billion-scale e-commerce product knowledge graph, providing item knowledge services in a uniform way for embedding-based models without accessing triple data in the knowledge graph. Notably, PKGM could also complete knowledge graphs during servicing, thereby overcoming the common incompleteness issue in knowledge graphs. We test PKGM in three knowledge-related tasks including item classification, same item identification, and recommendation. Experimental results show PKGM successfully improves the performance of each task. | 翻訳日:2021-05-04 14:06:55 公開日:2021-05-02 |
# 画像分類のための部分空間表現学習 Subspace Representation Learning for Few-shot Image Classification ( http://arxiv.org/abs/2105.00379v1 ) ライセンス: Link先を確認 | Ting-Yao Hu, Zhi-Qi Cheng, Alexander G. Hauptmann | (参考訳) 本稿では,少数の画像分類タスクに対処する部分空間表現学習(SRL)フレームワークを提案する。
局所CNN特徴空間内の部分空間を利用して画像を表現し、重み付き部分空間距離(WSD)に応じて2つの画像間の類似度を測定する。
K画像が各クラスで利用できる場合、Kショット情報を集約するテンプレート部分空間として、プロトタイプ部分空間(PS)と識別部分空間(DS)の2種類を開発する。
SRLフレームワークに基づいて,ベクトルから部分空間表現への距離学習手法を拡張した。
以前の作品では大域的なベクトル表現が採用されていたが、部分空間表現を用いることで、画像内の空間構造や多様性を効果的に保存することができる。
miniimagenet,tieredimagenet,caltech-ucsd birds-200-2011 (cub) の3つのベンチマークデータセットにおいて,srlフレームワークの有効性を実証し,本手法のこれまでの最新データと比較した性能と性能を実験的に示した。 In this paper, we propose a subspace representation learning (SRL) framework to tackle few-shot image classification tasks. It exploits a subspace in local CNN feature space to represent an image, and measures the similarity between two images according to a weighted subspace distance (WSD). When K images are available for each class, we develop two types of template subspaces to aggregate K-shot information: the prototypical subspace (PS) and the discriminative subspace (DS). Based on the SRL framework, we extend metric learning based techniques from vector to subspace representation. While most previous works adopted global vector representation, using subspace representation can effectively preserve the spatial structure, and diversity within an image. We demonstrate the effectiveness of the SRL framework on three public benchmark datasets: MiniImageNet, TieredImageNet and Caltech-UCSD Birds-200-2011 (CUB), and the experimental results illustrate competitive/superior performance of our method compared to the previous state-of-the-art. | 翻訳日:2021-05-04 14:03:41 公開日:2021-05-02 |
# パターン分類のための均等分布型センタロイドの生成とフレーム特性 Generation and frame characteristics of predefined evenly-distributed class centroids for pattern classification ( http://arxiv.org/abs/2105.00401v1 ) ライセンス: Link先を確認 | Haiping Hu, Yingying Yan, Qiuyu Zhu, Guohui Zheng | (参考訳) 事前定義された等分散クラスセントロイド(PEDCC)は、CNN分類器、分類オートエンコーダ、クラスタリング、半教師付き学習などのパターン分類のモデルやアルゴリズムで広く利用することができる。
その基本的な考え方は、単位超球面上に均等に分布するクラス中心を、クラス間距離を最大化するために事前に定義することである。
PEDCCを生成する以前の方法は、電荷モデルに基づく反復アルゴリズム、すなわち、各中心の初期値(電荷位置)を正規分布からランダムに設定し、同じ極性の電荷間の反発力の助けを借りて電荷位置を反復的に更新する。
アルゴリズムによって生成されたクラスセンターは、理論的に均等に分散された点でいくつかのエラーを発生し、生成時間が長くなる。
本稿では高次元空間における正則多面体とn次元超球面上の点の均等分布を利用してPEDCCを数学的に生成する。
次に,pedccで形成したフレームの基本および広範な特性について考察した。
最後に、実験により、新しいアルゴリズムは反復法よりも高速であるだけでなく、位置の正確さも示している。
本論文の数学的解析と実験結果は,解釈可能な教師なし・教師なし学習,インクリメンタル学習,不確実性解析など,パターン認識の分野における鍵となる問題を解くために,pedccを用いた理論的手法を提供する。 Predefined evenly-distributed class centroids (PEDCC) can be widely used in models and algorithms of pattern classification, such as CNN classifiers, classification autoencoders, clustering, and semi-supervised learning, etc. Its basic idea is to predefine the class centers, which are evenly-distributed on the unit hypersphere in feature space, to maximize the inter-class distance. The previous method of generating PEDCC uses an iterative algorithm based on a charge model, that is, the initial values of various centers (charge positions) are randomly set from the normal distribution, and the charge positions are updated iteratively with the help of the repulsive force between charges of the same polarity. The class centers generated by the algorithm will produce some errors with the theoretically evenly-distributed points, and the generation time will be longer. This paper takes advantage of regular polyhedron in high-dimensional space and the evenly distribution of points on the n dimensional hypersphere to generate PEDCC mathematically. Then, we discussed the basic and extensive characteristics of the frames formed by PEDCC. Finally, experiments show that new algorithm is not only faster than the iterative method, but also more accurate in position. The mathematical analysis and experimental results of this paper can provide a theoretical tool for using PEDCC to solve the key problems in the field of pattern recognition, such as interpretable supervised/unsupervised learning, incremental learning, uncertainty analysis and so on. | 翻訳日:2021-05-04 14:03:21 公開日:2021-05-02 |
# イベントカメラのフィードバック制御 Feedback control of event cameras ( http://arxiv.org/abs/2105.00409v1 ) ライセンス: Link先を確認 | Tobi Delbruck, Rui Graca, Marcin Paluch | (参考訳) ダイナミックビジョンセンサイベントカメラは、明るさ変化イベントの可変データレートストリームを生成する。
画素レベルのイベント生成は閾値、帯域幅、屈折周期バイアス電流パラメータ設定によって制御される。
アプリケーション要件に合うようにバイアスを調整する必要があり、最適な設定は多くの要因に依存します。
本稿では,バイアスの自動制御に向けた第一歩として,事象率と雑音を測定する固定ステップフィードバックコントローラを提案する。
コントローラは、しきい値及び耐火物周期制御を用いて許容範囲内のイベントレートを規制し、帯域制御を用いてノイズを規制する。
実験はモデルの有効性とフィードバック制御を示す。 Dynamic vision sensor event cameras produce a variable data rate stream of brightness change events. Event production at the pixel level is controlled by threshold, bandwidth, and refractory period bias current parameter settings. Biases must be adjusted to match application requirements and the optimal settings depend on many factors. As a first step towards automatic control of biases, this paper proposes fixed-step feedback controllers that use measurements of event rate and noise. The controllers regulate the event rate within an acceptable range using threshold and refractory period control, and regulate noise using bandwidth control. Experiments demonstrate model validity and feedback control. | 翻訳日:2021-05-04 14:02:56 公開日:2021-05-02 |
# SE-HarrisとeSUSAN:メガピクセル解像度CeleX-Vカメラを用いた非同期イベントベースコーナー検出 SE-Harris and eSUSAN: Asynchronous Event-Based Corner Detection Using Megapixel Resolution CeleX-V Camera ( http://arxiv.org/abs/2105.00480v1 ) ライセンス: Link先を確認 | Jinjian Li, Chuandong Guo, Li Su, Xiangyu Wang, Quan Hu | (参考訳) イベントカメラは、超高時間分解能と低レイテンシを備えた、マイクロ秒単位のニューロモルフィックな視覚センサである。
画像フレームの代わりに、イベントカメラは正確なタイムスタンプでピクセル単位の強度変化の非同期イベントストリームを生成する。
結果として得られたスパースデータ構造は、イベントストリームに多くの従来のコンピュータビジョン技術を適用することを妨げ、イベントカメラが提供する情報を活用するために特定のアルゴリズムを設計すべきである。
本研究では,従来のsusan(smallest univalue segment assimilating nucleus)アルゴリズムに触発されたコーナー検出アルゴリズムesusanを提案する。
提案したeSUSANは、タイムスタンプ間の類似性に基づいて、円核から一値セグメント同化核を抽出し、核領域の画素数でコーナーイベントを識別する。
さらに、eSUSANは最高解像度のイベントカメラであるCeleX-Vに適用できるほど高速である。
また,eSUSANに基づいて,指数減衰に基づく適応正規化を用いて活動事象の局所的な表面を迅速に構築するSE-Harris角検出器と,eSUSANによって同定された角を改良するイベントベースハリス検出器を提案する。
提案アルゴリズムを公開データセットとCeleX-Vデータを用いて評価した。
eSUSANとSE-Harrisはどちらも、精度と追跡性能を維持しながら、既存のアルゴリズムよりも高いリアルタイム性能を示す。 Event cameras are novel neuromorphic vision sensors with ultrahigh temporal resolution and low latency, both in the order of microseconds. Instead of image frames, event cameras generate an asynchronous event stream of per-pixel intensity changes with precise timestamps. The resulting sparse data structure impedes applying many conventional computer vision techniques to event streams, and specific algorithms should be designed to leverage the information provided by event cameras. We propose a corner detection algorithm, eSUSAN, inspired by the conventional SUSAN (smallest univalue segment assimilating nucleus) algorithm for corner detection. The proposed eSUSAN extracts the univalue segment assimilating nucleus from the circle kernel based on the similarity across timestamps and distinguishes corner events by the number of pixels in the nucleus area. Moreover, eSUSAN is fast enough to be applied to CeleX-V, the event camera with the highest resolution available. Based on eSUSAN, we also propose the SE-Harris corner detector, which uses adaptive normalization based on exponential decay to quickly construct a local surface of active events and the event-based Harris detector to refine the corners identified by eSUSAN. We evaluated the proposed algorithms on a public dataset and CeleX-V data. Both eSUSAN and SE-Harris exhibit higher real-time performance than existing algorithms while maintaining high accuracy and tracking performance. | 翻訳日:2021-05-04 14:02:47 公開日:2021-05-02 |
# 残差強調型マルチハイパーグラフニューラルネットワーク Residual Enhanced Multi-Hypergraph Neural Network ( http://arxiv.org/abs/2105.00490v1 ) ライセンス: Link先を確認 | Jing Huang, Xiaolin Huang and Jie Yang | (参考訳) ハイパーグラフは、様々な研究領域でうまく採用されているエンティティ間の高次相関をモデル化するためのグラフの一般化データ構造である。
一方、ハイパーグラフニューラルネットワーク(HGNN)は現在、ハイパーグラフ表現学習のデファクト手法である。
しかし、HGNNは単一ハイパーグラフ学習を目標としており、マルチモーダルデータセットと向き合う場合、事前連結アプローチを用いて、マルチモーダルハイパーグラフの相互相関を最適以下に活用する。
HGNNはまた、レイヤーが積み重ねられたときにパフォーマンスが大幅に低下する過度な問題にも悩まされている。
これらの問題を解決するために,各ハイパーグラフからマルチモーダル情報を効果的に融合させるだけでなく,hgnnに関連する過剰スムーシング問題を回避できる,拡張されたマルチハイパーグラフニューラルネットワークを提案する。
我々は,NTUとModelNet40データセットの2つの3Dベンチマーク実験を行い,複数の最先端手法との比較を行った。
実験の結果,残差ハイパーグラフ畳み込みとマルチフュージョンアーキテクチャの両方がベースモデルの性能を向上し,コンビネーションモデルが新たな最先端を実現することが示された。
コードは \url{https://github.com/oneforward/resmhgnn} で入手できる。 Hypergraphs are a generalized data structure of graphs to model higher-order correlations among entities, which have been successfully adopted into various research domains. Meanwhile, HyperGraph Neural Network (HGNN) is currently the de-facto method for hypergraph representation learning. However, HGNN aims at single hypergraph learning and uses a pre-concatenation approach when confronting multi-modal datasets, which leads to sub-optimal exploitation of the inter-correlations of multi-modal hypergraphs. HGNN also suffers the over-smoothing issue, that is, its performance drops significantly when layers are stacked up. To resolve these issues, we propose the Residual enhanced Multi-Hypergraph Neural Network, which can not only fuse multi-modal information from each hypergraph effectively, but also circumvent the over-smoothing issue associated with HGNN. We conduct experiments on two 3D benchmarks, the NTU and the ModelNet40 datasets, and compare against multiple state-of-the-art methods. Experimental results demonstrate that both the residual hypergraph convolutions and the multi-fusion architecture can improve the performance of the base model and the combined model achieves a new state-of-the-art. Code is available at \url{https://github.com/OneForward/ResMHGNN}. | 翻訳日:2021-05-04 14:02:24 公開日:2021-05-02 |
# decomposable sequenceタスクのエンド・ツー・エンドモデルのための検索可能な隠れ中間子 Searchable Hidden Intermediates for End-to-End Models of Decomposable Sequence Tasks ( http://arxiv.org/abs/2105.00573v1 ) ライセンス: Link先を確認 | Siddharth Dalmia, Brian Yan, Vikas Raunak, Florian Metze and Shinji Watanabe | (参考訳) シーケンスタスクのエンドツーエンドアプローチは、ますます人気が高まっている。
しかし、音声翻訳のような複雑なシーケンスタスクでは、サブタスクで訓練された複数のモデルをカスケードするシステムは優れていることが示されており、カスケードされたシステムの構成性が学習を単純化し、高度な検索能力を可能にすることを示唆している。
本研究では,分割されたサブタスクを用いたシーケンスモデルの中間段階における探索可能な隠れ表現の学習に構成性を利用するエンドツーエンドフレームワークを提案する。
これらの隠れた中間層はビームサーチを使って全体的な性能を向上させることができ、ネットワークの中間段階で外部モデルを組み込んでドメイン外データに再スコアリングしたり適応することもできる。
提案手法の一例は、音声認識サブタスクから検索可能な隠れ中間子を抽出する音声翻訳用マルチデコーダモデルである。
このモデルは前述の利点を示し、フィッシャー・コールホームの2つのテストセットで+6と+3 bleu、英語とフランス語の must-c のテストセットで+3と+4 bleu を上回っている。 End-to-end approaches for sequence tasks are becoming increasingly popular. Yet for complex sequence tasks, like speech translation, systems that cascade several models trained on sub-tasks have shown to be superior, suggesting that the compositionality of cascaded systems simplifies learning and enables sophisticated search capabilities. In this work, we present an end-to-end framework that exploits compositionality to learn searchable hidden representations at intermediate stages of a sequence model using decomposed sub-tasks. These hidden intermediates can be improved using beam search to enhance the overall performance and can also incorporate external models at intermediate stages of the network to re-score or adapt towards out-of-domain data. One instance of the proposed framework is a Multi-Decoder model for speech translation that extracts the searchable hidden intermediates from a speech recognition sub-task. The model demonstrates the aforementioned benefits and outperforms the previous state-of-the-art by around +6 and +3 BLEU on the two test sets of Fisher-CallHome and by around +3 and +4 BLEU on the English-German and English-French test sets of MuST-C. | 翻訳日:2021-05-04 13:58:30 公開日:2021-05-02 |
# 自動走行車の駐車シナリオにおける高精度LiDAR支援制御モジュール A LiDAR Assisted Control Module with High Precision in Parking Scenarios for Autonomous Driving Vehicle ( http://arxiv.org/abs/2105.00398v1 ) ライセンス: Link先を確認 | Xin Xu, Yu Dong, Fan Zhu | (参考訳) 自動運転は近年、非常に有望なものとなっている。
一般には、waymo、baidu、cruiseなどからロボタクシーが配達されている。
自動運転車には明るい未来があることは間違いないが、robotaxiのような製品にはまだ長い道のりがあることを認めなければならない。
一方、より複雑なシナリオでは、自律運転は人間を確実に上回る可能性がある。
例えば、人間は対話的なタスク(自律運転システムは通常そうではないが)が得意だが、厳密な精度の要求のあるタスクには無能であることが多い。
本稿では,人間が運転できない実世界の産業シナリオを紹介する。
この作業では、エゴ車両は静止側距離(すなわち、静止側距離)を維持する必要があった。
3?
<=5cm)であった。
この課題に対処するため、我々はBaidu Apolloの制御モジュールをオープンソース自動運転システムから再設計しました。
正確には3つ?
<=2cm) 位置決めモジュールを部分的に置き換えるため, 誤差フィードバックシステムを構築した。
その後,制御モジュールを徹底的に検討し,さらに精度を高めるためにリアルタイムキャリブレーションアルゴリズムを追加した。
また、制御パラメータを微調整するシミュレーションを構築した。
これらの作業が終わった後、結果は奨励され、エンドツーエンドの側方精度が3であることを示します。
<=5cm。
さらに,apolloモジュールを上回っていただけでなく,特別に訓練された高度に経験された人間テストドライバーをも上回っていた。 Autonomous driving has been quite promising in recent years. The public has seen Robotaxi delivered by Waymo, Baidu, Cruise, and so on. While autonomous driving vehicles certainly have a bright future, we have to admit that it is still a long way to go for products such as Robotaxi. On the other hand, in less complex scenarios autonomous driving may have the potentiality to reliably outperform humans. For example, humans are good at interactive tasks (while autonomous driving systems usually do not), but we are often incompetent for tasks with strict precision demands. In this paper, we introduce a real-world, industrial scenario of which human drivers are not capable. The task required the ego vehicle to keep a stationary lateral distance (i.e. 3? <= 5 centimeters) with respect to a reference. To address this challenge, we redesigned the control module from Baidu Apollo open-source autonomous driving system. A precise (3? <= 2 centimeters) Error Feedback System was first built to partly replace the localization module. Then we investigated the control module thoroughly and added a real-time calibration algorithm to gain extra precision. We also built a simulation to fine-tune the control parameters. After all those works, the results are encouraging, showing that an end-to-end lateral precision with 3? <= 5 centimeters has been achieved. Further, we show that the results not only outperformed original Apollo modules but also beat specially trained and highly experienced human test drivers. | 翻訳日:2021-05-04 13:54:33 公開日:2021-05-02 |
# BI-REC:対話型ビジネスインテリジェンスのためのガイドデータ分析 BI-REC: Guided Data Analysis for Conversational Business Intelligence ( http://arxiv.org/abs/2105.00467v1 ) ライセンス: Link先を確認 | Venkata Vamsikrishna Meduri, Abdul Quamar, Chuan Lei, Vasilis Efthymiou, Fatma Ozcan | (参考訳) ビジネスインテリジェンス(BI)アプリケーションへの会話インターフェースは、小さなステップで自然言語ダイアログを使用してデータ分析を可能にする。
データへのアクセスを民主化するために対話型BIの力を真に解き放つためには、システムはデータ分析を効果的かつ継続的にサポートする必要がある。
本稿では,BIアプリケーションのための対話型レコメンデーションシステムBI-RECを提案する。
データ解析の空間をBIパターンで定義し、OLAP立方体定義から抽出したリッチな意味情報を付加し、グラフSAGEを用いて学習したグラフ埋め込みを用いて解析状態のコンパクトな表現を作成する。
有効なBIパターン推薦のための検索空間を探索するための2段階のアプローチを提案する。
最初のステップでは、事前クエリログを使用してマルチクラス分類器をトレーニングし、BI操作(例: {\em Drill-Down} または {\em Roll-up})とユーザが興味を持っている尺度で次のハイレベル動作を予測する。
2番目のステップでは、協調フィルタリングを使用して、ハイレベルなアクションを実際のBIパターンレコメンデーションに洗練する。
この2段階のアプローチは、巨大な検索空間を分割して征服するだけでなく、より少ないトレーニングデータも必要とします。
実験の結果,BI-RECはBIパターン推奨の精度が83%,予測のレイテンシが2倍に向上することがわかった。
さらに,BI-RECは,複数の異なる分析タスクに対して,91.90%の精度でレコメンデーションを提供することを示した。 Conversational interfaces to Business Intelligence (BI) applications enable data analysis using a natural language dialog in small incremental steps. To truly unleash the power of conversational BI to democratize access to data, a system needs to provide effective and continuous support for data analysis. In this paper, we propose BI-REC, a conversational recommendation system for BI applications to help users accomplish their data analysis tasks. We define the space of data analysis in terms of BI patterns, augmented with rich semantic information extracted from the OLAP cube definition, and use graph embeddings learned using GraphSAGE to create a compact representation of the analysis state. We propose a two-step approach to explore the search space for useful BI pattern recommendations. In the first step, we train a multi-class classifier using prior query logs to predict the next high-level actions in terms of a BI operation (e.g., {\em Drill-Down} or {\em Roll-up}) and a measure that the user is interested in. In the second step, the high-level actions are further refined into actual BI pattern recommendations using collaborative filtering. This two-step approach allows us to not only divide and conquer the huge search space, but also requires less training data. Our experimental evaluation shows that BI-REC achieves an accuracy of 83% for BI pattern recommendations and up to 2X speedup in latency of prediction compared to a state-of-the-art baseline. Our user study further shows that BI-REC provides recommendations with a precision@3 of 91.90% across several different analysis tasks. | 翻訳日:2021-05-04 13:54:14 公開日:2021-05-02 |
# CARL-DTN:遅延耐性ネットワークにおける文脈適応型強化学習に基づくルーティングアルゴリズム CARL-DTN: Context Adaptive Reinforcement Learning based Routing Algorithm in Delay Tolerant Network ( http://arxiv.org/abs/2105.00544v1 ) ライセンス: Link先を確認 | Fuad Yimer Yesuf and M. Prathap | (参考訳) delay/disruption- tolerance networks(dtn)という用語は、モビリティや停止、スケジュールされた連絡先が経験される可能性のある、長い遅延、断続的、断続的な接続ネットワークの全てのタイプを記述し、カバーするために考案された。
この環境は、頻繁なネットワーク分割、断続接続、大または可変遅延、非対称データレート、低伝送信頼性によって特徴づけられる。
DTNではルーティングプロトコルが開発されている。
しかし、これらのルーティングアルゴリズムは特定の仮定に基づいて設計されている。
この仮定は、既存のアルゴリズムを特定の環境シナリオに適合させる。
異なるルーティングアルゴリズムは、異なるリレーノード選択基準を使用してレプリケーションノードを選択する。
メッセージが頻繁に転送されると、過剰なパケットロスと大きなバッファとネットワークオーバーヘッドが発生します。
一方、頻度の低い伝送は、配送率の低下につながる。
DTNでは、デリバリ比率とオーバーヘッドの間にトレードオフがあります。
本研究では,コンテキスト適応型強化学習に基づくルーティング(CARL-DTN)プロトコルを提案し,リアルタイム密度に基づいてメッセージの最適な複製を決定する。
ルーティングプロトコルでは, ファジィ論理を用いたリアルタイム物理コンテキスト, ソーシャルタイ強度, リアルタイムメッセージコンテキストを併用する。
マルチホップ転送確率は、Qラーニングアルゴリズムを用いてノード間の遭遇確率を推定し、割引報酬によって近隣で利用可能なノードについて学習することにより、リレーノードの選択にも考慮される。
提案プロトコルの性能は様々なシミュレーションシナリオに基づいて評価される。
その結果,提案プロトコルの性能は,メッセージ配信率とオーバーヘッドの面で向上した。 The term Delay/Disruption-Tolerant Networks (DTN) invented to describe and cover all types of long-delay, disconnected, intermittently connected networks, where mobility and outages or scheduled contacts may be experienced. This environment is characterized by frequent network partitioning, intermittent connectivity, large or variable delay, asymmetric data rate, and low transmission reliability. There have been routing protocols developed in DTN. However, those routing algorithms are design based upon specific assumptions. The assumption makes existing algorithms suitable for specific environment scenarios. Different routing algorithm uses different relay node selection criteria to select the replication node. Too Frequently forwarding messages can result in excessive packet loss and large buffer and network overhead. On the other hand, less frequent transmission leads to a lower delivery ratio. In DTN there is a trade-off off between delivery ratio and overhead. In this study, we proposed context-adaptive reinforcement learning based routing(CARL-DTN) protocol to determine optimal replicas of the message based on the real-time density. Our routing protocol jointly uses a real-time physical context, social-tie strength, and real-time message context using fuzzy logic in the routing decision. Multi-hop forwarding probability is also considered for the relay node selection by employing Q-Learning algorithm to estimate the encounter probability between nodes and to learn about nodes available in the neighbor by discounting reward. The performance of the proposed protocol is evaluated based on various simulation scenarios. The result shows that the proposed protocol has better performance in terms of message delivery ratio and overhead. | 翻訳日:2021-05-04 13:53:47 公開日:2021-05-02 |
# 高次元意思決定, 上下界と下界 High Dimensional Decision Making, Upper and Lower Bounds ( http://arxiv.org/abs/2105.00545v1 ) ライセンス: Link先を確認 | Farzad Pourbabaee | (参考訳) 意思決定者の効用は、アクション $a\in A \subset \mathbb{R}^d$ と世界のペイオフ関連状態 $\theta\in \Theta$ に依存する。
新しい情報を取得する価値は、期待される最大効用前とポスト情報獲得の差として定義できる。
本稿では, (sub)-guassian process とgeneric chaining の理論のツールを用いて,情報の期待値が $d \to \infty$ となるという漸近的な結果を見出す。 A decision maker's utility depends on her action $a\in A \subset \mathbb{R}^d$ and the payoff relevant state of the world $\theta\in \Theta$. One can define the value of acquiring new information as the difference between the maximum expected utility pre- and post information acquisition. In this paper, I find asymptotic results on the expected value of information as $d \to \infty$, by using tools from the theory of (sub)-Guassian processes and generic chaining. | 翻訳日:2021-05-04 13:52:35 公開日:2021-05-02 |
# raddet: ダイナミックロードユーザのためのレンジアジマス・ドップラーに基づくレーダ物体検出 RADDet: Range-Azimuth-Doppler based Radar Object Detection for Dynamic Road Users ( http://arxiv.org/abs/2105.00363v1 ) ライセンス: Link先を確認 | Ao Zhang, Farzan Erlik Nowruzi, Robert Laganiere | (参考訳) 自動車レーダを用いた物体検出は,カメラによるアプローチと比較して,ディープラーニングモデルでは研究されていない。
これは、公開レーダデータセットの欠如による可能性がある。
本論文では,トラダデータを含む新しいレーダーデータセットを,動的道路利用者のためのテンソル上のバウンディングボックス,カテゴリラベル,およびデカルト的バード・アイ・ビュー・レンジマップ上の2dバウンディングボックスとともに収集する。
データセットを構築するために,インスタンスワイズ自動アノテーション手法を提案する。
さらに,Range-Azimuth-Dopplerに基づく多クラスオブジェクト検出深層学習モデルを提案する。
このアルゴリズムは1段のアンカーベース検出器で、それぞれレンジ・アジマス・ドップラー領域とカルテシアン領域の3次元境界ボックスと2次元境界ボックスを生成する。
提案アルゴリズムは3次元境界ボックス予測では0.3のIOUで56.3%AP、2次元境界ボックス予測では0.5のIOUで51.6%APを達成した。
私たちのデータセットとコードはhttps://github.com/ZhangAoCanada/RADDet.git.comで参照できます。 Object detection using automotive radars has not been explored with deep learning models in comparison to the camera based approaches. This can be attributed to the lack of public radar datasets. In this paper, we collect a novel radar dataset that contains radar data in the form of Range-Azimuth-Doppler tensors along with the bounding boxes on the tensor for dynamic road users, category labels, and 2D bounding boxes on the Cartesian Bird-Eye-View range map. To build the dataset, we propose an instance-wise auto-annotation method. Furthermore, a novel Range-Azimuth-Doppler based multi-class object detection deep learning model is proposed. The algorithm is a one-stage anchor-based detector that generates both 3D bounding boxes and 2D bounding boxes on Range-Azimuth-Doppler and Cartesian domains, respectively. Our proposed algorithm achieves 56.3% AP with IOU of 0.3 on 3D bounding box predictions, and 51.6% with IOU of 0.5 on 2D bounding box prediction. Our dataset and the code can be found at https://github.com/ZhangAoCanada/RADDet.git. | 翻訳日:2021-05-04 13:49:51 公開日:2021-05-02 |
# データアソシエーションを伴わない学習データアソシエーション:ニューラル代入予測へのEMアプローチ Learning data association without data association: An EM approach to neural assignment prediction ( http://arxiv.org/abs/2105.00369v1 ) ライセンス: Link先を確認 | Michael Burke, Subramanian Ramamoorthy | (参考訳) データアソシエーションは効果的な多目的追跡の基本的な構成要素である。
データアソシエーションに対する現在のアプローチは、ゲーティングや距離ベースのコスト行列に依存する代入問題、あるいは検出による追跡問題に対するデータアソシエーションの課題を相殺する傾向がある。
後者は典型的には教師付き学習問題として定式化され、オブジェクト認識のためのモデルを訓練するために、追跡対象のアイデンティティに関する情報をラベル付けする必要がある。
本稿では,ラベル付け情報を必要としないデータアソシエーションのためのニューラルモデルをトレーニングするための予測最大化手法を提案する。
ここで、シンクホーンネットワークは、軌道観測の限界確率を最大化する割り当て行列を予測するために訓練される。
重要なことに、提案手法を用いてトレーニングされたネットワークは、下流追跡アプリケーションで再利用することができる。 Data association is a fundamental component of effective multi-object tracking. Current approaches to data-association tend to frame this as an assignment problem relying on gating and distance-based cost matrices, or offset the challenge of data association to a problem of tracking by detection. The latter is typically formulated as a supervised learning problem, and requires labelling information about tracked object identities to train a model for object recognition. This paper introduces an expectation maximisation approach to train neural models for data association, which does not require labelling information. Here, a Sinkhorn network is trained to predict assignment matrices that maximise the marginal likelihood of trajectory observations. Importantly, networks trained using the proposed approach can be re-used in downstream tracking applications. | 翻訳日:2021-05-04 13:49:30 公開日:2021-05-02 |
# AG-CUResNeSt: 大腸ポリープ分画の新しい方法 AG-CUResNeSt: A Novel Method for Colon Polyp Segmentation ( http://arxiv.org/abs/2105.00402v1 ) ライセンス: Link先を確認 | Dinh Viet Sang, Tran Quang Chung, Phan Ngoc Lan, Dao Viet Hang, Dao Van Long, Nguyen Thi Thuy | (参考訳) 大腸癌は最も一般的な悪性腫瘍であり、高リスク大腸ポリープから発生することがある。
大腸内視鏡検査はポリープの検出と除去に有効なスクリーニングツールである。
しかし, 臨床実践における欠如率は, さまざまな要因により比較的高い。
この手法は、大腸ポリープ検出改善のための貴重な洞察を提供する自動ポリープ分割モデルの恩恵を受けることができる。
しかし,ポリプのサイズ,形状,テクスチャ,色の違いから,正確なセグメンテーションはいまだに困難である。
本稿では、堅牢なResNeStバックボーンとアテンションゲートを用いて結合ユニセットを強化するAG-CUResNeStと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。
ネットワークは多レベル特徴を効果的に組み合わせて正確なポリプセグメンテーションを得ることができる。
評価実験の結果,提案手法は既存手法と比較して精度が高いことがわかった。 Colorectal cancer is among the most common malignancies and can develop from high-risk colon polyps. Colonoscopy is an effective screening tool to detect and remove polyps, especially in the case of precancerous lesions. However, the missing rate in clinical practice is relatively high due to many factors. The procedure could benefit greatly from automatic polyp segmentation models, which provide valuable insights for colon polyp detection improvement. However, precise segmentation is still challenging due to the variation of polyps in size, shape, texture, and color. This paper proposes a novel neural network architecture called AG-CUResNeSt, which enhances Coupled UNets using the robust ResNeSt backbone and attention gates. The network is capable of effectively combining multi-level features to yield accurate polyp segmentation. Experimental results on five popular benchmark datasets show that our proposed method achieves state-of-the-art accuracy compared to existing methods. | 翻訳日:2021-05-04 13:49:17 公開日:2021-05-02 |
# 説明可能な空間特徴抽出を用いた双方向多層RNNによる手術ジェスチャー認識 Surgical Gesture Recognition Based on Bidirectional Multi-Layer Independently RNN with Explainable Spatial Feature Extraction ( http://arxiv.org/abs/2105.00460v1 ) ライセンス: Link先を確認 | Dandan Zhang, Ruoxi Wang, Benny Lo | (参考訳) 最小侵襲手術は主に一連のサブタスクで構成され、基本的なジェスチャーやコンテキストに分解することができる。
自律神経手術の前提条件として、外科的ジェスチャー認識は、動作計画と意思決定を支援し、手術ロボットの制御品質を改善するためにコンテキスト認識知識を構築する。
本研究は,説明可能な特徴抽出プロセスを用いた効果的な手術用ジェスチャー認識手法の開発を目的としている。
本稿では,VGGアーキテクチャに基づいて構築されたディープ畳み込みニューラルネットワーク(DCNN)モデルの微調整により空間特徴抽出を行うとともに,双方向多層RNN(BML-indRNN)モデルを提案する。
dcnnのブラックボックス効果を解消するために、勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いる。
外科的ジェスチャー分類結果と強い関係を持つ外科画像の領域を示すことで、説明可能な結果を提供することができる。
提案手法は, JIGSAWSデータベースから得られたデータを用いて, 縫合タスクに基づいて評価した。
提案手法を検証するために比較研究を行った。
その結果,提案手法に基づく縫合作業の精度は87.13%であり,最先端のアルゴリズムよりも優れていた。 Minimally invasive surgery mainly consists of a series of sub-tasks, which can be decomposed into basic gestures or contexts. As a prerequisite of autonomic operation, surgical gesture recognition can assist motion planning and decision-making, and build up context-aware knowledge to improve the surgical robot control quality. In this work, we aim to develop an effective surgical gesture recognition approach with an explainable feature extraction process. A Bidirectional Multi-Layer independently RNN (BML-indRNN) model is proposed in this paper, while spatial feature extraction is implemented via fine-tuning of a Deep Convolutional Neural Network(DCNN) model constructed based on the VGG architecture. To eliminate the black-box effects of DCNN, Gradient-weighted Class Activation Mapping (Grad-CAM) is employed. It can provide explainable results by showing the regions of the surgical images that have a strong relationship with the surgical gesture classification results. The proposed method was evaluated based on the suturing task with data obtained from the public available JIGSAWS database. Comparative studies were conducted to verify the proposed framework. Results indicated that the testing accuracy for the suturing task based on our proposed method is 87.13%, which outperforms most of the state-of-the-art algorithms. | 翻訳日:2021-05-04 13:49:04 公開日:2021-05-02 |
# サブガウシアンスパースglmの方向性fdr制御 Directional FDR Control for Sub-Gaussian Sparse GLMs ( http://arxiv.org/abs/2105.00393v1 ) ライセンス: Link先を確認 | Chang Cui, Jinzhu Jia, Yijun Xiao, Huiming Zhang | (参考訳) 高次元スパース一般化線形モデル (GLMs) は、サンプルの数と変数の次元が大きく、変数の次元もサンプルの数よりも早く増加するという設定で現れる。
偽発見率 (FDR) の制御は, GLM の粗末なペナル化推定を行い, 統計的に有意な非ゼロな結果の少数を同定することを目的としている。
精度行列推定のためのCLIME法を用いて, 脱バイアスラッソ推定器を構築し, スパースGLMの極小レートオラクル不等式を用いて漸近正規性を証明する。
実際には、各回帰係数の肯定性と否定性を正確に判断することがしばしば必要であり、これは、予測変数が残りの変数に条件付きで応答変数と正あるいは負の関係があるかどうかを決定する。
偏り推定器を用いて複数の試験手順を確立する。
軽度条件下では,提案した偏り統計は,予め特定された意味レベルで,方向FDRと方向偽発見変数を漸近的に制御できることを示す。
さらに、我々の多重検定法は1の統計的パワーをほぼ達成できることを示すことができる。
また,本手法を2サンプル問題に拡張し,2サンプルテスト統計値を提案する。
適切な条件下では、2つのサンプル問題の特定重要度レベルで方向fdr制御と方向fdv制御を漸近的に達成することができる。
いくつかの数値シミュレーションにより提案手法のFDR制御効果が検証され,古典的ノックオフ法よりも優れた結果が得られた。 High-dimensional sparse generalized linear models (GLMs) have emerged in the setting that the number of samples and the dimension of variables are large, and even the dimension of variables grows faster than the number of samples. False discovery rate (FDR) control aims to identify some small number of statistically significantly nonzero results after getting the sparse penalized estimation of GLMs. Using the CLIME method for precision matrix estimations, we construct the debiased-Lasso estimator and prove the asymptotical normality by minimax-rate oracle inequalities for sparse GLMs. In practice, it is often needed to accurately judge each regression coefficient's positivity and negativity, which determines whether the predictor variable is positively or negatively related to the response variable conditionally on the rest variables. Using the debiased estimator, we establish multiple testing procedures. Under mild conditions, we show that the proposed debiased statistics can asymptotically control the directional (sign) FDR and directional false discovery variables at a pre-specified significance level. Moreover, it can be shown that our multiple testing procedure can approximately achieve a statistical power of 1. We also extend our methods to the two-sample problems and propose the two-sample test statistics. Under suitable conditions, we can asymptotically achieve directional FDR control and directional FDV control at the specified significance level for two-sample problems. Some numerical simulations have successfully verified the FDR control effects of our proposed testing procedures, which sometimes outperforms the classical knockoff method. | 翻訳日:2021-05-04 13:46:53 公開日:2021-05-02 |
# 非同期マルチエージェント強化学習によるバスバンチ低減 Reducing Bus Bunching with Asynchronous Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2105.00376v1 ) ライセンス: Link先を確認 | Jiawei Wang and Lijun Sun | (参考訳) バスシステムは持続可能な都市交通の重要な要素である。
しかし、旅客需要や交通状況のかなりの不確実性から、バスの運行は自然に不安定であり、バスフラッキングはバスの信頼性や効率を損なう一般的な現象となっている。
交通制御におけるマルチエージェント強化学習(MARL)の最近の進歩にもかかわらず、トリッキー非同期特性によるバスフリート制御に焦点を当てた研究はほとんどなく、バスが停留所に到着してエージェントが同時に動作しない場合にのみ制御アクションが発生する。
本研究では,経路レベルのバス群制御を非同期マルチエージェント強化学習(ASMR)問題として定式化し,非同期問題を扱うために古典的アクター・クリティカルアーキテクチャを拡張した。
具体的には,グラフアテンションニューラルネットワークを用いて政策評価のための帰納的学習を行う,他のエージェントの限界貢献を効果的に近似する新たな批判ネットワークを設計する。
批評家の構造は、egoエージェントがそのポリシーをより効率的に最適化するのに役立つ。
提案手法は,現実のバスサービスと,スマートカードデータに基づく実際の乗客需要に関するものである。
提案手法は従来のヘッドウェイ制御法と既存のMARL法の両方より優れていることを示す。 The bus system is a critical component of sustainable urban transportation. However, due to the significant uncertainties in passenger demand and traffic conditions, bus operation is unstable in nature and bus bunching has become a common phenomenon that undermines the reliability and efficiency of bus services. Despite recent advances in multi-agent reinforcement learning (MARL) on traffic control, little research has focused on bus fleet control due to the tricky asynchronous characteristic -- control action only happens when a bus arrives at a bus stop and thus agents do not act simultaneously. In this study, we formulate route-level bus fleet control as an asynchronous multi-agent reinforcement learning (ASMR) problem and extend the classical actor-critic architecture to handle the asynchronous issue. Specifically, we design a novel critic network to effectively approximate the marginal contribution for other agents, in which graph attention neural network is used to conduct inductive learning for policy evaluation. The critic structure also helps the ego agent optimize its policy more efficiently. We evaluate the proposed framework on real-world bus services and actual passenger demand derived from smart card data. Our results show that the proposed model outperforms both traditional headway-based control methods and existing MARL methods. | 翻訳日:2021-05-04 13:43:37 公開日:2021-05-02 |
# コルモゴロフ重ね合わせ定理の構造化証明 A structured proof of the Kolmogorov superposition theorem ( http://arxiv.org/abs/2105.00408v1 ) ライセンス: Link先を確認 | S. Dzhenzher and A. Skopenkov | (参考訳) ヒルベルトの重ね合わせに関する13番目の問題を解くために、以下の有名な結果のよく知られた証明をよく構造化した詳細な説明を示す。
2変数の関数については、次の通りである。
コルモゴロフの定理。
連続関数 $\varphi_1,\ldots,\varphi_5 : [\,0,1\,]\to [\,0,1\,]^2\to\mathbb R$ が任意の連続関数 $f に対して [\,0,3\,]\to\mathbb R$ が存在して、任意の $x,y\in [\,0,1\,]$ に対して$f(x,y)=\sum\limits_{k=1}^5 h\left(\varphi_k(x)+\sqrt{2}\,\varphi_k(y)\right).$$$ 証明は、特定の連続関数の学生にのみ親しむことができる。 We present a well-structured detailed exposition of a well-known proof of the following celebrated result solving Hilbert's 13th problem on superpositions. For functions of 2 variables the statement is as follows. Kolmogorov Theorem. There are continuous functions $\varphi_1,\ldots,\varphi_5 : [\,0, 1\,]\to [\,0,1\,]$ such that for any continuous function $f: [\,0,1\,]^2\to\mathbb R$ there is a continuous function $h: [\,0,3\,]\to\mathbb R$ such that for any $x,y\in [\,0, 1\,]$ we have $$f(x,y)=\sum\limits_{k=1}^5 h\left(\varphi_k(x)+\sqrt{2}\,\varphi_k(y)\right).$$ The proof is accessible to non-specialists, in particular, to students familiar with only basic properties of continuous functions. | 翻訳日:2021-05-04 13:43:15 公開日:2021-05-02 |
# プロキシを用いたスマートインバータ制御:Chance-Constrained DNNに基づくアプローチ Controlling Smart Inverters using Proxies: A Chance-Constrained DNN-based Approach ( http://arxiv.org/abs/2105.00429v1 ) ライセンス: Link先を確認 | Sarthak Gupta and Vassilis Kekatos and Ming Jin | (参考訳) 不確実性の下でスケールでのインバータの調整は、配電網に再生可能エネルギーを統合するデシデラタムである。
負荷要求や太陽光発電が頻繁に測定されない限り、近似グリッド条件やプロキシを制御したインバータが重要な仕様となる。
ディープニューラルネットワーク(dnn)は最適なインバータスケジュールを学習できるが、実現可能性の保証はほとんど不可能である。
計算済みの最適電力フロー(OPF)ソリューションを模倣するためにDNNを訓練するのではなく、DNNベースのインバータポリシーをOPFに統合する。
提案したDNNは、平均電圧偏差を抑える2つのOPF代替手段と、確率制約の凸制限として訓練される。
トレーニングされたDNNは、現在のグリッド条件の部分的、ノイズ、あるいはプロキシ記述子によって駆動される。
これは、観測不能なフィードアに対してOPFを解決しなければならない場合に重要である。
DNN重みは、バックプロパゲーションと、ネットワークモデルが知られていると仮定した交流電力流方程式の微分によって訓練される。
さもなくば勾配のない変種が用いられる。
後者は、インバータが電力フローソルバまたは供給者のデジタル双対にのみアクセス可能なアグリゲータによって制御される場合に関係する。
数値テストでは、dnnベースのインバータ制御スキームと最適インバータセットポイントを最適性と実現可能性の観点から比較する。 Coordinating inverters at scale under uncertainty is the desideratum for integrating renewables in distribution grids. Unless load demands and solar generation are telemetered frequently, controlling inverters given approximate grid conditions or proxies thereof becomes a key specification. Although deep neural networks (DNNs) can learn optimal inverter schedules, guaranteeing feasibility is largely elusive. Rather than training DNNs to imitate already computed optimal power flow (OPF) solutions, this work integrates DNN-based inverter policies into the OPF. The proposed DNNs are trained through two OPF alternatives that confine voltage deviations on the average and as a convex restriction of chance constraints. The trained DNNs can be driven by partial, noisy, or proxy descriptors of the current grid conditions. This is important when OPF has to be solved for an unobservable feeder. DNN weights are trained via back-propagation and upon differentiating the AC power flow equations assuming the network model is known. Otherwise, a gradient-free variant is put forth. The latter is relevant when inverters are controlled by an aggregator having access only to a power flow solver or a digital twin of the feeder. Numerical tests compare the DNN-based inverter control schemes with the optimal inverter setpoints in terms of optimality and feasibility. | 翻訳日:2021-05-04 13:42:35 公開日:2021-05-02 |
# 誰が敵の移動を怖がる? Who's Afraid of Adversarial Transferability? ( http://arxiv.org/abs/2105.00433v1 ) ライセンス: Link先を確認 | Ziv Katzir, Yuval Elovici | (参考訳) 敵対的トランスファービリティ、すなわち、敵対的摂動が複数の学習モデルを同時に騙す能力は、長年、敵対的機械学習の「大きな悪い狼」であった。
攻撃モデルのパラメータやトレーニングデータに関する事前の知識を必要としないトランスファービリティベースの攻撃が成功したことは、機械学習モデルが現実のシステムに固有のセキュリティ脅威をもたらすことを暗示している。
しかし, この領域で実施した研究はすべて, 伝達可能性を確率的特性として考慮し, 予め定義された評価セットを前提として, 対象モデルを見誤る可能性のある敵例の割合を推定しようとした。
その結果、これらの研究は現実の敵がしばしば攻撃失敗のコストに非常に敏感であるという事実を無視した。
この感度を見越すと、実際には現実のトランスファービリティに基づく攻撃はあり得ないが、トランスファービリティの脅威に対する過大な認識がもたらされたと我々は論じる。
理論的推論と一連の経験的結果を組み合わせることで、ブラックボックス設定で特定のターゲットモデルに特定の敵のサンプルが転送可能であるかどうかを予測できないことを示し、攻撃失敗のコストに敏感な敵に対する実生活攻撃ツールとしての敵の移動可能性の有効性を疑問視する。 Adversarial transferability, namely the ability of adversarial perturbations to simultaneously fool multiple learning models, has long been the "big bad wolf" of adversarial machine learning. Successful transferability-based attacks requiring no prior knowledge of the attacked model's parameters or training data have been demonstrated numerous times in the past, implying that machine learning models pose an inherent security threat to real-life systems. However, all of the research performed in this area regarded transferability as a probabilistic property and attempted to estimate the percentage of adversarial examples that are likely to mislead a target model given some predefined evaluation set. As a result, those studies ignored the fact that real-life adversaries are often highly sensitive to the cost of a failed attack. We argue that overlooking this sensitivity has led to an exaggerated perception of the transferability threat, when in fact real-life transferability-based attacks are quite unlikely. By combining theoretical reasoning with a series of empirical results, we show that it is practically impossible to predict whether a given adversarial example is transferable to a specific target model in a black-box setting, hence questioning the validity of adversarial transferability as a real-life attack tool for adversaries that are sensitive to the cost of a failed attack. | 翻訳日:2021-05-04 13:42:12 公開日:2021-05-02 |
# パッケージ検出における機械学習手法の解析 Analysis of Machine Learning Approaches to Packing Detection ( http://arxiv.org/abs/2105.00473v1 ) ライセンス: Link先を確認 | Charles-Henry Bertrand Van Ouytsel, Thomas Given-Wilson, Jeremy Minet, Julian Roussieau, Axel Legay | (参考訳) パッキング(packing)は、マルウェアがプログラムの内容や動作を隠すために広く使われている難読化技術である。
以前の多くの研究は、プログラムが満員であるかどうかを検出する方法を模索した。
本研究は,エントロピー解析や構文シグネチャ,最近では様々な特徴を用いた機械学習分類器など,幅広いアプローチを含む。
しかし、どのアルゴリズムがベストなのか、最も重要な機能なのか、堅牢な結果は示されていない。
正確さ、コスト、一般化能力、その他の測定方法がすべて妥当であるため、結果をどう評価するかを考えると、これは複雑です。
この研究は、119の機能を使って11の異なる機械学習アプローチを探索する。どの機能がパッキング検出に最も重要なのか、どのアルゴリズムが最高のパフォーマンスを提供するのか、どのアルゴリズムが最も経済的か。 Packing is an obfuscation technique widely used by malware to hide the content and behavior of a program. Much prior research has explored how to detect whether a program is packed. This research includes a broad variety of approaches such as entropy analysis, syntactic signatures and more recently machine learning classifiers using various features. However, no robust results have indicated which algorithms perform best, or which features are most significant. This is complicated by considering how to evaluate the results since accuracy, cost, generalization capabilities, and other measures are all reasonable. This work explores eleven different machine learning approaches using 119 features to understand: which features are most significant for packing detection; which algorithms offer the best performance; and which algorithms are most economical. | 翻訳日:2021-05-04 13:41:49 公開日:2021-05-02 |
# 応用可能性領域の活用をめざして--逆境学習に応用した化学情報学からの教訓 Intriguing Usage of Applicability Domain: Lessons from Cheminformatics Applied to Adversarial Learning ( http://arxiv.org/abs/2105.00495v1 ) ライセンス: Link先を確認 | Luke Chang, Katharina Dost, Kaiqi Zhao, Ambra Demontis, Fabio Roli, Gill Dobbie, J\"org Wicker | (参考訳) 機械学習モデルを敵の攻撃から守ることは依然として課題である。
異なる防御法が提案されているが、そのほとんどは特定のMLモデルや敵攻撃に適合しているため、その有効性と適用性は極めて限られている。
定量的構造-活性関係(QSAR)モデルは、既知の効果を持つ非常に限られた量の化合物で訓練されているため、化学領域全体の生物活動を予測するのに苦労する。
この問題は、モデルに不適な化合物を拒絶するApplicability Domain (AD)と呼ばれるテクニックによって緩和される。
敵の例は、モデルが分類することを学ばない盲点を利用する故意に作られた入力であり、敵の防御はこれらの盲点をカバーすることによって分類器をより堅牢にしようとする。
ADと対人防御には明らかな類似点がある。
適用可能性: 異常値、すなわち、モデルの意図されたユースケースに適合しない入力、信頼性: トレーニングデータから遠く離れたサンプル、そして決定可能性: 予測が近隣の予測と矛盾するサンプル。
本稿では、実証分析により、MLモデルの脆弱性を敵例に効果的に還元する方法を示す。 Defending machine learning models from adversarial attacks is still a challenge: none of the robust models is utterly immune to adversarial examples to date. Different defences have been proposed; however, most of them are tailored to particular ML models and adversarial attacks, therefore their effectiveness and applicability are strongly limited. A similar problem plagues cheminformatics: Quantitative Structure-Activity Relationship (QSAR) models struggle to predict biological activity for the entire chemical space because they are trained on a very limited amount of compounds with known effects. This problem is relieved with a technique called Applicability Domain (AD), which rejects the unsuitable compounds for the model. Adversarial examples are intentionally crafted inputs that exploit the blind spots which the model has not learned to classify, and adversarial defences try to make the classifier more robust by covering these blind spots. There is an apparent similarity between AD and adversarial defences. Inspired by the concept of AD, we propose a multi-stage data-driven defence that is testing for: Applicability: abnormal values, namely inputs not compliant with the intended use case of the model; Reliability: samples far from the training data; and Decidability: samples whose predictions contradict the predictions of their neighbours.It can be applied to any classification model and is not limited to specific types of adversarial attacks. With an empirical analysis, this paper demonstrates how Applicability Domain can effectively reduce the vulnerability of ML models to adversarial examples. | 翻訳日:2021-05-04 13:41:35 公開日:2021-05-02 |
# 横走跳躍戦略の発見 Discovering Diverse Athletic Jumping Strategies ( http://arxiv.org/abs/2105.00371v1 ) ライセンス: Link先を確認 | Zhiqi Yin, Zeshi Yang, Michiel van de Panne, KangKang Yin | (参考訳) 本稿では,ハイジャンプなどの運動スキルの多様で自然な運動戦略の発見を可能にする枠組みを提案する。
これらの戦略は物理ベースの文字の制御ポリシーとして実現される。
タスク目標と初期文字設定が与えられた場合,物理シミュレーションと深部強化学習(DRL)を組み合わせることで,自動制御ポリシトレーニングの出発点となる。
現実的な人間の動作の学習を容易にするため,自然ポーズのサブ空間に動作を制約するP-VAE(Pose Variational Autoencoder)を提案する。
動作模倣法とは対照的に、サンプル効率のよいベイズ多様性探索(BDS)アルゴリズムにより、初期文字状態を調べることによって、様々な新しい戦略が自然に現れる。
新たなポリシーを促進する最適化の第2段階は、発見されたユニークな戦略をさらに強化することができる。
提案手法は,運動例のないハイジャンプや障害物ジャンプなどの運動跳躍動作の多様かつ斬新な戦略を,先行研究よりも少ない報酬工学で発見することを可能にする。 We present a framework that enables the discovery of diverse and natural-looking motion strategies for athletic skills such as the high jump. The strategies are realized as control policies for physics-based characters. Given a task objective and an initial character configuration, the combination of physics simulation and deep reinforcement learning (DRL) provides a suitable starting point for automatic control policy training. To facilitate the learning of realistic human motions, we propose a Pose Variational Autoencoder (P-VAE) to constrain the actions to a subspace of natural poses. In contrast to motion imitation methods, a rich variety of novel strategies can naturally emerge by exploring initial character states through a sample-efficient Bayesian diversity search (BDS) algorithm. A second stage of optimization that encourages novel policies can further enrich the unique strategies discovered. Our method allows for the discovery of diverse and novel strategies for athletic jumping motions such as high jumps and obstacle jumps with no motion examples and less reward engineering than prior work. | 翻訳日:2021-05-04 13:37:00 公開日:2021-05-02 |
# ランダムエッジグラフニューラルネットワークのためのメタラーニングによる高速電力制御適応 Fast Power Control Adaptation via Meta-Learning for Random Edge Graph Neural Networks ( http://arxiv.org/abs/2105.00459v1 ) ライセンス: Link先を確認 | Ivana Nikoloska and Osvaldo Simeone | (参考訳) 分散無線ネットワークにおける電力制御は、任意の干渉グラフの平均和率の最大化として定式化されると複雑な確率的最適化問題を引き起こす。
近年、グラフニューラルネットワーク(GNN)を利用したデータ駆動設計手法を導入し、電力制御ポリシマッピングチャネル状態情報(CSI)を電力ベクトルに効率的にパラメータ化している。
ランダムエッジGNN(REGNN)として知られる特定のGNNアーキテクチャは、空間重みがチャネル係数に結びついている非線形グラフ畳み込みアーキテクチャを定義し、チャネル条件への直接適応を可能にする。
本稿では,電力制御政策の時間変動トポロジへの高速適応を実現するための高レベル問題について検討する。
そこで我々は,新しいネットワーク構成への数ショット適応を最適化するために,複数のトポロジのデータに一階のメタラーニングを適用した。 Power control in decentralized wireless networks poses a complex stochastic optimization problem when formulated as the maximization of the average sum rate for arbitrary interference graphs. Recent work has introduced data-driven design methods that leverage graph neural network (GNN) to efficiently parametrize the power control policy mapping channel state information (CSI) to the power vector. The specific GNN architecture, known as random edge GNN (REGNN), defines a non-linear graph convolutional architecture whose spatial weights are tied to the channel coefficients, enabling a direct adaption to channel conditions. This paper studies the higher-level problem of enabling fast adaption of the power control policy to time-varying topologies. To this end, we apply first-order meta-learning on data from multiple topologies with the aim of optimizing for a few-shot adaptation to new network configurations. | 翻訳日:2021-05-04 13:36:44 公開日:2021-05-02 |
# 対向タスク拡張によるクロスドメインFew-Shot分類 Cross-Domain Few-Shot Classification via Adversarial Task Augmentation ( http://arxiv.org/abs/2104.14385v2 ) ライセンス: Link先を確認 | Haoqing Wang, Zhi-Hong Deng | (参考訳) ほとんどショットの分類は、各クラスからラベル付きサンプルがほとんどない未確認のクラスを認識することを目的としている。
多くのメタラーニングモデルは、タスク共有誘導バイアス(meta-knowledge)を精巧に設計し、そのようなタスクを解決し、印象的なパフォーマンスを達成する。
しかし、トレーニングタスクとテストタスクの間にドメインシフトが存在する場合、得られた帰納的バイアスはドメイン全体に一般化できず、メタラーニングモデルの性能が低下する。
本研究では,タスク強化による帰納的バイアスの堅牢性の向上を目指す。
具体的には,ソースタスクの分散に関する最悪の問題について考察し,帰納的バイアス適応型「チャリング」タスクを生成できる逆タスク拡張手法を提案する。
本手法は,様々なメタラーニングモデルのためのシンプルなプラグイン・アンド・プレイモジュールとして利用でき,ドメイン間の一般化能力を向上させることができる。
我々は,mini-imagenet, cub, cars, places, plantae, cropdiseases, eurosat, isic, chestxの9つの少数ショット分類データセットを用いて,クロスドメイン環境で広範な実験を行う。
実験結果から,メタラーニングモデルのドメインシフト下での分類性能を効果的に向上し,既存手法よりも優れることが示された。
私たちのコードはhttps://github.com/Haoqing-Wang/CDFSL-ATAで利用可能です。 Few-shot classification aims to recognize unseen classes with few labeled samples from each class. Many meta-learning models for few-shot classification elaborately design various task-shared inductive bias (meta-knowledge) to solve such tasks, and achieve impressive performance. However, when there exists the domain shift between the training tasks and the test tasks, the obtained inductive bias fails to generalize across domains, which degrades the performance of the meta-learning models. In this work, we aim to improve the robustness of the inductive bias through task augmentation. Concretely, we consider the worst-case problem around the source task distribution, and propose the adversarial task augmentation method which can generate the inductive bias-adaptive 'challenging' tasks. Our method can be used as a simple plug-and-play module for various meta-learning models, and improve their cross-domain generalization capability. We conduct extensive experiments under the cross-domain setting, using nine few-shot classification datasets: mini-ImageNet, CUB, Cars, Places, Plantae, CropDiseases, EuroSAT, ISIC and ChestX. Experimental results show that our method can effectively improve the few-shot classification performance of the meta-learning models under domain shift, and outperforms the existing works. Our code is available at https://github.com/Haoqing-Wang/CDFSL-ATA. | 翻訳日:2021-05-04 10:48:03 公開日:2021-05-02 |