このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210916となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Kelly Betting with Quantum Payoff: 継続的変数アプローチ Kelly Betting with Quantum Payoff: a continuous variable approach ( http://arxiv.org/abs/2001.11395v6 ) ライセンス: Link先を確認 | Salvatore Tirone, Maddalena Ghio, Giulia Livieri, Vittorio Giovannetti, Stefano Marmi | (参考訳) 本研究の目的は,従来の手法と異なり,ギャンブラーの報酬を量子記憶要素の内部自由度に符号化するベッティングシナリオを記述する半古典的モデルを導入することである。
提案手法では,投資資本は電磁放射の単一モードの自由エネルギー(すなわちアラーベルジャン,バリアン,ニウウェインイゼンによって機能するエルゴトロピー)の量子アナログと明示的に関連していると仮定し,賭けの結果に応じて損失や勝利イベントをモデル化する減衰や増幅過程を経験する。
その結果生じる量子記憶の確率的進化は、ボソニックガウスチャネルの理論的な設定の中で特徴付けられるランダムな発散のダイナミクスに似ている。
古典的な最適な賭けのためのケリー基準と同様に、モデルの漸近的倍率を定義し、固定確率と勝利確率に対する最適なギャンブル戦略を特定する。
したがって、モデルの性能は入力資本状態の関数として研究され、後者はガウス密度行列の集合(すなわち、変位、圧縮された熱ギブス状態)に属すると仮定され、ギャンブラーにとって最善の選択肢は、全ての彼女/彼の初期資源をコヒーレントな状態振幅に割り当てることである。 The main purpose of this study is to introduce a semi-classical model describing betting scenarios in which, at variance with conventional approaches, the payoff of the gambler is encoded into the internal degrees of freedom of a quantum memory element. In our scheme, we assume that the invested capital is explicitly associated with the quantum analog of the free-energy (i.e. ergotropy functional by Allahverdyan, Balian, and Nieuwenhuizen) of a single mode of the electromagnetic radiation which, depending on the outcome of the betting, experiences attenuation or amplification processes which model losses and winning events. The resulting stochastic evolution of the quantum memory resembles the dynamics of random lasing which we characterize within the theoretical setting of Bosonic Gaussian channels. As in the classical Kelly Criterion for optimal betting, we define the asymptotic doubling rate of the model and identify the optimal gambling strategy for fixed odds and probabilities of winning. The performance of the model are hence studied as a function of the input capital state under the assumption that the latter belongs to the set of Gaussian density matrices (i.e. displaced, squeezed thermal Gibbs states) revealing that the best option for the gambler is to devote all her/his initial resources into coherent state amplitude. | 翻訳日:2023-06-05 04:42:22 公開日:2021-09-16 |
# 導波路qedにおけるフラストレーション誘起異常輸送と強い光子減衰 Frustration-induced anomalous transport and strong photon decay in waveguide QED ( http://arxiv.org/abs/2007.03690v3 ) ライセンス: Link先を確認 | Ron Belyansky, Seth Whitsitt, Rex Lundgren, Yidan Wang, Andrei Vrajitoarea, Andrew A. Houck, Alexey V. Gorshkov | (参考訳) 2種類の非相互作用型光子の1次元環境下での光子の伝播について検討した。
超強いフラストレーション結合は光と物質の自由度を極端に混合させ、スピンの崩壊と「ドレススピン」または「ポーラロン」の記述の崩壊をもたらす。
数値的手法と解析的手法の組み合わせを用いて, 有効スピン周波数では弾性応答がますます弱くなり, 高エネルギーでの広帯域応答が増大することを示した。
また、光子はより小さなエネルギーの複数の光子に崩壊することを示した。
これらの非弾性過程のトータル確率は、トータル弾性散乱率、またはトータル散乱率の半分程度であり、トータル散乱率はできる限り大きい。
フラストレーションスピンは、種間相互作用によって支配される強い異方性光子-光子相互作用を誘導する。
本研究は最先端回路とキャビティ量子電磁力学実験に関連している。 We study the propagation of photons in a one-dimensional environment consisting of two non-interacting species of photons frustratingly coupled to a single spin-1/2. The ultrastrong frustrated coupling leads to an extreme mixing of the light and matter degrees of freedom, resulting in the disintegration of the spin and a breakdown of the "dressed-spin", or polaron, description. Using a combination of numerical and analytical methods, we show that the elastic response becomes increasingly weak at the effective spin frequency, showing instead an increasingly strong and broadband response at higher energies. We also show that the photons can decay into multiple photons of smaller energies. The total probability of these inelastic processes can be as large as the total elastic scattering rate, or half of the total scattering rate, which is as large as it can be. The frustrated spin induces strong anisotropic photon-photon interactions that are dominated by inter-species interactions. Our results are relevant to state-of-the-art circuit and cavity quantum electrodynamics experiments. | 翻訳日:2023-05-11 01:29:47 公開日:2021-09-16 |
# 超ロバスト非断熱幾何量子制御 Super-robust nonadiabatic geometric quantum control ( http://arxiv.org/abs/2008.02176v3 ) ライセンス: Link先を確認 | Bao-Jie Liu, Yuan-Sheng Wang, Man-Hong Yung | (参考訳) nonadiabatic geometric quantum computation (ngqc) と nonadiabatic holonomic quantum computation (nhqc) は、幾何学的量子ゲートの実行時間を短縮するために提案されている。
しかしながら、実験的な制御誤差に対する堅牢性の観点からは、既存のNGQCとNHQCのシナリオは、ほとんどの場合、標準的な動的ゲートよりも有利ではない。
そこで本研究では,非調和幾何ゲートが制御誤差に敏感な理由を示し,さらにスーパーロバスト幾何量子制御のスキームを提案し,超ロバスト条件が幾何学ゲートの高速と頑健性の両方を保証できることを示す。
超ロバストな量子ゲートの動作機構を説明するために,2レベルおよび3レベル量子系のSR-NGQCとSR-NHQCの2つの簡単な例を示す。
実験パラメータを用いた理論的および数値的な結果から,従来のNGQC, NHQC, および標準的な動的スキームと比較して, ゲート性能を著しく向上できることが示された。
超ロバストな幾何学的量子計算は超伝導量子ビット、量子ドット、閉じ込められたイオンなどの様々な物理プラットフォームに適用することができる。
これらの全ては、我々のスキームが堅牢な幾何学的量子計算への有望な方法をもたらすことを十分に示している。 Nonadiabatic geometric quantum computation (NGQC) and nonadiabatic holonomic quantum computation (NHQC) have been proposed to reduce the run time of geometric quantum gates. However, in terms of robustness against experimental control errors, the existing NGQC and NHQC scenarios have no advantage over standard dynamical gates in most cases. Here, we give the reasons why nonadiabatic geometric gates are sensitive to the control errors and, further, we propose a scheme of super-robust nonadiabatic geometric quantum control, in which the super-robust condition can guarantee both high speed and robustness of the geometric gate. To illustrate the working mechanism of super-robust geometric quantum gates, we give two simple examples of SR-NGQC and SR-NHQC for two- and three-level quantum systems, respectively. Theoretical and numerical results with the experimental parameters indicate that our scheme can significantly improve the gate performance compared to the previous NGQC, NHQC, and standard dynamical schemes. Super-robust geometric quantum computation can be applied to various physical platforms such as superconducting qubits, quantum dots, and trapped ions. All of these sufficiently show that our scheme provides a promising way towards robust geometric quantum computation. | 翻訳日:2023-05-07 02:14:14 公開日:2021-09-16 |
# あらゆる場所を包含する:OSSにおける地理学的ジェンダー包摂の機会と課題を理解する Including Everyone, Everywhere: Understanding Opportunities and Challenges of Geographic Gender-Inclusion in OSS ( http://arxiv.org/abs/2010.00822v2 ) ライセンス: Link先を確認 | Gede Artha Azriadi Prana, Denae Ford, Ayushi Rastogi, David Lo, Rahul Purandare, Nachiappan Nagappan | (参考訳) ジェンダーギャップは、開発が地理的に分散するにつれて、ソフトウェア産業が直面する重要な関心事である。
広く共有された報告は、性別の違いが各地域特有のものであることを示唆している。
しかしながら、これらのレポートは、オープンソースソフトウェア(OSS)プロセスとコミュニティソフトウェアを反映した研究をほとんど、あるいは全く反映せずに、どの程度完成できるのだろうか?
本研究は,GitHubにおけるジェンダーインクルージョンの多地域的地理的分析である。
この混合メソッドのアプローチは、地理的領域にわたるプロジェクトにおけるジェンダーインクルージョンの違いを定量的に調査し、21,456のプロジェクトレポジトリへのコントリビューションのデータを用いて、時間とともにこれらのトレンドを調査する。
また、世界中の各地域の開発者が戦略的にターゲットとする調査を通じて、これらのプロジェクトに貢献する開発者のユニークな経験を質的に理解しています。
以上の結果から,男女の多様性は全地域において低く,地域間で有意な差はみられなかった。
しかし、2014年以降、世界の多様性は統計的に著しく改善され、アフリカなど一部の地域はより速いペースで改善されている。
また、ほとんどのモチベーションと貢献の障壁(例えば、貢献するリソースの欠如と作業環境の貧弱さ)が地域間で共有されていることも分かりましたが、プロジェクトをより包括的にする方法など、いくつかの洞察に富んだ違いが生まれました。
これらの結果から,オープンソースソフトウェアコミュニティへの参加を奨励し,あらゆる場所からのコントリビューションを促進するツールを考案し,提示する。 The gender gap is a significant concern facing the software industry as the development becomes more geographically distributed. Widely shared reports indicate that gender differences may be specific to each region. However, how complete can these reports be with little to no research reflective of the Open Source Software (OSS) process and communities software is now commonly developed in? Our study presents a multi-region geographical analysis of gender inclusion on GitHub. This mixed-methods approach includes quantitatively investigating differences in gender inclusion in projects across geographic regions and investigate these trends over time using data from contributions to 21,456 project repositories. We also qualitatively understand the unique experiences of developers contributing to these projects through a survey that is strategically targeted to developers in various regions worldwide. Our findings indicate that gender diversity is low across all parts of the world, with no substantial difference across regions. However, there has been statistically significant improvement in diversity worldwide since 2014, with certain regions such as Africa improving at faster pace. We also find that most motivations and barriers to contributions (e.g., lack of resources to contribute and poor working environment) were shared across regions, however, some insightful differences, such as how to make projects more inclusive, did arise. From these findings, we derive and present implications for tools that can foster inclusion in open source software communities and empower contributions from everyone, everywhere. | 翻訳日:2023-04-30 04:09:48 公開日:2021-09-16 |
# 近接量子デバイスにおける指数誤差抑制 Exponential Error Suppression for Near-Term Quantum Devices ( http://arxiv.org/abs/2011.05942v4 ) ライセンス: Link先を確認 | B\'alint Koczor | (参考訳) 量子コンピュータが成熟するにつれて、量子エラー訂正符号 (qecs) が採用され、1/e$のポリ対数である qubit-count $n$ のコストで任意の所望のレベル $e$ のエラーを抑制する。
しかし、NISQ時代には、最小のQECでさえ採用するために必要な複雑さと規模は禁じられている。
一般的に、これはクォービット数の増加を必要としないが、指数的なエラー抑制を提供することはできない。
ここでは、観測可能量の期待値(ほぼすべてのNISQアルゴリズムのキー)を推定する決定的なケースにおいて、実効的な指数的抑制を実現することができることを示す。
量子ビット数を$n\geq 2$で増やすことで、誤差は指数関数的に$q^n$に抑えられ、$q<1$は誤差のエントロピーに依存する抑制因子である。
ESDアプローチでは、独立に準備された回路出力を$n$とし、制御された分散演算子を適用して、対称性が誤った状態が期待値に寄与するのを防ぐ状態を生成する。
したがってこのアプローチは、主計算においてモジュラーであるため‘NISQフレンドリ’であり、測定直前に$n$コピーをブリッジする浅い回路のみを必要とする。
そこで,本回路における不完全性は性能を低下させるため,この効果を任意の精度に緩和する手法を提案する。
a) 基本ゲートの線形数に分解すること -- 騒音の影響を制限すること
b) 騒音に対して非常に弾力性があり、それらに対する不完全性の影響は(ほとんど)自明である。
本手法を検証した数値シミュレーションでは,数百個のノイズゲート(2量子ゲート誤差0.5\%$)からなる回路に対して,$n=4$回路コピーを使用せずに10〜6$以下の誤差抑制を確認できる。 As quantum computers mature, quantum error correcting codes (QECs) will be adopted in order to suppress errors to any desired level $E$ at a cost in qubit-count $n$ that is merely poly-logarithmic in $1/E$. However in the NISQ era, the complexity and scale required to adopt even the smallest QEC is prohibitive. Instead, error mitigation techniques have been employed; typically these do not require an increase in qubit-count but cannot provide exponential error suppression. Here we show that, for the crucial case of estimating expectation values of observables (key to almost all NISQ algorithms) one can indeed achieve an effective exponential suppression. We introduce the Error Suppression by Derangement (ESD) approach: by increasing the qubit count by a factor of $n\geq 2$, the error is suppressed exponentially as $Q^n$ where $Q<1$ is a suppression factor that depends on the entropy of the errors. The ESD approach takes $n$ independently-prepared circuit outputs and applies a controlled derangement operator to create a state whose symmetries prevent erroneous states from contributing to expected values. The approach is therefore `NISQ-friendly' as it is modular in the main computation and requires only a shallow circuit that bridges the $n$ copies immediately prior to measurement. Imperfections in our derangement circuit do degrade performance and therefore we propose an approach to mitigate this effect to arbitrary precision due to the remarkable properties of derangements. a) they decompose into a linear number of elementary gates -- limiting the impact of noise b) they are highly resilient to noise and the effect of imperfections on them is (almost) trivial. In numerical simulations validating our approach we confirm error suppression below $10^{-6}$ for circuits consisting of several hundred noisy gates (two-qubit gate error $0.5\%$) using no more than $n=4$ circuit copies. | 翻訳日:2023-04-24 11:43:17 公開日:2021-09-16 |
# ファラデー回転と反復フィードバックを用いた超低温原子試料中の数ゆらぎの低減 Reducing number fluctuations in an ultracold atomic sample using Faraday rotation and iterative feedback ( http://arxiv.org/abs/2102.01773v2 ) ライセンス: Link先を確認 | R. Thomas, J. S. Otto, M. Chilcott, A.B. Deb, and N. Kj{\ae}rgaard | (参考訳) 実時間フィードバックを用いて超低温原子試料中の数変動を低減する方法を示す。
ポラリメトリックな設定で1対の雪崩光検出器を用いて、オフ共振プローブレーザビームのファラデー回転を測定することにより、試料中の原子数を表すプロキシを生成する。
試料から過剰な原子のごく一部を反復的に除去し、ターゲットのプロキシ値に収束させ、環境摂動に敏感で光偏光の誤差に頑健な方法で分解する。
ループ外検証のために吸収イメージングを用いて、温度変動、ビームポインティングノイズ、光子ショットノイズによって制限された数時間の時間スケールにおいて、サンプルの温度が16.4$\mu$Kで3.45$%から0.45$%に減少することを示した。 We demonstrate a method to reduce number fluctuations in an ultracold atomic sample using real-time feedback. By measuring the Faraday rotation of an off-resonant probe laser beam with a pair of avalanche photodetectors in a polarimetric setup we produce a proxy for the number of atoms in the sample. We iteratively remove a fraction of the excess atoms from the sample to converge on a target proxy value in a way that is insensitive to environmental perturbations and robust to errors in light polarization. Using absorption imaging for out-of-loop verification, we demonstrate a reduction in the number fluctuations from $3\%$ to $0.45\%$ for samples at a temperature of 16.4 $\mu$K over the time-scale of several hours which is limited by temperature fluctuations, beam pointing noise, and photon shot noise. | 翻訳日:2023-04-13 00:20:17 公開日:2021-09-16 |
# 純エンタングル状態の触媒的変換 Catalytic Transformations of Pure Entangled States ( http://arxiv.org/abs/2102.11136v3 ) ライセンス: Link先を確認 | Tulja Varun Kondra, Chandan Datta, Alexander Streltsov | (参考訳) 純粋な状態の量子エンタングルメントは通常、縮約状態のフォン・ノイマンエントロピーであるエンタングルメントエントロピーによって定量化される。
絡み合いエントロピーは、量子状態を一重項に変換するプロセスである絡み合い蒸留と密接に関連しており、様々な量子技術タスクに使用できる。
エンタングルメント・エントロピーとエンタングルメント・蒸留との関係は漸近的にのみ知られており, シングルコピー体制におけるエンタングルメント・エントロピーの意味は未解明のままである。
ここでは、絡み合い触媒を考慮してこのギャップを閉じる。
絡み合いエントロピーは、絡み合う触媒の存在下で状態変換を完全に特徴づけることを証明する。
以上の結果から,量子情報処理に用いる二成分純状態における絡み合い量をエントロピーが定量化し,漸近的な結果が単一コピー設定においても操作的意味を持つことを示した。 Quantum entanglement of pure states is usually quantified via the entanglement entropy, the von Neumann entropy of the reduced state. Entanglement entropy is closely related to entanglement distillation, a process for converting quantum states into singlets, which can then be used for various quantum technological tasks. The relation between entanglement entropy and entanglement distillation has been known only for the asymptotic setting, and the meaning of entanglement entropy in the single-copy regime has so far remained open. Here we close this gap by considering entanglement catalysis. We prove that entanglement entropy completely characterizes state transformations in the presence of entangled catalysts. Our results imply that entanglement entropy quantifies the amount of entanglement available in a bipartite pure state to be used for quantum information processing, giving asymptotic results an operational meaning also in the single-copy setup. | 翻訳日:2023-04-10 05:51:27 公開日:2021-09-16 |
# 超伝導量子ビットの非エルミート力学における量子ジャンプ Quantum jumps in the non-Hermitian dynamics of a superconducting qubit ( http://arxiv.org/abs/2103.06274v3 ) ライセンス: Link先を確認 | Weijian Chen, Maryam Abbasi, Yogesh N. Joglekar, and Kater W. Murch | (参考訳) 古典対応を持たない純粋量子効果であるエネルギー準位間の量子ジャンプによって摂動する非エルミート超伝導量子ビットのダイナミクスについて検討した。
量子ジャンプは、デコヒーレンスにつながる量子ビット状態を混合する。
非エルミート固有エネルギーの立方根トポロジーのため、このデコヒーレンス速度は例外点付近で増大する。
非エルミートゲイン/ロスの影響とともに、量子ジャンプは減速運転限界の下での断熱進化の崩壊につながる。
本研究は,古典的非エルミート系のセンサと制御のための開放量子系への応用を一般化する上で,量子ジャンプの重要な役割を示す。 We study the dynamics of a driven non-Hermitian superconducting qubit which is perturbed by quantum jumps between energy levels, a purely quantum effect with no classical correspondence. The quantum jumps mix the qubit states leading to decoherence. We observe that this decoherence rate is enhanced near the exceptional point, owing to the cube-root topology of the non-Hermitian eigenenergies. Together with the effect of non-Hermitian gain/loss, quantum jumps can also lead to a breakdown of adiabatic evolution under the slow-driving limit. Our study shows the critical role of quantum jumps in generalizing the applications of classical non-Hermitian systems to open quantum systems for sensing and control. | 翻訳日:2023-04-08 13:34:22 公開日:2021-09-16 |
# 純度最小化による階数・量子エントロピー・忠実度・フィッシャー情報推定のための変分量子アルゴリズム Variational quantum algorithms to estimate rank, quantum entropies, fidelity and Fisher information via purity minimization ( http://arxiv.org/abs/2103.15956v2 ) ライセンス: Link先を確認 | Kok Chuan Tan, Tyler Volkoff | (参考訳) 階数、量子エントロピー、ベール忠実度、混合量子状態の量子フィッシャー情報など、広く使われている物理量の値を推定する変分量子アルゴリズム(vqas)を開発した。
さらに、これらのVQAのバリエーションは、量子状態学習や近似分数逆といった他の有用な関数の実行にも適応される。
提案アルゴリズムで共有される共通テーマは、コスト関数はすべて量子状態の量子純度を最小化することに基づいている。
コスト関数勾配を指数関数的に消失させる問題を緩和または回避する戦略についても論じる。 Variational quantum algorithms (VQAs) that estimate values of widely used physical quantities such as the rank, quantum entropies, the Bures fidelity and the quantum Fisher information of mixed quantum states are developed. In addition, variations of these VQAs are also adapted to perform other useful functions such as quantum state learning and approximate fractional inverses. The common theme shared by the proposed algorithms is that their cost functions are all based on minimizing the quantum purity of a quantum state. Strategies to mitigate or avoid the problem of exponentially vanishing cost function gradients are also discussed. | 翻訳日:2023-04-06 05:41:01 公開日:2021-09-16 |
# 3つの結合量子ビットの定常状態の量子資源:顕微鏡と現象モデル Quantum resources of the steady-state of three coupled qubits: Microscopic versus Phenomenological model ( http://arxiv.org/abs/2104.07765v2 ) ライセンス: Link先を確認 | E. C. Diniz, A. C. S. Costa, L. K. Castelano | (参考訳) 定常状態構成における3つの結合量子ビットに対して、絡み合い、ステアリング、ベル非局所性などの量子資源を評価する。
現象論的マスター方程式と微視的マスター方程式を用いて、そのような量子資源を探索し、システム構成によって非常に異なる結果を与える。
特に、ステアリングとベル非局所性は現象学モデルではヌルであり、顕微鏡モデルではかなりの値に達する。
これらの結果は、現象学的アプローチがシステムの全ての量子資源を捉えることができないことを示している。
また、ゼロ温度限界における3つの結合量子ビットからなるシステムの定常状態および量子資源の解析式を提供する。
このような結果は、2つの量子ビット間の量子資源が、非自明な方法で第3量子ビットに強く影響を受けることを示す。 Quantum resources, such as entanglement, steering, and Bell nonlocality, are evaluated for three coupled qubits in the steady-state configuration. We employ the phenomenological master equation and the microscopic master equation to probe such quantum resources, which provide very different results depending on the system configuration. In particular, steering and Bell nonlocality are null within the phenomenological model, while they reach considerable values within the microscopic model. These results show that the phenomenological approach is not able to capture all quantum resources of the system. We also provide an analytical expression for the steady-state and quantum resources of the system composed of three coupled qubits in the zero temperature limit. Such results demonstrate that quantum resources between two qubits are strongly affected by the third qubit in a nontrivial way. | 翻訳日:2023-04-03 18:06:49 公開日:2021-09-16 |
# 古典的通信の有限個のラウンドによる局所演算による量子ネットワークの変換 Transformations in quantum networks via local operations assisted by finitely many rounds of classical communication ( http://arxiv.org/abs/2105.01090v2 ) ライセンス: Link先を確認 | Cornelia Spee, Tristan Kraft | (参考訳) 近年の進歩は、量子インターネットの最初のプロトタイプに繋がったが、この量子インターネットは、高いフィディティを持つ2成分の絡み合った状態を生成するソースによって、絡み合いが分配される。
これは、局所演算と古典的通信を用いて二成分源に基づく量子ネットワークにおいて、どの状態を生成することができるかという疑問を提起する。
本研究では,局所演算の有限ラウンドにおける状態変換と,最大絡み合った2量子状態に基づくネットワークにおける古典的通信について検討する。
まず、任意のネットワーク構造の対称性を導出し、どの変換が可能かを決定する。
そして、同じ絡み合いクラス内の任意の状態に到達できることが既に示されている木グラフとは対照的に、ネットワークがサイクルを含む場合、確率的に到達できるが決定的に到達できない状態が存在することを示す。
さらに、サイクルからなるネットワークでは到達できない状態を決定するための体系的な方法を提供する。
さらに、各プロトコルが1回しか測定できず、プロトコルの各ステップが決定論的に変換されるようなプロトコルを用いて、サイクルネットワークで到達可能な状態の完全な特徴付けを提供する。
最後に,このような単純なプロトコルでは到達できない例を示す。 Recent advances have lead towards first prototypes of a quantum internet in which entanglement is distributed by sources producing bipartite entangled states with high fidelities. This raises the question which states can be generated in quantum networks based on bipartite sources using local operations and classical communication. In this work we study state transformations under finite rounds of local operations and classical communication in networks based on maximally entangled two-qubit states. We first derive the symmetries for arbitrary network structures as these determine which transformations are possible. Then we show that contrary to tree graphs for which it has already been shown that any state within the same entanglement class can be reached there exist states which can be reached probabilistically but not deterministically if the network contains a cycle. Furthermore, we provide a systematic way to determine states which are not reachable in networks consisting of a cycle. Moreover, we provide a complete characterization of the states which can be reached in a cycle network with a protocol where each party measures only once and each step of the protocol results in a deterministic transformation. Finally, we present an example which cannot be reached with such a simple protocol. | 翻訳日:2023-04-01 17:40:05 公開日:2021-09-16 |
# 基本重量系は量子状態である Fundamental weight systems are quantum states ( http://arxiv.org/abs/2105.02871v2 ) ライセンス: Link先を確認 | David Corfield, Hisham Sati, Urs Schreiber | (参考訳) コードダイアグラム上の重み系は結び目理論やチャーン・サイモンズ理論において中心的な役割を果たす。
水平コードダイアグラムの非可換代数が正の星環であることを強調し、この構造に関してどの重み系が正であるかを問う。したがって、水平コードダイアグラムが量子可観測性である場合、どの重み系が量子状態であるかを問う。
我々は、N 要素上の対称群上の逆温度ベータ=ln(n) において、N ストランドを持つ水平コードダイアグラム上の基本的な gl(n)-重み付き系がケイリー距離核と同一視可能であることを観察する。
Mallowsカーネルのような関連するカーネルとは対照的に、ケイリー距離カーネルの肯定性は未開のままであった。
逆温度ベータに依存して不定、半定、定値の正の位相を特徴づけ、すべての n=1,2,3, ... に対してケイリー距離核が正(半定値)であることを示す。
特に、これはすべての基本的なgl(n)-重み付け系が量子状態であることを証明する。
我々は、"Hypothesis H"の下で、この結果が複数のM5-ブレーンの有界状態の同定にどのように影響するかを簡潔に思い出す。 Weight systems on chord diagrams play a central role in knot theory and Chern-Simons theory; and more recently in stringy quantum gravity. We highlight that the noncommutative algebra of horizontal chord diagrams is canonically a star-algebra, and ask which weight systems are positive with respect to this structure; hence we ask: Which weight systems are quantum states, if horizontal chord diagrams are quantum observables? We observe that the fundamental gl(n)-weight systems on horizontal chord diagrams with N strands may be identified with the Cayley distance kernel at inverse temperature beta=ln(n) on the symmetric group on N elements. In contrast to related kernels like the Mallows kernel, the positivity of the Cayley distance kernel had remained open. We characterize its phases of indefinite, semi-definite and definite positivity, in dependence of the inverse temperature beta; and we prove that the Cayley distance kernel is positive (semi-)definite at beta=ln(n) for all n=1,2,3,... In particular, this proves that all fundamental gl(n)-weight systems are quantum states, and hence so are all their convex combinations. We close with briefly recalling how, under our "Hypothesis H", this result impacts on the identification of bound states of multiple M5-branes. | 翻訳日:2023-04-01 07:40:10 公開日:2021-09-16 |
# ガウス連続変数等方状態 Gaussian Continuous-Variable Isotropic State ( http://arxiv.org/abs/2105.03141v3 ) ライセンス: Link先を確認 | Maria Poxleitner and Haye Hinrichsen | (参考訳) Mi\v{s}ta et al によって導入された等方状態の非ガウス的2パラメータ連続変数アナログの定義に着想を得た。
[Phys. A, 65, 062315 (2002); arXiv:quant-ph/0112062] では、この状態のガウス部分自体を独立状態とし、単純であるが、等方状態の2モードガウス類似の相関構造に関する興味深い例を示す。
熱的および絡み合った密度作用素の凸結合として定義される従来の等方性状態とは異なり、ここで研究されているガウス版は対応する共分散行列の凸結合によって定義され、混合確率によって制御される付加ガウス雑音を伴う絡み合った純状態として理解することができる。
様々な絡み合い基準と測度を用いて, この状態に含まれる非古典的相関について検討する。
以前に研究された非ガウスの 2-パラメトリック等方性状態とは異なり、ガウス状態は、絡み合いが設定されるパラメータ空間に有限しきい値を持つ。
特に、有限次元の2量子等方性状態として類似の現象論を示すことが判明した。 Inspired by the definition of the non-Gaussian two-parametric continuous variable analogue of an isotropic state introduced by Mi\v{s}ta et al. [Phys. Rev. A, 65, 062315 (2002); arXiv:quant-ph/0112062], we propose to take the Gaussian part of this state as an independent state by itself, which yields a simple, but with respect to the correlation structure interesting example of a two-mode Gaussian analogue of an isotropic state. Unlike conventional isotropic states which are defined as a convex combination of a thermal and an entangled density operator, the Gaussian version studied here is defined by a convex combination of the corresponding covariance matrices and can be understood as entangled pure state with additional Gaussian noise controlled by a mixing probability. Using various entanglement criteria and measures, we study the non-classical correlations contained in this state. Unlike the previously studied non-Gaussian two-parametric isotropic state, the Gaussian state considered here features a finite threshold in the parameter space where entanglement sets in. In particular, it turns out that it exhibits an analogous phenomenology as the finite-dimensional two-qubit isotropic state. | 翻訳日:2023-04-01 05:43:47 公開日:2021-09-16 |
# 二次元ボースおよびフェルミ超コールド混合物の少数体相関 Few-body correlations in two-dimensional Bose and Fermi ultracold mixtures ( http://arxiv.org/abs/2105.05033v3 ) ライセンス: Link先を確認 | G. Bougas, S. I. Mistakidis, P. Giannakeas, and P. Schmelcher | (参考訳) 2次元調和的に捕捉された混合物に出現する少数体相関を包括的に研究した。
トラップの存在は、トリマーに加えて、原子二量体とトラップ状態の形成につながる。
これらの固有状態のタンの接触は、様々な種間散乱長と質量比について研究され、対応する解析的洞察は断熱的な超球面形式論の中で提供される。
トリマー状態の2体および3体相関は、他の固有状態と比較して著しく高められる。
原子二量体とトラップ状態の2体接触は、統計によらず上界を特徴とし、半古典的に扱われ、大きな散乱長の限界における解析的予測を持つ。
このような上界は3体接触では欠落する。
興味深いことに、種間散乱長を調整することで、接触は原子二量体として発振し、トラップ状態はエネルギースペクトルの既存の回避交差を通して特性を変化させる。
熱ガスについては、熱効果の影響を示す2体と3体の相関関係を段階的に抑制する。
さらに, 局所構造から角異方性パターンまで, 異なる固有状態の空間的構成を捉えた。
本研究は,近年の超低温原子実験で実施され,少数原子系から多原子系へのクロスオーバーの探索に特に有用である小体混合物の相関機構に関する貴重な知見を提供する。 Few-body correlations emerging in two-dimensional harmonically trapped mixtures, are comprehensively investigated. The presence of the trap leads to the formation of atom-dimer and trap states, in addition to trimers. The Tan's contacts of these eigenstates are studied for varying interspecies scattering lengths and mass ratio, while corresponding analytical insights are provided within the adiabatic hyperspherical formalism. The two- and three-body correlations of trimer states are substantially enhanced compared to the other eigenstates. The two-body contact of the atom-dimer and trap states features an upper bound regardless of the statistics, treated semi-classically and having an analytical prediction in the limit of large scattering lengths. Such an upper bound is absent in the three-body contact. Interestingly, by tuning the interspecies scattering length the contacts oscillate as the atom-dimer and trap states change character through the existent avoided-crossings in the energy spectra. For thermal gases, a gradual suppression of the involved two- and three-body correlations is evinced manifesting the impact of thermal effects. Moreover, spatial configurations of the distinct eigenstates ranging from localized structures to angular anisotropic patterns are captured. Our results provide valuable insights into the inherent correlation mechanisms of few-body mixtures which can be implemented in recent ultracold atom experiments and will be especially useful for probing the crossover from few- to many-atom systems. | 翻訳日:2023-03-31 20:57:46 公開日:2021-09-16 |
# 超伝導量子回路とサブラジアント量子ビットの相互作用のチューニングと増幅 Tuning and Amplifying the Interactions in Superconducting Quantum Circuits with Subradiant Qubits ( http://arxiv.org/abs/2107.01842v2 ) ライセンス: Link先を確認 | Qi-Ming Chen and Florian Fesquet and Kedar E. Honasoge and Fabian Kronowetter and Yuki Nojiri and Michael Renger and Kirill G. Fedorov and Achim Marx and Frank Deppe and Rudolf Gross | (参考訳) 2つの超伝導量子回路間の効果的な相互作用をチューニングし、増幅するn個の固定周波数量子ビットからなる可変結合器を提案する。
相互作用のチューニング範囲は N に比例し、最小値は 0 であり、カプラと回路の間の物理的結合速度を超える最大値である。
効果的なカップリング速度は、離散値のみを取り、集合的崩壊やデコヒーレンスのない量子ビットアンサンブルの集団的磁気量子数によって決定される。
単光子 pi-pulses を用いて、カップリングレートは、中間値を通過することなく、単一のステップで動的範囲内の初期値と最終値の任意の選択に切り替えることができる。
小さい相互作用や弱いシグナルを増幅するためのカップルのカスケードについても論じる。
これらの結果は、量子情報処理における集団効果を探求する関心を刺激するだけでなく、一般のキャビティqedシステムにおける相互作用のチューニングと増幅のためのアプリケーションの開発を可能にする。 We propose a tunable coupler consisting of N fixed-frequency qubits, which can tune and even amplify the effective interaction between two superconducting quantum circuits. The tuning range of the interaction is proportional to N, with a minimum value of zero and a maximum that can exceed the physical coupling rates between the coupler and the circuits. The effective coupling rate is determined by the collective magnetic quantum number of the qubit ensemble, which takes only discrete values and is free from collective decay and decoherence. Using single-photon pi-pulses, the coupling rate can be switched between arbitrary choices of the initial and final values within the dynamic range in a single step without going through intermediate values. A cascade of the couplers for amplifying small interactions or weak signals is also discussed. These results should not only stimulate interest in exploring the collective effects in quantum information processing, but also enable development of applications in tuning and amplifying the interactions in a general cavity-QED system. | 翻訳日:2023-03-23 09:18:11 公開日:2021-09-16 |
# 強相互作用超流動におけるトポロジカルヒッグス振幅モード Topological Higgs Amplitude Modes in Strongly Interacting Superfluids ( http://arxiv.org/abs/2107.03998v2 ) ライセンス: Link先を確認 | Junsen Wang, Youjin Deng and Wei Zheng | (参考訳) 2次元Su-Schrieffer-Heeger-Bose-Hubbardモデルの研究により、強相互作用する超流動相におけるトポロジカルヒッグス振幅モードの存在を示す。
スレーブ・ボーソンのアプローチを用いて、大きな充填限界において、ヒッグス励起と基底状態の上の金岩励起はよく分離され、両者とも基礎となる非相互作用バンドから受け継がれた非自明なトポロジーを示す。
有限充填では高エネルギーで結合するが、それでもこれらのモードの位相は変化しない。
さらに,効果的な行動解析に基づいて,ヒッグスモードとゴールドストーンモードの位相的特徴に対する普遍的な物理画像を提供する。
トポロジカルヒッグスモードの最初の実現の発見は、超伝導体や量子磁気学のような様々なシステムにおける新しい研究への道を開く。 By studying the 2-dimensional Su-Schrieffer-Heeger-Bose-Hubbard model, we show the existence of topological Higgs amplitude modes in the strongly interacting superfluid phase. Using the slave boson approach, we find that, in the large filling limit, the Higgs excitations and the Goldstone excitations above the ground state are well decoupled, and both of them exhibit nontrivial topology inherited from the underlying noninteracting bands. At finite fillings, they become coupled at high energies; nevertheless, the topology of these modes are unchanged. Moreover, based on an effective action analysis, we further provide a universal physical picture for the topological character of Higgs and Goldstone modes. Our discovery of the first realization of the topological Higgs mode opens the path to novel investigations in various systems such as superconductors and quantum magnetism. | 翻訳日:2023-03-23 02:00:46 公開日:2021-09-16 |
# ハイブリッド量子システムにおける絡み合い観測の展望 Perspective on witnessing entanglement in hybrid quantum systems ( http://arxiv.org/abs/2107.05208v2 ) ライセンス: Link先を確認 | Yingqiu Mao, Ming Gong, Kae Nemoto, William J. Munro, Johannes Majer | (参考訳) ハイブリッド量子システムの目的は、異なる物理システムの利点を結合し、新しい量子デバイスを作ることである。
特に、固体結晶中の超伝導回路とスピンのハイブリッド結合は、多くの量子電磁力学問題を探求するための汎用プラットフォームである。
近年, 超伝導バスによるダイヤモンド中の窒素空孔中心スピンの遠隔結合が実証された。
しかし、このハイブリッド系の量子的性質、特に絡み合いに関する厳密な実験的なテストはまだ欠落している。
我々は、絡みを発生・検出するための理論的アイデアをレビューし、これを実現するための独自のスキームを提示する。 Hybrid quantum systems aim at combining the advantages of different physical systems and to produce novel quantum devices. In particular, the hybrid combination of superconducting circuits and spins in solid-state crystals is a versatile platform to explore many quantum electrodynamics problems. Recently, the remote coupling of nitrogen-vacancy center spins in diamond via a superconducting bus was demonstrated. However, a rigorous experimental test of the quantum nature of this hybrid system and in particular entanglement is still missing. We review the theoretical ideas to generate and detect entanglement, and present our own scheme to achieve this. | 翻訳日:2023-03-22 18:26:37 公開日:2021-09-16 |
# Mobilkit: 高頻度ヒューマンモビリティデータを用いた都市回復と災害リスク管理分析のためのPythonツールキット Mobilkit: A Python Toolkit for Urban Resilience and Disaster Risk Management Analytics using High Frequency Human Mobility Data ( http://arxiv.org/abs/2107.14297v2 ) ライセンス: Link先を確認 | Enrico Ubaldi, Takahiro Yabe, Nicholas K. W. Jones, Maham Faisal Khan, Satish V. Ukkusuri, Riccardo Di Clemente, Emanuele Strano | (参考訳) スマートフォンから得られる高頻度の位置データセットの増加は、人間の移動性に関する前例のない洞察を与える。
これらのデータセットは、自然災害に対する準備と対応を知らせる重要な役割を担っている。
しかし、モビリティデータを用いた迅速な分析を可能にするツールは限られており、災害リスク管理に特化していない。
本稿では,gps位置情報を用いたレプリカブルでスケーラブルなポストディスタスタ解析を行うための,pythonベースのオープンソースツールキットを提案する。
プライバシー,システム機能,およびtextit{Mobilkit}の潜在的な拡張について論じる。 Increasingly available high-frequency location datasets derived from smartphones provide unprecedented insight into trajectories of human mobility. These datasets can play a significant and growing role in informing preparedness and response to natural disasters. However, limited tools exist to enable rapid analytics using mobility data, and tend not to be tailored specifically for disaster risk management. We present an open-source, Python-based toolkit designed to conduct replicable and scalable post-disaster analytics using GPS location data. Privacy, system capabilities, and potential expansions of \textit{Mobilkit} are discussed. | 翻訳日:2023-03-20 11:12:28 公開日:2021-09-16 |
# 1S--2S遷移の磁気的捕捉反水素に対する線状の理論 Theory of the line shape of the 1S--2S transition for magnetically trapped antihydrogen ( http://arxiv.org/abs/2107.14614v2 ) ライセンス: Link先を確認 | R. A. Gustafson and F. Robicheaux | (参考訳) 磁気捕獲された$\bar{\rm H}$における1S--2S遷移の直線形状を決定する物理について検討する。
直線形状の理解の他に、1つの目標は、$\bar{\rm h}$ の大規模シミュレーションへの依存を、よく定義された関数のより単純な積分に置き換えることである。
限定の場合、解析式が得られる。
例の計算は、仮定を単純化する限界を説明するために行われる。
また、遷移周波数を最も正確に決定できる実験パラメータを選択するための$\chi^2$法についても述べる。 The physics that determines the line shape of the 1S--2S transition in magnetically trapped $\bar{\rm H}$ is explored. Besides obtaining an understanding of the line shape, one goal is to replace the dependence on large scale simulations of $\bar{\rm H}$ with a simpler integration over well defined functions. For limiting cases, analytic formulas are obtained. Example calculations are performed to illustrate the limits of simplifying assumptions. We also describe a $\chi^2$ method for choosing experimental parameters that can lead to the most accurate determination of the transition frequency. | 翻訳日:2023-03-20 09:07:47 公開日:2021-09-16 |
# 有効局在電子の原子集団を用いたDFTと有意非力学的相関の解析 Analyzing cases of significant nondynamic correlation with DFT using the Atomic Populations of Effectively Localized Electrons ( http://arxiv.org/abs/2109.04371v2 ) ライセンス: Link先を確認 | Conrad Lewis, Emil Proynov, Jianguo Yu and Jing Kong | (参考訳) 多元参照効果は基底状態の縮退やほぼ縮退と関連しており、様々なシステムにとって重要である。
密度汎関数論(DFT)のほとんどの近似関数は、これらの効果を適切に記述することができない。
この点において、与えられた単一参照ソリューションの信頼性を推定できるいくつかの診断方法が提案されている。
しかし、これらの診断にはサイズ一貫性がないものもあるが、計算コストは高い。
本研究では, 有効局在電子(APELE)の原子集団を決定するDFT法を新しい診断法として用いた。
選択された模範系における非動的相関の既存のいくつかの診断と比較する。
APELE法は, 従来の診断法とよく一致しているが, サイズに一貫性があり, コストも低い。
ボンド伸縮やボンド破断を伴う場合、特に有益になる。
非線形光学応答が異常に高いビス-アクリジン二量体やp-キノジメタン分子などの有機二量体と、ニジチオレンにエチレンを添加した反応との間にアペール法を適用し、ni中心の酸化状態が初期反応物から生成物へ遷移する際にどのように変化するかについて、より光を当てた。 Multireference effects are associated with degeneracies and near-degeneracies of the ground state and are critical to a variety of systems. Most approximate functionals of density functional theory (DFT) fail to properly describe these effects. A number of diagnostics have been proposed that allow to estimate the reliability of a given single-reference solution in this respect. Some of these diagnostics however lack size-consistency, while remaining computationally expensive. In this work we use the DFT method of determining atomic populations of effectively localized electrons (APELE) as a novel diagnostic in this vein. It is compared with several existing diagnostics of nondynamic correlation on select exemplary systems. We show that the APELE method is on average in good agreement with the existing diagnostics, while being both size-consistent and less costly. It becomes particularly informative in cases involving bond stretching or bond breaking. The APELE method is applied next to organic diradicals like the bis-acridine dimer and the p-quinodimethane molecule which possess unusually high nonlinear optical response, and to the reaction of ethylene addition to Ni dithiolene, where our results shed some more light on how the oxidation state of the Ni center may change when going from the initial reactant to the product. | 翻訳日:2023-03-15 18:14:51 公開日:2021-09-16 |
# 大規模GPSデータを用いた山火事避難決定と避難時間の推定 Estimating Wildfire Evacuation Decision and Departure Timing Using Large-Scale GPS Data ( http://arxiv.org/abs/2109.07745v1 ) ライセンス: Link先を確認 | Xilei Zhao, Yiming Xu, Ruggiero Lovreglio, Erica Kuligowski, Daniel Nilsson, Thomas Cova, Alex Wu, Xiang Yan | (参考訳) 気候変動による頻度と強度の増加に伴い、森林火災は世界的な懸念が高まっている。
これにより、消防や救急サービス、ワイルドランド・アーバン・インタフェース(wui)のコミュニティに深刻な課題が生じた。
森林火災のリスクを低減し,WUIコミュニティの安全性を高めるためには,森林火災避難の理解を深めることが必要である。
そこで本研究では,大規模gpsデータセットを用いた野火時の行動解析手法を提案する。
この方法論は、異なるワイルドファイア避難者グループ(例えば、自己隔離者、シャドウ避難者、警告下の避難者、順序付き避難者)を体系的に識別するホームロケーション推論アルゴリズムと避難行動推定アルゴリズムを含む。
本手法をカリフォルニア州ソノマ郡の2019年キンケード火災に適用した。
その結果,キンサード火災時の避難者の半数以上は,脱走者,脱走者,脱走者,脱走者であった。
また, 避難警報・命令区域内において, 総避難コンプライアンス率は, 対象者の約46%であった。
この研究の成果は、緊急管理職や計画立案者が、今後の野火に備えるために、公共のアウトリーチキャンペーン、トレーニングプロトコル、緊急通信戦略をよりよく標的にするために利用できる。 With increased frequency and intensity due to climate change, wildfires have become a growing global concern. This creates severe challenges for fire and emergency services as well as communities in the wildland-urban interface (WUI). To reduce wildfire risk and enhance the safety of WUI communities, improving our understanding of wildfire evacuation is a pressing need. To this end, this study proposes a new methodology to analyze human behavior during wildfires by leveraging a large-scale GPS dataset. This methodology includes a home-location inference algorithm and an evacuation-behavior inference algorithm, to systematically identify different groups of wildfire evacuees (i.e., self-evacuee, shadow evacuee, evacuee under warning, and ordered evacuee). We applied the methodology to the 2019 Kincade Fire in Sonoma County, CA. We found that among all groups of evacuees, self-evacuees and shadow evacuees accounted for more than half of the evacuees during the Kincade Fire. The results also show that inside of the evacuation warning/order zones, the total evacuation compliance rate was around 46% among all the categorized people. The findings of this study can be used by emergency managers and planners to better target public outreach campaigns, training protocols, and emergency communication strategies to prepare WUI households for future wildfire events. | 翻訳日:2023-03-14 22:52:18 公開日:2021-09-16 |
# 局所ハミルトニアンはいつ定常状態から回復できるのか? When can a local Hamiltonian be recovered from a steady state? ( http://arxiv.org/abs/2109.07676v1 ) ライセンス: Link先を確認 | Jing Zhou, D. L. Zhou | (参考訳) 量子多体シミュレータの開発により、ハミルトントモグラフィーは量子デバイスの検証においてますます重要な技術となっている。
ここでは、2-局所相互作用と3-局所相互作用を持つ2つのスピン鎖のハミルトニアンを局所可観測性の測定により復元する。
これら2つのモデルについて、チェーン長が一定の臨界数に達すると、Refで開発された等質作用素方程式(HOE)を解くことにより、局所ハミルトニアンを1つの定常状態から回復できることを示す。
[1].
このような臨界鎖長の存在を説明するために、エネルギー固有値方程式(eee)を解いてハミルトニアンを回復する方法を開発した。
EEE法を用いて,HOE法から数値結果を完全に回収した。
そして理論的にHOE法とEEE法の等価性を証明した。
特に,eee法を用いて制約行列の階数を解析的に表現し,全てのケースにおいて正の臨界鎖長を求めることができる。 With the development of quantum many-body simulator, Hamiltonian tomography has become an increasingly important technique for verification of quantum devices. Here we investigate recovering the Hamiltonians of two spin chains with 2-local interactions and 3-local interactions by measuring local observables. For these two models, we show that when the chain length reaches a certain critical number, we can recover the local Hamiltonian from its one steady state by solving the homogeneous operator equation (HOE) developed in Ref. [1]. To explain the existence of such a critical chain length, we develop an alternative method to recover Hamiltonian by solving the energy eigenvalue equations (EEE). By using the EEE method, we completely recovered the numerical results from the HOE method. Then we theoretically prove the equivalence between the HOE method and the EEE method. In particular, we obtain the analytical expression of the rank of the constraint matrix in the HOE method by using the EEE method, which can be used to determine the correct critical chain length in all the cases. | 翻訳日:2023-03-14 22:51:41 公開日:2021-09-16 |
# ランダム化ベンチマークにおけるサンプリング戦略最適化 Sampling Strategy Optimization for Randomized Benchmarking ( http://arxiv.org/abs/2109.07653v1 ) ライセンス: Link先を確認 | Toshinari Itoko and Rudy Raymond | (参考訳) ランダム化ベンチマーク(Randomized benchmarking, RB)は、量子コンピューティングデバイスに実装されたゲートの平均忠実度を推定する手法である。
rb によって推定される平均ゲート忠実度の平均の確率的誤差はサンプリング戦略(すなわちプロトコルで実行するサンプルシーケンスの方法)に依存する。
サンプリング戦略は、クリフォード長さ(シーケンス内の独立したクリフォードゲートの数のリスト)と各クリフォード長さのシーケンス数を含む構成可能なパラメータ(RB構成)のセットで決定される。
rb構成はしばしばヒューリスティックに選択され、最良の構成についてはほとんど研究されていない。
そこで本研究では,シーケンス全体の実行時間を増加させずに,推定忠実性の信頼区間を最小化するために,rb構成を完全に最適化する手法を提案する。
実機実験により,推定忠実度の分散を低減するため,ヒューリスティック選択に対する最適化手法の有効性を実証した。 Randomized benchmarking (RB) is a widely used method for estimating the average fidelity of gates implemented on a quantum computing device. The stochastic error of the average gate fidelity estimated by RB depends on the sampling strategy (i.e., how to sample sequences to be run in the protocol). The sampling strategy is determined by a set of configurable parameters (an RB configuration) that includes Clifford lengths (a list of the number of independent Clifford gates in a sequence) and the number of sequences for each Clifford length. The RB configuration is often chosen heuristically and there has been little research on its best configuration. Therefore, we propose a method for fully optimizing an RB configuration so that the confidence interval of the estimated fidelity is minimized while not increasing the total execution time of sequences. By experiments on real devices, we demonstrate the efficacy of the optimization method against heuristic selection in reducing the variance of the estimated fidelity. | 翻訳日:2023-03-14 22:50:41 公開日:2021-09-16 |
# リングコア繊維におけるtalbot自己イメージングと2光子干渉 Talbot self-imaging and two-photon interference in ring-core fibers ( http://arxiv.org/abs/2109.08035v1 ) ライセンス: Link先を確認 | Matias Eriksson, Benjamin A. Stickler, Lea Kopf, Markus Hiekkam\"aki, Regina Gumenyuk, Yuri Chamorovskiy, Sven Ramelow, Robert Fickler | (参考訳) シリンダー表面の波動伝搬は、周期格子における近接場回折におけるタルボット効果と同様に干渉自己イメージングを示す。
古典光場に対する弱誘導リングコアファイバの円筒タルボットカーペットを実験的に観察した。
さらに,リングコアファイバは単一光子の高次光ビームスプリッタとして機能し,入力光場間の相対位相によって出力を制御可能であることを示す。
また、リングコアファイバに送信される識別不能光子間の高品質な2光子干渉を実証することにより、光通信におけるコンパクトビームマルチプレクサとしての応用と、線形光ネットワークのスケーラブルな実現としての量子情報処理タスクへの扉を開く。 Wave propagation on the surface of cylinders exhibits interferometric self imaging, much like the Talbot effect in the near-field diffraction at periodic gratings. We report the experimental observation of the cylindrical Talbot carpet in weakly-guiding ring-core fibers for classical light fields. We further show that the ring-core fiber acts as a high-order optical beamsplitter for single photons, whose output can be controlled by the relative phase between the input light fields. By also demonstrating high-quality two-photon interference between indistinguishable photons sent into the ring-core fiber, our findings open the door to applications in optical telecommunications as a compact beam multiplexer as well as in quantum information processing tasks as a scalable realization of a linear optical network. | 翻訳日:2023-03-14 22:42:26 公開日:2021-09-16 |
# 量子ハミルトンシミュレーションのための部分ランダムトロッターアルゴリズム A Partially Random Trotter Algorithm for Quantum Hamiltonian Simulations ( http://arxiv.org/abs/2109.07987v1 ) ライセンス: Link先を確認 | Shi Jin and Xiantao Li | (参考訳) ハミルトニアンを考えると、ユニタリ作用素の評価は多くの量子アルゴリズムの中心にある。
既存の決定論的およびランダムな手法に動機づけられ,各時間ステップで振幅の大きいハミルトニアンは評価され,残りの項はランダムに評価されるハイブリッド手法を提案する。
平均二乗誤差の境界は、濃度境界とともに得られる。
平均二乗誤差は分散項とバイアス項からなり、それぞれハミルトン項のランダムサンプリングと演算子分割誤差から生じる。
バイアス/分散トレードオフを活用することで、2つのバランスをとることでエラーを最小限にすることができる。
濃度境界はゲート数の推定値を与える。
計算は古典計算機の数値実験を用いて検証される。 Given the Hamiltonian, the evaluation of unitary operators has been at the heart of many quantum algorithms. Motivated by existing deterministic and random methods, we present a hybrid approach, where Hamiltonians with large amplitude are evaluated at each time step, while the remaining terms are evaluated at random. The bound for the mean square error is obtained, together with a concentration bound. The mean square error consists of a variance term and a bias term, arising respectively from the random sampling of the Hamiltonian terms and the operator splitting error. Leveraging on the bias/variance trade-off, the error can be minimized by balancing the two. The concentration bound provides an estimate on the number of gates. The estimates are verified by using numerical experiments on classical computers. | 翻訳日:2023-03-14 22:41:53 公開日:2021-09-16 |
# アントン・ツァイリンガーの量子力学情報解釈の理想論について On idealism of Anton Zeilinger's information interpretation of quantum mechanics ( http://arxiv.org/abs/2109.07811v1 ) ライセンス: Link先を確認 | Francois-Igor Pris | (参考訳) 量子力学におけるアントン・ゼイリンガーの「基礎概念原理」は、基本系が1ビットの情報を持つという理想主義的原理であり、文脈性の現実的な原理に置き換えるべきである。
量子システムの特異な性質は、観測/同定のツールや、これらのツールが適用されるコンテキストを参照せずに、それらについて話すことが不可能であることの結果である。 We argue that Anton Zeilinger's "foundational conceptual principle" for quantum mechanics according to which an elementary system carries one bit of information is an idealistic principle, which should be replaced by a realistic principle of contextuality. Specific properties of quantum systems are a consequence of impossibility to speak about them without reference to the tools of their observation/identification and, consequently, context in which these tools are applied. | 翻訳日:2023-03-14 22:41:06 公開日:2021-09-16 |
# 量子アルゴリズムの確率的エミュレーション Stochastic emulation of quantum algorithms ( http://arxiv.org/abs/2109.07777v1 ) ライセンス: Link先を確認 | Daniel Braun and Ronny M\"uller | (参考訳) 量子アルゴリズムは指数関数的に大きなヒルベルト空間における量子状態の干渉と、ヒルベルト空間上のユニタリ変換が同時に1つか2つの量子ビットにのみ作用する普遍ゲートに分解できるという事実から利益を得る。
前者は量子アルゴリズムの直接的古典的シミュレーションを困難にしている。
ここでは,量子アルゴリズムに必要な量子力学状態の基本特性を共有する新しい対象として,粒子位置の確率分布の高次部分微分を導入する。
位置の離散化により、量子力学状態の $n_\text{bit}$ qubits を 2(n_\text{bit}+1)$ 古典確率ビットで表すことができる。
これに基づいて、確率分布の微分を通じて、多粒子干渉と純粋絡み合った量子状態の表現を示し、普遍ゲート集合における量子ゲートに対応する確率写像の普遍集合を求める。
これらの普遍的確率写像から構築された確率写像による伝播は、対応する量子アルゴリズムによる量子力学的状態の進化の正確な要素までを再現し、量子アルゴリズムを確率的古典アルゴリズムに自動翻訳する。
我々は,いくつかのよく知られた量子アルゴリズムを実装し,量子ビット数による実現に必要な数のスケーリングを分析し,エミュレーションコストに対する破壊的干渉の役割を強調した。
量子状態の新しい表現によって提起された基礎的な疑問について論じる。 Quantum algorithms profit from the interference of quantum states in an exponentially large Hilbert space and the fact that unitary transformations on that Hilbert space can be broken down to universal gates that act only on one or two qubits at the same time. The former aspect renders the direct classical simulation of quantum algorithms difficult. Here we introduce higher-order partial derivatives of a probability distribution of particle positions as a new object that shares these basic properties of quantum mechanical states needed for a quantum algorithm. Discretization of the positions allows one to represent the quantum mechanical state of $n_\text{bit}$ qubits by $2(n_\text{bit}+1)$ classical stochastic bits. Based on this, we demonstrate many-particle interference and representation of pure entangled quantum states via derivatives of probability distributions and find the universal set of stochastic maps that correspond to the quantum gates in a universal gate set. We prove that the propagation via the stochastic map built from those universal stochastic maps reproduces up to a prefactor exactly the evolution of the quantum mechanical state with the corresponding quantum algorithm, leading to an automated translation of a quantum algorithm to a stochastic classical algorithm. We implement several well-known quantum algorithms, analyse the scaling of the needed number of realizations with the number of qubits, and highlight the role of destructive interference for the cost of the emulation. Foundational questions raised by the new representation of a quantum state are discussed. | 翻訳日:2023-03-14 22:40:37 公開日:2021-09-16 |
# アンドレイへの手紙:qbism and the unfinished nature of nature Letters for Andrei: QBism and the Unfinished Nature of Nature ( http://arxiv.org/abs/2109.08153v1 ) ライセンス: Link先を確認 | Christopher A. Fuchs | (参考訳) テクストより:この巻でアンドレイ・クレンニコフに敬意を表しましょうか。
もちろんメールのコレクションで!
しかし、どんなテーマで?
何か大きなものになるべきだ。
QBismのオントロジカルプログラムの問題点の1つは、ほとんどの物理学哲学者が、その文章を解析する道具さえ持っていないと考える方法の傍らにあることである。
彼らは単に、オントロジーと全く関係がないと考えることができないのです。
おそらく、世代が死ぬのを待つ以外、これに対する治療法はないでしょう。
しかし、QBismは前進しなくてはならない。
ここでは、若い研究者がQBistのオントロジプロジェクトに参加して、独自の用語で開発するのに役立つメールをいくつか選択する。
適切な詳細なQBistオントロジーへの道は、間違いなく難しいものだが、どこかで始める必要がある。 From the Text: How shall I tribute Andrei Khrennikov in this volume? With an email collection of course! But with what theme? It ought to be something big. One of the troubles of QBism's ontological program is that it is so sideways to the ways most run-of-the-mill philosophers of physics think, they don't even have the tools to parse its sentences. They simply can't see it as having to do with ontology at all. Maybe there is no remedy for this except to wait for the generation to die away. But QBism can and must move forward. Here we select some emails that might inspire a young researcher to throw in on the QBist ontological project, to help develop it on its own terms. The road to a proper, detailed QBist ontology is sure to be a hard one, but one has to start somewhere. | 翻訳日:2023-03-14 21:01:24 公開日:2021-09-16 |
# Van der Waals Anomaly Van der Waals Anomaly ( http://arxiv.org/abs/2109.08092v1 ) ライセンス: Link先を確認 | Itai Y. Efrat and Ulf Leonhardt | (参考訳) 不均質誘電体媒体では、電磁応力の発散は、マクスウェル方程式の帰結である \varepsilon と \mu の勾配と関係している。
球対称媒質の研究により、この一見普遍的な関係は一般化されたファンデルワールス力やカシミール力などの電磁真空力に違反していることが示された。
ストレスは追加の異常な圧力を得る必要がある。
異常は再正規化の結果であり、有限の物理的力を得るために応力の無限度を減じる必要がある。
ダークエネルギーのような媒体の応力には異常な圧力が現れるが、一般相対性理論ではエネルギー運動量テンソルに現れる。
超低温原子を用いたファンデルワールス異常の探索実験の提案と解析を行った。
この実験は、量子力の異常な現象だけでなく、ダークエネルギーの類似性もテストし、経験的に何も知られていない光を放出する。 In inhomogeneous dielectric media the divergence of the electromagnetic stress is related to the gradients of \varepsilon and \mu, which is a consequence of Maxwell's equations. Investigating spherically symmetric media we show that this seemingly universal relationship is violated for electromagnetic vacuum forces such as the generalized van der Waals and Casimir forces. The stress needs to acquire an additional anomalous pressure. The anomaly is a result of renormalization, the need to subtract infinities in the stress for getting a finite, physical force. The anomalous pressure appears in the stress in media like dark energy appears in the energy-momentum tensor in general relativity. We propose and analyse an experiment to probe the van der Waals anomaly with ultracold atoms. The experiment may not only test an unusual phenomenon of quantum forces, but also an analogue of dark energy, shedding light where nothing is known empirically. | 翻訳日:2023-03-14 21:00:24 公開日:2021-09-16 |
# 有機二リン酸における$^{31}$p核スピン一重項状態のnmr NMR of $^{31}$P Nuclear Spin Singlet States in Organic Diphosphates ( http://arxiv.org/abs/2109.08067v1 ) ライセンス: Link先を確認 | Stephen J. DeVience, Ronald L. Walsworth, Matthew S. Rosen | (参考訳) $^{31}$P NMRとMRIは、細胞エネルギー代謝の中心となる有機リン酸の研究に一般的に用いられる。
アデノシン二リン酸 (adp) やニコチンアミドアデニン二ヌクレオチド (nad) のようないくつかの興味のある分子では、二リン酸に結合した$^{31}$pの核のペアは、長寿命で量子フィルターによって選択的に検出される核スピン一重項状態の作成を可能にする。
ここでは、$^{31}$P一重項状態は、ADPおよびNAD上で生成可能であるが、その寿命はT$_{1}$よりも短く、pHに強く敏感である。 $^{31}$P NMR and MRI are commonly used to study organophosphates that are central to cellular energy metabolism. In some molecules of interest, such as adenosine diphosphate (ADP) and nicotinamide adenine dinucleotide (NAD), pairs of coupled $^{31}$P nuclei in the diphosphate moiety should enable the creation of nuclear spin singlet states, which may be long-lived and can be selectively detected via quantum filters. Here, we show that $^{31}$P singlet states can be created on ADP and NAD, but their lifetimes are shorter than T$_{1}$ and are strongly sensitive to pH. Nevertheless, the singlet states were used with a quantum filter to successfully isolate the $^{31}$P NMR spectra of those molecules from the adenosine triphosphate (ATP) background signal. | 翻訳日:2023-03-14 21:00:05 公開日:2021-09-16 |
# 近距離量子コンピュータ上の現実的な化学系の実用的な量子埋め込みシミュレーションに向けて Toward Practical Quantum Embedding Simulation of Realistic Chemical Systems on Near-term Quantum Computers ( http://arxiv.org/abs/2109.08062v1 ) ライセンス: Link先を確認 | Weitang Li, Zigeng Huang, Changsu Cao, Yifei Huang, Zhigang Shuai, Xiaoming Sun, Jinzhao Sun, Xiao Yuan, and Dingshun Lv | (参考訳) 量子コンピューティングは最近、創薬、物質設計、触媒最適化における様々な応用における化学特性の予測において大きな可能性を示した。
変動量子固有解法(VQE)のような量子アルゴリズムを用いて、LiHや最大12キュービットの水素鎖などの小さな分子をシミュレートする方法が進歩している。
しかし、短期的な量子ハードウェアのサイズと忠実さの限界から、大規模なリアルな分子を正確にシミュレートする方法は依然として課題である。
そこで, 適応的エネルギーソート戦略と古典的計算手法を統合し, 量子回路の浅部を効果的に発見し, 問題サイズを小さくする密度行列埋め込み理論を組み合わせることにより, 限界を回避し, 実際の化学問題の解決への可能性を示す手段を示す。
我々は,C6H8の水素化反応法とC18分子の平衡構造を,cc-pVDZ (ほとんどの144 qubits) で数値的に検証した。
シミュレーションの結果、結合クラスタや完全な構成相互作用のような高度な量子化学手法と同等の精度を示す一方、必要となる量子ビットの数は、従来のVQEと比較して桁違いに減少する(C18分子の144量子ビットから16量子ビット)。
我々の研究は、短期量子デバイスにおける工業化学問題の解決の可能性を示している。 Quantum computing has recently exhibited great potentials in predicting chemical properties for various applications in drug discovery, material design, and catalyst optimization. Progress has been made in simulating small molecules, such as LiH and hydrogen chains of up to 12 qubits, by using quantum algorithms such as variational quantum eigensolver (VQE). Yet, originating from limitations of the size and the fidelity of near-term quantum hardware, how to accurately simulate large realistic molecules remains a challenge. Here, integrating an adaptive energy sorting strategy and a classical computational method, the density matrix embedding theory, which effectively finds a shallower quantum circuit and reduces the problem size, respectively, we show a means to circumvent the limitations and demonstrate the potential toward solving real chemical problems. We numerically test the method for the hydrogenation reaction of C6H8 and the equilibrium geometry of the C18 molecule, with basis sets up to cc-pVDZ (at most 144 qubits). The simulation results show accuracies comparable to those of advanced quantum chemistry methods such as coupled-cluster or even full configuration interaction, while the number of qubits required is reduced by an order of magnitude (from 144 qubits to 16 qubits for the C18 molecule) compared to conventional VQE. Our work implies the possibility of solving industrial chemical problems on near-term quantum devices. | 翻訳日:2023-03-14 20:59:45 公開日:2021-09-16 |
# SenTag: テキスト文書のセマンティックアノテーションのためのWebベースのツール SenTag: a Web-based Tool for Semantic Annotation of Textual Documents ( http://arxiv.org/abs/2110.15062v1 ) ライセンス: Link先を確認 | Andrea Loreggia, Simone Mosco, Alberto Zerbinati | (参考訳) 本研究では,テキスト文書のセマンティックアノテーションに着目した軽量なWebツールであるSenTagを紹介する。
このプラットフォームでは、複数のユーザーが文書のコーパスで作業できる。
このツールは、XML(Extensible Markup Language)を出力フォーマットとして採用した直感的で使いやすいユーザインターフェースを通じて、ドキュメントのコーパスをタグ付けすることができる。
アプリケーションの主な目標は2つある: タグ付けプロセスを容易にし、出力されたドキュメントのエラーを低減または回避する。
さらに、引数グラフを構築するために使用される引数や他のエンティティを識別することができる。
また、テキストのコーパスに取り組んでいる注釈者の合意レベルを評価することもできる。 In this work, we present SenTag, a lightweight web-based tool focused on semantic annotation of textual documents. The platform allows multiple users to work on a corpus of documents. The tool enables to tag a corpus of documents through an intuitive and easy-to-use user interface that adopts the Extensible Markup Language (XML) as output format. The main goal of the application is two-fold: facilitating the tagging process and reducing or avoiding for errors in the output documents. Moreover, it allows to identify arguments and other entities that are used to build an arguments graph. It is also possible to assess the level of agreement of annotators working on a corpus of text. | 翻訳日:2023-03-14 20:51:55 公開日:2021-09-16 |
# 論理学,哲学,物理学:カテゴリーのジレンマに関する批判的解説 Logic, Philosophy and Physics: a critical commentary on the dilemma of categories ( http://arxiv.org/abs/2110.11230v1 ) ライセンス: Link先を確認 | Abhishek Majhi | (参考訳) 私は、論理学者と哲学者の物理学者と物理学に対する態度に関する批判的なコメントを提供する。
この注釈書は、科学全般において科学的な調査を行うことに対する一般的な態度の変化がいかに有益であるかを示すものである。
しかし、このような変化は、論理学、哲学、物理学の分野のカテゴリを超えて考えるコストがかかる可能性がある。
このような変化が可能であることや、選択によって除外される中央の本質の実現は自己問合せを通じて行われる。
論理学者は一般に物理学者に対する尊敬的な態度を持ち、物理学者が経験を表現できる言語を改善することで、物理学の改善に積極的に貢献することができる。
哲学者は、それ以外は物理学の進歩に追随し、言語の洗練という罠に陥り、物理学者の経験を自分自身に持てば知的な根拠で物理学者に指導を受けることができる。
この解説の過程で、物理学で用いられるコーシーの微分の定義とハイゼンベルクの不確実性の間の非現実的な関係が、動詞文を物理的・数学的表現に真に変換する様子を垣間見る。
読者が論理学、哲学、物理学のカテゴリを超えて「ノーボディ」である場合、注釈書は本質的な読み物となる。 I provide a critical commentary regarding the attitude of the logician and the philosopher towards the physicist and physics. The commentary is intended to showcase how a general change in attitude towards making scientific inquiries can be beneficial for science as a whole. However, such a change can come at the cost of looking beyond the categories of the disciplines of logic, philosophy and physics. It is through self-inquiry that such a change is possible, along with the realization of the essence of the middle that is otherwise excluded by choice. The logician, who generally holds a reverential attitude towards the physicist, can then actively contribute to the betterment of physics by improving the language through which the physicist expresses his experience. The philosopher, who otherwise chooses to follow the advancement of physics and gets stuck in the trap of sophistication of language, can then be of guidance to the physicist on intellectual grounds by having the physicist's experience himself. In course of this commentary, I provide a glimpse of how a truthful conversion of verbal statements to physico-mathematical expressions unravels the hitherto unrealized connection between Heisenberg uncertainty relation and Cauchy's definition of derivative that is used in physics. The commentary can be an essential reading if the reader is willing to look beyond the categories of logic, philosophy and physics by being `nobody'. | 翻訳日:2023-03-14 20:51:35 公開日:2021-09-16 |
# 異方性拡大時空におけるパラメータ推定 Parameter estimation in an anisotropic expanding spacetime ( http://arxiv.org/abs/2109.08252v1 ) ライセンス: Link先を確認 | O. P. de S\'a Neto, I. G. da Paz, P. R. S. Carvalho, H. A. S. Costa | (参考訳) 本研究では,異方性が宇宙パラメータ推定に与える影響について検討する。
ここでは、異方性は小さな重力障害として組み込まれている。
我々は、宇宙パラメータ$\epsilon$(膨張量)と$\rho$(膨張率)の双方についてフィッシャー情報を計算し、この異方性がフィッシャー情報スペクトルに振動をもたらすことを示す。
このことは、宇宙パラメータの推定が運動量$k$の粒子の方向に対して妥当であることを意味する。
さらに、運動量$k$の小さな値に対して、最小結合と共形結合のフィッシャー情報スペクトルにかなりの差があることが観察された。 In this work, we investigate how the anisotropy affects the cosmological parameters estimation. Here the anisotropy is incorporated as a small gravitational disturbance. We calculate the Fisher information for both cosmological parameters $\epsilon$ (expansion volume) and $\rho$ (expansion rate), and we show that the anisotropy introduces oscillations in the Fisher information spectrum. This implies that the estimation of the cosmological parameters is sensible to the direction of the momentum $k$ of particles. In addition, we observe that for small values of the momentum $k$ there is a substantial difference between the Fisher information spectrum for the minimum and conformal couplings. | 翻訳日:2023-03-14 20:50:37 公開日:2021-09-16 |
# 機械学習を用いたキャビティ生成スピン圧縮状態の蛍光イメージング精度の向上 Utilizing machine learning to improve the precision of fluorescence imaging of cavity-generated spin squeezed states ( http://arxiv.org/abs/2109.08221v1 ) ライセンス: Link先を確認 | Benjamin K. Malia, Yunfan Wu, Juli\'an Mart\'inez-Rinc\'on, and Mark A. Kasevich | (参考訳) 低温原子の蛍光イメージングにおいて,光子収集速度を調整するための教師付き学習モデルを提案する。
線形回帰モデルは、センサ上の各位置の収集率を、高精度な光学キャビティ測定の原子集団差と等しくなるように求める。
この192変数の回帰は、以前の1変数の回帰キャリブレーションよりも27%小さい測定ばらつきをもたらす。
測定のばらつきは、他の既知のノイズ源による理論上の限界と一致している。
このモデルは、標準のパーソナルコンピュータのCPUで1分未満で効率よく訓練し、10分以内のデータ収集を必要とする。
さらに、このモデルは、人口差の大きな変化と、異なる日に収集されたデータにまたがって適用できる。 We present a supervised learning model to calibrate the photon collection rate during the fluorescence imaging of cold atoms. The linear regression model finds the collection rate at each location on the sensor such that the atomic population difference equals that of a highly precise optical cavity measurement. This 192 variable regression results in a measurement variance 27% smaller than our previous single variable regression calibration. The measurement variance is now in agreement with the theoretical limit due to other known noise sources. This model efficiently trains in less than a minute on a standard personal computer's CPU, and requires less than 10 minutes of data collection. Furthermore, the model is applicable across a large changes in population difference and across data collected on different days. | 翻訳日:2023-03-14 20:50:27 公開日:2021-09-16 |
# 逆ベイズ式LASSO The Reciprocal Bayesian LASSO ( http://arxiv.org/abs/2001.08327v4 ) ライセンス: Link先を確認 | Himel Mallick, Rahim Alhamzawi, Erina Paul, Vladimir Svetnik | (参考訳) 逆のLASSO(rLASSO)正則化は、従来のペナルティの増大を利用する従来のペナルティ法とは対照的に、ペナルティ関数を減少させ、従来の縮小法と比較してより強いパシモニーと優れたモデル選択をもたらす。
ここでは、線形回帰パラメータに対するラッソ推定を、回帰パラメータが独立な逆ラプラス前駆体に割り当てられた場合にベイズ後モード推定として解釈できるという観測に基づいて、ラッソ問題の完全ベイズ的定式化を考える。
この後方からのベイズ推定は、二重パレートまたは切断正規分布のスケール混合によって動機付けられた拡張階層を用いて可能である。
シミュレーションおよび実データセットでは、ベイズ公式は、様々なシナリオで予測、予測、変数選択において古典的な従兄弟よりも優れており、後進推論の利点を提供する。
最後に,この新しいアプローチの他の変種について論じ,フレキシブルな相互ペナルティを用いた変数選択のための統一フレームワークを提供する。
この論文で記述されたすべてのメソッドは、以下のRパッケージとして公開されている。 A reciprocal LASSO (rLASSO) regularization employs a decreasing penalty function as opposed to conventional penalization approaches that use increasing penalties on the coefficients, leading to stronger parsimony and superior model selection relative to traditional shrinkage methods. Here we consider a fully Bayesian formulation of the rLASSO problem, which is based on the observation that the rLASSO estimate for linear regression parameters can be interpreted as a Bayesian posterior mode estimate when the regression parameters are assigned independent inverse Laplace priors. Bayesian inference from this posterior is possible using an expanded hierarchy motivated by a scale mixture of double Pareto or truncated normal distributions. On simulated and real datasets, we show that the Bayesian formulation outperforms its classical cousin in estimation, prediction, and variable selection across a wide range of scenarios while offering the advantage of posterior inference. Finally, we discuss other variants of this new approach and provide a unified framework for variable selection using flexible reciprocal penalties. All methods described in this paper are publicly available as an R package at: https://github.com/himelmallick/BayesRecipe. | 翻訳日:2023-01-07 13:22:12 公開日:2021-09-16 |
# 深部生成モデルにおける発散保証による分布外検出に向けて Towards Out-of-Distribution Detection with Divergence Guarantee in Deep Generative Models ( http://arxiv.org/abs/2002.03328v4 ) ライセンス: Link先を確認 | Yufeng Zhang, Wanwei Liu, Zhenbang Chen, Ji Wang, Zhiming Liu, Kenli Li, Hongmei Wei | (参考訳) 近年の研究では、フローベースモデルや変分オートエンコーダを含む深層生成モデルが、分布内データよりも分布外データ(OOD)に高い確率を割り当てる可能性があることが明らかになっている。
しかし、モデルからOODデータをサンプリングすることはできない。
この逆直観的な現象は十分説明されていない。
本稿では,フローベースモデルにおける発散を調べるための定理を証明し,上記の現象について発散と幾何学的視点から2つの説明を与える。
そこで本研究では,2つのグループ異常検出手法を提案する。
さらに,klの発散を分解し,ポイントワイズ異常検出法を提案する。
我々は,本手法を評価するために,有意なベンチマーク実験を行った。
グループ異常検出(gad)では,すべての問題に対して約100\% aurocを達成でき,データ操作に対するロバスト性を有する。
それとは対照的に、最先端(SOTA)のGAD法は、困難な問題に対するランダムな推測よりも優れており、ほぼ全てのケースでデータ操作によって攻撃される。
ポイントワイズ異常検出法 (pad) では, 問題の1つのカテゴリにおける sota pad 法と同等であり, 他のカテゴリでは, 基準値を大きく上回っている。 Recent research has revealed that deep generative models including flow-based models and Variational autoencoders may assign higher likelihood to out-of-distribution (OOD) data than in-distribution (ID) data. However, we cannot sample out OOD data from the model. This counterintuitive phenomenon has not been satisfactorily explained. In this paper, we prove theorems to investigate the divergences in flow-based model and give two explanations to the above phenomenon from divergence and geometric perspectives, respectively. Based on our analysis, we propose two group anomaly detection methods. Furthermore, we decompose the KL divergence and propose a point-wise anomaly detection method. We have conducted extensive experiments on prevalent benchmarks to evaluate our methods. For group anomaly detection (GAD), our method can achieve near 100\% AUROC on all problems and has robustness against data manipulations. On the contrary, the state-of-the-art (SOTA) GAD method performs not better than random guessing for challenging problems and can be attacked by data manipulation in almost all cases. For point-wise anomaly detection (PAD), our method is comparable to the SOTA PAD method on one category of problems and outperforms the baseline significantly on another category of problems. | 翻訳日:2023-01-02 14:07:05 公開日:2021-09-16 |
# トルコ語依存構文解析のためのリソース:BOUNツリーバンクとBoATアノテーションツールの導入 Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank and the BoAT Annotation Tool ( http://arxiv.org/abs/2002.10416v2 ) ライセンス: Link先を確認 | Utku T\"urk (1), Furkan Atmaca (1), \c{S}aziye Bet\"ul \"Ozate\c{s} (2), G\"ozde Berk (2), Seyyit Talha Bedir (1), Abdullatif K\"oksal (2), Balk{\i}z \"Ozt\"urk Ba\c{s}aran (1), Tunga G\"ung\"or (2) and Arzucan \"Ozg\"ur (2) ((1) Department of Linguistics Bo\u{g}azi\c{c}i University, (2) Department of Computer Engineering Bo\u{g}azi\c{c}i University) | (参考訳) 本稿では,トルコの係り受け解析のために開発したリソースについて紹介する。その中には,手作業による注釈付きツリーバンク (BOUN Treebank) やガイドライン,新たなアノテーションツール (BoAT) などが含まれる。
手動のアノテーションプロセスは、4人の言語学者と5人の自然言語処理専門家からなるチームによって作成、実装されました。
BOUNツリーバンクのアノテーションに関する決定は、Universal Dependencies(UD)フレームワークと、トルコのUDツリーバンクを手動で再注釈することで統一するための最近の取り組みに沿って行われた。
我々の知る限りでは、BOUNツリーバンクはトルコ最大のツリーバンクである。
伝記、全国紙、教育文、大衆文化記事、エッセイなど様々な話題から9,761通の文章が収録されている。
さらに、BOUNツリーバンクおよびトルコの他の2つのツリーバンク上で得られた最先端の依存性パーサの解析結果を報告する。
以上の結果から,トルコ語のアノテーション体系の統合とツリーバンクの導入により,依存性解析の性能が向上することが示唆された。 In this paper, we introduce the resources that we developed for Turkish dependency parsing, which include a novel manually annotated treebank (BOUN Treebank), along with the guidelines we adopted, and a new annotation tool (BoAT). The manual annotation process we employed was shaped and implemented by a team of four linguists and five Natural Language Processing (NLP) specialists. Decisions regarding the annotation of the BOUN Treebank were made in line with the Universal Dependencies (UD) framework as well as our recent efforts for unifying the Turkish UD treebanks through manual re-annotation. To the best of our knowledge, BOUN Treebank is the largest Turkish treebank. It contains a total of 9,761 sentences from various topics including biographical texts, national newspapers, instructional texts, popular culture articles, and essays. In addition, we report the parsing results of a state-of-the-art dependency parser obtained over the BOUN Treebank as well as two other treebanks in Turkish. Our results demonstrate that the unification of the Turkish annotation scheme and the introduction of a more comprehensive treebank lead to improved performance with regard to dependency parsing. | 翻訳日:2022-12-29 03:55:56 公開日:2021-09-16 |
# 最初に戻って 探索して First return, then explore ( http://arxiv.org/abs/2004.12919v6 ) ライセンス: Link先を確認 | Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley and Jeff Clune | (参考訳) 強化学習の約束は、高度な報酬関数のみを指定することで、複雑な逐次的決定問題を自律的に解くことである。
しかし、強化学習アルゴリズムは、しばしばそうであるように、単純で直感的な報酬がスパースで欺きやすいフィードバックを提供する場合に苦労する。
これらの落とし穴を避けるには、環境を徹底的に調査する必要があるが、それを可能にするアルゴリズムを作成することは、この分野の中心的な課題の1つだ。
効果的な探索の主な障害は、以前に訪れた状態への到達方法を忘れるアルゴリズム("detachment")と、それから探索する前に最初に状態に戻ることができないこと("derailment")に起因していると仮定する。
これは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るという単純な原則を通じて、これらの2つの課題に直接対処するアルゴリズムのファミリーです。
go-exploreは、未解決のatariゲームをすべて解決し、すべてのハードエクスプロレーションゲームにおける最先端技術を超え、モンテズマの復讐と落とし穴に対する大きな挑戦を桁違いに改善している。
また,ロボット工学タスクにおけるgo-exploreの実用性を示す。
さらに,目標条件ポリシーの追加により,go-exploreの探索効率がさらに向上し,トレーニングを通して確率性に対処できることを示した。
go-exploreによる実質的なパフォーマンス向上は、状態を覚え、それに戻って探索するという単純な原則が、真のインテリジェントな学習エージェントの作成に不可欠である可能性を示す、強力で一般的な探索アプローチであることを示唆している。 The promise of reinforcement learning is to solve complex sequential decision problems autonomously by specifying a high-level reward function only. However, reinforcement learning algorithms struggle when, as is often the case, simple and intuitive rewards provide sparse and deceptive feedback. Avoiding these pitfalls requires thoroughly exploring the environment, but creating algorithms that can do so remains one of the central challenges of the field. We hypothesise that the main impediment to effective exploration originates from algorithms forgetting how to reach previously visited states ("detachment") and from failing to first return to a state before exploring from it ("derailment"). We introduce Go-Explore, a family of algorithms that addresses these two challenges directly through the simple principles of explicitly remembering promising states and first returning to such states before intentionally exploring. Go-Explore solves all heretofore unsolved Atari games and surpasses the state of the art on all hard-exploration games, with orders of magnitude improvements on the grand challenges Montezuma's Revenge and Pitfall. We also demonstrate the practical potential of Go-Explore on a sparse-reward pick-and-place robotics task. Additionally, we show that adding a goal-conditioned policy can further improve Go-Explore's exploration efficiency and enable it to handle stochasticity throughout training. The substantial performance gains from Go-Explore suggest that the simple principles of remembering states, returning to them, and exploring from them are a powerful and general approach to exploration, an insight that may prove critical to the creation of truly intelligent learning agents. | 翻訳日:2022-12-09 05:31:49 公開日:2021-09-16 |
# 不完全な知識ベースに関するRegexQries Regex Queries over Incomplete Knowledge Bases ( http://arxiv.org/abs/2005.00480v2 ) ライセンス: Link先を確認 | Vaibhav Adlakha, Parth Shah, Srikanta Bedathur, Mausam | (参考訳) 我々は,不完全なkbsに対して,正規表現クエリ(disjunction (\vee$) と kleene plus (+$) 演算子を含む)に応答する新たなタスクを提案する。
これらのクエリの答えセットには多数のエンティティが存在する可能性があるため、KBCのシングルホップクエリでは、高次元空間のポイントとしてクエリをモデル化する以前の作業は、それほど効果的ではない。
これに対して,RotatE-Box - RotatEとボックス埋め込みを組み合わせた新しい組み合わせ。
既存の埋め込みベースモデルと比較して、よりリレーショナルな推論パターンをモデル化できる。
さらに,Regex演算子を扱うために,埋め込みベースのKBCモデルに対するベースラインアプローチを定義する。
本稿では,RotatE-Boxを用いて,実際のユーザクエリログに基づいてクエリを抽出する2つの新しいregex-queryデータセットの性能を示す。
最終的なRotatE-Boxモデルは、単にRotatEと単にボックス埋め込みに基づくモデルよりも大幅に優れています。 We propose the novel task of answering regular expression queries (containing disjunction ($\vee$) and Kleene plus ($+$) operators) over incomplete KBs. The answer set of these queries potentially has a large number of entities, hence previous works for single-hop queries in KBC that model a query as a point in high-dimensional space are not as effective. In response, we develop RotatE-Box -- a novel combination of RotatE and box embeddings. It can model more relational inference patterns compared to existing embedding based models. Furthermore, we define baseline approaches for embedding based KBC models to handle regex operators. We demonstrate performance of RotatE-Box on two new regex-query datasets introduced in this paper, including one where the queries are harvested based on actual user query logs. We find that our final RotatE-Box model significantly outperforms models based on just RotatE and just box embeddings. | 翻訳日:2022-12-07 23:02:08 公開日:2021-09-16 |
# エンドツーエンド自動音声認識のためのインクリメンタル学習 Incremental Learning for End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2005.04288v3 ) ライセンス: Link先を確認 | Li Fu, Xiaoxiao Li, Libo Zi, Zhengchen Zhang, Youzheng Wu, Xiaodong He, Bowen Zhou | (参考訳) 本稿では、asrシステムが新しいタスクでうまく機能し、当初の学習結果のパフォーマンスを維持しつつ、エンドツーエンドの自動音声認識(asr)のためのインクリメンタル学習手法を提案する。
漸進学習における破滅的な忘れを緩和するため,ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し,応答に基づく知識蒸留と組み合わせて,元のモデルの予測と予測の「理性」を維持する。
本手法は,以前のデータが使用できない場合や共同トレーニングが費用がかかる場合に対処するため,元のタスクのトレーニングデータにアクセスせずに動作する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
さらに,2つの実践シナリオにおいて,本手法の性能低下は,基準法よりも97%小さい0.02%の文字誤り率 (CER) である。 In this paper, we propose an incremental learning method for end-to-end Automatic Speech Recognition (ASR) which enables an ASR system to perform well on new tasks while maintaining the performance on its originally learned ones. To mitigate catastrophic forgetting during incremental learning, we design a novel explainability-based knowledge distillation for ASR models, which is combined with a response-based knowledge distillation to maintain the original model's predictions and the "reason" for the predictions. Our method works without access to the training data of original tasks, which addresses the cases where the previous data is no longer available or joint training is costly. Results on a multi-stage sequential training task show that our method outperforms existing ones in mitigating forgetting. Furthermore, in two practical scenarios, compared to the target-reference joint training method, the performance drop of our method is 0.02% Character Error Rate (CER), which is 97% smaller than the drops of the baseline methods. | 翻訳日:2022-12-04 19:27:12 公開日:2021-09-16 |
# スケッチによるシミュレーションからのスペクトル推定 Spectral estimation from simulations via sketching ( http://arxiv.org/abs/2007.11026v2 ) ライセンス: Link先を確認 | Zhishen Huang and Stephen Becker | (参考訳) スケッチング(Sketching)は、データの幾何学的構造を保存し、高次元回帰、低階近似、グラフスペーシングに応用する確率次元還元法である。
本研究では,スケッチを用いてシミュレーションデータを圧縮し,時間自己相関とパワースペクトル密度を正確に推定できることを示す。
与えられた圧縮比では、従来知られていた方法よりもはるかに精度が高い。
理論的保証に加えて,メタノールの分子動力学シミュレーションにスケッチ法を適用し,10%のデータを用いて90%の精度でスペクトル密度を推定できることを確認した。 Sketching is a stochastic dimension reduction method that preserves geometric structures of data and has applications in high-dimensional regression, low rank approximation and graph sparsification. In this work, we show that sketching can be used to compress simulation data and still accurately estimate time autocorrelation and power spectral density. For a given compression ratio, the accuracy is much higher than using previously known methods. In addition to providing theoretical guarantees, we apply sketching to a molecular dynamics simulation of methanol and find that the estimate of spectral density is 90% accurate using only 10% of the data. | 翻訳日:2022-11-08 04:29:06 公開日:2021-09-16 |
# バイオメディカル自然言語処理のためのドメイン特化言語モデル準備 Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing ( http://arxiv.org/abs/2007.15779v6 ) ライセンス: Link先を確認 | Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon | (参考訳) BERTなどの大規模ニューラルネットワークモデルの事前トレーニングは、多くの自然言語処理(NLP)タスクにおいて、大幅な向上をもたらしている。
しかし、ほとんどの事前学習作業は、newswireやwebといった一般的なドメインコーパスにフォーカスしている。
一般的な前提は、ドメイン固有の事前訓練でさえ、汎用ドメイン言語モデルから始めることで利益を享受できるということである。
本稿では,生物医学などの無ラベルテキストが豊富である領域において,スクラッチから言語モデルを事前学習することで,汎用言語モデルの連続的事前学習よりも大幅に向上することを示すことにより,この仮定に挑戦する。
この調査を容易にするため、公開データセットから包括的バイオメディカルNLPベンチマークをコンパイルする。
実験の結果, ドメイン固有のプレトレーニングは, 幅広いバイオメディカルNLPタスクの基盤として機能し, ボード全体に新たな最先端の成果をもたらすことがわかった。
さらに、事前学習とタスク固有の微調整の両方において、モデリング選択の徹底的な評価を行う際に、名前付きエンティティ認識(NER)における複雑なタグ付けスキームの使用など、BERTモデルではいくつかの一般的なプラクティスが不要であることが判明した。
バイオメディカルNLPの研究を加速するために、私たちはコミュニティのために最先端の事前訓練されたタスク固有モデルをリリースし、https://aka.ms/BLURBで私たちのBLURBベンチマーク(バイオメディカル言語理解と推論ベンチマークのショート)を特集したリーダーボードを作成しました。 Pretraining large neural language models, such as BERT, has led to impressive gains on many natural language processing (NLP) tasks. However, most pretraining efforts focus on general domain corpora, such as newswire and Web. A prevailing assumption is that even domain-specific pretraining can benefit by starting from general-domain language models. In this paper, we challenge this assumption by showing that for domains with abundant unlabeled text, such as biomedicine, pretraining language models from scratch results in substantial gains over continual pretraining of general-domain language models. To facilitate this investigation, we compile a comprehensive biomedical NLP benchmark from publicly-available datasets. Our experiments show that domain-specific pretraining serves as a solid foundation for a wide range of biomedical NLP tasks, leading to new state-of-the-art results across the board. Further, in conducting a thorough evaluation of modeling choices, both for pretraining and task-specific fine-tuning, we discover that some common practices are unnecessary with BERT models, such as using complex tagging schemes in named entity recognition (NER). To help accelerate research in biomedical NLP, we have released our state-of-the-art pretrained and task-specific models for the community, and created a leaderboard featuring our BLURB benchmark (short for Biomedical Language Understanding & Reasoning Benchmark) at https://aka.ms/BLURB. | 翻訳日:2022-11-04 05:56:13 公開日:2021-09-16 |
# 複数の3D人物の単眼的, 一段階的回帰 Monocular, One-stage, Regression of Multiple 3D People ( http://arxiv.org/abs/2008.12272v4 ) ライセンス: Link先を確認 | Yu Sun, Qian Bao, Wu Liu, Yili Fu, Michael J. Black, Tao Mei | (参考訳) 本稿では,単一のrgb画像から複数の3d人物の回帰について述べる。
既存のアプローチは主に、バウンディングボックス内の人々を最初に検出し、独立して3Dボディメッシュを回帰するマルチステージパイプラインに従っている。
対照的に、我々は複数の3D人物(ROMP)に対して1段階的に全てのメッシュを回帰することを提案する。
このアプローチは概念的にはシンプルで、ボックスフリーで、ピクセル単位の表現をエンドツーエンドで学習することができる。
本手法は3次元ボディメッシュを画素レベルで同時記述可能なボディセンターヒートマップとメッシュパラメータマップを同時に予測する。
体中心誘導サンプリングプロセスを通じて、画像中のすべての人の体メッシュパラメータをメッシュパラメータマップから容易に抽出する。
このような細かな表現を備えることで、我々のワンステージフレームワークは複雑な多段階プロセスから解放され、オクルージョンに対してより堅牢です。
最先端の手法と比較して、ROMPは3DPWやCMU Panopticといった挑戦的なマルチパーソンベンチマークにおいて優れた性能を発揮する。
混み/閉ざされたデータセットの実験は、様々な種類の咬合下でのロバスト性を示す。
リリースされたコードは、モノクラーマルチパーソン3Dメッシュ回帰の最初のリアルタイム実装である。 This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline that first detects people in bounding boxes and then independently regresses their 3D body meshes. In contrast, we propose to Regress all meshes in a One-stage fashion for Multiple 3D People (termed ROMP). The approach is conceptually simple, bounding box-free, and able to learn a per-pixel representation in an end-to-end manner. Our method simultaneously predicts a Body Center heatmap and a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel level. Through a body-center-guided sampling process, the body mesh parameters of all people in the image are easily extracted from the Mesh Parameter map. Equipped with such a fine-grained representation, our one-stage framework is free of the complex multi-stage process and more robust to occlusion. Compared with state-of-the-art methods, ROMP achieves superior performance on the challenging multi-person benchmarks, including 3DPW and CMU Panoptic. Experiments on crowded/occluded datasets demonstrate the robustness under various types of occlusion. The released code is the first real-time implementation of monocular multi-person 3D mesh regression. | 翻訳日:2022-10-24 08:13:16 公開日:2021-09-16 |
# 畳み込みニューラルネットワークによる歩行者軌道予測 Pedestrian Trajectory Prediction with Convolutional Neural Networks ( http://arxiv.org/abs/2010.05796v2 ) ライセンス: Link先を確認 | Simone Zamboni, Zekarias Tilahun Kefato, Sarunas Girdzijauskas, Noren Christoffer, Laura Dal Col | (参考訳) 歩行者の将来の軌道を予測することは、群衆の監視から自動運転まで、さまざまな応用上の課題である。
文献では、物理モデルからリカレントニューラルネットワークに基づくデータ駆動モデルへ移行し、歩行者軌道予測にアプローチする手法が進化している。
本研究では,新しい2次元畳み込みモデルを導入し,歩行者軌道予測への新たなアプローチを提案する。
この新モデルはリカレントモデルより優れており、ETHとTrajNetデータセットの最先端の結果が得られる。
また,任意のモデルに適用可能なガウスノイズの追加やランダム回転の使用など,歩行者位置と強力なデータ拡張手法を効果的に表現するシステムを提案する。
追加の探索分析として,社会的情報のモデル化に占有方法を含める実験を行い,これらの方法が社会的相互作用を捉える上で有効でないことを示す。 Predicting the future trajectories of pedestrians is a challenging problem that has a range of application, from crowd surveillance to autonomous driving. In literature, methods to approach pedestrian trajectory prediction have evolved, transitioning from physics-based models to data-driven models based on recurrent neural networks. In this work, we propose a new approach to pedestrian trajectory prediction, with the introduction of a novel 2D convolutional model. This new model outperforms recurrent models, and it achieves state-of-the-art results on the ETH and TrajNet datasets. We also present an effective system to represent pedestrian positions and powerful data augmentation techniques, such as the addition of Gaussian noise and the use of random rotations, which can be applied to any model. As an additional exploratory analysis, we present experimental results on the inclusion of occupancy methods to model social information, which empirically show that these methods are ineffective in capturing social interaction. | 翻訳日:2022-10-08 06:15:07 公開日:2021-09-16 |
# 不規則測地における流体場予測のためのポイントクラウド深層学習フレームワーク A Point-Cloud Deep Learning Framework for Prediction of Fluid Flow Fields on Irregular Geometries ( http://arxiv.org/abs/2010.09469v2 ) ライセンス: Link先を確認 | Ali Kashefi, Davis Rempe, Leonidas J. Guibas | (参考訳) 本稿では,不規則領域における流れ場予測のための新しい深層学習フレームワークを提案する。
計算流体力学(cfd)領域の格子頂点は点雲と見なされ、空間的位置とcfd量の間のエンドツーエンドマッピングを学ぶpointnetアーキテクチャに基づくニューラルネットワークへの入力として使用される。
私たちのアプローチを使って
(i)ネットワークは、ネットワークのトレーニングコストを最小化する非構造化メッシュ(例えば、物体表面付近及び遠方界における細かな点間隔など)の望ましい特徴を継承する。
(II)オブジェクトの幾何学は、境界の滑らかさを維持し、ネットワークがジオメトリ間の小さな変化を検出できるように、オブジェクト境界上の頂点を通して正確に表現される。
(iii)トレーニングデータの作成にはデータ補間が利用されず、cfdデータの精度が保持される。
これらの機能はいずれも、分散CFDデータをカルト格子に投影し、通常の畳み込みニューラルネットワークを使用する既存の方法によって達成できない。
断面形状の異なる円筒を過ぎる非圧縮性層流を考察した。
予測された場の質量と運動量は保存される。
我々は,訓練中に単一物体のみを観測し,翼のない状態で,複数の物体のまわりの流れを予測し,ネットワークの一般化性を検証した。
ネットワークは従来のCFDソルバの数百倍の速さで流れ場を予測し,精度は良好である。 We present a novel deep learning framework for flow field predictions in irregular domains when the solution is a function of the geometry of either the domain or objects inside the domain. Grid vertices in a computational fluid dynamics (CFD) domain are viewed as point clouds and used as inputs to a neural network based on the PointNet architecture, which learns an end-to-end mapping between spatial positions and CFD quantities. Using our approach, (i) the network inherits desirable features of unstructured meshes (e.g., fine and coarse point spacing near the object surface and in the far field, respectively), which minimizes network training cost; (ii) object geometry is accurately represented through vertices located on object boundaries, which maintains boundary smoothness and allows the network to detect small changes between geometries; and (iii) no data interpolation is utilized for creating training data; thus accuracy of the CFD data is preserved. None of these features are achievable by extant methods based on projecting scattered CFD data into Cartesian grids and then using regular convolutional neural networks. Incompressible laminar steady flow past a cylinder with various shapes for its cross section is considered. The mass and momentum of predicted fields are conserved. We test the generalizability of our network by predicting the flow around multiple objects as well as an airfoil, even though only single objects and no airfoils are observed during training. The network predicts the flow fields hundreds of times faster than our conventional CFD solver, while maintaining excellent to reasonable accuracy. | 翻訳日:2022-10-07 05:40:10 公開日:2021-09-16 |
# (参考訳) 時空間推論における長期パターンと短期パターンの分離 Decoupling Long- and Short-Term Patterns in Spatiotemporal Inference ( http://arxiv.org/abs/2109.09506v1 ) ライセンス: CC BY 4.0 | Junfeng Hu, Yuxuan Liang, Zhencheng Fan, Yifang Yin, Ying Zhang, Roger Zimmermann | (参考訳) センサは、環境を感知し、都市全体にリアルタイムの空気質情報を提供するなど、スマートシティに多くの面でメリットを与えるための鍵です。
しかし、環境に関するきめ細かい知識を得るのが前提である。
不可解な費用のため、物理的にどれだけのセンサーをインストールできるかには限界がある。
本稿では,利用可能なセンサ(時空間推定)からの歴史的および現在の観測に基づいて,都市内の任意の位置情報をリアルタイムに推定することを提案する。
我々のアプローチは、2つの主要なコンポーネントに依存する短期パターンと長期パターンのモデリングを分離する。
まず,空間的および時間的関係学習を分離した先行研究とは異なり,空間的および時間的次元の短期的依存関係を学習する統合時空間グラフ注意ネットワークを導入する。
次に,長期パターンを捕捉するための時間スキップ付き適応グラフ再帰ネットワークを提案する。
適応的隣接行列は、動的依存を学習するための繰り返しネットワークの入力として、まず誘導的に学習される。
4つのパブリック・リードワールド・データセットによる実験結果から,本手法は平均絶対誤差を5%~12%削減することがわかった。 Sensors are the key to sensing the environment and imparting benefits to smart cities in many aspects, such as providing real-time air quality information throughout an urban area. However, a prerequisite is to obtain fine-grained knowledge of the environment. There is a limit to how many sensors can be installed in the physical world due to non-negligible expenses. In this paper, we propose to infer real-time information of any given location in a city based on historical and current observations from the available sensors (termed spatiotemporal inference). Our approach decouples the modeling of short-term and long-term patterns, relying on two major components. Firstly, unlike previous studies that separated the spatial and temporal relation learning, we introduce a joint spatiotemporal graph attention network that learns the short-term dependencies across both the spatial and temporal dimensions. Secondly, we propose an adaptive graph recurrent network with a time skip for capturing long-term patterns. The adaptive adjacency matrices are learned inductively first as the inputs of a recurrent network to learn dynamic dependencies. Experimental results on four public read-world datasets show that our method reduces state-of-the-art baseline mean absolute errors by 5%~12%. | 翻訳日:2021-09-24 03:19:21 公開日:2021-09-16 |
# (参考訳) ジオインフォマティクスにおける時系列信号のモデリングと解析のための機械学習手法 Machine learning methods for modelling and analysis of time series signals in geoinformatics ( http://arxiv.org/abs/2109.09499v1 ) ライセンス: CC BY 4.0 | Maria Kaselimi | (参考訳) この論文では、異なる性質の多数の時系列データセットと異なるアプリケーションに対して、いくつかのディープラーニング(DL)アーキテクチャの性能を評価する比較分析を提供する。
地理学コミュニティの関心を惹きつける現在の学際研究課題に取り組むために戦略的に選択された2つの主要な実りある研究分野について論じる。
最初の問題は、多くのリアルタイムグローバルナビゲーションシステム衛星(GNSS)アプリケーションにおいて重要な問題である電離圏全電子コンテンツ(TEC)モデリングに関連している。
電離圏変動に関する信頼性と迅速な知識がますます重要になる。
単一周波数受信機と衛星ナビゲーションシステムのGNSSユーザは、電離層による信号劣化の影響を取り除くために正確な修正が必要である。
信号処理技術を用いた電離圏モデリングは,本研究における議論の対象となっている。
次に議論されている問題はエネルギー分散であり、エネルギー効率とエネルギー消費意識にとって重要な問題である。
アプライアンスレベルでの住宅エネルギー消費に関する信頼性と迅速な知識がますます重要になってきており、省エネルギー対策として重要なものとなっている。
エネルギー分散(英: energy disaggregation, nonintrusive load monitoring、nilm)は、電力消費の合計から各家電の消費を推定する単一チャネルブラインドソース分離問題である。
両問題に対して,研究対象の諸側面をカバーする各種ディープラーニングモデル (DL) を提案し, 実験結果から, 提案手法が現状よりも優れていることが示された。 In this dissertation is provided a comparative analysis that evaluates the performance of several deep learning (DL) architectures on a large number of time series datasets of different nature and for different applications. Two main fruitful research fields are discussed here which were strategically chosen in order to address current cross disciplinary research priorities attracting the interest of geodetic community. The first problem is related to ionospheric Total Electron Content (TEC) modeling which is an important issue in many real time Global Navigation System Satellites (GNSS) applications. Reliable and fast knowledge about ionospheric variations becomes increasingly important. GNSS users of single frequency receivers and satellite navigation systems need accurate corrections to remove signal degradation effects caused by the ionosphere. Ionospheric modeling using signal processing techniques is the subject of discussion in the present contribution. The next problem under discussion is energy disaggregation which is an important issue for energy efficiency and energy consumption awareness. Reliable and fast knowledge about residential energy consumption at appliance level becomes increasingly important nowadays and it is an important mitigation measure to prevent energy wastage. Energy disaggregation or Nonintrusive load monitoring (NILM) is a single channel blind source separation problem where the task is to estimate the consumption of each electrical appliance given the total energy consumption. For both problems various deep learning models (DL) are proposed that cover various aspects of the problem under study, whereas experimental results indicate the proposed methods superiority compared to the current state of the art. | 翻訳日:2021-09-24 03:04:53 公開日:2021-09-16 |
# 知識ベース補完のためのニューロシンボリックAIによるルールと埋め込みの組み合わせ Combining Rules and Embeddings via Neuro-Symbolic AI for Knowledge Base Completion ( http://arxiv.org/abs/2109.09566v1 ) ライセンス: Link先を確認 | Prithviraj Sen, Breno W. S. R. Carvalho, Ibrahim Abdelaziz, Pavan Kapanipathi, Francois Luus, Salim Roukos, Alexander Gray | (参考訳) 近年のKBC(Knowledge Base Completion)への関心は、強化学習、帰納的論理プログラミング、グラフ埋め込みに基づく多くのアプローチにつながっている。
特に、ルールベースのKBCは、グラフ埋め込みと同等のパフォーマンスで、解釈可能なルールを生み出している。
ルールベースのKBCでさえ、異なる品質のルールにつながる様々なアプローチが存在しており、以前の作業はこれらの違いを強調する上で必ずしも正確ではない。
多くの規則に基づくKBCを悩ませているもう1つの問題は、関係経路の不均一性である。
本稿では、ルールベースのKBCモデルがすべて同じではないことを示し、一つのケースで学習する2つの異なるアプローチを提案する。
1)関係と関係の混在
2) 経路の混合。
ブール論理を実数値論理に拡張することでルールを学習するニューロシンボリックAI上に実装すると、後者のモデルは平均的相互ランクで2-10%の最先端のKBC精度が得られる。
さらに、関係経路の不均一性に対処するため、ルールベースのKBCとグラフ埋め込みを組み合わせることにより、結果をさらに改善し、両世界のベストを達成できる。 Recent interest in Knowledge Base Completion (KBC) has led to a plethora of approaches based on reinforcement learning, inductive logic programming and graph embeddings. In particular, rule-based KBC has led to interpretable rules while being comparable in performance with graph embeddings. Even within rule-based KBC, there exist different approaches that lead to rules of varying quality and previous work has not always been precise in highlighting these differences. Another issue that plagues most rule-based KBC is the non-uniformity of relation paths: some relation sequences occur in very few paths while others appear very frequently. In this paper, we show that not all rule-based KBC models are the same and propose two distinct approaches that learn in one case: 1) a mixture of relations and the other 2) a mixture of paths. When implemented on top of neuro-symbolic AI, which learns rules by extending Boolean logic to real-valued logic, the latter model leads to superior KBC accuracy outperforming state-of-the-art rule-based KBC by 2-10% in terms of mean reciprocal rank. Furthermore, to address the non-uniformity of relation paths, we combine rule-based KBC with graph embeddings thus improving our results even further and achieving the best of both worlds. | 翻訳日:2021-09-21 16:44:12 公開日:2021-09-16 |
# 非確率的欠落データを用いた教師なし領域適応 Unsupervised domain adaptation with non-stochastic missing data ( http://arxiv.org/abs/2109.09505v1 ) ライセンス: Link先を確認 | Matthieu Kirchmeyer (MLIA), Patrick Gallinari (MLIA), Alain Rakotomamonjy (LITIS), Amin Mantrach | (参考訳) 対象領域に欠落するデータが存在する場合の分類問題に対する教師なし領域適応(UDA)を検討する。
より正確には、実用的な応用によって動機づけられた、ドメイン間の分散シフトが存在し、ターゲットドメインにいくつかのコンポーネントが体系的に欠落している状況を分析する。
我々はインプテーションに対する生成的アプローチを提案する。
インプテーションはドメイン不変な潜在空間で行われ、完全なソースドメインからの間接的な監督を利用する。
本稿では, 目的の一般化誤差の上限を最小化し, 種々の分岐族(H-divergence, Optimal Transport, H-divergence, H-divergence, Optimal Transport)の下でよく機能する単一モデルを提案する。
さらに, 適応推定フレームワークの目標誤差と, UDA分類器の「理想的」目標誤差を, 目標成分を欠くことなく比較した。
本モデルは,学習源と目標クラスの後方分布をより近づけるため,自己学習によりさらに改善されている。
古典的な数字分類ベンチマーク、Amazonの製品レビューデータセットは、UDAと現実世界のデジタル広告データセットの両方でよく使われている。
これらのデータセットに適応・分類・インプテーションを共同で行う利点を示す。 We consider unsupervised domain adaptation (UDA) for classification problems in the presence of missing data in the unlabelled target domain. More precisely, motivated by practical applications, we analyze situations where distribution shift exists between domains and where some components are systematically absent on the target domain without available supervision for imputing the missing target components. We propose a generative approach for imputation. Imputation is performed in a domain-invariant latent space and leverages indirect supervision from a complete source domain. We introduce a single model performing joint adaptation, imputation and classification which, under our assumptions, minimizes an upper bound of its target generalization error and performs well under various representative divergence families (H-divergence, Optimal Transport). Moreover, we compare the target error of our Adaptation-imputation framework and the "ideal" target error of a UDA classifier without missing target components. Our model is further improved with self-training, to bring the learned source and target class posterior distributions closer. We perform experiments on three families of datasets of different modalities: a classical digit classification benchmark, the Amazon product reviews dataset both commonly used in UDA and real-world digital advertising datasets. We show the benefits of jointly performing adaptation, classification and imputation on these datasets. | 翻訳日:2021-09-21 16:17:24 公開日:2021-09-16 |
# 交通モード検出のための効率的な畳み込みニューラルネットワーク The Devil Is in the Details: An Efficient Convolutional Neural Network for Transport Mode Detection ( http://arxiv.org/abs/2109.09504v1 ) ライセンス: Link先を確認 | Hugues Moreau and Andr\'ea Vassilev and Liming Chen | (参考訳) トランスポートモード検出は、マルチモーダル信号(GPSや慣性センサー)をユーザのトランスポートモードに推論できるアルゴリズムを設計することを目的とした分類問題である。
カーボンフットプリントトラッキング、モビリティ行動分析、リアルタイムのドアツードアスマートプランニングなど、多くのアプリケーションがある。
現在のほとんどのアプローチは、機械学習技術を使った分類ステップに依存しており、他の多くの分類問題と同様に、ディープラーニングアプローチは、手作りの機能を使った従来の機械学習手法よりも優れた結果が得られる。
しかし、深層モデルには注目すべき欠点がある。それらは通常、メモリ空間と処理コストの両方の観点から重い。
小型で最適化されたモデルが現在の深層モデルと同様に機能することを示す。
geolifeとshl 2018データセットの実験では、最先端のネットワークに比べて数万のパラメータ、すなわち10~1000分の1のパラメータと操作を持つモデルが得られました。
また、前述のデータセットを用いて、異なる長さの信号を扱う現在の前処理が最適ではないことを示し、より良い代替を提供する。
最後に、より重いリカレントニューラルネットワークを用いることなく、より軽い畳み込みニューラルネットワークで異なる長さの信号を使用する方法を提案する。 Transport mode detection is a classification problem aiming to design an algorithm that can infer the transport mode of a user given multimodal signals (GPS and/or inertial sensors). It has many applications, such as carbon footprint tracking, mobility behaviour analysis, or real-time door-to-door smart planning. Most current approaches rely on a classification step using Machine Learning techniques, and, like in many other classification problems, deep learning approaches usually achieve better results than traditional machine learning ones using handcrafted features. Deep models, however, have a notable downside: they are usually heavy, both in terms of memory space and processing cost. We show that a small, optimized model can perform as well as a current deep model. During our experiments on the GeoLife and SHL 2018 datasets, we obtain models with tens of thousands of parameters, that is, 10 to 1,000 times less parameters and operations than networks from the state of the art, which still reach a comparable performance. We also show, using the aforementioned datasets, that the current preprocessing used to deal with signals of different lengths is suboptimal, and we provide better replacements. Finally, we introduce a way to use signals with different lengths with the lighter Convolutional neural networks, without using the heavier Recurrent Neural Networks. | 翻訳日:2021-09-21 16:03:29 公開日:2021-09-16 |
# (参考訳) 矛盾した理論の不確かさの注意物語 A Cautionary Tale of Decorrelating Theory Uncertainties ( http://arxiv.org/abs/2109.08159v1 ) ライセンス: CC BY 4.0 | Aishik Ghosh and Benjamin Nachman | (参考訳) 与えられた特徴に依存しない機械学習分類器を訓練するための様々な技術が提案されている。
これは背景推定を可能にするために不可欠な技術であるが、不確実性を減らすのにも役立つかもしれない。
統計的起源を持たない理論の不確実性について慎重に検討する。
2点(フラグメンテーション・モデリング)と連続的(高階修正)の不確かさの明示的な例を提供し、この不確実性は実際の不確実性がはるかに大きい間に明らかな不確実性を大幅に減少させる。
これらの結果は,統計的に有意な成分への完全分解がなければ,これらの不確実性に対してデコレーションを用いることには注意が必要であることを示唆している。 A variety of techniques have been proposed to train machine learning classifiers that are independent of a given feature. While this can be an essential technique for enabling background estimation, it may also be useful for reducing uncertainties. We carefully examine theory uncertainties, which typically do not have a statistical origin. We will provide explicit examples of two-point (fragmentation modeling) and continuous (higher-order corrections) uncertainties where decorrelating significantly reduces the apparent uncertainty while the actual uncertainty is much larger. These results suggest that caution should be taken when using decorrelation for these types of uncertainties as long as we do not have a complete decomposition into statistically meaningful components. | 翻訳日:2021-09-21 08:57:11 公開日:2021-09-16 |
# (参考訳) TANet: Transformer-CNNアグリゲーションネットワークによるグローバル顔超解像のための新しいパラダイム TANet: A new Paradigm for Global Face Super-resolution via Transformer-CNN Aggregation Network ( http://arxiv.org/abs/2109.08174v1 ) ライセンス: CC BY 4.0 | Yuanzhi Wang, Tao Lu, Yanduo Zhang, Junjun Jiang, Jiaming Wang, Zhongyuan Wang, Jiayi Ma | (参考訳) 最近、顔の全体像を畳み込みニューラルネットワーク(CNN)にフィードするか、顔の構造に焦点を合わせるために追加の顔前兆(例えば、顔解析マップ、顔のランドマーク)を利用するか、顔の詳細を復元しながら顔の構造の整合性を維持する。
しかし、cnnの限られた受容野と不正確な顔前野は、再構成された顔の自然性と忠実さを減少させる。
本稿では,顔構造の表現能力を完全に探究するために,自己着脱機構(すなわちトランスフォーマのコア)に基づく新しいパラダイムを提案する。
具体的には、2つのパスからなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計し、一方のパスは細かな顔の詳細を復元するCNNを使用し、他方のパスはリソースフレンドリーなTransformerを使用して、長距離視覚関係モデリングを利用してグローバル情報をキャプチャする。
上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。
顔再建と認識実験の結果,提案手法が最先端手法を著しく上回ることを確認した。 Recently, face super-resolution (FSR) methods either feed whole face image into convolutional neural networks (CNNs) or utilize extra facial priors (e.g., facial parsing maps, facial landmarks) to focus on facial structure, thereby maintaining the consistency of the facial structure while restoring facial details. However, the limited receptive fields of CNNs and inaccurate facial priors will reduce the naturalness and fidelity of the reconstructed face. In this paper, we propose a novel paradigm based on the self-attention mechanism (i.e., the core of Transformer) to fully explore the representation capacity of the facial structure feature. Specifically, we design a Transformer-CNN aggregation network (TANet) consisting of two paths, in which one path uses CNNs responsible for restoring fine-grained facial details while the other utilizes a resource-friendly Transformer to capture global information by exploiting the long-distance visual relation modeling. By aggregating the features from the above two paths, the consistency of global facial structure and fidelity of local facial detail restoration are strengthened simultaneously. Experimental results of face reconstruction and recognition verify that the proposed method can significantly outperform the state-of-the-art methods. | 翻訳日:2021-09-21 08:43:14 公開日:2021-09-16 |
# (参考訳) 解釈可能なローカルツリーサロゲートポリシー Interpretable Local Tree Surrogate Policies ( http://arxiv.org/abs/2109.08180v1 ) ライセンス: CC BY 4.0 | John Mern, Sidhart Krishnan, Anil Yildiz, Kyle Hatch, Mykel J. Kochenderfer | (参考訳) ニューラルネットワークで表されるような高次元のポリシーは、人間によって合理的に解釈できない。
この解釈可能性の欠如は、ユーザーが政策行動において持つ信頼を減らし、ビデオゲームのような低インパクトなタスクに制限する。
残念ながら、多くの手法は効果的な学習のためにニューラルネットワーク表現に依存している。
本研究では,ニューラルネットワークなどのポリシの代理として,予測可能なポリシツリーを構築する手法を提案する。
ポリシーツリーは容易に解釈可能であり、将来の行動の定量的予測を提供する。
本手法の性能を複数のシミュレーションタスクで実証する。 High-dimensional policies, such as those represented by neural networks, cannot be reasonably interpreted by humans. This lack of interpretability reduces the trust users have in policy behavior, limiting their use to low-impact tasks such as video games. Unfortunately, many methods rely on neural network representations for effective learning. In this work, we propose a method to build predictable policy trees as surrogates for policies such as neural networks. The policy trees are easily human interpretable and provide quantitative predictions of future behavior. We demonstrate the performance of this approach on several simulated tasks. | 翻訳日:2021-09-21 08:30:33 公開日:2021-09-16 |
# (参考訳) torch.manual_seed(3407) : コンピュータビジョンのためのディープラーニングアーキテクチャにおけるランダム種の影響について Torch.manual_seed(3407) is all you need: On the influence of random seeds in deep learning architectures for computer vision ( http://arxiv.org/abs/2109.08203v1 ) ライセンス: CC BY-SA 4.0 | David Picard | (参考訳) 本稿では,一般的なディープラーニングアーキテクチャを用いたコンピュータビジョンにおけるランダムシード選択が精度に及ぼす影響について検討する。
私はCIFAR 10上で大量の種子(最大10ドル^4ドル)をスキャンし、また、トレーニング済みのモデルを使用してImagenet上の種子をスキャンして、大規模なデータセットを調査します。
結論は、分散がそれほど大きくなくても、平均よりもずっと良い、あるいははるかに悪い結果をもたらす外れ値を見つけるのは驚くほど容易であるということである。 In this paper I investigate the effect of random seed selection on the accuracy when using popular deep learning architectures for computer vision. I scan a large amount of seeds (up to $10^4$) on CIFAR 10 and I also scan fewer seeds on Imagenet using pre-trained models to investigate large scale datasets. The conclusions are that even if the variance is not very large, it is surprisingly easy to find an outlier that performs much better or much worse than the average. | 翻訳日:2021-09-21 08:19:10 公開日:2021-09-16 |
# (参考訳) 対話要約のためのトリックの袋 A Bag of Tricks for Dialogue Summarization ( http://arxiv.org/abs/2109.08232v1 ) ライセンス: CC BY 4.0 | Muhammad Khalifa, Miguel Ballesteros, Kathleen McKeown | (参考訳) 対話要約は、ニュースや科学記事の要約とは対照的に、独自の挑戦を伴う。
本研究では,複数の話者に属する対話の部分の処理と識別,否定的理解,状況の推論,非公式言語理解の4つの課題について検討する。
事前学習されたシーケンスからシーケンスへの言語モデルを用いて、話者名置換、否定スコープハイライト、関連するタスクによるマルチタスク学習、ドメイン内データの事前トレーニングについて検討する。
実験の結果,提案手法は,強いベースラインを上回って要約性能が向上した。 Dialogue summarization comes with its own peculiar challenges as opposed to news or scientific articles summarization. In this work, we explore four different challenges of the task: handling and differentiating parts of the dialogue belonging to multiple speakers, negation understanding, reasoning about the situation, and informal language understanding. Using a pretrained sequence-to-sequence language model, we explore speaker name substitution, negation scope highlighting, multi-task learning with relevant tasks, and pretraining on in-domain data. Our experiments show that our proposed techniques indeed improve summarization performance, outperforming strong baselines. | 翻訳日:2021-09-21 08:12:13 公開日:2021-09-16 |
# (参考訳) 共鳴・発火ニューロンを用いたディープスパイキングニューラルネットワーク Deep Spiking Neural Networks with Resonate-and-Fire Neurons ( http://arxiv.org/abs/2109.08234v1 ) ライセンス: CC BY 4.0 | Badr AlKhamissi, Muhammad ElNokrashy, David Bernal-Casas | (参考訳) 本研究では,Resonate-and-Fire(RAF)ニューロンを用いた新しいスパイキングニューラルネットワーク(SNN)の定式化(Izhikevich,2001)について検討する。
RAF-SNNは、より生物学的に妥当であるが、類似または少ないパラメータを使用して、異なるネットワーク構成にわたる機械学習文学における従来のモデルと同等かそれ以上のパフォーマンスを達成する。
興味深いことに、RAF-SNNは静的条件と動的条件の両方で、試験・訓練時に誘導される騒音に対して頑健である。
MNISTのCNNに対して,N(0, 0.2)誘導雑音では25%高い絶対精度を示した。
N-MNISTのLSTMに対して,訓練時に20%誘導雑音で70%高い絶対精度を示した。 In this work, we explore a new Spiking Neural Network (SNN) formulation with Resonate-and-Fire (RAF) neurons (Izhikevich, 2001) trained with gradient descent via back-propagation. The RAF-SNN, while more biologically plausible, achieves performance comparable to or higher than conventional models in the Machine Learning literature across different network configurations, using similar or fewer parameters. Strikingly, the RAF-SNN proves robust against noise induced at testing/training time, under both static and dynamic conditions. Against CNN on MNIST, we show 25% higher absolute accuracy with N(0, 0.2) induced noise at testing time. Against LSTM on N-MNIST, we show 70% higher absolute accuracy with 20% induced noise at training time. | 翻訳日:2021-09-21 08:02:05 公開日:2021-09-16 |
# (参考訳) Subtle Inverse Crimes:Na\は機械学習アルゴリズムを訓練することで過度に最適化された結果をもたらす Subtle Inverse Crimes: Na\"ively training machine learning algorithms could lead to overly-optimistic results ( http://arxiv.org/abs/2109.08237v1 ) ライセンス: CC BY 4.0 | Efrat Shimron, Jonathan I. Tamir, Ke Wang, Michael Lustig | (参考訳) オープンデータベースは、ディープラーニング(DL)時代において重要なリソースであるが、あるタスクのために公開されたデータは、別のタスクのためのアルゴリズムのトレーニングに使用される。
この研究は、あるケースでは、この一般的なプラクティスが偏り、過剰に最適化された結果につながる可能性があることを強調することを目的としている。
逆問題解法におけるこの現象を実証し、そのバイアスのある性能が隠れデータ前処理パイプラインに起因することを示す。
オープンアクセスデータベースに典型的な2つの前処理パイプラインを記述し、磁気共鳴イメージング(MRI)再構成のために開発された3つの確立されたアルゴリズム(圧縮センシング(CS)、辞書学習(DictL)、DL)への影響について検討する。
この大規模研究で我々は広範囲な計算を行った。
この結果から, CS, DictL, DLアルゴリズムは, 一見不適切なデータに対して, na\ 的に訓練された場合, 系統的に偏りが生じることが明らかとなった: 正規化ルート平均角誤差(NRMSE)は前処理範囲で一貫して改善され, 人工的に25%-48%の増加を示す。
この現象は一般に不明であるため、偏見のある結果はしばしば最先端技術として公表される。
この作業は、ビッグデータの「ラベル外使用」に関する赤旗を掲げ、現代の逆問題解決器の脆弱性が結果として生じるバイアスを明らかにする。 While open databases are an important resource in the Deep Learning (DL) era, they are sometimes used "off-label": data published for one task are used for training algorithms for a different one. This work aims to highlight that in some cases, this common practice may lead to biased, overly-optimistic results. We demonstrate this phenomenon for inverse problem solvers and show how their biased performance stems from hidden data preprocessing pipelines. We describe two preprocessing pipelines typical of open-access databases and study their effects on three well-established algorithms developed for Magnetic Resonance Imaging (MRI) reconstruction: Compressed Sensing (CS), Dictionary Learning (DictL), and DL. In this large-scale study we performed extensive computations. Our results demonstrate that the CS, DictL and DL algorithms yield systematically biased results when na\"ively trained on seemingly-appropriate data: the Normalized Root Mean Square Error (NRMSE) improves consistently with the preprocessing extent, showing an artificial increase of 25%-48% in some cases. Since this phenomenon is generally unknown, biased results are sometimes published as state-of-the-art; we refer to that as subtle inverse crimes. This work hence raises a red flag regarding na\"ive off-label usage of Big Data and reveals the vulnerability of modern inverse problem solvers to the resulting bias. | 翻訳日:2021-09-21 07:53:58 公開日:2021-09-16 |
# (参考訳) パーシステンス図のベクトル表現のための計算効率のよいフレームワーク A computationally efficient framework for vector representation of persistence diagrams ( http://arxiv.org/abs/2109.08239v1 ) ライセンス: CC BY 4.0 | Kit C. Chan, Umar Islambekov, Alexey Luchinsky, Rebecca Sanders | (参考訳) トポロジカルデータ分析では、データの形状を定量化する一般的な方法は永続図(PD)を使用することである。
PDは代数トポロジーのツールを用いて計算された$\mathbb{R}^2$の点の多重集合である。
しかし、このマルチセット構造はアプリケーションにおけるPDの有用性を制限する。
そのため,近年,PDから情報的かつ効率的な要約を抽出し,機械学習タスクの利用範囲を拡大する取り組みが進められている。
本稿では,ベクトル化永続化ブロック(VPB)と呼ばれる$\mathbb{R}^n$のPDをベクトルに変換する計算効率の良いフレームワークを提案する。
提案手法は,入力雑音に対する安定性,計算コストの低さ,柔軟性など,ベクトルベースサマリーの所望の特性を多数有することを示す。
シミュレーション研究を通じて,様々な学習タスク,すなわちクラスタリング,分類,変化点検出におけるパフォーマンスと計算コストの観点からvpbの有効性を実証する。 In Topological Data Analysis, a common way of quantifying the shape of data is to use a persistence diagram (PD). PDs are multisets of points in $\mathbb{R}^2$ computed using tools of algebraic topology. However, this multi-set structure limits the utility of PDs in applications. Therefore, in recent years efforts have been directed towards extracting informative and efficient summaries from PDs to broaden the scope of their use for machine learning tasks. We propose a computationally efficient framework to convert a PD into a vector in $\mathbb{R}^n$, called a vectorized persistence block (VPB). We show that our representation possesses many of the desired properties of vector-based summaries such as stability with respect to input noise, low computational cost and flexibility. Through simulation studies, we demonstrate the effectiveness of VPBs in terms of performance and computational cost within various learning tasks, namely clustering, classification and change point detection. | 翻訳日:2021-09-21 07:33:09 公開日:2021-09-16 |
# (参考訳) gaussian stochastic weight averagingを用いた流動-流れ回帰のためのモデル型不確かさの評価 Assessments of model-form uncertainty using Gaussian stochastic weight averaging for fluid-flow regression ( http://arxiv.org/abs/2109.08248v1 ) ライセンス: CC BY 4.0 | Masaki Morimoto, Kai Fukami, Romit Maulik, Ricardo Vinuesa, Koji Fukagata | (参考訳) 我々は,gaussian stochastic weight averaging (swag) を用いて,ニューラルネットワークに基づく関数近似に関連するモデル形式不確実性を評価する。
SWAGは、各重量の後方ガウス分布、与えられたトレーニングデータ、一定の学習率を近似する。
この分布にアクセスすることで、サンプル重量の様々な組み合わせで複数のモデルを作成することができ、アンサンブル予測を得るために使用できる。
このようなアンサンブルの平均値は「平均推定」とみなすことができるが、その標準偏差は「信頼区間」の構築に利用することができ、ニューラルネットワークのトレーニングプロセスに関して不確実な定量化(UQ)を行うことができる。
代表的ニューラルネットワークに基づく関数近似タスクを以下に示す。
(i)二次元円形シリンダーウェイク
(ii)DayMETデータセット(北米の日中最高気温)
(iii)3次元正方形シリンダーウェイク、
(iv)広い範囲の複雑なデータセットに対する現在のアイデアの一般化可能性を評価するための都市フロー。
SWAGに基づくUQは,ネットワークアーキテクチャによらず適用可能であるため,2種類のニューラルネットワークに適用可能であることを示す。
(i)畳み込みニューラルネットワーク(cnn)と多層パーセプトロン(mlp)の組み合わせによるスパースセンサからのグローバルフィールド再構成と
(ii)二次元cnnを用いた断面データからの遠方界状態推定
SWAGは、モデル形式の不確実性の観点から、物理的に解釈可能な信頼区間の推定値を得ることができる。
この能力は、科学と工学の幅広い問題に対してその使用をサポートする。 We use Gaussian stochastic weight averaging (SWAG) to assess the model-form uncertainty associated with neural-network-based function approximation relevant to fluid flows. SWAG approximates a posterior Gaussian distribution of each weight, given training data, and a constant learning rate. Having access to this distribution, it is able to create multiple models with various combinations of sampled weights, which can be used to obtain ensemble predictions. The average of such an ensemble can be regarded as the `mean estimation', whereas its standard deviation can be used to construct `confidence intervals', which enable us to perform uncertainty quantification (UQ) with regard to the training process of neural networks. We utilize representative neural-network-based function approximation tasks for the following cases: (i) a two-dimensional circular-cylinder wake; (ii) the DayMET dataset (maximum daily temperature in North America); (iii) a three-dimensional square-cylinder wake; and (iv) urban flow, to assess the generalizability of the present idea for a wide range of complex datasets. SWAG-based UQ can be applied regardless of the network architecture, and therefore, we demonstrate the applicability of the method for two types of neural networks: (i) global field reconstruction from sparse sensors by combining convolutional neural network (CNN) and multi-layer perceptron (MLP); and (ii) far-field state estimation from sectional data with two-dimensional CNN. We find that SWAG can obtain physically-interpretable confidence-interval estimates from the perspective of model-form uncertainty. This capability supports its use for a wide range of problems in science and engineering. | 翻訳日:2021-09-21 06:43:09 公開日:2021-09-16 |
# (参考訳) 近距離隣接言語モデルの規則化学習 Regularized Training of Nearest Neighbor Language Models ( http://arxiv.org/abs/2109.08249v1 ) ライセンス: CC BY 4.0 | Jean-Francois Ton, Walter Talbott, Shuangfei Zhai, Josh Susskind | (参考訳) 自然言語処理アーキテクチャにメモリバンクを含めると、推論時に追加のデータを装備することでモデルキャパシティが向上する。
本稿では,事前学習した言語モデルと,トレーニングデータ(メモリバンク)を網羅した$k$NN検索を併用して,最先端の結果を得られる,$k$NN-LM \citep{khandelwal20 Generalization}を構築した。
我々は、$k$NN-LMのパフォーマンスを、代わりに$k$NNポストホックを使って、LMをトレーニングすることで改善できるかどうか検討する。
本手法は, 言語モデリングタスクにおいて, <texttt{WIKI-2} と \texttt{WIKI-103} で大幅に改善された。
私たちが遭遇する主な現象は、モデルのアクティベーション(重みではなく)に単純なl2正規化を加えることで、ポストホックな$k$nnの分類性能が向上することです。
この改善のいくつかの可能性を探る。
特に,低頻度単語の性能を損なうことなく,高頻度単語の性能を向上させるl2正則化法が提案されている。 Including memory banks in a natural language processing architecture increases model capacity by equipping it with additional data at inference time. In this paper, we build upon $k$NN-LM \citep{khandelwal20generalization}, which uses a pre-trained language model together with an exhaustive $k$NN search through the training data (memory bank) to achieve state-of-the-art results. We investigate whether we can improve the $k$NN-LM performance by instead training a LM with the knowledge that we will be using a $k$NN post-hoc. We achieved significant improvement using our method on language modeling tasks on \texttt{WIKI-2} and \texttt{WIKI-103}. The main phenomenon that we encounter is that adding a simple L2 regularization on the activations (not weights) of the model, a transformer, improves the post-hoc $k$NN classification performance. We explore some possible reasons for this improvement. In particular, we find that the added L2 regularization seems to improve the performance for high-frequency words without deteriorating the performance for low frequency ones. | 翻訳日:2021-09-21 06:18:56 公開日:2021-09-16 |
# (参考訳) アプリケーション外高ボリュームデータの準備はできているか?
reedsロボット知覚ベンチマークデータセット Are we ready for beyond-application high-volume data? The Reeds robot perception benchmark dataset ( http://arxiv.org/abs/2109.08250v1 ) ライセンス: CC BY 4.0 | Ola Benderius and Christian Berger and Krister Blanch | (参考訳) 本稿では,ロボット知覚アルゴリズム研究のためのreedsと呼ばれるデータセットを提案する。
このデータセットは、アプリケーション固有のソリューションをテストする環境を提供するのではなく、アルゴリズムに要求されるベンチマーク機会を提供することを目的としている。
ボートは、非常にダイナミックなキネマティクスを提供するために、伐採プラットフォームとして選ばれた。
センサーパッケージには6つの高性能視覚センサー、2つの長距離ライダー、レーダー、GNSSとIMUが含まれている。
センサの時空間分解能は、データの大きなバリエーションと柔軟性を提供するために最大化され、他のデータセットに見られる解像度に基づいて、多くの異なる解像度のプリセットで評価された。
reedsはまた、共通のサーババックエンド上ですべての評価を実行することで、公平かつ再現可能なアルゴリズムの比較手段を提供する。
データセットには大規模データが含まれているため、評価原則は不必要なデータ移動を避ける方法としても機能する。
また,各フレームのフェッチ・デコード処理がうまくスケールしないため,各評価が逐次的に計算されるアルゴリズムの単純性評価は実用的ではなかった。
代わりに、各フレームは一度だけデコードされ、GPUベースのアルゴリズムを含むすべてのアルゴリズムに並列に供給される。 This paper presents a dataset, called Reeds, for research on robot perception algorithms. The dataset aims to provide demanding benchmark opportunities for algorithms, rather than providing an environment for testing application-specific solutions. A boat was selected as a logging platform in order to provide highly dynamic kinematics. The sensor package includes six high-performance vision sensors, two long-range lidars, radar, as well as GNSS and an IMU. The spatiotemporal resolution of sensors were maximized in order to provide large variations and flexibility in the data, offering evaluation at a large number of different resolution presets based on the resolution found in other datasets. Reeds also provides means of a fair and reproducible comparison of algorithms, by running all evaluations on a common server backend. As the dataset contains massive-scale data, the evaluation principle also serves as a way to avoid moving data unnecessarily. It was also found that naive evaluation of algorithms, where each evaluation is computed sequentially, was not practical as the fetch and decode task of each frame would not scale well. Instead, each frame is only decoded once and then fed to all algorithms in parallel, including for GPU-based algorithms. | 翻訳日:2021-09-21 06:13:06 公開日:2021-09-16 |
# 機械読解作業における数値推論--まだ存在するか? Numerical reasoning in machine reading comprehension tasks: are we there yet? ( http://arxiv.org/abs/2109.08207v1 ) ライセンス: Link先を確認 | Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo | (参考訳) 数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。
drop benchmark (dua et al., 2019)は、この問題を解決するためのnlpモデルの設計に影響を与えた最近のデータセットである。
drop leaderboardにおけるこれらのモデルの現在の状況は、標準メトリクスよりも、モデルが人間に近いパフォーマンスを達成したことを示唆している。
しかし、これはこれらのモデルが理由を学習したことを意味するのだろうか?
本稿では,数値推論の課題に対するトップパフォーマンスモデルアーキテクチャのいくつかに関する制御された研究について述べる。
我々の観察では、標準メトリクスはそのようなタスクの進捗を測ることができないことが示唆されている。 Numerical reasoning based machine reading comprehension is a task that involves reading comprehension along with using arithmetic operations such as addition, subtraction, sorting, and counting. The DROP benchmark (Dua et al., 2019) is a recent dataset that has inspired the design of NLP models aimed at solving this task. The current standings of these models in the DROP leaderboard, over standard metrics, suggest that the models have achieved near-human performance. However, does this mean that these models have learned to reason? In this paper, we present a controlled study on some of the top-performing model architectures for the task of numerical reasoning. Our observations suggest that the standard metrics are incapable of measuring progress towards such tasks. | 翻訳日:2021-09-20 14:52:57 公開日:2021-09-16 |
# 自然言語による定位エージェントの階層制御 Hierarchical Control of Situated Agents through Natural Language ( http://arxiv.org/abs/2109.08214v1 ) ライセンス: Link先を確認 | Shuyan Zhou, Pengcheng Yin, Graham Neubig | (参考訳) 人間が特定のタスクの実行方法を理解するとき、階層的に、上位レベルのタスクをより小さなサブタスクに分割する。
しかしながら、あるエージェントの自然言語(NL)コマンドに関する文献では、ほとんどの研究は、単純なアクションの平らなシーケンスとして実行される手順を扱い、あるいは手続きの階層は極端に浅かった。
本稿では,エージェント命令と制御のための階層的手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
さらに,nlインテントを実行可能なプログラムの予測に変換するプランナとリアクターで構成された階層型モジュールネットワークのモデリングパラダイムを提案し,プログラム実行に必要な情報を得るための環境を探索する。
NL命令のIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
私たちのモデルは、両方のデータセットに対して大きなマージンで、リアクティブベースラインよりも優れています。
また、当社のフレームワークはよりデータ効率が高く、迅速な反復開発を可能にすることも示しています。 When humans conceive how to perform a particular task, they do so hierarchically: splitting higher-level tasks into smaller sub-tasks. However, in the literature on natural language (NL) command of situated agents, most works have treated the procedures to be executed as flat sequences of simple actions, or any hierarchies of procedures have been shallow at best. In this paper, we propose a formalism of procedures as programs, a powerful yet intuitive method of representing hierarchical procedural knowledge for agent command and control. We further propose a modeling paradigm of hierarchical modular networks, which consist of a planner and reactors that convert NL intents to predictions of executable programs and probe the environment for information necessary to complete the program execution. We instantiate this framework on the IQA and ALFRED datasets for NL instruction following. Our model outperforms reactive baselines by a large margin on both datasets. We also demonstrate that our framework is more data-efficient, and that it allows for fast iterative development. | 翻訳日:2021-09-20 14:52:46 公開日:2021-09-16 |
# Habitat-Matterport 3D Dataset (HM3D):1000の大規模3D環境 Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI ( http://arxiv.org/abs/2109.08238v1 ) ライセンス: Link先を確認 | Santhosh K. Ramakrishnan, Aaron Gokaslan, Erik Wijmans, Oleksandr Maksymets, Alex Clegg, John Turner, Eric Undersander, Wojciech Galuba, Andrew Westbury, Angel X. Chang, Manolis Savva, Yili Zhao, Dhruv Batra | (参考訳) habitat-matterport 3d (hm3d)データセットを提案する。
HM3Dは、多種多様な現実世界の場所から1000の大規模3D再構築データセットである。
データセットの各シーンは、マルチフロアの住居、店舗、その他のプライベートな屋内空間などの内部をテクスチャ化された3dメッシュで再構築する。
HM3Dは、物理スケール、再構築の完全性、視覚的忠実性の観点から、学術研究で利用可能な既存のデータセットを超越している。
HM3Dは、航行可能な空間の112.5k m^2を含み、MP3DやGibsonのような他のビルスケールデータセットよりも1.4-3.7倍大きい。
replica、mp3d、gibson、scannetといった既存のフォトリアリスティックな3dデータセットと比較すると、hm3dで描画された画像は、実際のカメラで撮影された画像の忠実度が20から85%高くなり、hm3dメッシュは不完全な表面再構成のために人工物が34から91%少ない。
HM3Dの規模、忠実度、多様性の増大は、それをトレーニングしたエンボディAIエージェントのパフォーマンスに直接影響する。
実際、HM3Dは以下の意味で「最適」であり、HM3D上でPointGoalナビゲーションを実行するように訓練されたエージェントは、HM3D、Gibson、MP3Dで評価されたかどうかに関わらず、最高性能を達成する。
他のデータセットでのトレーニングについても、同様の主張はできない。
HM3DでトレーニングされたPointNavエージェントは、Gibson-testデータセット上で100%のパフォーマンスを達成した。 We present the Habitat-Matterport 3D (HM3D) dataset. HM3D is a large-scale dataset of 1,000 building-scale 3D reconstructions from a diverse set of real-world locations. Each scene in the dataset consists of a textured 3D mesh reconstruction of interiors such as multi-floor residences, stores, and other private indoor spaces. HM3D surpasses existing datasets available for academic research in terms of physical scale, completeness of the reconstruction, and visual fidelity. HM3D contains 112.5k m^2 of navigable space, which is 1.4 - 3.7x larger than other building-scale datasets such as MP3D and Gibson. When compared to existing photorealistic 3D datasets such as Replica, MP3D, Gibson, and ScanNet, images rendered from HM3D have 20 - 85% higher visual fidelity w.r.t. counterpart images captured with real cameras, and HM3D meshes have 34 - 91% fewer artifacts due to incomplete surface reconstruction. The increased scale, fidelity, and diversity of HM3D directly impacts the performance of embodied AI agents trained using it. In fact, we find that HM3D is `pareto optimal' in the following sense -- agents trained to perform PointGoal navigation on HM3D achieve the highest performance regardless of whether they are evaluated on HM3D, Gibson, or MP3D. No similar claim can be made about training on other datasets. HM3D-trained PointNav agents achieve 100% performance on Gibson-test dataset, suggesting that it might be time to retire that episode dataset. | 翻訳日:2021-09-20 14:51:27 公開日:2021-09-16 |
# 暗号化データの強化学習 Reinforcement Learning on Encrypted Data ( http://arxiv.org/abs/2109.08236v1 ) ライセンス: Link先を確認 | Alberto Jesu, Victor-Alexandru Darvariu, Alessandro Staffolani, Rebecca Montanari, Mirco Musolesi | (参考訳) 実世界のドメインにおける強化学習(RL)のアプリケーションの増加は、データの本質的にセンシティブな性質からプライバシー保護技術の開発につながっている。
既存の作品の多くは、情報漏洩に対して堅牢であるべき学習モデルを持つエージェントに対して、情報を明確に開示する差分プライバシーに焦点を当てている。
センシティブなサイトからの情報など、暗号化されたデータのみを共有できるユースケースに動機づけられた本研究では、入力自体がセンシティブであり、明らかにできないシナリオを検討する。
我々は、状態の暗号化を提供するMDPフレームワークの簡単な拡張を開発する。
本稿では,離散状態空間と連続状態空間を有する環境でのdqnエージェントの動作に関する予備的,実験的研究を行う。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。 The growing number of applications of Reinforcement Learning (RL) in real-world domains has led to the development of privacy-preserving techniques due to the inherently sensitive nature of data. Most existing works focus on differential privacy, in which information is revealed in the clear to an agent whose learned model should be robust against information leakage to malicious third parties. Motivated by use cases in which only encrypted data might be shared, such as information from sensitive sites, in this work we consider scenarios in which the inputs themselves are sensitive and cannot be revealed. We develop a simple extension to the MDP framework which provides for the encryption of states. We present a preliminary, experimental study of how a DQN agent trained on encrypted states performs in environments with discrete and continuous state spaces. Our results highlight that the agent is still capable of learning in small state spaces even in presence of non-deterministic encryption, but performance collapses in more complex environments. | 翻訳日:2021-09-20 14:50:28 公開日:2021-09-16 |
# 統計的変化による回帰不確かさ推定の改善 Improving Regression Uncertainty Estimation Under Statistical Change ( http://arxiv.org/abs/2109.08213v1 ) ライセンス: Link先を確認 | Tony Tohme, Kevin Vanslette, Kamal Youcef-Toumi | (参考訳) ディープニューラルネットワークは、幅広い現実世界の問題において高いパフォーマンスと成功をおさめているが、予測の不確実性の推定は依然として難しい課題である。
この課題に対処するために, アンサンブル学習を用いてベイズ検証メトリクス(BVM)フレームワークに基づく回帰不確かさ推定のための損失関数を提案し, 実装する。
In-distriionデータに関する一連の実験により,提案手法は既存の最先端手法と競合することを示した。
さらに, 分布外データを用いた実験により, 提案手法は統計的変化に対して頑健であり, 予測能力に優れていた。 While deep neural networks are highly performant and successful in a wide range of real-world problems, estimating their predictive uncertainty remains a challenging task. To address this challenge, we propose and implement a loss function for regression uncertainty estimation based on the Bayesian Validation Metric (BVM) framework while using ensemble learning. A series of experiments on in-distribution data show that the proposed method is competitive with existing state-of-the-art methods. In addition, experiments on out-of-distribution data show that the proposed method is robust to statistical change and exhibits superior predictive capability. | 翻訳日:2021-09-20 14:49:24 公開日:2021-09-16 |
# メタベイズ最適化のための自動事前選択 : ディープニューラルネットワークオプティマイザのチューニングを事例として Automatic prior selection for meta Bayesian optimization with a case study on tuning deep neural network optimizers ( http://arxiv.org/abs/2109.08215v1 ) ライセンス: Link先を確認 | Zi Wang and George E. Dahl and Kevin Swersky and Chansoo Lee and Zelda Mariet and Zack Nado and Justin Gilmer and Jasper Snoek and Zoubin Ghahramani | (参考訳) ディープニューラルネットワークの性能は、オプティマイザパラメータやモデルハイパーパラメータなど、さまざまなメタパラメータの選択に非常に敏感である。
しかし、これらをうまくチューニングするには、しばしば広範囲で費用のかかる実験が必要となる。
ベイズ最適化(BO)はそのような高価なハイパーパラメータチューニング問題を効率的に解くための原理的手法である。
BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。
本研究では,より厳密な分布を優先的に指定できる類似関数のデータを持つシナリオについて考察する。
具体的には、ニューラルネットワークのトレーニングのための最適化パラメータを最適化する一般的な作業に焦点を当てる。
Wang et al. (2018) のメタBO法に基づいて構築し, 実用的改善を図った。
(a)全てのタスクで同じメタパラメータポイントの観察を必要とせず、複数のタスクのチューニング結果を活用することでパフォーマンスを向上させる。
b) 当社の方法の特別の場合について,その後悔は保たれる。
その結果、連続オプティマイザパラメータの反復最適化のためのコヒーレントBOソリューションが提供される。
現実的なモデルトレーニング設定における我々のアプローチを検証するために、人気画像やテキストデータセット、およびタンパク質配列データセットに基づいて、数万の最先端モデルの構成をトレーニングすることで、大規模なマルチタスクハイパーパラメータチューニングデータセットを収集しました。
以上の結果から,提案手法は競合する手法の少なくとも3倍の効率で優れたハイパーパラメータを見つけることができることがわかった。 The performance of deep neural networks can be highly sensitive to the choice of a variety of meta-parameters, such as optimizer parameters and model hyperparameters. Tuning these well, however, often requires extensive and costly experimentation. Bayesian optimization (BO) is a principled approach to solve such expensive hyperparameter tuning problems efficiently. Key to the performance of BO is specifying and refining a distribution over functions, which is used to reason about the optima of the underlying function being optimized. In this work, we consider the scenario where we have data from similar functions that allows us to specify a tighter distribution a priori. Specifically, we focus on the common but potentially costly task of tuning optimizer parameters for training neural networks. Building on the meta BO method from Wang et al. (2018), we develop practical improvements that (a) boost its performance by leveraging tuning results on multiple tasks without requiring observations for the same meta-parameter points across all tasks, and (b) retain its regret bound for a special case of our method. As a result, we provide a coherent BO solution for iterative optimization of continuous optimizer parameters. To verify our approach in realistic model training setups, we collected a large multi-task hyperparameter tuning dataset by training tens of thousands of configurations of near-state-of-the-art models on popular image and text datasets, as well as a protein sequence dataset. Our results show that on average, our method is able to locate good hyperparameters at least 3 times more efficiently than the best competing methods. | 翻訳日:2021-09-20 14:49:11 公開日:2021-09-16 |
# 平均パフォーマンスを超えて -- ブラックボックス分類モデルのパフォーマンスを逸脱する領域を探る Beyond Average Performance -- exploring regions of deviating performance for black box classification models ( http://arxiv.org/abs/2109.08216v1 ) ライセンス: Link先を確認 | Luis Torgo and Paulo Azevedo and Ines Areosa | (参考訳) 機械学習モデルは、さまざまなタイプの設定で人気が高まっている。
これは主に、この新しいビッグデータの時代において、人間の専門家がマッチし難いレベルの予測パフォーマンスを達成する能力に起因している。
この使用量の増加により、モデルの予測に対する説明責任と理解の要件が増大する。
しかし、最も成功したモデル(例えばアンサンブル、ディープラーニング)の洗練度は、これらのモデルが本質的にブラックボックスであるため、この試みの大きな障害となっている。
本稿では,ブラックボックス分類モデルの予測性能を解釈可能な記述に利用できる2つの一般的なアプローチについて述べる。
これらのアプローチは、モデルが平均的な振る舞いから著しく逸脱するパフォーマンスを期待する、解釈可能な方法で発見し記述する手段を提供するので、非常に実践的な関連性がある。
これは、特定のケースでモデルの使用に対してエンドユーザに警告することができるため、モデルの予測によってコストのかかる決定が導かれるアプリケーションにとって重要な関連性である。 Machine learning models are becoming increasingly popular in different types of settings. This is mainly caused by their ability to achieve a level of predictive performance that is hard to match by human experts in this new era of big data. With this usage growth comes an increase of the requirements for accountability and understanding of the models' predictions. However, the degree of sophistication of the most successful models (e.g. ensembles, deep learning) is becoming a large obstacle to this endeavour as these models are essentially black boxes. In this paper we describe two general approaches that can be used to provide interpretable descriptions of the expected performance of any black box classification model. These approaches are of high practical relevance as they provide means to uncover and describe in an interpretable way situations where the models are expected to have a performance that deviates significantly from their average behaviour. This may be of critical relevance for applications where costly decisions are driven by the predictions of the models, as it can be used to warn end users against the usage of the models in some specific cases. | 翻訳日:2021-09-20 14:48:47 公開日:2021-09-16 |
# カタナ:テスト時間拡張を用いた簡易なトレーニング後のロバストネス KATANA: Simple Post-Training Robustness Using Test Time Augmentations ( http://arxiv.org/abs/2109.08191v1 ) ライセンス: Link先を確認 | Gilad Cohen, Raja Giryes | (参考訳) ディープニューラルネットワーク(DNN)は多くの現実世界のタスクにおいて優れた性能を発揮するが、敵の攻撃に対して非常に脆弱である。
このような攻撃に対する先導的な防御は、敵の訓練であり、DNNはその入力に敵の雑音を導入することによって敵の攻撃に対して堅牢に訓練される。
この手順は効果的であるが、訓練段階で行う必要がある。
そこで本研究では,既存のトレーニング済みDNNを重みを変更せずに堅牢化する,シンプルで使いやすいKATANA手法を提案する。
各画像に対して、多彩な色、ぼやけ、雑音、幾何変換を適用して、ランダム化テスト時間拡張(TTA)を生成する。
次に、DNNのロジット出力を利用して、単純なランダムな森林分類器を訓練し、実クラスラベルを予測する。
我々の戦略は、自然画像の分類に最小限の妥協を伴い、様々な攻撃に対する最先端の敵対的堅牢性を達成する。
また,2つの適応的ホワイトボックス攻撃に対してカタナを試験し,対人訓練と組み合わせて優れた結果を示した。
コードはhttps://github.com/giladcohen/KATANAで入手できる。 Although Deep Neural Networks (DNNs) achieve excellent performance on many real-world tasks, they are highly vulnerable to adversarial attacks. A leading defense against such attacks is adversarial training, a technique in which a DNN is trained to be robust to adversarial attacks by introducing adversarial noise to its input. This procedure is effective but must be done during the training phase. In this work, we propose a new simple and easy-to-use technique, KATANA, for robustifying an existing pretrained DNN without modifying its weights. For every image, we generate N randomized Test Time Augmentations (TTAs) by applying diverse color, blur, noise, and geometric transforms. Next, we utilize the DNN's logits output to train a simple random forest classifier to predict the real class label. Our strategy achieves state-of-the-art adversarial robustness on diverse attacks with minimal compromise on the natural images' classification. We test KATANA also against two adaptive white-box attacks and it shows excellent results when combined with adversarial training. Code is available in https://github.com/giladcohen/KATANA. | 翻訳日:2021-09-20 14:47:31 公開日:2021-09-16 |
# スキルレパートリーの効率的な学習のためのダイナミクスを考慮した品質多様性 Dynamics-Aware Quality-Diversity for Efficient Learning of Skill Repertoires ( http://arxiv.org/abs/2109.08522v1 ) ライセンス: Link先を確認 | Bryan Lim, Luca Grillotti, Lorenzo Bernasconi and Antoine Cully | (参考訳) quality-diversity(qd)アルゴリズムは、ロボットが多様で高性能なスキルの大きなレパートリーを見つけるための強力な探索アルゴリズムである。
しかし、QDアルゴリズムはサンプル非効率であり、何百万もの評価を必要とする。
本稿では,動的モデルを用いてQDアルゴリズムのサンプリング効率を向上させるためのフレームワークであるDQD(Dynamics-Aware Quality-Diversity)を提案する。
また,DA-QDが新たなスキルレパートリーの継続的な獲得にどのように役立つかを示す。
そこで我々は,QDを用いてスキル発見を行う際の経験から,深層力学モデルを漸進的に訓練する。
そして、想像力のあるスキルレパートリーでQD探究を行うことができます。
我々は3つのロボット実験に対するアプローチを評価する。
まず、da-qdは既存のスキル発見のqdアプローチの20倍のサンプル効率を示す実験を行った。
第2に、ゼロショット学習を行うための、全く新しいスキルレパートリーを想像で示す。
最後に,da-qdが現実世界における長方形ナビゲーション課題の解決や損傷適応に有用かつ効果的であることを示す。
ビデオとソースコードは、https://sites.google.com/view/da-qd.comで入手できる。 Quality-Diversity (QD) algorithms are powerful exploration algorithms that allow robots to discover large repertoires of diverse and high-performing skills. However, QD algorithms are sample inefficient and require millions of evaluations. In this paper, we propose Dynamics-Aware Quality-Diversity (DA-QD), a framework to improve the sample efficiency of QD algorithms through the use of dynamics models. We also show how DA-QD can then be used for continual acquisition of new skill repertoires. To do so, we incrementally train a deep dynamics model from experience obtained when performing skill discovery using QD. We can then perform QD exploration in imagination with an imagined skill repertoire. We evaluate our approach on three robotic experiments. First, our experiments show DA-QD is 20 times more sample efficient than existing QD approaches for skill discovery. Second, we demonstrate learning an entirely new skill repertoire in imagination to perform zero-shot learning. Finally, we show how DA-QD is useful and effective for solving a long horizon navigation task and for damage adaptation in the real world. Videos and source code are available at: https://sites.google.com/view/da-qd. | 翻訳日:2021-09-20 14:46:26 公開日:2021-09-16 |
# 内視鏡下手術用深度マップを併用したステレオ映像再構成 Stereo Video Reconstruction Without Explicit Depth Maps for Endoscopic Surgery ( http://arxiv.org/abs/2109.08227v1 ) ライセンス: Link先を確認 | Annika Brundyn, Jesse Swanson, Kyunghyun Cho, Doug Kondziolka, Eric Oermann | (参考訳) 本研究は,低侵襲手術用2D-to-3Dビデオ変換におけるステレオビデオ再構成の課題について紹介する。
我々は、入力(シングルフレーム対複数連続フレーム)、損失関数(mse、mae、知覚損失)、ネットワークアーキテクチャを変化させて、このタスクのエンドツーエンドのu-netベースのソリューションを設計し実装する。
内視鏡手術を日常的に行う10名の外科医を対象とした。
1つは個々のフレームを評価し、もう1つはVRヘッドセットで再生された完全に再構成された3Dビデオを評価する。
第1の読者調査では、複数の連続したビデオフレームを入力し、欠落したビューを出力するu-netの変種が最もパフォーマンスが良い。
我々はこの結果から2つの結論を導き出す。
まず、複数の過去のフレームから得られる動き情報は、ステレオビジョンの再現に不可欠である。
第二に、提案したU-Net変種は、実際にそのような動き情報を利用してこの課題を解決することができる。
第2報の結果は,提案するu-net変異体の有効性をさらに確認した。
外科医たちは、再構築された3dビデオクリップから奥行きを認識できると報告した。
彼らはまた、オリジナルの2dビデオよりも再構成された3dビデオに明確な好みを示した。
この2つの読者研究は, 最小限の侵襲的手術ビデオに対するステレオ・リコンストラクションの有用性を強く支持し, 深層学習がこの課題に対して有望なアプローチであることを示す。
最後に、専門家の判断と強く相関し、将来の研究において後者のプロキシとして機能する2つの自動メトリクス、LPIPSとdisTSを同定する。 We introduce the task of stereo video reconstruction or, equivalently, 2D-to-3D video conversion for minimally invasive surgical video. We design and implement a series of end-to-end U-Net-based solutions for this task by varying the input (single frame vs. multiple consecutive frames), loss function (MSE, MAE, or perceptual losses), and network architecture. We evaluate these solutions by surveying ten experts - surgeons who routinely perform endoscopic surgery. We run two separate reader studies: one evaluating individual frames and the other evaluating fully reconstructed 3D video played on a VR headset. In the first reader study, a variant of the U-Net that takes as input multiple consecutive video frames and outputs the missing view performs best. We draw two conclusions from this outcome. First, motion information coming from multiple past frames is crucial in recreating stereo vision. Second, the proposed U-Net variant can indeed exploit such motion information for solving this task. The result from the second study further confirms the effectiveness of the proposed U-Net variant. The surgeons reported that they could successfully perceive depth from the reconstructed 3D video clips. They also expressed a clear preference for the reconstructed 3D video over the original 2D video. These two reader studies strongly support the usefulness of the proposed task of stereo reconstruction for minimally invasive surgical video and indicate that deep learning is a promising approach to this task. Finally, we identify two automatic metrics, LPIPS and DISTS, that are strongly correlated with expert judgement and that could serve as proxies for the latter in future studies. | 翻訳日:2021-09-20 14:45:14 公開日:2021-09-16 |
# 農業自立に向けて:深層学習による異なる畑条件下での作物列の検出 Towards agricultural autonomy: crop row detection under varying field conditions using deep learning ( http://arxiv.org/abs/2109.08247v1 ) ライセンス: Link先を確認 | Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao | (参考訳) 本稿では,フィールドロボットが遭遇する異なるフィールド条件下での作物列検出のための,深層学習に基づく意味セグメンテーション手法のロバスト性を評価するための新しい指標を提案する。
様々なフィールド条件下で遭遇する10のカテゴリのデータセットをテストに使用した。
これらの条件が作物列検出の角精度に及ぼす影響を比較した。
深部畳み込みエンコーダデコーダネットワークを実装し,RGB入力画像を用いた作出行マスクの予測を行う。
予測されたマスクは後処理アルゴリズムに送られ、作物の列を抽出する。
深層学習モデルは, 直射日光下での性能が低下する一方, 作物の影や生育段階に対して頑健であり, 新たな指標で評価すると, 雑草密度, トランポリンおよび不連続性が増大することがわかった。 This paper presents a novel metric to evaluate the robustness of deep learning based semantic segmentation approaches for crop row detection under different field conditions encountered by a field robot. A dataset with ten main categories encountered under various field conditions was used for testing. The effect on these conditions on the angular accuracy of crop row detection was compared. A deep convolutional encoder decoder network is implemented to predict crop row masks using RGB input images. The predicted mask is then sent to a post processing algorithm to extract the crop rows. The deep learning model was found to be robust against shadows and growth stages of the crop while the performance was reduced under direct sunlight, increasing weed density, tramlines and discontinuities in crop rows when evaluated with the novel metric. | 翻訳日:2021-09-20 14:44:46 公開日:2021-09-16 |
# バイアスのバランスを取る - トレーニングリウェイトによる公平性の実現 Balancing out Bias: Achieving Fairness Through Training Reweighting ( http://arxiv.org/abs/2109.08253v1 ) ライセンス: Link先を確認 | Xudong Han, Timothy Baldwin, Trevor Cohn | (参考訳) 自然言語処理におけるバイアスは主に、感情や構文解析などのタスクをモデル化する際に、性別や人種などの著者の特徴を学習するモデルから生じる。
この問題は、著者層間での誤り率の差として現れ、典型的には少数派グループを軽視する。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
さらに,過去の研究では,データセットのバランスや評価手法に関してバイアス評価が矛盾していた。
本稿では,タスクラベルと著者層の両方の頻度に基づいて,インスタンス再重み付けによるバイアス対策をシンプルかつ効果的に行う手法を提案する。
本手法は,著者の人口動態を入力として組み込んだゲートモデルを用いて拡張し,入力データのバイアスに非常に脆弱な一方で,階層的入力摂動による偏りの予測を提供し,事例再重み付けと組み合わせることで,他のバイアス緩和手法よりも優れていることを示す。 Bias in natural language processing arises primarily from models learning characteristics of the author such as gender and race when modelling tasks such as sentiment and syntactic parsing. This problem manifests as disparities in error rates across author demographics, typically disadvantaging minority groups. Existing methods for mitigating and measuring bias do not directly account for correlations between author demographics and linguistic variables. Moreover, evaluation of bias has been inconsistent in previous work, in terms of dataset balance and evaluation methods. This paper introduces a very simple but highly effective method for countering bias using instance reweighting, based on the frequency of both task labels and author demographics. We extend the method in the form of a gated model which incorporates the author demographic as an input, and show that while it is highly vulnerable to input data bias, it provides debiased predictions through demographic input perturbation, and outperforms all other bias mitigation techniques when combined with instance reweighting. | 翻訳日:2021-09-20 14:42:32 公開日:2021-09-16 |
# 大きな正方行列のスパース因子分解 Sparse Factorization of Large Square Matrices ( http://arxiv.org/abs/2109.08184v1 ) ライセンス: Link先を確認 | Ruslan Khalitov, Tong Yu, Lei Cheng, Zhirong Yang | (参考訳) 正方行列は多くの機械学習問題やモデルに現れる。
大きな正方行列に対する最適化は、メモリと時間において高価である。
そのため経済的な近似が必要となる。
従来の近似法は、平方行列をより低い階数の数行列に分解する。
しかし、近似行列が本質的にハイランクあるいはフルランクに近い場合、低ランク制約は性能ボトルネックとなる。
本稿では,全ランク行列のスパース積を持つ大きな正方行列を近似する。
近似では、我々の手法は$N(\log N)^2$非零数しか必要とせず、$N\times N$ full matrix である。
非パラメトリックとパラメトリックの両方の方法で因子分解を見つける。
前者では行列の分解を直接学習し、後者では、入力データをゼロでない行列エントリにマッピングするようにニューラルネットワークを訓練する。
スパース分解法は, 種々の合成および実世界の正方行列に対して試験される。
実験の結果,近似行列がスパースでハイランクである場合,本手法により近似性が向上することが示された。
この発見に基づいて、我々のパラメトリック手法をスケーラブルなアテンションアーキテクチャとして使用し、長いシーケンシャルなデータに対する学習タスクを強力に実行し、Transformerとそのいくつかの変種を破る。 Square matrices appear in many machine learning problems and models. Optimization over a large square matrix is expensive in memory and in time. Therefore an economic approximation is needed. Conventional approximation approaches factorize the square matrix into a number matrices of much lower ranks. However, the low-rank constraint is a performance bottleneck if the approximated matrix is intrinsically high-rank or close to full rank. In this paper, we propose to approximate a large square matrix with a product of sparse full-rank matrices. In the approximation, our method needs only $N(\log N)^2$ non-zero numbers for an $N\times N$ full matrix. We present both non-parametric and parametric ways to find the factorization. In the former, we learn the factorizing matrices directly, and in the latter, we train neural networks to map input data to the non-zero matrix entries. The sparse factorization method is tested for a variety of synthetic and real-world square matrices. The experimental results demonstrate that our method gives a better approximation when the approximated matrix is sparse and high-rank. Based on this finding, we use our parametric method as a scalable attention architecture that performs strongly in learning tasks for long sequential data and defeats Transformer and its several variants. | 翻訳日:2021-09-20 14:37:27 公開日:2021-09-16 |
# SLAW:効率的なマルチタスク学習のためのスケールドロス近似重み付け SLAW: Scaled Loss Approximate Weighting for Efficient Multi-Task Learning ( http://arxiv.org/abs/2109.08218v1 ) ライセンス: Link先を確認 | Michael Crawshaw, Jana Ko\v{s}eck\'a | (参考訳) マルチタスク学習(MTL)は、重要な応用を持つ機械学習のサブフィールドであるが、MTLにおける最適化の多目的性は、タスク間のトレーニングのバランスをとるのに困難をもたらす。
最高のMTL最適化手法では、各タスクの損失関数の勾配を個別に計算する必要がある。
本稿では,既存の最良メソッドの性能に合致するマルチタスク最適化手法であるslaw(scaled loss approximation weighting)を提案する。
SLAWはタスク間の学習のバランスを保ち、各タスクの勾配の大きさを、余分な後方通過を行わずに推定する。
SLAWの勾配等級推定のための理論的および経験的正当性を提供する。
薬物発見のための非線形回帰、マルチタスクコンピュータビジョン、仮想スクリーニング実験の結果、SLAWは性能を犠牲にすることなく強力なベースラインよりもはるかに効率的であり、多様な領域に適用可能であることが示された。 Multi-task learning (MTL) is a subfield of machine learning with important applications, but the multi-objective nature of optimization in MTL leads to difficulties in balancing training between tasks. The best MTL optimization methods require individually computing the gradient of each task's loss function, which impedes scalability to a large number of tasks. In this paper, we propose Scaled Loss Approximate Weighting (SLAW), a method for multi-task optimization that matches the performance of the best existing methods while being much more efficient. SLAW balances learning between tasks by estimating the magnitudes of each task's gradient without performing any extra backward passes. We provide theoretical and empirical justification for SLAW's estimation of gradient magnitudes. Experimental results on non-linear regression, multi-task computer vision, and virtual screening for drug discovery demonstrate that SLAW is significantly more efficient than strong baselines without sacrificing performance and applicable to a diverse range of domains. | 翻訳日:2021-09-20 14:37:08 公開日:2021-09-16 |
# RAPID-RL:効率的な深層強化学習のためのプリエンプティブエグゼクトを持つ再構成可能なアーキテクチャ RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for Efficient Deep-Reinforcement Learning ( http://arxiv.org/abs/2109.08231v1 ) ライセンス: Link先を確認 | Adarsh Kumar Kosta, Malik Aqeel Anwar, Priyadarshini Panda, Arijit Raychowdhury, and Kaushik Roy | (参考訳) 現在の深層強化学習(Deep Reinforcement Learning, RL)システムでは,人間レベルのパフォーマンスを超えたインテリジェントエージェントの構築が期待できる。
しかし、基礎となるディープニューラルネットワーク(DNN)に関連する計算複雑性は、パワーハングリーの実装につながる。
これにより、deep rlシステムはリソース制約のあるエッジデバイスへのデプロイに適さない。
この課題に対処するために,RAPID-RL (RAPID-RL) のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてDNN層の条件付き活性化を可能にする。
これにより、競合性能を維持しながら、推論中の計算労力を動的に調整できる。
これを実現するために、サイドブランチによる深層Qネットワーク(DQN)を、関連する信頼スコアとともに中間予測を生成する。
また,動的RL環境下での動作と分岐信頼度を学習するための新しい学習手法を提案する。
実験では,オープンソースのドローンシミュレータ(PEDRA)上でのAtari 2600ゲームタスクと現実的なドローンナビゲーションタスクのフレームワークについて検討した。
RAPID-RLは, サイドブランチのないベースラインDQNと比較して, Atariタスクの0.88x (0.91x) 以上の性能を維持しつつ, 0.34x (0.25x) 演算数(OPS)を発生させることを示した。
OPSの削減は高速かつ効率的な推論をもたらし、最小限の計算で迅速な決定を行うリソース制約エッジにとって非常に有益であることが証明された。 Present-day Deep Reinforcement Learning (RL) systems show great promise towards building intelligent agents surpassing human-level performance. However, the computational complexity associated with the underlying deep neural networks (DNNs) leads to power-hungry implementations. This makes deep RL systems unsuitable for deployment on resource-constrained edge devices. To address this challenge, we propose a reconfigurable architecture with preemptive exits for efficient deep RL (RAPID-RL). RAPID-RL enables conditional activation of DNN layers based on the difficulty level of inputs. This allows to dynamically adjust the compute effort during inference while maintaining competitive performance. We achieve this by augmenting a deep Q-network (DQN) with side-branches capable of generating intermediate predictions along with an associated confidence score. We also propose a novel training methodology for learning the actions and branch confidence scores in a dynamic RL setting. Our experiments evaluate the proposed framework for Atari 2600 gaming tasks and a realistic Drone navigation task on an open-source drone simulator (PEDRA). We show that RAPID-RL incurs 0.34x (0.25x) number of operations (OPS) while maintaining performance above 0.88x (0.91x) on Atari (Drone navigation) tasks, compared to a baseline-DQN without any side-branches. The reduction in OPS leads to fast and efficient inference, proving to be highly beneficial for the resource-constrained edge where making quick decisions with minimal compute is essential. | 翻訳日:2021-09-20 14:36:50 公開日:2021-09-16 |
# 視覚接地用高速変圧器 Fast-Slow Transformer for Visually Grounding Speech ( http://arxiv.org/abs/2109.08186v1 ) ライセンス: Link先を確認 | Puyuan Peng and David Harwath | (参考訳) 本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。
FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。
このモデルはデュアルエンコーダとクロスアテンションアーキテクチャを1つのモデルに統合し、後者の精度とともに前者の検索速度を向上する。
FaST-VGSは、ベンチマークデータセット上で最先端の音声画像検索精度を実現し、その学習された表現は、ZeroSpeech 2021音声およびセマンティックタスクに強いパフォーマンスを示す。 We present Fast-Slow Transformer for Visually Grounding Speech, or FaST-VGS. FaST-VGS is a Transformer-based model for learning the associations between raw speech waveforms and visual images. The model unifies dual-encoder and cross-attention architectures into a single model, reaping the superior retrieval speed of the former along with the accuracy of the latter. FaST-VGS achieves state-of-the-art speech-image retrieval accuracy on benchmark datasets, and its learned representations exhibit strong performance on the ZeroSpeech 2021 phonetic and semantic tasks. | 翻訳日:2021-09-20 14:33:41 公開日:2021-09-16 |
# LiDARパノプティブセグメンテーションのためのディバイド・アンド・マージポイントクラウドクラスタリングアルゴリズム A Divide-and-Merge Point Cloud Clustering Algorithm for LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2109.08224v1 ) ライセンス: Link先を確認 | Yiming Zhao, Xiao Zhang, and Xinming Huang | (参考訳) LiDARポイントクラウドからのオブジェクトのクラスタリングは、自律運転など多くのアプリケーションにおいて重要な研究課題である。
実時間要求を満たすため,2つの隣接点が接続されているかどうかをヒューリスティック条件付きLiDAR球面領域画像に接続成分ラベル(CCL)技術を適用することを提案する。
しかし、lidar範囲画像は、2つのピクセルが同じコンポーネントに属するかどうかを決定論的に判断する2値画像とは異なる。
LiDAR領域の画像で使用されるヒューリスティックな条件は経験的にのみ有効であり、これはLiDARクラスタリングアルゴリズムが経験的ヒューリスティックな条件の潜在的な失敗に対して堅牢であることを示唆している。
この課題を克服するために,本研究では分割結合型LiDARクラスタリングアルゴリズムを提案する。
このアルゴリズムはまず各均等に分割された局所領域のクラスタリングを行い、その後、エッジポイント対に投票して局所的なクラスタ化された小さなコンポーネントをマージする。
オブジェクトの合計$N$ LiDARポイントと$m$分割ローカルリージョンが存在すると仮定すると、提案アルゴリズムの時間複雑性は$O(N)+O(m^2)$である。
より小さな$m$は、投票がより多くの隣接点を含むことを意味するが、時間的複雑さは大きくなる。
したがって$m$は、時間複雑性とクラスタリングの精度の間のトレードオフを制御する。
適切な$m$は、提案アルゴリズムがリアルタイムに動作し、優れた性能を維持するのに役立つ。
本研究では,セマンティックKITTIパン光学セグメンテーションモデルを用いて,分割・マージクラスタリングアルゴリズムの評価を行った。
リーダボードを通じて評価された最終的なパフォーマンスは、公開されたすべてのメソッドの中で最高のパフォーマンスを達成します。
提案アルゴリズムはC++で実装され,python関数としてラップされる。
ピソンの近代的なディープラーニングフレームワークで簡単に使用することができる。 Clustering objects from the LiDAR point cloud is an important research problem with many applications such as autonomous driving. To meet the real-time requirement, existing research proposed to apply the connected-component-labeling (CCL) technique on LiDAR spherical range image with a heuristic condition to check if two neighbor points are connected. However, LiDAR range image is different from a binary image which has a deterministic condition to tell if two pixels belong to the same component. The heuristic condition used on the LiDAR range image only works empirically, which suggests the LiDAR clustering algorithm should be robust to potential failures of the empirical heuristic condition. To overcome this challenge, this paper proposes a divide-and-merge LiDAR clustering algorithm. This algorithm firstly conducts clustering in each evenly divided local region, then merges the local clustered small components by voting on edge point pairs. Assuming there are $N$ LiDAR points of objects in total with $m$ divided local regions, the time complexity of the proposed algorithm is $O(N)+O(m^2)$. A smaller $m$ means the voting will involve more neighbor points, but the time complexity will become larger. So the $m$ controls the trade-off between the time complexity and the clustering accuracy. A proper $m$ helps the proposed algorithm work in real-time as well as maintain good performance. We evaluate the divide-and-merge clustering algorithm on the SemanticKITTI panoptic segmentation benchmark by cascading it with a state-of-the-art semantic segmentation model. The final performance evaluated through the leaderboard achieves the best among all published methods. The proposed algorithm is implemented with C++ and wrapped as a python function. It can be easily used with the modern deep learning framework in python. | 翻訳日:2021-09-20 14:33:29 公開日:2021-09-16 |
# 戦略ランク付け Strategic Ranking ( http://arxiv.org/abs/2109.08240v1 ) ライセンス: Link先を確認 | Lydia T. Liu, Nikhil Garg, Christian Borgs | (参考訳) 戦略分類は、戦略的個人による入力の操作に頑健な分類器の設計を研究する。
しかし、既存の文献ではアルゴリズム設計による個人間の競争の影響は考慮されていない。
大学進学などの制限された割当設定に動機づけられ、(デザインされた)個人報酬が利子の測定において応募者のポスト・エフォートのランクに依存する戦略的ランキングを導入する。
本研究は, 応募者間の競争が, 結果の平衡とモデル洞察にどのように影響するかを示す。
我々は、様々なランキング報酬デザインが応募者、学校、社会ユーティリティとどう引き離すか、特にランキングデザインがリソースの異質なアクセスから生ずる不平等に対抗して評価スコアを改善するかを分析し、ランキング報酬デザインのランダム化は2つの異なる影響、福祉ギャップ、アクセスの尺度を緩和できるのに対し、非ランダム化は、系統的に不利なグループを除外する高いレベルの競争を引き起こす可能性があることを見出した。 Strategic classification studies the design of a classifier robust to the manipulation of input by strategic individuals. However, the existing literature does not consider the effect of competition among individuals as induced by the algorithm design. Motivated by constrained allocation settings such as college admissions, we introduce strategic ranking, in which the (designed) individual reward depends on an applicant's post-effort rank in a measurement of interest. Our results illustrate how competition among applicants affects the resulting equilibria and model insights. We analyze how various ranking reward designs trade off applicant, school, and societal utility and in particular how ranking design can counter inequities arising from disparate access to resources to improve one's measured score: We find that randomization in the ranking reward design can mitigate two measures of disparate impact, welfare gap and access, whereas non-randomization may induce a high level of competition that systematically excludes a disadvantaged group. | 翻訳日:2021-09-20 14:30:14 公開日:2021-09-16 |
# 政策選択とベストアーム識別:「政策選択実験における適応的治療指示」に対するコメント Policy Choice and Best Arm Identification: Comments on "Adaptive Treatment Assignment in Experiments for Policy Choice" ( http://arxiv.org/abs/2109.08229v1 ) ライセンス: Link先を確認 | Kaito Ariu and Masahiro Kato and Junpei Komiyama and Kenichiro McAlinn | (参考訳) 本研究の目的は,kasy and sautmann (2021) で提唱された「政治選択」問題と,機械学習におけるバンディット文学のフロンティアを結びつけることである。
本稿では,「最良の腕識別(bai)問題」と呼ばれる問題と同一であるように,政策選択問題をどのようにフレーム化できるかについて議論する。
論文の連結により、カシーとソートマン(2021年)が取り組んだ政策選択アルゴリズムの漸近最適性は、文学における長年のオープンな問題である。
残念ながら、この関係は主定理のいくつかの主要な問題を浮き彫りにしている。
特に、Kasy and Sautmann (2021) における Theorem 1 は偽であることを示す。
定理 1 のステートメント (1) と (2) の証明は誤りであるが、ステートメント自体が真である可能性はあるが、修正するのは非自明である。
一方, 論文(3)とその証明は誤りであり, バンディット文学における既存の理論的結果を活用して示す。
この問題は重要であり、バンディットコミュニティにおける過去10年間に多大な関心を集めているため、BAI文献の最近の発展についてレビューする。
このことが経済問題との関連を強調し、計量社会における方法論的・理論的発展を刺激することを願っている。 The purpose of this paper is to connect the "policy choice" problem, proposed in Kasy and Sautmann (2021), to the frontiers of the bandit literature in machine learning. We discuss how the policy choice problem can be framed in a way such that it is identical to what is called the "best arm identification" (BAI) problem. By connecting the literature, we identify that the asymptotic optimality of policy choice algorithms tackled in Kasy and Sautmann (2021) is a long-standing open question in the literature. Unfortunately, this connection highlights several major issues with the main theorem. In particular, we show that Theorem 1 in Kasy and Sautmann (2021) is false. We find that the proofs of statements (1) and (2) of Theorem 1 are incorrect, though the statements themselves may be true, though non-trivial to fix. Statement (3), and its proof, on the other hand, is false, which we show by utilizing existing theoretical results in the bandit literature. As this question is critically important, garnering much interest in the last decade within the bandit community, we provide a review of recent developments in the BAI literature. We hope this serves to highlight the relevance to economic problems and stimulate methodological and theoretical developments in the econometric community. | 翻訳日:2021-09-20 14:28:22 公開日:2021-09-16 |
# (参考訳) モジュラーニューラル常微分方程式 Modular Neural Ordinary Differential Equations ( http://arxiv.org/abs/2109.07359v2 ) ライセンス: CC0 1.0 | Max Zhu, Pietro Lio, Jacob Moss | (参考訳) 物理学の法則は、何世紀にもわたって dif-ferential equation で書かれてきた。
neural ordinary differenten-tial equation(ノード)は、これらの微分方程式をデータセットから学習できる新しい機械学習アーキテクチャである。
これらは、Lagrangian Neural Net-works(LNN)とSecond Order Neural Differential Equations(SONODE)という形式での古典力学シミュレーションに適用されている。
しかし、それらは運動の最も一般的な方程式を表現できないか、解釈不可能である。
本稿では,各力成分を別々のモジュールで学習するモジュール型ニューラルネットワークodeを提案する。
これらのモデルに物理的な事前情報を組み込む方法を示す。
多くの実験を通じて、これらの結果がより優れたパフォーマンスをもたらし、より解釈しやすく、モジュール性によって柔軟性が増すことを実証した。 The laws of physics have been written in the language of dif-ferential equations for centuries. Neural Ordinary Differen-tial Equations (NODEs) are a new machine learning architecture which allows these differential equations to be learned from a dataset. These have been applied to classical dynamics simulations in the form of Lagrangian Neural Net-works (LNNs) and Second Order Neural Differential Equations (SONODEs). However, they either cannot represent the most general equations of motion or lack interpretability. In this paper, we propose Modular Neural ODEs, where each force component is learned with separate modules. We show how physical priors can be easily incorporated into these models. Through a number of experiments, we demonstrate these result in better performance, are more interpretable, and add flexibility due to their modularity. | 翻訳日:2021-09-20 12:44:24 公開日:2021-09-16 |
# (参考訳) 線形確率微分方程式における二次コストの適応制御 Adaptive Control of Quadratic Costs in Linear Stochastic Differential Equations ( http://arxiv.org/abs/2109.07630v1 ) ライセンス: CC BY 4.0 | Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh | (参考訳) 適応制御における標準問題, 未知連続時間線形力学系における二次コスト最小化のためのポリシーの設計と解析について検討した。
基礎となる確率微分方程式の未知のパラメータを学習する精度や、下位最適作用(すなわち後悔)による性能低下の完全な解析など、重要な課題に対処する。
次に、探索と搾取のバランスをとるための簡単な実装アルゴリズムを提案し、続いて2乗の時間的後悔の根源を示す理論的保証を示す。
さらに,システムの安定性を保証し,後悔の基本的な限界を特定するための厳密な結果を示す。
提示された結果を確立するために、独立した関心を持つことができる複数の新しい技術フレームワークが開発されている。 We study a canonical problem in adaptive control; design and analysis of policies for minimizing quadratic costs in unknown continuous-time linear dynamical systems. We address important challenges including accuracy of learning the unknown parameters of the underlying stochastic differential equation, as well as full analyses of performance degradation due to sub-optimal actions (i.e., regret). Then, an easy-to-implement algorithm for balancing exploration versus exploitation is proposed, followed by theoretical guarantees showing a square-root of time regret bound. Further, we present tight results for assuring system stability and for specifying fundamental limits for regret. To establish the presented results, multiple novel technical frameworks are developed, which can be of independent interests. | 翻訳日:2021-09-18 04:28:23 公開日:2021-09-16 |
# (参考訳) opv2v:車間通信を用いた認知のためのオープンベンチマークデータセットと融合パイプライン OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2109.07644v1 ) ライセンス: CC BY 4.0 | Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Liu, Jiaqi Ma | (参考訳) 近年,自動運転車における車両間通信による認識性能の向上が注目されているが,ベンチマークアルゴリズムに適したオープンデータセットが存在しないため,協調的知覚技術の開発・評価が困難になっている。
そこで本研究では,車両間知覚のための最初の大規模オープンシミュレーションデータセットを提案する。
70以上の興味深いシーン、111,464フレーム、232,913個の注釈付き3d車両バウンディングボックスがあり、カルラの8つの町とロサンゼルスのカルバーシティのデジタルタウンから収集されている。
次に,16種類の実装モデルを用いた総合ベンチマークを構築し,最先端lidar検出アルゴリズムを用いた情報融合戦略(早期,後期,中間融合)の評価を行った。
さらに,複数の連結車両からの情報を集約する新しいAttentive Intermediate Fusionパイプラインを提案する。
実験の結果,提案パイプラインは既存の3次元LiDAR検出器と容易に統合でき,高い圧縮速度でも優れた性能が得られることがわかった。
より多くの研究者がVager-to-Vehicleの知覚を調査できるように、データセット、ベンチマークメソッド、および関連するすべてのコードをhttps://mobility-lab.seas.ucla.edu/opv2v/でリリースします。 Employing Vehicle-to-Vehicle communication to enhance perception performance in self-driving technology has attracted considerable attention recently; however, the absence of a suitable open dataset for benchmarking algorithms has made it difficult to develop and assess cooperative perception technologies. To this end, we present the first large-scale open simulated dataset for Vehicle-to-Vehicle perception. It contains over 70 interesting scenes, 111,464 frames, and 232,913 annotated 3D vehicle bounding boxes, collected from 8 towns in CARLA and a digital town of Culver City, Los Angeles. We then construct a comprehensive benchmark with a total of 16 implemented models to evaluate several information fusion strategies~(i.e. early, late, and intermediate fusion) with state-of-the-art LiDAR detection algorithms. Moreover, we propose a new Attentive Intermediate Fusion pipeline to aggregate information from multiple connected vehicles. Our experiments show that the proposed pipeline can be easily integrated with existing 3D LiDAR detectors and achieve outstanding performance even with large compression rates. To encourage more researchers to investigate Vehicle-to-Vehicle perception, we will release the dataset, benchmark methods, and all related codes in https://mobility-lab.seas.ucla.edu/opv2v/. | 翻訳日:2021-09-18 04:27:25 公開日:2021-09-16 |
# (参考訳) METEOR: 自律運転のための高密度・不均質な行動データセット METEOR: A Massive Dense & Heterogeneous Behavior Dataset for Autonomous Driving ( http://arxiv.org/abs/2109.07648v1 ) ライセンス: CC BY 4.0 | Rohan Chandra, Mridul Mahajan, Rahul Kala, Rishitha Palugulla, Chandrababu Naidu, Alok Jain, and Dinesh Manocha | (参考訳) インドにおける非構造化シナリオにおけるトラフィックパターンをキャプチャする,新しい複雑なトラフィックデータセットMETEORを提案する。
METEORは1000分以上のビデオクリップと、エゴ車軌道を持つ200万以上の注釈付きフレームと、周囲の車両や交通機関のための1300万以上のバウンディングボックスで構成されている。
METEORは、微視的およびマクロ的な交通特性の不均一性を捉えたユニークなデータセットである。
さらに、カットイン、降車、オーバテイク、過速度、ジグザグ、突然車線変更、交通信号の実行、間違った車線での運転、間違ったターン、交差点での通行権の欠如など、希少で興味深い運転行動に対するアノテーションを提供する。
また, 雨天, 夜間運転, 道路標識のない農村部での運転, 高密度交通シナリオなど, 様々な交通シナリオを提示する。
我々は,新しいデータセットを用いて物体検出および行動予測アルゴリズムの性能評価を行った。
現状の物体検出器はこれらの困難な条件で故障することを示し、また新しいベンチマークテストとして、ベースラインmAPスコア70.74のアクションビヘイビア予測を提案する。 We present a new and complex traffic dataset, METEOR, which captures traffic patterns in unstructured scenarios in India. METEOR consists of more than 1000 one-minute video clips, over 2 million annotated frames with ego-vehicle trajectories, and more than 13 million bounding boxes for surrounding vehicles or traffic agents. METEOR is a unique dataset in terms of capturing the heterogeneity of microscopic and macroscopic traffic characteristics. Furthermore, we provide annotations for rare and interesting driving behaviors such as cut-ins, yielding, overtaking, overspeeding, zigzagging, sudden lane changing, running traffic signals, driving in the wrong lanes, taking wrong turns, lack of right-of-way rules at intersections, etc. We also present diverse traffic scenarios corresponding to rainy weather, nighttime driving, driving in rural areas with unmarked roads, and high-density traffic scenarios. We use our novel dataset to evaluate the performance of object detection and behavior prediction algorithms. We show that state-of-the-art object detectors fail in these challenging conditions and also propose a new benchmark test: action-behavior prediction with a baseline mAP score of 70.74. | 翻訳日:2021-09-18 04:14:11 公開日:2021-09-16 |
# (参考訳) SPINロードマッパー:自律走行のための空間空間グラフ推論による航空画像からの道路抽出 SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and Interaction Space Graph Reasoning for Autonomous Driving ( http://arxiv.org/abs/2109.07701v1 ) ライセンス: CC BY 4.0 | Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, Vishal M. Patel | (参考訳) 道路抽出は自律航法システムを構築するための重要なステップである。
道路セグメントの検出は、様々な幅があり、画像全体を通して分岐し、地形、雲、その他の気象条件によって遮蔽されることが多いため、困難である。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、道路接続の抽出に不可欠である画像中の道路セグメント間の遠い依存関係を捉えるのが効率的ではないため、効果がない。
この目的のために,ConvNetにプラグインされた時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフに対して推論を行う空間空間空間グラフ推論(SPIN)モジュールを提案する。
空間空間上の推論は、異なる空間領域と他の文脈情報の間の依存関係を抽出する。
投影された相互作用空間上の推論は、画像に存在する他の地形から道路を適切に切り離すのに役立つ。
したがって、spinは道路セグメント間の長距離依存性を抽出し、他の意味論から効果的に道路を区切る。
また、複数スケールにわたるSPINグラフ推論を行い、マルチスケールの特徴を抽出するSPINピラミッドも導入する。
本研究では,既存手法と比較して性能が向上する道路分割のための時間ガラスモジュールとSPINピラミッドに基づくネットワークを提案する。
また,提案手法は計算効率が高く,訓練中の収束速度が著しく向上し,大規模高分解能空中画像に適用が容易である。
https://github.com/wgcban/SPIN_RoadMapper.git.comで公開されている。 Road extraction is an essential step in building autonomous navigation systems. Detecting road segments is challenging as they are of varying widths, bifurcated throughout the image, and are often occluded by terrain, cloud, or other weather conditions. Using just convolution neural networks (ConvNets) for this problem is not effective as it is inefficient at capturing distant dependencies between road segments in the image which is essential to extract road connectivity. To this end, we propose a Spatial and Interaction Space Graph Reasoning (SPIN) module which when plugged into a ConvNet performs reasoning over graphs constructed on spatial and interaction spaces projected from the feature maps. Reasoning over spatial space extracts dependencies between different spatial regions and other contextual information. Reasoning over a projected interaction space helps in appropriate delineation of roads from other topographies present in the image. Thus, SPIN extracts long-range dependencies between road segments and effectively delineates roads from other semantics. We also introduce a SPIN pyramid which performs SPIN graph reasoning across multiple scales to extract multi-scale features. We propose a network based on stacked hourglass modules and SPIN pyramid for road segmentation which achieves better performance compared to existing methods. Moreover, our method is computationally efficient and significantly boosts the convergence speed during training, making it feasible for applying on large-scale high-resolution aerial images. Code available at: https://github.com/wgcban/SPIN_RoadMapper.git. | 翻訳日:2021-09-18 03:58:29 公開日:2021-09-16 |
# (参考訳) 3次元心臓MRI画像分割におけるアドホック不確かさ推定のためのマルチタスククロスタスク学習アーキテクチャ A Multi-Task Cross-Task Learning Architecture for Ad-hoc Uncertainty Estimation in 3D Cardiac MRI Image Segmentation ( http://arxiv.org/abs/2109.07702v1 ) ライセンス: CC BY 4.0 | S. M. Kamrul Hasan, Cristian A. Linte | (参考訳) 深層学習アーキテクチャのおかげで、医用画像のセグメンテーションは大きな恩恵を受けている。
さらに、半教師付き学習(SSL)は、豊富なラベルのないデータを活用することで、モデル全体のパフォーマンスを改善するためのトレンドが最近増えている。
さらに、同じモデル内で複数のタスクを学習することで、モデルの一般化性がさらに向上する。
3次元心MR画像からよりスムーズで正確なセグメンテーションマスクを生成するために,画素レベル(セグメンテーション)と幾何学レベル(距離マップ)タスクの相関を強制するマルチタスククロスタスク学習整合性アプローチを提案する。
トレーニングセット内の様々なラベル付きデータを用いた広範な実験により,gadolinium-enhanced magnetic resonance (ge-mr) 画像からの左心房腔のセグメンテーションに対するモデルの有効性が検証された。
CNNが生成するセグメンテーションマスクの故障を検出する不確実性推定を組み込むことにより,本モデルが与えられたモデルから低品質セグメンテーションをフラグする可能性を示す。 Medical image segmentation has significantly benefitted thanks to deep learning architectures. Furthermore, semi-supervised learning (SSL) has recently been a growing trend for improving a model's overall performance by leveraging abundant unlabeled data. Moreover, learning multiple tasks within the same model further improves model generalizability. To generate smoother and accurate segmentation masks from 3D cardiac MR images, we present a Multi-task Cross-task learning consistency approach to enforce the correlation between the pixel-level (segmentation) and the geometric-level (distance map) tasks. Our extensive experimentation with varied quantities of labeled data in the training sets justifies the effectiveness of our model for the segmentation of the left atrial cavity from Gadolinium-enhanced magnetic resonance (GE-MR) images. With the incorporation of uncertainty estimates to detect failures in the segmentation masks generated by CNNs, our study further showcases the potential of our model to flag low-quality segmentation from a given model. | 翻訳日:2021-09-18 03:41:56 公開日:2021-09-16 |
# (参考訳) ROS-X-Habitat: ROSエコシステムをエボダイドAIでブリッジする ROS-X-Habitat: Bridging the ROS Ecosystem with Embodied AI ( http://arxiv.org/abs/2109.07703v1 ) ライセンス: CC BY 4.0 | Guanxiong Chen, Haoyu Yang and Ian M. Mitchell | (参考訳) ROS-X-HabitatはAI Habitatプラットフォームを橋渡しし、強化学習エージェントをROSを介して他のロボットリソースに組み込むソフトウェアインターフェースである。
このインターフェースは、エンボディエージェントとシミュレータ間の標準化された通信プロトコルを提供するだけでなく、物理ベースのシミュレーションも提供する。
このインターフェースにより、ロボットは別のシミュレーション環境でHabitat RLエージェントをトレーニングしたり、Habitat Sim内で独自のロボットアルゴリズムを開発することができる。
サイリコ実験を通じて,ros-x-habitatが生息域エージェントのナビゲーション性能とシミュレーション速度にほとんど影響を与えないこと,rosマッピング,計画およびナビゲーションツールの標準セットが居住域シミュレータで動作できること,居住域エージェントが標準のrosシミュレータガゼボで動作できることを実証した。 We introduce ROS-X-Habitat, a software interface that bridges the AI Habitat platform for embodied reinforcement learning agents with other robotics resources via ROS. This interface not only offers standardized communication protocols between embodied agents and simulators, but also enables physics-based simulation. With this interface, roboticists are able to train their own Habitat RL agents in another simulation environment or to develop their own robotic algorithms inside Habitat Sim. Through in silico experiments, we demonstrate that ROS-X-Habitat has minimal impact on the navigation performance and simulation speed of Habitat agents; that a standard set of ROS mapping, planning and navigation tools can run in the Habitat simulator, and that a Habitat agent can run in the standard ROS simulator Gazebo. | 翻訳日:2021-09-18 03:35:11 公開日:2021-09-16 |
# (参考訳) フェデレートサブモデル平均化 Federated Submodel Averaging ( http://arxiv.org/abs/2109.07704v1 ) ライセンス: CC BY 4.0 | Yucheng Ding, Chaoyue Niu. Fan Wu, Shaojie Tang, Chengfei Lv, Yanghe Feng, Guihai Chen | (参考訳) 我々は,クライアントの非d.d.データに疎結合な特徴があり,特定のクライアントのローカルデータは通常,サブモデルと呼ばれるモデル全体のごく一部に限られる,フェデレート学習の基礎となる実践的データ特性について検討する。
データ分散のため、古典的なフェデレーション平均化(FedAvg)アルゴリズムまたはその変種は、グローバルモデルを更新する際に、各クライアントのサブモデルを除くフルモデルのゼロ更新が不正確に集約されるため、大幅に遅くなる。
そこで我々は,フェデレートされたサブモデル平均化(FedSubAvg)を提案し,各モデルパラメータのグローバル更新の期待値が,それに関与するクライアントのローカル更新の平均値に等しいことを保証する。
理論上、feedsubavg の収束速度は、要素ワイズ勾配ノルムと呼ばれる新しい計量の下で上界を導出することで証明した。
特に、この新しい計量はスパースデータに対するフェデレーション最適化の収束を特徴づけることができるが、従来の2乗勾配ノルムの計量はFedAvgとその変種では適用できない。
我々は、パブリックデータセットと産業データセットの両方についてfeedsubavgを広範囲に評価した。
評価の結果,FedSubAvgはFedAvgとその変種よりも有意に優れていた。 We study practical data characteristics underlying federated learning, where non-i.i.d. data from clients have sparse features, and a certain client's local data normally involves only a small part of the full model, called a submodel. Due to data sparsity, the classical federated averaging (FedAvg) algorithm or its variants will be severely slowed down, because when updating the global model, each client's zero update of the full model excluding its submodel is inaccurately aggregated. Therefore, we propose federated submodel averaging (FedSubAvg), ensuring that the expectation of the global update of each model parameter is equal to the average of the local updates of the clients who involve it. We theoretically proved the convergence rate of FedSubAvg by deriving an upper bound under a new metric called the element-wise gradient norm. In particular, this new metric can characterize the convergence of federated optimization over sparse data, while the conventional metric of squared gradient norm used in FedAvg and its variants cannot. We extensively evaluated FedSubAvg over both public and industrial datasets. The evaluation results demonstrate that FedSubAvg significantly outperforms FedAvg and its variants. | 翻訳日:2021-09-18 03:18:32 公開日:2021-09-16 |
# (参考訳) 周波数領域におけるポイントワイズ畳み込みの高密度プルーニング Dense Pruning of Pointwise Convolutions in the Frequency Domain ( http://arxiv.org/abs/2109.07707v1 ) ライセンス: CC BY 4.0 | Mark Buckler, Neil Adit, Yuwei Hu, Zhiru Zhang, and Adrian Sampson | (参考訳) 離散的に分離可能な畳み込みと周波数領域畳み込みは、効率的な畳み込みニューラルネットワークを構築するための最近の2つのアイデアである。
深く分離可能なCNNの操作の大部分は、ポイントワイドの畳み込み層にあるが、ポイントワイドのレイヤは周波数変換の恩恵を受けない1x1カーネルを使用する。
本稿では、カーネルではなくアクティベーションを変換することで、これらの2つのアイデアを統一する。
私たちの重要な洞察は
1) 点別畳み込みは周波数変換により可換であり, 周波数領域では修正せずに計算できる。
2)所定の層内の各チャネルは周波数領域プルーニングに対する感度のレベルが異なる。
3) 各チャネルの周波数プルーニングに対する感度は周波数に対してほぼ単調である。
我々は、各チャネルのニーズに応じて、与えられた閾値以上の係数を選択的にプーンするために切り離された離散コサイン変換(DCT)で各ポイントワイド層をラップする新しい手法を提案する。
各チャネルの刈り込みしきい値を指定する新しい学習パラメータを導入することで、どのチャネルからどの周波数を刈り取るべきかを学習する。
タスク精度を維持しつつ、保持周波数数を減少させるモデルにインセンティブを与える新しい正規化項を追加する。
スパース演算子に依存する重み打ち法とは異なり、連続周波数帯打ち法は完全な密度計算をもたらす。
提案手法をMobileNetV2に適用することにより,計算時間を22%削減し,精度を1%向上させる。 Depthwise separable convolutions and frequency-domain convolutions are two recent ideas for building efficient convolutional neural networks. They are seemingly incompatible: the vast majority of operations in depthwise separable CNNs are in pointwise convolutional layers, but pointwise layers use 1x1 kernels, which do not benefit from frequency transformation. This paper unifies these two ideas by transforming the activations, not the kernels. Our key insights are that 1) pointwise convolutions commute with frequency transformation and thus can be computed in the frequency domain without modification, 2) each channel within a given layer has a different level of sensitivity to frequency domain pruning, and 3) each channel's sensitivity to frequency pruning is approximately monotonic with respect to frequency. We leverage this knowledge by proposing a new technique which wraps each pointwise layer in a discrete cosine transform (DCT) which is truncated to selectively prune coefficients above a given threshold as per the needs of each channel. To learn which frequencies should be pruned from which channels, we introduce a novel learned parameter which specifies each channel's pruning threshold. We add a new regularization term which incentivizes the model to decrease the number of retained frequencies while still maintaining task accuracy. Unlike weight pruning techniques which rely on sparse operators, our contiguous frequency band pruning results in fully dense computation. We apply our technique to MobileNetV2 and in the process reduce computation time by 22% and incur <1% accuracy degradation. | 翻訳日:2021-09-18 02:11:13 公開日:2021-09-16 |
# (参考訳) CNNのバックプロパゲーション促進のための爆発的活性化に基づくグラディエント出力空間 Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs ( http://arxiv.org/abs/2109.07710v1 ) ライセンス: CC BY 4.0 | Anup Sarma, Sonali Singh, Huaipan Jiang, Ashutosh Pattnaik, Asit K Mishra, Vijaykrishnan Narayanan, Mahmut T Kandemir and Chita R Das | (参考訳) 機械学習(ML/DL)ベースの技術は多くの最先端技術の背後にある原動力として登場し、画像分類やオブジェクト検出といったコンピュータビジョンのワークロードに対して高い精度を達成する。
しかし、大きなパラメータを含むこれらのモデルのトレーニングは、時間消費とエネルギー消費の両方である。
この点に関して、いくつかの先行研究は、DLトレーニングのスピードアップよりも、推論フェーズの高速化を提唱している。
この研究は、トレーニング中、前方と後方のパスの間隔が相関しているという観察から始まる。
そこで我々は,勾配降下に基づく最適化アルゴリズムに固有の2種類の疎度(入出力型)について検討し,これを利用するハードウェアマイクロアーキテクチャを提案する。
実験結果は、Imagenetデータセット上で5つの最先端CNNモデルを用いており、密度の高いベースライン実行と比較して1.69$\times$から5.43$\times$までの伝播速度を示す。
前方パスと後方パスの両方でsparsityを活用することで、speedupの改善はsparsity非依存のベースライン実行に対して 1.68$\times$ から 3.30$\times$ となる。
我々の研究は、GPUベースの実行よりもエネルギー効率が大幅に向上するだけでなく、以前提案した複数の高密度かつスパースなアクセラレータベースのプラットフォームに対して、トレーニングのイテレーション時間を大幅に短縮する。 Machine/deep-learning (ML/DL) based techniques are emerging as a driving force behind many cutting-edge technologies, achieving high accuracy on computer vision workloads such as image classification and object detection. However, training these models involving large parameters is both time-consuming and energy-hogging. In this regard, several prior works have advocated for sparsity to speed up the of DL training and more so, the inference phase. This work begins with the observation that during training, sparsity in the forward and backward passes are correlated. In that context, we investigate two types of sparsity (input and output type) inherent in gradient descent-based optimization algorithms and propose a hardware micro-architecture to leverage the same. Our experimental results use five state-of-the-art CNN models on the Imagenet dataset, and show back propagation speedups in the range of 1.69$\times$ to 5.43$\times$, compared to the dense baseline execution. By exploiting sparsity in both the forward and backward passes, speedup improvements range from 1.68$\times$ to 3.30$\times$ over the sparsity-agnostic baseline execution. Our work also achieves significant reduction in training iteration time over several previously proposed dense as well as sparse accelerator based platforms, in addition to achieving order of magnitude energy efficiency improvements over GPU based execution. | 翻訳日:2021-09-18 01:57:17 公開日:2021-09-16 |
# (参考訳) グラウンドドミニマル編集による移動可能なペルソナ・グラウンド対話 Transferable Persona-Grounded Dialogues via Grounded Minimal Edits ( http://arxiv.org/abs/2109.07713v1 ) ライセンス: CC BY 4.0 | Chen Henry Wu, Yinhe Zheng, Xiaoxi Mao, Minlie Huang | (参考訳) 接地対話モデルは、ある概念に基づく応答を生成する。
接地された対話データの分布によって制限され、そのようなデータで訓練されたモデルは、データ分布と接地された概念のタイプの観点から、転送可能性の課題に直面している。
そこで本研究では,既存の応答を最小限に編集し,与えられた概念に基づく最小編集フレームワークを提案する。
パーソナラに焦点をあてて,パーソナラ関連部分とパーソナ非依存部分の分離と組換えによって編集を学ぶ,グラウンドド・ミニマム・エディタ(gme)を提案する。
人為的な最小限の編集を評価するため,PersonaMinEditデータセットを提示し,実験結果から,GMEが競争ベースラインをはるかに上回ることを示す。
トランスファー可能性を評価するために,mixedskilltalkのテストセットを実験し,gmeが対話モデルの応答を編集し,知識と共感の使用を保ちながら,パーソナライズ性を大幅に向上できることを示した。 Grounded dialogue models generate responses that are grounded on certain concepts. Limited by the distribution of grounded dialogue data, models trained on such data face the transferability challenges in terms of the data distribution and the type of grounded concepts. To address the challenges, we propose the grounded minimal editing framework, which minimally edits existing responses to be grounded on the given concept. Focusing on personas, we propose Grounded Minimal Editor (GME), which learns to edit by disentangling and recombining persona-related and persona-agnostic parts of the response. To evaluate persona-grounded minimal editing, we present the PersonaMinEdit dataset, and experimental results show that GME outperforms competitive baselines by a large margin. To evaluate the transferability, we experiment on the test set of BlendedSkillTalk and show that GME can edit dialogue models' responses to largely improve their persona consistency while preserving the use of knowledge and empathy. | 翻訳日:2021-09-18 01:29:07 公開日:2021-09-16 |
# (参考訳) Sister Help: フレーム・セマンティックなロールラベリングのためのデータ拡張 Sister Help: Data Augmentation for Frame-Semantic Role Labeling ( http://arxiv.org/abs/2109.07725v1 ) ライセンス: CC BY 4.0 | Ayush Pancholy, Miriam R. L. Petruck, Swabha Swayamdipta | (参考訳) FrameNetは自然言語処理におけるセマンティクスの豊富なリソースとして広く見なされているが、主要な批判は、PropBankやVerbNetといった他の一般的な語彙リソースと比較して、そのカバレッジの欠如とラベル付きデータの相対的な曖昧さを懸念している。
本稿では,これらのギャップに対処するためのパイロット研究について報告する。
既存のフレーム固有のアノテーションを用いて、注釈のない同じフレームの他の語彙単位を自動的に注釈付けするデータ拡張手法を提案する。
ルールベースアプローチでは,姉妹語彙単位の概念を定義し,フレーム固有の拡張データを生成する。
我々は,このデータ強化の重要性を示すフレーム意味的ロールラベリング実験を行い,フレームネットのフレーム識別と引数識別において,フレームネットのフルテキストアノテーションとレキソグラフィアノテーションを併用することにより,事前の結果を大幅に改善する。
データ拡張に関する知見は,フレーム・セマンティック解析における改良モデルに対する自動資源生成の価値を強調した。 While FrameNet is widely regarded as a rich resource of semantics in natural language processing, a major criticism concerns its lack of coverage and the relative paucity of its labeled data compared to other commonly used lexical resources such as PropBank and VerbNet. This paper reports on a pilot study to address these gaps. We propose a data augmentation approach, which uses existing frame-specific annotation to automatically annotate other lexical units of the same frame which are unannotated. Our rule-based approach defines the notion of a sister lexical unit and generates frame-specific augmented data for training. We present experiments on frame-semantic role labeling which demonstrate the importance of this data augmentation: we obtain a large improvement to prior results on frame identification and argument identification for FrameNet, utilizing both full-text and lexicographic annotations under FrameNet. Our findings on data augmentation highlight the value of automatic resource creation for improved models in frame-semantic parsing. | 翻訳日:2021-09-18 01:09:33 公開日:2021-09-16 |
# (参考訳) 5G RIS mmWaveシステムを超える: コミュニケーションとローカライゼーション Beyond 5G RIS mmWave Systems: Where Communication and Localization Meet ( http://arxiv.org/abs/2109.07729v1 ) ライセンス: CC BY 4.0 | Jiguang He and Fan Jiang and Kamran Keykhosravi and Joonas Kokkoniemi and Henk Wymeersch and Markku Juntti | (参考訳) 第5世代(5G)通信システムは、例えば、再構成可能なインテリジェントサーフェス(RIS)、統合通信、ローカライゼーション、センシング、mmWave/THz通信といった新しい技術を採用することで、重要なパフォーマンス指標をさらに強化し、新しいユースケースを完全にサポートすることを目指している。
最先端の人工知能技術によって強化された無線インテリジェンスはトランシーバーでは広く検討されており、現在ではRISによる無線伝搬環境のスマートコントロールにシフトしていると考えられている。
本稿では、RISの潜在能力を最大限に活用するためには、局所化とコミュニケーションを緊密に結合する必要があると論じる。
これは、ローカライゼーションがマイナーな追加サービスであった5Gやそれ以前の世代とは対照的だ。
これを支援するために、まずRIS mmWaveチャネルモデリングの基礎を紹介し、続いてRISチャネル状態情報取得とリンク確立について述べる。
そして, 地域化とコミュニケーションの関連性について, 別々かつ共同的な視点から検討する。 Upcoming beyond fifth generation (5G) communications systems aim at further enhancing key performance indicators and fully supporting brand new use cases by embracing emerging techniques, e.g., reconfigurable intelligent surface (RIS), integrated communication, localization, and sensing, and mmWave/THz communications. The wireless intelligence empowered by state-of-the-art artificial intelligence techniques has been widely considered at the transceivers, and now the paradigm is deemed to be shifted to the smart control of radio propagation environment by virtue of RISs. In this article, we argue that to harness the full potential of RISs, localization and communication must be tightly coupled. This is in sharp contrast to 5G and earlier generations, where localization was a minor additional service. To support this, we first introduce the fundamentals of RIS mmWave channel modeling, followed by RIS channel state information acquisition and link establishment. Then, we deal with the connection between localization and communications, from a separate and joint perspective. | 翻訳日:2021-09-18 00:58:35 公開日:2021-09-16 |
# (参考訳) スペインのバイオメディカルクロールコーパス:スペインのバイオメディカル言語モデルのための大規模で多様なデータセット Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models ( http://arxiv.org/abs/2109.07765v1 ) ライセンス: CC BY 4.0 | Casimiro Pio Carrino, Jordi Armengol-Estap\'e, Ona de Gibert Bonet, Asier Guti\'errez-Fandi\~no, Aitor Gonzalez-Agirre, Martin Krallinger, Marta Villegas | (参考訳) スペイン最大の生物医学コーパスであるcowese (the corpus web salud espa\~nol) を紹介する。
CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。
コーパスは公開されており、すでに前処理されている。
CoWeSeはスペイン語のバイオメディカルおよび健康的なNLPにとって重要なリソースであり、すでにドメイン固有の言語モデルのトレーニングや単語の組込みに使われている。
我々はCoWeSeコーパスをCreative Commons Attribution 4.0国際ライセンスでリリースし、どちらもZenodo (\url{https://zenodo.org/record/456 1971\#)でリリースしました。
yti5snvkiea)。 We introduce CoWeSe (the Corpus Web Salud Espa\~nol), the largest Spanish biomedical corpus to date, consisting of 4.5GB (about 750M tokens) of clean plain text. CoWeSe is the result of a massive crawler on 3000 Spanish domains executed in 2020. The corpus is openly available and already preprocessed. CoWeSe is an important resource for biomedical and health NLP in Spanish and has already been employed to train domain-specific language models and to produce word embbedings. We released the CoWeSe corpus under a Creative Commons Attribution 4.0 International license, both in Zenodo (\url{https://zenodo.org/record/4561971\#.YTI5SnVKiEA}). | 翻訳日:2021-09-18 00:44:56 公開日:2021-09-16 |
# (参考訳) 双方向学習によるニューラルマシン翻訳の改善 Improving Neural Machine Translation by Bidirectional Training ( http://arxiv.org/abs/2109.07780v1 ) ライセンス: CC0 1.0 | Liang Ding, Di Wu, Dacheng Tao | (参考訳) 我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
双方向更新を実現するために、トレーニングサンプルを"src$\rightarrow$tgt"から"src+tgt$\rightarrow$tgt+src"に再構成し、複雑なモデル修正を行わない。
特に、我々のアプローチはパラメータやトレーニングステップを増やさず、単に並列データを必要とします。
実験の結果, BiTは8つの言語対(データサイズは160Kから38M)上の15の翻訳タスクに対して, SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
提案手法は,既存のデータ操作戦略,すなわち逆変換,データ蒸留,データ多様化を補完する。
本手法がバイリンガルなコードスウィッチャーとして機能し,より優れたバイリンガルアライメントが得られた。 We present a simple and effective pretraining strategy -- bidirectional training (BiT) for neural machine translation. Specifically, we bidirectionally update the model parameters at the early stage and then tune the model normally. To achieve bidirectional updating, we simply reconstruct the training samples from "src$\rightarrow$tgt" to "src+tgt$\rightarrow$tgt+src" without any complicated model modifications. Notably, our approach does not increase any parameters or training steps, requiring the parallel data merely. Experimental results show that BiT pushes the SOTA neural machine translation performance across 15 translation tasks on 8 language pairs (data sizes range from 160K to 38M) significantly higher. Encouragingly, our proposed model can complement existing data manipulation strategies, i.e. back translation, data distillation, and data diversification. Extensive analyses show that our approach functions as a novel bilingual code-switcher, obtaining better bilingual alignment. | 翻訳日:2021-09-18 00:40:55 公開日:2021-09-16 |
# (参考訳) MHFC:Few-Shot Learningのためのマルチヘッド機能コラボレーション MHFC: Multi-Head Feature Collaboration for Few-Shot Learning ( http://arxiv.org/abs/2109.07785v1 ) ライセンス: CC BY 4.0 | Shuai Shao, Lei Xing, Yan Wang, Rui Xu, Chunyan Zhao, Yan-Jiang Wang, Bao-Di Liu | (参考訳) FSL(Few-shot Learning)は、データスカース問題に対処することを目的としている。
標準のFSLフレームワークは2つのコンポーネントで構成されている。
ベースデータを使用してCNNベースの特徴抽出モデル(FEM)を生成する。
(2) メタテスト。
トレーニングされたFEMを適用して、新しいデータの特徴を取得して認識する。
FSLはFEMの設計に大きく依存している。
しかし、様々なFEMは異なる相を持つ。
例えば、輪郭情報にもっと注意を払うものもあれば、テクスチャ情報に特に注目するものもある。
シングルヘッド機能は、サンプルの片側のみの表現である。
クロスドメインの負の影響(例えば、訓練されたFEMは、新しいクラスに完璧に適応できない)に加えて、新しいデータの分布は、分布シフトプロブレム(dis distribution-shift-problem、DSP)と呼ばれる基底真理分布と比較してある程度ずれがある。
dspに対処するために,マルチヘッド機能(例えば,様々なfemから抽出された複数の特徴)を統一空間に投影し,それらを融合してより識別的な情報を取り込むマルチヘッド機能協調 (mhfc) アルゴリズムを提案する。
典型的には,多頭部特徴を低次元表現に整列させる部分空間学習法を導入する。
より強力な差別で特徴を学習することでDSPを補正し、異なる頭部特徴からの不整合測定スケールの問題を克服する。
次に、各ヘッド機能の組合せ重みを自動的に更新するアテンションブロックを設計する。
様々な視点の貢献を包括的に考慮し、特徴の識別をさらに改善する。
提案手法を5つのベンチマークデータセット(クロスドメイン実験を含む)で評価し,2.1%-7.8%の大幅な改善を達成した。 Few-shot learning (FSL) aims to address the data-scarce problem. A standard FSL framework is composed of two components: (1) Pre-train. Employ the base data to generate a CNN-based feature extraction model (FEM). (2) Meta-test. Apply the trained FEM to acquire the novel data's features and recognize them. FSL relies heavily on the design of the FEM. However, various FEMs have distinct emphases. For example, several may focus more attention on the contour information, whereas others may lay particular emphasis on the texture information. The single-head feature is only a one-sided representation of the sample. Besides the negative influence of cross-domain (e.g., the trained FEM can not adapt to the novel class flawlessly), the distribution of novel data may have a certain degree of deviation compared with the ground truth distribution, which is dubbed as distribution-shift-problem (DSP). To address the DSP, we propose Multi-Head Feature Collaboration (MHFC) algorithm, which attempts to project the multi-head features (e.g., multiple features extracted from a variety of FEMs) to a unified space and fuse them to capture more discriminative information. Typically, first, we introduce a subspace learning method to transform the multi-head features to aligned low-dimensional representations. It corrects the DSP via learning the feature with more powerful discrimination and overcomes the problem of inconsistent measurement scales from different head features. Then, we design an attention block to update combination weights for each head feature automatically. It comprehensively considers the contribution of various perspectives and further improves the discrimination of features. We evaluate the proposed method on five benchmark datasets (including cross-domain experiments) and achieve significant improvements of 2.1%-7.8% compared with state-of-the-arts. | 翻訳日:2021-09-18 00:29:57 公開日:2021-09-16 |
# (参考訳) オブザーバノイズを伴う咬合下の逆rlの辺縁マップ推定 Marginal MAP Estimation for Inverse RL under Occlusion with Observer Noise ( http://arxiv.org/abs/2109.07788v1 ) ライセンス: CC BY 4.0 | Prasanth Sengadu Suresh, Prashant Doshi | (参考訳) 騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。
これは、人間の作業員を観察することから学習するラインロボットのような現実世界の応用によって動機付けられている。
さらに、ロボットの知覚は不完全でうるさい傾向がある。
逆強化学習(irl:inverse reinforcement learning)以前の手法では、欠落部分を省略するか、期待最大化の一部として推論するかのどちらかのアプローチをとっていた。
本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置法(MAP) IRL法を一般化する手法を提案する。
これは知覚ノイズを考慮した観測モデルで拡張される。
おもちゃ問題に対する形成的評価と,ロボットによるオニオン分類ラインタスクの要約評価の両方において,咬合下の以前のirl技術において,マージンマップ(mmap)アプローチが著しく改善することを示す。 We consider the problem of learning the behavioral preferences of an expert engaged in a task from noisy and partially-observable demonstrations. This is motivated by real-world applications such as a line robot learning from observing a human worker, where some observations are occluded by environmental objects that cannot be removed. Furthermore, robotic perception tends to be imperfect and noisy. Previous techniques for inverse reinforcement learning (IRL) take the approach of either omitting the missing portions or inferring it as part of expectation-maximization, which tends to be slow and prone to local optima. We present a new method that generalizes the well-known Bayesian maximum-a-posteriori (MAP) IRL method by marginalizing the occluded portions of the trajectory. This is additionally extended with an observation model to account for perception noise. We show that the marginal MAP (MMAP) approach significantly improves on the previous IRL technique under occlusion in both formative evaluations on a toy problem and in a summative evaluation on an onion sorting line task by a robot. | 翻訳日:2021-09-18 00:10:19 公開日:2021-09-16 |
# (参考訳) 画像コピー再ランキング用コンパクトバイナリ指紋 Compact Binary Fingerprint for Image Copy Re-Ranking ( http://arxiv.org/abs/2109.07802v1 ) ライセンス: CC BY 4.0 | Nazar Mohammad, Junaid Baber, Maheen Bakhtyar, Bilal Ahmed Chandio, Anwar Ali Sanjrani | (参考訳) 画像コピー検出はコンピュータビジョンと信号処理において困難で魅力的なトピックである。
近年のマルチメディアの進歩により、グローバルな画像の配布は容易かつ迅速になり、偽造や画像コピー検索といった多くの問題に繋がる。
siftのようなローカルキーポイントディスクリプタは画像を表現するために使用され、それらのディスクリプタマッチングに基づいて、画像がマッチして検索される。
機能は定量化され、精度を損なうことなく、大規模なデータベースで検索/マッチングが実現可能になる。
本稿では,SIFTを2進数に量子化し,ランクリストを再検討し,偽陽性を除去する二進数特徴を提案する。
挑戦的なデータセットの実験は、精度と時間の上昇を示しています。 Image copy detection is challenging and appealing topic in computer vision and signal processing. Recent advancements in multimedia have made distribution of image across the global easy and fast: that leads to many other issues such as forgery and image copy retrieval. Local keypoint descriptors such as SIFT are used to represent the images, and based on those descriptors matching, images are matched and retrieved. Features are quantized so that searching/matching may be made feasible for large databases at the cost of accuracy loss. In this paper, we propose binary feature that is obtained by quantizing the SIFT into binary, and rank list is re-examined to remove the false positives. Experiments on challenging dataset shows the gain in accuracy and time. | 翻訳日:2021-09-17 23:54:58 公開日:2021-09-16 |
# (参考訳) 教師なしテキスト転送のためのトランスダクティブ学習 Transductive Learning for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2109.07812v1 ) ライセンス: CC BY 4.0 | Fei Xiao, Liang Pang, Yanyan Lan, Yan Wang, Huawei Shen and Xueqi Cheng | (参考訳) 教師なしスタイル転送モデルは、主に埋め込み、デコーダパラメータ、または判別パラメータとしてスタイルを表現し、これらの一般的なルールをテストケースに直接適用する帰納的学習アプローチに基づいている。
しかし、並列コーパスの欠如は、これらの帰納的学習方法の能力を妨げている。
結果として、『サラダは失礼である』など、厳格な一貫性のないスタイル表現を引き起こす可能性がある。
この問題に対処するために,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
具体的には、レトリバーフレームワークを備えた注目エンコーダデコーダを用いる。
転送プロセスにおいて、ターゲットスタイルの上位Kの関連文を含む。
このようにして、上記の矛盾問題を緩和するためにコンテキスト認識スタイルの埋め込みを学ぶことができる。
本稿では,スパース関数 (BM25) と高密度検索関数 (MIPS) の両方を用い,共同学習を容易にするために2つの目的関数を設計する。
実験の結果,本手法は複数のベースラインよりも優れていた。
提案するトランスダクティブ学習手法は,教師なしスタイル転送の課題に対して汎用的で効果的であり,将来,他の2つの典型的な手法に適用する。 Unsupervised style transfer models are mainly based on an inductive learning approach, which represents the style as embeddings, decoder parameters, or discriminator parameters and directly applies these general rules to the test cases. However, the lacking of parallel corpus hinders the ability of these inductive learning methods on this task. As a result, it is likely to cause severe inconsistent style expressions, like `the salad is rude`. To tackle this problem, we propose a novel transductive learning approach in this paper, based on a retrieval-based context-aware style representation. Specifically, an attentional encoder-decoder with a retriever framework is utilized. It involves top-K relevant sentences in the target style in the transfer process. In this way, we can learn a context-aware style embedding to alleviate the above inconsistency problem. In this paper, both sparse (BM25) and dense retrieval functions (MIPS) are used, and two objective functions are designed to facilitate joint learning. Experimental results show that our method outperforms several strong baselines. The proposed transductive learning approach is general and effective to the task of unsupervised style transfer, and we will apply it to the other two typical methods in the future. | 翻訳日:2021-09-17 23:40:33 公開日:2021-09-16 |
# (参考訳) 線形分類器の結合における確率的スコアリング関数 Probability-driven scoring functions in combining linear classifiers ( http://arxiv.org/abs/2109.07815v1 ) ライセンス: CC BY 4.0 | Pawel Trajdos, Robert Burduk | (参考訳) 線形分類器は機械学習で最も古い手法の1つであるが、機械学習コミュニティではまだ非常に人気がある。
これは計算の複雑さが低く、過度に適合することによる。
その結果、線形分類器は複数のアンサンブル分類系の基底分類器としてしばしば用いられる。
本研究の目的は,線形分類器のアンサンブルに特化した新しい融合法を構築することである。
融合スキームは測度空間と幾何空間の両方を用いる。
すなわち,基本分類器によって生成される決定超平面の向きに依存する確率駆動型スコアリング関数を提案する。
提案手法はkeelリポジトリから取得した複数のベンチマークデータセットを用いた参照手法と比較する。
比較は複数の品質基準を用いて行う。
また、得られた結果の統計的解析を行う。
実験的研究は、ある条件下ではいくつかの改善が得られたことを示している。 Although linear classifiers are one of the oldest methods in machine learning, they are still very popular in the machine learning community. This is due to their low computational complexity and robustness to overfitting. Consequently, linear classifiers are often used as base classifiers of multiple ensemble classification systems. This research is aimed at building a new fusion method dedicated to the ensemble of linear classifiers. The fusion scheme uses both measurement space and geometrical space. Namely, we proposed a probability-driven scoring function which shape depends on the orientation of the decision hyperplanes generated by the base classifiers. The proposed fusion method is compared with the reference method using multiple benchmark datasets taken from the KEEL repository. The comparison is done using multiple quality criteria. The statistical analysis of the obtained results is also performed. The experimental study shows that, under certain conditions, some improvement may be obtained. | 翻訳日:2021-09-17 23:22:34 公開日:2021-09-16 |
# (参考訳) 分割、制約、征服を通じて論理プログラムを学ぶ Learning logic programs through divide, constrain, and conquer ( http://arxiv.org/abs/2109.07818v1 ) ライセンス: CC BY 4.0 | Andrew Cropper | (参考訳) 古典的除算探索と近代的制約駆動探索を組み合わせた帰納的論理プログラミング手法を提案する。
当社のanytimeアプローチは,最適かつ再帰的,大規模プログラムを学習し,述語発明を支援する。
3つのドメイン(分類、帰納的汎用ゲームプレイ、プログラム合成)に対する実験により、我々のアプローチは予測精度を高め、学習時間を短縮できることが示された。 We introduce an inductive logic programming approach that combines classical divide-and-conquer search with modern constraint-driven search. Our anytime approach can learn optimal, recursive, and large programs and supports predicate invention. Our experiments on three domains (classification, inductive general game playing, and program synthesis) show that our approach can increase predictive accuracies and reduce learning times. | 翻訳日:2021-09-17 23:04:48 公開日:2021-09-16 |
# (参考訳) プロンプトの言語モデル : 生成による統語的不確かさの探索 The Language Model Understood the Prompt was Ambiguous: Probing Syntactic Uncertainty Through Generation ( http://arxiv.org/abs/2109.07848v1 ) ライセンス: CC BY 4.0 | Laura Aina, Tal Linzen | (参考訳) 一時的な構文曖昧性は、文の始まりが複数の構文解析と互換性があるときに生じる。
ニューラルネットワークモデル(LM)は、一時的にあいまいな入力を処理する際に、そのような解析に対して不確実性を示すか、不明瞭な手がかりによってその不確実性がどのように変調されるかを調べる。
我々は, 確率的復号法を用いて文補完のセットを導出し, 各解釈にlmが割り当てる確率を, コンプリート間のパース分布に基づいて推定する。
目標構文評価のためのスコアベース手法とは異なり、この手法は研究者が事前に仮説を立てていない完了を探索することができる。
本研究では,2つのLM(GPT2とLSTM)の3種類の一時的なあいまいさについて,人文処理実験の材料を用いて検討する。
LMは複数の解析を同時に追跡でき、不確実性の度合いは構成や状況によって異なる。
曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。 Temporary syntactic ambiguities arise when the beginning of a sentence is compatible with multiple syntactic analyses. We inspect to which extent neural language models (LMs) exhibit uncertainty over such analyses when processing temporarily ambiguous inputs, and how that uncertainty is modulated by disambiguating cues. We probe the LM's expectations by generating from it: we use stochastic decoding to derive a set of sentence completions, and estimate the probability that the LM assigns to each interpretation based on the distribution of parses across completions. Unlike scoring-based methods for targeted syntactic evaluation, this technique makes it possible to explore completions that are not hypothesized in advance by the researcher. We apply this method to study the behavior of two LMs (GPT2 and an LSTM) on three types of temporary ambiguity, using materials from human sentence processing experiments. We find that LMs can track multiple analyses simultaneously; the degree of uncertainty varies across constructions and contexts. As a response to disambiguating cues, the LMs often select the correct interpretation, but occasional errors point to potential areas of improvement. | 翻訳日:2021-09-17 22:51:58 公開日:2021-09-16 |
# (参考訳) 3次元仮想環境生成による連続学習アルゴリズムの評価 Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments ( http://arxiv.org/abs/2109.07855v1 ) ライセンス: CC BY-SA 4.0 | Enrico Meloni, Alessandro Betti, Lapo Faggi, Simone Marullo, Matteo Tiezzi, Stefano Melacci | (参考訳) 連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
この学習プロセスを機械でシミュレートしようという試みは、現実の世界に典型的な連続的に進化するダイナミクスを設計するための条件を作るのに固有の困難さのため、難しい作業である。
既存の研究の多くは、異なる学習タスクのシーケンスを考慮して、静的画像やショートビデオのデータセット上の仮想エージェントのトレーニングとテストを含む。
しかし, より現実的な条件下での連続学習アルゴリズムの考案には, 豊かな, 完全にカスタマイズ可能な, 制御された実験遊び場へのアクセスが不可欠である。
そこで,視覚の具体的事例に着目し,3d仮想環境における最近の進歩を活かし,写真リアルな外観を持つ生涯の動的シーンの自動生成にアプローチすることを提案する。
シーンは、異なるカスタマイズ可能なタイミングで可変経路に沿って移動するオブジェクトで構成されており、ランダム性もその進化に含めることができる。
この論文の新たな要素は、シーンをパラメトリックに記述することで、エージェントが知覚する入力ストリームの視覚的な複雑さを完全に制御できることである。
これらの一般的な原則は、最近公開された3D仮想環境を利用して具体的に実装されている。
ユーザはコンピュータグラフィックスの強力なスキルを必要とせずにシーンを生成することができる。
提案されたジェネレータを公開します。 Continual learning refers to the ability of humans and animals to incrementally learn over time in a given environment. Trying to simulate this learning process in machines is a challenging task, also due to the inherent difficulty in creating conditions for designing continuously evolving dynamics that are typical of the real-world. Many existing research works usually involve training and testing of virtual agents on datasets of static images or short videos, considering sequences of distinct learning tasks. However, in order to devise continual learning algorithms that operate in more realistic conditions, it is fundamental to gain access to rich, fully customizable and controlled experimental playgrounds. Focussing on the specific case of vision, we thus propose to leverage recent advances in 3D virtual environments in order to approach the automatic generation of potentially life-long dynamic scenes with photo-realistic appearance. Scenes are composed of objects that move along variable routes with different and fully customizable timings, and randomness can also be included in their evolution. A novel element of this paper is that scenes are described in a parametric way, thus allowing the user to fully control the visual complexity of the input stream the agent perceives. These general principles are concretely implemented exploiting a recently published 3D virtual environment. The user can generate scenes without the need of having strong skills in computer graphics, since all the generation facilities are exposed through a simple high-level Python interface. We publicly share the proposed generator. | 翻訳日:2021-09-17 22:33:44 公開日:2021-09-16 |
# (参考訳) ストリーム分類のためのソフト混乱行列分類器 Soft Confusion Matrix Classifier for Stream Classification ( http://arxiv.org/abs/2109.07857v1 ) ライセンス: CC BY 4.0 | Pawel Trajdos, Marek Kurzynski | (参考訳) 本稿では,ストリーム学習タスクに対応するために,ソフト混乱行列(scm)ベースの分類器をカスタマイズする問題に対処する。
この作業の主な目標は、漸進的に学習できない分類器に段階的な学習を可能にするラッピング分類器を開発することである。
目標は、以前に開発されたSCM分類器で2つの改善を施すことである。
1つ目は、SCM分類器の計算コストの削減である。
そのため、オブジェクトのファジィ近傍の定義を変更する。
2つ目は、コンセプトドリフトを効果的に扱うことを目的としている。
これはADWINによって駆動されるドリフト検出器を用いており、ドリフトを検出するだけでなく、近隣のサイズを制御するためにも用いられる。
得られた実験結果から,提案手法は基準法よりも有意に優れていた。 In this paper, the issue of tailoring the soft confusion matrix (SCM) based classifier to deal with stream learning task is addressed. The main goal of the work is to develop a wrapping-classifier that allows incremental learning to classifiers that are unable to learn incrementally. The goal is achieved by making two improvements in the previously developed SCM classifier. The first one is aimed at reducing the computational cost of the SCM classifier. To do so, the definition of the fuzzy neighborhood of an object is changed. The second one is aimed at effective dealing with the concept drift. This is done by employing the ADWIN-driven concept drift detector that is not only used to detect the drift but also to control the size of the neighbourhood. The obtained experimental results show that the proposed approach significantly outperforms the reference methods. | 翻訳日:2021-09-17 22:20:22 公開日:2021-09-16 |
# (参考訳) アンサンブルメンバーのランダム化モデルによる分類器のアンサンブルの構築 Building an Ensemble of Classifiers via Randomized Models of Ensemble Members ( http://arxiv.org/abs/2109.07861v1 ) ライセンス: CC BY 4.0 | Pawel Trajdos, Marek Kurzynski | (参考訳) 多くの動的アンサンブル選択法(DES)が文献で知られている。
著者らが以前に開発した手法は、ベース分類器のモデルとして扱われるランダム化分類器を構築することで構成される。
モデルはある確率論的意味で基底分類器と等価である。
次に、ランダム化分類器の正しい分類の確率を評価された分類器の能力とみなす。
本稿では,新しいベース分類器のランダム化モデルを開発した。
提案手法では,モデルのランダム操作は,一定サイズの学習集合の族から学習集合をランダムに選択することによって得られる。
本稿では,本手法の数学的基礎を提示し,学習と検証セットが与えられた場合の実用的応用において,能力の尺度を決定し,desスキームを用いてmcシステムを構築する方法を示す。
提案モデルを用いたdesスキームは67のベンチマークデータセットの収集で実験的に評価され、前述したランダムモデルの概念を用いた2つのアンサンブル分類器と8つの品質基準で比較された。
提案手法は, ほぼすべての品質基準において, 最低ランクを達成した。 Many dynamic ensemble selection (DES) methods are known in the literature. A previously-developed by the authors, method consists in building a randomized classifier which is treated as a model of the base classifier. The model is equivalent to the base classifier in a certain probabilistic sense. Next, the probability of correct classification of randomized classifier is taken as the competence of the evaluated classifier. In this paper, a novel randomized model of base classifier is developed. In the proposed method, the random operation of the model results from a random selection of the learning set from the family of learning sets of a fixed size. The paper presents the mathematical foundations of this approach and shows how, for a practical application when learning and validation sets are given, one can determine the measure of competence and build a MC system with the DES scheme. The DES scheme with the proposed model of competence was experimentally evaluated on the collection of 67 benchmark datasets and compared in terms of eight quality criteria with two ensemble classifiers which use the previously-proposed concepts of randomized model. The proposed approach achieved the lowest ranks for almost all investigated quality criteria. | 翻訳日:2021-09-17 22:07:51 公開日:2021-09-16 |
# (参考訳) 翻訳トランスフォーマーが固有のデータドメインを再発見 Translation Transformers Rediscover Inherent Data Domains ( http://arxiv.org/abs/2109.07864v1 ) ライセンス: CC BY 4.0 | Maksym Del, Elizaveta Korotkova, Mark Fishel | (参考訳) 多くの研究が、ドメイン/マルチドメイン適応シナリオにおけるニューラルマシン翻訳(nmt)モデルの性能を改善する手法を提案している。
しかし、NMTのベースラインがテキストドメイン情報を内部的にどのように表現するかの理解はいまだに欠けている。
本稿では、nmtトランスフォーマーが学習した文表現を分析し、入力文をドメインラベルなしで見るだけで、テキストドメインに関する情報を明示的に含んでいることを示す。
さらに、この内部情報は、その下にあるドメインの文を、監督なしでクラスタリングするのに十分であることを示す。
NMTモデルは、事前訓練された言語モデル(LM)と比較して、実際のドメインに整合したクラスタを生成する。
特にドキュメントレベルで計算すると、nmtクラスタ間通信は100%に近い。
これらの知見は,自動抽出ドメインを用いたNMTドメイン適応へのアプローチと併用する。
従来,テキストクラスタリングでは外部のLMに頼っていたが,教師なしクラスタのソースとしてNMTモデルを再利用することを提案する。
本研究では,2つのデータシナリオにまたがる2つのアプローチ,3つの言語ペア,文レベルのクラスタリングと文書レベルのクラスタリングを比較した実験を行った。 Many works proposed methods to improve the performance of Neural Machine Translation (NMT) models in a domain/multi-domain adaptation scenario. However, an understanding of how NMT baselines represent text domain information internally is still lacking. Here we analyze the sentence representations learned by NMT Transformers and show that these explicitly include the information on text domains, even after only seeing the input sentences without domains labels. Furthermore, we show that this internal information is enough to cluster sentences by their underlying domains without supervision. We show that NMT models produce clusters better aligned to the actual domains compared to pre-trained language models (LMs). Notably, when computed on document-level, NMT cluster-to-domain correspondence nears 100%. We use these findings together with an approach to NMT domain adaptation using automatically extracted domains. Whereas previous work relied on external LMs for text clustering, we propose re-using the NMT model as a source of unsupervised clusters. We perform an extensive experimental study comparing two approaches across two data scenarios, three language pairs, and both sentence-level and document-level clustering, showing equal or significantly superior performance compared to LMs. | 翻訳日:2021-09-17 21:59:13 公開日:2021-09-16 |
# (参考訳) 超人分類器の人間認証 Humanly Certifying Superhuman Classifiers ( http://arxiv.org/abs/2109.07867v1 ) ライセンス: CC BY 4.0 | Qiongkai Xu, Christian Walder, Chenchen Xu | (参考訳) 機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
今日では、この課題が特に重要になっているのは、人類をますます上回りつつあるように見えるシステムの出現である。
例えば、伝統的な2人のプレイヤーゲームで伝説的な人間のプレイヤーを倒すことで、この「スーパーヒューマン」のパフォーマンスが容易に示される。
一方,人間性能を超える可能性のある分類モデルを評価することは困難である。
実際、人間のアノテーションはしばしば、人間のアノテーションで訓練されたモデルよりも人間の優位性を暗黙的に仮定する基礎的な真実として扱われる。
実際には、人間の注釈は間違いを犯し、主観的である。
真のオラクルに対するパフォーマンスの評価は、oracleをクエリする場合であっても、もっと客観的で信頼性が高いかもしれません。
本稿ではまず,未観測のオラクルに対して,人間とモデルの両方のパフォーマンスを評価するという課題を提起する。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
我々の分析は,この環境での超人的性能の検出と証明のための簡単なレシピを提供し,分類研究の段階を理解するのに役立つと信じている。
我々は、既知のオラクルを用いた慎重に設計された玩具実験において、境界の収束と理論の仮定を検証する。
さらに,オラクルが存在しない大規模自然言語処理タスクをメタ分析することで,我々の理論の有用性を実証し,近年のモデルが高確率超人であることを示す。 Estimating the performance of a machine learning system is a longstanding challenge in artificial intelligence research. Today, this challenge is especially relevant given the emergence of systems which appear to increasingly outperform human beings. In some cases, this "superhuman" performance is readily demonstrated; for example by defeating legendary human players in traditional two player games. On the other hand, it can be challenging to evaluate classification models that potentially surpass human performance. Indeed, human annotations are often treated as a ground truth, which implicitly assumes the superiority of the human over any models trained on human annotations. In reality, human annotators can make mistakes and be subjective. Evaluating the performance with respect to a genuine oracle may be more objective and reliable, even when querying the oracle is expensive or impossible. In this paper, we first raise the challenge of evaluating the performance of both humans and models with respect to an oracle which is unobserved. We develop a theory for estimating the accuracy compared to the oracle, using only imperfect human annotations for reference. Our analysis provides a simple recipe for detecting and certifying superhuman performance in this setting, which we believe will assist in understanding the stage of current research on classification. We validate the convergence of the bounds and the assumptions of our theory on carefully designed toy experiments with known oracles. Moreover, we demonstrate the utility of our theory by meta-analyzing large-scale natural language processing tasks, for which an oracle does not exist, and show that under our assumptions a number of models from recent years are with high probability superhuman. | 翻訳日:2021-09-17 21:42:48 公開日:2021-09-16 |
# (参考訳) クロスレゾリューション人物再同定のためのリゾリューションに基づく特徴蒸留 Resolution based Feature Distillation for Cross Resolution Person Re-Identification ( http://arxiv.org/abs/2109.07871v1 ) ライセンス: CC BY-SA 4.0 | Asad Munir, Chengjin Lyu, Bart Goossens, Wilfried Philips, Christian Micheloni | (参考訳) person re-identification (re-id) は、異なるカメラビューで同じアイデンティティの画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離の違いによって起こり、これは現実世界のシナリオにおけるre-idのパフォーマンスを著しく低下させる。
既存のアプローチのほとんどは、高解像度画像ギャラリーで低解像度のクエリ画像を検索する低解像度問題として、re-idタスクを解決している。
イメージスーパーレゾリューション技術を適用して高解像度画像を生成する手法はいくつかあるが、より現実的なシナリオであるギャラリー画像の多重解像度を無視している。
本稿では,劣化データから特徴の学習を改善するために,チャネル相関を導入する。
さらに,複数解像度の問題を解決するために,分解能に基づく特徴蒸留(RFD)手法を提案する。
このようなアプローチは、距離行列を計算するのに使われる最後の特徴ベクトルから分解に関連する特徴をフィルタリングすることで分解能不変特徴を学習する。
提案手法は,合成した2つのデータセットと,実際の劣化を伴う1つのオリジナルマルチレゾリューションデータセットで検証した。
当社のアプローチは,複数の解像度がギャラリー内で発生した場合のパフォーマンスを改善し,単一解像度(低解像度再id)の場合と同等の結果を得る。 Person re-identification (re-id) aims to retrieve images of same identities across different camera views. Resolution mismatch occurs due to varying distances between person of interest and cameras, this significantly degrades the performance of re-id in real world scenarios. Most of the existing approaches resolve the re-id task as low resolution problem in which a low resolution query image is searched in a high resolution images gallery. Several approaches apply image super resolution techniques to produce high resolution images but ignore the multiple resolutions of gallery images which is a better realistic scenario. In this paper, we introduce channel correlations to improve the learning of features from the degraded data. In addition, to overcome the problem of multiple resolutions we propose a Resolution based Feature Distillation (RFD) approach. Such an approach learns resolution invariant features by filtering the resolution related features from the final feature vectors that are used to compute the distance matrix. We tested the proposed approach on two synthetically created datasets and on one original multi resolution dataset with real degradation. Our approach improves the performance when multiple resolutions occur in the gallery and have comparable results in case of single resolution (low resolution re-id). | 翻訳日:2021-09-17 21:08:53 公開日:2021-09-16 |
# (参考訳) 深部領域適応の帰納的バイアスについて On the inductive biases of deep domain adaptation ( http://arxiv.org/abs/2109.07920v1 ) ライセンス: CC BY 4.0 | Rodrigue Siry, Louis H\'emadou, Lo\"ic Simon, Fr\'ed\'eric Jurie | (参考訳) ドメインアライメントは現在、教師なしのドメイン適応タスクの最も一般的なソリューションであり、しばしばターゲットドメインにおけるリスクに関する理論上の上限の最小化として提示される。
しかし、さらなる研究により、理論と実践の間に深刻な不備が明らかになった:我々はこの分析を集約し、特徴にドメインの不分散を課すことは、低いターゲットリスクを得るのに必要でも十分でもないことを確認した。
モデル事前学習やエンコーダアーキテクチャの設計など、一般的なプラクティスで見られる隠れた帰納的バイアスに大きく依存している、と我々は主張する。
一般的なベンチマークや合成トランスファーについて様々なアブレーション実験を行い,原型的状況におけるその役割を明らかにした。
分析を結論づけるため,我々は,特定の伝達を解き,手作りのヒューリスティックよりも優れた性能を示すために,メタリアンのパラメトリックインダクティブバイアスを提案する。 Domain alignment is currently the most prevalent solution to unsupervised domain-adaptation tasks and are often being presented as minimizers of some theoretical upper-bounds on risk in the target domain. However, further works revealed severe inadequacies between theory and practice: we consolidate this analysis and confirm that imposing domain invariance on features is neither necessary nor sufficient to obtain low target risk. We instead argue that successful deep domain adaptation rely largely on hidden inductive biases found in the common practice, such as model pre-training or design of encoder architecture. We perform various ablation experiments on popular benchmarks and our own synthetic transfers to illustrate their role in prototypical situations. To conclude our analysis, we propose to meta-learn parametric inductive biases to solve specific transfers and show their superior performance over handcrafted heuristics. | 翻訳日:2021-09-17 20:59:11 公開日:2021-09-16 |
# (参考訳) PDBench:タンパク質配列設計のための計算手法の評価 PDBench: Evaluating Computational Methods for Protein Sequence Design ( http://arxiv.org/abs/2109.07925v1 ) ライセンス: CC BY-SA 4.0 | Leonardo V. Castorina, Rokas Petrenas, Katric Subr and Christopher W. Wood | (参考訳) タンパク質は、太陽エネルギーを化学エネルギーに変換し、DNAを複製し、高性能な材料、センシングなど、あらゆる生物系において重要なプロセスを実行する。
さまざまな機能が自然界でサンプル化されていますが、タンパク質宇宙のごく一部を占めています。
もしこの未探索のタンパク質構造プールを利用することができたら、人類が直面する環境や医療上の課題に取り組むために応用できる有用な性質を持つ新しいタンパク質を探すことができる。
これがタンパク質設計の目的である。
配列設計はタンパク質設計の重要な側面であり、これを実現する多くの方法が開発されている。
近年,分類問題としてのディープラーニング手法が強力なアプローチとして登場している。
報告された性能の改善に加えて、物理ベースの手法に対する大きな利点は、計算負担がユーザから開発者へとシフトし、設計方法へのアクセシビリティが向上することである。
この傾向にもかかわらず、これらのモデルの評価と比較のためのツールは非常に一般的である。
本稿の目的は,評価のタイムリーな問題に対処することと,その影響を加速する具体的な評価基準について,機械学習コミュニティ内でスポットライトを当てることである。
そこで本研究では, 深層学習に基づく手法の性能評価のための, 厳密なベンチマークセットを提案する。
我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。
既存の5つのモデルと2つの新しいモデルを比較した。
最後に,これらのモデルによって生成される設計を,最先端構造予測アルゴリズムであるAlphaFold2を用いて検証し,それらが意図した3次元形状に折り畳まれるかどうかを判断する。 Proteins perform critical processes in all living systems: converting solar energy into chemical energy, replicating DNA, as the basis of highly performant materials, sensing and much more. While an incredible range of functionality has been sampled in nature, it accounts for a tiny fraction of the possible protein universe. If we could tap into this pool of unexplored protein structures, we could search for novel proteins with useful properties that we could apply to tackle the environmental and medical challenges facing humanity. This is the purpose of protein design. Sequence design is an important aspect of protein design, and many successful methods to do this have been developed. Recently, deep-learning methods that frame it as a classification problem have emerged as a powerful approach. Beyond their reported improvement in performance, their primary advantage over physics-based methods is that the computational burden is shifted from the user to the developers, thereby increasing accessibility to the design method. Despite this trend, the tools for assessment and comparison of such models remain quite generic. The goal of this paper is to both address the timely problem of evaluation and to shine a spotlight, within the Machine Learning community, on specific assessment criteria that will accelerate impact. We present a carefully curated benchmark set of proteins and propose a number of standard tests to assess the performance of deep learning based methods. Our robust benchmark provides biological insight into the behaviour of design methods, which is essential for evaluating their performance and utility. We compare five existing models with two novel models for sequence prediction. Finally, we test the designs produced by these models with AlphaFold2, a state-of-the-art structure-prediction algorithm, to determine if they are likely to fold into the intended 3D shapes. | 翻訳日:2021-09-17 20:45:08 公開日:2021-09-16 |
# (参考訳) オブジェクトとビューをまたいだLiDAR出力値の分散化による2次元物体位置の3次元化 Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across Objects and Views ( http://arxiv.org/abs/2109.07945v1 ) ライセンス: CC BY 4.0 | Robert McCraith, Eldar Insafudinov, Lukas Neumann, Andrea Vedaldi | (参考訳) 本稿では,2次元マスク物体予測と生lidar点雲を,物体のフル3次元バウンディングボックスに自動変換するシステムを提案する。
LiDAR点雲は部分的であるので、点雲に直結する境界ボックスは無意味である。
代わりに、良い結果を得るには、データセット内の \emph{all} オブジェクト間で情報を複数のフレームで共有する必要があると提案する。
次に、ベースラインを3つ改善します。
まず、この空間における直接最適化による物体の回転予測の曖昧さに対処し、モデルによる回転予測をバックプロパゲートする。
第2に、異常値を明示的にモデル化し、典型的なパターンを学習してネットワークをタスクする。
第3に,ビデオデータの入手時に時間的一貫性を強制する。
これらの貢献により,これらの手法は,より複雑なパイプライン,3次元モデル,付加的な人為的な事前情報ソースを使用するにもかかわらず,従来よりも優れていた。 We present a system for automatic converting of 2D mask object predictions and raw LiDAR point clouds into full 3D bounding boxes of objects. Because the LiDAR point clouds are partial, directly fitting bounding boxes to the point clouds is meaningless. Instead, we suggest that obtaining good results requires sharing information between \emph{all} objects in the dataset jointly, over multiple frames. We then make three improvements to the baseline. First, we address ambiguities in predicting the object rotations via direct optimization in this space while still backpropagating rotation prediction through the model. Second, we explicitly model outliers and task the network with learning their typical patterns, thus better discounting them. Third, we enforce temporal consistency when video data is available. With these contributions, our method significantly outperforms previous work despite the fact that those methods use significantly more complex pipelines, 3D models and additional human-annotated external sources of prior information. | 翻訳日:2021-09-17 20:31:12 公開日:2021-09-16 |
# (参考訳) 事前学習言語モデルに対する効率的な属性注入 Efficient Attribute Injection for Pretrained Language Models ( http://arxiv.org/abs/2109.07953v1 ) ライセンス: CC BY 4.0 | Reinald Kim Amplayo and Kang Min Yoo and Sang-Woo Lee | (参考訳) メタデータ属性(レビューからのユーザIDや製品IDなど)は、パフォーマンスを改善するためにモデルのアーキテクチャを変更することで、ニューラルベースNLPモデルへの追加入力として組み込むことができる。
しかし、最近のモデルは事前学習された言語モデル(plm)に依存しており、属性注入のテクニックは非自明か非効率である。
本稿では,PLMに属性を注入する軽量でメモリ効率の良い手法を提案する。
アダプタ、すなわち小さなプラグインフィードフォワードモジュールを拡張して、テキストとは独立あるいは共同で属性を含むようにします。
属性語彙が大きい場合,特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用い,総パラメータを著しく減少させる。
また、属性をマルチラベルまたはスパースにすることができるドメインを扱うためのトレーニングメカニズムも導入する。
異なる領域の8つのデータセットに対する大規模な実験と分析により,提案手法は従来の属性注入法より優れ,各種データセット上での最先端性能を実現することが示された。 Metadata attributes (e.g., user and product IDs from reviews) can be incorporated as additional inputs to neural-based NLP models, by modifying the architecture of the models, in order to improve their performance. Recent models however rely on pretrained language models (PLMs), where previously used techniques for attribute injection are either nontrivial or ineffective. In this paper, we propose a lightweight and memory-efficient method to inject attributes to PLMs. We extend adapters, i.e. tiny plug-in feed-forward modules, to include attributes both independently of or jointly with the text. To limit the increase of parameters especially when the attribute vocabulary is large, we use low-rank approximations and hypercomplex multiplications, significantly decreasing the total parameters. We also introduce training mechanisms to handle domains in which attributes can be multi-labeled or sparse. Extensive experiments and analyses on eight datasets from different domains show that our method outperforms previous attribute injection methods and achieves state-of-the-art performance on various datasets. | 翻訳日:2021-09-17 20:15:55 公開日:2021-09-16 |
# (参考訳) 要約型質問生成による教師なし質問応答の改善 Improving Unsupervised Question Answering via Summarization-Informed Question Generation ( http://arxiv.org/abs/2109.07954v1 ) ライセンス: CC BY 4.0 | Chenyang Lyu, Lifeng Shang, Yvette Graham, Jennifer Foster, Xin Jiang, Qun Liu | (参考訳) 質問生成(QG)とは,与えられた<passage, answer>ペアに対して妥当な質問を生成するタスクである。
テンプレートベースのQGは言語的にインフォームドされたヒューリスティックスを用いて宣言文を疑問文に変換する一方、教師付きQGは既存のQAデータセットを使用して、パスと回答を与えられた質問を生成するシステムを訓練する。
ヒューリスティックなアプローチの欠点は、生成された質問が宣言的な質問と強く結びついていることです。
教師付きアプローチの欠点は、トレーニングデータとして使用されるQAデータセットのドメイン/言語に強く結びついていることだ。
これらの欠点を克服するために,要約からヒューリスティックに生成した質問をQGシステムのトレーニングデータ源として利用する教師なしQG手法を提案する。
我々は, 自由に利用可能なニュース要約データを用いて, 係り受け解析, 名前付きエンティティ認識, 意味的役割ラベリングによるヒューリスティックスを用いて, 宣言的要約文を適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
我々のQGモデルは、QAモデルをトレーニングするための合成QAペアを生成するために使用される。
実験の結果、20kのウィキペディアベースの合成QAペアでトレーニングされたQAモデルは、3つのドメイン内データセット(SQuAD1.1、Natural Questions、TriviaQA)と3つの外部データセット(NewsQA、BioASQ、DuoRC)の教師なしモデルよりも大幅に優れており、アプローチの転送可能性を示している。 Question Generation (QG) is the task of generating a plausible question for a given <passage, answer> pair. Template-based QG uses linguistically-informed heuristics to transform declarative sentences into interrogatives, whereas supervised QG uses existing Question Answering (QA) datasets to train a system to generate a question given a passage and an answer. A disadvantage of the heuristic approach is that the generated questions are heavily tied to their declarative counterparts. A disadvantage of the supervised approach is that they are heavily tied to the domain/language of the QA dataset used as training data. In order to overcome these shortcomings, we propose an unsupervised QG method which uses questions generated heuristically from summaries as a source of training data for a QG system. We make use of freely available news summary data, transforming declarative summary sentences into appropriate questions using heuristics informed by dependency parsing, named entity recognition and semantic role labeling. The resulting questions are then combined with the original news articles to train an end-to-end neural QG model. We extrinsically evaluate our approach using unsupervised QA: our QG model is used to generate synthetic QA pairs for training a QA model. Experimental results show that, trained with only 20k English Wikipedia-based synthetic QA pairs, the QA model substantially outperforms previous unsupervised models on three in-domain datasets (SQuAD1.1, Natural Questions, TriviaQA) and three out-of-domain datasets (NewsQA, BioASQ, DuoRC), demonstrating the transferability of the approach. | 翻訳日:2021-09-17 19:56:35 公開日:2021-09-16 |
# (参考訳) 合成データを用いたリアルタイム単眼走行速度推定 Real Time Monocular Vehicle Velocity Estimation using Synthetic Data ( http://arxiv.org/abs/2109.07957v1 ) ライセンス: CC BY 4.0 | Robert McCraith, Lukas Neumann, Andrea Vedaldi | (参考訳) 視覚は自律運転における主要な感覚の1つである。
本稿では,移動車に搭載されたカメラから車両の速度を推定する問題について考察する。
ビデオ画素から車両の速度を推定するエンド・ツー・エンドのディープ・ネットワークを訓練する従来の手法とは対照的に,まずオフ・ザ・シェルフ・トラッカーを用いて車両のバウンディングボックスを抽出し,次に追跡されたバウンディングボックスから車両の速度を小さなニューラルネットワークでリセットする2段階のアプローチを提案する。
驚くべきことに、これは依然として最先端の予測性能を達成しており、速度推定に不可欠な統計を抽出できるクリーンで解釈可能で検証可能なインターフェースを通じて、動的推定から認識を分離する大きな利点がある。
本研究では,後者を用いて,有界箱空間における合成学習データを容易に生成し,これを用いて提案手法の性能をさらに向上できることを示す。 Vision is one of the primary sensing modalities in autonomous driving. In this paper we look at the problem of estimating the velocity of road vehicles from a camera mounted on a moving car. Contrary to prior methods that train end-to-end deep networks that estimate the vehicles' velocity from the video pixels, we propose a two-step approach where first an off-the-shelf tracker is used to extract vehicle bounding boxes and then a small neural network is used to regress the vehicle velocity from the tracked bounding boxes. Surprisingly, we find that this still achieves state-of-the-art estimation performance with the significant benefit of separating perception from dynamics estimation via a clean, interpretable and verifiable interface which allows us distill the statistics which are crucial for velocity estimation. We show that the latter can be used to easily generate synthetic training data in the space of bounding boxes and use this to improve the performance of our method further. | 翻訳日:2021-09-17 19:38:16 公開日:2021-09-16 |
# (参考訳) Alquist 4.0:生成モデルと対話パーソナライゼーションを用いたソーシャルインテリジェンスを目指して Alquist 4.0: Towards Social Intelligence Using Generative Models and Dialogue Personalization ( http://arxiv.org/abs/2109.07968v1 ) ライセンス: CC BY 4.0 | Jakub Konr\'ad, Jan Pichl, Petr Marek, Petr Lorenc, Van Duy Ta, Ond\v{r}ej Kobza, Lenka H\'ylov\'a and Jan \v{S}ediv\'y | (参考訳) オープンなドメイン対話システムであるAlquistは、ソーシャルインテリジェンスのベンチマークの1つと見なされる、一貫性のある会話を行うという目標を持っている。
このシステムの4番目のバージョンは、Alexa Prize Socialbot Grand Challenge 4で開発されたもので、2つの大きなイノベーションをもたらす。
第1はコヒーレンスに、第2は会話の係り合いに対処する。
コヒーレンスに関するイノベーションのために,手作りの応答と生成モデルを組み合わせた新しいハイブリッドアプローチを提案する。
提案手法は,ハンドデザイン対話,ドメイン外検出,ニューラル応答生成器を用いた。
手書きの対話は、高品質な会話の流れをユーザーに届ける。
ドメイン外検出は、ユーザが予め定義されたフローから逸脱していることを認識し、予期せぬユーザ入力に意味のないスクリプト化されたレスポンスを生成することを防止する。
最後に、ニューラルネットワーク応答生成器は、予期せぬユーザの入力に正しく反応し、手作りの対話の境界に応答する対話のコンテキストに基づいて応答を生成する。
私たちが提案するエンゲージメントのイノベーションは、主に有名な探検・探検ジレンマにインスパイアされている。
対話相手との魅力的な会話を行うには、自分の好みや興味を学ぶ必要がある。
さらに、パートナーと関わるためには、既に学んだ知識 -- 搾取を活用しなければなりません。
本研究では,Alexa Prize Socialbot Grand Challenge 4で開発されたオープンドメイン対話システムAlquistの個々のコンポーネントの原理と内部動作について述べる。 The open domain-dialogue system Alquist has a goal to conduct a coherent and engaging conversation that can be considered as one of the benchmarks of social intelligence. The fourth version of the system, developed within the Alexa Prize Socialbot Grand Challenge 4, brings two main innovations. The first addresses coherence, and the second addresses the engagingness of the conversation. For innovations regarding coherence, we propose a novel hybrid approach combining hand-designed responses and a generative model. The proposed approach utilizes hand-designed dialogues, out-of-domain detection, and a neural response generator. Hand-designed dialogues walk the user through high-quality conversational flows. The out-of-domain detection recognizes that the user diverges from the predefined flow and prevents the system from producing a scripted response that might not make sense for unexpected user input. Finally, the neural response generator generates a response based on the context of the dialogue that correctly reacts to the unexpected user input and returns the dialogue to the boundaries of hand-designed dialogues. The innovations for engagement that we propose are mostly inspired by the famous exploration-exploitation dilemma. To conduct an engaging conversation with the dialogue partners, one has to learn their preferences and interests -- exploration. Moreover, to engage the partner, we have to utilize the knowledge we have already learned -- exploitation. In this work, we present the principles and inner workings of individual components of the open-domain dialogue system Alquist developed within the Alexa Prize Socialbot Grand Challenge 4 and the experiments we have conducted to evaluate them. | 翻訳日:2021-09-17 19:26:44 公開日:2021-09-16 |
# (参考訳) 言語モデルはローマへの道を知っているか? Do Language Models Know the Way to Rome? ( http://arxiv.org/abs/2109.07971v1 ) ライセンス: CC BY 4.0 | Bastien Li\'etard and Mostafa Abdou and Anders S{\o}gaard | (参考訳) 言語モデルのグローバルな幾何学は、様々な応用において重要であるが、言語モデルプローブは、より局所的な関係を評価する傾向がある。
本稿では,地理的に地平の真理が地域関係を超えているという事実を活用する。
一連の実験において、都市名と国名の言語モデル表現が現実世界の地理に同型である範囲を評価する。例えば、パリとベルリンのある言語モデルを伝える場合、ローマへの道を知っているか?
言語モデルは通常、限られた地理的情報を符号化しているが、より大規模なモデルでは、高次共起統計から地理的知識が引き起こされる可能性が示唆されている。 The global geometry of language models is important for a range of applications, but language model probes tend to evaluate rather local relations, for which ground truths are easily obtained. In this paper we exploit the fact that in geography, ground truths are available beyond local relations. In a series of experiments, we evaluate the extent to which language model representations of city and country names are isomorphic to real-world geography, e.g., if you tell a language model where Paris and Berlin are, does it know the way to Rome? We find that language models generally encode limited geographic information, but with larger models performing the best, suggesting that geographic knowledge can be induced from higher-order co-occurrence statistics. | 翻訳日:2021-09-17 19:10:17 公開日:2021-09-16 |
# (参考訳) SAFRAN: 埋め込みモデルより優れた解釈可能なルールベースのリンク予測手法 SAFRAN: An interpretable, rule-based link prediction method outperforming embedding models ( http://arxiv.org/abs/2109.08002v1 ) ライセンス: CC BY-SA 4.0 | Simon Ott, Christian Meilicke, Matthias Samwald | (参考訳) ニューラルネットワークを用いた機械学習モデルは、知識グラフにおける新しいリンクを予測することを約束している。
残念ながら、実用性は解釈可能性の欠如によって低下している。
近年、AnyBURLは完全に解釈可能なルールベースのアルゴリズムが、多くの汎用リンク予測ベンチマークで高い競争力を得た。
しかし、複数のルールによる予測の集約に対する現在のアプローチは冗長性に影響される。
我々は,non-redundant noise-orと呼ばれる新しいアグリゲーションアプローチを用いて,アグリゲーション前に冗長なルールを検出し,クラスタ化するsafran rule application frameworkを導入することで,anyburlを改善した。
SAFRANは、確立された汎用ベンチマーク FB15K-237, WN18RR, YAGO3-10 上で、完全に解釈可能なリンク予測のための新しい最先端の結果を得る。
さらに、FB15K-237およびWN18RR上の複数の確立された埋め込みベースのアルゴリズムの結果を超え、YAGO3-10上のルールベースのアルゴリズムと埋め込みベースのアルゴリズムのギャップを狭める。 Neural embedding-based machine learning models have shown promise for predicting novel links in knowledge graphs. Unfortunately, their practical utility is diminished by their lack of interpretability. Recently, the fully interpretable, rule-based algorithm AnyBURL yielded highly competitive results on many general-purpose link prediction benchmarks. However, current approaches for aggregating predictions made by multiple rules are affected by redundancies. We improve upon AnyBURL by introducing the SAFRAN rule application framework, which uses a novel aggregation approach called Non-redundant Noisy-OR that detects and clusters redundant rules prior to aggregation. SAFRAN yields new state-of-the-art results for fully interpretable link prediction on the established general-purpose benchmarks FB15K-237, WN18RR and YAGO3-10. Furthermore, it exceeds the results of multiple established embedding-based algorithms on FB15K-237 and WN18RR and narrows the gap between rule-based and embedding-based algorithms on YAGO3-10. | 翻訳日:2021-09-17 19:00:41 公開日:2021-09-16 |
# (参考訳) wmt21効率タスクのためのniuトランスシステム The NiuTrans System for the WMT21 Efficiency Task ( http://arxiv.org/abs/2109.08003v1 ) ライセンス: CC BY 4.0 | Chenglong Wang, Chi Hu, Yongyu Mu, Zhongxiang Yan, Siming Wu, Minyi Hu, Hang Cao, Bei Li, Ye Lin, Tong Xiao, Jingbo Zhu | (参考訳) 本稿では,WMT21翻訳効率タスク(http://statmt.org/wmt21/efficiency-task.html)のためのNiuTransシステムについて述べる。
昨年の作業に続いて、翻訳品質を維持しながら効率を向上させるための様々な手法を探求する。
軽量変圧器アーキテクチャと知識蒸留戦略の組み合わせについて検討する。
また,グラフ最適化,低精度,動的バッチ処理,並列前/後処理により翻訳効率を向上させる。
私たちのシステムはNVIDIA A100で毎秒247,000ワードを変換することができ、昨年のシステムよりも3$\times$高速です。
我々のシステムは最速で、GPUのスループットトラック上では最小のメモリ消費を持つ。
コード、モデル、パイプラインはNiuTrans.NMT(https://github.com/NiuTrans/NiuTrans.NMT)で入手できる。 This paper describes the NiuTrans system for the WMT21 translation efficiency task (http://statmt.org/wmt21/efficiency-task.html). Following last year's work, we explore various techniques to improve efficiency while maintaining translation quality. We investigate the combinations of lightweight Transformer architectures and knowledge distillation strategies. Also, we improve the translation efficiency with graph optimization, low precision, dynamic batching, and parallel pre/post-processing. Our system can translate 247,000 words per second on an NVIDIA A100, being 3$\times$ faster than last year's system. Our system is the fastest and has the lowest memory consumption on the GPU-throughput track. The code, model, and pipeline will be available at NiuTrans.NMT (https://github.com/NiuTrans/NiuTrans.NMT). | 翻訳日:2021-09-17 18:42:32 公開日:2021-09-16 |
# (参考訳) WNGT 2020効率タスクのためのニウトランスシステム The NiuTrans System for WNGT 2020 Efficiency Task ( http://arxiv.org/abs/2109.08008v1 ) ライセンス: CC BY 4.0 | Chi Hu, Bei Li, Ye Lin, Yinqiao Li, Yanyang Li, Chenglong Wang, Tong Xiao, Jingbo Zhu | (参考訳) 本稿では,NuTrans チームの WNGT 2020 効率共有タスクへの提出について述べる。
我々は,NLPタスクの柔軟なツールキットであるNiuTensor(https://github.com/NiuTrans/NiuTensor)を用いて,Deep Transformerモデルの効率的な実装に焦点を当てた。
モデル圧縮と知識蒸留によるトランスフォーマーモデルにおける深部エンコーダと浅部デコーダの組み合わせについて検討した。
ニューラルマシン翻訳復号は、FP16推論、アテンションキャッシュ、動的バッチ、バッチプルーニングの恩恵を受ける。
我々のシステムは、翻訳品質と効率の両面で有望な結果を達成する。例えば、我々の最速のシステムは、1秒間に40,000以上のトークンをRTX 2080 Tiで翻訳できる。
NiuTrans.NMT (https://github.com/NiuTrans/NiuTrans.NMT) ではコード、モデル、ドッカーイメージが公開されている。 This paper describes the submissions of the NiuTrans Team to the WNGT 2020 Efficiency Shared Task. We focus on the efficient implementation of deep Transformer models \cite{wang-etal-2019-learning, li-etal-2019-niutrans} using NiuTensor (https://github.com/NiuTrans/NiuTensor), a flexible toolkit for NLP tasks. We explored the combination of deep encoder and shallow decoder in Transformer models via model compression and knowledge distillation. The neural machine translation decoding also benefits from FP16 inference, attention caching, dynamic batching, and batch pruning. Our systems achieve promising results in both translation quality and efficiency, e.g., our fastest system can translate more than 40,000 tokens per second with an RTX 2080 Ti while maintaining 42.9 BLEU on \textit{newstest2018}. The code, models, and docker images are available at NiuTrans.NMT (https://github.com/NiuTrans/NiuTrans.NMT). | 翻訳日:2021-09-17 18:32:33 公開日:2021-09-16 |
# (参考訳) WildWood:新しいランダムフォレストアルゴリズム WildWood: a new Random Forest algorithm ( http://arxiv.org/abs/2109.08010v1 ) ライセンス: CC BY 4.0 | St\'ephane Ga\"iffas and Ibrahim Merad and Yiyang Yu | (参考訳) 本研究では、ランダムフォレスト(RF)タイプの教師あり学習のための新しいアンサンブルアルゴリズムWildWood(WW)を紹介する。
標準的なrfアルゴリズムはbootstrap out-of-bagのスコアを計算するのにbootstrap out-of-bagのサンプルを使用するが、wwはこれらのサンプルを使用して、森林で育てられた各木で可能な全てのサブツリーの予測を集約することで得られる予測を改善した。
これは、コンテキストツリー重み付けと呼ばれるアルゴリズムによって正確に、非常に効率的に計算される、バッグ外のサンプルで計算された指数重みによる集約によって達成される。
この改良は、分割探索を加速するヒストグラム戦略と組み合わさって、標準RFや極端な勾配促進アルゴリズムといった他の確立されたアンサンブル法と比較して、WWを高速かつ競争的にする。 We introduce WildWood (WW), a new ensemble algorithm for supervised learning of Random Forest (RF) type. While standard RF algorithms use bootstrap out-of-bag samples to compute out-of-bag scores, WW uses these samples to produce improved predictions given by an aggregation of the predictions of all possible subtrees of each fully grown tree in the forest. This is achieved by aggregation with exponential weights computed over out-of-bag samples, that are computed exactly and very efficiently thanks to an algorithm called context tree weighting. This improvement, combined with a histogram strategy to accelerate split finding, makes WW fast and competitive compared with other well-established ensemble methods, such as standard RF and extreme gradient boosting algorithms. | 翻訳日:2021-09-17 18:23:16 公開日:2021-09-16 |
# (参考訳) 大規模3次元顔表情認識のためのデータセット生成 Generating Dataset For Large-scale 3D Facial Emotion Recognition ( http://arxiv.org/abs/2109.08043v1 ) ライセンス: CC BY 4.0 | Faizan Farooq Khan and Syed Zulqarnain Gilani | (参考訳) ディープラーニングの飛躍的な発展により、顔認識(fer)はここ数年で大きな注目を集めている。
3D FERは、その2D画像に対して固有のエッジを持っているが、2D画像の研究がこの分野を支配している。
3D FERの遅い開発の主な理由は、大規模なトレーニングと大規模なテストデータセットが利用できないことである。
認識精度はすでに、ギャラリーのサイズが小さいため、既存の3D感情認識データセットに飽和している。
2D写真とは異なり、3D顔画像の収集は容易ではなく、ディープ3D FERネットワークやデータセットの開発にボトルネックを引き起こす。
本研究では,ラベル付き感情を持つ3次元顔の大規模データセットを生成する手法を提案する。
また624,000個の顔スキャンで訓練した3D FERのためのディープ畳み込みニューラルネットワーク(CNN)を開発した。
テストデータには20万8000の3d顔スキャンが含まれる。 The tremendous development in deep learning has led facial expression recognition (FER) to receive much attention in the past few years. Although 3D FER has an inherent edge over its 2D counterpart, work on 2D images has dominated the field. The main reason for the slow development of 3D FER is the unavailability of large training and large test datasets. Recognition accuracies have already saturated on existing 3D emotion recognition datasets due to their small gallery sizes. Unlike 2D photographs, 3D facial scans are not easy to collect, causing a bottleneck in the development of deep 3D FER networks and datasets. In this work, we propose a method for generating a large dataset of 3D faces with labeled emotions. We also develop a deep convolutional neural network(CNN) for 3D FER trained on 624,000 3D facial scans. The test data comprises 208,000 3D facial scans. | 翻訳日:2021-09-17 17:45:34 公開日:2021-09-16 |
# (参考訳) Eformer: エッジ強調に基づく医用画像復調用トランス Eformer: Edge Enhancement based Transformer for Medical Image Denoising ( http://arxiv.org/abs/2109.08044v1 ) ライセンス: CC BY 4.0 | Achleshwar Luthra, Harsh Sulakhe, Tanish Mittal, Abhishek Iyer, Santosh Yadav | (参考訳) 本研究では,医療用画像復調用トランスフォーマブロックを用いたエンコーダデコーダネットワークを構築する新しいアーキテクチャであるEformer-Edge拡張ベーストランスフォーマを提案する。
非オーバーラップウィンドウベースの自己アテンションは、計算要求を減らすトランスフォーマーブロックで使用される。
この研究はさらに、学習可能なソベル・フェルドマン演算子を組み込んで、画像のエッジを強化し、アーキテクチャの中間層にそれらを結合する効果的な方法を提案します。
医用画像復調作業における決定論的学習と残留学習を比較して実験分析を行う。
AAPM-Mayo Clinical Low-Dose CT Grand Challenge Dataset を用いて提案手法の有効性を検証し,43.487 PSNR,0.0067 RMSE,0.9861 SSIM の最先端性能を実現する。
私たちの研究は、残差学習を用いた医用画像分類のためのトランスフォーマーベースのアーキテクチャの研究をさらに促進すると信じています。 In this work, we present Eformer - Edge enhancement based transformer, a novel architecture that builds an encoder-decoder network using transformer blocks for medical image denoising. Non-overlapping window-based self-attention is used in the transformer block that reduces computational requirements. This work further incorporates learnable Sobel-Feldman operators to enhance edges in the image and propose an effective way to concatenate them in the intermediate layers of our architecture. The experimental analysis is conducted by comparing deterministic learning and residual learning for the task of medical image denoising. To defend the effectiveness of our approach, our model is evaluated on the AAPM-Mayo Clinic Low-Dose CT Grand Challenge Dataset and achieves state-of-the-art performance, $i.e.$, 43.487 PSNR, 0.0067 RMSE, and 0.9861 SSIM. We believe that our work will encourage more research in transformer-based architectures for medical image denoising using residual learning. | 翻訳日:2021-09-17 17:36:20 公開日:2021-09-16 |
# (参考訳) Recommender システムに対するメンバシップ推論攻撃 Membership Inference Attacks Against Recommender Systems ( http://arxiv.org/abs/2109.08045v1 ) ライセンス: CC BY 4.0 | Minxing Zhang, Zhaochun Ren, Zihan Wang, Pengjie Ren, Zhumin Chen, Pengfei Hu, Yang Zhang | (参考訳) 近年、レコメンダシステムは有望なパフォーマンスを達成し、最も広く使われているwebアプリケーションの1つとなっている。
しかし、レコメンダシステムはセンシティブなユーザデータに基づいてトレーニングされることが多いため、レコメンダシステムからの潜在的なデータ漏洩は、重大なプライバシ問題を引き起こす可能性がある。
本稿では,会員推論のレンズを用いて,レコメンダシステムのプライバシー漏洩を定量化するための最初の試みを行う。
機械学習分類器に対する従来のメンバーシップ推論とは対照的に、攻撃には2つの大きな違いがある。
まず、当社の攻撃はユーザーレベルですが、データサンプルレベルではありません。
第2に、敵は後確率の形での予測結果ではなく、推奨者システムから指示された推奨項目のみを観察できる。
以上の課題に対処するために,ユーザを関連項目から表現する新しい手法を提案する。
また、シャドーレコメンデータを設けて、アタックモデルをトレーニングするためのラベル付きトレーニングデータを導出する。
広範な実験結果から,攻撃フレームワークは強力な性能を達成できた。
さらに,レコメンダシステムのメンバシップ推論の脅威を効果的に軽減するための防御機構を設計する。 Recently, recommender systems have achieved promising performances and become one of the most widely used web applications. However, recommender systems are often trained on highly sensitive user data, thus potential data leakage from recommender systems may lead to severe privacy problems. In this paper, we make the first attempt on quantifying the privacy leakage of recommender systems through the lens of membership inference. In contrast with traditional membership inference against machine learning classifiers, our attack faces two main differences. First, our attack is on the user-level but not on the data sample-level. Second, the adversary can only observe the ordered recommended items from a recommender system instead of prediction results in the form of posterior probabilities. To address the above challenges, we propose a novel method by representing users from relevant items. Moreover, a shadow recommender is established to derive the labeled training data for training the attack model. Extensive experimental results show that our attack framework achieves a strong performance. In addition, we design a defense mechanism to effectively mitigate the membership inference threat of recommender systems. | 翻訳日:2021-09-17 17:35:23 公開日:2021-09-16 |
# (参考訳) MOFSimplify: 3万個の金属有機フレームワークの安定性データを抽出した機械学習モデル MOFSimplify: Machine Learning Models with Extracted Stability Data of Three Thousand Metal-Organic Frameworks ( http://arxiv.org/abs/2109.08098v1 ) ライセンス: CC BY 4.0 | A. Nandy, G. Terrones, N. Arunachalam, C. Duan, D. W. Kastner, and H. J. Kulik | (参考訳) 構造的特徴を有するMOFとその溶媒除去および熱安定性を記述した既存の金属-有機フレームワーク(MOF)文献をマイニングするためのワークフローと自然言語処理(NLP)ベースの手順の成果を報告する。
テキストマイニングから2,000以上の溶媒除去安定度と熱重力解析データから3,000以上の熱分解温度を得た。
我々は,NLP法の有効性と抽出したデータの精度を手書きサブセットと比較することにより評価した。
このデータに基づいてトレーニングされた機械学習(ml、すなわち人工ニューラルネットワーク)モデルは、グラフおよび細孔ジオメトリーに基づく表現を使用して、定量不確実性を持つ新しいmofの安定性の予測を可能にする。
当社のWebインターフェースであるMOFSimplifyは、ユーザがキュレートされたデータにアクセスし、そのデータを新しいMOFの予測に利用できるようにする。
MOFSimplifyは、既存のデータやコミュニティベースのアクティブラーニングのためのMLモデル予測に対するコミュニティからのフィードバックを奨励し、MOF安定性モデルを改善する。 We report a workflow and the output of a natural language processing (NLP)-based procedure to mine the extant metal-organic framework (MOF) literature describing structurally characterized MOFs and their solvent removal and thermal stabilities. We obtain over 2,000 solvent removal stability measures from text mining and 3,000 thermal decomposition temperatures from thermogravimetric analysis data. We assess the validity of our NLP methods and the accuracy of our extracted data by comparing to a hand-labeled subset. Machine learning (ML, i.e. artificial neural network) models trained on this data using graph- and pore-geometry-based representations enable prediction of stability on new MOFs with quantified uncertainty. Our web interface, MOFSimplify, provides users access to our curated data and enables them to harness that data for predictions on new MOFs. MOFSimplify also encourages community feedback on existing data and on ML model predictions for community-based active learning for improved MOF stability models. | 翻訳日:2021-09-17 17:10:39 公開日:2021-09-16 |
# (参考訳) invertable frowns:ビデオからビデオへの感情翻訳 Invertable Frowns: Video-to-Video Facial Emotion Translation ( http://arxiv.org/abs/2109.08061v1 ) ライセンス: CC BY 4.0 | Ian Magnusson and Aruna Sankaranarayanan and Andrew Lippman | (参考訳) 提案するwav2lip-emotionは,話し手の映像における感情の表情を変化させるビデオからビデオへの翻訳アーキテクチャである。
以前の作品では、イメージ内の感情を修正したり、単一の画像を使ってアニメーションされた感情を持ったビデオを作成したり、参照ビデオからランドマークのあるビデオで表情をパペットしたりしている。
しかし、ポストプロダクションでの俳優の演技の修正、個人をよりアニメーションスピーカーに指導したり、テレ会議で感情に触れたりといった多くのユースケースでは、ビデオからビデオへの翻訳アプローチが必要となる。
表現された感情を翻訳しながら、話者の唇の動き、アイデンティティ、ポーズを維持する方法を探る。
提案手法は,既存のマルチモーダルリップ同期アーキテクチャを拡張し,l1再構成と事前学習された感情目標を用いて話者の感情を変化させる。
また,新しい感情自動評価手法を提案し,ユーザスタディと照合する。
これらの結果から, 唇の同期を維持しながら感情を変化させることに成功した。
視覚的品質は若干低下しており、感情の変化とモデル間の視覚的品質のトレードオフがある。
しかしながら,(1) 感情の表情をL1再構成と事前訓練された感情目標だけで修正できること,(2) 自動感情評価アプローチは人間の判断と一致していることを示す。 We present Wav2Lip-Emotion, a video-to-video translation architecture that modifies facial expressions of emotion in videos of speakers. Previous work modifies emotion in images, uses a single image to produce a video with animated emotion, or puppets facial expressions in videos with landmarks from a reference video. However, many use cases such as modifying an actor's performance in post-production, coaching individuals to be more animated speakers, or touching up emotion in a teleconference require a video-to-video translation approach. We explore a method to maintain speakers' lip movements, identity, and pose while translating their expressed emotion. Our approach extends an existing multi-modal lip synchronization architecture to modify the speaker's emotion using L1 reconstruction and pre-trained emotion objectives. We also propose a novel automated emotion evaluation approach and corroborate it with a user study. These find that we succeed in modifying emotion while maintaining lip synchronization. Visual quality is somewhat diminished, with a trade off between greater emotion modification and visual quality between model variants. Nevertheless, we demonstrate (1) that facial expressions of emotion can be modified with nothing other than L1 reconstruction and pre-trained emotion objectives and (2) that our automated emotion evaluation approach aligns with human judgements. | 翻訳日:2021-09-17 16:45:38 公開日:2021-09-16 |
# 複数の最小サポートを持つ頻繁なアイテムセットマイニング:制約に基づくアプローチ Frequent Itemset Mining with Multiple Minimum Supports: a Constraint-based Approach ( http://arxiv.org/abs/2109.07844v1 ) ライセンス: Link先を確認 | Mohamed-Bachir Belaid and Nadjib Lazaar | (参考訳) 稀なものを含む頻繁なアイテムセットを発見するという問題に大きな注目を集めている。
鉱業プロセスは、頻繁かつ稀なレギュラーを一度に抽出できるほど柔軟でなければならない。
一方で、制約プログラミングはデータマイニングタスクに取り組む柔軟な方法であることが最近示されている。
本稿では,複数の最小サポートを持つアイテムセットをマイニングするための制約プログラミング手法を提案する。
当社のアプローチは,最小限の項目をサポートする上で,任意の種類の制約を表現可能にする。
実験分析の結果,本手法の実用性は,技術の現状と比較して明らかとなった。 The problem of discovering frequent itemsets including rare ones has received a great deal of attention. The mining process needs to be flexible enough to extract frequent and rare regularities at once. On the other hand, it has recently been shown that constraint programming is a flexible way to tackle data mining tasks. In this paper, we propose a constraint programming approach for mining itemsets with multiple minimum supports. Our approach provides the user with the possibility to express any kind of constraints on the minimum item supports. An experimental analysis shows the practical effectiveness of our approach compared to the state of the art. | 翻訳日:2021-09-17 16:31:30 公開日:2021-09-16 |
# 歩行者検出のためのテストケースの効率的かつ効果的な生成 -- SVLにおけるBaidu Apolloの検索ベースソフトウェアテスト Efficient and Effective Generation of Test Cases for Pedestrian Detection -- Search-based Software Testing of Baidu Apollo in SVL ( http://arxiv.org/abs/2109.07960v1 ) ライセンス: Link先を確認 | Hamid Ebadi, Mahshid Helali Moghadam, Markus Borg, Gregory Gay, Afonso Fontes, Kasper Socha | (参考訳) 自動運転車の能力の増大に伴い、自動車AIのコンテキストにおける機械学習対応システムに対する高度な実用的品質保証アプローチへの需要が高まっている。
シミュレーションベースのプロトタイピングプラットフォームを使用することで、初期段階のテストが可能となり、安価なテストと重要なコーナーケーステストシナリオのキャプチャが可能になる。
シミュレーションベーステストは、従来のオンロードテストを適切に補完する。
しかし、これらのシステムにおけるテスト入力パラメータの空間が広いため、効率的なテストシナリオの生成が失敗の露呈につながることは困難である。
本稿では,SVLシミュレータ内での自律走行プラットフォームであるBaidu Apolloの歩行者検出と緊急制動システムをテストする。
本稿では,SVL環境におけるApolloの障害検出シナリオを生成する進化的自動テスト生成手法を提案する。
提案手法は,汎用的かつ柔軟なデータ構造を用いて入力空間をモデル化し,最適化を目標とした目的関数に対するマルチクリトリア安全性に基づくヒューリスティクスを有効活用する。
本稿では,2021年のIEEE Autonomous Driving AI Test Challengeで提案したテスト生成手法について述べる。
また,本手法の効率性と有効性を示すため,ベースライン乱数生成手法の結果を報告する。
評価の結果,提案する進化的テストケースジェネレータは,故障回避テストケース生成に有効であること,ランダムベースラインよりも生成した障害の多様性が高いことが判明した。 With the growing capabilities of autonomous vehicles, there is a higher demand for sophisticated and pragmatic quality assurance approaches for machine learning-enabled systems in the automotive AI context. The use of simulation-based prototyping platforms provides the possibility for early-stage testing, enabling inexpensive testing and the ability to capture critical corner-case test scenarios. Simulation-based testing properly complements conventional on-road testing. However, due to the large space of test input parameters in these systems, the efficient generation of effective test scenarios leading to the unveiling of failures is a challenge. This paper presents a study on testing pedestrian detection and emergency braking system of the Baidu Apollo autonomous driving platform within the SVL simulator. We propose an evolutionary automated test generation technique that generates failure-revealing scenarios for Apollo in the SVL environment. Our approach models the input space using a generic and flexible data structure and benefits a multi-criteria safety-based heuristic for the objective function targeted for optimization. This paper presents the results of our proposed test generation technique in the 2021 IEEE Autonomous Driving AI Test Challenge. In order to demonstrate the efficiency and effectiveness of our approach, we also report the results from a baseline random generation technique. Our evaluation shows that the proposed evolutionary test case generator is more effective at generating failure-revealing test cases and provides higher diversity between the generated failures than the random baseline. | 翻訳日:2021-09-17 16:31:21 公開日:2021-09-16 |
# 文脈情報を用いた分布的ロバスト最適潮流 Distributionally Robust Optimal Power Flow with Contextual Information ( http://arxiv.org/abs/2109.07896v1 ) ライセンス: Link先を確認 | Adri\'an Esteban-P\'erez and Juan M. Morales | (参考訳) 本稿では, 最適潮流問題 (OPF) の分布性に頑健な確率制約付き定式化を開発し, システムオペレーターは文脈情報を利用することができる。
本研究は,OPFの不確かさと,それらの連立確率分布のサンプルによって伝達される文脈の関係に関する不完全な知識に対して,ディスパッチソリューションが保護される確率トリミングと最適輸送に基づくあいまいさを利用する。
提案する分布的ロバストな確率制約付きopf問題の、一般的な条件付き値-リスク近似の下での正確な再構成を提案する。
風向不確実性を有する改良型ieee-118バスネットワーク上での数値実験により,風力出力の点予測とそれに伴う予測誤差との統計的依存性を考慮に入れることで,電力系統が実質的に有益であることを示す。
さらに, 提案手法によりOPF法に与えられる分布ロバスト性は, 予測コストとシステム信頼性の観点から, 代替手法よりも優れていることを示した。 In this paper, we develop a distributionally robust chance-constrained formulation of the Optimal Power Flow problem (OPF) whereby the system operator can leverage contextual information. For this purpose, we exploit an ambiguity set based on probability trimmings and optimal transport through which the dispatch solution is protected against the incomplete knowledge of the relationship between the OPF uncertainties and the context that is conveyed by a sample of their joint probability distribution. We provide an exact reformulation of the proposed distributionally robust chance-constrained OPF problem under the popular conditional-value-at-risk approximation. By way of numerical experiments run on a modified IEEE-118 bus network with wind uncertainty, we show how the power system can substantially benefit from taking into account the well-known statistical dependence between the point forecast of wind power outputs and its associated prediction error. Furthermore, the experiments conducted also reveal that the distributional robustness conferred on the OPF solution by our probability-trimmings-based approach is superior to that bestowed by alternative approaches in terms of expected cost and system reliability. | 翻訳日:2021-09-17 16:30:58 公開日:2021-09-16 |
# 非視線撮影へ向けて Towards Non-Line-of-Sight Photography ( http://arxiv.org/abs/2109.07783v1 ) ライセンス: Link先を確認 | Jiayong Peng, Fangzhou Mu, Ji Hyun Nam, Siddeshwar Raghavan, Yin Li, Andreas Velten, and Zhiwei Xiong | (参考訳) 非視線イメージング(NLOS)は、隠された物体からの多重バウンス間接反射を捉えている。
アクティブなNLOSイメージングシステムは、シーン中を飛行する時の捕捉に依存しており、特別なシーン設定や事前の仮定を必要とせずに、隠れたシーンの正確で堅牢な再構築を約束している。
既存の手法では深度分解能に優れる隠れ場面の3次元形状を再現できるが、被写体のテクスチャや外観を高精度に復元することは難しい課題である。
本研究では,この不足を具体的に解決するために,nlos photography という新しい問題定式化を提案する。
本手法は,3次元シーン形状の中間推定を行うのではなく,データ駆動方式を用いて,従来のリレー壁の位置から撮影した映像とよく似たNLOSシーンの2次元画像を直接再構成する。
この定式化は、3次元幾何学の明示的なモデリングを回避し、比較的小さなトレーニングデータセットを持つ深層モデルの学習を可能にすることで、難解な再構築問題を大いに単純化する。
結果は前例のない解像度と画質のnlos再構成である。 Non-line-of-sight (NLOS) imaging is based on capturing the multi-bounce indirect reflections from the hidden objects. Active NLOS imaging systems rely on the capture of the time of flight of light through the scene, and have shown great promise for the accurate and robust reconstruction of hidden scenes without the need for specialized scene setups and prior assumptions. Despite that existing methods can reconstruct 3D geometries of the hidden scene with excellent depth resolution, accurately recovering object textures and appearance with high lateral resolution remains an challenging problem. In this work, we propose a new problem formulation, called NLOS photography, to specifically address this deficiency. Rather than performing an intermediate estimate of the 3D scene geometry, our method follows a data-driven approach and directly reconstructs 2D images of a NLOS scene that closely resemble the pictures taken with a conventional camera from the location of the relay wall. This formulation largely simplifies the challenging reconstruction problem by bypassing the explicit modeling of 3D geometry, and enables the learning of a deep model with a relatively small training dataset. The results are NLOS reconstructions of unprecedented lateral resolution and image quality. | 翻訳日:2021-09-17 16:30:12 公開日:2021-09-16 |
# SketchHairSalon:Deep Sketchベースのヘアイメージ合成 SketchHairSalon: Deep Sketch-based Hair Image Synthesis ( http://arxiv.org/abs/2109.07874v1 ) ライセンス: Link先を確認 | Chufeng Xiao, Deng Yu, Xiaoguang Han, Youyi Zheng, Hongbo Fu | (参考訳) 最近の深層生成モデルはスケッチ入力からリアルタイムに毛髪画像を生成することができる。
既存のソリューションでは、ターゲットの毛髪の形を指定するために、ユーザが提供するバイナリマスクを必要とすることが多い。
これにより、余分な労力がかかるだけでなく、複雑なヘアバウンダリを捕捉できない。
これらの解は通常、配向写像を介して毛髪構造をエンコードするが、複雑な構造をエンコードするのにはあまり効果的ではない。
色付きヘアスケッチは, 対象のヘア形状や外観を暗黙的に定義しており, 配向地図よりもヘア構造を表現しやすくなっている。
そこで本研究では, 髪型と外観を表現したフリーハンドスケッチから直接, リアルな髪型画像を生成するための2段階フレームワークであるsketchhairsalonを提案する。
最初の段階では、入力されたヘアスケッチからヘアマットを予測するネットワークをトレーニングし、オプションで非ヘアストロークをセットします。
第2段階では、入力スケッチと生成されたマットから毛髪画像の構造と外観を合成する別のネットワークを訓練する。
ストロークの長期依存性を2段階のネットワークに認識させるため,これらに自己注意モジュールを適用した。
これらのネットワークをトレーニングするために,数千のアノテートヘアスケッチイメージ対とそれに対応するヘアマットを含む新しいデータセットを提案する。
2つの効率的なスケッチ補完法を提案し, 繰り返し編み部品とヘアストロークをそれぞれ自動補完し, ユーザの作業量を削減した。
トレーニングされたネットワークと2つのスケッチ補完戦略に基づいて、初心者でも様々なヘア構造や外観を表現した視覚的に喜ぶヘアイメージをフリーハンドスケッチでデザインできる直感的なインターフェースを構築した。
定性的かつ定量的な評価は、既存のソリューションや代替ソリューションよりも提案されたシステムの利点を示している。 Recent deep generative models allow real-time generation of hair images from sketch inputs. Existing solutions often require a user-provided binary mask to specify a target hair shape. This not only costs users extra labor but also fails to capture complicated hair boundaries. Those solutions usually encode hair structures via orientation maps, which, however, are not very effective to encode complex structures. We observe that colored hair sketches already implicitly define target hair shapes as well as hair appearance and are more flexible to depict hair structures than orientation maps. Based on these observations, we present SketchHairSalon, a two-stage framework for generating realistic hair images directly from freehand sketches depicting desired hair structure and appearance. At the first stage, we train a network to predict a hair matte from an input hair sketch, with an optional set of non-hair strokes. At the second stage, another network is trained to synthesize the structure and appearance of hair images from the input sketch and the generated matte. To make the networks in the two stages aware of long-term dependency of strokes, we apply self-attention modules to them. To train these networks, we present a new dataset containing thousands of annotated hair sketch-image pairs and corresponding hair mattes. Two efficient methods for sketch completion are proposed to automatically complete repetitive braided parts and hair strokes, respectively, thus reducing the workload of users. Based on the trained networks and the two sketch completion strategies, we build an intuitive interface to allow even novice users to design visually pleasing hair images exhibiting various hair structures and appearance via freehand sketches. The qualitative and quantitative evaluations show the advantages of the proposed system over the existing or alternative solutions. | 翻訳日:2021-09-17 16:29:50 公開日:2021-09-16 |
# 病理組織像のセマンティックセグメンテーションに基づく大腸生検のリスク自動分類 Automated risk classification of colon biopsies based on semantic segmentation of histopathology images ( http://arxiv.org/abs/2109.07892v1 ) ライセンス: Link先を確認 | John-Melle Bokhorsta, Iris D. Nagtegaal, Filippo Fraggetta, Simona Vatrano, Wilma Mesker, Michael Vieth, Jeroen van der Laak, Francesco Ciompi | (参考訳) 人工知能(AI)は、幅広い種類のがんの診断において、病理学者を支援する可能性がある。
大腸癌(crc)では、aiはポリープを含む切除された生検の診断と報告の手間を軽減し、その数はcrc人口スクリーニングプログラムの結果増加しており、世界中の多くの国で行われている。
本稿では,CRCの病理組織像全体の自動評価における2つの大きな課題に対処するアプローチを提案する。
まず, 組織形態と構成の異なる, 知覚可能な画像を提供するH&E-Stained whole-slide画像中の複数の組織を分割するAIベースの手法を提案する。
セグメンテーションモデルで利用できる最先端の損失関数のパネルを検証・比較し,その分析に基づく病理像セグメンテーションにおける使用例を示す。
a)オランダ及びドイツの5つの医療センターのCRC症例の多中心コホート
b) crcのセグメンテーションに関する2つの公開データセット
第2に、大腸生検を病理学的に関連のある4つの主要なカテゴリに分類するコンピュータ支援診断システム(CAD)の基礎として、最高のAIモデルを用いる。
本システムの性能は1,000人以上の患者から独立したコホートで報告した。
以上の結果から,CRCの診断における病理医を支援するAIベースのシステムの可能性が示唆された。
セグメンテーションモデルをhttps://grand-challenge.org/algorithms/colon-tissue-segmentation/で研究するために利用しました。 Artificial Intelligence (AI) can potentially support histopathologists in the diagnosis of a broad spectrum of cancer types. In colorectal cancer (CRC), AI can alleviate the laborious task of characterization and reporting on resected biopsies, including polyps, the numbers of which are increasing as a result of CRC population screening programs, ongoing in many countries all around the globe. Here, we present an approach to address two major challenges in automated assessment of CRC histopathology whole-slide images. First, we present an AI-based method to segment multiple tissue compartments in the H\&E-stained whole-slide image, which provides a different, more perceptible picture of tissue morphology and composition. We test and compare a panel of state-of-the-art loss functions available for segmentation models, and provide indications about their use in histopathology image segmentation, based on the analysis of a) a multi-centric cohort of CRC cases from five medical centers in the Netherlands and Germany, and b) two publicly available datasets on segmentation in CRC. Second, we use the best performing AI model as the basis for a computer-aided diagnosis system (CAD) that classifies colon biopsies into four main categories that are relevant pathologically. We report the performance of this system on an independent cohort of more than 1,000 patients. The results show the potential of such an AI-based system to assist pathologists in diagnosis of CRC in the context of population screening. We have made the segmentation model available for research use on https://grand-challenge.org/algorithms/colon-tissue-segmentation/. | 翻訳日:2021-09-17 16:29:19 公開日:2021-09-16 |
# 軌道最適化による逆正規化政策学習 Adversarially Regularized Policy Learning Guided by Trajectory Optimization ( http://arxiv.org/abs/2109.07627v1 ) ライセンス: Link先を確認 | Zhigen Zhao, Simiao Zuo, Tuo Zhao, Ye Zhao | (参考訳) 軌道最適化と関数近似(特にニューラルネットワーク)を組み合わせる最近の進歩は、ロボットシステムにおける多様なタスクに対する複雑な制御ポリシーを学ぶことを約束している。
その柔軟性にもかかわらず、制御ポリシーをパラメータ化するための大きなニューラルネットワークは、大きな課題を課す。
学習された神経制御ポリシーは、しばしば複雑で不機嫌であり、予期せぬ動きやロボットの動きを容易に引き起こす可能性がある。
そのため、実際は一般化性能が劣ることが多い。
この問題に対処するために、スムーズな制御ポリシーを学ぶために、trajeCtory optimizAtion (VERONICA) でガイドされたアドベサリ正規化 pOlicy learNIng を提案する。
具体的には,入力状態に対する最悪の摂動に対して出力制御を安定化させることにより,神経制御方針の滑らかさ(局所リプシッツ連続性)を制御する。
ロボット操作実験により,提案手法はニューラルポリシー学習のサンプル効率を向上するだけでなく,センサノイズ,環境不確実性,モデルミスマッチなど,各種障害に対するポリシーの堅牢性を高めることが示唆された。 Recent advancement in combining trajectory optimization with function approximation (especially neural networks) shows promise in learning complex control policies for diverse tasks in robot systems. Despite their great flexibility, the large neural networks for parameterizing control policies impose significant challenges. The learned neural control policies are often overcomplex and non-smooth, which can easily cause unexpected or diverging robot motions. Therefore, they often yield poor generalization performance in practice. To address this issue, we propose adVErsarially Regularized pOlicy learNIng guided by trajeCtory optimizAtion (VERONICA) for learning smooth control policies. Specifically, our proposed approach controls the smoothness (local Lipschitz continuity) of the neural control policies by stabilizing the output control with respect to the worst-case perturbation to the input state. Our experiments on robot manipulation show that our proposed approach not only improves the sample efficiency of neural policy learning but also enhances the robustness of the policy against various types of disturbances, including sensor noise, environmental uncertainty, and model mismatch. | 翻訳日:2021-09-17 16:28:11 公開日:2021-09-16 |
# 不確実性定量化を用いた機械学習hasdmモデル Machine-Learned HASDM Model with Uncertainty Quantification ( http://arxiv.org/abs/2109.07651v1 ) ライセンス: Link先を確認 | Richard J. Licata, Piyush M. Mehta, W. Kent Tobiska, and S. Huzurbazar | (参考訳) SET HASDM密度データベースに基づいて, 安定かつ確実な不確実性推定を伴う最初の熱圏中性質量密度モデルを開発した。
このデータベースは、SET(Space Environment Technologies)によって作成され、アメリカ空軍の高精度衛星ドラッグモデル(HASDM)から20年間の出力を含んでおり、密度とドラッグモデリングの最先端を表現している。
我々は主成分分析(PCA)を次元減少に利用し、非線形機械学習(ML)回帰モデルが訓練された係数を作成する。
これらのモデルでは、平均二乗誤差(MSE)、予測密度の負対数(NLPD)、連続ランク確率スコア(CRPS)の3つのユニークな損失関数を用いる。
3つの入力セットもテストされ、地磁気指標の時間履歴の導入時の性能が向上した。
これらのモデルではモンテカルロ(MC)のドロップアウトを利用して不確実性推定を行い、NLPD損失関数を用いることでモデルの精度を犠牲にすることなくよく校正された不確実性推定が得られる(10%平均絶対誤差)。
衛星軌道上でのHASDM-MLモデルとHASDMデータベースを比較した結果,全宇宙気象条件における密度空間の堅牢かつ確実な不確実性が得られた。
嵐時の比較により、HASDM-MLは極端なイベントの間に意味のある不確実性の測定も提供することが示された。 The first thermospheric neutral mass density model with robust and reliable uncertainty estimates is developed based on the SET HASDM density database. This database, created by Space Environment Technologies (SET), contains 20 years of outputs from the U.S. Space Force's High Accuracy Satellite Drag Model (HASDM), which represents the state-of-the-art for density and drag modeling. We utilize principal component analysis (PCA) for dimensionality reduction, creating the coefficients upon which nonlinear machine-learned (ML) regression models are trained. These models use three unique loss functions: mean square error (MSE), negative logarithm of predictive density (NLPD), and continuous ranked probability score (CRPS). Three input sets are also tested, showing improved performance when introducing time histories for geomagnetic indices. These models leverage Monte Carlo (MC) dropout to provide uncertainty estimates, and the use of the NLPD loss function results in well-calibrated uncertainty estimates without sacrificing model accuracy (<10% mean absolute error). By comparing the best HASDM-ML model to the HASDM database along satellite orbits, we found that the model provides robust and reliable uncertainties in the density space over all space weather conditions. A storm-time comparison shows that HASDM-ML also supplies meaningful uncertainty measurements during extreme events. | 翻訳日:2021-09-17 16:27:50 公開日:2021-09-16 |
# 予測強調による二面マッチング市場のインセンティブ Incentives in Two-sided Matching Markets with Prediction-enhanced Preference-formation ( http://arxiv.org/abs/2109.07835v1 ) ライセンス: Link先を確認 | Stefania Ionescu, Yuhao Du, Kenneth Joseph, Anik\'o Hann\'ak | (参考訳) 両面のマッチング市場は、規制された取引所がない状態でのペアエージェントとして長い間存在してきた。
典型的な例は学校選択であり、マッチングメカニズムは生徒と学校の選好を使って生徒を学校に割り当てる。
このような設定では、好みの形成は困難かつ重要である。
先行研究では、エージェントが好みを決定するのに役立つ様々な予測メカニズムが提案されている。
しばしば一緒に配置されるが、これらのマッチングと予測メカニズムはほとんど常に分離して分析される。
市場へ戻るエージェント(例:学校)は、短期のノンオプティマイズをマッチと相互作用させることで、将来の予測を攻撃できる。
ここではまず,このタイプの戦略行動を紹介し,これを「攻撃的相互作用攻撃」と呼ぶ。
次に,エージェントを補助する予測機構と,それらをペアリングするマッチング機構とのフィードバックループをキャプチャする形式的経済モデルを構築した。
この経済モデルにより、敵の相互作用攻撃を分析することができる。
最後に,学校選択を例として用いて,予測の信頼度や精度が向上するにつれて,対人的相互作用攻撃を開始することにより,学校が徐々に増加することを示すシミュレーションを構築した。
また,この攻撃は学生の不平等を増すことを示した。 Two-sided matching markets have long existed to pair agents in the absence of regulated exchanges. A common example is school choice, where a matching mechanism uses student and school preferences to assign students to schools. In such settings, forming preferences is both difficult and critical. Prior work has suggested various prediction mechanisms that help agents make decisions about their preferences. Although often deployed together, these matching and prediction mechanisms are almost always analyzed separately. The present work shows that at the intersection of the two lies a previously unexplored type of strategic behavior: agents returning to the market (e.g., schools) can attack future predictions by interacting short-term non-optimally with their matches. Here, we first introduce this type of strategic behavior, which we call an `adversarial interaction attack'. Next, we construct a formal economic model that captures the feedback loop between prediction mechanisms designed to assist agents and the matching mechanism used to pair them. This economic model allows us to analyze adversarial interaction attacks. Finally, using school choice as an example, we build a simulation to show that, as the trust in and accuracy of predictions increases, schools gain progressively more by initiating an adversarial interaction attack. We also show that this attack increases inequality in the student population. | 翻訳日:2021-09-17 16:27:24 公開日:2021-09-16 |
# OpenFed: オープンソースのセキュリティとプライバシ保証フェデレーション学習フレームワーク OpenFed: An Open-Source Security and Privacy Guaranteed Federated Learning Framework ( http://arxiv.org/abs/2109.07852v1 ) ライセンス: Link先を確認 | Chen Dengsheng | (参考訳) 自動運転車から高度な医療診断まで、人工知能技術の幅広い応用は、多くの利益をもたらす。
フェデレーテッド・ラーニング(Federated Learning)は、個人データ保護と研究および商業展開における利用のギャップを埋める技術、特にセキュリティとプライバシが重要な関心事であるユースケースにおいて、新しいタイプの人工知能を提供する。
ここでは,データ保護と利用の要求を同時に解決するオープンソースソフトウェアフレームワークであるOpenFedを紹介する。
実際には、openfedは低信頼環境での最先端のモデル開発を可能にする。ローカルデータの利用が制限されているにも関わらず、アセット保護の懸念を緩和することで、持続可能な協調型モデル開発と商業展開のための土台となる。
さらにopenfedは,フェデレーション学習アルゴリズムの開発を容易にするエンドツーエンドツールキットや,さまざまなコンピューティングパラダイムや構成下でのパフォーマンス比較を行うためのベンチマークも提供している。 The broad application of artificial intelligence techniques ranging from self-driving vehicles to advanced medical diagnostics afford many benefits. Federated learning is a new breed of artificial intelligence, offering techniques to help bridge the gap between personal data protection and utilization for research and commercial deployment, especially in the use-cases where security and privacy are the key concerns. Here, we present OpenFed, an open-source software framework to simultaneously address the demands for data protection and utilization. In practice, OpenFed enables state-of-the-art model development in low-trust environments despite limited local data availability, which lays the groundwork for sustainable collaborative model development and commercial deployment by alleviating concerns of asset protection. In addition, OpenFed also provides an end-to-end toolkit to facilitate federated learning algorithm development as well as several benchmarks to fair performance comparison under diverse computing paradigms and configurations. | 翻訳日:2021-09-17 16:27:05 公開日:2021-09-16 |
# 動的グラフニューラルネットワークの効率的なスケーリング Efficient Scaling of Dynamic Graph Neural Networks ( http://arxiv.org/abs/2109.07893v1 ) ライセンス: Link先を確認 | Venkatesan T. Chakaravarthy, Shivmaran S. Pandian, Saurabh Raje, Yogish Sabharwal, Toyotaro Suzumura, Shashanka Ubaru | (参考訳) マルチノード,マルチGPUシステムにまたがる大規模グラフ上で,動的グラフニューラルネットワーク(GNN)を学習するための分散アルゴリズムを提案する。
我々の知る限りでは、これは動的GNNに関する最初のスケーリング研究である。
我々は,GPUメモリ使用量を削減する機構を考案し,CPU-GPUデータ転送と通信量という2つの実行時間ボトルネックを特定した。
動的グラフの爆発特性を抽出し,移動時間を著しく短縮するグラフ差分に基づく戦略を設計する。
我々は,任意の数のGPUに対して,通信容量を固定し,入力サイズを線形に維持する,単純かつ効果的なデータ分散手法を開発した。
128GPUのシステム上で10億のグラフを用いた実験は、次のように示している。
(i)128GPU上で最大30倍の高速化を実現する。
(二)グラフ差分法により、転送時間を最大4.1倍に短縮し、全体の実行時間を最大40%短縮する。 We present distributed algorithms for training dynamic Graph Neural Networks (GNN) on large scale graphs spanning multi-node, multi-GPU systems. To the best of our knowledge, this is the first scaling study on dynamic GNN. We devise mechanisms for reducing the GPU memory usage and identify two execution time bottlenecks: CPU-GPU data transfer; and communication volume. Exploiting properties of dynamic graphs, we design a graph difference-based strategy to significantly reduce the transfer time. We develop a simple, but effective data distribution technique under which the communication volume remains fixed and linear in the input size, for any number of GPUs. Our experiments using billion-size graphs on a system of 128 GPUs shows that: (i) the distribution scheme achieves up to 30x speedup on 128 GPUs; (ii) the graph-difference technique reduces the transfer time by a factor of up to 4.1x and the overall execution time by up to 40% | 翻訳日:2021-09-17 16:26:48 公開日:2021-09-16 |
# 美学とニューラルネットワーク画像表現 Aesthetics and neural network image representations ( http://arxiv.org/abs/2109.08103v1 ) ライセンス: Link先を確認 | Romuald A. Janik | (参考訳) 我々はbigganアーキテクチャの生成ネットワークで符号化された画像の空間を分析する。
フォトリアリスティックな点から離れた一般的な乗法的摂動は、しばしば対応する対象の「芸術的回帰」として現れる画像につながる。
これは、ニューラルネットワークのパラメトリゼーションと組み合わされたフォトリアリスティックな環境の構造から直接、美的特性の出現を示す。
さらに、ニューラルネットワークエンコーディングの深い意味部分を変更することで、象徴的な視覚表現の出現につながる。 We analyze the spaces of images encoded by generative networks of the BigGAN architecture. We find that generic multiplicative perturbations away from the photo-realistic point often lead to images which appear as "artistic renditions" of the corresponding objects. This demonstrates an emergence of aesthetic properties directly from the structure of the photo-realistic environment coupled with its neural network parametrization. Moreover, modifying a deep semantic part of the neural network encoding leads to the appearance of symbolic visual representations. | 翻訳日:2021-09-17 16:26:17 公開日:2021-09-16 |
# 超広角高忠実ホログラフィディスプレイのためのニューラル \'{E}tendue Expander Neural \'{E}tendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v1 ) ライセンス: Link先を確認 | Seung-Hwan Baek, Ethan Tseng, Andrew Maimone, Nathan Matsuda, Grace Kuo, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, Felix Heide | (参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。
しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。
結果として、今日のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。
低い \'{e}tendue は視野(fov)または表示サイズのいずれかの犠牲を強いる。
本研究では,neural \'{e}tendue expanderを提示することで,この制限を解消する。
自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。
neural \'{e}tendue expandersでは、再現品質(psnrで測定)が29db以上の自然画像が、シミュレーションされた網膜解像度画像上で64$\times$ \'{e}tendueで拡張される。
その結果、64$\times$の展開係数を用いた提案手法により、8KピクセルのSLMを用いた自然画像の超広角ホログラム投影が可能となり、18.5mmのアイボックスサイズと2.18スタディアンFOVとなり、人間のステレオFOVの85%を占める。 Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, today's holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field of view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we achieve 64$\times$ \'{e}tendue expansion of natural images with reconstruction quality (measured in PSNR) over 29dB on simulated retinal-resolution images. As a result, the proposed approach with expansion factor 64$\times$ enables high-fidelity ultra-wide-angle holographic projection of natural images using an 8K-pixel SLM, resulting in a 18.5 mm eyebox size and 2.18 steradians FOV, covering 85\% of the human stereo FOV. | 翻訳日:2021-09-17 16:26:09 公開日:2021-09-16 |
# 人工身体の効率的な微分可能シミュレーション Efficient Differentiable Simulation of Articulated Bodies ( http://arxiv.org/abs/2109.07719v1 ) ライセンス: Link先を確認 | Yi-Ling Qiao, Junbang Liang, Vladlen Koltun, and Ming C. Lin | (参考訳) 本稿では,関節物体の効率的な微分シミュレーション手法を提案する。
これにより、articulated body dynamicsのディープラーニングフレームワークへの統合と、articulated body上で動作するニューラルネットワークの勾配ベース最適化が可能になる。
空間代数と随伴法を用いてフォワードダイナミクスの勾配を導出する。
私たちのアプローチはAutodiffツールよりも桁違いに高速です。
シミュレーションプロセスを通じて初期状態だけを保存することにより、メモリ要求を2桁減らすことができる。
種々の応用において, 音節体に対する効率的な微分力学の有用性を実証する。
本手法では, 調音システムによる強化学習を, 勾配を用いて高速化できることを示す。
制御および逆問題への応用において、我々の研究によって実現された勾配に基づく最適化は1桁以上の収束を加速する。 We present a method for efficient differentiable simulation of articulated bodies. This enables integration of articulated body dynamics into deep learning frameworks, and gradient-based optimization of neural networks that operate on articulated bodies. We derive the gradients of the forward dynamics using spatial algebra and the adjoint method. Our approach is an order of magnitude faster than autodiff tools. By only saving the initial states throughout the simulation process, our method reduces memory requirements by two orders of magnitude. We demonstrate the utility of efficient differentiable dynamics for articulated bodies in a variety of applications. We show that reinforcement learning with articulated systems can be accelerated using gradients provided by our method. In applications to control and inverse problems, gradient-based optimization enabled by our work accelerates convergence by more than an order of magnitude. | 翻訳日:2021-09-17 16:25:20 公開日:2021-09-16 |
# 遠隔医療とCovid-19:SARS-CoV-2感染早期診断のための非侵襲的で低コストでスケーラブルでマルチモーダルなリアルタイムスマートフォンアプリケーション Telehealthcare and Covid-19: A Noninvasive & Low Cost Invasive, Scalable and Multimodal Real-Time Smartphone Application for Early Diagnosis of SARS-CoV-2 Infection ( http://arxiv.org/abs/2109.07846v1 ) ライセンス: Link先を確認 | Abdullah Bin Shams, Md. Mohsin Sarker Raihan, Md. Mohi Uddin Khan, Rahat Bin Preo and Ocean Monjur | (参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックは、多くの医療システムを圧倒し、ロックダウンを強制し、在宅勤務を奨励した。
これにより遠隔医療が急速に普及し、患者に低リスクケアが提供された。
それにもかかわらず、新しい変種への継続的な突然変異と、特に発展途上国におけるテストキットの広範な利用不可能は、将来の感染の波を制御しようとする挑戦を持っている。
本稿では,Covid-19感染症の早期診断のための新しいスマートフォンアプリケーションプラットフォームを提案する。
このアプリケーションは、可能性のある症状、うっ血音、特定の血液マーカーから3つの診断方法を提供する。
ユーザが特定の設定を選択して必要な情報を提供すると、インターネットを使用してリモートサーバにデプロイされたトレーニングされた機械学習(ML)モデルにデータを送信する。
MLアルゴリズムは、Covid-19と契約する可能性を予測し、フィードバックをユーザに送信する。
手続き全体はリアルタイムで行われる。
われわれの機械学習モデルは、100%、95.65%、および77.59%の精度でコビッド19の患者を識別できる。
さらに、血液および音に対するML感度は100%であり、コビッド陽性患者の正しい同定を示す。
これはウイルスの拡散を制限する上で重要である。
マルチモーダリティ(multimodality, マルチモダリティ)は, 感染者の分類を改善するマルチプレックス診断手法を提供するとともに, 本手法の即時性とともに, 遠隔医療のパワーを, 将来のパンデミックに対する容易で広く普及する, スケーラブルな診断ソリューションとして実証する。 The global coronavirus pandemic overwhelmed many health care systems, enforcing lockdown and encouraged work from home to control the spread of the virus and prevent overrunning of hospitalized patients. This prompted a sharp widespread use of telehealth to provide low-risk care for patients. Nevertheless, a continuous mutation into new variants and widespread unavailability of test kits, especially in developing countries, possess the challenge to control future potential waves of infection. In this paper, we propose a novel Smartphone application-based platform for early diagnosis of possible Covid-19 infected patients. The application provides three modes of diagnosis from possible symptoms, cough sound, and specific blood biomarkers. When a user chooses a particular setting and provides the necessary information, it sends the data to a trained machine learning (ML) model deployed in a remote server using the internet. The ML algorithm then predicts the possibility of contracting Covid-19 and sends the feedback to the user. The entire procedure takes place in real-time. Our machine learning models can identify Covid-19 patients with an accuracy of 100%, 95.65%, and 77.59% from blood parameters, cough sound, and symptoms respectively. Moreover, the ML sensitivity for blood and sound is 100%, which indicates correct identification of Covid positive patients. This is significant in limiting the spread of the virus. The multimodality offers multiplex diagnostic methods to better classify possible infectees and together with the instantaneous nature of our technique, demonstrates the power of telehealthcare as an easy and widespread low-cost scalable diagnostic solution for future pandemics. | 翻訳日:2021-09-17 16:25:07 公開日:2021-09-16 |
# NPハード等間隔分割最適化のための二次時間局所最適化アルゴリズム A Quadratic Time Locally Optimal Algorithm for NP-hard Equal Cardinality Partition Optimization ( http://arxiv.org/abs/2109.07882v1 ) ライセンス: Link先を確認 | Kaan Gokcesu, Hakan Gokcesu | (参考訳) 等濃度集合分割問題(等大きさ分割の和の絶対差が最小となる場合)の最適化版について検討する。
この問題はNPハードであり、一般には指数関数的複雑性を必要とするが、我々はNPハード問題のより弱いバージョンを定式化し、そこでは局所最適解を求める。
私たちの研究で考慮される局所的最適性は、対立するパーティションの要素対間のスワップ下にある。
この目的のために、我々は、$O(N^2)$ timeと$O(N)$ spaceでそのような局所最適解を生成できるアルゴリズムを設計した。
我々のアプローチでは正あるいは整数入力は必要とせず、任意の入力精度で同じように機能する。
したがって、様々な問題シナリオで広く適用できる。 We study the optimization version of the equal cardinality set partition problem (where the absolute difference between the equal sized partitions' sums are minimized). While this problem is NP-hard and requires exponential complexity to solve in general, we have formulated a weaker version of this NP-hard problem, where the goal is to find a locally optimal solution. The local optimality considered in our work is under any swap between the opposing partitions' element pairs. To this end, we designed an algorithm which can produce such a locally optimal solution in $O(N^2)$ time and $O(N)$ space. Our approach does not require positive or integer inputs and works equally well under arbitrary input precisions. Thus, it is widely applicable in different problem scenarios. | 翻訳日:2021-09-17 16:24:34 公開日:2021-09-16 |
# 機械学習データの研究:なぜパワーを意味するバイアスについて語るのか? Studying Up Machine Learning Data: Why Talk About Bias When We Mean Power? ( http://arxiv.org/abs/2109.08131v1 ) ライセンス: Link先を確認 | Milagros Miceli, Julian Posada, Tianling Yang | (参考訳) 機械学習の研究(ML)は、不完全または偏りのあるデータセットで訓練されたモデルが差別的な出力につながると主に主張している。
このコメンタリーでは、パワーアウェアの観点から機械学習データセットを"研究"し、バイアス指向のフレーミングを超えて研究の焦点を移すことを提案する。
これは、データに記載された歴史的不平等、労働条件、認識論的観点の会計を意味する。
HCIとCSCWの作業は、私たちの議論を支持し、以前の調査を批判的に分析し、コミュニティ内の2つの既存の作業ラインを指し示します。
このように、データ品質、データワーク、データドキュメントという3つの分野における対話と協調の必要性を強調します。
最初の領域では、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じる。
第2の記事では、次にmlデータセットを形成するデータワーカーの労働にかかわる企業力と市場命令を強調します。
最後に、データ設計と生産の社会的文脈を反映したデータセットドキュメントにおける、現在の透明性指向の取り組みの拡大を提案する。 Research in machine learning (ML) has primarily argued that models trained on incomplete or biased datasets can lead to discriminatory outputs. In this commentary, we propose moving the research focus beyond bias-oriented framings by adopting a power-aware perspective to "study up" ML datasets. This means accounting for historical inequities, labor conditions, and epistemological standpoints inscribed in data. We draw on HCI and CSCW work to support our argument, critically analyze previous research, and point at two co-existing lines of work within our community -- one bias-oriented, the other power-aware. This way, we highlight the need for dialogue and cooperation in three areas: data quality, data work, and data documentation. In the first area, we argue that reducing societal problems to "bias" misses the context-based nature of data. In the second one, we highlight the corporate forces and market imperatives involved in the labor of data workers that subsequently shape ML datasets. Finally, we propose expanding current transparency-oriented efforts in dataset documentation to reflect the social contexts of data design and production. | 翻訳日:2021-09-17 16:24:20 公開日:2021-09-16 |
# 量子場理論による機械学習 Machine learning with quantum field theories ( http://arxiv.org/abs/2109.07730v1 ) ライセンス: Link先を確認 | Dimitrios Bachtis, Gert Aarts, Biagio Lucini | (参考訳) 離散化されたユークリッド場の理論とある種の確率的グラフィカルモデル、すなわちマルコフ確率場の数学的枠組みとの正確な等価性は、場の量子論の観点から機械学習を研究する機会を開く。
この貢献において、ハマーズリー・クリフォードの定理により、平方格子上の$\phi^{4}$スカラー場理論が局所マルコフ性質を満たすことを示し、従ってマルコフランダム場として再キャストすることができる。
次に、従来のニューラルネットワークアーキテクチャの一般化と見なすことのできる$\phi^{4}$理論の機械学習アルゴリズムとニューラルネットワークから派生する。
最後に、$\phi^{4}$機械学習アルゴリズムの確率分布とターゲット確率分布との非対称距離の最小化に基づくアプリケーションを提案する。 The precise equivalence between discretized Euclidean field theories and a certain class of probabilistic graphical models, namely the mathematical framework of Markov random fields, opens up the opportunity to investigate machine learning from the perspective of quantum field theory. In this contribution we will demonstrate, through the Hammersley-Clifford theorem, that the $\phi^{4}$ scalar field theory on a square lattice satisfies the local Markov property and can therefore be recast as a Markov random field. We will then derive from the $\phi^{4}$ theory machine learning algorithms and neural networks which can be viewed as generalizations of conventional neural network architectures. Finally, we will conclude by presenting applications based on the minimization of an asymmetric distance between the probability distribution of the $\phi^{4}$ machine learning algorithms and target probability distributions. | 翻訳日:2021-09-17 16:24:01 公開日:2021-09-16 |
# (参考訳) アラビア語の自動誤り型アノテーション Automatic Error Type Annotation for Arabic ( http://arxiv.org/abs/2109.08068v1 ) ライセンス: CC BY 4.0 | Riadh Belkebir and Nizar Habash | (参考訳) 現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々はアラビア語の形態的豊かさと正書法的曖昧さに対処するためにARETAを設計する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えた。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
また, アラビア語の文法的誤り訂正のためのQALB 2014共有タスクから, 多数の提案にARETAを応用し, ユーザビリティを実証した。
その結果得られた分析は、異なる投稿の長所と短所についての有益な洞察を与え、共有タスクで使用される不透明なm2スコア指標よりも有用である。
ARETAは大きなアラビア形態分析器を使用しているが、完全に監督されていない。
ARETAを公開しています。 We present ARETA, an automatic error type annotation system for Modern Standard Arabic. We design ARETA to address Arabic's morphological richness and orthographic ambiguity. We base our error taxonomy on the Arabic Learner Corpus (ALC) Error Tagset with some modifications. ARETA achieves a performance of 85.8% (micro average F1 score) on a manually annotated blind test portion of ALC. We also demonstrate ARETA's usability by applying it to a number of submissions from the QALB 2014 shared task for Arabic grammatical error correction. The resulting analyses give helpful insights on the strengths and weaknesses of different submissions, which is more useful than the opaque M2 scoring metrics used in the shared task. ARETA employs a large Arabic morphological analyzer, but is completely unsupervised otherwise. We make ARETA publicly available. | 翻訳日:2021-09-17 16:23:01 公開日:2021-09-16 |
# (参考訳) レストレスマルチアーマッドバンドの展開に関するフィールドスタディ:母子保健改善のための非利益支援 Field Study in Deploying Restless Multi-Armed Bandits: Assisting Non-Profits in Improving Maternal and Child Health ( http://arxiv.org/abs/2109.08075v1 ) ライセンス: CC BY 4.0 | Aditya Mate, Lovish Madaan, Aparna Taneja, Neha Madhiwalla, Shresth Verma, Gargi Singh, Aparna Hegde, Pradeep Varakantham, Milind Tambe | (参考訳) 携帯電話の普及により、非営利団体は受益者に重要な健康情報をタイムリーに提供できるようになった。
本稿では,妊婦や出産後の受給者へのタイムリーな予防ケア情報提供のために,自動メッセージプログラムを利用する非営利団体を支援する取り組みについて述べる。
残念ながら、こうした情報配信プログラムにおける重要な課題は、かなりの数の受益者がプログラムから抜け出すことである。
しかし、非営利団体は、そうしたエンゲージメントの低下を防ぐために、受益者とのライブ対話に重要なサービスコールを行うための医療従事者資源(時間)が限られていることが多い。
この限られた資源を最適化する非営利団体を支援するために,restless multi-armed bandits (rmabs) システムを開発した。
このシステムにおける重要な技術的貢献の一つは、未知のRMABパラメータを推測するオフライン履歴データのクラスタリング手法である。
2つ目の大きな貢献は、実際のサービス品質改善研究を通じて、NGOと共同でRMABシステムの評価である。
サービスコールを最適化するための戦略を、7週間で23003人に比較し、エンゲージメントの減少を減らした。
RMAB群は他の比較群に比べて統計的に有意な改善が得られ,約30%のエンゲージメント低下が減少した。
私たちの知る限りでは、実世界の公衆衛生環境におけるrmabsの有用性を示す最初の研究です。
RMABシステムをNGOに移行して、現実世界での利用を予定しています。 The widespread availability of cell phones has enabled non-profits to deliver critical health information to their beneficiaries in a timely manner. This paper describes our work to assist non-profits that employ automated messaging programs to deliver timely preventive care information to beneficiaries (new and expecting mothers) during pregnancy and after delivery. Unfortunately, a key challenge in such information delivery programs is that a significant fraction of beneficiaries drop out of the program. Yet, non-profits often have limited health-worker resources (time) to place crucial service calls for live interaction with beneficiaries to prevent such engagement drops. To assist non-profits in optimizing this limited resource, we developed a Restless Multi-Armed Bandits (RMABs) system. One key technical contribution in this system is a novel clustering method of offline historical data to infer unknown RMAB parameters. Our second major contribution is evaluation of our RMAB system in collaboration with an NGO, via a real-world service quality improvement study. The study compared strategies for optimizing service calls to 23003 participants over a period of 7 weeks to reduce engagement drops. We show that the RMAB group provides statistically significant improvement over other comparison groups, reducing ~ 30% engagement drops. To the best of our knowledge, this is the first study demonstrating the utility of RMABs in real world public health settings. We are transitioning our RMAB system to the NGO for real-world use. | 翻訳日:2021-09-17 16:04:18 公開日:2021-09-16 |
# (参考訳) クラスタ化された知識伝達を伴う異種顧客のための個人化フェデレーション学習 Personalized Federated Learning for Heterogeneous Clients with Clustered Knowledge Transfer ( http://arxiv.org/abs/2109.08119v1 ) ライセンス: CC BY 4.0 | Yae Jee Cho, Jianyu Wang, Tarun Chiruvolu, Gauri Joshi | (参考訳) パーソナライズド・フェデレーション・ラーニング(FL)は、高いデータと不均一なシステムを持つ個々のクライアントに対してうまく機能するモデルを訓練することを目的としている。
しかし、パーソナライズされたflの作業の多くは、すべてのクライアントで同じモデルアーキテクチャを使用することを前提としており、モデルの送受信によって通信コストを増加させる。
これはflの現実的なシナリオでは実現不可能かもしれない。
実際には、クライアントは非常に異質なシステム能力を持ち、通信リソースが限られている。
本研究では、クライアントが異種モデルアーキテクチャを使用でき、モデルパラメータを直接通信できないパーソナライズされたFLフレームワークPerFed-CKTを提案する。
PerFed-CKTはクラスタ化された共蒸留を使用しており、クライアントはロジットを使用して知識を同様のデータ分散を持つ他のクライアントに転送する。
perfed-cktの収束特性と一般化特性を理論的に示し,perfed-cktは最先端のパーソナライズfl方式に比べて数桁低い通信コストで高いテスト精度を達成できることを実証的に示した。 Personalized federated learning (FL) aims to train model(s) that can perform well for individual clients that are highly data and system heterogeneous. Most work in personalized FL, however, assumes using the same model architecture at all clients and increases the communication cost by sending/receiving models. This may not be feasible for realistic scenarios of FL. In practice, clients have highly heterogeneous system-capabilities and limited communication resources. In our work, we propose a personalized FL framework, PerFed-CKT, where clients can use heterogeneous model architectures and do not directly communicate their model parameters. PerFed-CKT uses clustered co-distillation, where clients use logits to transfer their knowledge to other clients that have similar data-distributions. We theoretically show the convergence and generalization properties of PerFed-CKT and empirically show that PerFed-CKT achieves high test accuracy with several orders of magnitude lower communication cost compared to the state-of-the-art personalized FL schemes. | 翻訳日:2021-09-17 15:50:02 公開日:2021-09-16 |
# (参考訳) 依存型パーザのトライトレーニング再考 Revisiting Tri-training of Dependency Parsers ( http://arxiv.org/abs/2109.08122v1 ) ライセンス: CC BY 4.0 | Joachim Wagner and Jennifer Foster | (参考訳) 2つの直交半教師付き学習手法であるtri-trainingとpretrained word embeddedを依存性解析のタスクで比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
半教師付き学習が最も影響すると思われるため、リソースの少ないシナリオにフォーカスしています。
ツリーバンクのサイズと利用可能なELMoモデルに基づいて、ハンガリー語、ウイグル語(mBERTのゼロショット言語)、ベトナム語を選択します。
さらに,低リソース環境下では英語をシミュレートする。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの方が有効であるが、2つのアプローチをうまく組み合わせることができる。 We compare two orthogonal semi-supervised learning techniques, namely tri-training and pretrained word embeddings, in the task of dependency parsing. We explore language-specific FastText and ELMo embeddings and multilingual BERT embeddings. We focus on a low resource scenario as semi-supervised learning can be expected to have the most impact here. Based on treebank size and available ELMo models, we select Hungarian, Uyghur (a zero-shot language for mBERT) and Vietnamese. Furthermore, we include English in a simulated low-resource setting. We find that pretrained word embeddings make more effective use of unlabelled data than tri-training but that the two approaches can be successfully combined. | 翻訳日:2021-09-17 15:19:46 公開日:2021-09-16 |
# (参考訳) バッチ強化学習における3つの正則化法の比較と統一 Comparison and Unification of Three Regularization Methods in Batch Reinforcement Learning ( http://arxiv.org/abs/2109.08134v1 ) ライセンス: CC BY 4.0 | Sarah Rathnam, Susan A. Murphy, and Finale Doshi-Velez | (参考訳) バッチ強化学習では、状態-作用ペアの探索が不十分であり、学習が不十分で不正確なモデルと関連するポリシーが不十分である。
様々な正規化手法はマルコフ決定過程(MDP)において過剰に複雑なモデルを学習する問題を緩和することができるが、技術的、直感的に異なる方法で動作し、比較する共通の形式が欠如している。
本稿では、重み付き平均遷移行列という共通フレームワークにおける3つの正規化手法を統一する。
この共通形式の正規化法を考えると、バッチデータセットのMDP構造と状態-作用対分布が正規化法の相対的性能にどのように影響するかが照らされる。
我々は,共通フレームワークから生成された直感を,多岐にわたるMDPとデータ収集ポリシーの実証評価により確認する。 In batch reinforcement learning, there can be poorly explored state-action pairs resulting in poorly learned, inaccurate models and poorly performing associated policies. Various regularization methods can mitigate the problem of learning overly-complex models in Markov decision processes (MDPs), however they operate in technically and intuitively distinct ways and lack a common form in which to compare them. This paper unifies three regularization methods in a common framework -- a weighted average transition matrix. Considering regularization methods in this common form illuminates how the MDP structure and the state-action pair distribution of the batch data set influence the relative performance of regularization methods. We confirm intuitions generated from the common framework by empirical evaluation across a range of MDPs and data collection policies. | 翻訳日:2021-09-17 14:58:41 公開日:2021-09-16 |
# (参考訳) knowman: 弱い教師付き多項逆ネットワーク KnowMAN: Weakly Supervised Multinomial Adversarial Networks ( http://arxiv.org/abs/2109.07994v1 ) ライセンス: CC BY 4.0 | Luisa M\"arz, Ehsaneddin Asgari, Fabienne Braune, Franziska Zimmermann and Benjamin Roth | (参考訳) ニューラルネットワークを訓練するためのラベル付きデータがないことは、特定のタスクに関する知識を活用することでしばしば解決される。
知識は、トレーニングサンプルの特定の規則性やパターンを検出し、トレーニングのために対応するラベルを注釈付けするラベル付け関数でキャプチャされる。
この弱い教師付きトレーニングのプロセスは、ラベル付け関数によって取得された信号に過度に依存し、他の信号を利用するためにモデルを妨げる可能性がある。
本稿では,特定のラベリング関数に関連する信号の影響を制御可能な敵スキームであるknowmanを提案する。
KnowMANはネットワークにこれらの信号に不変な表現を学習させ、出力ラベルとより一般的に関連付けられている他の信号を拾うように強制する。
KnowMANは、事前学習されたトランスフォーマー言語モデルと機能ベースのベースラインによる直接教師付き学習と比較して、結果を強く改善する。 The absence of labeled data for training neural models is often addressed by leveraging knowledge about the specific task, resulting in heuristic but noisy labels. The knowledge is captured in labeling functions, which detect certain regularities or patterns in the training samples and annotate corresponding labels for training. This process of weakly supervised training may result in an over-reliance on the signals captured by the labeling functions and hinder models to exploit other signals or to generalize well. We propose KnowMAN, an adversarial scheme that enables to control influence of signals associated with specific labeling functions. KnowMAN forces the network to learn representations that are invariant to those signals and to pick up other signals that are more generally associated with an output label. KnowMAN strongly improves results compared to direct weakly supervised learning with a pre-trained transformer language model and a feature-based baseline. | 翻訳日:2021-09-17 14:28:09 公開日:2021-09-16 |
# ニューラルマシン翻訳のスケーリング則 Scaling Laws for Neural Machine Translation ( http://arxiv.org/abs/2109.07740v1 ) ライセンス: Link先を確認 | Behrooz Ghorbani, Orhan Firat, Markus Freitag, Ankur Bapna, Maxim Krikun, Xavier Garcia, Ciprian Chelba, Colin Cherry | (参考訳) ニューラルネットワーク翻訳(NMT)におけるエンコーダ・デコーダ変換モデルのスケーリング特性について実験的検討を行った。
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
具体的には
(i)エントロピー損失のスケーリング挙動をエンコーダとデコーダの大きさの2変数関数として記述する式を提案し,様々なスケーリング手法や言語で正確な予測を行うことを示す。
(ii)デコーダのスケーリング時とエンコーダのスケーリング時に異なる電力法則指数を観察し、この観測に基づいてエンコーダ/デコーダ容量の最適割り当てを推奨する。
(iii)また,モデルのスケーリング挙動は,自然生成テキスト(機械生成テキストや人間の翻訳テキスト)からの逸脱と定義される,列車/テストセットの構成バイアスに強く影響されていることを報告した。
対象側の自然なテキストはスケーリングを楽しみ、これはクロスエントロピー損失の低減に成功していることを示す。
(iv) 最後に, クロスエントロピー損失と生成する翻訳の質との関係について検討する。
テストデータの性質によって、2つの異なる振る舞いを見つけます。
元々ターゲット言語からソース言語に翻訳されたテストセットでは、モデルサイズが大きくなるにつれて損失とBLEUスコアが向上する。
対照的に、元来ソース言語からターゲット言語に翻訳されたテストセットでは、損失は改善されるが、BLEUスコアは一定の閾値の後に改善されなくなる。
本研究で使用するすべてのモデルから生成されたテキストをリリースする。 We present an empirical study of scaling properties of encoder-decoder Transformer models used in neural machine translation (NMT). We show that cross-entropy loss as a function of model size follows a certain scaling law. Specifically (i) We propose a formula which describes the scaling behavior of cross-entropy loss as a bivariate function of encoder and decoder size, and show that it gives accurate predictions under a variety of scaling approaches and languages; we show that the total number of parameters alone is not sufficient for such purposes. (ii) We observe different power law exponents when scaling the decoder vs scaling the encoder, and provide recommendations for optimal allocation of encoder/decoder capacity based on this observation. (iii) We also report that the scaling behavior of the model is acutely influenced by composition bias of the train/test sets, which we define as any deviation from naturally generated text (either via machine generated or human translated text). We observe that natural text on the target side enjoys scaling, which manifests as successful reduction of the cross-entropy loss. (iv) Finally, we investigate the relationship between the cross-entropy loss and the quality of the generated translations. We find two different behaviors, depending on the nature of the test data. For test sets which were originally translated from target language to source language, both loss and BLEU score improve as model size increases. In contrast, for test sets originally translated from source language to target language, the loss improves, but the BLEU score stops improving after a certain threshold. We release generated text from all models used in this study. | 翻訳日:2021-09-17 14:18:44 公開日:2021-09-16 |
# GPTk言語に対する教育的プロンプトのフレーミング Reframing Instructional Prompts to GPTk's Language ( http://arxiv.org/abs/2109.07830v1 ) ライセンス: Link先を確認 | Swaroop Mishra, Daniel Khashabi, Chitta Baral, Yejin Choi and Hannaneh Hajishirzi | (参考訳) モデルデザイナーはどのようにタスク命令を言語モデルの効果的なプロンプトにするか?
GPT3の広範な経験的分析に支えられ、我々は教育的プロンプトを成功させるために重要な特徴を観察し、モデル設計者がそのようなプロンプトを作成するためのいくつかのリフレーミング手法を提案する。
例えば、複雑なタスクを複数の単純なタスクに分解することができる。
我々は6つのカテゴリ(探索生成、分類など)にまたがる12のNLPタスクを実験した。
この結果から,リフレーミングは,既存の数ショットベースラインよりもサンプルの複雑さを低減しつつ,数ショット学習性能を14倍向上させることがわかった。
パフォーマンスの向上は、gpt3のような大きな言語モデルにおいて特に重要であり、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
さらに、これらの利得はGPT3に限らず、異なるモデルアーキテクチャにおける生の命令よりも、リフレームされたタスクの方が優れており、これらのガイドラインのクロスモデル一般性を裏付けている。
これらの実証駆動技術が、将来のLMを促進するためのより効果的な方法へと道を開くことを願っている。 How can model designers turn task instructions into effective prompts for language models? Backed by extensive empirical analysis on GPT3, we observe important features for successful instructional prompts, and propose several reframing techniques for model designers to create such prompts. For example, a complex task can be decomposed into multiple simpler tasks. We experiment over 12 NLP tasks across 6 diverse categories (question generation, classification, etc.). Our results show that reframing improves few-shot learning performance by 14\% while reducing sample complexity over existing few-shot baselines. The performance gains are particularly important on large language models, such as GPT3 where tuning models or prompts on large datasets is not feasible. Furthermore, we observe that such gains are not limited to GPT3; the reframed tasks remain superior over raw instructions across different model architectures, underscoring the cross-model generality of these guidelines. We hope these empirical-driven techniques will pave way for more effective ways to prompt LMs in future. | 翻訳日:2021-09-17 14:18:16 公開日:2021-09-16 |
# ベースラインタイムポイントからの脳結合性の進化を予測する機械学習手法の比較検討 A Comparative Study of Machine Learning Methods for Predicting the Evolution of Brain Connectivity from a Baseline Timepoint ( http://arxiv.org/abs/2109.07739v1 ) ライセンス: Link先を確認 | \c{S}eymanur Akt{\i} and Do\u{g}ay Kamar and \"Ozg\"ur An{\i}l \"Ozl\"u and Ihsan Soydemir and Muhammet Akcan and Abdullah Kul and Islem Rekik | (参考訳) コネクトームとも呼ばれる脳ネットワークの進化を予測し、解剖学的領域のペアをリンクする接続重みの変化を予測することにより、初期の段階で接続関連神経疾患を見つけ出し、潜在的なコネクトーム異常の発生を検出することができる。
驚くべきことに、このような困難な予測問題は、予測コネクトミクス文献ではほとんど研究されていない。
機械学習(ML)手法が様々なコンピュータビジョン問題において予測能力を証明することは知られている事実である。
しかし、単一時点からの脳の結合進化軌道の予測に適したML技術はほとんど欠落している。
このギャップを埋めるために、20の競合チームが単一の時間ポイントから脳の接続性進化を予測するための高度な機械学習パイプラインを設計したKaggleコンペティションを組織しました。
競合するチームは、データ前処理、次元削減、学習方法を組み合わせたMLパイプラインを開発した。
包括的評価手法を用いて,2つの相補的評価指標(絶対誤差(mae)とピアソン相関係数(pcc))と,それらの評価手法を異なるトレーニングおよびテストデータ摂動戦略(single random split and cross-validation)を用いて分類した。
最終ランクは、すべての評価基準と検証戦略で、競合チームごとにランク製品を用いて算出された。
open scienceのサポートにより、開発された20mlパイプラインとコネクトミックデータセットがgithubで公開されている。
この競争の結果は、時間とともに脳の接続の進化を予測できる予測モデルや、他の種類のネットワーク(例えば遺伝ネットワーク)のさらなる発展につながることが期待されている。 Predicting the evolution of the brain network, also called connectome, by foreseeing changes in the connectivity weights linking pairs of anatomical regions makes it possible to spot connectivity-related neurological disorders in earlier stages and detect the development of potential connectomic anomalies. Remarkably, such a challenging prediction problem remains least explored in the predictive connectomics literature. It is a known fact that machine learning (ML) methods have proven their predictive abilities in a wide variety of computer vision problems. However, ML techniques specifically tailored for the prediction of brain connectivity evolution trajectory from a single timepoint are almost absent. To fill this gap, we organized a Kaggle competition where 20 competing teams designed advanced machine learning pipelines for predicting the brain connectivity evolution from a single timepoint. The competing teams developed their ML pipelines with a combination of data pre-processing, dimensionality reduction, and learning methods. Utilizing an inclusive evaluation approach, we ranked the methods based on two complementary evaluation metrics (mean absolute error (MAE) and Pearson Correlation Coefficient (PCC)) and their performances using different training and testing data perturbation strategies (single random split and cross-validation). The final rank was calculated using the rank product for each competing team across all evaluation measures and validation strategies. In support of open science, the developed 20 ML pipelines along with the connectomic dataset are made available on GitHub. The outcomes of this competition are anticipated to lead to the further development of predictive models that can foresee the evolution of brain connectivity over time, as well as other types of networks (e.g., genetic networks). | 翻訳日:2021-09-17 14:17:57 公開日:2021-09-16 |
# 人間の精液運動の自動予測のための機械学習フレームワーク A Machine Learning Framework for Automatic Prediction of Human Semen Motility ( http://arxiv.org/abs/2109.08049v1 ) ライセンス: Link先を確認 | Sandra Ottl and Maurice Gerczuk and Shahin Amiriparian and Bj\"orn Schuller | (参考訳) 生殖健康の分野では、男性の出生率の問題を検出するための重要な側面は、ヒト精液の品質の分析である。
重要な2つの要因は精子細胞の形態と運動性である。
前者は精子の異なる部分の欠陥を記述しているが、後者は細胞の効率的な移動を測定する。
多くの非ヒト種にとって、いわゆるComputer-Aided Sperm Analysisシステムは、顕微鏡的なビデオ記録からこれらの特徴を評価するのにうまく機能する。
ここでは、大量のトレーニングデータを利用して有能な特徴を抽出する機械学習手法は、不妊や体外受精の手順を検出する医師を支援することができる。
本研究は,下流回帰モデルを用いた特徴抽出のための教師なし手法を統合する機械学習フレームワークを用いて,与えられた精子サンプルの全体的な運動性を予測した。
ここで評価したモデルは、ビデオベース精子運動量予測のための最先端技術を改善する。 In the field of reproductive health, a vital aspect for the detection of male fertility issues is the analysis of human semen quality. Two factors of importance are the morphology and motility of the sperm cells. While the former describes defects in different parts of a spermatozoon, the latter measures the efficient movement of cells. For many non-human species, so-called Computer-Aided Sperm Analysis systems work well for assessing these characteristics from microscopic video recordings but struggle with human sperm samples which generally show higher degrees of debris and dead spermatozoa, as well as lower overall sperm motility. Here, machine learning methods that harness large amounts of training data to extract salient features could support physicians with the detection of fertility issues or in vitro fertilisation procedures. In this work, the overall motility of given sperm samples is predicted with the help of a machine learning framework integrating unsupervised methods for feature extraction with downstream regression models. The models evaluated herein improve on the state-of-the-art for video-based sperm-motility prediction. | 翻訳日:2021-09-17 14:17:25 公開日:2021-09-16 |
# 3次元物体検出のためのエンド・ツー・エンド変圧器モデル An End-to-End Transformer Model for 3D Object Detection ( http://arxiv.org/abs/2109.08141v1 ) ライセンス: Link先を確認 | Ishan Misra, Rohit Girdhar, Armand Joulin | (参考訳) 3dポイントクラウドのためのエンドツーエンドトランスフォーマベースの物体検出モデルである3detrを提案する。
3d固有のインダクティブバイアスを用いる既存の検出方法と比較すると、3detrはバニラ変圧器ブロックの最小限の変更を必要とする。
具体的には、非パラメトリッククエリとフーリエ位置埋め込みを備えた標準変換器は、手動のハイパーパラメータを持つ3D固有演算子のライブラリを使用する特殊なアーキテクチャと競合する。
それでも、3DETRは概念的にはシンプルで実装が容易であり、3Dドメイン知識を取り入れることでさらなる改善を可能にする。
広範な実験を通じて、3DETRは、挑戦的なScanNetV2データセット上で、確立された高度に最適化されたVoteNetベースラインを9.5%向上させる。
さらに,3DETRは検出以外の3次元タスクに適用可能であることを示し,今後の研究のためのビルディングブロックとして機能することを示す。 We propose 3DETR, an end-to-end Transformer based object detection model for 3D point clouds. Compared to existing detection methods that employ a number of 3D-specific inductive biases, 3DETR requires minimal modifications to the vanilla Transformer block. Specifically, we find that a standard Transformer with non-parametric queries and Fourier positional embeddings is competitive with specialized architectures that employ libraries of 3D-specific operators with hand-tuned hyperparameters. Nevertheless, 3DETR is conceptually simple and easy to implement, enabling further improvements by incorporating 3D domain knowledge. Through extensive experiments, we show 3DETR outperforms the well-established and highly optimized VoteNet baselines on the challenging ScanNetV2 dataset by 9.5%. Furthermore, we show 3DETR is applicable to 3D tasks beyond detection, and can serve as a building block for future research. | 翻訳日:2021-09-17 14:17:09 公開日:2021-09-16 |
# 説明には対話性が必要です Explainability Requires Interactivity ( http://arxiv.org/abs/2109.07869v1 ) ライセンス: Link先を確認 | Matthias Kirchler, Martin Graf, Marius Kloft, Christoph Lippert | (参考訳) ディープニューラルネットワークの決定を説明するとき、単純なストーリーは誘惑的だが危険だ。
特にコンピュータビジョンでは、最も一般的な説明アプローチは、ユーザーに誤った理解を与え、過度に単純化されたイメージを提供する。
現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。
ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。
様々なケーススタディにおいて、インタラクティブなアプローチのパワーを静的な説明手法と比較し、これがユーザアストレイをいかに導くかを示し、潜在的に深刻な結果をもたらす可能性があることを示す。 When explaining the decisions of deep neural networks, simple stories are tempting but dangerous. Especially in computer vision, the most popular explanation approaches give a false sense of comprehension to its users and provide an overly simplistic picture. We introduce an interactive framework to understand the highly complex decision boundaries of modern vision models. It allows the user to exhaustively inspect, probe, and test a network's decisions. Across a range of case studies, we compare the power of our interactive approach to static explanation methods, showing how these can lead a user astray, with potentially severe consequences. | 翻訳日:2021-09-17 14:16:54 公開日:2021-09-16 |
# 住宅地利用適性分析のためのオントロジーに基づく情報抽出システム An Ontology-Based Information Extraction System for Residential Land Use Suitability Analysis ( http://arxiv.org/abs/2109.07672v1 ) ライセンス: Link先を確認 | Munira Al-Ageili and Malek Mouhoub | (参考訳) 本稿では,土地利用適合性分析(lusa)に適用される基準と価値の抽出を,地理的関心領域に関する規制文書から自動化するオントロジーに基づく情報抽出(obie)システムを提案する。
提案したLUSA OBIEシステム(土地利用適性基準とそれらの値)は,抽出された基準と特性値の例に代表されるオントロジーとして提示された。
この後者の出力オントロジーは、異なる種類の土地利用に適した地図を構築するために応用されたマルチクオリトリア意思決定(MCDM)モデルに組み込まれている。
得られたマップは最終目的の製品かもしれないし、将来の都市の成長を予測するためのセルラーオートマチックな都市モデリングとシミュレーションに組み込むこともできる。
LUSA OBIEの出力を応用してサスカチュワン州レジーナ市の住宅開発に適した地域を特定するための適合性マップを作成するケーススタディが実施されている。
サスカチュワンの法則と規制文書がダウンロードされ、LUSA OBIEシステムに入力された。
抽出した情報をlusaオントロジーと注釈付き文書のセットを使ってアクセスした。
この点において,LUSA OBIEシステムは最終適合性マップの作成に有効であった。 We propose an Ontology-Based Information Extraction (OBIE) system to automate the extraction of the criteria and values applied in Land Use Suitability Analysis (LUSA) from bylaw and regulation documents related to the geographic area of interest. The results obtained by our proposed LUSA OBIE system (land use suitability criteria and their values) are presented as an ontology populated with instances of the extracted criteria and property values. This latter output ontology is incorporated into a Multi-Criteria Decision Making (MCDM) model applied for constructing suitability maps for different kinds of land uses. The resulting maps may be the final desired product or can be incorporated into the cellular automata urban modeling and simulation for predicting future urban growth. A case study has been conducted where the output from LUSA OBIE is applied to help produce a suitability map for the City of Regina, Saskatchewan, to assist in the identification of suitable areas for residential development. A set of Saskatchewan bylaw and regulation documents were downloaded and input to the LUSA OBIE system. We accessed the extracted information using both the populated LUSA ontology and the set of annotated documents. In this regard, the LUSA OBIE system was effective in producing a final suitability map. | 翻訳日:2021-09-17 14:16:26 公開日:2021-09-16 |
# 効果的な評価データセットを用いたコモンセンス知識ベース人口のベンチマーク Benchmarking Commonsense Knowledge Base Population with an Effective Evaluation Dataset ( http://arxiv.org/abs/2109.07679v1 ) ライセンス: Link先を確認 | Tianqing Fang, Weiqi Wang, Sehyun Choi, Shibo Hao, Hongming Zhang, Yangqiu Song, Bin He | (参考訳) 要素が自由テキストの形で存在する常識知識ベース(CSKB)に対する推論は、NLPにおいて重要な課題である。
CSKBの完成はCSKBのドメイン内の欠落したリンクのみを埋めるが、CSKBの人口は外部リソースから見知らぬ主張を推論する目的で提案される。
このタスクでは、CSKBは大規模な結果(アクティビティ、状態、イベント)グラフに基づいて、結果性グラフからの新規な三重項が妥当かどうかを判別する。
しかし, 人口タスクに対する既存の評価は正確でない(ランダムにサンプル化した負の例による自動評価)か, 小型(人間のアノテーション)である。
本稿では,まず4つのCSKBを並べた大規模データセットを用いてCSKB集団タスクをベンチマークし,その上で,ニューラルネットワークのコモンセンス推論能力を探索するための高品質な人間アノテーション評価セットを提案する。
また,グラフを理由とする新しい帰納的コモンセンス推論モデルを提案する。
実験の結果,無意味なアサーションに対するコモンセンス推論の一般化は本質的に難しい課題であることがわかった。
トレーニング中に高い精度を達成するモデルは、評価セットでパフォーマンスが悪く、人間のパフォーマンスの間に大きなギャップがある。
将来的なコントリビューションのために、データを公開します。
コードとデータはhttps://github.com/HKUST-KnowComp/CSKB-Populationで公開されている。 Reasoning over commonsense knowledge bases (CSKB) whose elements are in the form of free-text is an important yet hard task in NLP. While CSKB completion only fills the missing links within the domain of the CSKB, CSKB population is alternatively proposed with the goal of reasoning unseen assertions from external resources. In this task, CSKBs are grounded to a large-scale eventuality (activity, state, and event) graph to discriminate whether novel triples from the eventuality graph are plausible or not. However, existing evaluations on the population task are either not accurate (automatic evaluation with randomly sampled negative examples) or of small scale (human annotation). In this paper, we benchmark the CSKB population task with a new large-scale dataset by first aligning four popular CSKBs, and then presenting a high-quality human-annotated evaluation set to probe neural models' commonsense reasoning ability. We also propose a novel inductive commonsense reasoning model that reasons over graphs. Experimental results show that generalizing commonsense reasoning on unseen assertions is inherently a hard task. Models achieving high accuracy during training perform poorly on the evaluation set, with a large gap between human performance. We will make the data publicly available for future contributions. Codes and data are available at https://github.com/HKUST-KnowComp/CSKB-Population. | 翻訳日:2021-09-17 14:16:09 公開日:2021-09-16 |
# ペルシア語レビューにおけるアスペクトベース感性分析のための共同モデリングと極性 Jointly Modeling Aspect and Polarity for Aspect-based Sentiment Analysis in Persian Reviews ( http://arxiv.org/abs/2109.07680v1 ) ライセンス: Link先を確認 | Milad Vazan and Jafar Razmara | (参考訳) 自然言語テキストからのユーザの意見の同定は,現実世界の応用が拡大する中で,エキサイティングな研究分野となっている。
研究分野は感情分析と分類と呼ばれ、アスペクトカテゴリー検出(ACD)とアスペクトカテゴリー極性(ACP)はアスペクトベースの感情分析の2つの重要なサブタスクである。
ACDの目標は、ACPがACDタスクから各アスペクトカテゴリの極性を指定するのに対して、エンティティのどのアスペクトが意見として現れるかを指定することである。
以前の研究は主にこれらの2つのサブタスクに対する別の解を提案する。
本稿では,ACD と ACP のサブタスクに着目し,両問題を同時に解決する。
提案手法では,4種類の深層モデルを用いたマルチラベル分類を行い,その性能を比較検討した。
ペルシアのレビューのデータセットはCinemaTicketのウェブサイトから収集され、14のカテゴリから2200のサンプルが集められた。
サンプルベースおよびラベルベースメトリクスを用いて,収集したデータセットを用いてモデルの評価を行った。
その結果,LSTMおよびBi-LSTMと比較して,CNNおよびGRUモデルの高い適用性と嗜好性を示した。 Identification of user's opinions from natural language text has become an exciting field of research due to its growing applications in the real world. The research field is known as sentiment analysis and classification, where aspect category detection (ACD) and aspect category polarity (ACP) are two important sub-tasks of aspect-based sentiment analysis. The goal in ACD is to specify which aspect of the entity comes up in opinion while ACP aims to specify the polarity of each aspect category from the ACD task. The previous works mostly propose separate solutions for these two sub-tasks. This paper focuses on the ACD and ACP sub-tasks to solve both problems simultaneously. The proposed method carries out multi-label classification where four different deep models were employed and comparatively evaluated to examine their performance. A dataset of Persian reviews was collected from CinemaTicket website including 2200 samples from 14 categories. The developed models were evaluated using the collected dataset in terms of example-based and label-based metrics. The results indicate the high applicability and preference of the CNN and GRU models in comparison to LSTM and Bi-LSTM. | 翻訳日:2021-09-17 14:15:45 公開日:2021-09-16 |
# 言語モデルと多言語学習者 Language Models are Few-shot Multilingual Learners ( http://arxiv.org/abs/2109.07684v1 ) ライセンス: Link先を確認 | Genta Indra Winata, Andrea Madotto, Zhaojiang Lin, Rosanne Liu, Jason Yosinski, Pascale Fung | (参考訳) 汎用言語モデルは、非常に少数の例から命令を推測する際に、さまざまな下流自然言語処理(NLP)タスクやベンチマークに対する最先端のアプローチと同等の性能を発揮している。
本稿では,パラメータ更新を伴わずに非英語言語における多クラス分類を行う際に,gptとt5モデルの多言語スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できる。
最後に,言語モデルの文脈内小文字間予測結果がランダム予測よりも有意に優れており,既存の言語間予測モデルと比較して競争力が高いことがわかった。 General-purpose language models have demonstrated impressive capabilities, performing on par with state-of-the-art approaches on a range of downstream natural language processing (NLP) tasks and benchmarks when inferring instructions from very few examples. Here, we evaluate the multilingual skills of the GPT and T5 models in conducting multi-class classification on non-English languages without any parameter updates. We show that, given a few English examples as context, pre-trained language models can predict not only English test samples but also non-English ones. Finally, we find the in-context few-shot cross-lingual prediction results of language models are significantly better than random prediction, and they are competitive compared to the existing state-of-the-art cross-lingual models. | 翻訳日:2021-09-17 14:15:28 公開日:2021-09-16 |
# CATをバッグから外す: テキストの対照的な説明 Let the CAT out of the bag: Contrastive Attributed explanations for Text ( http://arxiv.org/abs/2109.07983v1 ) ライセンス: Link先を確認 | Saneem Chemmengath, Amar Prakash Azad, Ronny Luss, Amit Dhurandhar | (参考訳) ブラックボックスモデルの振る舞いを理解するための対照的な説明は、最近、議論の可能性を秘めているため、多くの注目を集めている。
本稿では,自然言語テキストデータに対して,属性分類器を構築・活用し,より意味的に意味のある説明へと導く新しいツイストを用いた対比的説明を提供する手法であるcatを提案する。
私たちのコントラスト生成テキストが、原文に関して最も編集が少ないことを保証すると同時に、人間の生成したコントラストに近いことを保証するために、bert言語モデルと利用可能な属性で訓練された属性分類器を使って正規化された最小の摂動アプローチを頼りにする。
質的例とユーザスタディを通して,提案手法は,これらの属性によってより深い洞察を与えるだけでなく,より高品質な(一貫性のある)テキストをもたらすことを示した。
さらに,本手法は他の最先端手法よりも効率的であり,フリップ率,(正規化)レフェンシュタイン距離,流束率,コンテンツ保存などのベンチマーク指標も高い値を示した。 Contrastive explanations for understanding the behavior of black box models has gained a lot of attention recently as they provide potential for recourse. In this paper, we propose a method Contrastive Attributed explanations for Text (CAT) which provides contrastive explanations for natural language text data with a novel twist as we build and exploit attribute classifiers leading to more semantically meaningful explanations. To ensure that our contrastive generated text has the fewest possible edits with respect to the original text, while also being fluent and close to a human generated contrastive, we resort to a minimal perturbation approach regularized using a BERT language model and attribute classifiers trained on available attributes. We show through qualitative examples and a user study that our method not only conveys more insight because of these attributes, but also leads to better quality (contrastive) text. Moreover, quantitatively we show that our method is more efficient than other state-of-the-art methods with it also scoring higher on benchmark metrics such as flip rate, (normalized) Levenstein distance, fluency and content preservation. | 翻訳日:2021-09-17 14:15:14 公開日:2021-09-16 |
# 画像キャプションのための幾何学的コヒーレントオブジェクトを用いたラベルアテンショントランスフォーマ Label-Attention Transformer with Geometrically Coherent Objects for Image Captioning ( http://arxiv.org/abs/2109.07799v1 ) ライセンス: Link先を確認 | Shikha Dubey, Farrukh Olimov, Muhammad Aasim Rafique, Joonmo Kim, Moongu Jeon | (参考訳) 画像やビデオにおけるシーン理解の自動転写は、人工知能への一歩だ。
画像キャプションは、コンピュータビジョン技術を用いて画像に意味のある情報を記述するための命名法である。
自動画像キャプション技術はエンコーダとデコーダアーキテクチャを使用し、エンコーダは画像から特徴を抽出し、デコーダは転写文を生成する。
本研究では,トランスを用いた画像キャプションに関する2つの未探索概念について考察する。
第二に、ラベルと言語構造を明確に関連付けること。
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントなオブジェクトの提案を取得し,ラベルアテンションモジュールを用いてそれらの関係を調査してキャプションを生成する。
オブジェクトコヒーレンスは、提案の幾何学的性質の局所化比を用いて定義される。
ラベルアテンションモジュールは、抽出したオブジェクトクラスを自己アテンション層を使用して利用可能な辞書に関連付ける。
実験の結果, 物体の周囲における関連性や視覚的特徴と幾何学的局所化比を関連づけることで, 意味のあるキャプションを定義できることがわかった。
提案したフレームワークは,MSCOCOデータセット上でテストされ,総合的に優れた定量的スコアが優位性を示す。 Automatic transcription of scene understanding in images and videos is a step towards artificial general intelligence. Image captioning is a nomenclature for describing meaningful information in an image using computer vision techniques. Automated image captioning techniques utilize encoder and decoder architecture, where the encoder extracts features from an image and the decoder generates a transcript. In this work, we investigate two unexplored ideas for image captioning using transformers: First, we demonstrate the enforcement of using objects' relevance in the surrounding environment. Second, learning an explicit association between labels and language constructs. We propose label-attention Transformer with geometrically coherent objects (LATGeO). The proposed technique acquires a proposal of geometrically coherent objects using a deep neural network (DNN) and generates captions by investigating their relationships using a label-attention module. Object coherence is defined using the localized ratio of the geometrical properties of the proposals. The label-attention module associates the extracted objects classes to the available dictionary using self-attention layers. The experimentation results show that objects' relevance in surroundings and binding of their visual feature with their geometrically localized ratios combined with its associated labels help in defining meaningful captions. The proposed framework is tested on the MSCOCO dataset, and a thorough evaluation resulting in overall better quantitative scores pronounces its superiority. | 翻訳日:2021-09-17 14:14:55 公開日:2021-09-16 |
# 物体検出のためのラベル割り当て蒸留 Label Assignment Distillation for Object Detection ( http://arxiv.org/abs/2109.07843v1 ) ライセンス: Link先を確認 | Minghao Gao, Hailun Zhang (1) and Yige Yan (2) ((1) Beijing Institute of Technology, (2) Hohai University) | (参考訳) 知識蒸留法はニューラルネットワークの性能向上に有望であることが証明され、推論時間の間に追加の計算コストは必要とされない。
オブジェクト検出の精度を高めるため,特にオブジェクト検出のために多くの知識蒸留法が提案されている。
しかし、これらの方法のほとんどは機能レベルの蒸留とラベルレベルの蒸留のみに焦点を当てており、ラベル割当てステップは、オブジェクト検出のためのユニークかつパラマウントな手順である。
本研究では,学習者ネットワークの正と負のサンプルが教師ネットワークの予測に従って選択されるオブジェクト検出におけるラベル割り当てに着目した,シンプルだが効果的な知識蒸留手法を提案する。
本手法は, MSCOCO2017ベンチマークにおいて, 1段検出器と2段検出器の両方に適用できるだけでなく, 他の知識蒸留法と直交的に利用できることを示す。 Knowledge distillation methods are proved to be promising in improving the performance of neural networks and no additional computational expenses are required during the inference time. For the sake of boosting the accuracy of object detection, a great number of knowledge distillation methods have been proposed particularly designed for object detection. However, most of these methods only focus on feature-level distillation and label-level distillation, leaving the label assignment step, a unique and paramount procedure for object detection, by the wayside. In this work, we come up with a simple but effective knowledge distillation approach focusing on label assignment in object detection, in which the positive and negative samples of student network are selected in accordance with the predictions of teacher network. Our method shows encouraging results on the MSCOCO2017 benchmark, and can not only be applied to both one-stage detectors and two-stage detectors but also be utilized orthogonally with other knowledge distillation methods. | 翻訳日:2021-09-17 14:14:33 公開日:2021-09-16 |
# 個人化フェデレーション最適化のためのサブスペース学習 Subspace Learning for Personalized Federated Optimization ( http://arxiv.org/abs/2109.07628v1 ) ライセンス: Link先を確認 | Seok-Ju Hahn, Minwoo Jeong, Junghye Lee | (参考訳) データがほぼどこでも生成され保存されるため、データ分散設定からモデルを学ぶことは、多くのai駆動サービスプロバイダにとって興味深いタスクです。
このような状況において、連合学習は主要な解決策として定着するが、パーソナライゼーションの観点では改善の余地がある。
連合学習システムのトレーニングは通常、すべてのクライアントデバイスに同一にデプロイされるグローバルモデルを最適化することに焦点を当てる。
しかし、ローカルデータが同一にクライアントに分散していないと仮定しているため、各クライアントがパフォーマンスでパーソナライズされるには、単一のグローバルモデルでは不十分である。
本稿では,2つのエンドポイント(すなわちグローバルモデルとローカルモデル)の高精度アンサンブルを生成する低損失部分空間連続体の構築に基づいて,アンサンブル学習のレンズを通してこの問題に対処する手法を提案する。
提案手法は,複数の標準ベンチマークデータセットに対する広範囲な実験により,パーソナライズされたクライアント評価設定と見えないクライアント評価設定の両方において一貫した利得が得られることを示す。 As data is generated and stored almost everywhere, learning a model from a data-decentralized setting is a task of interest for many AI-driven service providers. Although federated learning is settled down as the main solution in such situations, there still exists room for improvement in terms of personalization. Training federated learning systems usually focuses on optimizing a global model that is identically deployed to all client devices. However, a single global model is not sufficient for each client to be personalized on their performance as local data assumes to be not identically distributed across clients. We propose a method to address this situation through the lens of ensemble learning based on the construction of a low-loss subspace continuum that generates a high-accuracy ensemble of two endpoints (i.e. global model and local model). We demonstrate that our method achieves consistent gains both in personalized and unseen client evaluation settings through extensive experiments on several standard benchmark datasets. | 翻訳日:2021-09-17 14:13:03 公開日:2021-09-16 |
# 学習した視覚パターンを用いた深部RLに基づく自律走行の目標攻撃 Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual Patterns ( http://arxiv.org/abs/2109.07723v1 ) ライセンス: Link先を確認 | Prasanth Buddareddygari, Travis Zhang, Yezhou Yang, Yi Ren | (参考訳) 近年の研究では、敵対的攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証され、自動運転車のようなリスクに敏感なタスクへのそのようなモデルの適用に対する懸念が高まっている。
これらの実験の脅威モデルは,(1)エージェントの観察をリアルタイムに操作することによる標的攻撃,(2)物理的環境の操作による標的外攻撃に限られる。
前者はエージェントのステート/オブザーブレーションへの完全なアクセスを常に想定するが、後者は攻撃結果のコントロールを持たない。
本稿は,実物体に視覚学習パターンを配置し,実物体の実用性と有効性を組み合わせる脅威モデルを用いて,標的攻撃の実現可能性について検討する。
分析を通じて,事前訓練されたポリシは,例えば敵オブジェクトが存在する場合に意図しない自己駐車を行うような時間枠内でハイジャック可能であることを実証する。
攻撃を可能にするために,我々は,環境とエージェントの両方のダイナミクスが攻撃者によって学習できるという仮定を採用する。
最後に,異なる運転シナリオに対する攻撃の有効性を実証的に示すとともに,ロバスト性試験を行い,攻撃強度と有効性とのトレードオフについて検討する。 Recent studies demonstrated the vulnerability of control policies learned through deep reinforcement learning against adversarial attacks, raising concerns about the application of such models to risk-sensitive tasks such as autonomous driving. Threat models for these demonstrations are limited to (1) targeted attacks through real-time manipulation of the agent's observation, and (2) untargeted attacks through manipulation of the physical environment. The former assumes full access to the agent's states/observations at all times, while the latter has no control over attack outcomes. This paper investigates the feasibility of targeted attacks through visually learned patterns placed on physical object in the environment, a threat model that combines the practicality and effectiveness of the existing ones. Through analysis, we demonstrate that a pre-trained policy can be hijacked within a time window, e.g., performing an unintended self-parking, when an adversarial object is present. To enable the attack, we adopt an assumption that the dynamics of both the environment and the agent can be learned by the attacker. Lastly, we empirically show the effectiveness of the proposed attack on different driving scenarios, perform a location robustness test, and study the tradeoff between the attack strength and its effectiveness. | 翻訳日:2021-09-17 14:12:47 公開日:2021-09-16 |
# ニューラルネットワークを用いた重み付きグラフに基づく信号時間論理推論 Weighted Graph-Based Signal Temporal Logic Inference Using Neural Networks ( http://arxiv.org/abs/2109.08078v1 ) ライセンス: Link先を確認 | Nasim Baharisangari, Kazuma Hirota, Ruixuan Yan, Agung Julius, Zhe Xu | (参考訳) データから時空間知識を抽出することは、多くのアプリケーションで有用である。
得られた知識が人間の解釈可能であり,形式解析に適していることが重要である。
本稿では,重み付きグラフに基づく信号時間論理式(wGSTL)を用いて,ニューラルネットワークを用いて空間時間特性を学習する手法を提案する。
wGSTL式を学習するために、ユーザの好みを推論されたwGSTL式に適用できる柔軟なwGSTL式構造を導入する。
提案した枠組みでは、ニューラルネットワークの各ニューロンは、柔軟なwGSTL式構造におけるサブフォーミュラに対応する。
まず、ニューラルネットワークをトレーニングして、wGSTL演算子を学び、それから第2のニューラルネットワークをトレーニングして、フレキシブルなwGSTL公式構造でパラメータを学習します。
提案したフレームワークとアルゴリズムの性能を評価するために、COVID-19データセットと降雨予測データセットを使用します。
提案手法の性能を,K-アネレスト近傍,決定木,人工ニューラルネットワークの3つのベースライン分類法と比較した。
提案手法により得られた分類精度は,ベースライン分類法と同等である。 Extracting spatial-temporal knowledge from data is useful in many applications. It is important that the obtained knowledge is human-interpretable and amenable to formal analysis. In this paper, we propose a method that trains neural networks to learn spatial-temporal properties in the form of weighted graph-based signal temporal logic (wGSTL) formulas. For learning wGSTL formulas, we introduce a flexible wGSTL formula structure in which the user's preference can be applied in the inferred wGSTL formulas. In the proposed framework, each neuron of the neural networks corresponds to a subformula in a flexible wGSTL formula structure. We initially train a neural network to learn the wGSTL operators and then train a second neural network to learn the parameters in a flexible wGSTL formula structure. We use a COVID-19 dataset and a rain prediction dataset to evaluate the performance of the proposed framework and algorithms. We compare the performance of the proposed framework with three baseline classification methods including K-nearest neighbors, decision trees, and artificial neural networks. The classification accuracy obtained by the proposed framework is comparable with the baseline classification methods. | 翻訳日:2021-09-17 14:12:25 公開日:2021-09-16 |
# 大規模ネットワーク監視のための統計的保証を用いた最適探索 Optimal Probing with Statistical Guarantees for Network Monitoring at Scale ( http://arxiv.org/abs/2109.07743v1 ) ライセンス: Link先を確認 | Muhammad Jehangir Amjad, Christophe Diot, Dimitris Konomis, Branislav Kveton, Augustin Soule, and Xiaolong Yang | (参考訳) クラウドネットワークは急速に成長し、監視の予算が限られているため、監視が難しい。
本稿では,監視予算の固定化による推定誤差を保証し,遅延やパケットロスなどのネットワーク指標を推定するためのフレームワークを提案する。
提案アルゴリズムは,ネットワーク経路にまたがるプローブの分布を計測し,統計学におけるA-およびE-最適実験設計に基づく。
残念ながら、これらの設計は生産規模で使うには計算コストがかかりすぎる。
我々はfrank-wolfeアルゴリズムに基づくスケーラブルで近似に近い近似を提案する。
実際のネットワークトポロジ上でのシミュレーションや,実クラウドネットワークにおける実運用検出システムを用いたシミュレーションのアプローチを検証する。
調査予算が極めて低い場合でも,推定誤差を低く抑えつつ,生産ベースラインと学術ベースラインの両方と比較して,調査予算の削減に大きな効果を示す。 Cloud networks are difficult to monitor because they grow rapidly and the budgets for monitoring them are limited. We propose a framework for estimating network metrics, such as latency and packet loss, with guarantees on estimation errors for a fixed monitoring budget. Our proposed algorithms produce a distribution of probes across network paths, which we then monitor; and are based on A- and E-optimal experimental designs in statistics. Unfortunately, these designs are too computationally costly to use at production scale. We propose their scalable and near-optimal approximations based on the Frank-Wolfe algorithm. We validate our approaches in simulation on real network topologies, and also using a production probing system in a real cloud network. We show major gains in reducing the probing budget compared to both production and academic baselines, while maintaining low estimation errors, even with very low probing budgets. | 翻訳日:2021-09-17 14:11:51 公開日:2021-09-16 |
# directed degree corrected mixed membership modelとdirected networkにおけるコミュニティメンバーシップの推定 Directed degree corrected mixed membership model and estimating community memberships in directed networks ( http://arxiv.org/abs/2109.07826v1 ) ライセンス: Link先を確認 | Huan Qing | (参考訳) 本稿では,各行 (コロン) が各行 (コロン) コミュニティのメンバシップを決定するベクタに関連付けられる有向ネットワークにおける,ノードのコミュニティメンバシップのモデル化と推定の問題について考察する。
このような有向ネットワークをモデル化するために、次数不均一性を考慮した有向度補正混合メンバシップ(DiDCMM)モデルを提案する。
DiDCMMは、次数不均一性を考慮した場合、混合会員ネットワークの一般的な条件下で識別可能である。
左特異ベクトルの正規化バージョンに固有のコーン構造と、集団隣接行列の右特異ベクトルに固有の単純構造に基づいて、DiMSCと呼ばれる効率的なアルゴリズムを構築し、行ノードと列ノードの両方のコミュニティメンバシップベクトルを推定する。
提案アルゴリズムは,DiMSCと同じ推定値を返却するDiMSCの等価アルゴリズムと,直列の特異ベクトル偏差に対する最近の発展を活かして,各行ノードとDiDCMM下の各列ノードの帰属ベクトルに対する誤差境界を提供することにより,穏やかな条件下で漸近的に整合性を示す。
その理論はシミュレーション研究によって補われている。 This paper considers the problem of modeling and estimating community memberships of nodes in a directed network where every row (column) node is associated with a vector determining its membership in each row (column) community. To model such directed network, we propose directed degree corrected mixed membership (DiDCMM) model by considering degree heterogeneity. DiDCMM is identifiable under popular conditions for mixed membership network when considering degree heterogeneity. Based on the cone structure inherent in the normalized version of the left singular vectors and the simplex structure inherent in the right singular vectors of the population adjacency matrix, we build an efficient algorithm called DiMSC to infer the community membership vectors for both row nodes and column nodes. By taking the advantage of DiMSC's equivalence algorithm which returns same estimations as DiMSC and the recent development on row-wise singular vector deviation, we show that the proposed algorithm is asymptotically consistent under mild conditions by providing error bounds for the inferred membership vectors of each row node and each column node under DiDCMM. The theory is supplemented by a simulation study. | 翻訳日:2021-09-17 14:11:35 公開日:2021-09-16 |
# NFLパスのフレーム完了確率によるフレーム Frame by frame completion probability of an NFL pass ( http://arxiv.org/abs/2109.08051v1 ) ライセンス: Link先を確認 | Gustavo Pompeu da Silva, Rafael de Andrade Moral | (参考訳) アメリカンフットボールは人気の高いスポーツであり、世界中の多くの国で観衆が増えている。
世界で最も注目されているアメリカンフットボールリーグは、全米フットボールリーグ(NFL)であり、あらゆる攻撃的なプレーはランまたはパスのいずれかであり、この作品ではパスに焦点を当てている。
多くの要因は、最も近いディフェンダーからの受信者分離、受信者から通行者への距離、違反生成など、パス完了の確率に影響を与える可能性がある。
パスの完了確率を予測する場合には、パスの目標が誰であるかを知ることが不可欠である。
プレーヤとボール間の距離測定を用いて、経験的確率を計算し、ターゲットが誰であるかを正確に予測することができる。
大きな疑問は、ボールが空中にいる間にnflの試合でパスが完了する確率がどれくらいなのかだ。
そこで我々は,複数の予測器から解く機械学習アルゴリズムを開発した。
2018年のNFLシーズンのデータを用いて,ランダム森林モデルに基づくパス完了確率の条件付きおよび限界予測値を得た。
これは2段階の手順に基づいており、まず、各攻撃者がパスターゲットである確率を計算し、次に、目標に基づいて条件を定め、ランダム森林モデルに基づいて完了確率を予測する。
最後に、総確率の法則を用いて一般完備確率を計算することができる。
選択されたプレイのアニメーションを提示し,パス完了確率の進化を示す。 American football is an increasingly popular sport, with a growing audience in many countries in the world. The most watched American football league in the world is the United States' National Football League (NFL), where every offensive play can be either a run or a pass, and in this work we focus on passes. Many factors can affect the probability of pass completion, such as receiver separation from the nearest defender, distance from receiver to passer, offense formation, among many others. When predicting the completion probability of a pass, it is essential to know who the target of the pass is. By using distance measures between players and the ball, it is possible to calculate empirical probabilities and predict very accurately who the target will be. The big question is: how likely is it for a pass to be completed in an NFL match while the ball is in the air? We developed a machine learning algorithm to answer this based on several predictors. Using data from the 2018 NFL season, we obtained conditional and marginal predictions for pass completion probability based on a random forest model. This is based on a two-stage procedure: first, we calculate the probability of each offensive player being the pass target, then, conditional on the target, we predict completion probability based on the random forest model. Finally, the general completion probability can be calculated using the law of total probability. We present animations for selected plays and show the pass completion probability evolution. | 翻訳日:2021-09-17 14:11:14 公開日:2021-09-16 |
# 単位の構成説明の評価のための検出精度 Detection Accuracy for Evaluating Compositional Explanations of Units ( http://arxiv.org/abs/2109.07804v1 ) ライセンス: Link先を確認 | Sayo M. Makinwa, Biagio La Rosa and Roberto Capobianco | (参考訳) 複雑な問題や異なる領域におけるディープラーニングモデルの最近の成功は、彼らが何を学んだかを理解することへの関心を高めている。
そのため、これらのモデルを説明するために様々なアプローチが採用されている。
このアプローチを使う方法の2つの例は、ネットワーク分割と構成的説明である。
前者は原子概念を用いた単位を説明し、後者はより表現力のある説明を行い、原子概念を論理形式に置き換える。
直感的には、論理形式は原子の概念よりも有益であるが、どのようにこの改善を定量化するかは定かではない。
本稿では,提案手法を用いて,各ユニットが割り当てた説明文の検出の一貫性を計測する検出精度の評価指標を提案する。
本稿では,(1) 長さの異なる説明を効果的に評価し,(2) は構成的説明探索の停止基準として使用でき,(3) 長さ1の説明が長い説明の知覚的抽象化であるような,新たな特殊単位を公開することを示す。 The recent success of deep learning models in solving complex problems and in different domains has increased interest in understanding what they learn. Therefore, different approaches have been employed to explain these models, one of which uses human-understandable concepts as explanations. Two examples of methods that use this approach are Network Dissection and Compositional explanations. The former explains units using atomic concepts, while the latter makes explanations more expressive, replacing atomic concepts with logical forms. While intuitively, logical forms are more informative than atomic concepts, it is not clear how to quantify this improvement, and their evaluation is often based on the same metric that is optimized during the search-process and on the usage of hyper-parameters to be tuned. In this paper, we propose to use as evaluation metric the Detection Accuracy, which measures units' consistency of detection of their assigned explanations. We show that this metric (1) evaluates explanations of different lengths effectively, (2) can be used as a stopping criterion for the compositional explanation search, eliminating the explanation length hyper-parameter, and (3) exposes new specialized units whose length 1 explanations are the perceptual abstractions of their longer explanations. | 翻訳日:2021-09-17 14:10:31 公開日:2021-09-16 |
# ファッションコンパチビリティのための半教師付き視覚表現学習 Semi-Supervised Visual Representation Learning for Fashion Compatibility ( http://arxiv.org/abs/2109.08052v1 ) ライセンス: Link先を確認 | Ambareesh Revanur, Vijay Kumar, Deepthi Sharma | (参考訳) 我々は相補的ファッション予測の問題を考える。
既存のアプローチでは、視覚的に互換性のあるさまざまなカテゴリのファッションアイテムが互いに近接する埋め込みスペースの学習に重点を置いている。
しかし、このようなラベル付きの衣装を作るのは重厚であり、特に大型のファッションカタログで、あらゆる可能な組み合わせを生成できるわけではない。
そこで本研究では,大規模無ラベルファッションコーパスを活用し,トレーニング中に偽陽性・偽陰性の衣装を製作する半教師付き学習手法を提案する。
トレーニングバッチ内のラベル付き衣装ごとにラベル付き衣装の各アイテムとラベル付きアイテムをマッチングすることにより、擬似アウトフィットを得る。
さらに、原画像とその変換の表現が、自己監督を通じて暗黙的に色やその他の重要な属性を組み込むようにするために、一貫性の正則化を導入する。
我々は,Polyvore,Polyvore-D,および新たに作成した大規模Fashion Outfitsデータセットについて広範な実験を行った。 We consider the problem of complementary fashion prediction. Existing approaches focus on learning an embedding space where fashion items from different categories that are visually compatible are closer to each other. However, creating such labeled outfits is intensive and also not feasible to generate all possible outfit combinations, especially with large fashion catalogs. In this work, we propose a semi-supervised learning approach where we leverage large unlabeled fashion corpus to create pseudo-positive and pseudo-negative outfits on the fly during training. For each labeled outfit in a training batch, we obtain a pseudo-outfit by matching each item in the labeled outfit with unlabeled items. Additionally, we introduce consistency regularization to ensure that representation of the original images and their transformations are consistent to implicitly incorporate colour and other important attributes through self-supervision. We conduct extensive experiments on Polyvore, Polyvore-D and our newly created large-scale Fashion Outfits datasets, and show that our approach with only a fraction of labeled examples performs on-par with completely supervised methods. | 翻訳日:2021-09-17 14:10:11 公開日:2021-09-16 |
# 不明:不明瞭な要因を蒸留して絡み合い学習を行う DisUnknown: Distilling Unknown Factors for Disentanglement Learning ( http://arxiv.org/abs/2109.08090v1 ) ライセンス: Link先を確認 | Sitao Xiang, Yuming Gu, Pengda Xiang, Menglei Chai, Hao Li, Yajie Zhao, Mingming He | (参考訳) データを解釈可能な独立要因に分割することは、制御可能な生成タスクにとって重要である。
ラベル付きデータの可用性により、監視は、期待される特定の要因の分離を強制するのに役立ちます。
しかし、すべての要素をラベル付けすることは、しばしば高価または不可能であり、完全に教師付き不整合を達成する。
本稿では,ラベル付けや識別が難しいすべての因子を単一の未知の因子としてカプセル化する一般設定を採用する。
そこで本研究では,ラベル付きおよび未知の因子について,未知の因子を抽出し,多条件生成を可能にする,柔軟な弱教師付き多因子異方性フレームワークを提案する。
具体的には、まず、未知の因子を効果的で堅牢な訓練法で切り離し、次に、未知の蒸留を利用したラベル付き因子の適切な切り離しで最終生成物を訓練するために、2段階のトレーニング手法を採用する。
本手法の一般化能力と拡張性を示すために,複数のベンチマークデータセットで定性的かつ定量的に評価し,複雑なデータセット上の様々な実世界アプリケーションに適用した。 Disentangling data into interpretable and independent factors is critical for controllable generation tasks. With the availability of labeled data, supervision can help enforce the separation of specific factors as expected. However, it is often expensive or even impossible to label every single factor to achieve fully-supervised disentanglement. In this paper, we adopt a general setting where all factors that are hard to label or identify are encapsulated as a single unknown factor. Under this setting, we propose a flexible weakly-supervised multi-factor disentanglement framework DisUnknown, which Distills Unknown factors for enabling multi-conditional generation regarding both labeled and unknown factors. Specifically, a two-stage training approach is adopted to first disentangle the unknown factor with an effective and robust training method, and then train the final generator with the proper disentanglement of all labeled factors utilizing the unknown distillation. To demonstrate the generalization capacity and scalability of our method, we evaluate it on multiple benchmark datasets qualitatively and quantitatively and further apply it to various real-world applications on complicated datasets. | 翻訳日:2021-09-17 14:09:51 公開日:2021-09-16 |
# ビデオにおける時間文接地に関する調査 A Survey on Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2109.08039v1 ) ライセンス: Link先を確認 | Xiaohan Lan, Yitian Yuan, Xin Wang, Zhi Wang and Wenwu Zhu | (参考訳) ビデオにおける時間文グラウンドリング(TSGV)は、与えられた文問合せに関する未編集ビデオから1つの対象セグメントをローカライズすることを目的としており、ここ数年研究コミュニティで注目されている。
時間的行動の局所化のタスクと異なり、tsgvは自然言語による複雑なアクティビティを事前に定義されたアクションカテゴリから制限することなく見つけることができるため、より柔軟である。
一方、TSGVは2つのモダリティ(テキストとビデオ)間のセマンティックアライメントにテキストと視覚の両方の理解を必要とするため、より難しい。
本調査では,TSGVの概要について概観する。
一 既存の方法の分類を要約すること。
ii) tsgvで使用する評価プロトコルの詳細な説明(すなわち、データセットとメトリクス)を提供する。
三 更なる調査のための現在のベンチマーク設計の潜在的な問題及び研究の方向性を詳細に検討すること。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
具体的には,2段階の手法,エンドツーエンドの手法,強化学習に基づく手法,弱教師付き手法の4つのカテゴリに分類することで,既存のTSGVアプローチについて議論する。
次に、現在の研究進捗を評価するためのベンチマークデータセットと評価指標を示す。
最後に,TSGVにおける最先端の研究を推し進めるであろう,現在の評価プロトコルで不適切に解決された潜在的な問題を指摘することによって,TSGVのいくつかの制限について論じる。
さらに、TSGVに基づいた新しい実践的な設定を備えた3つの典型的なタスクを含む、いくつかの有望な方向性に関する洞察も共有しています。 Temporal sentence grounding in videos~(TSGV), which aims to localize one target segment from an untrimmed video with respect to a given sentence query, has drawn increasing attentions in the research community over the past few years. Different from the task of temporal action localization, TSGV is more flexible since it can locate complicated activities via natural languages, without restrictions from predefined action categories. Meanwhile, TSGV is more challenging since it requires both textual and visual understanding for semantic alignment between two modalities~(i.e., text and video). In this survey, we give a comprehensive overview for TSGV, which i) summarizes the taxonomy of existing methods, ii) provides a detailed description of the evaluation protocols~(i.e., datasets and metrics) to be used in TSGV, and iii) in-depth discusses potential problems of current benchmarking designs and research directions for further investigations. To the best of our knowledge, this is the first systematic survey on temporal sentence grounding. More specifically, we first discuss existing TSGV approaches by grouping them into four categories, i.e., two-stage methods, end-to-end methods, reinforcement learning-based methods, and weakly supervised methods. Then we present the benchmark datasets and evaluation metrics to assess current research progress. Finally, we discuss some limitations in TSGV through pointing out potential problems improperly resolved in the current evaluation protocols, which may push forwards more cutting edge research in TSGV. Besides, we also share our insights on several promising directions, including three typical tasks with new and practical settings based on TSGV. | 翻訳日:2021-09-17 14:09:31 公開日:2021-09-16 |
# 動き予測における文脈認識の促進 Raising context awareness in motion forecasting ( http://arxiv.org/abs/2109.08048v1 ) ライセンス: Link先を確認 | H\'edi Ben-Younes, \'Eloi Zablocki, Micka\"el Chen, Patrick P\'erez, Matthieu Cord | (参考訳) 学習に基づく軌道予測モデルは非常に成功しており、動き履歴に加えて文脈情報を活用することを約束している。
しかし、最先端の予測手法はエージェントのダイナミクスに過度に依存する傾向にあり、入力時に提供される意味的手がかりを活用できない。
そこで本研究では,意味的文脈情報の利用を促進するためのトレーニング手順を備えた動き予測モデルであるCABを紹介する。
また、連続する予測の時間的一貫性を測定するために、2つの新しい指標(分散と収束-距離)を導入する。
本手法は,広く採用されているnuScenes予測ベンチマークで評価する。 Learning-based trajectory prediction models have encountered great success, with the promise of leveraging contextual information in addition to motion history. Yet, we find that state-of-the-art forecasting methods tend to overly rely on the agent's dynamics, failing to exploit the semantic cues provided at its input. To alleviate this issue, we introduce CAB, a motion forecasting model equipped with a training procedure designed to promote the use of semantic contextual information. We also introduce two novel metrics -- dispersion and convergence-to-range -- to measure the temporal consistency of successive forecasts, which we found missing in standard metrics. Our method is evaluated on the widely adopted nuScenes Prediction benchmark. | 翻訳日:2021-09-17 14:09:04 公開日:2021-09-16 |
# 質問生成と読解理解を用いたゼロショットオープン情報抽出 Zero-Shot Open Information Extraction using Question Generation and Reading Comprehension ( http://arxiv.org/abs/2109.08079v1 ) ライセンス: Link先を確認 | Himanshu Gupta, Amogh Badugu, Tamanna Agrawal, Himanshu Sharad Bhatt | (参考訳) 一般に、オープン情報抽出(openie)は、主題、関係、および関係の対象を表す三重項の抽出に焦点を当てている。
しかし、既存の技術のほとんどは、これらの関係が不明な新しい領域(例えば財務文書など)に適用性を制限する、各ドメインの事前定義された関係に基づいている。
本稿では,mrcモデルを用いて文からエンティティ(値)とその記述(キー)を抽出するゼロショットオープン情報抽出手法を提案する。
このモデルに対する入力質問は、新しい名詞句生成法を用いて作成される。
本手法は文の文脈を考慮に入れ、我々の技術領域を独立にするための様々な質問を作成できる。
質問や文が与えられた場合,本手法はMCCモデルを用いてエンティティ(値)を抽出する。
疑問に対応する名詞句は、最も信頼度が高いもので、その記述(キー)として扱われる。
本稿では,米国証券取引委員会(SEC)に上場している企業からの公開財務文書に基づくEDGAR10-Qデータセットについても紹介する。
データセットは、段落、タグ付き値(エンティティ)、キー(記述)で構成され、エンティティ抽出データセットの中でも最大である。
このデータセットは、特に金融分野において、研究コミュニティに貴重な追加となるでしょう。
最後に,EDGAR10-QとAde corpusの薬物服用データセットに対する提案手法の有効性を示し,86.84 %,97%の精度を得た。 Typically, Open Information Extraction (OpenIE) focuses on extracting triples, representing a subject, a relation, and the object of the relation. However, most of the existing techniques are based on a predefined set of relations in each domain which limits their applicability to newer domains where these relations may be unknown such as financial documents. This paper presents a zero-shot open information extraction technique that extracts the entities (value) and their descriptions (key) from a sentence, using off the shelf machine reading comprehension (MRC) Model. The input questions to this model are created using a novel noun phrase generation method. This method takes the context of the sentence into account and can create a wide variety of questions making our technique domain independent. Given the questions and the sentence, our technique uses the MRC model to extract entities (value). The noun phrase corresponding to the question, with the highest confidence, is taken as the description (key). This paper also introduces the EDGAR10-Q dataset which is based on publicly available financial documents from corporations listed in US securities and exchange commission (SEC). The dataset consists of paragraphs, tagged values (entities), and their keys (descriptions) and is one of the largest among entity extraction datasets. This dataset will be a valuable addition to the research community, especially in the financial domain. Finally, the paper demonstrates the efficacy of the proposed technique on the EDGAR10-Q and Ade corpus drug dosage datasets, where it obtained 86.84 % and 97% accuracy, respectively. | 翻訳日:2021-09-17 14:08:22 公開日:2021-09-16 |
# マルチタスクオフライン強化学習のための保守的データ共有 Conservative Data Sharing for Multi-Task Offline Reinforcement Learning ( http://arxiv.org/abs/2109.08128v1 ) ライセンス: Link先を確認 | Tianhe Yu, Aviral Kumar, Yevgen Chebotar, Karol Hausman, Sergey Levine, Chelsea Finn | (参考訳) オフライン強化学習(RL)アルゴリズムは、豊富な事前収集データが存在する領域で有望な結果を示している。
しかしながら、従来の方法はオフラインのrlエージェントが複数のスキルを習得する方法を考慮せずに、オフラインデータセットで個々の問題をスクラッチから解決することに焦点を当てている。
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをさまざまなタスクの解決に利用し、これらのデータを利用して各タスクを個別にトレーニングするのではなく、すべてのタスクの振る舞いを効果的に学習する、という設定にある、と我々は主張する。
しかし、マルチタスクオフラインRLにおける全タスク間でのデータ共有は、実際驚くほど不十分である。
徹底的な実証分析では、データ共有は学習したポリシーとデータセットの分散的な変化を悪化させ、結果として学習したポリシーと低いパフォーマンスの相違を引き起こす可能性がある。
この課題に対処するために、タスク固有のデータの改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有の簡単な手法を開発した。
我々はこれを保守的データ共有(CDS)と呼び、複数の単一タスクのオフラインRL手法で適用することができる。
マルチタスクのロコモーション、ナビゲーション、視覚に基づくロボット操作の問題に挑戦する範囲において、CDSは以前のオフラインマルチタスクRL法や以前のデータ共有アプローチと比較して、最高または同等のパフォーマンスを達成する。 Offline reinforcement learning (RL) algorithms have shown promising results in domains where abundant pre-collected data is available. However, prior methods focus on solving individual problems from scratch with an offline dataset without considering how an offline RL agent can acquire multiple skills. We argue that a natural use case of offline RL is in settings where we can pool large amounts of data collected in various scenarios for solving different tasks, and utilize all of this data to learn behaviors for all the tasks more effectively rather than training each one in isolation. However, sharing data across all tasks in multi-task offline RL performs surprisingly poorly in practice. Thorough empirical analysis, we find that sharing data can actually exacerbate the distributional shift between the learned policy and the dataset, which in turn can lead to divergence of the learned policy and poor performance. To address this challenge, we develop a simple technique for data-sharing in multi-task offline RL that routes data based on the improvement over the task-specific data. We call this approach conservative data sharing (CDS), and it can be applied with multiple single-task offline RL methods. On a range of challenging multi-task locomotion, navigation, and vision-based robotic manipulation problems, CDS achieves the best or comparable performance compared to prior offline multi-task RL methods and previous data sharing approaches. | 翻訳日:2021-09-17 14:07:57 公開日:2021-09-16 |
# 無線通信における深層学習に基づく電力制御に対する敵対的攻撃 Adversarial Attacks against Deep Learning Based Power Control in Wireless Communications ( http://arxiv.org/abs/2109.08139v1 ) ライセンス: Link先を確認 | Brian Kim and Yi Shi and Yalin E. Sagduyu and Tugba Erpek and Sennur Ulukus | (参考訳) 本稿では,基地局(bs)が複数の直交サブキャリアに送信電力を割り当てる電力割当に基づく機械学習攻撃について,ディープニューラルネットワーク(dnn)を用いて複数のユーザ機器(ues)にサービスを提供する。
回帰モデルに対応するDNNは、入力および割り当てられた送信電力を出力としてチャネルゲインで訓練される。
BS は UE に送信電力を割り当てて全ての UE のレートを最大化する一方で、これらのレートを最小化する敵が存在する。
相手は、チャネルゲインを測定するために送信されるパイロット信号に干渉することにより、DNNへの入力を操作することを目的とした外部送信機かもしれない。
あるいは、敵は、製造されたチャネル推定値をBSに送信するローグUEかもしれない。
いずれの場合も、敵は、これらの摂動の強さの上限となるbsのdnnへの入力を操作するために、敵の摂動を慎重に作っている。
攻撃対象は単一UEまたは全UEである。
これらの攻撃を、敵がDNNに入力をスケールダウンするベンチマークと比較する。
敵攻撃は,通信速度の低下の観点から,ベンチマーク攻撃よりもはるかに効果的であることを示す。
また,敵の攻撃は,チャネルゲインの誤った知識や,攻撃を正確に行う際の潜在的な誤りなど,敵側の不確実性に対して頑健であることを示す。 We consider adversarial machine learning based attacks on power allocation where the base station (BS) allocates its transmit power to multiple orthogonal subcarriers by using a deep neural network (DNN) to serve multiple user equipments (UEs). The DNN that corresponds to a regression model is trained with channel gains as the input and allocated transmit powers as the output. While the BS allocates the transmit power to the UEs to maximize rates for all UEs, there is an adversary that aims to minimize these rates. The adversary may be an external transmitter that aims to manipulate the inputs to the DNN by interfering with the pilot signals that are transmitted to measure the channel gain. Alternatively, the adversary may be a rogue UE that transmits fabricated channel estimates to the BS. In both cases, the adversary carefully crafts adversarial perturbations to manipulate the inputs to the DNN of the BS subject to an upper bound on the strengths of these perturbations. We consider the attacks targeted on a single UE or all UEs. We compare these attacks with a benchmark, where the adversary scales down the input to the DNN. We show that adversarial attacks are much more effective than the benchmark attack in terms of reducing the rate of communications. We also show that adversarial attacks are robust to the uncertainty at the adversary including the erroneous knowledge of channel gains and the potential errors in exercising the attacks exactly as specified. | 翻訳日:2021-09-17 14:07:30 公開日:2021-09-16 |
# DeepMTS: PET/CTによる進行鼻咽頭癌の生存予測のための深層マルチタスク学習 DeepMTS: Deep Multi-task Learning for Survival Prediction in Patients with Advanced Nasopharyngeal Carcinoma using Pretreatment PET/CT ( http://arxiv.org/abs/2109.07711v1 ) ライセンス: Link先を確認 | Mingyuan Meng, Bingxin Gu, Lei Bi, Shaoli Song, David Dagan Feng, and Jinman Kim | (参考訳) 鼻咽頭癌 (NPC) は世界中の悪性上皮癌である。
生存予測はNPC患者にとって大きな関心事であり、治療のガイドに必要な早期予後情報を提供する。
近年,深層ニューラルネットワーク(DNN)を用いて画像パターンの深部表現を学習する深層学習が,NPCを含む様々ながんの生存予測に導入されている。
画像由来のエンド・ツー・エンドのディープサバイバルモデルが臨床予後指標や従来のx線学的サバイバルモデルよりも予後に優れる可能性があると報告されている。
しかし、ディープサバイバルモデル、特に3Dモデルは、過度な適合を避けるために大きな画像トレーニングデータを必要とする。
残念ながら、PET/CTスキャンのコストが高いため、特にPET/CT(Positron Emission Tomography/Computed Tomography)では医療画像データが不足している。
腫瘍の解剖学的情報のみを提供する磁気共鳴画像(MRI)やCT(CT)と比較して、解剖学的情報(CT)と代謝的情報(PET)の両方を提供するPET/CTは、より正確な生存予測を達成することを約束している。
しかし,NPC患者のPET/CTデータに適用可能な3次元深層生存モデルは見出されていない。
本研究では,小さなデータから生じる過剰適合問題に対処するために,深部生存モデルに重ねるマルチタスクの概念を導入した。
PET/CTデータからの学習効率を高めるため,腫瘍の分節化を補助的タスクとして組み込んだ。
そこで本研究では,3次元エンド・ツー・エンドのディープ・マルチタスク・サバイバルモデル(deepmts)を提案する。
進行npc患者170例のpet/ctデータを用いて,deepmtsは生存予測と腫瘍分画を共同学習できる。 Nasopharyngeal Carcinoma (NPC) is a worldwide malignant epithelial cancer. Survival prediction is a major concern for NPC patients, as it provides early prognostic information that is needed to guide treatments. Recently, deep learning, which leverages Deep Neural Networks (DNNs) to learn deep representations of image patterns, has been introduced to the survival prediction in various cancers including NPC. It has been reported that image-derived end-to-end deep survival models have the potential to outperform clinical prognostic indicators and traditional radiomics-based survival models in prognostic performance. However, deep survival models, especially 3D models, require large image training data to avoid overfitting. Unfortunately, medical image data is usually scarce, especially for Positron Emission Tomography/Computed Tomography (PET/CT) due to the high cost of PET/CT scanning. Compared to Magnetic Resonance Imaging (MRI) or Computed Tomography (CT) providing only anatomical information of tumors, PET/CT that provides both anatomical (from CT) and metabolic (from PET) information is promising to achieve more accurate survival prediction. However, we have not identified any 3D end-to-end deep survival model that applies to small PET/CT data of NPC patients. In this study, we introduced the concept of multi-task leaning into deep survival models to address the overfitting problem resulted from small data. Tumor segmentation was incorporated as an auxiliary task to enhance the model's efficiency of learning from scarce PET/CT data. Based on this idea, we proposed a 3D end-to-end Deep Multi-Task Survival model (DeepMTS) for joint survival prediction and tumor segmentation. Our DeepMTS can jointly learn survival prediction and tumor segmentation using PET/CT data of only 170 patients with advanced NPC. | 翻訳日:2021-09-17 14:07:09 公開日:2021-09-16 |
# 広帯域環境における部分観察可能な視覚ナビゲーション End-to-End Partially Observable Visual Navigation in a Diverse Environment ( http://arxiv.org/abs/2109.07752v1 ) ライセンス: Link先を確認 | Bo Ai, Wei Gao, Vinay, David Hsu | (参考訳) ロボットは、屋内や屋外、オフィスの廊下や公園の小道、平らな地面、階段、エレベーターなどに沿って、豊かで多様な環境でうまく移動できるのだろうか?
この目的のために、この研究は3つの課題を目指しています。
(i)複雑な視覚観察。
(ii)局所センシングの部分的可観測性、及び
(iii)局所環境と高レベル目標の両方に依存するマルチモーダルナビゲーション行動。
ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。
複雑な視覚観察に取り組むため,畳み込み層を通して多スケール空間情報を抽出する。
部分観測可能性に対処するため、LSTMのようなモジュールで豊富な履歴情報をエンコードする。
重要なことに、この2つを単一の統一アーキテクチャに統合し、畳み込みメモリセルを利用して複数の空間スケールでの観測履歴を追跡し、観測と制御の間の複雑な時空間依存性を捉えることができる。
さらに、異なるナビゲーション動作モードを生成するために、ネットワークをハイレベルな目標に設定する。
具体的には,独立したメモリセルを異なるモードに使用することで,学習方針のモード崩壊を防止することを提案する。
本研究では,SPOTロボットにNNコントローラを実装し,対向歩行者回避,盲点障害物回避,エレベーター乗馬の3つの課題について評価した。
我々のモデルは、CNN、従来のLSTM、またはモデルの短縮バージョンよりも大幅に優れています。
デモビデオが公開され、私たちの大学キャンパスの様々な場所を横断するspotロボットが紹介される。 How can a robot navigate successfully in a rich and diverse environment, indoors or outdoors, along an office corridor or a trail in the park, on the flat ground, the staircase, or the elevator, etc.? To this end, this work aims at three challenges: (i) complex visual observations, (ii) partial observability of local sensing, and (iii) multimodal navigation behaviors that depend on both the local environment and the high-level goal. We propose a novel neural network (NN) architecture to represent a local controller and leverage the flexibility of the end-to-end approach to learn a powerful policy. To tackle complex visual observations, we extract multiscale spatial information through convolution layers. To deal with partial observability, we encode rich history information in LSTM-like modules. Importantly, we integrate the two into a single unified architecture that exploits convolutional memory cells to track the observation history at multiple spatial scales, which can capture the complex spatiotemporal dependencies between observations and controls. We additionally condition the network on the high-level goal in order to generate different navigation behavior modes. Specifically, we propose to use independent memory cells for different modes to prevent mode collapse in the learned policy. We implemented the NN controller on the SPOT robot and evaluate it on three challenging tasks with partial observations: adversarial pedestrian avoidance, blind-spot obstacle avoidance, and elevator riding. Our model significantly outperforms CNNs, conventional LSTMs, or the ablated versions of our model. A demo video will be publicly available, showing our SPOT robot traversing many different locations on our university campus. | 翻訳日:2021-09-17 14:06:39 公開日:2021-09-16 |
# クオリティに配慮した心内MRI画像再構成とアンダーサンプルk空間データの解析 Quality-aware Cine Cardiac MRI Reconstruction and Analysis from Undersampled k-space Data ( http://arxiv.org/abs/2109.07955v1 ) ライセンス: Link先を確認 | Ines Machado, Esther Puyol-Anton, Kerstin Hammernik, Gastao Cruz, Devran Ugurlu, Bram Ruijsink, Miguel Castelo-Branco, Alistair Young, Claudia Prieto, Julia A. Schnabel, Andrew P. King | (参考訳) 心臓MRIは心臓の健康評価のために日常的に取得されるが、撮像プロセスは遅く、通常、良好な画像品質を確保するのに十分なk空間プロファイルを取得するために呼吸ホールドを必要とする。
過去数十年間、心臓のMRI取得を高速化するアンダーサンプリングベースの再建技術が提案されている。
しかし、アンダーサンプリング係数は通常、診断画像の品質を確保するために取得前の保守的な値に固定される。
本稿では, 画像取得と再構成と, セグメンテーション, 体積曲線解析, 心機能パラメータ推定などの下流タスクを併用した, エンドツーエンド品質を意識した短軸MRIフレームワークを提案する。
目標は、k空間データのほんの一部を取得するだけでスキャン時間を短縮し、品質管理チェックをパスし、心機能パラメータの信頼性の高い推定を可能にすることである。
本フレームワークは、アンダーサンプルデータから2D+t心筋MRI画像の再構成のためのディープラーニングモデルと、良質な再構成を検出する画像品質制御ステップと、両室セグメンテーションのためのディープラーニングモデルと、良質なセグメンテーションを検出する品質制御ステップと、心機能パラメータの自動計算からなる。
提案手法の有効性を実証するため,英国バイオバンク(n=270),健常者200名,心疾患患者70名から選択した参加者のコホートを用いてシミュレーションを行った。
その結果,1スライスあたり12秒から4秒のスキャン時間で品質制御画像を生成することができ,5%以内の射出率などの心機能パラメータの信頼性の高い推定が可能となった。 Cine cardiac MRI is routinely acquired for the assessment of cardiac health, but the imaging process is slow and typically requires several breath-holds to acquire sufficient k-space profiles to ensure good image quality. Several undersampling-based reconstruction techniques have been proposed during the last decades to speed up cine cardiac MRI acquisition. However, the undersampling factor is commonly fixed to conservative values before acquisition to ensure diagnostic image quality, potentially leading to unnecessarily long scan times. In this paper, we propose an end-to-end quality-aware cine short-axis cardiac MRI framework that combines image acquisition and reconstruction with downstream tasks such as segmentation, volume curve analysis and estimation of cardiac functional parameters. The goal is to reduce scan time by acquiring only a fraction of k-space data to enable the reconstruction of images that can pass quality control checks and produce reliable estimates of cardiac functional parameters. The framework consists of a deep learning model for the reconstruction of 2D+t cardiac cine MRI images from undersampled data, an image quality-control step to detect good quality reconstructions, followed by a deep learning model for bi-ventricular segmentation, a quality-control step to detect good quality segmentations and automated calculation of cardiac functional parameters. To demonstrate the feasibility of the proposed approach, we perform simulations using a cohort of selected participants from the UK Biobank (n=270), 200 healthy subjects and 70 patients with cardiomyopathies. Our results show that we can produce quality-controlled images in a scan time reduced from 12 to 4 seconds per slice, enabling reliable estimates of cardiac functional parameters such as ejection fraction within 5% mean absolute error. | 翻訳日:2021-09-17 14:06:13 公開日:2021-09-16 |
# objectfolder:暗黙の視覚的、聴覚的、触覚的な表現を持つオブジェクトのデータセット ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations ( http://arxiv.org/abs/2109.07991v1 ) ライセンス: Link先を確認 | Ruohan Gao, Yen-Yu Chang, Shivani Mall, Li Fei-Fei, Jiajun Wu | (参考訳) 近年、多感覚オブジェクト中心の知覚、推論、相互作用が重要な研究課題となっている。
しかし、これらの方向の進歩は、利用可能な小さなオブジェクトセットによって制限されている。合成オブジェクトは十分に現実的ではなく、主に幾何学を中心にしているが、ycbのような実際のオブジェクトデータセットは、国際的な出荷、在庫、財務コストのために、事実上困難で不安定である。
ObjectFolderは100の仮想オブジェクトからなるデータセットで、両方の課題に2つの重要なイノベーションで対処します。
まず、ObjectFolderは視覚的、聴覚的、触覚的な感覚データをすべてのオブジェクトにエンコードし、オブジェクトの幾何学に純粋にフォーカスする既存のデータセットを超えて、多くのマルチセンサーオブジェクト認識タスクを可能にします。
第二に、ObjectFolderは各オブジェクトの視覚的テクスチャ、音響シミュレーション、触覚的な読みに一様でオブジェクト中心で暗黙的な表現を採用しており、データセットを柔軟に使いやすく、共有しやすくしている。
本稿では,多感覚知覚と制御のためのテストベッドとしてのデータセットの有用性を,インスタンス認識,クロスセンサ検索,3次元再構成,ロボット認識など,さまざまなベンチマークタスクで評価する。 Multisensory object-centric perception, reasoning, and interaction have been a key research topic in recent years. However, the progress in these directions is limited by the small set of objects available -- synthetic objects are not realistic enough and are mostly centered around geometry, while real object datasets such as YCB are often practically challenging and unstable to acquire due to international shipping, inventory, and financial cost. We present ObjectFolder, a dataset of 100 virtualized objects that addresses both challenges with two key innovations. First, ObjectFolder encodes the visual, auditory, and tactile sensory data for all objects, enabling a number of multisensory object recognition tasks, beyond existing datasets that focus purely on object geometry. Second, ObjectFolder employs a uniform, object-centric, and implicit representation for each object's visual textures, acoustic simulations, and tactile readings, making the dataset flexible to use and easy to share. We demonstrate the usefulness of our dataset as a testbed for multisensory perception and control by evaluating it on a variety of benchmark tasks, including instance recognition, cross-sensory retrieval, 3D reconstruction, and robotic grasping. | 翻訳日:2021-09-17 14:05:38 公開日:2021-09-16 |
# 自然シーン画像におけるウルドゥー文字:新しいデータセットと予備テキスト検出 Urdu text in natural scene images: a new dataset and preliminary text detection ( http://arxiv.org/abs/2109.08060v1 ) ライセンス: Link先を確認 | Hazrat Ali, Khalid Iqbal, Ghulam Mujtaba, Ahmad Fayyaz, Mohammad Farhad Bulbul, Fazal Wahab Karam and Ali Zahir | (参考訳) コンテンツ解析のための自然シーン画像中のテキスト検出は興味深い課題である。
研究コミュニティは英語とマンダリンのテキスト検出に大きな進歩を遂げてきた。
しかし,自然シーン画像におけるウルドゥー語のテキスト抽出は未解決な課題である。
本研究では,まず,自然シーン画像中のUrduテキストに新しいデータセットを導入する。
データセットは、実際のシーンから取得した500のスタンドアロンイメージで構成されている。
次に、最大安定な四肢領域(mser)法を適用し、画像中の候補としてウルドゥテキスト領域を抽出する。
非候補領域を除去するために二段階フィルタリング機構が適用される。
第1段階では、テキストとノイズはその幾何学的性質に基づいて分類される。
第2段階では、サポートベクトルマシン分類器が訓練され、非テキスト候補領域を破棄する。
その後、テキスト候補領域は、センタロイドベースの垂直距離と水平距離でリンクされる。
テキスト行はさらにHOG機能に基づいて異なる分類器によって分析され、非テキスト領域を削除する。
パフォーマンスを評価するために、ローカルに開発されたデータセットで広範囲の実験が行われる。
実験結果は,テストセット画像において良好な性能を示す。
データセットは研究用に提供される予定だ。
我々の知る限りでは、この研究はウルドゥー語にとって最初のものであり、自由な研究用データセットを提供し、ウルドゥー語テキスト抽出のタスクにおけるベースラインのパフォーマンスとして機能する。 Text detection in natural scene images for content analysis is an interesting task. The research community has seen some great developments for English/Mandarin text detection. However, Urdu text extraction in natural scene images is a task not well addressed. In this work, firstly, a new dataset is introduced for Urdu text in natural scene images. The dataset comprises of 500 standalone images acquired from real scenes. Secondly, the channel enhanced Maximally Stable Extremal Region (MSER) method is applied to extract Urdu text regions as candidates in an image. Two-stage filtering mechanism is applied to eliminate non-candidate regions. In the first stage, text and noise are classified based on their geometric properties. In the second stage, a support vector machine classifier is trained to discard non-text candidate regions. After this, text candidate regions are linked using centroid-based vertical and horizontal distances. Text lines are further analyzed by a different classifier based on HOG features to remove non-text regions. Extensive experimentation is performed on the locally developed dataset to evaluate the performance. The experimental results show good performance on test set images. The dataset will be made available for research use. To the best of our knowledge, the work is the first of its kind for the Urdu language and would provide a good dataset for free research use and serve as a baseline performance on the task of Urdu text extraction. | 翻訳日:2021-09-17 14:05:17 公開日:2021-09-16 |
# MOVER: ハイパーブート生成のためのマスク、オーバージェネレーション、ランク MOVER: Mask, Over-generate and Rank for Hyperbole Generation ( http://arxiv.org/abs/2109.07726v1 ) ライセンス: Link先を確認 | Yunxiang Zhang, Xiaojun Wan | (参考訳) ハイパーボイルは音声の共通表現であるにもかかわらず、その識別タスクを扱った研究が少なからず行われている。
本稿では,リテラル文をそのハイパーボラパラフレーズに転送するハイパーボラ生成の新しいタスクを提案する。
利用可能な双曲文の欠如に対処するために,17,862個の双曲文を含む最初の大規模双曲コーパスであるhypo-xlを非自明な方法で構築する。
本稿では,並列リテラルとハイパーボイルのペアを必要とせず,教師なしのハイパーボイル生成法を提案する。
訓練中は,HyPO-XLから得られた多文のマスク付き多文を埋め込むためにBARTを微調整した。
推論中、入力リテラル文の一部をマスクし、複数の双曲バージョンを過剰に生成する。
そして、BERTベースのランク付け器は、双曲性およびパラフレーズ品質により最適な候補を選択する。
人間評価の結果,このモデルは双曲的パラフロー文を生成でき,複数のベースラインシステムよりも優れていた。 Despite being a common figure of speech, hyperbole is under-researched with only a few studies addressing its identification task. In this paper, we introduce a new task of hyperbole generation to transfer a literal sentence into its hyperbolic paraphrase. To tackle the lack of available hyperbolic sentences, we construct HYPO-XL, the first large-scale hyperbole corpus containing 17,862 hyperbolic sentences in a non-trivial way. Based on our corpus, we propose an unsupervised method for hyperbole generation with no need for parallel literal-hyperbole pairs. During training, we fine-tune BART to infill masked hyperbolic spans of sentences from HYPO-XL. During inference, we mask part of an input literal sentence and over-generate multiple possible hyperbolic versions. Then a BERT-based ranker selects the best candidate by hyperbolicity and paraphrase quality. Human evaluation results show that our model is capable of generating hyperbolic paraphrase sentences and outperforms several baseline systems. | 翻訳日:2021-09-17 14:03:49 公開日:2021-09-16 |
# 共感対話生成のための感情コンセンサスの構築と非ペアデータの利用 Constructing Emotion Consensus and Utilizing Unpaired Data for Empathetic Dialogue Generation ( http://arxiv.org/abs/2109.07779v1 ) ライセンス: Link先を確認 | Lei Shen, Jinchao Zhang, Jiao Ou, Xiaofang Zhao, Jie Zhou | (参考訳) 対話共感の研究は、感情に対する正確な理解と適切な反応の能力を持つエージェントを養うことを目的としている。
共感的対話生成のための既存のモデルでは、感情の流れを文脈から反応へと一方向に集中している。
我々は、共感的な会話を行うことは双方向のプロセスであり、2人の対話者の感情が同じ点、すなわち感情のコンセンサスに達するときに共感が起こると論じている。
また,共感的対話コーパスは極めて限定的であり,モデル性能がさらに制限されることがわかった。
上記の問題に対処するために,感情コンセンサスの構築と外部非ペアデータの利用を同時に行うために,デュアル生成モデルであるdual-empを提案する。
具体的には,前方対話モデル,後方対話モデル,感情コンセンサスを表す離散的潜在変数を統一アーキテクチャに統合する。
次に、ペアデータの制約を緩和するために、オープンドメイン会話から非ペア感情データを抽出し、デュアルempを用いて擬似ペア共感サンプルを作成し、人間のアノテーションよりも効率的で低コストな方法を提案する。
自動評価と人的評価は,コヒーレントで共感的な反応を生み出す際の競争基準よりも優れていることを示す。 Researches on dialogue empathy aim to endow an agent with the capacity of accurate understanding and proper responding for emotions. Existing models for empathetic dialogue generation focus on the emotion flow in one direction, that is, from the context to response. We argue that conducting an empathetic conversation is a bidirectional process, where empathy occurs when the emotions of two interlocutors could converge on the same point, i.e., reaching an emotion consensus. Besides, we also find that the empathetic dialogue corpus is extremely limited, which further restricts the model performance. To address the above issues, we propose a dual-generative model, Dual-Emp, to simultaneously construct the emotion consensus and utilize some external unpaired data. Specifically, our model integrates a forward dialogue model, a backward dialogue model, and a discrete latent variable representing the emotion consensus into a unified architecture. Then, to alleviate the constraint of paired data, we extract unpaired emotional data from open-domain conversations and employ Dual-Emp to produce pseudo paired empathetic samples, which is more efficient and low-cost than the human annotation. Automatic and human evaluations demonstrate that our method outperforms competitive baselines in producing coherent and empathetic responses. | 翻訳日:2021-09-17 14:03:33 公開日:2021-09-16 |
# mfe-ner:中国のエンティティ認識のための多機能融合埋め込み MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition ( http://arxiv.org/abs/2109.07877v1 ) ライセンス: Link先を確認 | Jiatong Li and Kui Meng | (参考訳) 事前学習された言語モデルは、名前付きエンティティ認識(ner)を新しい時代へと導く一方で、特定の問題におけるパフォーマンスを改善するために、さらなる知識が必要になる。
中国語のNERでは、文字置換は複雑な言語現象である。
いくつかの漢字は、同じ成分を共有したり、類似の発音を持つのによく似ている。
名前付きエンティティの文字を類似の文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。
インターネット時代にはさらに一般的になり、インターネット検閲を避けたり、単に楽しんだりするためによく使われる。
このような文字置換は、新しいコロケーションが時々存在するため、事前訓練された言語モデルと親和性がない。
結果として、NERタスクでは認識できない、あるいは認識できないエラーにつながる。
本稿では,中国語固有体認識のための多機能融合埋め込み法(mfe-ner)を提案し,中国語の言語パターンを強化し,中国語固有体認識における文字置換問題に対処する。
MFEはセマンティック、グリフ、音声機能を融合する。
グリフ領域では、構造特徴を表すために漢字を構成要素に分解し、類似した構造を持つ文字が密接な埋め込み空間表現を持つようにする。
また,漢字間の音韻類似度を合理的に計算できるように,音声システムの改良も提案されている。
実験により,中国語nerの全体的な性能が向上し,特に非公式言語環境での性能が向上することを示す。 Pre-trained language models lead Named Entity Recognition (NER) into a new era, while some more knowledge is needed to improve their performance in specific problems. In Chinese NER, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar for sharing the same components or having similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. It becomes even more common in the Internet age and is often used to avoid Internet censorship or just for fun. Such character substitution is not friendly to those pre-trained language models because the new collocations are occasional. As a result, it always leads to unrecognizable or recognition errors in the NER task. In this paper, we propose a new method, Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER), to strengthen the language pattern of Chinese and handle the character substitution problem in Chinese Named Entity Recognition. MFE fuses semantic, glyph, and phonetic features together. In the glyph domain, we disassemble Chinese characters into components to denote structure features so that characters with similar structures can have close embedding space representation. Meanwhile, an improved phonetic system is also proposed in our work, making it reasonable to calculate phonetic similarity among Chinese characters. Experiments demonstrate that our method improves the overall performance of Chinese NER and especially performs well in informal language environments. | 翻訳日:2021-09-17 14:03:10 公開日:2021-09-16 |
# 検索法を検索しない - 逆テキスト攻撃に対する単純なヒューリスティックス Don't Search for a Search Method -- Simple Heuristics Suffice for Adversarial Text Attacks ( http://arxiv.org/abs/2109.07926v1 ) ライセンス: Link先を確認 | Nathaniel Berger, Stefan Riezler, Artem Sokolov, Sebastian Ebert | (参考訳) 近年,自然言語処理(NLP)のためのニューラルネットワークに対する敵攻撃に注目が集まっている。
中心的な研究テーマは、ベンチマークアルゴリズムとタスクを伴う検索アルゴリズムと検索制約の調査である。
ゼロオーダー最適化に基づく攻撃にインスパイアされたアルゴリズムを実装し、TextAttackフレームワークのベンチマーク結果と比較する。
驚くべきことに、最適化に基づく手法は制約付きセットアップでは改善されず、検索スペースが大きい制約付き設定でのみ近似勾配情報を利用できる。
対照的に、目標関数を問合せせずに最も近い隣人を利用する単純なヒューリスティックは、制約された設定でかなりの成功率をもたらし、訓練されていない設定でほぼ完全な成功率を、非常に少ないクエリで得る。
これらの結果から、現在のTextAttackベンチマークタスクは簡単すぎて制約が厳しすぎて、ブラックボックスの敵対的テキスト攻撃に関する有意義な研究が妨げられていると結論付けた。 Recently more attention has been given to adversarial attacks on neural networks for natural language processing (NLP). A central research topic has been the investigation of search algorithms and search constraints, accompanied by benchmark algorithms and tasks. We implement an algorithm inspired by zeroth order optimization-based attacks and compare with the benchmark results in the TextAttack framework. Surprisingly, we find that optimization-based methods do not yield any improvement in a constrained setup and slightly benefit from approximate gradient information only in unconstrained setups where search spaces are larger. In contrast, simple heuristics exploiting nearest neighbors without querying the target function yield substantial success rates in constrained setups, and nearly full success rate in unconstrained setups, at an order of magnitude fewer queries. We conclude from these results that current TextAttack benchmark tasks are too easy and constraints are too strict, preventing meaningful research on black-box adversarial text attacks. | 翻訳日:2021-09-17 14:02:47 公開日:2021-09-16 |
# RetrievalSum: 抽象的な要約のための検索強化フレームワーク RetrievalSum: A Retrieval Enhanced Framework for Abstractive Summarization ( http://arxiv.org/abs/2109.07943v1 ) ライセンス: Link先を確認 | Chenxin An, Ming Zhong, Zhichao Geng, Jianqiang Yang, Xipeng Qiu | (参考訳) 既存の要約システムは、主にソース文書の内容に依存した要約を生成する。
しかし、人間にとってでさえ、ソースドキュメントを十分に理解し、特定のフォーマットで要約を書くのに、通常、いくつかの参照や例証が必要です。
しかし、どのようにして高品質な模範を見つけ、それらを要約システムに組み込むかは、いまだに困難で検討に値する。
本稿では,RetrievalSumを提案する。RetrievalSumは,高密度なRetrieverとSummarizerで構成される,新しい検索拡張抽象要約フレームワークである。
まず、複数の近縁な例題を補足入力として検索し、生成モデルがテキストをより包括的に理解できるようにする。
さらに、検索された例題は、特定のコーパスの書き込みスタイルを捉えるためにモデルを導く役割も果たせる。
提案手法は,複数のドメインにまたがる広範囲な要約データセットと,BERTとBARTの2つのバックボーンモデルで検証する。
その結果, ROUGE-1スコアの1.38~4.66では, 強力な事前学習モデルと比較すると, 大幅な改善が得られ, BillSum上での新たな最先端化が達成された。
人間の評価は、検索強化モデルがドメイン固有の書き込みスタイルをよりうまく捉えられることを示す。 Existing summarization systems mostly generate summaries purely relying on the content of the source document. However, even for humans, we usually need some references or exemplars to help us fully understand the source document and write summaries in a particular format. But how to find the high-quality exemplars and incorporate them into summarization systems is still challenging and worth exploring. In this paper, we propose RetrievalSum, a novel retrieval enhanced abstractive summarization framework consisting of a dense Retriever and a Summarizer. At first, several closely related exemplars are retrieved as supplementary input to help the generation model understand the text more comprehensively. Furthermore, retrieved exemplars can also play a role in guiding the model to capture the writing style of a specific corpus. We validate our method on a wide range of summarization datasets across multiple domains and two backbone models: BERT and BART. Results show that our framework obtains significant improvement by 1.38~4.66 in ROUGE-1 score when compared with the powerful pre-trained models, and achieve new state-of-the-art on BillSum. Human evaluation demonstrates that our retrieval enhanced model can better capture the domain-specific writing style. | 翻訳日:2021-09-17 14:02:29 公開日:2021-09-16 |
# 知識グラフにおけるコンテキスト対応エンティティ型付け Context-aware Entity Typing in Knowledge Graphs ( http://arxiv.org/abs/2109.07990v1 ) ライセンス: Link先を確認 | Weiran Pan, Wei Wei and Xian-Ling Mao | (参考訳) 知識グラフエンティティタイピングは、知識グラフにおけるエンティティの欠落タイプを推測することを目的としている。
本稿では,エンティティの文脈情報を利用した新しいタスク手法を提案する。
具体的には2つの推論メカニズムを 設計しています
i) N2T: 独立してその型を推測するためにエンティティの各隣人を使用する。
ii) Agg2T: エンティティの隣人を集約してその型を推測する。
これらのメカニズムは複数の推論結果を生成し、指数関数的に重み付けされたプーリングメソッドを使用して最終的な推論結果を生成する。
さらに,トレーニング中の偽陰性問題を緩和する新たな損失関数を提案する。
2つの実世界のKG実験により,本手法の有効性が示された。
本論文のソースコードとデータはhttps://github.com/CCIIPLab/CETから取得できる。 Knowledge graph entity typing aims to infer entities' missing types in knowledge graphs which is an important but under-explored issue. This paper proposes a novel method for this task by utilizing entities' contextual information. Specifically, we design two inference mechanisms: i) N2T: independently use each neighbor of an entity to infer its type; ii) Agg2T: aggregate the neighbors of an entity to infer its type. Those mechanisms will produce multiple inference results, and an exponentially weighted pooling method is used to generate the final inference result. Furthermore, we propose a novel loss function to alleviate the false-negative problem during training. Experiments on two real-world KGs demonstrate the effectiveness of our method. The source code and data of this paper can be obtained from https://github.com/CCIIPLab/CET. | 翻訳日:2021-09-17 14:02:08 公開日:2021-09-16 |
# 文脈的埋め込みにおける言語特化情報の位置決め Locating Language-Specific Information in Contextualized Embeddings ( http://arxiv.org/abs/2109.08040v1 ) ライセンス: Link先を確認 | Sheng Liang, Philipp Dufter, Hinrich Sch\"utze | (参考訳) 多言語事前訓練言語モデル(MPLM)は多言語性を示し、言語間の移動に適している。
ほとんどのMPLMは教師なしで訓練されており、目的と多言語の関係は不明確である。
より具体的には、MPLM表現が言語に依存しないのか、単に学習したタスク予測ヘッドと干渉するだけなのかが問題となる。
本研究では,言語固有の情報をmplmに配置し,その次元とその情報が発生する層を同定する。
言語固有の情報は様々な次元に分散し,線形部分空間に投影できることを示す。
本研究は,MPLM表現をよりよく理解し,解析不能な情報の塊として扱うこと以上に貢献する。 Multilingual pretrained language models (MPLMs) exhibit multilinguality and are well suited for transfer across languages. Most MPLMs are trained in an unsupervised fashion and the relationship between their objective and multilinguality is unclear. More specifically, the question whether MPLM representations are language-agnostic or they simply interleave well with learned task prediction heads arises. In this work, we locate language-specific information in MPLMs and identify its dimensionality and the layers where this information occurs. We show that language-specific information is scattered across many dimensions, which can be projected into a linear subspace. Our study contributes to a better understanding of MPLM representations, going beyond treating them as unanalyzable blobs of information. | 翻訳日:2021-09-17 14:01:57 公開日:2021-09-16 |
# MeLT: スタンス検出のための事前訓練としてのマスケ文書表現付きメッセージレベル変換器 MeLT: Message-Level Transformer with Masked Document Representations as Pre-Training for Stance Detection ( http://arxiv.org/abs/2109.08113v1 ) ライセンス: Link先を確認 | Matthew Matero, Nikita Soni, Niranjan Balasubramanian, and H. Andrew Schwartz | (参考訳) 自然言語処理の多くは、大容量の言語モデルを活用することに重点を置いており、通常は1つ以上のトークンを予測するタスクで単一のメッセージで訓練される。
しかし、より高レベルな文脈(すなわちメッセージのシーケンス)での人間の言語モデリングは、未探索である。
メッセージの属性を予測しようとするスタンス検出やその他のソーシャルメディアタスクでは、著者によってゆるく意味的に接続されるコンテキストデータがあります。
本稿では,twitter上で事前学習した階層型メッセージエンコーダであるメッセージレベルトランスフォーマ(melt)を紹介し,スタンス予測のタスクに適用する。
メッセージのコンテキスト(すなわち、前のメッセージのシーケンス)を知ることの恩恵を受けるタスクとして、スタンス予測に注目します。
このモデルはマスク付き言語モデリングの変種を用いて訓練されており、トークンを予測する代わりに、再構成損失を通じてマスク付き(集約された)メッセージベクター全体を生成する。
この事前学習されたマスク付きメッセージレベル変換器を姿勢検出の下流タスクに適用すると、F1性能は67%となる。 Much of natural language processing is focused on leveraging large capacity language models, typically trained over single messages with a task of predicting one or more tokens. However, modeling human language at higher-levels of context (i.e., sequences of messages) is under-explored. In stance detection and other social media tasks where the goal is to predict an attribute of a message, we have contextual data that is loosely semantically connected by authorship. Here, we introduce Message-Level Transformer (MeLT) -- a hierarchical message-encoder pre-trained over Twitter and applied to the task of stance prediction. We focus on stance prediction as a task benefiting from knowing the context of the message (i.e., the sequence of previous messages). The model is trained using a variant of masked-language modeling; where instead of predicting tokens, it seeks to generate an entire masked (aggregated) message vector via reconstruction loss. We find that applying this pre-trained masked message-level transformer to the downstream task of stance detection achieves F1 performance of 67%. | 翻訳日:2021-09-17 14:01:45 公開日:2021-09-16 |
# 因果レンズによるオンラインヘイトスピーチの実態調査 A Survey of Online Hate Speech through the Causal Lens ( http://arxiv.org/abs/2109.08120v1 ) ライセンス: Link先を確認 | Antigoni-Maria Founta and Lucia Specia | (参考訳) デジタル敵意の社会的問題は、これまで多くの注目を集めてきた。
このテーマは豊富な文学を扱っているが、その主観的な性質から、相変わらず目立って挑戦的であり続けている。
この問題をよりよく理解するには、因果推論フレームワークを使う必要があると仮定する。
この調査は、オンラインヘイトスピーチに関連する因果効果の推定に関する関連する研究をまとめたものである。
当初我々は、なぜ因果的な言葉でヘイトスピーチの探索を再確立したのかを議論する。
その後、成果の方向性に関して分類された主要な研究の概要と、関連するすべての研究の概要と、今後の研究に影響を及ぼす可能性のあるオープンな研究課題の概要を述べる。 The societal issue of digital hostility has previously attracted a lot of attention. The topic counts an ample body of literature, yet remains prominent and challenging as ever due to its subjective nature. We posit that a better understanding of this problem will require the use of causal inference frameworks. This survey summarises the relevant research that revolves around estimations of causal effects related to online hate speech. Initially, we provide an argumentation as to why re-establishing the exploration of hate speech in causal terms is of the essence. Following that, we give an overview of the leading studies classified with respect to the direction of their outcomes, as well as an outline of all related research, and a summary of open research problems that can influence future work on the topic. | 翻訳日:2021-09-17 14:01:25 公開日:2021-09-16 |
# 要約評価は他言語への翻訳に耐えられるか? Does Summary Evaluation Survive Translation to Other Languages? ( http://arxiv.org/abs/2109.08129v1 ) ライセンス: Link先を確認 | Neslihan Iskender, Oleg Vasilyev, Tim Polzehl, John Bohannon, Sebastian M\"oller | (参考訳) 大規模な要約品質データセットの作成は、慎重な計画とセットアップを必要とする、かなりのコストと時間を要する作業である。
人文および機械による要約の作成と、人間による要約の評価、好ましくは言語の専門家による評価、自動評価ツールによる評価を含む。
もしそのような努力が1つの言語でなされたら、他の言語でそれを使うことが有益でしょう。
他の言語での人間のアノテーションを繰り返すことなく、そのようなデータセットの翻訳をどれだけ信頼できるかを調べるため、既存の英語要約データセット SummEval を4つの言語に翻訳し、翻訳言語における自動評価指標からスコアを分析し、ソース言語における人間のアノテーションとの相関を調べた。
結果から,翻訳は自動スコアの絶対値を変化させるが,スコアは同じランクの順で,人間のアノテーションとほぼ同じ相関を保っていることがわかった。 The creation of a large summarization quality dataset is a considerable, expensive, time-consuming effort, requiring careful planning and setup. It includes producing human-written and machine-generated summaries and evaluation of the summaries by humans, preferably by linguistic experts, and by automatic evaluation tools. If such effort is made in one language, it would be beneficial to be able to use it in other languages. To investigate how much we can trust the translation of such dataset without repeating human annotations in another language, we translated an existing English summarization dataset, SummEval dataset, to four different languages and analyzed the scores from the automatic evaluation metrics in translated languages, as well as their correlation with human annotations in the source language. Our results reveal that although translation changes the absolute value of automatic scores, the scores keep the same rank order and approximately the same correlations with human annotations. | 翻訳日:2021-09-17 14:01:14 公開日:2021-09-16 |
# 不確実性分解による医療介入に対するリスク対応強化学習の導入 Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition ( http://arxiv.org/abs/2109.07827v1 ) ライセンス: Link先を確認 | Paul Festor, Giulia Luise, Matthieu Komorowski and A. Aldo Faisal | (参考訳) 複雑な制御と意思決定問題を解決するツールとして強化学習(RL)が登場している。
しかしながら、医療、製造業、自動車、航空宇宙などのリスクの高い環境では、エージェントが学習した明らかに最適な政策と、それに関連する不確実性やリスクのため、現実の展開とのギャップを埋めることはしばしば困難である。
広義のRL剤は2種類の不確実性に直面している。
1.世界の力学における無作為性や騒音を反映する無秩序不確実性
2. 疫学上の不確実性は、モデル上の限界と、エージェントが世界で獲得した情報・データの有限量により、エージェントの知識の境界を反映している。
これらの2つの不確実性は、パフォーマンスの評価とリスクや信頼のレベルに根本的に異なる意味を持つ。
しかし、これらのアレタリックな不確実性は一般に標準として成り立っており、分布RLでさえこの違いとは無関係である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
本稿では,この手法をグリッド・ワールドの例で実演して直観を構築し,批判的ケアにおける臨床意思決定支援システムとして動作するrlエージェントの概念実証を行った。 Reinforcement Learning (RL) is emerging as tool for tackling complex control and decision-making problems. However, in high-risk environments such as healthcare, manufacturing, automotive or aerospace, it is often challenging to bridge the gap between an apparently optimal policy learnt by an agent and its real-world deployment, due to the uncertainties and risk associated with it. Broadly speaking RL agents face two kinds of uncertainty, 1. aleatoric uncertainty, which reflects randomness or noise in the dynamics of the world, and 2. epistemic uncertainty, which reflects the bounded knowledge of the agent due to model limitations and finite amount of information/data the agent has acquired about the world. These two types of uncertainty carry fundamentally different implications for the evaluation of performance and the level of risk or trust. Yet these aleatoric and epistemic uncertainties are generally confounded as standard and even distributional RL is agnostic to this difference. Here we propose how a distributional approach (UA-DQN) can be recast to render uncertainties by decomposing the net effects of each uncertainty. We demonstrate the operation of this method in grid world examples to build intuition and then show a proof of concept application for an RL agent operating as a clinical decision support system in critical care | 翻訳日:2021-09-17 14:00:57 公開日:2021-09-16 |
# Deep Algorithmic Question Answering: アルゴリズム推論のための合成ハイブリッドAIを目指して Deep Algorithmic Question Answering: Towards a Compositionally Hybrid AI for Algorithmic Reasoning ( http://arxiv.org/abs/2109.08006v1 ) ライセンス: Link先を確認 | Kwwabena Nuamah | (参考訳) 人工知能(AI)の重要な側面は、その正しさを検査し検証できるステップバイステップの「アルゴリズム」的な推論能力である。
これは質問応答(QA)の領域において特に重要である。
QAにおけるアルゴリズム推論の課題は、ディープニューラルネットワークを含むシンボル的およびサブシンボル的手法のハイブリッド利用を特徴とする、AIに対する"システム"アプローチに効果的に取り組むことができる、と我々は主張する。
さらに,エンド・ツー・エンドのトレーニングパイプラインを持つニューラルネットワークモデルは,画像分類や言語モデリングといった狭義のアプリケーションではうまく機能するが,タスクが複数の領域にまたがる場合には,それ自体ではアルゴリズム推論をうまく実行できないと主張する。
我々は、いくつかの注目すべき例外を議論し、QA問題が他の知能要求タスクを含むように拡張されたときに、それらがまだ制限されていることを指摘した。
しかし、ディープラーニングと機械学習全般は、推論プロセスの構成要素として重要な役割を果たす。
このようなaiシステムが持つべき解釈性、一般化性、頑健性という3つの望ましい性質に基づいて、qa、深層アルゴリズム的質問応答(daqa)のアルゴリズム推論のアプローチを提案し、ハイブリッドaiと合成aiの組み合わせで最も達成されると結論づける。 An important aspect of artificial intelligence (AI) is the ability to reason in a step-by-step "algorithmic" manner that can be inspected and verified for its correctness. This is especially important in the domain of question answering (QA). We argue that the challenge of algorithmic reasoning in QA can be effectively tackled with a "systems" approach to AI which features a hybrid use of symbolic and sub-symbolic methods including deep neural networks. Additionally, we argue that while neural network models with end-to-end training pipelines perform well in narrow applications such as image classification and language modelling, they cannot, on their own, successfully perform algorithmic reasoning, especially if the task spans multiple domains. We discuss a few notable exceptions and point out how they are still limited when the QA problem is widened to include other intelligence-requiring tasks. However, deep learning, and machine learning in general, do play important roles as components in the reasoning process. We propose an approach to algorithm reasoning for QA, Deep Algorithmic Question Answering (DAQA), based on three desirable properties: interpretability, generalizability and robustness which such an AI system should possess and conclude that they are best achieved with a combination of hybrid and compositional AI. | 翻訳日:2021-09-17 14:00:35 公開日:2021-09-16 |
# RGBT追跡のための動的核融合ネットワーク Dynamic Fusion Network for RGBT Tracking ( http://arxiv.org/abs/2109.07662v1 ) ライセンス: Link先を確認 | Jingchao Peng, Haitao Zhao, Zhengwei Hu | (参考訳) 可視画像と赤外線画像の両方に独自の利点と欠点があるため、RGBTトラッキングはますます注目を集めている。
RGBT追跡の重要な点は、特徴抽出と可視画像と赤外線画像の融合にある。
現在のrgbt追跡手法は、主に個々の特徴(単一のカメラの画像から抽出された特徴)と一般的な特徴(rgbカメラとサーマルカメラから抽出・融合された特徴)の両方に注意を向けるが、個々の特徴の異なるダイナミックな貢献や、登録された画像ペアの異なるシーケンスに共通する特徴にはあまり注意を払わない。
本稿では,各層に2つの非共有畳み込みカーネルを用いて個々の特徴を抽出する,動的フュージョンネットワーク(DFNet)と呼ばれる新しいRGBT追跡手法を提案する。
さらにDFNetは、共通の特徴を抽出するために、各レイヤでコンボリューションカーネルを共有している。
非共有畳み込みカーネルと共有畳み込みカーネルは、異なる画像ペアに応じて適応的に重み付けされ、集計されるので、dfnetは異なるシーケンスに対する異なる貢献を処理できる。
DFNetの速度は28.658 FPSである。
実験の結果,dfnetのマルト添加量が非共有畳み込み核融合法より0.02%増加した場合,精度率 (pr) と成功率 (sr) はそれぞれ88.1%, 71.9%であった。 For both visible and infrared images have their own advantages and disadvantages, RGBT tracking has attracted more and more attention. The key points of RGBT tracking lie in feature extraction and feature fusion of visible and infrared images. Current RGBT tracking methods mostly pay attention to both individual features (features extracted from images of a single camera) and common features (features extracted and fused from an RGB camera and a thermal camera), while pay less attention to the different and dynamic contributions of individual features and common features for different sequences of registered image pairs. This paper proposes a novel RGBT tracking method, called Dynamic Fusion Network (DFNet), which adopts a two-stream structure, in which two non-shared convolution kernels are employed in each layer to extract individual features. Besides, DFNet has shared convolution kernels for each layer to extract common features. Non-shared convolution kernels and shared convolution kernels are adaptively weighted and summed according to different image pairs, so that DFNet can deal with different contributions for different sequences. DFNet has a fast speed, which is 28.658 FPS. The experimental results show that when DFNet only increases the Mult-Adds of 0.02% than the non-shared-convolution-kernel-based fusion method, Precision Rate (PR) and Success Rate (SR) reach 88.1% and 71.9% respectively. | 翻訳日:2021-09-17 13:59:36 公開日:2021-09-16 |
# サンプル毎プロトタイプによる少数ショット物体検出 Few-Shot Object Detection by Attending to Per-Sample-Prototype ( http://arxiv.org/abs/2109.07734v1 ) ライセンス: Link先を確認 | Hojun Lee, Myunggi Lee, Nojun Kwak | (参考訳) 少数のサポートサンプルだけでクエリイメージ内の特定のカテゴリのインスタンスを検出することを目的としている。
これは、教師付き物体検出のための十分な注釈画像を得るよりも少ない労力を要するが、従来の物体検出法に比べてはるかに劣る結果となる。
本稿では,各支援サンプルの特徴を考慮したメタラーニングに基づくアプローチを提案する。
サポートサンプルの情報を単に平均してカテゴリごとに1つのプロトタイプを生成するのではなく、各サポートサンプルを個々のプロトタイプとして扱うことにより、サポートサンプルの情報をうまく利用することができる。
具体的には,問合せを集約する2種類の注意機構と,特徴マップのサポートについて紹介する。
まず,支援サンプル間の共有情報を注意を通して抽出し,少数サンプルの情報を洗練することである。
次に、各サポートサンプルをクラスコードとして使用して、各サポート機能とクエリ機能との類似性を比較する。
提案手法は従来の手法と相補的であり,さらなる改良のためにプラグ・アンド・プレイが容易である。
本手法をPASCAL VOCおよびCOCOベンチマークで評価し,本手法の有効性を検証した。
特に,支援データに多様性がある場合に,本手法の利点を最大化する。 Few-shot object detection aims to detect instances of specific categories in a query image with only a handful of support samples. Although this takes less effort than obtaining enough annotated images for supervised object detection, it results in a far inferior performance compared to the conventional object detection methods. In this paper, we propose a meta-learning-based approach that considers the unique characteristics of each support sample. Rather than simply averaging the information of the support samples to generate a single prototype per category, our method can better utilize the information of each support sample by treating each support sample as an individual prototype. Specifically, we introduce two types of attention mechanisms for aggregating the query and support feature maps. The first is to refine the information of few-shot samples by extracting shared information between the support samples through attention. Second, each support sample is used as a class code to leverage the information by comparing similarities between each support feature and query features. Our proposed method is complementary to the previous methods, making it easy to plug and play for further improvement. We have evaluated our method on PASCAL VOC and COCO benchmarks, and the results verify the effectiveness of our method. In particular, the advantages of our method are maximized when there is more diversity among support data. | 翻訳日:2021-09-17 13:59:04 公開日:2021-09-16 |
# 超微細視分類のためのマスクガイド特徴抽出と強調 Mask-Guided Feature Extraction and Augmentation for Ultra-Fine-Grained Visual Categorization ( http://arxiv.org/abs/2109.07755v1 ) ライセンス: Link先を確認 | Zicheng Pan, Xiaohan Yu, Miaohua Zhang, Yongsheng Gao | (参考訳) 細粒度視覚分類(FGVC)の問題は近年大きく発展してきたが,超微細度視覚分類(Ultra-FGVC)の問題も検討されている。
FGVCは、同じ種からオブジェクトを分類すること(非常に類似したカテゴリ)を目標とし、Ultra-FGVCは、人間の専門家でさえ視覚的な違いを識別できない超微細な粒度で画像を分類するより難しい問題を目標としている。
Ultra-FGVCの課題は主に2つの側面から生じている: 1つは、Ultra-FGVCがトレーニングサンプルの欠如によって過度に適合する問題を引き起こすこと、もう1つは、画像間のクラス間のばらつきが通常のFGVCタスクよりもはるかに小さく、各クラスにおける識別的特徴の習得が難しいことである。
これらの課題を解決するために,マスク誘導型特徴抽出・特徴拡張手法を提案し,元の特徴マップを付加するために使用される画像の識別・情報領域を抽出する。
提案手法の利点は, 特徴検出抽出モデルでは, トレーニング用境界ボックスを持つ少数の対象領域サンプルしか必要とせず, 高い検出精度で, データセット内の多数の画像に対して, 対象領域を自動的に特定できる点である。
2つの公開データセットと10の最先端ベンチマーク手法の実験結果は、提案手法の有効性を視覚的かつ定量的に一貫して示す。 While the fine-grained visual categorization (FGVC) problems have been greatly developed in the past years, the Ultra-fine-grained visual categorization (Ultra-FGVC) problems have been understudied. FGVC aims at classifying objects from the same species (very similar categories), while the Ultra-FGVC targets at more challenging problems of classifying images at an ultra-fine granularity where even human experts may fail to identify the visual difference. The challenges for Ultra-FGVC mainly comes from two aspects: one is that the Ultra-FGVC often arises overfitting problems due to the lack of training samples; and another lies in that the inter-class variance among images is much smaller than normal FGVC tasks, which makes it difficult to learn discriminative features for each class. To solve these challenges, a mask-guided feature extraction and feature augmentation method is proposed in this paper to extract discriminative and informative regions of images which are then used to augment the original feature map. The advantage of the proposed method is that the feature detection and extraction model only requires a small amount of target region samples with bounding boxes for training, then it can automatically locate the target area for a large number of images in the dataset at a high detection accuracy. Experimental results on two public datasets and ten state-of-the-art benchmark methods consistently demonstrate the effectiveness of the proposed method both visually and quantitatively. | 翻訳日:2021-09-17 13:58:44 公開日:2021-09-16 |
# 自己監督型視覚表現学習のためのDense Semantic Contrast Dense Semantic Contrast for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2109.07756v1 ) ライセンス: Link先を確認 | Xiaoni Li, Yu Zhou, Yifei Zhang, Aoting Zhang, Wei Wang, Ning Jiang, Haiying Wu, Weiping Wang | (参考訳) 視覚前訓練のための自己教師付き表現学習は、サンプル(インスタンスまたはピクセル)の識別と、例のセマンティックス発見で顕著な成功を収めた一方、事前訓練されたモデルと下流の高密度予測タスクの間には、無視できないギャップがある。
具体的には、これらの下流タスクはより正確な表現を必要とし、言い換えれば、同じオブジェクトからのピクセルは、以前のメソッドに欠けている共有セマンティックカテゴリに属しなければならない。
本稿では,これらの課題を満たすために,意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。
さらに,多粒度表現学習のためのクロスイメージ・セマンティックコントラスト学習フレームワークを提案する。
特に,異なる視点から画素間の関係を抽出し,データセットの意味的構造を明らかにする。
画像内関係モデリングでは,複数の視点から画素近傍を探索する。
そして、画像間関係において、同じセマンティッククラスからのピクセル表現を1つのミニバッチ内の異なるクラスからの表現とよりよく似ているように強制する。
実験の結果,dscモデルは,オブジェクト検出やセマンティクスセグメンテーション,インスタンスセグメンテーションなど,下流の密集した予測タスクに移行する場合,最先端の手法よりも優れていることがわかった。
コードは利用可能になる。 Self-supervised representation learning for visual pre-training has achieved remarkable success with sample (instance or pixel) discrimination and semantics discovery of instance, whereas there still exists a non-negligible gap between pre-trained model and downstream dense prediction tasks. Concretely, these downstream tasks require more accurate representation, in other words, the pixels from the same object must belong to a shared semantic category, which is lacking in the previous methods. In this work, we present Dense Semantic Contrast (DSC) for modeling semantic category decision boundaries at a dense level to meet the requirement of these tasks. Furthermore, we propose a dense cross-image semantic contrastive learning framework for multi-granularity representation learning. Specially, we explicitly explore the semantic structure of the dataset by mining relations among pixels from different perspectives. For intra-image relation modeling, we discover pixel neighbors from multiple views. And for inter-image relations, we enforce pixel representation from the same semantic class to be more similar than the representation from different classes in one mini-batch. Experimental results show that our DSC model outperforms state-of-the-art methods when transferring to downstream dense prediction tasks, including object detection, semantic segmentation, and instance segmentation. Code will be made available. | 翻訳日:2021-09-17 13:58:16 公開日:2021-09-16 |
# 意味セグメンテーションのための文脈認識パディング Context-aware Padding for Semantic Segmentation ( http://arxiv.org/abs/2109.07854v1 ) ライセンス: Link先を確認 | Yu-Hui Huang, Marc Proesmans, Luc Van Gool | (参考訳) ゼロパディングは畳み込みニューラルネットワークにおいて、特徴マップのサイズが速すぎないように広く使われている。
しかし、国境の統計を妨害していると主張されている。
代替として、画像を拡張するためのコンテキスト認識(CA)パディング手法を提案する。
画像外挿問題としてパディング問題を再構成し,意味的セグメンテーションタスクに与える影響を解説する。
resnetベースのセグメンテーションモデルは、コンテキストアウェアパディングを使用して、従来の都市景観のゼロパディングやdeepglobe衛星画像チャレンジのデータセットよりも高い平均交点オーバー結合を達成する。
さらに、私たちのパディングは、トレーニングやテスト中に目立ったオーバーヘッドをもたらしません。 Zero padding is widely used in convolutional neural networks to prevent the size of feature maps diminishing too fast. However, it has been claimed to disturb the statistics at the border. As an alternative, we propose a context-aware (CA) padding approach to extend the image. We reformulate the padding problem as an image extrapolation problem and illustrate the effects on the semantic segmentation task. Using context-aware padding, the ResNet-based segmentation model achieves higher mean Intersection-Over-Union than the traditional zero padding on the Cityscapes and the dataset of DeepGlobe satellite imaging challenge. Furthermore, our padding does not bring noticeable overhead during training and testing. | 翻訳日:2021-09-17 13:57:53 公開日:2021-09-16 |
# 乳癌の病理組織像における術前診断システム A Medical Pre-Diagnosis System for Histopathological Image of Breast Cancer ( http://arxiv.org/abs/2109.07878v1 ) ライセンス: Link先を確認 | Shiyu Fan, Runhai Xu, Zhaohang Yan | (参考訳) 本稿では, 自動コミュニケーションと乳がんの病理画像認識を実現する新しい知的医療診断システムを構築した。
このシステムには、m-chatbotと呼ばれる事前学習されたチャットボットと、上位レイヤのアクティベーション機能をacon-cに置き換えた efficientnetv2-s のニューラルネットモデルが含まれる。
情報検索機構を用いて、M-Chatbotは患者に乳房の病理像をEfficientNetV2-SAネットワークに送信するように指示し、転送学習によって訓練された分類器は診断結果を返す。
当社のチャットボットの性能と,extrinsic metricsとbreakhis datasetの分類をそれぞれ検証した。
M-Chatbotのタスク完了率は63.33\%に達した。
BreaKHisデータセットでは、EfficientNetV2-SAネットワークの最高精度は84.71\%に達した。
これらの実験結果から,本モデルにより画像認識の精度が向上し,新しい知能診断システムが乳がんの自動診断に成功し,効果的であることが示唆された。 This paper constructs a novel intelligent medical diagnosis system, which can realize automatic communication and breast cancer pathological image recognition. This system contains two main parts, including a pre-training chatbot called M-Chatbot and an improved neural network model of EfficientNetV2-S named EfficientNetV2-SA, in which the activation function in top layers is replaced by ACON-C. Using information retrieval mechanism, M-Chatbot instructs patients to send breast pathological image to EfficientNetV2-SA network, and then the classifier trained by transfer learning will return the diagnosis results. We verify the performance of our chatbot and classification on the extrinsic metrics and BreaKHis dataset, respectively. The task completion rate of M-Chatbot reached 63.33\%. For the BreaKHis dataset, the highest accuracy of EfficientNetV2-SA network have achieved 84.71\%. All these experimental results illustrate that the proposed model can improve the accuracy performance of image recognition and our new intelligent medical diagnosis system is successful and efficient in providing automatic diagnosis of breast cancer. | 翻訳日:2021-09-17 13:57:40 公開日:2021-09-16 |
# 車両再識別のための不均一な関係補間 Heterogeneous Relational Complement for Vehicle Re-identification ( http://arxiv.org/abs/2109.07894v1 ) ライセンス: Link先を確認 | Jiajian Zhao, Yifan Zhao, Jia Li, Ke Yan, Yonghong Tian | (参考訳) 車両再識別における重要な問題は、この物体をクロスビューカメラからレビューする際に同じ車両の同一性を見つけることである。
本稿では,ロバストな特徴表現の構築とカメラセンシティブ評価の提案という2つの側面からこの問題を解決することを提案する。
本稿では、まず、地域特化特徴とクロスレベル特徴を元のハイレベル出力の補完として組み込むことにより、新しい異種関係補完ネットワーク(HRCN)を提案する。
分布の相違と意味的ミスアライメントを考慮すると、これらの不均一な特徴を1つの高次元空間に埋め込むグラフベースの関係モジュールを提案する。
一方,既存の測定方法(CMC,AP)におけるクロスカメラ評価の欠如を考慮し,位置感度とクロスカメラ一般化法を導入して評価を改善するためのクロスカメラ一般化尺度(CGM)を提案する。
さらに,提案したCGMによる既存モデルの新たなベンチマークを構築し,提案したHRCNモデルがVeRi-776, VehicleID, VERI-Wildの新たな最先端を実現することを示す。 The crucial problem in vehicle re-identification is to find the same vehicle identity when reviewing this object from cross-view cameras, which sets a higher demand for learning viewpoint-invariant representations. In this paper, we propose to solve this problem from two aspects: constructing robust feature representations and proposing camera-sensitive evaluations. We first propose a novel Heterogeneous Relational Complement Network (HRCN) by incorporating region-specific features and cross-level features as complements for the original high-level output. Considering the distributional differences and semantic misalignment, we propose graph-based relation modules to embed these heterogeneous features into one unified high-dimensional space. On the other hand, considering the deficiencies of cross-camera evaluations in existing measures (i.e., CMC and AP), we then propose a Cross-camera Generalization Measure (CGM) to improve the evaluations by introducing position-sensitivity and cross-camera generalization penalties. We further construct a new benchmark of existing models with our proposed CGM and experimental results reveal that our proposed HRCN model achieves new state-of-the-art in VeRi-776, VehicleID, and VERI-Wild. | 翻訳日:2021-09-17 13:57:22 公開日:2021-09-16 |
# M2RNet:RGB次元高次物体検出のためのマルチモーダル・マルチスケール精製ネットワーク M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2109.07922v1 ) ライセンス: Link先を確認 | Xian Fang and Jinchao Zhu and Ruixun Zhang and Xiuli Shao and Hongpeng Wang | (参考訳) 正当性物体検出はコンピュータビジョンの基本的なトピックである。
従来のRGB-Dに基づく手法では,マルチモーダルな特徴融合の不整合や,マルチスケールな特徴集約の不整合に悩まされることが多い。
これら2つのジレンマに対処するために,新しいマルチモーダル・マルチスケール改良ネットワーク (M2RNet) を提案する。
このネットワークには3つの重要な要素がある。
nested dual attention module (ndam) は rgb と depth flow の複合機能を明示的に活用している。
隣り合うインタラクティブアグリゲーションモジュール(AIAM)は、ハイレベル、ミドルレベル、ローレベルの隣り合う特徴を徐々に統合する。
ジョイントハイブリッド最適化損失(jhol)は、予測に顕著な概要を持つ。
広範な実験により,本手法は他の最先端手法よりも優れていることが証明された。 Salient object detection is a fundamental topic in computer vision. Previous methods based on RGB-D often suffer from the incompatibility of multi-modal feature fusion and the insufficiency of multi-scale feature aggregation. To tackle these two dilemmas, we propose a novel multi-modal and multi-scale refined network (M2RNet). Three essential components are presented in this network. The nested dual attention module (NDAM) explicitly exploits the combined features of RGB and depth flows. The adjacent interactive aggregation module (AIAM) gradually integrates the neighbor features of high, middle and low levels. The joint hybrid optimization loss (JHOL) makes the predictions have a prominent outline. Extensive experiments demonstrate that our method outperforms other state-of-the-art approaches. | 翻訳日:2021-09-17 13:57:03 公開日:2021-09-16 |
# 汎用顔提示検出のための学習可能な多レベル周波数分解と階層的注意機構 Learnable Multi-level Frequency Decomposition and Hierarchical Attention Mechanism for Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2109.07950v1 ) ライセンス: Link先を確認 | Meiling Fang and Naser Damer and Florian Kirchbuchner and Arjan Kuijper | (参考訳) 顔認識システムが日常的に普及するにつれて,顔提示アタック検出(pad)が注目され,顔認識システムのセキュリティにおいて重要な役割を担っている。
データセット内評価において手作りおよびディープラーニングベースの手法によって達成された優れたパフォーマンスにもかかわらず、目に見えないシナリオを扱う場合のパフォーマンスは低下する。
本研究では,両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
1つのストリームは4つの学習可能な周波数フィルタを適用して周波数領域の特徴を学習する。
他のストリームはRGB画像を利用して周波数領域の特徴を補完する。
さらに、CNNの異なる層における深い特徴の性質を考慮し、2つのストリームからの情報を異なる段階で結合する階層的アテンションモジュールの統合を提案する。
提案手法はデータセット内およびデータセット間設定において評価され,提案手法はドメイン適応/シフト問題に特化して設計された手法を含む最先端技術と比較して,ほとんどの実験装置における一般化可能性を高めることを示す。
提案手法は, 学習可能な周波数分解, 階層的注意モジュール設計, 使用済み損失関数を含む段階的アブレーション研究において, 提案手法の設計を成功に導いた。
トレーニングコードと事前訓練されたモデルが公開されている。 With the increased deployment of face recognition systems in our daily lives, face presentation attack detection (PAD) is attracting a lot of attention and playing a key role in securing face recognition systems. Despite the great performance achieved by the hand-crafted and deep learning based methods in intra-dataset evaluations, the performance drops when dealing with unseen scenarios. In this work, we propose a dual-stream convolution neural networks (CNNs) framework. One stream adapts four learnable frequency filters to learn features in the frequency domain, which are less influenced variations in sensors/illuminations. The other stream leverage the RGB images to complement the features of the frequency domain. Moreover, we propose a hierarchical attention module integration to join the information from the two streams at different stages by considering the nature of deep features in different layers of the CNN. The proposed method is evaluated in the intra-dataset and cross-dataset setups and the results demonstrates that our proposed approach enhances the generalizability in most experimental setups in comparison to state-of-the-art, including the methods designed explicitly for domain adaption/shift problem. We successfully prove the design of our proposed PAD solution in a step-wise ablation study that involves our proposed learnable frequency decomposition, our hierarchical attention module design, and the used loss function. Training codes and pre-trained models are publicly released. | 翻訳日:2021-09-17 13:56:51 公開日:2021-09-16 |
# Tencent Multi-modal Ads Video Understanding Challengeの概要 Overview of Tencent Multi-modal Ads Video Understanding Challenge ( http://arxiv.org/abs/2109.07951v1 ) ライセンス: Link先を確認 | Zhenzhi Wang, Liyu Wu, Zhimin Li, Jiangfeng Xiong, Qinglin Lu | (参考訳) マルチモーダル広告ビデオ理解チャレンジは、広告ビデオを包括的に理解するための最初の大きな挑戦だ。
課題は,時間次元の映像構造化とマルチモーダルビデオ分類の2つの課題である。
参加者は、細粒度および広告関連カテゴリ階層に基づいて、各シーンのシーン境界とマルチラベルカテゴリの両方を正確に予測するよう求める。
そこで本課題は,広告ドメイン,マルチモーダル情報,時間的セグメンテーション,マルチラベル分類の4つの特徴を持つ。
広告の理解の基盤を前進させ、ビデオレコメンデーションのような多くの広告アプリケーションに大きな影響を与えるだろう。
本稿では,広告ビデオの背景,タスクとデータセットの詳細な説明,評価プロトコル,提案するベースラインなど,本課題の概要について述べる。
ベースラインの重要なコンポーネントを補足することで、このタスクの主な課題を明らかにし、この分野の今後の研究に有用なガイダンスを提供したいと思っています。
本稿では,課題概要の拡張版について述べる。
データセットはhttps://algo.qq.com/.comで公開される。 Multi-modal Ads Video Understanding Challenge is the first grand challenge aiming to comprehensively understand ads videos. Our challenge includes two tasks: video structuring in the temporal dimension and multi-modal video classification. It asks the participants to accurately predict both the scene boundaries and the multi-label categories of each scene based on a fine-grained and ads-related category hierarchy. Therefore, our task has four distinguishing features from previous ones: ads domain, multi-modal information, temporal segmentation, and multi-label classification. It will advance the foundation of ads video understanding and have a significant impact on many ads applications like video recommendation. This paper presents an overview of our challenge, including the background of ads videos, an elaborate description of task and dataset, evaluation protocol, and our proposed baseline. By ablating the key components of our baseline, we would like to reveal the main challenges of this task and provide useful guidance for future research of this area. In this paper, we give an extended version of our challenge overview. The dataset will be publicly available at https://algo.qq.com/. | 翻訳日:2021-09-17 13:56:28 公開日:2021-09-16 |
# パーセプチュアル・アドバーサリーパッチを用いた群衆数計測 Harnessing Perceptual Adversarial Patches for Crowd Counting ( http://arxiv.org/abs/2109.07986v1 ) ライセンス: Link先を確認 | Shunchang Liu, Jiakai Wang, Aishan Liu, Yingwei Li, Yijie Gao, Xianglong Liu, Dacheng Tao | (参考訳) 群衆カウントは、安全クリティカルなシーンの人々の数を推定するのに非常に重要であり、物理的世界の敵の例(例えば、敵のパッチ)に弱いことが示されている。
敵対的な例は有害であるが、モデルのロバスト性の評価と理解を深めるためにも有用である。
しかし、群衆カウントシナリオにおける既存の逆例生成手法では、異なるブラックボックスモデル間での強い伝達性が欠如している。
本稿では,モデルスケールの知覚と位置知覚の両方を活用することで,モデル間の共有知覚特徴を学習するための知覚逆パッチ(PAP)生成フレームワークを提案する。
具体的には、PAPは異なる補間と密度の注意を生かして、トレーニング中のモデル間の不変性を学ぶ。
さらに私たちは,クロスデータセットや複雑なバックグラウンドなど,いくつかの課題を軽減すべく,バニラモデルのパフォーマンス向上にも,敵のパッチを活用できることに驚いたのです。
デジタルと物理の両方のシナリオで広範な実験を行い,papの有効性を実証した。 Crowd counting, which is significantly important for estimating the number of people in safety-critical scenes, has been shown to be vulnerable to adversarial examples in the physical world (e.g., adversarial patches). Though harmful, adversarial examples are also valuable for assessing and better understanding model robustness. However, existing adversarial example generation methods in crowd counting scenarios lack strong transferability among different black-box models. Motivated by the fact that transferability is positively correlated to the model-invariant characteristics, this paper proposes the Perceptual Adversarial Patch (PAP) generation framework to learn the shared perceptual features between models by exploiting both the model scale perception and position perception. Specifically, PAP exploits differentiable interpolation and density attention to help learn the invariance between models during training, leading to better transferability. In addition, we surprisingly found that our adversarial patches could also be utilized to benefit the performance of vanilla models for alleviating several challenges including cross datasets and complex backgrounds. Extensive experiments under both digital and physical world scenarios demonstrate the effectiveness of our PAP. | 翻訳日:2021-09-17 13:56:13 公開日:2021-09-16 |
# スプリット秒における回転平均化:周期グラフに対する原始双対法と閉形式 Rotation Averaging in a Split Second: A Primal-Dual Method and a Closed-Form for Cycle Graphs ( http://arxiv.org/abs/2109.08046v1 ) ライセンス: Link先を確認 | Gabriel Moreira, Manuel Marques, Jo\~ao Paulo Costeira | (参考訳) 幾何再構成の土台である回転平均化は絶対回転の集合を求め、それらの間の測定された相対方向の集合を最適に説明する。
バンドル調整と構造から運動への積分部分であるにもかかわらず、平均回転は非凸かつ高次元の最適化問題である。
本稿では,最大確率推定の観点からこの問題に対処し,2次元の貢献を行う。
まず,新しい初期化フリーな原始双対法を考案し,大域的最適に収束する経験則を示した。
さらに、サイクルグラフにおける回転平均化のための最初の最適閉形式解であり、スペクトルグラフ理論においてこの結果を文脈化する。
提案手法は精度と性能において有意な利益を得た。 A cornerstone of geometric reconstruction, rotation averaging seeks the set of absolute rotations that optimally explains a set of measured relative orientations between them. In spite of being an integral part of bundle adjustment and structure-from-motion, averaging rotations is both a non-convex and high-dimensional optimization problem. In this paper, we address it from a maximum likelihood estimation standpoint and make a twofold contribution. Firstly, we set forth a novel initialization-free primal-dual method which we show empirically to converge to the global optimum. Further, we derive what is to our knowledge, the first optimal closed-form solution for rotation averaging in cycle graphs and contextualize this result within spectral graph theory. Our proposed methods achieve a significant gain both in precision and performance. | 翻訳日:2021-09-17 13:55:35 公開日:2021-09-16 |
# 外部知識は説明可能な自然言語推論に役立つか?
人格評価と自動評価 Does External Knowledge Help Explainable Natural Language Inference? Automatic Evaluation vs. Human Ratings ( http://arxiv.org/abs/2109.07833v1 ) ライセンス: Link先を確認 | Hendrik Schuff, Hsiu-Yu Yang, Heike Adel, Ngoc Thang Vu | (参考訳) 自然言語推論(NLI)は、常識知識を学習し応用するためのモデルを必要とする。
これらの推論能力は、ラベル予測に加えて自然言語説明を生成する説明可能なnliシステムにおいて特に重要である。
外部知識の統合はNLIシステムを改善することが示されており、その説明能力も改善できるか検討する。
そこで本研究では,外部知識の異なるソースを調査し,ドメイン内データおよび細粒度推論能力を評価する特別転送データセット上でのモデルの性能評価を行う。
例えば、言語モデルに記憶されている暗黙的な知識は、数や否定の推論を妨げる可能性がある。
最後に,これまでで最大かつ最もきめ細かいNLIクラウドソーシング研究を行っている。
自動演奏スコアの大きな違いは、ラベル、説明、常識、文法の正確性といった人間の評価を反映しないことが明らかになった。 Natural language inference (NLI) requires models to learn and apply commonsense knowledge. These reasoning abilities are particularly important for explainable NLI systems that generate a natural language explanation in addition to their label prediction. The integration of external knowledge has been shown to improve NLI systems, here we investigate whether it can also improve their explanation capabilities. For this, we investigate different sources of external knowledge and evaluate the performance of our models on in-domain data as well as on special transfer datasets that are designed to assess fine-grained reasoning capabilities. We find that different sources of knowledge have a different effect on reasoning abilities, for example, implicit knowledge stored in language models can hinder reasoning on numbers and negations. Finally, we conduct the largest and most fine-grained explainable NLI crowdsourcing study to date. It reveals that even large differences in automatic performance scores do neither reflect in human ratings of label, explanation, commonsense nor grammar correctness. | 翻訳日:2021-09-17 13:54:57 公開日:2021-09-16 |
# Phrase RetrievalもPhrase Retrievalを学習 Phrase Retrieval Learns Passage Retrieval, Too ( http://arxiv.org/abs/2109.08133v1 ) ライセンス: Link先を確認 | Jinhyuk Lee, Alexander Wettig, Danqi Chen | (参考訳) 密集した検索手法は, nlp問題の範囲において, スパース検索法に対して大きな期待を寄せている。
中でも,質問応答やスロット充填タスクの出力として句を直接用いることができるため,きめ細かな検索単位である密集句検索が魅力的である。
本研究は,句の検索が自然により大きなテキストブロックの検索を伴い,句検索が文節や文書を含む粗い検索の基盤となるか検討する。
まず,再学習を伴わない高密度なフレーズ検索システムは,経路検索器と比較して,経路検索精度(+3~5%)が向上し,また,経路の少ないエンドツーエンドQA性能も向上することを示した。
次に,句レベルの監督が文節レベルの監督よりも細粒度の詳細学習に役立つ理由を解釈し,また,エンティティリンクや知識接頭辞といった文書検索における競合性能を達成するために句検索が改善されることを示す。
最後に,単語のフィルタリングとベクトル量子化によってインデックスのサイズを4~10倍に減らし,高密度な句検索を多粒度検索における実用的で汎用的な解とすることを示す。 Dense retrieval methods have shown great promise over sparse retrieval methods in a range of NLP problems. Among them, dense phrase retrieval-the most fine-grained retrieval unit-is appealing because phrases can be directly used as the output for question answering and slot filling tasks. In this work, we follow the intuition that retrieving phrases naturally entails retrieving larger text blocks and study whether phrase retrieval can serve as the basis for coarse-level retrieval including passages and documents. We first observe that a dense phrase-retrieval system, without any retraining, already achieves better passage retrieval accuracy (+3-5% in top-5 accuracy) compared to passage retrievers, which also helps achieve superior end-to-end QA performance with fewer passages. Then, we provide an interpretation for why phrase-level supervision helps learn better fine-grained entailment compared to passage-level supervision, and also show that phrase retrieval can be improved to achieve competitive performance in document-retrieval tasks such as entity linking and knowledge-grounded dialogue. Finally, we demonstrate how phrase filtering and vector quantization can reduce the size of our index by 4-10x, making dense phrase retrieval a practical and versatile solution in multi-granularity retrieval. | 翻訳日:2021-09-17 13:54:43 公開日:2021-09-16 |
# 計算薬物再配置のためのニューラルメトリック因子分解 The Neural Metric Factorization for Computational Drug Repositioning ( http://arxiv.org/abs/2109.07690v1 ) ライセンス: Link先を確認 | Xinxing Yang and Genke Yang | (参考訳) 計算的な薬物再配置は、市販薬の新しい治療疾患を発見することを目的としており、従来の医薬品開発に比べて低コスト、短期間の開発サイクル、高制御性という利点がある。
行列因数分解モデルは, 実装が容易で, スケーラビリティに優れ, 計算薬品再配置の主流となる技術となっている。
しかし、マトリックス因子化モデルは内積操作を用いて、表現能力に乏しい薬物と疾患の関連を表現する。
さらに、薬物や疾患の類似性の程度は、それぞれの潜伏因子ベクターに含められず、薬物発見の常識を満たさない。
そこで本研究では, 計算薬物再配置のためのニューラルメトリック因子化モデルを提案する。
本稿では, 薬物・疾患の潜伏因子ベクトルを高次元座標系における点として, 内製品手術の欠点を補うために, 薬物・疾患の関連を表わすユークリッド距離の一般化を提案する。
さらに、潜伏因子ベクターの符号化空間に複数の薬物及び疾患指標情報を埋め込むことにより、類似した薬物又は疾患の潜伏因子ベクターを近づける。
最後に、上記の改善点の有効性とNMFモデルの優位性を示すために、2つの実データに対して広範囲に解析実験を行う。 Computational drug repositioning aims to discover new therapeutic diseases for marketed drugs and has the advantages of low cost, short development cycle, and high controllability compared to traditional drug development. The matrix factorization model has become a mainstream cornerstone technique for computational drug repositioning due to its ease of implementation and excellent scalability. However, the matrix factorization model uses the inner product operation to represent the association between drugs and diseases, which is lacking in expressive ability. Moreover, the degree of similarity of drugs or diseases could not be implied on their respective latent factor vectors, which is not satisfy the common sense of drug discovery. Therefore, a neural metric factorization model for computational drug repositioning is proposed in this work. We novelly consider the latent factor vector of drugs and diseases as a point in a high-dimensional coordinate system and propose a generalized Euclidean distance to represent the association between drugs and diseases to compensate for the shortcomings of the inner product operation. Furthermore, by embedding multiple drug and disease metrics information into the encoding space of the latent factor vector, the latent factor vectors of similar drugs or diseases are made closer. Finally, we conduct wide analysis experiments on two real datasets to demonstrate the effectiveness of the above improvement points and the superiority of the NMF model. | 翻訳日:2021-09-17 13:53:48 公開日:2021-09-16 |
# 有限可塑性に対する射影型モデル次数還元のニューラルネットワーク加速:RCVへの応用 Neural-network acceleration of projection-based model-order-reduction for finite plasticity: Application to RVEs ( http://arxiv.org/abs/2109.07747v1 ) ライセンス: Link先を確認 | S. Vijayaraghavan, L. Wu, L. Noels, S. P. A. Bordas, S. Natarajan, L. A. A. Beex | (参考訳) 従来のプロジェクションに基づくモデル次数還元と比較して、そのニューラルネットワークの加速はオンラインシミュレーションが方程式なしという利点を持つ。
したがって、剛性行列を構築する必要はなく、応力更新はインクリメント毎に1回だけ計算する必要がある。
本研究では,rveの弾塑性力学的挙動の投影に基づくモデル次数還元を高速化するために,リカレントニューラルネットワークを開発した。
単にマクロ的な変形(パス)とマクロ的な応力の関係をエミュレートするニューラルネットワークとは対照的に、プロジェクションベースのモデル順序推論のニューラルネットワークアクセラレーションは、この情報をインクリメント毎に一度計算する価格で全てのミクロ構造情報を保存する。 Compared to conventional projection-based model-order-reduction, its neural-network acceleration has the advantage that the online simulations are equation-free, meaning that no system of equations needs to be solved iteratively. Consequently, no stiffness matrix needs to be constructed and the stress update needs to be computed only once per increment. In this contribution, a recurrent neural network is developed to accelerate a projection-based model-order-reduction of the elastoplastic mechanical behaviour of an RVE. In contrast to a neural network that merely emulates the relation between the macroscopic deformation (path) and the macroscopic stress, the neural network acceleration of projection-based model-order-reduction preserves all microstructural information, at the price of computing this information once per increment. | 翻訳日:2021-09-17 13:53:25 公開日:2021-09-16 |
# 脳波に基づく睡眠ステージングのための自己教師付きコントラスト学習 Self-supervised Contrastive Learning for EEG-based Sleep Staging ( http://arxiv.org/abs/2109.07839v1 ) ライセンス: Link先を確認 | Xue Jiang, Jianhui Zhao, Bo Du, Zhiyong Yuan | (参考訳) EEG信号は通常取得は簡単であるが、ラベル付けは高価である。
教師付き学習は脳波信号解析の分野で広く用いられているが、その一般化性能は注釈付きデータ量によって制限されている。
コンピュータビジョン(CV)と自然言語処理(NLP)における一般的な学習パラダイムである自己教師あり学習(SSL)は、教師あり学習のデータ不足を補うためにラベルのないデータを使用することができる。
本稿では,睡眠段階分類のための脳波信号の自己教師付きコントラスト学習法を提案する。
トレーニング中,脳波信号から生成された適切な変換ペアに一致するように,ネットワークのプリテキストタスクを設定した。
このようにして、ネットワークは脳波信号の一般的な特徴を学習することで表現能力を向上させる。
ネットワークの堅牢性はまた、多様なデータを扱う際にも改善され、データの変更から一定の特徴を抽出する。
詳しくは、ネットワークのパフォーマンスは、自己教師あり学習のトレーニングプロセスで使用される、変換の選択とラベルなしデータの量に依存する。
スリープ・edfデータセットを用いた実証評価では, 睡眠時ステージング(88.16%の精度と81.96%のF1スコア)において, 脳波信号解析におけるSSL戦略の有効性が検証された。
すべてのコードはオンラインで公開されている。 EEG signals are usually simple to obtain but expensive to label. Although supervised learning has been widely used in the field of EEG signal analysis, its generalization performance is limited by the amount of annotated data. Self-supervised learning (SSL), as a popular learning paradigm in computer vision (CV) and natural language processing (NLP), can employ unlabeled data to make up for the data shortage of supervised learning. In this paper, we propose a self-supervised contrastive learning method of EEG signals for sleep stage classification. During the training process, we set up a pretext task for the network in order to match the right transformation pairs generated from EEG signals. In this way, the network improves the representation ability by learning the general features of EEG signals. The robustness of the network also gets improved in dealing with diverse data, that is, extracting constant features from changing data. In detail, the network's performance depends on the choice of transformations and the amount of unlabeled data used in the training process of self-supervised learning. Empirical evaluations on the Sleep-edf dataset demonstrate the competitive performance of our method on sleep staging (88.16% accuracy and 81.96% F1 score) and verify the effectiveness of SSL strategy for EEG signal analysis in limited labeled data regimes. All codes are provided publicly online. | 翻訳日:2021-09-17 13:53:09 公開日:2021-09-16 |
# OMPQ:直交混合精密量子化 OMPQ: Orthogonal Mixed Precision Quantization ( http://arxiv.org/abs/2109.07865v1 ) ライセンス: Link先を確認 | Yuexiao Ma, Taisong Jin, Xiawu Zheng, Yan Wang, Huixia Li, Guannan Jiang, Wei Zhang, Rongrong Ji | (参考訳) ディープニューラルネットワークの複雑さとハードウェア能力のギャップを埋めるために、ネットワーク量子化はますます研究の注目を集めている。
混合精度量子化の最新のトレンドは、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の潜在能力を解き放つことである。
しかし、これはまた難しい整数プログラミングの定式化をもたらし、多くの既存のアプローチは様々な緩和にもかかわらず非常に時間を要する探索プロセスを使用するよう強制する。
元の整数プログラミングの問題を解決する代わりに、ネットワーク直交性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度の妥協がほとんどなく、検索時間と必要なデータ量を桁違いに削減する。
具体的には、トレーニング後の量子化において、mobilenetv2で71.27%のtop-1精度を達成し、検索に9秒、imagenet上での微調整に1.4gpu時間しかかからない。
私たちのコードはhttps://github.com/MAC-AutoML/OMPQで無効です。 To bridge the ever increasing gap between deep neural networks' complexity and hardware capability, network quantization has attracted more and more research attention. The latest trend of mixed precision quantization takes advantage of hardware's multiple bit-width arithmetic operations to unleash the full potential of network quantization. However, this also results in a difficult integer programming formulation, and forces most existing approaches to use an extremely time-consuming search process even with various relaxations. Instead of solving a problem of the original integer programming, we propose to optimize a proxy metric, the concept of network orthogonality, which is highly correlated with the loss of the integer programming but also easy to optimize with linear programming. This approach reduces the search time and required data amount by orders of magnitude, with little compromise on quantization accuracy. Specifically, on post-training quantization, we achieve 71.27% Top-1 accuracy on MobileNetV2, which only takes 9 seconds for searching and 1.4 GPU hours for finetuning on ImageNet. Our codes are avaliable at https://github.com/MAC-AutoML/OMPQ. | 翻訳日:2021-09-17 13:52:45 公開日:2021-09-16 |
# 予測符号化による連想記憶 Associative Memories via Predictive Coding ( http://arxiv.org/abs/2109.08063v1 ) ライセンス: Link先を確認 | Tommaso Salvatori, Yuhang Song, Yujian Hong, Simon Frieder, Lei Sha, Zhenghua Xu, Rafal Bogacz, Thomas Lukasiewicz | (参考訳) 脳内の連想記憶は感覚ニューロンによって登録された活動パターンを受信し、保存し、必要な時にそれらを取得することができる。
人間の知性において重要であることから、連想記憶の計算モデルが数十年にわたって開発されてきた。
これには、データポイントの保存とストアされたデータポイントの$s$の取得を可能にする自動連想メモリと、マルチモーダルデータの保存とリコールが可能なヘテロ連想メモリが含まれている。
本稿では,知覚ニューロンを介して外部刺激を受ける階層的生成ネットワークに基づいて,連想記憶を実現する新しい神経モデルを提案する。
このモデルは、皮質における情報処理にインスパイアされたエラーベースの学習アルゴリズムである予測符号化を用いて訓練される。
このモデルの能力をテストするために,破損したデータポイントと不完全なデータポイントの両方から複数の検索実験を行う。
本研究では,バックプロパゲーションにより学習したオートエンコーダや,ホップフィールドネットワークなど,検索精度やロバスト性の高い連想記憶モデルよりも優れていることを示す。
特に,部分的データポイントの完了時には,原画像のごく一部しか表示されていない場合でも,imagenetなどの自然画像データセットに対して驚くほど高い精度で顕著な結果が得られる。
さらに,本手法はマルチモーダルデータを扱うことができ,記述から画像を取り出すことができ,その逆も可能であることを示す。
結論として,本モデルが脳内記憶の学習と検索に有効な枠組みを提供し,記憶指標と生成モデルとして海馬の行動と密接に類似していることを示し,神経科学コミュニティにおけるこの研究の影響について考察した。 Associative memories in the brain receive and store patterns of activity registered by the sensory neurons, and are able to retrieve them when necessary. Due to their importance in human intelligence, computational models of associative memories have been developed for several decades now. They include autoassociative memories, which allow for storing data points and retrieving a stored data point $s$ when provided with a noisy or partial variant of $s$, and heteroassociative memories, able to store and recall multi-modal data. In this paper, we present a novel neural model for realizing associative memories, based on a hierarchical generative network that receives external stimuli via sensory neurons. This model is trained using predictive coding, an error-based learning algorithm inspired by information processing in the cortex. To test the capabilities of this model, we perform multiple retrieval experiments from both corrupted and incomplete data points. In an extensive comparison, we show that this new model outperforms in retrieval accuracy and robustness popular associative memory models, such as autoencoders trained via backpropagation, and modern Hopfield networks. In particular, in completing partial data points, our model achieves remarkable results on natural image datasets, such as ImageNet, with a surprisingly high accuracy, even when only a tiny fraction of pixels of the original images is presented. Furthermore, we show that this method is able to handle multi-modal data, retrieving images from descriptions, and vice versa. We conclude by discussing the possible impact of this work in the neuroscience community, by showing that our model provides a plausible framework to study learning and retrieval of memories in the brain, as it closely mimics the behavior of the hippocampus as a memory index and generative model. | 翻訳日:2021-09-17 13:52:26 公開日:2021-09-16 |
# (参考訳) 進化的軌道発生器を用いた強化学習:四足歩行の一般的なアプローチ Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion ( http://arxiv.org/abs/2109.06409v2 ) ライセンス: CC BY 4.0 | Haojie Shi, Bo Zhou, Hongsheng Zeng, Fan Wang, Yueqiang Dong, Jiangyong Li, Kang Wang, Hao Tian, Max Q.-H. Meng | (参考訳) 近年、強化学習 (RL) が四足歩行の有望なアプローチとして登場し、熟練型コントローラの設計などの従来の手法では手作業の節約が期待できる。
しかし、四足歩行ロボットの複雑な非線形ダイナミクスと報酬空間のため、特にバランスビームの上を歩くような困難な作業において、RLがスクラッチから効果的な歩行を学習することは依然として困難である。
このような困難を緩和するために,進化的足跡生成器を含む新しいRLベースのアプローチを提案する。
固定軌道生成器を使用する従来の方法とは異なり、ジェネレータは与えられたタスクの出力軌道の形状を継続的に最適化し、ポリシー学習を導くための多様な動作前を提供する。
この方針は、異なる歩行に適合する残留制御信号を出力する強化学習で訓練されている。
次に、軌道生成器とポリシーネットワークを最適化し、トレーニングを安定させ、探索データを共有し、サンプル効率を向上させる。
その結果,本手法は,平均台の上を歩いたり,洞窟をクロールしたりすることで,スクラッチから学習することで,シミュレーション上のさまざまな課題を解決することができる。
提案手法の有効性をさらに検証するため,12-DoF四足歩行ロボットにシミュレーションで学習したコントローラを配置し,効率の良い歩行で難解なシナリオを横断することに成功した。 Recently reinforcement learning (RL) has emerged as a promising approach for quadrupedal locomotion, which can save the manual effort in conventional approaches such as designing skill-specific controllers. However, due to the complex nonlinear dynamics in quadrupedal robots and reward sparsity, it is still difficult for RL to learn effective gaits from scratch, especially in challenging tasks such as walking over the balance beam. To alleviate such difficulty, we propose a novel RL-based approach that contains an evolutionary foot trajectory generator. Unlike prior methods that use a fixed trajectory generator, the generator continually optimizes the shape of the output trajectory for the given task, providing diversified motion priors to guide the policy learning. The policy is trained with reinforcement learning to output residual control signals that fit different gaits. We then optimize the trajectory generator and policy network alternatively to stabilize the training and share the exploratory data to improve sample efficiency. As a result, our approach can solve a range of challenging tasks in simulation by learning from scratch, including walking on a balance beam and crawling through the cave. To further verify the effectiveness of our approach, we deploy the controller learned in the simulation on a 12-DoF quadrupedal robot, and it can successfully traverse challenging scenarios with efficient gaits. | 翻訳日:2021-09-17 11:17:32 公開日:2021-09-16 |
# (参考訳) EfficientBERT: ウォームアップ知識蒸留による多層パーセプトロンの探索 EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation ( http://arxiv.org/abs/2109.07222v2 ) ライセンス: CC BY 4.0 | Chenhe Dong, Guangrun Wang, Hang Xu, Jiefeng Peng, Xiaozhe Ren, Xiaodan Liang | (参考訳) 事前学習された言語モデルは様々なnlpタスクで顕著な結果を示している。
それにもかかわらず、その大きなサイズと推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善は、FFNの計算コストがMHAの2$\sim$3倍であることから、マルチヘッドアテンション(MHA)の改善よりも高い利得が得られるという批判的な洞察を得る。
したがって,よりコンパクトなBERTでは,従来のMHAに注目する作業とは対照的に,効率的なFFNの設計に重点を置いている。
FFNは、BERT最適化に不可欠な多層パーセプトロン(MLP)から構成されるため、さらに高度なMLPに向けて徹底的な探索空間を設計し、効率的なBERTアーキテクチャを探索するための粗大な機構を実行する。
さらに,モデル転送可能性の向上と探索の促進を目的として,探索段階ごとに新しいウォームアップ知識蒸留戦略を採用する。
検索したEfficientBERTは6.9$\times$小さく、4.4$\times$はBERT$\rm_{BASE}$より高速で、GLUEおよびSQuADベンチマーク上での競合性能を持つ。
具体的には、EfficientBERTは、GLUE \emph{test}で平均スコア77.7、MobileBERT$\rm_{TINY}$より0.7、SQuAD v1.1/v2.0 \emph{dev}で85.3/74.5、TinyBERT$_4$でも3.2/2.7に達する。
コードはhttps://github.com/cheneydon/ efficient-bertでリリースされる。 Pre-trained language models have shown remarkable results on various NLP tasks. Nevertheless, due to their bulky size and slow inference speed, it is hard to deploy them on edge devices. In this paper, we have a critical insight that improving the feed-forward network (FFN) in BERT has a higher gain than improving the multi-head attention (MHA) since the computational cost of FFN is 2$\sim$3 times larger than MHA. Hence, to compact BERT, we are devoted to designing efficient FFN as opposed to previous works that pay attention to MHA. Since FFN comprises a multilayer perceptron (MLP) that is essential in BERT optimization, we further design a thorough search space towards an advanced MLP and perform a coarse-to-fine mechanism to search for an efficient BERT architecture. Moreover, to accelerate searching and enhance model transferability, we employ a novel warm-up knowledge distillation strategy at each search stage. Extensive experiments show our searched EfficientBERT is 6.9$\times$ smaller and 4.4$\times$ faster than BERT$\rm_{BASE}$, and has competitive performances on GLUE and SQuAD Benchmarks. Concretely, EfficientBERT attains a 77.7 average score on GLUE \emph{test}, 0.7 higher than MobileBERT$\rm_{TINY}$, and achieves an 85.3/74.5 F1 score on SQuAD v1.1/v2.0 \emph{dev}, 3.2/2.7 higher than TinyBERT$_4$ even without data augmentation. The code is released at https://github.com/cheneydon/efficient-bert. | 翻訳日:2021-09-17 11:05:30 公開日:2021-09-16 |
# 会話空間:空間言語的意味から推測する Talking Space: inference from spatial linguistic meanings ( http://arxiv.org/abs/2109.06554v2 ) ライセンス: Link先を確認 | Vincent Wang-Mascianica and Bob Coecke | (参考訳) 本稿は、私たちが生活している自然と身近な空間の交わり、私たちが観察し、その中の物事を想像することに関するものである。
言語の重要な特徴の多くは空間的意味を持ち、例えば、多くの前置詞(例えば、イン、アフター、オンなど)は基本的に空間的である。
空間は、多くの単語/フレーズ/文/テキストの意味の重要な要素であり、空間はキーではなく、参照するコンテキスト(例えば、ポインティング)とエンボディメントである。
本稿では,空間構造と言語構造を一致した構成方法で相互作用させるメカニズムを提案する。
例えば、カルテシア空間、地下鉄駅、チェス盤のチェスピース、ペンローズの階段などがある。
構築の出発点は合成自然言語の意味のDisCoCatモデルであり、物理空間に対応するためにリラックスする。
我々は、複数のエージェント/オブジェクトを空間に持つ問題に対処する。例えば、各エージェントがその空間に対して異なる能力を持っている場合、例えば、各チェスピースができる特定の動きや、到達可能な異なる速度などである。
モデルが成立すると、物理空間の構造から引き出された推論がどのように作成されるかを示す。
また,空間の言語モデルと私たちの感覚や身体に関連する他のモデル,例えば色彩,味覚,嗅覚といった概念空間との相互作用によって,世界における人間の経験や具体化に近い豊かな構成的意味モデルが生み出せるかについても検討した。 This paper concerns the intersection of natural language and the physical space around us in which we live, that we observe and/or imagine things within. Many important features of language have spatial connotations, for example, many prepositions (like in, next to, after, on, etc.) are fundamentally spatial. Space is also a key factor of the meanings of many words/phrases/sentences/text, and space is a, if not the key, context for referencing (e.g. pointing) and embodiment. We propose a mechanism for how space and linguistic structure can be made to interact in a matching compositional fashion. Examples include Cartesian space, subway stations, chesspieces on a chess-board, and Penrose's staircase. The starting point for our construction is the DisCoCat model of compositional natural language meaning, which we relax to accommodate physical space. We address the issue of having multiple agents/objects in a space, including the case that each agent has different capabilities with respect to that space, e.g., the specific moves each chesspiece can make, or the different velocities one may be able to reach. Once our model is in place, we show how inferences drawing from the structure of physical space can be made. We also how how linguistic model of space can interact with other such models related to our senses and/or embodiment, such as the conceptual spaces of colour, taste and smell, resulting in a rich compositional model of meaning that is close to human experience and embodiment in the world. | 翻訳日:2021-09-17 10:45:31 公開日:2021-09-16 |
# 多変数ガウス多様体に対するKL-発散を用いた共役前駆体の構築 How to use KL-divergence to construct conjugate priors, with well-defined non-informative limits, for the multivariate Gaussian ( http://arxiv.org/abs/2109.07384v2 ) ライセンス: Link先を確認 | Niko Br\"ummer | (参考訳) ウィッシュアート分布は、平均が知られているときの多変量ガウス確率の精度の前の標準共役であり、また平均が未知であるときの通常のウィッシュアートも用いられる。
しかし、これらの分布のハイパーパラメータに値を割り当てる方法はあまり明確ではない。
特に、これらの分布の非インフォーマルな極限を形成する場合、ウィッシュアートの形状(あるいは自由度)パラメータは注意して扱う必要がある。
擬似数として形を直接解釈してゼロにする直感的な解法は、いくつかの著者が提案したように、形状パラメータの制限に違反している。
Wishart と normal-Wishart の共役前駆体を構築するためのエネルギー関数として多変量ガウス多様体間のスケールした KL 分割を利用する方法を示す。
情報プリエントとして使用される場合、これらの分布のサルエント特徴はモードであり、klスケーリング係数は擬似数として機能する。
スケール係数はゼロの極限まで下げることができ、ウィッシュアート形状パラメータの制約に違反しない非インフォーマティブな事前値を形成することができる。
この極限は、後続モードがガウスのパラメータの最大推定値と同一であるという意味では非形式的である。 The Wishart distribution is the standard conjugate prior for the precision of the multivariate Gaussian likelihood, when the mean is known -- while the normal-Wishart can be used when the mean is also unknown. It is however not so obvious how to assign values to the hyperparameters of these distributions. In particular, when forming non-informative limits of these distributions, the shape (or degrees of freedom) parameter of the Wishart must be handled with care. The intuitive solution of directly interpreting the shape as a pseudocount and letting it go to zero, as proposed by some authors, violates the restrictions on the shape parameter. We show how to use the scaled KL-divergence between multivariate Gaussians as an energy function to construct Wishart and normal-Wishart conjugate priors. When used as informative priors, the salient feature of these distributions is the mode, while the KL scaling factor serves as the pseudocount. The scale factor can be taken down to the limit at zero, to form non-informative priors that do not violate the restrictions on the Wishart shape parameter. This limit is non-informative in the sense that the posterior mode is identical to the maximum likelihood estimate of the parameters of the Gaussian. | 翻訳日:2021-09-17 10:45:06 公開日:2021-09-16 |
# 3次元形状表現のための多分解能深絞り関数 Multiresolution Deep Implicit Functions for 3D Shape Representation ( http://arxiv.org/abs/2109.05591v2 ) ライセンス: Link先を確認 | Zhang Chen and Yinda Zhang and Kyle Genova and Sean Fanello and Sofien Bouaziz and Christian Haene and Ruofei Du and Cem Keskin and Thomas Funkhouser and Danhang Tang | (参考訳) 形状整形などのグローバルな操作を行なえるとともに,微細な幾何学的詳細を復元できる階層表現であるMDIF(Multi resolution Deep Implicit Function)を導入する。
我々のモデルは、遅延格子の階層構造を持つ複雑な3次元形状を表現し、様々な詳細レベルにデコードでき、精度も向上する。
形状完備化のために,潜時空間の部分データをシミュレーションし,デコーダ側へ遅延する潜在格子ドロップアウトを提案する。
マルチレス設計と合わせて,デコーダのみの潜時最適化による形状仕上げ品質が大幅に向上する。
我々の知る限り、MDIFは(1)異なる詳細レベルを表現でき、プログレッシブデコードを可能にする最初の暗黙関数モデルであり、(2)エンコーダ-デコーダ推論とデコーダのみの潜在最適化の両方をサポートし、複数のアプリケーションに対応し、(3)詳細なデコーダのみの形状補完を行う。
実験は、様々な3次元再構築タスクにおいて、先行技術に対する優れた性能を示す。 We introduce Multiresolution Deep Implicit Functions (MDIF), a hierarchical representation that can recover fine geometry detail, while being able to perform global operations such as shape completion. Our model represents a complex 3D shape with a hierarchy of latent grids, which can be decoded into different levels of detail and also achieve better accuracy. For shape completion, we propose latent grid dropout to simulate partial data in the latent space and therefore defer the completing functionality to the decoder side. This along with our multires design significantly improves the shape completion quality under decoder-only latent optimization. To the best of our knowledge, MDIF is the first deep implicit function model that can at the same time (1) represent different levels of detail and allow progressive decoding; (2) support both encoder-decoder inference and decoder-only latent optimization, and fulfill multiple applications; (3) perform detailed decoder-only shape completion. Experiments demonstrate its superior performance against prior art in various 3D reconstruction tasks. | 翻訳日:2021-09-17 10:44:29 公開日:2021-09-16 |
# PnP-DETR:変換器を用いた効率的な視覚解析を目指して PnP-DETR: Towards Efficient Visual Analysis with Transformers ( http://arxiv.org/abs/2109.07036v2 ) ライセンス: Link先を確認 | Tao Wang, Li Yuan, Yunpeng Chen, Jiashi Feng, Shuicheng Yan | (参考訳) detrは最近、画像特徴マップをオブジェクト検出結果に直接翻訳するトランスフォーマによる視覚タスクのソリューションの先駆者となった。
有効ではあるが、背景のような領域で冗長な計算を行うため、フル機能マップの翻訳はコストがかかる可能性がある。
本研究では,空間的冗長性を削減するという考え方を新しいpnpサンプリングモジュールにカプセル化し,その計算を空間的に適応的に割り当ててより効率的にするエンドツーエンドのpnp-detrアーキテクチャを構築する。
具体的には、PnPモジュールは画像特徴マップを微細な前景オブジェクト特徴ベクトルと、少数の粗い背景背景特徴ベクトルに抽象化する。
トランスフォーマーは、細粒度特徴空間内の情報相互作用をモデル化し、特徴を検出結果に変換する。
さらに、PnP拡張モデルは、既存の手法として複数のモデルを訓練することなく、サンプル特徴長を変化させることにより、単一モデルによる性能と計算の間の様々なトレードオフを即座に達成することができる。
これにより、さまざまな計算制約のあるさまざまなシナリオでのデプロイメントの柔軟性が向上する。
さらに,pnpモジュールのパンオプティカルセグメンテーションと最近のトランスフォーマティブベース画像認識モデルvitの一般化可能性をさらに検証し,一貫した効率向上を示す。
我々は,この手法が,空間冗長性をよく観察するトランスフォーマーを用いた効率的な視覚解析のステップとなると信じている。
コードは \url{https://github.com/twangnh/pnp-detr}で入手できる。 Recently, DETR pioneered the solution of vision tasks with transformers, it directly translates the image feature map into the object detection result. Though effective, translating the full feature map can be costly due to redundant computation on some area like the background. In this work, we encapsulate the idea of reducing spatial redundancy into a novel poll and pool (PnP) sampling module, with which we build an end-to-end PnP-DETR architecture that adaptively allocates its computation spatially to be more efficient. Concretely, the PnP module abstracts the image feature map into fine foreground object feature vectors and a small number of coarse background contextual feature vectors. The transformer models information interaction within the fine-coarse feature space and translates the features into the detection result. Moreover, the PnP-augmented model can instantly achieve various desired trade-offs between performance and computation with a single model by varying the sampled feature length, without requiring to train multiple models as existing methods. Thus it offers greater flexibility for deployment in diverse scenarios with varying computation constraint. We further validate the generalizability of the PnP module on panoptic segmentation and the recent transformer-based image recognition model ViT and show consistent efficiency gain. We believe our method makes a step for efficient visual analysis with transformers, wherein spatial redundancy is commonly observed. Code will be available at \url{https://github.com/twangnh/pnp-detr}. | 翻訳日:2021-09-17 10:44:09 公開日:2021-09-16 |
# 低リソース言語におけるASR構築のための教師なしドメイン適応方式 Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages ( http://arxiv.org/abs/2109.05494v2 ) ライセンス: Link先を確認 | Anoop C S, Prathosh A P, A G Ramakrishnan | (参考訳) スクラッチから自動音声認識(ASR)システムを構築するには、多くの言語で収集が困難である大量の注釈付き音声データが必要である。
しかし、ASRを構築するのに十分なアノテートデータを持つ高リソース言語と、低リソース言語が共通の音響空間を共有する場合もある。
このような場合、教師なしドメイン適応(UDA)スキームを通じて高リソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能が向上することを示す。
私たちは、ソースドメインのhindiとターゲットドメインのsanskritの特定の例を使っています。
2つのアーキテクチャを探求します
一 勾配反転層(GRL)を用いたドメイン逆行訓練及び
二 ドメイン分離ネットワーク(DSN)
grlとdsnアーキテクチャはそれぞれ6.71%と7.32%の絶対的な改善を行い、ターゲットドメインの5.5時間のデータでトレーニングされた場合、ベースラインのディープニューラルネットワークモデルよりもエラー率が高い。
また、ソースドメイン内で適切な言語(telugu)を選択することでさらなる改善が期待できることを示す。
その結果,UDA スキームは低リソース言語用 ASR システムの開発に有効であることが示唆され,大量の注釈付き音声データ収集の難しさが軽減された。 Building an automatic speech recognition (ASR) system from scratch requires a large amount of annotated speech data, which is difficult to collect in many languages. However, there are cases where the low-resource language shares a common acoustic space with a high-resource language having enough annotated data to build an ASR. In such cases, we show that the domain-independent acoustic models learned from the high-resource language through unsupervised domain adaptation (UDA) schemes can enhance the performance of the ASR in the low-resource language. We use the specific example of Hindi in the source domain and Sanskrit in the target domain. We explore two architectures: i) domain adversarial training using gradient reversal layer (GRL) and ii) domain separation networks (DSN). The GRL and DSN architectures give absolute improvements of 6.71% and 7.32%, respectively, in word error rate over the baseline deep neural network model when trained on just 5.5 hours of data in the target domain. We also show that choosing a proper language (Telugu) in the source domain can bring further improvement. The results suggest that UDA schemes can be helpful in the development of ASR systems for low-resource languages, mitigating the hassle of collecting large amounts of annotated speech data. | 翻訳日:2021-09-17 10:43:42 公開日:2021-09-16 |
# 複素測地上の離散化独立サーロゲートモデリングのための非線形独立デュアルシステム(NIDS) Non-linear Independent Dual System (NIDS) for Discretization-independent Surrogate Modeling over Complex Geometries ( http://arxiv.org/abs/2109.07018v2 ) ライセンス: Link先を確認 | James Duvall, Karthik Duraisamy, Shaowu Pan | (参考訳) 偏微分方程式(PDE)の数値解は高価なシミュレーションを必要とし、設計最適化ルーチン、モデルベース制御、大規模逆問題解への応用を制限する。
既存の畳み込みニューラルネットワークに基づくサロゲートモデリングフレームワークは、現実的なエンジニアリングアプリケーションには適さない、ピクセル化とデータ前処理を必要とする。
そこで我々は,PDE解の離散化に依存しない連続表現のための深層学習サロゲートモデルである非線形独立二重系(NIDS)を提案する。
NIDSは暗黙の神経表現を活用し、線形出力層におけるケースワイドパラメータネットワークとポイントワイド空間ネットワークの評価を組み合わせることで、問題パラメータと空間座標間の非線形マッピングを状態予測に展開する。
空間ネットワークの入力特徴は、問題の幾何学を暗黙的に符号化する最小距離関数評価によって強化された物理座標を含む。
全体出力層の形式は双対系を誘導し、写像内の各項は非線形で独立である。
さらに,共有パラメータネットワークを用いたNIDSモデルの最小距離関数駆動重み付け和を提案し,一定の制約の下で構成によって境界条件を強制する。
このフレームワークは、非パラメトリックで定義されたメッシュ上の複雑でパラメトリックで定義された幾何学の解を予測するために応用される。
テストケースには、複雑な形状とデータ不足を伴う車両の空力問題が含まれ、トレーニングの進行とともに、より多くのケースが徐々に追加されるトレーニング方法によって実現される。 Numerical solutions of partial differential equations (PDEs) require expensive simulations, limiting their application in design optimization routines, model-based control, or solution of large-scale inverse problems. Existing Convolutional Neural Network-based frameworks for surrogate modeling require lossy pixelization and data-preprocessing, which is not suitable for realistic engineering applications. Therefore, we propose non-linear independent dual system (NIDS), which is a deep learning surrogate model for discretization-independent, continuous representation of PDE solutions, and can be used for prediction over domains with complex, variable geometries and mesh topologies. NIDS leverages implicit neural representations to develop a non-linear mapping between problem parameters and spatial coordinates to state predictions by combining evaluations of a case-wise parameter network and a point-wise spatial network in a linear output layer. The input features of the spatial network include physical coordinates augmented by a minimum distance function evaluation to implicitly encode the problem geometry. The form of the overall output layer induces a dual system, where each term in the map is non-linear and independent. Further, we propose a minimum distance function-driven weighted sum of NIDS models using a shared parameter network to enforce boundary conditions by construction under certain restrictions. The framework is applied to predict solutions around complex, parametrically-defined geometries on non-parametrically-defined meshes with solutions obtained many orders of magnitude faster than the full order models. Test cases include a vehicle aerodynamics problem with complex geometry and data scarcity, enabled by a training method in which more cases are gradually added as training progresses. | 翻訳日:2021-09-17 10:43:21 公開日:2021-09-16 |