このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210915となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 希薄熱ガス中の多重量子コヒーレンス信号の理論 Theory of multiple quantum coherence signals in dilute thermal gases ( http://arxiv.org/abs/2002.09662v2 ) ライセンス: Link先を確認 | Benedikt Ames, Edoardo G. Carnio, Vyacheslav Shatokhin, Andreas Buchleitner | (参考訳) 希薄な熱ガス中での双極子-双極子相互作用の出現は、強い不均質な広がりのために理解しにくい。
最近の実験では、蛍光検出に基づく多重量子コヒーレンス(mqc)信号の測定において、このような相互作用のシグネチャが報告されている。
我々は、希薄な熱ガス中でのmqcのもともとのオープン量子システム理論を開発し、この不連続を解消する。
本理論は、原子双極子のベクトル特性と任意の強度のレーザーパルスの駆動を考慮し、希薄なアンサンブルに先行する双極子間の遠距離結合を含み、無秩序平均による原子運動を効果的に取り入れている。
静電双極子相互作用を用いた従来の処理では無視されていた集団崩壊過程がMQC信号の出現に重要な役割を果たすことを示す。 Manifestations of dipole-dipole interactions in dilute thermal gases are difficult to sense because of strong inhomogeneous broadening. Recent experiments reported signatures of such interactions in fluorescence detection-based measurements of multiple quantum coherence (MQC) signals, with many characteristic features hitherto unexplained. We develop an original open quantum systems theory of MQC in dilute thermal gases, which allows us to resolve this conundrum. Our theory accounts for the vector character of the atomic dipoles as well as for driving laser pulses of arbitrary strength, includes the far-field coupling between the dipoles, which prevails in dilute ensembles, and effectively incorporates atomic motion via a disorder average. We show that collective decay processes -- which were ignored in previous treatments employing the electrostatic form of dipolar interactions -- play a key role in the emergence of MQC signals. | 翻訳日:2023-06-02 09:04:34 公開日:2021-09-15 |
# チャネルのディスコードと歪み Channel Discord and Distortion ( http://arxiv.org/abs/2004.10864v3 ) ライセンス: Link先を確認 | Wei-Wei Zhang, Yuval R. Sanders, Barry C. Sanders | (参考訳) ディスコード(discord)は、元々は二成分量子相関のシグネチャとして注目されるが、実際には古典的にはゼロではない。
ここでは、従来の状態に対する古典的不協和の制限とは対照的に、チャネル歪みの定量化のために古典的不協和を再定義し、古典的(チャネル)不協和とチャネル歪みとの単調な関係を示す。
従来のディスコドは、ノイズのないチャンネルを持つ一方と雑音の多いチャンネルを持つ他方との2部プロトコルのディスコドと全変動距離の単調関係を数値的に発見することにより、(二重確率的)チャネル歪みと同値であることを示す。
提案手法は,ノイズチャネルに対する二重確率行列をランダムに生成し,入力メッセージの一様尺度上で平均化することを含む。
歪みと不一致を結びつけることは、古典的な、量子ではなく、チャネル歪みの符号として不一致を確立する。 Discord, originally notable as a signature of bipartite quantum correlation,in fact can be nonzero classically, i.e., arising from noisy measurements by one of the two parties. Here we redefine classical discord to quantify channel distortion,in contrast to the previous restriction of classical discord to a state,and we then show a monotonic relationship between classical (channel) discord and channel distortion. We show that classical discord is equivalent to (doubly stochastic) channel distortion by numerically discovering a monotonic relation between discord and total-variation distance for a bipartite protocol with one party having a noiseless channel and the other party having a noisy channel. Our numerical method includes randomly generating doubly stochastic matrices for noisy channels and averaging over a uniform measure of input messages. Connecting discord with distortion establishes discord as a signature of classical, not quantum, channel distortion. | 翻訳日:2023-05-22 10:47:34 公開日:2021-09-15 |
# 英国における公開データからの半時間電気需要の計算 Calculating Great Britains half-hourly electrical demand from publicly available data ( http://arxiv.org/abs/2006.15717v4 ) ライセンス: Link先を確認 | IA Grant Wilson, Shivangi Sharma, Joseph Day, Noah Godfrey | (参考訳) 本稿では、イギリスにおける半時間で利用可能な発電と相互運用データを組み合わせて、その電力需要を近似したタイムリーを作成する方法を提案する。
計算された電気需要ESPENIは、Elexon Sum Plus Embedded Net Importsの略である。
この方法は、送信データと配信データの両方を単一のデータセットに組み合わせ、ISO 8601互換の日時を追加して、他のタイムリーデータとの相互運用性を高めることで、元のデータに価値を付加する。
データクリーニングは、データエラーを視覚的にフラグ付けし、単純な線形補間を使用して値をインプットしてフラグ付きデータを置き換える。
この方法を公開することで、さらなる拡張や適応が可能になり、より広いコミュニティによって検討され、批判される。
加えて、公表された生と浄化されたデータは貴重な資源であり、さらなる分析のためにデータを準備するためにメソッドで提示されたステップを繰り返すのに、研究者の時間を節約する。
このデータは、化石燃料から低炭素源まで電気系統の急速な脱炭素化の例として、2008年後半以降、イギリスにおける電気系統の脱炭素化の公的な記録である。 Here we present a method to combine half-hourly publicly available electrical generation and interconnector operational data for Great Britain to create a timeseries that approximates its electrical demand. We term the calculated electrical demand ESPENI that is an acronym for Elexon Sum Plus Embedded Net Imports. The method adds value to the original data by combining both transmission and distribution generation data into a single dataset and adding ISO 8601 compatible datetimes to increase interoperability with other timeseries data. Data cleansing is undertaken by visually flagging data errors and then using simple linear interpolation to impute values to replace the flagged data. Publishing the method allows it to be further enhanced or adapted and to be considered and critiqued by a wider community. In addition, the published raw and cleaned data is a valuable resource that saves researchers considerable time in repeating the steps presented in the method to prepare the data for further analysis. The data is a public record of the decarbonisation of Great Britains electrical system since late 2008, widely seen as an example of rapid decarbonisation of an electrical system away from fossil fuel generation to lower carbon sources. | 翻訳日:2023-05-12 05:33:19 公開日:2021-09-15 |
# バウンシング宇宙論からのカオスと複雑性の量子的側面:2モード単体圧縮状態形式による研究 Quantum aspects of chaos and complexity from bouncing cosmology: A study with two-mode single field squeezed state formalism ( http://arxiv.org/abs/2009.03893v5 ) ライセンス: Link先を確認 | Parth Bhargava, Sayantan Choudhury, Satyaki Chowdhury, Anurag Mishara, Sachin Panneer Selvam, Sudhakar Panda, Gabriel D. Pasquino | (参考訳) 量子場のカオス的振る舞いとランダムな量子揺らぎを調べるために、よく知られた計算テクニックである$circuit~ complexity$が物理学コミュニティのバックボーンとなっている。
本稿では、2つのよく知られたバウンシング宇宙論解 viz のパラダイムから宇宙に現れる平衡外側面と量子カオスの研究に焦点をあてる。
$Cosine~ hyperbolic$ と $Exponential$ スケールファクタのモデル。
複雑性$$circuitの他に、早期と後期の両方で宇宙のランダムな振る舞いを探索するために$Out-of-Time~ Ordered~ correlation~ (OTOC)$関数を使用します。
特に、宇宙論的摂動論におけるよく知られた2モード圧縮状態形式論の手法を計算の目的の重要な要素として用いる。
観測的視点に整合した適切な理論的解釈を与えるため、この計算に適合する時間ではなく、スケール係数とeフォールディングの個数を動的変数として用いる。
本研究から,バウンス期間が最も興味深いことが判明した。
すぐには見えないかもしれないが、現在の時間スケールにポストバウンス機能が外挿されると、$complexity$で指数関数的な上昇が見られる。
また、非常に小さな許容誤差範囲内において、2種類のコスト汎関数から計算される複素度-$linearly~重み$と$geodesic~重み$とOTOCとの普遍接続関係が見つかる。
さらに、宇宙論モデルおよび量子リアプノフ指数(英語版)に束縛されたよく知られたmss(英語版)($\lambda\leq 2\pi/\beta$ for the saturation of chaos)を用いて得られる計算量$complexity$から、後期スケールでの宇宙の平衡温度の下限を推定する。
最後に,共形時間の観点からスクランブル時間の推定を行う。 $Circuit~ Complexity$, a well known computational technique has recently become the backbone of the physics community to probe the chaotic behaviour and random quantum fluctuations of quantum fields. This paper is devoted to the study of out-of-equilibrium aspects and quantum chaos appearing in the universe from the paradigm of two well known bouncing cosmological solutions viz. $Cosine~ hyperbolic$ and $Exponential$ models of scale factors. Besides $circuit~ complexity$, we use the $Out-of-Time~ Ordered~ correlation~ (OTOC)$ functions for probing the random behaviour of the universe both at early and the late times. In particular, we use the techniques of well known two-mode squeezed state formalism in cosmological perturbation theory as a key ingredient for the purpose of our computation. To give an appropriate theoretical interpretation that is consistent with the observational perspective we use the scale factor and the number of e-foldings as a dynamical variable instead of conformal time for this computation. From this study, we found that the period of post bounce is the most interesting one. Though it may not be immediately visible, but an exponential rise can be seen in the $complexity$ once the post bounce feature is extrapolated to the present time scales. We also find within the very small acceptable error range a universal connecting relation between Complexity computed from two different kinds of cost functionals-$linearly~ weighted$ and $geodesic~ weighted$ with the OTOC. Furthermore, from the $complexity$ computation obtained from both the cosmological models and also using the well known MSS bound on quantum Lyapunov exponent, $\lambda\leq 2\pi/\beta$ for the saturation of chaos, we estimate the lower bound on the equilibrium temperature of our universe at late time scale. Finally, we provide a rough estimation of the scrambling time in terms of the conformal time. | 翻訳日:2023-05-03 05:06:24 公開日:2021-09-15 |
# 動的量子相転移の局所測度 Local measures of dynamical quantum phase transitions ( http://arxiv.org/abs/2010.07307v3 ) ライセンス: Link先を確認 | Jad C. Halimeh, Daniele Trapin, Maarten Van Damme, Markus Heyl | (参考訳) 近年、動的量子相転移(DQPT)は、量子物質の非平衡状態を特徴づける有用な理論概念として出現している。
DQPT は \textit{ Effective free energy} $\lambda(t)$ の特異な振る舞いによって特徴づけられるが、これは大域的測度であり、その実験的あるいは理論的検出は一般に難しい。
完全有効自由エネルギーよりも少ない資源を必要とするという利点を生かして,DQPTの検出のための2つの局所的対策を導入する。
1つ目は、実空間で定義される実効自由エネルギー $\lambda_M(t)$ であり、したがって、Rydberg原子や閉じ込められたイオンを含む量子シミュレーター実験のように、局所的に解決された測定が直接アクセス可能なシステムに適している。
iing chains with nearest-neighbor and power-law interaction で$\lambda_m(t)$をテストし、この測度がdqptsの普遍的臨界挙動の抽出を可能にすることを見出した。
2つ目の尺度は、超低温原子の時間-光測定など、運動量分解量の方がより自然にアクセス可能なシステムをターゲットにした、有効自由エネルギー $\lambda_k(t)$ である。
弱相互作用の存在下で位相的量子物質のためのパラダイムシステムであるkitaev chainに対して$\lambda_k(t)$をベンチマークする。
実効自由エネルギーに対する局所的な測定は、現代の量子シミュレーター実験におけるDQPTの検出をさらに促進することができる。 In recent years, dynamical quantum phase transitions (DQPTs) have emerged as a useful theoretical concept to characterize nonequilibrium states of quantum matter. DQPTs are marked by singular behavior in an \textit{effective free energy} $\lambda(t)$, which, however, is a global measure, making its experimental or theoretical detection challenging in general. We introduce two local measures for the detection of DQPTs with the advantage of requiring fewer resources than the full effective free energy. The first, called the \textit{real-local} effective free energy $\lambda_M(t)$, is defined in real space and is therefore suitable for systems where locally resolved measurements are directly accessible such as in quantum-simulator experiments involving Rydberg atoms or trapped ions. We test $\lambda_M(t)$ in Ising chains with nearest-neighbor and power-law interactions, and find that this measure allows extraction of the universal critical behavior of DQPTs. The second measure we introduce is the \textit{momentum-local} effective free energy $\lambda_k(t)$, which is targeted at systems where momentum-resolved quantities are more naturally accessible, such as through time-of-flight measurements in ultracold atoms. We benchmark $\lambda_k(t)$ for the Kitaev chain, a paradigmatic system for topological quantum matter, in the presence of weak interactions. Our introduced local measures for effective free energies can further facilitate the detection of DQPTs in modern quantum-simulator experiments. | 翻訳日:2023-04-29 02:36:47 公開日:2021-09-15 |
# 量子最適制御のためのポントリャーギン最大原理の導入 Introduction to the Pontryagin Maximum Principle for Quantum Optimal Control ( http://arxiv.org/abs/2010.09368v2 ) ライセンス: Link先を確認 | U. Boscain, M. Sigalotti and D. Sugny | (参考訳) 最適制御理論(Optimal Control Theory)は、1950年代から開発が急速に進んでいる強力な数学ツールである。
近年,量子力学の高効率制御により,量子技術のプロセス性能を向上させる手法として広く用いられている。
このチュートリアルは、量子制御や関連する分野で働く物理学者や技術者が利用できる最適制御理論の鍵となる概念を紹介することを目的としている。
異なる数学的結果が厳密に述べられる前に直感的に導入される。
このチュートリアルは最適制御理論の現代的側面を記述し、特に実験的なフィードバックなしにオープンループ制御法則を決定する主要なツールであるポントリャーギン最大原理に焦点を当てている。
最適制御問題の解法は, 最適解の存在や, 正規性, 異常性, 特異性など, 様々なタイプの極小解の定義など, より先進的な話題に進む前に議論される。
チュートリアルでは、様々な量子制御問題を取り上げ、最適制御に適した数学的定式化について説明する。
ポントリャーギン最大原理と高次元量子システムに用いられる勾配に基づく最適化アルゴリズムとの関係について述べる。
異なる低次元量子システムの最適解を詳細に提示し、数学的ツールが実際どのように適用されているかを示す。 Optimal Control Theory is a powerful mathematical tool, which has known a rapid development since the 1950s, mainly for engineering applications. More recently, it has become a widely used method to improve process performance in quantum technologies by means of highly efficient control of quantum dynamics. This tutorial aims at providing an introduction to key concepts of optimal control theory which is accessible to physicists and engineers working in quantum control or in related fields. The different mathematical results are introduced intuitively, before being rigorously stated. This tutorial describes modern aspects of optimal control theory, with a particular focus on the Pontryagin Maximum Principle, which is the main tool for determining open-loop control laws without experimental feedback. The different steps to solve an optimal control problem are discussed, before moving on to more advanced topics such as the existence of optimal solutions or the definition of the different types of extremals, namely normal, abnormal, and singular. The tutorial covers various quantum control issues and describes their mathematical formulation suitable for optimal control. The connection between the Pontryagin Maximum Principle and gradient-based optimization algorithms used for high-dimensional quantum systems is described. The optimal solution of different low-dimensional quantum systems is presented in detail, illustrating how the mathematical tools are applied in a practical way. | 翻訳日:2023-04-28 08:10:08 公開日:2021-09-15 |
# 反復粒子フィルタリングを用いた適応量子状態トモグラフィ Adaptive quantum state tomography with iterative particle filtering ( http://arxiv.org/abs/2010.12867v2 ) ライセンス: Link先を確認 | Syed Muhammad Kazim and Ahmad Farooq and Junaid ur Rehman and Hyundong Shin | (参考訳) いくつかのベイズ推定に基づくヒューリスティックは量子状態トモグラフィ(QST)を実行するために開発された。
地域推定器を用いて不確実性を定量化し、実験者の事前知識を含める能力は、この手法のファミリーをQSTにとって魅力的な選択にしている。
しかし、純粋な状態のための特殊な技術は混合状態に対してうまく機能しない。
本稿では,任意のマルチ量子ビット状態に対する非適応ベイズスキームと比較して忠実度を向上できる適応粒子フィルタ(pf)ベースのqstプロトコルを提案する。
これは、このプロトコルが国家の対角基底を見つけることの難しさと、情報的事前の主観性と再サンプリングによって生成される粒子の無効性に関連する一般的なPF法における永続的な問題に対するより体系的な処理によって生じる。
IBM量子デバイス上での数値例と実装により,任意の量子状態の性能向上と提案方式の適用性を示す。 Several Bayesian estimation based heuristics have been developed to perform quantum state tomography (QST). Their ability to quantify uncertainties using region estimators and include a priori knowledge of the experimentalists makes this family of methods an attractive choice for QST. However, specialized techniques for pure states do not work well for mixed states and vice versa. In this paper, we present an adaptive particle filter (PF) based QST protocol which improves the scaling of fidelity compared to nonadaptive Bayesian schemes for arbitrary multi-qubit states. This is due to the protocol's unabating perseverance to find the states's diagonal bases and more systematic handling of enduring problems in popular PF methods relating to the subjectivity of informative priors and the invalidity of particles produced by resamplers. Numerical examples and implementation on IBM quantum devices demonstrate improved performance for arbitrary quantum states and the application readiness of our proposed scheme. | 翻訳日:2023-04-27 20:47:28 公開日:2021-09-15 |
# 量子適合性テスト Quantum Conformance Test ( http://arxiv.org/abs/2012.15282v2 ) ライセンス: Link先を確認 | Giuseppe Ortolano, Pauline Boucher, Ivo Pietro Degiovanni, Elena Losero, Marco Genovese, Ivano Ruo Berchera | (参考訳) 我々は、テスト中のプロセスが基準のプロセスに適合するかどうかを判定する、適合性テスト問題に対処するプロトコルを導入する。
プロセスは、与えられた確率分布に従って生成される、生成する最終生成物の集合によって特徴づけられると考える。
仮説テストの文脈で問題を定式化し、オブジェクトを純粋な損失チャネルとしてモデル化できる特定のケースについて考察する。
2モードスクイーズド真空と光子計数という形で、容易に利用可能なリソースと測定スキームを用いる単純な量子戦略が、古典的戦略を上回ることができることを理論的に証明する。
我々はこのプロトコルを実験的に実装し、光学双対ビームを利用して理論結果を検証し、このタスクでは現実的な設定で量子的優位性があることを実証した。 We introduce a protocol addressing the conformance test problem, which consists in determining whether a process under test conforms to a reference one. We consider a process to be characterized by the set of end-product it produces, which is generated according to a given probability distribution. We formulate the problem in the context of hypothesis testing and consider the specific case in which the objects can be modeled as pure loss channels. We demonstrate theoretically that a simple quantum strategy, using readily available resources and measurement schemes in the form of two-mode squeezed vacuum and photon-counting, can outperform any classical strategy. We experimentally implement this protocol, exploiting optical twin beams, validating our theoretical results, and demonstrating that, in this task, there is a quantum advantage in a realistic setting. | 翻訳日:2023-04-18 07:37:57 公開日:2021-09-15 |
# 静的・移動的不純物からの局在ダイナミクス Localization Dynamics from Static and Mobile Impurities ( http://arxiv.org/abs/2101.06420v3 ) ライセンス: Link先を確認 | Ephraim Bernhardt, Fan Yang, Karyn Le Hur | (参考訳) 静的および移動不純物からの超流動応答と局所化ダイナミクスについて検討する。
超流動性は、スピン-マイスナー電流を生成するボソニックラダーモデルのrung-mott相において、$\mathbb{u}(1)$ゲージ場または一様磁場により形成される。
不純物は、2ピークランダムポテンシャルとして作用する2状態系を通して記述される。
不純物はラングの上部または下部に等しく位置し、電信信号を生成する。
不純物-物質カップリングは、ラダーの両脚の反転対称性に関連する静的および移動的不純物に対する古典的なイジング対称性をもたらす。
分離されたrungs極限から、移動不純物に対する局所的な$\mathbb{z}_2$ゲージ理論を同定する。
系の特性は、ボソンと不純物の間の強い相互作用の限界における4体結合の可能性を含む有効量子スピンモデルから研究される。
解析的アプローチと数値的完全対角化により,ボソンの弱結合と強結合のルング限界の両方において超流動電流が研究される。
弱結合したrungs状況では,2ピーク確率ポテンシャルの様々な構成に対して,強結合rungs制限が急な局所化あるいは絶縁相を生じさせるのに対して,滑らかなパワールールの局在を見出すことができた。
強い乱れの状況では、絡み合いと二分ゆらぎによって、N\'ウナギ状態に調製された場合、システムのクエンチ後の時間における多体局在状態も特定する。 We study the superfluid response and localization dynamics from static and mobile impurities. The superfluidity is formed in the rung-Mott phase of a bosonic ladder model producing spin-Meissner currents induced by a $\mathbb{U}(1)$ gauge field or a uniform magnetic field. Impurities are described through two-state systems which act as a two-peak random potential. An impurity sits either at the top or at the bottom of the ladder on each rung equally, producing a telegraph signal. The impurities-matter coupling gives rise to a classical Ising symmetry for static and mobile impurities associated to the inversion symmetry of the two legs of the ladder. From the decoupled rungs limit, we also identify a local $\mathbb{Z}_2$ gauge theory for mobile impurities. The properties of the system are studied from an effective quantum spin model including the possibility of four-body coupling in the limit of a strong interaction between bosons and impurities. Through analytical approaches and numerical exact diagonalization, we study the superfluid currents both in the weakly-coupled and strongly-coupled rungs limits for the bosons. In the weakly-coupled rungs situation, we find a smooth power-law localization whereas the strongly-coupled rungs limit produces a steep localization or insulating phase for various configurations of the two-peak random potential. In the strongly disordered situation, through entanglement and bipartite fluctuation measures, we also identify a many-body localization regime in time after a quench of the system when prepared in a N\' eel state. | 翻訳日:2023-04-15 01:02:19 公開日:2021-09-15 |
# 欧州連合のデジタル単一市場における政策文書の可読性の評価 Assessing the Readability of Policy Documents on the Digital Single Market of the European Union ( http://arxiv.org/abs/2102.11625v2 ) ライセンス: Link先を確認 | Jukka Ruohonen | (参考訳) 今日では文学の技量が必要である。
工学やその他の専門職は例外ではない。
伝統的に、技術的読み書きは、ドキュメント、仕様、標準、関連するテキストタイプを含む、限られた範囲でフレーム化されてきた。
しかし現在では、法律、政策、関連する文書など、他のテキストタイプもカバーしている。
この動機を踏まえ、欧州連合(eu)における201の法律及び関連する政策文書の可読性を評価する。
デジタル単一市場(DSM)がコンテキストを提供する。
5つの古典的可読性指標は、テキストの可読性の定量的尺度である。
実験の結果は
(i)DSM法や政策文書を理解するためには、一般的に博士レベルの教育が必要である。
但し
(ii)5つの指標で結果が異なる。
(iii)可読性は時間とともに若干改善されている。 Today, literature skills are necessary. Engineering and other technical professions are not an exception from this requirement. Traditionally, technical reading and writing have been framed with a limited scope, containing documentation, specifications, standards, and related text types. Nowadays, however, the scope covers also other text types, including legal, policy, and related documents. Given this motivation, this paper evaluates the readability of 201 legislations and related policy documents in the European Union (EU). The digital single market (DSM) provides the context. Five classical readability indices provide the methods; these are quantitative measures of a text's readability. The empirical results indicate that (i) generally a Ph.D. level education is required to comprehend the DSM laws and policy documents. Although (ii) the results vary across the five indices used, (iii) readability has slightly improved over time. | 翻訳日:2023-04-10 03:45:24 公開日:2021-09-15 |
# カオスおよび可積分量子鎖における作用素前面拡大 Operator front broadening in chaotic and integrable quantum chains ( http://arxiv.org/abs/2103.13414v2 ) ライセンス: Link先を確認 | Javier Lopez-Piqueres, Brayden Ware, Sarang Gopalakrishnan, Romain Vasseur | (参考訳) 単体時間進化の下で拡散する演算子は最近、多体量子カオスを探索する方法として多くの注目を集めている。
オフ・オブ・タイム・オーダード・コレレータ(OTOC)のような量は非相互作用系と相互作用する相互作用を区別するが、多体量子系におけるカオス(chaotic)と積分力学(integrable dynamics)を真に診断できる範囲は、まだ不明である。
ここでは, 行列積演算子 (MPO) と解析技術を組み合わせて, 一般1次元多体量子系における演算子拡散を解析し, 演算子右重みに着目した。
第一に、小さい結合次元のMPOは、演算子の前方の指数的に劣化する尾部を捉えることができるが、以前の結果と一致して、右の重みの最大値で定義される実際の正面に対する有意な量的および定性的誤差をもたらす。
演算子フロントは、可積分スピンチェーンとカオス相互作用スピンチェーンの両方において拡散的に広がるが、可積分系における前面の高さの正確な形状とスケーリングは、すべてのアクセス可能な時間において異常である。
これらの結果を準粒子画像を用いて解釈する。
これは演算子フロントにおける多体量子カオスのシャープな微妙なシグネチャを提供する。 Operator spreading under unitary time evolution has attracted a lot of attention recently, as a way to probe many-body quantum chaos. While quantities such as out-of-time-ordered correlators (OTOC) do distinguish interacting from non-interacting systems, it has remained unclear to what extent they can truly diagnose chaotic {\it vs} integrable dynamics in many-body quantum systems. Here, we analyze operator spreading in generic 1D many-body quantum systems using a combination of matrix product operator (MPO) and analytical techniques, focusing on the operator {\em right-weight}. First, we show that while small bond dimension MPOs allow one to capture the exponentially-decaying tail of the operator front, in agreement with earlier results, they lead to significant quantitative and qualitative errors for the actual front -- defined by the maximum of the right-weight. We find that while the operator front broadens diffusively in both integrable and chaotic interacting spin chains, the precise shape and scaling of the height of the front in integrable systems is anomalous for all accessible times. We interpret these results using a quasiparticle picture. This provides a sharp, though rather subtle signature of many-body quantum chaos in the operator front. | 翻訳日:2023-04-06 23:33:19 公開日:2021-09-15 |
# 解読不能な暗号化、再訪 Unclonable Encryption, Revisited ( http://arxiv.org/abs/2103.15009v2 ) ライセンス: Link先を確認 | Prabhanjan Ananth, Fatih Kaleoglu | (参考訳) Broadbent and Lord (TQC'20) は暗号化方式であり、暗号文が与えられた場合、相手は元の暗号文と同じメッセージに復号する2つの暗号文を作成することができない。
再利用性: BroadbentとLordによって提案された構造は、平易なモデルにおけるワンタイムセキュリティ(つまり、暗号化キーはメッセージの暗号化に一度しか使用できない)、あるいはランダムなオラクルモデルにおけるセキュリティを保証するというデメリットがあります。
セマンティック・セキュリティを備えた非拘束型暗号化方式を構築した。
最小の暗号仮定から2つの構成(公開鍵設定とプライベート鍵設定)を提案する。
-境界線と一般建設:ブロードベントとロードの安全構築に関する情報理論を見直します。
構築中の敵が成功する確率は0.85^n$と保証され、$n$はメッセージの長さである。
0.5^n$の理想的な成功確率が達成不可能かどうかを理解することは興味深い。
我々はそれらの構成を、より広範な絡み合いゲームの一夫一婦制に基づくものに一般化する。
我々は、broadbent と lord を含むスキームのクラスに対して 0.71^n$ の確率で成功する単純なクローン攻撃を示す。
また,0.75^n$のクローン攻撃も実施する。
コピー・プロテクション(copy-Protection): 制限不能な暗号化は、(BroadbentとLordによって定義された)制限不能な識別性と呼ばれる、より強力なプロパティを満たす。
現在、この強力なプロパティを満たす暗号化スキームを持っていませんが、この意味合いはコピー保護を構築するための新しいパスを示しています。 Unclonable encryption, introduced by Broadbent and Lord (TQC'20), is an encryption scheme with the following attractive feature: given a ciphertext, an adversary cannot create two ciphertexts both of which decrypt to the same message as the original ciphertext. We revisit this notion and show the following: - Reusability: The constructions proposed by Broadbent and Lord have the disadvantage that they either guarantee one-time security (that is, the encryption key can only be used once to encrypt the message) in the plain model or they guaranteed security in the random oracle model. We construct unclonable encryption schemes with semantic security. We present two constructions (for public-key and private-key settings) from minimal cryptographic assumptions. - Lower Bound and Generalized Construction: We revisit the information-theoretic one-time secure construction of Broadbent and Lord. The success probability of the adversary in their construction was guaranteed to be $0.85^n$, where $n$ is the length of the message. It was interesting to understand whether the ideal success probability of (negligibly close to) $0.5^n$ was unattainable. We generalize their construction to be based on a broader class of monogamy of entanglement games. We demonstrate a simple cloning attack that succeeds with probability $0.71^n$ against a class of schemes including that of Broadbent and Lord. We also present a $0.75^n$ cloning attack exclusively against their scheme. - Implication to Copy-Protection: We show that unclonable encryption, satisfying a stronger property, called unclonable-indistinguishability (defined by Broadbent and Lord), implies copy-protection for a simple class of unlearnable functions. While we currently don't have encryption schemes satisfying this stronger property, this implication demonstrates a new path to construct copy-protection. | 翻訳日:2023-04-06 17:03:30 公開日:2021-09-15 |
# 複素係数を持つ分割法をユニタリ問題の数値積分に適用する Applying splitting methods with complex coefficients to the numerical integration of unitary problems ( http://arxiv.org/abs/2104.02412v2 ) ライセンス: Link先を確認 | S. Blanes, F. Casas, A. Escorihuela-Tom\`as | (参考訳) 時間依存シュリンガー方程式を数値的に解くために複素係数を含む分割法の適用性について検討する。
積分器の特定のクラスが、群 $\mathrm{SU}(2)$ で定義される問題に適用した場合、十分に小さなステップサイズのユニタリメソッドに共役であることが証明される。
一般の場合、これらの手法によって提供される数値近似のエネルギーとノルムの誤差は、空間における擬スペクトル離散化技術と組み合わせた場合、長い時間間隔で世俗成分を持たない。 We explore the applicability of splitting methods involving complex coefficients to solve numerically the time-dependent Schr\"odinger equation. We prove that a particular class of integrators are conjugate to unitary methods for sufficiently small step sizes when applied to problems defined in the group $\mathrm{SU}(2)$. In the general case, the error in both the energy and the norm of the numerical approximation provided by these methods does not possess a secular component over long time intervals, when combined with pseudo-spectral discretization techniques in space. | 翻訳日:2023-04-05 06:30:18 公開日:2021-09-15 |
# 3量子GHZクラスの異なるサブクラスの分類のための分類目撃者演算子 Classification witness operator for the classification of different subclasses of three-qubit GHZ class ( http://arxiv.org/abs/2104.03679v2 ) ライセンス: Link先を確認 | Anu Kumari, Satyabrata Adhikari | (参考訳) 3量子系は確率的局所演算と古典的通信(SLOCC)の下で2種類の非等価な真の絡み合ったクラスを持つことが知られている。
これらのクラスはGHZクラスとWクラスと呼ばれる。
GHZクラスは、量子テレポーテーション、制御された量子テレポーテーションなどの異なる量子情報処理タスクにとって非常に有用なクラスであることが証明された。
本研究では、GHZクラスからの純粋な3量子状態が、$S_{1}$, $S_{2}$, $S_{3}$, $S_{4}$で表される異なるサブクラスに分散し、$S_{2}$または$S_{3}$または$S_{4}$に属する3量子状態が、$S_{1}$に属する3量子状態よりも効率的であることを示す。
したがって、これらの状態は$s_{i}、i=2,3,4$、状態は$s_{1}$と区別する必要がある。
このタスクを達成するために、我々は、$s_{1}$から$s_{i}, i=2,3,4$のサブクラスを分類できる異なる証人演算子を構築しました。
構築された目撃者作用素はパウリ行列に分解可能であることを示し、したがって実験的に実現可能である。 It is well known that three-qubit system has two kind of inequivalent genuine entangled classes under stochastic local operation and classical communication (SLOCC). These classes are called as GHZ class and W class. GHZ class proved to be a very useful class for different quantum information processing task such as quantum teleportation, controlled quantum teleportation etc. In this work, we distribute pure three-qubit states from GHZ class into different subclasses denoted by $S_{1}$, $S_{2}$, $S_{3}$, $S_{4}$ and show that the three-qubit states either belong to $S_{2}$ or $S_{3}$ or $S_{4}$ may be more efficient than the three-qubit state belong to $S_{1}$. Thus, it is necessary to discriminate the states belong to $S_{i}, i=2,3,4$ and the state belong to $S_{1}$. To achieve this task, we have constructed different witness operators that can classify the subclasses $S_{i}, i=2,3,4$ from $S_{1}$. We have shown that the constructed witness operator can be decomposed into Pauli matrices and hence can be realized experimentally. | 翻訳日:2023-04-04 12:15:54 公開日:2021-09-15 |
# 規則54における絡み合いダイナミクス:正確な結果と準粒子画像 Entanglement dynamics in Rule 54: Exact results and quasiparticle picture ( http://arxiv.org/abs/2104.04513v2 ) ライセンス: Link先を確認 | Katja Klobas and Bruno Bertini | (参考訳) 量子セルオートマトンルール54$における量子クエンチによって生じる絡み合いのダイナミクスについて検討する。
我々は、最近導入された解決可能な初期状態のクラスからの進化を考える。
このクラスの状態は(局所的に)ギブス状態の1パラメータ族に緩和し、局所的な可観測物の熱化ダイナミクスは空間の進化によって正確に特徴づけられる。
ここで、後者のアプローチは、熱力学的極限におけるすべての r\'enyi エントロピーの漸近線型成長とその有限サブシステムに対する最終的な飽和を記述する、絡み合いダイナミクスへのアクセスを与える。
フォン・ノイマンエントロピーの場合、擬粒子像の予測を正確に復元するが、他の r\'enyi エントロピーに対して物理的に意味のある準粒子記述は見つからなかった。
結果は均質なクエンチェと不均一なクエンチェの両方に適用できる。 We study the entanglement dynamics generated by quantum quenches in the quantum cellular automaton Rule $54$. We consider the evolution from a recently introduced class of solvable initial states. States in this class relax (locally) to a one-parameter family of Gibbs states and the thermalisation dynamics of local observables can be characterised exactly by means of an evolution in space. Here we show that the latter approach also gives access to the entanglement dynamics and derive exact formulas describing the asymptotic linear growth of all R\'enyi entropies in the thermodynamic limit and their eventual saturation for finite subsystems. While in the case of von Neumann entropy we recover exactly the predictions of the quasiparticle picture, we find no physically meaningful quasiparticle description for other R\'enyi entropies. Our results apply to both homogeneous and inhomogeneous quenches. | 翻訳日:2023-04-04 07:35:40 公開日:2021-09-15 |
# 回路内のフォトニック熱電流の量子揺らぎのダウンコンバージョン Down-conversion of quantum fluctuations of photonic heat current in a circuit ( http://arxiv.org/abs/2104.09238v2 ) ライセンス: Link先を確認 | Bayan Karimi and Jukka P. Pekola | (参考訳) 熱電流の非零周波ノイズをサーキット内の熱光子によって伝達されるエネルギーの明示的な例で検討する。
時間平均熱電流の予測に便利な標準回路モデルではなく、ボソニック発振器の集束により熱浴を形成する2つの抵抗器からなる構成について述べる。
平均的な熱輸送の観点からは、このモデルは従来のものと同じ結果をもたらすが、それ以外は、ノイズに対処する便利な方法でもある。
非零周波熱電流ノイズは、ゼロ温度でも平衡状態において消失せず、その結果、例えば電子トンネルなどとして知られる。
本稿では,高周波数の量子ノイズをゼロ周波数に変換する変調法を提案する。 We discuss the non-zero frequency noise of heat current with the explicit example of energy carried by thermal photons in a circuit. Instead of the standard circuit modelling that gives a convenient way of predicting time-averaged heat current, we describe a setup composed of two resistors forming the heat baths by collections of bosonic oscillators. In terms of average heat transport this model leads to identical results with the conventional one, but besides this, it yields a convenient way of dealing with noise as well. The non-zero frequency heat current noise does not vanish in equilibrium even at zero temperature, the result that is known for, e.g., electron tunneling. We present a modulation method that can convert the difficult-to-measure high frequency quantum noise down to zero frequency. | 翻訳日:2023-04-03 04:50:30 公開日:2021-09-15 |
# 量子熱力学系における低温から高温への熱流の非対称温度平衡 Asymmetric temperature equilibration with heat flow from cold to hot in a quantum thermodynamic system ( http://arxiv.org/abs/2106.08508v2 ) ライセンス: Link先を確認 | Phillip C. Lotshaw and Michael E. Kellman | (参考訳) モデル計算量子熱力学ネットワークは、リンカー系によって結合された2つの可変温度浴と、リンカーと2つの浴槽の結合における非対称性によって構成される。
計算シミュレーションでは、浴槽は異なる浴槽エネルギーと温度で「熱平衡」に達することが示されている。
ある意味では、熱は寒さから暑さへ流れるのが観察される。
純状態 "universe" に対して最近定義された量子エントロピー $S^Q_{univ}$ が等温の古典的平衡点を通過した後に増加し続け、非対称平衡で最大値に達するという記述が与えられる。
したがって、第二法則は非対称量子過程に対して$\delta s^q_{univ} \ge 0$が成り立つ。
対照的に、フォン・ノイマンのエントロピー記述は、2つの温度が等しくなると最大値でエントロピーの法則を保たないので、非対称平衡に向かう途中で$\delta s^{vn} < 0$ が減少する。 A model computational quantum thermodynamic network is constructed with two variable temperature baths coupled by a linker system, with an asymmetry in the coupling of the linker to the two baths. It is found in computational simulations that the baths come to "thermal equilibrium" at different bath energies and temperatures. In a sense, heat is observed to flow from cold to hot. A description is given in which a recently defined quantum entropy $S^Q_{univ}$ for a pure state "universe" continues to increase after passing through the classical equilibrium point of equal temperatures, reaching a maximum at the asymmetric equilibrium. Thus, a second law account $\Delta S^Q_{univ} \ge 0$ holds for the asymmetric quantum process. In contrast, a von Neumann entropy description fails to uphold the entropy law, with a maximum near when the two temperatures are equal, then a decrease $\Delta S^{vN} < 0$ on the way to the asymmetric equilibrium. | 翻訳日:2023-03-26 13:24:35 公開日:2021-09-15 |
# 量子テレポーテーションに基づく決定論的マイクロ波光変換 Deterministic microwave-optical transduction based on quantum teleportation ( http://arxiv.org/abs/2106.14037v2 ) ライセンス: Link先を確認 | Jing Wu, Chaohan Cui, Linran Fan and Quntao Zhuang | (参考訳) マイクロ波と光周波数のコヒーレント変換は、長距離の超伝導量子プロセッサの相互接続に不可欠である。
しかし、標準の直接変換方式に基づいて、高効率で小さなノイズを付加した量子インタフェースを確立することは困難である。
本稿では,連続可変量子テレポーテーションに基づくトランスダクション方式を提案する。
信頼性の高い量子情報伝送は、最小の最小協調性を必要とする直接変換方式とは対照的に、任意に小さな協調性で実現できる。
テレポーテーションに基づくスキームは, 協調性のすべての値に対して, 顕著な速度優位性を維持していることを示す。
さらに,cat状態やgottesman-kitaev-preskill(gkp)状態などの複雑な量子状態の変換における性能について検討し,テレポーテーションに基づくスキームにより高い忠実性や成功確率が得られることを示す。
提案方式はデバイス要件を大幅に低減し,近い将来にマイクロ波と光周波数間の量子トランスダクションを実現する。 The coherent transduction between microwave and optical frequencies is critical to interconnect superconducting quantum processors over long distances. However, it is challenging to establish such a quantum interface with high efficiency and small added noise based on the standard direct conversion scheme. Here, we propose a transduction scheme based on continuous-variable quantum teleportation. Reliable quantum information transmission can be realized with an arbitrarily small cooperativity, in contrast to the direct conversion scheme which requires a large minimum cooperativity. We show that the teleportation-based scheme maintains a significant rate advantage robustly for all values of cooperativity. We further investigate the performance in the transduction of complex quantum states such as cat states and Gottesman-Kitaev-Preskill(GKP) states and show that a higher fidelity or success probability can be achieved with the teleportation-based scheme. Our scheme significantly reduces the device requirement, and makes quantum transduction between microwave and optical frequencies feasible in the near future. | 翻訳日:2023-03-25 11:48:00 公開日:2021-09-15 |
# 受動状態の運動:エルゴトロピー抽出後の廃棄物エネルギー Exergy of passive states: Waste energy after ergotropy extraction ( http://arxiv.org/abs/2107.01828v3 ) ライセンス: Link先を確認 | F. H. Kamin, S. Salimi and Alan C. Santos | (参考訳) ワーク抽出プロトコルは常に量子電池の文脈において重要な問題であり、エルゴトロピーの概念はユニタリプロセスを通して抽出できる特定の量のエネルギーを定量化するために用いられる。
量子系に蓄積されるエネルギーの総量を考えると、エルゴトロピー抽出後の無駄エネルギーの定量化は、熱貯水池との望ましくない結合を考慮した場合に考慮すべき問題である。
本稿では、量子系からエルゴトロピーを抽出し、受動状態のエクセルギーによって定量化する場合、ある程度のエネルギーが失われることを示す。
特定の例を通して、エルゴトロピー抽出は量子系の量子相関を保存することによって可能であることを示す。
我々の研究は、量子相関として保存されたエクセルギーを探索できるオープンシステム量子電池の新しい進歩の展望を開放する。 Work extraction protocol is always a significant issue in the context of quantum batteries, in which the notion of ergotropy is used to quantify a particular amount of energy that can be extracted through unitary processes. Given the total amount of energy stored in a quantum system, quantifying wasted energy after the ergotropy extraction is a question to be considered when undesired coupling with thermal reservoirs is taken into account. In this paper, we show that some amount of energy can be lost when we extract ergotropy from a quantum system and quantified by the exergy of passive states. Through a particular example, one shows that ergotropy extraction can be done by preserving the quantum correlations of a quantum system. Our study opens the perspective for new advances in open system quantum batteries able to explore exergy stored as quantum correlations. | 翻訳日:2023-03-23 09:17:53 公開日:2021-09-15 |
# 幾何量子不協和と局所量子不確実性の等価状態 Equivalence regimes for geometric quantum discord and local quantum uncertainty ( http://arxiv.org/abs/2107.14265v2 ) ライセンス: Link先を確認 | Oscar Cordero, Arturo Villegas, Juan-Rafael Alvarez, Roberto de J. Le\'on-Montiel, M. H. M. Passos, and Juan P. Torres | (参考訳) 量子不協和の概念は、絡み合いによって説明されるものを超える量子相関を明らかにすることを目的としている。
元の定式化 (J. Phys. A 34, 6899 (2001), Phys. Rev. Lett 88, 017901 (2002)] は、2ビット系の最も単純な場合においても計算が難しい。
この欠点に対処するために、量子ディスコード[phys. rev. a 87, 062303 (2013)] と局所量子不確かさ [phys. rev. lett 110, 240402 (2013)] の幾何学的測度は、2量子ビット系のようないくつかの量子系で閉じた形で評価できる。
ここでは、これらの2つの量子不協和の測度が、2xD次元二部量子系と等価であることを示す。
損失環境における位相推定におけるN00N状態の関連例を考慮し、量子不協和の両指標が位相推定プロトコルの量子フィッシャー情報の減少を定量化することを示す。
2xD双極子系における計算の容易さを考えると、量子不協和の幾何測度と局所的な量子不確実性は、量子不協和の計算可能な測度としてそれらの関連性を示す。 The concept of quantum discord aims at unveiling quantum correlations that go beyond those described by entanglement. Its original formulation [J. Phys. A 34, 6899 (2001); Phys. Rev. Lett 88, 017901 (2002)] is difficult to compute even for the simplest case of two-qubits systems. Alternative formulations have been developed to address this drawback, such as the geometric measure of quantum discord [Phys. Rev. A 87, 062303 (2013)] and the local quantum uncertainty [Phys. Rev. Lett 110, 240402 (2013)] that can be evaluated in closed form for some quantum systems, such as two-qubit systems. We show here that these two measures of quantum discord are equivalent for 2 x D dimensional bipartite quantum systems. By considering the relevant example of N00N states for phase estimation in lossy environments, we also show that both metrics of quantum discord quantify the decrease of quantum Fisher information of the phase estimation protocol. Given their ease of computation in 2 x D bipartite systems, the geometric measure of quantum discord and the local quantum uncertainty demonstrate their relevance as computable measures of quantum discord. | 翻訳日:2023-03-20 11:12:07 公開日:2021-09-15 |
# 高次プロセス理論における因果性 Causality in Higher Order Process Theories ( http://arxiv.org/abs/2107.14581v2 ) ライセンス: Link先を確認 | Matt Wilson, Giulio Chiribella | (参考訳) 量子スーパーマップは、上位の量子プロセスが下位の量子プロセスに作用できる枠組みを提供する。
これにより、新しい量子プロトコルや因果構造の定義と解析が可能になる。
近年、量子スーパーマップの重要な特徴は一般的な分類の枠組みによって捉えられ、高次プロセス理論(HOPT)の枠組みとなった。
HOPTフレームワークは単一の統一理論において低次および高次変換をモデル化し、その数学的構造は閉対称モノイド圏の概念と一致することを示した。
ここではプロセス理論的な性質の4つの単純な公理からホップフレームワークを等価に構成する。
次にhoptフレームワークを使用して,因果性や決定論,シグナリングといった基本的な特徴間の接続を確立すると同時に,*-autonomyの数学的構造とのインタラクションを探求する。 Quantum supermaps provide a framework in which higher order quantum processes can act on lower order quantum processes. In doing so, they enable the definition and analysis of new quantum protocols and causal structures. Recently, key features of quantum supermaps were captured through a general categorical framework, which led to a framework of higher order process theories (HOPT). The HOPT framework models lower and higher order transformations in a single unified theory, with its mathematical structure shown to coincide with the notion of a closed symmetric monoidal category. Here we provide an equivalent construction of the HOPT framework from four simple axioms of process-theoretic nature. We then use the HOPT framework to establish connections between foundational features such as causality, determinism and signalling, alongside exploring their interaction with the mathematical structure of *-autonomy. | 翻訳日:2023-03-20 09:07:39 公開日:2021-09-15 |
# 簡易QMシステムのブートストラップ Bootstrapping Simple QM Systems ( http://arxiv.org/abs/2108.08757v2 ) ライセンス: Link先を確認 | David Berenstein, George Hulsey | (参考訳) 我々は,Hen,Hartnoll,Kruthoffの最近のアプローチに従って,一次元ハミルトニアンのスペクトルを決定するブートストラップ法をテストする。
我々は,ブートストラップ法データと水素原子と高調波発振器の既知の解析的予測を比較した。
それぞれに多くのエネルギーレベルを解決し、問題を解くために使用される行列のサイズが大きくなるにつれて、より多くのレベルが解決される。
ブートストラップ法を用いて、クーロンと調和ポテンシャルのスペクトルは指数関数的に速く収束する。 We test the bootstrap approach for determining the spectrum of one dimensional Hamiltonians, following the recent approach of Han, Hartnoll, and Kruthoff. We focus on comparing the bootstrap method data to known analytical predictions for the hydrogen atom and the harmonic oscillator. We resolve many energy levels for each, and more levels are resolved as the size of the matrices used to solve the problem increases. Using the bootstrap approach we find the spectrum of the Coulomb and harmonic potentials converge exponentially fast. | 翻訳日:2023-03-18 01:07:22 公開日:2021-09-15 |
# モダンなFortranツールと開発者コミュニティに向けて Toward Modern Fortran Tooling and a Thriving Developer Community ( http://arxiv.org/abs/2109.07382v1 ) ライセンス: Link先を確認 | Milan Curcic, Ond\v{r}ej \v{C}ert\'ik, Brad Richardson, Sebastian Ehlert, Laurence Kedward, Arjen Markus, Ivan Pribec, J\'er\'emie Vandenplas | (参考訳) Fortranは現在も使われている最古のハイレベルプログラミング言語であり、計算集約的な科学・工学の応用で使われている主要な言語の1つである。
しかし、Fortranはインターネット時代のモダンなソフトウェア開発プラクティスやツールにはついていません。
その結果、Fortranの開発者エクスペリエンスは低下した。
具体的には、リッチな汎用ライブラリエコシステム、Fortranライブラリとアプリケーションの構築とパッケージングのための現代的なツール、オンライン学習リソースが欠如しており、Fortranが新規ユーザを引きつけ、維持することが難しくなっている。
この問題に対処するため、2019年にGitHub上にオープンソースコミュニティが結成され、標準ライブラリ、ビルドシステム、パッケージマネージャ、FortranのコミュニティキュレートされたWebサイトといったコアツールの初期セットの開発に着手した。
本稿では,現在までの進捗状況を報告し,次のステップを概説する。 Fortran is the oldest high-level programming language that remains in use today and is one of the dominant languages used for compute-intensive scientific and engineering applications. However, Fortran has not kept up with the modern software development practices and tooling in the internet era. As a consequence, the Fortran developer experience has diminished. Specifically, lack of a rich general-purpose library ecosystem, modern tools for building and packaging Fortran libraries and applications, and online learning resources, has made it difficult for Fortran to attract and retain new users. To address this problem, an open source community has formed on GitHub in 2019 and began to work on the initial set of core tools: a standard library, a build system and package manager, and a community-curated website for Fortran. In this paper we report on the progress to date and outline the next steps. | 翻訳日:2023-03-15 00:59:30 公開日:2021-09-15 |
# 異なるプライバシー下でのウェアラブル健康データ公開に関する体系的文献レビュー A Systematic Literature Review on Wearable Health Data Publishing under Differential Privacy ( http://arxiv.org/abs/2109.07334v1 ) ライセンス: Link先を確認 | Munshi Saifuzzaman, Tajkia Nuri Ananna, Mohammad Jabed Morshed Chowdhury, Md Sadek Ferdous, Farida Chowdhury | (参考訳) ウェアラブルデバイスは、個人に関するさまざまな種類の生理的データを生成する。
これらのデータは、従来の手段では利用できない医療研究者や臨床医に貴重な洞察を与える。
研究者は歴史的に調査応答や観察行動に頼ってきた。
興味深いことに、生理的データは、ユーザー自身を含む他の情報源から得られるものよりも、より豊富なユーザー認知を提供することができる。
そのため、安価な消費者級ウェアラブルデバイスは、医療研究者にとって関心の的となっている。
さらに、継続的なリモートヘルスモニタリングや保険会社の監視にも使用されている。
しかし、この種のユースケースにおける最大の懸念は、個人のプライバシーである。
抽象化やk匿名といったいくつかのプライバシメカニズムが情報システムで広く使用されている。
近年、差分プライバシー(DP)は、ウェアラブルデバイスからのデータを含むプライバシーに敏感なデータをパブリッシュする技術として出現している。
本稿では,DPにおける研究を識別し,選択し,批判的に評価するシステム文献レビュー(SLR)を実施。
本研究では,提案手法の限界を特定し,今後の方向性を示す。 Wearable devices generate different types of physiological data about the individuals. These data can provide valuable insights for medical researchers and clinicians that cannot be availed through traditional measures. Researchers have historically relied on survey responses or observed behavior. Interestingly, physiological data can provide a richer amount of user cognition than that obtained from any other sources, including the user himself. Therefore, the inexpensive consumer-grade wearable devices have become a point of interest for the health researchers. In addition, they are also used in continuous remote health monitoring and sometimes by the insurance companies. However, the biggest concern for such kind of use cases is the privacy of the individuals. There are a few privacy mechanisms, such as abstraction and k-anonymity, are widely used in information systems. Recently, Differential Privacy (DP) has emerged as a proficient technique to publish privacy sensitive data, including data from wearable devices. In this paper, we have conducted a Systematic Literature Review (SLR) to identify, select and critically appraise researches in DP as well as to understand different techniques and exiting use of DP in wearable data publishing. Based on our study we have identified the limitations of proposed solutions and provided future directions. | 翻訳日:2023-03-15 00:59:03 公開日:2021-09-15 |
# アンチ・アジア・ヘイトフル・ユーザーをtwitterで予測するcovid-19 Predicting Anti-Asian Hateful Users on Twitter during COVID-19 ( http://arxiv.org/abs/2109.07296v1 ) ライセンス: Link先を確認 | Jisun An, Haewoon Kwak, Claire Seungeun Lee, Bogang Jun, Yong-Yeol Ahn | (参考訳) 新型コロナウイルス(COVID-19)全体でTwitterユーザーの反アジア的憎悪の予測を調査する。
多くの国でソーシャルメディアの普及にともなうキセノフォビアと偏極化の台頭により、オンラインヘイトは大きな社会問題となり、多くの研究者を惹きつけている。
本稿では、新型コロナウイルスの感染拡大に伴う反アジア的ヘイトメッセージの投稿を始めたソーシャルメディアユーザーを特徴付けるために自然言語処理技術を適用した。
新型コロナウイルス(COVID-19)以前のデータで測定された豊富な特徴について、2つのユーザーグループ ― 反アジアスラーを投稿した人と、そうでない人 ― を比較し、後に反アジアスラーを投稿した人を予測できることを示す。
我々は,オンラインヘイトを報道するニュースメディアや情報ソースの潜在的な影響を分析し,分極通信ネットワークやニュースメディアの役割についてさらなる調査を求める。 We investigate predictors of anti-Asian hate among Twitter users throughout COVID-19. With the rise of xenophobia and polarization that has accompanied widespread social media usage in many nations, online hate has become a major social issue, attracting many researchers. Here, we apply natural language processing techniques to characterize social media users who began to post anti-Asian hate messages during COVID-19. We compare two user groups -- those who posted anti-Asian slurs and those who did not -- with respect to a rich set of features measured with data prior to COVID-19 and show that it is possible to predict who later publicly posted anti-Asian slurs. Our analysis of predictive features underlines the potential impact of news media and information sources that report on online hate and calls for further investigation into the role of polarized communication networks and news media. | 翻訳日:2023-03-15 00:58:28 公開日:2021-09-15 |
# 位相整合量子鍵分布の参照フレーム非依存設計 Reference-frame-independent design of phase-matching quantum key distribution ( http://arxiv.org/abs/2109.07241v1 ) ライセンス: Link先を確認 | Anran Jin, Pei Zeng, Richard V. Penty and Xiongfeng Ma | (参考訳) 最近提案された位相整合量子鍵分布は、線形鍵レート-伝達境界を克服する手段である。
鍵情報はコヒーレント状態の位相に符号化されるので、2つのリモート参照フレーム間のミスアライメントはエラーを引き起こし、キー生成率を理想的な場合から著しく低下させる。
本研究では,高次元鍵符号化空間を導入し,位相整合量子鍵分布の参照フレーム独立設計を提案する。
単位円にまたがる符号化位相では、任意の固定位相参照差分における誤差統計を分離して処理することができ、そこから不一致角を識別できる。
この高次元位相整合量子鍵分布のセキュリティ証明を自然に2次符号化対称性と相補性を高次元に拡張することにより、17次元のプロトコルが任意の不整合に完全に免疫し、位相変動が遅くなることを示す。
我々は,高次元符号化が比較的実装が容易な一般位相符号化方式に対して,高次元プロトコルを実用的な参照フレームに依存しない設計として期待する。 The recently proposed phase-matching quantum key distribution offers means to overcome the linear key rate-transmittance bound. Since the key information is encoded onto the phases of coherent states, the misalignment between the two remote reference frames would yield errors and significantly degrade the key generation rate from the ideal case. In this work, we propose a reference-frame-independent design of phase-matching quantum key distribution by introducing high-dimensional key encoding space. With encoded phases spanning the unit circle, the error statistics at arbitrary fixed phase reference difference can be recovered and treated separately, from which the misalignment angle can be identified. By naturally extending the binary encoding symmetry and complementarity to high dimensions, we present a security proof of this high-dimensional phase-matching quantum key distribution and demonstrate with simulation that a 17-dimensional protocol is completely immune to any degree of fixed misalignment and robust to slow phase fluctuations. We expect the high-dimensional protocol to be a practical reference-frame-independent design for general phase-encoding schemes where high-dimensional encoding is relatively easy to implement. | 翻訳日:2023-03-15 00:58:10 公開日:2021-09-15 |
# スピン1/2量子ネットワークのロバストエネルギー景観制御のための強化学習とグラディエントベース最適化 Reinforcement Learning vs. Gradient-Based Optimisation for Robust Energy Landscape Control of Spin-1/2 Quantum Networks ( http://arxiv.org/abs/2109.07226v1 ) ライセンス: Link先を確認 | I. Khalid, C. A. Weidner, E. A. Jonckheere, S. G. Schirmer, F. C. Langbein | (参考訳) XX-ハイゼンベルクスピン鎖のエネルギーランドスケープ形成による量子制御のための強化学習におけるポリシー勾配法をモデル非依存的に検討する。
それらの性能は、勾配に基づくL-BFGS最適化と再起動によるコントローラの発見と比較され、解析モデルへのフルアクセスが可能である。
ハミルトンノイズと粗粒度測定について考察した。
強化学習は、L-BFGS最適化アルゴリズムがうまく機能しない困難でノイズの多い量子制御問題に取り組むことができる。
ハミルトンノイズのレベルの違いによるロバスト性解析は,L-BFGSよりも強化学習による制御がノイズの影響を受けにくいことを示している。 We explore the use of policy gradient methods in reinforcement learning for quantum control via energy landscape shaping of XX-Heisenberg spin chains in a model agnostic fashion. Their performance is compared to finding controllers using gradient-based L-BFGS optimisation with restarts, with full access to an analytical model. Hamiltonian noise and coarse-graining of fidelity measurements are considered. Reinforcement learning is able to tackle challenging, noisy quantum control problems where L-BFGS optimization algorithms struggle to perform well. Robustness analysis under different levels of Hamiltonian noise indicates that controllers found by reinforcement learning appear to be less affected by noise than those found with L-BFGS. | 翻訳日:2023-03-15 00:57:50 公開日:2021-09-15 |
# 量子力学と深層強化学習によるルービックキューブの解法 Solving Rubik's Cube via Quantum Mechanics and Deep Reinforcement Learning ( http://arxiv.org/abs/2109.07199v1 ) ライセンス: Link先を確認 | Sebastiano Corli, Lorenzo Moro, Davide E. Galli, Enrico Prati | (参考訳) ルービックキューブは、およそ4.3 \times 10^{19}$の設定を含む最も有名な組合せパズルの1つである。
その数学的記述はルービック群によって表現され、その要素はその層がどのように回転するかを定義する。
そのような群のユニタリ表現と、その幾何学的制約から立方体を記述する量子形式論を発展させる。
立方体は、それぞれ角のボソンや縁のフェルミオンのように振る舞う単一粒子状態によって記述される。
解いた構成では、キューブは幾何学的対象として、この構成から追い出されたときに壊れる対称性を示す。
そのような対称性のそれぞれに対して、ハミルトニアン作用素を構築する。
ハミルトニアンがその基底状態にあるとき、立方体のそれぞれの対称性は保存される。
すべての対称性が保存されるとき、立方体の配置はゲームの解と一致する。
すべてのハミルトニアン作用素の基底状態に到達するために、ハミルトニアン報酬に基づく深い強化学習アルゴリズムを利用する。
立方体は4つのフェーズで解かれ、それぞれがイジングモデルにインスパイアされたスペクトルに基づくハミルトンの報酬に基づいて解かれる。
組合せ問題を量子力学形式に埋め込むと、新しいアルゴリズムと量子ハードウェアへの将来の実装が提案される。 Rubik's Cube is one of the most famous combinatorial puzzles involving nearly $4.3 \times 10^{19}$ possible configurations. Its mathematical description is expressed by the Rubik's group, whose elements define how its layers rotate. We develop a unitary representation of such group and a quantum formalism to describe the Cube from its geometrical constraints. Cubies are describedby single particle states which turn out to behave like bosons for corners and fermions for edges, respectively. When in its solved configuration, the Cube, as a geometrical object, shows symmetrieswhich are broken when driven away from this configuration. For each of such symmetries, we build a Hamiltonian operator. When a Hamiltonian lies in its ground state, the respective symmetry of the Cube is preserved. When all such symmetries are preserved, the configuration of the Cube matches the solution of the game. To reach the ground state of all the Hamiltonian operators, we make use of a Deep Reinforcement Learning algorithm based on a Hamiltonian reward. The Cube is solved in four phases, all based on a respective Hamiltonian reward based on its spectrum, inspired by the Ising model. Embedding combinatorial problems into the quantum mechanics formalism suggests new possible algorithms and future implementations on quantum hardware. | 翻訳日:2023-03-15 00:57:37 公開日:2021-09-15 |
# 複合符号化に基づくプライバシー増幅方式 Privacy amplification scheme based on composite coding ( http://arxiv.org/abs/2109.07139v1 ) ライセンス: Link先を確認 | Wei Li and Shengmei Zhao | (参考訳) プライバシアンプリフィケーションは、共有鍵の冗長性を圧縮し、鍵のセキュリティレベルを改善するために、量子鍵分散の後処理において必須のステップである。
一般的に使用されるプライバシー増幅は、一般に存在しないが、追加のランダムソースの助けを必要とする普遍的なハッシュ関数のランダムな選択に基づいている。
本稿では,古典線形コードへの量子CSSコードの拡張である複合符号化に基づくプライバシ増幅方式を提案する。
普遍ハッシュ関数と比較すると、提案手法は他のランダムな情報源を必要としないため、ランダム性はキュービット文字列によって完全に提供できる。
さらに,複合符号化では,鍵抽出のための情報理論的なバウンドが明らかである。 Privacy amplification is an indispensable step in the post-processing of quantum key distribution, which can be used to compress the redundancy of shared key and improve the security level of the key. The commonly used privacy amplification is based on the random selection of universal hash functions, which needs the help of an additional random source, while it does not exist in general. In this paper, we propose a privacy amplification scheme based on composite coding, which is an extension of quantum CSS codes to classical linear codes. Compared with the universal hashing function, the proposed scheme does not need other random sources, and the randomness can be completely provided by the qubit string. Furthermore, the information-theoretic bound for the extraction of the key is obvious in composite coding. | 翻訳日:2023-03-15 00:57:20 公開日:2021-09-15 |
# 離散時間結晶:剛性臨界性と実現」へのコメント Reply to Comment on "Discrete Time Crystals: Rigidity Criticality and Realizations" ( http://arxiv.org/abs/2109.07485v1 ) ライセンス: Link先を確認 | Norman Y. Yao, Andrew C. Potter, Ionut-Dragos Potirniche, Ashvin Vishwanath | (参考訳) これは、Khemani, Moessner and Sondhi (KMS) [arXiv:2109.00551] からの、私たちの原稿[Phys. Rev. Lett. 118, 030401 (2017)]へのコメントに対する返信である。
KMS の主な新しい主張は、短距離モデルは MBL DTC フェーズをサポートしないということである。
考察したパラメータ値や研究対象のシステムサイズについても、重要なプロットに対する範囲の異常な選択の成果物であることが示されている。
同じデータ上で標準的な有限サイズのスケーリング分析を行うことは、実際には多体局所化(mbl)離散時間結晶(dtc)であることを示唆している。
さらに,より大きなスケールで追加シミュレーションを行い,本論文の結論を完全に裏付ける解析的議論を行った。
また,境界条件の影響はkmsによって必要不可欠なものと説明され,システムサイズの増加とともに境界効果が減少することを示す。
KMSの他の点は、(長距離モデルの)文献に既に存在する点の再構成であるか、あるいは適切な有限サイズのスケーリング解析によって反証される。 This is a reply to the comment from Khemani, Moessner and Sondhi (KMS) [arXiv:2109.00551] on our manuscript [Phys. Rev. Lett. 118, 030401 (2017)]. The main new claim in KMS is that the short-ranged model does not support an MBL DTC phase. We show that, even for the parameter values they consider and the system sizes they study, the claim is an artifact of an unusual choice of range for the crucial plots. Conducting a standard finite-size scaling analysis on the same data strongly suggests that the system is in fact a many-body localized (MBL) discrete time crystal (DTC). Furthermore, we have carried out additional simulations at larger scales, and provide an analytic argument, which fully support the conclusions of our original paper. We also show that the effect of boundary conditions, described as essential by KMS, is exactly what one would expect, with boundary effects decreasing with increasing system size. The other points in KMS are either a rehashing of points already in the literature (for the long-ranged model) or are refuted by a proper finite-size scaling analysis. | 翻訳日:2023-03-15 00:49:56 公開日:2021-09-15 |
# スピン偏極$^3$Heによる中性子の軌道角運動状態の決定的検出 Definitive Detection of Orbital Angular Momentum States in Neutrons by Spin-polarized $^3$He ( http://arxiv.org/abs/2109.07454v1 ) ライセンス: Link先を確認 | Terrence Jach (National Institute of Standards and Technology) and John Vinson (National Institute of Standards and Technology) | (参考訳) 熱中性子を検出する標準的な方法は核相互作用$^3$He(n,p)$^3$Hである。
この相互作用のスピン依存性は、核偏極$^3$Heを用いた中性子スピン偏極フィルタの基礎でもある。
固有軌道角運動量(OAM)状態に置かれた中性子に対する対応する相互作用を考察する。
我々は、l=1$ oam状態の中性子の相対偏光依存吸収断面積を導出する。
これらの中性子の吸収により、化合物状態は$J^\pi=0^-$, $1^-$, $2^-$となる。
OAM中性子が吸収された3つの分極試験を行い、崩壊状態が物理的に可能なプローブを探索する。
吸収後のエネルギー的に起こりうる$^4$Heの励起状態は、化合物状態が奇異なパリティを持つという事実から記述する。
これは中性子のOAM状態を検出する決定的な方法であり、固有のOAM状態は、異常な断面積や放射性崩壊の新しいチャネルを含む新しい物理を観測する可能性を示唆している。 A standard method to detect thermal neutrons is the nuclear interaction $^3$He(n,p)$^3$H. The spin-dependence of this interaction is also the basis of a neutron spin-polarization filter using nuclear polarized $^3$He. We consider the corresponding interaction for neutrons placed in an intrinsic orbital angular momentum (OAM) state. We derive the relative polarization-dependent absorption cross-sections for neutrons in an $L=1$ OAM state. The absorption of those neutrons results in compound states $J^\pi=0^-$, $1^-$, and $2^-$. Varying the three available polarizations tests that an OAM neutron has been absorbed and probes which decay states are physically possible. We describe the energetically likely excited states of $^4$He after absorption, due to the fact that the compound state has odd parity. This provides a definitive method for detecting neutron OAM states and suggests that intrinsic OAM states offer the possibility to observe new physics, including anomalous cross-sections and new channels of radioactive decay. | 翻訳日:2023-03-15 00:49:31 公開日:2021-09-15 |
# 政府のスポーツ - インドと米国におけるスポーツ関係者の関与の窓口としてのtwitter Sporting the government: Twitter as a window into sportspersons' engagement with causes in India and USA ( http://arxiv.org/abs/2109.07409v1 ) ライセンス: Link先を確認 | Dibyendu Mishra, Ronojoy Sen and Joyojeet Pal | (参考訳) ソーシャルメディアがユビキタスに普及するにつれ、インフルエンサーは様々なトピックに関する政治的議題の具体化の中心となっていく。
私たちは2019年以来、インドと米国で最もフォローされている200人のスポーツ選手のツイートをキュレートし、政治家とのつながりをマップし、彼らのエンゲージメントを主要なトピックとオンラインで視覚化しました。
インドとアメリカのスポーツパーソンがオンラインで政治に関わり、指導的なインドスポーツパーソンが与党と緊密に連携し、反感を最小限に抑え、アメリカのスポーツパーソンが様々な政治的問題に関わり、政治家や政策を公然と批判する傾向にある。
以上の結果から,スポーツの所有と政府による管理は,プロスポーツ選手がオンライン参加を希望する問題に対するパブリックスタンスに影響を及ぼすことが示唆された。
また、当時の政府によっては、国家と権力を持つ政府に対して発言するコストは、米国とインドで異なる社会経済的コストを持っていると推測されるかもしれない。 With the ubiquitous reach of social media, influencers are increasingly central to articulation of political agendas on a range of topics. We curate a sample of tweets from the 200 most followed sportspersons in India and the United States respectively since 2019, map their connections with politicians, and visualize their engagements with key topics online. We find significant differences between the ways in which Indian and US sportspersons engage with politics online-while leading Indian sportspersons tend to align closely with the ruling party and engage minimally in dissent, American sportspersons engage with a range of political issues and are willing to publicly criticize politicians or policy. Our findings suggest that the ownership and governmental control of sports impact public stances on issues that professional sportspersons are willing to engage in online. It might also be inferred, depending upon the government of the day, that the costs of speaking up against the state and the government in power have different socio-economic costs in the US and India. | 翻訳日:2023-03-15 00:48:18 公開日:2021-09-15 |
# 摂動スキームにおけるラゲール多項式のパウリ・ディラック方程式の解 Solutions of Pauli-Dirac Equation in terms of Laguerre Polynomials within Perturbative Scheme ( http://arxiv.org/abs/2109.07919v1 ) ライセンス: Link先を確認 | Altug Arda | (参考訳) 我々はrayleigh-schr\"odinger理論におけるpauli-dirac方程式のエネルギー準位に対する一階および二階補正を求める。
この目的を達成するために、関連するラゲール多項式によって満たされるいくつかの同一性を用いる。
2つの関連するラゲール多項式やそれらの微分を含むいくつかの積分の分析形式を示すリストを与える。 We search for first- and second-order corrections to the energy levels of the Pauli-Dirac equation within the Rayleigh-Schr\"odinger theory. We use some identities satisfied by the associated Laguerre polynomials to reach this aim. We give a list presenting analytical forms of some integrals including two associated Laguerre polynomials, or their derivatives. | 翻訳日:2023-03-15 00:40:36 公開日:2021-09-15 |
# リスク限度監査における信頼感の投票 Voter Perceptions of Trust in Risk-Limiting Audits ( http://arxiv.org/abs/2109.07918v1 ) ライセンス: Link先を確認 | Asmita Dalela, Oksana Kulyk, Carsten Sch\"urmann | (参考訳) リスク制限監査(RLA)は、選挙結果の正しさに対する国民の信頼を高めることが期待されている。
これは、勝者と勝者の間の大きな差のために、描画される投票数が非常に少なく、有権者が自信を失う可能性があるためである、という仮説を立てる。
米国在住者105名を対象にユーザスタディを実施している。
以上の結果より, RLAに対する投票回数を聴取すると, 被験者の自信が薄かったことが示唆された。
本研究の成果を詳述し,今後のRCAの利用を推奨する。 Risk-limiting audits (RLAs) are expected to strengthen the public confidence in the correctness of an election outcome. We hypothesize that this is not always the case, in part because for large margins between the winner and the runner-up, the number of ballots to be drawn can be so small that voters lose confidence. We conduct a user study with 105 participants resident in the US. Our findings confirm the hypothesis, showing that our study participants felt less confident when they were told the number of ballots audited for RLAs. We elaborate on our findings and propose recommendations for future use of RLAs. | 翻訳日:2023-03-15 00:40:31 公開日:2021-09-15 |
# ボールと壁:ボソニック状態のためのコンパクトなユニタリ符号化 Balls and Walls: A Compact Unary Coding for Bosonic States ( http://arxiv.org/abs/2109.07508v1 ) ライセンス: Link先を確認 | Hatem Barghathi, Caleb Usadi, Micah Beck, Adrian Del Maestro | (参考訳) l$の識別可能なサイトでは,n$の識別不能粒子の配置数を数える有名な「ボールと壁」に基づいて,ボソニックな占有状態の統一コーディングを導入する。
各状態は整数で表され、人間の可読ビット文字列は構成構造を持ち、ボソンの数を局所的に変更する演算子の効率的な適用を可能にする。
ボソニック格子モデルの基底状態を生成する際に、変換対称性と反転対称性を活用し、電流法よりl$のオーダーのスピードアップ係数を同定する。
一次元のBose-Hubbard Hamiltonianに最大$L=N=20$の1次元の符号化を適用し、基底状態ブロックを生成するのに必要な時間を対角化時間の一部に短縮する。
基底状態対称性を解いた絡み合いについて,局所ボソニックヒルベルト空間を制約する変分的アプローチがシステムサイズでスケールする誤差をもたらすことを証明した。 We introduce a unary coding of bosonic occupation states based on the famous "balls and walls" counting for the number of configurations of $N$ indistinguishable particles on $L$ distinguishable sites. Each state is represented by an integer with a human readable bit string that has a compositional structure allowing for the efficient application of operators that locally modify the number of bosons. By exploiting translational and inversion symmetries, we identify a speedup factor of order $L$ over current methods when generating the basis states of bosonic lattice models. The unary coding is applied to a one-dimensional Bose-Hubbard Hamiltonian with up to $L=N=20$, and the time needed to generate the ground state block is reduced to a fraction of the diagonalization time. For the ground state symmetry resolved entanglement, we demonstrate that variational approaches restricting the local bosonic Hilbert space could result in an error that scales with system size. | 翻訳日:2023-03-15 00:39:31 公開日:2021-09-15 |
# 切断シグマモデルの普遍性 Universality of a truncated sigma-model ( http://arxiv.org/abs/2109.07500v1 ) ライセンス: Link先を確認 | Andrei Alexandru, Paulo F. Bedaque, Andrea Carosso, Andy Sheng | (参考訳) ボソニック場の量子論は、有限格子を用いて正規化された場合でも無限次元ヒルベルト空間を持ち、したがって有限個の量子ビットを持つ量子コンピュータではシミュレーションできない。
するとヒルベルト空間の切り抜きが必要となり、二重極限の後に物理的結果が得られる: 1つは切り抜き、もう1つはレギュレータを取り除く(連続極限)。
より単純な選択肢は、連続体モデル(「量子化」)と同じ普遍性クラスに属する有限次元ヒルベルト空間を持つモデルを見つけることである。
非可換幾何の考えに基づく1+1$次元漸近自由$O(3)$非線形$\sigma$-模型の量子化が以前arXiv:1903.06577として提案され、この論文では、赤外および紫外の両方で$\sigma$-モデルの物理を再現する証拠を提供する。 Bosonic quantum field theories, even when regularized using a finite lattice, possess an infinite dimensional Hilbert space and, therefore, cannot be simulated in quantum computers with a finite number of qubits. A truncation of the Hilbert space is then needed and the physical results are obtained after a double limit: one to remove the truncation and another to remove the regulator (the continuum limit). A simpler alternative is to find a model with a finite dimensional Hilbert space belonging to the same universality class as the continuum model (a "qubitization"), so only the space continuum limit is required. A qubitization of the $1+1$ dimensional asymptotically free $O(3)$ nonlinear $\sigma$-model based on ideas of non-commutative geometry was previously proposed arXiv:1903.06577 and, in this paper, we provide evidence that it reproduces the physics of the $\sigma$-model both in the infrared and the ultraviolet regimes. | 翻訳日:2023-03-15 00:38:56 公開日:2021-09-15 |
# 疫学モデルにおける推論としての計画 Planning as Inference in Epidemiological Models ( http://arxiv.org/abs/2003.13221v3 ) ライセンス: Link先を確認 | Frank Wood, Andrew Warrington, Saeid Naderiparizi, Christian Weilbach, Vaden Masrani, William Harvey, Adam Scibior, Boyan Beronov, John Grefenstette, Duncan Campbell and Ali Nasseri | (参考訳) 本研究は, 既存の疫学モデルを用いた推論により, 感染症対策政策プロセスの一部を自動化する方法を実証する。
実行された推論タスクには、制御可能な後方分布の計算、直接の方針決定、許容される疾患進行の結果をもたらすシミュレーションモデルパラメータが含まれる。
特に,既存のシミュレータにおける推論を自動化する確率的プログラミング言語の利用について述べる。
推論を自動化するツールの全機能や計画のためのユーティリティは、現時点では広く普及していない。
このようなシミュレーションベースのモデルや推論自動化ツールが政策作成をサポートするためにどのように適用されたか、特に現在のCOVID-19パンデミックにおいて、経済的に有害な政策処方薬を減らせるか、という理解がタイムリーに向上する。 In this work we demonstrate how to automate parts of the infectious disease-control policy-making process via performing inference in existing epidemiological models. The kind of inference tasks undertaken include computing the posterior distribution over controllable, via direct policy-making choices, simulation model parameters that give rise to acceptable disease progression outcomes. Among other things, we illustrate the use of a probabilistic programming language that automates inference in existing simulators. Neither the full capabilities of this tool for automating inference nor its utility for planning is widely disseminated at the current time. Timely gains in understanding about how such simulation-based models and inference automation tools applied in support of policymaking could lead to less economically damaging policy prescriptions, particularly during the current COVID-19 pandemic. | 翻訳日:2022-12-18 07:07:35 公開日:2021-09-15 |
# DAPnet: ポイントクラウドセマンティックラベリングのための二重自己注意畳み込みネットワーク DAPnet: A Double Self-attention Convolutional Network for Point Cloud Semantic Labeling ( http://arxiv.org/abs/2004.08596v2 ) ライセンス: Link先を確認 | Li Chen, Zewei Xu, Yongjian Fu, Haozhe Huang, Shaowen Wang, Haifeng Li | (参考訳) 航空機搭載レーザースキャニング(als)ポイント雲は複雑な構造を持ち、その3dセマンティクスラベリングは難しい課題である。
1)異なるクラスからのオブジェクトの境界付近でポイントクラウドを分類することの難しさ,(2)同一クラス内の形状の多様性,(3)クラス間のスケール差の3つがある。
本研究では,DAPnetと呼ばれる新しい自己注意型畳み込みネットワークを提案する。
二重自己注意モジュールは、ポイントアテンションモジュール(PAM)とグループアテンションモジュール(GAM)を含む。
問題(1)のために、PAMは、隣接する領域における点雲の関連性に基づいて、効果的に異なる重みを割り当てることができる。
一方、問題(2)では、GAMはグループ間の相関、すなわち同じクラス内のグループ化された特徴の相関を強化する。
この問題を解決するために,マルチスケール半径を用いてグループを構築し,抽出した階層的特徴を対応するアップサンプリングプロセスの出力と結合する。
ISPRS 3D Semantic Labeling Contestデータセットでは、DAPnetはベンチマークを85.2\%、全体的な精度90.7\%で上回っている。
アブレーション比較により,PAMはGAMよりも効果的にモデルを改善することがわかった。
ダブルセルフアテンションモジュールの組み込みは、プレクラス精度に対して平均7\%向上する。
さらに、DAPnetは、モデル収束のための注意モジュールを持たないものと同様のトレーニング時間を消費する。
DAPnetは、点雲とその近傍の関連性に基づいて異なる重み付けを割り当てることができ、効果的に分類性能を向上させることができる。
ソースコードは、https://github.com/RayleighChen/point-attention.comで入手できる。 Airborne Laser Scanning (ALS) point clouds have complex structures, and their 3D semantic labeling has been a challenging task. It has three problems: (1) the difficulty of classifying point clouds around boundaries of objects from different classes, (2) the diversity of shapes within the same class, and (3) the scale differences between classes. In this study, we propose a novel double self-attention convolutional network called the DAPnet. The double self-attention includes the point attention module (PAM) and the group attention module (GAM). For problem (1), the PAM can effectively assign different weights based on the relevance of point clouds in adjacent areas. Meanwhile, for the problem (2), the GAM enhances the correlation between groups, i.e., grouped features within the same classes. To solve the problem (3), we adopt a multiscale radius to construct the groups and concatenate extracted hierarchical features with the output of the corresponding upsampling process. Under the ISPRS 3D Semantic Labeling Contest dataset, the DAPnet outperforms the benchmark by 85.2\% with an overall accuracy of 90.7\%. By conducting ablation comparisons, we find that the PAM effectively improves the model than the GAM. The incorporation of the double self-attention module has an average of 7\% improvement on the pre-class accuracy. Plus, the DAPnet consumes a similar training time to those without the attention modules for model convergence. The DAPnet can assign different weights to features based on the relevance between point clouds and their neighbors, which effectively improves classification performance. The source codes are available at: https://github.com/RayleighChen/point-attention. | 翻訳日:2022-12-12 05:37:07 公開日:2021-09-15 |
# 回帰における領域適応のための逆重み付け Adversarial Weighting for Domain Adaptation in Regression ( http://arxiv.org/abs/2006.08251v4 ) ライセンス: Link先を確認 | Antoine de Mathelin, Guillaume Richard, Francois Deheeger, Mathilde Mougeot, Nicolas Vayatis | (参考訳) 共変量シフトの仮定の下で、教師付きドメイン適応の文脈で回帰タスクを扱うための新しいインスタンスベースのアプローチを提案する。
本論文で開発されたアプローチは、トレーニングフェーズ中にソースインスタンスを適切に重み付けすることで、ターゲットドメインのタスクを効率的に学習できるという仮定に基づいている。
特定のタスクと仮説のクラスに応じた領域間の差を特徴付ける不一致距離に依存する領域適応のための最適化目標の新規な定式化を提案する。
この問題を解決するために,1つのフィードフォワード勾配勾配下で,ソース重み付け方式とタスクの両方を学習する対向ネットワークアルゴリズムを開発した。
再現可能な実験を通して回帰領域適応のための公開データセット上での手法の妥当性の数値的証拠を提供する。 We present a novel instance-based approach to handle regression tasks in the context of supervised domain adaptation under an assumption of covariate shift. The approach developed in this paper is based on the assumption that the task on the target domain can be efficiently learned by adequately reweighting the source instances during training phase. We introduce a novel formulation of the optimization objective for domain adaptation which relies on a discrepancy distance characterizing the difference between domains according to a specific task and a class of hypotheses. To solve this problem, we develop an adversarial network algorithm which learns both the source weighting scheme and the task in one feed-forward gradient descent. We provide numerical evidence of the relevance of the method on public data sets for regression domain adaptation through reproducible experiments. | 翻訳日:2022-11-21 02:56:59 公開日:2021-09-15 |
# クラス類似性に基づく信頼度校正のためのラベル平滑化 Class-Similarity Based Label Smoothing for Confidence Calibration ( http://arxiv.org/abs/2006.14028v2 ) ライセンス: Link先を確認 | Chihuang Liu, Joseph JaJa | (参考訳) 信頼性校正出力の生成は、安全クリティカルな意思決定システムにおけるディープニューラルネットワークの適用において最も重要である。
ニューラルネットワークの出力は、スコアが対応するクラスに属する入力の信頼度を推定する確率分布であり、したがって、全てのクラスに対する出力確率の完全な推定を表す。
本稿では,信頼度校正を改善するため,ラベルスムーシングの新たな形態を提案する。
異なるクラスは固有の類似性が異なるため、より類似したクラスは最終出力のより近い確率値をもたらすべきである。
これは、ラベル値が参照クラスとの類似性に基づいている新しい滑らかなラベルの開発を動機付ける。
特徴に基づく類似性や意味的類似性を捉えるものを含む、異なる類似性測定方法を採用する。
我々は,様々なデータセットとネットワークアーキテクチャに関する広範な実験を通じて,統一ラベル平滑化を含む最先端のキャリブレーション手法を一貫して上回っていることを実証する。 Generating confidence calibrated outputs is of utmost importance for the applications of deep neural networks in safety-critical decision-making systems. The output of a neural network is a probability distribution where the scores are estimated confidences of the input belonging to the corresponding classes, and hence they represent a complete estimate of the output likelihood relative to all classes. In this paper, we propose a novel form of label smoothing to improve confidence calibration. Since different classes are of different intrinsic similarities, more similar classes should result in closer probability values in the final output. This motivates the development of a new smooth label where the label values are based on similarities with the reference class. We adopt different similarity measurements, including those that capture feature-based similarities or semantic similarity. We demonstrate through extensive experiments, on various datasets and network architectures, that our approach consistently outperforms state-of-the-art calibration techniques including uniform label smoothing. | 翻訳日:2022-11-17 09:32:57 公開日:2021-09-15 |
# 類似度メトリクスに基づくデータマッチングのための教師付き機械学習手法 Supervised machine learning techniques for data matching based on similarity metrics ( http://arxiv.org/abs/2007.04001v2 ) ライセンス: Link先を確認 | Pim Verschuuren, Serena Palazzo, Tom Powell, Steve Sutton, Alfred Pilgrim, Michele Faucci Giannelli | (参考訳) 企業、政府機関、ngoは、価値ある情報を引き出すために、自由に利用できるデータの量が増え続けている。
多くの場合、これは正確に行うだけでなく、短い時間枠内で行う必要がある。
したがって、クリーンで一貫性のあるデータが重要である。
データマッチングは、同じ現実世界のエンティティを参照するデータのインスタンスを識別しようとするフィールドである。
本研究では,機械学習手法と,データマッチングの分野における文字列類似度関数を組み合わせる。
様々な企業や組織からの請求書のデータセットを、ペア次元を減らすためのグループ化スキームで前処理し、請求書ペア間の類似度を定量化するために一連の類似度関数を用いた。
結果として得られたインボイスペアデータセットは、ニューラルネットワークと強化された決定ツリーのトレーニングと検証に使用される。
この性能は、FISCAL Technologiesのソリューションを、現在利用可能な重複解に対するベンチマークとして比較した。
ニューラルネットワークとboosted decision treeの両方が、よりよいパフォーマンスを示している。 Businesses, governmental bodies and NGO's have an ever-increasing amount of data at their disposal from which they try to extract valuable information. Often, this needs to be done not only accurately but also within a short time frame. Clean and consistent data is therefore crucial. Data matching is the field that tries to identify instances in data that refer to the same real-world entity. In this study, machine learning techniques are combined with string similarity functions to the field of data matching. A dataset of invoices from a variety of businesses and organizations was preprocessed with a grouping scheme to reduce pair dimensionality and a set of similarity functions was used to quantify similarity between invoice pairs. The resulting invoice pair dataset was then used to train and validate a neural network and a boosted decision tree. The performance was compared with a solution from FISCAL Technologies as a benchmark against currently available deduplication solutions. Both the neural network and boosted decision tree showed equal to better performance. | 翻訳日:2022-11-12 12:47:23 公開日:2021-09-15 |
# コンテンツ型ディスタングルのバイアスと有効性の測定 Measuring the Biases and Effectiveness of Content-Style Disentanglement ( http://arxiv.org/abs/2008.12378v4 ) ライセンス: Link先を確認 | Xiao Liu, Spyridon Thermos, Gabriele Valvano, Agisilaos Chartsias, Alison O'Neil and Sotirios A. Tsaftaris | (参考訳) 最近の最先端の半教師なしソリューションは、画像"コンテンツ"を空間テンソルに、画像の外観または"スタイル"をベクトルに切り離し、空間的に不変なタスク(画像から画像への変換など)で優れたパフォーマンスを達成する。
これを実現するために、異なるモデル設計、学習目標、データバイアスを採用している。
ベクトル表現のゆがみを測定し、そのタスクパフォーマンスへの影響を評価するために、かなりの努力がなされているが、そのような(空間的な)コンテンツに対する分析は欠落している。
本稿では,コンテンツスタイルのゆがみ設定における異なるバイアスの役割を実証的に検討し,ゆがみ度とタスクパフォーマンスの関係を明らかにする。
特に、私たちは次のような設定を考えます。
一 人気コンテンツスタイルのゆがみモデルの鍵となる設計選択及び学習制約を特定すること。
(二 アブレーション方式でそのような制約を緩和又は取り除くこと。)
(iii)2つの指標を用いて、絡み合いの程度を計測し、各タスクの性能に与える影響を評価する。
実験の結果,不等角性,タスク性能,および驚くほどのコンテンツ解釈性との間には「スイートスポット」があることが明らかとなり,不等角性が高まるとモデル性能やコンテンツ要因の意味性が損なわれる可能性が示唆された。
本研究の成果は,コンテンツスタイルの表現が有用であるタスクに対して,新しいモデルの設計と選択を導くのに有効である。 A recent spate of state-of-the-art semi- and un-supervised solutions disentangle and encode image "content" into a spatial tensor and image appearance or "style" into a vector, to achieve good performance in spatially equivariant tasks (e.g. image-to-image translation). To achieve this, they employ different model design, learning objective, and data biases. While considerable effort has been made to measure disentanglement in vector representations, and assess its impact on task performance, such analysis for (spatial) content - style disentanglement is lacking. In this paper, we conduct an empirical study to investigate the role of different biases in content-style disentanglement settings and unveil the relationship between the degree of disentanglement and task performance. In particular, we consider the setting where we: (i) identify key design choices and learning constraints for three popular content-style disentanglement models; (ii) relax or remove such constraints in an ablation fashion; and (iii) use two metrics to measure the degree of disentanglement and assess its effect on each task performance. Our experiments reveal that there is a "sweet spot" between disentanglement, task performance and - surprisingly - content interpretability, suggesting that blindly forcing for higher disentanglement can hurt model performance and content factors semanticness. Our findings, as well as the used task-independent metrics, can be used to guide the design and selection of new models for tasks where content-style representations are useful. | 翻訳日:2022-10-24 08:11:52 公開日:2021-09-15 |
# 畳み込みニューラルネットワークの最適化のための効率的な定量的手法 An Efficient Quantitative Approach for Optimizing Convolutional Neural Networks ( http://arxiv.org/abs/2009.05236v4 ) ライセンス: Link先を確認 | Yuke Wang, Boyuan Feng, Xueqiao Peng, Yufei Ding | (参考訳) ディープラーニングの普及に伴い、畳み込みニューラルネットワーク(convolutional neural network:cnns)は、画像分類やオブジェクト検出など、さまざまな領域で広く適用され、従来の統計的手法よりも高い精度で素晴らしい成功を収めている。
CNNモデルの可能性を活用するために、CNNの最適化に多大な研究と産業努力が注がれている。
これらの取り組みの中で、CNNアーキテクチャ設計はモデル精度の向上やモデルの複雑さの低減という大きな可能性を秘めている。
しかしながら、既存の作業では、検索プロセスに繰り返しトレーニングオーバーヘッドを導入するか、設計を導くための解釈可能なメトリクスを欠いている。
これらのハードルを解消するため,我々はcnnアーキテクチャの品質を推定し,設計の探索過程を導くための3次元受容場(3drf)を提案する。
3DRFの有効性を検証するため,ステージレベルとカーネルレベルの両方でCNNアーキテクチャを改善する静的オプティマイザを構築した。
我々のオプティマイザは、明確かつ再現可能な手順を提供するだけでなく、アーキテクチャ検索プロセスにおける不要なトレーニング作業を軽減します。
広範な実験と研究により、オプティマイザによって生成されたモデルは、mobilenetやresnetのような最先端のcnn構造と比較して、最大5.47%の精度向上と65.38%のパラメータ推論を達成できることが示されている。 With the increasing popularity of deep learning, Convolutional Neural Networks (CNNs) have been widely applied in various domains, such as image classification and object detection, and achieve stunning success in terms of their high accuracy over the traditional statistical methods. To exploit the potential of CNN models, a huge amount of research and industry efforts have been devoted to optimizing CNNs. Among these endeavors, CNN architecture design has attracted tremendous attention because of its great potential of improving model accuracy or reducing model complexity. However, existing work either introduces repeated training overhead in the search process or lacks an interpretable metric to guide the design. To clear these hurdles, we propose 3D-Receptive Field (3DRF), an explainable and easy-to-compute metric, to estimate the quality of a CNN architecture and guide the search process of designs. To validate the effectiveness of 3DRF, we build a static optimizer to improve the CNN architectures at both the stage level and the kernel level. Our optimizer not only provides a clear and reproducible procedure but also mitigates unnecessary training efforts in the architecture search process. Extensive experiments and studies show that the models generated by our optimizer can achieve up to 5.47% accuracy improvement and up to 65.38% parameters deduction, compared with state-of-the-art CNN structures like MobileNet and ResNet. | 翻訳日:2022-10-19 21:15:02 公開日:2021-09-15 |
# 言語特化エンコーダとデコーダを用いたゼロショット多言語音声翻訳 Enabling Zero-shot Multilingual Spoken Language Translation with Language-Specific Encoders and Decoders ( http://arxiv.org/abs/2011.01097v2 ) ライセンス: Link先を確認 | Carlos Escolano, Marta R. Costa-juss\`a, Jos\'e A. R. Fonollosa, Carlos Segura | (参考訳) Spoken Language Translation (SLT) への現在のエンドツーエンドアプローチは、特に多言語設定において、限られたトレーニングリソースに依存している。
一方で、多言語ニューラルマシン翻訳(multinmt)のアプローチは、高品質で巨大なデータセットに依存している。
提案手法は,言語固有のエンコーダデコーダに基づくマルチNMTアーキテクチャをMultiSLT(MultiSLT)のタスクに拡張する。
提案手法は,MultiSLTデータからの依存性を完全に排除し,ASRデータとMultiNMTデータのみをトレーニングしながら翻訳することができる。
4つの異なる言語に対する実験により、音声エンコーダとMultiNMTアーキテクチャの結合は、バイリンガルベースライン($\pm 0.2$ BLEU)と同等の品質の翻訳を生成できるが、効果的にゼロショットMultiSLTを実現することができることを示した。
さらに,音声入力を結合するアダプタモジュールを提案する。
このAdapterモジュールは、提案したアーキテクチャ上の+6 BLEU点と、エンドツーエンドのベースライン上の+1 BLEU点まで一貫した改善をもたらす。 Current end-to-end approaches to Spoken Language Translation (SLT) rely on limited training resources, especially for multilingual settings. On the other hand, Multilingual Neural Machine Translation (MultiNMT) approaches rely on higher-quality and more massive data sets. Our proposed method extends a MultiNMT architecture based on language-specific encoders-decoders to the task of Multilingual SLT (MultiSLT). Our method entirely eliminates the dependency from MultiSLT data and it is able to translate while training only on ASR and MultiNMT data. Our experiments on four different languages show that coupling the speech encoder to the MultiNMT architecture produces similar quality translations compared to a bilingual baseline ($\pm 0.2$ BLEU) while effectively allowing for zero-shot MultiSLT. Additionally, we propose using an Adapter module for coupling the speech inputs. This Adapter module produces consistent improvements up to +6 BLEU points on the proposed architecture and +1 BLEU point on the end-to-end baseline. | 翻訳日:2022-09-30 12:07:38 公開日:2021-09-15 |
# $(f,\Gamma)$-Divergences:$f$-Divergencesと積分確率メトリクスの補間 $(f,\Gamma)$-Divergences: Interpolating between $f$-Divergences and Integral Probability Metrics ( http://arxiv.org/abs/2011.05953v3 ) ライセンス: Link先を確認 | Jeremiah Birrell, Paul Dupuis, Markos A. Katsoulakis, Yannis Pantazis, Luc Rey-Bellet | (参考訳) 我々は、$f$-divergencesと$$$-Wasserstein距離などの積分確率指標(IPMs)の両方を仮定する情報理論の分岐を構築するための厳密で一般的なフレームワークを開発する。
以下に示すのが$(f,\Gamma)$-divergences という仮定で、確率測度間の '距離' の概念を示し、2段階の質量再分配/質量移動過程として表せることを示す。
$(f,\Gamma)$-divergencesは、絶対連続ではない分布を比較できる機能や、$f$-divergences、すなわち、変動表現の厳密な凹凸性、および$f$の特定の選択に対する重み付き分布を制御する機能など、IMMから機能を継承する。
これらの特徴が組み合わされると、推定、統計学習、不確実性定量化のための改良された特性を持つ分岐が確立される。
統計的学習を例に,重み付き非絶対連続サンプル分布に対する生成逆ネットワーク(gans)の訓練において,その利点を示す。
また,画像生成における勾配ペナル化ワッサースタインGANの性能と安定性も向上した。 We develop a rigorous and general framework for constructing information-theoretic divergences that subsume both $f$-divergences and integral probability metrics (IPMs), such as the $1$-Wasserstein distance. We prove under which assumptions these divergences, hereafter referred to as $(f,\Gamma)$-divergences, provide a notion of `distance' between probability measures and show that they can be expressed as a two-stage mass-redistribution/mass-transport process. The $(f,\Gamma)$-divergences inherit features from IPMs, such as the ability to compare distributions which are not absolutely continuous, as well as from $f$-divergences, namely the strict concavity of their variational representations and the ability to control heavy-tailed distributions for particular choices of $f$. When combined, these features establish a divergence with improved properties for estimation, statistical learning, and uncertainty quantification applications. Using statistical learning as an example, we demonstrate their advantage in training generative adversarial networks (GANs) for heavy-tailed, not-absolutely continuous sample distributions. We also show improved performance and stability over gradient-penalized Wasserstein GAN in image generation. | 翻訳日:2022-09-26 23:23:40 公開日:2021-09-15 |
# ガウス混合系の二項分類:支持ベクトルの欠如、良性オーバーフィッティング、正規化 Binary Classification of Gaussian Mixtures: Abundance of Support Vectors, Benign Overfitting and Regularization ( http://arxiv.org/abs/2011.09148v4 ) ライセンス: Link先を確認 | Ke Wang, Christos Thrampoulidis | (参考訳) ディープニューラルネットワークは、過度に過パラメータ化され、明示的な正規化なしでトレーニングされているにもかかわらず、うまく一般化している。
この奇妙な現象は、その統計原理を確立するための広範な研究活動に影響を与えている。
これらはデータとトレーニングアルゴリズムにどのように依存するのか?
正規化はいつ一般化に役立つのか?
このような質問はディープニューラルネットに対して広く開かれているが、最近の研究はより単純でしばしば線形なモデルを研究することによって洞察を得ることを試みている。
本研究は,ガウス混合モデルに基づく線形二元分類を検証することによって,この発展過程に寄与する。
近年の勾配降下の暗黙のバイアスに動機づけられ,max-margin svm分類器(ロジスティック損失に対応)とmin-norm補間分類器(最小二乗損失に対応)の両方について検討した。
まず、[V. Muthukumar et al., arXiv:2005.08054, (2020)]で導入されたアイデアを利用して、SVM解とmin-norm補間解を関連付ける。
第二に、後者の分類誤差に関する新しい非漸近境界を導出する。
この2つを組み合わせることで、オーバーパラメータ化が増加するにつれて、補間推定器が漸近的に最適な性能を発揮するような、共分散スペクトルと信号対雑音比(SNR)に関する新しい条件が提示される。
興味深いことに、この結果は一定確率ノイズフリップを持つノイズモデルに拡張される。
従来研究されてきた判別データモデルとは対照的に,snrとデータ共分散の相互作用は,snrの重要な役割を強調する。
最後に,解析的議論と数値実験の組み合わせにより,補間推定器が対応する正規化推定値よりも優れた性能を示す条件を同定する。 Deep neural networks generalize well despite being exceedingly overparameterized and being trained without explicit regularization. This curious phenomenon has inspired extensive research activity in establishing its statistical principles: Under what conditions is it observed? How do these depend on the data and on the training algorithm? When does regularization benefit generalization? While such questions remain wide open for deep neural nets, recent works have attempted gaining insights by studying simpler, often linear, models. Our paper contributes to this growing line of work by examining binary linear classification under a generative Gaussian mixture model. Motivated by recent results on the implicit bias of gradient descent, we study both max-margin SVM classifiers (corresponding to logistic loss) and min-norm interpolating classifiers (corresponding to least-squares loss). First, we leverage an idea introduced in [V. Muthukumar et al., arXiv:2005.08054, (2020)] to relate the SVM solution to the min-norm interpolating solution. Second, we derive novel non-asymptotic bounds on the classification error of the latter. Combining the two, we present novel sufficient conditions on the covariance spectrum and on the signal-to-noise ratio (SNR) under which interpolating estimators achieve asymptotically optimal performance as overparameterization increases. Interestingly, our results extend to a noisy model with constant probability noise flips. Contrary to previously studied discriminative data models, our results emphasize the crucial role of the SNR and its interplay with the data covariance. Finally, via a combination of analytical arguments and numerical demonstrations we identify conditions under which the interpolating estimator performs better than corresponding regularized estimates. | 翻訳日:2022-09-24 03:46:01 公開日:2021-09-15 |
# 進化的ニューラルネットワークを用いたcovid-19症例の予測 Forecasting of COVID-19 Cases, Using an Evolutionary Neural Architecture Search Approach ( http://arxiv.org/abs/2109.13062v1 ) ライセンス: Link先を確認 | Mahdi Rahbar, Samaneh Yazdani | (参考訳) 2019年後半には、重症呼吸器疾患である新型コロナウイルス(COVID-19)が出現し、それ以来世界はパンデミックの危機に直面している。
このパンデミックは、社会の様々な側面に重大な影響を与えた。
日常的なケースの数に関する不確実性は、意思決定者が感染を抑えるのを難しくした。
ディープラーニングモデルは、ヘルスケアのような現実世界の多くの問題に役立てることができることを証明した。
しかし、機能を学び、許容できるソリューションを出力するためには、大量のデータが必要です。
新型コロナウイルス(COVID-19)は近年流行している病気であるため、特にパンデミックの初期段階ではデータはあまり得られておらず、このデータ不足は最適化されたモデルの設計を困難にしている。
これらの問題を克服するために,我々はまず,拡張機能を備えた新しいデータセットを導入し,次に,bbaを用いた進化的ニューラルネットワーク探索を用いて,最適化されたディープリカレントネットワークを生成する新しいアプローチで新型コロナウイルスのケースを予測する。
最後に、我々のアプローチの有効性を示すために、イランの毎日の事例の比較研究を行った。
その結果,パンデミックのケースを予測するための正確な深層アーキテクチャを,データ不足の初期段階でも生成できることがわかった。 In late 2019, COVID-19, a severe respiratory disease, emerged, and since then, the world has been facing a deadly pandemic caused by it. This ongoing pandemic has had a significant effect on different aspects of societies. The uncertainty around the number of daily cases made it difficult for decision-makers to control the outbreak. Deep Learning models have proved that they can come in handy in many real-world problems such as healthcare ones. However, they require a lot of data to learn the features properly and output an acceptable solution. Since COVID-19 has been a lately emerged disease, there was not much data available, especially in the first stage of the pandemic, and this shortage of data makes it challenging to design an optimized model. To overcome these problems, we first introduce a new dataset with augmented features and then forecast COVID-19 cases with a new approach, using an evolutionary neural architecture search with Binary Bat Algorithm (BBA) to generate an optimized deep recurrent network. Finally, to show our approach's effectiveness, we conducted a comparative study on Iran's COVID-19 daily cases. The results prove our approach's capability to generate an accurate deep architecture to forecast the pandemic cases, even in the early stages with limited data. | 翻訳日:2021-10-03 10:39:25 公開日:2021-09-15 |
# (参考訳) セマンティクス・インスタンス・アウェア植物モデルを用いたブドウの冬期刈り取り自動化のための精密刈り取り点検出に向けて Towards Precise Pruning Points Detection using Semantic-Instance-Aware Plant Models for Grapevine Winter Pruning Automation ( http://arxiv.org/abs/2109.07247v1 ) ライセンス: CC BY 4.0 | Miguel Fernandes, Antonello Scaldaferri, Paolo Guadagna, Giuseppe Fiameni, Tao Teng, Matteo Gatti, Stefano Poni, Claudio Semini, Darwin Caldwell, Fei Chen | (参考訳) グラペビンの冬刈りは複雑な作業であり、熟練した労働者が正しく実行する必要がある。
複雑さは時間がかかります。
これは1ヘクタールあたり80~120時間を要するオペレーションで、大規模なブドウ畑で重要なツールとして、プロセスをスピードアップする自動化ロボットシステムを作る。
説明します
(a)ブドウのセグメンテーションのための新しい専門家注釈データセット
b)artニューラルネットワークの実装の現状と課題
(c) 作物の簡易構造を利用した農業規則による刈り取り点の生成。
このアプローチにより、我々は、ブドウの冬刈りの正しい自動化に向けて、杖に一組の刈り込みポイントを発生させることができる。 Grapevine winter pruning is a complex task, that requires skilled workers to execute it correctly. The complexity makes it time consuming. It is an operation that requires about 80-120 hours per hectare annually, making an automated robotic system that helps in speeding up the process a crucial tool in large-size vineyards. We will describe (a) a novel expert annotated dataset for grapevine segmentation, (b) a state of the art neural network implementation and (c) generation of pruning points following agronomic rules, leveraging the simplified structure of the plant. With this approach, we are able to generate a set of pruning points on the canes, paving the way towards a correct automation of grapevine winter pruning. | 翻訳日:2021-09-26 22:48:55 公開日:2021-09-15 |
# 整形外科的術中平板検出装置CT-Volume の自動面調整 Automatic Plane Adjustment of Orthopedic Intra-operative Flat Panel Detector CT-Volumes ( http://arxiv.org/abs/2109.10731v1 ) ライセンス: Link先を確認 | Celia Martin Vicario, Florian Kordon, Felix Denzinger, Jan Siad El Barbari, Maxim Privalov, Jochen Franke, Sarina Thomas, Lisa Kausch, Andreas Maier, Holger Kunze | (参考訳) 目的3d取得は、整形外科手術の結果を評価するためにしばしば取得される。
移動式C-Armシステムでは,これらの取得を術中行うことができる。
これにより、必要な修正手術の数を削減できる。
しかし、手術室の設置により、取得したボリュームが解剖学的領域に整列するように取得を行うことができないのが一般的である。
したがって、MPR(Multiplanar Restructed)平面は、ボリュームのレビュー中に手動で調整する必要がある。
本稿では,MPR平面のパラメータを推定するために,マルチタスク学習(MTL)回帰ネットワークを詳細に検討する。
アプローチ まず、ユーラー角、四元数、行列表現を含む回転に関する様々な数学的記述を改訂する。
次に、ポーゼネットに基づく3つの異なるmtlネットワークアーキテクチャを1つのタスク学習ネットワークと比較する。
その結果、ユーラー角の記述よりも行列記述を用いることで、回帰正規値の精度は7.7^{\circ}$から7.3^{\circ}$へと改善され、単一の解剖学の平均値となる。
マルチヘッドアプローチは、平面位置の回帰を7.4mm$から6.1mm$に改善するが、指向性はこのアプローチの恩恵を受けない。
結論 マルチヘッドアプローチは個々のタスクネットワークよりもわずかに優れた結果をもたらす可能性がある。
MTLアプローチの最も重要な利点は、保存されたパラメータの少ない全身体領域の標準平面回帰のための単一のネットワークであることである。 Purpose 3D acquisitions are often acquired to assess the result in orthopedic trauma surgery. With a mobile C-Arm system, these acquisitions can be performed intra-operatively. That reduces the number of required revision surgeries. However, due to the operation room setup, the acquisitions typically cannot be performed such that the acquired volumes are aligned to the anatomical regions. Thus, the multiplanar reconstructed (MPR) planes need to be adjusted manually during the review of the volume. In this paper, we present a detailed study of multi-task learning (MTL) regression networks to estimate the parameters of the MPR planes. Approach First, various mathematical descriptions for rotation, including Euler angle, quaternion, and matrix representation, are revised. Then, three different MTL network architectures based on the PoseNet are compared with a single task learning network. Results Using a matrix description rather than the Euler angle description, the accuracy of the regressed normals improves from $7.7^{\circ}$ to $7.3^{\circ}$ in the mean value for single anatomies. The multi-head approach improves the regression of the plane position from $7.4mm$ to $6.1mm$, while the orientation does not benefit from this approach. Conclusions The results show that a multi-head approach can lead to slightly better results than the individual tasks networks. The most important benefit of the MTL approach is that it is a single network for standard plane regression for all body regions with a reduced number of stored parameters. | 翻訳日:2021-09-26 22:32:31 公開日:2021-09-15 |
# 物理系のメッシュモデリングのための条件パラメータ化離散化対応ニューラルネットワーク Conditionally Parameterized, Discretization-Aware Neural Networks for Mesh-Based Modeling of Physical Systems ( http://arxiv.org/abs/2109.09510v1 ) ライセンス: Link先を確認 | Jiayang Xu, Aniruddhe Pradhan, Karthik Duraisamy | (参考訳) 物理系の数値シミュレーションはメッシュモデルに大きく依存している。
ニューラルネットワークはそのようなタスクを支援するために広く研究されてきたが、入力特徴間の相互作用や階層的関係を無視し、それらを結合混合として処理することが多い。
本研究では,入力パラメータの学習可能な関数を用いてニューラルネットワークの重みを生成する条件付きパラメトリゼーションの考え方を一般化し,数値シミュレーションに不可欠な情報を柔軟にエンコードする手法を提案する。
離散化数値法に触発されて、パラメータの選択には物理量とメッシュトポロジの特徴が含まれる。
モデル化された特徴とパラメータの間の機能的関係は、ネットワークアーキテクチャに組み込まれている。
この方法は様々なネットワーク上に実装されており、非モデル化物理学の発見、粗い場の超解像、化学反応による非定常流れのシミュレーションなど、よりフロンティアな科学機械学習タスクに適用されている。
その結果,条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことがわかった。
CP-GNetと呼ばれるネットワークアーキテクチャも、不規則メッシュ上での反応フローのスタンドアロン予測が可能な最初のディープラーニングモデルとして提案されている。 The numerical simulations of physical systems are heavily dependent on mesh-based models. While neural networks have been extensively explored to assist such tasks, they often ignore the interactions or hierarchical relations between input features, and process them as concatenated mixtures. In this work, we generalize the idea of conditional parametrization -- using trainable functions of input parameters to generate the weights of a neural network, and extend them in a flexible way to encode information critical to the numerical simulations. Inspired by discretized numerical methods, choices of the parameters include physical quantities and mesh topology features. The functional relation between the modeled features and the parameters are built into the network architecture. The method is implemented on different networks, which are applied to several frontier scientific machine learning tasks, including the discovery of unmodeled physics, super-resolution of coarse fields, and the simulation of unsteady flows with chemical reactions. The results show that the conditionally parameterized networks provide superior performance compared to their traditional counterparts. A network architecture named CP-GNet is also proposed as the first deep learning model capable of standalone prediction of reacting flows on irregular meshes. | 翻訳日:2021-09-26 22:32:08 公開日:2021-09-15 |
# (参考訳) カルポフの女王の犠牲とai Karpov's Queen Sacrifices and AI ( http://arxiv.org/abs/2109.08149v1 ) ライセンス: CC0 1.0 | Shiva Maharaj and Nick Polson | (参考訳) アナトリー・カルポフの女王の犠牲は分析される。
チェスのAIエンジンであるStockfish 14 NNUEは、Karpovの犠牲の効率を評価する。
比較のために、我々はKarpovのRookとKnightの犠牲に関するデータセットを提供し、Karpovが同様のレベルの精度を達成したかどうかをテストする。
我々の研究は、人間とAIの相互作用と、ブラックボックスAIアルゴリズムが採用する戦略をよりよく理解する方法に影響を及ぼす。
最後に、人間研究への意味から結論づける。
コンピュータエンジンによるチェス。 Anatoly Karpov's Queen sacrifices are analyzed. Stockfish 14 NNUE -- an AI chess engine -- evaluates how efficient Karpov's sacrifices are. For comparative purposes, we provide a dataset on Karpov's Rook and Knight sacrifices to test whether Karpov achieves a similar level of accuracy. Our study has implications for human-AI interaction and how humans can better understand the strategies employed by black-box AI algorithms. Finally, we conclude with implications for human study in. chess with computer engines. | 翻訳日:2021-09-21 09:04:24 公開日:2021-09-15 |
# 拡張がソフトウェア空間の宇宙を説明するかもしれない計算不能な芸術作品 A Computable Piece of Uncomputable Art whose Expansion May Explain the Universe in Software Space ( http://arxiv.org/abs/2109.08523v1 ) ライセンス: Link先を確認 | Hector Zenil | (参考訳) 私が計算不可能芸術(uncomputable art)と計算認識論(computation epistemology)と呼ぶ実験哲学(experimental philosophy)の交わりにおいて、私たちは、逆問題の挑戦に対する、おそらく最善の解決策による因果関係に関する、エキサイティングで有望な科学領域を見つけました。
これは、物理的現象からデータ片の可能な原因、機械的起源、第一原理、生成モデルを見つけるという問題である。
ここでは、アルゴリズム情報ダイナミクスの枠組みに従って、ソフトウェア空間の生成と探索について説明する。小さなモデルを見つけて、科学発見の分野を補完的なツールで前進させ、科学自体を前進させる機会を提供するSF的な空間を探索することを学ぶことができる。 At the intersection of what I call uncomputable art and computational epistemology, a form of experimental philosophy, we find an exciting and promising area of science related to causation with an alternative, possibly best possible, solution to the challenge of the inverse problem. That is the problem of finding the possible causes, mechanistic origins, first principles, and generative models of a piece of data from a physical phenomenon. Here we explain how generating and exploring software space following the framework of Algorithmic Information Dynamics, it is possible to find small models and learn to navigate a sci-fi-looking space that can advance the field of scientific discovery with complementary tools to offer an opportunity to advance science itself. | 翻訳日:2021-09-20 14:30:58 公開日:2021-09-15 |
# (参考訳) トータルリコール:ニューラルセマンティックパーザのためのカスタマイズされた連続学習法 Total Recall: a Customized Continual Learning Method for Neural Semantic Parsers ( http://arxiv.org/abs/2109.05186v2 ) ライセンス: CC BY 4.0 | Zhuang Li, Lizhen Qu, Gholamreza Haffari | (参考訳) 本稿では,意味解析のための連続学習について検討する。
この設定では、ニューラルセマンティックパーザは、以前のタスクから完全なトレーニングデータにアクセスすることなく、逐次タスクを学習する。
sota連続学習アルゴリズムのこの問題への直接適用は、セマンティックパーサによって得られる構造化出力の特殊特性を考慮していないため、すべてのタスクで再学習モデルと同等の性能を達成できない。
そこで我々は,ニューラル・セマンティック・パーサーのための連続学習手法であるTotalRecallを提案する。
一 論理形式のテンプレートを多様化し、メモリ内のパースアクションの分布のバランスをとるメモリリプレイのサンプリング方法
二 タスク間のパーサーの一般化能力を大幅に向上させる二段階訓練方法。
我々は, 連続的意味解析に関わる研究課題について広範な実験を行い, トータルリコールで訓練したニューラルセマンティックパーザは, SOTA連続学習アルゴリズムで直接訓練したものよりも優れた性能を示し, スクラッチから再学習するよりも3~6倍のスピードアップを達成した。
コードとデータセットは以下の通りである。 This paper investigates continual learning for semantic parsing. In this setting, a neural semantic parser learns tasks sequentially without accessing full training data from previous tasks. Direct application of the SOTA continual learning algorithms to this problem fails to achieve comparable performance with re-training models with all seen tasks because they have not considered the special properties of structured outputs yielded by semantic parsers. Therefore, we propose TotalRecall, a continual learning method designed for neural semantic parsers from two aspects: i) a sampling method for memory replay that diversifies logical form templates and balances distributions of parse actions in a memory; ii) a two-stage training method that significantly improves generalization capability of the parsers across tasks. We conduct extensive experiments to study the research problems involved in continual semantic parsing and demonstrate that a neural semantic parser trained with TotalRecall achieves superior performance than the one trained directly with the SOTA continual learning algorithms and achieve a 3-6 times speedup compared to re-training from scratch. Code and datasets are available at: https://github.com/zhuang-li/cl_nsp. | 翻訳日:2021-09-18 17:06:37 公開日:2021-09-15 |
# (参考訳) 第37回論理プログラミング国際会議(技術通信) Proceedings 37th International Conference on Logic Programming (Technical Communications) ( http://arxiv.org/abs/2109.07914v1 ) ライセンス: CC BY 4.0 | Andrea Formisano, Yanhong Annie Liu, Bart Bogaerts, Alex Brik, Veronica Dahl, Carmine Dodaro, Paul Fodor, Gian Luca Pozzato, Joost Vennekens, Neng-Fa Zhou | (参考訳) ICLP(ICLP)は論理プログラミング研究のための国際会議である。
iclp 2021への貢献は、基礎:意味論、形式論、非単調な推論、知識表現を含む、論理プログラミングのあらゆる分野において求められた。
言語の問題:並行性、オブジェクト、コーディネーション、モビリティ、高階、型、モード、アサーション、モジュール、メタプログラミング、論理ベースのドメイン固有言語、プログラミング技術。
プログラミングサポート: プログラム解析、変換、検証、検証、デバッグ、プロファイリング、テスト、実行の可視化。
実装: コンパイル、仮想マシン、メモリ管理、並列および分散実行、制約処理ルール、タブリング、外部インターフェース、ユーザインターフェース。
関連するパラダイムとシナジー:帰納的および帰納的論理プログラミング、制約論理プログラミング、Answerセットプログラミング、SAT、SMT、CSPソルバとのインタラクション、Theorem証明、Argumentation、確率的プログラミング、機械学習。
アプリケーション:データベース、ビッグデータ、データ統合と連合、ソフトウェア工学、自然言語処理、webとセマンティックウェブ、エージェント、人工知能、計算生命科学、サイバーセキュリティ、ロボット工学、教育。 ICLP is the premier international event for presenting research in logic programming. Contributions to ICLP 2021 were sought in all areas of logic programming, including but not limited to: Foundations: Semantics, Formalisms, Nonmonotonic reasoning, Knowledge representation. Languages issues: Concurrency, Objects, Coordination, Mobility, Higher order, Types, Modes, Assertions, Modules, Meta-programming, Logic-based domain-specific languages, Programming techniques. Programming support: Program analysis, Transformation, Validation, Verification, Debugging, Profiling, Testing, Execution visualization. Implementation: Compilation, Virtual machines, Memory management, Parallel and Distributed execution, Constraint handling rules, Tabling, Foreign interfaces, User interfaces. Related Paradigms and Synergies: Inductive and coinductive logic programming, Constraint logic programming, Answer set programming, Interaction with SAT, SMT and CSP solvers, Theorem proving, Argumentation, Probabilistic programming, Machine learning. Applications: Databases, Big data, Data integration and federation, Software engineering, Natural language processing, Web and semantic web, Agents, Artificial intelligence, Computational life sciences, Cyber-security, Robotics, Education. | 翻訳日:2021-09-18 11:12:05 公開日:2021-09-15 |
# (参考訳) FSER:音声感情認識のための深層畳み込みニューラルネットワーク FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition ( http://arxiv.org/abs/2109.07916v1 ) ライセンス: CC BY 4.0 | Bonaventure F. P. Dossou and Yeno K. S. Gbenou | (参考訳) 従来のMFCC機能に対するメル・スペクトログラムを用いて、音声データから感情を正確に認識し分類する畳み込みニューラルネットワークの能力を評価する。
4つの有効な音声データベースで訓練された音声感情認識モデルfserを導入し,怒り,不安,落ち着き,嫌悪,幸福,中立,悲しみ,驚きという8種類の感情クラスから95,05\%の高分類精度を達成する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、言語、性同一性、その他の外部要因から独立して、信頼性を維持していることを示す。
さらに、FSERが精神的および感情的な医療を改善するためにどのように使えるか、そして我々の分析と調査結果が、同じ方向に進むためのガイドラインとベンチマークとしてどのように役立つかを述べる。 Using mel-spectrograms over conventional MFCCs features, we assess the abilities of convolutional neural networks to accurately recognize and classify emotions from speech data. We introduce FSER, a speech emotion recognition model trained on four valid speech databases, achieving a high-classification accuracy of 95,05\%, over 8 different emotion classes: anger, anxiety, calm, disgust, happiness, neutral, sadness, surprise. On each benchmark dataset, FSER outperforms the best models introduced so far, achieving a state-of-the-art performance. We show that FSER stays reliable, independently of the language, sex identity, and any other external factor. Additionally, we describe how FSER could potentially be used to improve mental and emotional health care and how our analysis and findings serve as guidelines and benchmarks for further works in the same direction. | 翻訳日:2021-09-18 11:11:04 公開日:2021-09-15 |
# (参考訳) 雑音下におけるキーワードスポッティングネットワークの挙動 Behavior of Keyword Spotting Networks Under Noisy Conditions ( http://arxiv.org/abs/2109.07930v1 ) ライセンス: CC BY-SA 4.0 | Anwesh Mohanty, Adrian Frischknecht, Christoph Gerum and Oliver Bringmann | (参考訳) キーワードスポッティング(KWS)は、人工知能とスマートデバイスの発展とともに、ユビキタスなニーズになりつつある。
この分野での最近の研究は、低音から中音のデータセットで良い結果を得るため、いくつかの異なるアーキテクチャに焦点を当てている。
しかし,これらのモデルの性能は,実験で示されたような高騒音条件下で劣化する。
本稿では,様々な雑音条件下での最先端KWSネットワークの比較について述べる。
また,学習段階でノイズファイルが未知である場合のネットワークの性能向上のための手法として,適応バッチ正規化を提案する。
このような高ノイズ特性の結果として、前述の条件でより優れた性能を持つモデルの開発が期待できる。 Keyword spotting (KWS) is becoming a ubiquitous need with the advancement in artificial intelligence and smart devices. Recent work in this field have focused on several different architectures to achieve good results on datasets with low to moderate noise. However, the performance of these models deteriorates under high noise conditions as shown by our experiments. In our paper, we present an extensive comparison between state-of-the-art KWS networks under various noisy conditions. We also suggest adaptive batch normalization as a technique to improve the performance of the networks when the noise files are unknown during the training phase. The results of such high noise characterization enable future work in developing models that perform better in the aforementioned conditions. | 翻訳日:2021-09-18 11:05:09 公開日:2021-09-15 |
# (参考訳) 知識に基づく視覚的質問応答における言語モデルの有効利用のための画像キャプション Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering ( http://arxiv.org/abs/2109.08029v1 ) ライセンス: CC BY 4.0 | Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre | (参考訳) 視覚的質問応答(VQA)のような視覚言語タスクにおける推論のための外部知識の統合は、オープンな問題である。
事前学習された言語モデルに世界的知識が組み込まれていることを考えると,画像と事前学習された言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像テキスト)モデルよりも優れていた。
対照的に、我々のモデルは標準的なVQAタスク(VQA 2.0)では効果が低く、テキストのみの手法が外部知識を必要とするタスクに対して特別に有効であることを確認した。
さらに,本モデルがOK-VQAとVQA 2.0の両方のマルチモーダルモデルに相補的であり,外部知識グラフを使用しないシステム間ではOK-VQAが最良であることを示す。
ok-vqaの質的分析から、自動キャプションは画像内の関連情報を捉えられず、テキストのみの言語モデルの推論能力の向上によってバランスが取れていることが分かりました。
我々の研究は、視覚言語タスクにおける推論をさらに改善する可能性を開く。 Integrating outside knowledge for reasoning in visio-linguistic tasks such as visual question answering (VQA) is an open problem. Given that pretrained language models have been shown to include world knowledge, we propose to use a unimodal (text-only) train and inference procedure based on automatic off-the-shelf captioning of images and pretrained language models. Our results on a visual question answering task which requires external knowledge (OK-VQA) show that our text-only model outperforms pretrained multimodal (image-text) models of comparable number of parameters. In contrast, our model is less effective in a standard VQA task (VQA 2.0) confirming that our text-only method is specially effective for tasks requiring external knowledge. In addition, we show that our unimodal model is complementary to multimodal models in both OK-VQA and VQA 2.0, and yield the best result to date in OK-VQA among systems not using external knowledge graphs, and comparable to systems that do use them. Our qualitative analysis on OK-VQA reveals that automatic captions often fail to capture relevant information in the images, which seems to be balanced by the better inference ability of the text-only language models. Our work opens up possibilities to further improve inference in visio-linguistic tasks. | 翻訳日:2021-09-18 10:57:26 公開日:2021-09-15 |
# (参考訳) フェルミオンサンプリングが効率的になった Fermion Sampling Made More Efficient ( http://arxiv.org/abs/2109.07358v1 ) ライセンス: CC BY 4.0 | Haoran Sun, Jie Zou and Xiaopeng Li | (参考訳) フェルミオンサンプリングは、統計解析において「決定点過程」と呼ばれる多体スレーター決定波動関数の確率分布を生成する。
本質的に埋め込まれたパウリ排他原理のために、その応用はフェルミオン量子多体物理学をシミュレートするだけでなく、多様化したデータセットのための機械学習モデルを構築することができる。
本稿では,フェルミオン数における多項式時間複雑度とシステムサイズにおける線形性を有するフェルミオンサンプリングアルゴリズムを提案する。
このアルゴリズムは、最もよく知られたアルゴリズムよりも計算時間で約100%効率が良い。
対応する限界分布をサンプリングする際、我々のアルゴリズムはより劇的に改善され、スケーリングの優位性が得られる。
我々は,多体システムにおけるフェルミオンのサンプリングやテキスト要約の機械学習タスクなど,いくつかのテストアプリケーションにおいてその性能を実証し,浮動小数点演算を数えることにより,他の手法よりも優れた計算効率を確認する。 Fermion sampling is to generate probability distribution of a many-body Slater-determinant wavefunction, which is termed "determinantal point process" in statistical analysis. For its inherently-embedded Pauli exclusion principle, its application reaches beyond simulating fermionic quantum many-body physics to constructing machine learning models for diversified datasets. Here we propose a fermion sampling algorithm, which has a polynomial time-complexity -- quadratic in the fermion number and linear in the system size. This algorithm is about 100% more efficient in computation time than the best known algorithms. In sampling the corresponding marginal distribution, our algorithm has a more drastic improvement, achieving a scaling advantage. We demonstrate its power on several test applications, including sampling fermions in a many-body system and a machine learning task of text summarization, and confirm its improved computation efficiency over other methods by counting floating-point operations. | 翻訳日:2021-09-18 10:41:50 公開日:2021-09-15 |
# (参考訳) $\textit{Node2vec+}$ を用いた重み付きグラフ上のバイアスランダムウォークの正確なモデリング Accurately Modeling Biased Random Walks on Weighted Graphs Using $\textit{Node2vec+}$ ( http://arxiv.org/abs/2109.08031v1 ) ライセンス: CC BY-SA 4.0 | Renming Liu, Matthew Hirn, Arjun Krishnan | (参考訳) ノード埋め込みは、グラフの各ノードの構造的役割を表現するための強力なアプローチである。
$\textit{Node2vec}$は、グラフ上のランダムウォークによって局所的な近傍を探索することによって機能するノード埋め込みの広く使われている方法である。
しかし、$\textit{node2vec}$はウォークバイアスの計算時にエッジウェイトを考慮しない。
この本質的な制限は、$\textit{node2vec}$が重み付きグラフのすべての情報を活用することを防ぎ、その適用を重み付きで密度の高い多くの実世界のネットワークに制限する。
ここでは自然に$\textit{node2vec}$から$\textit{node2vec+}$に拡張します。
2つの合成データセットを用いた重み付きグラフにおいて、$\textit{node2vec+}$は、$\textit{node2vec}$よりも加法雑音に強いことを実証的に示す。
また、一般的にベンチマークされたマルチラベルデータセット(Wikipedia)において、$\textit{node2vec+}$が$\textit{node2vec}$を大きく上回ることを示す。
さらに,2つのタンパク質-タンパク質相互作用ネットワーク上での遺伝子分類タスクを用いて,GCNとGraphSAGEに対して$\textit{node2vec+}$をテストする。
GCNとGraphSAGEの明確な利点にもかかわらず、$\textit{node2vec+}$と同等のパフォーマンスを示している。
最後に、$\textit{node2vec+}$は、バイアス付きランダムウォークを生成する一般的なアプローチとして使用することができ、$\textit{node2vec}$の上に構築された既存のメソッドの恩恵を受けることができる。
$\textit{Node2vec+}$は、$\texttt{PecanPy}$の一部として実装されている。 Node embedding is a powerful approach for representing the structural role of each node in a graph. $\textit{Node2vec}$ is a widely used method for node embedding that works by exploring the local neighborhoods via biased random walks on the graph. However, $\textit{node2vec}$ does not consider edge weights when computing walk biases. This intrinsic limitation prevents $\textit{node2vec}$ from leveraging all the information in weighted graphs and, in turn, limits its application to many real-world networks that are weighted and dense. Here, we naturally extend $\textit{node2vec}$ to $\textit{node2vec+}$ in a way that accounts for edge weights when calculating walk biases, but which reduces to $\textit{node2vec}$ in the cases of unweighted graphs or unbiased walks. We empirically show that $\textit{node2vec+}$ is more robust to additive noise than $\textit{node2vec}$ in weighted graphs using two synthetic datasets. We also demonstrate that $\textit{node2vec+}$ significantly outperforms $\textit{node2vec}$ on a commonly benchmarked multi-label dataset (Wikipedia). Furthermore, we test $\textit{node2vec+}$ against GCN and GraphSAGE using various challenging gene classification tasks on two protein-protein interaction networks. Despite some clear advantages of GCN and GraphSAGE, they show comparable performance with $\textit{node2vec+}$. Finally, $\textit{node2vec+}$ can be used as a general approach for generating biased random walks, benefiting all existing methods built on top of $\textit{node2vec}$. $\textit{Node2vec+}$ is implemented as part of $\texttt{PecanPy}$, which is available at https://github.com/krishnanlab/PecanPy . | 翻訳日:2021-09-18 10:28:27 公開日:2021-09-15 |
# (参考訳) 音声タグの見出し部分に対するクロスレジストレーション Cross-Register Projection for Headline Part of Speech Tagging ( http://arxiv.org/abs/2109.07483v1 ) ライセンス: CC BY 4.0 | Adrian Benton, Hanyang Li, Igor Malioutov | (参考訳) 音声(POS)タグ付けは慣れ親しんだNLPタスクである。
state of the art taggersは、ニュース本体のテキストで97%以上のトークンレベルの精度を定期的に達成している。
しかし、英語のニュース見出しの登録簿「headlinese」は、長文のテキストの登録とは大きく異なり、posタグモデルが見出しに過小評価される原因となっている。
本研究では,関連する文から予測タグを投影することで,ニュース見出しにposタグを付与する。
我々は,複数ドメインのposタグを長文と見出し文の両方で訓練し,両レジスタの合同訓練が1つまたはネイティブに連結されたトレーニングセットのトレーニングよりも優れていることを示す。
Google文圧縮コーパスから5,248以上の英ニュース見出しを新たに注釈付けしたコーパスで評価し,本モデルがトークンあたりの相対誤差を23%,見出しあたり19%減らすことを示す。
さらに,より優れた見出しPOSタグが,構文に基づくオープン情報抽出システムの性能を向上させることを示す。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。 Part of speech (POS) tagging is a familiar NLP task. State of the art taggers routinely achieve token-level accuracies of over 97% on news body text, evidence that the problem is well understood. However, the register of English news headlines, "headlinese", is very different from the register of long-form text, causing POS tagging models to underperform on headlines. In this work, we automatically annotate news headlines with POS tags by projecting predicted tags from corresponding sentences in news bodies. We train a multi-domain POS tagger on both long-form and headline text and show that joint training on both registers improves over training on just one or naively concatenating training sets. We evaluate on a newly-annotated corpus of over 5,248 English news headlines from the Google sentence compression corpus, and show that our model yields a 23% relative error reduction per token and 19% per headline. In addition, we demonstrate that better headline POS tags can improve the performance of a syntax-based open information extraction system. We make POSH, the POS-tagged Headline corpus, available to encourage research in improved NLP models for news headlines. | 翻訳日:2021-09-18 10:09:43 公開日:2021-09-15 |
# (参考訳) wordnet 名詞 hypernymy graph 上のユークリッド埋め込みと双曲埋め込みの比較 Comparing Euclidean and Hyperbolic Embeddings on the WordNet Nouns Hypernymy Graph ( http://arxiv.org/abs/2109.07488v1 ) ライセンス: CC BY 4.0 | Sameer Bansal, Adrian Benton | (参考訳) nickel and kiela (2017) は poincare ball に木ノードを埋め込む新しい方法を示し、これらの双曲埋め込みは wordnet nouns hypernymy tree のような大きな階層構造を持つグラフへの埋め込みノードでのユークリッド埋め込みよりもはるかに効果的であることを示唆している。
これは特に低次元において真である(Nickel and Kiela, 2017 Table 1)。
本研究では,wordnet nouns hypernymyグラフの埋め込みと再構成に関する実験を再現する。
彼らが報告したものとは対照的に、少なくとも50次元を許せば、ユークリッドの埋め込みはこの木とポインケアの埋め込みを表現できる。
極低次元環境における双曲的埋め込みの性能を考えると,これは作業の意義を損なうものではない。
しかしながら、これらの研究の広範な影響を踏まえ、我々はユークリッドと双曲的埋め込みの更新とより正確な比較を行うことを目標としている。 Nickel and Kiela (2017) present a new method for embedding tree nodes in the Poincare ball, and suggest that these hyperbolic embeddings are far more effective than Euclidean embeddings at embedding nodes in large, hierarchically structured graphs like the WordNet nouns hypernymy tree. This is especially true in low dimensions (Nickel and Kiela, 2017, Table 1). In this work, we seek to reproduce their experiments on embedding and reconstructing the WordNet nouns hypernymy graph. Counter to what they report, we find that Euclidean embeddings are able to represent this tree at least as well as Poincare embeddings, when allowed at least 50 dimensions. We note that this does not diminish the significance of their work given the impressive performance of hyperbolic embeddings in very low-dimensional settings. However, given the wide influence of their work, our aim here is to present an updated and more accurate comparison between the Euclidean and hyperbolic embeddings. | 翻訳日:2021-09-18 09:50:28 公開日:2021-09-15 |
# (参考訳) Sign-MAML:SignSGDによるモデル非依存メタラーニング Sign-MAML: Efficient Model-Agnostic Meta-Learning by SignSGD ( http://arxiv.org/abs/2109.07497v1 ) ライセンス: CC BY 4.0 | Chen Fan, Parikshit Ram, Sijia Liu | (参考訳) モデルに依存しないメタラーニング(MAML)のための新しい計算効率の高い1次アルゴリズムを提案する。
鍵となる有効化技術は、MAMLを双方向最適化(BLO)問題として解釈し、符号ベースのSGD(signSGD)をBLOの下位最適化として利用することである。
我々は,SGDを指向したBLOのレンズを用いてMAMLが,学習したメタモデルの1次勾配のみを必要とする交互最適化スキームを自然に生成することを示す。
結果のMAMLアルゴリズムをSign-MAMLと呼ぶ。
従来の one-order MAML (FO-MAML) アルゴリズムと比較して、Sign-MAML はメタトレーニング中に 2-order derivatives が存在しないという仮定を課さないため理論的に基礎を置いている。
実際には,Sign-MAMLはFO-MAMLよりも多くの画像分類タスクで優れており,MAMLと比較して,分類精度と計算効率のトレードオフがはるかに良好であることを示す。 We propose a new computationally-efficient first-order algorithm for Model-Agnostic Meta-Learning (MAML). The key enabling technique is to interpret MAML as a bilevel optimization (BLO) problem and leverage the sign-based SGD(signSGD) as a lower-level optimizer of BLO. We show that MAML, through the lens of signSGD-oriented BLO, naturally yields an alternating optimization scheme that just requires first-order gradients of a learned meta-model. We term the resulting MAML algorithm Sign-MAML. Compared to the conventional first-order MAML (FO-MAML) algorithm, Sign-MAML is theoretically-grounded as it does not impose any assumption on the absence of second-order derivatives during meta training. In practice, we show that Sign-MAML outperforms FO-MAML in various few-shot image classification tasks, and compared to MAML, it achieves a much more graceful tradeoff between classification accuracy and computation efficiency. | 翻訳日:2021-09-18 09:44:19 公開日:2021-09-15 |
# (参考訳) 非分散型医用画像に対するFederated Contrastive Learning Federated Contrastive Learning for Decentralized Unlabeled Medical Images ( http://arxiv.org/abs/2109.07504v1 ) ライセンス: CC BY 4.0 | Nanqing Dong and Irina Voiculescu | (参考訳) コンピュータビジョンにおけるラベル効率のよいパラダイムは、ラベルのないデータに対する自己教師付きコントラストプリトレーニングと、少数のラベルによる微調整に基づいている。
臨床領域における連合コンピューティング環境の実用化と医用画像の学習は、具体的な課題である。
本稿ではFedMoCoを提案する。FedMoCoは、分散化された非ラベル医療データを効率的に活用する、堅牢なFCLフレームワークである。
fedmocoには2つの新しいモジュールがある:メタデータ転送、ノード間の統計データ拡張モジュール、自己適応アグリゲーション、表現的類似性分析に基づくアグリゲーションモジュール。
私たちの知る限りでは、これは医療画像に関する最初のfcl作業です。
実験の結果,FedMoCoは,フェデラルなフェデレーション学習フレームワークであるFedAvgを一貫して上回り,下流タスクの有意義な表現を抽出できることがわかった。
さらに、FedMoCoは、新型コロナウイルス検出などの下流タスクに必要なラベル付きデータを大幅に削減し、適切なパフォーマンスを達成することができることを示す。 A label-efficient paradigm in computer vision is based on self-supervised contrastive pre-training on unlabeled data followed by fine-tuning with a small number of labels. Making practical use of a federated computing environment in the clinical domain and learning on medical images poses specific challenges. In this work, we propose FedMoCo, a robust federated contrastive learning (FCL) framework, which makes efficient use of decentralized unlabeled medical data. FedMoCo has two novel modules: metadata transfer, an inter-node statistical data augmentation module, and self-adaptive aggregation, an aggregation module based on representational similarity analysis. To the best of our knowledge, this is the first FCL work on medical images. Our experiments show that FedMoCo can consistently outperform FedAvg, a seminal federated learning framework, in extracting meaningful representations for downstream tasks. We further show that FedMoCo can substantially reduce the amount of labeled data required in a downstream task, such as COVID-19 detection, to achieve a reasonable performance. | 翻訳日:2021-09-18 09:32:58 公開日:2021-09-15 |
# (参考訳) スキーマ駆動プロンプトを用いた言語モデルによる対話状態追跡 Dialogue State Tracking with a Language Model using Schema-Driven Prompting ( http://arxiv.org/abs/2109.07506v1 ) ライセンス: CC BY 4.0 | Chia-Hsuan Lee, Hao Cheng, Mari Ostendorf | (参考訳) タスク指向の会話システムは、しばしば、事前に定義されたスロットの値を埋めることを含むユーザの意図を表現するために、対話状態トラッキングを使用する。
多くのアプローチが提案されており、特殊目的分類器を備えたタスク固有のアーキテクチャを用いることが多い。
近年、事前学習された言語モデルに基づくより一般的なアーキテクチャを用いて良い結果が得られている。
本稿では,スキーマ駆動プロンプトを用いて,カテゴリと非カテゴリの両方のスロットに使用されるタスク認識履歴エンコーディングを提供する,言語モデリングアプローチの新たなバリエーションを紹介する。
ドメイン内知識の自然発生源であるスキーマ記述のプロンプトを増強することにより、パフォーマンスをさらに向上させる。
我々の純生成システムはMultiWOZ 2.2の最先端性能を実現し、MultiWOZ 2.1とM2Mの2つのベンチマークで競合性能を達成する。
データとコードはhttps://github.com/chiahsuan156/dst-as-promptingで入手できる。 Task-oriented conversational systems often use dialogue state tracking to represent the user's intentions, which involves filling in values of pre-defined slots. Many approaches have been proposed, often using task-specific architectures with special-purpose classifiers. Recently, good results have been obtained using more general architectures based on pretrained language models. Here, we introduce a new variation of the language modeling approach that uses schema-driven prompting to provide task-aware history encoding that is used for both categorical and non-categorical slots. We further improve performance by augmenting the prompting with schema descriptions, a naturally occurring source of in-domain knowledge. Our purely generative system achieves state-of-the-art performance on MultiWOZ 2.2 and achieves competitive performance on two other benchmarks: MultiWOZ 2.1 and M2M. The data and code will be available at https://github.com/chiahsuan156/DST-as-Prompting. | 翻訳日:2021-09-18 09:21:52 公開日:2021-09-15 |
# (参考訳) 視覚知覚分析のための雑音ラベルの集約と再定義の学習 Learning to Aggregate and Refine Noisy Labels for Visual Sentiment Analysis ( http://arxiv.org/abs/2109.07509v1 ) ライセンス: CC BY 4.0 | Wei Zhu, Zihe Zheng, Haitian Zheng, Hanjia Lyu, Jiebo Luo | (参考訳) 近年、視覚的感情分析が注目されている。
しかしながら、データセットの品質は、感情ラベルがクラウドソーシングであり、主観的であり、ミスを起こしやすいため、懸念される。
これは深層ニューラルネットワークを含むデータ駆動モデルに深刻な脅威をもたらし、ノイズの多い感情ラベルでサンプルを過度に適合させるように訓練された場合、テストケースの一般化を損なう。
近年,雑音ラベルによる学習の進展に触発されて,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
提案手法は, 学習中にノイズラベルを集約・フィルタリングするために外部メモリに依存するため, モデルによるノイズケースのオーバーフィットを防止できる。
メモリは対応するラベルを持つプロトタイプで構成されており、どちらもオンラインで更新することができる。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
提案手法の有効性を総合的に示すベンチマーク設定実験を行った。 Visual sentiment analysis has received increasing attention in recent years. However, the quality of the dataset is a concern because the sentiment labels are crowd-sourcing, subjective, and prone to mistakes. This poses a severe threat to the data-driven models including the deep neural networks which would generalize poorly on the testing cases if they are trained to over-fit the samples with noisy sentiment labels. Inspired by the recent progress on learning with noisy labels, we propose a robust learning method to perform robust visual sentiment analysis. Our method relies on an external memory to aggregate and filter noisy labels during training and thus can prevent the model from overfitting the noisy cases. The memory is composed of the prototypes with corresponding labels, both of which can be updated online. We establish a benchmark for visual sentiment analysis with label noise using publicly available datasets. The experiment results of the proposed benchmark settings comprehensively show the effectiveness of our method. | 翻訳日:2021-09-18 09:02:40 公開日:2021-09-15 |
# (参考訳) 長い列における逐次規則の有用なコンパクト集合の発見 Discovering Useful Compact Sets of Sequential Rules in a Long Sequence ( http://arxiv.org/abs/2109.07519v1 ) ライセンス: CC BY 4.0 | Erwan Bourrand and Luis Gal\'arraga and Esther Galbrun and Elisa Fromont and Alexandre Termier | (参考訳) シンボリックイベントの長いシーケンスの基盤となる生成プロセスを理解することに興味があります。
そこで本研究では,小規模かつ有意義なルールをマイニングするアルゴリズムであるCOSSUを提案する。
ルールは、コンパクトさを優先し、シーケンスのための新しいルールベースのエンコーディング方式に依存するmdlにインスパイアされた基準を用いて選択される。
評価の結果,COSSUは長いシーケンスから関連した順序規則の集合を検索できることがわかった。
このようなルールは、次の要素予測と分類のタスクの競争精度を示す解釈可能なモデルを構成する。 We are interested in understanding the underlying generation process for long sequences of symbolic events. To do so, we propose COSSU, an algorithm to mine small and meaningful sets of sequential rules. The rules are selected using an MDL-inspired criterion that favors compactness and relies on a novel rule-based encoding scheme for sequences. Our evaluation shows that COSSU can successfully retrieve relevant sets of closed sequential rules from a long sequence. Such rules constitute an interpretable model that exhibits competitive accuracy for the tasks of next-element prediction and classification. | 翻訳日:2021-09-18 08:52:08 公開日:2021-09-15 |
# (参考訳) 因果メディエーターとしてのテキスト:言語的側面による社会集団の差別化処理の因果推定に関する研究 Text as Causal Mediators: Research Design for Causal Estimates of Differential Treatment of Social Groups via Language Aspects ( http://arxiv.org/abs/2109.07542v1 ) ライセンス: CC BY 4.0 | Katherine A. Keith, Douglas Rice, and Brendan O'Connor | (参考訳) 対人関係を理解するために観察された言語を用いることは、高い意思決定において重要である。
そこで本研究では,観察的(非実験的)データのための因果研究設計を提案し,言語を因果媒介者とする話者の反応に対する社会的グループ信号(人種や性別など)の自然な直接的・間接的影響を推定する。
合衆国最高裁判所の口頭弁論において、弁護人の性別が判事の割り込みに与える影響に関する理論的ケーススタディを通じて、この枠組みの約束と課題を説明する。
また,多成分からなる性や言語などの因果変数を概念化し,運用する課題についても論じるとともに,会話環境における言語仲介者間の時間的依存などの技術的なオープン課題を明らかにした。 Using observed language to understand interpersonal interactions is important in high-stakes decision making. We propose a causal research design for observational (non-experimental) data to estimate the natural direct and indirect effects of social group signals (e.g. race or gender) on speakers' responses with separate aspects of language as causal mediators. We illustrate the promises and challenges of this framework via a theoretical case study of the effect of an advocate's gender on interruptions from justices during U.S. Supreme Court oral arguments. We also discuss challenges conceptualizing and operationalizing causal variables such as gender and language that comprise of many components, and we articulate technical open challenges such as temporal dependence between language mediators in conversational settings. | 翻訳日:2021-09-18 08:35:44 公開日:2021-09-15 |
# (参考訳) RaWaNet: グラフ上のランダムウォークによるグラフニューラルネットワーク入力の強化 RaWaNet: Enriching Graph Neural Network Input via Random Walks on Graphs ( http://arxiv.org/abs/2109.07555v1 ) ライセンス: CC BY 4.0 | Anahita Iravanizad, Edgar Ivan Sanchez Medina, Martin Stoll | (参考訳) 近年、グラフニューラルネットワーク(GNN)の人気が高まっており、グラフで表されるデータに対して非常に有望な結果を示している。
GNNアーキテクチャの大部分は、異なる予測タスクに使用するグラフの隠れたより深い表現をよりよく抽出する、新しい畳み込み層やプール層の開発に基づいて設計されている。
これらのレイヤへの入力は、主にグラフの3つのデフォルト記述子、nodeは$(x)$、adjacency matrixは$(a)$、edgeは$(w)$(可能であれば)である。
ネットワークへのより豊かな入力を提供するため、3つの選択された長さに基づくグラフのランダムウォークデータ処理を提案する。
すなわち、(正規の)長さ 1 と 2 のウォークと長さ $\gamma \in (0,1)$ の分歩により、グラフ上の異なる局所的および大域的ダイナミクスを捉える。
また、各ランダムウォークの定常分布を計算し、最初のノード機能($x$)のスケーリング係数として使用する。
このように、各グラフに対して、ネットワークは複数の隣接行列を受信し、ノードの特徴に対する個々の重み付けを行う。
本手法は,処理ノードの特徴をネットワークに渡すことで,様々な分子データセット上でテストを行い,複数の分類と回帰タスクを行う。
興味深いことに、分子グラフ学習に大きく活用されているエッジ機能を使用しない手法は、浅いネットワークをよく知られた深いGNNよりも優れている。 In recent years, graph neural networks (GNNs) have gained increasing popularity and have shown very promising results for data that are represented by graphs. The majority of GNN architectures are designed based on developing new convolutional and/or pooling layers that better extract the hidden and deeper representations of the graphs to be used for different prediction tasks. The inputs to these layers are mainly the three default descriptors of a graph, node features $(X)$, adjacency matrix $(A)$, and edge features $(W)$ (if available). To provide a more enriched input to the network, we propose a random walk data processing of the graphs based on three selected lengths. Namely, (regular) walks of length 1 and 2, and a fractional walk of length $\gamma \in (0,1)$, in order to capture the different local and global dynamics on the graphs. We also calculate the stationary distribution of each random walk, which is then used as a scaling factor for the initial node features ($X$). This way, for each graph, the network receives multiple adjacency matrices along with their individual weighting for the node features. We test our method on various molecular datasets by passing the processed node features to the network in order to perform several classification and regression tasks. Interestingly, our method, not using edge features which are heavily exploited in molecular graph learning, let a shallow network outperform well known deep GNNs. | 翻訳日:2021-09-18 08:19:53 公開日:2021-09-15 |
# (参考訳) 因果図を用いた単位選択 Unit Selection with Causal Diagram ( http://arxiv.org/abs/2109.07556v1 ) ライセンス: CC BY 4.0 | Ang Li and Judea Pearl | (参考訳) 単位選択問題(unit selection problem)は、望ましい行動様式を示す可能性が最も高い集団を特定することを目的としている。
実験データと観測データの組み合わせを用いて、LiとPearlは、与えられた特性を持つ個人を選択することで得られる「便益関数」に関する厳密な境界を導出した。
本稿では,これらの境界を,因果モデルという形で構造的情報が得られる場合に,かなり狭めることができることを示す。
特定のグラフィカルな基準が成立すると仮定された場合,観測データと実験データを用いて利益関数を推定する問題に対処する。 The unit selection problem aims to identify a set of individuals who are most likely to exhibit a desired mode of behavior, for example, selecting individuals who would respond one way if encouraged and a different way if not encouraged. Using a combination of experimental and observational data, Li and Pearl derived tight bounds on the "benefit function" - the payoff/cost associated with selecting an individual with given characteristics. This paper shows that these bounds can be narrowed significantly (enough to change decisions) when structural information is available in the form of a causal model. We address the problem of estimating the benefit function using observational and experimental data when specific graphical criteria are assumed to hold. | 翻訳日:2021-09-18 08:06:31 公開日:2021-09-15 |
# (参考訳) counternet:偽認識予測のエンドツーエンドトレーニング CounterNet: End-to-End Training of Counterfactual Aware Predictions ( http://arxiv.org/abs/2109.07557v1 ) ライセンス: CC BY 4.0 | Hangzhi Guo, Thanh Hong Nguyen, Amulya Yadav | (参考訳) 本稿では、予測モデルトレーニングとカウンターファクト(cf)説明生成を単一のエンドツーエンドパイプラインに統合した、新しいエンドツーエンド学習フレームワークであるcounternetを提案する。
対実的な説明は、MLモデルの予測を事前定義された出力に変換するインスタンスの特徴値に対する最小限の変更を見つけようとする。
事前のcf説明手法は、各入力インスタンスの個別の時間的最適化問題を解決してcfの例を見つけ、またモデル予測と説明の間の目的の不一致に苦しむため、cf説明の品質に重大な欠点が生じる。
一方、CounterNetは、予測と説明の両方を同じフレームワークに統合し、予測モデルとともにCFサンプル生成を1回だけ最適化することができる。
本稿では,カウンタネットのネットワークを効果的に訓練するための新しいバックプロパゲーション手法を提案する。
最後に,複数の実世界のデータセットについて広範な実験を行う。
その結果、counternetは高品質な予測を生成し、既存の最先端のベースラインよりもはるかに高速に新しい入力インスタンスに対して対応するcfサンプル(有効性が高い)を生成することがわかった。 This work presents CounterNet, a novel end-to-end learning framework which integrates the predictive model training and counterfactual (CF) explanation generation into a single end-to-end pipeline. Counterfactual explanations attempt to find the smallest modification to the feature values of an instance that changes the prediction of the ML model to a predefined output. Prior CF explanation techniques rely on solving separate time-intensive optimization problems for every single input instance to find CF examples, and also suffer from the misalignment of objectives between model predictions and explanations, which leads to significant shortcomings in the quality of CF explanations. CounterNet, on the other hand, integrates both prediction and explanation in the same framework, which enables the optimization of the CF example generation only once together with the predictive model. We propose a novel variant of back-propagation which can help in effectively training CounterNet's network. Finally, we conduct extensive experiments on multiple real-world datasets. Our results show that CounterNet generates high-quality predictions, and corresponding CF examples (with high validity) for any new input instance significantly faster than existing state-of-the-art baselines. | 翻訳日:2021-09-18 07:06:32 公開日:2021-09-15 |
# (参考訳) ハイブリッドICP Hybrid ICP ( http://arxiv.org/abs/2109.07559v1 ) ライセンス: CC BY 4.0 | Kamil Dreczkowski and Edward Johns | (参考訳) ICPアルゴリズムは通常、データアソシエーション手法の固定選択とエラーメトリクスの固定選択を含む。
本稿では、オブジェクトのライブイメージと現在のICP推定値に基づいて、データアソシエーション法とエラーメトリクスの両方を動的に最適化する、新しく柔軟なICP変種であるHybrid ICPを提案する。
オブジェクトポーズ推定に使用する場合,ハイブリッドICPは他のICP変種よりも精度が高く,ノイズに対して頑健であることを示す。
また、ICPを移動カメラで順次適用するための設定についても検討し、各ICP推定精度とICP推定回数とのトレードオフを一定時間内に検討する。 ICP algorithms typically involve a fixed choice of data association method and a fixed choice of error metric. In this paper, we propose Hybrid ICP, a novel and flexible ICP variant which dynamically optimises both the data association method and error metric based on the live image of an object and the current ICP estimate. We show that when used for object pose estimation, Hybrid ICP is more accurate and more robust to noise than other commonly used ICP variants. We also consider the setting where ICP is applied sequentially with a moving camera, and we study the trade-off between the accuracy of each ICP estimate and the number of ICP estimates available within a fixed amount of time. | 翻訳日:2021-09-18 06:47:45 公開日:2021-09-15 |
# (参考訳) エージェントの多感的予測のためのフレームワーク A Framework for Multisensory Foresight for Embodied Agents ( http://arxiv.org/abs/2109.07561v1 ) ライセンス: CC BY 4.0 | Xiaohui Chen, Ramtin Hosseini, Karen Panetta, Jivko Sinapov | (参考訳) 将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって重要である。
本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。
既存のアプローチのほとんどは、大きく手動で注釈付けされたデータセットに依存している。
対照的に、この教師なしの方法は、将来の視覚フレームを予測するためにマルチモーダル知覚を用いる。
その結果、提案モデルはより包括的であり、環境の時空間ダイナミクスをよりよく捉えることができ、より正確な視覚フレーム予測に繋がる。
我々のフレームワークのもう1つの目新しさは、未来の触覚、音声、触覚信号を予測するためのサブネットワークの使用です。
このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
視覚情報は支配的モダリティであるが、追加の非視覚モダリティを利用することで予測の精度が向上する。 Predicting future sensory states is crucial for learning agents such as robots, drones, and autonomous vehicles. In this paper, we couple multiple sensory modalities with exploratory actions and propose a predictive neural network architecture to address this problem. Most existing approaches rely on large, manually annotated datasets, or only use visual data as a single modality. In contrast, the unsupervised method presented here uses multi-modal perceptions for predicting future visual frames. As a result, the proposed model is more comprehensive and can better capture the spatio-temporal dynamics of the environment, leading to more accurate visual frame prediction. The other novelty of our framework is the use of sub-networks dedicated to anticipating future haptic, audio, and tactile signals. The framework was tested and validated with a dataset containing 4 sensory modalities (vision, haptic, audio, and tactile) on a humanoid robot performing 9 behaviors multiple times on a large set of objects. While the visual information is the dominant modality, utilizing the additional non-visual modalities improves the accuracy of predictions. | 翻訳日:2021-09-18 06:32:19 公開日:2021-09-15 |
# (参考訳) 強化学習によるワーファリン量の推定 Estimation of Warfarin Dosage with Reinforcement Learning ( http://arxiv.org/abs/2109.07564v1 ) ライセンス: CC BY 4.0 | Arpita Vats | (参考訳) 本稿では, 患者に対するWarfarinの適切な投与量をモデル化するためにReinforcement Learningを用いて試み, まず, 35mg/週投与量の固定モデルと, 患者データに依存する線形モデルについて検討した。
私たちはlinucbのバンディットを実装し、後悔と不正確なパーセンテージに基づいてパフォーマンスを改善しました。
linucb banditに加えて、オンラインの教師付き学習と報酬の再構成を実験し、パフォーマンスを高めました。
以上の結果から,医師が適切な服用量を決定するのに多武器のバンディットと人工知能を使うことが期待できる。 In this paper, it has attempted to use Reinforcement learning to model the proper dosage of Warfarin for patients.The paper first examines two baselines: a fixed model of 35 mg/week dosages and a linear model that relies on patient data. We implemented a LinUCB bandit that improved performance measured on regret and percent incorrect. On top of the LinUCB bandit, we experimented with online supervised learning and reward reshaping to boost performance. Our results clearly beat the baselines and show the promise of using multi-armed bandits and artificial intelligence to aid physicians in deciding proper dosages. | 翻訳日:2021-09-18 06:18:16 公開日:2021-09-15 |
# (参考訳) TransProteus CGIデータセットを用いた透明容器内の材料・液体・物体の3次元形状・マスク・特性の予測 Predicting 3D shapes, masks, and properties of materials, liquids, and objects inside transparent containers, using the TransProteus CGI dataset ( http://arxiv.org/abs/2109.07577v1 ) ライセンス: CC BY 4.0 | Sagi Eppel, Haoping Xu, Yi Ru Wang, Alan Aspuru-Guzik | (参考訳) 画像のソースやカメラパラメータを事前に知ることなく, 透明容器内の物質, 液体, 物体の3次元構造, マスク, 特性を予測するためのデータセットであるTransProteusを提案する。
透明容器における材料操作は多くの分野において不可欠であり、視覚に大きく依存する。
この作業は、透明なコンテナ内の液体と固体の50万の画像からなる、新しい手続き的に生成されたデータセットを提供する。
画像アノテーションには、3Dモデル、材料特性(色/透明/粗さ...)、容器とその内容のセグメンテーションマスクが含まれている。
データセットの合成 (CGI) 部分は, 13kの異なる物体, 500の異なる環境 (HDRI) と1450の材料テクスチャ (PBR) をシミュレートした液体と手続き的に生成された容器を用いて手続き的に生成した。
さらに,透明容器内の物体を104枚の実世界画像として,容器とその内容の深さマップを提供する。
XYZマップとして画像から3次元モデルを予測するカメラ非依存の手法を提案する。
これにより、トレーニングされたネットは、画像ソースを事前に知ることなく、XYZ座標を1ピクセルあたりの地図として3Dモデルを予測できる。
トレーニング損失を計算するために,絶対XYZ座標の代わりに3次元モデル内の点の対間距離を用いる。
これにより損失関数変換は不変となる。
これを使って、1つの画像から血管とその内容の3dモデルを予測する。
最後に, 1枚の画像を用いて, 容器内容物と表面の材料特性を推定するネットを実演する。 We present TransProteus, a dataset, and methods for predicting the 3D structure, masks, and properties of materials, liquids, and objects inside transparent vessels from a single image without prior knowledge of the image source and camera parameters. Manipulating materials in transparent containers is essential in many fields and depends heavily on vision. This work supplies a new procedurally generated dataset consisting of 50k images of liquids and solid objects inside transparent containers. The image annotations include 3D models, material properties (color/transparency/roughness...), and segmentation masks for the vessel and its content. The synthetic (CGI) part of the dataset was procedurally generated using 13k different objects, 500 different environments (HDRI), and 1450 material textures (PBR) combined with simulated liquids and procedurally generated vessels. In addition, we supply 104 real-world images of objects inside transparent vessels with depth maps of both the vessel and its content. We propose a camera agnostic method that predicts 3D models from an image as an XYZ map. This allows the trained net to predict the 3D model as a map with XYZ coordinates per pixel without prior knowledge of the image source. To calculate the training loss, we use the distance between pairs of points inside the 3D model instead of the absolute XYZ coordinates. This makes the loss function translation invariant. We use this to predict 3D models of vessels and their content from a single image. Finally, we demonstrate a net that uses a single image to predict the material properties of the vessel content and surface. | 翻訳日:2021-09-18 06:10:40 公開日:2021-09-15 |
# (参考訳) シーケンス型トランスポーターネットワークを用いたマルチタスク学習 Multi-Task Learning with Sequence-Conditioned Transporter Networks ( http://arxiv.org/abs/2109.07578v1 ) ライセンス: CC BY 4.0 | Michael H. Lim, Andy Zeng, Brian Ichter, Maryam Bandari, Erwin Coumans, Claire Tomlin, Stefan Schaal, Aleksandra Faust | (参考訳) 複数の操作タスクを解くロボットの開発には、幅広い産業的応用がある。
学習ベースのアプローチは柔軟性と一般化性を楽しむが、このような構成課題を解決するためにこれらのアプローチをスケールすることは依然として課題である。
本研究では,シーケンスコンディショニングと重み付けサンプリングのレンズを通して,マルチタスク学習の解決を目指す。
まず,構成タスクに特化したベンチマークスイートであるMultiRavensを提案し,産業タスクにインスパイアされたタスクモジュールによるカスタムタスクの組み合わせの定義と,視覚に基づく学習・計画手法の難しさを実証する。
第2に,目的条件付きトランスポーターネットワークをシーケンスコンディショニングと重み付けサンプリングにより拡張し,マルチタスクの長大地平線の問題を効率的に解くことができる,ビジョンベースのエンド・ツー・エンドシステムアーキテクチャであるシーケンシャルコンディショルドトランスポーターネットワークを提案する。
また,重み付きサンプリングを用いたマルチタスク学習により,個々のタスクにおける学習性能とエージェント性能が大幅に向上することが示唆された。 Enabling robots to solve multiple manipulation tasks has a wide range of industrial applications. While learning-based approaches enjoy flexibility and generalizability, scaling these approaches to solve such compositional tasks remains a challenge. In this work, we aim to solve multi-task learning through the lens of sequence-conditioning and weighted sampling. First, we propose a new suite of benchmark specifically aimed at compositional tasks, MultiRavens, which allows defining custom task combinations through task modules that are inspired by industrial tasks and exemplify the difficulties in vision-based learning and planning methods. Second, we propose a vision-based end-to-end system architecture, Sequence-Conditioned Transporter Networks, which augments Goal-Conditioned Transporter Networks with sequence-conditioning and weighted sampling and can efficiently learn to solve multi-task long horizon problems. Our analysis suggests that not only the new framework significantly improves pick-and-place performance on novel 10 multi-task benchmark problems, but also the multi-task learning with weighted sampling can vastly improve learning and agent performances on individual tasks. | 翻訳日:2021-09-18 05:55:33 公開日:2021-09-15 |
# (参考訳) ドメイン適応のためのデータ選択と微調整の相補性について On the Complementarity of Data Selection and Fine Tuning for Domain Adaptation ( http://arxiv.org/abs/2109.07591v1 ) ライセンス: CC BY 4.0 | Dan Iter and David Grangier | (参考訳) ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整の3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して識別された事前トレーニングデータに基づいてトレーニングすることで、ターゲットドメインの一般化を改善する。
本稿では,言語モデルと機械翻訳におけるデータ選択の利点について検討する。
本実験では, 微調整による選択の相補性を評価し, 実用的推薦を行う。
(i)選択データは、微調整領域に類似しなければならないが、微調整の相補効果を損なうほどではない。
(II) 速いが限られた進歩のために小さなデータを選択するか、遅いが長い進行のために多くのデータを選択するかのトレードオフがある。
(iii) データ選択は、事前訓練中に早期に適用することができ、長時間事前訓練セッションに匹敵する性能向上が図られる。
(iv) ドメイン分類器からのデータ選択は、しばしば一般的なコントラストデータ選択法よりも効果的である。 Domain adaptation of neural networks commonly relies on three training phases: pretraining, selected data training and then fine tuning. Data selection improves target domain generalization by training further on pretraining data identified by relying on a small sample of target domain data. This work examines the benefit of data selection for language modeling and machine translation. Our experiments assess the complementarity of selection with fine tuning and result in practical recommendations: (i) selected data must be similar to the fine-tuning domain but not so much as to erode the complementary effect of fine-tuning; (ii) there is a trade-off between selecting little data for fast but limited progress or much data for slow but long lasting progress; (iii) data selection can be applied early during pretraining, with performance gains comparable to long pretraining session; (iv) data selection from domain classifiers is often more effective than the popular contrastive data selection method. | 翻訳日:2021-09-18 05:33:43 公開日:2021-09-15 |
# (参考訳) 監視機械学習を用いた最新のサイバーセキュリティソリューション Modern Cybersecurity Solution using Supervised Machine Learning ( http://arxiv.org/abs/2109.07593v1 ) ライセンス: CC BY 4.0 | Mustafa Sakhai, Maciej Wielgosz | (参考訳) サイバーセキュリティは不可欠であり、攻撃は急速に拡大し、検出が難しくなっている。
従来のファイアウォールと侵入検知システムは広く使われて推奨されているが、新しい攻撃、ゼロデイ攻撃、設定されたルールにマッチしないトラフィックパターンを検出できない。
したがって、機械学習(ML)はサイバーセキュリティにおける効率的かつコスト削減のソリューションである。
データ分析を適用した後、netflowデータセットを使用して特徴を抽出する。
そして、これらの特徴を互いに比較するために選択プロセスを適用した。
我々の実験は、機械学習アルゴリズムがBotトラフィック、Malwareトラフィック、バックグラウンドトラフィックをいかに効率的に検出できるかに焦点を当てている。
6.5%のボットフロー、1.57%のノーマルフロー、0.18%のCommand&Control(C&C)フロー、91.7%のバックグラウンドフロー、合計2,753,884のフローを持つデータセットから0.903の精度値を得ることができた。
その結果,偽陰性は少なく,偽陽性は少ない。 Cybersecurity is essential, and attacks are rapidly growing and getting more challenging to detect. The traditional Firewall and Intrusion Detection system, even though it is widely used and recommended but it fails to detect new attacks, zero-day attacks, and traffic patterns that do not match with any configured rules. Therefore, Machine Learning (ML) can be an efficient and cost-reduced solution in cybersecurity. We used Netflow datasets to extract features after applying data analysis. Then, a selection process has been applied to compare these features with one another. Our experiments focus on how efficient machine learning algorithms can detect Bot traffic, Malware traffic, and background traffic. We managed to get 0.903 precision value from a dataset that has 6.5% Bot flows, 1.57% Normal flows, 0.18% Command&Control (C&C) flows, and 91.7% background flows, from 2,753,884 total flows. The results show low false-negative with few false-positive detections. | 翻訳日:2021-09-18 05:16:58 公開日:2021-09-15 |
# (参考訳) ファウショット画像分類のためのパートナー支援学習 Partner-Assisted Learning for Few-Shot Image Classification ( http://arxiv.org/abs/2109.07607v1 ) ライセンス: CC BY 4.0 | Jiawei Ma, Hanchen Xie, Guangxing Han, Shih-Fu Chang, Aram Galstyan, Wael Abd-Almageed | (参考訳) 人間の視覚能力を模倣し、徹底的な人間の注釈を必要とせずに効果的なモデルを学ぶために、わずかなショット学習が研究されている。
適応のためのメタ学習のアイデアが、数少ない学習方法を支配しているが、機能抽出器のトレーニングは依然として課題である。
本稿では,いくつかのラベル付きサンプルから各新規クラスのプロトタイプを推定できるように,要素表現を得るためのトレーニング戦略の設計に着目する。
まず,パートナーエンコーダをペアワイズ類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整合させ,分類性能を最大化しながらメインエンコーダを訓練するパートナ支援学習(pal)を提案する。
ログレベルとフィーチャーレベルの2つのアライメント制約を個別に設計する。
少数のタスク毎にプロトタイプの分類を行う。
提案手法は,4つのベンチマークにおいて常に最先端の手法より優れる。
PALの詳細なアブレーション研究は、トレーニングに関わる各コンポーネントの選択を正当化するために提供される。 Few-shot Learning has been studied to mimic human visual capabilities and learn effective models without the need of exhaustive human annotation. Even though the idea of meta-learning for adaptation has dominated the few-shot learning methods, how to train a feature extractor is still a challenge. In this paper, we focus on the design of training strategy to obtain an elemental representation such that the prototype of each novel class can be estimated from a few labeled samples. We propose a two-stage training scheme, Partner-Assisted Learning (PAL), which first trains a partner encoder to model pair-wise similarities and extract features serving as soft-anchors, and then trains a main encoder by aligning its outputs with soft-anchors while attempting to maximize classification performance. Two alignment constraints from logit-level and feature-level are designed individually. For each few-shot task, we perform prototype classification. Our method consistently outperforms the state-of-the-art method on four benchmarks. Detailed ablation studies of PAL are provided to justify the selection of each component involved in training. | 翻訳日:2021-09-18 05:06:13 公開日:2021-09-15 |
# (参考訳) 進化するデータストリームにおけるオンザフライエンサンブルプルーニング On-the-Fly Ensemble Pruning in Evolving Data Streams ( http://arxiv.org/abs/2109.07611v1 ) ライセンス: CC BY 4.0 | Sanem Elbasi, Alican B\"uy\"uk\c{c}ak{\i}r, Hamed Bonab and Fazli Can | (参考訳) アンサンブルプルーニング(英: Ensemble pruning)とは、アンサンブルからコンポーネント分類器のサブセットを選択するプロセスであり、ストレージと計算コストを削減しつつ、少なくとも元のアンサンブルと同等に動作し、データストリームにおけるプルーニングは探索されていない領域である。
ストリーム上で実行されるアンサンブルコンポーネントの分析と、冗長コンポーネントから有用な分類器を区別する必要がある。
本論文では,複数クラスデータストリーム分類のためのオンザフライアンサンブルprun-ing手法であるccrpを提案する。ccrpは,クラス毎のランク付けの不均衡を意識した融合によって実現される。ccrpは,結果のprunedアンサンブルが対象クラス毎に最もパフォーマンスの高い分類器を含むことを目標とし,クラス不均衡のef-fectsを削減する。
実世界のデータストリームと合成データストリームに関する実験により,CCRPを統合したエンサンブルが,平均的メモリ消費量を20%から90%削減し,連続的に性能向上を図った。
最後に,本提案手法を,アンサンブル重みに基づくプルーニングスキームと基本階数融合法との比較により検証した。 Ensemble pruning is the process of selecting a subset of componentclassifiers from an ensemble which performs at least as well as theoriginal ensemble while reducing storage and computational costs.Ensemble pruning in data streams is a largely unexplored area ofresearch. It requires analysis of ensemble components as they arerunning on the stream, and differentiation of useful classifiers fromredundant ones. We present CCRP, an on-the-fly ensemble prun-ing method for multi-class data stream classification empoweredby an imbalance-aware fusion of class-wise component rankings.CCRP aims that the resulting pruned ensemble contains the bestperforming classifier for each target class and hence, reduces the ef-fects of class imbalance. The conducted experiments on real-worldand synthetic data streams demonstrate that different types of en-sembles that integrate CCRP as their pruning scheme consistentlyyield on par or superior performance with 20% to 90% less averagememory consumption. Lastly, we validate the proposed pruningscheme by comparing our approach against pruning schemes basedon ensemble weights and basic rank fusion methods. | 翻訳日:2021-09-18 04:49:04 公開日:2021-09-15 |
# (参考訳) BacHMMachine: 4部バロック合唱曲のアルゴリズム調和のための解釈可能かつスケーラブルなモデル BacHMMachine: An Interpretable and Scalable Model for Algorithmic Harmonization for Four-part Baroque Chorales ( http://arxiv.org/abs/2109.07623v1 ) ライセンス: CC BY 4.0 | Yunyao Zhu, Stephen Hahn, Simon Mak, Yue Jiang, Cynthia Rudin | (参考訳) アルゴリズム的調和 - 旋律的線に基づく楽曲の自動調和 - は、音楽理論家とコンピュータ科学者の両方から多くの関心を集めている困難な問題である。
特に興味のあるジャンルはj・s・バッハの4部構成のバロック調弦楽団である。
アルゴリズム的コラール調和法は一般にブラックボックスの「データ駆動」アプローチを採用しており、音楽理論の原理を明示的に統合するのではなく、大量のコラールデータで訓練された複雑な学習モデルに依存している。
そこで我々は,音楽合成原理に導かれた「理論駆動」フレームワークと,このフレームワークにおける構成特徴を学習するための「データ駆動」モデルを用いる,bachmmachineと呼ばれる新しい調和モデルを提案する。
名前の通り、BacHMMachineは鍵と和音の遷移に基づく新しい隠れマルコフモデルを使用し、鍵変調と和音の進行を与えられた旋律線から学習するための確率的枠組みを提供する。
これは創造的だが音楽的にコヒーレントなコラール調和を発生させることを可能にし、構成原理の統合は計算の負担を大幅に削減し、最先端のアルゴリズム的調和法に比べて解釈性を高める、より単純なモデルを可能にする。
本研究では,BacHMMachineを既存手法と比較した総合実験およびチューリング試験により,この改善を実証する。 Algorithmic harmonization - the automated harmonization of a musical piece given its melodic line - is a challenging problem that has garnered much interest from both music theorists and computer scientists. One genre of particular interest is the four-part Baroque chorales of J.S. Bach. Methods for algorithmic chorale harmonization typically adopt a black-box, "data-driven" approach: they do not explicitly integrate principles from music theory but rely on a complex learning model trained with a large amount of chorale data. We propose instead a new harmonization model, called BacHMMachine, which employs a "theory-driven" framework guided by music composition principles, along with a "data-driven" model for learning compositional features within this framework. As its name suggests, BacHMMachine uses a novel Hidden Markov Model based on key and chord transitions, providing a probabilistic framework for learning key modulations and chordal progressions from a given melodic line. This allows for the generation of creative, yet musically coherent chorale harmonizations; integrating compositional principles allows for a much simpler model that results in vast decreases in computational burden and greater interpretability compared to state-of-the-art algorithmic harmonization methods, at no penalty to quality of harmonization or musicality. We demonstrate this improvement via comprehensive experiments and Turing tests comparing BacHMMachine to existing methods. | 翻訳日:2021-09-18 04:41:00 公開日:2021-09-15 |
# DeepMetis: 突然変異スコアを高めるためのディープラーニングテストセットの拡張 DeepMetis: Augmenting a Deep Learning Test Set to Increase its Mutation Score ( http://arxiv.org/abs/2109.07514v1 ) ライセンス: Link先を確認 | Vincenzo Riccio, Nargiz Humbatova, Gunel Jahangirova, Paolo Tonella | (参考訳) ディープラーニング(DL)コンポーネントは、画像や自然言語処理のような複雑なタスクを実行する必要があるソフトウェアシステムに日常的に統合される。
このようなシステムをテストするために使用されるテストデータの妥当性は、実際のdl障害をシミュレートする人工的に注入された障害(変異)を露出する能力によって評価できる。
本稿では,dl変異の検出能力を高めるために,既存のテストセットを増強するために使用できる新しいテスト入力を自動的に生成する手法について述べる。
DeepMetisは検索ベースの入力生成戦略を実装している。
トレーニングの非決定性と突然変異過程を考慮するため、我々の適合機能はテスト中のdlモデルの複数のインスタンスを含む。
実験の結果,<tool</to>は与えられたテストセットの増強に有効であり,変異体を平均63%検出する能力を高めた。
アウトアウト実験では、拡張テストセットが未確認のミュータントを露出し、未検出の障害の発生をシミュレートできることが示されている。 Deep Learning (DL) components are routinely integrated into software systems that need to perform complex tasks such as image or natural language processing. The adequacy of the test data used to test such systems can be assessed by their ability to expose artificially injected faults (mutations) that simulate real DL faults. In this paper, we describe an approach to automatically generate new test inputs that can be used to augment the existing test set so that its capability to detect DL mutations increases. Our tool DeepMetis implements a search based input generation strategy. To account for the non-determinism of the training and the mutation processes, our fitness function involves multiple instances of the DL model under test. Experimental results show that \tool is effective at augmenting the given test set, increasing its capability to detect mutants by 63% on average. A leave-one-out experiment shows that the augmented test set is capable of exposing unseen mutants, which simulate the occurrence of yet undetected faults. | 翻訳日:2021-09-17 16:31:49 公開日:2021-09-15 |
# 皮膚病理学者のコンセンサスを基盤とする黒色腫標本のトリアージが可能な病理深層学習システム A Pathology Deep Learning System Capable of Triage of Melanoma Specimens Utilizing Dermatopathologist Consensus as Ground Truth ( http://arxiv.org/abs/2109.07554v1 ) ライセンス: Link先を確認 | Sivaramakrishnan Sankarapandian, Saul Kohn, Vaughn Spurrier, Sean Grullon, Rajath E. Soans, Kameswari D. Ayyagari, Ramachandra V. Chamarthi, Kiran Motaparthi, Jason B. Lee, Wonwoo Shon, Michael Bonham, and Julianna D. Ianni | (参考訳) 悪性黒色腫は他のいくつかの皮膚癌よりも稀に発症するが,診断に至らなかった場合,長期生存率は極めて低い。
悪性黒色腫と良性メラノサイトーシス病変の鑑別は,病理組織学的に高い不一致率で診断が困難である。
pathology labsがワークフローでメラノーマ症例の分類と優先順位付けを可能にするツールは、挑戦的なケースを優先順位付けし、それらを適切なサブスペシャリストに直接ルーティングすることで、ターンアラウンド時間を改善する。
われわれは,デジタル化全スライド画像(WSI)標本の階層的分類を,メラノーマや重度異形成性腫瘍を呈する「メラノキシー検査」標本の分類を含む形態的特徴で定義した6つのクラスに分類する。
対象は, 単一の実験室(基準実験室)の7,685枚の画像で, これまでにコンパイルされたメラノサイト標本としては最大であり, 2つの検証室の5,099枚の画像で試験を行った。
ROC曲線 (AUC) では, 基準実験室で0.93, 第1検証室で0.95, 第2検証室で0.82の分類が得られた。
pdlsはメラノサイトーシスの被疑者に対して高い感度で自動的に皮膚標本の分類とトリアージが可能であり、病理医はすべてのメラノーマ標本に対処するためにケースロードの30%から60%しか必要としない。 Although melanoma occurs more rarely than several other skin cancers, patients' long term survival rate is extremely low if the diagnosis is missed. Diagnosis is complicated by a high discordance rate among pathologists when distinguishing between melanoma and benign melanocytic lesions. A tool that allows pathology labs to sort and prioritize melanoma cases in their workflow could improve turnaround time by prioritizing challenging cases and routing them directly to the appropriate subspecialist. We present a pathology deep learning system (PDLS) that performs hierarchical classification of digitized whole slide image (WSI) specimens into six classes defined by their morphological characteristics, including classification of "Melanocytic Suspect" specimens likely representing melanoma or severe dysplastic nevi. We trained the system on 7,685 images from a single lab (the reference lab), including the the largest set of triple-concordant melanocytic specimens compiled to date, and tested the system on 5,099 images from two distinct validation labs. We achieved Area Underneath the ROC Curve (AUC) values of 0.93 classifying Melanocytic Suspect specimens on the reference lab, 0.95 on the first validation lab, and 0.82 on the second validation lab. We demonstrate that the PDLS is capable of automatically sorting and triaging skin specimens with high sensitivity to Melanocytic Suspect cases and that a pathologist would only need between 30% and 60% of the caseload to address all melanoma specimens. | 翻訳日:2021-09-17 16:30:42 公開日:2021-09-15 |
# 操作コンテキストにおけるニューラルアーキテクチャ探索--リモートセンシングケーススタディ Neural Architecture Search in operational context: a remote sensing case-study ( http://arxiv.org/abs/2109.08028v1 ) ライセンス: Link先を確認 | Anthony Cazasnoves, Pierre-Antoine Ganaye, K\'evin Sanchis, Tugdual Ceillier | (参考訳) 近年、ディープラーニングは、自動運転など業界における重要なイノベーションを後押しする基盤となるツールとなっている。
優れたパフォーマンスを達成するためには、あるアプリケーションで使用されるニューラルネットワークアーキテクチャを慎重に選択する必要がある。
これらのアーキテクチャはしばしば手作りであり、従って人間のバイアスや準最適選択が生じる。
neural architecture search(nas)は、ネットワークアーキテクチャとその重み付けを共同で最適化することで、そのようなリスクを軽減するために導入されたフレームワークである。
その斬新さにもかかわらず、意味的イメージセグメンテーションのような重要な結果の複雑なタスクに適用された。
本稿では,衛星画像に対する関心対象のセマンティックセグメンテーション(セマンティックセグメンテーション)という課題に対処する能力を評価することを目的とする。
NASフレームワークの設計は簡単ではなく、ハードウェアの制約に強く依存する。
そこで我々はNASアプローチの選択を動機付け、それに対応する実装の詳細を提供する。
また、このような事例研究を行うための新しいアイデアも提示する。 Deep learning has become in recent years a cornerstone tool fueling key innovations in the industry, such as autonomous driving. To attain good performances, the neural network architecture used for a given application must be chosen with care. These architectures are often handcrafted and therefore prone to human biases and sub-optimal selection. Neural Architecture Search (NAS) is a framework introduced to mitigate such risks by jointly optimizing the network architectures and its weights. Albeit its novelty, it was applied on complex tasks with significant results - e.g. semantic image segmentation. In this technical paper, we aim to evaluate its ability to tackle a challenging operational task: semantic segmentation of objects of interest in satellite imagery. Designing a NAS framework is not trivial and has strong dependencies to hardware constraints. We therefore motivate our NAS approach selection and provide corresponding implementation details. We also present novel ideas to carry out other such use-case studies. | 翻訳日:2021-09-17 16:28:53 公開日:2021-09-15 |
# 車両経路問題に対する強化学習法における短量子回路 Short Quantum Circuits in Reinforcement Learning Policies for the Vehicle Routing Problem ( http://arxiv.org/abs/2109.07498v1 ) ライセンス: Link先を確認 | Fabio Sanches, Sean Weinberg, Takanori Ide, Kazumitsu Kamiya | (参考訳) 量子コンピューティングと機械学習は共生の可能性がある。
しかし、現在のデバイスからのハードウェアの制限に加えて、量子回路が現在の機械学習タスクに有効に組み込む前に対処しなければならない基本的な問題がまだ残っている。
強化学習に使用される注意モデルの文脈において,このような統合のための新しい戦略を述べる。
注意機構を実装するエージェントは、まずグラフ上のノードをエンコードし、次に経路が選択されるまでノードを順次デコードすることで、組合せルーティングの問題にうまく適用されている。
従来のアテンションヘッド層の代わりに、性能を維持しながら簡単な量子回路を使用できることを示す。
本手法は,各ノードのキーおよびクエリベクトルを,測定前に絡み合う量子状態に置き換えることで,[1]で使用されるネットワークを修飾する。
結果として得られるハイブリッド古典量子エージェントは、その性能が従来の古典的アプローチと競合する車両ルーティング問題という文脈でテストされる。
我々はこのモデルを,強化学習における量子コンピューティングの役割に関するさらなる研究の道筋として,スケールアップ可能なプロトタイプと捉えている。 Quantum computing and machine learning have potential for symbiosis. However, in addition to the hardware limitations from current devices, there are still basic issues that must be addressed before quantum circuits can usefully incorporate with current machine learning tasks. We report a new strategy for such an integration in the context of attention models used for reinforcement learning. Agents that implement attention mechanisms have successfully been applied to certain cases of combinatorial routing problems by first encoding nodes on a graph and then sequentially decoding nodes until a route is selected. We demonstrate that simple quantum circuits can used in place of classical attention head layers while maintaining performance. Our method modifies the networks used in [1] by replacing key and query vectors for every node with quantum states that are entangled before being measured. The resulting hybrid classical-quantum agent is tested in the context of vehicle routing problems where its performance is competitive with the original classical approach. We regard our model as a prototype that can be scaled up and as an avenue for further study on the role of quantum computing in reinforcement learning. | 翻訳日:2021-09-17 16:28:40 公開日:2021-09-15 |
# 『デートには向かない』:評論を会話勧告システムに転換する "It doesn't look good for a date": Transforming Critiques into Preferences for Conversational Recommendation Systems ( http://arxiv.org/abs/2109.07576v1 ) ライセンス: Link先を確認 | Victor S. Bursztyn, Jennifer Healey, Nedim Lipka, Eunyee Koh, Doug Downey, Larry Birnbaum | (参考訳) 良いレコメンデーションを決定するための会話は、本質的に反復的です。
人々はしばしば現在の推奨に対する批判(例えば「日付には良く見えない」など)の観点で自分の好みを表現し、その好みを推測するにはある程度の常識を必要とする。
本稿では,より優れた推薦に関するレビュー(例えば「ロマンチックなディナーに完全」など)を取得するために,ユーザの批判を肯定的な好み(例えば「よりロマンチック」)に転換する方法を提案する。
我々は、数ショット設定で大きなニューラルネットワークモデル(lm)を活用して、批判から参照への変換を行い、レコメンデーションを取得するための2つのメソッドをテストします。
このアプローチをレストランドメインでインスタンス化し,レストラン批判の新しいデータセットを用いて評価する。
アブレーション研究において,批判から参照への変換の活用がレコメンデーションを改善させ,この改善を説明する一般的な事例が少なくとも3つ存在することを示した。 Conversations aimed at determining good recommendations are iterative in nature. People often express their preferences in terms of a critique of the current recommendation (e.g., "It doesn't look good for a date"), requiring some degree of common sense for a preference to be inferred. In this work, we present a method for transforming a user critique into a positive preference (e.g., "I prefer more romantic") in order to retrieve reviews pertaining to potentially better recommendations (e.g., "Perfect for a romantic dinner"). We leverage a large neural language model (LM) in a few-shot setting to perform critique-to-preference transformation, and we test two methods for retrieving recommendations: one that matches embeddings, and another that fine-tunes an LM for the task. We instantiate this approach in the restaurant domain and evaluate it using a new dataset of restaurant critiques. In an ablation study, we show that utilizing critique-to-preference transformation improves recommendations, and that there are at least three general cases that explain this improved performance. | 翻訳日:2021-09-17 14:16:45 公開日:2021-09-15 |
# 多変量臨床時系列のための解釈可能な再帰的ニューラルネットワーク Interpretable Additive Recurrent Neural Networks For Multivariate Clinical Time Series ( http://arxiv.org/abs/2109.07602v1 ) ライセンス: Link先を確認 | Asif Rahman, Yale Chang, Jonathan Rubin | (参考訳) リカレントニューラルネットワーク(RNN)を用いた時系列モデルは精度が高いが、機能相互作用、時間的相互作用、非線形変換の結果、残念ながら解釈が困難である。
モデルの予測を検証し信頼するために、彼らが学んだ関係について洞察を提供するモデルを構築する必要があるヘルスケアのような領域では、解釈可能性が重要である。
ユーザが個々の入力機能の貢献を理解できる正確な時系列モデルが欲しい。
本稿では,モデル内の変数間の関係を加法的に強制することで,モデルの複雑性と精度のバランスをとるInterpretable-RNN(I-RNN)を提案する。
相互作用はRNNの隠れ状態間で制限され、最終段階で追加的に結合される。
I-RNNは、時間内に不均一にサンプリングされ、非同期に取得され、データが欠落している臨床時系列の特徴を特に捉えている。
重要なことは、隠れ状態のアクティベーションは予測目標と相関する特徴係数を表し、個々の入力特徴と結果のグローバルな関係を捉える危険曲線として視覚化することができる。
病院内死亡率予測のためのphysionet 2012 challengeデータセットのi-rnnモデルと,集中治療室における血行動態の介入を予測する実世界臨床判断支援タスクの評価を行った。
I-RNNは、手作業で訓練された決定木のような非常に知的なモデルに匹敵する、グローバルかつ局所的な特徴の重要性の形で説明を提供する。
I-RNNは、最先端の崩壊ベースおよび補間ベースの反復時系列モデルに匹敵する精度を保ちながら、理解できないままである。
実世界の臨床データセットにおける実験結果は、正確性と解釈可能性の間にはトレードオフがあるという神話を反論する。 Time series models with recurrent neural networks (RNNs) can have high accuracy but are unfortunately difficult to interpret as a result of feature-interactions, temporal-interactions, and non-linear transformations. Interpretability is important in domains like healthcare where constructing models that provide insight into the relationships they have learned are required to validate and trust model predictions. We want accurate time series models where users can understand the contribution of individual input features. We present the Interpretable-RNN (I-RNN) that balances model complexity and accuracy by forcing the relationship between variables in the model to be additive. Interactions are restricted between hidden states of the RNN and additively combined at the final step. I-RNN specifically captures the unique characteristics of clinical time series, which are unevenly sampled in time, asynchronously acquired, and have missing data. Importantly, the hidden state activations represent feature coefficients that correlate with the prediction target and can be visualized as risk curves that capture the global relationship between individual input features and the outcome. We evaluate the I-RNN model on the Physionet 2012 Challenge dataset to predict in-hospital mortality, and on a real-world clinical decision support task: predicting hemodynamic interventions in the intensive care unit. I-RNN provides explanations in the form of global and local feature importances comparable to highly intelligible models like decision trees trained on hand-engineered features while significantly outperforming them. I-RNN remains intelligible while providing accuracy comparable to state-of-the-art decay-based and interpolation-based recurrent time series models. The experimental results on real-world clinical datasets refute the myth that there is a tradeoff between accuracy and interpretability. | 翻訳日:2021-09-17 14:13:33 公開日:2021-09-15 |
# チューニング問題における非スムースベイズ最適化 Non-smooth Bayesian Optimization in Tuning Problems ( http://arxiv.org/abs/2109.07563v1 ) ライセンス: Link先を確認 | Hengrui Luo, James W. Demmel, Younghyun Cho, Xiaoye S. Li, Yang Liu | (参考訳) 代理モデルの構築は、未知のブラックボックス関数を学習しようとする場合の一般的なアプローチである。
ベイズ最適化は、関数から引き出された逐次的なサンプルに基づいてサロゲートモデルを構築し、最適点を見つけるためのフレームワークを提供する。
大規模で複雑な"ブラックボックス"アプリケーションコードのパフォーマンスを最適化するためのアルゴリズムパラメータのチューニングは、ブラックボックス関数のオプティマを見つけることを目的とした、特に重要なアプリケーションである。
ベイズ最適化フレームワーク内では、ガウス過程モデルが滑らかまたは連続的なサンプルパスを生成する。
しかし、チューニング問題におけるブラックボックス関数はしばしば非スムースである。
この難しいチューニング問題は、通常ブラックボックス関数から限られたシーケンスサンプルを持つという事実によって悪化する。
そこで我々は, クラスタ化ガウス過程 (cGP) と呼ばれる新しい加法的ガウス過程モデルを提案し, 加法的成分はクラスタリングによって誘導される。
実験例では,反復実験の90%まで性能が向上することを確認した。
このサロゲートモデルを用いることで、ブラックボックス関数の非スムース性を捉えることができる。
このモデルを構築するためのアルゴリズムに加えて、このモデルをいくつかの人工および実アプリケーションに適用して評価する。 Building surrogate models is one common approach when we attempt to learn unknown black-box functions. Bayesian optimization provides a framework which allows us to build surrogate models based on sequential samples drawn from the function and find the optimum. Tuning algorithmic parameters to optimize the performance of large, complicated "black-box" application codes is a specific important application, which aims at finding the optima of black-box functions. Within the Bayesian optimization framework, the Gaussian process model produces smooth or continuous sample paths. However, the black-box function in the tuning problem is often non-smooth. This difficult tuning problem is worsened by the fact that we usually have limited sequential samples from the black-box function. Motivated by these issues encountered in tuning, we propose a novel additive Gaussian process model called clustered Gaussian process (cGP), where the additive components are induced by clustering. In the examples we studied, the performance can be improved by as much as 90% among repetitive experiments. By using this surrogate model, we want to capture the non-smoothness of the black-box function. In addition to an algorithm for constructing this model, we also apply the model to several artificial and real applications to evaluate it. | 翻訳日:2021-09-17 14:12:09 公開日:2021-09-15 |
# 腎機能画像のためのDCE-MR画像再構成における正規化の学習 Learning the Regularization in DCE-MR Image Reconstruction for Functional Imaging of Kidneys ( http://arxiv.org/abs/2109.07548v1 ) ライセンス: Link先を確認 | Aziz Ko\c{c}anao\u{g}ullar{\i}, Cemre Ariyurek, Onur Afacan, Sila Kurugol | (参考訳) Kidney DCE-MRIは、腎臓解剖の質的評価と、TKモデルパラメータの推定による腎臓機能の定量的評価の両方を目的としている。
TKモデルパラメータの正確な推定には、高時間分解能の動脈入力関数(AIF)の正確な測定が必要である。
加速撮像は高時間分解能を達成するために使用され、再構成画像のアンダーサンプリングアーティファクトを生成する。
圧縮センシング(CS)法は様々な再構成オプションを提供する。
最も一般的には、時間差の空間性は、アーティファクトを減らすために正規化するために奨励される。
CS法における正規化の増大は、周囲のアーティファクトを除去するだけでなく、信号の時間的過度な平滑化によってパラメータ推定精度が低下する。
本研究では,機能的画像マーカーの精度を低下させることなく,MRIアンダーサンプリングアーティファクトを低減するために,単一画像訓練深部ニューラルネットワークを提案する。
最適化におけるペナルティ項を正則化するのではなく,低次元表現から画像を生成することにより正則化を促進する。
本書では,低次元入力設計の動機と解説を行う。
CS再建に対するアプローチと複数正規化重みの比較を行った。
提案したアプローチは,機能解析に最適化されたCS再構成を用いて推定した基底真理マーカーと高い相関を示す腎臓バイオマーカーである。
同時に,提案手法では,復元した画像のアーティファクトを削減できる。 Kidney DCE-MRI aims at both qualitative assessment of kidney anatomy and quantitative assessment of kidney function by estimating the tracer kinetic (TK) model parameters. Accurate estimation of TK model parameters requires an accurate measurement of the arterial input function (AIF) with high temporal resolution. Accelerated imaging is used to achieve high temporal resolution, which yields under-sampling artifacts in the reconstructed images. Compressed sensing (CS) methods offer a variety of reconstruction options. Most commonly, sparsity of temporal differences is encouraged for regularization to reduce artifacts. Increasing regularization in CS methods removes the ambient artifacts but also over-smooths the signal temporally which reduces the parameter estimation accuracy. In this work, we propose a single image trained deep neural network to reduce MRI under-sampling artifacts without reducing the accuracy of functional imaging markers. Instead of regularizing with a penalty term in optimization, we promote regularization by generating images from a lower dimensional representation. In this manuscript we motivate and explain the lower dimensional input design. We compare our approach to CS reconstructions with multiple regularization weights. Proposed approach results in kidney biomarkers that are highly correlated with the ground truth markers estimated using the CS reconstruction which was optimized for functional analysis. At the same time, the proposed approach reduces the artifacts in the reconstructed images. | 翻訳日:2021-09-17 14:10:52 公開日:2021-09-15 |
# 結合・縮小型rnn-tデコーダ Tied & Reduced RNN-T Decoder ( http://arxiv.org/abs/2109.07513v1 ) ライセンス: Link先を確認 | Rami Botros (1), Tara N. Sainath (1), Robert David (1), Emmanuel Guzman (1), Wei Li (1), Yanzhang He (1) ((1) Google Inc. USA) | (参考訳) Recurrent Neural Network-Transducer (RNN-T) モデルに関する以前の研究は、いくつかの条件下では、認識精度をほとんど、あるいは全く損なうことなく予測ネットワークを単純化できることを示した(arXiv:2003.07705 [eess.AS], [2], arXiv:2012.06749 [cs.CL])。
これは、以前のラベルのコンテキストサイズを制限したり、LSTMの代わりにレイヤにシンプルなアーキテクチャを使うことによって行われる。
このような変更のメリットには、モデルサイズの減少、推論の高速化、消費電力の削減などがある。
本研究では,認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
予測ネットワークは入力埋め込みの単純な重み付け平均化を行い、その重み付け行列をジョイントネットワークの出力層(arxiv:1611.01462 [cs.lg] で一般的に使用される重み付け)と共有する。
このシンプルな設計は、編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。 Previous works on the Recurrent Neural Network-Transducer (RNN-T) models have shown that, under some conditions, it is possible to simplify its prediction network with little or no loss in recognition accuracy (arXiv:2003.07705 [eess.AS], [2], arXiv:2012.06749 [cs.CL]). This is done by limiting the context size of previous labels and/or using a simpler architecture for its layers instead of LSTMs. The benefits of such changes include reduction in model size, faster inference and power savings, which are all useful for on-device applications. In this work, we study ways to make the RNN-T decoder (prediction network + joint network) smaller and faster without degradation in recognition performance. Our prediction network performs a simple weighted averaging of the input embeddings, and shares its embedding matrix weights with the joint network's output layer (a.k.a. weight tying, commonly used in language modeling arXiv:1611.01462 [cs.LG]). This simple design, when used in conjunction with additional Edit-based Minimum Bayes Risk (EMBR) training, reduces the RNN-T Decoder from 23M parameters to just 2M, without affecting word-error rate (WER). | 翻訳日:2021-09-17 14:08:53 公開日:2021-09-15 |
# CNNベースのエッジAIアクセラレータのためのカラムストリーミングベースの畳み込みエンジンとマッピングアルゴリズム A Column Streaming-Based Convolution Engine and Mapping Algorithm for CNN-based Edge AI accelerators ( http://arxiv.org/abs/2109.07601v1 ) ライセンス: Link先を確認 | Weison Lin and Tughrul Arslan | (参考訳) エッジAIアクセラレーターは、無人航空機(UAV)、画像認識センサー、ウェアラブルデバイス、ロボティクス、リモートセンシング衛星などの分野における顧客の近距離応用のソリューションとして浮上している。
これらのアプリケーションは、性能目標を満たすだけでなく、移動性や限られた電力源のために、厳しいエリアと電力制約を満たす必要がある。
その結果、エッジaiアクセラレータにおける様々なcnnアルゴリズムの適用可能性の観点から、柔軟性のために設計された処理要素の列セットを含むカラムストリーミングベースの畳み込みエンジンが提案されている。
商用化されたcnnアクセラレータと比較すると、このカラムストリーミングベースの畳み込みエンジンは、227 x 227の機能マップをゼロパディングペナルティを避けるために同様の実行サイクルを必要とすることが明らかになった。 Edge AI accelerators have been emerging as a solution for near customers' applications in areas such as unmanned aerial vehicles (UAVs), image recognition sensors, wearable devices, robotics, and remote sensing satellites. These applications not only require meeting performance targets but also meeting strict area and power constraints due to their portable mobility feature and limited power sources. As a result, a column streaming-based convolution engine has been proposed in this paper that includes column sets of processing elements design for flexibility in terms of the applicability for different CNN algorithms in edge AI accelerators. Comparing to a commercialized CNN accelerator, the key results reveal that the column streaming-based convolution engine requires similar execution cycles for processing a 227 x 227 feature map with avoiding zero-padding penalties. | 翻訳日:2021-09-17 14:05:00 公開日:2021-09-15 |
# Sparse Tagsets における Marginal Calibration を用いたモデルの頭とタオルの作成 Making Heads and Tails of Models with Marginal Calibration for Sparse Tagsets ( http://arxiv.org/abs/2109.07494v1 ) ライセンス: Link先を確認 | Michael Kranzlein, Nelson F. Liu, Nathan Schneider | (参考訳) 確率モデルの振る舞いを解釈するには、モデルのキャリブレーション(信頼度スコアを生成する程度)を測定するのが有用である。
スパースタグセットを用いたタグ付けモデルのキャリブレーションのオープンな問題に対処し、そのようなモデルにおけるキャリブレーション誤差(CE)の測定と低減のための戦略を推奨する。
提案手法は,既存の2つのタガーのマージン分布におけるキャリブレーション誤差を低減できることを示す。
さらに,異なる周波数帯域のキャリブレーション誤差を測定する方法として,タグ周波数グループ化(tfg)を提案する。
さらに、各グループを再校正することで、タグ周波数スペクトル間の校正誤差をより公平に低減することができる。 For interpreting the behavior of a probabilistic model, it is useful to measure a model's calibration--the extent to which it produces reliable confidence scores. We address the open problem of calibration for tagging models with sparse tagsets, and recommend strategies to measure and reduce calibration error (CE) in such models. We show that several post-hoc recalibration techniques all reduce calibration error across the marginal distribution for two existing sequence taggers. Moreover, we propose tag frequency grouping (TFG) as a way to measure calibration error in different frequency bands. Further, recalibrating each group separately promotes a more equitable reduction of calibration error across the tag frequency spectrum. | 翻訳日:2021-09-17 14:04:44 公開日:2021-09-15 |
# CON TaiNER:コントラスト学習によるエンティティ認識 CONTaiNER: Few-Shot Named Entity Recognition via Contrastive Learning ( http://arxiv.org/abs/2109.07589v1 ) ライセンス: Link先を確認 | Sarkar Snigdha Sarathi Das, Arzoo Katiyar, Rebecca J. Passonneau, Rui Zhang | (参考訳) 少数ショット設定のエンティティ認識(ner)は、低リソースドメインのエンティティタグ付けに必須である。
既存のアプローチは、ソースドメインからクラス固有の意味的特徴と中間表現のみを学ぶ。
これは対象領域を認識できない一般化に影響を与え、結果として準最適性能をもたらす。
そこで本研究では,Few-Shot NERのトークン間分布距離を最適化するコントラスト学習手法であるCon TaiNERを提案する。
クラス固有の属性を最適化する代わりに、Con TaiNERはガウス分布の埋め込みに基づいてトークンカテゴリを区別する一般化された目的を最適化する。
これにより、訓練領域から生じる過度な問題を軽減することができる。
従来のテスト領域 (OntoNotes, CoNLL'03, WNUT '17, GUM) と新しい大規模Few-Shot NERデータセット (Few-NERD) での実験を行ったところ, CON TaiNER は従来の手法を平均して3%-13%の絶対F1ポイントで上回り, 従来手法では達成できなかった性能の傾向を示した。 Named Entity Recognition (NER) in Few-Shot setting is imperative for entity tagging in low resource domains. Existing approaches only learn class-specific semantic features and intermediate representations from source domains. This affects generalizability to unseen target domains, resulting in suboptimal performances. To this end, we present CONTaiNER, a novel contrastive learning technique that optimizes the inter-token distribution distance for Few-Shot NER. Instead of optimizing class-specific attributes, CONTaiNER optimizes a generalized objective of differentiating between token categories based on their Gaussian-distributed embeddings. This effectively alleviates overfitting issues originating from training domains. Our experiments in several traditional test domains (OntoNotes, CoNLL'03, WNUT '17, GUM) and a new large scale Few-Shot NER dataset (Few-NERD) demonstrate that on average, CONTaiNER outperforms previous methods by 3%-13% absolute F1 points while showing consistent performance trends, even in challenging scenarios where previous approaches could not achieve appreciable performance. | 翻訳日:2021-09-17 14:04:32 公開日:2021-09-15 |
# 多言語翻訳分類における特徴工学と特徴学習の比較 Comparing Feature-Engineering and Feature-Learning Approaches for Multilingual Translationese Classification ( http://arxiv.org/abs/2109.07604v1 ) ライセンス: Link先を確認 | Daria Pylypenko, Kwabena Amponsah-Kaakyire, Koel Dutta Chowdhury, Josef van Genabith, Cristina Espa\~na-Bonet | (参考訳) 伝統的な手作りの言語に変形した特徴は、翻訳されたテキストとオリジナルの翻訳されていないテキストを区別するためにしばしば用いられてきた。
対照的に、これまで手動のフィーチャーエンジニアリングのないニューラルアーキテクチャは、このタスクのためにあまり研究されていない。
この作品では、
(i)従来の特徴工学的アプローチと特徴学習的アプローチを比較して
(II)手作りの特徴がニューラルモデルの予測のばらつきをいかにうまく説明するかを調べるために、ニューラルアーキテクチャを解析する。
トレーニング済みのニューラルワード埋め込みと、モノリンガルと多言語の両方でエンドツーエンドのニューラルアーキテクチャを使用して、機能エンジニアリングベースのSVM分類器と比較する。
私たちはそれを示します
(i) 神経アーキテクチャは他のアプローチを20以上の精度で上回り、bertベースのモデルは単言語と多言語の両方で最高の性能を発揮する。
(ii) 個々の手作り翻訳機能は, ニューラルモデル予測と相関するが, 特徴量分析により, ニューラルアーキテクチャや古典アーキテクチャにおいて最も重要な特徴が異なることが分かる。
(iii)多言語実験は,言語間の翻訳普遍性の実証的証拠を提供する。 Traditional hand-crafted linguistically-informed features have often been used for distinguishing between translated and original non-translated texts. By contrast, to date, neural architectures without manual feature engineering have been less explored for this task. In this work, we (i) compare the traditional feature-engineering-based approach to the feature-learning-based one and (ii) analyse the neural architectures in order to investigate how well the hand-crafted features explain the variance in the neural models' predictions. We use pre-trained neural word embeddings, as well as several end-to-end neural architectures in both monolingual and multilingual settings and compare them to feature-engineering-based SVM classifiers. We show that (i) neural architectures outperform other approaches by more than 20 accuracy points, with the BERT-based model performing the best in both the monolingual and multilingual settings; (ii) while many individual hand-crafted translationese features correlate with neural model predictions, feature importance analysis shows that the most important features for neural and classical architectures differ; and (iii) our multilingual experiments provide empirical evidence for translationese universals across languages. | 翻訳日:2021-09-17 14:04:07 公開日:2021-09-15 |
# ポーズトランスフォーマー(potr) : 非自己回帰トランスフォーマーによる人間の動き予測 Pose Transformers (POTR): Human Motion Prediction with Non-Autoregressive Transformers ( http://arxiv.org/abs/2109.07531v1 ) ライセンス: Link先を確認 | Angel Mart\'inez-Gonz\'alez, Michael Villamizar, Jean-Marc Odobez | (参考訳) 非自己回帰的人間の運動予測にトランスフォーマーアーキテクチャを活用することを提案する。
本手法では,クエリシーケンスから要素を並列にデコードする。
このように、我々のアプローチは計算集約性が低く、シーケンス内の長期要素へのエラー蓄積を避ける可能性がある。
その文脈では、私たちの貢献は4倍です。
(i)人間の運動予測をシーケンス・ツー・シーケンス問題とし、ポーズのシーケンスを並列に推測する非自己回帰変圧器を提案する。
(ii)入力シーケンスの要素を予め生成したクエリシーケンスから3次元ポーズのシーケンスをデコードすることを提案する。
(iii)エンコーダメモリからスケルトンベースのアクティビティ分類を行うことにより、アクティビティの特定が予測を改善することを期待する。
(iv)その単純さにもかかわらず、我々のアプローチは2つの公開データセットで競争力のある結果を得るが、長期的な予測よりも短期的な予測の方が驚くほど高い。 We propose to leverage Transformer architectures for non-autoregressive human motion prediction. Our approach decodes elements in parallel from a query sequence, instead of conditioning on previous predictions such as instate-of-the-art RNN-based approaches. In such a way our approach is less computational intensive and potentially avoids error accumulation to long term elements in the sequence. In that context, our contributions are fourfold: (i) we frame human motion prediction as a sequence-to-sequence problem and propose a non-autoregressive Transformer to infer the sequences of poses in parallel; (ii) we propose to decode sequences of 3D poses from a query sequence generated in advance with elements from the input sequence;(iii) we propose to perform skeleton-based activity classification from the encoder memory, in the hope that identifying the activity can improve predictions;(iv) we show that despite its simplicity, our approach achieves competitive results in two public datasets, although surprisingly more for short term predictions rather than for long term ones. | 翻訳日:2021-09-17 14:00:13 公開日:2021-09-15 |
# RAFT-Stereo:ステレオマッチングのためのマルチレベルリカレントフィールド変換 RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching ( http://arxiv.org/abs/2109.07547v1 ) ライセンス: Link先を確認 | Lahav Lipson, Zachary Teed, Jia Deng | (参考訳) RAFT-Stereoは,光学フローネットワークRAFTをベースとした修正ステレオの新しい深層アーキテクチャである。
画像間でより効率的に情報を伝達する多レベル畳み込みGRUを導入する。
RAFT-Stereoの修正版は正確なリアルタイム推論を行うことができる。
raft-stereo は middlebury leaderboard で第1位にランクインし、1px error の次のベストメソッドを29%上回り、eth3d two-view stereo ベンチマークで公表された全作品を上回った。
コードはhttps://github.com/princeton-vl/RAFT-Stereoで入手できる。 We introduce RAFT-Stereo, a new deep architecture for rectified stereo based on the optical flow network RAFT. We introduce multi-level convolutional GRUs, which more efficiently propagate information across the image. A modified version of RAFT-Stereo can perform accurate real-time inference. RAFT-stereo ranks first on the Middlebury leaderboard, outperforming the next best method on 1px error by 29% and outperforms all published work on the ETH3D two-view stereo benchmark. Code is available at https://github.com/princeton-vl/RAFT-Stereo. | 翻訳日:2021-09-17 13:59:57 公開日:2021-09-15 |
# ucp-net: セグメンテーションのための非構造化輪郭点 UCP-Net: Unstructured Contour Points for Instance Segmentation ( http://arxiv.org/abs/2109.07592v1 ) ライセンス: Link先を確認 | Camille Dupont, Yanis Ouakrim and Quoc Cuong Pham | (参考訳) インタラクティブセグメンテーションの目的は、ユーザがセグメンテーションマスクをできるだけ早く正確に作成できるようにすることである。
相互作用は単純で直感的であり、良好なセグメンテーションマスクを生成するために必要な相互作用の数は可能な限り少なくなければならない。
本稿では,初期セグメンテーションとセグメンテーション改善のための,制約のない輪郭クリックに基づくインタラクティブセグメンテーションの新たなアプローチを提案する。
本手法は, 一般的なセグメンテーションデータセット(COCO MVal, SBD, バークレー)の最先端手法に比べて, 精度の高いセグメンテーションマスク(IoU > 85%)を生成する。 The goal of interactive segmentation is to assist users in producing segmentation masks as fast and as accurately as possible. Interactions have to be simple and intuitive and the number of interactions required to produce a satisfactory segmentation mask should be as low as possible. In this paper, we propose a novel approach to interactive segmentation based on unconstrained contour clicks for initial segmentation and segmentation refinement. Our method is class-agnostic and produces accurate segmentation masks (IoU > 85%) for a lower number of user interactions than state-of-the-art methods on popular segmentation datasets (COCO MVal, SBD and Berkeley). | 翻訳日:2021-09-17 13:59:47 公開日:2021-09-15 |
# インフルエンサーによる急進的右バイラルツイートの理解 An influencer-based approach to understanding radical right viral tweets ( http://arxiv.org/abs/2109.07588v1 ) ライセンス: Link先を確認 | Laila Sprejer, Helen Margetts, Kleber Oliveira, David O'Sullivan, Bertie Vidgen | (参考訳) 急進的な右派インフルエンサーはソーシャルメディアを使って、高度に分裂的で破壊的で反民主的なメッセージを広める。
このようなコンテンツが生み出す課題の評価と対処は、オンラインスペースがオープンで安全でアクセスしやすいままであることを保証する上で極めて重要である。
これまでの研究は、ウイルスに感染する過激な右コンテンツに関連する要因を理解することにはほとんど注意を払わなかった。
我々は、35の急進的右インフルエンサーのコンテンツ、エンゲージメント、フォロワーシップに関する洞察を提供する新しいデータセットROTを用いてこの問題を調査する。
5万以上のオリジナルエントリと4000万以上のリツイート、引用、返信、コメントが含まれる。
我々はマルチレベルモデルを用いて、各インフルエンサーにネストされたツイートのエンゲージメントを測定する。
インフルエンサーレベルの構造を考慮することが重要であり、インフルエンサーが持つフォロワーの数、コンテンツの種類(オリジナル投稿、引用、返信)、コンテンツの長さと毒性、インフルエンサーがリツイートを要求するかどうかなど、インフルエンサーとコンテンツレベルの要素の両方の重要性を示す証拠となる。
他の研究者がrotを利用できるようにしています。 Radical right influencers routinely use social media to spread highly divisive, disruptive and anti-democratic messages. Assessing and countering the challenge that such content poses is crucial for ensuring that online spaces remain open, safe and accessible. Previous work has paid little attention to understanding factors associated with radical right content that goes viral. We investigate this issue with a new dataset ROT which provides insight into the content, engagement and followership of a set of 35 radical right influencers. It includes over 50,000 original entries and over 40 million retweets, quotes, replies and mentions. We use a multilevel model to measure engagement with tweets, which are nested in each influencer. We show that it is crucial to account for the influencer-level structure, and find evidence of the importance of both influencer- and content-level factors, including the number of followers each influencer has, the type of content (original posts, quotes and replies), the length and toxicity of content, and whether influencers request retweets. We make ROT available for other researchers to use. | 翻訳日:2021-09-17 13:55:20 公開日:2021-09-15 |
# 一般化XGBoost法 Generalized XGBoost Method ( http://arxiv.org/abs/2109.07473v1 ) ライセンス: Link先を確認 | Yang Guang | (参考訳) XGBoost法には多くの利点があり、特にビッグデータの統計解析に適しているが、損失関数は凸関数に限定されている。
多くの特定のアプリケーションでは、非凸損失関数が好ましい。
本稿では,より弱い損失関数条件と,凸損失関数と非凸損失関数を含むより一般的な損失関数を含む一般化xgboost法を提案する。
さらに、この一般化されたXGBoost法は、より一般化されたXGBoost法を形成するために多変量損失関数に拡張される。
この方法は多変量正規化ツリーブースティング法であり、予測変数に適合するパラメトリック確率分布のほとんどにおいて、複数のパラメータをモデル化することができる。
一方、関連するアルゴリズムと非生命保険価格のいくつかの例が与えられる。 The XGBoost method has many advantages and is especially suitable for statistical analysis of big data, but its loss function is limited to convex functions. In many specific applications, a nonconvex loss function would be preferable. In this paper, we propose a generalized XGBoost method, which requires weaker loss function condition and involves more general loss functions, including convex loss functions and some non-convex loss functions. Furthermore, this generalized XGBoost method is extended to multivariate loss function to form a more generalized XGBoost method. This method is a multivariate regularized tree boosting method, which can model multiple parameters in most of the frequently-used parametric probability distributions to be fitted by predictor variables. Meanwhile, the related algorithms and some examples in non-life insurance pricing are given. | 翻訳日:2021-09-17 13:54:18 公開日:2021-09-15 |
# ゼロショット言語間画像検索とタグ付けに向けて Towards Zero-shot Cross-lingual Image Retrieval and Tagging ( http://arxiv.org/abs/2109.07622v1 ) ライセンス: Link先を確認 | Pranav Aggarwal, Ritiz Tambi, Ajinkya Kale | (参考訳) マルチモーダル言語とビジョン問題に対する最近の関心が高まっている。
言語面では、ほとんどのモデルは主に英語に焦点を合わせており、多くのマルチモーダルデータセットは単言語である。
このギャップをゼロショットアプローチで橋渡しし,テキスト側での言語間事前学習を用いてマルチモーダル表現を学習する。
本稿では,単言語学習データセット上でトレーニングを行うが,ゼロショットのクロスリンガルモデルで使用することが可能な言語間画像検索モデルを構築するための,単純かつ実用的な手法を提案する。
また,異なるテキストを相互にプッシュすることで,テキスト埋め込みクラスタを強化できる新たな目的関数を導入する。
評価のために,クラウドソーシングプラットフォームを用いて収集した7言語で新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
私たちはこれを、言語間のゼロショットモデルパフォーマンスのテストセットとして使用しています。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
XTD10データセットは、https://github.com/adobe-research/Cross-lingual-Test-Dataset-XTD10で公開されている。 There has been a recent spike in interest in multi-modal Language and Vision problems. On the language side, most of these models primarily focus on English since most multi-modal datasets are monolingual. We try to bridge this gap with a zero-shot approach for learning multi-modal representations using cross-lingual pre-training on the text side. We present a simple yet practical approach for building a cross-lingual image retrieval model which trains on a monolingual training dataset but can be used in a zero-shot cross-lingual fashion during inference. We also introduce a new objective function which tightens the text embedding clusters by pushing dissimilar texts away from each other. For evaluation, we introduce a new 1K multi-lingual MSCOCO2014 caption test dataset (XTD10) in 7 languages that we collected using a crowdsourcing platform. We use this as the test set for zero-shot model performance across languages. We also demonstrate how a cross-lingual model can be used for downstream tasks like multi-lingual image tagging in a zero shot manner. XTD10 dataset is made publicly available here: https://github.com/adobe-research/Cross-lingual-Test-Dataset-XTD10. | 翻訳日:2021-09-17 13:54:07 公開日:2021-09-15 |
# (参考訳) オーバー・ザ・エア最適化の基本限界:アナログスキームは最適か? Fundamental limits of over-the-air optimization: Are analog schemes optimal? ( http://arxiv.org/abs/2109.05222v2 ) ライセンス: CC BY 4.0 | Shubham K Jha, Prathamesh Mayekar, Himanshu Tyagi | (参考訳) 符号付き勾配が分散$\sigma^2$の付加ガウス雑音チャネルに送られるような$d-$次元空間上での空対最適化を考える。
符号語は平均電力制約$P$を満たすため、信号対雑音比(SNR)は$P/\sigma^2$となる。
オーバー・ザ・エア最適化のための収束率の境界を導出する。
最初の結果は収束率の低い値であり、任意のコードが約$\sqrt{d/\log(1+\mathtt{SNR})}$で収束率を遅くしなければならないことを示す。
次に、勾配の線形関数が送られる$analog$$coding$と呼ばれる一般的なスキームのクラスを考える。
単純なスケールの伝達アナログ符号化方式は、$\sqrt{d(1+1/\mathtt{SNR})}$で収束速度を遅くすることを示した。
これは、前の下界を低いSNRの定数要素に一致させ、低いSNRでスケールされた送信方式を最適にする。
しかし,この遅延は任意のアナログ符号化方式に必要であることを示す。
特に、アナログ符号に対する$\sqrt{d}$の係数による収束の減速は、SNRが無限大の傾向にあるときでも残っている。
注目すべきは、$Amplitude$$Shift$$Keying$を使用し、ほぼすべてのSNRにおける最適収束率を達成する単純な量子化・変調スキームを示すことである。 We consider over-the-air convex optimization on a $d-$dimensional space where coded gradients are sent over an additive Gaussian noise channel with variance $\sigma^2$. The codewords satisfy an average power constraint $P$, resulting in the signal-to-noise ratio (SNR) of $P/\sigma^2$. We derive bounds for the convergence rates for over-the-air optimization. Our first result is a lower bound for the convergence rate showing that any code must slowdown the convergence rate by a factor of roughly $\sqrt{d/\log(1+\mathtt{SNR})}$. Next, we consider a popular class of schemes called $analog$ $coding$, where a linear function of the gradient is sent. We show that a simple scaled transmission analog coding scheme results in a slowdown in convergence rate by a factor of $\sqrt{d(1+1/\mathtt{SNR})}$. This matches the previous lower bound up to constant factors for low SNR, making the scaled transmission scheme optimal at low SNR. However, we show that this slowdown is necessary for any analog coding scheme. In particular, a slowdown in convergence by a factor of $\sqrt{d}$ for analog coding remains even when SNR tends to infinity. Remarkably, we present a simple quantize-and-modulate scheme that uses $Amplitude$ $Shift$ $Keying$ and almost attains the optimal convergence rate at all SNRs. | 翻訳日:2021-09-17 13:46:29 公開日:2021-09-15 |
# 単語レベルの品質評価のためのレベンシュテイントレーニング Levenshtein Training for Word-level Quality Estimation ( http://arxiv.org/abs/2109.05611v2 ) ライセンス: Link先を確認 | Shuoyang Ding, Marcin Junczys-Dowmunt, Matt Post, Philipp Koehn | (参考訳) 本稿では,単語レベルの品質推定を行うためにLevenshtein Transformerを使用する新しい手法を提案する。
Levenshtein Transformerは、反復的な方法でデコードを実行するように訓練され、Levenshtein Transformerは明示的な監督なしに後処理を学ぶことができる。
翻訳タスクと単語レベルのQEタスクのミスマッチをさらに最小化するために,拡張データと人間の後編集データの両方に対する2段階のトランスファー学習手順を提案する。
また,サブワードレベルの微調整や推論と互換性のある参照ラベルを構築するためのヒューリスティックスを提案する。
WMT 2020 QE共有タスクデータセットの結果,提案手法はデータ制約条件下でのデータ効率と非制約条件下での競合性能に優れていた。 We propose a novel scheme to use the Levenshtein Transformer to perform the task of word-level quality estimation. A Levenshtein Transformer is a natural fit for this task: trained to perform decoding in an iterative manner, a Levenshtein Transformer can learn to post-edit without explicit supervision. To further minimize the mismatch between the translation task and the word-level QE task, we propose a two-stage transfer learning procedure on both augmented data and human post-editing data. We also propose heuristics to construct reference labels that are compatible with subword-level finetuning and inference. Results on WMT 2020 QE shared task dataset show that our proposed method has superior data efficiency under the data-constrained setting and competitive performance under the unconstrained setting. | 翻訳日:2021-09-17 10:44:43 公開日:2021-09-15 |
# (参考訳) アベンジャーズ・アンサンブル!
オーサシップ難読化の転送性の向上 Avengers Ensemble! Improving Transferability of Authorship Obfuscation ( http://arxiv.org/abs/2109.07028v1 ) ライセンス: CC BY 4.0 | Muhammad Haroon, Muhammad Fareed Zaffar, Padmini Srinivasan, Zubair Shafiq | (参考訳) スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。
著者の帰属によって引き起こされるプライバシーの脅威を軽減するため、研究者は匿名文書の著者の身元を隠蔽することを目的とした自動著者難読化アプローチを提案した。
最近の研究は、意味を保ちながら帰属を避けるために帰属分類器へのブラックボックスアクセスに依存する著者の難読化アプローチに焦点を当てている。
しかし, 現実的な脅威モデルの下では, 敵の帰属分類器が内部で使用されるものと異なる場合でも, これらの難読化アプローチがうまく機能することが重要である。
残念ながら、既存のオーサシップ難読化アプローチは、目に見えない帰属分類器にうまく移行しない。
本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
本実験により,複数のベースアトリビューション分類器に基づくアンサンブルアトリビューション分類器を回避できれば,異なるアトリビューション分類器に移行する可能性が高まることが示された。
分析の結果,決定バウンダリを本質的に平均することで,各ベース属性分類器からの知識を組み合わせることにより,伝達性が向上することが示された。 Stylometric approaches have been shown to be quite effective for real-world authorship attribution. To mitigate the privacy threat posed by authorship attribution, researchers have proposed automated authorship obfuscation approaches that aim to conceal the stylometric artefacts that give away the identity of an anonymous document's author. Recent work has focused on authorship obfuscation approaches that rely on black-box access to an attribution classifier to evade attribution while preserving semantics. However, to be useful under a realistic threat model, it is important that these obfuscation approaches work well even when the adversary's attribution classifier is different from the one used internally by the obfuscator. Unfortunately, existing authorship obfuscation approaches do not transfer well to unseen attribution classifiers. In this paper, we propose an ensemble-based approach for transferable authorship obfuscation. Our experiments show that if an obfuscator can evade an ensemble attribution classifier, which is based on multiple base attribution classifiers, it is more likely to transfer to different attribution classifiers. Our analysis shows that ensemble-based authorship obfuscation achieves better transferability because it combines the knowledge from each of the base attribution classifiers by essentially averaging their decision boundaries. | 翻訳日:2021-09-17 03:15:56 公開日:2021-09-15 |
# (参考訳) 多言語応答提案のための条件付き生成マッチングモデル A Conditional Generative Matching Model for Multi-lingual Reply Suggestion ( http://arxiv.org/abs/2109.07046v1 ) ライセンス: CC BY 4.0 | Budhaditya Deb, Guoqing Zheng, Milad Shokouhi, Ahmed Hassan Awadallah | (参考訳) 複数の言語に対応可能な多言語自動応答提案(RS)モデルについて検討する。
多言語モデルは、しばしば、言語間のモデル容量と厳しいデータ分散によって挑戦される。
先行研究は主に単言語モデルに焦点をあてるが、多言語rsから発生する課題に対処するために、変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(cgm)を提案する。
CGMは、表現的なメッセージ条件前処理、多言語データ表現の強化のための混合密度、言語識別のための遅延アライメント、多言語RSのトレーニングのための効果的な変分最適化技術を用いる。
この拡張により、関連する競合ベースライン(ROUGEスコア)を平均10倍以上、低リソース言語では16倍以上のパフォーマンスが得られる。
CGMはまた、多言語データの表現における表現性を示す多様性(80 %)の顕著な改善を示している。 We study the problem of multilingual automated reply suggestions (RS) model serving many languages simultaneously. Multilingual models are often challenged by model capacity and severe data distribution skew across languages. While prior works largely focus on monolingual models, we propose Conditional Generative Matching models (CGM), optimized within a Variational Autoencoder framework to address challenges arising from multi-lingual RS. CGM does so with expressive message conditional priors, mixture densities to enhance multi-lingual data representation, latent alignment for language discrimination, and effective variational optimization techniques for training multi-lingual RS. The enhancements result in performance that exceed competitive baselines in relevance (ROUGE score) by more than 10\% on average, and 16\% for low resource languages. CGM also shows remarkable improvements in diversity (80\%) illustrating its expressiveness in representation of multi-lingual data. | 翻訳日:2021-09-17 02:59:22 公開日:2021-09-15 |
# (参考訳) Reward, Policy, Advantage Feedback 下での可視性トレースを用いたHuman-in-the-Loop Policy-Gradientアルゴリズムの収束性 Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback ( http://arxiv.org/abs/2109.07054v1 ) ライセンス: CC BY 4.0 | Ishaan Shah, David Halpern, Kavosh Asadi and Michael L. Littman | (参考訳) 流動型人間-エージェントコミュニケーションは,人間-ループ間強化学習の将来に不可欠である。
エージェントは、重要な経験を持つ前に、人間のトレーナーからのフィードバックに適切に応答する必要がある。
したがって、学習エージェントは、訓練者が提供しそうな様々なフィードバックスキームによく対応することが重要である。
この研究は、3種類のフィードバック・ポリシー・フィードバック、報酬・フィードバック、利点・フィードバックの下で、Convergent Actor-Critic by Humans(COACH)アルゴリズムを分析します。
これら3つのフィードバックタイプに対して、COACHは準最適に振る舞うことができる。
提案するCOACHの変種であるエピソディックCOACH(E-COACH)は,これら3つの型に対して収束を証明している。
当社のCOACH変種と他の強化学習アルゴリズムであるQ-learningとTAMERを比較した。 Fluid human-agent communication is essential for the future of human-in-the-loop reinforcement learning. An agent must respond appropriately to feedback from its human trainer even before they have significant experience working together. Therefore, it is important that learning agents respond well to various feedback schemes human trainers are likely to provide. This work analyzes the COnvergent Actor-Critic by Humans (COACH) algorithm under three different types of feedback-policy feedback, reward feedback, and advantage feedback. For these three feedback types, we find that COACH can behave sub-optimally. We propose a variant of COACH, episodic COACH (E-COACH), which we prove converges for all three types. We compare our COACH variant with two other reinforcement-learning algorithms: Q-learning and TAMER. | 翻訳日:2021-09-17 02:34:23 公開日:2021-09-15 |
# (参考訳) Q-contextsを用いた単語埋め込みの高速抽出 Fast Extraction of Word Embedding from Q-contexts ( http://arxiv.org/abs/2109.07084v1 ) ライセンス: CC BY 4.0 | Junsheng Kong, Weizhao Li, Zeyi Liu, Ben Liao, Jiezhong Qiu, Chang-Yu Hsieh, Yi Cai and Shengyu Zhang | (参考訳) 単語埋め込みの概念は自然言語処理(NLP)において基本的な役割を果たす。
しかし、非常に大規模な語彙に対する事前学習語埋め込みは、既存のほとんどの手法では計算的に困難である。
本研究は,コーパス全体(および単語との相互情報)に典型的な文脈(Q-contexts)のごく一部で,無視可能な誤りを伴う高品質な単語埋め込みを構築することができることを示す。
文脈と単語間の相互情報はサンプル状態として正規に符号化することができ、Q-コンテキストを高速に構築することができる。
さらに、これらの典型的な文脈から直接単語埋め込みを抽出できる効率的かつ効果的なWEQ手法を提案する。
実用的なシナリオでは、アルゴリズムは確立されたメソッドよりも11$sim$13 高速で動作します。
行列分解, word2vec, GloVeand fasttext などのよく知られた手法と比較することにより,本手法が様々な下流 NLP タスクにおいて同等の性能を達成し,その一方で,これらのベースラインに対する実行時間とリソースの優位性を維持していることを示す。 The notion of word embedding plays a fundamental role in natural language processing (NLP). However, pre-training word embedding for very large-scale vocabulary is computationally challenging for most existing methods. In this work, we show that with merely a small fraction of contexts (Q-contexts)which are typical in the whole corpus (and their mutual information with words), one can construct high-quality word embedding with negligible errors. Mutual information between contexts and words can be encoded canonically as a sampling state, thus, Q-contexts can be fast constructed. Furthermore, we present an efficient and effective WEQ method, which is capable of extracting word embedding directly from these typical contexts. In practical scenarios, our algorithm runs 11$\sim$13 times faster than well-established methods. By comparing with well-known methods such as matrix factorization, word2vec, GloVeand fasttext, we demonstrate that our method achieves comparable performance on a variety of downstream NLP tasks, and in the meanwhile maintains run-time and resource advantages over all these baselines. | 翻訳日:2021-09-17 02:21:41 公開日:2021-09-15 |
# (参考訳) 画像デハジング用ハイブリッド局所グローバル変圧器 Hybrid Local-Global Transformer for Image Dehazing ( http://arxiv.org/abs/2109.07100v1 ) ライセンス: CC BY 4.0 | Dong Zhao, Jia Li, Hongyu Li, and Long Xu | (参考訳) 近年、ViT(Vision Transformer)は、高レベルかつ低レベルな視覚タスクにおいて顕著な性能を示している。
本稿では,単一画像デハジングのためのハイブリッド・ローカル・グローバル・ビジョントランスフォーマ(hylog-vit)という新しいvitアーキテクチャを提案する。
HyLoG-ViTブロックは、ローカルなViTパスとグローバルなViTパスという2つのパスで構成される。
ハイブリッド機能は畳み込み層を介して融合される。
その結果、HyLoG-ViTは計算複雑性を低減し、ネットワークの局所性を導入する。
そして、HyLoG-ViTブロックをデハジングネットワークに組み込んで、本質的な画像分解と画像デハジングを共同で学習する。
具体的には、1つの共有エンコーダと3つのデコーダから構成され、反射率予測、シェーディング予測、ヘイズフリー画像生成を行う。
反射率とシェーディング予測のタスクは、ヘイズフリー画像生成の補完的特徴として機能する有意義な中間特徴を生み出すことができる。
補足的特徴を効果的に集約するために,画像デハージングに有用な特徴を選択するための補完的特徴選択モジュール(CFSM)を提案する。
提案する変圧器型デハジングネットワークは,cnnsによるデハジングモデルと同等,あるいはそれ以上の性能を達成可能であることが,均一,非均一,夜間デハジングタスクに関する広範な実験により明らかになった。 Recently, the Vision Transformer (ViT) has shown impressive performance on high-level and low-level vision tasks. In this paper, we propose a new ViT architecture, named Hybrid Local-Global Vision Transformer (HyLoG-ViT), for single image dehazing. The HyLoG-ViT block consists of two paths, the local ViT path and the global ViT path, which are used to capture local and global dependencies. The hybrid features are fused via convolution layers. As a result, the HyLoG-ViT reduces the computational complexity and introduces locality in the networks. Then, the HyLoG-ViT blocks are incorporated within our dehazing networks, which jointly learn the intrinsic image decomposition and image dehazing. Specifically, the network consists of one shared encoder and three decoders for reflectance prediction, shading prediction, and haze-free image generation. The tasks of reflectance and shading prediction can produce meaningful intermediate features that can serve as complementary features for haze-free image generation. To effectively aggregate the complementary features, we propose a complementary features selection module (CFSM) to select the useful ones for image dehazing. Extensive experiments on homogeneous, non-homogeneous, and nighttime dehazing tasks reveal that our proposed Transformer-based dehazing network can achieve comparable or even better performance than CNNs-based dehazing models. | 翻訳日:2021-09-17 02:02:20 公開日:2021-09-15 |
# (参考訳) WIP:マシンラーニングを用いた電子カルテ分析による医療事故予測:転倒予測 WIP: Medical Incident Prediction Through Analysis of Electronic Medical Records Using Machine Lerning: Fall Prediction ( http://arxiv.org/abs/2109.07106v1 ) ライセンス: CC BY 4.0 | Atsushi Yanagisawa, Chintaka Premachandra, Hiruharu Kawanaka, Atsushi Inoue, Takeo Hata, Eiichiro Ueda | (参考訳) 本稿では,医学的インシデント予測に関する予備研究と,機械学習を用いた転倒リスク予測について報告する。
大阪医薬大学病院の電子医療記録(EMR)の特定のサブセットからのみ、機械学習のデータを生成する。
その結果,(1)機械学習アルゴリズムの比較,(2)不均衡の処理,(3)転倒事故予測への説明変数の寄与の検証などの3つの実験を行った結果,説明変数の探索が最も効果的であることが判明した。 This paper reports our preliminary work on medical incident prediction in general, and fall risk prediction in specific, using machine learning. Data for the machine learning are generated only from the particular subset of the electronic medical records (EMR) at Osaka Medical and Pharmaceutical University Hospital. As a result of conducting three experiments such as (1) machine learning algorithm comparison, (2) handling imbalance, and (3) investigation of explanatory variable contribution to the fall incident prediction, we find the investigation of explanatory variables the most effective. | 翻訳日:2021-09-17 01:45:14 公開日:2021-09-15 |
# (参考訳) ユーザは何を望んでいるのか?
階層的対話政策最適化のための情報ゲイン What Does The User Want? Information Gain for Hierarchical Dialogue Policy Optimisation ( http://arxiv.org/abs/2109.07129v1 ) ライセンス: CC BY 4.0 | Christian Geishauser, Songbo Hu, Hsien-chin Lin, Nurul Lubis, Michael Heck, Shutong Feng, Carel van Niekerk, Milica Ga\v{s}i\'c | (参考訳) タスク指向対話システムの対話管理コンポーネントは通常、強化学習(RL)によって最適化される。
RLによる最適化は、サンプルの非効率性と不安定性に非常に敏感である。
Feudal Dialogue Managementと呼ばれる階層的なアプローチは、アクション空間を分解することで、より効率的な学習へと進む。
しかし、対話の最後にのみ与えられる報酬のため、依然として不安定な状態にある。
この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
提案する報酬は,不確実性を解消するか,必要に応じてユーザに問い合わせるアクションを優先する。
ポリシーは、タスク指向の会話に不可欠な側面である、ユーザの要求を効率的に取り出す方法を学ぶことができる。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を達成し、より複雑なアプローチよりも優れています。
シミュレーション実験と人間実験により,本アルゴリズムのサンプル効率と安定性を確認した。 The dialogue management component of a task-oriented dialogue system is typically optimised via reinforcement learning (RL). Optimisation via RL is highly susceptible to sample inefficiency and instability. The hierarchical approach called Feudal Dialogue Management takes a step towards more efficient learning by decomposing the action space. However, it still suffers from instability due to the reward only being provided at the end of the dialogue. We propose the usage of an intrinsic reward based on information gain to address this issue. Our proposed reward favours actions that resolve uncertainty or query the user whenever necessary. It enables the policy to learn how to retrieve the users' needs efficiently, which is an integral aspect in every task-oriented conversation. Our algorithm, which we call FeudalGain, achieves state-of-the-art results in most environments of the PyDial framework, outperforming much more complex approaches. We confirm the sample efficiency and stability of our algorithm through experiments in simulation and a human trial. | 翻訳日:2021-09-17 01:35:52 公開日:2021-09-15 |
# (参考訳) 並列制約駆動帰納論理プログラミング Parallel Constraint-Driven Inductive Logic Programming ( http://arxiv.org/abs/2109.07132v1 ) ライセンス: CC BY 4.0 | Andrew Cropper, Oghenejokpeme Orhobor, Cristian Dinu, Rolf Morel | (参考訳) マルチコアマシンはユビキタスです。
しかし、ほとんどのインダクティブ論理プログラミング(ILP)アプローチは単一のコアしか使用せず、スケーラビリティを著しく制限している。
この制限に対処するため,制約駆動型ILPに基づく並列手法を導入し,その目的は仮説空間を制限するために制約を蓄積することである。
2つの領域(プログラム合成と帰納的汎用ゲームプレイ)に関する実験は、そのことを示す。
i) 並列化は学習時間を著しく短縮し、
(ii) 労働者のコミュニケーション(すなわち制約を共有する)は、優れたパフォーマンスのために重要である。 Multi-core machines are ubiquitous. However, most inductive logic programming (ILP) approaches use only a single core, which severely limits their scalability. To address this limitation, we introduce parallel techniques based on constraint-driven ILP where the goal is to accumulate constraints to restrict the hypothesis space. Our experiments on two domains (program synthesis and inductive general game playing) show that (i) parallelisation can substantially reduce learning times, and (ii) worker communication (i.e. sharing constraints) is important for good performance. | 翻訳日:2021-09-17 01:19:23 公開日:2021-09-15 |
# (参考訳) 量子テンソルネットワークを用いたパッチベース医用画像分割 Patch-based medical image segmentation using Quantum Tensor Networks ( http://arxiv.org/abs/2109.07138v1 ) ライセンス: CC BY 4.0 | Raghavendra Selvan, Erik B Dam, S{\o}ren Alexander Flensborg, Jens Petersen | (参考訳) テンソルネットワークは高次元テンソルの高次テンソルのネットワークへの効率的な分解である。
量子多体系の絡み合いのモデル化に最も一般的に用いられており、最近では教師付き機械学習の応用が増加している。
本研究では,テンソルネットワークを用いた教師付きセグメンテーションで画像セグメンテーションを定式化する。
重要なアイデアは、画像パッチのピクセルを指数関数的に高次元の特徴空間に持ち上げ、線形決定超平面を用いて入力画素を前景と背景クラスに分類することである。
高次元線形モデル自体は、行列積状態(MPS)テンソルネットワークを用いて近似される。
重み付きテンソルネットワークモデルにより,MPSは重み付き画像パッチ間で重み共有される。
提案モデルの性能を3つの2次元および1つの3次元バイオメディカルイメージングデータセットで評価した。
提案するテンソルネットワークセグメンテーションモデルの性能を,関連するベースライン手法と比較した。
2次元実験では, テンソルネットワークモデルにより, 基準法と比較して競争性能が向上し, 資源効率が向上した。 Tensor networks are efficient factorisations of high dimensional tensors into a network of lower order tensors. They have been most commonly used to model entanglement in quantum many-body systems and more recently are witnessing increased applications in supervised machine learning. In this work, we formulate image segmentation in a supervised setting with tensor networks. The key idea is to first lift the pixels in image patches to exponentially high dimensional feature spaces and using a linear decision hyper-plane to classify the input pixels into foreground and background classes. The high dimensional linear model itself is approximated using the matrix product state (MPS) tensor network. The MPS is weight-shared between the non-overlapping image patches resulting in our strided tensor network model. The performance of the proposed model is evaluated on three 2D- and one 3D- biomedical imaging datasets. The performance of the proposed tensor network segmentation model is compared with relevant baseline methods. In the 2D experiments, the tensor network model yeilds competitive performance compared to the baseline methods while being more resource efficient. | 翻訳日:2021-09-17 01:07:44 公開日:2021-09-15 |
# (参考訳) グラスボックス機能を超えて:不確実性定量化によるニューラルマシン翻訳の品質推定 Beyond Glass-Box Features: Uncertainty Quantification Enhanced Quality Estimation for Neural Machine Translation ( http://arxiv.org/abs/2109.07141v1 ) ライセンス: CC BY 4.0 | Ke Wang, Yangbin Shi, Jiayi Wang, Yuqi Zhang, Yu Zhao and Xiaolin Zheng | (参考訳) 機械翻訳(MT)の適用においては品質評価(QE)が重要な役割を果たす。
伝統的に、QEシステムは、ブラックボックスMTシステムからの原文と翻訳を入力として受け入れる。
近年、翻訳の副産物として、翻訳の由来であるmtシステムのモデルとトレーニングデータの情報からqeが恩恵を受けていることを示す研究がいくつかあり、これを「ガラス箱qe」と呼ぶ。
本稿では、一般に「ガラス箱QE」の定義を「黒箱」と「ガラス箱」の両方で不確実な定量化に拡張し、これらから導出される特徴を設計し、QEの性能向上のための新たな試行を図った。
本研究では,不確実性定量化の特徴工学を事前学習された言語間モデルに融合し,翻訳品質を予測する枠組みを提案する。
実験の結果,WMT 2020 QE共有タスクのデータセット上での最先端性能が得られた。 Quality Estimation (QE) plays an essential role in applications of Machine Translation (MT). Traditionally, a QE system accepts the original source text and translation from a black-box MT system as input. Recently, a few studies indicate that as a by-product of translation, QE benefits from the model and training data's information of the MT system where the translations come from, and it is called the "glass-box QE". In this paper, we extend the definition of "glass-box QE" generally to uncertainty quantification with both "black-box" and "glass-box" approaches and design several features deduced from them to blaze a new trial in improving QE's performance. We propose a framework to fuse the feature engineering of uncertainty quantification into a pre-trained cross-lingual language model to predict the translation quality. Experiment results show that our method achieves state-of-the-art performances on the datasets of WMT 2020 QE shared task. | 翻訳日:2021-09-17 00:47:31 公開日:2021-09-15 |
# (参考訳) ヨーロッパの詩の意味論は保守的な力によって形成される:アクセント詩における詩的メーターと意味の関係 Semantics of European poetry is shaped by conservative forces: The relationship between poetic meter and meaning in accentual-syllabic verse ( http://arxiv.org/abs/2109.07148v1 ) ライセンス: CC BY-SA 4.0 | Artjoms \v{S}e\c{l}a, Petr Plech\'a\v{c}, Alie Lassche | (参考訳) 近年の文化分析と芸術、文学、フィルムの大規模計算研究は、芸術作品の特徴の長期的変化が徐々に起こることを示している。
これらの結果は、創造的な領域を形成する保守的な力は過小評価される可能性を示唆している。
この目的のために、チェコ語、ドイツ語、ロシア語のコレクションを用いて、1819世紀のヨーロッパ文学における詩的メーターと意味論の永続的な関連性を示す最初の大規模な公式な証拠を提供する。
本研究は,15万詩の抽象的な意味的特徴を用いたクラスタリング実験を通じて,この関係を追跡する。
トピックモデリングの助けを借りて,個々の詩の意味的特徴を推測する。
テキストはまた、一般化性を高め、単語の頻度分布のばらばらさを減らすために、コレクション全体で語彙的に単純化された。
トピックだけでも各観測言語におけるメートルの認識が可能であり、同じメートルのサンプル(中間調整ランダム指数 0.48 から 1)の非常に堅牢なクラスタリングから見ることができる。
さらに, 形態と意味の関連性の強さは時間とともに低下する傾向を示した。
これは、18世紀から19世紀にかけての審美的な慣習の変化を反映しているかもしれない。
この衰退にもかかわらず、過去または未来からメーターのセマンティクスを認識することは可能であり、これは意味論的伝統の継続を示唆し、言語間の条件の歴史的変動を明らかにしている。
本稿では、何世紀にもわたって言語でしばしば複製される異なるメートル法形式が、詩における長期的な意味的慣性を維持することを主張する。
以上の結果から,文化進化のペースと形に影響を及ぼす文化項目の形式的特徴が果たす役割を強調した。 Recent advances in cultural analytics and large-scale computational studies of art, literature and film often show that long-term change in the features of artistic works happens gradually. These findings suggest that conservative forces that shape creative domains might be underestimated. To this end, we provide the first large-scale formal evidence of the persistent association between poetic meter and semantics in 18-19th European literatures, using Czech, German and Russian collections with additional data from English poetry and early modern Dutch songs. Our study traces this association through a series of clustering experiments using the abstracted semantic features of 150,000 poems. With the aid of topic modeling we infer semantic features for individual poems. Texts were also lexically simplified across collections to increase generalizability and decrease the sparseness of word frequency distributions. Topics alone enable recognition of the meters in each observed language, as may be seen from highly robust clustering of same-meter samples (median Adjusted Rand Index between 0.48 and 1). In addition, this study shows that the strength of the association between form and meaning tends to decrease over time. This may reflect a shift in aesthetic conventions between the 18th and 19th centuries as individual innovation was increasingly favored in literature. Despite this decline, it remains possible to recognize semantics of the meters from past or future, which suggests the continuity of semantic traditions while also revealing the historical variability of conditions across languages. This paper argues that distinct metrical forms, which are often copied in a language over centuries, also maintain long-term semantic inertia in poetry. Our findings, thus, highlight the role of the formal features of cultural items in influencing the pace and shape of cultural evolution. | 翻訳日:2021-09-17 00:31:36 公開日:2021-09-15 |
# (参考訳) ニューラルネットワークを用いた地形マッピングにおけるオクルージョンの解法 Solving Occlusion in Terrain Mapping with Neural Networks ( http://arxiv.org/abs/2109.07150v1 ) ライセンス: CC BY 4.0 | Maximilian St\"olzle, Takahiro Miki, Levin Gerdes, Martin Azkarate, and Marco Hutter | (参考訳) 正確な地形地図は自律ロボットの認識を高め、安全かつ最適な経路計画を可能にする。
岩石や地形は、しばしばオクルージョンを生成し、デジタル標高マップ(DEM)に欠落した標高情報をもたらす。
現在、拡散やパッチマッチングに基づく従来の塗装技術は、自律移動ロボットによって不完全なDEMを埋めるために使われている。
これらの手法では高レベルな地形特性や視線の幾何学的制約を人間が直感的に利用して遮蔽領域を予測することはできない。
本稿では,DEMの隠蔽領域をニューラルネットワークで再構築することを提案する。
本研究は,実世界データ上で地中情報を必要とせずに学習できる自己教師付き学習手法を提案する。
本研究では,実ロボット上に構築した不完全高度マップに人工咬合を付加し,レイキャスティングを行う。
まず,合成データの教師あり学習手法を評価し,実世界のデータセットに移行した。
これらの実世界のデータセットは、足のついたロボットで構造化された地形と非構造的な地形の自律的な探査中に記録された。
人工地形と実世界のデータセットの両方において,teleaおよびnavier-stokesのベースライン手法に比べて著しく改善した。
私たちのニューラルネットワークは、自律的な地上ロボットに適したサンプリングレートで、CPUとGPUの両方でリアルタイムで実行できます。 Accurate and complete terrain maps enhance the awareness of autonomous robots and enable safe and optimal path planning. Rocks and topography often create occlusions and lead to missing elevation information in the Digital Elevation Map (DEM). Currently, mostly traditional inpainting techniques based on diffusion or patch-matching are used by autonomous mobile robots to fill-in incomplete DEMs. These methods cannot leverage the high-level terrain characteristics and the geometric constraints of line of sight we humans use intuitively to predict occluded areas. We propose to use neural networks to reconstruct the occluded areas in DEMs. We introduce a self-supervised learning approach capable of training on real-world data without a need for ground-truth information. We accomplish this by adding artificial occlusion to the incomplete elevation maps constructed on a real robot by performing ray casting. We first evaluate a supervised learning approach on synthetic data for which we have the full ground-truth available and subsequently move to several real-world datasets. These real-world datasets were recorded during autonomous exploration of both structured and unstructured terrain with a legged robot, and additionally in a planetary scenario on Lunar analogue terrain. We state a significant improvement compared to the Telea and Navier-Stokes baseline methods both on synthetic terrain and for the real-world datasets. Our neural network is able to run in real-time on both CPU and GPU with suitable sampling rates for autonomous ground robots. | 翻訳日:2021-09-17 00:03:10 公開日:2021-09-15 |
# (参考訳) フーリエ畳み込みによるレゾリューションロバスト大型マスク Resolution-robust Large Mask Inpainting with Fourier Convolutions ( http://arxiv.org/abs/2109.07161v1 ) ライセンス: CC BY 4.0 | Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, Victor Lempitsky | (参考訳) 現代の画像インペインティングシステムは、重要な進歩にもかかわらず、しばしば大きな欠落領域、複雑な幾何学的構造、高解像度画像に苦しむ。
その主な原因の1つは、塗装ネットワークと損失関数の両方において、効果的な受容野が欠如していることである。
この問題を軽減するために,大型マスク塗装 (LaMa) と呼ばれる新しい手法を提案する。
LaMaはベースです
一 高速フーリエ畳み込みを利用した新しい塗布網の建築であって、画像の広い受容領域を有するもの
二 高い受容領域知覚損失、及び
三 大型の訓練用マスクで、最初の二つの部品の可能性を解き放つこと。
当社のインペインティングネットワークは,データセット全体の最先端を改善し,周期構造完了などの困難なシナリオにおいても優れたパフォーマンスを実現しています。
我々のモデルは、列車時よりも高い解像度に驚くほどよく一般化し、競合するベースラインよりも低いパラメータと計算コストでこれを達成します。
コードはhttps://github.com/saic-mdal/lamaで入手できる。 Modern image inpainting systems, despite the significant progress, often struggle with large missing areas, complex geometric structures, and high-resolution images. We find that one of the main reasons for that is the lack of an effective receptive field in both the inpainting network and the loss function. To alleviate this issue, we propose a new method called large mask inpainting (LaMa). LaMa is based on i) a new inpainting network architecture that uses fast Fourier convolutions, which have the image-wide receptive field; ii) a high receptive field perceptual loss; and iii) large training masks, which unlocks the potential of the first two components. Our inpainting network improves the state-of-the-art across a range of datasets and achieves excellent performance even in challenging scenarios, e.g. completion of periodic structures. Our model generalizes surprisingly well to resolutions that are higher than those seen at train time, and achieves this at lower parameter&compute costs than the competitive baselines. The code is available at https://github.com/saic-mdal/lama. | 翻訳日:2021-09-16 23:43:24 公開日:2021-09-15 |
# (参考訳) 離散変分オートエンコーダを用いた自然言語生成因子の分散化 Disentangling Generative Factors in Natural Language with Discrete Variational Autoencoders ( http://arxiv.org/abs/2109.07169v1 ) ライセンス: CC BY 4.0 | Giangiacomo Mercatali, Andr\'e Freitas | (参考訳) 不整合表現を学習する能力は、潜在言語的特徴の制御を可能にするため、NLPシステムを解釈するための大きなステップである。
分離に対するほとんどのアプローチは、画像とテキストの両方の連続変数に依存している。
我々は、画像データセットに適しているにもかかわらず、連続変数はテキストデータの特徴をモデル化するのに理想的ではないかもしれないと主張する。
本稿では,言語特徴を離散変数としてモデル化し,変数間の独立性を促進できる変分自動符号化手法を提案する。
提案モデルは,テキストスタイル転送下流アプリケーションと同様に,複数の質的,定量的指標において,連続的および離散的なベースラインを上回っている。 The ability of learning disentangled representations represents a major step for interpretable NLP systems as it allows latent linguistic features to be controlled. Most approaches to disentanglement rely on continuous variables, both for images and text. We argue that despite being suitable for image datasets, continuous variables may not be ideal to model features of textual data, due to the fact that most generative factors in text are discrete. We propose a Variational Autoencoder based method which models language features as discrete variables and encourages independence between variables for learning disentangled representations. The proposed model outperforms continuous and discrete baselines on several qualitative and quantitative benchmarks for disentanglement as well as on a text style transfer downstream application. | 翻訳日:2021-09-16 23:24:40 公開日:2021-09-15 |
# (参考訳) パワーホークス・ディリクレプロセス:柔軟な時間前処理によるテキストクラスタリング Powered Hawkes-Dirichlet Process: Challenging Textual Clustering using a Flexible Temporal Prior ( http://arxiv.org/abs/2109.07170v1 ) ライセンス: CC BY 4.0 | Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher | (参考訳) 文書のテキスト内容とその発行日は相互に交わされる。
例えば、トピックに関するニュース記事の発行は、背景となる時間的ダイナミクスに従って、同様の問題に関する以前の出版の影響を受けている。
しかし、テキスト情報がほとんど情報を伝える場合や、時間的ダイナミクスの公開が難しい場合、意味のある情報を検索することは困難である。
さらに、文書のテキスト内容は、その時間的ダイナミクスと必ずしも関連付けられていない。
我々は,その内容と公開時間に応じて文書のクラスタを作成する柔軟な方法,Powered Dirichlet-Hawkes Process (PDHP) を開発した。
時間情報やテキストの内容が弱い場合、pdhpは最先端モデルよりも優れた結果が得られることを示す。
pdhpはまた、テクストコンテンツとテンポラリダイナミクスが常に完全に相関しているという仮説を緩和する。
PDHPは、テキストクラスタ、時間クラスタ、あるいは両者の混合を、それらがそうでないときに高い精度で取得することができる。
PDHPはディリクレ・ホークス・プロセス (DHP) やユニフォーム・プロセス (UP) といった従来の作業の一般化を実証する。
最後に,pdhp が dhp と up で引き起こした変化を reddit データを用いた実世界アプリケーションで紹介する。 The textual content of a document and its publication date are intertwined. For example, the publication of a news article on a topic is influenced by previous publications on similar issues, according to underlying temporal dynamics. However, it can be challenging to retrieve meaningful information when textual information conveys little information or when temporal dynamics are hard to unveil. Furthermore, the textual content of a document is not always linked to its temporal dynamics. We develop a flexible method to create clusters of textual documents according to both their content and publication time, the Powered Dirichlet-Hawkes process (PDHP). We show PDHP yields significantly better results than state-of-the-art models when temporal information or textual content is weakly informative. The PDHP also alleviates the hypothesis that textual content and temporal dynamics are always perfectly correlated. PDHP allows retrieving textual clusters, temporal clusters, or a mixture of both with high accuracy when they are not. We demonstrate that PDHP generalizes previous work --such as the Dirichlet-Hawkes process (DHP) and Uniform process (UP). Finally, we illustrate the changes induced by PDHP over DHP and UP in a real-world application using Reddit data. | 翻訳日:2021-09-16 23:10:26 公開日:2021-09-15 |
# (参考訳) BioASQ9bにおけるFactoid Question Answeringのためのトランスフォーマーベース言語モデル Transformer-based Language Models for Factoid Question Answering at BioASQ9b ( http://arxiv.org/abs/2109.07185v1 ) ライセンス: CC BY 4.0 | Urvashi Khanna and Diego Moll\'a | (参考訳) 本稿では,生物医学的質問応答の課題であるbioasqタスク9bフェーズbにおける実験と参加システムについて述べる。
我々は, 理想的な答えを見つけることに注力し, トランスフォーマー型言語モデルにおけるマルチタスクの微調整と段階的凍結技術について検討した。
実のところ、ALBERTベースのシステムはテストバッチ1で1位、テストバッチ2で4位である。
我々のDistilBERTシステムは、ALBERTよりもパラメータが81%少ないにもかかわらず、テストバッチ4、5でALBERTの変種よりも優れていた。
しかし,標準的な微調整に比べ,段階的な凍結がモデルの精度に有意な影響を与えなかった。 In this work, we describe our experiments and participating systems in the BioASQ Task 9b Phase B challenge of biomedical question answering. We have focused on finding the ideal answers and investigated multi-task fine-tuning and gradual unfreezing techniques on transformer-based language models. For factoid questions, our ALBERT-based systems ranked first in test batch 1 and fourth in test batch 2. Our DistilBERT systems outperformed the ALBERT variants in test batches 4 and 5 despite having 81% fewer parameters than ALBERT. However, we observed that gradual unfreezing had no significant impact on the model's accuracy compared to standard fine-tuning. | 翻訳日:2021-09-16 22:51:52 公開日:2021-09-15 |
# (参考訳) 行動と計画を学ぶための目標言語(対帰納的バイアス) Target Languages (vs. Inductive Biases) for Learning to Act and Plan ( http://arxiv.org/abs/2109.07195v1 ) ライセンス: CC BY 4.0 | Hector Geffner | (参考訳) 最近のAIのブレークスルーは、深層学習と深層強化学習の驚くべき力を示している。
しかし、これらの発展は特定のタスクに結びついており、分布外一般化の進歩は制限されている。
これらの制限は適切な帰納バイアスを組み込むことで克服できると仮定されるが、帰納バイアス自体の概念は曖昧にされ、意味のあるガイダンスを提供しない。
本稿では、ニューラルネットワークにおけるバイアスから表現が生まれるのではなく、既知のセマンティクスを持つ特定のターゲット言語で学習される、異なる学習アプローチを明確に述べる。
基本概念は、一階述語論理の断片から確率的構造的因果モデルまで幅広い言語で表現が符号化された主流aiにおいて暗黙的である。
課題は、伝統的に手作業で作られた表現であるデータから学ぶことだ。
一般化は言語の意味論の結果である。
論文と講演の目的は、これらのアイデアを明確化し、対象言語の設計が不可欠である広い文脈に配置し、それらを行動と計画の学習の文脈で説明することである。
このために、一般的な議論の後、アクションの学習表現、一般的なポリシー、一般的な分解について検討する。
このような場合、学習は組合せ最適化問題として定式化されるが、深層学習技術の使用を妨げるものは何もない。
実際、既知のセマンティクスを持つ言語上の表現の学習は、何を学習すべきかを説明する一方で、ニューラルネットによる表現の学習は、表現の学習方法の補完的な説明を提供する。
課題と機会は、両者を団結させることです。 Recent breakthroughs in AI have shown the remarkable power of deep learning and deep reinforcement learning. These developments, however, have been tied to specific tasks, and progress in out-of-distribution generalization has been limited. While it is assumed that these limitations can be overcome by incorporating suitable inductive biases, the notion of inductive biases itself is often left vague and does not provide meaningful guidance. In the paper, I articulate a different learning approach where representations do not emerge from biases in a neural architecture but are learned over a given target language with a known semantics. The basic ideas are implicit in mainstream AI where representations have been encoded in languages ranging from fragments of first-order logic to probabilistic structural causal models. The challenge is to learn from data, the representations that have traditionally been crafted by hand. Generalization is then a result of the semantics of the language. The goals of the paper and talk are to make these ideas explicit, to place them in a broader context where the design of the target language is crucial, and to illustrate them in the context of learning to act and plan. For this, after a general discussion, I consider learning representations of actions, general policies, and general decompositions. In these cases, learning is formulated as a combinatorial optimization problem but nothing prevents the use deep learning techniques instead. Indeed, learning representations over languages with a known semantics provides an account of what is to be learned, while learning representations with neural nets provides a complementary account of how representations can be learned. The challenge and the opportunity is to bring the two together. | 翻訳日:2021-09-16 22:37:40 公開日:2021-09-15 |
# (参考訳) Misurata sub-dialectにおける歌の感性分析 -アラビア語サブ-dialectにおける感性検出 Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment Detection in an Arabic Sub-dialect ( http://arxiv.org/abs/2109.07203v1 ) ライセンス: CC BY 4.0 | Azza Abugharsa | (参考訳) この数十年間、アラビア語の自然言語処理のための資源の大幅な増加と発展がみられた。
これには、現代標準アラビア語(MSA)と異なるアラビア語方言のアラビア語発話からアラビア言語知覚分析(ALSA)を探索するタスクが含まれる。
本研究は,リビアのミシュラタで話されているミシュラタ・アラビア方言の詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
Logistic Regression, Random Forest, Naive Bayes (NB) と Support Vector Machines (SVM) は Sklearn で、Convolutional Neural Network (CNN) は Mazajak で実装されている。
その結果、従来の分類器は、ディープラーニング技術を含むアルゴリズムに基づいて構築されたMazajakに比べて精度が高いことがわかった。
これらの多行テキストにおける感情に寄与する側面、例えば比喩のような比喩的言語の使用を調査するために、アラビア語の副方言詩を分析するためにさらなる研究が提案されている。 Over the recent decades, there has been a significant increase and development of resources for Arabic natural language processing. This includes the task of exploring Arabic Language Sentiment Analysis (ALSA) from Arabic utterances in both Modern Standard Arabic (MSA) and different Arabic dialects. This study focuses on detecting sentiment in poems written in Misurata Arabic sub-dialect spoken in Misurata, Libya. The tools used to detect sentiment from the dataset are Sklearn as well as Mazajak sentiment tool 1. Logistic Regression, Random Forest, Naive Bayes (NB), and Support Vector Machines (SVM) classifiers are used with Sklearn, while the Convolutional Neural Network (CNN) is implemented with Mazajak. The results show that the traditional classifiers score a higher level of accuracy as compared to Mazajak which is built on an algorithm that includes deep learning techniques. More research is suggested to analyze Arabic sub-dialect poetry in order to investigate the aspects that contribute to sentiments in these multi-line texts; for example, the use of figurative language such as metaphors. | 翻訳日:2021-09-16 22:21:53 公開日:2021-09-15 |
# (参考訳) オープンリレーション抽出のための関係指向クラスタリング手法 A Relation-Oriented Clustering Method for Open Relation Extraction ( http://arxiv.org/abs/2109.07205v1 ) ライセンス: CC BY 4.0 | Jun Zhao, Tao Gui, Qi Zhang, and Yaqian Zhou | (参考訳) クラスタリングに基づく非教師付き関係発見法は,オープンリレーション抽出(openre)の重要な手法の一つである。
しかし、高次元ベクトルは複雑な言語情報をエンコードできるため、派生したクラスタが関係意味クラスと明示的に一致できないという問題を引き起こす。
本研究では,関係指向クラスタリングモデルを提案し,それを用いてラベルなしデータの新たな関係を同定する。
具体的には、モデルが関係データのクラスタ化を学べるように、あらかじめ定義された関係のラベル付きデータを利用して関係指向表現を学習する。
同じ関係を持つインスタンス間の距離を最小化するために、インスタンスを対応する関係センタロイドに向けて集めてクラスタ構造を形成し、学習した表現がクラスタフレンドリになるようにします。
事前定義されたクラスにおけるクラスタリングバイアスを低減するため、ラベル付きデータとラベルなしデータの両方で共同目的を最小化することにより、モデルを最適化する。
実験の結果,従来のSOTA法と比較して,2つのデータセットで誤差率を29.2%,15.7%削減できることがわかった。 The clustering-based unsupervised relation discovery method has gradually become one of the important methods of open relation extraction (OpenRE). However, high-dimensional vectors can encode complex linguistic information which leads to the problem that the derived clusters cannot explicitly align with the relational semantic classes. In this work, we propose a relation-oriented clustering model and use it to identify the novel relations in the unlabeled data. Specifically, to enable the model to learn to cluster relational data, our method leverages the readily available labeled data of pre-defined relations to learn a relation-oriented representation. We minimize distance between the instance with same relation by gathering the instances towards their corresponding relation centroids to form a cluster structure, so that the learned representation is cluster-friendly. To reduce the clustering bias on predefined classes, we optimize the model by minimizing a joint objective on both labeled and unlabeled data. Experimental results show that our method reduces the error rate by 29.2% and 15.7%, on two datasets respectively, compared with current SOTA methods. | 翻訳日:2021-09-16 22:06:09 公開日:2021-09-15 |
# (参考訳) 空間変調ODMのための機械学習パラダイムに基づくチャネル推定 Channel Estimation Based on Machine Learning Paradigm for Spatial Modulation OFDM ( http://arxiv.org/abs/2109.07208v1 ) ライセンス: CC BY 4.0 | Ahmed M. Badi, Taissir Y. Elganimi, Osama A. S. Alkishriwo, and Nadia Adem | (参考訳) 本稿では,dnn(deep neural network)とsm-ofdm(spatial modulation-orthogonal frequency division multiplexing)技術を統合し,レイリーフェージングチャネル上でのエンドツーエンドデータ検出を行う。
提案システムは受信したシンボルを直接復調し,チャネル推定を暗黙的に行う。
また,本システムにはアンサンブルネットワークも提案されている。
シミュレーションの結果,提案手法はパイロットオーバヘッドとサイクリックプレフィックス(CP)の低減に際し,複雑なチャネル条件の学習と調整が可能なため,従来の手法に比べて大きな優位性を有することがわかった。
最後に,アンサンブルネットワークにより提案手法の一般化が促進され,性能も若干改善された。 In this paper, deep neural network (DNN) is integrated with spatial modulation-orthogonal frequency division multiplexing (SM-OFDM) technique for end-to-end data detection over Rayleigh fading channel. This proposed system directly demodulates the received symbols, leaving the channel estimation done only implicitly. Furthermore, an ensemble network is also proposed for this system. Simulation results show that the proposed DNN detection scheme has a significant advantage over classical methods when the pilot overhead and cyclic prefix (CP) are reduced, owing to its ability to learn and adjust to complicated channel conditions. Finally, the ensemble network is shown to improve the generalization of the proposed scheme, while also showing a slight improvement in its performance. | 翻訳日:2021-09-16 21:50:46 公開日:2021-09-15 |
# (参考訳) E}fficient{BERT}: ウォームアップ知識蒸留による多層パーセプトロンのプログレッシブ検索 {E}fficient{BERT}: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation ( http://arxiv.org/abs/2109.07222v1 ) ライセンス: CC BY 4.0 | Chenhe Dong, Guangrun Wang, Hang Xu, Jiefeng Peng, Xiaozhe Ren, Xiaodan Liang | (参考訳) 事前学習された言語モデルは様々なnlpタスクで顕著な結果を示している。
それにもかかわらず、その大きなサイズと推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善は、FFNの計算コストがMHAの2$\sim$3倍であることから、マルチヘッドアテンション(MHA)の改善よりも高い利得が得られるという批判的な洞察を得る。
したがって,よりコンパクトなBERTでは,従来のMHAに注目する作業とは対照的に,効率的なFFNの設計に重点を置いている。
FFNは、BERT最適化に不可欠な多層パーセプトロン(MLP)から構成されるため、さらに高度なMLPに向けて徹底的な探索空間を設計し、効率的なBERTアーキテクチャを探索するための粗大な機構を実行する。
さらに,モデル転送可能性の向上と探索の促進を目的として,探索段階ごとに新しいウォームアップ知識蒸留戦略を採用する。
検索したEfficientBERTは6.9$\times$小さく、4.4$\times$はBERT$\rm_{BASE}$より高速で、GLUEおよびSQuADベンチマーク上での競合性能を持つ。
具体的には、EfficientBERTは、GLUE \emph{test}で平均スコア77.7、MobileBERT$\rm_{TINY}$より0.7、SQuAD v1.1/v2.0 \emph{dev}で85.3/74.5、TinyBERT$_4$でも3.2/2.7に達する。
コードはhttps://github.com/cheneydon/ efficient-bertでリリースされる。 Pre-trained language models have shown remarkable results on various NLP tasks. Nevertheless, due to their bulky size and slow inference speed, it is hard to deploy them on edge devices. In this paper, we have a critical insight that improving the feed-forward network (FFN) in BERT has a higher gain than improving the multi-head attention (MHA) since the computational cost of FFN is 2$\sim$3 times larger than MHA. Hence, to compact BERT, we are devoted to designing efficient FFN as opposed to previous works that pay attention to MHA. Since FFN comprises a multilayer perceptron (MLP) that is essential in BERT optimization, we further design a thorough search space towards an advanced MLP and perform a coarse-to-fine mechanism to search for an efficient BERT architecture. Moreover, to accelerate searching and enhance model transferability, we employ a novel warm-up knowledge distillation strategy at each search stage. Extensive experiments show our searched EfficientBERT is 6.9$\times$ smaller and 4.4$\times$ faster than BERT$\rm_{BASE}$, and has competitive performances on GLUE and SQuAD Benchmarks. Concretely, EfficientBERT attains a 77.7 average score on GLUE \emph{test}, 0.7 higher than MobileBERT$\rm_{TINY}$, and achieves an 85.3/74.5 F1 score on SQuAD v1.1/v2.0 \emph{dev}, 3.2/2.7 higher than TinyBERT$_4$ even without data augmentation. The code is released at https://github.com/cheneydon/efficient-bert. | 翻訳日:2021-09-16 21:44:27 公開日:2021-09-15 |
# (参考訳) 歌詞はどれくらい重要か?
抑うつリスクのある個人に対する叙情的単純性選好の分析 How Much do Lyrics Matter? Analysing Lyrical Simplicity Preferences for Individuals At Risk of Depression ( http://arxiv.org/abs/2109.07227v1 ) ライセンス: CC BY 4.0 | Jaidev Shriram, Sreeharsha Paruchuri and Vinoo Alluri | (参考訳) 音楽は影響を受け、時には感情的な状態を反映する。
この影響の鍵となるのは、トラックの音響特性とともに歌詞と意味である。
近年の研究では、これらの音響特性の分析に焦点が当てられ、うつ病に苦しむ人は、主に低原子価と低エネルギーの音楽を消費していることが示されている。
しかし、そのような個人のオンライン音楽消費に関して、歌詞コンテンツ嗜好についてはまだ研究されていない。
本研究は,テキストの圧縮性と絶対的情報量として測定された歌詞の単純さを,うつ病リスクのある個人の嗜好と関連づけて検討する。
541 last.fmユーザーの6ヶ月のリスニング履歴を用いて、(リスクのない)ユーザーのうつ病のリスク(リスク)と分類されたユーザーの歌詞的単純さの傾向を比較した。
その結果,at-riskの個人は平均して情報量が多い曲(低圧縮性)を好むことが明らかとなった。
さらに,At-Riskの個人は聴取履歴の絶対情報コンテンツの多様性も高いことがわかった。
抑うつに関連する音楽習慣と自然発生するオンライン音楽リスニング行動との関連について,既存の社会心理学的研究室による研究から考察する。 Music affects and in some cases reflects one's emotional state. Key to this influence is lyrics and their meaning in conjunction with the acoustic properties of the track. Recent work has focused on analysing these acoustic properties and showing that individuals prone to depression primarily consume low valence and low energy music. However, no studies yet have explored lyrical content preferences in relation to online music consumption of such individuals. In the current study, we examine lyrical simplicity, measured as the Compressibility and Absolute Information Content of the text, associated with preferences of individuals at risk for depression. Using the six-month listening history of 541 Last.fm users, we compare lyrical simplicity trends for users grouped as being at risk (At-Risk) of depression from those that are not (No-Risk). Our findings reveal that At-Risk individuals prefer songs with greater information content (lower Compressibility) on average, especially for songs characterised as Sad. Furthermore, we found that At-Risk individuals also have greater variability of Absolute Information Content across their listening history. We discuss the results in light of existing socio-psychological lab-based research on music habits associated with depression and their relevance to naturally occurring online music listening behaviour. | 翻訳日:2021-09-16 21:24:34 公開日:2021-09-15 |
# (参考訳) IoT行動に影響を与えるIoT(Internet of Behavior, IoB)と説明可能なAIシステム Internet of Behavior (IoB) and Explainable AI Systems for Influencing IoT Behavior ( http://arxiv.org/abs/2109.07239v1 ) ライセンス: CC BY 4.0 | Haya Elayan and Moayad Aloqaily and Mohsen Guizani | (参考訳) パンデミックや自然災害は人々の行動を変え、あらゆる生活に多大な影響を与えてきた。
それぞれの時代に利用可能な技術によって、政府、組織、企業はこれらの技術を使って個人の行動を追跡し、制御し、影響を与えてきた。
今日、IoT(Internet of Things)、クラウドコンピューティング、人工知能(AI)の使用により、IoTの振る舞いを変化させることで、ユーザの動作を追跡し、変更することが容易になった。
この記事では、IoT行動の変更プロセスにおける信頼性と明確なエクスペリエンスを提供し、最終的にはユーザの行動を改善するための、行動のインターネット(IoB)の概念と、説明可能なAI(XAI)技術との統合を紹介し、議論する。
そこで,利用者の消費行動に影響を与え,消費電力とコストを削減しようとする電力消費のユースケースにおいて,iobとxaiに基づくシステムを提案する。
その結果、200時間にわたる原消費と比較すると、522.2kwのアクティブ電力が減少した。
また、同期間の総電力コストは95.04ユーロであった。
さらに、グローバルアクティブパワーの低下は、正相関による電力強度を減少させる。 Pandemics and natural disasters over the years have changed the behavior of people, which has had a tremendous impact on all life aspects. With the technologies available in each era, governments, organizations, and companies have used these technologies to track, control, and influence the behavior of individuals for a benefit. Nowadays, the use of the Internet of Things (IoT), cloud computing, and artificial intelligence (AI) have made it easier to track and change the behavior of users through changing IoT behavior. This article introduces and discusses the concept of the Internet of Behavior (IoB) and its integration with Explainable AI (XAI) techniques to provide trusted and evident experience in the process of changing IoT behavior to ultimately improving users' behavior. Therefore, a system based on IoB and XAI has been proposed in a use case scenario of electrical power consumption that aims to influence user consuming behavior to reduce power consumption and cost. The scenario results showed a decrease of 522.2 kW of active power when compared to original consumption over a 200-hours period. It also showed a total power cost saving of 95.04 Euro for the same period. Moreover, decreasing the global active power will reduce the power intensity through the positive correlation. | 翻訳日:2021-09-16 21:12:07 公開日:2021-09-15 |
# (参考訳) 機械翻訳品質評価のための回帰アンサンブル Regressive Ensemble for Machine Translation Quality Evaluation ( http://arxiv.org/abs/2109.07242v1 ) ライセンス: CC BY 4.0 | Michal \v{S}tef\'anik and V\'it Novotn\'y and Petr Sojka | (参考訳) 本研究は,一組の新規かつ確立されたメトリクスに基づいて機械翻訳品質を評価するための単純な回帰アンサンブルを導入する。
我々は,WMT 2021 MetricsワークショップのエキスパートベースのMQMスコアと相関してアンサンブルを評価する。
モノリンガルおよびゼロショットのクロスリンガル設定では、単一のメトリクスよりも大幅にパフォーマンスが向上しています。
言語横断的な設定では、アンサンブルアプローチが目に見えない言語に適用可能であることも示している。
さらに,一般に使用されているBLEUとMETEORの指標を一貫して上回り,アンサンブルの性能を大幅に向上させる強力な参照フリーベースラインを同定する。 This work introduces a simple regressive ensemble for evaluating machine translation quality based on a set of novel and established metrics. We evaluate the ensemble using a correlation to expert-based MQM scores of the WMT 2021 Metrics workshop. In both monolingual and zero-shot cross-lingual settings, we show a significant performance improvement over single metrics. In the cross-lingual settings, we also demonstrate that an ensemble approach is well-applicable to unseen languages. Furthermore, we identify a strong reference-free baseline that consistently outperforms the commonly-used BLEU and METEOR measures and significantly improves our ensemble's performance. | 翻訳日:2021-09-16 21:01:06 公開日:2021-09-15 |
# (参考訳) トランスファーコンテクスト埋め込みによる臨床情報抽出の促進 Enhancing Clinical Information Extraction with Transferred Contextual Embeddings ( http://arxiv.org/abs/2109.07243v1 ) ライセンス: CC BY-SA 4.0 | Zimin Wan, Chenchen Xu, Hanna Suominen | (参考訳) トランスフォーマ(bert)モデルからの双方向エンコーダ表現は多くの自然言語処理(nlp)タスクで最先端のパフォーマンスを達成している。
しかし、バイオメディカルや臨床NLPの応用などにおいて、対象ドメインがトレーニング前のコーパスから移行する際の有効性の研究に限定的な研究が貢献している。
本稿では,病院情報抽出(ie)タスクを広く研究し,その性能をトランスファー学習環境下で分析した。
私たちのアプリケーションは、既存のieモデルと比べ、明確なマージンで新しい最先端の結果になりました。
特に,この看護ハンドオーバデータセットでは,我々のモデルによるマクロ平均f1スコアは0.438であり,これまでの最良深層学習モデルでは0.416であった。
その結果,BERTをベースとした事前学習モデルは,温和な条件下で適切な微調整プロセスで健康関連文書に転送可能であることがわかった。 The Bidirectional Encoder Representations from Transformers (BERT) model has achieved the state-of-the-art performance for many natural language processing (NLP) tasks. Yet, limited research has been contributed to studying its effectiveness when the target domain is shifted from the pre-training corpora, for example, for biomedical or clinical NLP applications. In this paper, we applied it to a widely studied a hospital information extraction (IE) task and analyzed its performance under the transfer learning setting. Our application became the new state-of-the-art result by a clear margin, compared with a range of existing IE models. Specifically, on this nursing handover data set, the macro-average F1 score from our model was 0.438, whilst the previous best deep learning models had 0.416. In conclusion, we showed that BERT based pre-training models can be transferred to health-related documents under mild conditions and with a proper fine-tuning process. | 翻訳日:2021-09-16 20:49:45 公開日:2021-09-15 |
# (参考訳) NRサイドリンクによるセルネットワークにおけるセンシングと通信の統合 Integrating Sensing and Communication in Cellular Networks via NR Sidelink ( http://arxiv.org/abs/2109.07253v1 ) ライセンス: CC BY 4.0 | Dariush Salami, Ramin Hasibi, Stefano Savazzi, Tom Michoel, and Stephan Sigg | (参考訳) 受信電磁信号における運動・環境パターンの解析・解釈であるrfセンシングは,10年以上にわたって活発に研究されてきた。
電磁信号は、セルラー通信システムを通じて全能化されているため、RFセンシングは、スマートホーム、小売、ローカライゼーション、ジェスチャー認識、侵入検知などの応用において、普遍的なセンシングメカニズムとなる可能性がある。
具体的には、既存のセルラーネットワークのインストールは、通信とセンシングの両方に使用することができる。
このようなコミュニケーションと感覚の収束は、将来の通信ネットワークのために想定される。
我々は5gセル通信システムにおいてデバイスイニシアティブでフレキシブルなセンシングを実現するためのnr-sidelink直接デバイス間通信の利用を提案する。
本稿では,その角度と回転依存性の側面リンクに基づくrfセンシングに関する共通問題について検討する。
特に、回転不変量を達成するmmwave点雲データの変換や、そのような回転不変量入力に基づく分散処理について、角度や距離の異なるデバイスで論じる。
分散データを処理するために,データの時空間的特徴を捉えるグラフベースのエンコーダを提案し,多角学習のための4つのアプローチを提案する。
これらのアプローチは、新たに記録された15名の被験者からなるデータセットで比較され、8つの角度から21のジェスチャーが記録される。 RF-sensing, the analysis and interpretation of movement or environment-induced patterns in received electromagnetic signals, has been actively investigated for more than a decade. Since electromagnetic signals, through cellular communication systems, are omnipresent, RF sensing has the potential to become a universal sensing mechanism with applications in smart home, retail, localization, gesture recognition, intrusion detection, etc. Specifically, existing cellular network installations might be dual-used for both communication and sensing. Such communications and sensing convergence is envisioned for future communication networks. We propose the use of NR-sidelink direct device-to-device communication to achieve device-initiated,flexible sensing capabilities in beyond 5G cellular communication systems. In this article, we specifically investigate a common issue related to sidelink-based RF-sensing, which is its angle and rotation dependence. In particular, we discuss transformations of mmWave point-cloud data which achieve rotational invariance, as well as distributed processing based on such rotational invariant inputs, at angle and distance diverse devices. To process the distributed data, we propose a graph based encoder to capture spatio-temporal features of the data and propose four approaches for multi-angle learning. The approaches are compared on a newly recorded and openly available dataset comprising 15 subjects, performing 21 gestures which are recorded from 8 angles. | 翻訳日:2021-09-16 20:40:34 公開日:2021-09-15 |
# (参考訳) 不均質環境における分子特性のフェデレート学習 Federated Learning of Molecular Properties in a Heterogeneous Setting ( http://arxiv.org/abs/2109.07258v1 ) ライセンス: CC BY 4.0 | Wei Zhu, Andrew White, Jiebo Luo | (参考訳) 化学研究は、実験を行うための高い材料と計算コストを持っている。
このように、機関は化学データの価値を考慮し、機械学習のための大規模な公開データセットを構築する努力はほとんどない。
もう一つの課題は、異なる直観が異なる分子のクラスに興味を持ち、従来の分散トレーニングでは簡単に結合できない異種データを生成することである。
本稿では,これらの課題に対処するために,フェデレート不均質分子学習を導入する。
連合学習により、エンドユーザは、孤立したクライアントに分散したトレーニングデータを保存しながら、グローバルなモデルを協調的に構築できる。
関連研究の欠如により、我々は最初にフェデレーテッドヘテロジニアスベンチマークであるFedChemをシミュレートした。
fedchemは、既存のデータセット上で足場分割と潜在ディリクレ割り当てを共同で実行する。
FedChemの研究では、異種分子を扱う際に大きな学習課題が生じることを示した。
次に,この問題を緩和する手法,すなわちインスタンス重み付けによるフェデレーション学習(flit)を提案する。
FLITは、不確実なサンプルの性能を向上させることにより、異種クライアント間のローカルトレーニングを調整できる。
新しいベンチマークfeedchemを用いた包括的実験により,この手法が他のフェデレート学習方式よりも優れていることを検証した。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。 Chemistry research has both high material and computational costs to conduct experiments. Institutions thus consider chemical data to be valuable and there have been few efforts to construct large public datasets for machine learning. Another challenge is that different intuitions are interested in different classes of molecules, creating heterogeneous data that cannot be easily joined by conventional distributed training. In this work, we introduce federated heterogeneous molecular learning to address these challenges. Federated learning allows end-users to build a global model collaboratively while preserving the training data distributed over isolated clients. Due to the lack of related research, we first simulate a federated heterogeneous benchmark called FedChem. FedChem is constructed by jointly performing scaffold splitting and Latent Dirichlet Allocation on existing datasets. Our results on FedChem show that significant learning challenges arise when working with heterogeneous molecules. We then propose a method to alleviate the problem, namely Federated Learning by Instance reweighTing (FLIT). FLIT can align the local training across heterogeneous clients by improving the performance for uncertain samples. Comprehensive experiments conducted on our new benchmark FedChem validate the advantages of this method over other federated learning schemes. FedChem should enable a new type of collaboration for improving AI in chemistry that mitigates concerns about valuable chemical data. | 翻訳日:2021-09-16 20:15:53 公開日:2021-09-15 |
# (参考訳) NBcoded:リソース制限デバイスのためのEncoderとNaive Bayesモデルに基づくネットワーク攻撃分類器 NBcoded: network attack classifiers based on Encoder and Naive Bayes model for resource limited devices ( http://arxiv.org/abs/2109.07273v1 ) ライセンス: CC BY 4.0 | Lander Segurola-Gil, Francesco Zola, Xabier Echeberria-Barrio and Raul Orduna-Urrutia | (参考訳) 近年,サイバーセキュリティの関連性が高まり,攻撃や侵入の検出が重要なタスクに転換されている。
実際、システム、アプリケーション、あるいはネットワークの小さな侵害は、企業に大きなダメージを与える可能性がある。
しかし、この攻撃検出が人工知能パラダイムに遭遇すると、計算やメモリ使用に関して高いリソース要求を必要とする高品質の分類器を使って対処できる。
この状況は、攻撃分類器が限られたリソースデバイスで使用される必要がある場合や、IoTデバイスや産業システムで発生するようなデバイスのパフォーマンスを過負荷にすることなく、大きな影響を与える。
この問題を克服するために、nbcodedという新しい光攻撃分類ツールが提案されている。
NBcodedは、エンコーダのノイズの多いデータ特性と低リソースの除去と、ネイブベイズ分類器が取得したタイミング消費を組み合わせたパイプラインで動作する。
この研究は、3つの異なるナイーブベイズ確率分布仮定(gaussian, complement, bernoulli)に基づいて3つのnbcoded実装を比較する。
次に、最高のNBcodedは、Multilayer PerceptronやRandom Forestのようなアート分類器の状態と比較される。
我々の実装は、トレーニング時間とディスク使用量の影響を、たとえ他の2つよりも精度とF1スコア(約2%)が優れているとしても、最高のモデルであることが示されています。 In the recent years, cybersecurity has gained high relevance, converting the detection of attacks or intrusions into a key task. In fact, a small breach in a system, application, or network, can cause huge damage for the companies. However, when this attack detection encounters the Artificial Intelligence paradigm, it can be addressed using high-quality classifiers which often need high resource demands in terms of computation or memory usage. This situation has a high impact when the attack classifiers need to be used with limited resourced devices or without overloading the performance of the devices, as it happens for example in IoT devices, or in industrial systems. For overcoming this issue, NBcoded, a novel light attack classification tool is proposed in this work. NBcoded works in a pipeline combining the removal of noisy data properties of the encoders with the low resources and timing consuming obtained by the Naive Bayes classifier. This work compares three different NBcoded implementations based on three different Naive Bayes likelihood distribution assumptions (Gaussian, Complement and Bernoulli). Then, the best NBcoded is compared with state of the art classifiers like Multilayer Perceptron and Random Forest. Our implementation shows to be the best model reducing the impact of training time and disk usage, even if it is outperformed by the other two in terms of Accuracy and F1-score (~ 2%). | 翻訳日:2021-09-16 19:59:17 公開日:2021-09-15 |
# (参考訳) DROMO: オフラインモデルに基づく政策最適化の分散ロバスト化 DROMO: Distributionally Robust Offline Model-based Policy Optimization ( http://arxiv.org/abs/2109.07275v1 ) ライセンス: CC BY 4.0 | Ruizhen Liu, Dazhi Zhong, Zhicong Chen | (参考訳) モデルベース制御によるオフライン強化学習の問題点について考察し,その課題は,経験リプレイからダイナミクスモデルを学び,学習モデルの下で悲観主義指向エージェントを得ることである。
現在のモデルベースの制約には明確な不確実性ペナルティと暗黙の保守的正規化が含まれており、これは分配外状態-作用対のQ値を押し下げ、分配外状態-作用対を下げる。
前者が依存する不確実性推定は、複雑な力学に対して緩やかに校正できるが、後者は若干改善されている。
不確実性定量化を伴わない正規化の基本的な考え方を拡張するために,分散的ロバストな最適化のアイデアを活用した分散的ロバストなオフラインモデルに基づくポリシー最適化(dromo)を提案する。
理論的には,提案手法は基本的方針評価の下位境界を最適化し,既存の政策勾配アルゴリズムに組み込むことができる。
また,dromoの線形および非線形インスタンス化の理論特性も解析した。 We consider the problem of offline reinforcement learning with model-based control, whose goal is to learn a dynamics model from the experience replay and obtain a pessimism-oriented agent under the learned model. Current model-based constraint includes explicit uncertainty penalty and implicit conservative regularization that pushes Q-values of out-of-distribution state-action pairs down and the in-distribution up. While the uncertainty estimation, on which the former relies on, can be loosely calibrated for complex dynamics, the latter performs slightly better. To extend the basic idea of regularization without uncertainty quantification, we propose distributionally robust offline model-based policy optimization (DROMO), which leverages the ideas in distributionally robust optimization to penalize a broader range of out-of-distribution state-action pairs beyond the standard empirical out-of-distribution Q-value minimization. We theoretically show that our method optimizes a lower bound on the ground-truth policy evaluation, and it can be incorporated into any existing policy gradient algorithms. We also analyze the theoretical properties of DROMO's linear and non-linear instantiations. | 翻訳日:2021-09-16 19:47:02 公開日:2021-09-15 |
# (参考訳) 局所的および大域的文脈の協調モデリングによる教師なしキーフレーズ抽出 Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context ( http://arxiv.org/abs/2109.07293v1 ) ライセンス: CC BY 4.0 | Xinnian Liang and Shuangzhi Wu and Mu Li and Zhoujun Li | (参考訳) 埋め込みベースのメソッドはunsupervised keyphrase extraction (uke)タスクで広く使われている。
一般に、これらの手法は、フレーズ埋め込みと文書埋め込みの類似性を単純に計算するが、より効果的な UKE モデルのために異なる文脈を捉えるには不十分である。
本稿では,地域とグローバルのコンテキストを共同でモデル化するUKEの新しい手法を提案する。
グローバルな視点から、遷移埋め込みに基づくモデルのように、あるフレーズとベクトル空間のドキュメント全体の類似性を計算する。
局所的視点の観点では,まず句を頂点とし,エッジが頂点間の類似性を示す文書に基づいてグラフ構造を構築する。
そこで本研究では,グラフ構造に基づく局所的サルエント情報をキャプチャする新しい集中性計算手法を提案する。
最後に、グローバルコンテキストとローカルコンテキストのモデリングをランキングのために組み合わせます。
Inspec, DUC 2001, SemEval 2010の3つの公開ベンチマークでモデルを評価し, 既存の最先端モデルと比較した。
その結果,我々のモデルは,ドメインや長さの異なる入力文書を一般化しながら,ほとんどのモデルよりも優れていた。
追加のアブレーション研究により、局所情報とグローバル情報の両方が教師なしキーフレーズ抽出タスクに不可欠であることが示されている。 Embedding based methods are widely used for unsupervised keyphrase extraction (UKE) tasks. Generally, these methods simply calculate similarities between phrase embeddings and document embedding, which is insufficient to capture different context for a more effective UKE model. In this paper, we propose a novel method for UKE, where local and global contexts are jointly modeled. From a global view, we calculate the similarity between a certain phrase and the whole document in the vector space as transitional embedding based models do. In terms of the local view, we first build a graph structure based on the document where phrases are regarded as vertices and the edges are similarities between vertices. Then, we proposed a new centrality computation method to capture local salient information based on the graph structure. Finally, we further combine the modeling of global and local context for ranking. We evaluate our models on three public benchmarks (Inspec, DUC 2001, SemEval 2010) and compare with existing state-of-the-art models. The results show that our model outperforms most models while generalizing better on input documents with different domains and length. Additional ablation study shows that both the local and global information is crucial for unsupervised keyphrase extraction tasks. | 翻訳日:2021-09-16 19:45:53 公開日:2021-09-15 |
# (参考訳) 視覚言語モデルがシーンを見る「見る」とは何か What Vision-Language Models `See' when they See Scenes ( http://arxiv.org/abs/2109.07301v1 ) ライセンス: CC BY 4.0 | Michele Cafagna, Kees van Deemter and Albert Gatt | (参考訳) 画像は、それらが含むオブジェクトや、それらがインスタンス化するシーンや場所のタイプによって記述することができる。
本稿では,事前学習されたビジョンモデルと言語モデルが,両タイプの記述と画像との整合性について述べる。
VisualBERT、LXMERT、CLIPの3つの最先端モデルを比較した。
私たちはそれを見つけ
(i)V&Lモデルは、事前訓練中に得られる様式的バイアスに影響を受けやすい。
(ii) CLIP はオブジェクトレベルの記述とシーンレベルの記述の両方で一貫して機能する。
後続のアブレーション研究は、CLIPが視覚的モダリティのオブジェクトレベル情報を用いてシーンレベルのテキスト記述と整合していることを示している。 Images can be described in terms of the objects they contain, or in terms of the types of scene or place that they instantiate. In this paper we address to what extent pretrained Vision and Language models can learn to align descriptions of both types with images. We compare 3 state-of-the-art models, VisualBERT, LXMERT and CLIP. We find that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) only CLIP performs consistently well on both object- and scene-level descriptions. A follow-up ablation study shows that CLIP uses object-level information in the visual modality to align with scene-level textual descriptions. | 翻訳日:2021-09-16 19:34:43 公開日:2021-09-15 |
# (参考訳) MD-CSDNetwork:ディープフェイク検出のためのマルチドメインクロスステッチネットワーク MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake Detection ( http://arxiv.org/abs/2109.07311v1 ) ライセンス: CC BY 4.0 | Aayushi Agarwal, Akshay Agarwal, Sayan Sinha, Mayank Vatsa, Richa Singh | (参考訳) ソーシャルプラットフォーム上で超現実的メディアを作成・拡散する容易さの急速な進歩は、汎用的なディープフェイク検出技術の開発を緊急に要求する。
現在のディープフェイク生成法は、偽画像やビデオの周波数スペクトルに識別的アーティファクトを残すことが観察されている。
本稿では,この観察に触発されて,空間領域と周波数領域の特徴を組み合わせて,<textit{deepfakes} を分類するための共有識別表現を探索する,md-csdnetworkと呼ばれる新しい手法を提案する。
MD-CSDNetworkは、空間情報と周波数情報をそれぞれ持つ2つの並列分岐を持つ、新しいクロススティッチネットワークである。
我々は、これらのマルチドメイン入力データストリームを関連する監視信号とみなすことができると仮定する。
両方のブランチの監督により、パフォーマンスと一般化が向上する。
さらに、クロススティッチ接続の概念は、2つのブランチの間に挿入され、他のドメインからドメイン固有表現と共有表現の最適な組み合わせを学習するために使われる。
一般的なベンチマークデータセットであるfaceforeniscs++ for forgery分類に関する広範な実験が行われた。
Celeb-DFデータセットとDeepfake Detection Datasetのクロスデータベース評価のための最先端手法を用いて、FaceForensics++データセットの操作タイプと同等の結果を報告した。 The rapid progress in the ease of creating and spreading ultra-realistic media over social platforms calls for an urgent need to develop a generalizable deepfake detection technique. It has been observed that current deepfake generation methods leave discriminative artifacts in the frequency spectrum of fake images and videos. Inspired by this observation, in this paper, we present a novel approach, termed as MD-CSDNetwork, for combining the features in the spatial and frequency domains to mine a shared discriminative representation for classifying \textit{deepfakes}. MD-CSDNetwork is a novel cross-stitched network with two parallel branches carrying the spatial and frequency information, respectively. We hypothesize that these multi-domain input data streams can be considered as related supervisory signals. The supervision from both branches ensures better performance and generalization. Further, the concept of cross-stitch connections is utilized where they are inserted between the two branches to learn an optimal combination of domain-specific and shared representations from other domains automatically. Extensive experiments are conducted on the popular benchmark dataset namely FaceForeniscs++ for forgery classification. We report improvements over all the manipulation types in FaceForensics++ dataset and comparable results with state-of-the-art methods for cross-database evaluation on the Celeb-DF dataset and the Deepfake Detection Dataset. | 翻訳日:2021-09-16 19:18:41 公開日:2021-09-15 |
# (参考訳) 分散フリーコンテキスト動的価格設定 Distribution-free Contextual Dynamic Pricing ( http://arxiv.org/abs/2109.07340v1 ) ライセンス: CC BY 4.0 | Yiyun Luo and Will Wei Sun and and Yufeng Liu | (参考訳) context dynamic pricingは、顧客とのシーケンシャルなインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。
各期間に、製品を購入することに興味のある顧客がプラットフォームにやってくる。
製品に対する顧客の評価は、製品や顧客機能を含むコンテキストの線形関数と、無作為な市場のノイズである。
売り手は顧客の真のバリュエーションを観察しないが、文脈情報と歴史的なバイナリ購入フィードバックを活用することでバリュエーションを学ぶ必要がある。
既存のモデルは通常、ランダムノイズ分布の完全または部分的な知識を仮定する。
本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。
我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。
提案手法の重要な要素は、市場ノイズの探索と現在の知識の活用のバランスをとるために、改良された線形上層信頼度境界アルゴリズムが提案される、新しい摂動線形バンディットフレームワークである。
我々は,線形バンディットフレームワークにおいて,当社のポリシーの上限と下限の一致を定式化し,検討した価格問題に拘束された下限の後悔を証明した。
最後に,シミュレーションと実生活のオートローアンデータセットに関するポリシーの優れた性能を示す。 Contextual dynamic pricing aims to set personalized prices based on sequential interactions with customers. At each time period, a customer who is interested in purchasing a product comes to the platform. The customer's valuation for the product is a linear function of contexts, including product and customer features, plus some random market noise. The seller does not observe the customer's true valuation, but instead needs to learn the valuation by leveraging contextual information and historical binary purchase feedbacks. Existing models typically assume full or partial knowledge of the random noise distribution. In this paper, we consider contextual dynamic pricing with unknown random noise in the valuation model. Our distribution-free pricing policy learns both the contextual function and the market noise simultaneously. A key ingredient of our method is a novel perturbed linear bandit framework, where a modified linear upper confidence bound algorithm is proposed to balance the exploration of market noise and the exploitation of the current knowledge for better pricing. We establish the regret upper bound and a matching lower bound of our policy in the perturbed linear bandit framework and prove a sub-linear regret bound in the considered pricing problem. Finally, we demonstrate the superior performance of our policy on simulations and a real-life auto-loan dataset. | 翻訳日:2021-09-16 19:05:35 公開日:2021-09-15 |
# (参考訳) mi{\dh}eindのwmt 2021の提出 Mi{\dh}eind's WMT 2021 submission ( http://arxiv.org/abs/2109.07343v1 ) ライセンス: CC BY 4.0 | Haukur Barri S\'imonarson, V\'esteinn Sn{\ae}bjarnarson, P\'etur Orri Ragnarsson, Haukur P\'all J\'onsson and Vilhj\'almur {\TH}orsteinsson | (参考訳) 我々は2021年のwmtニュース翻訳タスクの英語$\to$icelandic とアイスランド語$\to$ english の部分集合に対する mi{\dh}eind の提出について述べる。
トランスフォーマーベースモデルは並列データの変換のために訓練され、反復的にバックトランスレーションを生成する。
事前訓練されたmBART-25モデルは、最後のバックトランスレーションの繰り返しと同様に、並列データを用いた翻訳に適合する。
この適応事前学習モデルを用いて、逆翻訳を再現し、適応モデルのトレーニングを継続する。 We present Mi{\dh}eind's submission for the English$\to$Icelandic and Icelandic$\to$English subsets of the 2021 WMT news translation task. Transformer-base models are trained for translation on parallel data to generate backtranslations iteratively. A pretrained mBART-25 model is then adapted for translation using parallel data as well as the last backtranslation iteration. This adapted pretrained model is then used to re-generate backtranslations, and the training of the adapted model is continued. | 翻訳日:2021-09-16 19:02:37 公開日:2021-09-15 |
# (参考訳) 地震データにおけるランダムノイズ抑圧のための自己教師ネットワークの可能性 The potential of self-supervised networks for random noise suppression in seismic data ( http://arxiv.org/abs/2109.07344v1 ) ライセンス: CC BY 4.0 | Claire Birnie, Matteo Ravasi, Tariq Alkhalifah, Sixiu Liu | (参考訳) 騒音抑制は地震処理ワークフローにおいて不可欠なステップである。
このノイズの一部は、特にランドデータセットでランダムノイズとして表現される。
近年、ニューラルネットワークは、監視された方法で地震データをノイズ化するのに成功している。
しかし、教師あり学習には、トレーニング用にノイズの多いクリーンなデータペアを持つという、しばしば達成不可能な要件が伴う。
盲点ネットワークを用いて、周囲の雑音サンプルを用いて中央サンプルのノイズフリー値を推定する自己監督手順として、デノナイジングタスクを再定義する。
ノイズがサンプル間で統計的に独立であるという仮定に基づいて、ネットワークはランダム性のためにサンプルのノイズ成分を予測するのに苦労し、信号成分は時空間的コヒーレンシーのために正確に予測される。
合成例として、ブラインド・スポット・ネットワークは、信号に最小限のダメージを与えるランダムノイズによって汚染された地震データの効率的なデノイザーであることが示され、インバージョンのような画像領域とダウンザラインタスクの改善が提供される。
本研究の結論として,提案手法をフィールドデータに適用し,FXデコンボリューションとCurvelet変換の2つのランダムな復調手法と比較した。
盲点ネットワークがランダムノイズの効率的な抑制要因であることを実証することにより、地震探査における自己教師あり学習の活用の始まりにすぎないと信じている。 Noise suppression is an essential step in any seismic processing workflow. A portion of this noise, particularly in land datasets, presents itself as random noise. In recent years, neural networks have been successfully used to denoise seismic data in a supervised fashion. However, supervised learning always comes with the often unachievable requirement of having noisy-clean data pairs for training. Using blind-spot networks, we redefine the denoising task as a self-supervised procedure where the network uses the surrounding noisy samples to estimate the noise-free value of a central sample. Based on the assumption that noise is statistically independent between samples, the network struggles to predict the noise component of the sample due to its randomnicity, whilst the signal component is accurately predicted due to its spatio-temporal coherency. Illustrated on synthetic examples, the blind-spot network is shown to be an efficient denoiser of seismic data contaminated by random noise with minimal damage to the signal; therefore, providing improvements in both the image domain and down-the-line tasks, such as inversion. To conclude the study, the suggested approach is applied to field data and the results are compared with two commonly used random denoising techniques: FX-deconvolution and Curvelet transform. By demonstrating that blind-spot networks are an efficient suppressor of random noise, we believe this is just the beginning of utilising self-supervised learning in seismic applications. | 翻訳日:2021-09-16 18:56:37 公開日:2021-09-15 |
# (参考訳) ELITR ECAコーパス The ELITR ECA Corpus ( http://arxiv.org/abs/2109.07351v1 ) ライセンス: CC BY 4.0 | Philip Williams and Barry Haddow | (参考訳) 欧州監査裁判所の出版物から派生した多言語コーパスであるelitr ecaコーパスを提案する。
自動翻訳とbleualignを用いて,506種類の翻訳方向の並列文対を識別する。
264k文書対と41.9M文対からなるコーパスである。 We present the ELITR ECA corpus, a multilingual corpus derived from publications of the European Court of Auditors. We use automatic translation together with Bleualign to identify parallel sentence pairs in all 506 translation directions. The result is a corpus comprising 264k document pairs and 41.9M sentence pairs. | 翻訳日:2021-09-16 18:41:10 公開日:2021-09-15 |
# (参考訳) モジュラーニューラル常微分方程式 Modular Neural Ordinary Differential Equations ( http://arxiv.org/abs/2109.07359v1 ) ライセンス: CC0 1.0 | Max Zhu, Prof. P Lio, Jacob Moss | (参考訳) 物理学の法則は、何世紀にもわたって dif-ferential equation で書かれてきた。
neural ordinary differenten-tial equation(ノード)は、これらの微分方程式をデータセットから学習できる新しい機械学習アーキテクチャである。
これらは、Lagrangian Neural Net-works(LNN)とSecond Order Neural Differential Equations(SONODE)という形式での古典力学シミュレーションに適用されている。
しかし、それらは運動の最も一般的な方程式を表現できないか、解釈不可能である。
本稿では,各力成分を別々のモジュールで学習するモジュール型ニューラルネットワークodeを提案する。
これらのモデルに物理的な事前情報を組み込む方法を示す。
多くの実験を通じて、これらの結果がより優れたパフォーマンスをもたらし、より解釈しやすく、モジュール性によって柔軟性が増すことを実証した。 The laws of physics have been written in the language of dif-ferential equations for centuries. Neural Ordinary Differen-tial Equations (NODEs) are a new machine learning architecture which allows these differential equations to be learned from a dataset. These have been applied to classical dynamics simulations in the form of Lagrangian Neural Net-works (LNNs) and Second Order Neural Differential Equations (SONODEs). However, they either cannot represent the most general equations of motion or lack interpretability. In this paper, we propose Modular Neural ODEs, where each force component is learned with separate modules. We show how physical priors can be easily incorporated into these models. Through a number of experiments, we demonstrate these result in better performance, are more interpretable, and add flexibility due to their modularity. | 翻訳日:2021-09-16 18:36:03 公開日:2021-09-15 |
# (参考訳) インクリメンタルトランスフォーマーに向けて:インクリメンタルnluのためのトランスフォーマーモデルの実証分析 Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU ( http://arxiv.org/abs/2109.07364v1 ) ライセンス: CC BY 4.0 | Patrick Kahardipraja, Brielen Madureira, David Schlangen | (参考訳) インクリメンタルな処理により、対話システムは部分的な入力に基づいて応答することができる。
現在人気のTransformerアーキテクチャは本質的にシーケンス全体を処理し、時間の概念を抽象化している。
最近の作業では、再起動と増分を繰り返すことでトランスフォーマーを不規則なモデルに繰り返し適用し、より長い入力プレフィックスで部分出力を生成しようとする試みが行われている。
しかし、このアプローチは計算コストが高く、長いシーケンスでは効率的にスケールしない。
並行して、リニア変圧器(lt)のように再帰機構を持つ変圧器をより効率的にするための取り組みを目撃する。
本研究では,インクリメンタルNLUにおけるLTの有効性について検討する。
本結果から,再帰型LTモデルでは,非インクリメンタル(フルシーケンス)の品質を犠牲にしつつ,再帰型LTモデルでは,通常のTransformerやLTに比べてインクリメンタルな性能と推論速度が向上していることがわかった。
結果にコミットする前に適切なコンテキストを待つようにモデルをトレーニングすることで、パフォーマンス低下を軽減でき、入力プレフィックスによるトレーニングは正しい部分アウトプットを提供するのに有用であることを示す。 Incremental processing allows interactive systems to respond based on partial inputs, which is a desirable property e.g. in dialogue agents. The currently popular Transformer architecture inherently processes sequences as a whole, abstracting away the notion of time. Recent work attempts to apply Transformers incrementally via restart-incrementality by repeatedly feeding, to an unchanged model, increasingly longer input prefixes to produce partial outputs. However, this approach is computationally costly and does not scale efficiently for long sequences. In parallel, we witness efforts to make Transformers more efficient, e.g. the Linear Transformer (LT) with a recurrence mechanism. In this work, we examine the feasibility of LT for incremental NLU in English. Our results show that the recurrent LT model has better incremental performance and faster inference speed compared to the standard Transformer and LT with restart-incrementality, at the cost of part of the non-incremental (full sequence) quality. We show that the performance drop can be mitigated by training the model to wait for right context before committing to an output and that training with input prefixes is beneficial for delivering correct partial outputs. | 翻訳日:2021-09-16 18:19:32 公開日:2021-09-15 |
# (参考訳) 直接・スパース変形追跡 Direct and Sparse Deformable Tracking ( http://arxiv.org/abs/2109.07370v1 ) ライセンス: CC BY 4.0 | Jose Lamarca, Juan J. Gomez Rodriguez, Juan D. Tardos and J.M.M. Montiel | (参考訳) 変形可能なモノクロSLAMアルゴリズムは、未知の変形可能な環境でのカメラのローカライゼーションを回復する。
現在のアプローチでは、テンプレートベースの変形可能なトラッキングを使用して、カメラのポーズとマップの変形を回復する。
これらのテンプレートベースの方法は、基盤となるグローバル変形モデルを使用する。
本稿では,各点の局所的変形モデルを用いた新しい変形可能なカメラトラッキング手法を提案する。
各マップポイントは、他のマップポイントとは独立に動く単一のテクスチャ付きサーフェルとして定義される。
直接測光誤差コスト関数により、明示的な大域的変形モデルなしで、サーベイルの位置と向きを追跡することができる。
実験では,提案手法の有効性を検証し,実験室が制御した実験と非等方的変形を行う物体内シナリオにおいて,局所変形モデルにより地図の標的変形をより正確に,頑健に推定する。 Deformable Monocular SLAM algorithms recover the localization of a camera in an unknown deformable environment. Current approaches use a template-based deformable tracking to recover the camera pose and the deformation of the map. These template-based methods use an underlying global deformation model. In this paper, we introduce a novel deformable camera tracking method with a local deformation model for each point. Each map point is defined as a single textured surfel that moves independently of the other map points. Thanks to a direct photometric error cost function, we can track the position and orientation of the surfel without an explicit global deformation model. In our experiments, we validate the proposed system and observe that our local deformation model estimates more accurately and robustly the targeted deformations of the map in both laboratory-controlled experiments and in-body scenarios undergoing non-isometric deformations, with changing topology or discontinuities. | 翻訳日:2021-09-16 17:58:26 公開日:2021-09-15 |
# (参考訳) 自己学習でシームズネットワークをロバストに説明 Self-learn to Explain Siamese Networks Robustly ( http://arxiv.org/abs/2109.07371v1 ) ライセンス: CC BY 4.0 | Chao Chen, Yifan Shen, Guixiang Ma, Xiangnan Kong, Srinivas Rangarajan, Xi Zhang, Sihong Xie | (参考訳) 2つのオブジェクトを比較するための学習は、デジタル法医学、顔認識、ブレインネットワーク分析など、特にラベル付きデータの不足や不均衡といったアプリケーションで必須です。
これらのアプリケーションは、高い意思決定を行い、公平さや透明性といった社会的な価値を伴うため、学習したモデルを説明することが重要です。
本研究の目的は,学習中に広く用いられているシャムネットワーク(sn)のポストホックな説明を比較検討することである。
1つの入力インスタンスを持つアーキテクチャとは対照的に、SNにおける比較対象の追加による勾配に基づく説明の不安定性を特徴付ける。
本稿では,自己学習を用いたラベルなしデータから大域的不分散を導出し,特定のクエリ参照ペアに適した局所的説明の安定性を促進する最適化フレームワークを提案する。
最適化問題は、制約付き最適化のための勾配降下度(GDA)や、KL偏差正規化非制約最適化のためのSGDを用いて、収束証明(特にシームズアーキテクチャによる目的関数が非凸である場合)を用いて解くことができる。
神経科学と化学工学のグラフデータおよびグラフデータに関する定量的研究は、このフレームワークが自己学習した不変性を尊重し、説明の忠実さと単純さを強く最適化していることを示している。
さらに,gdaの収束を実験的に実証する。 Learning to compare two objects are essential in applications, such as digital forensics, face recognition, and brain network analysis, especially when labeled data is scarce and imbalanced. As these applications make high-stake decisions and involve societal values like fairness and transparency, it is critical to explain the learned models. We aim to study post-hoc explanations of Siamese networks (SN) widely used in learning to compare. We characterize the instability of gradient-based explanations due to the additional compared object in SN, in contrast to architectures with a single input instance. We propose an optimization framework that derives global invariance from unlabeled data using self-learning to promote the stability of local explanations tailored for specific query-reference pairs. The optimization problems can be solved using gradient descent-ascent (GDA) for constrained optimization, or SGD for KL-divergence regularized unconstrained optimization, with convergence proofs, especially when the objective functions are nonconvex due to the Siamese architecture. Quantitative results and case studies on tabular and graph data from neuroscience and chemical engineering show that the framework respects the self-learned invariance while robustly optimizing the faithfulness and simplicity of the explanation. We further demonstrate the convergence of GDA experimentally. | 翻訳日:2021-09-16 17:43:49 公開日:2021-09-15 |
# (参考訳) 話題転送可能なテーブル質問応答 Topic Transferable Table Question Answering ( http://arxiv.org/abs/2109.07377v1 ) ライセンス: CC BY 4.0 | Saneem Ahmed Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Jaydeep Sen, Mustafa Canim, Soumen Chakrabarti, Alfio Gliozzo, Karthik Sankaranarayanan | (参考訳) 弱教師付きテーブル質問回答(TableQA)モデルは、事前学習されたBERT変換器を用いて質問とテーブルを共同で符号化し、質問のための構造化クエリを生成することにより、最先端のパフォーマンスを実現している。
しかし、実際の設定では、TableQA システムは BERT の事前学習コーパスとは全く異なるトピックと単語の分布を持つテーブルコーパス上に展開される。
本研究は, WikiSQL と WikiTableQuestions のデータセットをベースとして, 5つの異なるトピックグループからなるトレインデフテスト分割からなる新しい課題ベンチマーク WikiSQL-TS と WikiTQ-TS を設計することで, 実践的なトピックシフトシナリオをシミュレートする。
大規模オープンドメインのテキストを事前学習しているにもかかわらず、モデルの性能は未認識のトピックで評価すると著しく低下する。
これに対し,T3QA(Topic Transferable Table Question Answering)は,(1)トピック固有の語彙をBERTに注入する,(2)トピック固有のトレーニングデータを生成することに焦点を当てた,新たなテキストからテキストへのトランスフォーマー生成(T5,GPT2)ベースの自然言語質問生成パイプライン,(3)論理形式再帰という,テーブルQAの実用的な適応フレームワークを提案する。
トピックシフトベンチマークのベースラインとして,t3qaが適度に適しています。
当社のトピック分割ベンチマークは,実用的なデプロイメントに適した堅牢なTableQAソリューションにつながると思います。 Weakly-supervised table question-answering(TableQA) models have achieved state-of-art performance by using pre-trained BERT transformer to jointly encoding a question and a table to produce structured query for the question. However, in practical settings TableQA systems are deployed over table corpora having topic and word distributions quite distinct from BERT's pretraining corpus. In this work we simulate the practical topic shift scenario by designing novel challenge benchmarks WikiSQL-TS and WikiTQ-TS, consisting of train-dev-test splits in five distinct topic groups, based on the popular WikiSQL and WikiTableQuestions datasets. We empirically show that, despite pre-training on large open-domain text, performance of models degrades significantly when they are evaluated on unseen topics. In response, we propose T3QA (Topic Transferable Table Question Answering) a pragmatic adaptation framework for TableQA comprising of: (1) topic-specific vocabulary injection into BERT, (2) a novel text-to-text transformer generator (such as T5, GPT2) based natural language question generation pipeline focused on generating topic specific training data, and (3) a logical form reranker. We show that T3QA provides a reasonably good baseline for our topic shift benchmarks. We believe our topic split benchmarks will lead to robust TableQA solutions that are better suited for practical deployment. | 翻訳日:2021-09-16 17:22:37 公開日:2021-09-15 |
# (参考訳) ranknas: ペアワイズランキングによる効率的なニューラルネットワーク検索 RankNAS: Efficient Neural Architecture Search by Pairwise Ranking ( http://arxiv.org/abs/2109.07383v1 ) ライセンス: CC BY 4.0 | Chi Hu, Chenglong Wang, Xiangnan Ma, Xia Meng, Yinqiao Li, Tong Xiao, Jingbo Zhu, Changliang Li | (参考訳) 本稿では,課題をランキング問題として定式化することにより,ニューラルネットワーク探索(nas)の効率問題に対処する。
以前の手法では、アーキテクチャの正確なパフォーマンスを推定するために多くのトレーニング例を必要としていたが、実際の目標は「良い」候補と「悪い」候補の区別を見つけることである。
ここでは、パフォーマンス予測に頼らない。
代わりに,ペアランキングを用いたパフォーマンスランキング手法(RankNAS)を提案する。
より少ないトレーニング例を使って、効率的なアーキテクチャ検索を可能にする。
さらに,探索空間を創り出し,より有望な候補に集中するためのアーキテクチャ選択手法を開発した。
機械翻訳と言語モデリングタスクに関する大規模な実験により、RangNASは最先端のNASシステムよりも桁違いに高速で高性能なアーキテクチャを設計できることが示された。 This paper addresses the efficiency challenge of Neural Architecture Search (NAS) by formulating the task as a ranking problem. Previous methods require numerous training examples to estimate the accurate performance of architectures, although the actual goal is to find the distinction between "good" and "bad" candidates. Here we do not resort to performance predictors. Instead, we propose a performance ranking method (RankNAS) via pairwise ranking. It enables efficient architecture search using much fewer training examples. Moreover, we develop an architecture selection method to prune the search space and concentrate on more promising candidates. Extensive experiments on machine translation and language modeling tasks show that RankNAS can design high-performance architectures while being orders of magnitude faster than state-of-the-art NAS systems. | 翻訳日:2021-09-16 17:05:28 公開日:2021-09-15 |
# (参考訳) MELTにおける変圧器とのマッチング Matching with Transformers in MELT ( http://arxiv.org/abs/2109.07401v1 ) ライセンス: CC BY 4.0 | Sven Hertling, Jan Portisch, Heiko Paulheim | (参考訳) オントロジーと知識グラフの自動マッチングのための最も強力な信号の1つは、概念のテキスト記述である。
一般的に適用される方法(文字やトークンベースの比較など)は比較的単純であり、したがってテキストの実際の意味を捉えない。
トランスフォーマーベースの言語モデルの増加に伴い、意味に基づくテキスト比較(語彙的特徴ではなく)が可能となる。
本稿では,オントロジマッチングタスクを分類問題としてモデル化し,トランスフォーマーモデルに基づくアプローチを提案する。
また,オントロジーや知識グラフマッチングに適したMELTフレームワークの実装も容易である。
変換器ベースのフィルタは,高リコールアライメントが与えられた場合の正しい対応を選択するのに役立ち,簡単なアライメント後処理ですでに良好な結果が得られることを示す。 One of the strongest signals for automated matching of ontologies and knowledge graphs are the textual descriptions of the concepts. The methods that are typically applied (such as character- or token-based comparisons) are relatively simple, and therefore do not capture the actual meaning of the texts. With the rise of transformer-based language models, text comparison based on meaning (rather than lexical features) is possible. In this paper, we model the ontology matching task as classification problem and present approaches based on transformer models. We further provide an easy to use implementation in the MELT framework which is suited for ontology and knowledge graph matching. We show that a transformer-based filter helps to choose the correct correspondences given a high-recall alignment and already achieves a good result with simple alignment post-processing methods. | 翻訳日:2021-09-16 16:49:48 公開日:2021-09-15 |
# (参考訳) BERTはロバスト!
テキスト分類における同義語対応事例の1例 BERT is Robust! A Case Against Synonym-Based Adversarial Examples in Text Classification ( http://arxiv.org/abs/2109.07403v1 ) ライセンス: CC BY 4.0 | Jens Hauser, Zhao Meng, Dami\'an Pascual, Roger Wattenhofer | (参考訳) ディープニューラルネットワークは、自然言語処理をstormに取り入れている。
これは多くのタスクにまたがって驚くべき改善をもたらしたが、同時に新たな研究分野を開始し、これらのニューラルネットワークを攻撃することによって堅牢性に疑問を投げかけた。
本稿では,BERTに対する4つの単語置換に基づく攻撃について検討する。
個人単語置換の人間による評価と確率論的分析を組み合わせることで、分析された攻撃の96%から99%が意味論を保存していないことを示す。
さらに,本研究は,効率的なデータ拡張手順を導入し,トレーニング中に攻撃に類似したデータを含めることで,多くの逆例を防止できることを示す。
追加の処理ステップは、最先端攻撃の成功率を5%以下にする。
最後に、単語置換の制約に関するより合理的なしきい値を調べることで、BERTは攻撃の研究が示唆するよりもはるかに堅牢である、と結論付ける。 Deep Neural Networks have taken Natural Language Processing by storm. While this led to incredible improvements across many tasks, it also initiated a new research field, questioning the robustness of these neural networks by attacking them. In this paper, we investigate four word substitution-based attacks on BERT. We combine a human evaluation of individual word substitutions and a probabilistic analysis to show that between 96% and 99% of the analyzed attacks do not preserve semantics, indicating that their success is mainly based on feeding poor data to the model. To further confirm that, we introduce an efficient data augmentation procedure and show that many adversarial examples can be prevented by including data similar to the attacks during training. An additional post-processing step reduces the success rates of state-of-the-art attacks below 5%. Finally, by looking at more reasonable thresholds on constraints for word substitutions, we conclude that BERT is a lot more robust than research on attacks suggests. | 翻訳日:2021-09-16 16:39:23 公開日:2021-09-15 |
# (参考訳) CAMul: マルチビュー時系列予測の校正と精度 CAMul: Calibrated and Accurate Multi-view Time-Series Forecasting ( http://arxiv.org/abs/2109.07438v1 ) ライセンス: CC BY 4.0 | Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang, B. Aditya Prakash | (参考訳) 確率的時系列予測は、多くの領域にわたる信頼できる意思決定を可能にする。
ほとんどの予測問題には、複数のモダリティと構造を含む多様なデータ源がある。
十分な校正と正確な予測のために、これらのデータソースから情報を活用することだけでなく、不確実性も重要な課題である。
マルチモーダル学習と予測に関するこれまでのほとんどの作業は、要約や結合の単純な方法によって、各データビューから中間表現を単純に集約し、各データビューに対する不確実性を明示的にモデル化するものではない。
本稿では,多様なデータソースから表現や不確実性を学習できる汎用確率的多視点予測フレームワークCAMulを提案する。
各データビューからの知識と不確実性を動的コンテキスト特有の方法で統合し、適切に調整された予測分布をモデル化するために有用なビューをより重要視する。
我々はCAMulを様々なソースとモダリティを持つ複数のドメインに使用し、CAMulが他の最先端確率予測モデルよりも精度とキャリブレーションが25倍高いことを示す。 Probabilistic time-series forecasting enables reliable decision making across many domains. Most forecasting problems have diverse sources of data containing multiple modalities and structures. Leveraging information as well as uncertainty from these data sources for well-calibrated and accurate forecasts is an important challenging problem. Most previous work on multi-modal learning and forecasting simply aggregate intermediate representations from each data view by simple methods of summation or concatenation and do not explicitly model uncertainty for each data-view. We propose a general probabilistic multi-view forecasting framework CAMul, that can learn representations and uncertainty from diverse data sources. It integrates the knowledge and uncertainty from each data view in a dynamic context-specific manner assigning more importance to useful views to model a well-calibrated forecast distribution. We use CAMul for multiple domains with varied sources and modalities and show that CAMul outperforms other state-of-art probabilistic forecasting models by over 25\% in accuracy and calibration. | 翻訳日:2021-09-16 16:25:45 公開日:2021-09-15 |
# (参考訳) WikiGUM:12世代で暗号化されたエンティティリンク WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres ( http://arxiv.org/abs/2109.07449v1 ) ライセンス: CC BY 4.0 | Jessica Lin, Amir Zeldes | (参考訳) エンティティリンクに関する以前の研究は、ウィキペディアのデータ、すなわちウィキフィケーション(wikification)でよく見られる、ネストのない固有な名前付きエンティティ参照をターゲットにしたリソースに焦点を当ててきた。
本稿では, WikiGUMについて, 名前のない, プロノミナルな言及を含む, 名前付きエンティティの言及をすべて網羅した, 完全精巧なデータセットを提示し, 評価する。
このデータセットは12種類のテキストと音声のジャンルをカバーしており、そのほとんどはエンティティリンクに含まれておらず、事前学習されたsomaシステムによるパフォーマンスが低下している。
同じデータに対するさまざまなアノテーションが利用可能になったことで、コンテキスト内のエンティティに関するさらなる研究が可能になる。 Previous work on Entity Linking has focused on resources targeting non-nested proper named entity mentions, often in data from Wikipedia, i.e. Wikification. In this paper, we present and evaluate WikiGUM, a fully wikified dataset, covering all mentions of named entities, including their non-named and pronominal mentions, as well as mentions nested within other mentions. The dataset covers a broad range of 12 written and spoken genres, most of which have not been included in Entity Linking efforts to date, leading to poor performance by a pretrained SOTA system in our evaluation. The availability of a variety of other annotations for the same data also enables further research on entities in context. | 翻訳日:2021-09-16 16:02:04 公開日:2021-09-15 |
# (参考訳) 視覚表現のコントラスト学習のためのdeep bregman divergence Deep Bregman Divergence for Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2109.07455v1 ) ライセンス: CC BY 4.0 | Mina Rezaei, Farzin Soleymani, Bernd Bischl, Shekoofeh Azizi | (参考訳) ディープブレグマンダイバージェンス(deep bregman divergence)は、ユークリッド距離を超えて分布上のダイバージェンスを捉えることができるニューラルネットワークを用いてデータポイントのダイバージェンスを測定する。
本稿では,視覚表現のコントラスト学習のためのディープブレグマン・ダイバージェンスを提案し,関数ブレグマン・ダイバージェンスに基づく追加ネットワークの訓練により,自己教師付き学習におけるコントラスト損失の増大を目指す。
単一点間の相違のみに基づく従来のコントラスト学習法とは対照的に,本フレームワークは学習表現の質を向上させる分布間の相違を捉えることができる。
提案手法は,従来のコントラスト損失と発散損失を組み合わせることで,複数の分類や対象検出タスクやデータセットにおける自己教師あり・半教師あり学習のベースラインおよびほとんどの手法に勝る。
このメソッドのソースコードとすべての実験は補足的に利用できる。 Deep Bregman divergence measures divergence of data points using neural networks which is beyond Euclidean distance and capable of capturing divergence over distributions. In this paper, we propose deep Bregman divergences for contrastive learning of visual representation and we aim to enhance contrastive loss used in self-supervised learning by training additional networks based on functional Bregman divergence. In contrast to the conventional contrastive learning methods which are solely based on divergences between single points, our framework can capture the divergence between distributions which improves the quality of learned representation. By combining conventional contrastive loss with the proposed divergence loss, our method outperforms baseline and most of previous methods for self-supervised and semi-supervised learning on multiple classifications and object detection tasks and datasets. The source code of the method and of all the experiments are available at supplementary. | 翻訳日:2021-09-16 15:52:29 公開日:2021-09-15 |
# (参考訳) コントラスト評価における最小ペアの限界について On the Limits of Minimal Pairs in Contrastive Evaluation ( http://arxiv.org/abs/2109.07465v1 ) ライセンス: CC BY 4.0 | Jannis Vamvas and Rico Sennrich | (参考訳) 最小文ペアは言語モデルの振る舞いを分析するために頻繁に使用される。
対照的なペアのモデル挙動は、モデル挙動を概して予測するものであるとしばしば仮定される。
第一に、テストされた仮説は、比較的な評価が偽陽性につながることを実験が示しているので、十分に動機づけられるべきである。
第2に,評価時間とデプロイメント時間の分布的不一致を最小限に抑えるようなテストデータを選択する必要がある。
デプロイ時のデコーディングを適切に近似するために、人間による参照ではなく、マシン生成したテキストに基づいて最小のペアを作成することを推奨する。
本稿では,このレコメンデーションを実装した英語-ドイツ語 MT のコントラスト評価スイートを提案する。 Minimal sentence pairs are frequently used to analyze the behavior of language models. It is often assumed that model behavior on contrastive pairs is predictive of model behavior at large. We argue that two conditions are necessary for this assumption to hold: First, a tested hypothesis should be well-motivated, since experiments show that contrastive evaluation can lead to false positives. Secondly, test data should be chosen such as to minimize distributional discrepancy between evaluation time and deployment time. For a good approximation of deployment-time decoding, we recommend that minimal pairs are created based on machine-generated text, as opposed to human-written references. We present a contrastive evaluation suite for English-German MT that implements this recommendation. | 翻訳日:2021-09-16 15:33:58 公開日:2021-09-15 |
# 言語モデルのデトックス化の課題 Challenges in Detoxifying Language Models ( http://arxiv.org/abs/2109.07445v1 ) ライセンス: Link先を確認 | Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth Dathathri, John Mellor, Lisa Anne Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, Po-Sen Huang | (参考訳) 大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質を計測し保証することは、実世界におけるLMの展開に不可欠であり、このために、先行研究はしばしばLM毒性の自動評価に頼っている。
我々はこのアプローチを批判的に議論し, 自動評価と人間評価の両方に関していくつかの毒性緩和戦略を評価し, モデルバイアスとlm品質の観点から毒性緩和の結果を分析する。
基本的な介入戦略は、RealToxicityPromptsデータセット上で確立された自動メトリクスを効果的に最適化することができるが、これは、疎化されたグループに関するテキストと方言の両方に対するLMカバレッジを減らすコストが伴う。
さらに,強い毒性低減介入後の自動毒性スコアには,人手がしばしば一致しない傾向がみられ,lm毒性の慎重な評価に関わるニュアンスがさらに強調された。 Large language models (LM) generate remarkably fluent text and can be efficiently adapted across NLP tasks. Measuring and guaranteeing the quality of generated text in terms of safety is imperative for deploying LMs in the real world; to this end, prior work often relies on automatic evaluation of LM toxicity. We critically discuss this approach, evaluate several toxicity mitigation strategies with respect to both automatic and human evaluation, and analyze consequences of toxicity mitigation in terms of model bias and LM quality. We demonstrate that while basic intervention strategies can effectively optimize previously established automatic metrics on the RealToxicityPrompts dataset, this comes at the cost of reduced LM coverage for both texts about, and dialects of, marginalized groups. Additionally, we find that human raters often disagree with high automatic toxicity scores after strong toxicity reduction interventions -- highlighting further the nuances involved in careful evaluation of LM toxicity. | 翻訳日:2021-09-16 15:21:28 公開日:2021-09-15 |
# 文の書き換えと順序変更による文書レベルのパラフレーズ生成 Towards Document-Level Paraphrase Generation with Sentence Rewriting and Reordering ( http://arxiv.org/abs/2109.07095v1 ) ライセンス: Link先を確認 | Zhe Lin, Yitao Cai and Xiaojun Wan | (参考訳) パラフレーズ生成は自然言語処理において重要なタスクである。
以前の研究は文レベルのパラフレーズ生成に重点を置いているが、ドキュメントレベルのパラフレーズ生成は無視している。
本稿では,文書レベルのパラフレーズ生成のタスクを初めて検討し,文の書き換えと順序変更を考慮し,文間多様性に着目した。
本稿では,グラフ gru を利用してコヒーレンス関係グラフを符号化し,各文のコヒーレンス認識表現を得るコーパス(coherence relationship guided paraphrase generation)を提案する。
訓練用擬似文書レベルのパラフレーズデータセットを作成する。
自動評価の結果、CoRPGはBERTSスコアと多様性スコアでいくつかの強力なベースラインモデルを上回っている。
ヒトの評価はまた、より多様性と意味的保存を伴う文書パラファーゼを生成できることを示した。 Paraphrase generation is an important task in natural language processing. Previous works focus on sentence-level paraphrase generation, while ignoring document-level paraphrase generation, which is a more challenging and valuable task. In this paper, we explore the task of document-level paraphrase generation for the first time and focus on the inter-sentence diversity by considering sentence rewriting and reordering. We propose CoRPG (Coherence Relationship guided Paraphrase Generation), which leverages graph GRU to encode the coherence relationship graph and get the coherence-aware representation for each sentence, which can be used for re-arranging the multiple (possibly modified) input sentences. We create a pseudo document-level paraphrase dataset for training CoRPG. Automatic evaluation results show CoRPG outperforms several strong baseline models on the BERTScore and diversity scores. Human evaluation also shows our model can generate document paraphrase with more diversity and semantic preservation. | 翻訳日:2021-09-16 15:20:30 公開日:2021-09-15 |
# マルチホップ依存トリガーに基づく低リソース名前付きエンティティ認識 Low-Resource Named Entity Recognition Based on Multi-hop Dependency Trigger ( http://arxiv.org/abs/2109.07118v1 ) ライセンス: Link先を確認 | Jiangxu Wu | (参考訳) 本稿では,マルチホップ依存トリガに基づく低リソースなエンティティ認識(NER)において,シンプルかつ効果的なアプローチを提案する。
依存性トリガは、コンテキスト文の依存関係グラフ内のエンティティに対するサルエントノードを参照する。
我々の主な観察は、文中の実体の位置や種類を認識する上で重要な役割を果たすトリガーが存在することである。
これまでの研究ではトリガーの手動ラベリングを使用してきた。
私たちの主な貢献は、自動アノテートトリガに構文パーサを使うことです。
2つの英語データセット(CONLL 2003 と BC5CDR)の実験により、提案手法は以前のトリガーベース NER モデルに匹敵することを示した。 This paper presents a simple and effective approach in low-resource named entity recognition (NER) based on multi-hop dependency trigger. Dependency trigger refer to salient nodes relative to a entity in the dependency graph of a context sentence. Our main observation is that there often exists trigger which play an important role to recognize the location and type of entity in sentence. Previous research has used manual labelling of trigger. Our main contribution is to propose use a syntactic parser to automatically annotate trigger. Experiments on two English datasets (CONLL 2003 and BC5CDR) show that the proposed method is comparable to the previous trigger-based NER model. | 翻訳日:2021-09-16 15:20:12 公開日:2021-09-15 |
# シンボル出現のためのマルチエージェントマルチモーダル分類:対人的クロスモーダル推論による創発的コミュニケーション Multiagent Multimodal Categorization for Symbol Emergence: Emergent Communication via Interpersonal Cross-modal Inference ( http://arxiv.org/abs/2109.07194v1 ) ライセンス: Link先を確認 | Yoshinobu Hagiwara, Kazuma Furukawa, Akira Taniguchi, and Tadahiro Taniguchi | (参考訳) 本稿では,創発的コミュニケーションを実現するマルチエージェントマルチモーダル分類の計算モデルについて述べる。
命名ゲームを行う2つの感覚の異なるエージェントからなるシンボル出現システムにおいて,この計算モデルが次の機能を再現できるかどうかを明らかにする。
1)個々の学習およびエージェント間のセミオティックコミュニケーションを通じてエージェントによって形成される知覚カテゴリと対応する符号からなる共有語彙システムを形成する機能。
2) 各エージェントの感覚的モダリティが欠落している場合でも,他のエージェントとのセミオティックコミュニケーションを通じて,エージェントの分類精度を向上させる。
(3) エージェントは、他のエージェントから採取された記号に基づいて、クロスモーダル推論と同様に、未観測の感覚情報を推論する機能。
2つのジリクレ混合物(dms)を統合することにより得られる積分的確率的生成モデルから導出する対人的マルチモーダルジリクレ混合物(inter-mdm)を提案する。
マルコフ連鎖モンテカルロアルゴリズムは創発的通信を実現する。
実験の結果,Inter-MDMはエージェント間のサインを適切に共有し,マルチモーダルカテゴリを形成することができることがわかった。
創発的コミュニケーションは,いくつかの感覚的モダリティが欠如している場合でも,分類精度を向上させる。
インターMDMにより、エージェントは共有サインに基づいて観測されていない情報を予測できる。 This paper describes a computational model of multiagent multimodal categorization that realizes emergent communication. We clarify whether the computational model can reproduce the following functions in a symbol emergence system, comprising two agents with different sensory modalities playing a naming game. (1) Function for forming a shared lexical system that comprises perceptual categories and corresponding signs, formed by agents through individual learning and semiotic communication between agents. (2) Function to improve the categorization accuracy in an agent via semiotic communication with another agent, even when some sensory modalities of each agent are missing. (3) Function that an agent infers unobserved sensory information based on a sign sampled from another agent in the same manner as cross-modal inference. We propose an interpersonal multimodal Dirichlet mixture (Inter-MDM), which is derived by dividing an integrative probabilistic generative model, which is obtained by integrating two Dirichlet mixtures (DMs). The Markov chain Monte Carlo algorithm realizes emergent communication. The experimental results demonstrated that Inter-MDM enables agents to form multimodal categories and appropriately share signs between agents. It is shown that emergent communication improves categorization accuracy, even when some sensory modalities are missing. Inter-MDM enables an agent to predict unobserved information based on a shared sign. | 翻訳日:2021-09-16 15:20:02 公開日:2021-09-15 |
# 不均衡データセットの対話音声感情分類 Dialog speech sentiment classification for imbalanced datasets ( http://arxiv.org/abs/2109.07228v1 ) ライセンス: Link先を確認 | Sergis Nicolaou, Lambros Mavrides, Georgina Tryfou, Kyriakos Tolias, Konstantinos Panousis, Sotirios Chatzis, Sergios Theodoridis | (参考訳) 音声は人間の感情を表現する最も一般的な方法であり、感情分析はこれらの感情の極性を特定するために自然言語処理や計算アルゴリズムなどのツールを使用する。
この領域は過去20年間に大きく進歩してきたが、さまざまな種類のデータセットで表される感情を効果的に検出する作業は、依然として難しい課題である。
本稿では,短対話発話の単一・二モーダル分析を用いて,感情検出に寄与する主要な要因,特に表現不足クラスにおいて,感情成分を含まないデータセットについて考察する。
さらに、学習率スケジューラと異なる監視基準を用いて、SWITCHBOARDの不均衡感情データセットの最先端結果を提供するアーキテクチャを提案する。 Speech is the most common way humans express their feelings, and sentiment analysis is the use of tools such as natural language processing and computational algorithms to identify the polarity of these feelings. Even though this field has seen tremendous advancements in the last two decades, the task of effectively detecting under represented sentiments in different kinds of datasets is still a challenging task. In this paper, we use single and bi-modal analysis of short dialog utterances and gain insights on the main factors that aid in sentiment detection, particularly in the underrepresented classes, in datasets with and without inherent sentiment component. Furthermore, we propose an architecture which uses a learning rate scheduler and different monitoring criteria and provides state-of-the-art results for the SWITCHBOARD imbalanced sentiment dataset. | 翻訳日:2021-09-16 15:19:40 公開日:2021-09-15 |
# 状況エンティティ分類のための判別および生成トランスベースモデル Discriminative and Generative Transformer-based Models For Situation Entity Classification ( http://arxiv.org/abs/2109.07434v1 ) ライセンス: Link先を確認 | Mehdi Rezaee, Kasra Darvish, Gaoussou Youssouf Kebe, Francis Ferraro | (参考訳) 利用可能なトレーニングデータ量に応じて状況エンティティ(se)分類タスクを再検討する。
本研究では,Transformerベースの変分オートエンコーダを用いて文を低次元の潜在空間に符号化し,テキストを生成してSE分類器を学習する。
テストセットとクロスジェネア評価は、トレーニングデータが豊富である場合、提案モデルが従来の差別的最先端モデルよりも改善可能であることを示している。
しかし,ラベルごとに4インスタンス) の非常に小さなセットに直面した場合, 生成RNN法はトランスフォーマよりも優れていた。
本研究は,SEとセマンティック予測タスク,低ラベルトレーニング体制に関する今後の取り組みに関するガイダンスを提供する。 We re-examine the situation entity (SE) classification task with varying amounts of available training data. We exploit a Transformer-based variational autoencoder to encode sentences into a lower dimensional latent space, which is used to generate the text and learn a SE classifier. Test set and cross-genre evaluations show that when training data is plentiful, the proposed model can improve over the previous discriminative state-of-the-art models. Our approach performs disproportionately better with smaller amounts of training data, but when faced with extremely small sets (4 instances per label), generative RNN methods outperform transformers. Our work provides guidance for future efforts on SE and semantic prediction tasks, and low-label training regimes. | 翻訳日:2021-09-16 15:19:28 公開日:2021-09-15 |
# 機械はコーディングマニュアルを読めますか?
--コード理解のためのより良い言語モデルを構築するためのベンチマーク Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better Language Models for Code Understanding ( http://arxiv.org/abs/2109.07452v1 ) ライセンス: Link先を確認 | Ibrahim Abdelaziz, Julian Dolby, Jamie McCusker, and Kavitha Srinivas | (参考訳) コード理解は人工知能の重要な応用である。
コードを理解する基本的な側面は、コードに関するテキストを理解することである。
事前訓練された言語モデル(例えばBERT)は様々なNLPタスクの一般的なアプローチであり、自然言語理解のためのモデルの開発を支援するためにGLUEのような様々なベンチマークがある。
しかし、そのようなモデルがコードに関するテキスト的アーティファクトに対してどのように機能するかは、ほとんど分かっておらず、そのような評価のために下流タスクの体系的なセットを知らない。
本稿では、フォーラム投稿における質問に対する最良の回答の予測、関連するフォーラム投稿の検索、クラスドキュメントからの階層化に関連するクラス予測といったタスクに基づいて、コード理解を評価する一連のベンチマーク(BLANCA - LANguage Model on Coding Artifacts ベンチマーク)を導出する。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
また、BLANCAタスクによるマルチタスクトレーニングは、コード理解のためのより良い言語モデル構築に役立つことを示す。 Code understanding is an increasingly important application of Artificial Intelligence. A fundamental aspect of understanding code is understanding text about code, e.g., documentation and forum discussions. Pre-trained language models (e.g., BERT) are a popular approach for various NLP tasks, and there are now a variety of benchmarks, such as GLUE, to help improve the development of such models for natural language understanding. However, little is known about how well such models work on textual artifacts about code, and we are unaware of any systematic set of downstream tasks for such an evaluation. In this paper, we derive a set of benchmarks (BLANCA - Benchmarks for LANguage models on Coding Artifacts) that assess code understanding based on tasks such as predicting the best answer to a question in a forum post, finding related forum posts, or predicting classes related in a hierarchy from class documentation. We evaluate the performance of current state-of-the-art language models on these tasks and show that there is a significant improvement on each task from fine tuning. We also show that multi-task training over BLANCA tasks helps build better language models for code understanding. | 翻訳日:2021-09-16 15:19:15 公開日:2021-09-15 |
# FCA:多視点物理対向攻撃のための3次元フルカバー車両カモフラージュ学習 FCA: Learning a 3D Full-coverage Vehicle Camouflage for Multi-view Physical Adversarial Attack ( http://arxiv.org/abs/2109.07193v1 ) ライセンス: Link先を確認 | DonghuaWang, Tingsong Jiang, Jialiang Sun, Weien Zhou, Xiaoya Zhang, Zhiqiang Gong, Wen Yao and Xiaoqian Chen | (参考訳) 物体検出における物理的敵対攻撃が注目されている。
しかし、以前の作品のほとんどは、車両の表面の平面部分のみを覆う個々の敵パッチを生成して検出器から物体を隠すことに焦点を当てており、多視点、長距離、部分的に遮蔽された物体の物理的シナリオでは検出器を攻撃できない。
デジタルアタックと物理的アタックのギャップを埋めるために、フル3D車両表面を利用して、検知器を騙す堅牢なフルカバーカモフラージュアタック(FCA)を提案する。
具体的には、まず全車両表面上の非平面カモフラージュテクスチャをレンダリングする。
実世界の環境条件を模倣するために、レンダリングされた迷彩車両をフォトリアリスティックなシナリオに転送する変換関数を導入する。
最後に,迷彩テクスチャを最適化する効率的な損失関数を設計する。
実験により、完全なカモフラージュ攻撃は、様々なテストケースにおいて最先端の手法よりも優れるだけでなく、異なる環境、車両、物体検出器に一般化できることが示されている。 Physical adversarial attacks in object detection have attracted increasing attention. However, most previous works focus on hiding the objects from the detector by generating an individual adversarial patch, which only covers the planar part of the vehicle's surface and fails to attack the detector in physical scenarios for multi-view, long-distance and partially occluded objects. To bridge the gap between digital attacks and physical attacks, we exploit the full 3D vehicle surface to propose a robust Full-coverage Camouflage Attack (FCA) to fool detectors. Specifically, we first try rendering the non-planar camouflage texture over the full vehicle surface. To mimic the real-world environment conditions, we then introduce a transformation function to transfer the rendered camouflaged vehicle into a photo-realistic scenario. Finally, we design an efficient loss function to optimize the camouflage texture. Experiments show that the full-coverage camouflage attack can not only outperform state-of-the-art methods under various test cases but also generalize to different environments, vehicles, and object detectors. | 翻訳日:2021-09-16 15:18:23 公開日:2021-09-15 |
# ノイズ・セマンティック誘導対向ネットワークを用いた二相顔年齢同時翻訳フレームワーク A Unified Framework for Biphasic Facial Age Translation with Noisy-Semantic Guided Generative Adversarial Networks ( http://arxiv.org/abs/2109.07373v1 ) ライセンス: Link先を確認 | Muyi Sun, Jian Wang, Yunfan Liu, Qi Li, Zhenan Sun | (参考訳) 二相性顔面年齢変換は、任意の年齢における入力顔の出現を予測することを目的としている。
顔の年齢の翻訳は、年齢を越えた顔の認識と様々なエンターテイメントの応用に実用的価値があることから、過去10年間にかなりの研究の注目を集めてきた。
しかし、既存の手法のほとんどは、人間の顔構造や個々の顔成分の年齢変化パターンに関わらず、全体像間の年齢変化をモデル化している。
したがって、意味的監督の欠如は、生成した顔の非忠実さを詳細に引き起こすことになる。
そこで本研究では,ノイズ・セマンティック誘導型生成対向ネットワークを用いた二相性顔面年齢変換の統一フレームワークを提案する。
構造的には, 個々の顔部に対して下記の注入操作を行うために, クラスアウェアな騒がしいセマンティクスレイアウトをソフト潜在マップに投影する。
特に、ProjectionNetとConstraintNetという2つのサブネットワークを紹介します。
ProjectionNetはノイズマップを用いた低レベル構造意味情報を導入し、ソフト潜在マップを生成する。
制約ネットはソフト潜在度マップを制約するために高レベルな空間的特徴を分断し、ソフト潜在度マップに年齢関連コンテキストを内包する。
特に注意機構はConstraintNetで機能障害に使用される。
一方,ネットワークの強力なマッピング能力を発掘するために,学習手順に2種類の学習戦略,教師付き自己駆動生成,教師なし条件駆動型サイクル一貫性生成を組み込んだ。
その結果,MORPHおよびCACDデータセットを用いた広範囲な実験により,最先端の性能を実現する手法の顕著な性能を示すことができた。 Biphasic facial age translation aims at predicting the appearance of the input face at any age. Facial age translation has received considerable research attention in the last decade due to its practical value in cross-age face recognition and various entertainment applications. However, most existing methods model age changes between holistic images, regardless of the human face structure and the age-changing patterns of individual facial components. Consequently, the lack of semantic supervision will cause infidelity of generated faces in detail. To this end, we propose a unified framework for biphasic facial age translation with noisy-semantic guided generative adversarial networks. Structurally, we project the class-aware noisy semantic layouts to soft latent maps for the following injection operation on the individual facial parts. In particular, we introduce two sub-networks, ProjectionNet and ConstraintNet. ProjectionNet introduces the low-level structural semantic information with noise map and produces soft latent maps. ConstraintNet disentangles the high-level spatial features to constrain the soft latent maps, which endows more age-related context into the soft latent maps. Specifically, attention mechanism is employed in ConstraintNet for feature disentanglement. Meanwhile, in order to mine the strongest mapping ability of the network, we embed two types of learning strategies in the training procedure, supervised self-driven generation and unsupervised condition-driven cycle-consistent generation. As a result, extensive experiments conducted on MORPH and CACD datasets demonstrate the prominent ability of our proposed method which achieves state-of-the-art performance. | 翻訳日:2021-09-16 15:18:03 公開日:2021-09-15 |
# 注意:データからテキストへのNLGのためのセマンティックな注意ガイドによるデコーディング Attention Is Indeed All You Need: Semantically Attention-Guided Decoding for Data-to-Text NLG ( http://arxiv.org/abs/2109.07043v1 ) ライセンス: Link先を確認 | Juraj Juraska and Marilyn Walker | (参考訳) ニューラルモデルは、データ-テキスト言語生成に採用されて以来、通常、入力に提供されるすべての情報を確実に参照するテキストを生成する能力がないため、その意味的正確性を改善するために、外在的なコンポーネントに依存してきた。
本稿では,エンコーダ・デコーダモデルのクロスアテンションから解釈可能な情報を抽出し,どの属性が生成テキストに言及しているかを推測する手法を提案する。
T5 と BART を用いたこの復号化手法を用いて,生成した出力のセマンティックエラーを劇的に低減する3つのデータセットについて,最先端の品質を維持しながら示す。 Ever since neural models were adopted in data-to-text language generation, they have invariably been reliant on extrinsic components to improve their semantic accuracy, because the models normally do not exhibit the ability to generate text that reliably mentions all of the information provided in the input. In this paper, we propose a novel decoding method that extracts interpretable information from encoder-decoder models' cross-attention, and uses it to infer which attributes are mentioned in the generated text, which is subsequently used to rescore beam hypotheses. Using this decoding method with T5 and BART, we show on three datasets its ability to dramatically reduce semantic errors in the generated outputs, while maintaining their state-of-the-art quality. | 翻訳日:2021-09-16 15:17:37 公開日:2021-09-15 |
# 異なる教師による自己学習 Self-Training with Differentiable Teacher ( http://arxiv.org/abs/2109.07049v1 ) ライセンス: Link先を確認 | Simiao Zuo, Yue Yu, Chen Liang, Haoming Jiang, Siawpeng Er, Chao Zhang, Tuo Zhao, Hongyuan Zha | (参考訳) 自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この方法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
2つのモデルは交互に更新される。
しかし、このような単純な更新ルールはトレーニングの不安定性につながる。
これは、教師のわずかな変化が生徒に大きな変化をもたらす可能性があるためである。
この問題に対処するために、教師学生をStackelbergゲームとして扱う、差別化可能な自己学習の略である {\ours} を提案する。
このゲームでは、リーダーは常に従者よりも有利な立場にある。
セルフトレーニングでは、生徒は予測パフォーマンスに寄与し、教師は擬似ラベルを生成してトレーニングプロセスを制御する。
そこで我々は,学生を指導者として,教師を追随者として扱う。
リーダーは、微分可能な擬似ラベルと微分可能なサンプルウェイトを含む従者の戦略を認めることでその利点を享受する。
その結果、リーダーとフォロワーの相互作用は、フォロワーの戦略を区別して得られるスタックルバーグ勾配によって効果的に捕捉できる。
半教師付きおよび弱教師付き分類と名前付きエンティティ認識タスクの実験結果から,本モデルが既存のアプローチを大きなマージンで上回っていることが示された。 Self-training achieves enormous success in various semi-supervised and weakly-supervised learning tasks. The method can be interpreted as a teacher-student framework, where the teacher generates pseudo-labels, and the student makes predictions. The two models are updated alternatingly. However, such a straightforward alternating update rule leads to training instability. This is because a small change in the teacher may result in a significant change in the student. To address this issue, we propose {\ours}, short for differentiable self-training, that treats teacher-student as a Stackelberg game. In this game, a leader is always in a more advantageous position than a follower. In self-training, the student contributes to the prediction performance, and the teacher controls the training process by generating pseudo-labels. Therefore, we treat the student as the leader and the teacher as the follower. The leader procures its advantage by acknowledging the follower's strategy, which involves differentiable pseudo-labels and differentiable sample weights. Consequently, the leader-follower interaction can be effectively captured via Stackelberg gradient, obtained by differentiating the follower's strategy. Experimental results on semi- and weakly-supervised classification and named entity recognition tasks show that our model outperforms existing approaches by large margins. | 翻訳日:2021-09-16 15:17:24 公開日:2021-09-15 |
# 混合における局所線形制約緩和のための逆混合政策 Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup ( http://arxiv.org/abs/2109.07177v1 ) ライセンス: Link先を確認 | Guang Liu, Yuzhao Mao, Hailong Huang, Weiguo Gao, Xuan Li | (参考訳) Mixupは、最近のディープ分類ネットワークのレギュレータである。
ニューラルネットワークをサンプルのペアとそのラベルの凸結合でトレーニングすることで、モデルの入力空間に局所的な線形制約を課す。
しかし、そのような厳密な線形制約は、しばしば正規化の効果を低下させる不適合をもたらす。
リソースが極端に限られているとき、この問題はますます深刻になっている。
これらの問題に対処するため,ミン・マックス・ラッドの定式化によって組織された Adversarial Mixing Policy (AMP) を提案し,Mixup における局所線形制約を緩和する。
具体的には、AMPは例ではなく混合係数に小さな逆摂動を加える。
したがって、合成例と合成ラベルの間にわずかに非線形性が注入される。
これらのデータをトレーニングすることで、ディープネットワークはさらに正規化され、予測エラー率を低下させる。
5つのテキスト分類ベンチマークと5つのバックボーンモデルの実験により、我々の手法は、特に低リソース条件(最大17.5%)において、大きなマージン(最大31.3%)でミックスアップ変種よりもエラー率を減少させることを示した。 Mixup is a recent regularizer for current deep classification networks. Through training a neural network on convex combinations of pairs of examples and their labels, it imposes locally linear constraints on the model's input space. However, such strict linear constraints often lead to under-fitting which degrades the effects of regularization. Noticeably, this issue is getting more serious when the resource is extremely limited. To address these issues, we propose the Adversarial Mixing Policy (AMP), organized in a min-max-rand formulation, to relax the Locally Linear Constraints in Mixup. Specifically, AMP adds a small adversarial perturbation to the mixing coefficients rather than the examples. Thus, slight non-linearity is injected in-between the synthetic examples and synthetic labels. By training on these data, the deep networks are further regularized, and thus achieve a lower predictive error rate. Experiments on five text classification benchmarks and five backbone models have empirically shown that our methods reduce the error rate over Mixup variants in a significant margin (up to 31.3%), especially in low-resource conditions (up to 17.5%). | 翻訳日:2021-09-16 15:17:07 公開日:2021-09-15 |
# 整数の数学的性質の学習 Learning Mathematical Properties of Integers ( http://arxiv.org/abs/2109.07230v1 ) ライセンス: Link先を確認 | Maria Ryskina, Kevin Knight | (参考訳) 高次元ベクトル空間における単語の埋め込みは、多くの自然言語応用において有益であることが証明されている。
本研究では, 数学的な応用に有用な概念を, 同様に訓練された整数の埋め込みが捉えることができるかどうかを考察する。
数理知識のための整数埋め込みを探索し、数理推論の一連のタスクに適用し、数理シーケンスデータから表現を学習することにより、英語のテキストコーパスから学習した数値埋め込みを大幅に改善できることを示す。 Embedding words in high-dimensional vector spaces has proven valuable in many natural language applications. In this work, we investigate whether similarly-trained embeddings of integers can capture concepts that are useful for mathematical applications. We probe the integer embeddings for mathematical knowledge, apply them to a set of numerical reasoning tasks, and show that by learning the representations from mathematical sequence data, we can substantially improve over number embeddings learned from English text corpora. | 翻訳日:2021-09-16 15:16:48 公開日:2021-09-15 |
# フローチャート接地タスク指向ダイアログのエンドツーエンド学習 End-to-End Learning of Flowchart Grounded Task-Oriented Dialogs ( http://arxiv.org/abs/2109.07263v1 ) ライセンス: Link先を確認 | Dinesh Raghu, Shantanu Agarwal, Sachindra Joshi and Mausam | (参考訳) 本稿では,タスク指向ダイアログ(TOD)のエンドツーエンド学習における新たな問題を提案する。
このようなダイアログは、会話中にエージェントが従うべきドメイン固有のフローチャートに基礎を置いている。
我々のタスクは、明示的なアノテーションを使わずにフローチャートへの発話を根拠にすること、ユーザが明確化の質問をするときに追加のマニュアルページを参照すること、テスト時に目に見えないフローチャートに従う能力など、ニューラルTODの新たな技術的課題を明らかにする。
12種類のトラブルシューティングフローチャートに基づく2,738のダイアログからなるデータセット(FloDial)をリリースする。
また,対話エージェントを学習するために,検索型生成アーキテクチャを用いたニューラルモデルであるflonetを設計した。
我々の実験では、FloNetは目に見えないフローチャートへのゼロショット転送が可能であり、将来の研究の基盤となる。 We propose a novel problem within end-to-end learning of task-oriented dialogs (TOD), in which the dialog system mimics a troubleshooting agent who helps a user by diagnosing their problem (e.g., car not starting). Such dialogs are grounded in domain-specific flowcharts, which the agent is supposed to follow during the conversation. Our task exposes novel technical challenges for neural TOD, such as grounding an utterance to the flowchart without explicit annotation, referring to additional manual pages when user asks a clarification question, and ability to follow unseen flowcharts at test time. We release a dataset (FloDial) consisting of 2,738 dialogs grounded on 12 different troubleshooting flowcharts. We also design a neural model, FloNet, which uses a retrieval-augmented generation architecture to train the dialog agent. Our experiments find that FloNet can do zero-shot transfer to unseen flowcharts, and sets a strong baseline for future research. | 翻訳日:2021-09-16 15:16:41 公開日:2021-09-15 |
# 単言語モデルの言語間伝達 Cross-lingual Transfer of Monolingual Models ( http://arxiv.org/abs/2109.07348v1 ) ライセンス: Link先を確認 | Evangelia Gogoulou, Ariel Ekgren, Tim Isbister, Magnus Sahlgren | (参考訳) 多言語モデルを用いたゼロショット言語間学習の最近の研究は、共通語彙と共同事前学習が言語間一般化の鍵であるという以前の仮説を偽っている。
この進歩に触発されて,ドメイン適応に基づく単言語モデルの言語間移動手法を提案する。
4つの異なる言語から英語への変換の効果について検討する。
グルーを用いた実験の結果,トランスファーモデルが母国英語モデルよりも母国英語モデルに勝っていることがわかった。
トランスファー前後の表現にエンコードされた英語の言語知識を検索すると、意味情報はソース言語から保持され、構文情報はトランスファー中に学習される。
さらに、ソース言語タスクにおけるトランスファーモデルの評価結果から、トランスファー後のソースドメインのパフォーマンスが低下していることが分かる。 Recent studies in zero-shot cross-lingual learning using multilingual models have falsified the previous hypothesis that shared vocabulary and joint pre-training are the keys to cross-lingual generalization. Inspired by this advancement, we introduce a cross-lingual transfer method for monolingual models based on domain adaptation. We study the effects of such transfer from four different languages to English. Our experimental results on GLUE show that the transferred models outperform the native English model independently of the source language. After probing the English linguistic knowledge encoded in the representations before and after transfer, we find that semantic information is retained from the source language, while syntactic information is learned during transfer. Additionally, the results of evaluating the transferred models in source language tasks reveal that their performance in the source domain deteriorates after transfer. | 翻訳日:2021-09-16 15:16:21 公開日:2021-09-15 |
# エンドツーエンドタスク指向ダイアログにおける制約に基づく知識ベース蒸留 Constraint based Knowledge Base Distillation in End-to-End Task Oriented Dialogs ( http://arxiv.org/abs/2109.07396v1 ) ライセンス: Link先を確認 | Dinesh Raghu, Atishya Jain, Mausam and Sachindra Joshi | (参考訳) End-to-Endタスク指向対話システムは、対話履歴と付随する知識ベース(KB)に基づいて応答を生成する。
発話に最も関係のあるKBエンティティを推測することは、応答生成に不可欠である。
既存の技術状態は、無関係のKB情報をソフトにフィルタリングすることで、大きなKBにスケールする。
本稿では,(1) KBレコードにおけるn-ary構造を尊重して関連情報を識別する一対の類似度に基づくフィルタからなる新しいフィルタリング手法を提案する。
そして、(2)文脈的に無関係なkb情報の分離に役立つ補助的損失。
また、既存のエンティティF1メトリックの正当性問題を修正するための新しいメトリック-マルチセットエンティティF1を提案する。
3つの公開タスク指向ダイアログデータセットの実験結果から,提案手法が既存の最先端モデルより優れていることが示された。 End-to-End task-oriented dialogue systems generate responses based on dialog history and an accompanying knowledge base (KB). Inferring those KB entities that are most relevant for an utterance is crucial for response generation. Existing state of the art scales to large KBs by softly filtering over irrelevant KB information. In this paper, we propose a novel filtering technique that consists of (1) a pairwise similarity based filter that identifies relevant information by respecting the n-ary structure in a KB record. and, (2) an auxiliary loss that helps in separating contextually unrelated KB information. We also propose a new metric -- multiset entity F1 which fixes a correctness issue in the existing entity F1 metric. Experimental results on three publicly available task-oriented dialog datasets show that our proposed approach outperforms existing state-of-the-art models. | 翻訳日:2021-09-16 15:16:07 公開日:2021-09-15 |
# SupCL-Seq: 下流最適化シーケンス表現のためのコントラスト学習 SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized Sequence Representations ( http://arxiv.org/abs/2109.07424v1 ) ライセンス: Link先を確認 | Hooman Sedghamiz, Shivam Raval, Enrico Santus, Tuka Alhanai, Mohammad Ghassemi | (参考訳) コントラスト学習はコンピュータビジョンにおいて効果的なトレーニング戦略であることが証明されているが、自然言語処理(nlp)は、最近になって、シーケンス表現を改善するためにマスク言語モデリング(mlm)の代替として採用した。
本稿では,コンピュータビジョンからNLPにおけるシーケンス表現の最適化まで,教師付きコントラスト学習を拡張したSupCL-Seqを提案する。
標準的なTransformerアーキテクチャでは,各表現(アンカー)に対してドロップアウトマスクの確率を変更することで,拡張されたビューを生成する。
次に、教師付きコントラスト損失を利用して、類似のサンプル(例えば、アンカーとその修正されたビュー)をまとめ、他のクラスに属するサンプルを分解するシステムの能力を最大化する。
その単純さにもかかわらず、SupCLSeqは、標準のBERTbaseと比較してGLUEベンチマーク上の多くのシーケンス分類タスクにおいて、CoLAの6%の絶対的な改善、MRPCの5.4%、RTEの4.7%、STSBの2.6%を含む大きな増加につながっている。
また, 自己教師付き対照学習表現, 特に非意味的タスクにおいて, 一貫性のある成果を示す。
最後に、これらのゲインは単に増大によるものではなく、下流最適化シーケンス表現によるものであることを示す。
コード: https://github.com/hooman650/supcl-seq While contrastive learning is proven to be an effective training strategy in computer vision, Natural Language Processing (NLP) is only recently adopting it as a self-supervised alternative to Masked Language Modeling (MLM) for improving sequence representations. This paper introduces SupCL-Seq, which extends the supervised contrastive learning from computer vision to the optimization of sequence representations in NLP. By altering the dropout mask probability in standard Transformer architectures, for every representation (anchor), we generate augmented altered views. A supervised contrastive loss is then utilized to maximize the system's capability of pulling together similar samples (e.g., anchors and their altered views) and pushing apart the samples belonging to the other classes. Despite its simplicity, SupCLSeq leads to large gains in many sequence classification tasks on the GLUE benchmark compared to a standard BERTbase, including 6% absolute improvement on CoLA, 5.4% on MRPC, 4.7% on RTE and 2.6% on STSB. We also show consistent gains over self supervised contrastively learned representations, especially in non-semantic tasks. Finally we show that these gains are not solely due to augmentation, but rather to a downstream optimized sequence representation. Code: https://github.com/hooman650/SupCL-Seq | 翻訳日:2021-09-16 15:15:54 公開日:2021-09-15 |
# 事前トレーニングするべきか?
代替案としてのエンド・タスク・アウェア・トレーニングの議論 Should We Be Pre-training? An Argument for End-task Aware Training as an Alternative ( http://arxiv.org/abs/2109.07437v1 ) ライセンス: Link先を確認 | Lucio M. Dery, Paul Michel, Ameet Talwalkar and Graham Neubig | (参考訳) 事前トレーニングでは、下流タスクのデータに基づいて微調整される前に、豊富なデータで補助目的にモデルが訓練される。
一般に、事前訓練のステップは、エンドタスクが事前に分かっている場合でも、モデルを微調整するタスクについて、ほとんど、あるいは全く直接知識に依存しない。
私たちの仕事は、エンドタスクに依存しない事前トレーニングのこの現状に挑戦します。
まず,2つの領域から分離した3つの低リソースnlpタスクにおいて,エンドタスクと補助目的のマルチタスクが,グルランガンら(2020)のタスク非依存で継続するプレトレーニングパラダイムよりも,ダウンストリームタスクのパフォーマンスが有意に向上することを示す。
次に,マルチタスク重みのセットを学習するオンラインメタラーニングアルゴリズムを導入し,複数の補助目標間のバランスを改善し,エンドタスクのパフォーマンスとデータ効率をさらに向上させる。 Pre-training, where models are trained on an auxiliary objective with abundant data before being fine-tuned on data from the downstream task, is now the dominant paradigm in NLP. In general, the pre-training step relies on little to no direct knowledge of the task on which the model will be fine-tuned, even when the end-task is known in advance. Our work challenges this status-quo of end-task agnostic pre-training. First, on three different low-resource NLP tasks from two domains, we demonstrate that multi-tasking the end-task and auxiliary objectives results in significantly better downstream task performance than the widely-used task-agnostic continued pre-training paradigm of Gururangan et al. (2020). We next introduce an online meta-learning algorithm that learns a set of multi-task weights to better balance among our multiple auxiliary objectives, achieving further improvements on end task performance and data efficiency. | 翻訳日:2021-09-16 15:15:27 公開日:2021-09-15 |
# 翻訳にコンテキストはいつ必要か?
データ駆動多言語探索 When Does Translation Require Context? A Data-driven, Multilingual Exploration ( http://arxiv.org/abs/2109.07446v1 ) ライセンス: Link先を確認 | Kayo Yin, Patrick Fernandes, Andr\'e F. T. Martins, Graham Neubig | (参考訳) 談話現象の適切な処理は機械翻訳の質(mt)に大きく寄与するが、一般的な翻訳品質指標では適切に捉えられていない。
文脈認識型MTにおける最近の研究は、評価中にこれらの現象の小さなセットを目標にしようとしている。
本稿では,従来研究されてきた現象の難易度を確認するとともに,文脈を体系的に要求する翻訳を識別する新しい指標であるP-CXMIを提案する。
そこで我々は,これらの現象を14種類の異なる言語ペアに分類し,文脈認識MTの評価に使用するMuDAベンチマークを開発した。現状の文脈認識MTモデルでは,文脈非依存モデルよりも限界的な改善が見出され,現在のモデルではこれらの曖昧さを効果的に扱えないことが示唆されている。
我々はMT研究コミュニティを招待するためにコードとデータを公開し、現在見過ごされている談話現象や言語に関する文脈対応翻訳への取り組みを強化する。 Although proper handling of discourse phenomena significantly contributes to the quality of machine translation (MT), common translation quality metrics do not adequately capture them. Recent works in context-aware MT attempt to target a small set of these phenomena during evaluation. In this paper, we propose a new metric, P-CXMI, which allows us to identify translations that require context systematically and confirm the difficulty of previously studied phenomena as well as uncover new ones that have not been addressed in previous work. We then develop the Multilingual Discourse-Aware (MuDA) benchmark, a series of taggers for these phenomena in 14 different language pairs, which we use to evaluate context-aware MT. We find that state-of-the-art context-aware MT models find marginal improvements over context-agnostic models on our benchmark, which suggests current models do not handle these ambiguities effectively. We release code and data to invite the MT research community to increase efforts on context-aware translation on discourse phenomena and languages that are currently overlooked. | 翻訳日:2021-09-16 15:15:09 公開日:2021-09-15 |
# テキスト表現の比較:理論駆動アプローチ Comparing Text Representations: A Theory-Driven Approach ( http://arxiv.org/abs/2109.07458v1 ) ライセンス: Link先を確認 | Gregory Yauney, David Mimno | (参考訳) 現代のNLPの進歩の多くは、マスキング言語モデル(MLM)の文脈埋め込みのような学習表現から来ており、課題問題を単純な分類タスクに変換する。
しかし、どのようにしてこの効果を定量化し説明するのか?
我々は,テキストデータセットの特徴に適合する計算学習理論からの一般的なツールを適応させ,表現とタスクの互換性を評価する方法を提案する。
多くのタスクは単純なback-of-words(BOW)表現で簡単に解けるが、BOWは難しい自然言語推論タスクでは不十分である。
そのようなタスクに対して、BOWは実ラベルとランダムラベルを区別できないが、事前訓練されたMLM表現は実ラベルとランダムラベルの72倍の差を示す。
この方法は、分類ベースのNLPタスクの難易度を調整し、初期化やハイパーパラメータに敏感な経験的評価を必要としない表現の比較を可能にする。
この方法は、データセット内のパターンと、それらのパターンと特定のラベルのアライメントに関する新しい視点を提供する。 Much of the progress in contemporary NLP has come from learning representations, such as masked language model (MLM) contextual embeddings, that turn challenging problems into simple classification tasks. But how do we quantify and explain this effect? We adapt general tools from computational learning theory to fit the specific characteristics of text datasets and present a method to evaluate the compatibility between representations and tasks. Even though many tasks can be easily solved with simple bag-of-words (BOW) representations, BOW does poorly on hard natural language inference tasks. For one such task we find that BOW cannot distinguish between real and randomized labelings, while pre-trained MLM representations show 72x greater distinction between real and random labelings than BOW. This method provides a calibrated, quantitative measure of the difficulty of a classification-based NLP task, enabling comparisons between representations without requiring empirical evaluations that may be sensitive to initializations and hyperparameters. The method provides a fresh perspective on the patterns in a dataset and the alignment of those patterns with specific labels. | 翻訳日:2021-09-16 15:14:50 公開日:2021-09-15 |
# 分析結果の有意義性に関する意思決定的アプローチの比較 Comparing decision mining approaches with regard to the meaningfulness of their results ( http://arxiv.org/abs/2109.07335v1 ) ライセンス: Link先を確認 | Beate Scheibel, Stefanie Rinderle-Ma | (参考訳) 決定と基礎となるルールは、実行時のプロセス実行、すなわちプロセスデータの値に基づいて別のブランチでプロセスインスタンスをルーティングするために不可欠である。
決定規則は、例えば、年齢 > 40 のような一元的なデータ条件と、2つ以上の変数間の関係が関係している二項データ条件、例えば temperature1 < temperature2 と、医療画像の一部を指すより複雑な条件から構成されることができる。
decision discoveryは、プロセスイベントログから意思決定ルールを自動的に導出することを目的としている。
既存のアプローチでは、unaryやバイナリデータ条件の発見に重点を置いている。
発見された決定ルールは、通常、正確さを用いて評価されるが、その意味と意味性には関係しないが、これは検証とその後の決定ルールの実装/適応に不可欠である。
そこで,本研究では,既存の2つの方法と新たに記述された1つのアプローチの3つの決定マイニング手法を比較し,その意義について述べる。
比較のために,実世界のBPIC 2017/2020ログと実世界のBPIC 2017/2020ログを合成した。
発見規則は、その意味と有意義性に関して議論される。 Decisions and the underlying rules are indispensable for driving process execution during runtime, i.e., for routing process instances at alternative branches based on the values of process data. Decision rules can comprise unary data conditions, e.g., age > 40, binary data conditions where the relation between two or more variables is relevant, e.g. temperature1 < temperature2, and more complex conditions that refer to, for example, parts of a medical image. Decision discovery aims at automatically deriving decision rules from process event logs. Existing approaches focus on the discovery of unary, or in some instances binary data conditions. The discovered decision rules are usually evaluated using accuracy, but not with regards to their semantics and meaningfulness, although this is crucial for validation and the subsequent implementation/adaptation of the decision rules. Hence, this paper compares three decision mining approaches, i.e., two existing ones and one newly described approach, with respect to the meaningfulness of their results. For comparison, we use one synthetic data set for a realistic manufacturing case and the two real-world BPIC 2017/2020 logs. The discovered rules are discussed with regards to their semantics and meaningfulness. | 翻訳日:2021-09-16 15:13:37 公開日:2021-09-15 |
# F-CAM:ガイドパラメトリックアップスケーリングによる全分解能CAM F-CAM: Full Resolution CAM via Guided Parametric Upscaling ( http://arxiv.org/abs/2109.07069v1 ) ライセンス: Link先を確認 | Soufiane Belharbi, Aydin Sarraf, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger | (参考訳) クラスアクティベーションマッピング(cam)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(wsol)タスクに多くの注目を集め、完全に注釈付き画像データセットをトレーニングすることなくcnnの可視化と解釈を可能にした。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
コンボリューションとダウンサンプリング/プール操作により、これらのバックボーンは最大32のダウンスケーリング係数を持つ低分解能CAMを生成し、正確なローカライゼーションを難しくする。
補間はフルサイズのcamを復元するために必要であるが、オブジェクトの統計的性質を考慮せず、一貫性のない境界と不正確な局在を持つアクティベーションに繋がる。
代替として、正確なフル解像度CAM(F-CAM)を構築することができるCAMのパラメトリックアップスケーリング法を提案する。
特に,より正確なCAMを生成するために,任意のCNN分類器に接続可能なトレーニング可能な復号化アーキテクチャを提案する。
オリジナルの(解像度の低い)CAMが与えられた場合、デコーダを微調整するためにフォアグラウンドと背景画素をランダムにサンプリングする。
画像統計学やサイズ制約といった他の先例も、オブジェクト境界を拡張して洗練すると考えられる。
CUB-200-2011およびOpenImagesデータセットの3つのCNNバックボーンと6つのWSOLベースラインを用いた大規模な実験により、我々のF-CAM法はCAMのローカライゼーション精度を大幅に向上することが示された。
F-CAMの性能は最先端のWSOL法と競合するが、推論時に計算資源を少なくする。 Class Activation Mapping (CAM) methods have recently gained much attention for weakly-supervised object localization (WSOL) tasks, allowing for CNN visualization and interpretation without training on fully annotated image datasets. CAM methods are typically integrated within off-the-shelf CNN backbones, such as ResNet50. Due to convolution and downsampling/pooling operations, these backbones yield low resolution CAMs with a down-scaling factor of up to 32, making accurate localization more difficult. Interpolation is required to restore a full size CAMs, but without considering the statistical properties of the objects, leading to activations with inconsistent boundaries and inaccurate localizations. As an alternative, we introduce a generic method for parametric upscaling of CAMs that allows constructing accurate full resolution CAMs (F-CAMs). In particular, we propose a trainable decoding architecture that can be connected to any CNN classifier to produce more accurate CAMs. Given an original (low resolution) CAM, foreground and background pixels are randomly sampled for fine-tuning the decoder. Additional priors such as image statistics, and size constraints are also considered to expand and refine object boundaries. Extensive experiments using three CNN backbones and six WSOL baselines on the CUB-200-2011 and OpenImages datasets, indicate that our F-CAM method yields a significant improvement in CAM localization accuracy. F-CAM performance is competitive with state-of-art WSOL methods, yet it requires fewer computational resources during inference. | 翻訳日:2021-09-16 15:12:52 公開日:2021-09-15 |
# マルチデコーダU-Netを用いた医用画像分割の不確かさ定量化 Uncertainty Quantification in Medical Image Segmentation with Multi-decoder U-Net ( http://arxiv.org/abs/2109.07045v1 ) ライセンス: Link先を確認 | Yanwu Yang, Xutao Guo, Yiwei Pan, Pengcheng Shi, Haiyan Lv, Ting Ma | (参考訳) 正確な医用画像分割は診断と分析に不可欠である。
しかし、キャリブレーションされた不確実性推定のないモデルは下流分析の誤差を招き、ロバスト性は低い。
測定の不確かさを推定することは、確かなインフォームドな結論を得るのに不可欠である。
特に、曖昧な領域を正確に予測し、モデルと放射線技師の両方の境界に焦点を合わせることは困難であり、複数のアノテーションで合意に達することはさらに困難である。
本研究では,これらの領域における不確実性について検討し,解剖学的構造を持つ重要な情報を導入し,セグメンテーション性能と同じくらい重要である。
本稿では,複数のアノテーションを用いたセグメンテーション性能を教師あり学習方法で測定し,画像表現を同一エンコーダで符号化し,各アノテーションを参照するセグメンテーションを複数のデコーダで推定する,複数のデコーダを用いたu-netアーキテクチャを提案する。
それでも、異なる枝間のギャップを埋めるためのクロスロス関数が提案されている。
提案アーキテクチャはエンドツーエンドでトレーニングされ、予測の不確実性推定を改善することができる。
このモデルは、MICCAI-QUBIQ 2020チャレンジでランキングされた統合トレーニングモデルと比較して、より少ないパラメータで同等のパフォーマンスを達成する。 Accurate medical image segmentation is crucial for diagnosis and analysis. However, the models without calibrated uncertainty estimates might lead to errors in downstream analysis and exhibit low levels of robustness. Estimating the uncertainty in the measurement is vital to making definite, informed conclusions. Especially, it is difficult to make accurate predictions on ambiguous areas and focus boundaries for both models and radiologists, even harder to reach a consensus with multiple annotations. In this work, the uncertainty under these areas is studied, which introduces significant information with anatomical structure and is as important as segmentation performance. We exploit the medical image segmentation uncertainty quantification by measuring segmentation performance with multiple annotations in a supervised learning manner and propose a U-Net based architecture with multiple decoders, where the image representation is encoded with the same encoder, and segmentation referring to each annotation is estimated with multiple decoders. Nevertheless, a cross-loss function is proposed for bridging the gap between different branches. The proposed architecture is trained in an end-to-end manner and able to improve predictive uncertainty estimates. The model achieves comparable performance with fewer parameters to the integrated training model that ranked the runner-up in the MICCAI-QUBIQ 2020 challenge. | 翻訳日:2021-09-16 15:12:24 公開日:2021-09-15 |
# Lie Algebra Convolutional Networkによる自動対称性探索 Automatic Symmetry Discovery with Lie Algebra Convolutional Network ( http://arxiv.org/abs/2109.07103v1 ) ライセンス: Link先を確認 | Nima Dehmamy, Robin Walters, Yanchen Liu, Dashun Wang, Rose Yu | (参考訳) 既存の連続群に対する同変ニューラルネットワークは離散化や群表現を必要とする。
これらのアプローチはすべて群パラメトリゼーションの詳細な知識を必要とし、全く新しい対称性を学べない。
我々のモデルでは、リー代数畳み込みネットワーク(L-conv)はポテンシャル対称性を学習することができ、群の離散化を必要としない。
l-conv は任意の群同変アーキテクチャを構成するためのビルディングブロックとして機能する。
本稿では,cnnとグラフ畳み込みネットワークとの関連性について論じ,l-convとして表現できる。
また,単一のl-conv層に対するmse損失を導出し,物理学で用いられるラグランジアンとの深い関係を見出した。
逆に、L-conv は科学機械学習のためのより一般的な同変 ans\atze の提案に使用できる。 Existing equivariant neural networks for continuous groups require discretization or group representations. All these approaches require detailed knowledge of the group parametrization and cannot learn entirely new symmetries. We propose to work with the Lie algebra (infinitesimal generators) instead of the Lie group.Our model, the Lie algebra convolutional network (L-conv) can learn potential symmetries and does not require discretization of the group. We show that L-conv can serve as a building block to construct any group equivariant architecture. We discuss how CNNs and Graph Convolutional Networks are related to and can be expressed as L-conv with appropriate groups. We also derive the MSE loss for a single L-conv layer and find a deep relation with Lagrangians used in physics, with some of the physics aiding in defining generalization and symmetries in the loss landscape. Conversely, L-conv could be used to propose more general equivariant ans\"atze for scientific machine learning. | 翻訳日:2021-09-16 15:11:07 公開日:2021-09-15 |
# 深層学習に基づく予後予測に対する普遍的敵意攻撃 Universal Adversarial Attack on Deep Learning Based Prognostics ( http://arxiv.org/abs/2109.07142v1 ) ライセンス: Link先を確認 | Arghya Basak, Pradeep Rathore, Sri Harsha Nistala, Sagar Srinivas, Venkataramana Runkana | (参考訳) ディープラーニングベースの時系列モデルは、プロセス制御と最適化、資産モニタリング、診断、予測メンテナンスのために、エンジニアリングと製造産業で広く利用されている。
これらのモデルは、産業機器の残りの有用寿命(rul)の予測に大きな改善が見られたが、敵対的攻撃に固有の脆弱性が生じた。
これらの攻撃は容易に利用でき、重要な産業機器の破滅的な失敗につながる可能性がある。
一般に、入力データのインスタンスごとに異なる逆摂動が計算される。
しかし、高い計算要求と入力データへの干渉のないアクセスの欠如により、攻撃者がリアルタイムに達成することは困難である。
そこで本論文では,ユール回帰に基づくrul予測モデルに対して,特別な非知覚雑音である普遍的逆摂動の概念を提案する。
攻撃者は、入力データへの連続的なアクセスと、敵の摂動の反復計算が同じ前提条件ではないため、リアルタイム攻撃に普遍的な摂動を利用することができる。
我々は、nasaのターボファンエンジンデータセットを用いて、普遍的な敵意攻撃の効果を評価する。
入力データの任意のインスタンスに普遍的逆摂動を加えると、モデルが予測した出力の誤差が増加することを示す。
私たちの知る限りでは、私たちは時系列回帰モデルに対する普遍的な逆摂動の影響を初めて研究しました。
さらに, 摂動強度の変動がRUL予測モデルに与える影響を実証し, 対角攻撃の摂動強度の増加に伴いモデル精度が低下することを示した。
また、普遍的対向摂動は異なるモデル間で伝達可能であることを示す。 Deep learning-based time series models are being extensively utilized in engineering and manufacturing industries for process control and optimization, asset monitoring, diagnostic and predictive maintenance. These models have shown great improvement in the prediction of the remaining useful life (RUL) of industrial equipment but suffer from inherent vulnerability to adversarial attacks. These attacks can be easily exploited and can lead to catastrophic failure of critical industrial equipment. In general, different adversarial perturbations are computed for each instance of the input data. This is, however, difficult for the attacker to achieve in real time due to higher computational requirement and lack of uninterrupted access to the input data. Hence, we present the concept of universal adversarial perturbation, a special imperceptible noise to fool regression based RUL prediction models. Attackers can easily utilize universal adversarial perturbations for real-time attack since continuous access to input data and repetitive computation of adversarial perturbations are not a prerequisite for the same. We evaluate the effect of universal adversarial attacks using NASA turbofan engine dataset. We show that addition of universal adversarial perturbation to any instance of the input data increases error in the output predicted by the model. To the best of our knowledge, we are the first to study the effect of the universal adversarial perturbation on time series regression models. We further demonstrate the effect of varying the strength of perturbations on RUL prediction models and found that model accuracy decreases with the increase in perturbation strength of the universal adversarial attack. We also showcase that universal adversarial perturbation can be transferred across different models. | 翻訳日:2021-09-16 15:10:51 公開日:2021-09-15 |
# ミューリモーダル感情認識のための階層グラフとの融合 Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition ( http://arxiv.org/abs/2109.07149v1 ) ライセンス: Link先を確認 | Shuyun Tang, Zhaojie Luo, Guoshun Nan, Yuichiro Yoshikawa, Ishiguro Hiroshi | (参考訳) テキスト, 音声, 視覚的手がかりを含む, 豊富なマルチモーダル入力に基づく自動感情認識(AER)は, 感情知能マシンの開発に不可欠である。
複雑なモダリティ関係は、AERにとって有効であることが証明されているが、以前の研究は、感情分類のためのマルチモーダル表現を学ぶための単純な特徴を持つ様々な融合機構に大きく依存していたため、まだ未解明である。
本稿では,特徴融合過程におけるモーダリティ依存性を考慮し,より情報に富んだマルチモーダル表現を学習する階層型融合グラフ畳み込みネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
2次元valence-arousal(va)部分空間に感情状態を投影することにより,提案手法の解釈可能性を検証する。
実験の結果,より正確なAERモデルの有効性が示され,IEMOCAPとMELDの2つの公開データセットに対して最先端の結果が得られた。 Automatic emotion recognition (AER) based on enriched multimodal inputs, including text, speech, and visual clues, is crucial in the development of emotionally intelligent machines. Although complex modality relationships have been proven effective for AER, they are still largely underexplored because previous works predominantly relied on various fusion mechanisms with simply concatenated features to learn multimodal representations for emotion classification. This paper proposes a novel hierarchical fusion graph convolutional network (HFGCN) model that learns more informative multimodal representations by considering the modality dependencies during the feature fusion procedure. Specifically, the proposed model fuses multimodality inputs using a two-stage graph construction approach and encodes the modality dependencies into the conversation representation. We verified the interpretable capabilities of the proposed method by projecting the emotional states to a 2D valence-arousal (VA) subspace. Extensive experiments showed the effectiveness of our proposed model for more accurate AER, which yielded state-of-the-art results on two public datasets, IEMOCAP and MELD. | 翻訳日:2021-09-16 15:10:28 公開日:2021-09-15 |
# ストリーミングデータに対する確率近似アルゴリズムの非漸近解析 Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Streaming Data ( http://arxiv.org/abs/2109.07117v1 ) ライセンス: Link先を確認 | Antoine Godichon-Baggioni (LPSM (UMR\_8001)), Nicklas Werge (LPSM (UMR\_8001)), Olivier Wintenberger (LPSM (UMR\_8001)) | (参考訳) 連続的に発生する高周波データストリームに動機づけられ、リアルタイム学習がますます重要になっている。
これらのデータストリームは、ストリームが時間とともに変化する可能性がある特性で順次処理されるべきである。
このストリーミング環境では,確率近似問題と呼ばれる勾配の偏りのない推定により,凸目標を最小化する手法を提案する。
本手法は,従来の反復法のみをパラメータ推定として用いるため,計算上有利な確率近似アルゴリズムに依拠する。
この推論は、古典的条件下での最適統計効率を保証する反復平均化を含む。
非漸近解析により,期待したデータストリームに応じて学習率を選択することにより,収束が加速することが示された。
平均推定値は任意のデータストリームレートに最適かつ堅牢に収束することを示す。
さらに、大規模な機械学習に有利な特定のパターンでデータを処理することで、ノイズ低減を実現することができる。
これらの理論結果は様々なデータストリームに対して示され,提案手法の有効性を示す。 Motivated by the high-frequency data streams continuously generated, real-time learning is becoming increasingly important. These data streams should be processed sequentially with the property that the stream may change over time. In this streaming setting, we propose techniques for minimizing a convex objective through unbiased estimates of its gradients, commonly referred to as stochastic approximation problems. Our methods rely on stochastic approximation algorithms due to their computationally advantage as they only use the previous iterate as a parameter estimate. The reasoning includes iterate averaging that guarantees optimal statistical efficiency under classical conditions. Our non-asymptotic analysis shows accelerated convergence by selecting the learning rate according to the expected data streams. We show that the average estimate converges optimally and robustly to any data stream rate. In addition, noise reduction can be achieved by processing the data in a specific pattern, which is advantageous for large-scale machine learning. These theoretical results are illustrated for various data streams, showing the effectiveness of the proposed algorithms. | 翻訳日:2021-09-16 15:10:08 公開日:2021-09-15 |
# 多変数ガウス多様体に対するKL-発散を用いた共役前駆体の構築 How to use KL-divergence to construct conjugate priors, with well-defined non-informative limits, for the multivariate Gaussian ( http://arxiv.org/abs/2109.07384v1 ) ライセンス: Link先を確認 | Niko Br\"ummer | (参考訳) ウィッシュアート分布は、平均が知られているときの多変量ガウス確率の精度の前の標準共役であり、また平均が未知であるときの通常のウィッシュアートも用いられる。
しかし、これらの分布のハイパーパラメータに値を割り当てる方法はあまり明確ではない。
特に、これらの分布の非インフォーマルな極限を形成する場合、ウィッシュアートの形状(あるいは自由度)パラメータは注意して扱う必要がある。
擬似数として形を直接解釈してゼロにする直感的な解法は、いくつかの著者が提案したように、形状パラメータの制限に違反している。
Wishart と normal-Wishart の共役前駆体を構築するためのエネルギー関数として多変量ガウス多様体間のスケールした KL 分割を利用する方法を示す。
情報プリエントとして使用される場合、これらの分布のサルエント特徴はモードであり、klスケーリング係数は擬似数として機能する。
スケール係数はゼロの極限まで下げることができ、ウィッシュアート形状パラメータの制約に違反しない非インフォーマティブな事前値を形成することができる。
この極限は、後続モードがガウス確率パラメータの最大推定値と同一であるという意味では非形式的である。 The Wishart distribution is the standard conjugate prior for the precision of the multivariate Gaussian likelihood, when the mean is known -- while the normal-Wishart can be used when the mean is also unknown. It is however not so obvious how to assign values to the hyperparameters of these distributions. In particular, when forming non-informative limits of these distributions, the shape (or degrees of freedom) parameter of the Wishart must be handled with care. The intuitive solution of directly interpreting the shape as a pseudocount and letting it go to zero, as proposed by some authors, violates the restrictions on the shape parameter. We show how to use the scaled KL-divergence between multivariate Gaussians as an energy function to construct Wishart and normal-Wishart conjugate priors. When used as informative priors, the salient feature of these distributions is the mode, while the KL scaling factor serves as the pseudocount. The scale factor can be taken down to the limit at zero, to form non-informative priors that do not violate the restrictions on the Wishart shape parameter. This limit is non-informative in the sense that the posterior mode is identical to the maximum likelihood estimate of the Gaussian likelihood parameters. | 翻訳日:2021-09-16 15:09:55 公開日:2021-09-15 |
# DeFungi:顕微鏡真菌画像の直接組織学的検討 DeFungi: Direct Mycological Examination of Microscopic Fungi Images ( http://arxiv.org/abs/2109.07322v1 ) ライセンス: Link先を確認 | Camilo Javier Pineda Sopo, Farshid Hajati, Soheila Gheisari | (参考訳) 伝統的に、ヒトの真菌感染症の診断と治療は、菌類学者として知られる専門の実験室科学者による対面の相談や検査に大きく依存している。
新型コロナウイルス(COVID-19)パンデミックで流行した最近の粘菌症など、多くの場合、顕微鏡で生検やサンプルを直接検査することにより、組織診断の初期段階において患者に安全な初期治療を提案できる。
深層学習モデルを用いたコンピュータ支援診断システムを訓練し, 後期の菌学的診断に用いた。
ただし、初期の文献には言及されていない。
コロンビアの菌学研究所は、この研究の発展に使用される画像に寄付した。
彼らは手作業で5つのクラスに分類され、専門的な支援を受けた。
イメージは後に収集され、最終データセットを生成するために自動コードルーチンでパッチが当てられた。
本稿では,2種類の深層学習手法と3種類の畳み込みニューラルネットワークモデル,vgg16,inception v3,resnet50を用いて5種類の菌類を分類した。
第1のアプローチでは、スクラッチからトレーニングされたモデルの分類性能をベンチマークし、第2のアプローチでは、ImageNetデータセットに基づいて事前トレーニングされたモデルを使用して分類性能をベンチマークする。
5つのクラスデータセットでk-foldクロスバリデーションテストを使用することで、スクラッチからトレーニングした最良のパフォーマンスモデルがインセプションv3で、73.2%の精度を示した。
また、転送学習を用いた最高の性能モデルはVGG16レポート85.04%であった。
2つのアプローチによって提供される統計は、分類性能を改善するために将来の研究作業を奨励する最初の参照点となる。
さらに、構築されたデータセットは、将来の研究を促進するためにkaggleとgithubで公開されている。 Traditionally, diagnosis and treatment of fungal infections in humans depend heavily on face-to-face consultations or examinations made by specialized laboratory scientists known as mycologists. In many cases, such as the recent mucormycosis spread in the COVID-19 pandemic, an initial treatment can be safely suggested to the patient during the earliest stage of the mycological diagnostic process by performing a direct examination of biopsies or samples through a microscope. Computer-aided diagnosis systems using deep learning models have been trained and used for the late mycological diagnostic stages. However, there are no reference literature works made for the early stages. A mycological laboratory in Colombia donated the images used for the development of this research work. They were manually labelled into five classes and curated with a subject matter expert assistance. The images were later cropped and patched with automated code routines to produce the final dataset. This paper presents experimental results classifying five fungi types using two different deep learning approaches and three different convolutional neural network models, VGG16, Inception V3, and ResNet50. The first approach benchmarks the classification performance for the models trained from scratch, while the second approach benchmarks the classification performance using pre-trained models based on the ImageNet dataset. Using k-fold cross-validation testing on the 5-class dataset, the best performing model trained from scratch was Inception V3, reporting 73.2% accuracy. Also, the best performing model using transfer learning was VGG16 reporting 85.04%. The statistics provided by the two approaches create an initial point of reference to encourage future research works to improve classification performance. Furthermore, the dataset built is published in Kaggle and GitHub to foster future research. | 翻訳日:2021-09-16 15:09:32 公開日:2021-09-15 |
# 環境不確実性を考慮した進化的強化学習ダイナミクス Evolutionary Reinforcement Learning Dynamics with Irreducible Environmental Uncertainty ( http://arxiv.org/abs/2109.07259v1 ) ライセンス: Link先を確認 | Wolfram Barfuss and Richard P. Mann | (参考訳) 本研究は, エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し, 提示する。
エージェント・環境システムの異なるクラス間のダイナミクスを評価し,既約環境の不確実性が学習結果の迅速化,学習過程の安定化,社会的ジレンマの克服につながることを見出した。
しかし、予想通り、部分的可観測性は、例えば破滅的なリミットサイクルの形で、学習結果の悪化を引き起こす可能性があることもわかりました。
完全に観察可能なエージェントと比較して、既約な環境不確実性を持つ学習は、最良の学習結果を得るためには、より多くの探索と将来の報酬への重みをしばしば必要とします。
さらに,部分的可観測性によって引き起こされる様々な動的効果,例えば,報酬レジームと学習ダイナミクスの高速かつ遅い方向への分離の間の学習プロセスの臨界的なスローダウンを見出した。
提示されたダイナミクスは、環境不確実性の進化的影響を体系的に研究する生物学、社会科学、機械学習の研究者にとって実践的なツールである。 In this work we derive and present evolutionary reinforcement learning dynamics in which the agents are irreducibly uncertain about the current state of the environment. We evaluate the dynamics across different classes of partially observable agent-environment systems and find that irreducible environmental uncertainty can lead to better learning outcomes faster, stabilize the learning process and overcome social dilemmas. However, as expected, we do also find that partial observability may cause worse learning outcomes, for example, in the form of a catastrophic limit cycle. Compared to fully observant agents, learning with irreducible environmental uncertainty often requires more exploration and less weight on future rewards to obtain the best learning outcomes. Furthermore, we find a range of dynamical effects induced by partial observability, e.g., a critical slowing down of the learning processes between reward regimes and the separation of the learning dynamics into fast and slow directions. The presented dynamics are a practical tool for researchers in biology, social science and machine learning to systematically investigate the evolutionary effects of environmental uncertainty. | 翻訳日:2021-09-16 15:09:04 公開日:2021-09-15 |
# ARCH:キャッシングによる効率の良い対向正規化トレーニング ARCH: Efficient Adversarial Regularized Training with Caching ( http://arxiv.org/abs/2109.07048v1 ) ライセンス: Link先を確認 | Simiao Zuo, Chen Liang, Haoming Jiang, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Tuo Zhao | (参考訳) 逆正規化は多くの自然言語処理タスクにおけるモデルの一般化を改善することができる。
しかし、従来の手法は、各エポックに各サンプルの摂動を生成する必要があるため、計算コストが高い。
本稿では,複数のエポック毎に摂動を発生・キャッシュする,新たな逆正則化手法 ARCH (adversarial regularization with cache) を提案する。
すべての摂動をキャッシュすることでメモリ使用の懸念が生じるため、この問題に対処するためにK-nearestの隣人ベースの戦略を採用しています。
この戦略は、追加のトレーニング時間を導入することなく、少量の摂動をキャッシュするだけで済む。
提案するニューラルマシン翻訳と自然言語理解タスクについて,提案手法を評価した。
archは計算の負担を大幅に軽減する(従来の手法と比較して計算時間の最大70%を節約する)。
さらに驚くべきことに、確率勾配の分散を減少させることで、ARCHは(ほとんどのタスクにおいて)顕著に優れたモデル一般化を生成する。
私たちのコードは公開されています。 Adversarial regularization can improve model generalization in many natural language processing tasks. However, conventional approaches are computationally expensive since they need to generate a perturbation for each sample in each epoch. We propose a new adversarial regularization method ARCH (adversarial regularization with caching), where perturbations are generated and cached once every several epochs. As caching all the perturbations imposes memory usage concerns, we adopt a K-nearest neighbors-based strategy to tackle this issue. The strategy only requires caching a small amount of perturbations, without introducing additional training time. We evaluate our proposed method on a set of neural machine translation and natural language understanding tasks. We observe that ARCH significantly eases the computational burden (saves up to 70\% of computational time in comparison with conventional approaches). More surprisingly, by reducing the variance of stochastic gradients, ARCH produces a notably better (in most of the tasks) or comparable model generalization. Our code is publicly available. | 翻訳日:2021-09-16 15:07:48 公開日:2021-09-15 |
# 次のフレーズ予測によるテキスト自動補完の改善 Improving Text Auto-Completion with Next Phrase Prediction ( http://arxiv.org/abs/2109.07067v1 ) ライセンス: Link先を確認 | Dong-Ho Lee, Zhiqiang Hu and Roy Ka-Wei Lee | (参考訳) GPT-2のような言語モデルは、テキスト自動補完タスクのための構文的音声文の構築においてよく機能している。
しかし、そのようなモデルは特定の記述領域(例えば医学)に適応するためにかなりの訓練を要することが多い。
本稿では,テキスト自動補完タスクにおける事前学習言語モデルの性能を向上し,特定のドメインに迅速に適応するための中間訓練戦略を提案する。
提案手法は,新しい自己教師付き学習目標であるnext phrase prediction (npp) を含む。これは言語モデルに拡張されたフレーズで部分的クエリを完了させ,最終的にモデルのテキストの自動補完性能を向上させる。
予備実験により,電子メールおよび学術書き込みドメインの自動補完において,本手法がベースラインを上回ることができることを示した。 Language models such as GPT-2 have performed well on constructing syntactically sound sentences for text auto-completion task. However, such models often require considerable training effort to adapt to specific writing domains (e.g., medical). In this paper, we propose an intermediate training strategy to enhance pre-trained language models' performance in the text auto-completion task and fastly adapt them to specific domains. Our strategy includes a novel self-supervised training objective called Next Phrase Prediction (NPP), which encourages a language model to complete the partial query with enriched phrases and eventually improve the model's text auto-completion performance. Preliminary experiments have shown that our approach is able to outperform the baselines in auto-completion for email and academic writing domains. | 翻訳日:2021-09-16 15:07:31 公開日:2021-09-15 |
# 変圧器に基づく語彙制約付き見出し生成 Transformer-based Lexically Constrained Headline Generation ( http://arxiv.org/abs/2109.07080v1 ) ライセンス: Link先を確認 | Kosuke Yamada, Yuta Hitomi, Hideaki Tamori, Ryohei Sasano, Naoaki Okazaki, Kentaro Inui, Koichi Takeda | (参考訳) 本稿では,生成した見出しに企業名や製品名などの特定のフレーズを含める必要がある,自動見出し生成手法の変種について検討する。
トランスベースモデルを用いた以前の方法は、エンコーダに所定の句に対応する追加情報を与えることで、与えられた句を含む見出しを生成する。
しかし、これらの方法は必ずしも生成した見出しにフレーズを含めることはできない。
そこで,従来のrnnベースのトークンシーケンス生成手法に触発されて,高品質な見出しに与えられたフレーズを含めることを保証した,簡易なトランスフォーマー方式を提案する。
また,トランスの制御可能な生成順序を利用した新たなヘッドライン生成戦略も検討する。
日本語ニュースコーパスを用いた実験により,提案手法は生成した見出しに単語を含めることが保証されており,従来のトランスフォーマー方式に匹敵するROUGEスコアが得られることが示された。
また,我々の世代戦略が従来の戦略よりも優れていることを示す。 This paper explores a variant of automatic headline generation methods, where a generated headline is required to include a given phrase such as a company or a product name. Previous methods using Transformer-based models generate a headline including a given phrase by providing the encoder with additional information corresponding to the given phrase. However, these methods cannot always include the phrase in the generated headline. Inspired by previous RNN-based methods generating token sequences in backward and forward directions from the given phrase, we propose a simple Transformer-based method that guarantees to include the given phrase in the high-quality generated headline. We also consider a new headline generation strategy that takes advantage of the controllable generation order of Transformer. Our experiments with the Japanese News Corpus demonstrate that our methods, which are guaranteed to include the phrase in the generated headline, achieve ROUGE scores comparable to previous Transformer-based methods. We also show that our generation strategy performs better than previous strategies. | 翻訳日:2021-09-16 15:07:16 公開日:2021-09-15 |
# エッジ探索タスクはqaモデルに言語知識を明らかにすることができるか? Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? ( http://arxiv.org/abs/2109.07102v1 ) ライセンス: Link先を確認 | Sagnik Ray Choudhury, Nikita Bhutani, Isabelle Augenstein | (参考訳) 文法的知識(例えば、トークンのスピーチの一部を理解する能力)が大規模な事前学習言語モデル(LM)にエンコードされているかを理解するために、多くの努力がなされている。
これは `edge probing' (ep) テストによって行われる: lm のトークン表現である \textit{only} を使ってスパンの文法的特性を予測する単純な ml モデル。
しかし、ほとんどのNLPアプリケーションは \finetuned\ LMs を使っている。
ここでは、 LM が \finetuned である場合、EP テストによって測定された言語情報の符号化は変更されるか?
複数の質問応答(QA)データセットで実験を行うことで、EPテストの結果は、微調整されたQAモデルが正常に動作した場合や、モデルが間違った相関関係を学習せざるを得ない場合に大きく変化しない。
しかし、EPタスクデータセットの批判的分析により、EPモデルは予測を行うために急激な相関に依存する可能性があることが明らかになった。
これは、もし \finetuning\がそのような知識のエンコーディングを変更したとしても、EPテストはそれを測定できないかもしれないことを示している。 There have been many efforts to try to understand what grammatical knowledge (e.g., ability to understand the part of speech of a token) is encoded in large pre-trained language models (LM). This is done through `Edge Probing' (EP) tests: simple ML models that predict the grammatical properties of a span (whether it has a particular part of speech) using \textit{only} the LM's token representations. However, most NLP applications use \finetuned\ LMs. Here, we ask: if a LM is \finetuned, does the encoding of linguistic information in it change, as measured by EP tests? Conducting experiments on multiple question-answering (QA) datasets, we answer that question negatively: the EP test results do not change significantly when the fine-tuned QA model performs well or in adversarial situations where the model is forced to learn wrong correlations. However, a critical analysis of the EP task datasets reveals that EP models may rely on spurious correlations to make predictions. This indicates even if \finetuning\ changes the encoding of such knowledge, the EP tests might fail to measure it. | 翻訳日:2021-09-16 15:07:01 公開日:2021-09-15 |
# 深層文脈言語モデルの普遍性について On the Universality of Deep COntextual Language Models ( http://arxiv.org/abs/2109.07140v1 ) ライセンス: Link先を確認 | Shaily Bhatt, Poonam Goyal, Sandipan Dandapat, Monojit Choudhury, Sunayana Sitaram | (参考訳) ELMOやBERTなどの深層文脈言語モデル(LM)は、単一モデルを事前学習し、タスク固有の微調整を行うことによって、複数のタスクを迅速にスケールできる能力によって、自然言語処理のランドスケープを支配している。
さらに、XLM-RやmBERTのようなマルチ言語バージョンは、ゼロショットのクロスランガル転送において有望な結果をもたらし、多くの未使用およびアンダーリソース言語でのNLPアプリケーションを可能にする可能性がある。
この最初の成功により、事前訓練されたモデルは、さまざまなタスク、ドメイン、言語間の出発点として 'Universal Language Models' として使用されている。
この研究は、「普遍性」の概念を探求し、普遍モデルがスケールできる7つの次元、すなわち、等しく、あるいは合理的に機能し、多様な設定で有用であるように識別する。
これらの次元にわたるモデルパフォーマンスをサポートする現在の理論的および経験的な結果と、現在の制限に対処するのに役立つ拡張の概要を概説する。
本調査を通じて,大規模文脈言語モデルの能力と限界を理解する基盤を構築し,これらのLMを多様なアプリケーション,ユーザ,言語現象に包括的かつ公平にするための今後の研究のギャップと方向性を明らかにする。 Deep Contextual Language Models (LMs) like ELMO, BERT, and their successors dominate the landscape of Natural Language Processing due to their ability to scale across multiple tasks rapidly by pre-training a single model, followed by task-specific fine-tuning. Furthermore, multilingual versions of such models like XLM-R and mBERT have given promising results in zero-shot cross-lingual transfer, potentially enabling NLP applications in many under-served and under-resourced languages. Due to this initial success, pre-trained models are being used as `Universal Language Models' as the starting point across diverse tasks, domains, and languages. This work explores the notion of `Universality' by identifying seven dimensions across which a universal model should be able to scale, that is, perform equally well or reasonably well, to be useful across diverse settings. We outline the current theoretical and empirical results that support model performance across these dimensions, along with extensions that may help address some of their current limitations. Through this survey, we lay the foundation for understanding the capabilities and limitations of massive contextual language models and help discern research gaps and directions for future work to make these LMs inclusive and fair to diverse applications, users, and linguistic phenomena. | 翻訳日:2021-09-16 15:06:41 公開日:2021-09-15 |
# マスキング言語モデルの解析における残差および正規化層の導入 Incorporating Residual and Normalization Layers into Analysis of Masked Language Models ( http://arxiv.org/abs/2109.07152v1 ) ライセンス: Link先を確認 | Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui | (参考訳) トランスフォーマーアーキテクチャは自然言語処理の分野で広く普及している。
Transformerベースのモデルを解釈するために、その注意パターンを広範囲に分析した。
しかし、Transformerアーキテクチャはマルチヘッドアテンションで構成されているだけでなく、他のコンポーネントもTransformerのプログレッシブパフォーマンスに貢献している。
本研究では,注意パターンのみから注意ブロック全体,すなわちマルチヘッド注意,残留接続,層正規化まで,トランスフォーマーの解析範囲を広げた。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
これらの結果は、既存のレポートの直感的な説明を提供する。例えば、学習した注意パターンを捨てることは、パフォーマンスに悪影響を及ぼさない傾向がある。
私たちの実験のコードは公開されています。 Transformer architecture has become ubiquitous in the natural language processing field. To interpret the Transformer-based models, their attention patterns have been extensively analyzed. However, the Transformer architecture is not only composed of the multi-head attention; other components can also contribute to Transformers' progressive performance. In this study, we extended the scope of the analysis of Transformers from solely the attention patterns to the whole attention block, i.e., multi-head attention, residual connection, and layer normalization. Our analysis of Transformer-based masked language models shows that the token-to-token interaction performed via attention has less impact on the intermediate representations than previously assumed. These results provide new intuitive explanations of existing reports; for example, discarding the learned attention patterns tends not to adversely affect the performance. The codes of our experiments are publicly available. | 翻訳日:2021-09-16 15:06:18 公開日:2021-09-15 |
# 言語モデルはバイオメディカル知識ベースになれるか? Can Language Models be Biomedical Knowledge Bases? ( http://arxiv.org/abs/2109.07154v1 ) ライセンス: Link先を確認 | Mujeen Sung, Jinhyuk Lee, Sean Yi, Minji Jeon, Sungdong Kim, Jaewoo Kang | (参考訳) 様々な自然言語処理(NLP)タスクの解決において,事前学習型言語モデル(LM)が普及している。
lmsが持つ知識と、その知識をいかに抽出し、lmsを知識ベース(kbs)として扱うかについて、関心が高まっている。
一般領域でのLMの探索には多くの研究がなされているが、これらの強力なLMがドメイン固有のKBとして利用できるかどうかについては注目されていない。
この目的のために,バイオメディカルLMを探索するためのバイオメディカル事実知識3倍の49Kのバイオメディカル知識からなるBioLAMAベンチマークを作成する。
近年提案された生物医学的手法により,生物医学的知識の検索において,最大18.51%のAcc@5が得られることがわかった。
課題の難しさを考えると,これは有望なことと思われるが,我々の詳細な分析では,ほとんどの予測は対象のないプロンプトテンプレートと高い相関関係があることが判明している。
バイオラマが生体医学的事実調査の難解な指標になることを願っている。 Pre-trained language models (LMs) have become ubiquitous in solving various natural language processing (NLP) tasks. There has been increasing interest in what knowledge these LMs contain and how we can extract that knowledge, treating LMs as knowledge bases (KBs). While there has been much work on probing LMs in the general domain, there has been little attention to whether these powerful LMs can be used as domain-specific KBs. To this end, we create the BioLAMA benchmark, which is comprised of 49K biomedical factual knowledge triples for probing biomedical LMs. We find that biomedical LMs with recently proposed probing methods can achieve up to 18.51% Acc@5 on retrieving biomedical knowledge. Although this seems promising given the task difficulty, our detailed analyses reveal that most predictions are highly correlated with prompt templates without any subjects, hence producing similar results on each relation and hindering their capabilities to be used as domain-specific KBs. We hope that BioLAMA can serve as a challenging benchmark for biomedical factual probing. | 翻訳日:2021-09-16 15:06:05 公開日:2021-09-15 |
# sweat: 異なるコーパスのトピックの分極をスコアする SWEAT: Scoring Polarization of Topics across Different Corpora ( http://arxiv.org/abs/2109.07231v1 ) ライセンス: Link先を確認 | Federico Bianchi, Marco Marelli, Paolo Nicoli, Matteo Palmonari | (参考訳) コーパス間の視点の違いを理解することは、計算社会科学の基本的な課題である。
本稿では,2つの分布表現にまたがる局所的単語セットの相対分極を計算するための新しい統計的尺度であるsliced word embedded association test (sweat)を提案する。
この目的のために、SWEATは2つの異なる極を表すために、反対の原子価を持つと考えられる2つの追加の単語セットを使用する。
提案手法を検証し,本手法の有用性を示すケーススタディを示す。 Understanding differences of viewpoints across corpora is a fundamental task for computational social sciences. In this paper, we propose the Sliced Word Embedding Association Test (SWEAT), a novel statistical measure to compute the relative polarization of a topical wordset across two distributional representations. To this end, SWEAT uses two additional wordsets, deemed to have opposite valence, to represent two different poles. We validate our approach and illustrate a case study to show the usefulness of the introduced measure. | 翻訳日:2021-09-16 15:05:44 公開日:2021-09-15 |
# ベースラインの不合理な有効性:法的テキスト分類におけるSVMの議論 The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal Text Classification ( http://arxiv.org/abs/2109.07234v1 ) ライセンス: Link先を確認 | Benjamin Clavi\'e and Marc Alphonsus | (参考訳) 我々は、法律自然言語処理における進歩に関する議論に引き続き貢献する興味深い傾向を強調したい。
近年,ほとんどの法的テキスト分類タスクは,BERTのような大規模学習モデルにシフトしている。
本稿では,サポートベクタマシン分類器に基づく従来型アプローチが,ディープラーニングモデルと競合する性能に達することを示す。
また,ベースライン上での特定BERTモデルを用いた誤差低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。
今後の議論を支援するための仮説を議論する。 We aim to highlight an interesting trend to contribute to the ongoing debate around advances within legal Natural Language Processing. Recently, the focus for most legal text classification tasks has shifted towards large pre-trained deep learning models such as BERT. In this paper, we show that a more traditional approach based on Support Vector Machine classifiers reaches competitive performance with deep learning models. We also highlight that error reduction obtained by using specialised BERT-based models over baselines is noticeably smaller in the legal domain when compared to general language tasks. We discuss some hypotheses for these results to support future discussions. | 翻訳日:2021-09-16 15:05:35 公開日:2021-09-15 |
# 予測否定手がかりのスコープ分解:2段階ニューラルネットワークによるアプローチ Scope resolution of predicted negation cues: A two-step neural network-based approach ( http://arxiv.org/abs/2109.07264v1 ) ライセンス: Link先を確認 | Daan de Jong | (参考訳) ニューラルネットワークに基づく手法は、否定的スコープ解決の最先端技術である。
しかし、しばしば、手がかり情報が完全に正確であるという非現実的な仮定を用いる。
この仮定が成り立つとしても、最先端の機械学習手法によるエンジニアリング機能への依存は残る。
本研究は,2段階の否定解法を用いて,双方向長短期記憶法がキュー検出にも有効か,不正確なキュー予測がスコープ分解性能にどのように影響するかを検証した。
その結果, 本手法は否定検出には適さないことが示唆された。
スコープ解像度性能は、条件付きランダムフィールド層や後処理アルゴリズムによる拡張と比較して、反復層のみを持つモデルの不正確な情報に対して最も堅牢である。
我々は、深層学習の否定検出への応用と、不完全な情報がスコープ解決に与える影響について、さらなる研究を提唱する。 Neural network-based methods are the state of the art in negation scope resolution. However, they often use the unrealistic assumption that cue information is completely accurate. Even if this assumption holds, there remains a dependency on engineered features from state-of-the-art machine learning methods. The current study adopted a two-step negation resolving apporach to assess whether a Bidirectional Long Short-Term Memory-based method can be used for cue detection as well, and how inaccurate cue predictions would affect the scope resolution performance. Results suggest that this method is not suitable for negation detection. Scope resolution performance is most robust against inaccurate information for models with a recurrent layer only, compared to extensions with a Conditional Random Fields layer or a post-processing algorithm. We advocate for more research into the application of deep learning on negation detection and the effect of imperfect information on scope resolution. | 翻訳日:2021-09-16 15:05:26 公開日:2021-09-15 |
# シーケンス長はドメインである:トランスフォーマーモデルにおける長さに基づくオーバーフィッティング Sequence Length is a Domain: Length-based Overfitting in Transformer Models ( http://arxiv.org/abs/2109.07276v1 ) ライセンス: Link先を確認 | Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar | (参考訳) トランスフォーマーベースのシーケンス・ツー・シーケンスアーキテクチャは、多くのNLPタスクで最先端の結果を達成する一方で、トレーニング中に過度な適合に悩まされる可能性がある。
実際には、これは通常、正規化法(例えば、ドロップアウト、l2-正規化)を適用するか、大量のトレーニングデータを提供することで対処される。
さらにTransformerや他のアーキテクチャは、非常に長いシーケンスを生成するのに苦労することが知られている。
例えば、機械翻訳では、前回のフレーズベースの翻訳アプローチ(Koehn and Knowles, 2017)と比較して、ニューラルネットワークシステムは非常に長いシーケンスでより良く動作する。
本報告では,トレーニングデータの長さ分布と検証データとのミスマッチとニューラルネットワークがトレーニングデータに過剰に適合する傾向との相関が問題となる可能性を示唆する。
トレーニングデータ中の長さ分布から分岐する長さ列に直面すると,トランスフォーマーモデルの性能が著しく低下する,単純な文字列編集タスクと機械翻訳タスクを実証する。
また,実測結果の低下は,入力列の長さではなく,モデルがトレーニング中に見た長さに対応する仮説長によるものであることを示した。 Transformer-based sequence-to-sequence architectures, while achieving state-of-the-art results on a large number of NLP tasks, can still suffer from overfitting during training. In practice, this is usually countered either by applying regularization methods (e.g. dropout, L2-regularization) or by providing huge amounts of training data. Additionally, Transformer and other architectures are known to struggle when generating very long sequences. For example, in machine translation, the neural-based systems perform worse on very long sequences when compared to the preceding phrase-based translation approaches (Koehn and Knowles, 2017). We present results which suggest that the issue might also be in the mismatch between the length distributions of the training and validation data combined with the aforementioned tendency of the neural networks to overfit to the training data. We demonstrate on a simple string editing task and a machine translation task that the Transformer model performance drops significantly when facing sequences of length diverging from the length distribution in the training data. Additionally, we show that the observed drop in performance is due to the hypothesis length corresponding to the lengths seen by the model during training rather than the length of the input sequence. | 翻訳日:2021-09-16 15:05:14 公開日:2021-09-15 |
# 言語間言語モデル事前学習のための大語彙容量の割り当て Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training ( http://arxiv.org/abs/2109.07306v1 ) ライセンス: Link先を確認 | Bo Zheng, Li Dong, Shaohan Huang, Saksham Singhal, Wanxiang Che, Ting Liu, Xia Song, Furu Wei | (参考訳) 単言語モデルと比較して、言語間モデルは通常、すべての言語を適切に表現するためにより表現力のある語彙を必要とする。
最近の言語間言語モデルでは語彙の容量が限られているため,多くの言語が不足していることがわかった。
そこで本研究では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
しかし,語彙サイズの増大は,事前学習速度を著しく低下させる。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
実験の結果,VoCapで学習した多言語語彙は言語間言語モデルの事前学習に有効であることがわかった。
さらに、k-nnベースのターゲットサンプリングは語彙サイズを増加させる副作用を軽減し、同等の性能を達成し、事前学習速度を高速化する。
コードと事前訓練された多言語語彙はhttps://github.com/bozheng-hit/VoCapXLMで入手できる。 Compared to monolingual models, cross-lingual models usually require a more expressive vocabulary to represent all languages adequately. We find that many languages are under-represented in recent cross-lingual language models due to the limited vocabulary capacity. To this end, we propose an algorithm VoCap to determine the desired vocabulary capacity of each language. However, increasing the vocabulary size significantly slows down the pre-training speed. In order to address the issues, we propose k-NN-based target sampling to accelerate the expensive softmax. Our experiments show that the multilingual vocabulary learned with VoCap benefits cross-lingual language model pre-training. Moreover, k-NN-based target sampling mitigates the side-effects of increasing the vocabulary size while achieving comparable performance and faster pre-training speed. The code and the pretrained multilingual vocabularies are available at https://github.com/bozheng-hit/VoCapXLM. | 翻訳日:2021-09-16 15:04:54 公開日:2021-09-15 |
# ドイツ憎悪者コミュニティ調査のためのtelegram用乱用言語分類フレームワークの導入 Introducing an Abusive Language Classification Framework for Telegram to Investigate the German Hater Community ( http://arxiv.org/abs/2109.07346v1 ) ライセンス: Link先を確認 | Maximilian Wich, Adrian Gorniak, Tobias Eder, Daniel Bartmann, Burak Enes \c{C}akici, Georg Groh | (参考訳) 従来のソーシャルメディアプラットフォームでは、ヘイトスピーチやその他の乱用言語(デプラットフォーム)を配布するアクターが増えているため、これらのアクターは、ユーザーのコンテンツを穏健にしない代替プラットフォームに移行する。
ドイツの憎しみコミュニティに関係のあるプラットフォームとして、Telegramがある。
本研究の目的は,広義の枠組みを開発することである。
(i)ドイツの電文メッセージに対する乱用言語分類モデルと
(ii)テレグラムチャンネルの憎悪の分類モデル
まず、他のプラットフォームからの投稿を含む既存の乱用言語データセットを使用して分類モデルを構築します。
チャネル分類モデルのために,トピックモデルからのチャネル固有のコンテンツ情報をソーシャルグラフと組み合わせ,チャネルの憎悪度を予測する手法を開発した。
さらに,ドイツのテレグラムにおける憎悪コミュニティの発展に関する洞察に富んだ結果とともに,これら2つのヘイトスピーチ検出手法を補完する。
さらに,ソーシャルメディアプラットフォームのためのスケーラブルなネットワーク分析のためのヘイトスピーチ研究コミュニティに提案手法を提案する。
本研究のさらなるアウトプットとして,1,149件のTelegramメッセージを含むアノテート乱用言語データセットを作成した。 Since traditional social media platforms ban more and more actors that distribute hate speech or other forms of abusive language (deplatforming), these actors migrate to alternative platforms that do not moderate the users' content. One known platform that is relevant for the German hater community is Telegram, for which there have only been made limited research efforts so far. The goal of this study is to develop a broad framework that consists of (i) an abusive language classification model for German Telegram messages and (ii) a classification model for the hatefulness of Telegram channels. For the first part, we employ existing abusive language datasets containing posts from other platforms to build our classification models. For the channel classification model, we develop a method that combines channel specific content information coming from a topic model with a social graph to predict the hatefulness of channels. Furthermore, we complement these two approaches for hate speech detection with insightful results on the evolution of the hater community on Telegram in Germany. Moreover, we propose methods to the hate speech research community for scalable network analyses for social media platforms. As an additional output of the study, we release an annotated abusive language dataset containing 1,149 annotated Telegram messages. | 翻訳日:2021-09-16 15:04:42 公開日:2021-09-15 |
# モービー・ディック」はクジラか鳥ですか。
音声翻訳における名前付きエンティティと用語 Is "moby dick" a Whale or a Bird? Named Entities and Terminology in Speech Translation ( http://arxiv.org/abs/2109.07439v1 ) ライセンス: Link先を確認 | Marco Gaido, Susana Rodr\'iguez, Matteo Negri, Luisa Bentivogli and Marco Turchi | (参考訳) 自動翻訳システムは稀な単語に苦しむことが知られている。
これらのうち、名前付きエンティティ(nes)とドメイン固有の用語は、翻訳の誤りが深刻な意味の歪みを引き起こす可能性があるため、重要である。
その重要性にもかかわらず、以前の音声翻訳(ST)研究はそれらを無視してきた。
このギャップを埋めるために
一 NEと用語の翻訳における最先端STシステムの挙動に関する最初の系統的分析及び
二 欧州議会の演説にnes及び用語を注釈した新しいベンチマークであるneuroparl-stをリリースすること。
我々のベンチマーク(en->es/fr/it)による3つの言語方向に関する実験では、STシステムは75-80%の用語と65-70%のNEを正しく翻訳し、人名に対して非常に低い性能(37-40%)を示す。 Automatic translation systems are known to struggle with rare words. Among these, named entities (NEs) and domain-specific terms are crucial, since errors in their translation can lead to severe meaning distortions. Despite their importance, previous speech translation (ST) studies have neglected them, also due to the dearth of publicly available resources tailored to their specific evaluation. To fill this gap, we i) present the first systematic analysis of the behavior of state-of-the-art ST systems in translating NEs and terminology, and ii) release NEuRoparl-ST, a novel benchmark built from European Parliament speeches annotated with NEs and terminology. Our experiments on the three language directions covered by our benchmark (en->es/fr/it) show that ST systems correctly translate 75-80% of terms and 65-70% of NEs, with very low performance (37-40%) on person names. | 翻訳日:2021-09-16 15:04:25 公開日:2021-09-15 |
# 適応トークン化による言語モデルの効率的なドメイン適応 Efficient Domain Adaptation of Language Models via Adaptive Tokenization ( http://arxiv.org/abs/2109.07460v1 ) ライセンス: Link先を確認 | Vin Sachidananda and Jason S. Kessler and Yi-an Lai | (参考訳) BERTやRoBERTaといった大規模データセットでトレーニングされたコンテキスト埋め込みベースの言語モデルは、幅広いタスクにわたって強力なパフォーマンスを提供し、現代のNLPではユビキタスである。
これらのモデルを、事前訓練されたドメインと異なる領域のデータを含むタスクで微調整することは、最適以下のパフォーマンスをもたらすことが観察されている。
最近の研究は、新しいドメインに事前学習された言語モデルを適用するためのアプローチを探っている。
本稿では,事前学習した言語モデルを新しいドメインに変換するための代替手法を提案する。
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から直接的に決定できることを示す。
4つの異なるドメインからのデータセットでは、事前トレーニングされたRoBERTaモデルの適応トークン化により、ドメイン固有の事前トレーニングのパフォーマンスメリットの97%が提供される。
当社のアプローチは,tokenizer拡張を使用する他のアプローチよりも,モデルが小さく,トレーニングや推論時間の短縮を実現しています。
適応トークン化は10k個の新しいドメイン固有トークンの導入により,実験においてモデルパラメータが6%増加する一方,64個のvCPUを用いたアプローチは,8個のTPU上でのドメイン固有コーパス上での言語モデルの事前学習よりも72倍高速である。 Contextual embedding-based language models trained on large data sets, such as BERT and RoBERTa, provide strong performance across a wide range of tasks and are ubiquitous in modern NLP. It has been observed that fine-tuning these models on tasks involving data from domains different from that on which they were pretrained can lead to suboptimal performance. Recent work has explored approaches to adapt pretrained language models to new domains by incorporating additional pretraining using domain-specific corpora and task data. We propose an alternative approach for transferring pretrained language models to new domains by adapting their tokenizers. We show that domain-specific subword sequences can be efficiently determined directly from divergences in the conditional token distributions of the base and domain-specific corpora. In datasets from four disparate domains, we find adaptive tokenization on a pretrained RoBERTa model provides >97% of the performance benefits of domain specific pretraining. Our approach produces smaller models and less training and inference time than other approaches using tokenizer augmentation. While adaptive tokenization incurs a 6% increase in model parameters in our experimentation, due to the introduction of 10k new domain-specific tokens, our approach, using 64 vCPUs, is 72x faster than further pretraining the language model on domain-specific corpora on 8 TPUs. | 翻訳日:2021-09-16 15:04:07 公開日:2021-09-15 |
# AnnIE: 完全なオープン情報抽出ベンチマークを構築するためのアノテーションプラットフォーム AnnIE: An Annotation Platform for Constructing Complete Open Information Extraction Benchmark ( http://arxiv.org/abs/2109.07464v1 ) ライセンス: Link先を確認 | Niklas Friedrich, Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence, Mathias Niepert, Goran Glava\v{s} | (参考訳) オープン情報抽出(OIE)は、関係の形で文から事実を抽出し、それに対応する議論をスキーマフリーで行うタスクである。
OIEシステムの本質的な性能は、既存のOIEベンチマークの不完全性のため測定が難しい: 基底真理抽出は、文から抽出できる同じ事実のすべての許容面実現をグループ化しない。
OIEシステムの性能をより現実的に測定するには、入力文から完全な事実(すなわち、同じ事実の全ての許容面実現のクラスタ)を手動でアノテートする必要がある。
我々は,このような難易度の高いアノテーションタスクを支援するインタラクティブなアノテーションプラットフォームAnnIEを提案し,完全なファクト指向OIE評価ベンチマークの作成をサポートする。
AnnIEは、異なるユースケースシナリオ(例えば、異なる種類の事実をカバーするベンチマーク)をサポートするためにモジュール化され、柔軟である。
私たちはAnnIEを使って2つの完全なOIEベンチマークを構築しています。
最後に、AnnIEで作成した完全なベンチマークに基づいて複数のOIEシステムを評価する。
以上の結果から,既存の不完全ベンチマークは過度に寛大であり,OIEシステムは以前報告したほど堅牢ではないことが示唆された。
非制限ライセンスでAnnIEを公開しています。 Open Information Extraction (OIE) is the task of extracting facts from sentences in the form of relations and their corresponding arguments in schema-free manner. Intrinsic performance of OIE systems is difficult to measure due to the incompleteness of existing OIE benchmarks: the ground truth extractions do not group all acceptable surface realizations of the same fact that can be extracted from a sentence. To measure performance of OIE systems more realistically, it is necessary to manually annotate complete facts (i.e., clusters of all acceptable surface realizations of the same fact) from input sentences. We propose AnnIE: an interactive annotation platform that facilitates such challenging annotation tasks and supports creation of complete fact-oriented OIE evaluation benchmarks. AnnIE is modular and flexible in order to support different use case scenarios (i.e., benchmarks covering different types of facts). We use AnnIE to build two complete OIE benchmarks: one with verb-mediated facts and another with facts encompassing named entities. Finally, we evaluate several OIE systems on our complete benchmarks created with AnnIE. Our results suggest that existing incomplete benchmarks are overly lenient, and that OIE systems are not as robust as previously reported. We publicly release AnnIE under non-restrictive license. | 翻訳日:2021-09-16 15:03:44 公開日:2021-09-15 |
# マルコフ決定過程のステートエイリアスによる人的実行エラーを考慮に入れた合成法 Synthesizing Policies That Account For Human Execution Errors Caused By StateAliasing In Markov Decision Processes ( http://arxiv.org/abs/2109.07436v1 ) ライセンス: Link先を確認 | Sriram Gopalakrishnan, Mudit Verma, Subbarao Kambhampati | (参考訳) 人間が実行するポリシーが与えられると、状態を特定する上で不確実性がある場合、po-icyの実行エラーや実行時の逸脱が発生する可能性がある。
したがって、人間が実行するためのアルゴリズムは、その計算にこれらの効果を考慮すべきである。
最適なmdpポリシーは、(人間のエージェントのために)(おそらく)、より少ないエラーで実行される他のポリシーよりもはるかに悪い。
本稿では,マルコフ決定プロセス(MDP)によってモデル化された設定で機能する人間エージェントの計算ポリシーにおいて,誤った実行と前処理遅延の問題を考察する。
我々は, 状態の不確実性による非政治的行為様不動(デレイ)の可能性と, 政治的実行誤差の可能性をモデル化する枠組みを提案する。
続いてヒルクライミングアルゴリズムが、これらのエラーを考慮に入れた適切なポリシーを探索する。
次に、分岐と有界なアルゴリズムでバイヒルクライミングの最良のポリシーを使い、最適ポリシーを見つけます。
我々はグリッドワールドドメインで実験結果を示し、2つのアルゴリズムの性能を解析し、また、状態認識下での人間による仮定ポリシーの実行が許容可能かどうかを検証した。 When humans are given a policy to execute, there can be pol-icy execution errors and deviations in execution if there is un-certainty in identifying a state. So an algorithm that computesa policy for a human to execute ought to consider these effectsin its computations. An optimal MDP policy that is poorly ex-ecuted (because of a human agent) maybe much worse thananother policy that is executed with fewer errors. In this pa-per, we consider the problems of erroneous execution and ex-ecution delay when computing policies for a human agent thatwould act in a setting modeled by a Markov Decision Process(MDP). We present a framework to model the likelihood ofpolicy execution errors and likelihood of non-policy actionslike inaction (delays) due to state uncertainty. This is followedby a hill climbing algorithm to search for good policies thataccount for these errors. We then use the best policy found byhill climbing with a branch and bound algorithm to find theoptimal policy. We show experimental results in a Gridworlddomain and analyze the performance of the two algorithms.We also present human studies that verify if our assumptionson policy execution by humans under state-aliasing are rea-sonable. | 翻訳日:2021-09-16 15:03:24 公開日:2021-09-15 |
# PnP-DETR:変換器を用いた効率的な視覚解析を目指して PnP-DETR: Towards Efficient Visual Analysis with Transformers ( http://arxiv.org/abs/2109.07036v1 ) ライセンス: Link先を確認 | Tao Wang, Li Yuan, Yunpeng Chen, Jiashi Feng, Shuicheng Yan | (参考訳) 近年、DETR~\cite{carion2020end} はトランスフォーマーを用いた視覚タスクの解法を開拓し、画像特徴写像を直接オブジェクト検出結果に変換する。
有効ではあるが、背景のような領域で冗長な計算を行うため、フル機能マップの翻訳はコストがかかる可能性がある。
本研究では,空間的冗長性を削減するという考え方を新しいpnpサンプリングモジュールにカプセル化し,その計算を空間的に適応的に割り当ててより効率的にするエンドツーエンドのpnp-detrアーキテクチャを構築する。
具体的には、PnPモジュールは画像特徴マップを微細な前景オブジェクト特徴ベクトルと、少数の粗い背景背景特徴ベクトルに抽象化する。
トランスフォーマーは、細粒度特徴空間内の情報相互作用をモデル化し、特徴を検出結果に変換する。
さらに、PnP拡張モデルは、既存の手法として複数のモデルを訓練することなく、サンプル特徴長を変化させることにより、単一モデルによる性能と計算の間の様々なトレードオフを即座に達成することができる。
これにより、さまざまな計算制約のあるさまざまなシナリオでのデプロイメントの柔軟性が向上する。
さらに、PnP モジュールの \textbf{panoptic segmentation} 上の一般化性と、最近の変換器ベース画像認識モデル {\textbf{ViT}}~\cite{dosovitskiy2020image} の一般化性を検証し、一貫した効率向上を示す。
我々は,この手法が,空間冗長性をよく観察するトランスフォーマーを用いた効率的な視覚解析のステップとなると信じている。
コードは \url{https://github.com/twangnh/pnp-detr}で入手できる。 Recently, DETR~\cite{carion2020end} pioneered the solution of vision tasks with transformers, it directly translates the image feature map into the object detection result. Though effective, translating the full feature map can be costly due to redundant computation on some area like the background. In this work, we encapsulate the idea of reducing spatial redundancy into a novel poll and pool (PnP) sampling module, with which we build an end-to-end PnP-DETR architecture that adaptively allocates its computation spatially to be more efficient. Concretely, the PnP module abstracts the image feature map into fine foreground object feature vectors and a small number of coarse background contextual feature vectors. The transformer models information interaction within the fine-coarse feature space and translates the features into the detection result. Moreover, the PnP-augmented model can instantly achieve various desired trade-offs between performance and computation with a single model by varying the sampled feature length, without requiring to train multiple models as existing methods. Thus it offers greater flexibility for deployment in diverse scenarios with varying computation constraint. We further validate the generalizability of the PnP module on \textbf{panoptic segmentation} and the recent transformer-based image recognition model {\textbf{ViT}}~\cite{dosovitskiy2020image} and show consistent efficiency gain. We believe our method makes a step for efficient visual analysis with transformers, wherein spatial redundancy is commonly observed. Code will be available at \url{https://github.com/twangnh/pnp-detr}. | 翻訳日:2021-09-16 15:01:53 公開日:2021-09-15 |
# 意味合成による画像合成 Image Synthesis via Semantic Composition ( http://arxiv.org/abs/2109.07053v1 ) ライセンス: Link先を確認 | Yi Wang, Lu Qi, Ying-Cong Chen, Xiangyu Zhang, Jiaya Jia | (参考訳) 本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
これらの特徴を条件付けして,(畳み込みと正規化を併用した)空間的条件付き計算により構築した動的重み付きネットワークを提案する。
意味的区別を保存すること以上に、与えられた動的ネットワークは意味的関連性を強化し、グローバルな構造と詳細合成の恩恵を受ける。
提案手法は,ベンチマーク実験により,説得力のある生成性能を質的かつ定量的に評価する。 In this paper, we present a novel approach to synthesize realistic images based on their semantic layouts. It hypothesizes that for objects with similar appearance, they share similar representation. Our method establishes dependencies between regions according to their appearance correlation, yielding both spatially variant and associated representations. Conditioning on these features, we propose a dynamic weighted network constructed by spatially conditional computation (with both convolution and normalization). More than preserving semantic distinctions, the given dynamic network strengthens semantic relevance, benefiting global structure and detail synthesis. We demonstrate that our method gives the compelling generation performance qualitatively and quantitatively with extensive experiments on benchmarks. | 翻訳日:2021-09-16 15:01:24 公開日:2021-09-15 |
# anchor detr:transformerベースの検出器のクエリ設計 Anchor DETR: Query Design for Transformer-Based Detector ( http://arxiv.org/abs/2109.07107v1 ) ライセンス: Link先を確認 | Yingming Wang, Xiangyu Zhang, Tong Yang, Jian Sun | (参考訳) 本稿では,トランス型検出器のための新しい問合せ設計を提案する。
以前のtransformerベースの検出器では、オブジェクトクエリは学習した埋め込みのセットである。
しかし,各組込みは明示的な物理的意味を持たず,どこに焦点をあてるかは説明できない。
各オブジェクトクエリの予測スロットが特定のモードを持っていないため、最適化することは困難である。
言い換えれば、それぞれのオブジェクトクエリは、特定の領域に焦点を合わせません。
これらの問題を解決するため、我々のクエリ設計では、オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
したがって、各オブジェクトクエリはアンカーポイント近くのオブジェクトにフォーカスします。
さらに、クエリ設計では、複数のオブジェクトを一つの位置で予測することで、"ひとつの領域、複数のオブジェクト"という難しさを解決することができる。
さらに,detrの標準注目値と同等あるいは優れた性能を実現しつつ,メモリコストを低減できる注意型を設計した。
クエリ設計とアテンションバリアントにより、Anchor DETRと呼ばれる提案された検出器は、10$\times$より少ないトレーニングエポックでより優れたパフォーマンスを実現し、DETRよりも高速に動作することができる。
例えば、50エポックのトレーニングにResNet50-DC5機能を使用する場合、MSCOCOデータセット上で16 FPSで44.2 APを達成した。
MSCOCOベンチマークの大規模な実験により,提案手法の有効性が証明された。
コードはhttps://github.com/megvii-model/AnchorDETRで入手できる。 In this paper, we propose a novel query design for the transformer-based detectors. In previous transformer-based detectors, the object queries are a set of learned embeddings. However, each learned embedding does not have an explicit physical meaning and we can not explain where it will focus on. It is difficult to optimize as the prediction slot of each object query does not have a specific mode. In other words, each object query will not focus on a specific region. To solved these problems, in our query design, object queries are based on anchor points, which are widely used in CNN-based detectors. So each object query focus on the objects near the anchor point. Moreover, our query design can predict multiple objects at one position to solve the difficulty: "one region, multiple objects". In addition, we design an attention variant, which can reduce the memory cost while achieving similar or better performance than the standard attention in DETR. Thanks to the query design and the attention variant, the proposed detector that we called Anchor DETR, can achieve better performance and run faster than the DETR with 10$\times$ fewer training epochs. For example, it achieves 44.2 AP with 16 FPS on the MSCOCO dataset when using the ResNet50-DC5 feature for training 50 epochs. Extensive experiments on the MSCOCO benchmark prove the effectiveness of the proposed methods. Code is available at https://github.com/megvii-model/AnchorDETR. | 翻訳日:2021-09-16 15:01:15 公開日:2021-09-15 |
# MISSFormer:効果的な医用画像分割変換器 MISSFormer: An Effective Medical Image Segmentation Transformer ( http://arxiv.org/abs/2109.07162v1 ) ライセンス: Link先を確認 | Xiaohong Huang, Zhifang Deng, Dandan Li, Xueguang Yuan | (参考訳) CNNベースの手法は, 医用画像分割において顕著な結果を得たが, 畳み込み操作の局所性のため, 長距離依存を捉えられなかった。
トランスフォーマティブベースのメソッドは最近、長期依存の能力があり、有望なパフォーマンスを得られるため、ビジョンタスクで人気がある。
しかし、局所的な文脈のモデリングには欠如しているが、この問題を克服するために畳み込み層を組み込むことを試み、いくつかの改善を達成した作品もあるが、この機能は一貫性を持たず、モデルの性能を制限する階層的トランスフォーマーの自然なマルチスケールな特徴を活用できない。
本稿では,医療用画像セグメンテーションを例として,有効かつ強力な医用画像セグメンテーショントランスであるmissformerを提案する。
MISSFormerは階層型エンコーダデコーダネットワークであり、2つの魅力的な設計がある。
1) フィードフォワードネットワークは,拡張トランスフォーマーブロック(Enhanced Transformer Block)によって再設計された。
2) 拡張変換器コンテキストブリッジは拡張変換器ブロックを備えたコンテキストブリッジであり,階層変換器エンコーダが生成するマルチスケール機能の長距離依存性と局所的コンテキストをモデル化する。
この2つの設計により、ミスフォーマーは医療画像のセグメンテーションにおいてより価値のある依存関係とコンテキストをキャプチャする能力を示す。
マルチオルガンおよび心臓分節タスクの実験では,ミスフォーマの優劣,有効性,頑健性,スクラッチからトレーニングしたミスフォーマの体験結果がimagenetで事前学習した最先端の手法よりも優れており,コアデザインは他の視覚分節タスクに一般化することができる。
コードはgithubでリリースされる予定だ。 The CNN-based methods have achieved impressive results in medical image segmentation, but it failed to capture the long-range dependencies due to the inherent locality of convolution operation. Transformer-based methods are popular in vision tasks recently because of its capacity of long-range dependencies and get a promising performance. However, it lacks in modeling local context, although some works attempted to embed convolutional layer to overcome this problem and achieved some improvement, but it makes the feature inconsistent and fails to leverage the natural multi-scale features of hierarchical transformer, which limit the performance of models. In this paper, taking medical image segmentation as an example, we present MISSFormer, an effective and powerful Medical Image Segmentation tranSFormer. MISSFormer is a hierarchical encoder-decoder network and has two appealing designs: 1) A feed forward network is redesigned with the proposed Enhanced Transformer Block, which makes features aligned adaptively and enhances the long-range dependencies and local context. 2) We proposed Enhanced Transformer Context Bridge, a context bridge with the enhanced transformer block to model the long-range dependencies and local context of multi-scale features generated by our hierarchical transformer encoder. Driven by these two designs, the MISSFormer shows strong capacity to capture more valuable dependencies and context in medical image segmentation. The experiments on multi-organ and cardiac segmentation tasks demonstrate the superiority, effectiveness and robustness of our MISSFormer, the exprimental results of MISSFormer trained from scratch even outperforms state-of-the-art methods pretrained on ImageNet, and the core designs can be generalized to other visual segmentation tasks. The code will be released in Github. | 翻訳日:2021-09-16 15:00:53 公開日:2021-09-15 |
# 野生における任意物体の3次元アノテーション 3D Annotation Of Arbitrary Objects In The Wild ( http://arxiv.org/abs/2109.07165v1 ) ライセンス: Link先を確認 | Kenneth Blomqvist, Julius Hietala | (参考訳) 近年、コンピュータビジョンとロボット工学の文脈において、学習に基づく様々な手法が生み出されている。
最近提案されたほとんどの方法は、従来の方法に比べて非常に大量のデータを必要とするディープラーニングに基づいている。
深層学習手法の性能は、学習したデータ分布に大きく依存しており、訓練中にロボットの実際の操作領域のデータを使用することが重要である。
したがって、ロボットを実環境にデプロイする際には、事前に構築された汎用データセットに頼ることはできず、ロボットが運用する特定の運用環境において、効率的なデータ収集とアノテーションの必要性が生じる。
課題は、そのようなデータセットを取得するコストを、新しい状況、環境、そして新しいセンサーをサポートするために、ロボットを簡単にデプロイできるポイントまで削減する方法だ。
本稿ではSLAM, 3D再構成, 3D-to-2D形状に基づくデータアノテーションパイプラインを提案する。
データ収集やアノテーションの前に、オブジェクトの正確な3Dモデルを必要とせずに、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。
本研究は, 意味的セグメンテーションと2次元境界ボックス検出の両面でのIoU(Intersection-over-Union, Intersection-over-Union)の約90%の一致を示すとともに, アノテーション処理を従来の手動アノテーションと比較して桁違いに高速化した。 Recent years have produced a variety of learning based methods in the context of computer vision and robotics. Most of the recently proposed methods are based on deep learning, which require very large amounts of data compared to traditional methods. The performance of the deep learning methods are largely dependent on the data distribution they were trained on, and it is important to use data from the robot's actual operating domain during training. Therefore, it is not possible to rely on pre-built, generic datasets when deploying robots in real environments, creating a need for efficient data collection and annotation in the specific operating conditions the robots will operate in. The challenge is then: how do we reduce the cost of obtaining such datasets to a point where we can easily deploy our robots in new conditions, environments and to support new sensors? As an answer to this question, we propose a data annotation pipeline based on SLAM, 3D reconstruction, and 3D-to-2D geometry. The pipeline allows creating 3D and 2D bounding boxes, along with per-pixel annotations of arbitrary objects without needing accurate 3D models of the objects prior to data collection and annotation. Our results showcase almost 90% Intersection-over-Union (IoU) agreement on both semantic segmentation and 2D bounding box detection across a variety of objects and scenes, while speeding up the annotation process by several orders of magnitude compared to traditional manual annotation. | 翻訳日:2021-09-16 15:00:21 公開日:2021-09-15 |
# 物体検出におけるピラミッドレベルの進行的ハードケースマイニング Progressive Hard-case Mining across Pyramid Levels in Object Detection ( http://arxiv.org/abs/2109.07217v1 ) ライセンス: Link先を確認 | Binghong Wu, Yehui Yang, Dalu Yang, Junde Wu, Haifeng Huang, Lei Wang, Junwei Liu, Yanwu Xu | (参考訳) 物体検出では、マルチレベル予測(FPN、YOLOなど)と再サンプリング技術(焦点損失、ATSSなど)が一段検出性能を大幅に改善した。
しかし、機能ピラミッドレベルの最適化によってパフォーマンスを改善する方法はまだ未定である。
トレーニング中、負のサンプルに対する正の比率はピラミッドのレベル (\emph{level imbalance}) によって異なり、これは現在の1段階の検出器では対処されない。
レベル不均衡の影響を仲介するために,2つのコンポーネントからなる統一多レベル最適化パラダイム(UMOP)を提案する。
1) 各ピラミッドレベルを個別のサンプルで監督する独立した分類損失
2) ピラミッドレベル全体の損失を, 余分なレベルの設定を伴わずに, 段階的なハードケース採掘損失が生じた。
UMOPをプラグアンドプレイ方式として、現代のワンステージ検出器は、トレーニングのイテレーションを減らし、計算オーバーヘッドを増やすことなく、1.5APの改善を達成できる。
ベストモデルはCOCOテストデブで55.1 APを達成した。
コードはhttps://github.com/zimoqingfeng/umopで入手できる。 In object detection, multi-level prediction (e.g., FPN, YOLO) and resampling skills (e.g., focal loss, ATSS) have drastically improved one-stage detector performance. However, how to improve the performance by optimizing the feature pyramid level-by-level remains unexplored. We find that, during training, the ratio of positive over negative samples varies across pyramid levels (\emph{level imbalance}), which is not addressed by current one-stage detectors. To mediate the influence of level imbalance, we propose a Unified Multi-level Optimization Paradigm (UMOP) consisting of two components: 1) an independent classification loss supervising each pyramid level with individual resampling considerations; 2) a progressive hard-case mining loss defining all losses across the pyramid levels without extra level-wise settings. With UMOP as a plug-and-play scheme, modern one-stage detectors can attain a ~1.5 AP improvement with fewer training iterations and no additional computation overhead. Our best model achieves 55.1 AP on COCO test-dev. Code is available at https://github.com/zimoqingfeng/UMOP. | 翻訳日:2021-09-16 14:59:58 公開日:2021-09-15 |
# カスケード型相互情報最小化によるRGB-D残差検出 RGB-D Saliency Detection via Cascaded Mutual Information Minimization ( http://arxiv.org/abs/2109.07246v1 ) ライセンス: Link先を確認 | Jing Zhang and Deng-Ping Fan and Yuchao Dai and Xin Yu and Yiran Zhong and Nick Barnes and Ling Shao | (参考訳) 既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データの間のマルチモーダル情報を「明示的に」モデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
具体的には、まず、各モードの特徴を低次元特徴ベクトルにマッピングし、相互情報の最小化をレギュレータとして採用し、RGBと幾何学的特徴との冗長性を深さから低減する。
次に,ネットワークの各段階に相互情報最小化制約を課すために,多段階カスケード学習を行う。
ベンチマークRGB-Dサリエンシデータセットに関する大規模な実験は、我々のフレームワークの有効性を示している。
さらに,この分野の発展を促進するために,15,625のイメージペアと高品質なポリゴン/クリブル/オブジェクト/インスタンス/ランクレベルのアノテーションを含む,nju2kより7倍大きいデータセットをコントリビュートする。
これらのリッチなラベルに基づいて、強力なベースラインを持つ4つの新しいベンチマークを構築し、将来のモデル設計を動機付ける興味深い現象を観察します。
ソースコードとデータセットは"https://github.com/jingzhang617/cascaded_rgbd_sod"で入手できる。 Existing RGB-D saliency detection models do not explicitly encourage RGB and depth to achieve effective multi-modal learning. In this paper, we introduce a novel multi-stage cascaded learning framework via mutual information minimization to "explicitly" model the multi-modal information between RGB image and depth data. Specifically, we first map the feature of each mode to a lower dimensional feature vector, and adopt mutual information minimization as a regularizer to reduce the redundancy between appearance features from RGB and geometric features from depth. We then perform multi-stage cascaded learning to impose the mutual information minimization constraint at every stage of the network. Extensive experiments on benchmark RGB-D saliency datasets illustrate the effectiveness of our framework. Further, to prosper the development of this field, we contribute the largest (7x larger than NJU2K) dataset, which contains 15,625 image pairs with high quality polygon-/scribble-/object-/instance-/rank-level annotations. Based on these rich labels, we additionally construct four new benchmarks with strong baselines and observe some interesting phenomena, which can motivate future model design. Source code and dataset are available at "https://github.com/JingZhang617/cascaded_rgbd_sod". | 翻訳日:2021-09-16 14:59:43 公開日:2021-09-15 |
# 顔の表情認識のためのマルチヘッドクロス注意ネットワーク Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition ( http://arxiv.org/abs/2109.07270v1 ) ライセンス: Link先を確認 | Zhengyao Wen, Wenzhong Lin, Tao Wang, Ge Xu | (参考訳) 本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。
本手法は2つの重要な観測結果に基づく。
まず、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である。
第二に、表情は複数の顔領域を通して同時に現れ、認識には局所的な特徴間の高次相互作用を符号化する全体論的アプローチが必要である。
これらの問題に対処するため,我々は機能クラスタリングネットワーク(fcn),マルチヘッドクロスアテンションネットワーク(man),アテンションフュージョンネットワーク(afn)という3つの重要なコンポーネントを用いたdanを提案する。
FCNは、クラス分離性を最大化するために、大きなマージン学習目標を採用することで、堅牢な特徴を抽出する。
さらに、男性は複数の注意ヘッドをインスタンス化し、複数の顔領域に同時に出席し、これらの領域に注意マップを構築する。
さらに、AFNはこれらの注意を複数の場所に分散させ、注意マップを包括的なものに融合させる。
AffectNet、RAF-DB、SFEW 2.0を含む3つの公開データセットの大規模な実験により、提案手法が常に最先端の顔認識性能を実現することを確認した。
コードはhttps://github.com/yaoing/DAN.comで公開される。 We present a novel facial expression recognition network, called Distract your Attention Network (DAN). Our method is based on two key observations. Firstly, multiple classes share inherently similar underlying facial appearance, and their differences could be subtle. Secondly, facial expressions exhibit themselves through multiple facial regions simultaneously, and the recognition requires a holistic approach by encoding high-order interactions among local features. To address these issues, we propose our DAN with three key components: Feature Clustering Network (FCN), Multi-head cross Attention Network (MAN), and Attention Fusion Network (AFN). The FCN extracts robust features by adopting a large-margin learning objective to maximize class separability. In addition, the MAN instantiates a number of attention heads to simultaneously attend to multiple facial areas and build attention maps on these regions. Further, the AFN distracts these attentions to multiple locations before fusing the attention maps to a comprehensive one. Extensive experiments on three public datasets (including AffectNet, RAF-DB, and SFEW 2.0) verified that the proposed method consistently achieves state-of-the-art facial expression recognition performance. Code will be made available at https://github.com/yaoing/DAN. | 翻訳日:2021-09-16 14:59:19 公開日:2021-09-15 |
# 一級ノベルティ検出のためのプログレッシブガンス蒸留の新展開 New Perspective on Progressive GANs Distillationfor One-class Novelty Detection ( http://arxiv.org/abs/2109.07295v1 ) ライセンス: Link先を確認 | Zhiwei Zhang, Yu Dong, Hanyu Peng, Shifeng Chen | (参考訳) 一級ノベルティ検出は、予測された正常なインスタンスと異なる分布を持つ異常なインスタンスを識別する。
本稿では,Encoder-Decoder-Encoderスキーム(EDE-GAN)に基づく生成アドバーサリアルネットワークにより,最先端の性能を実現する。
fac-tors bellowは以下の目的を果たす。
1) ede-ganは, 2つの潜在ベクトル間の距離を異常スコアとして算出する。
2) バッチサイズが 1 に設定されると,モデルが最良の結果を得る。
それらの優位性を説明するため、我々は新しいGANアーキテクチャを設計し、異なるバッチサイズで性能を比較する。
さらに,実験を伴わずにモデルトレーニングに携わる潜伏空間における有益な制約がいかに有益かを示す結果が得られた。我々は,コンパクトかつ高速なモデルを学ぶために,提案した蒸留損失を通じて2つの標準GANを接続する新しい技術であるプログレッシブ・ナレッジ・蒸留(P-KDGAN)を提案する。
2段階のプログレッシブラーニングは、シングルステップアプローチよりも改良されたresultで、学生ganのパフォーマンスを継続的に強化する。
実験結果から, P-KDGANは, 24.45:1, 311.11:1, 700:1の計算率でそれぞれ2.44%, 1.77%, 1.73%向上することがわかった。 One-class novelty detection is conducted to iden-tify anomalous instances, with different distributions from theexpected normal instances. In this paper, the Generative Adver-sarial Network based on the Encoder-Decoder-Encoder scheme(EDE-GAN) achieves state-of-the-art performance. The two fac-tors bellow serve the above purpose: 1) The EDE-GAN calculatesthe distance between two latent vectors as the anomaly score,which is unlike the previous methods by utilizing the reconstruc-tion error between images. 2) The model obtains best resultswhen the batch size is set to 1. To illustrate their superiority,we design a new GAN architecture, and compareperformances according to different batch sizes. Moreover, withexperimentation leads to discovery, our result implies there is alsoevidence of just how beneficial constraint on the latent space arewhen engaging in model training.In an attempt to learn compact and fast models, we present anew technology, Progressive Knowledge Distillation with GANs(P-KDGAN), which connects two standard GANs through thedesigned distillation loss. Two-step progressive learning continu-ously augments the performance of student GANs with improvedresults over single-step approach. Our experimental results onCIFAR-10, MNIST, and FMNIST datasets illustrate that P-KDGAN improves the performance of the student GAN by2.44%, 1.77%, and 1.73% when compressing the computationat ratios of 24.45:1, 311.11:1, and 700:1, respectively. | 翻訳日:2021-09-16 14:58:59 公開日:2021-09-15 |
# FFAVOD:ビデオオブジェクト検出のための機能融合アーキテクチャ FFAVOD: Feature Fusion Architecture for Video Object Detection ( http://arxiv.org/abs/2109.07298v1 ) ライセンス: Link先を確認 | Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Maguelonne H\'eritier | (参考訳) ビデオの連続フレームの間にかなりの冗長性が存在する。
物体検出器は通常、この冗長性を利用することなく、一度に1つの画像を検出する。
一方、オブジェクト検出の多くのアプリケーションは、インテリジェントトランスポーテーションシステム、高度な運転支援システム、ビデオ監視など、ビデオで動作します。
本研究の目的は,ビデオフレーム間の類似性を活かして,より優れた検出を実現することである。
本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。
まず,近接フレーム間の特徴マップをネットワークで共有可能な,新しい映像物体検出アーキテクチャを提案する。
第2に,機能マップをマージして機能マップを強化する機能融合モジュールを提案する。
提案するアーキテクチャとフュージョンモジュールを用いることで,移動道路利用者のシーケンスを含む2つの物体検出ベンチマークにおいて,3つの基本物体検出器の性能向上が期待できることを示す。
さらに,さらに性能を向上させるため,spotnet attentionモジュールの改良を提案する。
改良されたSpotNet検出器のアーキテクチャを用いて、UA-DETRAC公開ベンチマークやUAVDTデータセット上での最先端のパフォーマンスを得る。
コードはhttps://github.com/hu64/ffavodで入手できる。 A significant amount of redundancy exists between consecutive frames of a video. Object detectors typically produce detections for one image at a time, without any capabilities for taking advantage of this redundancy. Meanwhile, many applications for object detection work with videos, including intelligent transportation systems, advanced driver assistance systems and video surveillance. Our work aims at taking advantage of the similarity between video frames to produce better detections. We propose FFAVOD, standing for feature fusion architecture for video object detection. We first introduce a novel video object detection architecture that allows a network to share feature maps between nearby frames. Second, we propose a feature fusion module that learns to merge feature maps to enhance them. We show that using the proposed architecture and the fusion module can improve the performance of three base object detectors on two object detection benchmarks containing sequences of moving road users. Additionally, to further increase performance, we propose an improvement to the SpotNet attention module. Using our architecture on the improved SpotNet detector, we obtain the state-of-the-art performance on the UA-DETRAC public benchmark as well as on the UAVDT dataset. Code is available at https://github.com/hu64/FFAVOD. | 翻訳日:2021-09-16 14:58:32 公開日:2021-09-15 |
# PointManifoldCut:ポイントクラウド用マニフォールドにおけるポイントワイド拡張 PointManifoldCut: Point-wise Augmentation in the Manifold for Point Clouds ( http://arxiv.org/abs/2109.07324v1 ) ライセンス: Link先を確認 | Tianfang Zhu, Yue Guan, Anan Li | (参考訳) 拡張は、大規模な公開データセットの可用性が限られているため、ポイントクラウドラーニングに役立つ。
本稿では、ユークリッド空間座標ではなく、ニューラルネットワークの埋め込み点を置き換える混合拡張手法であるPointManifoldCutを提案する。
このアプローチは、ニューラルネットワークの上位レベルが既に隣人の関係を埋め込むように訓練されており、これらの表現を混合しても、それ自身とラベルの関係を混同しないという利点がある。
これにより、代替点の適切なラベルを気にせずに、パラメータ空間を他の拡張メソッドとして定式化することができる。
提案手法は,最先端のバニラポイント・クラウド・ネットワークと組み合わせることで,ポイント・クラウドの分類とセグメンテーションにおける競合性能をもたらすことを示す。
その結果,pointmixupやpointcutmixなど,最先端のポイントクラウド拡張手法と比較して,一貫したパフォーマンス向上が得られた。
この論文のコードは、https://github.com/fun0515/pointmanifoldcutで入手できる。 Augmentation can benefit point cloud learning due to the limited availability of large-scale public datasets. This paper proposes a mix-up augmentation approach, PointManifoldCut, which replaces the neural network embedded points, rather than the Euclidean space coordinates. This approach takes the advantage that points at the higher levels of the neural network are already trained to embed its neighbors relations and mixing these representation will not mingle the relation between itself and its label. This allows to regularize the parameter space as the other augmentation methods but without worrying about the proper label of the replaced points. The experiments show that our proposed approach provides a competitive performance on point cloud classification and segmentation when it is combined with the cutting-edge vanilla point cloud networks. The result shows a consistent performance boosting compared to other state-of-the-art point cloud augmentation method, such as PointMixup and PointCutMix. The code of this paper is available at: https://github.com/fun0515/PointManifoldCut. | 翻訳日:2021-09-16 14:58:13 公開日:2021-09-15 |
# 映像における3次元ポーズ推定のための学習動的ヒューマンジョイント親和性 Learning Dynamical Human-Joint Affinity for 3D Pose Estimation in Videos ( http://arxiv.org/abs/2109.07353v1 ) ライセンス: Link先を確認 | Junhao Zhang, Yali Wang, Zhipeng Zhou, Tianyu Luan, Zhe Wang, Yu Qiao | (参考訳) Graph Convolution Network (GCN)は、ビデオにおける3次元人間のポーズ推定に成功している。
しかし、人間の骨格によれば、固定されたヒトの結合親和性の上に構築されることが多い。
これにより、ビデオの複雑な時空間ポーズ変動に取り組むためのGCNの適応能力が低下する可能性がある。
この問題を軽減するために,人間同士の親和性を動的に識別できる新しい動的グラフネットワーク(DG-Net)を提案し,ビデオから空間的・時間的関節関係を適応的に学習することで3次元ポーズを推定する。
従来のグラフ畳み込みと異なり, 動的空間的/時間的グラフ畳み込み(dsg/dtg)を導入することで, ヒト関節間の空間的距離/時間的動きの類似性に応じて, それぞれの映像例に対する空間的/時間的ヒューマン・ジョイント親和性を検出する。
これにより、2Dポーズを3Dポーズに持ち上げる際に、どの関節が空間的に近づいたり、あるいは一貫した動きを持っているかを効果的に理解することができる。
我々は、Human3.6M、HumanEva-I、MPI-INF-3DHPの3つの人気のあるベンチマークで大規模な実験を行い、DG-Netはより少ない入力フレームとモデルサイズで多くのSOTAアプローチより優れています。 Graph Convolution Network (GCN) has been successfully used for 3D human pose estimation in videos. However, it is often built on the fixed human-joint affinity, according to human skeleton. This may reduce adaptation capacity of GCN to tackle complex spatio-temporal pose variations in videos. To alleviate this problem, we propose a novel Dynamical Graph Network (DG-Net), which can dynamically identify human-joint affinity, and estimate 3D pose by adaptively learning spatial/temporal joint relations from videos. Different from traditional graph convolution, we introduce Dynamical Spatial/Temporal Graph convolution (DSG/DTG) to discover spatial/temporal human-joint affinity for each video exemplar, depending on spatial distance/temporal movement similarity between human joints in this video. Hence, they can effectively understand which joints are spatially closer and/or have consistent motion, for reducing depth ambiguity and/or motion uncertainty when lifting 2D pose to 3D pose. We conduct extensive experiments on three popular benchmarks, e.g., Human3.6M, HumanEva-I, and MPI-INF-3DHP, where DG-Net outperforms a number of recent SOTA approaches with fewer input frames and model size. | 翻訳日:2021-09-16 14:57:55 公開日:2021-09-15 |
# ラベル効率のよい医用画像セグメンテーションのための半教師付きコントラスト学習 Semi-supervised Contrastive Learning for Label-efficient Medical Image Segmentation ( http://arxiv.org/abs/2109.07407v1 ) ライセンス: Link先を確認 | Xinrong Hu, Dewen Zeng, Xiaowei Xu, and Yiyu Shi | (参考訳) 医療画像分割タスクにおけるディープラーニング手法の成功は、トレーニングを監視するために大量のラベル付きデータに依存する。
一方,バイオメディカル画像のアノテーションにはドメイン知識が必要であり,手間がかかる。
近年,ラベルなしでも画像の潜在表現を学習する上で,コントラスト学習は大きな可能性を示している。
既存の研究は、ラベルを使わずに自己教師付きコントラスト学習に基づく事前学習フェーズと、ラベル付きデータのみの教師付き微調整フェーズを通じて、わずかなデータしかラベル付けされていないバイオメディカルイメージセグメンテーションへの応用を探求している。
本稿では,事前学習段階に限定ラベルを組み込むことにより,コントラスト学習の性能を高めることができることを示す。
そこで我々は,同じラベルの画素を埋め込み空間に集束させるために,限定されたピクセル毎のアノテーションを利用する教師付き局所コントラスト損失を提案する。
このような損失は大きな画像にコストがかかる画素単位での計算を必要とするため,この問題に対処するために,さらにダウンサンプリングとブロック分割という2つの戦略を提案する。
異なる形態の2つの生体医用画像データセットを用いた評価を行った。
ラベル付きデータの量によって、我々の手法は最先端のコントラストベース手法や他の半教師付き学習手法を一貫して上回っています。 The success of deep learning methods in medical image segmentation tasks heavily depends on a large amount of labeled data to supervise the training. On the other hand, the annotation of biomedical images requires domain knowledge and can be laborious. Recently, contrastive learning has demonstrated great potential in learning latent representation of images even without any label. Existing works have explored its application to biomedical image segmentation where only a small portion of data is labeled, through a pre-training phase based on self-supervised contrastive learning without using any labels followed by a supervised fine-tuning phase on the labeled portion of data only. In this paper, we establish that by including the limited label in formation in the pre-training phase, it is possible to boost the performance of contrastive learning. We propose a supervised local contrastive loss that leverages limited pixel-wise annotation to force pixels with the same label to gather around in the embedding space. Such loss needs pixel-wise computation which can be expensive for large images, and we further propose two strategies, downsampling and block division, to address the issue. We evaluate our methods on two public biomedical image datasets of different modalities. With different amounts of labeled data, our methods consistently outperform the state-of-the-art contrast-based methods and other semi-supervised learning techniques. | 翻訳日:2021-09-16 14:57:29 公開日:2021-09-15 |
# 多言語バイエンコーダBERTを用いたジョブ候補のマッチング学習 Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT ( http://arxiv.org/abs/2109.07157v1 ) ライセンス: Link先を確認 | Dor Lavi | (参考訳) この講演では、候補配置のRandstad履歴を使用して、ラベル付きCV空きペアデータセットを生成する方法について説明する。
その後、コサイン類似性ログ損失層を追加して、このデータセット上にバイエンコーダ構造を持つ多言語BERTを微調整する。
上述した課題の多くを克服する上で,この構造を用いることがいかに役立つのか,CVや空洞に適合するメンテナンス可能なスケーラブルなパイプラインを構築する上でのメリットについて説明する。
さらに、より優れた意味理解を得る方法を示し、語彙のギャップを埋めることを学ぶ。
最後に,多言語トランスフォーマーが言語間障壁の対処にどのように役立つか,そして識別を減少させるかを強調する。 In this talk, we will show how we used Randstad history of candidate placements to generate labeled CV-vacancy pairs dataset. Afterwards we fine-tune a multilingual BERT with bi encoder structure over this dataset, by adding a cosine similarity log loss layer. We will explain how using the mentioned structure helps us overcome most of the challenges described above, and how it enables us to build a maintainable and scalable pipeline to match CVs and vacancies. In addition, we show how we gain a better semantic understanding, and learn to bridge the vocabulary gap. Finally, we highlight how multilingual transformers help us handle cross language barrier and might reduce discrimination. | 翻訳日:2021-09-16 14:56:50 公開日:2021-09-15 |
# unist: ストリーミングおよび非ストリーミング音声翻訳のための統一エンド・ツー・エンドモデル UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation ( http://arxiv.org/abs/2109.07368v1 ) ライセンス: Link先を確認 | Qianqian Dong, Yaoming Zhu, Mingxuan Wang, Lei Li | (参考訳) 本稿では,ストリーミングおよび非ストリーミング音声翻訳のためのエンドツーエンドフレームワークについて述べる。
非ストリーミング音声翻訳のトレーニングレシピは成熟しているが、ストリーミング音声翻訳のレシピはまだ構築されていない。
本研究では,学習目標,注意機構,復号化ポリシなどの基本的コンポーネントの観点から,ストリーミングおよび非ストリーミングSTをサポートする統一モデル(UniST)の開発に着目する。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験では、UniST が非ストリーミング ST に対して大幅な改善を達成し、BLEU スコアとストリーミング ST のレイテンシメトリクスが、エンドツーエンドのベースラインやカスケードモデルと比較してより優れたトレードオフを実現している。
コードと評価ツールを一般公開する予定です。 This paper presents a unified end-to-end frame-work for both streaming and non-streamingspeech translation. While the training recipes for non-streaming speech translation have been mature, the recipes for streaming speechtranslation are yet to be built. In this work, wefocus on developing a unified model (UniST) which supports streaming and non-streaming ST from the perspective of fundamental components, including training objective, attention mechanism and decoding policy. Experiments on the most popular speech-to-text translation benchmark dataset, MuST-C, show that UniST achieves significant improvement for non-streaming ST, and a better-learned trade-off for BLEU score and latency metrics for streaming ST, compared with end-to-end baselines and the cascaded models. We will make our codes and evaluation tools publicly available. | 翻訳日:2021-09-16 14:56:36 公開日:2021-09-15 |
# 強化学習による異種電池バンクの最適サイクリング Optimal Cycling of a Heterogenous Battery Bank via Reinforcement Learning ( http://arxiv.org/abs/2109.07137v1 ) ライセンス: Link先を確認 | Vivek Deulkar and Jayakrishnan Nair | (参考訳) 我々は、確率的発電と需要プロセスによって駆動される異種電池のバンクの最適充電/放電の問題を考える。
バッテリーバンクのバッテリーは、容量、ランプの制約、損失、およびサイクリングコストに関して異なる可能性がある。
目標は、長期間のバッテリーサイクルに伴う劣化コストを最小化することであり、これは正式にマルコフ決定プロセスとして実行される。
本稿では,MDPに関連付けられた値関数の構造を近似したカーネル関数のクラスを用いて,最適解を学習するための線形関数近似に基づくQ-ラーニングアルゴリズムを提案する。
提案アルゴリズムは広範なケーススタディによって検証される。 We consider the problem of optimal charging/discharging of a bank of heterogenous battery units, driven by stochastic electricity generation and demand processes. The batteries in the battery bank may differ with respect to their capacities, ramp constraints, losses, as well as cycling costs. The goal is to minimize the degradation costs associated with battery cycling in the long run; this is posed formally as a Markov decision process. We propose a linear function approximation based Q-learning algorithm for learning the optimal solution, using a specially designed class of kernel functions that approximate the structure of the value functions associated with the MDP. The proposed algorithm is validated via an extensive case study. | 翻訳日:2021-09-16 14:56:20 公開日:2021-09-15 |
# back to basics: 交通信号制御における深い強化学習 Back to Basics: Deep Reinforcement Learning in Traffic Signal Control ( http://arxiv.org/abs/2109.07180v1 ) ライセンス: Link先を確認 | Sierk Kanis, Laurens Samson, Daan Bloembergen, Tim Bakker | (参考訳) 本稿では、自己学習信号に対する強化学習(RL)アプローチの基礎的前提について再検討する。
我々はrlightを提案する。rlightはロバストなパフォーマンスと未認識のトラフィックフローに対する優れた一般化を提供する。
特に,我々の主なコントリビューションは3つある: 軽量かつクラスタ対応の状態表現により性能が向上する; 黄色光の冗長なタイムステップを省略し,学習を30%高速化する; 動作空間を調査し,非周期相転移と循環相転移の相違点について考察する; MDPを再構築する。
さらに,トラフィックを隠蔽する手法の一般化に関する洞察も提供する。
実世界のhanzhou trafficデータセットを用いた評価では、rlightは最先端のルールベースおよび深層強化学習アルゴリズムよりも優れており、rlベースの方法が都市交通フローを改善する可能性を実証している。 In this paper we revisit some of the fundamental premises for a reinforcement learning (RL) approach to self-learning traffic lights. We propose RLight, a combination of choices that offers robust performance and good generalization to unseen traffic flows. In particular, our main contributions are threefold: our lightweight and cluster-aware state representation leads to improved performance; we reformulate the MDP such that it skips redundant timesteps of yellow light, speeding up learning by 30%; and we investigate the action space and provide insight into the difference in performance between acyclic and cyclic phase transitions. Additionally, we provide insights into the generalisation of the methods to unseen traffic. Evaluations using the real-world Hangzhou traffic dataset show that RLight outperforms state-of-the-art rule-based and deep reinforcement learning algorithms, demonstrating the potential of RL-based methods to improve urban traffic flows. | 翻訳日:2021-09-16 14:56:10 公開日:2021-09-15 |
# co-embedding:プロジェクションによる2部グラフ上のコミュニティの発見 Co-Embedding: Discovering Communities on Bipartite Graphs through Projection ( http://arxiv.org/abs/2109.07135v1 ) ライセンス: Link先を確認 | Ga\"elle Candel and David Naccache | (参考訳) 多くのデータセットは、ユーザが見る映画やファイルに関連付けられたタグなど、2つのタイプのノードが関係によって接続される2部グラフの形式を取っている。
両部グラフの分割は、類似した性質を持つ項目のグループを識別することにより、レコメンデーションシステムの高速化や、情報検索システムのインデックスサイズ削減に利用することができる。
このようなグラフはしばしばベクトル空間モデル表現を用いてアルゴリズムによって処理され、二進ベクトルは 0 と 1 の項目を表す。
この表現の主な問題は、考慮されていない単語の同義語のような次元関係性である。
本稿では,特徴の類似性を測定するために,項目投影を用いた協調クラスタリングアルゴリズムを提案する。
我々はクラスタ検索タスクでアルゴリズムを評価した。
様々なデータセットにおいて,アルゴリズムはコヒーレントな項目を含むバランスの取れたクラスタを生成し,高い検索スコアを得た。 Many datasets take the form of a bipartite graph where two types of nodes are connected by relationships, like the movies watched by a user or the tags associated with a file. The partitioning of the bipartite graph could be used to fasten recommender systems, or reduce the information retrieval system's index size, by identifying groups of items with similar properties. This type of graph is often processed by algorithms using the Vector Space Model representation, where a binary vector represents an item with 0 and 1. The main problem with this representation is the dimension relatedness, like words' synonymity, which is not considered. This article proposes a co-clustering algorithm using items projection, allowing the measurement of features similarity. We evaluated our algorithm on a cluster retrieval task. Over various datasets, our algorithm produced well balanced clusters with coherent items in, leading to high retrieval scores on this task. | 翻訳日:2021-09-16 14:55:33 公開日:2021-09-15 |
# 制約プログラミングと量子アニーリングによる保守を含む車両計画の最適化 Optimising Rolling Stock Planning including Maintenance with Constraint Programming and Quantum Annealing ( http://arxiv.org/abs/2109.07212v1 ) ライセンス: Link先を確認 | Cristian Grozea, Ronny Hans, Matthias Koch, Christina Riehn, Armin Wolf | (参考訳) 我々は,必要なメンテナンスタスクを考慮したストック最適化のための制約プログラミング(CP)と量子アニーリング(QA)アプローチを開発し,比較した。
CPにおけるこのような問題に対処するため,特定プルーニングルールを調査し,グローバル制約下で実施した。
qaアプローチでは,quadratic unconstrained binary optimization (qubo)モデルを開発した。
テストでは、Deutsche Bahnの実際のデータに基づいてデータセットを使用し、D-Waveの実際の量子コンピュータ上でQAアプローチを実行します。
古典的なコンピュータはCPアプローチの実行やQUBOモデルのタブ検索に使用されている。
両アプローチとも、物理量子アンナーの現段階において、同等な結果が得られる傾向にあり、QUBOは、列車が保守閾値距離にどれだけ近いかに基づいて、前処理でQUBOモデルを調整することで、維持制約が保持されることを常に保証していないことに注意する必要がある。 We developed and compared Constraint Programming (CP) and Quantum Annealing (QA) approaches for rolling stock optimisation considering necessary maintenance tasks. To deal with such problems in CP we investigated specialised pruning rules and implemented them in a global constraint. For the QA approach, we developed quadratic unconstrained binary optimisation (QUBO) models. For testing, we use data sets based on real data from Deutsche Bahn and run the QA approach on real quantum computers from D-Wave. Classical computers are used to run the CP approach as well as tabu search for the QUBO models. We find that both approaches tend at the current development stage of the physical quantum annealers to produce comparable results, with the caveat that QUBO does not always guarantee that the maintenance constraints hold, which we fix by adjusting the QUBO model in preprocessing, based on how close the trains are to a maintenance threshold distance. | 翻訳日:2021-09-16 14:55:19 公開日:2021-09-15 |
# アニメーションメッシュの時間パラメータフリーディープスキニング Temporal Parameter-free Deep Skinning of Animated Meshes ( http://arxiv.org/abs/2109.07249v1 ) ライセンス: Link先を確認 | Anastasia Moutafidou, Vasileios Toulatzis and Ioannis Fudos | (参考訳) コンピュータグラフィックスでは、アニメーション圧縮はアニメーションメッシュの効率的なストレージ、ストリーミング、再生に不可欠である。
これまでの研究で、頂点の幾何学的特徴に基づく頂点のクラスタリングを用いて、スキニング変換と重み付けを導出することにより、圧縮の効率的な手法が提示されてきた。
本稿では, 骨に影響を受けたクラスターに頂点を割り当て, 頂点軌跡(時空間頂点列)のペアと, 完全に整列されたアニメーション文字から引き出される重みからなる訓練セットを通して, ディープラーニングを用いて重みを導出する新しいアプローチを提案する。
得られたリニアブレンドスキン化スキームの近似誤差は, 骨数を最小にすることで, 従来手法の誤差よりも有意に低い値を示した。
さらに、変換と頂点の最適集合は、多次元変数空間におけるより良い初期位置決めのため、より少ない反復で導出される。
本手法では,メッシュアニメーションシーケンスを圧縮するプロセス全体において,ユーザによって決定あるいは調整されるパラメータは不要である。 In computer graphics, animation compression is essential for efficient storage, streaming and reproduction of animated meshes. Previous work has presented efficient techniques for compression by deriving skinning transformations and weights using clustering of vertices based on geometric features of vertices over time. In this work we present a novel approach that assigns vertices to bone-influenced clusters and derives weights using deep learning through a training set that consists of pairs of vertex trajectories (temporal vertex sequences) and the corresponding weights drawn from fully rigged animated characters. The approximation error of the resulting linear blend skinning scheme is significantly lower than the error of competent previous methods by producing at the same time a minimal number of bones. Furthermore, the optimal set of transformation and vertices is derived in fewer iterations due to the better initial positioning in the multidimensional variable space. Our method requires no parameters to be determined or tuned by the user during the entire process of compressing a mesh animation sequence. | 翻訳日:2021-09-16 14:55:00 公開日:2021-09-15 |
# 公に検証可能なカバーセキュリティのためのMPCフレンドリーなコミット MPC-Friendly Commitments for Publicly Verifiable Covert Security ( http://arxiv.org/abs/2109.07461v1 ) ライセンス: Link先を確認 | Nitin Agrawal, James Bell, Adri\`a Gasc\'on, Matt J. Kusner | (参考訳) 本稿では,二者間計算におけるコミットメントを効率的に検証する問題に対処する。
これは、パーティP1がその後のセキュアな計算で使用されるために$x$にコミットするシナリオに対処し、P1が不正ではないという保証を受けようとする別のパーティP2、すなわち、実際にセキュアな計算に入力された値である。
本研究は, P1が不正行為に遭った場合, 悪質なMPCモデルの緩和を図った, PVC(Public Verible Covert)セキュリティモデルで実施する。
我々は,PVCフレームワークに適したコミットメントスキームを構築するために,PVCのコミットメントスキームとインデックス付きハッシュ関数の概念を導入し,非常に効率的な回路となる演算回路とブール回路の両方の構成を提案する。
実用的な見地からすると、boolean回路の構成はセキュアに評価するために60\times$で、ハッシュに基づくベースラインメソッドよりも36\times$で通信を行ないます。
さらに, 提案手法は, 非線形ゲート数, コミットメント検証回路の下位境界を証明し, 必要非線形操作に関して厳密であることを示す。
最後に, 統計的セキュリティを用いて, 不正な保証を効率よく回収することのできる, セキュリティ特性を増幅する手法を提案する。 We address the problem of efficiently verifying a commitment in a two-party computation. This addresses the scenario where a party P1 commits to a value $x$ to be used in a subsequent secure computation with another party P2 that wants to receive assurance that P1 did not cheat, i.e. that $x$ was indeed the value inputted into the secure computation. Our constructions operate in the publicly verifiable covert (PVC) security model, which is a relaxation of the malicious model of MPC appropriate in settings where P1 faces a reputational harm if caught cheating. We introduce the notion of PVC commitment scheme and indexed hash functions to build commitments schemes tailored to the PVC framework, and propose constructions for both arithmetic and Boolean circuits that result in very efficient circuits. From a practical standpoint, our constructions for Boolean circuits are $60\times$ faster to evaluate securely, and use $36\times$ less communication than baseline methods based on hashing. Moreover, we show that our constructions are tight in terms of required non-linear operations, by proving lower bounds on the nonlinear gate count of commitment verification circuits. Finally, we present a technique to amplify the security properties our constructions that allows to efficiently recover malicious guarantees with statistical security. | 翻訳日:2021-09-16 14:54:31 公開日:2021-09-15 |
# 正確でスケーラブルな機械学習ポテンシャルのための物理的にインスパイアされた分子記述子としてのガウスモーメント Gaussian Moments as Physically Inspired Molecular Descriptors for Accurate and Scalable Machine Learning Potentials ( http://arxiv.org/abs/2109.07421v1 ) ライセンス: Link先を確認 | Viktor Zaverkin and Johannes K\"astner | (参考訳) 機械学習技術により、原子位置と原子電荷をほぼ絶対精度と経験的ポテンシャルの計算効率でポテンシャルエネルギー面に直接マッピングすることができる。
本研究では,フィードフォワードニューラルネットワークに基づく高次元ポテンシャルエネルギー表面構築のための機械学習手法を提案する。
ニューラルネットワークへの入力として,幾何学的モーメントから構築した拡張可能な不変な局所分子ディスクリプタを提案する。
対距離ベクトルとテンソル収縮による定式化は、グラフィカル処理ユニット(GPU)に非常に効率的な実装を可能にする。
原子種は分子記述子にコード化され、データセット内の全ての原子種の訓練のために1つのニューラルネットワークに制限される。
化学空間と構成空間の両方を表す手法の精度は、いくつかの確立された機械学習モデルの1つに匹敵することを示した。
高い精度と効率のため、提案された機械学習ポテンシャルは、例えば、分子幾何の最適化、速度定数の計算、分子動力学など、任意のタスクに使用できる。 Machine learning techniques allow a direct mapping of atomic positions and nuclear charges to the potential energy surface with almost ab-initio accuracy and the computational efficiency of empirical potentials. In this work we propose a machine learning method for constructing high-dimensional potential energy surfaces based on feed-forward neural networks. As input to the neural network we propose an extendable invariant local molecular descriptor constructed from geometric moments. Their formulation via pairwise distance vectors and tensor contractions allows a very efficient implementation on graphical processing units (GPUs). The atomic species is encoded in the molecular descriptor, which allows the restriction to one neural network for the training of all atomic species in the data set. We demonstrate that the accuracy of the developed approach in representing both chemical and configurational spaces is comparable to the one of several established machine learning models. Due to its high accuracy and efficiency, the proposed machine-learned potentials can be used for any further tasks, for example the optimization of molecular geometries, the calculation of rate constants or molecular dynamics. | 翻訳日:2021-09-16 14:54:08 公開日:2021-09-15 |
# コンピュータ支援肺塞栓症検出のための最適アプローチ Seeking an Optimal Approach for Computer-Aided Pulmonary Embolism Detection ( http://arxiv.org/abs/2109.07029v1 ) ライセンス: Link先を確認 | Nahid Ul Islam, Shiv Gehlot, Zongwei Zhou, Michael B Gotway, Jianming Liang | (参考訳) 肺塞栓症(英: lung embolism、PE)は、通常下肢静脈から発生する血栓(血栓)であり、肺の血管へ移動し、血管閉塞を引き起こし、一部の患者では死亡する。
CT肺血管造影(CTPA)で診断されることが多い。
深層学習はPEのコンピュータ支援CTPA診断(CAD)に大いに期待できる。
しかし、深層学習文学における所定のタスクに対する多くの競合する方法が存在しており、cad peシステムの開発に関して大きな混乱を引き起こしている。
この混乱に対処するため,CTPAを用いたPE診断に適用可能なディープラーニング手法を画像レベルと試験レベルで総合的に分析した。
画像レベルでは、畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマーを比較し、コントラスト自己教師付き学習(ssl)と教師付き学習を比較し、さらに、スクラッチからのトレーニングと比較した転送学習の評価を行った。
試験レベルでは,従来の分類(CC)とマルチインスタンス学習(MIL)を比較した。
その結果,(1)自然画像とctスキャンの相違にもかかわらず,トランスファー学習は一貫して性能を向上させ,(2)sslによるトランスファー学習は教師付きトランスフォーマーを上回っており,(3)cnnsは良好な性能を示す視覚トランスフォーマーよりも優れており,(4)ccは驚くべきことにmilよりも優れていることがわかった。
現状と比較すると,最適なアプローチは,画像レベルと試験レベルのそれぞれ0.2\%と1.05\%のAUCゲインを提供する。 Pulmonary embolism (PE) represents a thrombus ("blood clot"), usually originating from a lower extremity vein, that travels to the blood vessels in the lung, causing vascular obstruction and in some patients, death. This disorder is commonly diagnosed using CT pulmonary angiography (CTPA). Deep learning holds great promise for the computer-aided CTPA diagnosis (CAD) of PE. However, numerous competing methods for a given task in the deep learning literature exist, causing great confusion regarding the development of a CAD PE system. To address this confusion, we present a comprehensive analysis of competing deep learning methods applicable to PE diagnosis using CTPA at the both image and exam levels. At the image level, we compare convolutional neural networks (CNNs) with vision transformers, and contrast self-supervised learning (SSL) with supervised learning, followed by an evaluation of transfer learning compared with training from scratch. At the exam level, we focus on comparing conventional classification (CC) with multiple instance learning (MIL). Our extensive experiments consistently show: (1) transfer learning consistently boosts performance despite differences between natural images and CT scans, (2) transfer learning with SSL surpasses its supervised counterparts; (3) CNNs outperform vision transformers, which otherwise show satisfactory performance; and (4) CC is, surprisingly, superior to MIL. Compared with the state of the art, our optimal approach provides an AUC gain of 0.2\% and 1.05\% for image-level and exam-level, respectively. | 翻訳日:2021-09-16 14:53:26 公開日:2021-09-15 |
# DSOR:厳冬期のLiDAR点雲から降雪雪を除去するためのスケーラブルな統計的フィルタ DSOR: A Scalable Statistical Filter for Removing Falling Snow from LiDAR Point Clouds in Severe Winter Weather ( http://arxiv.org/abs/2109.07078v1 ) ライセンス: Link先を確認 | Akhil Kurup, Jeremy Bos | (参考訳) 自動運転車が人間のドライバーを生き生きと置き換えるためには、悪天候と闘わなければならない。
降雨と雪はLiDARのリターンにノイズをもたらし、偽陽性と偽陰性の両方を検出する。
本稿では,ミシガン州アッパー半島の雪帯地域で収集された冬季運転データセット(WADS)について紹介する。
WADSは、厳しい冬の天候で収集された高密度のポイントワイドなLiDARスキャンを特徴とする最初のマルチモーダルデータセットである。
私たちはラベル付けを行い、合計26TBのLiDARおよびカメラデータのうち、7GBまたは36億以上のラベル付きLiDARポイントを利用可能にします。
また,アートスノー除雪フィルタの状態よりも高いリコール率で雪を除去または除去できる統計的pclベースのフィルタであるdynamic statistical outlier removal (dsor) filterを提案する。
さらに,DSORフィルタは,拡張性の向上をもたらす技術状況と比較して,時間的複雑性が低いことを示した。
ラベル付きデータセットとDSORフィルタはhttps://bitbucket.org/autonomymtu/dsor_filterで利用可能になります。 For autonomous vehicles to viably replace human drivers they must contend with inclement weather. Falling rain and snow introduce noise in LiDAR returns resulting in both false positive and false negative object detections. In this article we introduce the Winter Adverse Driving dataSet (WADS) collected in the snow belt region of Michigan's Upper Peninsula. WADS is the first multi-modal dataset featuring dense point-wise labeled sequential LiDAR scans collected in severe winter weather; weather that would cause an experienced driver to alter their driving behavior. We have labelled and will make available over 7 GB or 3.6 billion labelled LiDAR points out of over 26 TB of total LiDAR and camera data collected. We also present the Dynamic Statistical Outlier Removal (DSOR) filter, a statistical PCL-based filter capable or removing snow with a higher recall than the state of the art snow de-noising filter while being 28\% faster. Further, the DSOR filter is shown to have a lower time complexity compared to the state of the art resulting in an improved scalability. Our labeled dataset and DSOR filter will be made available at https://bitbucket.org/autonomymtu/dsor_filter | 翻訳日:2021-09-16 14:52:57 公開日:2021-09-15 |
# ロボットオートノミーのためのナビゲーション指向シーン理解:エゴセントリック画像におけるセグメンテーションの学習 Navigation-Oriented Scene Understanding for Robotic Autonomy: Learning to Segment Driveability in Egocentric Images ( http://arxiv.org/abs/2109.07245v1 ) ライセンス: Link先を確認 | Galadrielle Humblot-Renaux, Letizia Marchegiani, Thomas B. Moeslund and Rikke Gade | (参考訳) この作業は、屋外ロボットナビゲーションのシーン理解に取り組み、オンボードカメラで撮影された画像のみに依存する。
従来の視覚シーン理解は、特定の記述カテゴリーに基づいて環境を解釈する。
しかし、そのような表現は、ロボットの動作を特定の領域に拘束する決定や制約を直接解釈することはできない。
そこで本研究では,ロボットの操作方法の観点で,エゴセントリック画像を直接分割し,学習問題を自律的なナビゲーションタスクに合わせることを提案する。
画像セグメンテーションネットワークを中心に,任意のシーンに適用可能な3つの駆動性レベルからなる,汎用的でスケーラブルなアフォーアンスベースの定義を提案する。
これらのレベルをソフトな順序ラベルで符号化することにより、標準の1ホットラベルよりもセグメンテーションを改善する学習におけるクラス間距離を組み込む。
また,安全クリティカルな領域に高い重要度を割り当てるナビゲーション指向の画素方向損失重み付け手法を提案する。
オフロードシーンと都市シーンにまたがる大規模パブリックイメージセグメンテーションデータセットに対するアプローチを評価する。
zero-shot cross-dataset generalization実験では、汎用の単一データセットセグメンテーションと比較して、さまざまなデータセットの混合にまたがって、我々のアフォーマンス学習手法が適用可能であることを示し、未認識環境における駆動性推定を改善した。 This work tackles scene understanding for outdoor robotic navigation, solely relying on images captured by an on-board camera. Conventional visual scene understanding interprets the environment based on specific descriptive categories. However, such a representation is not directly interpretable for decision-making and constrains robot operation to a specific domain. Thus, we propose to segment egocentric images directly in terms of how a robot can navigate in them, and tailor the learning problem to an autonomous navigation task. Building around an image segmentation network, we present a generic and scalable affordance-based definition consisting of 3 driveability levels which can be applied to arbitrary scenes. By encoding these levels with soft ordinal labels, we incorporate inter-class distances during learning which improves segmentation compared to standard one-hot labelling. In addition, we propose a navigation-oriented pixel-wise loss weighting method which assigns higher importance to safety-critical areas. We evaluate our approach on large-scale public image segmentation datasets spanning off-road and urban scenes. In a zero-shot cross-dataset generalization experiment, we show that our affordance learning scheme can be applied across a diverse mix of datasets and improves driveability estimation in unseen environments compared to general-purpose, single-dataset segmentation. | 翻訳日:2021-09-16 14:52:37 公開日:2021-09-15 |
# S3LAM:構造化シーンSLAM S3LAM: Structured Scene SLAM ( http://arxiv.org/abs/2109.07339v1 ) ライセンス: Link先を確認 | Mathieu Gonzalez, Eric Marchand, Amine Kacete and J\'er\^ome Royan | (参考訳) 本稿では,シーン内のオブジェクトと構造の意味セグメンテーションを用いた新しい汎用slamシステムを提案する。
セマンティック情報はSLAMをより正確で堅牢な高レベル情報を含むため、関連性が高い。
私たちの貢献は3倍です
i)ORB-SLAM2に基づく新しいSLAMシステムにより、シーン内のオブジェクトのインスタンスや構造に対応する点の集合からなる意味マップを作成する。
二 幾何学的前処理を用いて各クラスターを拘束するための古典的な束調整定式化の修正により、カメラの局在化及び再構成が改善され、シーンをよりよく理解することができる。
三 古典的バンドル調整の収束を改善するため、クラスターのレベルでの新しいバンドル調整の定式化
我々は、公開データセットから複数のシーケンスに対するアプローチを評価し、orb-slam2に関して、カメラのポーズ推定を改善することを示す。 We propose a new general SLAM system that uses the semantic segmentation of objects and structures in the scene. Semantic information is relevant as it contains high level information which may make SLAM more accurate and robust. Our contribution is threefold: i) A new SLAM system based on ORB-SLAM2 that creates a semantic map made of clusters of points corresponding to objects instances and structures in the scene. ii) A modification of the classical Bundle Adjustment formulation to constrain each cluster using geometrical priors, which improves both camera localization and reconstruction and enables a better understanding of the scene. iii) A new Bundle Adjustment formulation at the level of clusters to improve the convergence of classical Bundle Adjustment. We evaluate our approach on several sequences from a public dataset and show that, with respect to ORB-SLAM2 it improves camera pose estimation. | 翻訳日:2021-09-16 14:52:11 公開日:2021-09-15 |
# 皮膚運動の接触認識再ターゲティング Contact-Aware Retargeting of Skinned Motion ( http://arxiv.org/abs/2109.07431v1 ) ライセンス: Link先を確認 | Ruben Villegas, Duygu Ceylan, Aaron Hertzmann, Jimei Yang, Jun Saito | (参考訳) 本稿では,自己接触を保ち,相互接続を防止するモーションリターゲティング手法を提案する。
手を触れる時や胴体や頭部などの自己接触は人体言語や力学の重要な属性であるが、既存の方法はこれらの接触をモデル化したり保存したりしない。
同様に、胴体に手が通るなどの相互侵入は、運動推定法の典型的な人工物である。
本手法の入力は,人間の動作シーケンスとターゲット骨格とキャラクタ形状である。
この方法は、入力動作における自己接触と接点を識別し、これらの接点を保持しながら、出力骨格に適用する動きを最適化する。
本稿では,接触制約を満たしながら効率的な再ターゲティングを実現するエンコーダ空間最適化戦略を備えた,新たな幾何条件リカレントネットワークを提案する。
実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。
また,人間の映像から推定した動作を一般化し,先行作よりも改善し,目に見える相互侵入を生じさせる方法を示した。 This paper introduces a motion retargeting method that preserves self-contacts and prevents interpenetration. Self-contacts, such as when hands touch each other or the torso or the head, are important attributes of human body language and dynamics, yet existing methods do not model or preserve these contacts. Likewise, interpenetration, such as a hand passing into the torso, are a typical artifact of motion estimation methods. The input to our method is a human motion sequence and a target skeleton and character geometry. The method identifies self-contacts and ground contacts in the input motion, and optimizes the motion to apply to the output skeleton, while preserving these contacts and reducing interpenetration. We introduce a novel geometry-conditioned recurrent network with an encoder-space optimization strategy that achieves efficient retargeting while satisfying contact constraints. In experiments, our results quantitatively outperform previous methods and we conduct a user study where our retargeted motions are rated as higher-quality than those produced by recent works. We also show our method generalizes to motion estimated from human videos where we improve over previous works that produce noticeable interpenetration. | 翻訳日:2021-09-16 14:51:54 公開日:2021-09-15 |
# ニューラルヒューマンパフォーマー:人間のパフォーマンスレンダリングのための一般化されたラミアンスフィールドの学習 Neural Human Performer: Learning Generalizable Radiance Fields for Human Performance Rendering ( http://arxiv.org/abs/2109.07448v1 ) ライセンス: Link先を確認 | Youngjoong Kwon and Dahun Kim and Duygu Ceylan and Henry Fuchs | (参考訳) 本稿では、スパースマルチビューカメラを用いて、任意の人間のパフォーマンスの視点映像を合成することを目的とする。
近年,nerf(person-specific neural radiance fields)を学習し,人間の出現を捉えることでこの問題に対処した研究がいくつか行われている。
並行して、ピクセルアライメント機能を使用して、任意の新しいシーンやオブジェクトにラミアンスフィールドを一般化する方法も提案されている。
しかしながら、そのような一般化アプローチを人間に適用することは、重い閉塞と身体部分のダイナミックな明瞭さのために非常に困難である。
この課題を解決するために,我々は,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能な神経放射場を学習するニューラルヒューマン・パフォーマを提案する。
具体的には,まず,追跡された視覚特徴を経時的骨格運動に基づいて集約する時空変圧器を導入する。
さらに,複数視点からのハエの観測を統合させるため,時間差のある特徴と画素対応特徴とを相互に関連付けるためにマルチビュートランスフォーマーを提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
ビデオの結果とコードはhttps://youngjoongunc.github.io/nhpで入手できる。 In this paper, we aim at synthesizing a free-viewpoint video of an arbitrary human performance using sparse multi-view cameras. Recently, several works have addressed this problem by learning person-specific neural radiance fields (NeRF) to capture the appearance of a particular human. In parallel, some work proposed to use pixel-aligned features to generalize radiance fields to arbitrary new scenes and objects. Adopting such generalization approaches to humans, however, is highly challenging due to the heavy occlusions and dynamic articulations of body parts. To tackle this, we propose Neural Human Performer, a novel approach that learns generalizable neural radiance fields based on a parametric human body model for robust performance capture. Specifically, we first introduce a temporal transformer that aggregates tracked visual features based on the skeletal body motion over time. Moreover, a multi-view transformer is proposed to perform cross-attention between the temporally-fused features and the pixel-aligned features at each time step to integrate observations on the fly from multiple views. Experiments on the ZJU-MoCap and AIST datasets show that our method significantly outperforms recent generalizable NeRF methods on unseen identities and poses. The video results and code are available at https://youngjoongunc.github.io/nhp. | 翻訳日:2021-09-16 14:51:37 公開日:2021-09-15 |
# 自律機械処理システム設計におけるデータフローアーキテクチャの約束 The Promise of Dataflow Architectures in the Design of Processing Systems for Autonomous Machines ( http://arxiv.org/abs/2109.07047v1 ) ライセンス: Link先を確認 | Shaoshan Liu, Yuhao Zhu, Bo Yu, Jean-Luc Gaudiot, Guang R. Gao | (参考訳) 自律機械の商業化は繁栄する分野であり、PC、クラウドコンピューティング、モバイルコンピューティングに続く次の主要なコンピューティング需要の原動力になる可能性が高い。
それでも、自律機械に適したコンピュータアーキテクチャは欠落しており、多くの企業は拡張性も拡張性もないアドホックコンピューティングソリューションの開発を余儀なくされている。
本稿では、自律的マシンコンピューティングの需要を分析し、自律的マシンにおけるデータフローアーキテクチャの期待について論じる。 The commercialization of autonomous machines is a thriving sector, and likely to be the next major computing demand driver, after PC, cloud computing, and mobile computing. Nevertheless, a suitable computer architecture for autonomous machines is missing, and many companies are forced to develop ad hoc computing solutions that are neither scalable nor extensible. In this article, we analyze the demands of autonomous machine computing, and argue for the promise of dataflow architectures in autonomous machines. | 翻訳日:2021-09-16 14:51:11 公開日:2021-09-15 |
# リスク計測、リスクエントロピーおよび自動運転リスクモデリング Risk Measurement, Risk Entropy, and Autonomous Driving Risk Modeling ( http://arxiv.org/abs/2109.07211v1 ) ライセンス: Link先を確認 | Jiamin Yu | (参考訳) 運転の知覚、予測、計画、制御のために自動運転車のビッグデータを使用するのは、長い間のことです。
当然、なぜこのビッグデータをリスク管理やアクチュアルモデリングに使わないのか、という疑問が高まっている。
本稿では、自律運転シナリオにおける技術的困難、新しいアイデア、リスクモデリングの手法について考察する。
従来のリスクモデルと比較すると、新しいモデルは実際の道路交通や運転安全性能と一貫性がある。
さらに重要なことは、コンピュータシミュレーション環境下でリスク評価と自動車保険の価格を実現するための技術的実現性を提供する。 It has been for a long time to use big data of autonomous vehicles for perception, prediction, planning, and control of driving. Naturally, it is increasingly questioned why not using this big data for risk management and actuarial modeling. This article examines the emerging technical difficulties, new ideas, and methods of risk modeling under autonomous driving scenarios. Compared with the traditional risk model, the novel model is more consistent with the real road traffic and driving safety performance. More importantly, it provides technical feasibility for realizing risk assessment and car insurance pricing under a computer simulation environment. | 翻訳日:2021-09-16 14:49:54 公開日:2021-09-15 |
# 21世紀の大病発生のモデル化--因果的アプローチ Modelling Major Disease Outbreaks in the 21st Century: A Causal Approach ( http://arxiv.org/abs/2109.07266v1 ) ライセンス: Link先を確認 | Abli Marathe, Saloni Parekh, Harsh Sakhrani | (参考訳) 地球規模の事象のダイナミクスをモデル化しようとする疫学者は、疾患の発生など異常と関連する要因を特定する上で大きな課題に直面している。
本稿では,グローバルな開発指標をマーカーとして,感染症の発生に敏感な最も重要な開発セクターを特定する手法を提案する。
我々は,これらの指標と疾患発生の因果関係を統計的に評価し,最も頻度の高い指標を見つけるために,統計手法を用いる。
統計解析に加えて,データインプテーション手法を用いて生の現実世界のデータセットを有意義なデータに変換し,因果推論を行った。
インジケータ間の因果関係の検出に様々なアルゴリズムを適用することが,本研究の課題である。
国間の政府政策の格差が因果連鎖の相違の原因となっているにもかかわらず、いくつかの指標は21世紀に世界中での疾病の発生に敏感な決定要因として現れる。 Epidemiologists aiming to model the dynamics of global events face a significant challenge in identifying the factors linked with anomalies such as disease outbreaks. In this paper, we present a novel method for identifying the most important development sectors sensitive to disease outbreaks by using global development indicators as markers. We use statistical methods to assess the causative linkages between these indicators and disease outbreaks, as well as to find the most often ranked indicators. We used data imputation techniques in addition to statistical analysis to convert raw real-world data sets into meaningful data for causal inference. The application of various algorithms for the detection of causal linkages between the indicators is the subject of this research. Despite the fact that disparities in governmental policies between countries account for differences in causal linkages, several indicators emerge as important determinants sensitive to disease outbreaks over the world in the 21st Century. | 翻訳日:2021-09-16 14:49:44 公開日:2021-09-15 |
# FORTAP:数値推論対応テーブル事前学習のためのフォーミュラの利用 FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining ( http://arxiv.org/abs/2109.07323v1 ) ライセンス: Link先を確認 | Zhoujun Cheng, Haoyu Dong, Fan Cheng, Ran Jia, Pengfei Wu, Shi Han, Dongmei Zhang | (参考訳) テーブルは豊富な数値データを格納するが、テーブル上の数値推論は依然として難しい。
本稿では,表内の数値の計算を行うスプレッドシート公式が,自然に数値推論の強力な監督対象であることを示す。
さらに、Web上では、専門家による公式付き大量のスプレッドシートが利用可能であり、容易に入手することができる。
FORTAPは, スプレッドシート公式の大規模コーパスを利用して, 事前学習を行うための最初の方法である。
半構造化テーブルで数値参照と計算を学習するために、FOTAPを明示的にガイドする2つの定式前処理タスクを設計する。
FORTAPは、セルタイプ分類と公式予測という2つの典型的な下流タスクにおける最先端の成果を達成し、数値推論を意識した事前学習の可能性を示す。 Tables store rich numerical data, but numerical reasoning over tables is still a challenge. In this paper, we find that the spreadsheet formula, which performs calculations on numerical values in tables, is naturally a strong supervision of numerical reasoning. More importantly, large amounts of spreadsheets with expert-made formulae are available on the web and can be obtained easily. FORTAP is the first method for numerical-reasoning-aware table pretraining by leveraging large corpus of spreadsheet formulae. We design two formula pretraining tasks to explicitly guide FORTAP to learn numerical reference and calculation in semi-structured tables. FORTAP achieves state-of-the-art results on two representative downstream tasks, cell type classification and formula prediction, showing great potential of numerical-reasoning-aware pretraining. | 翻訳日:2021-09-16 14:49:31 公開日:2021-09-15 |
# DCUR:強化学習を用いたサンプルを用いたデータカリキュラム DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning ( http://arxiv.org/abs/2109.07380v1 ) ライセンス: Link先を確認 | Daniel Seita, Abhinav Gopal, Zhao Mandi, John Canny | (参考訳) 深部強化学習(Deep reinforcement learning, RL)は経験的成功は大きいが, 脆性やサンプル不効率に悩まされている。
潜在的な治療法は、以前訓練されたポリシーを監督の源として使うことである。
そこで本研究では,これらの政策を教師として,データ利用に焦点をあてて,その専門性を新しい学生政策に移す方法について検討する。
まず,オンライン深層rlを用いて教師を訓練し,ログ付き環境対話履歴を記憶する,強化学習のためのデータカリキュラム(dcur)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
DCURの中心的な考え方は、訓練時間の関数として、全教師データの固定されたサブセットからのサンプリングを制限するデータカリキュラムのクラスを定義することである。
教師と学生は、さまざまなデータカリキュラムにまたがって最先端の深層RLアルゴリズムを用いてテストする。
その結果,データキュリキュラの選択は学生の学習に大きく影響し,初期トレーニング段階でデータを制限することは有益であり,データの可用性は徐々に向上することが示唆された。
オフラインのRLアルゴリズムに頼らずに、学生がオフラインで学習し、教師のパフォーマンスにマッチできる時期を特定する。
さらに,少数のオンラインデータを集めることで,データカリキュラムに補完的なメリットが得られることを示す。
追加資料はhttps://tinyurl.com/teach-dcur.comで入手できる。 Deep reinforcement learning (RL) has shown great empirical successes, but suffers from brittleness and sample inefficiency. A potential remedy is to use a previously-trained policy as a source of supervision. In this work, we refer to these policies as teachers and study how to transfer their expertise to new student policies by focusing on data usage. We propose a framework, Data CUrriculum for Reinforcement learning (DCUR), which first trains teachers using online deep RL, and stores the logged environment interaction history. Then, students learn by running either offline RL or by using teacher data in combination with a small amount of self-generated data. DCUR's central idea involves defining a class of data curricula which, as a function of training time, limits the student to sampling from a fixed subset of the full teacher data. We test teachers and students using state-of-the-art deep RL algorithms across a variety of data curricula. Results suggest that the choice of data curricula significantly impacts student learning, and that it is beneficial to limit the data during early training stages while gradually letting the data availability grow over time. We identify when the student can learn offline and match teacher performance without relying on specialized offline RL algorithms. Furthermore, we show that collecting a small fraction of online data provides complementary benefits with the data curriculum. Supplementary material is available at https://tinyurl.com/teach-dcur. | 翻訳日:2021-09-16 14:49:18 公開日:2021-09-15 |
# ニューラルネットワークの形が聞こえますか?
磁気サイドチャネルによるGPUのスヌーピング Can one hear the shape of a neural network?: Snooping the GPU via Magnetic Side Channel ( http://arxiv.org/abs/2109.07395v1 ) ライセンス: Link先を確認 | Henrique Teles Maia, Chang Xiao, Dingzeyu Li, Eitan Grinspun, Changxi Zheng | (参考訳) 企業と個人の両方でニューラルネットワークアプリケーションの人気が高まっている。
ネットワークソリューションは各タスクごとに注意深く調整され、クエリを堅牢に解決できる設計は、高要求で終わる。
正確でパフォーマンスの高い機械学習モデルの商用価値が増大するにつれて、ニューラルアーキテクチャを機密投資として保護するニーズも高まる。
我々は、加速ハードウェア間のブラックボックスとして展開されるニューラルネットワークの脆弱性を電磁的側チャネルを通じて調査する。
我々は、グラフィック処理装置の電源ケーブルから発生する磁束を、安価な3ドルの誘導センサで取得し、この信号がブラックボックスニューラルネットワークモデルの詳細なトポロジーとハイパーパラメータを裏切ることを見出した。
攻撃は、未知の入力値を持つが既知の入力次元を持つ1つのクエリのための磁気信号を取得する。
ディープニューラルネットワークを評価するモジュール層シーケンスにより,ネットワーク再構成が可能となる。
そこで我々は,各層成分の評価結果から,階層トポロジ,幅,関数型,シーケンス順序を,整数計画に基づく整合性最適化と適切に訓練された分類器を用いて推定できる磁化信号シグニチャが得られた。
ネットワーク仕様を回復できる範囲を調査し,ネットワーク類似性を比較するための指標を検討する。
我々は、ランダム設計を含む幅広いネットワークアーキテクチャの詳細を復元する上で、このサイドチャネル攻撃の潜在的な精度を示す。
我々は,この新たなサイドチャネル露出を悪用するアプリケーションについて考察する。
そこで本研究では,本手法や他のスヌーピング技術に対する対策について論じる。 Neural network applications have become popular in both enterprise and personal settings. Network solutions are tuned meticulously for each task, and designs that can robustly resolve queries end up in high demand. As the commercial value of accurate and performant machine learning models increases, so too does the demand to protect neural architectures as confidential investments. We explore the vulnerability of neural networks deployed as black boxes across accelerated hardware through electromagnetic side channels. We examine the magnetic flux emanating from a graphics processing unit's power cable, as acquired by a cheap $3 induction sensor, and find that this signal betrays the detailed topology and hyperparameters of a black-box neural network model. The attack acquires the magnetic signal for one query with unknown input values, but known input dimensions. The network reconstruction is possible due to the modular layer sequence in which deep neural networks are evaluated. We find that each layer component's evaluation produces an identifiable magnetic signal signature, from which layer topology, width, function type, and sequence order can be inferred using a suitably trained classifier and a joint consistency optimization based on integer programming. We study the extent to which network specifications can be recovered, and consider metrics for comparing network similarity. We demonstrate the potential accuracy of this side channel attack in recovering the details for a broad range of network architectures, including random designs. We consider applications that may exploit this novel side channel exposure, such as adversarial transfer attacks. In response, we discuss countermeasures to protect against our method and other similar snooping techniques. | 翻訳日:2021-09-16 14:48:54 公開日:2021-09-15 |
# 変分オートエンコーダを用いた物理場の分散生成因子 Disentangling Generative Factors of Physical Fields Using Variational Autoencoders ( http://arxiv.org/abs/2109.07399v1 ) ライセンス: Link先を確認 | Christian Jacobsen and Karthik Duraisamy | (参考訳) 教師なしの方法でデータの高次元分野から生成パラメータを抽出する能力は、計算物理学において非常に望ましいが未実現の目標である。
本研究は, 非線形次元低減のための変分オートエンコーダ(vaes)の利用を考察し, 低次元の潜在変数を分離して, データを生成する独立な物理パラメータを同定することを目的としている。
不整合分解は解釈可能であり、生成的モデリング、設計最適化、確率的還元順序モデリングを含む様々なタスクに転送することができる。
従来のvae損失関数(すなわちelbo)を最小に修正し、高い再構成精度を維持することで、vaesを用いた絡み合いを特徴付けることが本研究の主な重点である。
乱れは潜在空間の回転、ハイパーパラメータ、ランダム初期化、学習スケジュールに非常に敏感であることが示されている。
損失の風景は、望ましい解を取り囲む過剰に正規化された局所的ミニマによって特徴づけられる。
本稿では,モデル多孔質流れ問題における学習潜在分布と「真の」生成因子を交互に配置することにより,不連続表現と絡み合い表現の比較を行う。
階層的先行性(HP)の実装は、古典的VAE上での非絡み合った表現の学習をより促進する。
先行分布の選択は乱れに劇的な影響を与えることが示されている。
特に、回転不変前のトレーニングにおいて、正規化損失は潜時回転の影響を受けず、非回転不変の事前学習は、生成因子の特性を捕捉し、乱れを改善するのに大いに役立つ。
過正規化局所ミニマへの収束など,VAEの訓練に固有のいくつかの課題が説明され,検討され,緩和のための潜在的技術が提示される。 The ability to extract generative parameters from high-dimensional fields of data in an unsupervised manner is a highly desirable yet unrealized goal in computational physics. This work explores the use of variational autoencoders (VAEs) for non-linear dimension reduction with the aim of disentangling the low-dimensional latent variables to identify independent physical parameters that generated the data. A disentangled decomposition is interpretable and can be transferred to a variety of tasks including generative modeling, design optimization, and probabilistic reduced order modelling. A major emphasis of this work is to characterize disentanglement using VAEs while minimally modifying the classic VAE loss function (i.e. the ELBO) to maintain high reconstruction accuracy. Disentanglement is shown to be highly sensitive to rotations of the latent space, hyperparameters, random initializations and the learning schedule. The loss landscape is characterized by over-regularized local minima which surrounds desirable solutions. We illustrate comparisons between disentangled and entangled representations by juxtaposing learned latent distributions and the 'true' generative factors in a model porous flow problem. Implementing hierarchical priors (HP) is shown to better facilitate the learning of disentangled representations over the classic VAE. The choice of the prior distribution is shown to have a dramatic effect on disentanglement. In particular, the regularization loss is unaffected by latent rotation when training with rotationally-invariant priors, and thus learning non-rotationally-invariant priors aids greatly in capturing the properties of generative factors, improving disentanglement. Some issues inherent to training VAEs, such as the convergence to over-regularized local minima are illustrated and investigated, and potential techniques for mitigation are presented. | 翻訳日:2021-09-16 14:48:30 公開日:2021-09-15 |
# 旅行時間推定のための多視点空間時間モデル Multi View Spatial-Temporal Model for Travel Time Estimation ( http://arxiv.org/abs/2109.07402v1 ) ライセンス: Link先を確認 | ZiChuan Liu, Zhaoyang Wu, Meng Wang | (参考訳) タクシーの到着時刻予測は、インテリジェント交通システムの構築に不可欠である。
従来の到着時刻推定手法は主に交通地図の特徴抽出に依存しており、複雑な状況や非線形な空間的・時間的関係をモデル化できない。
そこで本稿では,時空間と軌道の依存性を捉えるためのマルチビュー時空間モデル(MVSTM)を提案する。
具体的には,空間ビューのモデル化にGraph2vec,軌跡ビューのモデル化にデュアルチャネル時間モジュール,トラフィックセマンティクスのモデル化に構造埋め込みを用いる。
大規模タクシー軌道データを用いた実験により,本手法は新規手法よりも有効であることが示された。
ソースコードはhttps://github.com/775269512/SIGSPATIAL-2021-GISCUP-4th-Solutionから取得できる。 Taxi arrival time prediction is an essential part of building intelligent transportation systems. Traditional arrival time estimation methods mainly rely on traffic map feature extraction, which can not model complex situations and nonlinear spatial and temporal relationships. Therefore, we propose a Multi-View Spatial-Temporal Model (MVSTM) to capture the dependence of spatial-temporal and trajectory. Specifically, we use graph2vec to model the spatial view, dual-channel temporal module to model the trajectory view, and structural embedding to model the traffic semantics. Experiments on large-scale taxi trajectory data show that our approach is more effective than the novel method. The source code can be obtained from https://github.com/775269512/SIGSPATIAL-2021-GISCUP-4th-Solution. | 翻訳日:2021-09-16 14:48:00 公開日:2021-09-15 |
# 剛体物体の広域・低レイテンシ・電力効率6-DoF追跡システム A Wide-area, Low-latency, and Power-efficient 6-DoF Pose Tracking System for Rigid Objects ( http://arxiv.org/abs/2109.07428v1 ) ライセンス: Link先を確認 | Young-Ho Kim, Ankur Kapoor, Tommaso Mansi, Ali Kamen | (参考訳) 位置感度検出器(PSD)は、単一のアクティブマーカーの2度(または3度)自由度(DoF)の位置を高精度に追跡できると同時に、高速な応答時間と高い更新周波数と低レイテンシを持つ。
しかし, 方位測定の欠如, 追跡範囲の制限, 環境変動に対する感受性などにより, 6自由度物体姿勢追跡システムには特に適さない。
単一のアクティブマーカーを必要とする剛体物体追跡のための新しい6-DoFポーズトラッキングシステムを提案する。
提案システムは、ステレオベースのPSDペアと複数慣性測定ユニット(IMU)を用いる。
これは、赤外線発光ダイオード(IR-LED)のアクティブマーカーのパワーを特定し制御するための実用的なアプローチに基づいて、トラッキング作業量を増やし、消費電力を減らすことを目的としている。
提案するトラッキングシステムは,3つの作業空間サイズ,および3つの動作パターンを持つロボットアームマニピュレータを用いた静的および動的位置精度で検証した。
その結果, 静的位置のルート平均二乗(RMS)誤差は0.6mmであった。
動的位置 RMS 誤差は 0.7-0.9mm である。
RMSの向きの誤差は0.04から0.9度であり、動的運動は様々である。
全体として,提案するトラッキングシステムは,作業空間の中間領域における剛体姿勢と,実験室環境下のすべての作業空間における低度精度を追跡することができる。 Position sensitive detectors (PSDs) offer possibility to track single active marker's two (or three) degrees of freedom (DoF) position with a high accuracy, while having a fast response time with high update frequency and low latency, all using a very simple signal processing circuit. However they are not particularly suitable for 6-DoF object pose tracking system due to lack of orientation measurement, limited tracking range, and sensitivity to environmental variation. We propose a novel 6-DoF pose tracking system for a rigid object tracking requiring a single active marker. The proposed system uses a stereo-based PSD pair and multiple Inertial Measurement Units (IMUs). This is done based on a practical approach to identify and control the power of Infrared-Light Emitting Diode (IR-LED) active markers, with an aim to increase the tracking work space and reduce the power consumption. Our proposed tracking system is validated with three different work space sizes and for static and dynamic positional accuracy using robotic arm manipulator with three different dynamic motion patterns. The results show that the static position root-mean-square (RMS) error is 0.6mm. The dynamic position RMS error is 0.7-0.9mm. The orientation RMS error is between 0.04 and 0.9 degree at varied dynamic motion. Overall, our proposed tracking system is capable of tracking a rigid object pose with sub-millimeter accuracy at the mid range of the work space and sub-degree accuracy for all work space under a lab setting. | 翻訳日:2021-09-16 14:47:30 公開日:2021-09-15 |
# Spline-PINN:高速・物理インフォームド・ハーマイト・スプラインCNNを用いたデータなしPDEへのアプローチ Spline-PINN: Approaching PDEs without Data using Fast, Physics-Informed Hermite-Spline CNNs ( http://arxiv.org/abs/2109.07143v1 ) ライセンス: Link先を確認 | Nils Wandel, Michael Weinmann, Michael Neidlin, Reinhard Klein | (参考訳) 部分微分方程式(PDE)は解くのがとても難しい。
一般に、閉形式解は利用できず、数値近似スキームは計算コストが高い。
本稿では,最近登場した2つの機械学習手法の利点を組み合わせた新しい手法に基づいて,pdesの解法へのアプローチを提案する。
まず、物理インフォームドニューラルネットワーク(PINN)はPDEの連続的な解を学習し、基礎となる真理データをほとんど、あるいは全く含まないで訓練することができる。
しかし、PINNは見えない領域に対してうまく一般化しない。
第二に、畳み込みニューラルネットワークは高速な推論と一般化を提供するが、大量のトレーニングデータを必要とするか、不正確さや離散化成果物につながる可能性のある有限差分に基づく物理制約付き損失を必要とする。
我々はこれらの2つのアプローチの利点を、CNNで処理できるグリッドベースの状態表現を継続的に補間するために、Hermiteスプラインカーネルを使用することで活用する。
これにより、物理インフォームド損失関数のみを使用して事前計算されたトレーニングデータなしでトレーニングが可能となり、目に見えない領域に一般化する高速で連続的なソリューションが提供される。
非圧縮性ナビエ・ストークス方程式と減衰波方程式の例として本手法の可能性を示す。
私たちのモデルは、カルマン渦通り、マグヌス効果、ドップラー効果、干渉パターン、波の反射といった興味深い現象を学べます。
我々の定量的評価とインタラクティブなリアルタイムデモは、教師なしMLベースの手法の精度の差を産業用CFDソルバに狭め、桁違いに高速であることを示している。 Partial Differential Equations (PDEs) are notoriously difficult to solve. In general, closed-form solutions are not available and numerical approximation schemes are computationally expensive. In this paper, we propose to approach the solution of PDEs based on a novel technique that combines the advantages of two recently emerging machine learning based approaches. First, physics-informed neural networks (PINNs) learn continuous solutions of PDEs and can be trained with little to no ground truth data. However, PINNs do not generalize well to unseen domains. Second, convolutional neural networks provide fast inference and generalize but either require large amounts of training data or a physics-constrained loss based on finite differences that can lead to inaccuracies and discretization artifacts. We leverage the advantages of both of these approaches by using Hermite spline kernels in order to continuously interpolate a grid-based state representation that can be handled by a CNN. This allows for training without any precomputed training data using a physics-informed loss function only and provides fast, continuous solutions that generalize to unseen domains. We demonstrate the potential of our method at the examples of the incompressible Navier-Stokes equation and the damped wave equation. Our models are able to learn several intriguing phenomena such as Karman vortex streets, the Magnus effect, Doppler effect, interference patterns and wave reflections. Our quantitative assessment and an interactive real-time demo show that we are narrowing the gap in accuracy of unsupervised ML based methods to industrial CFD solvers while being orders of magnitude faster. | 翻訳日:2021-09-16 14:46:46 公開日:2021-09-15 |
# マルコフ決定過程の制御チャネルにおける攻撃の検出性と性能のバランス Balancing detectability and performance of attacks on the control channel of Markov Decision Processes ( http://arxiv.org/abs/2109.07171v1 ) ライセンス: Link先を確認 | Alessio Russo, Alexandre Proutiere | (参考訳) 我々は,マルコフ決定過程(MDPs)の制御チャネルにおける最適なステルス毒素攻撃を設計する問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
これらの手法による方針は、意思決定者の観察を乱す攻撃に対して脆弱であることが示されている。
このような攻撃では、教師付き学習で使用される敵の例からインスピレーションを得て、敵の摂動の振幅はいくつかの規範に従って制限され、この制約が攻撃を不可避にすることを期待している。
しかしながら、そのような制約はいかなる非検出性も許容せず、基礎となるマルコフ過程の動的な性質を考慮に入れない。
本稿では,情報理論量に基づく新たな攻撃定式化を提案し,攻撃の検出可能性と制御プロセスの性能を最小化することを目的としている。
攻撃の効率と検出可能性のトレードオフを分析する。
このトレードオフを示す実例と数値シミュレーションで結論付ける。 We investigate the problem of designing optimal stealthy poisoning attacks on the control channel of Markov decision processes (MDPs). This research is motivated by the recent interest of the research community for adversarial and poisoning attacks applied to MDPs, and reinforcement learning (RL) methods. The policies resulting from these methods have been shown to be vulnerable to attacks perturbing the observations of the decision-maker. In such an attack, drawing inspiration from adversarial examples used in supervised learning, the amplitude of the adversarial perturbation is limited according to some norm, with the hope that this constraint will make the attack imperceptible. However, such constraints do not grant any level of undetectability and do not take into account the dynamic nature of the underlying Markov process. In this paper, we propose a new attack formulation, based on information-theoretical quantities, that considers the objective of minimizing the detectability of the attack as well as the performance of the controlled process. We analyze the trade-off between the efficiency of the attack and its detectability. We conclude with examples and numerical simulations illustrating this trade-off. | 翻訳日:2021-09-16 14:46:20 公開日:2021-09-15 |
# PoWareMatch: 人間のスキーママッチングを改善するための品質を考慮したディープラーニングアプローチ PoWareMatch: a Quality-aware Deep Learning Approach to Improve Human Schema Matching ( http://arxiv.org/abs/2109.07321v1 ) ライセンス: Link先を確認 | Roee Shraga, Avigdor Gal | (参考訳) スキーママッチングは、あらゆるデータ統合プロセスの中核的なタスクである。
データベース、ai、セマンティックweb、データマイニングの分野において長年にわたって調査されてきたが、主な課題は、データコンセプト(例えばデータベース属性)間で品質マッチングを生成する能力である。
本研究では,人間をマッチング者として行動する新たな角度について検討し,マッチング生成をプロセスとして検討する。
一般的な評価尺度(precision, recall, and f-measure)のダイナミクスを,この角度に関して分析し,この分析をサポートするために偏りのないマッチングの必要性を強調する。
非バイアスマッチング(unbiased matching)は、人間の決定がスキーマ対応の信頼できる評価を示すという共通の仮定を記述する概念であるが、人間のマッチング者固有の特性ではない。
以下に示すように,マッチングの質を裏付ける人間のマッチング決定を校正し,フィルタリングする深層学習機構を用いたPoWareMatchを設計し,アルゴリズムマッチングと組み合わせてより優れたマッチング結果を生成する。
我々は、一般的なベンチマークよりも200人以上いる人間のマッチング者による実験に基づいて、powarematchは、マッチを追加の対応で拡張し、高品質のマッチングを生成する利点を十分に予測しているという実証的な証拠を提供する。
加えて、powarematchは最先端のマッチングアルゴリズムを上回る。 Schema matching is a core task of any data integration process. Being investigated in the fields of databases, AI, Semantic Web and data mining for many years, the main challenge remains the ability to generate quality matches among data concepts (e.g., database attributes). In this work, we examine a novel angle on the behavior of humans as matchers, studying match creation as a process. We analyze the dynamics of common evaluation measures (precision, recall, and f-measure), with respect to this angle and highlight the need for unbiased matching to support this analysis. Unbiased matching, a newly defined concept that describes the common assumption that human decisions represent reliable assessments of schemata correspondences, is, however, not an inherent property of human matchers. In what follows, we design PoWareMatch that makes use of a deep learning mechanism to calibrate and filter human matching decisions adhering the quality of a match, which are then combined with algorithmic matching to generate better match results. We provide an empirical evidence, established based on an experiment with more than 200 human matchers over common benchmarks, that PoWareMatch predicts well the benefit of extending the match with an additional correspondence and generates high quality matches. In addition, PoWareMatch outperforms state-of-the-art matching algorithms. | 翻訳日:2021-09-16 14:46:03 公開日:2021-09-15 |
# Union:空間加速器のテンソル操作評価のためのMLIRの統一HW-SW共同設計エコシステム Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor Operations on Spatial Accelerators ( http://arxiv.org/abs/2109.07419v1 ) ライセンス: Link先を確認 | Geonhwa Jeong, Gokcen Kestor, Prasanth Chatarasi, Angshuman Parashar, Po-An Tsai, Sivasankaran Rajamanickam, Roberto Gioiosa, Tushar Krishna | (参考訳) 商用および科学応用におけるディープラーニングの極端な計算要求を満たすため、データフローアクセラレーターはますます人気が高まっている。
これらの"ドメイン固有の"アクセラレータはCPUやGPUのように完全にプログラム可能ではないが、データオーケストレーション、すなわちデータフローとタイリングの最適化に関して様々なレベルの柔軟性を保ち、効率を向上させる。
新しいハードウェア上でターゲット問題のアルゴリズムを実行するための新しいアルゴリズムとマッピングアプローチを設計する場合、いくつかの課題がある。
以前の作品は、これらの課題を個別に扱っている。
この課題全体に対処するため、この研究では、一般的なMLIRコンパイラインフラストラクチャ内でUnionと呼ばれる空間加速器のためのHW-SW共同設計エコシステムを提示する。
我々のフレームワークは、様々なアルゴリズムとそのマッピングをいくつかの加速器コストモデル上で探索できる。
Unionはまた、簡単に拡張できるアクセラレータコストモデルとマッパーのプラグアンドプレイライブラリも備えている。
アルゴリズムと加速器コストモデルは、ハードウェア、ワークロード、マッパーからの制約に基づいて体系的に切断できる空間加速器のマップ空間をキャプチャする新しいマッピング抽象化を介して接続される。
我々は、異なるマッピング方式を用いて様々な加速器アーキテクチャ上で異なるテンソル演算(CONV/GEMM/Tensor Contraction)をオフロードするいくつかのケーススタディで、コミュニティに対するUnionの価値を実証する。 To meet the extreme compute demands for deep learning across commercial and scientific applications, dataflow accelerators are becoming increasingly popular. While these "domain-specific" accelerators are not fully programmable like CPUs and GPUs, they retain varying levels of flexibility with respect to data orchestration, i.e., dataflow and tiling optimizations to enhance efficiency. There are several challenges when designing new algorithms and mapping approaches to execute the algorithms for a target problem on new hardware. Previous works have addressed these challenges individually. To address this challenge as a whole, in this work, we present a HW-SW co-design ecosystem for spatial accelerators called Union within the popular MLIR compiler infrastructure. Our framework allows exploring different algorithms and their mappings on several accelerator cost models. Union also includes a plug-and-play library of accelerator cost models and mappers which can easily be extended. The algorithms and accelerator cost models are connected via a novel mapping abstraction that captures the map space of spatial accelerators which can be systematically pruned based on constraints from the hardware, workload, and mapper. We demonstrate the value of Union for the community with several case studies which examine offloading different tensor operations(CONV/GEMM/Tensor Contraction) on diverse accelerator architectures using different mapping schemes. | 翻訳日:2021-09-16 14:45:41 公開日:2021-09-15 |
# クローズドループ安定性向上によるニューラルネットワーク最適フィードバック制御 Neural network optimal feedback control with enhanced closed loop stability ( http://arxiv.org/abs/2109.07466v1 ) ライセンス: Link先を確認 | Tenavi Nakamura-Zimmerer and Qi Gong and Wei Kang | (参考訳) 近年の研究では、教師あり学習は高次元非線形力学系のための最適フィードバックコントローラを設計するための有効なツールであることが示されている。
しかし、これらのニューラルネットワーク(NN)コントローラの挙動はまだよく理解されていない。
本稿では,典型的なテスト精度指標がnnコントローラのシステム安定化能力を効果的に捉えていないことを示すために,数値シミュレーションを用いた。
特に、テスト精度の高いnnは、ダイナミクスの安定化に失敗する可能性がある。
そこで我々は線形二次レギュレータ(lqr)を局所的に近似する2つのnnアーキテクチャを提案する。
数値シミュレーションにより,提案アーキテクチャが性能を犠牲にすることなく安定化フィードバックコントローラを確実に生成することを示す。
さらに, NN制御システムの安定性について述べる予備的理論的結果を紹介する。 Recent research has shown that supervised learning can be an effective tool for designing optimal feedback controllers for high-dimensional nonlinear dynamic systems. But the behavior of these neural network (NN) controllers is still not well understood. In this paper we use numerical simulations to demonstrate that typical test accuracy metrics do not effectively capture the ability of an NN controller to stabilize a system. In particular, some NNs with high test accuracy can fail to stabilize the dynamics. To address this we propose two NN architectures which locally approximate a linear quadratic regulator (LQR). Numerical simulations confirm our intuition that the proposed architectures reliably produce stabilizing feedback controllers without sacrificing performance. In addition, we introduce a preliminary theoretical result describing some stability properties of such NN-controlled systems. | 翻訳日:2021-09-16 14:45:18 公開日:2021-09-15 |
# (参考訳) ロバストフェデレーション型ベストアーム識別における不均一性の利用 Exploiting Heterogeneity in Robust Federated Best-Arm Identification ( http://arxiv.org/abs/2109.05700v2 ) ライセンス: CC BY 4.0 | Aritra Mitra, Hamed Hassani and George Pappas | (参考訳) 確率的多腕バンディットにおける最良腕識別問題の連帯型について検討する: 各腕のサブセットのみをサンプリングできるクライアントの集合は、サーバを介して協力し、最高の腕(すなわち、最高の平均報酬を持つ腕)を所定の信頼度で識別する。
そこで本稿では,Fed-SELを提案する。Fed-SELは,逐次除去技術に基づく単純な通信効率のアルゴリズムで,クライアントの局所サンプリングを行う。
本稿では,Fed-SELの性能を検討するために,異なるクライアントに対応するアームの分布の相違を捉えるアームヘテロジニティの概念を導入する。
興味深いことに,本研究は,feed-selのサンプルと通信複雑度を減少させる際のアームヘテロゲニティの利点を明らかにする。
分析の特別な例として、ある異種問題の場合、Fed-SELは1ラウンドの通信後にベストアームを出力することを示す。
最近の研究で統計的不均一性が性能の低下につながることが示されているフェデレート教師付き学習とは異なり、局所計算とフェデレートベストアーム識別のヘテロゲニティの両方の利点を確実に享受することができる。
最終コントリビューションとして、フェデレーションとピアツーピアの両方を対象としてFed-SELの亜種を開発しました。 We study a federated variant of the best-arm identification problem in stochastic multi-armed bandits: a set of clients, each of whom can sample only a subset of the arms, collaborate via a server to identify the best arm (i.e., the arm with the highest mean reward) with prescribed confidence. For this problem, we propose Fed-SEL, a simple communication-efficient algorithm that builds on successive elimination techniques and involves local sampling steps at the clients. To study the performance of Fed-SEL, we introduce a notion of arm-heterogeneity that captures the level of dissimilarity between distributions of arms corresponding to different clients. Interestingly, our analysis reveals the benefits of arm-heterogeneity in reducing both the sample- and communication-complexity of Fed-SEL. As a special case of our analysis, we show that for certain heterogeneous problem instances, Fed-SEL outputs the best-arm after just one round of communication. Our findings have the following key implication: unlike federated supervised learning where recent work has shown that statistical heterogeneity can lead to poor performance, one can provably reap the benefits of both local computation and heterogeneity for federated best-arm identification. As our final contribution, we develop variants of Fed-SEL, both for federated and peer-to-peer settings, that are robust to the presence of Byzantine clients, and hence suitable for deployment in harsh, adversarial environments. | 翻訳日:2021-09-16 11:39:17 公開日:2021-09-15 |
# (参考訳) DBMSにおける心性評価 : 総合的ベンチマーク評価 Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation ( http://arxiv.org/abs/2109.05877v3 ) ライセンス: CC BY 4.0 | Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan, Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren Zhou, Jiangneng Li, Bin Cui | (参考訳) カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。
過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。
しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。
本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。
複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。
異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。
さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。
そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。
ベンチマークデータと評価コードは、https://github.com/Nathaniel-Han/End-to-End-CardEst-Benchmarkで公開しました。 Cardinality estimation (CardEst) plays a significant role in generating high-quality query plans for a query optimizer in DBMS. In the last decade, an increasing number of advanced CardEst methods (especially ML-based) have been proposed with outstanding estimation accuracy and inference latency. However, there exists no study that systematically evaluates the quality of these methods and answer the fundamental problem: to what extent can these methods improve the performance of query optimizer in real-world settings, which is the ultimate goal of a CardEst method. In this paper, we comprehensively and systematically compare the effectiveness of CardEst methods in a real DBMS. We establish a new benchmark for CardEst, which contains a new complex real-world dataset STATS and a diverse query workload STATS-CEB. We integrate multiple most representative CardEst methods into an open-source database system PostgreSQL, and comprehensively evaluate their true effectiveness in improving query plan quality, and other important aspects affecting their applicability, ranging from inference latency, model size, and training time, to update efficiency and accuracy. We obtain a number of key findings for the CardEst methods, under different data and query settings. Furthermore, we find that the widely used estimation accuracy metric(Q-Error) cannot distinguish the importance of different sub-plan queries during query optimization and thus cannot truly reflect the query plan quality generated by CardEst methods. Therefore, we propose a new metric P-Error to evaluate the performance of CardEst methods, which overcomes the limitation of Q-Error and is able to reflect the overall end-to-end performance of CardEst methods. We have made all of the benchmark data and evaluation code publicly available at https://github.com/Nathaniel-Han/End-to-End-CardEst-Benchmark. | 翻訳日:2021-09-16 11:38:03 公開日:2021-09-15 |
# (参考訳) 文字列モデルの大規模なアンサンブルを用いた後OCR文書補正 Post-OCR Document Correction with large Ensembles of Character Sequence Models ( http://arxiv.org/abs/2109.06264v2 ) ライセンス: CC BY 4.0 | Juan Ramirez-Orta and Eduardo Xamena and Ana Maguitman and Evangelos Milios and Axel J. Soto | (参考訳) 本稿では,光学文字認識(OCR)システムですでに処理されている文書を訂正するための文字列列列モデルに基づく新しい手法を提案する。
本論文の主な貢献は, サンプルと資源効率を両立させ, 徹底的な実験によって支援されたシーケンスモデルのトレーニングよりも, 文字列を正確に処理する戦略の集合である。
最高のパフォーマンスを持つ戦略は、入力文書を文字n-gramに分割し、多数のシーケンスモデルのアンサンブルに相当する投票方式を用いて、個々の修正を最終的な出力に組み合わせることである。
さらに、このアンサンブルのメンバーのそれぞれからの貢献度を測る方法について検討する。
我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。
OCR修正後のコードはhttps://github.com/jarobyte91/post_ocr_correctionで共有されます。 In this paper, we propose a novel method based on character sequence-to-sequence models to correct documents already processed with Optical Character Recognition (OCR) systems. The main contribution of this paper is a set of strategies to accurately process strings much longer than the ones used to train the sequence model while being sample- and resource-efficient, supported by thorough experimentation. The strategy with the best performance involves splitting the input document in character n-grams and combining their individual corrections into the final output using a voting scheme that is equivalent to an ensemble of a large number of sequence models. We further investigate how to weigh the contributions from each one of the members of this ensemble. We test our method on nine languages of the ICDAR 2019 competition on post-OCR text correction and achieve a new state-of-the-art performance in five of them. Our code for post-OCR correction is shared at https://github.com/jarobyte91/post_ocr_correction. | 翻訳日:2021-09-16 11:08:09 公開日:2021-09-15 |
# (参考訳) 法的なトランスフォーマーモデル、常に役に立たないかもしれない Legal Transformer Models May Not Always Help ( http://arxiv.org/abs/2109.06862v2 ) ライセンス: CC BY 4.0 | Saibo Geng, R\'emi Lebret, Karl Aberer | (参考訳) ディープラーニングベースの自然言語処理手法、特にトランスフォーマーは、ここ数年で目覚ましいパフォーマンスを達成した。
このような最先端のNLPメソッドを法的活動に適用して、簡単な作業の自動化や単純化は大きな価値があります。
本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。
言語モデルの性能と、異なるタスクと異なるデータセット分割におけるドメイン適応型事前学習を比較して、ドメイン適応型事前学習は低リソースの下流タスクにしか役に立たないことを示す。
また、典型的法定nlpタスクにおけるアダプタのパフォーマンスをベンチマークし、より少ないトレーニングコストでフルモデルのチューニングと同様のパフォーマンスが得られることを示した。
さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。 Deep learning-based Natural Language Processing methods, especially transformers, have achieved impressive performance in the last few years. Applying those state-of-the-art NLP methods to legal activities to automate or simplify some simple work is of great value. This work investigates the value of domain adaptive pre-training and language adapters in legal NLP tasks. By comparing the performance of language models with domain adaptive pre-training on different tasks and different dataset splits, we show that domain adaptive pre-training is only helpful with low-resource downstream tasks, thus far from being a panacea. We also benchmark the performance of adapters in a typical legal NLP task and show that they can yield similar performance to full model tuning with much smaller training costs. As an additional result, we release LegalRoBERTa, a RoBERTa model further pre-trained on legal corpora. | 翻訳日:2021-09-16 10:59:49 公開日:2021-09-15 |
# (参考訳) 対照的に学習された意味空間を用いたアレン基準アトラスからの部分マウス脳顕微鏡像の同定 Identifying partial mouse brain microscopy images from Allen reference atlas using a contrastively learned semantic space ( http://arxiv.org/abs/2109.06662v2 ) ライセンス: CC BY 4.0 | Justinas Antanavicius, Roberto Leiras, Raghavendra Selvan | (参考訳) マウス脳の解剖学的構造を基準アトラスに登録する場合、マウス脳顕微鏡画像の正確な同定は重要な第一歩である。
実践者は、通常、完全な画像が存在すると仮定する画像やツールを手動で比較する。
本研究は、与えられた2次元マウス脳画像に対して対応する2次元参照アトラスプレートを探索する方法として、シアムネットワークを探索する。
siamese networkは、重みの共有パスを使用して入力画像のペアの低次元埋め込みを得る畳み込みニューラルネットワーク(cnns)のクラスである。
部分的マウス脳画像と参照アトラスプレートとの対応は、対照学習を用いてシャムネットワークから得られる脳スライスの低次元埋め込みとアトラスプレートとの間の距離に基づいて決定される。
実験の結果、Samese CNNは、同じソースから画像のトレーニングやテストを行うときに、アレンマウスの脳アトラスを使って脳のスライスを正確に識別できることがわかった。
TOP-1とTOP-5の精度はそれぞれ25%と100%で、29枚の画像を特定するのにわずか7.2秒しかかからなかった。 Precise identification of mouse brain microscopy images is a crucial first step when anatomical structures in the mouse brain are to be registered to a reference atlas. Practitioners usually rely on manual comparison of images or tools that assume the presence of complete images. This work explores Siamese Networks as the method for finding corresponding 2D reference atlas plates for given partial 2D mouse brain images. Siamese networks are a class of convolutional neural networks (CNNs) that use weight-shared paths to obtain low dimensional embeddings of pairs of input images. The correspondence between the partial mouse brain image and reference atlas plate is determined based on the distance between low dimensional embeddings of brain slices and atlas plates that are obtained from Siamese networks using contrastive learning. Experiments showed that Siamese CNNs can precisely identify brain slices using the Allen mouse brain atlas when training and testing images come from the same source. They achieved TOP-1 and TOP-5 accuracy of 25% and 100%, respectively, taking only 7.2 seconds to identify 29 images. | 翻訳日:2021-09-16 10:49:12 公開日:2021-09-15 |
# すべてのモデルが同じ場所で言語知識をローカライズするわけではない:BERToidsの表現に基づく階層的探索 Not All Models Localize Linguistic Knowledge in the Same Place: A Layer-wise Probing on BERToids' Representations ( http://arxiv.org/abs/2109.05958v2 ) ライセンス: Link先を確認 | Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar | (参考訳) 最近の研究の多くはBERTに焦点を当てており、他のモデルと類似している可能性があると推定されている。
本研究では,本研究をエレクトラとxlnetという2つのモデルに拡張し,事前学習目標やアーキテクチャ選択のバリエーションが,表現における言語情報のエンコーディングにおいて異なる行動をもたらすことを示した。
最も注目すべきは、ELECTRAはより深い層で言語知識をエンコードする傾向にあり、XLNetはそれ以前の層に集中していることです。
また、前者は微調整時にわずかに変化し、後者は大幅に調整される。
さらに,各層にまたがる表現の標準的相違を考えると,重み付け評価戦略に基づく結論が,層単位での探索の文脈で広く用いられていることは誤解を招く可能性があることを示す。
代わりに、最小記述長の代替情報理論探索を採用し、より信頼性が高く情報的な結果が得られることが最近証明された。 Most of the recent works on probing representations have focused on BERT, with the presumption that the findings might be similar to the other models. In this work, we extend the probing studies to two other models in the family, namely ELECTRA and XLNet, showing that variations in the pre-training objectives or architectural choices can result in different behaviors in encoding linguistic information in the representations. Most notably, we observe that ELECTRA tends to encode linguistic knowledge in the deeper layers, whereas XLNet instead concentrates that in the earlier layers. Also, the former model undergoes a slight change during fine-tuning, whereas the latter experiences significant adjustments. Moreover, we show that drawing conclusions based on the weight mixing evaluation strategy -- which is widely used in the context of layer-wise probing -- can be misleading given the norm disparity of the representations across different layers. Instead, we adopt an alternative information-theoretic probing with minimum description length, which has recently been proven to provide more reliable and informative results. | 翻訳日:2021-09-16 10:39:45 公開日:2021-09-15 |
# 構造知覚解析のためのスパースファジィ注意 Sparse Fuzzy Attention for Structured Sentiment Analysis ( http://arxiv.org/abs/2109.06719v2 ) ライセンス: Link先を確認 | Letain Peng, Zuchao Li and Hai Zhao | (参考訳) セマンティクスや構文依存構文解析といったタスクのパースに成功している。
しかし、構造化感情分析のようにパースにモデル化されたタスクでは、"依存性のエッジ"はパーサーのパフォーマンスを阻害する非常にスパースである。
そこで我々は,パーサ性能の向上と構造的感情分析の新たな最先端設定を実現した,疎密でファジィなアテンションスコアリング手法を提案する。
さらに,2次解析による構造化感情分析のパースモデリングをさらに検討し,パース性能を著しく向上させる新たなスパース2次エッジ構築手順を導入する。 Attention scorers have achieved success in parsing tasks like semantic and syntactic dependency parsing. However, in tasks modeled into parsing, like structured sentiment analysis, "dependency edges" are very sparse which hinders parser performance. Thus we propose a sparse and fuzzy attention scorer with pooling layers which improves parser performance and sets the new state-of-the-art on structured sentiment analysis. We further explore the parsing modeling on structured sentiment analysis with second-order parsing and introduce a novel sparse second-order edge building procedure that leads to significant improvement in parsing performance. | 翻訳日:2021-09-16 10:39:10 公開日:2021-09-15 |
# マルチレベルCNN機能の再定義によるFew-shotセグメンテーションの改善 Improved Few-shot Segmentation by Redefinition of the Roles of Multi-level CNN Features ( http://arxiv.org/abs/2109.06432v2 ) ライセンス: Link先を確認 | Zhijie Wang, Masanori Suganuma, Takayuki Okatani | (参考訳) 本研究は,クエリ画像中の未認識オブジェクトクラスの領域を,そのインスタンスのサポートイメージ(s)によって分割する,少数ショットのセグメンテーションに関するものである。
現在の方法は、サポートとクエリイメージの事前訓練されたCNN機能に依存している。
優れたパフォーマンスの鍵は、中レベルの特徴と高レベルの特徴の適切な融合に依存し、前者は形状指向情報、後者はクラス指向情報である。
現在の最先端の手法はTianらのアプローチに従っており、これは中級の特徴を主役とし、上位の特徴を二次役にする。
本稿では,マルチレベル機能の役割を再定義することで,この広く採用されているアプローチを再解釈し,プライマリとセカンダリの役割を交換する。
特に,本手法は,中間特徴量を用いた高次特徴量から生成された初期推定値を改善する。
この再解釈は、現在の方法の新しい応用を示唆している: 同じネットワークを複数回適用して、最初の見積もりから、オブジェクトの領域の推定を反復的に更新する。
実験の結果,COCO-20$^i$,PASCAL-5$^i$の1ショット設定,PASCAL-5$^i$設定において,従来のCOCO-20$^i$を更新した。 This study is concerned with few-shot segmentation, i.e., segmenting the region of an unseen object class in a query image, given support image(s) of its instances. The current methods rely on the pretrained CNN features of the support and query images. The key to good performance depends on the proper fusion of their mid-level and high-level features; the former contains shape-oriented information, while the latter has class-oriented information. Current state-of-the-art methods follow the approach of Tian et al., which gives the mid-level features the primary role and the high-level features the secondary role. In this paper, we reinterpret this widely employed approach by redifining the roles of the multi-level features; we swap the primary and secondary roles. Specifically, we regard that the current methods improve the initial estimate generated from the high-level features using the mid-level features. This reinterpretation suggests a new application of the current methods: to apply the same network multiple times to iteratively update the estimate of the object's region, starting from its initial estimate. Our experiments show that this method is effective and has updated the previous state-of-the-art on COCO-20$^i$ in the 1-shot and 5-shot settings and on PASCAL-5$^i$ in the 1-shot setting. | 翻訳日:2021-09-16 10:38:58 公開日:2021-09-15 |
# 提案分類のための知識誘導長可変階層ラベル生成 Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification ( http://arxiv.org/abs/2109.06661v2 ) ライセンス: Link先を確認 | Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du, Pengyang Wang | (参考訳) 科学技術の発展を促進するため、研究提案は政府機関(例えばNSF)によって開発されたオープンコート競争プログラムに提出される。
提案分類は、効果的かつ公正なレビュー課題を達成する上で最も重要な課題の1つである。
提案分類は、提案をラベルの長さ可変シーケンスに分類することを目的としている。
本稿では,提案分類問題を階層型マルチラベル分類タスクに定式化する。
先行研究もあるが、提案分類には独特の特徴がある。
1) 提案の分類結果は,粒度の異なる階層的な規律構造にある。
2) 複数の種類の書類を含む提案
3) ドメインの専門家は、タスクパフォーマンスを改善するために活用できる部分的なラベルを経験的に提供できます。
本稿では,これら3つの特徴を共同でモデル化する新しい深層提案分類フレームワークの開発に着目する。
特に,ラベルを逐次生成するために,事前に生成したラベルを活用して次のレベルのラベルを予測する。専門家による部分ラベルを統合するには,これらの経験的部分ラベルを埋め込んでニューラルネットワークの状態を初期化する。
我々のモデルは,次のラベル予測を止めるために,ラベルシーケンスの最適な長さを自動的に識別することができる。
最後に,本手法がラベル配列における部分的ラベル,テキスト情報,意味的依存関係を共同でモデル化できることを実証するために,広範な結果を提示する。 To advance the development of science and technology, research proposals are submitted to open-court competitive programs developed by government agencies (e.g., NSF). Proposal classification is one of the most important tasks to achieve effective and fair review assignments. Proposal classification aims to classify a proposal into a length-variant sequence of labels. In this paper, we formulate the proposal classification problem into a hierarchical multi-label classification task. Although there are certain prior studies, proposal classification exhibit unique features: 1) the classification result of a proposal is in a hierarchical discipline structure with different levels of granularity; 2) proposals contain multiple types of documents; 3) domain experts can empirically provide partial labels that can be leveraged to improve task performances. In this paper, we focus on developing a new deep proposal classification framework to jointly model the three features. In particular, to sequentially generate labels, we leverage previously-generated labels to predict the label of next level; to integrate partial labels from experts, we use the embedding of these empirical partial labels to initialize the state of neural networks. Our model can automatically identify the best length of label sequence to stop next label prediction. Finally, we present extensive results to demonstrate that our method can jointly model partial labels, textual information, and semantic dependencies in label sequences, and, thus, achieve advanced performances. | 翻訳日:2021-09-16 10:38:34 公開日:2021-09-15 |
# Tuna-AI:海洋学と超音波FADデータに基づく機械学習モデルによるマグロバイオマス推定 Tuna-AI: tuna biomass estimation with Machine Learning models trained on oceanography and echosounder FAD data ( http://arxiv.org/abs/2109.06732v2 ) ライセンス: Link先を確認 | Daniel Precioso, Manuel Navarro-Garc\'ia, Kathryn Gavira-O'Neill, Alberto Torres-Barr\'an, David Gordo, Victor Gallego-Alcal\'a, David G\'omez-Ullate | (参考訳) 漂流FADに付加されたブイによって登録されたエコーソーダデータはマグロの個体群とその行動に関する非常に貴重な情報源となる。
これらのデータをCMEMSから得られた海洋データで補うと、この値が増加する。
本研究では,マグロ群集の特徴である日時パターンを3日間のエコーソーダデータを用いて把握し,マグロのバイオマスの予測を目的とした機械学習モデルであるマグロAIを開発した。
訓練用監視信号として,AGACマグロシーヌ艦隊が報告したマグロ漁獲量の5000種以上のイベントを運用している。 Echo-sounder data registered by buoys attached to drifting FADs provide a very valuable source of information on populations of tuna and their behaviour. This value increases whenthese data are supplemented with oceanographic data coming from CMEMS. We use these sources to develop Tuna-AI, a Machine Learning model aimed at predicting tuna biomass under a given buoy, which uses a 3-day window of echo-sounder data to capture the daily spatio-temporal patterns characteristic of tuna schools. As the supervised signal for training, we employ more than 5000 set events with their corresponding tuna catch reported by the AGAC tuna purse seine fleet. | 翻訳日:2021-09-16 10:38:15 公開日:2021-09-15 |
# 深層強化学習における探索:包括的調査 Exploration in Deep Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2109.06668v2 ) ライセンス: Link先を確認 | Tianpei Yang, Hongyao Tang, Chenjia Bai, Jinyi Liu, Jianye Hao, Zhaopeng Meng and Peng Liu | (参考訳) Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
しかし、DRLと深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要であるため、実際の産業シナリオにおける広範な適用を妨げている。
背景にあるボトルネックの1つは、よく知られた探索問題、すなわち、未知の環境を効率的に探索し、政策学習に最も役立つ情報的経験を集める方法である。
本稿では,drl と deep marl における既存の探索手法に関する総合的な調査を行い,重要な問題と解決策に関する理解と洞察を提供する。
まず、効率的な探査を実現するためのいくつかの重要な課題を特定します。
次に,既存のアプローチを不確実性指向探索と本質的モチベーション指向探索の2つのカテゴリに分類し,体系的な調査を行う。
不確実性指向探索の本質は、認識論的不確実性の定量化を利用して効率的な探索を導出することである。
対照的に、本質的な動機づけ指向の探索方法は、通常、内在的な探索指導に異なる報酬非依存の情報を取り入れている。
以上の2つの主な分野の他,高度な技術を採用するが,これら2つのカテゴリに分類することは困難である他の探索手法も結論づける。
さらに、よく使われるベンチマークのセット上でDRLの探索手法を総合的に比較する。
最後に,DRLと深部MARLにおける探索のオープンな問題を要約し,今後の方向性を指摘する。 Deep Reinforcement Learning (DRL) and Deep Multi-agent Reinforcement Learning (MARL) have achieved significant success across a wide range of domains, such as game AI, autonomous vehicles, robotics and finance. However, DRL and deep MARL agents are widely known to be sample-inefficient and millions of interactions are usually needed even for relatively simple game settings, thus preventing the wide application in real-industry scenarios. One bottleneck challenge behind is the well-known exploration problem, i.e., how to efficiently explore the unknown environments and collect informative experiences that could benefit the policy learning most. In this paper, we conduct a comprehensive survey on existing exploration methods in DRL and deep MARL for the purpose of providing understandings and insights on the critical problems and solutions. We first identify several key challenges to achieve efficient exploration, which most of the exploration methods aim at addressing. Then we provide a systematic survey of existing approaches by classifying them into two major categories: uncertainty-oriented exploration and intrinsic motivation-oriented exploration. The essence of uncertainty-oriented exploration is to leverage the quantification of the epistemic and aleatoric uncertainty to derive efficient exploration. By contrast, intrinsic motivation-oriented exploration methods usually incorporate different reward agnostic information for intrinsic exploration guidance. Beyond the above two main branches, we also conclude other exploration methods which adopt sophisticated techniques but are difficult to be classified into the above two categories. In addition, we provide a comprehensive empirical comparison of exploration methods for DRL on a set of commonly used benchmarks. Finally, we summarize the open problems of exploration in DRL and deep MARL and point out a few future directions. | 翻訳日:2021-09-16 10:38:05 公開日:2021-09-15 |
# 畳み込みネットワークのための学習可能な離散ウェーブレットプール(LDW-Pooling) Learnable Discrete Wavelet Pooling (LDW-Pooling) For Convolutional Networks ( http://arxiv.org/abs/2109.06638v2 ) ライセンス: Link先を確認 | Jun-Wei Hsieh, Ming-Ching Chang, Bor-Shiun Wang, Ping-Yang Chen, Lipeng Ke, Siwei Lyu | (参考訳) ポーリングは、機能集約と抽出のためのモダンなディープCNNアーキテクチャにおいて、単純だが必須のレイヤーである。
典型的なcnn設計はconv層とアクティベーション関数に焦点を当て、プール層を少ない選択肢で残している。
学習離散ウェーブレットプーリング(LDW-Pooling)を導入し、標準的なプール操作を置き換え、精度と効率を向上した特徴抽出を行う。
ウェーブレット理論に動機づけられ, 2次元特徴マップ上でのプーリングに, ローパス (l) とハイパス (h) フィルタを水平および垂直に採用した。
特徴信号は4つのサブバンド(ll, lh, hl, hh)に分解され、機能を維持し、情報の落下を避ける。
ウェーブレット変換は、プール後の特徴を完全に保存し、回収することができる。
次に,重要な特徴と代表的特徴を細かく選択するために,エネルギーに基づく注意学習を採用する。
LDW-PoolingはWaveletPoolingやLiftPoolingといった他の最先端のプール技術と比較して効率的かつ効率的である。
広範囲な実験的検証により、ldwプールは幅広い標準cnnアーキテクチャに適用でき、一貫して標準(max、平均、混合、確率的)プール操作を上回ることが示されている。 Pooling is a simple but essential layer in modern deep CNN architectures for feature aggregation and extraction. Typical CNN design focuses on the conv layers and activation functions, while leaving the pooling layers with fewer options. We introduce the Learning Discrete Wavelet Pooling (LDW-Pooling) that can be applied universally to replace standard pooling operations to better extract features with improved accuracy and efficiency. Motivated from the wavelet theory, we adopt the low-pass (L) and high-pass (H) filters horizontally and vertically for pooling on a 2D feature map. Feature signals are decomposed into four (LL, LH, HL, HH) subbands to retain features better and avoid information dropping. The wavelet transform ensures features after pooling can be fully preserved and recovered. We next adopt an energy-based attention learning to fine-select crucial and representative features. LDW-Pooling is effective and efficient when compared with other state-of-the-art pooling techniques such as WaveletPooling and LiftPooling. Extensive experimental validation shows that LDW-Pooling can be applied to a wide range of standard CNN architectures and consistently outperform standard (max, mean, mixed, and stochastic) pooling operations. | 翻訳日:2021-09-16 10:37:35 公開日:2021-09-15 |
# 良質な例外挿 Good-Enough Example Extrapolation ( http://arxiv.org/abs/2109.05602v2 ) ライセンス: Link先を確認 | Jason Wei | (参考訳) 本稿では、あるクラスから別のクラスへのテキスト例の隠れ空間分布の補間が、データ拡張の有効な帰納バイアスであるかどうかを問う。
本稿では,この問題を運用するために,GE3(Good-enough example extrapolation)と呼ばれる単純なデータ拡張プロトコルを提案する。
GE3は軽量でハイパーパラメータを持たない。
さまざまなデータ不均衡シナリオのための3つのテキスト分類データセットに適用されるGE3は、アップサンプリングやその他の隠れスペースデータ拡張メソッドよりもパフォーマンスが向上する。 This paper asks whether extrapolating the hidden space distribution of text examples from one class onto another is a valid inductive bias for data augmentation. To operationalize this question, I propose a simple data augmentation protocol called "good-enough example extrapolation" (GE3). GE3 is lightweight and has no hyperparameters. Applied to three text classification datasets for various data imbalance scenarios, GE3 improves performance more than upsampling and other hidden-space data augmentation methods. | 翻訳日:2021-09-16 10:37:12 公開日:2021-09-15 |
# ePiC: 抽象言語理解のためのベンチマークとしてコンテキストにProverbsを採用する ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding ( http://arxiv.org/abs/2109.06838v2 ) ライセンス: Link先を確認 | Sayan Ghosh and Shashank Srivastava | (参考訳) 大規模言語モデルはいくつかのnlpベンチマークでエキサイティングな進歩を見せているが、複雑な類似推論の能力の評価は未検討のままである。
本稿では,抽象言語理解のベンチマークとして,文脈の証明を取り入れた高品質なクラウドソース型物語データセットを提案する。
データセットは、段落と物語の間の配列の微妙な注釈を提供し、物語と段落の間に最小限の語彙的重複を含むため、モデルが成功するためには表面レベルの推論を超える必要がある。
提案課題は,(1)推理とアライメント予測,(2)与えられた推理と話題の物語生成,(3)類似したモチーフを持つ物語の同定の3つである。
我々の実験では、ニューラルネットワークモデルは人間に比べてタスクに苦労しており、タスクは複数の学習課題を引き起こす。 While large language models have shown exciting progress on several NLP benchmarks, evaluating their ability for complex analogical reasoning remains under-explored. Here, we introduce a high-quality crowdsourced dataset of narratives for employing proverbs in context as a benchmark for abstract language understanding. The dataset provides fine-grained annotation of aligned spans between proverbs and narratives, and contains minimal lexical overlaps between narratives and proverbs, ensuring that models need to go beyond surface-level reasoning to succeed. We explore three tasks: (1) proverb recommendation and alignment prediction, (2) narrative generation for a given proverb and topic, and (3) identifying narratives with similar motifs. Our experiments show that neural language models struggle in our tasks compared to humans, and the tasks pose multiple learning challenges. | 翻訳日:2021-09-16 10:37:02 公開日:2021-09-15 |
# 長期計画のための最適To-Doリストゲーミフィケーション Optimal To-Do List Gamification for Long Term Planning ( http://arxiv.org/abs/2109.06505v2 ) ライセンス: Link先を確認 | Saksham Consul, Jugoslav Stojcheski, Valkyrie Felso, Falk Lieder | (参考訳) ほとんどの人は仕事の優先順位付けに苦労している。
不正確なヒューリスティックは時間が経つにつれて開発されてきたが、どの日、月、週、年で取り組むべき多くのタスクのうちどれに取り組むべきかを決定する、扱いやすい原則付きアルゴリズムはいまだに存在しない。
さらに、現在のバイアスのような認知バイアスに悩まされ、長期的な結果よりもすぐれた経験を優先し、自らを先延ばしと非効率なタスク優先として表す人もいる。
本手法は最適ゲーミフィケーションを用いて,各タスクの長期的価値を伝達する複数のポイントのインセンティブを与えることにより,これらの課題を克服する。
我々は、最適なゲーミフィケーション手法の以前のバージョンを拡張し、すべての処理に十分な時間がなければ、どのタスクをすべきで、実行すべきでないかを判断するためのサービスを追加します。
to-doリストソルバの効率とスケーラビリティを改善するため,我々は,トップレベル目標からきめ細かなタスクに至るまでの問題に取り組む階層的な手順を設計した。
様々なケーススタディにおいて,価値反復を用いて正確に計算したポイントと戦略の性能を比較することにより,インセンティブ付きto-doリストの精度を検証した。
これらのケーススタディは、パフォーマンスを正確に判断するために、コーナーケースをカバーするように特別に設計された。
本手法はすべてのケーススタディの正確な方法と同じ性能を示した。
その機能を実証するため、私たちはWebやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしました。
我々は,To-Doリストに適用することで,メソッドのスケーラビリティを評価し,目標数の増加,目標ごとのサブゴール,階層的にネストしたサブゴールレベルについて検討した。
私たちのAPIを通じて提供されるメソッドは、576のタスクを持つかなり大きなto-doリストに対処できることがわかった。
これは,本手法が実世界のアプリケーションに適していることを示す。 Most people struggle with prioritizing work. While inexact heuristics have been developed over time, there is still no tractable principled algorithm for deciding which of the many possible tasks one should tackle in any given day, month, week, or year. Additionally, some people suffer from cognitive biases such as the present bias, leading to prioritization of their immediate experience over long-term consequences which manifests itself as procrastination and inefficient task prioritization. Our method utilizes optimal gamification to help people overcome these problems by incentivizing each task by a number of points that convey how valuable it is in the long-run. We extend the previous version of our optimal gamification method with added services for helping people decide which tasks should and should not be done when there is not enough time to do everything. To improve the efficiency and scalability of the to-do list solver, we designed a hierarchical procedure that tackles the problem from the top-level goals to fine-grained tasks. We test the accuracy of the incentivised to-do list by comparing the performance of the strategy with the points computed exactly using Value Iteration for a variety of case studies. These case studies were specifically designed to cover the corner cases to get an accurate judge of performance. Our method yielded the same performance as the exact method for all case studies. To demonstrate its functionality, we released an API that makes it easy to deploy our method in Web and app services. We assessed the scalability of our method by applying it to to-do lists with increasingly larger numbers of goals, sub-goals per goal, hierarchically nested levels of subgoals. We found that the method provided through our API is able to tackle fairly large to-do lists having a 576 tasks. This indicates that our method is suitable for real-world applications. | 翻訳日:2021-09-16 10:36:46 公開日:2021-09-15 |
# robustart: アーキテクチャ設計とトレーニングテクニックに関するベンチマークロバスト性 RobustART: Benchmarking Robustness on Architecture Design and Training Techniques ( http://arxiv.org/abs/2109.05211v2 ) ライセンス: Link先を確認 | Shiyu Tang and Ruihao Gong and Yan Wang and Aishan Liu and Jiakai Wang and Xinyun Chen and Fengwei Yu and Xianglong Liu and Dawn Song and Alan Yuille and Philip H.S. Torr and Dacheng Tao | (参考訳) ディープニューラルネットワーク(DNN)は、モデル堅牢性のベンチマークを動機付ける敵対的ノイズに対して脆弱である。
既存のベンチマークは主に防御の評価に焦点を当てているが、アーキテクチャ設計と一般的なトレーニング技術が堅牢性にどのように影響するかに関する包括的な研究はない。
彼らの関係を総合的にベンチマークすることは、より理解し、堅牢なDNNを開発する上で非常に有益である。
そこで我々は,ImageNet(オープンソースツールキット,事前学習されたモデル動物園,データセット,分析を含む)のArchitecture設計(44の人間設計のオフザシェルフアーキテクチャとニューラルアーキテクチャ検索からの1200以上のネットワーク)とトレーニング技術(データ拡張など10以上の一般的なテクニック)に関する,最初の総合的なロバストネス調査ベンチマークであるRobustARTを提案する。
Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness.
筆者らのベンチマーク http://robust.art/ : (1) は,多種多様なロバスト性評価を行うためのオープンソースプラットフォームを提示する; (2) 頑健性評価を容易にするために,さまざまなトレーニング技術を備えた事前学習モデルを提供し,(3) 解析によって裏付けられた堅牢性DNNアーキテクチャ設計のメカニズムをより深く理解するための,新たな視点を提案する。
私たちはコミュニティのためにこのエコシステムの構築に継続的に貢献します。 Deep neural networks (DNNs) are vulnerable to adversarial noises, which motivates the benchmark of model robustness. Existing benchmarks mainly focus on evaluating the defenses, but there are no comprehensive studies of how architecture design and general training techniques affect robustness. Comprehensively benchmarking their relationships will be highly beneficial for better understanding and developing robust DNNs. Thus, we propose RobustART, the first comprehensive Robustness investigation benchmark on ImageNet (including open-source toolkit, pre-trained model zoo, datasets, and analyses) regarding ARchitecture design (44 human-designed off-the-shelf architectures and 1200+ networks from neural architecture search) and Training techniques (10+ general techniques, e.g., data augmentation) towards diverse noises (adversarial, natural, and system noises). Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness. Our benchmark http://robust.art/ : (1) presents an open-source platform for conducting comprehensive evaluation on diverse robustness types; (2) provides a variety of pre-trained models with different training techniques to facilitate robustness evaluation; (3) proposes a new view to better understand the mechanism towards designing robust DNN architectures, backed up by the analysis. We will continuously contribute to building this ecosystem for the community. | 翻訳日:2021-09-16 10:36:16 公開日:2021-09-15 |
# MLFW: マスケ顔の顔認識のためのデータベース MLFW: A Database for Face Recognition on Masked Faces ( http://arxiv.org/abs/2109.05804v2 ) ライセンス: Link先を確認 | Chengrui Wang, Han Fang, Yaoyao Zhong, Weihong Deng | (参考訳) 新型コロナウイルス(covid-19)のパンデミックでマスクを着用する人が増えているため、既存の顔認識システムはマスクを認識した場合、パフォーマンスが著しく低下する可能性がある。
マスクが顔認識モデルに与える影響を明らかにするため,マスク付き顔からマスク付き顔を自動的に生成するシンプルなツールを構築し,Cross-Age LFW(CALFW)データベースに基づくMasked LFW(MLFW)と呼ばれる新しいデータベースを構築した。
本手法により生成したマスク面は,元の顔と良好な視認性を有する。
さらに,様々なマスクテンプレートを収集し,日常生活に現れる一般的なスタイルのほとんどをカバーし,多様な世代効果を実現する。
現実的なシナリオを考えると、3種類の顔の組み合わせを設計します。
SOTAモデルの認識精度は、元の画像の精度と比較して、MLFWデータベース上で5%-16%低下する。
MLFWデータベースは \url{http://whdeng.cn/mlfw} で閲覧およびダウンロードできる。 As more and more people begin to wear masks due to current COVID-19 pandemic, existing face recognition systems may encounter severe performance degradation when recognizing masked faces. To figure out the impact of masks on face recognition model, we build a simple but effective tool to generate masked faces from unmasked faces automatically, and construct a new database called Masked LFW (MLFW) based on Cross-Age LFW (CALFW) database. The mask on the masked face generated by our method has good visual consistency with the original face. Moreover, we collect various mask templates, covering most of the common styles appeared in the daily life, to achieve diverse generation effects. Considering realistic scenarios, we design three kinds of combinations of face pairs. The recognition accuracy of SOTA models declines 5%-16% on MLFW database compared with the accuracy on the original images. MLFW database can be viewed and downloaded at \url{http://whdeng.cn/mlfw}. | 翻訳日:2021-09-16 10:35:41 公開日:2021-09-15 |
# 画像属性編集のための高忠実GANインバージョン High-Fidelity GAN Inversion for Image Attribute Editing ( http://arxiv.org/abs/2109.06590v2 ) ライセンス: Link先を確認 | Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, Qifeng Chen | (参考訳) 本稿では, 画像固有の細部(背景, 外観, 照明など)をよく保存した属性編集を可能にする, GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
まず,ganインバージョンを損失データ圧縮問題として定式化し,レート・ディストリクト・editトレードオフを慎重に議論する。
このトレードオフのため、以前の作業は、低ビットレートの遅延コードでのみ魅力的な編集能力を保ちながら、高忠実な再構築を達成できなかった。
そこで本研究では,再構成基準として歪みマップを用いた歪みコンサルテーション手法を提案する。
歪みコンサルテーションインバージョン (DCI) において、歪みマップは最初、高いレートの潜時写像に投影され、その後、基本的な低レート潜時符号と(ロスト)詳細をコンサルテーション融合により補完する。
高忠実度編集を実現するために,自己教師付きトレーニングスキームを用いた適応歪みアライメント(ADA)モジュールを提案する。
顔と車領域での広範囲な実験は、反転と編集品質の両方において明らかに改善されている。 We present a novel high-fidelity generative adversarial network (GAN) inversion framework that enables attribute editing with image-specific details well-preserved (e.g., background, appearance and illumination). We first formulate GAN inversion as a lossy data compression problem and carefully discuss the Rate-Distortion-Edit trade-off. Due to this trade-off, previous works fail to achieve high-fidelity reconstruction while keeping compelling editing ability with a low bit-rate latent code only. In this work, we propose a distortion consultation approach that employs the distortion map as a reference for reconstruction. In the distortion consultation inversion (DCI), the distortion map is first projected to a high-rate latent map, which then complements the basic low-rate latent code with (lost) details via consultation fusion. To achieve high-fidelity editing, we propose an adaptive distortion alignment (ADA) module with a self-supervised training scheme. Extensive experiments in the face and car domains show a clear improvement in terms of both inversion and editing quality. | 翻訳日:2021-09-16 10:35:25 公開日:2021-09-15 |
# 無監督点雲登録のためのサンプリングネットワーク誘導クロスエントロピー法 Sampling Network Guided Cross-Entropy Method for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2109.06619v2 ) ライセンス: Link先を確認 | Haobo Jiang, Yaqi Shen, Jin Xie, Jun Li, Jianjun Qian, Jian Yang | (参考訳) 本稿では,ポイントクラウド登録タスクをマルコフ決定プロセスとしてモデル化することにより,教師なし3次元登録のためのクロスエントロピー法(CEM)を組み込んだエンドツーエンドのディープモデルを提案する。
我々のモデルはサンプリングネットワークモジュールと微分可能なCEMモジュールで構成される。
サンプリングネットワークモジュールでは、一対の点雲が与えられた場合、サンプリングネットワークは変換空間上の事前サンプリング分布を学習する。
学習したサンプリング分布は、微分可能なCEMモジュールの「良い」初期化として使うことができる。
微分可能なcemモジュールでは,まず,ポイントクラウド登録タスクの報奨関数として,最大コンセンサス基準に基づくアライメントメトリックを提案する。
報酬関数に基づいて、各状態に対して融合スコア関数を構築し、サンプル変換を評価し、変換の現在および将来の報酬を重み付けます。
特に、この変換状態において反復的最接近点(icp)アルゴリズムを実行し、サンプル変換の将来的な報酬を得る。
最高スコアのtop-k変換を選択することで,サンプリング分布を反復的に更新する。
さらに、CEMを微分可能にするために、sparsemax関数を使用して、ハードトップ$k$選択を置き換える。
最後に、geman-mcclure estimatorベースの損失を定式化し、エンドツーエンドの登録モデルをトレーニングします。
大規模な実験結果から,ベンチマークデータセット上での本手法の良好な登録性能が示された。 In this paper, by modeling the point cloud registration task as a Markov decision process, we propose an end-to-end deep model embedded with the cross-entropy method (CEM) for unsupervised 3D registration. Our model consists of a sampling network module and a differentiable CEM module. In our sampling network module, given a pair of point clouds, the sampling network learns a prior sampling distribution over the transformation space. The learned sampling distribution can be used as a "good" initialization of the differentiable CEM module. In our differentiable CEM module, we first propose a maximum consensus criterion based alignment metric as the reward function for the point cloud registration task. Based on the reward function, for each state, we then construct a fused score function to evaluate the sampled transformations, where we weight the current and future rewards of the transformations. Particularly, the future rewards of the sampled transforms are obtained by performing the iterative closest point (ICP) algorithm on the transformed state. By selecting the top-k transformations with the highest scores, we iteratively update the sampling distribution. Furthermore, in order to make the CEM differentiable, we use the sparsemax function to replace the hard top-$k$ selection. Finally, we formulate a Geman-McClure estimator based loss to train our end-to-end registration model. Extensive experimental results demonstrate the good registration performance of our method on benchmark datasets. | 翻訳日:2021-09-16 10:35:06 公開日:2021-09-15 |
# 通信効率からみた形状バイアスの出現 The Emergence of the Shape Bias Results from Communicative Efficiency ( http://arxiv.org/abs/2109.06232v2 ) ライセンス: Link先を確認 | Eva Portelance, Michael C. Frank, Dan Jurafsky, Alessandro Sordoni, Romain Laroche | (参考訳) 2歳までに、子供は新しい単語のカテゴリーが色やテクスチャではなく物体の形状に基づいていると仮定する傾向があり、この仮定を形バイアス(shape bias)と呼ぶ。
彼らは、介護者の言語が形状に基づくカテゴリーに偏っていることを観察することによって、このバイアスを学ぶと考えられている。
これはニワトリと卵の問題を示しており、子供がそれを学ぶために形バイアスが言語に存在しなければならない場合、そもそもどのようにしてそれが言語で発生したのか?
本稿では, コミュニケーション効率が, 形状バイアスの発生方法と世代間で持続する理由の両方を説明することを提案する。
我々はこの過程を、生のピクセル画像についてコミュニケーションを学ぶ神経新生言語エージェントでモデル化する。
まず,エージェントによる効果的なコミュニケーション戦略の結果として,形状バイアスが出現することを示す。
第二に、コミュニケーションの必要性によってもたらされる圧力は世代にわたって持続する必要があり、エージェントの入力言語における形状バイアスが不十分であることを示す。
これらの結果は、他の学習戦略の操作の前後で、人間の学習者の形状バイアスが出現し、コミュニケーションの圧力によって持続されることを示唆している。 By the age of two, children tend to assume that new word categories are based on objects' shape, rather than their color or texture; this assumption is called the shape bias. They are thought to learn this bias by observing that their caregiver's language is biased towards shape based categories. This presents a chicken and egg problem: if the shape bias must be present in the language in order for children to learn it, how did it arise in language in the first place? In this paper, we propose that communicative efficiency explains both how the shape bias emerged and why it persists across generations. We model this process with neural emergent language agents that learn to communicate about raw pixelated images. First, we show that the shape bias emerges as a result of efficient communication strategies employed by agents. Second, we show that pressure brought on by communicative need is also necessary for it to persist across generations; simply having a shape bias in an agent's input language is insufficient. These results suggest that, over and above the operation of other learning strategies, the shape bias in human learners may emerge and be sustained by communicative pressures. | 翻訳日:2021-09-16 10:34:45 公開日:2021-09-15 |
# MotionHint: 運動制約のある自己監督型単眼視眼振 MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints ( http://arxiv.org/abs/2109.06768v2 ) ライセンス: Link先を確認 | Cong Wang, Yu-Ping Wang, Dinesh Manocha | (参考訳) 動作制約を考慮に入れたモノクローナル・ビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のアプローチの重要な側面は、既存の自己教師付き単分子VO(SSM-VO)アルゴリズムが自己教師付き損失関数内の局所最小値に関連する問題を克服するのに役立つ適切な動作モデルを使用することである。
動きモデルは、ppnetと呼ばれるニューラルネットワークで表現される。
カメラの次のポーズとこの予測の不確実性を粗く予測するように訓練される。
我々の自己監督的アプローチは、予測と生成された自我運動の重み付けされた差である、元の損失と運動損失を組み合わせたものである。
2つの既存のssm-voシステムをベースラインとして,標準kittiベンチマークでmotionhintアルゴリズムを評価した。
実験結果から,MotionHintアルゴリズムは既存のオープンソースSSM-VOシステムに容易に適用でき,その結果のATEを最大28.73%削減できることがわかった。 We present a novel self-supervised algorithm named MotionHint for monocular visual odometry (VO) that takes motion constraints into account. A key aspect of our approach is to use an appropriate motion model that can help existing self-supervised monocular VO (SSM-VO) algorithms to overcome issues related to the local minima within their self-supervised loss functions. The motion model is expressed with a neural network named PPnet. It is trained to coarsely predict the next pose of the camera and the uncertainty of this prediction. Our self-supervised approach combines the original loss and the motion loss, which is the weighted difference between the prediction and the generated ego-motion. Taking two existing SSM-VO systems as our baseline, we evaluate our MotionHint algorithm on the standard KITTI benchmark. Experimental results show that our MotionHint algorithm can be easily applied to existing open-sourced state-of-the-art SSM-VO systems to greatly improve the performance by reducing the resulting ATE by up to 28.73%. | 翻訳日:2021-09-16 10:34:27 公開日:2021-09-15 |
# 対話型What-If分析による意思決定の強化 Augmenting Decision Making via Interactive What-If Analysis ( http://arxiv.org/abs/2109.06160v2 ) ライセンス: Link先を確認 | Sneha Gathani and Madelon Hulsebos and James Gale and Peter J. Haas and \c{C}a\u{g}atay Demiralp | (参考訳) ビジネスデータ分析の基本的な目標は、データを使用してビジネス決定を改善することである。
営業、マーケティング、製品、運用マネージャといったビジネスユーザは、顧客の維持、コストの削減、販売の増加といった重要なパフォーマンス指標(KPI)の目標を達成するために意思決定をすることが多い。
ドライバーとして想定されるデータ属性とKPIに対応するデータの関係を発見するには、現在、ビジネスユーザーは、複数の組み合わせとシナリオを考慮し、スライシング、ディクシング、そしてデータ変換を行いながら、長い探索的な分析を行う必要がある。
例えば、年四半期にわたる顧客保持の分析や、顧客層を越えた最適なメディアチャネルの提案などです。
しかし、データセットの複雑さの増加と人間の認知的限界が組み合わさって、単純なデータセットであっても、複数の仮説を乗り越えることは困難である。
そのため、そのような分析を精神的に行うのは難しい。
既存の商用ツールは、まだ有効性が不明な部分的なソリューションを提供するか、ビジネスユーザを満足させることができない。
ここでは、ビジネスユーザがデータ属性のセット間の関係(機能)を対話的に学び、推論できるようにする必要があると考える4つの機能について論じる。
対話型ビジュアル分析システムであるsystemdでは,これらの機能を実装して,ビジネスユーザがどのような質問をすれば,そのデータを試すことができる。
マーケティングミックスモデリング分析,顧客保持分析,取引クローズ分析という3つのビジネスユースケースを通じてシステムを評価し,複数のビジネスユーザからのフィードバックを報告する。
全体として、ビジネスユーザは直感的で、興味のあるkpiに関する仮説の素早いテストと検証、効果的で迅速なデータ駆動決定に役立ちます。 The fundamental goal of business data analysis is to improve business decisions using data. Business users such as sales, marketing, product, or operations managers often make decisions to achieve key performance indicator (KPI) goals such as increasing customer retention, decreasing cost, and increasing sales. To discover the relationship between data attributes hypothesized to be drivers and those corresponding to KPIs of interest, business users currently need to perform lengthy exploratory analyses, considering multitudes of combinations and scenarios, slicing, dicing, and transforming the data accordingly. For example, analyzing customer retention across quarters of the year or suggesting optimal media channels across strata of customers. However, the increasing complexity of datasets combined with the cognitive limitations of humans makes it challenging to carry over multiple hypotheses, even for simple datasets. Therefore mentally performing such analyses is hard. Existing commercial tools either provide partial solutions whose effectiveness remains unclear or fail to cater to business users. Here we argue for four functionalities that we believe are necessary to enable business users to interactively learn and reason about the relationships (functions) between sets of data attributes, facilitating data-driven decision making. We implement these functionalities in SystemD, an interactive visual analysis system enabling business users to experiment with the data by asking what-if questions. We evaluate the system through three business use cases: marketing mix modeling analysis, customer retention analysis, and deal closing analysis, and report on feedback from multiple business users. Overall, business users find SystemD intuitive and useful for quick testing and validation of their hypotheses around interested KPI as well as in making effective and fast data-driven decisions. | 翻訳日:2021-09-16 10:34:09 公開日:2021-09-15 |