このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210902となっている論文です。

PDF登録状況(公開日: 20210902)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子多体系における非ガウス相関の崩壊と再帰

Decay and recurrence of non-Gaussian correlations in a quantum many-body system ( http://arxiv.org/abs/2003.01808v2 )

ライセンス: Link先を確認
Thomas Schweigler, Marek Gluza, Mohammadamin Tajik, Spyros Sotiriadis, Federica Cataldini, Si-Cong Ji, Frederik S. M{\o}ller, Jo\~ao Sabino, Bernhard Rauer, Jens Eisert, and J\"org Schmiedmayer(参考訳) ガウスモデルは、凝縮物質系から中性子星に至るまで、多くの量子多体系の優れた効率的な記述を提供する。 ガウス状態は相互作用が弱いときに平衡で普通である。 近年,非相互作用ダイナミクス下で進化する非ガウス初期状態から動的に現れることが提案されている。 本研究では,量子多体系におけるガウス相関の動的出現を実験的に観察する。 この非平衡進化は、観察された集合的自由度の間の効果的な相互作用を突然オフにし、顕微鏡成分間の相互作用をそのまま残すことによって引き起こされる。 sine-gordonモデルと一致する非常に非ガウス的相関から始まり、量子場の4次および6次連結相関の崩壊によって明らかにされるガウス状態が時間とともに現れるのを観測する。 この力学の記述には、幅広い量子多体系に関連するガウス相関の出現のための新しいメカニズムが必要である。 非相互作用の効果的な自由度を持つ閉じたシステムでは、完全な熱化は期待できない。 この初期状態の記憶は、非ガウス相関の繰り返しを観察することによって確認される。

Gaussian models provide an excellent effective description of many quantum many-body systems ranging from condensed matter systems all the way to neutron stars. Gaussian states are common at equilibrium when the interactions are weak. Recently it was proposed that they can also emerge dynamically from a non-Gaussian initial state evolving under non-interacting dynamics. In this work, we present the experimental observation of such a dynamical emergence of Gaussian correlations in a quantum many-body system. This non-equilibrium evolution is triggered by abruptly switching off the effective interaction between the observed collective degrees of freedom, while leaving the interactions between the microscopic constituents unchanged. Starting from highly non-Gaussian correlations, consistent with the sine-Gordon model, we observe a Gaussian state to emerge over time as revealed by the decay of the fourth and sixth order connected correlations in the quantum field. A description of this dynamics requires a novel mechanism for the emergence of Gaussian correlations, which is relevant for a wide class of quantum many-body systems. In our closed system with non-interacting effective degrees of freedom, we do not expect full thermalization. This memory of the initial state is confirmed by observing recurrences of non-Gaussian correlations.
翻訳日:2023-05-31 07:19:50 公開日:2021-09-02
# facebookの政治広告と説明責任:外部のグループは、特にドナーを消したり隠したりする際に、最も否定的である

Facebook Political Ads And Accountability: Outside Groups Are Most Negative, Especially When Disappearing Or Hiding Donors ( http://arxiv.org/abs/2010.01730v3 )

ライセンス: Link先を確認
Shomik Jain, Abby K. Wood(参考訳) オンライン政治広告の出現は、ほとんど規制がなく、ソーシャルメディア上の政治広告主は説明責任を避けることができる。 我々は、ダークマネーとグループ不永続性による透明性の欠陥が、Facebook上の政治広告の感情にどのように関係しているかを分析する。 2018年8月から11月にかけてfacebookの広告ライブラリから、fec登録広告主による525,796件の広告を得た。 候補者、当事者、外部グループによる広告を比較して、分類する。 一 寄付者の透明性(暗黒金又は開示)及び (ii)グループの永続性(2018年以降、または再登録) ダークマネーによる広告と外部グループの消滅は、それぞれ透明で再登録されたグループよりもネガティブだった。 外部のグループは、候補者や政党よりもネガティブな広告を流した。 これらの結果は、政治的発言の透明性が広告のトーンと関連していることを示唆している:最もネガティブな広告は、ドナーの開示と永続性が低い組織から来ている。

The emergence of online political advertising has come with little regulation, allowing political advertisers on social media to avoid accountability. We analyze how transparency deficits caused by dark money and group impermanence relate to the sentiment of political ads on Facebook. We obtained 525,796 ads with FEC-registered advertisers from Facebook's ad library that ran between August-November 2018. We compare ads run by candidates, parties, and outside groups, which we classify by (i) their donor transparency (dark money or disclosed) and (ii) the group's permanence (disappearing after 2018 or re-registering). Ads run by dark money and disappearing outside groups were more negative than transparent and re-registering groups, respectively. Outside groups as a whole also ran more negative ads than candidates and parties. These results suggest that transparency for political speech is associated with advertising tone: the most negative advertising comes from organizations with less donor disclosure and permanence.
翻訳日:2023-04-29 22:42:01 公開日:2021-09-02
# 入場資格の標準試験の廃止、情報とアクセスのトレードオフ

Dropping Standardized Testing for Admissions Trades Off Information and Access ( http://arxiv.org/abs/2010.04396v4 )

ライセンス: Link先を確認
Nikhil Garg, Hannah Li, Faidra Monachou(参考訳) フェアネスを考慮した容量制約選択問題における情報とアクセスの役割について検討する。 我々は,ある特徴の(潜在的に肯定的な)情報的役割と,その(否定的な)排他的性質との間のトレードオフを形式化する,検証可能な意味を持つ理論的枠組みを開発する。 この枠組みは、大学入学試験における標準化テストの廃止に関する最近の政策論争に自然に適用できる。 私たちのおもな結論は、機能(テストスコアなど)をドロップする決定は、他の機能が提供する情報と、その要求が応募者プールの構成にどのように影響するかの、共同コンテキストなしではできないということです。 特徴の削除は、各応募者、特に非伝統的背景からの情報量を減らすことで、格差を悪化させる可能性がある。 しかし,機能に対するアクセス障壁の存在下では,情報環境とアクセス障壁の相互作用がアプリケーションプールサイズに与える影響は非常に複雑になる。 この場合、特徴の除去が学術的メリットと多様性の両方を改善する際の閾値特性を提供する。 最後に、テキサス大学オースティン校のアプリケーションと書き起こしデータを使用して、標準化されたテストのドロップがすべてのメトリクスを改善し、悪化させる実践的な設定が存在することを示します。

We study the role of information and access in capacity-constrained selection problems with fairness concerns. We develop a theoretical framework with testable implications that formalizes the trade-off between the (potentially positive) informational role of a feature and its (negative) exclusionary nature when members of different social groups have unequal access to this feature. Our framework finds a natural application to recent policy debates on dropping standardized testing in college admissions. Our primary takeaway is that the decision to drop a feature (such as test scores) cannot be made without the joint context of the information provided by other features and how the requirement affects the applicant pool composition. Dropping a feature may exacerbate disparities by decreasing the amount of information available for each applicant, especially those from non-traditional backgrounds. However, in the presence of access barriers to a feature, the interaction between the informational environment and the effect of access barriers on the applicant pool size becomes highly complex. In this case, we provide a threshold characterization regarding when removing a feature improves both academic merit and diversity. Finally, using application and transcript data from the University of Texas at Austin, we illustrate that there exist practical settings where dropping standardized testing improves or worsens all metrics.
翻訳日:2023-04-29 13:39:16 公開日:2021-09-02
# シンプレクティック群のない安定化回路の低減

Reducing stabilizer circuits without the symplectic group ( http://arxiv.org/abs/2012.09224v5 )

ライセンス: Link先を確認
Marc Bataille(参考訳) まず、安定化回路を構成する部分群構造の研究から始める。 次に、安定化回路に2つの正規形式を提供する。 これらの形式はクリフォード群の単純な共役規則を用いて帰納法によって計算され、我々のアルゴリズムはシンプレクティック群の特別な分解に依存しない。 第1の正規形は、CX(resp.CZ)がCNOT(resp. Control-Z)ゲートの層、Pが位相ゲートの層、X(resp.Z)がパウリX(resp. Pauli-Z)ゲートの層を表す形状CX-CZ-P-Hを有する。 次に、制御されたZゲートの大半をCNOTゲートで置き換え、P-CX-CZ-CX-X-H-CZ-P-Hの2番目の正規形を得る。 この第2形態では、両制御Z層は深さ1であり、したがって少なくともn個の制御Zゲートを含む。 また、安定化状態やグラフ状態の正規形式も検討する。 最後に,これらの正規形の有効性を実験的に示し,安定化回路のゲート数を減少させるために,古典型および量子型コンピュータでいくつかのテストを行った。

We start by studying the subgroup structures underlying stabilizer circuits. Then we apply our results to provide two normal forms for stabilizer circuits. These forms are computed by induction using simple conjugation rules in the Clifford group and our algorithms do not rely on a special decomposition in the symplectic group. The first normal form has shape CX-CZ-P-Z-X-H-CZ-P-H, where CX (resp. CZ) denotes a layer of CNOT (resp. controlled-Z) gates, P a layer of phase gates, X (resp. Z) a layer of Pauli-X (resp. Pauli-Z) gates. Then we replace most of the controlled-Z gates by CNOT gates to obtain a second normal form of type P-CX-CZ-CX-Z-X-H-CZ-CX-P-H. In this second form, both controlled-Z layers have depth 1 and together contain therefore at most n controlled-Z gates. We also consider normal forms for stabilizer states and graph states. Finally we carry out a few tests on classical and quantum computers in order to show experimentally the utility of these normal forms to reduce the gate count of a stabilizer circuit.
翻訳日:2023-04-20 11:03:58 公開日:2021-09-02
# チューリング反応モデルの逆操作によるタコ表皮パターンの模倣機構モデル

Mimicry mechanism model of octopus epidermis pattern by inverse operation of Turing reaction model ( http://arxiv.org/abs/2102.01512v2 )

ライセンス: Link先を確認
Takeshi Ishida(参考訳) タコやイカのような多くの頭足類は、非常に短時間で故意に皮膚の色を変える。 また、一部のタコは皮膚の色や凹凸を変え、短時間で周囲を模倣する能力を持つことが広く知られている。 しかし、タコが周囲の風景を認識し、皮膚のパターンを変えるという模倣機構に関する多くの研究は行われていない。 模倣のメカニズム全体を説明できる仮説的なモデルはまだ存在しないようである。 本研究では,タコの皮膚パターン形成機構をチューリングモデルに基づいて推定した。 そこで、チューリングモデルによるパターン形成は、微分方程式を直接解くのではなく、セルオートマトンを用いた等価フィルタ計算モデルによって実現された。 このモデルは2つの特徴パラメータで様々なパターンを作成できることが示されている。 さらに、チューリングパターン画像から2つの特徴を抽出したアイ認識部について、セルラーチューリングパターンモデルの特性を用いて、少ない計算量で計算できる手法を提案する。 これら2つの計算は、畳み込みフィルタを用いてセルオートマトンモデルに基づいて同じ数学的フレームで表現することができる。 その結果、パターンから特徴を抽出し、短時間でパターンを再構成できるモデルを作成することができ、このモデルはタコの模倣機構を考察するための基本的なモデルであると考えられる。 また、機械学習の応用の観点からは、少ない学習計算量でモデルに導く可能性を示唆していると考えられる。

Many cephalopods such as octopus and squid change their skin color purposefully within a very short time. Furthermore, it is widely known that some octopuses have the ability to change the color and unevenness of the skin and to mimic the surroundings in short time. However, much research has not been done on the entire mimicry mechanism in which the octopus recognizes the surrounding landscape and changes the skin pattern. It seems that there is no hypothetical model to explain the whole mimicry mechanism yet. In this study, the mechanism of octopus skin pattern formation was assumed to be based on the Turing model. Here, the pattern formation by the Turing model was realized by the equivalent filter calculation model using the cellular automaton, instead of directly solving the differential equations. It was shown that this model can create various patterns with two feature parameters. Furthermore, for the eyes recognition part where two features are extracted from the Turing pattern image, our study proposed a method that can be calculated back with small amount of calculation using the characteristics of the cellular Turing pattern model. These two calculations can be expressed in the same mathematical frame based on the cellular automaton model using the convolution filter. As a result, it can be created a model which is capable of extracting features from patterns and reconstructing patterns in a short time, the model is considered to be a basic model for considering the mimicry mechanism of octopus. Also, in terms of application to machine learning, it is considered that it shows the possibility of leading to a model with a small amount of learning calculation.
翻訳日:2023-04-15 02:56:52 公開日:2021-09-02
# 小型超低温量子技術のためのスタンドアローン真空セル

Stand-alone vacuum cell for compact ultracold quantum technologies ( http://arxiv.org/abs/2101.07851v2 )

ライセンス: Link先を確認
Oliver S. Burrow, Paul F. Osborn, Edward Boughton, Francesco Mirando, David P. Burt, Paul F. Griffin, Aidan S. Arnold, and Erling Riis(参考訳) 小型真空システムは冷間原子技術の鍵となるコンポーネントであり、非常に正確なセンシング応用を促進する。 真にポータブルなコンパクト真空システムへの重要な進歩はあったが、サイズ、重量、消費電力は制限的に大きく、光アクセスは制限され、アクティブなポンプを必要とすることが多い。 本稿では,1つの偏光維持ファイバーからの光でロバストなレーザー冷却を実現するため,可視光と回折光学を統合した遠心型セラミック真空チャンバーを提案する。 真空電池をベースとする冷媒原子デモンストレーターは、最小限の電力で毎秒10^7ドルのレーザー冷却$^{87}$rb原子を供給している。 連続Rbガス排出能動ポンプは10^{-7}\,$mbar平衡圧力を発生し、パッシブポンプは3–times 10^{-6}\,$mbar, with a $117\,$day time constantである。 真空セルは、Rbを放出せず、受動ポンプのみを持ち、現在、同様の圧力を \ch{500} 以上も維持している。 パッシブポンプの真空寿命は数年であり、短期のheスループットから推定される。 この技術は超低温量子メトロロジーの広範囲な動員を可能にする。

Compact vacuum systems are key enabling components for cold atom technologies, facilitating extremely accurate sensing applications. There has been important progress towards a truly portable compact vacuum system, however size, weight and power consumption can be prohibitively large, optical access may be limited, and active pumping is often required. Here, we present a centilitre-scale ceramic vacuum chamber with He-impermeable viewports and an integrated diffractive optic, enabling robust laser cooling with light from a single polarization-maintaining fibre. A cold atom demonstrator based on the vacuum cell delivers $10^7$ laser-cooled $^{87}$Rb atoms per second, using minimal electrical power. With continuous Rb gas emission active pumping yields a $10^{-7}\,$mbar equilibrium pressure, and passive pumping stabilises to $3\times 10^{-6}\,$mbar, with a $17\,$day time constant. A vacuum cell, with no Rb dispensing and only passive pumping, has currently kept a similar pressure for more than \ch{500 days}. The passive-pumping vacuum lifetime is several years, estimated from short-term He throughput, with many foreseeable improvements. This technology enables wide-ranging mobilization of ultracold quantum metrology.
翻訳日:2023-04-14 17:54:13 公開日:2021-09-02
# 古典的共通原因や直接原因説明のない単純で極端に堅牢なプロセス

Simple and maximally robust processes with no classical common-cause or direct-cause explanation ( http://arxiv.org/abs/2101.11630v4 )

ライセンス: Link先を確認
Marcello Nery, Marco T\'ulio Quintino, Philippe Allard Gu\'erin, Thiago O. Maciel, Reinaldo O. Vianna(参考訳) 因果関係のコヒーレントな重ね合わせの直感によって導かれた最近の研究は、古典的な共起原因のない量子過程、すなわち、量子共起原因と量子直接起因関係(CCDC)の確率論的混合として記述できない過程を提示した。 本研究では, 量子プロセスがccdcの説明を許さないことの最小要件を分析し, 一般的な雑音に対して最も頑健なプロセスであることを示す「単純な」プロセスを提案する。 これらの単純なプロセスは、最大に絡み合った状態を作成し、同一の量子チャネルを適用することで実現することができ、そのため共通の原因と直接原因の明確なコヒーレントな混合を必要としない。 すると、すべての二成分直接因果過程が二成分分離作用素であるにもかかわらず、直接因果ではない二成分分離過程が存在することを証明する。 これは、プロセスが直接原因である天候を決定する問題は、絡み合い認証と等価ではないことを示し、非古典的なccdcプロセスを検出する絡み合い方法の限界を指摘する。 また,すべての非古典的CCDCプロセスの非古典的CCDCロバスト性の検出と定量化が可能な半定型プログラミング階層を提案する。 以上の結果から,提案手法は白色雑音に対して最大に頑健である可能性が示唆された。 最後に, 量子メモリのないプロセスとして実現できない分離可能なプロセスを示すために, 量子メモリのないプロセスと二部プロセスの等価性について検討する。

Guided by the intuition of coherent superposition of causal relations, recent works presented quantum processes without classical common-cause and direct-cause explanation, that is, processes which cannot be written as probabilistic mixtures of quantum common-cause and quantum direct-cause relations (CCDC). In this work, we analyze the minimum requirements for a quantum process to fail to admit a CCDC explanation and present "simple" processes, which we prove to be the most robust ones against general noise. These simple processes can be realized by preparing a maximally entangled state and applying the identity quantum channel, thus not requiring an explicit coherent mixture of common-cause and direct-cause, exploiting the possibility of a process to have both relations simultaneously. We then prove that, although all bipartite direct-cause processes are bipartite separable operators, there exist bipartite separable processes which are not direct-cause. This shows that the problem of deciding weather a process is direct-cause process is not equivalent to entanglement certification and points out the limitations of entanglement methods to detect non-classical CCDC processes. We also present a semi-definite programming hierarchy that can detect and quantify the non-classical CCDC robustnesses of every non-classical CCDC process. Among other results, our numerical methods allow us to show that the simple processes presented here are likely to be also the maximally robust against white noise. Finally, we explore the equivalence between bipartite direct-cause processes and bipartite processes without quantum memory, to present a separable process which cannot be realized as a process without quantum memory.
翻訳日:2023-04-13 19:49:57 公開日:2021-09-02
# 引力の国におけるファインマンの冒険のための道路地図

A road map for Feynman's adventures in the land of gravitation ( http://arxiv.org/abs/2102.11220v2 )

ライセンス: Link先を確認
Marco Di Mauro, Salvatore Esposito and Adele Naddeo(参考訳) リチャード・p・ファインマン(richard p. feynman)の『重力論』は、いくつかの出版および未発表の資料から推測できる。 ファインマンは少なくとも1954年後半から1960年代後半までこの主題に関わっており、いくつかの重要な貢献をした。 1957年のチャペルヒル会議における彼の多くの介入の記録から始まり、ここで詳細に分析し、彼は既に重力に関する彼の考えをかなり発展させていたことを示している。 さらに彼は、マクロな物体の波動関数の重ね合わせや観測者の役割のような量子重力の問題によって示唆された量子力学の基本的な問題について深い考えを述べた。 ファインマンは重力について何度も講義した。 1962-63年にカリフォルニア工科大学で行った有名な講義の他、1966-67年にヒューズ・エアクラフト社で行った一連の講義で、天文学と天体物理学に焦点を当てた。 これらすべての素材は、60年代後半までファインマンの重力と進化に関するアイデアの詳細なイメージを再構築することができる。 彼によると、重力は電磁気学と同様に量子基礎を持ち、従って一般相対性理論は基礎となる量子論の古典的限界と見なされなければならない。 重力波に関しても同様の姿勢を示しており、ビクター・F・ワイスコプフに宛てた未発表の手紙からも明らかである。 さらに、当時ファインマンによって与えられたマックスウェル方程式の導出を忠実に模倣(そしておそらくはインスパイアされた)した重力への元々のアプローチは、未発表のヒューズ講義でスケッチされている。

Richard P. Feynman's work on gravitation, as can be inferred from several published and unpublished sources, is reviewed. Feynman was involved with this subject at least from late 1954 to the late 1960s, giving several pivotal contributions to it. Even though he published only three papers, much more material is available, beginning with the records of his many interventions at the Chapel Hill conference in 1957, which are here analyzed in detail, and show that he had already considerably developed his ideas on gravity. In addition he expressed deep thoughts about fundamental issues in quantum mechanics which were suggested by the problem of quantum gravity, such as superpositions of the wave functions of macroscopic objects and the role of the observer. Feynman also lectured on gravity several times. Besides the famous lectures given at Caltech in 1962-63, he extensively discussed this subject in a series of lectures delivered at the Hughes Aircraft Company in 1966-67, whose focus was on astronomy and astrophysics. All this material allows to reconstruct a detailed picture of Feynman's ideas on gravity and of their evolution until the late sixties. According to him, gravity, like electromagnetism, has quantum foundations, therefore general relativity has to be regarded as the classical limit of an underlying quantum theory; this quantum theory should be investigated by computing physical processes, as if they were experimentally accessible. The same attitude is shown with respect to gravitational waves, as is evident also from an unpublished letter addressed to Victor F. Weisskopf. In addition, an original approach to gravity, which closely mimics (and probably was inspired by) the derivation of the Maxwell equations given by Feynman in that period, is sketched in the unpublished Hughes lectures.
翻訳日:2023-04-10 05:42:50 公開日:2021-09-02
# 量子バックフローの実験フレンドリーな定式化について

On the experiment-friendly formulation of quantum backflow ( http://arxiv.org/abs/2103.06728v2 )

ライセンス: Link先を確認
Maximilien Barbier, Arseni Goussev(参考訳) 量子バックフロー(quantum backflow)は、正運動量状態の自由量子粒子が負の確率電流を示す古典的な不可能現象である。 最近、millerら。 [量子5,379 (2021)]は、量子バックフローの概念を、粒子の状態が正と負の両方のモータを持つような状況にまで拡張することを目的とした、新しい「実験に優しい」量子バックフローの定式化を提唱した。 本稿では, 量子バックフローの実験フレンドリな定式化が, 正モメンタム状態の自由粒子に適用した場合の標準値とどのように比較されるかを検討する。 この2つの定式化が必ずしも両立するとは限らない。 さらに、2つの定式化が互いに定性的に一致しているように見えるパラメトリックなレジームを同定する。

In its standard formulation, quantum backflow is a classically impossible phenomenon in which a free quantum particle in a positive-momentum state exhibits a negative probability current. Recently, Miller et al. [Quantum 5, 379 (2021)] have put forward a new, "experiment-friendly" formulation of quantum backflow that aims at extending the notion of quantum backflow to situations in which the particle's state may have both positive and negative momenta. Here, we investigate how the experiment-friendly formulation of quantum backflow compares to the standard one when applied to a free particle in a positive-momentum state. We show that the two formulations are not always compatible. We further identify a parametric regime in which the two formulations appear to be in qualitative agreement with one another.
翻訳日:2023-04-08 11:15:11 公開日:2021-09-02
# 自己双対宇宙は

The Autodidactic Universe ( http://arxiv.org/abs/2104.03902v2 )

ライセンス: Link先を確認
Stephon Alexander, William J. Cunningham, Jaron Lanier, Lee Smolin, Stefan Stanojevic, Michael W. Toomey, Dave Wecker(参考訳) 我々は、宇宙が自身の物理法則を学ぶ宇宙論のアプローチを提案する。 可能な法則のランドスケープを探索することで、それはある種の行列モデルとして表現される。 我々は、これらの行列モデルをゲージ/重力理論と、ディープ・リカレント・サイクリック・ニューラルネットワークのような学習機械の数学的モデルの両方に対応させるマップを発見する。 これにより、物理理論の各解とニューラルネットワークの実行との対応が確立される。 この対応は同値ではない、なぜならゲージ理論が行列モデルの$N \rightarrow \infty $極限から現れるからである。 自律的なシステムでは,教師のいない学習がどのような意味を持つのかを詳細に議論する。 ニューラルネットワークモデルが教師無しで学習できるなら、それに対応する物理理論についても同じことが言えると提案する。 本稿では,グラフの多様性の最適化,自己アテンションとルックアヘッドを用いたサブセットレプリケーション,強化学習によるジオメトリジケーション,正規化グループ手法を用いた構造学習,拡張など,自律的物理システムのための他のプロトコルについて考察する。 これらのプロトコルは、機械学習アーキテクチャを物理理論に対応づけることに基づいて、物理法則の起源を探求する多くの方向を提供する。

We present an approach to cosmology in which the Universe learns its own physical laws. It does so by exploring a landscape of possible laws, which we express as a certain class of matrix models. We discover maps that put each of these matrix models in correspondence with both a gauge/gravity theory and a mathematical model of a learning machine, such as a deep recurrent, cyclic neural network. This establishes a correspondence between each solution of the physical theory and a run of a neural network. This correspondence is not an equivalence, partly because gauge theories emerge from $N \rightarrow \infty $ limits of the matrix models, whereas the same limits of the neural networks used here are not well-defined. We discuss in detail what it means to say that learning takes place in autodidactic systems, where there is no supervision. We propose that if the neural network model can be said to learn without supervision, the same can be said for the corresponding physical theory. We consider other protocols for autodidactic physical systems, such as optimization of graph variety, subset-replication using self-attention and look-ahead, geometrogenesis guided by reinforcement learning, structural learning using renormalization group techniques, and extensions. These protocols together provide a number of directions in which to explore the origin of physical laws based on putting machine learning architectures in correspondence with physical theories.
翻訳日:2023-04-06 05:43:00 公開日:2021-09-02
# 超低温フェルミオンの集団P波軌道ダイナミクス

Collective P-Wave Orbital Dynamics of Ultracold Fermions ( http://arxiv.org/abs/2104.06480v3 )

ライセンス: Link先を確認
Mikhail Mamaev, Peiru He, Thomas Bilitewski, Vijin Venu, Joseph H. Thywissen, Ana Maria Rey(参考訳) 光学格子の第1励起帯におけるスピン偏極超低温フェルミオンの非平衡軌道ダイナミクスを考察する。 p_x$ と $p_y$ の励起軌道自由度が擬似スピンとして作用できるように、特定の格子深さと充填構成が設計されている。 周期ポテンシャルにおけるp波相互作用のフルハミルトニアンから始まり、低エネルギーでの励起軌道の異方性格子動力学を記述する拡張ハバード型モデルを導出する。 次に、分散工学がp波相互作用によって引き起こされる集団行動を実現するための有効な経路を提供する方法を示す。 特に、ブラッグドレッシングと格子深さは、p波相互作用の適度なフェッシュバッハ強化だけで集団多体ギャップが開くように、単粒子分散率を減少させることができる。 創発的ギャップ保護集団ダイナミクスに関する物理的洞察は、ハミルトニアンをディッケ多様体に射影し、従来のラムゼー型干渉法を用いて観測できる軌道擬スピンの1軸ねじれモデルを得ることによって得られる。 バンド緩和, 粒子損失, スピン軌道結合, ドーピングの影響など, 多体ダイナミクスの調製と測定のための実験的現実的プロトコルについて論じる。

We consider the non-equilibrium orbital dynamics of spin-polarized ultracold fermions in the first excited band of an optical lattice. A specific lattice depth and filling configuration is designed to allow the $p_x$ and $p_y$ excited orbital degrees of freedom to act as a pseudo-spin. Starting from the full Hamiltonian for p-wave interactions in a periodic potential, we derive an extended Hubbard-type model that describes the anisotropic lattice dynamics of the excited orbitals at low energy. We then show how dispersion engineering can provide a viable route to realizing collective behavior driven by p-wave interactions. In particular, Bragg dressing and lattice depth can reduce single-particle dispersion rates, such that a collective many-body gap is opened with only moderate Feshbach enhancement of p-wave interactions. Physical insight into the emergent gap-protected collective dynamics is gained by projecting the Hamiltonian into the Dicke manifold, yielding a one-axis twisting model for the orbital pseudo-spin that can be probed using conventional Ramsey-style interferometry. Experimentally realistic protocols to prepare and measure the many-body dynamics are discussed, including the effects of band relaxation, particle loss, spin-orbit coupling, and doping.
翻訳日:2023-04-03 23:12:14 公開日:2021-09-02
# 運動選手のエネルギー消費と回復を近似する新しい経路

A New Pathway to Approximate Energy Expenditure and Recovery of an Athlete ( http://arxiv.org/abs/2104.07903v2 )

ライセンス: Link先を確認
Fabian Clemens Weigend, Jason Siegler, Oliver Obst(参考訳) 本研究は,運動中の運動選手のエネルギー消費と回復のモデリングを新たな視点で行うため,進化的計算を経路として用いることを提案する。 本研究では,運動中に代謝系をシミュレートし,現在適用されている性能モデルの欠点に対処できる「三成分水理モデル」という理論的概念を再考する。 この水圧モデルは、必要な精度や量では取得できない生理的手段に依存するため、個々のアスリートに完全には検証されていない。 本稿では,具体的代謝指標との関係を解消し,そのパラメータを運動選手に適合させるために進化的計算を可能にする3成分水理モデルの一般化解釈と形式化を提案する。

This work proposes to use evolutionary computation as a pathway to allow a new perspective on the modeling of energy expenditure and recovery of an individual athlete during exercise. We revisit a theoretical concept called the "three component hydraulic model" which is designed to simulate metabolic systems during exercise and which is able to address recently highlighted shortcomings of currently applied performance models. This hydraulic model has not been entirely validated on individual athletes because it depends on physiological measures that cannot be acquired in the required precision or quantity. This paper introduces a generalized interpretation and formalization of the three component hydraulic model that removes its ties to concrete metabolic measures and allows to use evolutionary computation to fit its parameters to an athlete.
翻訳日:2023-04-03 11:13:11 公開日:2021-09-02
# SiCにおける電子スピン-1/2準位遷移金属欠陥の超微細化による遷移

Hyperfine-mediated transitions between electronic spin-1/2 levels of transition metal defects in SiC ( http://arxiv.org/abs/2104.12433v2 )

ライセンス: Link先を確認
Carmem M. Gilardoni, Irina Ion, Freddie Hendriks, Michael Trupke, Caspar H. van der Wal(参考訳) SiCの遷移金属欠陥は、工業的に成熟した半導体プラットフォームにおいて、テレコム範囲で光学的に処理できる局所電子状態を引き起こす。 このことが、これらの欠陥中心のスピンと光学的性質の厳しい精査につながった。 スピン1/2欠陥の場合、欠陥対称性と強いスピン軌道結合の組み合わせは許容されるスピン遷移を制限し、長い寿命を持つがマイクロ波スピン操作による対処は困難である欠陥スピンを引き起こす。 ここでは,解析的および数値的な結果から,中心核スピンの存在が欠陥対称性を維持しつつ,電子スピン状態の非自明な混合を引き起こすことを示した。 小さな印加磁場と超微細カップリングの間の相互作用は、超微細カップリングがなければ禁止される磁性マイクロ波遷移を開放し、電子スピンの効率的な操作を可能にする。 また、c軸に平行な電子マイクロ波場を用いて、双極子超微細項の相対強度を変調することで電子スピンを操作できることも見出した。

Transition metal defects in SiC give rise to localized electronic states that can be optically addressed in the telecom range in an industrially mature semiconductor platform. This has led to intense scrutiny of the spin and optical properties of these defect centers. For spin-1/2 defects, a combination of the defect symmetry and the strong spin-orbit coupling may restrict the allowed spin transitions, giving rise to defect spins that are long lived, but hard to address via microwave spin manipulation. Here, we show via analytical and numerical results that the presence of a central nuclear spin can lead to a non-trivial mixing of electronic spin states, while preserving the defect symmetry. The interplay between a small applied magnetic field and hyperfine coupling opens up magnetic microwave transitions that are forbidden in the absence of hyperfine coupling, enabling efficient manipulation of the electronic spin. We also find that an electric microwave field parallel to the c-axis can be used to manipulate the electronic spin via modulation of the relative strength of the dipolar hyperfine term.
翻訳日:2023-04-02 09:11:50 公開日:2021-09-02
# 量子組合せ最適化における好ましい風景への展開

Progress toward favorable landscapes in quantum combinatorial optimization ( http://arxiv.org/abs/2105.01114v3 )

ライセンス: Link先を確認
Juneseo Lee, Alicia B. Magann, Herschel A. Rabitz, Christian Arenz(参考訳) 変分量子アルゴリズムの性能は、量子および古典的な計算資源をタンデムで使用する成功に依存している。 ここでは、これらの量子および古典的成分がどのように相互作用するかを研究する。 特に,組合せ最適化問題maxcutの解法に着目し,古典的最適化環境の構造とmaxcut目的関数の評価に用いる量子回路との関係について検討した。 ランドスケープの臨界点における量子的特徴の影響を解析的に特徴づけるために、互いに交換する要素からなる量子回路 ans\atze の族を考える。 マルチキュービット演算を鍵となる資源として同定し,過パラメータ化によって良好な景観が得られることを示す。 すなわち、指数関数的に多くの変分パラメータを含むこの族からのアンサッツが、一般グラフに対して局所最適でない風景をもたらすことを証明する。 しかし、これらの ans\atze が純粋に古典的な MaxCut アルゴリズムよりもスーパーポリノミカルな利点を提供していないことも証明する。 次に,非可換性と絡み合いがアルゴリズムの性能向上に重要であることを示す数値実験を行った。

The performance of variational quantum algorithms relies on the success of using quantum and classical computing resources in tandem. Here, we study how these quantum and classical components interrelate. In particular, we focus on algorithms for solving the combinatorial optimization problem MaxCut, and study how the structure of the classical optimization landscape relates to the quantum circuit used to evaluate the MaxCut objective function. In order to analytically characterize the impact of quantum features on the critical points of the landscape, we consider a family of quantum circuit ans\"atze composed of mutually commuting elements. We identify multiqubit operations as a key resource and show that overparameterization allows for obtaining favorable landscapes. Namely, we prove that an ansatz from this family containing exponentially many variational parameters yields a landscape free of local optima for generic graphs. However, we further prove that these ans\"atze do not offer superpolynomial advantages over purely classical MaxCut algorithms. We then present a series of numerical experiments illustrating that noncommutativity and entanglement are important features for improving algorithm performance.
翻訳日:2023-04-01 17:28:19 公開日:2021-09-02
# リツイートネットワークにおけるコミュニティ進化

Community evolution in retweet networks ( http://arxiv.org/abs/2105.06214v2 )

ライセンス: Link先を確認
Bojan Evkoski, Igor Mozetic, Nikola Ljubesic, Petra Kralj Novak(参考訳) ソーシャルネットワークのコミュニティは、しばしばメンバーと時間を通じての進化の間の密接な社会的関係を反映している。 我々は,リツイートネットワークにおけるコミュニティの進化の2つの側面,すなわち,コミュニティ間のメンバのフロー,およびその影響をトラックするアプローチを提案する。 まず、高解像度のタイムウィンドウから始め、コミュニティ間で大きな違いを示すいくつかのタイムポイントを選択します。 コミュニティ検出には,2段階のアプローチを提案する。 最初の段階では、Ensemble Louvain と呼ばれる拡張された Louvain アルゴリズムを適用し、安定なコミュニティを見つける。 第2段階では,これらのコミュニティ間のインフルエンスリンクを形成し,リンクされたスーパーコミュニティを特定する。 検出されたコミュニティに対しては、内部および外部の影響を計算し、個々のユーザに対しては、h-indexの影響をretweetする。 提案手法は,スロヴェニア全ツイートの3年間のtwitterデータに適用する。 分析の結果、スロベニアのtweetosphereは政治に支配されており、左寄りのコミュニティは大きいが、右寄りのコミュニティとユーザーの方が影響が大きいことがわかった。 興味深い観察は、Covid-19のパンデミックや政府の変化といった出来事にもかかわらず、リツイートネットワークが比較的徐々に変化することである。

Communities in social networks often reflect close social ties between their members and their evolution through time. We propose an approach that tracks two aspects of community evolution in retweet networks: flow of the members in, out and between the communities, and their influence. We start with high resolution time windows, and then select several timepoints which exhibit large differences between the communities. For community detection, we propose a two-stage approach. In the first stage, we apply an enhanced Louvain algorithm, called Ensemble Louvain, to find stable communities. In the second stage, we form influence links between these communities, and identify linked super-communities. For the detected communities, we compute internal and external influence, and for individual users, the retweet h-index influence. We apply the proposed approach to three years of Twitter data of all Slovenian tweets. The analysis shows that the Slovenian tweetosphere is dominated by politics, that the left-leaning communities are larger, but that the right-leaning communities and users exhibit significantly higher impact. An interesting observation is that retweet networks change relatively gradually, despite such events as the emergence of the Covid-19 pandemic or the change of government.
翻訳日:2023-03-31 06:33:19 公開日:2021-09-02
# 非エルミート自由フェルミオンの絡み合いエントロピー

Entanglement Entropy of Non-Hermitian Free Fermions ( http://arxiv.org/abs/2105.09793v3 )

ライセンス: Link先を確認
Yi-Bin Guo, Yi-Cong Yu, Rui-Zhen Huang, Li-Ping Yang, Run-Ze Chi, Hai-Jun Liao and Tao Xiang(参考訳) 相関行列法を用いた変換対称性を持つ非エルミート自由フェルミオン模型の絡み合い特性について検討した。 以上の結果から, 絡み合いエントロピーは, 1次元および2次元系の領域法則に対数補正を与えることがわかった。 任意の一次元の1バンド系に対して、各フェルミ点が対数補正の係数 c にちょうど1/2 寄与することを示す。 さらに、このc点とフェルミ点の関係は、数値計算と有限スケール解析によってより一般的な1次元および2次元のケースに対して検証される。 さらに, 単一粒子と密度密度相関関数についても検討した。

We study the entanglement properties of non-Hermitian free fermionic models with translation symmetry using the correlation matrix technique. Our results show that the entanglement entropy has a logarithmic correction to the area law in both one-dimensional and two-dimensional systems. For any one-dimensional one-band system, we prove that each Fermi point of the system contributes exactly 1/2 to the coefficient c of the logarithmic correction. Moreover, this relation between c and Fermi point is verified for more general one-dimensional and two-dimensional cases by numerical calculations and finite-size scaling analysis. In addition, we also study the single-particle and density-density correlation functions.
翻訳日:2023-03-30 07:17:50 公開日:2021-09-02
# フィブリケーションアプローチにおける文脈性とホロノミーの役割

Contextuality in the Fibration Approach and the Role of Holonomy ( http://arxiv.org/abs/2105.14132v2 )

ライセンス: Link先を確認
Sidiney B. Montanhano(参考訳) 文脈性は、たとえ局所的な合意があったとしても、モデルのグローバルに一貫した記述を構築することができないと解釈できる。 特に、量子モデルは、この性質を示す。 シナリオは単純複体として表現され、ファイバーは結果の集合であり、コンテキスト性は測度フィブリケーションにおける大域的なセクションの非存在として表現され、既に使われているバンドル図の直接表現と形式化を可能にする。 連続ファイバーへの一般化を用いて測度ファイバーの概念を構築し、非有限ファイバーの場合のフィブレーション形式に関するファイン・アブラムスキー・ブランデンバーグの定理を示した。 voroby'evの定理により、モデルの文脈的振る舞いからシナリオのトポロジーへの依存性は、オープン問題であると主張する。 本稿では, 単体複合体の構築にともなって, 文脈行動の階層構造を導入して探索する。 GHZモデルは、量子論は階層の全てのレベルを持ち、非自明なトポロジーがこの場合の文脈的振る舞いの増加を意味するテトラエドロンシナリオにより、より高いホモトピー群への依存を例示する。 階層の第一レベルでは、2つの測定値を持つ文脈のファイバーの測度を用いて測度バンドルのマルコフ作用素を介して接続の概念を構築し、等しいファイバーの場合、接続から抽出された群に従って変換されるベクトル空間の基底として結果空間を識別することができる。 これにより、2つの測定値を持つ文脈のレベルでの文脈性は、フレームバンドル内のホロノミー群の非自明性との関係を示すことができる。 本稿では、遷移関数による乱れモデルを例示し、ホロノミーを一般化する。

Contextuality can be understood as the impossibility to construct a globally consistent description of a model even if there is local agreement. In particular, quantum models present this property. We can describe contextuality with the fibration approach, where the scenario is represented as a simplicial complex, the fibers being the sets of outcomes, and contextuality as the non-existence of a global section in the measure fibration, allowing direct representation and formalization of the already used bundle diagrams. Using the generalization to continuous outcome fibers, we built the concept of measure fibration, showing the Fine-Abramsky-Brandenburger theorem for the fibration formalism in the case of non-finite fibers. By the Voroby'ev theorem, we argue that the dependence of contextual behavior of a model to the topology of the scenario is an open problem. We introduce a hierarchy of contextual behavior to explore it, following the construction of the simplicial complex. GHZ models show that quantum theory has all levels of the hierarchy, and we exemplify the dependence on higher homotopical groups by the tetraedron scenario, where non-trivial topology implies an increase of contextual behavior for this case. For the first level of the hierarchy, we construct the concept of connection through Markov operators for the measure bundle using the measure on fibers of contexts with two measurements and taking the case of equal fibers we can identify the outcome space as the basis of a vector space, that transform according to a group extracted from the connection. With this, it is possible to show that contextuality at the level of contexts with two measurements has a relationship with the non-triviality of the holonomy group in the frame bundle. We give examples and treat disturbing models through transition functions, generalizing the holonomy.
翻訳日:2023-03-29 04:19:48 公開日:2021-09-02
# オープンシステムにおける制御されたほぼ完全状態伝達における制御コストと量子速度制限時間

Control cost and quantum speed limit time in controlled almost exact state transmission in open systems ( http://arxiv.org/abs/2106.09298v2 )

ライセンス: Link先を確認
Shen-Shuang Nie, Feng-Hua Ren, Run-Hong He, Jing Wu, and Zhao-Ming Wang(参考訳) パルス制御下でのスピンチェーンによるほぼ正確な状態伝達(AEST)過程において,環境騒音が制御コストおよび量子速度制限時間(QSLT)に与える影響について検討した。 この鎖は周囲の非マルコフ温度の有限温度熱浴に浸漬される。 その結果,AESTは外部制御下での弱い系-バス結合,低温,強い非マルコフ浴において実現可能であることがわかった。 それに伴い、浴室温度と結合強度の増加に伴い、制御コストとqsltが増加する。 浴槽からの非マルコビアン性は、制御コストの低減とQSLTの短縮に有効である。 さらに,制御コストと送信忠実度との間にはトレードオフがあり,高い忠実度は高いコストを必要とすることがわかった。 さらに、一定の透過率を得るための最小制御コストが発見された。

We investigate the influence of environment noise on the control cost and the quantum speed limit time (QSLT) in the process of almost exact state transmission (AEST) through a spin chain under pulse control. The chain is immersed in its surrounding non-Markovian, finite temperature heat baths. We find that AEST can be realized in weak system-bath coupling, low temperature, and strong non-Markovian baths under effective external control. Correspondingly, the control cost and QSLT increases with increasing bath temperature and coupling strength. It is noticeable that non-Markovianity from the baths can be helpful to reduce the control cost and shorten the QSLT. Furthermore, we find that there exists a trade-off between the control cost and transmission fidelity and higher fidelity requires higher cost. In addition, the minimum control cost has been found to obtain certain transmission fidelity.
翻訳日:2023-03-26 10:58:24 公開日:2021-09-02
# bb84qkd源の実験的側チャネル解析

Experimental Side Channel Analysis of BB84 QKD Source ( http://arxiv.org/abs/2106.10500v3 )

ライセンス: Link先を確認
Ayan Biswas, Anindya Banerji, Pooja Chandravashi, Rupesh Kumar, and Ravindra P. Singh(参考訳) 量子通信のためのBB84プロトコルの典型的な実装では、弱いコヒーレントパルスを送信するために4つのレーザーダイオードを使用している。 これらのレーザーは, スペクトル幅, パルス幅, 空間モード, ピーク波長, 偏光, 受信機到着時刻など, 様々なパラメータのミスマッチを特徴としている。 この情報を用いて、ソースと盗聴者の相互情報を評価することにより、サイドチャネル攻撃による可能性のある情報漏洩を算出する。 異なるレーザーダイオードのパラメータ値間の相互相関を実験的に観測し,eveへの情報漏洩を低減する方法を提案する。

A typical implementation of BB84 protocol for quantum communication uses four laser diodes for transmitting weak coherent pulses, which may not have the same characteristics. We have characterized these lasers for mismatch in various parameters such as spectral width, pulse width, spatial mode, peak wavelength, polarization and their arrival times at the receiver. This information is utilized to calculate possible information leakage through side channel attacks by evaluating mutual information between source and eavesdropper. Based on our experimental observations of cross correlation between parameter values for different laser diodes, we suggest ways to reduce information leakage to Eve.
翻訳日:2023-03-26 06:17:49 公開日:2021-09-02
# 人道的・災害的運用におけるビッグデータ分析--体系的レビュー

Big Data Analytics in Humanitarian and Disaster Operations: A Systematic Review ( http://arxiv.org/abs/2108.09800v2 )

ライセンス: Link先を確認
Abhilash Kondraganti(参考訳) このレビューの開始時点で、1億6800万人が人道支援を必要としており、このレビューの完成までに2億3500万人に増えた。 失う時間はないし、失うデータもない。 人道的救済は1世紀一度のパンデミックとの戦いだけでなく、内戦や自然災害の頻繁化、その他の危機への支援も重要である。 テクノロジーへの信頼は今まで以上に重要で重要なものではなかった。 データ分析におけるさらなるデータ作成と進歩は、人道的分野の機会を提供する。 このレビューは、人道的および災害時のビッグデータ分析を総合的に理解することを目的としている。 本研究の成果は,研究のギャップと今後の研究の機会を説明するために,体系的な文献レビュー手法を用いている。 本研究は,防災対策よりもレスポンシブ対策に重点が置かれている点を強調し,災害期における研究の不均衡を明らかにした。 こうしたリアクション対策は、新型コロナウイルス(COVID-19)の多くの国と同様、災害を悪化させるだけだ。 全体として、この研究は、人道的および災害環境でのビッグデータ分析の現状を詳述している。

By the outset of this review, 168 million people needed humanitarian aid, and the number grew to 235 million by the end of the completion of this review. There is no time to lose, definitely no data to lose. Humanitarian relief is crucial not just to contend with a pandemic once a century but also to provide help during civil conflicts, ever-increasing natural disasters, and other forms of crisis. Reliance on technology has never been so relevant and critical than now. The creation of more data and advancements in data analytics provides an opportunity to the humanitarian field. This review aimed at providing a holistic understanding of big data analytics in a humanitarian and disaster setting. A systematic literature review method is used to examine the field and the results of this review explain research gaps, and opportunities available for future research. This study has shown a significant research imbalance in the disaster phase, highlighting how the emphasis is on responsive measures than preventive measures. Such reactionary measures would only exacerbate the disaster, as is the case in many nations with COVID-19. Overall this research details the current state of big data analytics in a humanitarian and disaster setting.
翻訳日:2023-03-17 18:46:33 公開日:2021-09-02
# 量子ウォークを探索手順として用いた古典的人工ニューラルネットワークトレーニング

Classical Artificial Neural Network Training Using Quantum Walks as a Search Procedure ( http://arxiv.org/abs/2108.12448v2 )

ライセンス: Link先を確認
Luciano S. de Souza, Jonathan H. A. de Carvalho, Tiago A. E. Ferreira(参考訳) 本稿では,量子アルゴリズムを古典的ニューラルネットワークの学習に応用する計算手順を提案する。 この手続きの目的は、量子ウォークを完全グラフの探索アルゴリズムとして適用し、古典的な人工ニューラルネットワークの全てのシナプス重みを見つけることである。 この完全グラフの各頂点は、$w$-次元探索空間において可能なシナプス重み集合を表し、ここで$w$はニューラルネットワークの重みの数である。 解を得るのに \textit{a priori} が必要となるイテレーションの数を知ることは、この手順の主な利点の1つです。 もう一つの利点は、提案手法が局所的な最小値で停滞しないことである。 したがって、量子ウォーク探索手順をバックプロパゲーションアルゴリズムの代替として用いることができる。 提案手法は提案した概念を証明するために$XOR$問題に採用された。 この問題を解決するため、提案手法は9重みを持つ古典的人工ニューラルネットワークを訓練した。 しかし、この手順は任意の次元の解を見つけることができる。 その結果、提案の可能性を実証し、機械学習と量子コンピューティングの研究に貢献した。

This paper proposes a computational procedure that applies a quantum algorithm to train classical artificial neural networks. The goal of the procedure is to apply quantum walk as a search algorithm in a complete graph to find all synaptic weights of a classical artificial neural network. Each vertex of this complete graph represents a possible synaptic weight set in the $w$-dimensional search space, where $w$ is the number of weights of the neural network. To know the number of iterations required \textit{a priori} to obtain the solutions is one of the main advantages of the procedure. Another advantage is that the proposed method does not stagnate in local minimums. Thus, it is possible to use the quantum walk search procedure as an alternative to the backpropagation algorithm. The proposed method was employed for a $XOR$ problem to prove the proposed concept. To solve this problem, the proposed method trained a classical artificial neural network with nine weights. However, the procedure can find solutions for any number of dimensions. The results achieved demonstrate the viability of the proposal, contributing to machine learning and quantum computing researches.
翻訳日:2023-03-17 00:53:31 公開日:2021-09-02
# 排ガスを刺激する方法は?

Which way does stimulated emission go? ( http://arxiv.org/abs/2108.13943v2 )

ライセンス: Link先を確認
J. David Wong-Campos, Trey Porto, and Adam E. Cohen(参考訳) 励起放出によって生じる光を使って画像を形成することは可能か? ここでは、励起色相の集合体から光散乱を研究する。 光理論のため、刺激された放出は必然的に励起状態のレイリー散乱を伴う。 どちらのプロセスも画像形成に使用できるが、散乱方向、波長、色相構成に依存する。 蛍光励起状態を用いた新しい光学イメージング法が提案されている。

Is it possible to form an image using light produced by stimulated emission? Here we study light scatter off an assembly of excited chromophores. Due to the Optical Theorem, stimulated emission is necessarily accompanied by excited state Rayleigh scattering. Both processes can be used to form images, though they have different dependencies on scattering direction, wavelength and chromophore configuration. Our results suggest several new approaches to optical imaging using fluorophore excited states.
翻訳日:2023-03-16 15:58:48 公開日:2021-09-02
# 量子リピータにおける最適エンタングルメントスワップ

Optimal entanglement swapping in quantum repeaters ( http://arxiv.org/abs/2109.00793v1 )

ライセンス: Link先を確認
Evgeny Shchukin, Peter van Loock(参考訳) 我々は,量子リピータチェーンにおける最適エンタングルメントスワッピングスキームをマルコフ決定過程として求める問題を定式化し,その解を異なるリピータサイズに対して提示する。 これに基づいて,量子リピータにおける確率分布エンタングル量子ビット対の確率的エンタングルメントスワップングを行うための一般的な「二重化」スキームが,必ずしも最良な生率を生成するとは限らないことを示すことができる。 高い「ネストレベル」での絡み合い蒸留のような誤差抑制のための追加の確率的要素を考慮せず、量子リピータ理論において、2つのセグメントのパワーオブ2は特権的位置を持たないことを明らかにし、最善のスキームを任意のセグメントに対して構築できる。 さらに, 従来の通信方式は, 異なるセグメント数の生待ち時間にどのように影響するかを示すとともに, 関連するパラメータ体系における「ノン・ダブルブリング」の最適性を再確認する。 したがって,本手法は量子リピータの待ち時間を最小限に抑えることができる。

We formulate the problem of finding the optimal entanglement swapping scheme in a quantum repeater chain as a Markov decision process and present its solution for different repeater's sizes. Based on this, we are able to demonstrate that the commonly used "doubling" scheme for performing probabilistic entanglement swapping of probabilistically distributed entangled qubit pairs in quantum repeaters does not always produce the best possible raw rate. Focussing on this figure of merit, without considering additional probabilistic elements for error suppression such as entanglement distillation on higher "nesting levels", our approach reveals that a power-of-two number of segments has no privileged position in quantum repeater theory; the best scheme can be constructed for any number of segments. Moreover, classical communication can be included into our scheme, and we show how this influences the raw waiting time for different number of segments, confirming again the optimality of "non-doubling" in some relevant parameter regimes. Thus, our approach provides the minimal possible waiting time of quantum repeaters in a fairly general physical setting.
翻訳日:2023-03-16 08:43:32 公開日:2021-09-02
# スピンチャージャーを用いた高容量・高出力集団充電

High-capacity and high-power collective charging with spin chargers ( http://arxiv.org/abs/2109.00687v1 )

ライセンス: Link先を確認
Yong Huangfu and Jun Jing(参考訳) 量子バッテリはマイクロデバイスやナノデバイスとして動作し、量子レベルでエネルギーを貯蔵し再分配する。 本稿では、一般的なハイゼンベルクXY相互作用を通じて、電池セルを有限個のスピンで充電するスピンチャージャープロトコルを提案する。 等方的相互作用の下では、スピンチャージャープロトコルは、キャビティモードなどの連続可変系によって電池が充電される従来のプロトコルよりも最大貯蔵エネルギーの点で高い容量で供給される。 帯電器のサイズをチューニングすることにより、tavis-cummingsモデルにおけるキャビティ-チャージャープロトコルと比較して、最大蓄電エネルギーと平均充電電力とのトレードオフが認められる。 このプロトコルの量子的な利点は、バッテリサイズに対する最適な平均電力のスケーリング挙動によって現れ、集団充電方式と並列充電方式を比較している。 また,バッテリと充電器の異方性相互作用による充電性能への影響,両者の非理想的初期状態,充電器スピン間のクロストークについて検討した。 強力な充電器と充電器の相互作用は、バッテリーと充電器の分離に使用できる。 我々は,従来のキャビティ・チャージャープロトコルに対するスピンチャージャープロトコルの利点,例えば,高容量のエネルギー貯蔵と集団充電における優れたパワーローについて,スピンスピン・スピン環境モデルに基づく効率的な量子電池を利用するための洞察を与える。

Quantum battery works as a micro- or nano-device to store and redistribute energy at the quantum level. Here we propose a spin-charger protocol, in which the battery cells are charged by a finite number of spins through a general Heisenberg XY interaction. Under the isotropic interaction, the spin-charger protocol is endowed with a higher capacity in terms of the maximum stored energy than the conventional protocols, where the battery is charged by a continuous-variable system, e.g., a cavity mode. By tuning the charger size, a trade-off between the maximum stored energy and the average charging power is found in comparison to the cavity-charger protocol in the Tavis-Cummings model. Quantum advantage of our protocol is manifested by the scaling behavior of the optimal average power with respect to the battery size, in comparing the collective charging scheme to its parallel counterpart. We also discuss the detrimental effect on the charging performance from the anisotropic interaction between the battery and the charger, the non-ideal initial states for both of them, and the crosstalk among the charger spins. A strong charger-charger interaction can be used to decouple the battery and the charger. Our findings about the advantages of the spin-charger protocol over the conventional cavity-charger protocols, including the high capacity of energy storage and the superior power-law in the collective charging, provide an insight to exploit an efficient quantum battery based on the spin-spin-environment model.
翻訳日:2023-03-16 08:42:16 公開日:2021-09-02
# ディジタルマッチングフィルタの適用による超伝導系ナノワイヤ検出器の光子数識別の改善

Improve photon number discrimination for a superconducting series nanowire detector by applying a digital matched filter ( http://arxiv.org/abs/2109.00660v1 )

ライセンス: Link先を確認
Hao Hao, Qing-Yuan Zhao, Ling-Dong Kong, Shi Chen, Hui Wang, Yang-Hui Huang, Jia-Wei Guo, Wan Chao, Hao Liu, Xue-Cou Tu, La-Bao Zhang, Xiao-Qing Jia, Jian Chen, Lin Kang, Cong Li, Te Chen, Gui-Xing Cao, and Pei-Heng Wu(参考訳) 光子数分解(PNR)は、量子および古典的な用途で働く検出器にとって重要な容量である。 従来の超伝導ナノワイヤ単光子検出器(SNSPD)はPNR検出器ではないが、連続配列にナノワイヤを配置し、空間上に多重光子を配置することで、準PNR容量を得ることができる。 しかし、精度と最大分解光子数は出力パルスの信号対雑音比(SNR)によって制限される。 本稿では,SNSPDパルスのSNRにおける最適フィルタであるマッチングフィルタを提案する。 実験では, 室温増幅器を用いた従来の読み出しと比較して, 隣り合う光子数検出によるパルス振幅間隔の正規化は, マッチングフィルタ後の最大2.1倍に増加した。 低温増幅器と組み合わせてSNRをさらに増加させ、これらの間隔は最大5.3倍に増加した。 低域通過フィルタとは対照的に、マッチングフィルタは良好なタイミングジッタを維持しながら、より良いSNRを与える。 55psの最小タイミングジッタが実験的に得られた。 以上の結果から,マッチングフィルタはPNR-SNSPDシリーズの性能向上に有効であり,最大分解光子数は65以上に達することが示唆された。

Photon number resolving (PNR) is an important capacity for detectors working in quantum and classical applications. Although a conventional superconducting nanowire single-photon detector (SNSPD) is not a PNR detector, by arranging nanowires in a series array and multiplexing photons over space, such series PNR-SNSPD can gain quasi-PNR capacity. However, the accuracy and maximum resolved photon number are both limited by the signal-to-noise (SNR) ratio of the output pulses. Here, we introduce a matched filter, which is an optimal filter in terms of SNR for SNSPD pulses. Experimentally, compared to conventional readout using a room-temperature amplifier, the normalized spacing between pulse amplitudes from adjacent photon number detections increased by a maximum factor of 2.1 after the matched filter. Combining with a cryogenic amplifier to increase SNR further, such spacing increased by a maximum factor of 5.3. In contrast to a low pass filter, the matched filter gave better SNRs while maintaining good timing jitters. Minimum timing jitter of 55 ps was obtained experimentally. Our results suggest that the matched filter is a useful tool for improving the performance of the series PNR-SNSPD and the maximum resolved photon number can be expected to reach 65 or even large.
翻訳日:2023-03-16 08:41:50 公開日:2021-09-02
# 量子理論の未来: 行き詰まりから抜け出す方法

The Future of Quantum Theory: A Way Out of the Impasse ( http://arxiv.org/abs/2109.01028v1 )

ライセンス: Link先を確認
Ghislain Fourny(参考訳) この書簡では、量子理論、量子情報、量子基盤のコミュニティが現在直面している課題として、不確定性、条件確率の意味論、遠方での不気味な行動の3つを挙げる。 これらの問題は、因果的依存関係、反事実的依存関係、統計的依存関係の相違に根ざしていると我々は論じる。 我々は、単純な視点のシフトは、不確定性を超えて理論を拡張することの不可能性から抜け出し、量子論の音拡張(おそらく決定性はあるが超決定性ではない)が未来に現れる可能性へと導くと論じている。 ここで提示するパラダイムシフトは、一般的に受け入れられている自由選択の数学的定義の非自明な緩和、非ナシアン自由選択、確率的表記の選択に対するより注意、因果関係、反事実、相関に関する語彙のより厳密な使用、そして基本的に異なる性質の3つの概念である。

In this letter, we point to three widely accepted challenges that the quantum theory, quantum information, and quantum foundations communities are currently facing: indeterminism, the semantics of conditional probabilities, and the spooky action at a distance. We argue that these issues are fundamentally rooted in conflations commonly made between causal dependencies, counterfactual dependencies, and statistical dependencies. We argue that a simple, albeit somewhat uncomfortable shift of viewpoint leads to a way out of the impossibility to extend the theory beyond indeterminism, and towards the possibility that sound extensions of quantum theory, possibly even deterministic yet not super-deterministic, will emerge in the future. The paradigm shift, which we present here, involves a non-trivial relaxation of the commonly accepted mathematical definition of free choice, leading to non-Nashian free choice, more care with the choice of probabilistic notations, and more rigorous use of vocabulary related to causality, counterfactuals, and correlations, which are three concepts of a fundamentally different nature.
翻訳日:2023-03-16 08:35:51 公開日:2021-09-02
# マルコフ確率場の構造学習のための量子アルゴリズム

Quantum algorithm for structure learning of Markov Random Fields ( http://arxiv.org/abs/2109.01014v1 )

ライセンス: Link先を確認
Liming Zhao, Siyi Yang, and Patrick Rebentrost(参考訳) マルコフ確率場(mrf)は、機械学習や統計学の多くの問題に現れる。 計算学習理論の観点から、MDFを学習する自然な問題は、制限されたクラスから MRF のサンプルを与えられたときに、基礎となるグラフの各ノードの隣人であるMDFの構造を学ぶことである。 本研究では,この学習問題に対して,既知の最適に近い古典的アルゴリズムから始めて,改良した古典的アルゴリズムを開発する。 この古典的アルゴリズムは、以前のアルゴリズムの実行時間と保証を保持し、量子サブルーチンの使用を可能にする。 従来の量子アルゴリズムである量子スパーシトロンに適応して、MSFが有界次数である場合、MSFの構造を学習する変数数の観点から多項式量子スピードアップを提供する。

Markov random fields (MRFs) appear in many problems in machine learning and statistics. From a computational learning theory point of view, a natural problem of learning MRFs arises: given samples from an MRF from a restricted class, learn the structure of the MRF, that is the neighbors of each node of the underlying graph. In this work, we start at a known near-optimal classical algorithm for this learning problem and develop a modified classical algorithm. This classical algorithm retains the run time and guarantee of the previous algorithm and enables the use of quantum subroutines. Adapting a previous quantum algorithm, the Quantum Sparsitron, we provide a polynomial quantum speedup in terms of the number of variables for learning the structure of an MRF, if the MRF has bounded degree.
翻訳日:2023-03-16 08:35:31 公開日:2021-09-02
# 非対称仮説テストにおけるコヒーレント状態量子ターゲット検出の性能

Performance of coherent-state quantum target detection in the context of asymmetric hypothesis testing ( http://arxiv.org/abs/2109.01009v1 )

ライセンス: Link先を確認
Gaetana Spedalieri and Stefano Pirandola(参考訳) 合同測定の実施が困難であるため、信号-アイドラーの絡み合いに基づく量子照明方式の実装は困難である。 このため、入力源が半古典的(コヒーレントな状態)であり、検出の量子的側面を保っている量子ライダー/レーダーの設計を考えることができる。 これらの設計の性能は、量子シュタインの補題を用いて非対称仮説検定の文脈で研究することができる。 しかし、ここでは、典型的には、このアプローチに関連する2階および3階の展開は量子的優位性を証明するには不十分である。

Due to the difficulties of implementing joint measurements, quantum illumination schemes that are based on signal-idler entanglement are difficult to implement in practice. For this reason, one may consider quantum-inspired designs of quantum lidar/radar where the input sources are semiclassical (coherent states) while retaining the quantum aspects of the detection. The performance of these designs could be studied in the context of asymmetric hypothesis testing by resorting to the quantum Stein's lemma. However, here we discuss that, for typical finite-size regimes, the second- and third-order expansions associated with this approach are not sufficient to prove quantum advantage.
翻訳日:2023-03-16 08:35:18 公開日:2021-09-02
# スピンフォームの因果構造

Causal structure in spin-foams ( http://arxiv.org/abs/2109.00986v1 )

ライセンス: Link先を確認
Eugenio Bianchi and Pierre Martin-Dussaud(参考訳) 一般相対性理論の計量場は、その因果構造によってほぼ完全に決定される。 しかし、量子重力のスピン泡モデルでは、因果構造が果たす役割はほとんど解明されていない。 本稿では,このようなモデルにおいて因果関係がどのようにエンコードされているかを明らかにすることを目的とする。 このクエストは、2-複素体の配向の物理的意味と、その動的変数としての役割を明らかにする。 本研究では, EPRLスピンフォームモデルの因果バージョンを提案し, 半古典的時空幾何の再構成における因果構造の役割について議論する。

The metric field of general relativity is almost fully determined by its causal structure. Yet, in spin-foam models for quantum gravity, the role played by the causal structure is still largely unexplored. The goal of this paper is to clarify how causality is encoded in such models. The quest unveils the physical meaning of the orientation of the two-complex and its role as a dynamical variable. We propose a causal version of the EPRL spin-foam model and discuss the role of the causal structure in the reconstruction of a semiclassical spacetime geometry.
翻訳日:2023-03-16 08:34:47 公開日:2021-09-02
# 3レベル量子システムにおけるコヒーレント集団移動のための強化学習エンハンスドプロトコル

Reinforcement learning-enhanced protocols for coherent population-transfer in three-level quantum systems ( http://arxiv.org/abs/2109.00973v1 )

ライセンス: Link先を確認
Jonathon Brown, Pierpaolo Sgroi, Luigi Giannelli, Gheorghe Sorin Paraoanu, Elisabetta Paladino, Giuseppe Falci, Mauro Paternostro and Alessandro Ferraro(参考訳) 強化学習に基づくアプローチと、より伝統的な最適化手法を組み合わせて、多レベルシステムにおける人口移動の最適なプロトコルを識別する。 我々は, 半超伝導や超伝導など, 関連する実験プラットフォームにおける人口移動の実施を著しく単純化する状況である, 固定結合速度, 時間変化のデチューニングの場合に, 戦略を制約する。 我々のアプローチは、標準のRamanやSTIRAPや他の断熱的スキームと著しく異なる(かつ優れている)効率的なプロトコルの存在を明らかにするための制御プロトコルの空間を探索することができる。 私たちが識別する新しいプロトコルは、エネルギー損失と軽視の両方に対して堅牢です。

We deploy a combination of reinforcement learning-based approaches and more traditional optimization techniques to identify optimal protocols for population transfer in a multi-level system. We constraint our strategy to the case of fixed coupling rates but time-varying detunings, a situation that would simplify considerably the implementation of population transfer in relevant experimental platforms, such as semiconducting and superconducting ones. Our approach is able to explore the space of possible control protocols to reveal the existence of efficient protocols that, remarkably, differ from (and can be superior to) standard Raman, STIRAP or other adiabatic schemes. The new protocols that we identify are robust against both energy losses and dephasing.
翻訳日:2023-03-16 08:34:38 公開日:2021-09-02
# 光導波路に結合した冷原子集合体の集団放射動力学

Collective radiative dynamics of an ensemble of cold atoms coupled to an optical waveguide ( http://arxiv.org/abs/2109.00860v1 )

ライセンス: Link先を確認
Riccardo Pennetta, Martin Blaha, Aisling Johnson, Daniel Lechner, Philipp Schneeweiss, J\"urgen Volz and Arno Rauschenbeutel(参考訳) 単一モード光ナノファイバーに結合した寒冷原子のアンサンブルにおける集団放射効果を実験的および理論的に研究した。 分析の結果,光の伝播方向の原子配列に沿って,原子と単一誘導光子との集団的相互作用が徐々に蓄積されることが明らかとなった。 これらの結果は、原子寿命よりも昇降時間が短いナノファイバー誘導レーザーパルスによる励起後、アンサンブルによって透過され反射される光の時間分解測定によって支持される。 単一原子自由空間減衰速度よりも1桁以上の超ラジアント崩壊が前方伝播誘導モードでの放出に対して観測され、同時に減衰速度の速度アップが後方方向に測定されることはない。 さらに,45m長繊維リング共振器にナノファイバー結合原子配列を挿入することにより,原子を透過する光の位置分解測定を行い,原子アンサンブルの集合反応の進行的成長を実験的に明らかにする。 以上の結果から, ナノフォトニックコールドアトムシステムによる集団光・物質相互作用の実験研究のユニークな機会が浮き彫りになった。

We experimentally and theoretically investigate collective radiative effects in an ensemble of cold atoms coupled to a single-mode optical nanofiber. Our analysis unveils the microscopic dynamics of the system, showing that collective interactions between the atoms and a single guided photon gradually build-up along the atomic array in the direction of propagation of light. These results are supported by time-resolved measurements of the light transmitted and reflected by the ensemble after excitation via nanofiber-guided laser pulses, whose rise and fall times are shorter than the atomic lifetime. Superradiant decays more than one order of magnitude faster than the single-atom free-space decay rate are observed for emission in the forward-propagating guided mode, while at the same time no speed-up of the decay rate are measured in the backward direction. In addition, position-resolved measurements of the light that is transmitted past the atoms are performed by inserting the nanofiber-coupled atomic array in a 45-m long fiber ring-resonator, which allow us to experimentally reveal the progressive growth of the collective response of the atomic ensemble. Our results highlight the unique opportunities offered by nanophotonic cold atom systems for the experimental investigation of collective light-matter interaction.
翻訳日:2023-03-16 08:34:26 公開日:2021-09-02
# 損失キャビティ中の量子光に励起された$\Lambda$型3レベル系の定常状態

Steady states of $\Lambda$-type three-level systems excited by quantum light in lossy cavities ( http://arxiv.org/abs/2109.00842v1 )

ライセンス: Link先を確認
H. Rose, O. V. Tikhonova, T. Meier, P. R. Sharapova(参考訳) 量子光と物質の間の相互作用は、光-物質結合を強く強化する高いQ$キャビティで囲まれたシステムに対して、集中的に研究されている。 しかし、多くのアプリケーションでは、キャビティモードのスペクトル幅が増大するため、Q$-factorsの低いキャビティが好まれる。 ここでは、空洞損失が支配的な損失機構であると仮定して、損失キャビティにおける量子光と物質間の相互作用を$\Lambda$型3レベルシステムで検討する。 空洞の損失は、損失率と量子場の初期統計によって制御できる電子的占有の非自明な定常状態につながることを実証する。 このような定常状態の形成のメカニズムは、運動方程式に基づいて理解することができる。 定常状態の解析式とその数値シミュレーションについて論じる。

The interaction between quantum light and matter is being intensively studied for systems that are enclosed in high-$Q$ cavities which strongly enhance the light-matter coupling. However, for many applications, cavities with lower $Q$-factors are preferred due to the increased spectral width of the cavity mode. Here, we investigate the interaction between quantum light and matter represented by a $\Lambda$-type three-level system in lossy cavities, assuming that cavity losses are the dominant loss mechanism. We demonstrate that cavity losses lead to non-trivial steady states of the electronic occupations that can be controlled by the loss rate and the initial statistics of the quantum fields. The mechanism of formation of such steady states can be understood on the basis of the equations of motion. Analytical expressions for steady states and their numerical simulations are presented and discussed.
翻訳日:2023-03-16 08:34:08 公開日:2021-09-02
# ソーシャルエンジニアリングとvarni na internetu awareness campaign, 2020に関する調査

Survey about social engineering and the Varni na internetu awareness campaign, 2020 ( http://arxiv.org/abs/2109.00837v1 )

ライセンス: Link先を確認
Simon Vrhovec(参考訳) 本稿では,社会工学的意識のキャンペーンに追随する行動意図に関連する要因を探究することを目的とした研究について報告する。 本研究の目的は, 重度, 脆弱感, 脅威感, 恐怖感, 主観的規範, 行動に対する態度, 行動制御, 自己効力感, 応答効果, 当局への信頼, 規制, 当局のパフォーマンス, 情報感度, プライバシの懸念が, 社会工学的意識キャンペーンに従おうとする個人の行動意図とどのように関連しているかを判断することであった。 この研究は横断的な研究デザインを採用した。 スロベニアでは2020年1月から6月にかけて調査が行われた。 553人の回答者が、不十分な回答(27.9%)を除いたN=542の有用な回答を提供した。 アンケートは英語で開発された。 調査アンケートのスロベニア語訳が公開されている。

This paper reports on a study aiming to explore factors associated with behavioral intention to follow a social engineering awareness campaign. The objectives of this study were to determine how perceived severity, perceived vulnerability, perceived threat, fear, subjective norm, attitude towards behavior, perceived behavioral control, self-efficacy, response efficacy, trust in authorities, perceived regulation, authorities performance, information sensitivity and privacy concern are associated with individuals' behavioral intention to follow a social engineering awareness campaign. The study employed a cross-sectional research design. A survey was conducted among individuals in Slovenia between January and June 2020. A total of 553 respondents completed the survey providing for N=542 useful responses after excluding poorly completed responses (27.9 percent response rate). The survey questionnaire was developed in English. A Slovenian translation of the survey questionnaire is available.
翻訳日:2023-03-16 08:33:54 公開日:2021-09-02
# WikiCheck: WikipediaをベースとしたオープンソースのAutomatic Fact-Checking API

WikiCheck: An end-to-end open source Automatic Fact-Checking API based on Wikipedia ( http://arxiv.org/abs/2109.00835v1 )

ライセンス: Link先を確認
Mykola Trokhymovych and Diego Saez-Trumper(参考訳) 偽ニュースや偽情報の増加に伴い、nlpコミュニティは人間による事実確認の支援に取り組んでいる。 しかし、ほとんどの学術研究は、実際のシナリオにおいて重要な資源効率に注意を払わずにモデル精度に焦点を当てている。 本稿では,実運用環境での自動ファクトチェックを行うための最先端のデータセットとソリューションをレビューし,その適用性をテストする。 我々は,これらのモデルにおける過度に適合する問題を発見し,モデルの性能と一般化を改善するデータフィルタリング手法を提案する。 次に,wikipediaの精度を向上させるために,マスク言語モデルの教師なし微調整をデザインする。 また,ウィキペディア検索APIを用いたエビデンス発見を改善する新しいクエリ拡張手法を提案する。 最後に,ウィキペディアの知識ベースに基づくファクトチェック処理を自動的に行う新しいファクトチェックシステムである「textit{WikiCheck} API」を提案する。 精度はSOTAソリューションに匹敵し、低メモリのCPUインスタンスで使用することができる。

With the growth of fake news and disinformation, the NLP community has been working to assist humans in fact-checking. However, most academic research has focused on model accuracy without paying attention to resource efficiency, which is crucial in real-life scenarios. In this work, we review the State-of-the-Art datasets and solutions for Automatic Fact-checking and test their applicability in production environments. We discover overfitting issues in those models, and we propose a data filtering method that improves the model's performance and generalization. Then, we design an unsupervised fine-tuning of the Masked Language models to improve its accuracy working with Wikipedia. We also propose a novel query enhancing method to improve evidence discovery using the Wikipedia Search API. Finally, we present a new fact-checking system, the \textit{WikiCheck} API that automatically performs a facts validation process based on the Wikipedia knowledge base. It is comparable to SOTA solutions in terms of accuracy and can be used on low-memory CPU instances.
翻訳日:2023-03-16 08:33:33 公開日:2021-09-02
# 駆動量子系としての宇宙:循環宇宙論における非有界加熱

The Universe as a driven quantum system: Unbounded heating in cyclic cosmologies ( http://arxiv.org/abs/2109.01660v1 )

ライセンス: Link先を確認
J. P. P. Vieira(参考訳) 進化する宇宙のハミルトニアンは、駆動された量子系のハミルトニアンと形式的に等価であることが示され、その駆動は時空の計量の時間的依存から従う。 この類似により、駆動量子系の分野からの洞察を宇宙論的な設定に適用することができる。 特に、周期的巡回宇宙論は、周期的に駆動される量子システム(通常は無限の未来の非有界加熱を経験すると予想される)との対応のため、(一定の制限的制約を除いて)一般に禁止されている。 この結果は、より一般の環状宇宙論の力学を完全に記述するために、非周期的に駆動される量子システムに対する将来の取り組みがいかに必要かを示す。

The Hamiltonian of an evolving Universe is shown to be formally equivalent to that of a driven quantum system, whose driving follows from the temporal dependence of the spacetime metric. This analogy allows insights from the field of driven quantum systems to be applied to cosmological settings. In particular, it is shown that periodic cyclic cosmologies are generically prohibited (except under certain limiting constraints) due to their correspondence with periodically-driven quantum systems (which are typically expected to experience unbounded heating in the infinite future). This result highlights how future work on non-periodically-driven quantum systems is required to fully describe the dynamics of more general cyclic cosmologies (for which a qualitative picture is briefly discussed).
翻訳日:2023-03-16 08:27:15 公開日:2021-09-02
# ZX計算による安定化器分解のシミュレーション

Simulating quantum circuits with ZX-calculus reduced stabiliser decompositions ( http://arxiv.org/abs/2109.01076v1 )

ライセンス: Link先を確認
Aleks Kissinger and John van de Wetering(参考訳) 本稿では,ZX計算に基づく「安定性の仮定」法と自動単純化戦略を組み合わせた量子回路の古典的強大なシミュレーション手法を提案する。 近年、量子回路は、回路内の非スタビリザーゲートをマジック状態注入として表現し、一度に2-6状態のチャンクで分解し、ナイーブアプローチよりも多くの少ない項で(効率的にシミュレーション可能な)スタビリザー状態の和を得ることによって、古典的なシミュレーションが可能であることが示されている。 これらの手法を,ジェネリックZX-ダイアグラムにマジック状態注入を施したクリフォード回路の当初設定から適用し,この「チャンク」分解をZX計算に基づく単純化戦略でインターリーブすることにより,既存手法よりも桁違いに小さい安定化器分解が得られることを示す。 本稿では,70個のTゲートを持つ50ビットおよび100ビットのClifford+T回路と,1000個以上のTゲートを持つBravyiとGossetによる隠蔽シフト回路の出力に対して,この手法を用いて正確なノルム計算を行う。

We introduce an enhanced technique for strong classical simulation of quantum circuits which combines the `sum-of-stabilisers' method with an automated simplification strategy based on the ZX-calculus. Recently it was shown that quantum circuits can be classically simulated by expressing the non-stabiliser gates in a circuit as magic state injections and decomposing them in chunks of 2-6 states at a time, obtaining sums of (efficiently-simulable) stabiliser states with many fewer terms than the naive approach. We adapt these techniques from the original setting of Clifford circuits with magic state injection to generic ZX-diagrams and show that, by interleaving this "chunked" decomposition with a ZX-calculus-based simplification strategy, we can obtain stabiliser decompositions that are many orders of magnitude smaller than existing approaches. We illustrate this technique to perform exact norm calculations (and hence strong simulation) on the outputs of random 50- and 100-qubit Clifford+T circuits with up to 70 T-gates as well as a family of hidden shift circuits previously considered by Bravyi and Gosset with over 1000 T-gates.
翻訳日:2023-03-16 08:25:56 公開日:2021-09-02
# 長距離相互作用量子システム

Long-range interacting quantum systems ( http://arxiv.org/abs/2109.01063v1 )

ライセンス: Link先を確認
Nicol\`o Defenu, Tobias Donner, Tommaso Macr\`i, Guido Pagano, Stefano Ruffo, Andrea Trombettoni(参考訳) 量子系における非局所的相互作用と長距離相互作用の存在は、その平衡と外平衡の挙動にいくつかの特異な特徴をもたらす。 現在の実験プラットフォームでは、相互作用範囲、温度、密度、寸法などの制御パラメータを変更することができる。 多様な物理システムと観測可能なものが定量的な合意を示す普遍的なスケーリングレジームの存在は、異なる研究コミュニティの努力が厳密に結合できる共通の枠組みを生み出します。 それでも、この一般的な枠組みを特定の実験的な実現に応用するには、普遍性現象が現れると予想される体制の特定が必要である。 本稿では,リドバーグ原子配列,双極子系,閉じ込められたイオン配置,低温原子を空洞実験で実現している長距離相互作用を持つ多体量子系の最近の研究を要約する。 我々の主な目的は、量子多体系の振舞いにおける長距離相互作用によって引き起こされる普遍的特徴を提示し、同定することである。 我々は、非常に強い非局所カップリング、すなわち非加法的なレジームの場合と、エネルギーが広範囲であるにもかかわらず低エネルギーで長い波長特性が短距離限界に関して変化する場合の両方について論じる。 上記セットアップにおける他のローカルエフェクトとの競合事例についてもレビューする。

The presence of non-local and long-range interactions in quantum systems induces several peculiar features in their equilibrium and out-of-equilibrium behavior. In current experimental platforms control parameters such as interaction range, temperature, density and dimension can be changed. The existence of universal scaling regimes, where diverse physical systems and observables display quantitative agreement, generates a common framework, where the efforts of different research communities can be -- in some cases rigorously -- connected. Still, the application of this general framework to particular experimental realisations requires the identification of the regimes where the universality phenomenon is expected to appear. In the present review we summarise the recent investigations of many-body quantum systems with long-range interactions, which are currently realised in Rydberg atom arrays, dipolar systems, trapped ion setups and cold atoms in cavity experiments. Our main aim is to present and identify the common and (mostly) universal features induced by long-range interactions in the behaviour of quantum many-body systems. We will discuss both the case of very strong non-local couplings, i.e. the non-additive regime, and the one in which energy is extensive, but nevertheless low-energy, long wavelength properties are altered with respect to the short-range limit. Cases of competition with other local effects in the above mentioned setups are also reviewed.
翻訳日:2023-03-16 08:25:35 公開日:2021-09-02
# 単光子ステアリング

Single-photon steering ( http://arxiv.org/abs/2109.01058v1 )

ライセンス: Link先を確認
L M Ar\'evalo Aguilar(参考訳) schr\"odinger によれば、量子力学の法則は、2つの系のみの1つについて適切な測定を行うことで、他の系の状態も決定できるだけでなく、制御可能であることを認めなければならない。 すなわち、独立した測定を行うことによって、他の物理系の状態と相互作用することなくステアリングする可能性を伝えるもので、この非局所的な現象はステアリングと呼ばれた。 一方、単一光子の非局所性に関する最初の提案は、単一の光子経路の絡み合いを用いてベル非局所性を示すことに焦点を当てている。 この単一光子の経路絡み合いは、単一の光子の操舵を解析および実験的に生産するためにも用いられた。 しかし、これらの確立された事実は、最近、単光子絡み合いが非局所的ではないことを示唆している。 本報告では、光子の内部自由度を外部経路と組み込んで操作することで、単一光子の状態を操ることによる非局所的な効果を示すことが容易であることを示す。 この意味で、我々が提案する実験的な設定は、我々の知る限りでは、ステアリング現象を示すための光子の経路の絡み合い、すなわち、この非局所効果を示すために光子の内部自由度と外部自由度の間の絡み合いを利用する。 実験における光子の内部自由度の導入は、単一光子絡み合い状態の非局所的性質を制御する新しい洞察、利点、可能性を与える。

According to Schr\"odinger, the laws of quantum mechanics obliges us to admit that by suitable measurement taken on one of the two system only1 the state of the other system can not only be determined but steered too. That is, it conveys the potential ability to steer the state of another physical system without interacting with it by implementing independent measurements, this nonlocal phenomenon was named steering. On the other hand, the first proposals about the nonlocality of a single photon focus on showing the Bell nonlocality by using a single photon path entanglement. This path entanglement of a single photon was also used for analyzing and experimentally produce the steering of a single photon. However, these established facts have been recently called into question suggesting that single-photon entanglement is not non-local. In this letter, we show that by incorporating and manipulating the internal degrees of freedom of the photon, together with the external path, it is easy to demonstrate the nonlocal effect of steering of a single photon's state. In this sense, the experimental set-up that we propose differs from the one reported in the quantum optics literature which only uses, to the best of our knowledge, the path entanglement of photons for showing the steering phenomenon, i.e. here we exploit the entanglement between the internal and external degrees of freedom of the photon to show this nonlocal effect. The introduction of the photon's internal degrees of freedom in the experimental set-up gives us new insight, advantages and possibilities to control the nonlocal character of the single-photon entangled state.
翻訳日:2023-03-16 08:25:15 公開日:2021-09-02
# リアリズムに基づく非局所性:局所ユニタリ操作下での不変性と熱相関状態に対する漸近的減衰

Realism-based nonlocality: Invariance under local unitary operations and asymptotic decay for thermal correlated states ( http://arxiv.org/abs/2109.01053v1 )

ライセンス: Link先を確認
V. S. Gomes, P. R. Dieguez, and H. M. Vasconcelos(参考訳) 現実主義に基づく非局所性(RBN)は、ベルの非局所性とは異なる最近導入された尺度である。 バイパーティイト状態の場合、RBNは、与えられた可観測性に関連する現実の要素がサブシステム上の局所的な測定によってどの程度影響を受けるかに懸念する。 本稿では、rbnのユニタリ不変性に関する解析的な証明と、ユニタリおよび非ユニタリ局所量子ノイズの作用に対する単調な振る舞いを示す。 2量子ビットのヴェルナー状態と熱量子相関状態を用いて実験結果を示す。 RBNが初期平衡温度によってどのように制限されているかを示し、特に漸近的に崩壊することを示す。 これらの結果は、RBNの量子化器と大域量子不協和器の階層関係を相関させ、RBNが非不協和状態であっても検出不能な非局所的な側面を捉えることができることを示した。 最後に、RBNを量子通信タスクのセキュリティツールとして利用する上で、我々の成果をどのように活用するかについて議論する。

The realism-based nonlocality (RBN) is a recently introduced measure that differs from the well-known Bell's nonlocality. For bipartite states, the RBN concerns how much an element of reality associated with a given observable is affected upon local measurements on a subsystem. Here, we present an analytical proof for the unitary invariance of the RBN and that it presents a monotonous behavior upon the action of unital and non-unital local quantum noise. We illustrate our results by employing the two-qubits Werner state and thermal quantum correlated states. We show how the RBN is limited by the initial equilibrium temperature and, especially, that it decays asymptotically with it. These results also corroborate the hierarchy relationship between the quantifiers of RBN and global quantum discord, showing that RBN can capture undetectable nonlocal aspects even for non-discordant states. Finally, we argue how our results can be employed to use the RBN as a security tool in quantum communication tasks.
翻訳日:2023-03-16 08:24:48 公開日:2021-09-02
# アスペクトベース感情分析のための反復的複数知識転送ネットワーク

An Iterative Multi-Knowledge Transfer Network for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2004.01935v3 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinchao Zhang, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) アスペクトベース感情分析(ABSA)は主に、アスペクト項抽出、意見項抽出、アスペクトレベルの感情分類の3つのサブタスクを含む。 しかし,従来の手法では3つのサブタスク間の相互関係をうまく利用できず,文書レベルのラベル付きドメイン/センチメントの知識を連続的に活用していない。 これらの課題に対処するため、エンド・ツー・エンドABSAのための新しいIMKTN(Iterative Multi-Knowledge Transfer Network)を提案する。 例えば、absaサブタスク間の相互相関を通じて、imktnは、よく設計されたルーティングアルゴリズム、すなわち3つのサブタスクのうち2つが3つのサブタスクの助けとなるように、トークンレベルでタスク固有の知識を2つのサブタスクから別のタスクに転送します。 別の例として、IMKTNは文書レベルの知識、すなわちドメイン固有知識と感情関連知識をアスペクトレベルのサブタスクに連続的に転送し、それに対応するパフォーマンスをさらに向上させる。 3つのベンチマークデータセットの実験結果は、我々のアプローチの有効性と優位性を示している。

Aspect-based sentiment analysis (ABSA) mainly involves three subtasks: aspect term extraction, opinion term extraction, and aspect-level sentiment classification, which are typically handled in a separate or joint manner. However, previous approaches do not well exploit the interactive relations among three subtasks and do not pertinently leverage the easily available document-level labeled domain/sentiment knowledge, which restricts their performances. To address these issues, we propose a novel Iterative Multi-Knowledge Transfer Network (IMKTN) for end-to-end ABSA. For one thing, through the interactive correlations between the ABSA subtasks, our IMKTN transfers the task-specific knowledge from any two of the three subtasks to another one at the token level by utilizing a well-designed routing algorithm, that is, any two of the three subtasks will help the third one. For another, our IMKTN pertinently transfers the document-level knowledge, i.e., domain-specific and sentiment-related knowledge, to the aspect-level subtasks to further enhance the corresponding performance. Experimental results on three benchmark datasets demonstrate the effectiveness and superiority of our approach.
翻訳日:2022-12-16 23:00:23 公開日:2021-09-02
# 深層ニューラルネットワークのためのsmoothtaylorを用いた統合勾配の理解

Understanding Integrated Gradients with SmoothTaylor for Deep Neural Network Attribution ( http://arxiv.org/abs/2004.10484v2 )

ライセンス: Link先を確認
Gary S. W. Goh, Sebastian Lapuschkin, Leander Weber, Wojciech Samek, Alexander Binder(参考訳) ディープニューラルネットワークモデルの属性方法としての統合グラディエントは、シンプルな実装性を提供する。 しかし、理解しやすさに影響を及ぼす説明のうるささに悩まされる。 スムースグレード法は,任意の勾配に基づく帰属法の帰属写像を滑らかにするために提案されている。 本稿では,テイラーの定理の観点から,統合勾配とスムースグレードを橋渡しする新しい理論概念として,s smoothtaylorを提案する。 ilsvrc2012 imagenet object recognition datasetといくつかの事前学習された画像モデルを用いて、画像分類問題に適用し、帰属マップを生成する。 これらの属性マップは感度と雑音レベルを定量的に評価する。 さらに,ノイズスケールのハイパーパラメータを最適化するための適応ノーミングを提案する。 実験の結果,SmoothTaylorアプローチと適応雑音の併用により,入力空間の関連点に対する感度が向上し,ノイズが少なく,より高品質なサリエンシマップが生成できることが判明した。

Integrated Gradients as an attribution method for deep neural network models offers simple implementability. However, it suffers from noisiness of explanations which affects the ease of interpretability. The SmoothGrad technique is proposed to solve the noisiness issue and smoothen the attribution maps of any gradient-based attribution method. In this paper, we present SmoothTaylor as a novel theoretical concept bridging Integrated Gradients and SmoothGrad, from the Taylor's theorem perspective. We apply the methods to the image classification problem, using the ILSVRC2012 ImageNet object recognition dataset, and a couple of pretrained image models to generate attribution maps. These attribution maps are empirically evaluated using quantitative measures for sensitivity and noise level. We further propose adaptive noising to optimize for the noise scale hyperparameter value. From our experiments, we find that the SmoothTaylor approach together with adaptive noising is able to generate better quality saliency maps with lesser noise and higher sensitivity to the relevant points in the input space as compared to Integrated Gradients.
翻訳日:2022-12-10 17:10:52 公開日:2021-09-02
# 垂直フェデレーション学習のための大規模セキュアxgb

Large-Scale Secure XGB for Vertical Federated Learning ( http://arxiv.org/abs/2005.08479v2 )

ライセンス: Link先を確認
Wenjing Fang, Derun Zhao, Jin Tan, Chaochao Chen, Chaofan Yu, Li Wang, Lei Wang, Jun Zhou, Benyu Zhang(参考訳) プライバシー保護機械学習は、特にプライバシー規制が施行されるにつれて、近年ますます注目を集めている。 このような状況下では、フェデレートラーニング(FL)は、複数の当事者間のプライバシー保護共同モデリングを促進する。 多くのフェデレーションアルゴリズムが広く研究されているが、文献には安全で実用的な勾配木ブースティングモデル(例えばXGB)が欠けている。 本稿では,縦型学習環境下での大規模セキュアなXGBの構築を目的とする。 データプライバシを3つの側面から保証します。 具体的には (i)訓練中に中間情報を漏らすのを避けるために,セキュアなマルチパーティ計算技術を用いる。 (二)情報公開を最小限に抑えるため、出力モデルを分散的に保存し、 (iii)分散モデルを用いてXGB予測をセキュアにするための新しいアルゴリズムを提供する。 さらに、セキュアな置換プロトコルを提案することにより、トレーニング効率を改善し、フレームワークを大規模データセットにスケールすることができる。 我々は,公開データセットと実世界のデータセットの両方について広範な実験を行い,提案するxgbモデルが競合精度だけでなく実用性能も発揮できることを実証した。

Privacy-preserving machine learning has drawn increasingly attention recently, especially with kinds of privacy regulations come into force. Under such situation, Federated Learning (FL) appears to facilitate privacy-preserving joint modeling among multiple parties. Although many federated algorithms have been extensively studied, there is still a lack of secure and practical gradient tree boosting models (e.g., XGB) in literature. In this paper, we aim to build large-scale secure XGB under vertically federated learning setting. We guarantee data privacy from three aspects. Specifically, (i) we employ secure multi-party computation techniques to avoid leaking intermediate information during training, (ii) we store the output model in a distributed manner in order to minimize information release, and (iii) we provide a novel algorithm for secure XGB predict with the distributed model. Furthermore, by proposing secure permutation protocols, we can improve the training efficiency and make the framework scale to large dataset. We conduct extensive experiments on both public datasets and real-world datasets, and the results demonstrate that our proposed XGB models provide not only competitive accuracy but also practical performance.
翻訳日:2022-12-01 23:13:44 公開日:2021-09-02
# セマンティックなスタイル伝達のためのマニフォールドアライメント

Manifold Alignment for Semantically Aligned Style Transfer ( http://arxiv.org/abs/2005.10777v2 )

ライセンス: Link先を確認
Jing Huo, Shiyin Jin, Wenbin Li, Jing Wu, Yu-Kun Lai, Yinghuan Shi, Yang Gao(参考訳) ほとんどの既存のスタイル転送手法は、スタイルがグローバル統計(例えば、グラム行列や共分散行列)で表現できるという仮定に従い、出力とスタイル画像に類似したグローバル統計を強制することによってこの問題に対処する。 別の例として、ローカルスタイルパターンの仮定があり、アルゴリズムは、コンテンツとスタイルイメージの類似したローカル特徴を交換するように設計されている。 しかし、これらの既存の手法の限界は、出力中の劣化したコンテンツ構造につながる可能性のあるコンテンツ画像の意味構造を無視していることである。 本論文では,同じ意味領域からの画像特徴が多様体を形成し,複数の意味領域を持つ画像が多次元分布に従うことを仮定する。 この仮定に基づいて、2つの多次元分布の整列化と、マニフォールドアライメントに基づくスタイル転送(MAST)フレームワークを提案する。 提案するフレームワークは、出力とスタイルイメージ間の意味的に類似した領域が類似したスタイルパターンを共有することができる。 さらに,提案手法は,ユーザ編集やセマンティックセグメンテーションマップをスタイル転送のガイダンスとして使用するために柔軟である。 本手法をフォトリアリスティックなスタイル転送に適用するために,コンテンツの詳細を保存するための適応型ウェイトスキップ接続ネットワーク構造を提案する。 広汎な実験により, 芸術的およびフォトリアリスティックなスタイル転送のための枠組みの有効性が検証された。 コードはhttps://github.com/NJUHuoJing/MASTで入手できる。

Most existing style transfer methods follow the assumption that styles can be represented with global statistics (e.g., Gram matrices or covariance matrices), and thus address the problem by forcing the output and style images to have similar global statistics. An alternative is the assumption of local style patterns, where algorithms are designed to swap similar local features of content and style images. However, the limitation of these existing methods is that they neglect the semantic structure of the content image which may lead to corrupted content structure in the output. In this paper, we make a new assumption that image features from the same semantic region form a manifold and an image with multiple semantic regions follows a multi-manifold distribution. Based on this assumption, the style transfer problem is formulated as aligning two multi-manifold distributions and a Manifold Alignment based Style Transfer (MAST) framework is proposed. The proposed framework allows semantically similar regions between the output and the style image share similar style patterns. Moreover, the proposed manifold alignment method is flexible to allow user editing or using semantic segmentation maps as guidance for style transfer. To allow the method to be applicable to photorealistic style transfer, we propose a new adaptive weight skip connection network structure to preserve the content details. Extensive experiments verify the effectiveness of the proposed framework for both artistic and photorealistic style transfer. Code is available at https://github.com/NJUHuoJing/MAST.
翻訳日:2022-11-30 23:55:42 公開日:2021-09-02
# 分散画像分類のための位相認識微分プライバシー

Topology-aware Differential Privacy for Decentralized Image Classification ( http://arxiv.org/abs/2006.07817v2 )

ライセンス: Link先を確認
Shangwei Guo, Tianwei Zhang, Guowen Xu, Han Yu, Tao Xiang, and Yang Liu(参考訳) 本稿では、分散画像分類システムの差分プライバシー保護を最適化する新しいソリューションであるTop-DPを設計する。 私たちのソリューションの重要な洞察は、分散化されたコミュニケーショントポロジのユニークな機能を活用して、ノイズスケールを削減し、モデルのユーザビリティを向上させることです。 1) このトポロジ対応ノイズ低減戦略によりDP-SGDアルゴリズムを強化し, 時間対応ノイズ減衰手法を統合する。 2)ネットワークコネクティビティやトポロジの異なるシステムを保護するために,2つの新しい学習プロトコル(同期と非同期)を設計した。 提案手法のDP要件を正式に分析し,検証する。 実験により,我々のソリューションは,従来よりもユーザビリティとプライバシのトレードオフが優れていることが示された。 私たちの知る限りでは、これはネットワークトポロジの観点から初めてdp最適化作業です。

In this paper, we design Top-DP, a novel solution to optimize the differential privacy protection of decentralized image classification systems. The key insight of our solution is to leverage the unique features of decentralized communication topologies to reduce the noise scale and improve the model usability. (1) We enhance the DP-SGD algorithm with this topology-aware noise reduction strategy, and integrate the time-aware noise decay technique. (2) We design two novel learning protocols (synchronous and asynchronous) to protect systems with different network connectivities and topologies. We formally analyze and prove the DP requirement of our proposed solutions. Experimental evaluations demonstrate that our solution achieves a better trade-off between usability and privacy than prior works. To the best of our knowledge, this is the first DP optimization work from the perspective of network topologies.
翻訳日:2022-11-21 13:31:06 公開日:2021-09-02
# 説明可能なロボットシステム:強化学習シナリオにおける目標駆動行動の理解

Explainable robotic systems: Understanding goal-driven actions in a reinforcement learning scenario ( http://arxiv.org/abs/2006.13615v3 )

ライセンス: Link先を確認
Francisco Cruz and Richard Dazeley and Peter Vamplew and Ithan Moreira(参考訳) ロボットシステムは私たちの社会に毎日存在している。 人間ロボット環境では、エンドユーザーがロボットチームパートナーを正しく理解し、タスクを協調的に完了させることが重要である。 アクション理解を高めるために、ユーザーは特定の状況においてロボットによる決定についてより説明可能性を要求する。 近年、説明可能なロボットシステムは、タスクを満足して完了させるだけでなく、人間のような方法で正当化することに焦点を当てた代替手段として登場した。 強化学習のシナリオでは、特に深層学習システムにおける視覚的入力モダリティから、データ駆動アプローチを用いた説明を提供することに重点が置かれている。 本研究では,ロボットシナリオにおけるタスクを実行する強化学習エージェントの意思決定プロセスに焦点をあてる。 実験結果は、3つの異なるセットアップ、すなわち決定論的ナビゲーションタスク、確率的ナビゲーションタスク、連続的な視覚に基づくソートオブジェクトタスクを用いて得られる。 目標駆動型ロボットの動作を説明する手段として、メモリベース、学習ベース、イントロスペクションベースの3つの異なるアプローチによって計算される成功確率を用いる。 これらのアプローチの違いは、成功の確率の計算や推定に必要なメモリ量と、それらが使用できる強化学習表現の種類である。 この点において、エージェントの観察から直接得られるため、メモリベースのアプローチをベースラインとして使用する。 このベースラインに対する学習ベースとイントロスペクションベースのアプローチを比較すると、両者は成功確率を計算するのに適した代替手段であり、ピアソンの相関と平均二乗誤差の両方を用いて比較すると高いレベルの類似性が得られる。

Robotic systems are more present in our society everyday. In human-robot environments, it is crucial that end-users may correctly understand their robotic team-partners, in order to collaboratively complete a task. To increase action understanding, users demand more explainability about the decisions by the robot in particular situations. Recently, explainable robotic systems have emerged as an alternative focused not only on completing a task satisfactorily, but also on justifying, in a human-like manner, the reasons that lead to making a decision. In reinforcement learning scenarios, a great effort has been focused on providing explanations using data-driven approaches, particularly from the visual input modality in deep learning-based systems. In this work, we focus rather on the decision-making process of reinforcement learning agents performing a task in a robotic scenario. Experimental results are obtained using 3 different set-ups, namely, a deterministic navigation task, a stochastic navigation task, and a continuous visual-based sorting object task. As a way to explain the goal-driven robot's actions, we use the probability of success computed by three different proposed approaches: memory-based, learning-based, and introspection-based. The difference between these approaches is the amount of memory required to compute or estimate the probability of success as well as the kind of reinforcement learning representation where they could be used. In this regard, we use the memory-based approach as a baseline since it is obtained directly from the agent's observations. When comparing the learning-based and the introspection-based approaches to this baseline, both are found to be suitable alternatives to compute the probability of success, obtaining high levels of similarity when compared using both the Pearson's correlation and the mean squared error.
翻訳日:2022-11-17 13:07:08 公開日:2021-09-02
# モルフォジェネティックシステムにおける探索探索のための階層的組織付き潜伏モジュール

Hierarchically Organized Latent Modules for Exploratory Search in Morphogenetic Systems ( http://arxiv.org/abs/2007.01195v3 )

ライセンス: Link先を確認
Mayalen Etcheverry, Clement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) 局所的相互作用による複雑な形態的パターンの自己組織化は、多くの自然系や人工系において興味深い現象である。 人工世界では、このような形態形成システムの典型的な例は細胞オートマトンである。 しかし、そのメカニズムを理解するのは非常に難しく、これまでのところ、新しいパターンの科学的発見は主に手動のチューニングと探索的な探索に依存している。 これらのシステムにおける自動多様性駆動探索の問題は [26, 62] 導入され、パターンの「関連する」変化度を記述するために、自律探索と教師なし表現学習の2つの重要な要素が強調された。 本稿では,メタ多様性探索(Meta-diversity search)と呼ぶものの必要性を動機付け,最終観測者とその動機に強く依存するため,独特な基礎的真理の多様性が存在しないことを論じる。 実験の連続的なゲーム・オブ・ライフシステムを用いて、動作の埋め込み設計にモノリシックなアーキテクチャを頼りにしていると、最終発見(手作業で定義した機能と教師なしの機能の両方)に偏りがちであるという実証的な証拠を提供する。 これらの課題に対処するために,多様な表現の階層の教師なし学習を可能にする,動的でモジュラーなアーキテクチャを導入する。 本システムには本質的目標探索アルゴリズムが組み合わさって,ごく少量のユーザフィードバックのみを用いて,その多様性検索をユーザの嗜好に効率的に適用可能な発見アシスタントを形成する。

Self-organization of complex morphological patterns from local interactions is a fascinating phenomenon in many natural and artificial systems. In the artificial world, typical examples of such morphogenetic systems are cellular automata. Yet, their mechanisms are often very hard to grasp and so far scientific discoveries of novel patterns have primarily been relying on manual tuning and ad hoc exploratory search. The problem of automated diversity-driven discovery in these systems was recently introduced [26, 62], highlighting that two key ingredients are autonomous exploration and unsupervised representation learning to describe "relevant" degrees of variations in the patterns. In this paper, we motivate the need for what we call Meta-diversity search, arguing that there is not a unique ground truth interesting diversity as it strongly depends on the final observer and its motives. Using a continuous game-of-life system for experiments, we provide empirical evidences that relying on monolithic architectures for the behavioral embedding design tends to bias the final discoveries (both for hand-defined and unsupervisedly-learned features) which are unlikely to be aligned with the interest of a final end-user. To address these issues, we introduce a novel dynamic and modular architecture that enables unsupervised learning of a hierarchy of diverse representations. Combined with intrinsically motivated goal exploration algorithms, we show that this system forms a discovery assistant that can efficiently adapt its diversity search towards preferences of a user using only a very small amount of user feedback.
翻訳日:2022-11-14 12:59:40 公開日:2021-09-02
# 連続ゲームにおけるヘルムホルツ分解のニュートン最適化

Newton Optimization on Helmholtz Decomposition for Continuous Games ( http://arxiv.org/abs/2007.07804v3 )

ライセンス: Link先を確認
Giorgia Ramponi and Marcello Restelli(参考訳) 多くの学習問題は、異なる対話関数を最適化する複数のエージェントを含む。 これらの問題において、標準ポリシー勾配アルゴリズムは、設定の非定常性と各エージェントの異なる関心のために失敗する。 実際、アルゴリズムは(局所的な)ナッシュ平衡への迅速な収束を保証するために、これらのシステムの複雑なダイナミクスを考慮する必要がある。 本論文では,その不等式(電位)およびソレノイド(ハミルトニアン)成分におけるシステムの力学の分解に基づく,マルチエージェント学習問題に対するNOHD(Newton Optimization on Helmholtz Decomposition)を提案する。 この方法は、純粋に非回転系と純粋なソレノイド系における二次収束を保証する。 さらに、NOHDは一般的なマルチエージェントシステムにおいて安定な固定点に惹きつけられ、厳密なサドルシステムによって撃退されることを示す。 最後に,NOHDの性能を,いくつかのビマトリクスゲームや連続Gridworld環境における最先端のアルゴリズムと比較した。

Many learning problems involve multiple agents optimizing different interactive functions. In these problems, the standard policy gradient algorithms fail due to the non-stationarity of the setting and the different interests of each agent. In fact, algorithms must take into account the complex dynamics of these systems to guarantee rapid convergence towards a (local) Nash equilibrium. In this paper, we propose NOHD (Newton Optimization on Helmholtz Decomposition), a Newton-like algorithm for multi-agent learning problems based on the decomposition of the dynamics of the system in its irrotational (Potential) and solenoidal (Hamiltonian) component. This method ensures quadratic convergence in purely irrotational systems and pure solenoidal systems. Furthermore, we show that NOHD is attracted to stable fixed points in general multi-agent systems and repelled by strict saddle ones. Finally, we empirically compare the NOHD's performance with that of state-of-the-art algorithms on some bimatrix games and in a continuous Gridworld environment.
翻訳日:2022-11-10 05:00:40 公開日:2021-09-02
# すべてのデータセットが生まれながらに等しくない:異種データと逆例について

Not All Datasets Are Born Equal: On Heterogeneous Data and Adversarial Examples ( http://arxiv.org/abs/2010.03180v2 )

ライセンス: Link先を確認
Yael Mathov, Eden Levy, Ziv Katzir, Asaf Shabtai, Yuval Elovici(参考訳) 敵対的学習に関する最近の研究は、主にニューラルネットワークや、それらのネットワークが優れているコンピュータビジョンやオーディオ処理などに焦点を当てている。 これらの領域のデータは典型的には均質であるが、不均一な表層データセット領域は、その頻度にもかかわらず未探索のままである。 異種入力空間内の逆パターンを探索する場合、攻撃者はデータの複雑なドメイン固有の妥当性ルールと同定されたサンプルの逆パターンの両方を同時に保存する必要がある。 そのため、異種データセットへの逆操作の適用は難しい課題であり、これまでのところ汎用攻撃法は提案されていない。 しかし,ヘテロジニアスな表データに基づいてトレーニングされた機械学習モデルは,画像などの連続的あるいは均質なデータでトレーニングされたものと同じくらい,逆境操作に影響を受けやすいと主張する。 この主張を支持するために,異種入力空間における逆摂動を識別するための汎用最適化フレームワークを提案する。 我々は,逆例の一貫性を保つための分布認識制約を定義し,不均質な入力を連続的潜在空間に埋め込むことでそれらを取り込む。 基礎となるデータセットの性質から、$\ell_0$の摂動に注目し、実際の運用性を示す。 異なるコンテンツ領域の3つのデータセットを用いて,提案手法の有効性を示す。 その結果,ヘテロジニアスデータセットの入力妥当性に課される制約にもかかわらず,そのようなデータを用いてトレーニングされた機械学習モデルは,相反する例に等しく影響を受けやすいことがわかった。

Recent work on adversarial learning has focused mainly on neural networks and domains where those networks excel, such as computer vision, or audio processing. The data in these domains is typically homogeneous, whereas heterogeneous tabular datasets domains remain underexplored despite their prevalence. When searching for adversarial patterns within heterogeneous input spaces, an attacker must simultaneously preserve the complex domain-specific validity rules of the data, as well as the adversarial nature of the identified samples. As such, applying adversarial manipulations to heterogeneous datasets has proved to be a challenging task, and no generic attack method was suggested thus far. We, however, argue that machine learning models trained on heterogeneous tabular data are as susceptible to adversarial manipulations as those trained on continuous or homogeneous data such as images. To support our claim, we introduce a generic optimization framework for identifying adversarial perturbations in heterogeneous input spaces. We define distribution-aware constraints for preserving the consistency of the adversarial examples and incorporate them by embedding the heterogeneous input into a continuous latent space. Due to the nature of the underlying datasets We focus on $\ell_0$ perturbations, and demonstrate their applicability in real life. We demonstrate the effectiveness of our approach using three datasets from different content domains. Our results demonstrate that despite the constraints imposed on input validity in heterogeneous datasets, machine learning models trained using such data are still equally susceptible to adversarial examples.
翻訳日:2022-10-10 00:15:41 公開日:2021-09-02
# 機械学習を用いた実験における設計パラメータに対するICF出力の感度探索

Exploring Sensitivity of ICF Outputs to Design Parameters in Experiments Using Machine Learning ( http://arxiv.org/abs/2010.04254v2 )

ライセンス: Link先を確認
Julia B. Nakhleh, M. Giselle Fern\'andez-Godino, Michael J. Grosskopf, Brandon M. Wilson, John Kline and Gowri Srinivasan(参考訳) 慣性閉じ込め核融合(ICF)における持続可能な燃焼プラットフォームの構築には、物理プロセスの複雑な結合と、重要な設計変更がインロジョン性能に与える影響を理解する必要がある。 icfインロージョンのモデル化にはシミュレーションコードを用いるが、不完全物理学や近似の必要性は予測能力を低下させる。 制御可能な設計入力と測定可能な結果の関係の同定は、将来の実験の設計とシミュレーションコードの開発を導くのに役立つ。 本稿では,機械学習(ml)とmlの特徴重要度/感度分析手法の開発を活用し,専門家の判断だけでは処理が難しい複雑な関係を識別する。 本研究では, ランダムフォレスト(rf)回帰を用いて, 設計パラメータの組による収率, 速度, および実験結果の予測を行い, 予測モデルにおける重要関係と不確実性の評価を行った。 rfモデルはicf実験データを高精度に学習・予測することができることを示し,様々なicf設計構成における制御可能な設計入力の物理的意義に関する洞察を提供する特徴重要度メトリクスを抽出する。 これらの結果は、将来のicf実験の最適設計のための専門家の直感とシミュレーション結果の強化に利用できる。

Building a sustainable burn platform in inertial confinement fusion (ICF) requires an understanding of the complex coupling of physical processes and the effects that key experimental design changes have on implosion performance. While simulation codes are used to model ICF implosions, incomplete physics and the need for approximations deteriorate their predictive capability. Identification of relationships between controllable design inputs and measurable outcomes can help guide the future design of experiments and development of simulation codes, which can potentially improve the accuracy of the computational models used to simulate ICF implosions. In this paper, we leverage developments in machine learning (ML) and methods for ML feature importance/sensitivity analysis to identify complex relationships in ways that are difficult to process using expert judgment alone. We present work using random forest (RF) regression for prediction of yield, velocity, and other experimental outcomes given a suite of design parameters, along with an assessment of important relationships and uncertainties in the prediction model. We show that RF models are capable of learning and predicting on ICF experimental data with high accuracy, and we extract feature importance metrics that provide insight into the physical significance of different controllable design inputs for various ICF design configurations. These results can be used to augment expert intuition and simulation results for optimal design of future ICF experiments.
翻訳日:2022-10-09 13:10:11 公開日:2021-09-02
# GMH:KG完了のための汎用マルチホップ推論モデル

GMH: A General Multi-hop Reasoning Model for KG Completion ( http://arxiv.org/abs/2010.07620v3 )

ライセンス: Link先を確認
Yao Zhang, Hongru Liang, Adam Jatowt, Wenqiang Lei, Xin Wei, Ning Jiang, Zhenglu Yang(参考訳) 知識グラフは多くの下流自然言語処理アプリケーションに必須であるが、典型的には多くの事実が欠落している。 これにより、探索プロセスとして定式化できるマルチホップ推論タスクの研究が行われ、現在のモデルは通常、短距離推論を行う。 しかし、長距離推論もまた、表面的に無関係な実体を接続する能力において不可欠である。 我々の知る限りでは、混合長短距離推論シナリオにおけるマルチホップ推論にアプローチする一般的なフレームワークが欠けている。 我々は、一般的なマルチホップ推論モデルには2つの重要な問題があると論じる。 i) どこに行くべきか、そして ii) いつ止まるか。 そこで我々は,3つのモジュールで問題を解く一般モデルを提案する。 1) 可能な経路を推定する局所的グローバル知識モジュール。 2)多様な経路を探索する識別されたアクションドロップアウトモジュール、及び 3)適応的な停止探索モジュールにより探索を回避。 3つのデータセットの総合的な結果は、短時間と長距離の推論シナリオの両方において、ベースラインに対する大幅な改善とともに、モデルの優越性を示しています。

Knowledge graphs are essential for numerous downstream natural language processing applications, but are typically incomplete with many facts missing. This results in research efforts on multi-hop reasoning task, which can be formulated as a search process and current models typically perform short distance reasoning. However, the long-distance reasoning is also vital with the ability to connect the superficially unrelated entities. To the best of our knowledge, there lacks a general framework that approaches multi-hop reasoning in mixed long-short distance reasoning scenarios. We argue that there are two key issues for a general multi-hop reasoning model: i) where to go, and ii) when to stop. Therefore, we propose a general model which resolves the issues with three modules: 1) the local-global knowledge module to estimate the possible paths, 2) the differentiated action dropout module to explore a diverse set of paths, and 3) the adaptive stopping search module to avoid over searching. The comprehensive results on three datasets demonstrate the superiority of our model with significant improvements against baselines in both short and long distance reasoning scenarios.
翻訳日:2022-10-07 02:49:19 公開日:2021-09-02
# 株式市場を乗っ取る:アルゴリズムトレーダーに対する敵対的摂動

Taking Over the Stock Market: Adversarial Perturbations Against Algorithmic Traders ( http://arxiv.org/abs/2010.09246v2 )

ライセンス: Link先を確認
Elior Nehemya and Yael Mathov and Asaf Shabtai and Yuval Elovici(参考訳) 近年、アルゴリズム取引を含む多くのタスクで機械学習が普及している。 株式市場のトレーダーは、機械学習モデルを使用して市場の振る舞いを予測し、それに従って投資戦略を実行する。 しかし、機械学習モデルは、逆例と呼ばれる入力操作に影響を受けやすいことが示されている。 このリスクにもかかわらず、トレーディング・ドメインは相反する学習の文脈でほとんど未開拓のままである。 本研究では,リアルタイムに入力データストリームを操作するための逆学習手法を用いて,攻撃者がアルゴリズム取引システムに影響を与える現実的なシナリオを提案する。 攻撃者は、ターゲットモデルや使用時間と無関係な普遍的な摂動を生成し、入力ストリームに追加されると、まだ知覚できないままである。 実世界の市場データストリームに対する攻撃を評価し、3つの異なる取引アルゴリズムをターゲットにする。 入力ストリームに追加すると、当社の摂動は、ホワイトボックスとブラックボックスの両方の設定で、将来の目に見えないデータポイントのトレーディングアルゴリズムを騙すことができます。 最後に,様々な緩和手法を提示し,アルゴリズム的取引ドメインに起因した制限について考察する。 これらの発見は、この領域における脅威に関する金融コミュニティへの警告として役立ち、取引領域における自動学習モデルの使用に伴うリスクに関するさらなる研究を促進するべきである。

In recent years, machine learning has become prevalent in numerous tasks, including algorithmic trading. Stock market traders utilize machine learning models to predict the market's behavior and execute an investment strategy accordingly. However, machine learning models have been shown to be susceptible to input manipulations called adversarial examples. Despite this risk, the trading domain remains largely unexplored in the context of adversarial learning. In this study, we present a realistic scenario in which an attacker influences algorithmic trading systems by using adversarial learning techniques to manipulate the input data stream in real time. The attacker creates a universal perturbation that is agnostic to the target model and time of use, which, when added to the input stream, remains imperceptible. We evaluate our attack on a real-world market data stream and target three different trading algorithms. We show that when added to the input stream, our perturbation can fool the trading algorithms at future unseen data points, in both white-box and black-box settings. Finally, we present various mitigation methods and discuss their limitations, which stem from the algorithmic trading domain. We believe that these findings should serve as an alert to the finance community about the threats in this area and promote further research on the risks associated with using automated learning models in the trading domain.
翻訳日:2022-10-05 23:28:19 公開日:2021-09-02
# 二次元運動予測学習による自己教師付き人間活動認識

Self-supervised Human Activity Recognition by Learning to Predict Cross-Dimensional Motion ( http://arxiv.org/abs/2010.13713v2 )

ライセンス: Link先を確認
Setareh Rahimi Taghanaki, Michael Rainbow, Ali Etemad(参考訳) スマートフォン加速度計データを用いた人間行動認識のための自己教師型学習法を提案する。 提案手法は2つのステップからなる。 まず、深い畳み込みニューラルネットワークを訓練して加速度計値のセグメントを予測することで、ラベルなしの入力信号の表現を学習する。 このモデルでは, x 次元と y 次元の過去の動きと現在の動きと,z 次元の値を予測するために,z 軸の過去の値を利用する。 このクロス次元予測アプローチは、モデルが強い表現を抽出するために学習する効果的な前文学習をもたらす。 次に,人間の行動認識を目的とした畳み込みブロックを凍結し,重み付けを下流ネットワークに転送する。 このタスクのために、凍ったネットワークの端に複数の完全接続層を追加し、人間の活動の分類を学ぶためにラベル付き加速度計信号で追加層を訓練します。 UCI HAR, MotionSense, HAPTの3つの活動データセットを用いて, 提案手法の性能評価を行った。 その結果,提案手法は既存の手法よりも優れており,最新の結果が得られた。

We propose the use of self-supervised learning for human activity recognition with smartphone accelerometer data. Our proposed solution consists of two steps. First, the representations of unlabeled input signals are learned by training a deep convolutional neural network to predict a segment of accelerometer values. Our model exploits a novel scheme to leverage past and present motion in x and y dimensions, as well as past values of the z axis to predict values in the z dimension. This cross-dimensional prediction approach results in effective pretext training with which our model learns to extract strong representations. Next, we freeze the convolution blocks and transfer the weights to our downstream network aimed at human activity recognition. For this task, we add a number of fully connected layers to the end of the frozen network and train the added layers with labeled accelerometer signals to learn to classify human activities. We evaluate the performance of our method on three publicly available human activity datasets: UCI HAR, MotionSense, and HAPT. The results show that our approach outperforms the existing methods and sets new state-of-the-art results.
翻訳日:2022-10-05 01:01:59 公開日:2021-09-02
# 邪魔するな! 対向的摂動を用いた現代のワイアタッピングの展開

Stop Bugging Me! Evading Modern-Day Wiretapping Using Adversarial Perturbations ( http://arxiv.org/abs/2010.12809v2 )

ライセンス: Link先を確認
Yael Mathov and Tal Ben Senior and Asaf Shabtai and Yuval Elovici(参考訳) ボイスオーバーIP(VoIP)会話のための大量監視システムは、プライバシーに大きなリスクをもたらす。 これらの自動システムは、会話の分析に学習モデルを使用し、特定のトピックを含む呼び出しを人間のエージェントにルーティングして、さらなる検査を行う。 本研究では,VoIP会話のプライバシー保護のための逆学習に基づくフレームワークを提案する。 そこで本研究では,音声ストリームに付加すると,盗聴者が自動的に会話の話題を検出するのを防止し,uap(universal adversarial perturbation)を求める新しい手法を提案する。 実験で示されたように、UAPは話者または音声長に依存しないため、必要に応じてそのボリュームをリアルタイムで変更することができる。 私たちの現実のソリューションは、外部マイクとして機能し、UAPをリアルタイムでオーディオに追加するTeensyマイクロコントローラを使っています。 さまざまなスピーカー、VoIPアプリケーション(Skype、Zoom、Slack、Google Meet)、オーディオの長さを調べます。 現実の世界における私たちの結果は、私たちのアプローチがプライバシー保護のための実現可能なソリューションであることを示唆しています。

Mass surveillance systems for voice over IP (VoIP) conversations pose a great risk to privacy. These automated systems use learning models to analyze conversations, and calls that involve specific topics are routed to a human agent for further examination. In this study, we present an adversarial-learning-based framework for privacy protection for VoIP conversations. We present a novel method that finds a universal adversarial perturbation (UAP), which, when added to the audio stream, prevents an eavesdropper from automatically detecting the conversation's topic. As shown in our experiments, the UAP is agnostic to the speaker or audio length, and its volume can be changed in real time, as needed. Our real-world solution uses a Teensy microcontroller that acts as an external microphone and adds the UAP to the audio in real time. We examine different speakers, VoIP applications (Skype, Zoom, Slack, and Google Meet), and audio lengths. Our results in the real world suggest that our approach is a feasible solution for privacy protection.
翻訳日:2022-10-03 13:48:59 公開日:2021-09-02
# 双方向伝搬によるスケーラブルグラフニューラルネットワーク

Scalable Graph Neural Networks via Bidirectional Propagation ( http://arxiv.org/abs/2010.15421v3 )

ライセンス: Link先を確認
Ming Chen, Zhewei Wei, Bolin Ding, Yaliang Li, Ye Yuan, Xiaoyong Du, Ji-Rong Wen(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータを学習するための新興分野である。 近年,大規模グラフにスケールするGNNの設計への関心が高まっている。 既存の手法のほとんどは、トレーニング時間を短縮するために「グラフサンプリング」または「レイヤーサンプリング」技術を使用している。 しかし、数十億のエッジを持つグラフに適用する場合、これらの手法は依然としてパフォーマンスやスケーラビリティの問題に苦しむ。 本稿では、特徴ベクトルとトレーニング/テストノードの両方から局所的な双方向伝搬プロセスを利用するスケーラブルなGNNであるGBPを提案する。 理論的解析により、GBPは事前計算とトレーニングフェーズの両方で線形時間以下の複雑性を実現する最初の方法であることが示された。 広範な実証実験により、GBPはトレーニング/テスト時間を大幅に減らして最先端のパフォーマンスを達成することが示された。 GBPは、6000万のノードと18億のエッジを持つグラフ上で、1台のマシンで30分未満で優れたパフォーマンスを提供できる。 GBPのコードはhttps://github.com/chennnM/GBP にある。

Graph Neural Networks (GNN) is an emerging field for learning on non-Euclidean data. Recently, there has been increased interest in designing GNN that scales to large graphs. Most existing methods use "graph sampling" or "layer-wise sampling" techniques to reduce training time. However, these methods still suffer from degrading performance and scalability problems when applying to graphs with billions of edges. This paper presents GBP, a scalable GNN that utilizes a localized bidirectional propagation process from both the feature vectors and the training/testing nodes. Theoretical analysis shows that GBP is the first method that achieves sub-linear time complexity for both the precomputation and the training phases. An extensive empirical study demonstrates that GBP achieves state-of-the-art performance with significantly less training/testing time. Most notably, GBP can deliver superior performance on a graph with over 60 million nodes and 1.8 billion edges in less than half an hour on a single machine. The codes of GBP can be found at https://github.com/chennnM/GBP .
翻訳日:2022-10-01 23:20:11 公開日:2021-09-02
# 非線形推定のためのロバスト多段モデルに基づく最適実験の設計

Robust multi-stage model-based design of optimal experiments for nonlinear estimation ( http://arxiv.org/abs/2011.06042v2 )

ライセンス: Link先を確認
Anwesh Reddy Gottu Mukkula, Michal Mate\'a\v{s}, Miroslav Fikar, Radoslav Paulen(参考訳) 本研究では,モデルに基づく実験の高次設計へのアプローチについて検討する。 これらのアプローチは、パラメトリック不確かさの影響を考慮し、最適実験の設計のためのモデルベース方法論の堅牢化を提供する。 線形信頼領域を用いた非線形最小二乗パラメータ推定の枠組みにおける実験のロバスト最適設計の問題について検討する。 本稿では,いくつかのロバスト化フレームワークについて検討し,多段階ロバスト最適化に基づく新しい手法を提案する。 提案手法は, 実験を連続的に設計し, 実験間での再推定を行う問題を対象としている。 多段階形式論は、パラメータの知識が乏しい実験の初期段階でより優れた実験を特定するのに役立つ。 様々な複雑さの4つのケーススタディを用いて,提案手法の発見と有効性を示す。

We study approaches to robust model-based design of experiments in the context of maximum-likelihood estimation. These approaches provide robustification of model-based methodologies for the design of optimal experiments by accounting for the effect of the parametric uncertainty. We study the problem of robust optimal design of experiments in the framework of nonlinear least-squares parameter estimation using linearized confidence regions. We investigate several well-known robustification frameworks in this respect and propose a novel methodology based on multi-stage robust optimization. The proposed methodology aims at problems, where the experiments are designed sequentially with a possibility of re-estimation in-between the experiments. The multi-stage formalism aids in identifying experiments that are better conducted in the early phase of experimentation, where parameter knowledge is poor. We demonstrate the findings and effectiveness of the proposed methodology using four case studies of varying complexity.
翻訳日:2022-09-26 23:58:42 公開日:2021-09-02
# CT画像からのCOVID-19診断のための説明可能な半教師付き表現学習

Explainable-by-design Semi-Supervised Representation Learning for COVID-19 Diagnosis from CT Imaging ( http://arxiv.org/abs/2011.11719v3 )

ライセンス: Link先を確認
Abel D\'iaz Berenguer, Hichem Sahli, Boris Joukovsky, Maryna Kvasnytsia, Ine Dirks, Mitchel Alioscha-Perez, Nikos Deligiannis, Panagiotis Gonidakis, Sebasti\'an Amador S\'anchez, Redona Brahimetaj, Evgenia Papavasileiou, Jonathan Cheung-Wai Chana, Fei Li, Shangzhen Song, Yixin Yang, Sofie Tilborghs, Siri Willems, Tom Eelbode, Jeroen Bertels, Dirk Vandermeulen, Frederik Maes, Paul Suetens, Lucas Fidon, Tom Vercauteren, David Robben, Arne Brys, Dirk Smeets, Bart Ilsen, Nico Buls, Nina Watt\'e, Johan de Mey, Annemiek Snoeckx, Paul M. Parizel, Julien Guiot, Louis Deprez, Paul Meunier, Stefaan Gryspeerdt, Kristof De Smet, Bart Jansen, Jef Vandemeulebroucke(参考訳) 当社のモチベーションアプリケーションは現実の課題である:CT画像からのCOVID-19分類。これは、半教師付き分類パイプラインに基づく、効率的な特徴埋め込みを抽出するための変分オートエンコーダを用いた説明可能なディープラーニングアプローチを示す。 我々はct画像に2つの異なるネットワークのアーキテクチャを最適化した。 (i)新しい条件付き変分オートエンコーダ(CVAE)は、エンコーダ層の内部にクラスラベルを統合し、エンコーダの共有注意層と側情報を併用し、表現学習の文脈的手がかりを最大限に活用する特定のアーキテクチャである。 (II)CVAEのエンコーダ構造を用いた教師付き分類のための下流畳み込みニューラルネットワーク。 説明可能な分類結果から, 提案する診断システムは, 新型コロナウイルスの分類に極めて有効である。 質的かつ定量的に得られた有望な結果に基づいて, 大規模臨床研究において, 開発した技術が広く展開されていることを概説する。

Our motivating application is a real-world problem: COVID-19 classification from CT imaging, for which we present an explainable Deep Learning approach based on a semi-supervised classification pipeline that employs variational autoencoders to extract efficient feature embedding. We have optimized the architecture of two different networks for CT images: (i) a novel conditional variational autoencoder (CVAE) with a specific architecture that integrates the class labels inside the encoder layers and uses side information with shared attention layers for the encoder, which make the most of the contextual clues for representation learning, and (ii) a downstream convolutional neural network for supervised classification using the encoder structure of the CVAE. With the explainable classification results, the proposed diagnosis system is very effective for COVID-19 classification. Based on the promising results obtained qualitatively and quantitatively, we envisage a wide deployment of our developed technique in large-scale clinical studies.Code is available at https://git.etrovub.be/AVSP/ct-based-covid-19-diagnostic-tool.git.
翻訳日:2022-09-22 03:05:20 公開日:2021-09-02
# USCL:ビデオコントラスト表現学習による深部超音波画像診断モデルの構築

USCL: Pretraining Deep Ultrasound Image Diagnosis Model through Video Contrastive Representation Learning ( http://arxiv.org/abs/2011.13066v2 )

ライセンス: Link先を確認
Yixiong Chen, Chunhui Zhang, Li Liu, Cheng Feng, Changfeng Dong, Yongfang Luo, Xiang Wan(参考訳) ほとんどの深層ニューラルネットワーク(dnn)ベースの超音波(us)医療画像解析モデルは、モデル一般化のために事前訓練されたバックボーン(例えばimagenet)を使用する。 しかし、自然画像と医療画像のドメイン間ギャップは避けられないパフォーマンスボトルネックを引き起こします。 この問題を緩和するため、US-4という名前の米国データセットが、同じドメイン上で直接事前トレーニングするために構築されている。 4つの米国のビデオサブデータセットから23,000枚以上の画像が含まれている。 US-4 から頑健な特徴を学習するために,USCL という半教師付きコントラスト学習手法を提案する。 負のペア間の高い類似性を回避するため,USCLでは,コントラスト最適化の単一ステップにおける機能強化のために,サンプルペア生成法を採用している。 いくつかの下流タスクに対する大規模な実験は、ImageNet事前トレーニングや他のSOTA事前トレーニングアプローチに対するUSCL事前トレーニングの優位性を示している。 特に、USCL事前トレーニングバックボーンは、ImageNet事前トレーニングモデルの84%よりも10%高いPOCUSデータセットで94%以上の微調整精度を達成する。 この作業のソースコードはhttps://github.com/983632847/usclで入手できる。

Most deep neural networks (DNNs) based ultrasound (US) medical image analysis models use pretrained backbones (e.g., ImageNet) for better model generalization. However, the domain gap between natural and medical images causes an inevitable performance bottleneck. To alleviate this problem, an US dataset named US-4 is constructed for direct pretraining on the same domain. It contains over 23,000 images from four US video sub-datasets. To learn robust features from US-4, we propose an US semi-supervised contrastive learning method, named USCL, for pretraining. In order to avoid high similarities between negative pairs as well as mine abundant visual features from limited US videos, USCL adopts a sample pair generation method to enrich the feature involved in a single step of contrastive optimization. Extensive experiments on several downstream tasks show the superiority of USCL pretraining against ImageNet pretraining and other state-of-the-art (SOTA) pretraining approaches. In particular, USCL pretrained backbone achieves fine-tuning accuracy of over 94% on POCUS dataset, which is 10% higher than 84% of the ImageNet pretrained model. The source codes of this work are available at https://github.com/983632847/USCL.
翻訳日:2022-09-21 01:54:02 公開日:2021-09-02
# (参考訳) Argument Miningのための木制約グラフニューラルネットワーク

Tree-Constrained Graph Neural Networks For Argument Mining ( http://arxiv.org/abs/2110.00124v1 )

ライセンス: CC BY-SA 4.0
Federico Ruggeri, Marco Lippi, Paolo Torroni(参考訳) 本稿では,グラフニューラルネットワークのための新しいアーキテクチャを提案する。木核の背後にある概念に触発され,それらの共通部分構造であるフラグメントを考慮に入れて,木間の類似度を測定する。 学習問題に対して一連の正規化制約を課すことで、埋め込みを生成するノードソフト代入関数にそのようなフラグメントの概念を組み込んだプール機構を利用する。 本稿では,いくつかの引数マイニングコーパス上で行った文分類タスクの収集に関する広範囲な実験評価を行い,提案手法が最先端技術に対して有効であることを示す。

We propose a novel architecture for Graph Neural Networks that is inspired by the idea behind Tree Kernels of measuring similarity between trees by taking into account their common substructures, named fragments. By imposing a series of regularization constraints to the learning problem, we exploit a pooling mechanism that incorporates such notion of fragments within the node soft assignment function that produces the embeddings. We present an extensive experimental evaluation on a collection of sentence classification tasks conducted on several argument mining corpora, showing that the proposed approach performs well with respect to state-of-the-art techniques.
翻訳日:2021-10-10 17:28:11 公開日:2021-09-02
# (参考訳) MemBERT:非構造化知識をBERTに注入する

MemBERT: Injecting Unstructured Knowledge into BERT ( http://arxiv.org/abs/2110.00125v1 )

ライセンス: CC BY-SA 4.0
Federico Ruggeri, Marco Lippi, Paolo Torroni(参考訳) トランスフォーマーは様々な方法で現代のnlpを変えた。 しかし、ドメインの知識をほとんど活用できず、他のブラックボックスモデルと同様に解釈性に欠ける。 残念ながら、構造化された知識注入は、長期的には、知識獲得のボトルネックに苦しむリスクがあります。 そこで本稿では,非構造化領域知識を自然言語で表現したトランスフォーマーモデルのメモリ拡張を提案する。 2つの難解なnlpタスクを実験的に評価した結果、本手法はベースライントランスフォーマティブベースのアーキテクチャよりも優れた性能とモデル解釈性をもたらすことが示された。

Transformers changed modern NLP in many ways. However, they can hardly exploit domain knowledge, and like other blackbox models, they lack interpretability. Unfortunately, structured knowledge injection, in the long run, risks to suffer from a knowledge acquisition bottleneck. We thus propose a memory enhancement of transformer models that makes use of unstructured domain knowledge expressed in plain natural language. An experimental evaluation conducted on two challenging NLP tasks demonstrates that our approach yields better performance and model interpretability than baseline transformer-based architectures.
翻訳日:2021-10-10 17:13:00 公開日:2021-09-02
# (参考訳) IoTセンサのドリフトに対処する機械学習アプローチの評価

Assessing Machine Learning Approaches to Address IoT Sensor Drift ( http://arxiv.org/abs/2109.04356v1 )

ライセンス: CC BY 4.0
Haining Zheng and Antonio Paiva(参考訳) IoTセンサの普及と、さまざまな産業やアプリケーションへの展開は、このビッグデータ時代に多くの分析機会をもたらしました。 しかし、これらのセンサ測定のドリフトは、データ分析の自動化と、モデルを効果的にトレーニングし、継続的にデプロイする能力に大きな課題をもたらす。 本稿では,現実的な条件下でのセンサドリフトに対処し,適応する能力について,文献からのいくつかのアプローチを研究・検証する。 これらのアプローチのほとんどは最近のものであり、現在の最先端の代表である。 テストは、時間とともに漂流するガスセンサーのデータセットで実施された。 その結果,センサドリフトによるセンシング性能の低下がみられた。 次に, 今後の研究に向けた今後の課題と今後の課題について概説する。

The proliferation of IoT sensors and their deployment in various industries and applications has brought about numerous analysis opportunities in this Big Data era. However, drift of those sensor measurements poses major challenges to automate data analysis and the ability to effectively train and deploy models on a continuous basis. In this paper we study and test several approaches from the literature with regard to their ability to cope with and adapt to sensor drift under realistic conditions. Most of these approaches are recent and thus are representative of the current state-of-the-art. The testing was performed on a publicly available gas sensor dataset exhibiting drift over time. The results show substantial drops in sensing performance due to sensor drift in spite of the approaches. We then discuss several issues identified with current approaches and outline directions for future research to tackle them.
翻訳日:2021-09-12 11:27:29 公開日:2021-09-02
# mutualgraphnet:運動画像分類のための新しいモデル

MutualGraphNet: A novel model for motor imagery classification ( http://arxiv.org/abs/2109.04361v1 )

ライセンス: Link先を確認
Yan Li, Ning Zhong, David Taniar, Haolan Zhang(参考訳) 運動画像分類は、運動障害を持つヒトにとって非常に重要であり、運動画像脳波(EEG)チャネルから効果的特徴を抽出し、活用する方法が常に注目されている。 運動画像分類には様々な方法があるが、人間の脳に対する限られた理解は脳波データの特徴を抽出するより効果的な方法を必要とする。 グラフニューラルネットワーク(gnns)は、グラフ構造の分類においてその効果を実証しており、gnnの使用は、脳構造接続特徴抽出に新たな可能性を提供する。 本稿では,MutualGraphNetと呼ばれる生の脳波チャネルの相互情報に基づく新しいグラフニューラルネットワークを提案する。 この相互情報を,空間時間グラフ畳み込みネットワーク(ST-GCN)と組み合わせることで,運動画像脳波(EEG)チャネルデータの遷移規則をより効率的に抽出することができる。 運動画像脳波データセットを用いて実験を行い、現在の最先端手法と比較し、MutualGraphNetは解釈可能な特徴を学習し、現在の最先端手法よりも優れていることを示す。

Motor imagery classification is of great significance to humans with mobility impairments, and how to extract and utilize the effective features from motor imagery electroencephalogram(EEG) channels has always been the focus of attention. There are many different methods for the motor imagery classification, but the limited understanding on human brain requires more effective methods for extracting the features of EEG data. Graph neural networks(GNNs) have demonstrated its effectiveness in classifying graph structures; and the use of GNN provides new possibilities for brain structure connection feature extraction. In this paper we propose a novel graph neural network based on the mutual information of the raw EEG channels called MutualGraphNet. We use the mutual information as the adjacency matrix combined with the spatial temporal graph convolution network(ST-GCN) could extract the transition rules of the motor imagery electroencephalogram(EEG) channels data more effectively. Experiments are conducted on motor imagery EEG data set and we compare our model with the current state-of-the-art approaches and the results suggest that MutualGraphNet is robust enough to learn the interpretable features and outperforms the current state-of-the-art methods.
翻訳日:2021-09-12 10:55:48 公開日:2021-09-02
# (参考訳) 多変量時系列予測のためのマルチビューマルチタスク学習フレームワーク

A Multi-view Multi-task Learning Framework for Multi-variate Time Series Forecasting ( http://arxiv.org/abs/2109.01657v1 )

ライセンス: CC BY 4.0
Jinliang Deng, Xiusi Chen, Renhe Jiang, Xuan Song, Ivor W. Tsang(参考訳) MTS(Multi-variate Time Series)データは、現実世界におけるデータ抽象化のユビキタスクラスである。 MTSの任意のインスタンスはハイブリッド力学系から生成され、その特定のダイナミクスは通常不明である。 このような力学系のハイブリッドな性質は、地理的な位置や日時といった複雑な外的属性の結果であり、それぞれの属性は空間的属性または時間的属性に分類できる。 したがって、MSSデータ、すなわち空間ビューと時間ビューを分析するために使用できる2つの基本的なビューがある。 さらに,これら2つのビューのそれぞれから,MSSのデータサンプルの集合を,それらの属性値に応じて不整合予測タスクに分割することができる。 そして、同じタスクのサンプルが、同じパターンを示す。これは、元のシングルビュー設定と比較して予測されるほど洗練されていない。 そこで本研究では,MTS予測のための新しいマルチビューマルチタスク(MVMT)学習フレームワークを提案する。 ほとんどのシナリオで明示的に提示される代わりに、mvmt情報はmtsデータに深く隠蔽され、モデルがそれを自然に捉えるのを著しく妨げます。 この目的のために,タスクワイドアフィン変換とタスクワイド正規化という2種類の基本演算を開発した。 これら2つの操作と事前知識を空間的および時間的視点に適用することにより、予測中にMVMT情報を適応的に抽出することができる。 3つのデータセットの大規模な実験を行い、MVMT学習フレームワークにより、有効性と効率の両面において、標準的アーキテクチャが大幅に向上可能であることを示す。 さらに,予測手順全体の異なるフェーズで生成される表現の特性を明らかにするために,リッチケーススタディを設計した。

Multi-variate time series (MTS) data is a ubiquitous class of data abstraction in the real world. Any instance of MTS is generated from a hybrid dynamical system and their specific dynamics are usually unknown. The hybrid nature of such a dynamical system is a result of complex external attributes, such as geographic location and time of day, each of which can be categorized into either spatial attributes or temporal attributes. Therefore, there are two fundamental views which can be used to analyze MTS data, namely the spatial view and the temporal view. Moreover, from each of these two views, we can partition the set of data samples of MTS into disjoint forecasting tasks in accordance with their associated attribute values. Then, samples of the same task will manifest similar forthcoming pattern, which is less sophisticated to be predicted in comparison with the original single-view setting. Considering this insight, we propose a novel multi-view multi-task (MVMT) learning framework for MTS forecasting. Instead of being explicitly presented in most scenarios, MVMT information is deeply concealed in the MTS data, which severely hinders the model from capturing it naturally. To this end, we develop two kinds of basic operations, namely task-wise affine transformation and task-wise normalization, respectively. Applying these two operations with prior knowledge on the spatial and temporal view allows the model to adaptively extract MVMT information while predicting. Extensive experiments on three datasets are conducted to illustrate that canonical architectures can be greatly enhanced by the MVMT learning framework in terms of both effectiveness and efficiency. In addition, we design rich case studies to reveal the properties of representations produced at different phases in the entire prediction procedure.
翻訳日:2021-09-09 05:36:28 公開日:2021-09-02
# (参考訳) インド人COVID-19患者の重症度と死亡率予測モデル

Severity and Mortality Prediction Models to Triage Indian COVID-19 Patients ( http://arxiv.org/abs/2109.02485v1 )

ライセンス: CC BY 4.0
Samarth Bhatia (1), Yukti Makhija (1), Shalendra Singh (2), Ishaan Gupta (1) ((1) Indian Institute of Technology, Delhi, (2) Armed Forces Medical College, Pune)(参考訳) インド第2波が緩和する中、新型コロナウイルスは全国で約2900万人の患者に感染し、350万人以上の死者を出した。 感染が急増すると、国内の医療インフラの負担が顕著になった。 国が人口を予防接種する一方で、経済の開放は感染率の上昇につながる可能性がある。 このシナリオでは、臨床パラメーターに基づいたインフォームド患者トリージングシステムにより、限られた病院資源を効果的に活用することが不可欠である。 そこで本研究では,インド人の入院日における血液パラメータの非侵襲的サーベイランスに基づいて,患者の予後,重症度,死亡率を予測する2つの解釈可能な機械学習モデルを提案する。 患者の重症度と死亡率予測モデルはそれぞれ86.3%と88.06%に達し、AUC-ROCは0.91と0.92である。 どちらのモデルもユーザフレンドリーなWebアプリ電卓 https://triage-COVID-19.herokuapp.com/ に統合して、そのような取り組みを大規模に展開する可能性を示している。

As the second wave in India mitigates, COVID-19 has now infected about 29 million patients countrywide, leading to more than 350 thousand people dead. As the infections surged, the strain on the medical infrastructure in the country became apparent. While the country vaccinates its population, opening up the economy may lead to an increase in infection rates. In this scenario, it is essential to effectively utilize the limited hospital resources by an informed patient triaging system based on clinical parameters. Here, we present two interpretable machine learning models predicting the clinical outcomes, severity, and mortality, of the patients based on routine non-invasive surveillance of blood parameters from one of the largest cohorts of Indian patients at the day of admission. Patient severity and mortality prediction models achieved 86.3% and 88.06% accuracy, respectively, with an AUC-ROC of 0.91 and 0.92. We have integrated both the models in a user-friendly web app calculator, https://triage-COVID-19.herokuapp.com/, to showcase the potential deployment of such efforts at scale.
翻訳日:2021-09-09 05:11:54 公開日:2021-09-02
# 糖尿病患者の血糖値予測のためのディープニューラルネットワークの現状に関する批判的レビュー

A Critical Review of the state-of-the-art on Deep Neural Networks for Blood Glucose Prediction in Patients with Diabetes ( http://arxiv.org/abs/2109.02178v1 )

ライセンス: Link先を確認
Felix Tena, Oscar Garnica, Juan Lanchares and J. Ignacio Hidalgo(参考訳) 本稿では,最近提案された10種類のニューラルネットワークを比較し,血糖値予測のためのアンサンブルニューラルネットワークモデルを提案する。 これらはすべて、同じデータセット、前処理ワークフロー、OttoT1DMデータセットを使用して、30,60,120分という3つの異なる予測地平線でテストされる。 我々は、血糖予測における最も一般的な指標を用いて、その性能を比較し、複数のアルゴリズムのパフォーマンスの統計的比較のために考案された3つの手法を用いて、最高のパフォーマンスを示す。 本分析では, 最高の予測因子となる確率が最も高いモデルに注目し, 最良のモデルに対して, より粗悪な性能を示すモデルの誤差の増加を推定し, 臨床実習におけるそれらの使用指針を提供する。

This article compares ten recently proposed neural networks and proposes two ensemble neural network-based models for blood glucose prediction. All of them are tested under the same dataset, preprocessing workflow, and tools using the OhioT1DM Dataset at three different prediction horizons: 30, 60, and 120 minutes. We compare their performance using the most common metrics in blood glucose prediction and rank the best-performing ones using three methods devised for the statistical comparison of the performance of multiple algorithms: scmamp, model confidence set, and superior predictive ability. Our analysis highlights those models with the highest probability of being the best predictors, estimates the increase in error of the models that perform more poorly with respect to the best ones, and provides a guide for their use in clinical practice.
翻訳日:2021-09-07 17:27:25 公開日:2021-09-02
# クラウドにおけるデータサイエンスと機械学習: 未来への展望

Data science and Machine learning in the Clouds: A Perspective for the Future ( http://arxiv.org/abs/2109.01661v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua(参考訳) 科学分野におけるパラダイムシフトの始まりが急速に近づいている中、データ駆動科学(いわゆる第四科学パラダイム)は、研究とイノベーションの原動力となるでしょう。 医学から生物多様性、天文学、地質学まで、これらの用語は何らかの形でこのパラダイムシフトに影響されるでしょう。 この新たなパラダイムの下で処理される大量のデータは、将来大きな懸念事項であり、これらの計算のすべての側面(ストレージから計算、その他のサービス)において、クラウドベースのサービスを必要とする。 もう一つの側面は、計算の見方を変える科学的パラダイムの中での予測ジョブとタスクのエネルギー消費とパフォーマンスである。 データサイエンスは機械学習、信号/画像/画像処理関連アルゴリズム、人工知能、ロボティクス、健康情報学、ジオインフォマティクス、その他多くの分野に多大な影響を与えている。 したがって、私たちは、既存のクラウドベースのプラットフォームとサービスの助けを借りて、データサイエンスが約束を果たすことができる時代を思い起こします。 本稿では、データ駆動科学と機械学習について、今後どのようにクラウドベースのサービスを通じてリンクされるのかについて論じる。 さらに氏は、最近の近似コンピューティングや量子コンピューティングなどのパラダイムの台頭や、ビッグデータ処理、データサイエンス、分析、予測、クラウド環境における機械学習の適用性についても論じている。

As we are fast approaching the beginning of a paradigm shift in the field of science, Data driven science (the so called fourth science paradigm) is going to be the driving force in research and innovation. From medicine to biodiversity and astronomy to geology, all these terms are somehow going to be affected by this paradigm shift. The huge amount of data to be processed under this new paradigm will be a major concern in the future and one will strongly require cloud based services in all the aspects of these computations (from storage to compute and other services). Another aspect will be energy consumption and performance of prediction jobs and tasks within such a scientific paradigm which will change the way one sees computation. Data science has heavily impacted or rather triggered the emergence of Machine Learning, Signal/Image/Video processing related algorithms, Artificial intelligence, Robotics, health informatics, geoinformatics, and many more such areas of interest. Hence, we envisage an era where Data science can deliver its promises with the help of the existing cloud based platforms and services with the addition of new services. In this article, we discuss about data driven science and Machine learning and how they are going to be linked through cloud based services in the future. It also discusses the rise of paradigms like approximate computing, quantum computing and many more in recent times and their applicability in big data processing, data science, analytics, prediction and machine learning in the cloud environments.
翻訳日:2021-09-07 17:24:18 公開日:2021-09-02
# 解釈可能なインターバルタイプ2ニューロファジーシステムによる歩行周期解析に基づくパーキンソン病の診断

Parkinson's Disease Diagnosis based on Gait Cycle Analysis Through an Interpretable Interval Type-2 Neuro-Fuzzy System ( http://arxiv.org/abs/2109.02442v1 )

ライセンス: Link先を確認
Armin Salimi-Badr, Mohammad Hashemi, Hamidreza Saffari(参考訳) 本稿では,歩行周期の分析に基づいてパーキンソン病(pd)患者を検出するためのインターバルタイプ2ファジィニューラルネットワークを用いた解釈可能な分類器を提案する。 提案手法は, 垂直地中反応力(vGRF)から抽出した臨床特徴を利用して, 被験者の靴底に16個のウェアラブルセンサを設置し, ファジィ規則を解釈する。 そこで専門家は,解釈可能なファジィ規則の発火強度を調査し,提案手法による決定を検証できる。 さらに専門家は、抽出したファジィルールを患者の知識に基づいて診断や調整に利用することができる。 不確かさとノイズセンサ測定に対する提案手法のロバスト性を向上させるために,区間タイプ2ファジィ論理を適用した。 ファジィルールを学ぶために、1- 利用可能なサンプルのクラスタリングに基づくバッチ学習アプローチを適用して最初のファジィルールを抽出する2- 新たなラベル付きサンプルに遭遇するルールベースを改善するために、補完的なオンライン学習を提案する。 本手法の性能は、騒音の有無や新しい症例を観察するなど、異なる条件下で患者と健常者を分類するために評価される。 さらに、モデルの性能は、以前の教師なしと教師なしの機械学習アプローチと比較される。 提案手法の最終精度、精度、リコール、f1スコアは88.74%、89.41%、95.10%、92.16%である。 最後に、各特徴に対する抽出されたファジィ集合を報告する。

In this paper, an interpretable classifier using an interval type-2 fuzzy neural network for detecting patients suffering from Parkinson's Disease (PD) based on analyzing the gait cycle is presented. The proposed method utilizes clinical features extracted from the vertical Ground Reaction Force (vGRF), measured by 16 wearable sensors placed in the soles of subjects' shoes and learns interpretable fuzzy rules. Therefore, experts can verify the decision made by the proposed method based on investigating the firing strength of interpretable fuzzy rules. Moreover, experts can utilize the extracted fuzzy rules for patient diagnosing or adjust them based on their knowledge. To improve the robustness of the proposed method against uncertainty and noisy sensor measurements, Interval Type-2 Fuzzy Logic is applied. To learn fuzzy rules, two paradigms are proposed: 1- A batch learning approach based on clustering available samples is applied to extract initial fuzzy rules, 2- A complementary online learning is proposed to improve the rule base encountering new labeled samples. The performance of the method is evaluated for classifying patients and healthy subjects in different conditions including the presence of noise or observing new instances. Moreover, the performance of the model is compared to some previous supervised and unsupervised machine learning approaches. The final Accuracy, Precision, Recall, and F1 Score of the proposed method are 88.74%, 89.41%, 95.10%, and 92.16%. Finally, the extracted fuzzy sets for each feature are reported.
翻訳日:2021-09-07 16:55:15 公開日:2021-09-02
# ドライアイ病における人工知能

Artificial Intelligence in Dry Eye Disease ( http://arxiv.org/abs/2109.01658v1 )

ライセンス: Link先を確認
Andrea M. Stor{\aa}s, Inga Str\"umke, Michael A. Riegler, Jakob Grauslund, Hugo L. Hammer, Anis Yazidi, P{\aa}l Halvorsen, Kjell G. Gundersen, Tor P. Utheim, Catherine Jackson(参考訳) ドライアイ病 (dry eye disease, ded) は、診断基準と研究対象の人口に応じて、5〜50\%の有病率を持つ。 しかし、眼科における最も診断や治療の少ない疾患の1つである。 DEDの診断に使用される多くの検査は、経験豊富な観察者による画像解釈に依存しており、それは主観的であり、診断のバリエーションをもたらす可能性がある。 人工知能(AI)システムは高度な問題解決が可能であるため、そのような技術を使用することでより客観的な診断につながる可能性がある。 一般的に「AI」という言葉が用いられるが、近年の医学への応用は、画像の自動分類や医療結果の予測に使用されている機械学習のサブ分野の進歩が主な原因である。 患者データと医療画像のニュアンスを理解するために、強力な機械学習技術が活用され、病気の重症度の一貫した診断と成層化を目指している。 これは、DEDにおけるAIの使用に関する最初の文献レビューである。 我々は,AIの簡単な紹介,DED研究における利用状況と臨床応用の可能性について報告する。 我々のレビューでは、AIは幅広いDED臨床検査や研究応用に使われており、主に干渉計、スリットランプ、メボグラフィー画像の解釈に使われている。 最初の結果は有望だが、モデル開発、臨床テスト、標準化にはまだ多くの作業が必要である。

Dry eye disease (DED) has a prevalence of between 5 and 50\%, depending on the diagnostic criteria used and population under study. However, it remains one of the most underdiagnosed and undertreated conditions in ophthalmology. Many tests used in the diagnosis of DED rely on an experienced observer for image interpretation, which may be considered subjective and result in variation in diagnosis. Since artificial intelligence (AI) systems are capable of advanced problem solving, use of such techniques could lead to more objective diagnosis. Although the term `AI' is commonly used, recent success in its applications to medicine is mainly due to advancements in the sub-field of machine learning, which has been used to automatically classify images and predict medical outcomes. Powerful machine learning techniques have been harnessed to understand nuances in patient data and medical images, aiming for consistent diagnosis and stratification of disease severity. This is the first literature review on the use of AI in DED. We provide a brief introduction to AI, report its current use in DED research and its potential for application in the clinic. Our review found that AI has been employed in a wide range of DED clinical tests and research applications, primarily for interpretation of interferometry, slit-lamp and meibography images. While initial results are promising, much work is still needed on model development, clinical testing and standardisation.
翻訳日:2021-09-07 16:50:16 公開日:2021-09-02
# モデルベースオプティマイザを付加した蓄電池用蓄電池の強化学習

Reinforcement Learning for Battery Energy Storage Dispatch augmented with Model-based Optimizer ( http://arxiv.org/abs/2109.01659v1 )

ライセンス: Link先を確認
Gayathri Krishnamoorthy and Anamika Dubey(参考訳) 電力配電系統における最適潮流問題(OPF)の解決には強化学習が有用である。 しかし,電力グリッドの物理モデルを完全に無視するモデルフリー強化学習アルゴリズムを用いることで,最適化性能が損なわれ,スケーラビリティの課題が生じる。 本稿では,物理モデルと模倣学習を用いた学習アルゴリズムを相乗的に組み合わせて分布レベルのOPF問題を解決する手法を提案する。 具体的には,電力配電系統における蓄電池ディスパッチの特定の事例に対するOPF問題を解決するために,深部強化学習法(DRL)の模倣学習に基づく改善を提案する。 提案した模倣学習アルゴリズムは、線形化モデルベースOPFソルバから得られる近似最適解を用いて、訓練効率を向上しながらDRLアルゴリズムに優れた初期ポリシーを提供する。 提案手法の有効性をIEEE 34-bus と 123-bus の配電システムを用いて実証した。

Reinforcement learning has been found useful in solving optimal power flow (OPF) problems in electric power distribution systems. However, the use of largely model-free reinforcement learning algorithms that completely ignore the physics-based modeling of the power grid compromises the optimizer performance and poses scalability challenges. This paper proposes a novel approach to synergistically combine the physics-based models with learning-based algorithms using imitation learning to solve distribution-level OPF problems. Specifically, we propose imitation learning based improvements in deep reinforcement learning (DRL) methods to solve the OPF problem for a specific case of battery storage dispatch in the power distribution systems. The proposed imitation learning algorithm uses the approximate optimal solutions obtained from a linearized model-based OPF solver to provide a good initial policy for the DRL algorithms while improving the training efficiency. The effectiveness of the proposed approach is demonstrated using IEEE 34-bus and 123-bus distribution feeders with numerous distribution-level battery storage systems.
翻訳日:2021-09-07 16:49:54 公開日:2021-09-02
# モンテカルロ確率最適化(MOST)のディープラーニングへの応用

Application of Monte Carlo Stochastic Optimization (MOST) to Deep Learning ( http://arxiv.org/abs/2109.02441v1 )

ライセンス: Link先を確認
Sin-ichi Inage, Hana Hebishima(参考訳) 本稿では,著者らが提案したモンテカルロ確率最適化(MOST)をXORゲートの深層学習に適用し,その有効性を検証する。 ニューラルネットワークに基づくディープラーニングは、今日の高度情報社会におけるイノベーションを駆動する最も重要なキーワードの1つである。 そのため、大規模・高速・高精度のシステムの研究が盛んである。 目的関数の最適値を効率的に探索するために、著者は目的関数を構成する多変数パラメータの探索領域をパラメータ毎に2つに分割し、モンテカルロ法による2つの領域の統合を数値的に発見し、積分値の大きさを比較し、小さな領域に最適点が存在すると判断する。 本稿では,最適化手法におけるベンチマークの問題点について検討した。 この手法はxorゲートのニューラルネットワークに適用され、adamとgenetic algorithmによる重み係数最適化の結果と比較される。 その結果,既存の方法よりも早く収束することが確認された。

In this paper, we apply the Monte Carlo stochastic optimization (MOST) proposed by the authors to a deep learning of XOR gate and verify its effectiveness. Deep machine learning based on neural networks is one of the most important keywords driving innovation in today's highly advanced information society. Therefore, there has been active research on large-scale, high-speed, and high-precision systems. For the purpose of efficiently searching the optimum value of the objective function, the author divides the search region of a multivariable parameter constituting the objective function into two by each parameter, numerically finds the integration of the two regions by the Monte Carlo method, compares the magnitude of the integration value, and judges that there is an optimum point in a small region. In the previous paper, we examined the problem of the benchmark in the optimization method. This method is applied to neural networks of XOR gate, and compared with the results of weight factor optimization by Adam and genetic algorithm. As a result, it was confirmed that it converged faster than the existing method.
翻訳日:2021-09-07 16:29:06 公開日:2021-09-02
# 擬似ユーザ嗜好シミュレーションを用いたトップN勧告

Top-N Recommendation with Counterfactual User Preference Simulation ( http://arxiv.org/abs/2109.02444v1 )

ライセンス: Link先を確認
Mengyue Yang, Quanyu Dai, Zhenhua Dong, Xu Chen, Xiuqiang He, Jun Wang(参考訳) ユーザーのランキングに基づく好みを学習することを目的としたtop-nレコメンデーションは、幅広いアプリケーションにおいて、長い間根本的な問題であった。 伝統的なモデルは、通常、異なる仮定に基づいて複雑または調整されたアーキテクチャを設計することで、自らを動機付けます。 しかし,レコメンダシステムのトレーニングデータは非常に疎結合であり,レコメンデーション性能を向上させる上で大きな課題となっている。 この問題を軽減するため、本論文では、因果推論フレームワーク内の推薦タスクを再構築し、データ不足問題に対処するために、ユーザのランキングに基づく選好を非現実的にシミュレートすることを提案する。 私たちのモデルの中核は、反事実的な質問である:“推奨項目が異なる場合、ユーザの判断は何か? この問題に対処するために、まず、観測データに基づいてパラメータを最適化した一連の構造方程式モデル(SEM)を用いて推奨プロセスを定式化する。 次に,データセットに記録されていない推薦リスト(因果推論用語への介入と呼ばれる)を積極的に提示し,学習したsemに従ってユーザフィードバックをシミュレートし,新たなトレーニングサンプルを生成する。 推薦リストにランダムに介入する代わりに、より情報のあるトレーニングサンプルを見つけるための学習ベースの手法を設計する。 学習したSEMが完璧でないことを考えると、我々は最終的に、生成したサンプル数とモデル予測誤差の関係を理論的に分析し、予測誤差による負の効果を制御するためにヒューリスティックな手法を設計する。 本フレームワークの有効性を実証するために,合成データと実世界データの両方に基づいて広範な実験を行った。

Top-N recommendation, which aims to learn user ranking-based preference, has long been a fundamental problem in a wide range of applications. Traditional models usually motivate themselves by designing complex or tailored architectures based on different assumptions. However, the training data of recommender system can be extremely sparse and imbalanced, which poses great challenges for boosting the recommendation performance. To alleviate this problem, in this paper, we propose to reformulate the recommendation task within the causal inference framework, which enables us to counterfactually simulate user ranking-based preferences to handle the data scarce problem. The core of our model lies in the counterfactual question: "what would be the user's decision if the recommended items had been different?". To answer this question, we firstly formulate the recommendation process with a series of structural equation models (SEMs), whose parameters are optimized based on the observed data. Then, we actively indicate many recommendation lists (called intervention in the causal inference terminology) which are not recorded in the dataset, and simulate user feedback according to the learned SEMs for generating new training samples. Instead of randomly intervening on the recommendation list, we design a learning-based method to discover more informative training samples. Considering that the learned SEMs can be not perfect, we, at last, theoretically analyze the relation between the number of generated samples and the model prediction error, based on which a heuristic method is designed to control the negative effect brought by the prediction error. Extensive experiments are conducted based on both synthetic and real-world datasets to demonstrate the effectiveness of our framework.
翻訳日:2021-09-07 16:25:26 公開日:2021-09-02
# (参考訳) 医用画像解析における自己注意の効果の検討

Studying the Effects of Self-Attention for Medical Image Analysis ( http://arxiv.org/abs/2109.01486v1 )

ライセンス: CC0 1.0
Adrit Rao, Jongchan Park, Sanghyun Woo, Joon-Young Lee, Oliver Aalami(参考訳) 訓練医が医用画像の解釈を行うと、視覚的特徴の臨床的重要性を理解する。 認知的注意を加えることで、不要な特徴を無視しながら、臨床的に関係のある領域により多くの焦点をあてる。 医用画像の自動分類におけるコンピュータビジョンの利用について検討した。 しかし、標準畳み込みニューラルネットワーク(CNN)は、訓練された医療専門家と同様の意識的特徴関連性評価技術を採用し、より一般的に特徴を評価する必要はない。 セルフアテンション機構により、cnnは、意味的に重要な領域や、長距離の依存関係を持つ関連するコンテキストを集約することに集中することができる。 注意力を利用することで、より重要な臨床特徴領域に焦点を当てることで、医療画像分析システムはより堅牢になる可能性がある。 本稿では,複数の医用画像解析タスクに対して,最先端の自己認識機構を包括的に比較する。 定量的・質的評価と臨床ユーザ中心の調査を通じて,医療用コンピュータビジョンタスクにおけるセルフ・アテンションの効果をより深く理解することを目的としている。

When the trained physician interprets medical images, they understand the clinical importance of visual features. By applying cognitive attention, they apply greater focus onto clinically relevant regions while disregarding unnecessary features. The use of computer vision to automate the classification of medical images is widely studied. However, the standard convolutional neural network (CNN) does not necessarily employ subconscious feature relevancy evaluation techniques similar to the trained medical specialist and evaluates features more generally. Self-attention mechanisms enable CNNs to focus more on semantically important regions or aggregated relevant context with long-range dependencies. By using attention, medical image analysis systems can potentially become more robust by focusing on more important clinical feature regions. In this paper, we provide a comprehensive comparison of various state-of-the-art self-attention mechanisms across multiple medical image analysis tasks. Through both quantitative and qualitative evaluations along with a clinical user-centric survey study, we aim to provide a deeper understanding of the effects of self-attention in medical computer vision tasks.
翻訳日:2021-09-06 23:32:53 公開日:2021-09-02
# (参考訳) 多言語モデルにおけるインターリングアの確立

Establishing Interlingua in Multilingual Language Models ( http://arxiv.org/abs/2109.01207v1 )

ライセンス: CC BY 4.0
Maksym Del, Mark Fishel(参考訳) 大規模多言語言語モデルでは,タスクの多言語間転送性能が顕著である。 フォローアップは、これらのモデルが異なる言語の内部表現を共通の言語間空間に投影することを仮定している。 しかし、結果は矛盾していた。 本稿では、従来の著作のうち「BERTはインターリングアではない」という主張を正すとともに、文表現の適切な選択によって、異なる言語が実際にそのような言語モデルにおいて共有空間に収束することを示す。 さらに, この収束パターンは, 4つの相関類似度と6つのmBERT様モデルに対して頑健であることを示す。 分析を28の多様な言語に拡張し、言語間空間が言語の言語関連性に類似した特定の構造を示すことを見出した。 また、共有空間に収束しないように見えるいくつかの不適切な言語も強調します。 結果を複製するコードは、以下のURLで利用可能である。

Large multilingual language models show remarkable zero-shot cross-lingual transfer performance on a range of tasks. Follow-up works hypothesized that these models internally project representations of different languages into a shared interlingual space. However, they produced contradictory results. In this paper, we correct %one of the previous works the famous prior work claiming that "BERT is not an Interlingua" and show that with the proper choice of sentence representation different languages actually do converge to a shared space in such language models. Furthermore, we demonstrate that this convergence pattern is robust across four measures of correlation similarity and six mBERT-like models. We then extend our analysis to 28 diverse languages and find that the interlingual space exhibits a particular structure similar to the linguistic relatedness of languages. We also highlight a few outlier languages that seem to fail to converge to the shared space. The code for replicating our results is available at the following URL: https://github.com/maksym-del/interlingua.
翻訳日:2021-09-06 23:18:54 公開日:2021-09-02
# (参考訳) NLPとMLにおける再現性の定量化

Quantifying Reproducibility in NLP and ML ( http://arxiv.org/abs/2109.01211v1 )

ライセンス: CC BY-SA 4.0
Anya Belz(参考訳) 近年、NLPやMLでは再現性に関する議論が盛んに行われているが、再現性を評価する方法が一般に受け入れられていない。 科学的な再現可能性の用語や定義はNLP/MLには適用できないという仮定があり、結果として多くの異なる用語や定義が提案された。 本稿では,標準用語と定義をメタロロジーから取り出して,NLP/MLに直接適用することで,この仮定をテストする。 我々は,再現性を評価するための実践的な枠組みを,異なる再現性研究に匹敵する定量的な再現性が得られるという望ましい性質を,直接的に導出できることを見出した。

Reproducibility has become an intensely debated topic in NLP and ML over recent years, but no commonly accepted way of assessing reproducibility, let alone quantifying it, has so far emerged. The assumption has been that wider scientific reproducibility terminology and definitions are not applicable to NLP/ML, with the result that many different terms and definitions have been proposed, some diametrically opposed. In this paper, we test this assumption, by taking the standard terminology and definitions from metrology and applying them directly to NLP/ML. We find that we are able to straightforwardly derive a practical framework for assessing reproducibility which has the desirable property of yielding a quantified degree of reproducibility that is comparable across different reproduction studies.
翻訳日:2021-09-06 23:09:32 公開日:2021-09-02
# (参考訳) リアプノフ最適化による信頼・自己適応顔識別フレームワーク

A Reliable, Self-Adaptive Face Identification Framework via Lyapunov Optimization ( http://arxiv.org/abs/2109.01212v1 )

ライセンス: CC BY 4.0
Dohyeon Kim, Joongheon Kim, Jae young Bang(参考訳) ビデオフィードからのリアルタイム顔識別(FID)は非常に計算集約的であり、限られたリソース(例えばモバイルデバイス)のデバイスで実行された場合、計算リソースを消費することがある。 一般的に、FIDは、画像がより高いレートでサンプリングされると、偽陰性を最小限に抑えられる。 しかし、圧倒的に高いレートで実行すると、システムの信頼性を損なうキューオーバーフローのリスクにシステムがさらされる。 本稿では、Lyapunov最適化を実装してキューオーバーフローを回避しつつ、サンプリングレートに適応してFID性能を最大化する、新しいキュー対応FIDフレームワークを提案する。 トレースベースのシミュレーションによる予備評価は、フレームワークの有効性を確認する。

Realtime face identification (FID) from a video feed is highly computation-intensive, and may exhaust computation resources if performed on a device with a limited amount of resources (e.g., a mobile device). In general, FID performs better when images are sampled at a higher rate, minimizing false negatives. However, performing it at an overwhelmingly high rate exposes the system to the risk of a queue overflow that hampers the system's reliability. This paper proposes a novel, queue-aware FID framework that adapts the sampling rate to maximize the FID performance while avoiding a queue overflow by implementing the Lyapunov optimization. A preliminary evaluation via a trace-based simulation confirms the effectiveness of the framework.
翻訳日:2021-09-06 22:53:34 公開日:2021-09-02
# (参考訳) DeepTracks:移動プラットフォームから取得したビデオで海中車両を測位する

DeepTracks: Geopositioning Maritime Vehicles in Video Acquired from a Moving Platform ( http://arxiv.org/abs/2109.01235v1 )

ライセンス: CC BY 4.0
Jianli Wei, Guanyu Xu, Alper Yilmaz(参考訳) 海上での移動船の測位と追跡は非常に難しい問題であり、一般的な特徴のない画像からボートの検出、マッチング、GPS位置の推定が必要となる。 既知のgps位置を唯一の有効なセンサとして移動プラットフォームに搭載されたカメラからの画像を考慮すれば、画像で見えるターゲットボートの位置を予測できる。 我々のソリューションは、最近のMLアルゴリズム、カメラシーン幾何とベイズフィルタを使用する。 提案するパイプラインは,まず画像中の目標船舶の位置を検出・追跡し,検出による追跡を行う。 この画像の位置は、平面射影幾何学を用いて、カメラgpsの位置を参照する局所海座標に変換される。 最後に、ターゲットボートの局所座標を地球規模のGPS座標に変換して位置を推定する。 スムーズなジオトラックを実現するために、パイプラインの初期段階で小さな検出誤差を暗黙的に克服する無人カルマンフィルタ(UKF)を適用した。 提案手法の性能をGPS地中真理を用いて検証し, 推定した測地位置の精度と速度を示した。 私たちのコードはhttps://github.com/JianliWei1995/AI-Track-at-Sea.comで公開されています。

Geopositioning and tracking a moving boat at sea is a very challenging problem, requiring boat detection, matching and estimating its GPS location from imagery with no common features. The problem can be stated as follows: given imagery from a camera mounted on a moving platform with known GPS location as the only valid sensor, we predict the geoposition of a target boat visible in images. Our solution uses recent ML algorithms, the camera-scene geometry and Bayesian filtering. The proposed pipeline first detects and tracks the target boat's location in the image with the strategy of tracking by detection. This image location is then converted to geoposition to the local sea coordinates referenced to the camera GPS location using plane projective geometry. Finally, target boat local coordinates are transformed to global GPS coordinates to estimate the geoposition. To achieve a smooth geotrajectory, we apply unscented Kalman filter (UKF) which implicitly overcomes small detection errors in the early stages of the pipeline. We tested the performance of our approach using GPS ground truth and show the accuracy and speed of the estimated geopositions. Our code is publicly available at https://github.com/JianliWei1995/AI-Track-at-Sea.
翻訳日:2021-09-06 22:48:42 公開日:2021-09-02
# (参考訳) ターゲット指向オピニオン単語抽出のためのレバレッジ位置埋め込みに関する実証的研究

An Empirical Study on Leveraging Position Embeddings for Target-oriented Opinion Words Extraction ( http://arxiv.org/abs/2109.01238v1 )

ライセンス: CC BY 4.0
Samuel Mensah, Kai Sun, Nikolaos Aletras(参考訳) The Target-oriented opinion words extract (TOWE) (Fan et al., 2019b) is a new subtask of target-oriented sentiment analysis that aim to extract opinion words for a given aspects in text。 現在の最先端手法では、位置埋め込みを利用して単語の相対的な位置をターゲットに捉えている。 しかし,これらの手法の性能は,これらの情報を単語表現に組み込む能力に依存する。 本稿では,toweにおける各コンポーネントの実際の貢献度を検討するために,事前学習された単語埋め込みや位置埋め込みを利用した言語モデルに基づいて,様々なテキストエンコーダを探索する。 また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。 実験の結果,位置情報を単語表現に効果的にエンコードできるのに対して,GCNは限界ゲインしか達成できないことがわかった。 興味深いことに、我々の単純な手法はいくつかの最先端の複雑な神経構造より優れている。

Target-oriented opinion words extraction (TOWE) (Fan et al., 2019b) is a new subtask of target-oriented sentiment analysis that aims to extract opinion words for a given aspect in text. Current state-of-the-art methods leverage position embeddings to capture the relative position of a word to the target. However, the performance of these methods depends on the ability to incorporate this information into word representations. In this paper, we explore a variety of text encoders based on pretrained word embeddings or language models that leverage part-of-speech and position embeddings, aiming to examine the actual contribution of each component in TOWE. We also adapt a graph convolutional network (GCN) to enhance word representations by incorporating syntactic information. Our experimental results demonstrate that BiLSTM-based models can effectively encode position information into word representations while using a GCN only achieves marginal gains. Interestingly, our simple methods outperform several state-of-the-art complex neural structures.
翻訳日:2021-09-06 22:41:13 公開日:2021-09-02
# N400振幅は人間の予測可能性判定より分布情報の方が優れている

So Cloze yet so Far: N400 Amplitude is Better Predicted by Distributional Information than Human Predictability Judgements ( http://arxiv.org/abs/2109.01226v1 )

ライセンス: Link先を確認
James A. Michaelov and Seana Coulson and Benjamin K. Bergen(参考訳) より予測可能な単語は処理が容易であり、より速く読み上げられ、処理困難に関連するより小さな神経信号、特にイベント関連脳電位のn400成分を誘発する。 したがって、今後の単語の予測は言語理解の重要な要素であり、N400の振幅を研究することは、我々が行う予測を調査するための貴重な方法である、と論じられている。 本研究では,自然言語刺激がN400の振幅を変調する方法を,計算言語モデルや人間の言語予測がよく反映するかどうかを検討する。 人間の言語モデルと計算言語モデルの言語予測における重要な違いの1つは、言語モデルは以前の言語コンテキストのみに基づくが、人間は他の要因に依存する可能性があることである。 GPT-3、RoBERTa、ALBERTの3つの最上位の現代言語モデルの予測は、人間の予測よりもN400と密接に一致している。 これは、N400の下の予測過程が以前考えられていたよりも言語の表面レベル統計に敏感であることを示している。

More predictable words are easier to process - they are read faster and elicit smaller neural signals associated with processing difficulty, most notably, the N400 component of the event-related brain potential. Thus, it has been argued that prediction of upcoming words is a key component of language comprehension, and that studying the amplitude of the N400 is a valuable way to investigate the predictions that we make. In this study, we investigate whether the linguistic predictions of computational language models or humans better reflect the way in which natural language stimuli modulate the amplitude of the N400. One important difference in the linguistic predictions of humans versus computational language models is that while language models base their predictions exclusively on the preceding linguistic context, humans may rely on other factors. We find that the predictions of three top-of-the-line contemporary language models - GPT-3, RoBERTa, and ALBERT - match the N400 more closely than human predictions. This suggests that the predictive processes underlying the N400 may be more sensitive to the surface-level statistics of language than previously thought.
翻訳日:2021-09-06 14:07:55 公開日:2021-09-02
# オープンドメイン質問応答における一般化の課題

Challenges in Generalization in Open Domain Question Answering ( http://arxiv.org/abs/2109.01156v1 )

ライセンス: Link先を確認
Linqing Liu, Patrick Lewis, Sebastian Riedel, Pontus Stenetorp(参考訳) Open Domain Question Answeringに関する最近の研究は、新しいテストの質問とトレーニングの質問と大きく重なり合うものの間に、モデルパフォーマンスに大きな違いがあることを示しています。 しかし、これらの新しい疑問のどの側面が困難であるかはまだ不明である。 体系的一般化の研究に基づいて,学習セットのオーバーラップ,構成的一般化(comp-gen),新しい実体一般化(novel-entity)という,異なるレベルと種類の一般化を計測する3つのカテゴリによる質問を紹介し,注釈する。 6つの一般的なパラメトリックモデルと非パラメトリックモデルを評価する際、確立されたNatural QuestionsとTriviaQAデータセットでは、comp-gen/novel-entityのモデルパフォーマンスが13.1/5.4%、9.6/1.5%も、テストセット全体のモデルよりも低い。 さらに、非パラメトリックモデルは、新しい実体を含む問題を扱うことができるが、構成の一般化を必要とする問題に苦しむことを示す。 網羅的な分析により,検索要素からの誤りのカスケード,質問パターンの頻度,エンティティの頻度といった問題難易度要因が明らかになった。

Recent work on Open Domain Question Answering has shown that there is a large discrepancy in model performance between novel test questions and those that largely overlap with training questions. However, it is as of yet unclear which aspects of novel questions that make them challenging. Drawing upon studies on systematic generalization, we introduce and annotate questions according to three categories that measure different levels and kinds of generalization: training set overlap, compositional generalization (comp-gen), and novel entity generalization (novel-entity). When evaluating six popular parametric and non-parametric models, we find that for the established Natural Questions and TriviaQA datasets, even the strongest model performance for comp-gen/novel-entity is 13.1/5.4% and 9.6/1.5% lower compared to that for the full test set -- indicating the challenge posed by these types of questions. Furthermore, we show that whilst non-parametric models can handle questions containing novel entities, they struggle with those requiring compositional generalization. Through thorough analysis we find that key question difficulty factors are: cascading errors from the retrieval component, frequency of question pattern, and frequency of the entity.
翻訳日:2021-09-06 14:07:38 公開日:2021-09-02
# 自然言語生成のためのマルチモーダル条件

Multimodal Conditionality for Natural Language Generation ( http://arxiv.org/abs/2109.01229v1 )

ライセンス: Link先を確認
Michael Sollami and Aashish Jain(参考訳) 大規模事前訓練型言語モデルは、言語理解タスクにおける最先端のパフォーマンスを示す。 彼らのアプリケーションは、最近マルチモーダリティ学習へと拡張され、視覚と言語を組み合わせた表現が改善された。 しかしながら、条件付き自然言語生成(NLG)への言語モデルの適用の進展は、一般的にはテキストという単一のモダリティに制限されている。 変換器ベースNLGモデルにおけるマルチモーダル条件の一般的なアプローチである、テキスト合成のためのマルチモーダル適応MAnTiSを提案する。 本手法では,各モダリティからの入力をモダリティ固有のエンコーダに渡し,テキストトークン空間に投影し,最後に条件付きプレフィックスを形成する。 我々は、事前訓練された言語モデルとエンコーダを、生成を導く条件付きプレフィックスで微調整する。 我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。 我々は,MAnTiSが標準NLGスコアリング指標の強いベースラインアプローチより優れていることを示す。 さらに,MAnTiSが与えられたマルチモーダル入力と一致した品質記述を生成できることを示す。

Large scale pretrained language models have demonstrated state-of-the-art performance in language understanding tasks. Their application has recently expanded into multimodality learning, leading to improved representations combining vision and language. However, progress in adapting language models towards conditional Natural Language Generation (NLG) has been limited to a single modality, generally text. We propose MAnTiS, Multimodal Adaptation for Text Synthesis, a general approach for multimodal conditionality in transformer-based NLG models. In this method, we pass inputs from each modality through modality-specific encoders, project to textual token space, and finally join to form a conditionality prefix. We fine-tune the pretrained language model and encoders with the conditionality prefix guiding the generation. We apply MAnTiS to the task of product description generation, conditioning a network on both product images and titles to generate descriptive text. We demonstrate that MAnTiS outperforms strong baseline approaches on standard NLG scoring metrics. Furthermore, qualitative assessments demonstrate that MAnTiS can generate human quality descriptions consistent with given multimodal inputs.
翻訳日:2021-09-06 14:06:38 公開日:2021-09-02
# Arborescence-based Supervised Clusteringによるエンティティリンクとディスカバリ

Entity Linking and Discovery via Arborescence-based Supervised Clustering ( http://arxiv.org/abs/2109.01242v1 )

ライセンス: Link先を確認
Dhruv Agarwal, Rico Angell, Nicholas Monath, Andrew McCallum(参考訳) 従来の研究は、言及と実体間の親和性だけでなく、言及間の親和性も測定することで、エンティティリンクを行う上で有望な結果を示している。 本稿では,文書間の言及や実体を最小限のアーボラッセンス(すなわち,木に散らばった指示)を構築することで,参照親和性を完全に活用する新たなトレーニングと推論手法を提案する。 また,本手法はエンティティ発見に優雅に拡張され,知識ベースに関連エンティティを持たない参照のクラスタリングが可能となった。 我々はZero-Shot Entity Linking データセットとMedMentionsのアプローチを評価し、同一パラメータ化モデルと比較して、エンティティリンクと発見の両方のパフォーマンスが大幅に向上したことを示す。 さらに, 計算コストの高いモデルを用いて, 従来よりも精度を低下させることなく, 大幅な効率向上を図った。

Previous work has shown promising results in performing entity linking by measuring not only the affinities between mentions and entities but also those amongst mentions. In this paper, we present novel training and inference procedures that fully utilize mention-to-mention affinities by building minimum arborescences (i.e., directed spanning trees) over mentions and entities across documents in order to make linking decisions. We also show that this method gracefully extends to entity discovery, enabling the clustering of mentions that do not have an associated entity in the knowledge base. We evaluate our approach on the Zero-Shot Entity Linking dataset and MedMentions, the largest publicly available biomedical dataset, and show significant improvements in performance for both entity linking and discovery compared to identically parameterized models. We further show significant efficiency improvements with only a small loss in accuracy over previous work, which use more computationally expensive models.
翻訳日:2021-09-06 14:06:21 公開日:2021-09-02
# 多エージェント逆強化学習--準最適デモと代替解の概念

Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations and Alternative Solution Concepts ( http://arxiv.org/abs/2109.01178v1 )

ライセンス: Link先を確認
Sage Bergerson(参考訳) マルチエージェント逆強化学習(MIRL)は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。 現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と行動を考慮する必要がある。 ゲーム理論の伝統的な形式主義は、計算的に抽出可能な行動モデルを提供するが、エージェントは非現実的な認知能力を持つと仮定する。 本研究は, (a) エージェント決定におけるノイズ, バイアス, ヒューリスティックスを扱うMIRL法におけるメカニズムと, (b) 現実的平衡解の概念をモデル化し, 比較する。 MIRL研究はこれらの課題に対する解決策を特定するために体系的にレビューされている。 本研究の方法と結果は, 性能の正確性, 効率性, 記述的品質などの要因に基づいて分析し, 比較した。 MIRLのノイズ,バイアス,ヒューリスティックスを扱う主要な方法は,最大エントロピー(MaxEnt)IRLをマルチエージェント設定に拡張することであった。 また、多くの解の概念が従来のナッシュ平衡(NE)の一般化であることも見出した。 これらの解には相関平衡、ロジスティック確率的最適応答平衡、エントロピー正則平均場NEが含まれる。 再帰的推論や更新を用いる手法もよく機能し、フィードバックNEやマルチエージェント逆IRLをアーカイブする。 単一エージェントIRLにおける特定のバイアスとヒューリスティックのモデリングの成功と、MIRLにおけるマインド理論を用いた有望な結果は、特定のバイアスとヒューリスティックのモデリングが有用であることを示している。 同定された代替解の概念の柔軟性と偏りのない推論は、再帰的かつ一般化された特徴を持つ解の概念が現実的な社会的相互作用をモデル化する上でうまく機能する可能性を示唆している。

Multi-agent inverse reinforcement learning (MIRL) can be used to learn reward functions from agents in social environments. To model realistic social dynamics, MIRL methods must account for suboptimal human reasoning and behavior. Traditional formalisms of game theory provide computationally tractable behavioral models, but assume agents have unrealistic cognitive capabilities. This research identifies and compares mechanisms in MIRL methods which a) handle noise, biases and heuristics in agent decision making and b) model realistic equilibrium solution concepts. MIRL research is systematically reviewed to identify solutions for these challenges. The methods and results of these studies are analyzed and compared based on factors including performance accuracy, efficiency, and descriptive quality. We found that the primary methods for handling noise, biases and heuristics in MIRL were extensions of Maximum Entropy (MaxEnt) IRL to multi-agent settings. We also found that many successful solution concepts are generalizations of the traditional Nash Equilibrium (NE). These solutions include the correlated equilibrium, logistic stochastic best response equilibrium and entropy regularized mean field NE. Methods which use recursive reasoning or updating also perform well, including the feedback NE and archive multi-agent adversarial IRL. Success in modeling specific biases and heuristics in single-agent IRL and promising results using a Theory of Mind approach in MIRL imply that modeling specific biases and heuristics may be useful. Flexibility and unbiased inference in the identified alternative solution concepts suggest that a solution concept which has both recursive and generalized characteristics may perform well at modeling realistic social interactions.
翻訳日:2021-09-06 14:04:54 公開日:2021-09-02
# エッジストリーム上のグラフ記述子

Computing Graph Descriptors on Edge Streams ( http://arxiv.org/abs/2109.01494v1 )

ライセンス: Link先を確認
Zohair Raza Hassan, Imdadullah Khan, Mudassir Shabbir, Waseem Abbas(参考訳) グラフ機能抽出は、グラフ分析の基本的なタスクである。 特徴ベクトル(グラフ記述子)とユークリッドデータを操作するデータマイニングアルゴリズムを組み合わせることで、グラフ構造化データにおける分類、クラスタリング、異常検出などの問題を解決することができる。 このアイデアは過去に実りあると証明され、スペクトルベースのグラフ記述子はベンチマークデータセットで最先端の分類精度を提供する。 しかし、これらのアルゴリズムは大きなグラフにスケールしない: 1) グラフ全体をメモリに保存する必要がある、2) エンドユーザはアルゴリズムのランタイムを制御できない。 本稿では,グラフの構造的特徴を近似するシングルパスストリーミングアルゴリズムを提案する(位数$k \geq 4$のサブグラフの数)。 エッジストリームを運用することで、グラフ全体のメモリ保持を回避することができ、サンプルサイズを制御することで、アルゴリズムが処理する時間を制御できます。 大規模グラフに対する近似誤差,分類精度,スケーラビリティを解析することにより,記述子の有効性を実証する。 実験では,サンプルサイズが近似誤差および予測精度に及ぼす影響を示した。 提案した記述子は、数分で数百万のエッジを持つグラフに適用でき、分類精度において最先端の記述子より優れている。

Graph feature extraction is a fundamental task in graphs analytics. Using feature vectors (graph descriptors) in tandem with data mining algorithms that operate on Euclidean data, one can solve problems such as classification, clustering, and anomaly detection on graph-structured data. This idea has proved fruitful in the past, with spectral-based graph descriptors providing state-of-the-art classification accuracy on benchmark datasets. However, these algorithms do not scale to large graphs since: 1) they require storing the entire graph in memory, and 2) the end-user has no control over the algorithm's runtime. In this paper, we present single-pass streaming algorithms to approximate structural features of graphs (counts of subgraphs of order $k \geq 4$). Operating on edge streams allows us to avoid keeping the entire graph in memory, and controlling the sample size enables us to control the time taken by the algorithm. We demonstrate the efficacy of our descriptors by analyzing the approximation error, classification accuracy, and scalability to massive graphs. Our experiments showcase the effect of the sample size on approximation error and predictive accuracy. The proposed descriptors are applicable on graphs with millions of edges within minutes and outperform the state-of-the-art descriptors in classification accuracy.
翻訳日:2021-09-06 14:03:55 公開日:2021-09-02
# 作物マッピングの2つの変化:新地域の衛星地図改善のための集積作物統計の活用

Two Shifts for Crop Mapping: Leveraging Aggregate Crop Statistics to Improve Satellite-based Maps in New Regions ( http://arxiv.org/abs/2109.01246v1 )

ライセンス: Link先を確認
Dan M. Kluger, Sherrie Wang, David B. Lobell(参考訳) 畑レベルの作物タイプマッピングは農業モニタリングにおける様々な応用に不可欠であり、衛星画像は作物タイプマップを作成するためにますます豊富で有用な原画像となっている。 しかし、多くの地域では、衛星データによる作物タイプのマッピングは、教師付き分類モデルの訓練のためのフィールドレベルの作物ラベルの不足によって制約されている。 ある地域では訓練データが入手できない場合には、類似地域で訓練された分類器を転送することができるが、作物の種類や地域間の特徴の変換は、分類精度の低下につながる。 本稿では,これら2種類の変遷を考慮し,収量レベルの作物統計を用いて分類器を補正する手法を提案する。 作物型組成の変化を調整するため,分類器によって出力される各クラスの後方確率を適切に重み付けする手法を提案する。 特徴量の変化を調整するために,平均特徴量ベクトルの線形シフトを推定し除去する手法を提案する。 本手法は,フランス・オクシタニーおよびケニア西部の作物タイプをLDA(Linear Discriminant Analysis)を用いて地図化することにより,分類精度を大幅に向上させることを示した。 LDAを基本分類法として使用すると、フランスでは11の訓練部署で2.8%から42.2%(平均21.9%)の誤分類が減少し、ケニアでは3つの訓練部署で6.6%、28.4%、42.7%の誤分類が減少した。 我々の手法はLDA分類器によって統計的に動機付けられたが、あらゆる種類の分類器に適用できる。 一例として、ランダムフォレスト分類器の改良に成功例を挙げる。

Crop type mapping at the field level is critical for a variety of applications in agricultural monitoring, and satellite imagery is becoming an increasingly abundant and useful raw input from which to create crop type maps. Still, in many regions crop type mapping with satellite data remains constrained by a scarcity of field-level crop labels for training supervised classification models. When training data is not available in one region, classifiers trained in similar regions can be transferred, but shifts in the distribution of crop types as well as transformations of the features between regions lead to reduced classification accuracy. We present a methodology that uses aggregate-level crop statistics to correct the classifier by accounting for these two types of shifts. To adjust for shifts in the crop type composition we present a scheme for properly reweighting the posterior probabilities of each class that are output by the classifier. To adjust for shifts in features we propose a method to estimate and remove linear shifts in the mean feature vector. We demonstrate that this methodology leads to substantial improvements in overall classification accuracy when using Linear Discriminant Analysis (LDA) to map crop types in Occitanie, France and in Western Province, Kenya. When using LDA as our base classifier, we found that in France our methodology led to percent reductions in misclassifications ranging from 2.8% to 42.2% (mean = 21.9%) over eleven different training departments, and in Kenya the percent reductions in misclassification were 6.6%, 28.4%, and 42.7% for three training regions. While our methodology was statistically motivated by the LDA classifier, it can be applied to any type of classifier. As an example, we demonstrate its successful application to improve a Random Forest classifier.
翻訳日:2021-09-06 14:03:35 公開日:2021-09-02
# 選好学習を用いた科学論文のランク付け

Ranking Scientific Papers Using Preference Learning ( http://arxiv.org/abs/2109.01190v1 )

ライセンス: Link先を確認
Nils Dycke, Edwin Simpson, Ilia Kuznetsov, Iryna Gurevych(参考訳) 学界の主要な品質管理機構はピアレビューである。 科学的な仕事の質には多くの次元があり、レビュー作業の主観的な性質と相まって、レビューとスコアに基づく最終的な意思決定は非常に困難で時間がかかります。 この課題を支援するために,ピアレビューテキストとレビュー者のスコアに基づいて,紙のランキング問題として位置づけた。 評価システムの有効性,効率,公平性を考慮し,ピアレビューに基づく最終決定を行うための,新しい多面的総合評価フレームワークを提案する。 本稿では,GPPL(Gaussian Process Preference Learning)に基づく論文ランキングの新たなアプローチを提案し,ACL-2018カンファレンスのピアレビューデータに基づいて評価する。 本実験は, GPPL による先行作業に対するアプローチの優位性を実証し, ピアレビューアグリゲーションにおいて, テキストとレビュースコアの両方を使用することの重要性を強調した。

Peer review is the main quality control mechanism in academia. Quality of scientific work has many dimensions; coupled with the subjective nature of the reviewing task, this makes final decision making based on the reviews and scores therein very difficult and time-consuming. To assist with this important task, we cast it as a paper ranking problem based on peer review texts and reviewer scores. We introduce a novel, multi-faceted generic evaluation framework for making final decisions based on peer reviews that takes into account effectiveness, efficiency and fairness of the evaluated system. We propose a novel approach to paper ranking based on Gaussian Process Preference Learning (GPPL) and evaluate it on peer review data from the ACL-2018 conference. Our experiments demonstrate the superiority of our GPPL-based approach over prior work, while highlighting the importance of using both texts and review scores for paper ranking during peer review aggregation.
翻訳日:2021-09-06 14:02:39 公開日:2021-09-02
# プロンプトに基づくモデルは、プロンプトの意味を本当に理解しているか?

Do Prompt-Based Models Really Understand the Meaning of their Prompts? ( http://arxiv.org/abs/2109.01247v1 )

ライセンス: Link先を確認
Albert Webson, Ellie Pavlick(参考訳) 近年,様々なプロンプトベースモデルを用いた数ショット学習が急激な進歩を見せている。 このような成功は、自然言語で表現されたタスク命令が与えられたときと同じように、モデルがより速く学習できるように促す印象を与える。 本研究では,自然言語推論(NLI)のために手書きの30以上のプロンプトを用いて実験を行った。 モデルが学習する速度は、故意に無関係なプロンプトや、指示的に"良い"プロンプトのように病的な誤解を招く多くのプロンプトと同等である、ということが分かりました。 さらに、モデル性能は、LM対象語(例えば、a.a.)の選択に依存することが判明した。 lm語彙の予測をクラスラベルに変換する"verbalizer"は、プロンプト自体のテキストよりも多い。 まとめると、既存のプロンプトベースのモデルが与えられたプロンプトの意味を真に理解していることを示す証拠はほとんど見つからない。

Recently, a boom of papers have shown extraordinary progress in few-shot learning with various prompt-based models. Such success can give the impression that prompts help models to learn faster in the same way that humans learn faster when provided with task instructions expressed in natural language. In this study, we experiment with over 30 prompts manually written for natural language inference (NLI). We find that models learn just as fast with many prompts that are intentionally irrelevant or even pathologically misleading as they do with instructively "good" prompts. Additionally, we find that model performance is more dependent on the choice of the LM target words (a.k.a. the "verbalizer" that converts LM vocabulary prediction to class labels) than on the text of the prompt itself. In sum, we find little evidence that suggests existing prompt-based models truly understand the meaning of their given prompts.
翻訳日:2021-09-06 14:02:23 公開日:2021-09-02
# OracleとOpenAI Gym/ALE高速道路環境の観測

An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment ( http://arxiv.org/abs/2109.01220v1 )

ライセンス: Link先を確認
James S. Plank, Catherine D. Schuman and Robert M. Patton(参考訳) OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。 そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。 プロジェクトのゴールは、一般のトレーニングで制御問題を解く非専門家のAIエージェントであるが、本研究では、この問題についてより深く学び、より良いソリューションを評価することを目指している。 特に、私たちはオラクルでゲームをするために開発し、成功のベースラインを持てるかもしれません。 AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。

The OpenAI Gym project contains hundreds of control problems whose goal is to provide a testbed for reinforcement learning algorithms. One such problem is Freeway-ram-v0, where the observations presented to the agent are 128 bytes of RAM. While the goals of the project are for non-expert AI agents to solve the control problems with general training, in this work, we seek to learn more about the problem, so that we can better evaluate solutions. In particular, we develop on oracle to play the game, so that we may have baselines for success. We present details of the oracle, plus optimal game-playing situations that can be used for training and testing AI agents.
翻訳日:2021-09-06 14:00:20 公開日:2021-09-02
# roadscene2vec:道路シーングラフの抽出と埋め込みのためのツール

roadscene2vec: A Tool for Extracting and Embedding Road Scene-Graphs ( http://arxiv.org/abs/2109.01183v1 )

ライセンス: Link先を確認
Arnav Vaibhav Malawade, Shih-Yuan Yu, Brandon Hsu, Harsimrat Kaeley, Anurag Karra, Mohammad Abdullah Al Faruque(参考訳) 近年,行動分類,リスク評価,衝突予測などのタスクにおいて,グラフ学習技術と併用した道路シーングラフ表現が最先端の深層学習技術を上回ることが示されている。 本研究では,道路シーングラフの検索と埋め込みを行うためのオープンソースツールであるroadscene2vecを紹介する。 roadscene2vecの目標は、シーングラフを生成するツール、時空間的なシーングラフ埋め込みを生成するグラフ学習モデル、シーングラフベースの方法論を視覚化し分析するツールを提供することで、道路シーングラフの応用と能力の研究を可能にすることである。 The capabilities of roadscene2vec include (i) customized scene-graph generation from either video clips or data from the CARLA simulator, (ii) multiple configurable spatio-temporal graph embedding models and baseline CNN-based models, (iii) built-in functionality for using graph and sequence embeddings for risk assessment and collision prediction applications, (iv) tools for evaluating transfer learning, and (v) utilities for visualizing scene-graphs and analyzing the explainability of graph learning models. 実験結果とグラフ学習モデルとCNNモデルの両方に対する定性評価を併用した,これらのユースケースに対する Roadcene2vec の有用性を実証する。 roadscene2vecはhttps://github.com/aicps/roadscene2vecで入手できる。

Recently, road scene-graph representations used in conjunction with graph learning techniques have been shown to outperform state-of-the-art deep learning techniques in tasks including action classification, risk assessment, and collision prediction. To enable the exploration of applications of road scene-graph representations, we introduce roadscene2vec: an open-source tool for extracting and embedding road scene-graphs. The goal of roadscene2vec is to enable research into the applications and capabilities of road scene-graphs by providing tools for generating scene-graphs, graph learning models to generate spatio-temporal scene-graph embeddings, and tools for visualizing and analyzing scene-graph-based methodologies. The capabilities of roadscene2vec include (i) customized scene-graph generation from either video clips or data from the CARLA simulator, (ii) multiple configurable spatio-temporal graph embedding models and baseline CNN-based models, (iii) built-in functionality for using graph and sequence embeddings for risk assessment and collision prediction applications, (iv) tools for evaluating transfer learning, and (v) utilities for visualizing scene-graphs and analyzing the explainability of graph learning models. We demonstrate the utility of roadscene2vec for these use cases with experimental results and qualitative evaluations for both graph learning models and CNN-based models. roadscene2vec is available at https://github.com/AICPS/roadscene2vec.
翻訳日:2021-09-06 13:59:48 公開日:2021-09-02
# macest: 信頼できる信頼できるモデル非依存の信頼評価者

MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator ( http://arxiv.org/abs/2109.01531v1 )

ライセンス: Link先を確認
Rhys Green, Matthew Rowe, Alberto Polleri(参考訳) 信頼できる信頼度推定は、どんな機械学習モデルでも本当に役に立つことがとても重要です。 本稿では、標準機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があり、認識の不確実性が多すぎる状況下では、信頼性に欠ける可能性が高いと論じる。 これらの問題に対処するために、信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器であるMACEstを紹介する。 このアルゴリズムは、局所的な量として独立に信頼度を推定することで現在の方法とは異なる。 この手法は、信頼度推定の出発点としてグローバルポイント予測モデルを使用する標準校正法とは異なる。

Reliable Confidence Estimates are hugely important for any machine learning model to be truly useful. In this paper, we argue that any confidence estimates based upon standard machine learning point prediction algorithms are fundamentally flawed and under situations with a large amount of epistemic uncertainty are likely to be untrustworthy. To address these issues, we present MACEst, a Model Agnostic Confidence Estimator, which provides reliable and trustworthy confidence estimates. The algorithm differs from current methods by estimating confidence independently as a local quantity which explicitly accounts for both aleatoric and epistemic uncertainty. This approach differs from standard calibration methods that use a global point prediction model as a starting point for the confidence estimate.
翻訳日:2021-09-06 13:55:45 公開日:2021-09-02
# LiDARポーズ推定のための最適ターゲット形状

Optimal Target Shape for LiDAR Pose Estimation ( http://arxiv.org/abs/2109.01181v1 )

ライセンス: Link先を確認
Jiunn-Kai Huang, William Clark, and Jessy W. Grizzle(参考訳) ターゲットは、乱雑な環境や無テクスチャ環境での物体追跡、カメラ(およびマルチセンサー)キャリブレーションタスク、同時局所化とマッピング(SLAM)といった問題に不可欠である。 これらのタスクのターゲット形状は対称(四角形、長方形、円形)であり、ピクセルアレイ(画像)のような構造化された密度の高いセンサーデータに対してうまく機能する。 しかし、対称形状は、LiDAR点雲のようなスパースセンサーデータを使用することであいまいになり、LiDARの量子化の不確実性に悩まされる。 本稿では,LiDAR点雲のポーズあいまいさを除去するためにターゲット形状を最適化するという概念を紹介する。 ターゲットは、LiDARに対して回転・翻訳中のエッジポイントにおける大きな勾配を誘導し、点雲スパースネスに関連する量子化の不確実性を改善するように設計されている。 さらに,対象形状を与えられた場合,対象の形状を利用して対象の頂点を推定し,そのポーズをグローバルに推定する手法を提案する。 シミュレーションと実験結果(モーションキャプチャシステムによって検証された)は、最適形状と大域的解法を用いて、部分的に照らされた目標が30メートル離れた場合でも、翻訳におけるセンチメートル誤差と回転数度を達成することを確認している。 すべての実装とデータセットはhttps://github.com/UMich-BipedLab/optimal_shape_global_pose_estimationで公開されている。

Targets are essential in problems such as object tracking in cluttered or textureless environments, camera (and multi-sensor) calibration tasks, and simultaneous localization and mapping (SLAM). Target shapes for these tasks typically are symmetric (square, rectangular, or circular) and work well for structured, dense sensor data such as pixel arrays (i.e., image). However, symmetric shapes lead to pose ambiguity when using sparse sensor data such as LiDAR point clouds and suffer from the quantization uncertainty of the LiDAR. This paper introduces the concept of optimizing target shape to remove pose ambiguity for LiDAR point clouds. A target is designed to induce large gradients at edge points under rotation and translation relative to the LiDAR to ameliorate the quantization uncertainty associated with point cloud sparseness. Moreover, given a target shape, we present a means that leverages the target's geometry to estimate the target's vertices while globally estimating the pose. Both the simulation and the experimental results (verified by a motion capture system) confirm that by using the optimal shape and the global solver, we achieve centimeter error in translation and a few degrees in rotation even when a partially illuminated target is placed 30 meters away. All the implementations and datasets are available at https://github.com/UMich-BipedLab/optimal_shape_global_pose_estimation.
翻訳日:2021-09-06 13:54:09 公開日:2021-09-02
# 適応圧縮を用いたリモートマルチ線形圧縮学習

Remote Multilinear Compressive Learning with Adaptive Compression ( http://arxiv.org/abs/2109.01184v1 )

ライセンス: Link先を確認
Dat Thanh Tran, Moncef Gabbouj, Alexandros Iosifidis(参考訳) MCL(Multilinear Compressive Learning)は,多次元信号の効率的な取得・学習パラダイムである。 信号圧縮のレベルは、mclモデルの検出または分類性能に影響し、高い圧縮率はしばしば低い推論精度と関連付けられる。 しかし、より広い範囲のアプリケーション、特にIoT(Internet-of-Things)アプリケーションのような低動作帯域と最小のエネルギー消費を必要とするアプリケーションでは、より高い圧縮速度がより有効である。 多くの通信プロトコルは、スループットを最大化しエネルギー消費を最小化するために適応データ伝送をサポートする。 適応圧縮速度で動作可能な圧縮センシングおよび学習モデルを開発することにより、アプリケーション全体の情報コンテンツスループットを最大化することができる。 本稿では,このような機能をmclモデルに適用可能な新しい最適化手法を提案する。 本提案では,適応圧縮信号取得と推論システムの実装を実現する。 実験の結果,提案手法は,遠隔学習システムの学習段階で必要な計算量を大幅に削減できるだけでなく,適応レートセンシングによる情報コンテンツのスループットも向上できることがわかった。

Multilinear Compressive Learning (MCL) is an efficient signal acquisition and learning paradigm for multidimensional signals. The level of signal compression affects the detection or classification performance of a MCL model, with higher compression rates often associated with lower inference accuracy. However, higher compression rates are more amenable to a wider range of applications, especially those that require low operating bandwidth and minimal energy consumption such as Internet-of-Things (IoT) applications. Many communication protocols provide support for adaptive data transmission to maximize the throughput and minimize energy consumption. By developing compressive sensing and learning models that can operate with an adaptive compression rate, we can maximize the informational content throughput of the whole application. In this paper, we propose a novel optimization scheme that enables such a feature for MCL models. Our proposal enables practical implementation of adaptive compressive signal acquisition and inference systems. Experimental results demonstrated that the proposed approach can significantly reduce the amount of computations required during the training phase of remote learning systems but also improve the informational content throughput via adaptive-rate sensing.
翻訳日:2021-09-06 13:53:43 公開日:2021-09-02
# MitoDet: 単純で堅牢なミトーシス検出

MitoDet: Simple and robust mitosis detection ( http://arxiv.org/abs/2109.01485v1 )

ライセンス: Link先を確認
Jakob Dexl, Michaela Benz, Volker Bruns, Petr Kuritcyn, Thomas Wittenberg(参考訳) mitotic figure detectionは、デジタル病理学における困難な課題であり、治療的決定に直接影響を与える。 自動的な方法は検査条件下では許容できる結果が得られることが多いが、臨床展開段階ではしばしば失敗する。 この問題は、主にドメインシフトと呼ばれる現象に起因する。 ドメインシフトの重要なソースは、異なる顕微鏡とそのカメラシステムによって導入され、デジタル画像の色表現が顕著に変化する。 本手法の記述では,強いデータ拡張でトレーニングされたRetinaNetを用いて,予備テストセットで0.7138のF1スコアを達成している。

Mitotic figure detection is a challenging task in digital pathology that has a direct impact on therapeutic decisions. While automated methods often achieve acceptable results under laboratory conditions, they frequently fail in the clinical deployment phase. This problem can be mainly attributed to a phenomenon called domain shift. An important source of a domain shift is introduced by different microscopes and their camera systems, which noticeably change the color representation of digitized images. In this method description we present our submitted algorithm for the Mitosis Domain Generalization Challenge, which employs a RetinaNet trained with strong data augmentation and achieves an F1 score of 0.7138 on the preliminary test set.
翻訳日:2021-09-06 13:51:58 公開日:2021-09-02
# (参考訳) 階層的音楽構造表現による制御可能な深層メロディ生成

Controllable deep melody generation via hierarchical music structure representation ( http://arxiv.org/abs/2109.00663v1 )

ライセンス: CC BY 4.0
Shuqi Dai, Zeyu Jin, Celso Gomes, Roger B. Dannenberg(参考訳) ディープラーニングの最近の進歩は、音楽を生成する可能性を広げてきたが、一貫性のある長期構造を持つカスタマイズ可能な全曲の生成は依然として課題である。 本稿では, 長期繰り返し構造, コード, 旋律輪郭, リズム制約によってガイドされる完全長旋律を生成するための, 階層的な音楽構造表現と多段階生成プロセスであるMusicFrameworksを紹介する。 まず、セクションとフレーズレベルの構造を持つ全旋律を整理する。 各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成し、その後、基本メロディ、リズム、コードに基づいて自動回帰的にメロディを生成する。 音楽生成をサブプロブレムに分解することで、よりシンプルなモデルを可能にし、少ないデータを必要とする。 さまざまな曲をカスタマイズまたは追加するために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更することができる。 さらに,音楽領域の知識に基づいた位置情報,リズムパターン,旋律輪郭を符号化する新たな特徴を導入する。 リスニングテストでは,pop909データセットで生成したメロディが,人間の作曲した音楽とほぼ同程度に評価されていることが明らかとなった。

Recent advances in deep learning have expanded possibilities to generate music, but generating a customizable full piece of music with consistent long-term structure remains a challenge. This paper introduces MusicFrameworks, a hierarchical music structure representation and a multi-step generative process to create a full-length melody guided by long-term repetitive structure, chord, melodic contour, and rhythm constraints. We first organize the full melody with section and phrase-level structure. To generate melody in each phrase, we generate rhythm and basic melody using two separate transformer-based networks, and then generate the melody conditioned on the basic melody, rhythm and chords in an auto-regressive manner. By factoring music generation into sub-problems, our approach allows simpler models and requires less data. To customize or add variety, one can alter chords, basic melody, and rhythm structure in the music frameworks, letting our networks generate the melody accordingly. Additionally, we introduce new features to encode musical positional information, rhythm patterns, and melodic contours based on musical domain knowledge. A listening test reveals that melodies generated by our method are rated as good as or better than human-composed music in the POP909 dataset about half the time.
翻訳日:2021-09-04 02:25:11 公開日:2021-09-02
# (参考訳) FLASHE: クロスサイトフェデレーション学習のための付加対称同型暗号化

FLASHE: Additively Symmetric Homomorphic Encryption for Cross-Silo Federated Learning ( http://arxiv.org/abs/2109.00675v1 )

ライセンス: CC BY 4.0
Zhifeng Jiang, Wei Wang, Yang Liu(参考訳) 準同型暗号化(homomorphic encryption, he)は、組織が分散データ上で協調的なモデルトレーニングを行うクロスサイロ連合学習(fl)のための、有望なプライバシー保護技術である。 強いプライバシー保証にもかかわらず、一般的なHEスキームは計算と通信のオーバーヘッドをもたらす。 以前の作業では、この問題に対処するためにバッチ暗号化を採用しているが、通信オーバーヘッドの軽減には至らず、スパーシフィケーション技術と互換性がない。 本稿では,クロスサイロFLに適したHE方式であるFLASHEを提案する。 セキュリティと機能の最小限の要件を捉えるため、FLASHEは非対称キー設計を廃止し、乱数を持つモジュラー加算操作のみを含む。 スパシフィケーション技術に適合するかどうかによって、FLASHEは異なるアプローチで計算効率を最適化する。 クロスサイロFLの産業プラットフォームであるFATE上にFLASHEをプラグ可能なモジュールとして実装した。 プレーンテキストのトレーニングと比較すると、FLASHEは通信オーバーヘッドを伴わずに、トレーニング時間を$\leq6\%$にわずかに向上する。

Homomorphic encryption (HE) is a promising privacy-preserving technique for cross-silo federated learning (FL), where organizations perform collaborative model training on decentralized data. Despite the strong privacy guarantee, general HE schemes result in significant computation and communication overhead. Prior works employ batch encryption to address this problem, but it is still suboptimal in mitigating communication overhead and is incompatible with sparsification techniques. In this paper, we propose FLASHE, an HE scheme tailored for cross-silo FL. To capture the minimum requirements of security and functionality, FLASHE drops the asymmetric-key design and only involves modular addition operations with random numbers. Depending on whether to accommodate sparsification techniques, FLASHE is optimized in computation efficiency with different approaches. We have implemented FLASHE as a pluggable module atop FATE, an industrial platform for cross-silo FL. Compared to plaintext training, FLASHE slightly increases the training time by $\leq6\%$, with no communication overhead.
翻訳日:2021-09-04 02:10:28 公開日:2021-09-02
# (参考訳) グローバル畳み込みニューラルプロセス

Global Convolutional Neural Processes ( http://arxiv.org/abs/2109.00691v1 )

ライセンス: CC0 1.0
Xuesong Wang, Lina Yao, Xianzhi Wang, Hye-young Paik, and Sen Wang(参考訳) 機械学習モデルの不確実性に対処する能力は、その予測能力自体にとって、それ以上に重要なものとなっている。 例えば、パンデミックの間、政府の政策や個人的決定は不確実性を中心に常に行われる。 これをターゲットにしたNPF(Neural Process Families)は先頃,ガウスのプロセスとニューラルネットワークをブリッジすることで,不確実性による予測に光を当てた。 NPFのメンバーである潜在神経過程は、特定の点(局所的な不確実性)と一般関数の先行性(グローバル不確実性)をモデル化できると考えられている。 それでも、グローバル不確実性の形式的定義、グローバル不確実性の背景にある因果性、生成モデルに対するグローバル不確実性の操作など、いくつかの重要な疑問は未解決のままである。 これに関して、我々は、潜伏NPFにおけるSOTAログ類似化を実現するGloBal Convolutional Neural Process(GBCoNP)を構築する。 離散化された入力空間上の集合である大域的不確実性表現 p(z) を設計する。 グローバル不確実性の度合いとタスク内多様性の因果関係について論じる。 学習した先行データは、1D、2D、新たに提案された時空間のCOVIDデータセットなど、さまざまなシナリオで分析される。 我々の大域的不確実性の操作は、望まれるサンプルを生成して数発の学習に取り組むだけでなく、機能的事前の確率評価を可能にします。

The ability to deal with uncertainty in machine learning models has become equally, if not more, crucial to their predictive ability itself. For instance, during the pandemic, governmental policies and personal decisions are constantly made around uncertainties. Targeting this, Neural Process Families (NPFs) have recently shone a light on prediction with uncertainties by bridging Gaussian processes and neural networks. Latent neural process, a member of NPF, is believed to be capable of modelling the uncertainty on certain points (local uncertainty) as well as the general function priors (global uncertainties). Nonetheless, some critical questions remain unresolved, such as a formal definition of global uncertainties, the causality behind global uncertainties, and the manipulation of global uncertainties for generative models. Regarding this, we build a member GloBal Convolutional Neural Process(GBCoNP) that achieves the SOTA log-likelihood in latent NPFs. It designs a global uncertainty representation p(z), which is an aggregation on a discretized input space. The causal effect between the degree of global uncertainty and the intra-task diversity is discussed. The learnt prior is analyzed on a variety of scenarios, including 1D, 2D, and a newly proposed spatial-temporal COVID dataset. Our manipulation of the global uncertainty not only achieves generating the desired samples to tackle few-shot learning, but also enables the probability evaluation on the functional priors.
翻訳日:2021-09-04 01:41:47 公開日:2021-09-02
# (参考訳) テキストデータの品質フィルタリングにおける実証的探索

An Empirical Exploration in Quality Filtering of Text Data ( http://arxiv.org/abs/2109.00698v1 )

ライセンス: CC BY 4.0
Leo Gao(参考訳) 従来の知見では、コモンクロールのような低品質ソースからのデータをより積極的にフィルタリングすることはトレーニングデータの品質を常に単調に改善することを示唆しているが、アグレッシブフィルタリングはgptライクな言語モデルのための幅広い下流タスクのモデル品質を低下させる可能性がある。 これは、プロキシメトリックを十分に強く最適化することが、真の目的の性能を損なうためであり、より積極的にフィルタリングしようとする際に、より堅牢なフィルタリング目的の必要性が示唆されるためである。 この作業が、今後の作業におけるダウンストリームモデルパフォーマンスに対するデータセットフィルタリング設計選択の影響の詳細な分析につながることを願っている。

While conventional wisdom suggests that more aggressively filtering data from low-quality sources like Common Crawl always monotonically improves the quality of training data, we find that aggressive filtering can in fact lead to a decrease in model quality on a wide array of downstream tasks for a GPT-like language model. We speculate that this is because optimizing sufficiently strongly for a proxy metric harms performance on the true objective, suggesting a need for more robust filtering objectives when attempting to filter more aggressively. We hope this work leads to detailed analysis of the effects of dataset filtering design choices on downstream model performance in future work.
翻訳日:2021-09-04 01:26:08 公開日:2021-09-02
# (参考訳) 放射移動方程式の機械学習モーメント閉包モデルIII:双曲性と物理特性速度を強制する

Machine learning moment closure models for the radiative transfer equation III: enforcing hyperbolicity and physical characteristic speeds ( http://arxiv.org/abs/2109.00700v1 )

ライセンス: CC BY 4.0
Juntao Huang, Yingda Cheng, Andrew J. Christlieb, Luke F. Roberts(参考訳) 本稿では,放射移動方程式(RTE)のための機械学習(ML)モーメントクロージャモデルを開発するシリーズ3番目の論文である。 先行研究である「cite{huang2021gradient}」では、未閉高次モーメントの勾配を学習するためのアプローチを提案し、モーメント自体と従来の$P_N$クロージャを学習するよりもはるかに優れた性能を示した。 しかし、MLモーメントクロージャは精度が良いが、双曲性を保証することができず、長期間の安定性に問題がある。 第2の論文 \cite{huang2021hyperbolic} では、勾配に基づくML閉包が対称性を持つ双曲型で長期にわたって安定であるという条件を導いたシンメトリエーザを特定した。 このアプローチの限界は、実際には最も高いモーメントは4つまたはより少ないモーメントにのみ関連付けられることである。 本稿では,ML閉鎖モデルの双曲性を強制する新しい手法を提案する。 閉包系の係数行列がより低いヘッセンベルク行列であるという観測に動機づけられ、その固有値を関連する多項式の根に関連付ける。 この関係に基づいて2つの新しいニューラルネットワークアーキテクチャを設計する。 第1のニューラルネットワークから生じるMLクロージャモデルは、弱い双曲性であり、物理的特性速度、すなわち固有値は光の速度によって制限される。 2つ目のモデルは厳密に双曲的であり、固有値の有界性を保証するものではない。 gaussian source problemやtwo-material problemを含むいくつかのベンチマークテストでは、双曲型mlクロージャモデルの精度、安定性、一般化性が示された。

This is the third paper in a series in which we develop machine learning (ML) moment closure models for the radiative transfer equation (RTE). In our previous work \cite{huang2021gradient}, we proposed an approach to learn the gradient of the unclosed high order moment, which performs much better than learning the moment itself and the conventional $P_N$ closure. However, while the ML moment closure has better accuracy, it is not able to guarantee hyperbolicity and has issues with long time stability. In our second paper \cite{huang2021hyperbolic}, we identified a symmetrizer which leads to conditions that enforce that the gradient based ML closure is symmetrizable hyperbolic and stable over long time. The limitation of this approach is that in practice the highest moment can only be related to four, or fewer, lower moments. In this paper, we propose a new method to enforce the hyperbolicity of the ML closure model. Motivated by the observation that the coefficient matrix of the closure system is a lower Hessenberg matrix, we relate its eigenvalues to the roots of an associated polynomial. We design two new neural network architectures based on this relation. The ML closure model resulting from the first neural network is weakly hyperbolic and guarantees the physical characteristic speeds, i.e., the eigenvalues are bounded by the speed of light. The second model is strictly hyperbolic and does not guarantee the boundedness of the eigenvalues. Several benchmark tests including the Gaussian source problem and the two-material problem show the good accuracy, stability and generalizability of our hyperbolic ML closure model.
翻訳日:2021-09-04 01:11:35 公開日:2021-09-02
# (参考訳) 自然言語処理における因果推論--推定・予測・解釈・超越

Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond ( http://arxiv.org/abs/2109.00725v1 )

ライセンス: CC BY 4.0
Amir Feder, Katherine A. Keith, Emaad Manzoor, Reid Pryzant, Dhanya Sridhar, Zach Wood-Doughty, Jacob Eisenstein, Justin Grimmer, Roi Reichart, Margaret E. Roberts, Brandon M. Stewart, Victor Veitch, Diyi Yang(参考訳) 科学的研究の基本的な目標は因果関係について学ぶことである。 しかし、生命科学や社会科学において重要な役割を担っているにもかかわらず、因果関係は自然言語処理(NLP)においてそれほど重要ではない。 この区別は薄れ始めており、因果推論と言語処理の収束における学際研究の新たな領域が生まれている。 それでも、NLPの因果関係の研究は、統一された定義やベンチマークデータセット、残りの課題を明確に記述することなく、ドメインに分散している。 本調査では,学術領域にまたがる研究を集約し,より広いNLPランドスケープに配置する。 本稿では,因果効果を推定する統計的課題,テキストを結果,治療,あるいは共起に対処する手段として用いる設定について紹介する。 さらに, nlpモデルの性能, 頑健性, 公平性, 解釈性を改善するための因果推論の可能性について検討する。 そこで我々は,計算言語学コミュニティにおける因果推論の統一的な概要を提供する。

A fundamental goal of scientific research is to learn about causal relationships. However, despite its critical role in the life and social sciences, causality has not had the same importance in Natural Language Processing (NLP), which has traditionally placed more emphasis on predictive tasks. This distinction is beginning to fade, with an emerging area of interdisciplinary research at the convergence of causal inference and language processing. Still, research on causality in NLP remains scattered across domains without unified definitions, benchmark datasets and clear articulations of the remaining challenges. In this survey, we consolidate research across academic areas and situate it in the broader NLP landscape. We introduce the statistical challenge of estimating causal effects, encompassing settings where text is used as an outcome, treatment, or as a means to address confounding. In addition, we explore potential uses of causal inference to improve the performance, robustness, fairness, and interpretability of NLP models. We thus provide a unified overview of causal inference for the computational linguistics community.
翻訳日:2021-09-04 01:09:41 公開日:2021-09-02
# (参考訳) conqx:条件付きテキスト生成に基づく意図検出のための音声クエリの意味拡張

ConQX: Semantic Expansion of Spoken Queries for Intent Detection based on Conditioned Text Generation ( http://arxiv.org/abs/2109.00729v1 )

ライセンス: CC BY 4.0
Eyup Halit Yilmaz and Cagri Toraman(参考訳) 音声クエリの意図検出は、そのノイズ構造と短い長さのため、難しい課題である。 そこで本研究では,自動回帰言語モデルgpt-2のテキスト生成能力を活用した音声クエリの意味拡張手法であるconqxを提案する。 トピック外のテキスト生成を避けるため、入力クエリをプロンプトマイニングによって構造化されたコンテキストに条件付けする。 そしてゼロショット、ワンショット、そして少数ショットの学習を適用します。 最後に、拡張クエリを使用して、インテント検出のためにBERTとRoBERTaを微調整します。 実験結果から,意味展開法により意図検出の性能を向上できることが示唆された。

Intent detection of spoken queries is a challenging task due to their noisy structure and short length. To provide additional information regarding the query and enhance the performance of intent detection, we propose a method for semantic expansion of spoken queries, called ConQX, which utilizes the text generation ability of an auto-regressive language model, GPT-2. To avoid off-topic text generation, we condition the input query to a structured context with prompt mining. We then apply zero-shot, one-shot, and few-shot learning. We lastly use the expanded queries to fine-tune BERT and RoBERTa for intent detection. The experimental results show that the performance of intent detection can be improved by our semantic expansion method.
翻訳日:2021-09-04 00:47:41 公開日:2021-09-02
# (参考訳) 共分離非負行列分解

Co-Separable Nonnegative Matrix Factorization ( http://arxiv.org/abs/2109.00749v1 )

ライセンス: CC BY 4.0
Junjun Pan and Michael K. Ng(参考訳) 非負行列分解(NMF)はパターン認識の分野で人気があるモデルである。 2つの非負行列 W と H の積による非負データ M の低階近似を求めることを目的としており、一般に NMF は NP-ハードであり、これは分離性仮定の下で効率的に解けるが、これは入力行列の列が入力行列の列に等しいことを要求する。 本稿では,3因子nmf m=p_1sp_2に基づく分離可能性仮定を一般化し,s を入力行列のサブ行列とする。 このNMFをCoS-NMF(Co-Separable NMF)と呼ぶ。 我々はCoS-NMFの数学的性質について論じ、CUR分解、一般化可分NMF(GS-NMF)、双直交三要素化(BiOR-NM3F)など他の関連する行列分解との関係を示す。 CoS-NMFの最適化モデルを提案し,その解法に置換高速勾配法を適用した。 CoS-NMFモデルの有効性を検証するために, 合成データセット, 文書データセット, 顔データベースの数値実験を行った。 最先端の手法と比較して、CoS-NMFモデルは協調クラスタリングタスクにおいて非常によく機能し、入力データ行列にも良い近似を保持する。

Nonnegative matrix factorization (NMF) is a popular model in the field of pattern recognition. It aims to find a low rank approximation for nonnegative data M by a product of two nonnegative matrices W and H. In general, NMF is NP-hard to solve while it can be solved efficiently under separability assumption, which requires the columns of factor matrix are equal to columns of the input matrix. In this paper, we generalize separability assumption based on 3-factor NMF M=P_1SP_2, and require that S is a sub-matrix of the input matrix. We refer to this NMF as a Co-Separable NMF (CoS-NMF). We discuss some mathematics properties of CoS-NMF, and present the relationships with other related matrix factorizations such as CUR decomposition, generalized separable NMF(GS-NMF), and bi-orthogonal tri-factorization (BiOR-NM3F). An optimization model for CoS-NMF is proposed and alternated fast gradient method is employed to solve the model. Numerical experiments on synthetic datasets, document datasets and facial databases are conducted to verify the effectiveness of our CoS-NMF model. Compared to state-of-the-art methods, CoS-NMF model performs very well in co-clustering task, and preserves a good approximation to the input data matrix as well.
翻訳日:2021-09-04 00:41:21 公開日:2021-09-02
# (参考訳) 協調型ニュースエンコーディングと構造的ユーザエンコーディングを用いたニューラルニューズレコメンデーション

Neural News Recommendation with Collaborative News Encoding and Structural User Encoding ( http://arxiv.org/abs/2109.00750v1 )

ライセンス: CC BY 4.0
Zhiming Mao, Xingshan Zeng, Kam-Fai Wong(参考訳) 自動ニュースレコメンデーションは、学術コミュニティや業界から多くの注目を集めている。 最近の研究により、このタスクの鍵はニュースとユーザーの効果的な表現学習にあることが判明した。 既存の作品は通常、ニュースタイトルとコンテンツを別々にエンコードするが、意味的な相互作用は無視する。 さらに、以前のモデルでは、ユーザーが閲覧したニュースの構造的相関を利用してユーザーの興味を明示的に反映することなく、ユーザーのブラウジング履歴をエンコードしている。 本研究では,協調ニュース符号化(CNE)と構造化ユーザ符号化(SUE)を組み合わせたニュース推薦フレームワークを提案する。 双方向LSTMを備えたCNEは、ニュースタイトルとコンテンツを横断選択モジュールと協調的に符号化し、セマンティック・インタラクティブなニュース表現を学習する。 SUEは、グラフ畳み込みネットワークを用いて、ユーザ履歴のクラスタ構造の特徴を抽出し、続いてクラスタ内およびクラスタ間アテンションモジュールを使用して階層的なユーザ関心表現を学習する。 MINDデータセットの実験結果から,提案モデルの有効性を検証し,ニュースレコメンデーションの性能を向上させる。 私たちのコードはhttps://github.com/veason-silverbullet/nnrでリリースしています。

Automatic news recommendation has gained much attention from the academic community and industry. Recent studies reveal that the key to this task lies within the effective representation learning of both news and users. Existing works typically encode news title and content separately while neglecting their semantic interaction, which is inadequate for news text comprehension. Besides, previous models encode user browsing history without leveraging the structural correlation of user browsed news to reflect user interests explicitly. In this work, we propose a news recommendation framework consisting of collaborative news encoding (CNE) and structural user encoding (SUE) to enhance news and user representation learning. CNE equipped with bidirectional LSTMs encodes news title and content collaboratively with cross-selection and cross-attention modules to learn semantic-interactive news representations. SUE utilizes graph convolutional networks to extract cluster-structural features of user history, followed by intra-cluster and inter-cluster attention modules to learn hierarchical user interest representations. Experiment results on the MIND dataset validate the effectiveness of our model to improve the performance of news recommendation. Our code is released at https://github.com/Veason-silverbullet/NNR.
翻訳日:2021-09-03 23:42:36 公開日:2021-09-02
# (参考訳) 畳み込みニューラルネットワークを用いた3次元地質モデルからの3次元鉱物探査:構造制御型熱水鉱床への応用

Learning 3D Mineral Prospectivity from 3D Geological Models with Convolutional Neural Networks: Application to a Structure-controlled Hydrothermal Gold Deposit ( http://arxiv.org/abs/2109.00756v1 )

ライセンス: CC BY 4.0
Hao Deng, Yang Zheng, Jin Chen, Shuyan Yu, Keyan Xiao, Xiancheng Mao(参考訳) 3次元(3次元)地質モデルは、3次元鉱物多種体モデリングの典型的かつ重要なデータ源である。 3次元地質モデルから確率非形式予測変数を同定することは困難で面倒な作業である。 本稿では,畳み込みニューラルネットワーク(cnns)が本質的特徴を学習する能力に動機づけられ,cnnを用いて3次元地質モデルから3次元鉱物探査を学習する新しい手法を提案する。 提案手法は, CNNの学習能力を活用することにより, 鉱物化との複雑な相関関係を解消し, 予測変数設計の面倒な作業を回避するための扉を開く。 具体的には、入力を構造化すべきCNNを用いて非構造的な3次元地質モデルを探究するため、地質境界の幾何学をコンパイルし、マルチチャネル画像に再構成し、CNNに入力する2次元CNNフレームワークを開発する。 これにより、予測モデルは鉱石形成過程を近似しながら、CNNを効果的かつ効率的に訓練することができる。 提案手法は, 代表的な構造制御型熱水鉱床である中国東部のdaingezhuang金鉱床に適用され, 手設計の予測変数を用いた予測モデリング手法と比較された。 その結果, 提案手法は3次元確率モデルの性能向上に寄与し, 作業負荷の低減, 深部生検予測におけるリスクの予測を可能にした。

The three-dimensional (3D) geological models are the typical and key data source in the 3D mineral prospecitivity modeling. Identifying prospectivity-informative predictor variables from the 3D geological models is a challenging and tedious task. Motivated by the ability of convolutional neural networks (CNNs) to learn the intrinsic features, in this paper, we present a novel method that leverages CNNs to learn 3D mineral prospectivity from the 3D geological models. By exploiting the learning ability of CNNs, the presented method allows for disentangling complex correlation to the mineralization and thus opens a door to circumvent the tedious work for designing the predictor variables. Specifically, to explore the unstructured 3D geological models with the CNNs whose input should be structured, we develop a 2D CNN framework in which the geometry of geological boundary is compiled and reorganized into multi-channel images and fed into the CNN. This ensures an effective and efficient training of CNNs while allowing the prospective model to approximate the ore-forming process. The presented method is applied to a typical structure-controlled hydrothermal deposit, the Dayingezhuang gold deposit, eastern China, in which the presented method was compared with the prospectivity modeling methods using hand-designed predictor variables. The results demonstrate the presented method capacitates a performance boost of the 3D prospectivity modeling and empowers us to decrease work-load and prospecting risk in prediction of deep-seated orebodies.
翻訳日:2021-09-03 23:13:26 公開日:2021-09-02
# (参考訳) 自己監督による画像分類のためのより良い自己学習

Better Self-training for Image Classification through Self-supervision ( http://arxiv.org/abs/2109.00778v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) 自己学習は単純な半教師付き学習アプローチである: 高信頼の予測を惹きつける未学習例は、予測と共にラベル付けされ、トレーニングセットに追加され、このプロセスは何度も繰り返される。 近年,手動による教師なしの学習が深層学習において注目されている。 本稿では,自己視を自己訓練に取り入れ,画像分類の精度を向上させる3つの方法を検討した。 SVHN, CIFAR-10, PlantVillageのデータセットをスクラッチからトレーニングし, Imagenetで事前トレーニングした重みを併用した実験結果から, 自己学習の第1イテレーションにのみセルフスーパービジョンを適用することにより, 計算時間がわずかに向上することを示す。

Self-training is a simple semi-supervised learning approach: Unlabelled examples that attract high-confidence predictions are labelled with their predictions and added to the training set, with this process being repeated multiple times. Recently, self-supervision -- learning without manual supervision by solving an automatically-generated pretext task -- has gained prominence in deep learning. This paper investigates three different ways of incorporating self-supervision into self-training to improve accuracy in image classification: self-supervision as pretraining only, self-supervision performed exclusively in the first iteration of self-training, and self-supervision added to every iteration of self-training. Empirical results on the SVHN, CIFAR-10, and PlantVillage datasets, using both training from scratch, and Imagenet-pretrained weights, show that applying self-supervision only in the first iteration of self-training can greatly improve accuracy, for a modest increase in computation time.
翻訳日:2021-09-03 23:11:59 公開日:2021-09-02
# (参考訳) 事前学習モデル重みの伝達は半教師付き画像分類を実質的に改善する

Transfer of Pretrained Model Weights Substantially Improves Semi-Supervised Image Classification ( http://arxiv.org/abs/2109.00788v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) ディープニューラルネットワークは、多数のラベル付きサンプルをトレーニングする際に最先端の結果を生成するが、少数のラベル付きサンプルをトレーニングに使用すると過度に適合する傾向がある。 多数のラベル付き例を作成するには、かなりのリソース、時間、労力が必要です。 新しいデータのラベル付けが実現不可能な場合、ラベル付きインスタンスとラベル付きインスタンスを併用することにより、いわゆる半教師付き学習が純粋に教師付き学習よりも優れた一般化を実現することができる。 本論文は,移動学習が,類似した領域で事前学習されたモデルを活用することによって,潜在的にパフォーマンスを向上させる機会を提供するという観察に動機づけられる。 具体的には,自己学習を用いた半教師付き学習における転校学習の利用について検討する。 主な貢献は、半教師付き学習における類似度メトリック学習法とラベル伝播アルゴリズムの異なる組み合わせを用いた伝達学習の実証的評価である。 ニューラルネットワークのトレーニングに使用する損失の種類に関係なく,ラベル付きサンプルが少ない場合,転送学習によってモデルの精度が大幅に向上することがわかった。 この発見はSVHN, CIFAR10, Plant Villageの画像分類データセットに関する広範な実験を行い,Imagenetから事前訓練した重みを適用して得られた。

Deep neural networks produce state-of-the-art results when trained on a large number of labeled examples but tend to overfit when small amounts of labeled examples are used for training. Creating a large number of labeled examples requires considerable resources, time, and effort. If labeling new data is not feasible, so-called semi-supervised learning can achieve better generalisation than purely supervised learning by employing unlabeled instances as well as labeled ones. The work presented in this paper is motivated by the observation that transfer learning provides the opportunity to potentially further improve performance by exploiting models pretrained on a similar domain. More specifically, we explore the use of transfer learning when performing semi-supervised learning using self-learning. The main contribution is an empirical evaluation of transfer learning using different combinations of similarity metric learning methods and label propagation algorithms in semi-supervised learning. We find that transfer learning always substantially improves the model's accuracy when few labeled examples are available, regardless of the type of loss used for training the neural network. This finding is obtained by performing extensive experiments on the SVHN, CIFAR10, and Plant Village image classification datasets and applying pretrained weights from Imagenet for transfer learning.
翻訳日:2021-09-03 23:01:02 公開日:2021-09-02
# (参考訳) シームズネットワークを用いた半教師付き学習

Semi-Supervised Learning using Siamese Networks ( http://arxiv.org/abs/2109.00794v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) ニューラルネットワークは、多数のラベル付きサンプルをトレーニングする際に、最先端の結果をもたらす分類モデルとしてうまく使われている。 しかし、ラベル付きインスタンスが少量であり、ラベル付けされていないインスタンスが多数存在する半教師付き問題に対して、これらのモデルは、うまくトレーニングすることがより困難である。 本研究は,シームズネットワークを用いた類似度関数学習に基づく半教師付き学習の新しい学習手法を探索し,適切な埋め込みを得る。 学習された表現はユークリッド空間において判別可能であり、従ってラベルなしのインスタンスを最も近いneighbor分類器を使ってラベル付けするのに使うことができる。 拡張トレーニングセット上で,Siameseネットワークを再トレーニングするための真のラベルとして,ラベル付きインスタンスの信頼性予測が使用される。 このプロセスは反復的に適用される。 この反復的自己学習アルゴリズムの実証的研究を行う。 ラベルなし予測を改善するために,グローバル一貫性を用いた局所学習 [22] も評価した。

Neural networks have been successfully used as classification models yielding state-of-the-art results when trained on a large number of labeled samples. These models, however, are more difficult to train successfully for semi-supervised problems where small amounts of labeled instances are available along with a large number of unlabeled instances. This work explores a new training method for semi-supervised learning that is based on similarity function learning using a Siamese network to obtain a suitable embedding. The learned representations are discriminative in Euclidean space, and hence can be used for labeling unlabeled instances using a nearest-neighbor classifier. Confident predictions of unlabeled instances are used as true labels for retraining the Siamese network on the expanded training set. This process is applied iteratively. We perform an empirical study of this iterative self-training algorithm. For improving unlabeled predictions, local learning with global consistency [22] is also evaluated.
翻訳日:2021-09-03 22:51:44 公開日:2021-09-02
# (参考訳) MWPToolkit: ディープラーニングに基づく数学語問題解決のためのオープンソースフレームワーク

MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers ( http://arxiv.org/abs/2109.00799v1 )

ライセンス: CC BY 4.0
Yihuai Lan, Lei Wang, Qiyuan Zhang, Yunshi Lan, Bing Tian Dai, Yan Wang, Dongxiang Zhang, Ee-Peng Lim(参考訳) 自動数学語問題(mwp)解法の開発は1960年代からnlp研究者の関心を集めている。 ここ数年、MWPを効果的に解決するためのデータセットやディープラーニングベースの手法が増えている。 しかし、既存のほとんどのメソッドは、1つか2つのデータセットでベンチマークされ、異なる構成で異なるため、メソッド間の統一、標準化、公正、包括的な比較が欠如している。 本稿では,MWP を解くための最初のオープンソースフレームワークである MWPToolkit について述べる。 MWPToolkitでは、既存のMWPソルバの手順を複数のコアコンポーネントに分解し、それらのモデルを再利用性の高いモジュールに分解する。 また,性能向上のためのハイパーパラメータ検索機能も提供する。 総じて、17 MWPソルバを4つの広く使われている1つの方程式生成ベンチマークと2つの複数の方程式生成ベンチマークで実装・比較する。 これらの特徴により、我々のMWPToolkitは、先進的なベースラインモデルを再現し、新しいMWPソルバを迅速に開発するのに適している。 コードとドキュメントはhttps://github.com/LYH-YF/MWPToolkit.comで入手できる。

Developing automatic Math Word Problem (MWP) solvers has been an interest of NLP researchers since the 1960s. Over the last few years, there are a growing number of datasets and deep learning-based methods proposed for effectively solving MWPs. However, most existing methods are benchmarked soly on one or two datasets, varying in different configurations, which leads to a lack of unified, standardized, fair, and comprehensive comparison between methods. This paper presents MWPToolkit, the first open-source framework for solving MWPs. In MWPToolkit, we decompose the procedure of existing MWP solvers into multiple core components and decouple their models into highly reusable modules. We also provide a hyper-parameter search function to boost the performance. In total, we implement and compare 17 MWP solvers on 4 widely-used single equation generation benchmarks and 2 multiple equations generation benchmarks. These features enable our MWPToolkit to be suitable for researchers to reproduce advanced baseline models and develop new MWP solvers quickly. Code and documents are available at https://github.com/LYH-YF/MWPToolkit.
翻訳日:2021-09-03 22:41:26 公開日:2021-09-02
# (参考訳) 温室におけるトマト検出のための単発マルチボックス検出器とヨーロ深層学習モデルの評価

Evaluating the Single-Shot MultiBox Detector and YOLO Deep Learning Models for the Detection of Tomatoes in a Greenhouse ( http://arxiv.org/abs/2109.00810v1 )

ライセンス: CC BY 4.0
Sandro A. Magalh\~aes, Lu\'is Castro, Germano Moreira, Filipe N. Santos, m\'ario Cunha, Jorge Dias and Ant\'onio P. Moreira(参考訳) 農業のためのロボットソリューションの開発には、どの作物でも確実に機能する高度な認識能力が必要である。 例えば、温室におけるトマト収穫プロセスを自動化するためには、視覚認識システムは、あらゆるライフサイクル段階(熟したトマトへの花)でトマトを検出する必要がある。 視覚トマト検出の最先端は、主に背景から特徴的な色を持つ熟したトマトに焦点を当てている。 本稿では、緑と赤のトマトの注釈付きビジュアルデータセットに寄与する。 この種のデータセットは珍しく、研究目的には利用できない。 これにより、最先端人工知能のさらなる発展と、収穫ロボットの開発に必要なリアルタイムな視覚トマト検出が可能になる。 このデータセットを考慮すると、温室で栽培されている緑と赤みがかったトマトを検出するために、5つのディープラーニングモデルが選択、訓練、ベンチマークされた。 ロボットプラットフォーム仕様を考えると、シングルショットマルチボックス検出器(SSD)とYOLOアーキテクチャのみを考慮した。 その結果,葉に混ざったトマトでも,緑や赤みがかったトマトを検出できることがわかった。 ssd mobilenet v2は、ssd inception v2、ssd resnet 50、ssd resnet 101、yolov4 tinyと比較して最高のパフォーマンスを示し、f1-scoreは66.15%、マップは51.46%、推論時間は16.44ms、nvidia turing architecture platform(nvidia tesla t4)は12gbであった。 YOLOv4 Tinyは、主に約5ミリ秒の推測時間に関する素晴らしい結果を得た。

The development of robotic solutions for agriculture requires advanced perception capabilities that can work reliably in any crop stage. For example, to automatise the tomato harvesting process in greenhouses, the visual perception system needs to detect the tomato in any life cycle stage (flower to the ripe tomato). The state-of-the-art for visual tomato detection focuses mainly on ripe tomato, which has a distinctive colour from the background. This paper contributes with an annotated visual dataset of green and reddish tomatoes. This kind of dataset is uncommon and not available for research purposes. This will enable further developments in edge artificial intelligence for in situ and in real-time visual tomato detection required for the development of harvesting robots. Considering this dataset, five deep learning models were selected, trained and benchmarked to detect green and reddish tomatoes grown in greenhouses. Considering our robotic platform specifications, only the Single-Shot MultiBox Detector (SSD) and YOLO architectures were considered. The results proved that the system can detect green and reddish tomatoes, even those occluded by leaves. SSD MobileNet v2 had the best performance when compared against SSD Inception v2, SSD ResNet 50, SSD ResNet 101 and YOLOv4 Tiny, reaching an F1-score of 66.15%, an mAP of 51.46% and an inference time of 16.44 ms with the NVIDIA Turing Architecture platform, an NVIDIA Tesla T4, with 12 GB. YOLOv4 Tiny also had impressive results, mainly concerning inferring times of about 5 ms.
翻訳日:2021-09-03 22:28:02 公開日:2021-09-02
# (参考訳) 異種ラベルを用いた仏顔からの建年予測

Built Year Prediction from Buddha Face with Heterogeneous Labels ( http://arxiv.org/abs/2109.00812v1 )

ライセンス: CC BY 4.0
Yiming Qian, Cheikh Brahim El Vaigh, Yuta Nakashima, Benjamin Renoust, Hajime Nagahara, Yutaka Fujioka(参考訳) 仏像は、特にアジア地域の文化の一部であり、2000年以上にわたって人類の文明と並んでいる。 歴史が進むにつれ、戦乱、自然災害、その他の理由により、建立された仏像の年代を示す記録が欠落し、歴史学者が築造年数を推定する大きな仕事となった。 本稿では,その顔画像のみに基づいて構築された仏像の年数を自動的に推定するニューラルネットワークモデルの構築を追求する。 本モデルは、3つの項からなる損失関数を用いる: 構築年推定の基礎を提供するmse損失; 正確な構築年と、歴史家が推定する可能性のある構築年(王朝や世紀)の両方でサンプルを処理するkl分岐に基づく損失; 最後に、多様体の仮定に基づいてラベル付きサンプルとラベル付きサンプルの両方を利用する正規化。 学習過程におけるこれら3つの条件を組み合わせることで,テストセットに平均絶対誤差を37.5年有する画像の構築年を推定できることを示した。

Buddha statues are a part of human culture, especially of the Asia area, and they have been alongside human civilisation for more than 2,000 years. As history goes by, due to wars, natural disasters, and other reasons, the records that show the built years of Buddha statues went missing, which makes it an immense work for historians to estimate the built years. In this paper, we pursue the idea of building a neural network model that automatically estimates the built years of Buddha statues based only on their face images. Our model uses a loss function that consists of three terms: an MSE loss that provides the basis for built year estimation; a KL divergence-based loss that handles the samples with both an exact built year and a possible range of built years (e.g., dynasty or centuries) estimated by historians; finally a regularisation that utilises both labelled and unlabelled samples based on manifold assumption. By combining those three terms in the training process, we show that our method is able to estimate built years for given images with 37.5 years of a mean absolute error on the test set.
翻訳日:2021-09-03 21:58:02 公開日:2021-09-02
# (参考訳) mitosis domain generalization challengeにおけるstet-robust mitotic figure detection

Stain-Robust Mitotic Figure Detection for the Mitosis Domain Generalization Challenge ( http://arxiv.org/abs/2109.00853v1 )

ライセンス: CC BY 4.0
Mostafa Jahanifar, Adam Shephard, Neda Zamani Tajeddin, R.M. Saad Bashir, Mohsin Bilal, Syed Ali Khurram, Fayyaz Minhas, and Nasir Rajpoot(参考訳) 異なるスキャナー/サイトからの僧帽弁像の検出は,臨床医の腫瘍診断支援の可能性から,重要な研究課題である。 Mitosis DOmain Generalization (MIDOG)の課題は、複数のスキャナーから見えないデータに対する検出モデルの堅牢性をテストすることである。 この課題に対処するために,TAAセンターチームが採用したアプローチの概要を紹介する。 提案手法は, 深層学習分類器によって洗練される前に, 染色正規化画像に基づいて有糸分裂候補を分割するハイブリッド検出モデルに基づく。 トレーニング画像のクロスバリデーションは予備テストセットで0.786と0.765のf1スコアを達成し,新しいスキャナからデータを取得するための汎用性を示した。

The detection of mitotic figures from different scanners/sites remains an important topic of research, owing to its potential in assisting clinicians with tumour grading. The MItosis DOmain Generalization (MIDOG) challenge aims to test the robustness of detection models on unseen data from multiple scanners for this task. We present a short summary of the approach employed by the TIA Centre team to address this challenge. Our approach is based on a hybrid detection model, where mitotic candidates are segmented on stain normalised images, before being refined by a deep learning classifier. Cross-validation on the training images achieved the F1-score of 0.786 and 0.765 on the preliminary test set, demonstrating the generalizability of our model to unseen data from new scanners.
翻訳日:2021-09-03 21:44:51 公開日:2021-09-02
# (参考訳) VORRT-COLREGs:自律型表面容器用ハイブリッド速度障害物とRTRベースのCOLREGs整合パスプランナ

VORRT-COLREGs: A Hybrid Velocity Obstacles and RRT Based COLREGs-Compliant Path Planner for Autonomous Surface Vessels ( http://arxiv.org/abs/2109.00862v1 )

ライセンス: CC BY 4.0
Rahul Dubey and Sushil J Louis(参考訳) 本稿では,速度障害物 (VO) と高速探索ランダムツリー (RRT) を組み合わせたハイブリッド手法であるVORRT-COLREGsを提案する。 RRTは一連の経路点を生成し、速度障害物法は経路点間の安全な移動を保証する。 ASVの行動が海上衝突ガイドラインに違反していないことも保証します。 以前の作業では、ASVのパスを生成するためにRRTとVOを別々に使用していた。 しかし、RRTは高度に動的に扱えないため、VOはローカルパスプランナとして最も適していると思われる。 両方のアプローチを組み合わせることで、VORRT-COLREGはグローバルパスプランナであり、状況が変化するにつれて生成されたパスが有効で衝突しないよう、共同フォワードシミュレーションを使用する。 異なる種類の衝突シナリオと異なる数のASVを用いて実験を行った。 その結果, VORRT-COLREGS はオープンオーシャンシナリオにおける衝突規制 (COLREG) の苦情経路を作成した。 さらに、VORRT-COLREGSは、トラフィック分離方式におけるコンプライアンスパスの生成に成功した。 これらの結果は,異なる衝突シナリオにおけるASVの経路生成に適用可能であることを示す。 私たちの知る限りでは、これはvelocity obstaclesとrrtを組み合わせることで、asvの安全かつコレーグな苦情パスを作り出す最初の作業です。

This paper presents VORRT-COLREGs, a hybrid technique that combines velocity obstacles (VO) and rapidly-exploring random trees (RRT) to generate safe trajectories for autonomous surface vessels (ASVs) while following nautical rules of the road. RRT generates a set of way points and the velocity obstacles method ensures safe travel between way points. We also ensure that the actions of ASVs do not violate maritime collision guidelines. Earlier work has used RRT and VO separately to generate paths for ASVs. However, RRT does not handle highly dynamic situations well and and VO seems most suitable as a local path planner. Combining both approaches, VORRT-COLREGs is a global path planner that uses a joint forward simulation to ensure that generated paths remain valid and collision free as the situation changes. Experiments were conducted in different types of collision scenarios and with different numbers of ASVs. Results show that VORRT-COLREGS generated collision regulations (COLREGs) complaint paths in open ocean scenarios. Furthermore, VORRT-COLREGS successfully generated compliant paths within traffic separation schemes. These results show the applicability of our technique for generating paths for ASVs in different collision scenarios. To the best of our knowledge, this is the first work that combines velocity obstacles and RRT to produce safe and COLREGs complaint path for ASVs.
翻訳日:2021-09-03 21:38:44 公開日:2021-09-02
# (参考訳) 多色照明色の生成モデル

Generative Models for Multi-Illumination Color Constancy ( http://arxiv.org/abs/2109.00863v1 )

ライセンス: CC BY 4.0
Partha Das, Yang Liu, Sezer Karaoglu and Theo Gevers(参考訳) 本稿では,マルチイルミネーション色濃度を目的とする。 しかし、既存の色濃度法のほとんどは単一光源用に設計されている。 さらに、複数の照明色を学習するためのデータセットがほとんど失われている。 本稿では,種(物理駆動)をベースとする多色コンステンシー法を提案する。 GANを用いて照明推定問題を画像から画像への翻訳問題としてモデル化する。 また,新しい多重照度データ拡張法を提案する。 単照度および多照度データセットを用いた実験により,本手法がソタ法より優れていることが示された。

In this paper, the aim is multi-illumination color constancy. However, most of the existing color constancy methods are designed for single light sources. Furthermore, datasets for learning multiple illumination color constancy are largely missing. We propose a seed (physics driven) based multi-illumination color constancy method. GANs are exploited to model the illumination estimation problem as an image-to-image domain translation problem. Additionally, a novel multi-illumination data augmentation method is proposed. Experiments on single and multi-illumination datasets show that our methods outperform sota methods.
翻訳日:2021-09-03 21:26:17 公開日:2021-09-02
# (参考訳) 騒音による実世界のロバスト性

Real World Robustness from Systematic Noise ( http://arxiv.org/abs/2109.00864v1 )

ライセンス: CC BY 4.0
Yan Wang, Yuhang Li, Ruihao Gong(参考訳) 偶然によって決定されない系統的誤りは、しばしばシステムに固有の不正確さ(観測過程または測定過程の両方を誘発する)を指す。 本稿では,系統的誤りによる長期的かつ頻繁な敵対例を示す。 より具体的には、トレーニングされたニューラルネットワーク分類器は、画像デコーディングとリサイズの不整合実装によって騙される可能性がある。 これらの実装間の小さな違いは、トレーニングからデプロイメントへの精度低下を引き起こすことが多い。 実世界の逆の例をベンチマークするために、研究者は分類器の頑健さを系統的エラーに測定できるImageNet-Sデータセットを提案する。 例えば、ImageNetでトレーニングされた通常のResNet-50は、システムエラーにより1%-5%の精度差がある。 我々の評価とデータセットは、実世界の堅牢性と実用的な一般化に向けた将来の作業に役立つかもしれない。

Systematic error, which is not determined by chance, often refers to the inaccuracy (involving either the observation or measurement process) inherent to a system. In this paper, we exhibit some long-neglected but frequent-happening adversarial examples caused by systematic error. More specifically, we find the trained neural network classifier can be fooled by inconsistent implementations of image decoding and resize. This tiny difference between these implementations often causes an accuracy drop from training to deployment. To benchmark these real-world adversarial examples, we propose ImageNet-S dataset, which enables researchers to measure a classifier's robustness to systematic error. For example, we find a normal ResNet-50 trained on ImageNet can have 1%-5% accuracy difference due to the systematic error. Together our evaluation and dataset may aid future work toward real-world robustness and practical generalization.
翻訳日:2021-09-03 21:14:09 公開日:2021-09-02
# (参考訳) MACRPO:マルチエージェント協調並行ポリシー最適化

MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization ( http://arxiv.org/abs/2109.00882v1 )

ライセンス: CC BY 4.0
Eshagh Kargar, Ville Kyrki(参考訳) 本研究は,通信チャネルのない部分可観測環境と非定常環境のマルチエージェント環境における協調政策の学習の問題について考察する。 本稿では,エージェント間の情報共有の改善に焦点をあて,新しいマルチエージェントアクター批判手法である<textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization} (MACRPO)を提案する。 そこで我々は,MACRPOにおけるエージェント間の情報統合と時間統合の2つの新しい手法を提案する。まず,批判者のネットワークアーキテクチャにおいて再帰層を用いて,再帰層をトレーニングするためにメタ軌道を使用する新しいフレームワークを提案する。 これにより、ネットワークはエージェント間の相互作用の協調とダイナミクスを学び、部分的可観測性も扱うことができる。 第2に,他のエージェントの報酬と価値関数を組み込んだ新たなアドバンテージ関数を提案する。 本研究では,連続的および離散的動作空間,deepdrive-zero,multi-walker,および粒子環境を有する3つの挑戦的マルチエージェント環境においてアルゴリズムを評価する。 結果と,QMIXやMADDPGなどの最先端マルチエージェントアルゴリズムと,IMPALAやAPEXなどのエージェント間でパラメータを共有する単一エージェント手法との比較を行った。 その結果、他のアルゴリズムよりも優れた性能を示す。 コードはhttps://github.com/kargarisaac/macrpoで入手できる。

This work considers the problem of learning cooperative policies in multi-agent settings with partially observable and non-stationary environments without a communication channel. We focus on improving information sharing between agents and propose a new multi-agent actor-critic method called \textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization} (MACRPO). We propose two novel ways of integrating information across agents and time in MACRPO: First, we use a recurrent layer in critic's network architecture and propose a new framework to use a meta-trajectory to train the recurrent layer. This allows the network to learn the cooperation and dynamics of interactions between agents, and also handle partial observability. Second, we propose a new advantage function that incorporates other agents' rewards and value functions. We evaluate our algorithm on three challenging multi-agent environments with continuous and discrete action spaces, Deepdrive-Zero, Multi-Walker, and Particle environment. We compare the results with several ablations and state-of-the-art multi-agent algorithms such as QMIX and MADDPG and also single-agent methods with shared parameters between agents such as IMPALA and APEX. The results show superior performance against other algorithms. The code is available online at https://github.com/kargarisaac/macrpo.
翻訳日:2021-09-03 20:59:19 公開日:2021-09-02
# (参考訳) 医用画像分割における出力活性化関数が確率と誤差に及ぼす影響

Effect of the output activation function on the probabilities and errors in medical image segmentation ( http://arxiv.org/abs/2109.00903v1 )

ライセンス: CC BY-SA 4.0
Lars Nieradzik and Gerik Scheuermann and Dorothee Saur and Christina Gillmann(参考訳) シグモイド活性化は、二項分類とニューラルネットワークとのセグメンテーションにおける標準出力活性化関数である。 それでも、さまざまな潜在的な出力活性化機能があり、医療画像のセグメンテーションの結果が改善される可能性がある。 本研究では,出力の活性化と損失関数の漸近的挙動が予測確率と対応するセグメンテーション誤差に与える影響を考察する。 クロスエントロピーでは,アクティベーション関数の変化の速さはより良い予測と相関し,変化の遅さは確率のキャリブレーションを改善することを示した。 dice損失の場合、アルクタンジェント活性化関数はsgmoid関数より優れていることが判明した。 さらに,医療画像分割領域における任意の出力活性化機能のためのテスト空間を提供する。 4つの医用画像分割タスクにおいて、7つのアクティベーション関数と3つの損失関数を組み合わせてテストを行い,このシナリオに最も適した機能を分類した。

The sigmoid activation is the standard output activation function in binary classification and segmentation with neural networks. Still, there exist a variety of other potential output activation functions, which may lead to improved results in medical image segmentation. In this work, we consider how the asymptotic behavior of different output activation and loss functions affects the prediction probabilities and the corresponding segmentation errors. For cross entropy, we show that a faster rate of change of the activation function correlates with better predictions, while a slower rate of change can improve the calibration of probabilities. For dice loss, we found that the arctangent activation function is superior to the sigmoid function. Furthermore, we provide a test space for arbitrary output activation functions in the area of medical image segmentation. We tested seven activation functions in combination with three loss functions on four different medical image segmentation tasks to provide a classification of which function is best suited in this application scenario.
翻訳日:2021-09-03 20:43:57 公開日:2021-09-02
# (参考訳) MultiEURLEX -- ゼロショット言語間転送のための多言語および多言語法的文書分類データセット

MultiEURLEX -- A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer ( http://arxiv.org/abs/2109.00904v1 )

ライセンス: CC BY 4.0
Ilias Chalkidis, Manos Fergadiotis, Ion Androutsopoulos(参考訳) 法律文書のトピック分類のための多言語データセットである Multi-EURLEX を紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 時間的概念ドリフトの効果と時系列の重要性を,ランダムな分割ではなく強調する。 私たちはこのデータセットをゼロショットクロスリンガルトランスファーのテストベッドとして使用し、ある言語(ソース)でアノテーション付きトレーニングドキュメントを活用して、別の言語(ターゲット)でドキュメントを分類します。 多言語事前学習モデル(XLM-ROBERTA, MT5)を単一ソース言語で微調整すると、多言語知識が壊滅的に忘れられ、その結果、他言語へのゼロショット転送が貧弱になる。 適応戦略、すなわち部分的な微調整、アダプタ、BITFIT、LNFITは、当初、新しいエンドタスクの微調整を加速するために提案され、事前訓練から多言語知識の維持を助け、ゼロショットのクロスリンガル転送を大幅に改善するが、それらの影響は、使用する事前訓練モデルとラベルセットのサイズにも依存する。

We introduce MULTI-EURLEX, a new multilingual dataset for topic classification of legal documents. The dataset comprises 65k European Union (EU) laws, officially translated in 23 languages, annotated with multiple labels from the EUROVOC taxonomy. We highlight the effect of temporal concept drift and the importance of chronological, instead of random splits. We use the dataset as a testbed for zero-shot cross-lingual transfer, where we exploit annotated training documents in one language (source) to classify documents in another language (target). We find that fine-tuning a multilingually pretrained model (XLM-ROBERTA, MT5) in a single source language leads to catastrophic forgetting of multilingual knowledge and, consequently, poor zero-shot transfer to other languages. Adaptation strategies, namely partial fine-tuning, adapters, BITFIT, LNFIT, originally proposed to accelerate fine-tuning for new end-tasks, help retain multilingual knowledge from pretraining, substantially improving zero-shot cross-lingual transfer, but their impact also depends on the pretrained model used and the size of the label set.
翻訳日:2021-09-03 20:06:49 公開日:2021-09-02
# (参考訳) 粗大化と直交型ASR転送

Coarse-To-Fine And Cross-Lingual ASR Transfer ( http://arxiv.org/abs/2109.00916v1 )

ライセンス: CC BY 4.0
Peter Pol\'ak and Ond\v{r}ej Bojar(参考訳) エンドツーエンドのニューラルネットワーク自動音声認識システムは、最近最先端の結果を達成したが、大規模なデータセットと広範な計算資源が必要である。 トランスファーラーニングは、英語モデルから訓練されたドイツ語 ASR など、言語を越えてもこれらの困難を克服するために提案されている。 チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。 移動を簡略化するために,アクセントのないチェコ語中間アルファベットを用いることを提案し,それが極めて効果的な戦略であることを示す。 この技術は、チェコのデータだけでは、粗大な訓練のスタイルでも有用である。 学習時間と単語誤り率(WER)において,かなりのエダクションを実現している。

End-to-end neural automatic speech recognition systems achieved recently state-of-the-art results, but they require large datasets and extensive computing resources. Transfer learning has been proposed to overcome these difficulties even across languages, e.g., German ASR trained from an English model. We experiment with much less related languages, reusing an English model for Czech ASR. To simplify the transfer, we propose to use an intermediate alphabet, Czech without accents, and document that it is a highly effective strategy. The technique is also useful on Czech data alone, in the style of coarse-to-fine training. We achieve substantial eductions in training time as well as word error rate (WER).
翻訳日:2021-09-03 18:32:56 公開日:2021-09-02
# (参考訳) 画像分類モデルの逆ロバスト性に及ぼす注意の影響

Impact of Attention on Adversarial Robustness of Image Classification Models ( http://arxiv.org/abs/2109.00936v1 )

ライセンス: CC BY 4.0
Prachi Agrawal, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) ディープラーニングモデルに対する敵意攻撃は大きな注目を集めており、近年の研究では、これらの攻撃からモデルを守るための敵意的例とテクニックの存在に関する説明が提案されている。 コンピュータビジョンにおける注意は重要な特徴の集中学習を取り入れるために使われ、精度が向上した。 近年,対向ロバスト性を高めるために注意機構を持つモデルが提案されている。 この文脈に従って、この研究は、敵の強靭性に対する注意の影響の一般的な理解を目的としている。 本研究は、CIFAR-10, CIFAR-100, Fashion MNISTデータセットでトレーニングされた非注意および注意に基づく画像分類モデルの、一般的なホワイトボックスとブラックボックス攻撃下での対角的堅牢性の比較研究である。 実験の結果,注意に基づくモデルのロバスト性は,使用するデータセットに依存する可能性がある。 分類に関わるクラスの数です クラス数が少ないデータセットとは対照的に、注意に基づくモデルは分類に対してより堅牢性を示す。

Adversarial attacks against deep learning models have gained significant attention and recent works have proposed explanations for the existence of adversarial examples and techniques to defend the models against these attacks. Attention in computer vision has been used to incorporate focused learning of important features and has led to improved accuracy. Recently, models with attention mechanisms have been proposed to enhance adversarial robustness. Following this context, this work aims at a general understanding of the impact of attention on adversarial robustness. This work presents a comparative study of adversarial robustness of non-attention and attention based image classification models trained on CIFAR-10, CIFAR-100 and Fashion MNIST datasets under the popular white box and black box attacks. The experimental results show that the robustness of attention based models may be dependent on the datasets used i.e. the number of classes involved in the classification. In contrast to the datasets with less number of classes, attention based models are observed to show better robustness towards classification.
翻訳日:2021-09-03 18:23:48 公開日:2021-09-02
# (参考訳) 語りのコーディネートとパラーにおける議事堂暴動

Coordinating Narratives and the Capitol Riots on Parler ( http://arxiv.org/abs/2109.00945v1 )

ライセンス: CC BY 4.0
Lynnette Hui Xian Ng, Iain Cruickshank, Kathleen M. Carley(参考訳) コーディネートされた偽情報キャンペーンはソーシャルメディアユーザーに影響を与えるために使用され、おそらくはオフライン暴力につながる。 本研究では,Parler上でのユーザパーリーの分析を通じて協調メッセージを明らかにする手法を提案する。 提案手法は,ユーザ対テキストグラフとテキスト対テキスト類似度グラフによって誘導されるユーザ対ユーザ協調ネットワークグラフを構築する。 テキスト対テキストグラフは、パーラーポストのテキストの類似性に基づいて構築される。 2020年1月6日の議会議事堂暴動で影響力のある3つのグループを調査し、2020年アメリカ合衆国大統領選挙に関するさまざまな偽情報を裏付けるために、同様のテキストコンテンツを投稿している協調ユーザクラスタのネットワークを検出した。

Coordinated disinformation campaigns are used to influence social media users, potentially leading to offline violence. In this study, we introduce a general methodology to uncover coordinated messaging through analysis of user parleys on Parler. The proposed method constructs a user-to-user coordination network graph induced by a user-to-text graph and a text-to-text similarity graph. The text-to-text graph is constructed based on the textual similarity of Parler posts. We study three influential groups of users in the 6 January 2020 Capitol riots and detect networks of coordinated user clusters that are all posting similar textual content in support of different disinformation narratives related to the U.S. 2020 elections.
翻訳日:2021-09-03 18:12:22 公開日:2021-09-02
# (参考訳) GAM: グラディエントアクティベーションマップによる説明可能な視覚的類似性と分類

GAM: Explainable Visual Similarity and Classification via Gradient Activation Maps ( http://arxiv.org/abs/2109.00951v1 )

ライセンス: CC BY-SA 4.0
Oren Barkan, Omri Armstrong, Amir Hertz, Avi Caciularu, Ori Katz, Itzik Malkiel, Noam Koenigstein(参考訳) 勾配活性化マップ (gam) - 視覚的類似性と分類モデルによる予測を説明する機械である。 ローカライズされた勾配と複数のネットワーク層からのアクティベーション情報を収集することで、GAMは既存の代替手段と比較して視覚的説明を改善する。 GAMのアルゴリズム上の利点は詳細に説明され、実証的に検証され、GAMは様々なタスクやデータセットでその代替品よりも優れていることが示されている。

We present Gradient Activation Maps (GAM) - a machinery for explaining predictions made by visual similarity and classification models. By gleaning localized gradient and activation information from multiple network layers, GAM offers improved visual explanations, when compared to existing alternatives. The algorithmic advantages of GAM are explained in detail, and validated empirically, where it is shown that GAM outperforms its alternatives across various tasks and datasets.
翻訳日:2021-09-03 18:03:03 公開日:2021-09-02
# (参考訳) trouspi-net: 歩行者横断予測のための平行畳み込みとu-grusの時空間的注意

TrouSPI-Net: Spatio-temporal attention on parallel atrous convolutions and U-GRUs for skeletal pedestrian crossing prediction ( http://arxiv.org/abs/2109.00953v1 )

ライセンス: CC BY 4.0
Joseph Gesnouin, Steve Pechberti, Bogdan Stanciulescu and Fabien Moutarde(参考訳) 歩行者の行動や意図を理解することは、車両の安全と運転の快適性を保証するため、自動車の自律性にとって依然として大きな課題の1つである。 本稿では,歩行者の骨格の動態を二元交差意図にリンクすることで,都市交通環境における歩行者の横断予測に対処する。 trouspi-net: コンテキストフリー、軽量、マルチブランチの予測ツール。 trouspi-netは、骨格関節の位置の擬似画像配列をエンコードして、様々な時間分解のための時空間的特徴を抽出する。 提案手法は, 骨格関節の相対距離, バウンディングボックス位置, u-grus による ego-vehicle speed などの処理により強化される。 JAAD と PIE の2つの大規模公共自然科学データセットの評価手法を用いて,TrouSPI-Net の評価を行い,その性能解析を行った。 実験の結果, trouspi-net は jaad で 0.76 f1 得点, pie で 0.80 f1 得点を達成した。

Understanding the behaviors and intentions of pedestrians is still one of the main challenges for vehicle autonomy, as accurate predictions of their intentions can guarantee their safety and driving comfort of vehicles. In this paper, we address pedestrian crossing prediction in urban traffic environments by linking the dynamics of a pedestrian's skeleton to a binary crossing intention. We introduce TrouSPI-Net: a context-free, lightweight, multi-branch predictor. TrouSPI-Net extracts spatio-temporal features for different time resolutions by encoding pseudo-images sequences of skeletal joints' positions and processes them with parallel attention modules and atrous convolutions. The proposed approach is then enhanced by processing features such as relative distances of skeletal joints, bounding box positions, or ego-vehicle speed with U-GRUs. Using the newly proposed evaluation procedures for two large public naturalistic data sets for studying pedestrian behavior in traffic: JAAD and PIE, we evaluate TrouSPI-Net and analyze its performance. Experimental results show that TrouSPI-Net achieved 0.76 F1 score on JAAD and 0.80 F1 score on PIE, therefore outperforming current state-of-the-art while being lightweight and context-free.
翻訳日:2021-09-03 17:43:34 公開日:2021-09-02
# (参考訳) toeplitz行列を用いたコンパクトでロバストなディープニューラルネットワークの構築

Building Compact and Robust Deep Neural Networks with Toeplitz Matrices ( http://arxiv.org/abs/2109.00959v1 )

ライセンス: CC BY 4.0
Alexandre Araujo(参考訳) ディープニューラルネットワークは、さまざまなタスクにおいて最先端にあるが、現実のアプリケーションでの使用とデプロイを妨げる重要な制限がある。 ニューラルネットワークの開発とトレーニングを行う場合、精度が唯一の関心事であるだけでなく、ニューラルネットワークはコスト効率と信頼性も必要である。 正確ではあるが、大きなニューラルネットワークはしばしばこれらの特性を欠いている。 この論文は、精度だけでなく、コンパクトで、訓練が容易で、信頼性が高く、逆の例にロバストなニューラルネットワークを訓練する問題に焦点を当てている。 これらの問題に対処するために、Toeplitzファミリーの構造化行列の特性を活用し、コンパクトでセキュアなニューラルネットワークを構築する。

Deep neural networks are state-of-the-art in a wide variety of tasks, however, they exhibit important limitations which hinder their use and deployment in real-world applications. When developing and training neural networks, the accuracy should not be the only concern, neural networks must also be cost-effective and reliable. Although accurate, large neural networks often lack these properties. This thesis focuses on the problem of training neural networks which are not only accurate but also compact, easy to train, reliable and robust to adversarial examples. To tackle these problems, we leverage the properties of structured matrices from the Toeplitz family to build compact and secure neural networks.
翻訳日:2021-09-03 17:28:04 公開日:2021-09-02
# (参考訳) 不均一畳み込みWGANによる赤外画像超解像

Infrared Image Super-Resolution via Heterogeneous Convolutional WGAN ( http://arxiv.org/abs/2109.00960v1 )

ライセンス: CC BY 4.0
Yongsong Huang, Zetao Jiang, Qingzhong Wang, Qi Jiang and Guoming Pang(参考訳) 画像超解像は、監視やリモートセンシングなど、多くの分野で重要である。 しかし、赤外線(IR)画像は通常、光学機器が比較的高価であるため解像度が低い。 近年,深層学習は画像の超高解像度化に大きく貢献し,可視画像上での顕著な性能を実現している。 IR画像はパターンが少ないため、ディープニューラルネットワーク(DNN)がIR画像から多様な特徴を学習することは困難である。 本稿では,不均一なコンボリューションと,不均一なカーネルベースの超解像Wasserstein GAN(HetSRWGAN)をIR画像の超解像に適用するフレームワークを提案する。 HetSRWGANアルゴリズムは、プラグアンドプレイの異種カーネルベースの残差ブロックを適用した軽量なGANアーキテクチャである。 さらに、画像勾配を用いた新たな損失関数を採用し、任意のモデルに適用することができる。 提案したHetSRWGANは定性評価と定量的評価の両面で一貫して性能が向上する。 実験結果によると、トレーニングプロセス全体がより安定している。

Image super-resolution is important in many fields, such as surveillance and remote sensing. However, infrared (IR) images normally have low resolution since the optical equipment is relatively expensive. Recently, deep learning methods have dominated image super-resolution and achieved remarkable performance on visible images; however, IR images have received less attention. IR images have fewer patterns, and hence, it is difficult for deep neural networks (DNNs) to learn diverse features from IR images. In this paper, we present a framework that employs heterogeneous convolution and adversarial training, namely, heterogeneous kernel-based super-resolution Wasserstein GAN (HetSRWGAN), for IR image super-resolution. The HetSRWGAN algorithm is a lightweight GAN architecture that applies a plug-and-play heterogeneous kernel-based residual block. Moreover, a novel loss function that employs image gradients is adopted, which can be applied to an arbitrary model. The proposed HetSRWGAN achieves consistently better performance in both qualitative and quantitative evaluations. According to the experimental results, the whole training process is more stable.
翻訳日:2021-09-03 17:26:52 公開日:2021-09-02
# (参考訳) deferred spatio-temporal consistencyによる動的シーン新規ビュー合成

Dynamic Scene Novel View Synthesis via Deferred Spatio-temporal Consistency ( http://arxiv.org/abs/2109.01018v1 )

ライセンス: CC BY 4.0
Beatrix-Em\H{o}ke F\"ul\"op-Balogh and Eleanor Tursman and James Tompkin and Julie Digne and Nicolas Bonneel(参考訳) SfM(Structument from Motion)は,異なる視点でカメラからカジュアルなキャプチャによってシーンを再構築し,新しいビュー合成(NVS)により新たな視点からシーンを描画することができる。 どちらもカジュアルなキャプチャとダイナミックなシーンでは難しい: SfMはノイズと時空間的にスパースに再構成された点雲を生成し、時空間的に矛盾する効果を持つNVSとなる。 SfMとNVSの部品を一緒に検討して、課題を緩和します。 まず、SfMの場合、安定なカメラポーズを復元し、シーン全体にわたる時間的に一貫性のある点の要求を推論し、時空のノイズの多い時間ステップごとに小さな点雲のみを再構成する。 第2に,nvsでは,入力ビューから導かれる画素毎の再投影重みによる時空間的一貫性を強制することにより,雑音に対して頑健に対処できる深さと色彩の変動拡散式を提案する。 この延期されたアプローチは、時空間的に一貫性のあるレコンストラクションや大規模データセットの複雑なモデルのトレーニングを必要とせずに、動的シーンの新しいビューを生成する。 本研究では,より新しい学習ベースラインアプローチに対して,実世界の動的シーンでアルゴリズムを実演する。

Structure from motion (SfM) enables us to reconstruct a scene via casual capture from cameras at different viewpoints, and novel view synthesis (NVS) allows us to render a captured scene from a new viewpoint. Both are hard with casual capture and dynamic scenes: SfM produces noisy and spatio-temporally sparse reconstructed point clouds, resulting in NVS with spatio-temporally inconsistent effects. We consider SfM and NVS parts together to ease the challenge. First, for SfM, we recover stable camera poses, then we defer the requirement for temporally-consistent points across the scene and reconstruct only a sparse point cloud per timestep that is noisy in space-time. Second, for NVS, we present a variational diffusion formulation on depths and colors that lets us robustly cope with the noise by enforcing spatio-temporal consistency via per-pixel reprojection weights derived from the input views. Together, this deferred approach generates novel views for dynamic scenes without requiring challenging spatio-temporally consistent reconstructions nor training complex models on large datasets. We demonstrate our algorithm on real-world dynamic scenes against classic and more recent learning-based baseline approaches.
翻訳日:2021-09-03 17:15:22 公開日:2021-09-02
# (参考訳) PHDフィルタを用いた軌跡集合を用いた拡張物体追跡

Extended Object Tracking Using Sets Of Trajectories with a PHD Filter ( http://arxiv.org/abs/2109.01019v1 )

ライセンス: CC BY 4.0
Jakob Sjudin, Martin Marcusson, Lennart Svensson, Lars Hammarstrand(参考訳) PHDフィルタリング(英: PHD filtering)は、オブジェクトの数とその状態が不明なシナリオで使用される、共通かつ効果的な多重オブジェクト追跡(MOT)アルゴリズムである。 各オブジェクトがスキャン毎に複数の測定値を生成することができるシナリオでは、いくつかのphdフィルタはオブジェクトの範囲と運動特性を推定できる。 しかしながら、これらのアプローチの多くは本質的に軌道を推定することができず、状態推定から軌道を構築するために異なるラベル付けスキームのようなアドホックな手法に依存している。 本稿では,ガンマガウシアン逆ウィッシュアート混合型phdフィルタを提案する。これは,拡張対象を扱う点対象対象の軌道集合の追跡に関するこれまでの研究を拡張することにより,拡張対象の軌道の集合を直接推定することができる。 新しいフィルタは, 既存の拡張PHDフィルタと比較され, トラジェクトリを構築するためのラベル付け方式を用いて, オブジェクトトラジェクトリをより確実に推定できることが示されている。

PHD filtering is a common and effective multiple object tracking (MOT) algorithm used in scenarios where the number of objects and their states are unknown. In scenarios where each object can generate multiple measurements per scan, some PHD filters can estimate the extent of the objects as well as their kinematic properties. Most of these approaches are, however, not able to inherently estimate trajectories and rely on ad-hoc methods, such as different labeling schemes, to build trajectories from the state estimates. This paper presents a Gamma Gaussian inverse Wishart mixture PHD filter that can directly estimate sets of trajectories of extended targets by expanding previous research on tracking sets of trajectories for point source objects to handle extended objects. The new filter is compared to an existing extended PHD filter that uses a labeling scheme to build trajectories, and it is shown that the new filter can estimate object trajectories more reliably.
翻訳日:2021-09-03 16:58:00 公開日:2021-09-02
# (参考訳) travelbert: ドメイン固有の異種知識を統一表現に組み込んだ事前学習言語モデル

TravelBERT: Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation ( http://arxiv.org/abs/2109.01048v1 )

ライセンス: CC BY 4.0
Hongyin Zhu, Hao Peng, Zhiheng Lv, Lei Hou, Juanzi Li, Jinghui Xiao(参考訳) 既存の技術は様々な観点からBERTを拡張している。 異なる事前トレーニングタスク、異なるセマンティックな粒度、異なるモデルアーキテクチャを設計する。 BERTを異なるテキストフォーマットから拡張することを検討するモデルは少ない。 本稿では,非構造化テキスト,半構造化テキスト,よく構造化されたテキストを含む,すべての形式のテキストに対する統合事前学習言語モデル(plm)であるヘテロジニアス知識言語モデル(hklm)を提案する。 これら多形式的知識の対応関係を捉えるために,単語知識の学習にはマスキング言語モデル目的,エンティティ知識とトピック知識の学習には3つの分類目標とタイトルマッチング目標を用いる。 上記の多形式テキストを得るため,観光領域にコーパスを構築し,観光NLPデータセット5種について実験を行った。 その結果,本手法はデータの1/4のみを用いて,プレーンテキストの事前学習よりも優れていた。 コード、データセット、コーパス、ナレッジグラフがリリースされる。

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (HKLM), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. The code, datasets, corpus and knowledge graph will be released.
翻訳日:2021-09-03 16:42:45 公開日:2021-09-02
# (参考訳) 胸部x線疾患対応画像編集に向けて

Towards disease-aware image editing of chest X-rays ( http://arxiv.org/abs/2109.01071v1 )

ライセンス: CC BY-SA 4.0
Sai Niranjan Ramachandran, Aakash Saboo, Kai Dierkes, Hacer Yalim Keles(参考訳) GAN(Generative Adversarial Network)による疾患対応画像編集は、医療分野におけるAIの利用を促進するための有望な道となっている。 ここでは、この概念の実証について述べる。 GANベースの技術は自然画像の生成と操作に成功しているが、医療分野への応用はまだ初期段階にある。 CheXpertデータセットを用いて、StyleGANは現実的な胸部X線を生成することができることを示す。 サイクリックリバースジェネレータ(CRG)フレームワークにインスパイアされた私たちは,合成X線で生成体を忠実に反転させるエンコーダを訓練し,実物の臓器レベルの再構築を行う。 潜在コードの誘導的な操作を用いて、健康な患者からの実際のx線に心電図(心臓サイズの増加)の医療状態を推定する。 この研究は、カナダのバンクーバーで開催された34th Conference on Neural Information Processing Systems (NeurIPS 2020)の一部として開催された、メディカルイメージングミート・ニューリプス・ワークショップ2020で発表された。

Disease-aware image editing by means of generative adversarial networks (GANs) constitutes a promising avenue for advancing the use of AI in the healthcare sector. Here, we present a proof of concept of this idea. While GAN-based techniques have been successful in generating and manipulating natural images, their application to the medical domain, however, is still in its infancy. Working with the CheXpert data set, we show that StyleGAN can be trained to generate realistic chest X-rays. Inspired by the Cyclic Reverse Generator (CRG) framework, we train an encoder that allows for faithfully inverting the generator on synthetic X-rays and provides organ-level reconstructions of real ones. Employing a guided manipulation of latent codes, we confer the medical condition of cardiomegaly (increased heart size) onto real X-rays from healthy patients. This work was presented in the Medical Imaging meets Neurips Workshop 2020, which was held as part of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020) in Vancouver, Canada
翻訳日:2021-09-03 16:25:38 公開日:2021-09-02
# (参考訳) 最適部分群選択

Optimal subgroup selection ( http://arxiv.org/abs/2109.01077v1 )

ライセンス: CC BY 4.0
Henry W. J. Reeve, Timothy I. Cannings, Richard J. Samworth(参考訳) 臨床試験やその他の応用では、興味深い行動を示す特徴空間の領域がしばしば見られるが、これらの現象が集団レベルで反映されているかどうかは不明である。 回帰設定に着目し,回帰関数が予め決定された閾値を超える特徴空間の領域を識別する部分群選択課題を考える。 我々は、この問題を制約付き最適化の1つとして定式化し、そこでは低複雑さでデータ依存の選択セットを求め、その確率が保証された場合、回帰関数はしきい値の少なくとも一様大となる。 これは自然に後悔の念をもたらすものであり、我々の主な貢献は、サンプルサイズとタイプIエラー確率の両方において、この後悔に対する最小値の最適率を決定することである。 このレートは、回帰関数の滑らかさを制御するパラメータ間の微妙な相互作用と、集団レベルでの最適選択セットが十分に整備された部分集合の族によって近似できる程度を定量化する指数を含んでいる。 最後に, 治療・制御環境への一般化を図示し, これまでの結果の範囲を拡大し, 異種処理効果の利害関係を明らかにした。

In clinical trials and other applications, we often see regions of the feature space that appear to exhibit interesting behaviour, but it is unclear whether these observed phenomena are reflected at the population level. Focusing on a regression setting, we consider the subgroup selection challenge of identifying a region of the feature space on which the regression function exceeds a pre-determined threshold. We formulate the problem as one of constrained optimisation, where we seek a low-complexity, data-dependent selection set on which, with a guaranteed probability, the regression function is uniformly at least as large as the threshold; subject to this constraint, we would like the region to contain as much mass under the marginal feature distribution as possible. This leads to a natural notion of regret, and our main contribution is to determine the minimax optimal rate for this regret in both the sample size and the Type I error probability. The rate involves a delicate interplay between parameters that control the smoothness of the regression function, as well as exponents that quantify the extent to which the optimal selection set at the population level can be approximated by families of well-behaved subsets. Finally, we expand the scope of our previous results by illustrating how they may be generalised to a treatment and control setting, where interest lies in the heterogeneous treatment effect.
翻訳日:2021-09-03 16:20:56 公開日:2021-09-02
# (参考訳) 身体活動認識のためのデータ拡張のためのトランスフォーマーネットワーク

Transformer Networks for Data Augmentation of Human Physical Activity Recognition ( http://arxiv.org/abs/2109.01081v1 )

ライセンス: CC BY 4.0
Sandeep Ramachandra, Alexander Hoelzemann and Kristof Van Laerhoven(参考訳) データ拡張は、トレーニングで使用されるデータを増やすために、分類において広く使用されるテクニックである。 一般化を改善し、トレーニングに必要なアノテートされたヒューマンアクティビティデータ量を減らし、データセットに必要な労力と時間を削減する。 センサ時系列データは、画像とは異なり、計算学的に単純な変換アルゴリズムでは拡張できない。 Recurrent Generative Adversarial Networks (RGAN)のような最先端技術モデルは、現実的な合成データを生成するために使用される。 本稿では,データにグローバルな注意を払っているトランスフォーマーベースの生成敵ネットワークを,PAMAP2とリアルワールドヒューマンアクティビティ認識データセットでRGANと比較する。 新しいアプローチは、以前のアプローチよりもデータ拡張に必要な計算リソースの時間と節約を改善する。

Data augmentation is a widely used technique in classification to increase data used in training. It improves generalization and reduces amount of annotated human activity data needed for training which reduces labour and time needed with the dataset. Sensor time-series data, unlike images, cannot be augmented by computationally simple transformation algorithms. State of the art models like Recurrent Generative Adversarial Networks (RGAN) are used to generate realistic synthetic data. In this paper, transformer based generative adversarial networks which have global attention on data, are compared on PAMAP2 and Real World Human Activity Recognition data sets with RGAN. The newer approach provides improvements in time and savings in computational resources needed for data augmentation than previous approach.
翻訳日:2021-09-03 16:19:45 公開日:2021-09-02
# (参考訳) MIDOGチャレンジのためのカスケードRCNN

Cascade RCNN for MIDOG Challenge ( http://arxiv.org/abs/2109.01085v1 )

ライセンス: CC BY 4.0
Salar Razavi, Fariba Dambandkhameneh, Dimitri Androutsos, Susan Done, April Khademi(参考訳) 有糸分裂数は乳癌の予後の鍵となる指標の1つである。 しかし、正確な分裂細胞の計数はまだ難しい問題であり、手間がかかる。 このタスクでは、自動化手法が提案されているが、通常はトレーニング画像に依存しており、見当たらないドメインのパフォーマンスが低い。 本研究では,偽陽性に対して逐次より選択的なカスケードrcnnを用いた多段階僧帽弁閉鎖症検出法を提案する。 予備テストセットでは、アルゴリズムはF1スコアが0.7492である。

Mitotic counts are one of the key indicators of breast cancer prognosis. However, accurate mitotic cell counting is still a difficult problem and is labourious. Automated methods have been proposed for this task, but are usually dependent on the training images and show poor performance on unseen domains. In this work, we present a multi-stage mitosis detection method based on a Cascade RCNN developed to be sequentially more selective against false positives. On the preliminary test set, the algorithm scores an F1-score of 0.7492.
翻訳日:2021-09-03 16:13:04 公開日:2021-09-02
# (参考訳) オンターゲット適応

On-target Adaptation ( http://arxiv.org/abs/2109.01087v1 )

ライセンス: CC BY 4.0
Dequan Wang, Shaoteng Liu, Sayna Ebrahimi, Evan Shelhamer, Trevor Darrell(参考訳) ドメイン適応は、 \emph{source} ドメインのトレーニングと \emph{target} ドメインのテストの間のシフトを緩和しようとするものである。 ほとんどの適応法は、ソースデータとターゲットデータに対する共同最適化によるソースデータに依存している。 ソースフリーメソッドはソースデータをターゲットに微調整することでソースモデルに置き換える。 いずれにしても、モデル表現と分類器のパラメータ更新の大部分はソースからであり、ターゲットではない。 しかし、目標精度が目標であるため、ターゲットデータ上で可能な限り最適化することを議論する。 対象データから純粋に表現を学習し、ソース予測のみを監督対象とするオンターゲット適応による大幅な改善を示す。 長期的分類設定では、対象データからクラス(im)バランスを学習するオンターゲットクラス分布学習により、さらなる改善が示される。

Domain adaptation seeks to mitigate the shift between training on the \emph{source} domain and testing on the \emph{target} domain. Most adaptation methods rely on the source data by joint optimization over source data and target data. Source-free methods replace the source data with a source model by fine-tuning it on target. Either way, the majority of the parameter updates for the model representation and the classifier are derived from the source, and not the target. However, target accuracy is the goal, and so we argue for optimizing as much as possible on the target data. We show significant improvement by on-target adaptation, which learns the representation purely from target data while taking only the source predictions for supervision. In the long-tailed classification setting, we show further improvement by on-target class distribution learning, which learns the (im)balance of classes from target data.
翻訳日:2021-09-03 16:08:37 公開日:2021-09-02
# (参考訳) 機能対応問題

The Functional Correspondence Problem ( http://arxiv.org/abs/2109.01097v1 )

ライセンス: CC BY 4.0
Zihang Lai, Senthil Purushwalkam, Abhinav Gupta(参考訳) 視覚データ中の対応を見つける能力は、ほとんどのコンピュータビジョンタスクの本質である。 しかし、正しい対応とは何か? 視覚的対応のタスクは、同じオブジェクトインスタンスの2つの異なるイメージに対してよく定義されます。 同じカテゴリに属する2つのオブジェクトのイメージの場合、視覚対応はたいていの場合合理的に定義されます。 しかし、全く異なるカテゴリーの2つのオブジェクト、例えば靴とボトルの対応についてはどうだろう? 通信は存在するか? a) 意味圏を超えて一般化し, (b) 機能的余裕を推定する能力に触発されて, 本論文では機能的対応の問題を紹介する。 2つのオブジェクトのイメージが与えられた場合、与えられたタスクに対して、これらの2つのイメージ間の対応のセットは何か、という単純な質問をします。 例えば、打つ作業や注ぐ作業において、ボトルと靴の対応はどのようなものか。 FunKPointは10のタスクと20のオブジェクトカテゴリに対して、基礎的な真理対応を持ちます。 また,この問題を攻撃するためのモジュール型タスク駆動表現を導入し,学習した表現がこのタスクに有効であることを示す。 しかし、最も重要なことは、我々の監視信号は意味論に縛られないため、学習した表現が、数発の分類問題においてより一般化できることである。 この論文は、私たちのコミュニティにセマンティクスを超えて考えることを刺激し、ロボットタスクのクロスカテゴリの一般化と学習表現にもっと焦点をあてることを願っている。

The ability to find correspondences in visual data is the essence of most computer vision tasks. But what are the right correspondences? The task of visual correspondence is well defined for two different images of same object instance. In case of two images of objects belonging to same category, visual correspondence is reasonably well-defined in most cases. But what about correspondence between two objects of completely different category -- e.g., a shoe and a bottle? Does there exist any correspondence? Inspired by humans' ability to: (a) generalize beyond semantic categories and; (b) infer functional affordances, we introduce the problem of functional correspondences in this paper. Given images of two objects, we ask a simple question: what is the set of correspondences between these two images for a given task? For example, what are the correspondences between a bottle and shoe for the task of pounding or the task of pouring. We introduce a new dataset: FunKPoint that has ground truth correspondences for 10 tasks and 20 object categories. We also introduce a modular task-driven representation for attacking this problem and demonstrate that our learned representation is effective for this task. But most importantly, because our supervision signal is not bound by semantics, we show that our learned representation can generalize better on few-shot classification problem. We hope this paper will inspire our community to think beyond semantics and focus more on cross-category generalization and learning representations for robotics tasks.
翻訳日:2021-09-03 15:51:21 公開日:2021-09-02
# (参考訳) 非連結形態素の翻訳にサブワードセグメンテーションはどの程度適しているか?

How Suitable Are Subword Segmentation Strategies for Translating Non-Concatenative Morphology? ( http://arxiv.org/abs/2109.01100v1 )

ライセンス: CC BY 4.0
Chantal Amrhein and Rico Sennrich(参考訳) データ駆動サブワードセグメンテーションは、オープンボキャブラリー機械翻訳や他のnlpタスクのデフォルト戦略となっているが、非結合形態の最適学習には不十分である。 制御された半合成環境で形態素現象の異なる種類のセグメンテーション戦略を評価するためのテストスイートを設計する。 実験では、サブワードとキャラクタレベルで訓練された機械翻訳モデルが、これらの形態的現象をいかに翻訳できるかを比較した。 形態学的に複雑な表面表現を解析・生成する学習は,特に重複や母音調和などの非連結形態素現象や稀な語幹において,依然として困難であることがわかった。 本研究の結果から,特定の言語に不利な戦略を採用するリスクを最小限に抑えるため,多種多様な言語で新たなテキスト表現戦略をテストすることを推奨する。

Data-driven subword segmentation has become the default strategy for open-vocabulary machine translation and other NLP tasks, but may not be sufficiently generic for optimal learning of non-concatenative morphology. We design a test suite to evaluate segmentation strategies on different types of morphological phenomena in a controlled, semi-synthetic setting. In our experiments, we compare how well machine translation models trained on subword- and character-level can translate these morphological phenomena. We find that learning to analyse and generate morphologically complex surface representations is still challenging, especially for non-concatenative morphological phenomena like reduplication or vowel harmony and for rare word stems. Based on our results, we recommend that novel text representation strategies be tested on a range of typologically diverse languages to minimise the risk of adopting a strategy that inadvertently disadvantages certain languages.
翻訳日:2021-09-03 15:37:25 公開日:2021-09-02
# (参考訳) 経時的3次元心エコー図法における左室容積分割のための新しい半自動アルゴリズム

A New Semi-Automated Algorithm for Volumetric Segmentation of the Left Ventricle in Temporal 3D Echocardiography Sequences ( http://arxiv.org/abs/2109.01132v1 )

ライセンス: CC BY 4.0
Deepa Krishnaswamy (1 and 2), Abhilash R. Hareendranathan (1 and 2), Tan Suwatanaviroj (4), Pierre Boulanger (1 and 2 and 3), Harald Becher (4), Michelle Noga (1 and 2), Kumaradevan Punithakumar (1 and 2 and 3) ((1) Department of Radiology and Diagnostic Imaging, University of Alberta, Edmonton, AB, Canada, (2) Servier Virtual Cardiac Centre, Mazankowski Alberta Heart Institute, Edmonton, AB, Canada, (3) Department of Computing Science, University of Alberta, Edmonton, AB, Canada, (4) ABACUS, Mazankowski Alberta Heart Institute, Edmonton, AB, Canada)(参考訳) 目的: 心エコー検査は心機能評価のための非侵襲的イメージングツールとして一般的に用いられる。 しかし,左室のデライン化はスペックルノイズの存在や低信号対雑音比などの超音波画像の特徴から困難である。 方法: 経時的3次元心エコー法による左心室の描出のための半自動セグメンテーションアルゴリズムを提案する。 この方法は、ユーザインタラクションを最小にし、二相性登録アプローチに依存する。 この手法の利点は、事前の幾何学的情報、トレーニングデータ、アトラスからの登録に依存しない。 結果: カナダのエドモントンにあるマザンコフスキー・アルバータ・ハート研究所(Mazankowski Alberta Heart Institute)の18例の3次元超音波スキャンを用いて, 専門医と4例の登録アルゴリズムによる手動記述と比較した。 セグメンテーション法では, 平均絶対差1.01mm(0.21)mm, ハウスドルフ距離4.41mm(1.43)mm, Diceオーバーラップスコア0.93(0.02)が心循環で得られた。 結論: この手法は他の4つの登録アルゴリズムと比較して良好に動作した。

Purpose: Echocardiography is commonly used as a non-invasive imaging tool in clinical practice for the assessment of cardiac function. However, delineation of the left ventricle is challenging due to the inherent properties of ultrasound imaging, such as the presence of speckle noise and the low signal-to-noise ratio. Methods: We propose a semi-automated segmentation algorithm for the delineation of the left ventricle in temporal 3D echocardiography sequences. The method requires minimal user interaction and relies on a diffeomorphic registration approach. Advantages of the method include no dependence on prior geometrical information, training data, or registration from an atlas. Results: The method was evaluated using three-dimensional ultrasound scan sequences from 18 patients from the Mazankowski Alberta Heart Institute, Edmonton, Canada, and compared to manual delineations provided by an expert cardiologist and four other registration algorithms. The segmentation approach yielded the following results over the cardiac cycle: a mean absolute difference of 1.01 (0.21) mm, a Hausdorff distance of 4.41 (1.43) mm, and a Dice overlap score of 0.93 (0.02). Conclusions: The method performed well compared to the four other registration algorithms.
翻訳日:2021-09-03 15:15:04 公開日:2021-09-02
# (参考訳) インスタンスセグメンテーションモデルのロバスト性ベンチマーク

Benchmarking the Robustness of Instance Segmentation Models ( http://arxiv.org/abs/2109.01123v1 )

ライセンス: CC BY 4.0
Said Fahri Altindis, Yusuf Dalva, and Aysegul Dundar(参考訳) 本稿では,実世界の画像破損やドメイン外画像収集に関して,インスタンスセグメンテーションモデルの包括的評価を行う。 データセットは、学習したモデルのトレーニングデータセットとは異なる設定で収集される。 領域外画像評価は、モデルの一般化能力、実世界のアプリケーションの本質的な側面、及びドメイン適応に関する広範囲に研究されたトピックを示す。 これらのロバスト性および一般化評価は、実世界のアプリケーション向けにインスタンスセグメンテーションモデルを設計し、手元のタスクに直接使用するための既訓練モデルを選択する際に重要である。 具体的には、最先端のネットワークアーキテクチャ、ネットワークバックボーン、正規化レイヤ、スクラッチからトレーニングされたモデル、ImageNet事前トレーニングネットワーク、堅牢性と一般化に対するマルチタスクトレーニングの効果について述べる。 この研究を通じて、いくつかの洞察を得る。 正規化層はロバスト性において必須であり,imagenetプリトレーニングはモデルのロバスト性や一般化に役立たず,jpegの腐敗を除外し,ネットワークバックボーンとコピーペースト拡張がロバスト性に大きく影響することがわかった。

This paper presents a comprehensive evaluation of instance segmentation models with respect to real-world image corruptions and out-of-domain image collections, e.g. datasets collected with different set-ups than the training datasets the models learned from. The out-of-domain image evaluation shows the generalization capability of models, an essential aspect of real-world applications, and an extensively studied topic of domain adaptation. These presented robustness and generalization evaluations are important when designing instance segmentation models for real-world applications and picking an off-the-shelf pretrained model to directly use for the task at hand. Specifically, this benchmark study includes state-of-the-art network architectures, network backbones, normalization layers, models trained starting from scratch or ImageNet pretrained networks, and the effect of multi-task training on robustness and generalization. Through this study, we gain several insights e.g. we find that normalization layers play an essential role in robustness, ImageNet pretraining does not help the robustness and the generalization of models, excluding JPEG corruption, and network backbones and copy-paste augmentations affect robustness significantly.
翻訳日:2021-09-03 14:45:56 公開日:2021-09-02
# VIbCReg: 時系列における自己教師付き学習のための変数不変・ベタ共分散規則化

VIbCReg: Variance-Invariance-better-Covariance Regularization for Self-Supervised Learning on Time Series ( http://arxiv.org/abs/2109.00783v1 )

ライセンス: Link先を確認
Daesoo Lee (1), Erlend Aune (1 and 2) ((1) Norwegian University of Science and Technology, (2) BI Norwegian Business School)(参考訳) 画像表現のための自己教師型学習は近年,線形評価や微調整評価に関して多くのブレークスルーを経験している。 これらのアプローチは、機能崩壊問題を避けるために巧妙に作られた損失関数とトレーニングセットアップの両方に依存している。 本稿では,最近提案されたVICReg論文を改良し,有用な表現に収束するために,特別な学習ループに依存しない損失関数を導入した。 提案手法は,VICReg で提案した共分散項を改良し,モデルの収束を大幅に加速する IterNorm 層によりアーキテクチャのヘッドを増強する。 本モデルは,UCR時系列分類アーカイブとTB-XL ECGデータセットのサブセットに対して,線形評価と微調整評価に優れる。

Self-supervised learning for image representations has recently had many breakthroughs with respect to linear evaluation and fine-tuning evaluation. These approaches rely on both cleverly crafted loss functions and training setups to avoid the feature collapse problem. In this paper, we improve on the recently proposed VICReg paper, which introduced a loss function that does not rely on specialized training loops to converge to useful representations. Our method improves on a covariance term proposed in VICReg, and in addition we augment the head of the architecture by an IterNorm layer that greatly accelerates convergence of the model. Our model achieves superior performance on linear evaluation and fine-tuning evaluation on a subset of the UCR time series classification archive and the PTB-XL ECG dataset.
翻訳日:2021-09-03 14:11:47 公開日:2021-09-02
# エゴセントリックビデオにおけるスローファストロールロール型LSTMの動作予測

SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric Videos ( http://arxiv.org/abs/2109.00829v1 )

ライセンス: Link先を確認
Nada Osman, Guglielmo Camporese, Pasquale Coscia, Lamberto Ballan(参考訳) エゴセントリックビデオにおける行動予測は、本質的に人間の行動のマルチモーダルな性質のため、難しい課題である。 さらに、アクションによっては、アクタや周囲のコンテキストによって、それぞれが異なり、予測が異なる可能性がある場合もあります。 この考え方に基づいて,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築し,RGB,光フロー,抽出対象の3つの異なるモードから抽出された特徴を,同時に,遅くかつ高速に評価・評価する,新しいアテンションベース手法を提案する。 2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。 EpicKitchens-55 と EGTEA Gaze+ のデータセットに対する広範な実験を行い、予測時刻の異なるTop-5 精度測定のためのRULSTM アーキテクチャの結果を体系的に改善することを示した。

Action anticipation in egocentric videos is a difficult task due to the inherently multi-modal nature of human actions. Additionally, some actions happen faster or slower than others depending on the actor or surrounding context which could vary each time and lead to different predictions. Based on this idea, we build upon RULSTM architecture, which is specifically designed for anticipating human actions, and propose a novel attention-based technique to evaluate, simultaneously, slow and fast features extracted from three different modalities, namely RGB, optical flow, and extracted objects. Two branches process information at different time scales, i.e., frame-rates, and several fusion schemes are considered to improve prediction accuracy. We perform extensive experiments on EpicKitchens-55 and EGTEA Gaze+ datasets, and demonstrate that our technique systematically improves the results of RULSTM architecture for Top-5 accuracy metric at different anticipation times.
翻訳日:2021-09-03 14:11:33 公開日:2021-09-02
# 視覚言語モデルのための学習

Learning to Prompt for Vision-Language Models ( http://arxiv.org/abs/2109.01134v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu(参考訳) 視覚言語事前学習は、最近、表現学習の有望な代替手段として登場した。 画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。 このようなパラダイムは、より広範な監督源の恩恵を受け、視覚概念を自然言語からダイメトリック的に生成できるため、下流タスクへのゼロショット転送を可能にする。 本稿では,そのようなモデルを実際に展開する上で大きな課題は,プロンプトエンジニアリングであることを示す。 これは、特にクラス名を取り巻く文脈語のために適切なプロンプトを設計する場合、ドメインの専門知識が必要であり、ワードの微妙な変更がパフォーマンスに大きな影響を与える可能性があるため、通常、単語チューニングにかなりの時間を要するためである。 さらに、異なる下流タスクは特定の設計を必要とし、デプロイメントの効率をさらに妨げます。 そこで本研究では,文脈最適化(CoOp)という新しい手法を提案する。 主なアイデアは、連続表現を使ってコンテキストをモデル化し、事前訓練されたパラメータを固定しつつ、データからエンドツーエンドの学習を実行することである。 このようにタスク関連プロンプトの設計を完全に自動化することができる。 11のデータセットでの実験では、coopは事前訓練済みの視覚言語モデルをデータ効率の良い視覚学習者に効果的に変換し、手作りのプロンプトを適度なマージンで打ち負かし、より多くのショット(例えば16ショットの場合、平均利得は17%程度で50%以上に達する)で大幅に改善することができる。 CoOpはまた、分散シフトに対して強い堅牢性を示す。

Vision-language pre-training has recently emerged as a promising alternative for representation learning. It shifts from the tradition of using images and discrete labels for learning a fixed set of weights, seen as visual concepts, to aligning images and raw text for two separate encoders. Such a paradigm benefits from a broader source of supervision and allows zero-shot transfer to downstream tasks since visual concepts can be diametrically generated from natural language, known as prompt. In this paper, we identify that a major challenge of deploying such models in practice is prompt engineering. This is because designing a proper prompt, especially for context words surrounding a class name, requires domain expertise and typically takes a significant amount of time for words tuning since a slight change in wording could have a huge impact on performance. Moreover, different downstream tasks require specific designs, further hampering the efficiency of deployment. To overcome this challenge, we propose a novel approach named context optimization (CoOp). The main idea is to model context in prompts using continuous representations and perform end-to-end learning from data while keeping the pre-trained parameters fixed. In this way, the design of task-relevant prompts can be fully automated. Experiments on 11 datasets show that CoOp effectively turns pre-trained vision-language models into data-efficient visual learners, requiring as few as one or two shots to beat hand-crafted prompts with a decent margin and able to gain significant improvements when using more shots (e.g., at 16 shots the average gain is around 17% with the highest reaching over 50%). CoOp also exhibits strong robustness to distribution shift.
翻訳日:2021-09-03 14:11:14 公開日:2021-09-02
# コントラスト学習を用いた言語モデル埋め込みにおける関係構造の導入

Imposing Relation Structure in Language-Model EmbeddingsUsing Contrastive Learning ( http://arxiv.org/abs/2109.00840v1 )

ライセンス: Link先を確認
Christos Theodoropoulos, James Henderson, Andrei C. Coman, Marie-Francine Moens(参考訳) 言語モデルテキスト埋め込みはNLP研究に革命をもたらしたが、テキスト内のエンティティ間の関係のような高度な意味情報をキャプチャする能力は限られている。 本稿では,グラフ構造における関係を符号化するために文埋め込みを訓練する,新しいコントラスト学習フレームワークを提案する。 文(非構造化テキスト)とそのグラフが与えられたとき、比較学習を用いて、文字ベール(el boukkouri et al.,2020)モデルで得られた文のトークンレベルの表現に関係関係構造を課す。 得られた関係認識文の埋め込みは、単純なKNN分類器のみを用いて、関係抽出タスクにおける最先端の処理結果を達成し、提案手法の成功を実証する。 tsne解析によるさらなる可視化は、ベースラインと比較して学習表現空間の有効性を示している。 さらに, 比較学習目的を用いて, 名前付きエンティティ認識のための異なる空間を学習できることを示し, 両方の表現空間をエンティティ関係タスクでうまく結合する方法を実証する。

Though language model text embeddings have revolutionized NLP research, their ability to capture high-level semantic information, such as relations between entities in text, is limited. In this paper, we propose a novel contrastive learning framework that trains sentence embeddings to encode the relations in a graph structure. Given a sentence (unstructured text) and its graph, we use contrastive learning to impose relation-related structure on the token-level representations of the sentence obtained with a CharacterBERT (El Boukkouri et al.,2020) model. The resulting relation-aware sentence embeddings achieve state-of-the-art results on the relation extraction task using only a simple KNN classifier, thereby demonstrating the success of the proposed method. Additional visualization by a tSNE analysis shows the effectiveness of the learned representation space compared to baselines. Furthermore, we show that we can learn a different space for named entity recognition, again using a contrastive learning objective, and demonstrate how to successfully combine both representation spaces in an entity-relation task.
翻訳日:2021-09-03 14:10:31 公開日:2021-09-02
# AnANet:クロスモーダル相関分類のためのモデリングアソシエーションとアライメント

AnANet: Modeling Association and Alignment for Cross-modal Correlation Classification ( http://arxiv.org/abs/2109.00693v1 )

ライセンス: Link先を確認
Nan Xu, Junyan Wang, Yuan Tian, Ruike Zhang, and Wenji Mao(参考訳) マルチモーダルデータの爆発的な増加は、厳密な事前仮定に従う多くのクロスモーダルアプリケーションにおいて大きな需要をもたらす。 そこで研究者らは,クロスモーダル相関カテゴリの定義を調査し,様々な分類システムと予測モデルを構築した。 しかしながら、これらのシステムは、しばしば無関係な型に分けられる暗黙の関連データの多くを無視して、細かな関連したクロスモーダル相関のタイプに注意を払っている。 さらに悪いことに、モデリングの段階での定義に従って、過去の予測モデルが相互モーダル相関の本質を示さないことです。 本稿では,画像テキスト相関の包括的解析を行い,暗黙的関連と明示的なアライメントに基づく新しい分類体系を再定義する。 画像とテキストの相互関係のタイプを予測するために,提案する定義(ananet)に基づき,画像とテキスト間の大域的不一致と共通性を暗黙的に表現し,クロスモーダルな局所的関連性を明示的に捉えたアライメントネットワークを提案する。 新たに構築した画像・テキスト相関データセットにおける実験結果から,本モデルの有効性を示す。

The explosive increase of multimodal data makes a great demand in many cross-modal applications that follow the strict prior related assumption. Thus researchers study the definition of cross-modal correlation category and construct various classification systems and predictive models. However, those systems pay more attention to the fine-grained relevant types of cross-modal correlation, ignoring lots of implicit relevant data which are often divided into irrelevant types. What's worse is that none of previous predictive models manifest the essence of cross-modal correlation according to their definition at the modeling stage. In this paper, we present a comprehensive analysis of the image-text correlation and redefine a new classification system based on implicit association and explicit alignment. To predict the type of image-text correlation, we propose the Association and Alignment Network according to our proposed definition (namely AnANet) which implicitly represents the global discrepancy and commonality between image and text and explicitly captures the cross-modal local relevance. The experimental results on our constructed new image-text correlation dataset show the effectiveness of our model.
翻訳日:2021-09-03 14:10:14 公開日:2021-09-02
# 潜在性ニューラル文法を用いたシーケンスからシーケンスへの学習

Sequence-to-Sequence Learning with Latent Neural Grammars ( http://arxiv.org/abs/2109.01135v1 )

ライセンス: Link先を確認
Yoon Kim(参考訳) ニューラルネットワークを用いたシーケンス間学習は、シーケンス予測タスクのデファクトスタンダードとなっている。 このアプローチは通常、任意の文脈で条件付け可能な強力なニューラルネットワークで次の単語の局所分布をモデル化する。 柔軟性とパフォーマンスは高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで著しく失敗する可能性がある。 本稿では,準同期文法を用いたシーケンス列列学習に対する階層的アプローチについて検討する。対象木の各ノードはソース木のノードによって変換される。 ソースツリーとターゲットツリーは、トレーニング中に遅延処理され、誘導される。 手動の特徴工学を必要とせずに、派生規則の組合せ空間上でパラメータ共有が可能な文法のニューラルパラメータ化を開発する。 この潜性ニューラル文法を様々なドメインに適用し、コンポジション一般化(SCAN)、スタイル転送、および小規模機械翻訳のテスト用に設計された診断言語ナビゲーションタスクを行い、標準ベースラインと同等に動作することを発見した。

Sequence-to-sequence learning with neural networks has become the de facto standard for sequence prediction tasks. This approach typically models the local distribution over the next word with a powerful neural network that can condition on arbitrary context. While flexible and performant, these models often require large datasets for training and can fail spectacularly on benchmarks designed to test for compositional generalization. This work explores an alternative, hierarchical approach to sequence-to-sequence learning with quasi-synchronous grammars, where each node in the target tree is transduced by a node in the source tree. Both the source and target trees are treated as latent and induced during training. We develop a neural parameterization of the grammar which enables parameter sharing over the combinatorial space of derivation rules without the need for manual feature engineering. We apply this latent neural grammar to various domains -- a diagnostic language navigation task designed to test for compositional generalization (SCAN), style transfer, and small-scale machine translation -- and find that it performs respectably compared to standard baselines.
翻訳日:2021-09-03 14:09:33 公開日:2021-09-02
# tabfairgan: 生成型adversarial networkによる公正な表型データ生成

TabFairGAN: Fair Tabular Data Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2109.00666v1 )

ライセンス: Link先を確認
Amirarsalan Rajabi, Ozlem Ozmen Garibay(参考訳) 自動意思決定への依存が高まるにつれて、アルゴリズム的公平性の問題の重要性が高まっている。 本稿では,表データ生成のための生成型adversarial networkを提案する。 モデルは2段階のトレーニングを含む。 第1フェーズでは、モデルがトレーニングされ、参照データセットに似た合成データを正確に生成する。 第2フェーズでは、フェアネス制約を加えるために値関数を変更し、正確かつ公正なデータを生成するためにネットワークをトレーニングし続けます。 私たちは、制約のない、公平なデータ生成の両方のケースで結果をテストします。 拘束されていない場合、すなわち、 このモデルが第1フェーズでのみ訓練され、実データの同一の確率分布に追従して正確なデータを生成することを意図した場合には、文献に提示された最先端のganを上回って合成表データを生成する。 また、トレーニングの第1フェーズと第2フェーズが続く制約された場合、ネットワークをトレーニングし、フェアネス文献で研究した4つのデータセット上でテストし、その結果を他の最先端の事前処理手法と比較し、その実現に期待できる結果を示す。 公平なデータ生成にGANを利用する他の研究と比較して、我々のモデルは1つの批評家のみを用いることで、また、Wasserstein GANを実装することで、モードドロップや非収束といった元のGANモデルの大きな問題を回避することで、より安定している。

With the increasing reliance on automated decision making, the issue of algorithmic fairness has gained increasing importance. In this paper, we propose a Generative Adversarial Network for tabular data generation. The model includes two phases of training. In the first phase, the model is trained to accurately generate synthetic data similar to the reference dataset. In the second phase we modify the value function to add fairness constraint, and continue training the network to generate data that is both accurate and fair. We test our results in both cases of unconstrained, and constrained fair data generation. In the unconstrained case, i.e. when the model is only trained in the first phase and is only meant to generate accurate data following the same joint probability distribution of the real data, the results show that the model beats state-of-the-art GANs proposed in the literature to produce synthetic tabular data. Also, in the constrained case in which the first phase of training is followed by the second phase, we train the network and test it on four datasets studied in the fairness literature and compare our results with another state-of-the-art pre-processing method, and present the promising results that it achieves. Comparing to other studies utilizing GANs for fair data generation, our model is comparably more stable by using only one critic, and also by avoiding major problems of original GAN model, such as mode-dropping and non-convergence, by implementing a Wasserstein GAN.
翻訳日:2021-09-03 14:08:18 公開日:2021-09-02
# フェアネス概念を用いたフェアクラスタリングの効率的なアルゴリズム

Efficient Algorithms For Fair Clustering with a New Fairness Notion ( http://arxiv.org/abs/2109.00708v1 )

ライセンス: Link先を確認
Shivam Gupta, Ganesh Ghalme, Narayanan C. Krishnan and Shweta Jain(参考訳) 我々は、まずChierichettiらによって導入されたフェアクラスタリングの問題を再考し、各保護属性が各クラスタにほぼ等しい表現、すなわちバランス特性を持つことを要求する。 既存のクラスタリングのソリューションはスケーラビリティが低いか、クラスタリングの目的と公平性のトレードオフが最適でないかのいずれかです。 本稿では,バランス特性を厳密に一般化し,細粒度効率とフェアネストレードオフの両立を可能にする,$tau$-fair Fairnessという新しいフェアネスの概念を提案する。 さらに, 単純なグリーディラウンドロビンベースアルゴリズムにより, このトレードオフを効率的に実現できることを示す。 多値保護属性のより一般的な設定の下で、我々はアルゴリズムの理論的特性を厳密に分析する。 実験結果から,提案手法はすべての最先端アルゴリズムより優れており,多数のクラスタに対しても極めて良好に動作することが示唆された。

We revisit the problem of fair clustering, first introduced by Chierichetti et al., that requires each protected attribute to have approximately equal representation in every cluster; i.e., a balance property. Existing solutions to fair clustering are either not scalable or do not achieve an optimal trade-off between clustering objective and fairness. In this paper, we propose a new notion of fairness, which we call $tau$-fair fairness, that strictly generalizes the balance property and enables a fine-grained efficiency vs. fairness trade-off. Furthermore, we show that simple greedy round-robin based algorithms achieve this trade-off efficiently. Under a more general setting of multi-valued protected attributes, we rigorously analyze the theoretical properties of the our algorithms. Our experimental results suggest that the proposed solution outperforms all the state-of-the-art algorithms and works exceptionally well even for a large number of clusters.
翻訳日:2021-09-03 14:07:52 公開日:2021-09-02
# RF-LighGBM:地域電子商取引における顧客の再購入行動を予測する確率的アンサンブル手法

RF-LighGBM: A probabilistic ensemble way to predict customer repurchase behaviour in community e-commerce ( http://arxiv.org/abs/2109.00724v1 )

ライセンス: Link先を確認
Liping Yang, Xiaxia Niu, Jun Wu(参考訳) 中国のオンライン決済ユーザー数は8億4400万人に達したと報告されており、コミュニティのeコマースプラットフォームが出現するにつれて、eコマースとソーシャルアプリケーションの統合の傾向がますます強まっている。 コミュニティeコマースは成熟したものではなく、より少ないカテゴリーと低いブランド価値を持つ包括的eコマースである。 コミュニティユーザを効果的に維持し、顧客価値を十分に探求することは、コミュニティEコマース運営者にとって重要な課題となっている。 上記の課題を考慮し,データ駆動手法を用いてコミュニティの電子商取引顧客による再購入行動の予測を行う。 主な研究内容は1。 機能工学の複雑な問題を考えると、顧客関係管理の分野での古典的なモデルrfmが改善され、5つの指標を含む顧客購買行動の特徴を記述するための改良モデルが提案されている。 2. SMOTE-ENNにおける機械学習トレーニングサンプルの不均衡を考慮して,SMOTE-ENNを用いたトレーニングサンプルバランスを提案する。 実験の結果、機械学習モデルはバランスのとれたサンプルに基づいてより効果的にトレーニングできることがわかった。 3. パラメータ調整プロセスの複雑さを考慮し,TPE法に基づく自動ハイパーパラメータ最適化手法を提案する。 他の手法と比較して、モデルの予測性能が向上し、トレーニング時間が450%以上短縮される。 4. 単一モデルの弱い予測能力に着目し,ソフト投票に基づくRF-LightgBMモデルを提案した。 本論文で提案したRF-LighTGBMモデルは,顧客の再購入行動の予測を効果的に行うことができ,F1値が0.859であり,単一モデルよりも優れていることを示す。

It is reported that the number of online payment users in China has reached 854 million; with the emergence of community e-commerce platforms, the trend of integration of e-commerce and social applications is increasingly intense. Community e-commerce is not a mature and sound comprehensive e-commerce with fewer categories and low brand value. To effectively retain community users and fully explore customer value has become an important challenge for community e-commerce operators. Given the above problems, this paper uses the data-driven method to study the prediction of community e-commerce customers' repurchase behaviour. The main research contents include 1. Given the complex problem of feature engineering, the classic model RFM in the field of customer relationship management is improved, and an improved model is proposed to describe the characteristics of customer buying behaviour, which includes five indicators. 2. In view of the imbalance of machine learning training samples in SMOTE-ENN, a training sample balance using SMOTE-ENN is proposed. The experimental results show that the machine learning model can be trained more effectively on balanced samples. 3. Aiming at the complexity of the parameter adjustment process, an automatic hyperparameter optimization method based on the TPE method was proposed. Compared with other methods, the model's prediction performance is improved, and the training time is reduced by more than 450%. 4. Aiming at the weak prediction ability of a single model, the soft voting based RF-LightgBM model was proposed. The experimental results show that the RF-LighTGBM model proposed in this paper can effectively predict customer repurchase behaviour, and the F1 value is 0.859, which is better than the single model and previous research results.
翻訳日:2021-09-03 14:07:39 公開日:2021-09-02
# nasi: 初期化時のラベルとデータ非依存のニューラルアーキテクチャ検索

NASI: Label- and Data-agnostic Neural Architecture Search at Initialization ( http://arxiv.org/abs/2109.00817v1 )

ライセンス: Link先を確認
Yao Shu, Shaofeng Cai, Zhongxiang Dai, Beng Chin Ooi, Bryan Kian Hsiang Low(参考訳) 近年、Neural Architecture Search(NAS)への関心が高まっている。 NASの探索効率と有効性、すなわち探索コストを削減し、選択したアーキテクチャの一般化性能を改善するために、様々なアルゴリズムが提案されている。 しかし,これらのアルゴリズムの探索効率は,探索過程におけるモデルトレーニングの必要性により著しく制限されている。 この制限を克服するために,nasi(nas at initialization)と呼ばれる新しいnasアルゴリズムを提案する。これはニューラルネットワークの接点カーネルの機能を利用して,初期化時の候補アーキテクチャの収束性能を特徴付けることで,モデルトレーニングを完全に回避して探索効率を高めることができる。 検索効率の改善に加えて、NASIはCIFAR-10/100やImageNetといった様々なデータセットで競合する検索効率を実現している。 さらに、穏やかな条件下では、nasiはラベルやデータに依存せず、異なるデータセット上でnasiによって選択されたアーキテクチャの転送可能性を保証することが示されています。

Recent years have witnessed a surging interest in Neural Architecture Search (NAS). Various algorithms have been proposed to improve the search efficiency and effectiveness of NAS, i.e., to reduce the search cost and improve the generalization performance of the selected architectures, respectively. However, the search efficiency of these algorithms is severely limited by the need for model training during the search process. To overcome this limitation, we propose a novel NAS algorithm called NAS at Initialization (NASI) that exploits the capability of a Neural Tangent Kernel in being able to characterize the converged performance of candidate architectures at initialization, hence allowing model training to be completely avoided to boost the search efficiency. Besides the improved search efficiency, NASI also achieves competitive search effectiveness on various datasets like CIFAR-10/100 and ImageNet. Further, NASI is shown to be label- and data-agnostic under mild conditions, which guarantees the transferability of architectures selected by our NASI over different datasets.
翻訳日:2021-09-03 14:07:09 公開日:2021-09-02
# インテリジェント交通信号制御のためのアルゴリズムの比較検討

A Comparative Study of Algorithms for Intelligent Traffic Signal Control ( http://arxiv.org/abs/2109.00937v1 )

ライセンス: Link先を確認
Hrishit Chaudhuri, Vibha Masti, Vishruth Veerendranath and Dr. S Natarajan(参考訳) 本稿では,待ち時間と待ち時間を最小限に抑えるために,交通信号制御を効果的に最適化する手法を提案する。 交通交差点は最初にマルコフ決定プロセスとして定義され、状態表現、行動、報酬が選択された。 交差点をシミュレートし,ラウンドロビンスケジューラ,フィードバック制御機構,強化学習手法であるディープqネットワーク(dqn)とアドバンテージアクタ-クリティック(a2c)を,異なるシナリオでのシミュレーションにおけるトラヒック信号のポリシとして比較した。 最後に、インドのベンガルの現実世界の交差点のシミュレーションで実験を行った。

In this paper, methods have been explored to effectively optimise traffic signal control to minimise waiting times and queue lengths, thereby increasing traffic flow. The traffic intersection was first defined as a Markov Decision Process, and a state representation, actions and rewards were chosen. Simulation of Urban MObility (SUMO) was used to simulate an intersection and then compare a Round Robin Scheduler, a Feedback Control mechanism and two Reinforcement Learning techniques - Deep Q Network (DQN) and Advantage Actor-Critic (A2C), as the policy for the traffic signal in the simulation under different scenarios. Finally, the methods were tested on a simulation of a real-world intersection in Bengaluru, India.
翻訳日:2021-09-03 14:06:53 公開日:2021-09-02
# 多レベル製品カテゴリー予測のためのテキスト分類

Text Classification for Predicting Multi-level Product Categories ( http://arxiv.org/abs/2109.01084v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Ozan Ozyegen, Mucahit Cevik, Beste Bulut, Deniz Yigit, Fahrettin F. Gonen, Ay\c{s}e Ba\c{s}ar(参考訳) オンラインショッピングプラットフォームでは、製品の詳細な分類がユーザナビゲーションを促進する。 また、オンライン小売業者は特定の業界における価格変動や、特定の商品カテゴリーの特別割引を追跡できる。 さらに、自動分類システムは、オペレータが提案する誤ったカテゴリや主観的なカテゴリをピンポイントするのに役立つ。 本研究では,食料品の商品名分類に焦点をあてた。 従来の機械学習法と最近の機械学習法の両方をテストするための強力なベースラインを確立するため、6つの異なるテキスト分類モデルを包括的に比較した。 実験では,オンライン小売業者の製品に対するトレーニングモデルの一般化可能性,事前学習された言語モデルで実現不可能なサブカテゴリの動的マスキング,複数の言語に製品タイトルを組み込むことによるメリットについて検討した。 その結果,サブカテゴリの動的マスキングは予測精度の向上に有効であることがわかった。 さらに,バイリンガルな製品タイトルの使用は一般的に有益であり,ニューラルネットワークベースのモデルの方がsvmやxgboostモデルよりもはるかに優れた性能を示す。 最後に,誤分類製品の理由を調査し,予測モデルをさらに強化するための今後の研究方向を提案する。

In an online shopping platform, a detailed classification of the products facilitates user navigation. It also helps online retailers keep track of the price fluctuations in a certain industry or special discounts on a specific product category. Moreover, an automated classification system may help to pinpoint incorrect or subjective categories suggested by an operator. In this study, we focus on product title classification of the grocery products. We perform a comprehensive comparison of six different text classification models to establish a strong baseline for this task, which involves testing both traditional and recent machine learning methods. In our experiments, we investigate the generalizability of the trained models to the products of other online retailers, the dynamic masking of infeasible subcategories for pretrained language models, and the benefits of incorporating product titles in multiple languages. Our numerical results indicate that dynamic masking of subcategories is effective in improving prediction accuracy. In addition, we observe that using bilingual product titles is generally beneficial, and neural network-based models perform significantly better than SVM and XGBoost models. Lastly, we investigate the reasons for the misclassified products and propose future research directions to further enhance the prediction models.
翻訳日:2021-09-03 14:06:38 公開日:2021-09-02
# 可逆モダリティ合成融合のための可変拡張ネットワーク

Variable Augmented Network for Invertible Modality Synthesis-Fusion ( http://arxiv.org/abs/2109.00670v1 )

ライセンス: Link先を確認
Yuhao Wang, Ruirui Liu, Zihao Li, Cailian Yang, Qiegen Liu(参考訳) 複数の医用画像に含まれる情報を異なるモダリティで統合する有効な方法として、疾患診断や治療計画などの様々な臨床応用に医療用画像合成と融合が出現している。 本稿では,医療画像の合成と融合のために,iVAN(invertible and variable augmented network)を提案する。 iVANでは、ネットワーク入力と出力のチャネル番号は可変拡張技術により同一であり、データ関連性が向上し、キャラクタリゼーション情報の生成に寄与する。 一方、可逆ネットワークは双方向推論プロセスを達成するために使用される。 可逆および可変拡張スキームのため、ivanはマルチインプットからワンアウトプット、マルチインプットからマルチアウトプットへのマッピングに適用できるだけでなく、ワンインプットからマルチアウトプットへのマッピングにも適用できる。 実験により,提案手法は医用画像合成法や融合法と比較して,競争力や優れた性能が得られることが示された。

As an effective way to integrate the information contained in multiple medical images under different modalities, medical image synthesis and fusion have emerged in various clinical applications such as disease diagnosis and treatment planning. In this paper, an invertible and variable augmented network (iVAN) is proposed for medical image synthesis and fusion. In iVAN, the channel number of the network input and output is the same through variable augmentation technology, and data relevance is enhanced, which is conducive to the generation of characterization information. Meanwhile, the invertible network is used to achieve the bidirectional inference processes. Due to the invertible and variable augmentation schemes, iVAN can not only be applied to the mappings of multi-input to one-output and multi-input to multi-output, but also be applied to one-input to multi-output. Experimental results demonstrated that the proposed method can obtain competitive or superior performance in comparison to representative medical image synthesis and fusion methods.
翻訳日:2021-09-03 14:04:37 公開日:2021-09-02
# 強固な一般化のための地域対応訓練

Regional Adversarial Training for Better Robust Generalization ( http://arxiv.org/abs/2109.00678v1 )

ライセンス: Link先を確認
Chuanbiao Song, Yanbo Fan, Yicheng Yang, Baoyuan Wu, Yiming Li, Zhifeng Li, Kun He(参考訳) 対戦訓練(AT)は、様々な敵攻撃に対する最も有望な防御方法の1つとして実証されている。 我々の知る限り、既存のATベースの手法は、通常、最も敵対的な摂動点を訓練し、全ての摂動点を等しく扱う。 本研究では,その多様性と,良性サンプル近傍の摂動点の特性を考察した,新たな対角トレーニングフレームワークを提案する。 この枠組みを実現するために,本手法では,まず,典型的な射影勾配降下法(pgd)による攻撃経路を活用し,攻撃経路に基づく攻撃領域を構築する地域敵訓練(rat)防御手法を提案する。 次に、RATは、この領域内で様々な摂動トレーニングポイントを効率的にサンプリングし、距離対応ラベル平滑化機構を用いて、異なる場所の摂動ポイントがモデル性能に異なる影響を与えるであろう直感を捉える。 いくつかのベンチマークデータセットの大規模な実験により、RATは標準対人訓練(SAT)を一貫して改善し、より堅牢な一般化を示す。

Adversarial training (AT) has been demonstrated as one of the most promising defense methods against various adversarial attacks. To our knowledge, existing AT-based methods usually train with the locally most adversarial perturbed points and treat all the perturbed points equally, which may lead to considerably weaker adversarial robust generalization on test data. In this work, we introduce a new adversarial training framework that considers the diversity as well as characteristics of the perturbed points in the vicinity of benign samples. To realize the framework, we propose a Regional Adversarial Training (RAT) defense method that first utilizes the attack path generated by the typical iterative attack method of projected gradient descent (PGD), and constructs an adversarial region based on the attack path. Then, RAT samples diverse perturbed training points efficiently inside this region, and utilizes a distance-aware label smoothing mechanism to capture our intuition that perturbed points at different locations should have different impact on the model performance. Extensive experiments on several benchmark datasets show that RAT consistently makes significant improvement on standard adversarial training (SAT), and exhibits better robust generalization.
翻訳日:2021-09-03 14:04:18 公開日:2021-09-02
# 乳癌組織標本における深層学習によるミトーシスの検出

Deep Learning-based mitosis detection in breast cancer histologic samples ( http://arxiv.org/abs/2109.00816v1 )

ライセンス: Link先を確認
Michel Halmes, Hippolyte Heuberger, Sylvain Berlemont(参考訳) これはMIDOG 2021チャレンジの文脈におけるミトーシス検出の提出である。 これは、ニューラルネットワークアーキテクチャのバックボーンとして、より高速なrcnnとdrknetの2段階の反対モデルに基づいている。 予備試験段階のリーダーボード上では、f1-scoreが 0.6645 となる。

This is the submission for mitosis detection in the context of the MIDOG 2021 challenge. It is based on the two-stage objection model Faster RCNN as well as DenseNet as a backbone for the neural network architecture. It achieves a F1-score of 0.6645 on the Preliminary Test Phase Leaderboard.
翻訳日:2021-09-03 14:03:56 公開日:2021-09-02
# 教師なし領域適応のための対向ロバスト性

Adversarial Robustness for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.00946v1 )

ライセンス: Link先を確認
Muhammad Awais, Fengwei Zhou, Hang Xu, Lanqing Hong, Ping Luo, Sung-Ho Bae, Zhenguo Li(参考訳) 広範囲なUnsupervised Domain Adaptation (UDA) 研究は、ラベル付きソースドメインとラベルなしターゲットドメインに深いモデルで変換可能な表現を学習することで、実践的に大きな成功を収めている。 しかし, 従来の研究は, 現実の応用において重要な敵対的堅牢性を考慮せずに, クリーンな例による UDA モデルの一般化能力の向上に重点を置いている。 従来のadversarial training法は、教師付き損失関数によって生成された敵の例を用いてモデルを訓練するため、udaのラベルなし目標領域における敵のロバスト性には適していない。 本研究では、複数の堅牢なImageNetモデルから学習した中間表現を活用し、UDAモデルの堅牢性を改善する。 提案手法は,UCAモデルの特徴と,ImageNet事前学習モデルで学習した頑健な特徴とを整合させて,ドメイン適応トレーニングを行う。 ラベル付きドメインとラベルなしドメインの両方を使用し、ドメイン適応トレーニング中に敵の介入やラベルの要求なしに堅牢性を注入する。 実験結果から,UDAベンチマークの精度を高く保ちながら,本手法はベースラインに比べて対向ロバスト性を著しく向上することが示された。

Extensive Unsupervised Domain Adaptation (UDA) studies have shown great success in practice by learning transferable representations across a labeled source domain and an unlabeled target domain with deep models. However, previous works focus on improving the generalization ability of UDA models on clean examples without considering the adversarial robustness, which is crucial in real-world applications. Conventional adversarial training methods are not suitable for the adversarial robustness on the unlabeled target domain of UDA since they train models with adversarial examples generated by the supervised loss function. In this work, we leverage intermediate representations learned by multiple robust ImageNet models to improve the robustness of UDA models. Our method works by aligning the features of the UDA model with the robust features learned by ImageNet pre-trained models along with domain adaptation training. It utilizes both labeled and unlabeled domains and instills robustness without any adversarial intervention or label requirement during domain adaptation training. Experimental results show that our method significantly improves adversarial robustness compared to the baseline while keeping clean accuracy on various UDA benchmarks.
翻訳日:2021-09-03 14:03:53 公開日:2021-09-02
# MAP推論と指数決定点過程の不適合性

Some Inapproximability Results of MAP Inference and Exponentiated Determinantal Point Processes ( http://arxiv.org/abs/2109.00727v1 )

ライセンス: Link先を確認
Naoto Ohsaka(参考訳) 決定点過程(DPP)における2つの難解問題の計算複雑性について検討する。 1つは、最大決定基を持つ主部分行列を見つけるために、最大後続(MAP)推論である。 もう1つは指数パラメータ$p$で DPPs の多様性の選好を鋭くまたは弱めることができる指数 DPPs (E-DPPs) に関する確率的推論である。 E-DPPのMAP推論と正規化定数の近似の難しさを説明した複雑性理論的難易度の結果を以下に示す。 1. $n \times n$Matrix に対する非制約MAP推論は、NPハードで$2^{\beta n}$ の係数で近似し、$\beta = 10^{-10^{13}} $ となる。 この結果は、Kulesza と Taskar (2012) によって与えられる $(\frac{9}{8}-\epsilon)$-factor inapproximability によって改善される。 2. 対数行列の最大化は、非制約の場合の$\frac{5}{4}$とサイズ制約のモノトンの場合の$+10^{-10^{13}}$に近似するNPハードである。 3. 固定された)定数指数 $p \geq \beta^{-1} = 10^{10^{13}}$ の E-DPP の正規化定数は、NP-ハードで、2^{\beta pn}$ の係数で近似する。 これは Kulesza と Taskar (2012)、Ohsaka と Matsuoka (2020) によるオープンな質問に対する否定的な回答を与える。

We study the computational complexity of two hard problems on determinantal point processes (DPPs). One is maximum a posteriori (MAP) inference, i.e., to find a principal submatrix having the maximum determinant. The other is probabilistic inference on exponentiated DPPs (E-DPPs), which can sharpen or weaken the diversity preference of DPPs with an exponent parameter $p$. We prove the following complexity-theoretic hardness results that explain the difficulty in approximating MAP inference and the normalizing constant for E-DPPs. 1. Unconstrained MAP inference for an $n \times n$ matrix is NP-hard to approximate within a factor of $2^{\beta n}$, where $\beta = 10^{-10^{13}} $. This result improves upon a $(\frac{9}{8}-\epsilon)$-factor inapproximability given by Kulesza and Taskar (2012). 2. Log-determinant maximization is NP-hard to approximate within a factor of $\frac{5}{4}$ for the unconstrained case and within a factor of $1+10^{-10^{13}}$ for the size-constrained monotone case. 3. The normalizing constant for E-DPPs of any (fixed) constant exponent $p \geq \beta^{-1} = 10^{10^{13}}$ is NP-hard to approximate within a factor of $2^{\beta pn}$. This gives a(nother) negative answer to open questions posed by Kulesza and Taskar (2012); Ohsaka and Matsuoka (2020).
翻訳日:2021-09-03 14:02:58 公開日:2021-09-02
# エネルギー効率の良いマルチオーケストレータモバイルエッジ学習

Energy-Efficient Multi-Orchestrator Mobile Edge Learning ( http://arxiv.org/abs/2109.00757v1 )

ライセンス: Link先を確認
Mhd Saria Allahham, Sameh Sorour, Amr Mohamed, Aiman Erbad, Mohsen Guizani(参考訳) Mobile Edge Learning(MEL)は、エッジデバイス(IoTデバイスなど)上で機械学習(ML)モデルの分散トレーニングを特徴とする、協調学習パラダイムである。 MELでは、異なるデータセットで複数の学習タスクが共存する可能性がある。 エッジデバイスの能力の多様性は、学習者とオーケストレータのアソシエーションとタスク割り当てを共同で最適化する必要がある。 そこで本研究では,学習者・学習者連携と学習課題割り当てのためのエネルギー効率の高いフレームワークを開発し,各オーケストレータが,コミュニケーションチャネルの質と計算資源に基づいて,同じ学習課題を持つ学習者グループに関連付け,タスクの割り当てを行う。 そこで,多目的最適化問題を定式化し,全エネルギー消費を最小化し,学習タスクの精度を最大化する。 しかし,このような最適化問題の解決には,大規模システムでは現実的ではない単一エンティティにおける環境情報全体の集中化と存在感が必要である。 解の複雑性を低減し、解の分散化を可能にするために、エネルギー消費、精度、解の複雑さの間のトレードオフを容易にし、ほぼ最適性能を実現する軽量なヒューリスティックアルゴリズムを提案する。 シミュレーションの結果,提案手法は,最近の最先端手法と比較して,複数の学習タスクを実行しながらエネルギー消費を大幅に削減できることがわかった。

Mobile Edge Learning (MEL) is a collaborative learning paradigm that features distributed training of Machine Learning (ML) models over edge devices (e.g., IoT devices). In MEL, possible coexistence of multiple learning tasks with different datasets may arise. The heterogeneity in edge devices' capabilities will require the joint optimization of the learners-orchestrator association and task allocation. To this end, we aim to develop an energy-efficient framework for learners-orchestrator association and learning task allocation, in which each orchestrator gets associated with a group of learners with the same learning task based on their communication channel qualities and computational resources, and allocate the tasks accordingly. Therein, a multi objective optimization problem is formulated to minimize the total energy consumption and maximize the learning tasks' accuracy. However, solving such optimization problem requires centralization and the presence of the whole environment information at a single entity, which becomes impractical in large-scale systems. To reduce the solution complexity and to enable solution decentralization, we propose lightweight heuristic algorithms that can achieve near-optimal performance and facilitate the trade-offs between energy consumption, accuracy, and solution complexity. Simulation results show that the proposed approaches reduce the energy consumption significantly while executing multiple learning tasks compared to recent state-of-the-art methods.
翻訳日:2021-09-03 14:02:31 公開日:2021-09-02
# グラフニューラルネットワークにおける更新ステップのスパース化

Sparsifying the Update Step in Graph Neural Networks ( http://arxiv.org/abs/2109.00909v1 )

ライセンス: Link先を確認
Johannes F. Lutzeyer, Changmin Wu, Michalis Vazirgiannis(参考訳) 最も著名なグラフニューラルネットワーク(GNN)フレームワークであるMessage-Passing Neural Networks(MPNN)は、グラフ構造化データの解析において大きな成功を祝っている。 同時に、ニューラルネットワークモデルのスパーシフィケーションは、多くの学術的および産業的な関心を惹きつけます。 本稿では,更新ステップとして知られるmpnnの学習可能な部分に対するスパーシフィケーションの効果に関する構造化研究を行う。 この目的のために,更新ステップで線形変換を逐次スパース化するために,一連のモデルを設計する。 具体的には、調整可能なスペーシングレートを持つExpanderGNNモデルと、更新ステップに線形変換を持たないActivation-Only GNNを提案する。 文献の傾向と一致して、スパース化のパラダイムは、トレーニング済みのアーキテクチャを高価なスパース化するのではなく、スパースニューラルネットワークアーキテクチャを初期化することで変化している。 提案するベンチマークモデルは,更新ステップがモデル性能に与える影響をよりよく理解し,単純なグラフ畳み込みのような既存の簡易ベンチマークモデルよりも優れている。 アクティベーションのみのモデルであるexpandergnnは、いくつかの下流タスクのバニラと同等のパフォーマンスを達成し、トレーニング可能なパラメータをかなり少なくする。 パラメータ数に一致する実験では、我々のベンチマークモデルは最先端のGNNモデルよりも優れている。 私たちのコードは、https://github.com/ChangminWu/ExpanderGNNで公開されています。

Message-Passing Neural Networks (MPNNs), the most prominent Graph Neural Network (GNN) framework, celebrate much success in the analysis of graph-structured data. Concurrently, the sparsification of Neural Network models attracts a great amount of academic and industrial interest. In this paper, we conduct a structured study of the effect of sparsification on the trainable part of MPNNs known as the Update step. To this end, we design a series of models to successively sparsify the linear transform in the Update step. Specifically, we propose the ExpanderGNN model with a tuneable sparsification rate and the Activation-Only GNN, which has no linear transform in the Update step. In agreement with a growing trend in the literature, the sparsification paradigm is changed by initialising sparse neural network architectures rather than expensively sparsifying already trained architectures. Our novel benchmark models enable a better understanding of the influence of the Update step on model performance and outperform existing simplified benchmark models such as the Simple Graph Convolution. The ExpanderGNNs, and in some cases the Activation-Only models, achieve performance on par with their vanilla counterparts on several downstream tasks while containing significantly fewer trainable parameters. In experiments with matching parameter numbers, our benchmark models outperform the state-of-the-art GNN models. Our code is publicly available at: https://github.com/ChangminWu/ExpanderGNN.
翻訳日:2021-09-03 14:02:07 公開日:2021-09-02
# オフラインデータとクラウドソースアノテーションによる言語条件付きロボット行動の学習

Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation ( http://arxiv.org/abs/2109.01115v1 )

ライセンス: Link先を確認
Suraj Nair, Eric Mitchell, Kevin Chen, Brian Ichter, Silvio Savarese, Chelsea Finn(参考訳) 本研究では,ロボットインタラクションの大規模オフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。 これを実現するには、ロボットにタスクを指定するための簡単で効果的な方法が必要である。 ゴールイメージは、ロボットの観察空間にすでに置かれているため、タスク仕様の一般的な形式である。 しかし、目標画像には多くの欠点がある: 人間には提供が不便であり、スパース報酬信号につながる望ましい振る舞いを過度に特定したり、非ゴール到達タスクの場合のタスク情報を過度に特定したりできる。 自然言語はタスク仕様の便利で柔軟な代替手段を提供するが、ロボットの観察空間における言語の基礎となるという課題が伴う。 クラウドソースの自然言語ラベルを用いて、オフラインのロボットデータセット(高度に最適化された、自律的に収集されたデータを含む)を活用することを提案する。 このデータを用いて、状態の変化が言語命令を完了するかどうかを予測する単純な分類器を学習する。 これにより言語条件付き報酬関数が提供され、オフラインマルチタスク RL に使用できる。 私たちの実験では、言語条件付き操作タスクでは、我々のアプローチは目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っており、フランカ・エミカ・パンダロボット上で「正しい引き出し」や「ステープラーを移動」といった自然言語からのバイスモータタスクを実行できることがわかった。

We study the problem of learning a range of vision-based manipulation tasks from a large offline dataset of robot interaction. In order to accomplish this, humans need easy and effective ways of specifying tasks to the robot. Goal images are one popular form of task specification, as they are already grounded in the robot's observation space. However, goal images also have a number of drawbacks: they are inconvenient for humans to provide, they can over-specify the desired behavior leading to a sparse reward signal, or under-specify task information in the case of non-goal reaching tasks. Natural language provides a convenient and flexible alternative for task specification, but comes with the challenge of grounding language in the robot's observation space. To scalably learn this grounding we propose to leverage offline robot datasets (including highly sub-optimal, autonomously collected data) with crowd-sourced natural language labels. With this data, we learn a simple classifier which predicts if a change in state completes a language instruction. This provides a language-conditioned reward function that can then be used for offline multi-task RL. In our experiments, we find that on language-conditioned manipulation tasks our approach outperforms both goal-image specifications and language conditioned imitation techniques by more than 25%, and is able to perform visuomotor tasks from natural language, such as "open the right drawer" and "move the stapler", on a Franka Emika Panda robot.
翻訳日:2021-09-03 14:01:45 公開日:2021-09-02
# 過剰容量とバックドア中毒

Excess Capacity and Backdoor Poisoning ( http://arxiv.org/abs/2109.00685v1 )

ライセンス: Link先を確認
Naren Sarayu Manoj and Avrim Blum(参考訳) バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。 透かしは、典型的なデータに対するモデルの試験時間性能には影響しないが、透かしの例に確実に従うモデルである。 バックドアデータ中毒攻撃に関する基礎的理解を深めるために,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。 次に、これらの攻撃を取り巻く重要な統計および計算上の問題を分析する。 統計的には、学習問題の本質的な脆弱性をバックドア攻撃に捉えた記憶能力と呼ばれるパラメータを識別する。 これにより、バックドア攻撃に対するいくつかの自然学習問題の堅牢性について議論できる。 本研究の結果は, バックドア攻撃の明示的な構築が関与しており, その堅牢性は, バックドア攻撃を成功させることが不可能であることを示すものである。 計算学的観点からは、ある仮定の下では、敵対的訓練はトレーニングセットにおけるバックドアの存在を検知できることを示す。 次に、同様の仮定の下で、バックドアフィルタリングとロバスト一般化と呼ばれる2つの密接に関連する問題がほぼ同値であることを示す。 これは、トレーニングセットの透かしのある例を識別できるアルゴリズムを設計するのに漸近的に必要であり、また、見当たらないデータによく一般化し、バックドアにロバストな学習アルゴリズムを得るのに十分であることを意味する。

A backdoor data poisoning attack is an adversarial attack wherein the attacker injects several watermarked, mislabeled training examples into a training set. The watermark does not impact the test-time performance of the model on typical data; however, the model reliably errs on watermarked examples. To gain a better foundational understanding of backdoor data poisoning attacks, we present a formal theoretical framework within which one can discuss backdoor data poisoning attacks for classification problems. We then use this to analyze important statistical and computational issues surrounding these attacks. On the statistical front, we identify a parameter we call the memorization capacity that captures the intrinsic vulnerability of a learning problem to a backdoor attack. This allows us to argue about the robustness of several natural learning problems to backdoor attacks. Our results favoring the attacker involve presenting explicit constructions of backdoor attacks, and our robustness results show that some natural problem settings cannot yield successful backdoor attacks. From a computational standpoint, we show that under certain assumptions, adversarial training can detect the presence of backdoors in a training set. We then show that under similar assumptions, two closely related problems we call backdoor filtering and robust generalization are nearly equivalent. This implies that it is both asymptotically necessary and sufficient to design algorithms that can identify watermarked examples in the training set in order to obtain a learning algorithm that both generalizes well to unseen data and is robust to backdoors.
翻訳日:2021-09-03 14:00:03 公開日:2021-09-02
# 高次元データにおける不確実性を考慮した特徴推定

Inferring feature importance with uncertainties in high-dimensional data ( http://arxiv.org/abs/2109.00855v1 )

ライセンス: Link先を確認
P{\aa}l Vegard Johnsen, Inga Str\"umke, Signe Riemer-S{\o}rensen, Andrew Thomas DeWand, Mette Langaas(参考訳) 特徴量の推定は、データベースモデルを説明する上で重要な側面である。 モデル自体を説明することに加えて、どの機能が基盤となるデータ生成プロセスにおいて重要なのか、等しく関連する疑問がある。 推定器における不確実性を含む個々の特徴の重要性を推定するためのShapley値に基づくフレームワークを提案する。 我々は最近発表されたSAGE(Shapley additive global importance)の機能重要度尺度に基づいて構築し、木モデルの再サンプリングなしに推定できるサブSAGEを導入する。 我々は,ブートストラップ法から不確かさを推定し,ツリーアンサンブル法へのアプローチを示す。 この枠組みは、合成データと高次元ゲノミクスデータに基づいて例証されている。

Estimating feature importance is a significant aspect of explaining data-based models. Besides explaining the model itself, an equally relevant question is which features are important in the underlying data generating process. We present a Shapley value based framework for inferring the importance of individual features, including uncertainty in the estimator. We build upon the recently published feature importance measure of SAGE (Shapley additive global importance) and introduce sub-SAGE which can be estimated without resampling for tree-based models. We argue that the uncertainties can be estimated from bootstrapping and demonstrate the approach for tree ensemble methods. The framework is exemplified on synthetic data as well as high-dimensional genomics data.
翻訳日:2021-09-03 13:59:37 公開日:2021-09-02
# 深部画像を用いたPET画像の直接再構成と前方投影モデル

Direct PET Image Reconstruction Incorporating Deep Image Prior and a Forward Projection Model ( http://arxiv.org/abs/2109.00768v1 )

ライセンス: Link先を確認
Fumio Hashimoto, Kibo Ote(参考訳) 畳み込みニューラルネットワーク(CNN)は近年,PET画像再構成において顕著な性能を発揮している。 特に、CNNをベースとした直接PET画像再構成は、シングラムから直接再構成画像を生成するが、画像再構成アルゴリズムを必要としないため、PET画像の強化にも適用可能である。 しかし、これらの深層学習に基づく直接PET画像再構成アルゴリズムは、多くの高品質なトレーニングデータセットを必要とするという欠点がある。 本研究では,深層画像前処理を組み込んだ非教師なし直接PET画像再構成手法を提案する。 提案手法は,非教師なしPET画像再構成を実現するために,損失関数付き前方投影モデルを組み込んだ。 提案手法をフィルタバックプロジェクション (FBP) と最大予測最大化 (ML-EM) アルゴリズムと比較するために, モンテカルロシミュレーションデータによる脳 [$^{18}$F]FDG PETスキャンを用いて評価を行った。 その結果,提案手法はFBPおよびML-EMアルゴリズムをピーク信号対雑音比と構造類似度指数に対して定量的かつ定性的に上回っていることがわかった。

Convolutional neural networks (CNNs) have recently achieved remarkable performance in positron emission tomography (PET) image reconstruction. In particular, CNN-based direct PET image reconstruction, which directly generates the reconstructed image from the sinogram, has potential applicability to PET image enhancements because it does not require image reconstruction algorithms, which often produce some artifacts. However, these deep learning-based, direct PET image reconstruction algorithms have the disadvantage that they require a large number of high-quality training datasets. In this study, we propose an unsupervised direct PET image reconstruction method that incorporates a deep image prior framework. Our proposed method incorporates a forward projection model with a loss function to achieve unsupervised direct PET image reconstruction from sinograms. To compare our proposed direct reconstruction method with the filtered back projection (FBP) and maximum likelihood expectation maximization (ML-EM) algorithms, we evaluated using Monte Carlo simulation data of brain [$^{18}$F]FDG PET scans. The results demonstrate that our proposed direct reconstruction quantitatively and qualitatively outperforms the FBP and ML-EM algorithms with respect to peak signal-to-noise ratio and structural similarity index.
翻訳日:2021-09-03 13:59:25 公開日:2021-09-02
# anatomical-Guided Attention は教師なしPET画像認識性能を高める

Anatomical-Guided Attention Enhances Unsupervised PET Image Denoising Performance ( http://arxiv.org/abs/2109.00802v1 )

ライセンス: Link先を確認
Yuya Onishi, Fumio Hashimoto, Kibo Ote, Hiroyuki Ohba, Ryosuke Ota, Etsuji Yoshikawa, Yasuomi Ouchi(参考訳) 教師付き畳み込みニューラルネットワーク(CNN)は、ポジトロン・エミッション・トモグラフィ(PET)画像のノイズ化において、従来の代替手段よりも優れていることが多いが、低品質かつ高品質のPET画像対を必要とする。 本稿では,解剖情報誘導型注意機構に基づく非教師なし3次元PET画像復調手法を提案する。 磁気共鳴誘導型ディープデコーダ(MR-GDD)は,エンコーダデコーダとディープデコーダサブネットワークを導入することにより,MR誘導画像の空間的詳細と意味的特徴をより効果的に活用する。 また、誘導画像は注意ゲートを介してネットワークに入力されるため、誘導画像の特定の形状やパターンが識別PET画像に影響を与えることはない。 The Monte Carlo Simulation using the [$^{18}$F]fluoro-2-deoxy-D-glucose (FDG) shows that this proposed improves other denoising algorithm with the highest peak signal-to-noise ratio and structure similarity (28.33 dB/0.886)。 さらに, 教師なしcnnに基づく復元問題ではよく知られていない最適化プロセスの挙動を実験的に可視化した。 プリクリニカル ([$^{18}$F]FDG と [$^{11}$C]raclopride を用いた) および臨床 ([$^{18}$F]florbetapir を用いた) 研究に対して, 提案手法は, 各種ノイズPET画像の1/10のアーキテクチャのみを使用しながら, 空間分解能と定量的精度を維持しながら, 最先端のノイズ発生性能を示す。 以上の結果から,MR-GDDは患者に影響を与えずにPETスキャン時間とPETトレーサー線量を大幅に減少させる可能性が示唆された。

Although supervised convolutional neural networks (CNNs) often outperform conventional alternatives for denoising positron emission tomography (PET) images, they require many low- and high-quality reference PET image pairs. Herein, we propose an unsupervised 3D PET image denoising method based on anatomical information-guided attention mechanism. Our proposed magnetic resonance-guided deep decoder (MR-GDD) utilizes the spatial details and semantic features of MR-guidance image more effectively by introducing encoder-decoder and deep decoder subnetworks. Moreover, the specific shapes and patterns of the guidance image do not affect the denoised PET image, because the guidance image is input to the network through an attention gate. Monte Carlo simulation using the [$^{18}$F]fluoro-2-deoxy-D-glucose (FDG) shows that the proposed method outperforms other denoising algorithms in terms of the highest peak signal-to-noise ratio and structural similarity (28.33 dB/0.886). Furthermore, we experimentally visualized the behavior of the optimization process, which is often unknown in unsupervised CNN-based restoration problems. For preclinical (using [$^{18}$F]FDG and [$^{11}$C]raclopride) and clinical (using [$^{18}$F]florbetapir) studies, the proposed method demonstrates state-of-the-art denoising performance while retaining spatial resolution and quantitative accuracy, despite using only a single architecture for various noisy PET images with 1/10th of the full counts. These results suggest that the proposed MR-GDD can reduce PET scan times and PET tracer doses considerably without impacting patients.
翻訳日:2021-09-03 13:59:04 公開日:2021-09-02
# 物理インフォームドニューラルネットワークにおける障害モードのキャラクタリゼーション

Characterizing possible failure modes in physics-informed neural networks ( http://arxiv.org/abs/2109.01050v1 )

ライセンス: Link先を確認
Aditi S. Krishnapriyan, Amir Gholami, Shandian Zhe, Robert M. Kirby, Michael W. Mahoney(参考訳) 科学機械学習における最近の研究は、いわゆる物理情報ニューラルネットワーク(PINN)モデルを開発した。 典型的なアプローチは、物理領域の知識を経験的損失関数のソフト制約として組み込んで、既存の機械学習手法を使ってモデルを訓練する。 既存のpinn手法は,比較的自明な問題に対してよいモデルを学ぶことができるが,単純なpdesであっても,関連する物理現象は容易に学習できないことを実証する。 特に, 対流, 反応, 拡散演算子を用いた微分方程式の学習など, 広範な物理的関心の異なるいくつかの状況を分析した。 微分作用素を含むピンのソフト正則化は,問題を悪条件にすることを含め,多くの微妙な問題を引き起こすことができることを示す。 重要なことは、これらの障害モードはNNアーキテクチャにおける表現力の欠如によるものではなく、PINNのセットアップによって損失状況の最適化が極めて困難であることが示される。 次に、これらの障害モードに対処する2つの有望なソリューションを説明します。 最初のアプローチはカリキュラムの正規化であり、PINNの損失項は単純なPDE正規化から始まり、NNが訓練されるにつれて徐々に複雑になる。 第2のアプローチは、時空全体を一度に予測することではなく、シーケンスからシーケンスへの学習タスクとして問題を提起することだ。 拡張テストの結果,これらの手法では,通常のPINN訓練と比較して最大1~2桁の誤差を達成できることがわかった。

Recent work in scientific machine learning has developed so-called physics-informed neural network (PINN) models. The typical approach is to incorporate physical domain knowledge as soft constraints on an empirical loss function and use existing machine learning methodologies to train the model. We demonstrate that, while existing PINN methodologies can learn good models for relatively trivial problems, they can easily fail to learn relevant physical phenomena even for simple PDEs. In particular, we analyze several distinct situations of widespread physical interest, including learning differential equations with convection, reaction, and diffusion operators. We provide evidence that the soft regularization in PINNs, which involves differential operators, can introduce a number of subtle problems, including making the problem ill-conditioned. Importantly, we show that these possible failure modes are not due to the lack of expressivity in the NN architecture, but that the PINN's setup makes the loss landscape very hard to optimize. We then describe two promising solutions to address these failure modes. The first approach is to use curriculum regularization, where the PINN's loss term starts from a simple PDE regularization, and becomes progressively more complex as the NN gets trained. The second approach is to pose the problem as a sequence-to-sequence learning task, rather than learning to predict the entire space-time at once. Extensive testing shows that we can achieve up to 1-2 orders of magnitude lower error with these methods as compared to regular PINN training.
翻訳日:2021-09-03 13:58:06 公開日:2021-09-02
# 高速ネットワーク計画グラディエントDescenceによる条件GAN前の逆問題の解法

Solving Inverse Problems with Conditional-GAN Prior via Fast Network-Projected Gradient Descent ( http://arxiv.org/abs/2109.01105v1 )

ライセンス: Link先を確認
Muhammad Fadli Damara, Gregor Kornhardt, Peter Jung(参考訳) 予測勾配降下 (pgd) 法は, 生成モデル,すなわちデータ分布を学習した生成器によって, データ駆動方式で記述された圧縮信号の復元に有効であることが示されている。 このような逆問題に対する更なる再構築は、発生器を測定に条件付けすることで達成できる。 境界平衡生成逆数ネットワーク(BEGAN)は、平衡に基づく損失関数と自己符号化判別器を実装し、発電機と判別器の性能のバランスを良くする。 本研究では,実測条件生成モデルに対するネットワークベース射影勾配降下(NPGD)アルゴリズムについて検討し,逆問題を通常のPGDよりも高速に解く。 我々は,NPGDと条件付きGAN/BEGANを組み合わせることで,圧縮センシング型問題の解法の有効性を評価する。 MNIST と CelebA データセットを用いた実験により,NPGD と測定条件モデルの組み合わせは,圧縮信号の回復に有効であり,類似あるいは場合によっては,より高速な再構成と性能向上が期待できる。 我々の実験で達成された復元速度は140-175である。

The projected gradient descent (PGD) method has shown to be effective in recovering compressed signals described in a data-driven way by a generative model, i.e., a generator which has learned the data distribution. Further reconstruction improvements for such inverse problems can be achieved by conditioning the generator on the measurement. The boundary equilibrium generative adversarial network (BEGAN) implements an equilibrium based loss function and an auto-encoding discriminator to better balance the performance of the generator and the discriminator. In this work we investigate a network-based projected gradient descent (NPGD) algorithm for measurement-conditional generative models to solve the inverse problem much faster than regular PGD. We combine the NPGD with conditional GAN/BEGAN to evaluate their effectiveness in solving compressed sensing type problems. Our experiments on the MNIST and CelebA datasets show that the combination of measurement conditional model with NPGD works well in recovering the compressed signal while achieving similar or in some cases even better performance along with a much faster reconstruction. The achieved reconstruction speed-up in our experiments is up to 140-175.
翻訳日:2021-09-03 13:57:42 公開日:2021-09-02
# ニューラルチャット翻訳における対話特性の活用に向けて

Towards Making the Most of Dialogue Characteristics for Neural Chat Translation ( http://arxiv.org/abs/2109.00668v1 )

ライセンス: Link先を確認
Yunlong Liang, Chulun Zhou, Fandong Meng, Jinan Xu, Yufeng Chen, Jinsong Su and Jie Zhou(参考訳) neural chat translation (nct)は、異なる言語の話者間で会話テキストを翻訳することを目的としている。 文レベルおよび文脈対応ニューラルマシン翻訳モデルの有望な性能にもかかわらず、対話コヒーレンスや話者パーソナリティといったチャット固有の対話特性が無視されるため、現在のnctモデルにはまだ限界がある。 本稿では,NCTモデルに対話特性のモデル化を導入することにより,チャット翻訳を促進することを提案する。 この目的のために, 単言語応答生成, 言語間応答生成, 次の発話識別, 話者識別の4つの補助タスクを設計する。 主チャット翻訳タスクと合わせて,これらのタスクのトレーニング目標を通じてnctモデルを最適化する。 これにより、固有の対話特性を捉えて、よりコヒーレントで話者関係の翻訳を生成することで、nctモデルを強化することができる。 4つの言語方向(ドイツ語と中国語)に関する総合実験により,提案手法の有効性と優位性を検証した。

Neural Chat Translation (NCT) aims to translate conversational text between speakers of different languages. Despite the promising performance of sentence-level and context-aware neural machine translation models, there still remain limitations in current NCT models because the inherent dialogue characteristics of chat, such as dialogue coherence and speaker personality, are neglected. In this paper, we propose to promote the chat translation by introducing the modeling of dialogue characteristics into the NCT model. To this end, we design four auxiliary tasks including monolingual response generation, cross-lingual response generation, next utterance discrimination, and speaker identification. Together with the main chat translation task, we optimize the NCT model through the training objectives of all these tasks. By this means, the NCT model can be enhanced by capturing the inherent dialogue characteristics, thus generating more coherent and speaker-relevant translations. Comprehensive experiments on four language directions (English-German and English-Chinese) verify the effectiveness and superiority of the proposed approach.
翻訳日:2021-09-03 13:56:42 公開日:2021-09-02
# ShopTalk: 会話型顔検索システム

ShopTalk: A System for Conversational Faceted Search ( http://arxiv.org/abs/2109.00702v1 )

ライセンス: Link先を確認
Gurmeet Manku, James Lee-Thorp, Bhargav Kanagal, Joshua Ainslie, Jingchen Feng, Zach Pearson, Ebenezer Anjorin, Sudeep Gandhe, Ilya Eckstein, Jim Rosswog, Sumit Sanghai, Michael Pohl, Larry Adams, D. Sivakumar(参考訳) ショッピングのための多ターン対話型顔検索システムであるShopTalkは,アートスロット充填システムの範囲を超えて,大規模かつ複雑なスキーマを扱うように設計されている。 shoptalkはダイアログ管理をフルフィルメントから分離するので、ダイアログ理解システムはドメインに依存しず、特定のショッピングアプリケーションと結びつかない。 ダイアログ理解システムは、ユーザ発話を解釈する深く学習されたコンテキスト言語理解モジュールと、ダイアログ状態を更新し、フルフィルメントエンジンが意図する検索要求を定式化するDST(Dialog-State Tracker)から構成される。 2つのモジュール間のインターフェースはドメインに依存しない最小限の"入出力演算子"で構成されており、DSTにダイアログ状態を更新する方法を指示する。 ShopTalkは2020年にGoogle Assistant for Shopping検索にデプロイされた。

We present ShopTalk, a multi-turn conversational faceted search system for shopping that is designed to handle large and complex schemas that are beyond the scope of state of the art slot-filling systems. ShopTalk decouples dialog management from fulfillment, thereby allowing the dialog understanding system to be domain-agnostic and not tied to the particular shopping application. The dialog understanding system consists of a deep-learned Contextual Language Understanding module, which interprets user utterances, and a primarily rules-based Dialog-State Tracker (DST), which updates the dialog state and formulates search requests intended for the fulfillment engine. The interface between the two modules consists of a minimal set of domain-agnostic "intent operators," which instruct the DST on how to update the dialog state. ShopTalk was deployed in 2020 on the Google Assistant for Shopping searches.
翻訳日:2021-09-03 13:56:26 公開日:2021-09-02
# LegaLMFiT:LSTM言語モデルの事前学習による効率的な短い法律テキスト分類

LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language Model Pre-Training ( http://arxiv.org/abs/2109.00993v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e, Akshita Gheewala, Paul Briton, Marc Alphonsus, Rym Labiyaad, Francesco Piccoli(参考訳) BERTのようなトランスフォーマーベースの大規模言語モデルは、多くのNLPタスクにおいて広範なパフォーマンス改善をもたらした。 これらのモデルのドメイン固有の変種は、様々な特殊タスクにおいて優れた性能を示した。 法的なNLPでは、BERTベースのモデルが複数のタスクに対して新たな最先端の結果をもたらしている。 これらのモデルの探索は、法的言語とその語彙の特異性を捉えることの重要性を証明した。 しかし、そのようなアプローチは高い計算コストに悩まされ、生態学的に高い影響とアクセシビリティーが低下する。 英語の法的テキストに着目した結果,軽量なlstmベースの言語モデルでは,小型の法定テキスト事前学習コーパスから十分な情報を取得でき,短い法定テキスト分類タスクにおいて優れた性能が得られることがわかった。 これはBERTベースのモデルに比べて計算オーバーヘッドが大幅に削減されている。 しかし,提案手法は,より複雑なタスク,より長い文書のマルチラベル分類における性能低下を示し,この軽量アプローチの限界を浮き彫りにした。

Large Transformer-based language models such as BERT have led to broad performance improvements on many NLP tasks. Domain-specific variants of these models have demonstrated excellent performance on a variety of specialised tasks. In legal NLP, BERT-based models have led to new state-of-the-art results on multiple tasks. The exploration of these models has demonstrated the importance of capturing the specificity of the legal language and its vocabulary. However, such approaches suffer from high computational costs, leading to a higher ecological impact and lower accessibility. Our findings, focusing on English language legal text, show that lightweight LSTM-based Language Models are able to capture enough information from a small legal text pretraining corpus and achieve excellent performance on short legal text classification tasks. This is achieved with a significantly reduced computational overhead compared to BERT-based models. However, our method also shows degraded performance on a more complex task, multi-label classification of longer documents, highlighting the limitations of this lightweight approach.
翻訳日:2021-09-03 13:55:46 公開日:2021-09-02
# Skim-Attention: ドキュメントレイアウトによる集中学習

Skim-Attention: Learning to Focus via Document Layout ( http://arxiv.org/abs/2109.01078v1 )

ライセンス: Link先を確認
Laura Nguyen, Thomas Scialom, Jacopo Staiano, Benjamin Piwowarski(参考訳) トランスフォーマーによるテキストとレイアウトの事前学習技術は多くの文書理解タスクで有効であることが証明されている。 この成功にもかかわらず、マルチモーダル事前学習モデルは計算とメモリのコストが非常に高い。 本稿では,人間の読書戦略に動機づけられ,文書の構造とレイアウトを生かした新たな注意機構であるskim-attentionを提案する。 Skim-Attention は文書内の単語の2次元位置にのみ参加する。 実験の結果,Skim-Attentionは従来の作業よりも難易度が低く,計算効率も高いことがわかった。 スキムアテンションはさらに長距離トランスフォーマーと組み合わせて、長い文書を効率的に処理することができる。 また,事前学習型言語モデルのマスクとしてSkim-Attentionをオフザシェルフで使用し,注意を抑えながら性能を向上させる方法を示す。 最後に,スキムアテンションにおける文書構造表現の出現を示す。

Transformer-based pre-training techniques of text and layout have proven effective in a number of document understanding tasks. Despite this success, multimodal pre-training models suffer from very high computational and memory costs. Motivated by human reading strategies, this paper presents Skim-Attention, a new attention mechanism that takes advantage of the structure of the document and its layout. Skim-Attention only attends to the 2-dimensional position of the words in a document. Our experiments show that Skim-Attention obtains a lower perplexity than prior works, while being more computationally efficient. Skim-Attention can be further combined with long-range Transformers to efficiently process long documents. We also show how Skim-Attention can be used off-the-shelf as a mask for any Pre-trained Language Model, allowing to improve their performance while restricting attention. Finally, we show the emergence of a document structure representation in Skim-Attention.
翻訳日:2021-09-03 13:55:30 公開日:2021-09-02
# 分散mimoコンテキストにおけるデータガバランスルールコンプライアンス支援のための自動化フレームワーク

An Automated Framework for Supporting Data-Governance Rule Compliance in Decentralized MIMO Contexts ( http://arxiv.org/abs/2109.00838v1 )

ライセンス: Link先を確認
Rui Zhao(参考訳) データフローグラフ上のデータガバナンスルールの自動コンプライアンスチェックのためのロジックベースのAIフレームワークであるDr.Aidを提案する。 これらのルールは状況計算に基づく形式言語を用いてモデル化され、マルチインプットマルチアウトプット(mimo)プロセスを持つ分散コンテキストに適している。 Dr.Aidはデータ・ルールとフロー・ルールをモデル化し、データ・フロー・グラフ上でのデータ・ルールの伝播、組み合わせ、修正、適用について推論することでコンプライアンスをチェックする。 我々のアプローチは、データ集約的な研究の成果グラフを用いて、実世界のデータセットによって駆動され、評価される。

We propose Dr.Aid, a logic-based AI framework for automated compliance checking of data governance rules over data-flow graphs. The rules are modelled using a formal language based on situation calculus and are suitable for decentralized contexts with multi-input-multi-output (MIMO) processes. Dr.Aid models data rules and flow rules and checks compliance by reasoning about the propagation, combination, modification and application of data rules over the data flow graphs. Our approach is driven and evaluated by real-world datasets using provenance graphs from data-intensive research.
翻訳日:2021-09-03 13:55:16 公開日:2021-09-02
# PBソルバーの専用CDCL戦略について

On Dedicated CDCL Strategies for PB Solvers ( http://arxiv.org/abs/2109.01013v1 )

ライセンス: Link先を確認
Daniel Le Berre and Romain Wallon(参考訳) ネイティブPB制約に係わる疑似ブール解法(PB)の現在の実装は、高効率な現代的なSAT解法を実現するCDCLアーキテクチャに基づいている。 特に、このようなpbソルバは(カットプレーンに基づく)競合解析手順を実装するだけでなく、cdclの効率に不可欠なコンポーネント、すなわち分岐ヒューリスティック、学習された制約削除と再起動のための補完的な戦略も実装している。 しかし、これらの戦略はPBソルバが扱うPB制約の特定の形態を考慮せずに再利用することが多い。 本稿では,CDCL戦略を適応させ,PB制約の特異性を考慮し,その動作を包括的に保ちながら,CDCL戦略を適応させる方法について検討する。 これらの戦略をsat4j (3つの構成を考える) と roundingsat という2つの異なる解法で実装した。 我々の実験は、これらの専用戦略が、決定問題と最適化問題の両方において、これらの解法の性能を改善できることを示している。

Current implementations of pseudo-Boolean (PB) solvers working on native PB constraints are based on the CDCL architecture which empowers highly efficient modern SAT solvers. In particular, such PB solvers not only implement a (cutting-planes-based) conflict analysis procedure, but also complementary strategies for components that are crucial for the efficiency of CDCL, namely branching heuristics, learned constraint deletion and restarts. However, these strategies are mostly reused by PB solvers without considering the particular form of the PB constraints they deal with. In this paper, we present and evaluate different ways of adapting CDCL strategies to take the specificities of PB constraints into account while preserving the behavior they have in the clausal setting. We implemented these strategies in two different solvers, namely Sat4j (for which we consider three configurations) and RoundingSat. Our experiments show that these dedicated strategies allow to improve, sometimes significantly, the performance of these solvers, both on decision and optimization problems.
翻訳日:2021-09-03 13:55:07 公開日:2021-09-02
# 紫外線マッピングによるディープフェイス映像の塗布

Deep Face Video Inpainting via UV Mapping ( http://arxiv.org/abs/2109.00681v1 )

ライセンス: Link先を確認
Wenqi Yang, Zhenfang Chen, Chaofeng Chen, Guanying Chen, and Kwan-Yee K. Wong(参考訳) 本稿では,フェースビデオの塗装問題に対処する。 既存の映像塗装法は、主に繰り返しパターンを持つ自然の場面を対象とする。 彼らは、腐敗した顔の対応を取り出すのに、顔の事前の知識を一切利用しない。 したがって、特に大きなポーズの顔と表現のバリエーションにおいて、顔成分がフレーム間で非常に異なる形で現れる場合にのみ、準最適結果が得られる。 本稿では,顔画像の塗装における2段階の深層学習手法を提案する。 画像空間とuv(texture)空間の間で顔を変換する前に、3dmmを3d顔として使用します。 ステージIでは,UV空間で顔の塗り絵を行う。 これにより、顔のポーズや表現の影響を大きく取り除き、適切に整列された顔機能で学習作業がより簡単になる。 本稿では,隣り合うフレームの対応を十分に活用し,塗装作業を支援するフレームアテンションモジュールを提案する。 第2段階では、被塗面領域を画像空間に変換し、第1段階にカバーされていない背景領域を被写体化し、被塗面領域を洗練させる顔映像補正を行う。 提案手法は,2d情報のみに基づいて,特に大きなポーズや表情変化の面に対して,手法を著しく上回ることができることを示す,広範な実験が行われている。

This paper addresses the problem of face video inpainting. Existing video inpainting methods target primarily at natural scenes with repetitive patterns. They do not make use of any prior knowledge of the face to help retrieve correspondences for the corrupted face. They therefore only achieve sub-optimal results, particularly for faces under large pose and expression variations where face components appear very differently across frames. In this paper, we propose a two-stage deep learning method for face video inpainting. We employ 3DMM as our 3D face prior to transform a face between the image space and the UV (texture) space. In Stage I, we perform face inpainting in the UV space. This helps to largely remove the influence of face poses and expressions and makes the learning task much easier with well aligned face features. We introduce a frame-wise attention module to fully exploit correspondences in neighboring frames to assist the inpainting task. In Stage II, we transform the inpainted face regions back to the image space and perform face video refinement that inpaints any background regions not covered in Stage I and also refines the inpainted face regions. Extensive experiments have been carried out which show our method can significantly outperform methods based merely on 2D information, especially for faces under large pose and expression variations.
翻訳日:2021-09-03 13:54:39 公開日:2021-09-02
# FBSNet:リアルタイムセマンティックセグメンテーションのための高速双方向対称ネットワーク

FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2109.00699v1 )

ライセンス: Link先を確認
Guangwei Gao, Guoan Xu, Juncheng Li, Yi Yu, Huimin Lu, and Jian Yang(参考訳) 入力画像のピクセルレベル分類タスクとして視覚的に理解できるリアルタイムセマンティックセグメンテーションは、現在、特に自動運転とドローンナビゲーションの高速開発の分野で、幅広い応用可能性を持っている。 しかし、冗長なパラメータと計算の重荷は、まだその技術開発における障害である。 本稿では,上記の課題を解決するために,FBSNet(Fast Bilateral Symmetrical Network)を提案する。 具体的には、FBSNetは対称エンコーダデコーダ構造を用いており、2つの分岐、意味情報分岐、空間詳細分岐がある。 意味情報分岐(semantic information branch)は、入力画像の文脈情報を取得し、一方、十分な受容領域を取得するディープネットワークアーキテクチャのメインブランチである。 空間的細部ブランチは、細部を保存するために各ピクセルの局所的な依存関係を確立するために使用される浅くシンプルなネットワークである。 一方、機能集約モジュール(FAM)は、2つのブランチの出力特徴を効果的に組み合わせるように設計されている。 CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。 具体的には、70.9\%と68.9\% mIoUの2つのテストデータセットでそれぞれ90fpsと120fpsの推論速度が得られ、1つのRTX 2080Ti GPU上でのパラメータはわずか0.62万である。

Real-time semantic segmentation, which can be visually understood as the pixel-level classification task on the input image, currently has broad application prospects, especially in the fast-developing fields of autonomous driving and drone navigation. However, the huge burden of calculation together with redundant parameters are still the obstacles to its technological development. In this paper, we propose a Fast Bilateral Symmetrical Network (FBSNet) to alleviate the above challenges. Specifically, FBSNet employs a symmetrical encoder-decoder structure with two branches, semantic information branch, and spatial detail branch. The semantic information branch is the main branch with deep network architecture to acquire the contextual information of the input image and meanwhile acquire sufficient receptive field. While spatial detail branch is a shallow and simple network used to establish local dependencies of each pixel for preserving details, which is essential for restoring the original resolution during the decoding phase. Meanwhile, a feature aggregation module (FAM) is designed to effectively combine the output features of the two branches. The experimental results of Cityscapes and CamVid show that the proposed FBSNet can strike a good balance between accuracy and efficiency. Specifically, it obtains 70.9\% and 68.9\% mIoU along with the inference speed of 90 fps and 120 fps on these two test datasets, respectively, with only 0.62 million parameters on a single RTX 2080Ti GPU.
翻訳日:2021-09-03 13:54:19 公開日:2021-09-02
# マルチモーダルゼロショット手話認識

Multi-Modal Zero-Shot Sign Language Recognition ( http://arxiv.org/abs/2109.00796v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Mohammad Sabokrou(参考訳) ゼロショット学習(ZSL)は近年急速に進歩している。 署名言語認識(SLR)におけるアノテーションのボトルネックを克服するために,注釈付き視覚例のないゼロショット手話認識(ZS-SLR)の考え方を,テキスト記述を活用して検討する。 そこで本稿では, 骨格をベースとした深部特徴の補完機能を利用した多モードゼロショット手話認識(ZS-SLR)モデルを提案する。 C3Dモデルとともにトランスフォーマーベースのモデルを使用して手検出と深部特徴抽出を行う。 スケルトンベースの次元と深い特徴のトレードオフを実現するため、Long Short Term Memory(LSTM)ネットワーク上にオートエンコーダ(AE)を使用する。 最後に、意味空間は、トランスフォーマー(bert)モデルからの双方向エンコーダ表現によって達成されるクラスラベルのリンガル埋め込みに視覚特徴をマッピングするために使用される。 4つの大規模データセット、RKS-PERSIANSIGN, First-Person, ASLVID, isoGDの結果は、ZS-SLRの最先端の代替モデルと比較して提案モデルの優位性を示している。

Zero-Shot Learning (ZSL) has rapidly advanced in recent years. Towards overcoming the annotation bottleneck in the Sign Language Recognition (SLR), we explore the idea of Zero-Shot Sign Language Recognition (ZS-SLR) with no annotated visual examples, by leveraging their textual descriptions. In this way, we propose a multi-modal Zero-Shot Sign Language Recognition (ZS-SLR) model harnessing from the complementary capabilities of deep features fused with the skeleton-based ones. A Transformer-based model along with a C3D model is used for hand detection and deep features extraction, respectively. To make a trade-off between the dimensionality of the skeletonbased and deep features, we use an Auto-Encoder (AE) on top of the Long Short Term Memory (LSTM) network. Finally, a semantic space is used to map the visual features to the lingual embedding of the class labels, achieved via the Bidirectional Encoder Representations from Transformers (BERT) model. Results on four large-scale datasets, RKS-PERSIANSIGN, First-Person, ASLVID, and isoGD, show the superiority of the proposed model compared to state-of-the-art alternatives in ZS-SLR.
翻訳日:2021-09-03 13:53:51 公開日:2021-09-02
# 回転不変性と広範囲データ拡張:mitosis domain generalization (midog)チャレンジのための戦略

Rotation Invariance and Extensive Data Augmentation: a strategy for the Mitosis Domain Generalization (MIDOG) Challenge ( http://arxiv.org/abs/2109.00823v1 )

ライセンス: Link先を確認
Maxime W. Lafarge and Viktor H. Koelzer(参考訳) 病理組織像における有糸分裂像の自動検出は難しい課題である。ここでは、MIDOG 2021コンペティションに応用した戦略を説明する様々な手順を示す。 このコンペティションの目的は、4つの独立したソーススキャナの限られたセットからトレーニングデータを使用するという制約の下で、未確認のターゲットスキャナーで取得した画像に対する解の一般化を評価することである。 この目標と制約を踏まえて,最先端のディープラーニング手法と,可能なスキャナ関連分布シフトに対する堅牢性の実現を目的とした,ストレートフォワードソリューションを提案することで,課題に参画した。 提案手法は, 硬負のマイニング, 広範なデータ増大, 回転不変の畳み込みネットワークなど, 放射能検出に有効な方法を組み合わせる。 提供されたデータセットの分割が異なる5つのモデルをトレーニングしました。 その後の分類器はテストスプリットで平均と標準偏差0.747+/-0.032のF1スコアを生成する。 その結果得られたアンサンブルは、我々の候補アルゴリズムを構成する: チャレンジの予備テストセットに対する自動評価は0.6828のF1スコアを返す。

Automated detection of mitotic figures in histopathology images is a challenging task: here, we present the different steps that describe the strategy we applied to participate in the MIDOG 2021 competition. The purpose of the competition was to evaluate the generalization of solutions to images acquired with unseen target scanners (hidden for the participants) under the constraint of using training data from a limited set of four independent source scanners. Given this goal and constraints, we joined the challenge by proposing a straight-forward solution based on a combination of state-of-the-art deep learning methods with the aim of yielding robustness to possible scanner-related distributional shifts at inference time. Our solution combines methods that were previously shown to be efficient for mitosis detection: hard negative mining, extensive data augmentation, rotation-invariant convolutional networks. We trained five models with different splits of the provided dataset. The subsequent classifiers produced F1-scores with a mean and standard deviation of 0.747+/-0.032 on the test splits. The resulting ensemble constitutes our candidate algorithm: its automated evaluation on the preliminary test set of the challenge returned a F1-score of 0.6828.
翻訳日:2021-09-03 13:53:28 公開日:2021-09-02
# FA-GAN:テキストから画像合成のための特徴認識型GAN

FA-GAN: Feature-Aware GAN for Text to Image Synthesis ( http://arxiv.org/abs/2109.00907v1 )

ライセンス: Link先を確認
Eunyeong Jeon, Kunhee Kim, Daijin Kim(参考訳) テキストから画像への合成は、与えられた自然言語記述からフォトリアリスティックな画像を生成することを目的としている。 これまでの成果はGAN(Generative Adversarial Networks)で大きく進歩している。 それでも、無傷な物体や透明なテクスチャを生成するのは難しい(図1)。 この問題に対処するため,我々は,自己教師付き判別器と特徴認識損失という2つの手法を統合し,高品質画像合成のための特徴認識生成逆ネットワーク(fa-gan)を提案する。 まず, 自己教師付き判別器を補助デコーダで設計し, 判別器がより良い表現を抽出できるようにする。 第2に, 自己教師付き判別器の特徴表現を用いて, ジェネレータをより直接的に監視するために, 特徴認識損失を導入する。 MS-COCOデータセットを用いた実験の結果,提案手法は最先端のFIDスコアを28.92から24.58に大幅に向上させることがわかった。

Text-to-image synthesis aims to generate a photo-realistic image from a given natural language description. Previous works have made significant progress with Generative Adversarial Networks (GANs). Nonetheless, it is still hard to generate intact objects or clear textures (Fig 1). To address this issue, we propose Feature-Aware Generative Adversarial Network (FA-GAN) to synthesize a high-quality image by integrating two techniques: a self-supervised discriminator and a feature-aware loss. First, we design a self-supervised discriminator with an auxiliary decoder so that the discriminator can extract better representation. Secondly, we introduce a feature-aware loss to provide the generator more direct supervision by employing the feature representation from the self-supervised discriminator. Experiments on the MS-COCO dataset show that our proposed method significantly advances the state-of-the-art FID score from 28.92 to 24.58.
翻訳日:2021-09-03 13:53:04 公開日:2021-09-02
# 円パッキング解釈を用いた深部キーストロークバイオメトリックスへのsetmargin lossの適用

SetMargin Loss applied to Deep Keystroke Biometrics with Circle Packing Interpretation ( http://arxiv.org/abs/2109.00938v1 )

ライセンス: Link先を確認
Aythami Morales and Julian Fierrez and Alejandro Acien and Ruben Tolosana and Ignacio Serna(参考訳) 本稿では,新しい距離メトリック学習法(dml)に基づくキーストロークバイオメトリックスのための新しい深層学習手法を提案する。 dmlは入力データを学習表現空間にマッピングし、距離に基づいた「意味的」な構造を明らかにする。 本研究では,学習と推論に使用されるクラスが結合しない自由テキストキーストローク識別に関わる課題に対処する新しいDML手法を提案する。 提案されたSetMargin Loss (SM-L)は、従来のDMLアプローチを拡張し、従来のようにサンプルのペアではなくセットのペアによってガイドされる学習プロセスを提供する。 提案手法では,キーストロークダイナミクスのクラス内構造を維持しつつクラス間距離を拡張できる。 円充填 (circle packing) と呼ばれる数学的問題を用いて生成した表現空間を解析し, 近傍構造に最大クラス間距離を与える。 提案手法の有効性を, 78,000人の被験者を対象に, キーストローク生体認証という課題に対して実験的に検証した。 提案手法は,既存手法と比較して最先端の精度を実現する。

This work presents a new deep learning approach for keystroke biometrics based on a novel Distance Metric Learning method (DML). DML maps input data into a learned representation space that reveals a "semantic" structure based on distances. In this work, we propose a novel DML method specifically designed to address the challenges associated to free-text keystroke identification where the classes used in learning and inference are disjoint. The proposed SetMargin Loss (SM-L) extends traditional DML approaches with a learning process guided by pairs of sets instead of pairs of samples, as done traditionally. The proposed learning strategy allows to enlarge inter-class distances while maintaining the intra-class structure of keystroke dynamics. We analyze the resulting representation space using the mathematical problem known as Circle Packing, which provides neighbourhood structures with a theoretical maximum inter-class distance. We finally prove experimentally the effectiveness of the proposed approach on a challenging task: keystroke biometric identification over a large set of 78,000 subjects. Our method achieves state-of-the-art accuracy on a comparison performed with the best existing approaches.
翻訳日:2021-09-03 13:52:50 公開日:2021-09-02
# 新しい広範囲データセットと混合特徴に基づくショット境界検出法

Shot boundary detection method based on a new extensive dataset and mixed features ( http://arxiv.org/abs/2109.01057v1 )

ライセンス: Link先を確認
Alexander Gushchin, Anastasia Antsiferova and Dmitriy Vatolin(参考訳) ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。 カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。 開発したアルゴリズムは、オープンbbcのplanet earth [1]とrai [2]データセットでテストされ、msuで実施したビデオコーデック比較で使用されたビデオとibmのセットのビデオを基にしたmsu ccデータセットもプロットされた。 アルゴリズムの開発とテストのための全データセットは、既知のTRECVIDデータセットを上回った。 実験結果から, シーン変化検出アルゴリズムは, 最終的なFスコア0.9794よりも優れていた。

Shot boundary detection in video is one of the key stages of video data processing. A new method for shot boundary detection based on several video features, such as color histograms and object boundaries, has been proposed. The developed algorithm was tested on the open BBC Planet Earth [1] and RAI [2] datasets, and the MSU CC datasets, based on videos used in the video codec comparison conducted at MSU, as well as videos from the IBM set, were also plotted. The total dataset for algorithm development and testing exceeded the known TRECVID datasets. Based on the test results, the proposed algorithm for scene change detection outperformed its counterparts with a final F-score of 0.9794.
翻訳日:2021-09-03 13:52:30 公開日:2021-09-02
# 学習型マルチモーダルアライメントのための4D-Net

4D-Net for Learned Multi-Modal Alignment ( http://arxiv.org/abs/2109.01066v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Vincent Casser and Michael S. Ryoo and Anelia Angelova(参考訳) 3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。 様々な特徴表現や抽象化レベルにまたがる新しい動的接続学習を行い、幾何学的制約を観察することで、4D情報を組み込むことができる。 我々のアプローチはWaymo Open Datasetの最先端と強力なベースラインを上回っています。 4d-netは、動きの手がかりと密度の高い画像情報を使って、遠くの物体をよりうまく検出できる。

We present 4D-Net, a 3D object detection approach, which utilizes 3D Point Cloud and RGB sensing information, both in time. We are able to incorporate the 4D information by performing a novel dynamic connection learning across various feature representations and levels of abstraction, as well as by observing geometric constraints. Our approach outperforms the state-of-the-art and strong baselines on the Waymo Open Dataset. 4D-Net is better able to use motion cues and dense image information to detect distant objects more successfully.
翻訳日:2021-09-03 13:52:18 公開日:2021-09-02
# styleganを用いたドメインロバストmitotic figure検出

Domain-Robust Mitotic Figure Detection with StyleGAN ( http://arxiv.org/abs/2109.01124v1 )

ライセンス: Link先を確認
Youjin Chung, Jihoon Cho, and Jinah Park(参考訳) 有糸分裂型図形検出における領域一般化のための新しいトレーニング手法を提案する。 異なるスキャナタイプによる画像のばらつきを異なるイメージスタイルとして考慮し,スキャナタイプに頑健な検出ネットワークを訓練した。 画像分散を拡大するため、トレーニング画像の領域を任意の領域に転送する。 提案するスタイル転送モジュールは、ランダムなコードで入力画像から異なるスタイル画像を生成し、最終的に様々なスタイル画像を生成する。 提案手法を用いたモデルでは,MIDOGプリミティブテストセットには,これまで見たことのないスキャナが組み込まれている。

We propose a new training scheme for domain generalization in mitotic figure detection. By considering the image variance due to different scanner types as different image styles, we have trained our detection network to be robust on scanner types. To expand the image variance, domain of training image is transferred into arbitrary domain. The proposed style transfer module generates different styled images from an input image with random code, eventually generating variously styled images. Our model with the proposed training scheme shows good performance on MIDOG Preliminary Test-Set containing scanners never seen before.
翻訳日:2021-09-03 13:52:09 公開日:2021-09-02
# nerfingmvs: 屋内多視点ステレオのための神経放射場の最適化

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo ( http://arxiv.org/abs/2109.01129v1 )

ライセンス: Link先を確認
Yi Wei, Shaohui Liu, Yongming Rao, Wang Zhao, Jiwen Lu, Jie Zhou(参考訳) 本研究では,最近提案されたニューラルラディアンス場(NeRF)に対して,従来のSfM再構成と学習に基づく事前推定を併用した多視点深度推定手法を提案する。 推定対応に依存する既存のニューラルネットワークベースの最適化手法とは異なり、本手法は暗黙のボリュームを直接最適化し、屋内シーンにおける画素マッチングの難易度を除去する。 このアプローチの鍵は、学習に基づく事前学習を利用して、nrfの最適化プロセスを導くことです。 本システムはまず,SfM再構成を微調整することにより,ターゲットシーン上の単眼深度ネットワークに適応する。 そこで我々は,NeRFの形状のあいまいさを室内環境に残しており,ボリュームレンダリングのサンプリングプロセスを監視するために,適応した深度を用いてこの問題に対処することを提案する。 最後に、レンダリング画像上の誤差計算によって得られた画素ごとの信頼マップを用いて、深度品質をさらに向上することができる。 実験の結果,提案手法は室内環境における最先端の手法よりも優れており,対応性に基づく最適化とNeRFに基づく最適化の有効性が示唆された。 さらに, 誘導最適化方式は, ニューラルラディアンスフィールドのオリジナル合成能力を犠牲にすることなく, 目視と新鮮視のレンダリング品質を向上することを示した。 コードはhttps://github.com/weiyithu/nerfingmvsで入手できる。

In this work, we present a new multi-view depth estimation method that utilizes both conventional SfM reconstruction and learning-based priors over the recently proposed neural radiance fields (NeRF). Unlike existing neural network based optimization method that relies on estimated correspondences, our method directly optimizes over implicit volumes, eliminating the challenging step of matching pixels in indoor scenes. The key to our approach is to utilize the learning-based priors to guide the optimization process of NeRF. Our system firstly adapts a monocular depth network over the target scene by finetuning on its sparse SfM reconstruction. Then, we show that the shape-radiance ambiguity of NeRF still exists in indoor environments and propose to address the issue by employing the adapted depth priors to monitor the sampling process of volume rendering. Finally, a per-pixel confidence map acquired by error computation on the rendered image can be used to further improve the depth quality. Experiments show that our proposed framework significantly outperforms state-of-the-art methods on indoor scenes, with surprising findings presented on the effectiveness of correspondence-based optimization and NeRF-based optimization over the adapted depth priors. In addition, we show that the guided optimization scheme does not sacrifice the original synthesis capability of neural radiance fields, improving the rendering quality on both seen and novel views. Code is available at https://github.com/weiyithu/NerfingMVS.
翻訳日:2021-09-03 13:52:00 公開日:2021-09-02
# CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation ( http://arxiv.org/abs/2109.00859v1 )

ライセンス: Link先を確認
Yue Wang, Weishi Wang, Shafiq Joty, and Steven C.H. Hoi(参考訳) BERTやGPTのような学習済みの自然言語用モデル(NL)は、最近、プログラミング言語(PL)にうまく移行し、幅広いコード関連タスクの恩恵を受けていることが示されている。 その成功にもかかわらず、現在のほとんどのメソッドは、生成(resp)に最適なエンコーダのみ(またはデコーダのみ)の事前トレーニングに依存している。 理解) タスクまたはコードスニペットをNLと同じ方法で処理し、トークン型のようなPLの特別な特性を無視します。 我々は、開発者割り当て識別子から伝達されるコードセマンティクスをよりよく活用する、事前学習されたエンコーダ-デコーダトランスフォーマモデルであるcodet5を提案する。 私たちのモデルは、コード理解と生成タスクの両方をシームレスにサポートする統一フレームワークを採用し、マルチタスク学習を可能にしています。 さらに,モデルがどのコードトークンが識別子であるかを識別し,マスキング時にそれらを復元できる新しい識別子対応事前学習タスクを提案する。 さらに、NL-PLアライメントを改善するために、バイモーダル二重生成タスクでユーザ記述のコードコメントを活用することを提案する。 CodeT5は、コード欠陥検出やクローン検出といったタスクの理解や、PL-NL、NL-PL、PL-PLなどの様々な方向における生成タスクにおいて、従来の方法よりも大幅に優れていた。 さらなる分析により、我々のモデルはコードから意味情報をよりよくキャプチャできることがわかった。 私たちのコードと事前トレーニングされたモデルは、https: //github.com/salesforce/codet5でリリースされます。

Pre-trained models for Natural Languages (NL) like BERT and GPT have been recently shown to transfer well to Programming Languages (PL) and largely benefit a broad set of code-related tasks. Despite their success, most current methods either rely on an encoder-only (or decoder-only) pre-training that is suboptimal for generation (resp. understanding) tasks or process the code snippet in the same way as NL, neglecting the special characteristics of PL such as token types. We present CodeT5, a unified pre-trained encoder-decoder Transformer model that better leverages the code semantics conveyed from the developer-assigned identifiers. Our model employs a unified framework to seamlessly support both code understanding and generation tasks and allows for multi-task learning. Besides, we propose a novel identifier-aware pre-training task that enables the model to distinguish which code tokens are identifiers and to recover them when they are masked. Furthermore, we propose to exploit the user-written code comments with a bimodal dual generation task for better NL-PL alignment. Comprehensive experiments show that CodeT5 significantly outperforms prior methods on understanding tasks such as code defect detection and clone detection, and generation tasks across various directions including PL-NL, NL-PL, and PL-PL. Further analysis reveals that our model can better capture semantic information from code. Our code and pre-trained models are released at https: //github.com/salesforce/CodeT5 .
翻訳日:2021-09-03 13:51:15 公開日:2021-09-02
# 画像分類モデルにおける説明と超越のクロスモデル合意--実証的研究

Cross-Model Consensus of Explanations and Beyond for Image Classification Models: An Empirical Study ( http://arxiv.org/abs/2109.00707v1 )

ライセンス: Link先を確認
Xuhong Li, Haoyi Xiong, Siyu Huang, Shilei Ji, Dejing Dou(参考訳) 既存の解釈アルゴリズムでは、深いモデルでさえ同じ画像上で同じと正しい予測をするが、分類のために異なる入力特徴セットに依存する可能性がある。 しかし、これらの機能セットのうち、いくつかの共通機能は、多くのモデルで使用される可能性がある。 本稿では,様々なモデルが分類に使用する共通機能と,優れた性能を持つモデルがそれらの共通機能を好むかどうかを疑問視する。 この目的のために,本研究では,特徴(画素やスーパーピクセルなど)の重要性を説明として解釈アルゴリズムを用い,共通特徴を捉えるための説明のクロスモデルコンセンサスを提案する。 具体的には、まず委員会として深層モデルのセットを準備し、次にすべてのモデルの説明を推論し、投票を通じて委員会全体の説明の合意を得る。 5つのデータセット/タスク上で80以上のモデルを用いた広範囲な実験を行う。 1) 画像分類モデルから得られたコンセンサスは, 意味セグメンテーションの基礎的真理と一致している, (2) 委員会における各モデルの説明結果とコンセンサス(すなわちコンセンサススコア)との類似度を測定し, コンセンサススコアとモデルパフォーマンスの正の相関を見出す, (3) コンセンサススコアは解釈可能性と一致している。

Existing interpretation algorithms have found that, even deep models make the same and right predictions on the same image, they might rely on different sets of input features for classification. However, among these sets of features, some common features might be used by the majority of models. In this paper, we are wondering what are the common features used by various models for classification and whether the models with better performance may favor those common features. For this purpose, our works uses an interpretation algorithm to attribute the importance of features (e.g., pixels or superpixels) as explanations, and proposes the cross-model consensus of explanations to capture the common features. Specifically, we first prepare a set of deep models as a committee, then deduce the explanation for every model, and obtain the consensus of explanations across the entire committee through voting. With the cross-model consensus of explanations, we conduct extensive experiments using 80+ models on 5 datasets/tasks. We find three interesting phenomena as follows: (1) the consensus obtained from image classification models is aligned with the ground truth of semantic segmentation; (2) we measure the similarity of the explanation result of each model in the committee to the consensus (namely consensus score), and find positive correlations between the consensus score and model performance; and (3) the consensus score coincidentally correlates to the interpretability.
翻訳日:2021-09-03 13:49:41 公開日:2021-09-02
# MrSQM:記号表現を用いた高速時系列分類

MrSQM: Fast Time Series Classification with Symbolic Representations ( http://arxiv.org/abs/2109.01036v1 )

ライセンス: Link先を確認
Thach Le Nguyen and Georgiana Ifrim(参考訳) 時系列の記号表現は、SAX-VSM、BOSS、WEASEL、MMSSEQLなど、最近の多くのアプローチで時系列分類に有効であることが証明されている。 鍵となるアイデアは、数値時系列を時間領域や周波数領域、すなわち記号列の記号表現に変換し、それらの列から特徴を抽出することである。 精度は高いが、既存の記号分類器は計算コストが高い。 本稿では,複数のシンボル表現と効率的なシーケンスマイニングを用いた新しい時系列分類器MrSQMを提案する。 本研究は, 完全教師付きから非教師付き, ハイブリッドまで, 記号列の4つの特徴選択手法について検討する。 識別パターンマイニングのために開発されたchi-squaredバウンドを時系列に適応させることにより,全列空間における最適教師付きシンボリック特徴選択法を提案する。 UEA/UCRベンチマークの112データセットに関する広範な実験により、MrSQMは有用な特徴を素早く抽出し、古典的ロジスティック回帰アルゴリズムを用いて正確な分類法を学習できることを示した。 興味深いことに、非常にシンプルで高速な機能選択戦略は、より高度で高価な方法と比較して非常に効果的である。 MrSQMはシンボリック時系列分類器の最先端化を推進し、高速な実行で高精度を実現する効果的な方法である。

Symbolic representations of time series have proven to be effective for time series classification, with many recent approaches including SAX-VSM, BOSS, WEASEL, and MrSEQL. The key idea is to transform numerical time series to symbolic representations in the time or frequency domain, i.e., sequences of symbols, and then extract features from these sequences. While achieving high accuracy, existing symbolic classifiers are computationally expensive. In this paper we present MrSQM, a new time series classifier which uses multiple symbolic representations and efficient sequence mining, to extract important time series features. We study four feature selection approaches on symbolic sequences, ranging from fully supervised, to unsupervised and hybrids. We propose a new approach for optimal supervised symbolic feature selection in all-subsequence space, by adapting a Chi-squared bound developed for discriminative pattern mining, to time series. Our extensive experiments on 112 datasets of the UEA/UCR benchmark demonstrate that MrSQM can quickly extract useful features and learn accurate classifiers with the classic logistic regression algorithm. Interestingly, we find that a very simple and fast feature selection strategy can be highly effective as compared with more sophisticated and expensive methods. MrSQM advances the state-of-the-art for symbolic time series classifiers and it is an effective method to achieve high accuracy, with fast runtime.
翻訳日:2021-09-03 13:48:52 公開日:2021-09-02
# 脳波信号とCNN-LSTMモデルを用いた統合失調症の自動診断

Automatic Diagnosis of Schizophrenia using EEG Signals and CNN-LSTM Models ( http://arxiv.org/abs/2109.01120v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Delaram Sadeghi, Parisa Moridian, Navid Ghassemi, Jonathan Heras, Roohallah Alizadehsani, Ali Khadem, Yinan Kong, Saeid Nahavandi, Juan M. Gorriz(参考訳) 統合失調症(英: Schizophrenia、SZ)は、脳内の特定の化学物質の分泌により、一部の脳領域の機能のバランスが取れなくなり、思考、行動、感情の協調が欠如する精神疾患である。 本研究は、脳波信号によるsz自動診断のための様々な知的深層学習(dl)に基づく手法を提供する。 得られた結果を従来の知的手法と比較する。 提案手法を実現するためにポーランドのワルシャワにある精神医学神経学研究所のデータセットが使用されている。 まず、EEG信号を25秒の時間フレームに分割し、次にzスコアまたは標準L2で正規化する。 分類段階において、脳波信号によるSZ診断には2つの異なるアプローチが考えられる。 この段階において、脳波信号の分類は、KNN、DT、SVM、ベイズ、バッグング、RF、ETといった従来のDL手法によって最初に行われる。 LSTM, 1D-CNN, 1D-CNN-LSTMなど, 様々なDLモデルについて述べる。 このステップでは、DLモデルを実装し、異なるアクティベーション関数と比較した。 提案されたDLモデルの中で、CNN-LSTMアーキテクチャは最高の性能を持っていた。 このアーキテクチャでは、ReLU活性化関数とzスコアとL2の組み合わせ正規化を用いる。 提案したCNN-LSTMモデルは99.25\%の精度を達成している。 すべてのシミュレーションを実行するために、k=5の k-fold クロスバリデーション法が用いられていることに注意する必要がある。

Schizophrenia (SZ) is a mental disorder whereby due to the secretion of specific chemicals in the brain, the function of some brain regions is out of balance, leading to the lack of coordination between thoughts, actions, and emotions. This study provides various intelligent Deep Learning (DL)-based methods for automated SZ diagnosis via EEG signals. The obtained results are compared with those of conventional intelligent methods. In order to implement the proposed methods, the dataset of the Institute of Psychiatry and Neurology in Warsaw, Poland, has been used. First, EEG signals are divided into 25-seconds time frames and then were normalized by z-score or norm L2. In the classification step, two different approaches are considered for SZ diagnosis via EEG signals. In this step, the classification of EEG signals is first carried out by conventional DL methods, e.g., KNN, DT, SVM, Bayes, bagging, RF, and ET. Various proposed DL models, including LSTMs, 1D-CNNs, and 1D-CNN-LSTMs, are used in the following. In this step, the DL models were implemented and compared with different activation functions. Among the proposed DL models, the CNN-LSTM architecture has had the best performance. In this architecture, the ReLU activation function and the z-score and L2 combined normalization are used. The proposed CNN-LSTM model has achieved an accuracy percentage of 99.25\%, better than the results of most former studies in this field. It is worth mentioning that in order to perform all simulations, the k-fold cross-validation method with k=5 has been used.
翻訳日:2021-09-03 13:48:28 公開日:2021-09-02
# 確率的動的環境におけるGPU加速最適経路計画

GPU-accelerated Optimal Path Planning in Stochastic Dynamic Environments ( http://arxiv.org/abs/2109.00857v1 )

ライセンス: Link先を確認
Rohit Chowdhury, Deepak Subramani(参考訳) 自律的な海洋車両は多くの海洋科学と工学の応用において重要な役割を担っている。 これらの車両が確率的な動的海洋環境を航行するための計画時間とエネルギーの最適経路は、運用コストの削減に不可欠である。 いくつかのミッションでは、太陽、風または波のエネルギー(確率的スカラー場としてモデル化)を収穫し、純エネルギー消費を最小化する最適な経路を移動する必要がある。 マルコフ決定プロセス(MDP)は、そのような環境でロボットエージェントのシーケンシャルな意思決定のための自然なフレームワークを提供する。 しかし、現実的なモデルを構築し、モデル化されたMDPを解くことは、大規模リアルタイムアプリケーションでは計算コストが高くなり、並列アルゴリズムと効率的な実装の必要性が保証される。 本研究では, MDPモデル(遷移確率と期待される1ステップの報奨を計算)を構築し, (ii) 最適ポリシーを計算するためにMDPを解く,効率的なエンドツーエンドGPU高速化アルゴリズムを提案する。 We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort. MDPモデルを構築し,従来のCPU実装よりも600-1000倍高速に最適ポリシを計算し,リアルタイム利用に適したアルゴリズムであることを示す。

Autonomous marine vehicles play an essential role in many ocean science and engineering applications. Planning time and energy optimal paths for these vehicles to navigate in stochastic dynamic ocean environments is essential to reduce operational costs. In some missions, they must also harvest solar, wind, or wave energy (modeled as a stochastic scalar field) and move in optimal paths that minimize net energy consumption. Markov Decision Processes (MDPs) provide a natural framework for sequential decision-making for robotic agents in such environments. However, building a realistic model and solving the modeled MDP becomes computationally expensive in large-scale real-time applications, warranting the need for parallel algorithms and efficient implementation. In the present work, we introduce an efficient end-to-end GPU-accelerated algorithm that (i) builds the MDP model (computing transition probabilities and expected one-step rewards); and (ii) solves the MDP to compute an optimal policy. We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort. We demonstrate the algorithm on a simulated stochastic dynamic environment and highlight that it builds the MDP model and computes the optimal policy 600-1000x faster than conventional CPU implementations, making it suitable for real-time use.
翻訳日:2021-09-03 13:48:05 公開日:2021-09-02
# 階層型予測符号化における軌道制御と反射制御

Habitual and Reflective Control in Hierarchical Predictive Coding ( http://arxiv.org/abs/2109.00866v1 )

ライセンス: Link先を確認
Paul F. Kinghorn, Beren Millidge and Christopher L. Buckley(参考訳) 認知科学では、行動はしばしば2つのタイプに分けられる。 反射性制御は習慣的かつ即時であり、反射性は熟考的であり、時間を要する。 階層型予測符号化(HPC)は多層ネットワーク上で動作する連続体として両方の動作を説明でき、脳内の別々の回路の必要性を排除できるという議論を考察する。 この見方では、"高速"アクションはhpcスキーマの下層のみを使用して起動されるが、より慎重なアクションはより高い層を必要とする。 hpcが階層構造全体に学習を分散できることを実証し,高層層が必要に応じてのみ使用されることを実証した。

In cognitive science, behaviour is often separated into two types. Reflexive control is habitual and immediate, whereas reflective is deliberative and time consuming. We examine the argument that Hierarchical Predictive Coding (HPC) can explain both types of behaviour as a continuum operating across a multi-layered network, removing the need for separate circuits in the brain. On this view, "fast" actions may be triggered using only the lower layers of the HPC schema, whereas more deliberative actions need higher layers. We demonstrate that HPC can distribute learning throughout its hierarchy, with higher layers called into use only as required.
翻訳日:2021-09-03 13:47:38 公開日:2021-09-02
# 層状材料の非フォトリアリスティックレンダリング:マルチスペクトルアプローチ

Non-Photorealistic Rendering of Layered Materials: A Multispectral Approach ( http://arxiv.org/abs/2109.00780v1 )

ライセンス: Link先を確認
Corey Toler-Franklin and Shashank Ranjan(参考訳) 生体試料中の層状物質を可視化するマルチスペクトルレンダリング技術を提案する。 非フォトリアリスティックレンダリング(NPR)において、近赤外および紫外線スペクトルから取得したデータを初めて利用する。 いくつかの植物や動物は多スペクトル分析によりより包括的に理解されている。 しかし、従来のNPR技術は可視スペクトル外のユニークな情報を無視する。 波長依存表面正規化と反射率の処理アルゴリズムと原理を導入する。 我々の登録および特徴検出法は、現在のNPR法では考慮されていないスタイリング効果を定式化するために用いられる: 特定の波長における形状特徴を複数のスケールで分離し強調するスペクトルバンドシェーディング。 本研究のエキスパートは,生体科学への応用におけるシステムの有効性を実証する。

We present multispectral rendering techniques for visualizing layered materials found in biological specimens. We are the first to use acquired data from the near-infrared and ultraviolet spectra for non-photorealistic rendering (NPR). Several plant and animal species are more comprehensively understood by multispectral analysis. However, traditional NPR techniques ignore unique information outside the visible spectrum. We introduce algorithms and principles for processing wavelength dependent surface normals and reflectance. Our registration and feature detection methods are used to formulate stylization effects not considered by current NPR methods including: Spectral Band Shading which isolates and emphasizes shape features at specific wavelengths at multiple scales. Experts in our user study demonstrate the effectiveness of our system for applications in the biological sciences.
翻訳日:2021-09-03 13:47:28 公開日:2021-09-02
# slide: ソフトレイヤーと奥行き認識による1枚の3d写真

SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting ( http://arxiv.org/abs/2109.01068v1 )

ライセンス: Link先を確認
Varun Jampani, Huiwen Chang, Kyle Sargent, Abhishek Kar, Richard Tucker, Michael Krainin, Dominik Kaeser, William T. Freeman, David Salesin, Brian Curless, Ce Liu(参考訳) 単一の3d写真では、新しい視点から静止画を見ることができる。 最近のアプローチでは、単眼深度ネットワークとインペインティングネットワークを組み合わせることで、説得力のある結果が得られる。 これらの技法の欠点は、硬い深さ層を用いることで、細い毛髪のような複雑な外観をモデル化できないことである。 本稿では,単一画像3d撮影のためのモジュール型統一システムであるslideについて紹介する。 さらに,3次元撮影作業に適した塗装モジュールのための新しい深度対応トレーニング戦略を提案する。 結果として生じるSLIDEアプローチはモジュール化されており、セグメンテーションやマッティングといった他のコンポーネントを階層化の改善に利用することができる。 同時に、SLIDEは、高品質な3D写真を作成するために、コンポーネントネットワークをただ1つの前方通過しか必要としない効率的な層状深度定式化を使用する。 3つの画像合成データセットの広範な実験分析と,既存の強力なベースラインと比較した場合,概念的にはるかにシンプルでありながら,本手法の優れた性能を示す。 プロジェクトページ: https://varunjampani.github.io/slide

Single image 3D photography enables viewers to view a still image from novel viewpoints. Recent approaches combine monocular depth networks with inpainting networks to achieve compelling results. A drawback of these techniques is the use of hard depth layering, making them unable to model intricate appearance details such as thin hair-like structures. We present SLIDE, a modular and unified system for single image 3D photography that uses a simple yet effective soft layering strategy to better preserve appearance details in novel views. In addition, we propose a novel depth-aware training strategy for our inpainting module, better suited for the 3D photography task. The resulting SLIDE approach is modular, enabling the use of other components such as segmentation and matting for improved layering. At the same time, SLIDE uses an efficient layered depth formulation that only requires a single forward pass through the component networks to produce high quality 3D photos. Extensive experimental analysis on three view-synthesis datasets, in combination with user studies on in-the-wild image collections, demonstrate superior performance of our technique in comparison to existing strong baselines while being conceptually much simpler. Project page: https://varunjampani.github.io/slide
翻訳日:2021-09-03 13:46:43 公開日:2021-09-02
# 衣服における人体モデリングのためのポイントの力

The Power of Points for Modeling Humans in Clothing ( http://arxiv.org/abs/2109.01137v1 )

ライセンス: Link先を確認
Qianli Ma and Jinlong Yang and Siyu Tang and Michael J. Black(参考訳) 現在、アーティストはリアルな衣服で自然に動く3Dアバターを作る必要がある。 人体の3dスキャンやモデリングの進歩にもかかわらず、静的スキャンをアニメーション可能なアバターに簡単に変換できる技術はまだない。 このようなアバターの作成を自動化することで、ゲーム、ソーシャルネットワーキング、アニメーション、ar/vrの多くのアプリケーションが名前をつけることができるだろう。 鍵となる問題は表現の1つです。 標準の3Dメッシュは、最小限の衣服をモデル化するのに広く用いられているが、衣服の複雑なトポロジーを容易に捉えることはできない。 最近の関心は、このタスクの暗黙的な表面モデルに移行しているが、計算的に重く、既存の3Dツールとの互換性がない。 必要なのは、様々なトポロジーを高解像度で捉え、データから学ぶことができる3d表現である。 私たちは、この表現はずっと私たちと共にいた、と論じています -- ポイントクラウドです。 点雲は暗黙の表現と明示的な表現の両方の性質を持ち、人間の体に3Dの幾何学をモデル化するために利用します。 我々は,新しい局所的衣服幾何学的特徴を用いてニューラルネットワークを訓練し,異なる衣装の形状を表現する。 ネットワークは、様々な種類の衣服の3dポイント雲から多くのポーズで訓練され、ポーズ依存の衣服変形をモデル化することを学ぶ。 幾何学的特徴は、以前に見つからなかった被服者のスキャンに適合するように最適化することができ、スキャンを現実的に再現することができる。 本モデルでは,マルチアウトフィット・モデリングと不明瞭な衣料アニメーションの両方において,定量的,質的な結果が優れていることを示す。 コードは研究目的に利用できる。

Currently it requires an artist to create 3D human avatars with realistic clothing that can move naturally. Despite progress on 3D scanning and modeling of human bodies, there is still no technology that can easily turn a static scan into an animatable avatar. Automating the creation of such avatars would enable many applications in games, social networking, animation, and AR/VR to name a few. The key problem is one of representation. Standard 3D meshes are widely used in modeling the minimally-clothed body but do not readily capture the complex topology of clothing. Recent interest has shifted to implicit surface models for this task but they are computationally heavy and lack compatibility with existing 3D tools. What is needed is a 3D representation that can capture varied topology at high resolution and that can be learned from data. We argue that this representation has been with us all along -- the point cloud. Point clouds have properties of both implicit and explicit representations that we exploit to model 3D garment geometry on a human body. We train a neural network with a novel local clothing geometric feature to represent the shape of different outfits. The network is trained from 3D point clouds of many types of clothing, on many bodies, in many poses, and learns to model pose-dependent clothing deformations. The geometry feature can be optimized to fit a previously unseen scan of a person in clothing, enabling the scan to be reposed realistically. Our model demonstrates superior quantitative and qualitative results in both multi-outfit modeling and unseen outfit animation. The code is available for research purposes.
翻訳日:2021-09-03 13:46:22 公開日:2021-09-02
# 結び目不変量とその関係:位相的観点から

Knot invariants and their relations: a topological perspective ( http://arxiv.org/abs/2109.00831v1 )

ライセンス: Link先を確認
D{\l}otko Pawe{\l}, Davide Gurnari, Radmila Sazdanovic(参考訳) この研究は、トポロジカルデータ解析の手法を結び目理論に持ち込み、このアプリケーションに触発された新しいデータ解析ツールを開発する。 我々は,Mapper と Ball Mapper のアルゴリズムを用いて,結び目不変量の膨大なコレクションと関係を探索する。 特に,データ内に対称性やその他の関係を組み込んだBall Mapperアルゴリズムを開発し,結び目不変量などの異なる記述子から生じるデータを比較する方法を提供する。 さらに、マッパー構成を、レンズ関数の範囲が1次元空間よりも高次元である場合に拡張し、高次元空間間の関数を可視化する方法を提供する。 結び目理論データにこれらの手法を応用し、結び目理論における我々の発見の潜在的影響に注意を向ける。

This work brings methods from topological data analysis to knot theory and develops new data analysis tools inspired by this application. We explore a vast collection of knot invariants and relations between then using Mapper and Ball Mapper algorithms. In particular, we develop versions of the Ball Mapper algorithm that incorporate symmetries and other relations within the data, and provide ways to compare data arising from different descriptors, such as knot invariants. Additionally, we extend the Mapper construction to the case where the range of the lens function is high dimensional rather than a 1-dimensional space, that also provides ways of visualizing functions between high-dimensional spaces. We illustrate the use of these techniques on knot theory data and draw attention to potential implications of our findings in knot theory.
翻訳日:2021-09-03 13:45:57 公開日:2021-09-02
# ループ不変発見のゲーミフィケーションのための推論エンジン

A Reasoning Engine for the Gamification of Loop-Invariant Discovery ( http://arxiv.org/abs/2109.01121v1 )

ライセンス: Link先を確認
Andrew Walter and Seth Cooper and Panagiotis Manolios(参考訳) 本稿では,ループ不変発見のゲーミフィケーションを容易にする推論エンジンの設計と実装について述べる。 私たちの推論エンジンは、学生、計算エージェント、正規のソフトウェアエンジニアが、ブラウザベースのオンラインゲームを使って、単純なプログラムに関する興味深い定理を協調的に証明することを可能にする。 1時間以内に、完全に自動化されたツールの能力を超えたプログラムの特性を特定し検証することができる。 時間制限には、システムのセットアップ時間、ゲームプレイを説明する簡単なチュートリアルの完了、単純な命令的プログラムの推論が含まれる。 プレイヤーは形式的な証明を理解する必要はなく、不変量を提案することでのみ洞察を与える。 推論エンジンは提案された不変量を管理し評価し、実用的なフィードバックを生成する。

We describe the design and implementation of a reasoning engine that facilitates the gamification of loop-invariant discovery. Our reasoning engine enables students, computational agents and regular software engineers with no formal methods expertise to collaboratively prove interesting theorems about simple programs using browser-based, online games. Within an hour, players are able to specify and verify properties of programs that are beyond the capabilities of fully-automated tools. The hour limit includes the time for setting up the system, completing a short tutorial explaining game play and reasoning about simple imperative programs. Players are never required to understand formal proofs; they only provide insights by proposing invariants. The reasoning engine is responsible for managing and evaluating the proposed invariants, as well as generating actionable feedback.
翻訳日:2021-09-03 13:45:45 公開日:2021-09-02
# 分子動力学シミュレーションのためのヘテロジニアスメッセージパッシングネットワーク

Heterogeneous relational message passing networks for molecular dynamics simulations ( http://arxiv.org/abs/2109.00711v1 )

ライセンス: Link先を確認
Zun Wang, Chong Wang, Sibo Zhao, Yong Xu, Shaogang Hao, Chang Yu Hsieh, Bing-Lin Gu and Wenhui Duan(参考訳) 分子特性とバルク特性を予測するために提案されたメッセージパッシングニューラルネットワークに基づく多くのフレームワークにより、機械学習手法は物理学、物質科学、化学、生物学を支える計算科学のパラダイムを大きく変えた。 既存の機械学習モデルは、しばしば優れた性能を得るが、そのほとんどは、多種多様な相互作用を表現するための表現力を大幅に制限する均質なグラフで分子システムをモデル化し、処理している。 実際には、複数のノードとエッジタイプを持つグラフデータはユビキタスであり、分子システムに適している。 そこで本稿では, エンドツーエンドのヘテロジニアスグラフニューラルネットワークであるヘムネット(HermNet)を提案する。 HermNetは、分子と拡張システムの両方において、多くのトップパフォーマンスモデルに対して素晴らしいパフォーマンスを発揮する。 具体的には、hermnetは、md17、qm9、拡張システムデータセットの75\%、83\%、94\%のタスクで、他のテストモデルよりも優れています。 最後に、密度汎関数論の観点からhermnetの設計が量子力学とどのように適合するかを解明する。 さらに、hermnetはユニバーサルフレームワークであり、サブネットワークを他の高度なモデルに置き換えることができる。

With many frameworks based on message passing neural networks proposed to predict molecular and bulk properties, machine learning methods have tremendously shifted the paradigms of computational sciences underpinning physics, material science, chemistry, and biology. While existing machine learning models have yielded superior performances in many occasions, most of them model and process molecular systems in terms of homogeneous graph, which severely limits the expressive power for representing diverse interactions. In practice, graph data with multiple node and edge types is ubiquitous and more appropriate for molecular systems. Thus, we propose the heterogeneous relational message passing network (HermNet), an end-to-end heterogeneous graph neural networks, to efficiently express multiple interactions in a single model with {\it ab initio} accuracy. HermNet performs impressively against many top-performing models on both molecular and extended systems. Specifically, HermNet outperforms other tested models in nearly 75\%, 83\% and 94\% of tasks on MD17, QM9 and extended systems datasets, respectively. Finally, we elucidate how the design of HermNet is compatible with quantum mechanics from the perspective of the density functional theory. Besides, HermNet is a universal framework, whose sub-networks could be replaced by other advanced models.
翻訳日:2021-09-03 13:44:30 公開日:2021-09-02
# 最新のAndroidセキュリティ問題とアプローチに関する簡単な見解と分析

Brief View and Analysis to Latest Android Security Issues and Approaches ( http://arxiv.org/abs/2109.00805v1 )

ライセンス: Link先を確認
Ruicong Huang(参考訳) パフォーマンスと機能の継続的な改善により、Androidは今日でも携帯電話で最も人気のあるオペレーティングシステムである。 しかし、様々な悪意あるアプリケーションがシステムに大きな脅威をもたらす。 過去数年間、マルウェアと対策の両方で重大な変化が起こった。 具体的には、マルウェアは継続的に進化しており、より正確な検出のために高度なアプローチが採用されている。 最新の状況に対応するため,本稿では,最新のマルウェア,androidセキュリティ機能,アプローチなど,幅広い分析を行う。 また,情報収集や実験の実施が今後の研究に有用で,これまでの研究で言及されていないものもいくつか紹介する。

Due to the continuous improvement of performance and functions, Android remains the most popular operating system on mobile phone today. However, various malicious applications bring great threats to the system. Over the past few years, significant changes occured in both malwares and counter measures. Specifically, malwares are continuously evolving, and advanced approaches are adopted for more accurate detection. To keep up with the latest situation, in this paper, we conduct a wide range of analysis, including latest malwares, Android security features, and approaches. We also provide some finding when we are gathering information and carrying on experiments, which we think is useful for further researches and has not been mentioned in previous works.
翻訳日:2021-09-03 13:44:11 公開日:2021-09-02
# Tsetlin マシンを用いた自己時間強化学習

Self-timed Reinforcement Learning using Tsetlin Machine ( http://arxiv.org/abs/2109.00846v1 )

ライセンス: Link先を確認
Adrian Wheeldon, Alex Yakovlev, Rishad Shafik(参考訳) 本稿では、推論データパスの遅延解析とともに、Tsetlinマシンアルゴリズムの学習データパスのためのハードウェア設計を提案する。 広汎な人工知能アプリケーションに適した低エネルギーハードウェアを生成するために,ペトリネット,信号遷移グラフ,デュアルレール,バンドルデータなどの非同期設計手法を混在させる。 この作業は、推論ハードウェアの以前の設計に基づいており、オートマトンフィードバック、確率生成、tsetlin automataの詳細な説明が含まれている。 結果として、パーソナライズされたヘルスケアやバッテリ駆動のモノのインターネットといったアプリケーションにおける非同期設計の利点が示されている。 非同期回路における静的タイミング解析の課題にも対処する。

We present a hardware design for the learning datapath of the Tsetlin machine algorithm, along with a latency analysis of the inference datapath. In order to generate a low energy hardware which is suitable for pervasive artificial intelligence applications, we use a mixture of asynchronous design techniques - including Petri nets, signal transition graphs, dual-rail and bundled-data. The work builds on previous design of the inference hardware, and includes an in-depth breakdown of the automaton feedback, probability generation and Tsetlin automata. Results illustrate the advantages of asynchronous design in applications such as personalized healthcare and battery-powered internet of things devices, where energy is limited and latency is an important figure of merit. Challenges of static timing analysis in asynchronous circuits are also addressed.
翻訳日:2021-09-03 13:44:03 公開日:2021-09-02
# CrypTen: セキュアなマルチパーティ計算と機械学習

CrypTen: Secure Multi-Party Computation Meets Machine Learning ( http://arxiv.org/abs/2109.00984v1 )

ライセンス: Link先を確認
Brian Knott and Shobha Venkataraman and Awni Hannun and Shubho Sengupta and Mark Ibrahim and Laurens van der Maaten(参考訳) セキュアなマルチパーティ計算(mpc)は、データをプライベートに保ちながら、データ上での計算を可能にする。 この機能は機械学習アプリケーションにとって大きな可能性を秘めている。異なるパーティが所有するプライベートデータセット上での機械学習モデルのトレーニングや、他のパーティのプライベートデータを用いた個人のプライベートモデルの評価などだ。 多くの研究がセキュアなMPCを介して機械学習モデルを実装しているが、そのような実装はまだ主流ではない。 セキュアなmpcの採用は、機械学習の研究者やエンジニアの"言語を話す"フレキシブルなソフトウェアフレームワークの欠如によって妨げられている。 CrypTenは、機械学習におけるセキュアなMPCの採用を促進するために、テンソル計算、自動微分、モジュール型ニューラルネットワークといった現代の機械学習フレームワークで一般的な抽象化を通じて、人気のあるセキュアなMPCプリミティブを公開するソフトウェアフレームワークである。 本稿では,テキスト分類,音声認識,画像分類の最先端モデルにおける暗号の設計と性能評価について述べる。 我々のベンチマークでは、CrypTenのGPUサポートと、(任意の数の)パーティ間の高速通信により、半正直な脅威モデルの下で、現代の機械学習モデルの効率的なプライベート評価を行うことができることを示している。 例えば、CrypTenを使用する2つのパーティは、リアルタイムよりも高速にWav2Letterを使用して音声録音の音素を安全に予測することができる。 CrypTenが機械学習コミュニティでセキュアなMPCの採用を促進することを期待しています。

Secure multi-party computation (MPC) allows parties to perform computations on data while keeping that data private. This capability has great potential for machine-learning applications: it facilitates training of machine-learning models on private data sets owned by different parties, evaluation of one party's private model using another party's private data, etc. Although a range of studies implement machine-learning models via secure MPC, such implementations are not yet mainstream. Adoption of secure MPC is hampered by the absence of flexible software frameworks that "speak the language" of machine-learning researchers and engineers. To foster adoption of secure MPC in machine learning, we present CrypTen: a software framework that exposes popular secure MPC primitives via abstractions that are common in modern machine-learning frameworks, such as tensor computations, automatic differentiation, and modular neural networks. This paper describes the design of CrypTen and measure its performance on state-of-the-art models for text classification, speech recognition, and image classification. Our benchmarks show that CrypTen's GPU support and high-performance communication between (an arbitrary number of) parties allows it to perform efficient private evaluation of modern machine-learning models under a semi-honest threat model. For example, two parties using CrypTen can securely predict phonemes in speech recordings using Wav2Letter faster than real-time. We hope that CrypTen will spur adoption of secure MPC in the machine-learning community.
翻訳日:2021-09-03 13:43:28 公開日:2021-09-02
# 誤差緩和は雑音変動量子アルゴリズムのトレーサビリティを向上させるか?

Can Error Mitigation Improve Trainability of Noisy Variational Quantum Algorithms? ( http://arxiv.org/abs/2109.01051v1 )

ライセンス: Link先を確認
Samson Wang, Piotr Czarnik, Andrew Arrasmith, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) 変分量子アルゴリズム(VQA)は、短期量子優位の最良の希望として広く見なされている。 しかし、近年の研究では、ノイズはコストランドスケープを指数関数的に平坦化し、コスト勾配のマグニチュードを抑えることで、VQAのトレーニング可能性を大幅に制限することができることが示されている。 Error Mitigation (EM)は、ノイズが短期デバイスに与える影響を減らすことを約束している。 したがって、EMがVQAのトレーニング性を向上させることができるかどうかを問うことは自然である。 本研究では,広範囲のEM戦略において,指数的資源を他の場所でコミットすることなく指数的コスト集中を解決できないことを示す。 この種の戦略には、ゼロノイズ外挿、仮想蒸留、確率的エラーキャンセル、クリフォードデータ回帰などが含まれる。 第二に、これらのEMプロトコルの分析および数値解析を行い、それらのいくつか(例えば、仮想蒸留)は、EMを全く実行しないよりもコスト関数の値の解決が困難になる。 その結果,Clifford Data Regression (CDR) が,コスト集中度が高すぎる特定の環境でのトレーニングプロセスに有効であることを示す数値的証拠が得られた。 この結果から,EMプロトコルの適用には注意が必要であることが示唆された。 一方,CDRに対する肯定的な結果は,工学的誤り軽減手法がトレーニング性を向上させる可能性を強調している。

Variational Quantum Algorithms (VQAs) are widely viewed as the best hope for near-term quantum advantage. However, recent studies have shown that noise can severely limit the trainability of VQAs, e.g., by exponentially flattening the cost landscape and suppressing the magnitudes of cost gradients. Error Mitigation (EM) shows promise in reducing the impact of noise on near-term devices. Thus, it is natural to ask whether EM can improve the trainability of VQAs. In this work, we first show that, for a broad class of EM strategies, exponential cost concentration cannot be resolved without committing exponential resources elsewhere. This class of strategies includes as special cases Zero Noise Extrapolation, Virtual Distillation, Probabilistic Error Cancellation, and Clifford Data Regression. Second, we perform analytical and numerical analysis of these EM protocols, and we find that some of them (e.g., Virtual Distillation) can make it harder to resolve cost function values compared to running no EM at all. As a positive result, we do find numerical evidence that Clifford Data Regression (CDR) can aid the training process in certain settings where cost concentration is not too severe. Our results show that care should be taken in applying EM protocols as they can either worsen or not improve trainability. On the other hand, our positive results for CDR highlight the possibility of engineering error mitigation methods to improve trainability.
翻訳日:2021-09-03 13:43:04 公開日:2021-09-02
# ユーザーは何が欲しいか? warhol:レコメンデーションのための生成モデル

What Users Want? WARHOL: A Generative Model for Recommendation ( http://arxiv.org/abs/2109.01093v1 )

ライセンス: Link先を確認
Jules Samaran, Ugo Tanielian, Romain Beaumont, Flavian Vasile(参考訳) 現在のレコメンデーションアプローチは、訪問するユーザーごとに、既存の製品のどのサブセットが最も関連があるかを予測するのに役立つ。 しかし、利用者と既存製品とのマッチングに関心があるだけでなく、利用者の嗜好を理解することにも興味がある。 これは、将来、より良いマッチング製品を生産したり、買収したりするのに役立ちます。 我々は、既存のレコメンデーションモデルは、新しい製品がターゲットのオーディエンスのニーズをより良くするであろう機能の最適な組み合わせを予測するために直接使用できないと主張している。 これに対処するために、生成モデルに目を向け、テキストと視覚空間の両方で製品機能の組み合わせよりも明示的に分布を学習できる。 我々は,ユーザショッピング活動の入力として利用し,新規製品のテキストおよび視覚的記述を生成する製品生成・レコメンデーションアーキテクチャであるWARHOLを開発した。 我々は、WARHOLが、与えられたユーザプロファイルに関連する全く新しい製品を生成すると同時に、最先端のレコメンデーションモデルの性能にアプローチできることを示します。

Current recommendation approaches help online merchants predict, for each visiting user, which subset of their existing products is the most relevant. However, besides being interested in matching users with existing products, merchants are also interested in understanding their users' underlying preferences. This could indeed help them produce or acquire better matching products in the future. We argue that existing recommendation models cannot directly be used to predict the optimal combination of features that will make new products serve better the needs of the target audience. To tackle this, we turn to generative models, which allow us to learn explicitly distributions over product feature combinations both in text and visual space. We develop WARHOL, a product generation and recommendation architecture that takes as input past user shopping activity and generates relevant textual and visual descriptions of novel products. We show that WARHOL can approach the performance of state-of-the-art recommendation models, while being able to generate entirely new products that are relevant to the given user profiles.
翻訳日:2021-09-03 13:42:42 公開日:2021-09-02
# グラフコントラスト学習に関する実証的研究

An Empirical Study of Graph Contrastive Learning ( http://arxiv.org/abs/2109.01116v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Yichen Xu, Qiang Liu, Shu Wu(参考訳) グラフコントラスト学習(GCL)は、人間のアノテーションなしでグラフ表現を学習するための新しいパラダイムを確立する。 最近は目覚ましい進歩が見られたが、GCLの成功はいまだに謎のままである。 本研究では,まず,拡張関数,コントラストモード,コントラスト目標,負のマイニング手法など,一般のgclパラダイムにおける重要な設計上の考慮事項を明らかにする。 そして、異なるGCLコンポーネントの相互作用を理解するために、さまざまなドメインにわたるデータセットのベンチマークタスクのセットに対して、広範囲に制御された実験を行う。 我々の実証的研究は、例えば、スパースグラフビューを生成する単純なトポロジ拡張のような、効果的なGCLのための一般的なレシートセットが、有望なパフォーマンス改善をもたらすことを示唆している。 さらに,今後の研究の促進とGCLアルゴリズムの実装を容易にするため,モジュール化されたCLコンポーネント,標準化された評価,実験管理を備えた,使い易いライブラリPyGCLを開発した。 本研究は,有効なGCLアルゴリズムの実証的証拠を提供するとともに,今後の研究にいくつかの洞察を与えるものである。

Graph Contrastive Learning (GCL) establishes a new paradigm for learning graph representations without human annotations. Although remarkable progress has been witnessed recently, the success behind GCL is still left somewhat mysterious. In this work, we first identify several critical design considerations within a general GCL paradigm, including augmentation functions, contrasting modes, contrastive objectives, and negative mining techniques. Then, to understand the interplay of different GCL components, we conduct extensive, controlled experiments over a set of benchmark tasks on datasets across various domains. Our empirical studies suggest a set of general receipts for effective GCL, e.g., simple topology augmentations that produce sparse graph views bring promising performance improvements; contrasting modes should be aligned with the granularities of end tasks. In addition, to foster future research and ease the implementation of GCL algorithms, we develop an easy-to-use library PyGCL, featuring modularized CL components, standardized evaluation, and experiment management. We envision this work to provide useful empirical evidence of effective GCL algorithms and offer several insights for future research.
翻訳日:2021-09-03 13:42:23 公開日:2021-09-02
# 動的時間ワープによる時系列の正確な形状と位相平均化

Accurate shape and phase averaging of time series through Dynamic Time Warping ( http://arxiv.org/abs/2109.00978v1 )

ライセンス: Link先を確認
George Sioros and Kristian Nymoen(参考訳) 本稿では,動的時間ゆがみ(dtw)に基づく新しい時系列平均化手法を提案する。 従来の手法とは対照的に,DTWの出力を時間列に簡単な変換とイノベーティブな反復的平均化処理により,シーケンスの持続的情報と特異な持続的特徴を保存する。 合成および実世界のデータセットにおけるランドマークの平均的順序と時間的位置を正確に推定し、最先端の手法より優れていることを示す。

We propose a novel time series averaging method based on Dynamic Time Warping (DTW). In contrast to previous methods, our algorithm preserves durational information and the distinctive durational features of the sequences due to a simple conversion of the output of DTW into a time sequence and an innovative iterative averaging process. We show that it accurately estimates the ground truth mean sequences and mean temporal location of landmarks in synthetic and real-world datasets and outperforms state-of-the-art methods.
翻訳日:2021-09-03 13:42:05 公開日:2021-09-02
# ディープラーニングを用いたエンドツーエンド需要応答モデル同定とベースライン推定

End-to-End Demand Response Model Identification and Baseline Estimation with Deep Learning ( http://arxiv.org/abs/2109.00741v1 )

ライセンス: Link先を確認
Yuanyuan Shi, Bolun Xu(参考訳) 本稿では,需要ベースラインとインセンティブに基づくエージェント需要応答モデルを同時に識別する,エンド・ツー・エンドのディープラーニングフレームワークを提案する。 本学習フレームワークは,1)要求応答参加者の決定過程を,インセンティブ信号を入力として,ユーザの応答を予測する,微分可能な最適化層として表現し,2)基準要求予測を,関連する特徴を取り入れ,ユーザのベースライン要求を予測する,標準ニューラルネットワークモデルとして表現する。 これら2つの中間予測は統合され、純需要予測を形成する。 次に,エージェントモデルの重み付けとベースライン需要予測の重み付けを共に更新するために,純需要予測誤差をバックプロパゲーションする勾配-重み付け手法を提案する。 提案手法の有効性を,合成需要応答トレースと大規模実世界の需要応答データセットを用いた計算実験により実証する。 その結果,ベースライン需要に関する事前知識がなくても,要求応答モデルを正確に識別できることがわかった。

This paper proposes a novel end-to-end deep learning framework that simultaneously identifies demand baselines and the incentive-based agent demand response model, from the net demand measurements and incentive signals. This learning framework is modularized as two modules: 1) the decision making process of a demand response participant is represented as a differentiable optimization layer, which takes the incentive signal as input and predicts user's response; 2) the baseline demand forecast is represented as a standard neural network model, which takes relevant features and predicts user's baseline demand. These two intermediate predictions are integrated, to form the net demand forecast. We then propose a gradient-descent approach that backpropagates the net demand forecast errors to update the weights of the agent model and the weights of baseline demand forecast, jointly. We demonstrate the effectiveness of our approach through computation experiments with synthetic demand response traces and a large-scale real world demand response dataset. Our results show that the approach accurately identifies the demand response model, even without any prior knowledge about the baseline demand.
翻訳日:2021-09-03 13:41:26 公開日:2021-09-02
# 次世代無線通信システムの波形学習

Waveform Learning for Next-Generation Wireless Communication Systems ( http://arxiv.org/abs/2109.00998v1 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 本稿では,送信受信フィルタ,星座形状,それに付随するビットラベリング,およびニューラルネットワーク(NN)ベースの検出器の結合設計のための学習に基づく手法を提案する。 隣接チャネルリーク率(aclr)とピーク平均電力比(papr)の制約を同時に満たしながら、実現可能な情報レートを最大化する。 これにより、スペクトル封じ込め、ピーク電力、通信速度の間のトレードオフを制御できる。 付加的な白色ガウスノイズ(AWGN)チャネルの評価では,情報伝達速度を著しく低下させることなく,二次振幅変調 (QAM) とルート誘導コサイン (RRC) に依存する従来のベースラインと比較して,ACLRとPAPRの顕著な減少が見られた。 第3世代パートナーシッププロジェクト(3GPP)マルチパスチャネルを考慮すると、学習波形とニューラル受信機は、直交周波数分割多重化(OFDM)ベースラインよりも競争力または高いレートを実現し、ACLRを10dB、PAPRを2dB削減する。 提案手法は送信側で余分な複雑さを伴わず,5G以上の波形設計のための魅力的なツールとなる可能性がある。

We propose a learning-based method for the joint design of a transmit and receive filter, the constellation geometry and associated bit labeling, as well as a neural network (NN)-based detector. The method maximizes an achievable information rate, while simultaneously satisfying constraints on the adjacent channel leakage ratio (ACLR) and peak-to-average power ratio (PAPR). This allows control of the tradeoff between spectral containment, peak power, and communication rate. Evaluation on an additive white Gaussian noise (AWGN) channel shows significant reduction of ACLR and PAPR compared to a conventional baseline relying on quadrature amplitude modulation (QAM) and root-raised-cosine (RRC), without significant loss of information rate. When considering a 3rd Generation Partnership Project (3GPP) multipath channel, the learned waveform and neural receiver enable competitive or higher rates than an orthogonal frequency division multiplexing (OFDM) baseline, while reducing the ACLR by 10 dB and the PAPR by 2 dB. The proposed method incurs no additional complexity on the transmitter side and might be an attractive tool for waveform design of beyond-5G systems.
翻訳日:2021-09-03 13:40:49 公開日:2021-09-02
# 連続対称性による最適化とサンプリング:例とリー理論

Optimization and Sampling Under Continuous Symmetry: Examples and Lie Theory ( http://arxiv.org/abs/2109.01080v1 )

ライセンス: Link先を確認
Jonathan Leake and Nisheeth K. Vishnoi(参考訳) ここ数年、対称性の概念は、理論計算機科学、統計学、機械学習、量子推論、プライバシといった領域で発生するいくつかの最適化やサンプリング問題を見るために強力で不可欠なレンズを提供してきた。 本稿では,非凸問題に対する最適化とサンプリングの2つの例を示し,連続対称性が効率的アルゴリズムの開発において重要な役割を担っていることを示す。 これらの例は、非凸対称多様体と凸多面体の間の深いおよび隠れた接続に依存し、非常に一般化可能である。 これらの一般化を定式化し、理解するために、連続対称性を捉え、扱うのに必要な数学的ツールキットであるリー理論を紹介します。 まず、リー群、リー代数、それに付随する随伴作用の基本を提示し、リー代数の分類定理についても言及する。 その後、コスタントの凸性定理を示し、リー群の軌道上の線形最適化問題をポリトープ上の線形最適化問題に還元する方法を示す。 最後に、リー群上の分割関数(積分)を対応する(離散)ワイル群上の和に変換し、効率的なサンプリングアルゴリズムを実現するハリシュ・チャンドラ式とハリシュ・チャンドラ-イジークソン-ズーバー式(HCIZ)を示す。

In the last few years, the notion of symmetry has provided a powerful and essential lens to view several optimization or sampling problems that arise in areas such as theoretical computer science, statistics, machine learning, quantum inference, and privacy. Here, we present two examples of nonconvex problems in optimization and sampling where continuous symmetries play -- implicitly or explicitly -- a key role in the development of efficient algorithms. These examples rely on deep and hidden connections between nonconvex symmetric manifolds and convex polytopes, and are heavily generalizable. To formulate and understand these generalizations, we then present an introduction to Lie theory -- an indispensable mathematical toolkit for capturing and working with continuous symmetries. We first present the basics of Lie groups, Lie algebras, and the adjoint actions associated with them, and we also mention the classification theorem for Lie algebras. Subsequently, we present Kostant's convexity theorem and show how it allows us to reduce linear optimization problems over orbits of Lie groups to linear optimization problems over polytopes. Finally, we present the Harish-Chandra and the Harish-Chandra--Itzykson--Zuber (HCIZ) formulas, which convert partition functions (integrals) over Lie groups into sums over the corresponding (discrete) Weyl groups, enabling efficient sampling algorithms.
翻訳日:2021-09-03 13:40:26 公開日:2021-09-02
# 2つのガウスの混合点間の全変動距離に関する下界

Lower Bounds on the Total Variation Distance Between Mixtures of Two Gaussians ( http://arxiv.org/abs/2109.01064v1 )

ライセンス: Link先を確認
Sami Davies, Arya Mazumdar, Soumyabrata Pal, Cyrus Rashtchian(参考訳) 高次元ガウス分布の混合は統計学と学習理論で広く研究されている。 分布学習では,全変動距離が自然に現れるが,混合物の厳密な下界を得るのは解析的に困難である。 混合物の総変動距離と特性関数の接続を爆発させることにより, かなり厳密な関数近似を与える。 これにより共有共分散行列を持つ2成分ガウス混合の対間の全変動距離の新たな下界を導出することができる。

Mixtures of high dimensional Gaussian distributions have been studied extensively in statistics and learning theory. While the total variation distance appears naturally in the sample complexity of distribution learning, it is analytically difficult to obtain tight lower bounds for mixtures. Exploiting a connection between total variation distance and the characteristic function of the mixture, we provide fairly tight functional approximations. This enables us to derive new lower bounds on the total variation distance between pairs of two-component Gaussian mixtures that have a shared covariance matrix.
翻訳日:2021-09-03 13:40:01 公開日:2021-09-02
# (参考訳) 自己調整型神経放射場

Self-Calibrating Neural Radiance Fields ( http://arxiv.org/abs/2108.13826v2 )

ライセンス: CC BY-SA 4.0
Yoonwoo Jeong, Seokjun Ahn, Christopher Choy, Animashree Anandkumar, Minsu Cho, Jaesik Park(参考訳) 本研究では,任意の非線形歪みを有する汎用カメラのためのカメラ自己校正アルゴリズムを提案する。 キャリブレーション対象を必要とせず,シーンの形状と正確なカメラパラメータを共同で学習する。 我々のカメラモデルは、ピンホールモデル、第4次半径歪み、および任意の非線形カメラ歪みを学習可能な汎用ノイズモデルで構成されている。 従来の自己校正アルゴリズムは、主に幾何学的制約に依存するが、光度整合性も含んでいる。 これはシーンの幾何学を学習し、Neural Radiance Fields(NeRF)を使用します。 また, 複素非線形カメラモデルに幾何学的一貫性を組み込むために, 射影線距離損失関数vizを提案する。 我々は、標準的な実画像データセットにアプローチを検証し、COLMAP初期化なしでカメラの内在性や外在性(目的)をゼロから学習できることを実証する。 また,異なる方法で正確なカメラモデルを学習することで,ベースラインよりもPSNRを向上できることを示す。 私たちのモジュールは簡単に使えるプラグインで、パフォーマンスを改善するためにnerfの変種に適用できます。 コードとデータはhttps://github.com/POSTECH-CVLab/SCNeRFで公開されている。

In this work, we propose a camera self-calibration algorithm for generic cameras with arbitrary non-linear distortions. We jointly learn the geometry of the scene and the accurate camera parameters without any calibration objects. Our camera model consists of a pinhole model, a fourth order radial distortion, and a generic noise model that can learn arbitrary non-linear camera distortions. While traditional self-calibration algorithms mostly rely on geometric constraints, we additionally incorporate photometric consistency. This requires learning the geometry of the scene, and we use Neural Radiance Fields (NeRF). We also propose a new geometric loss function, viz., projected ray distance loss, to incorporate geometric consistency for complex non-linear camera models. We validate our approach on standard real image datasets and demonstrate that our model can learn the camera intrinsics and extrinsics (pose) from scratch without COLMAP initialization. Also, we show that learning accurate camera models in a differentiable manner allows us to improve PSNR over baselines. Our module is an easy-to-use plugin that can be applied to NeRF variants to improve performance. The code and data are currently available at https://github.com/POSTECH-CVLab/SCNeRF.
翻訳日:2021-09-03 10:31:49 公開日:2021-09-02
# 強化学習における探索手法の検討

A Survey of Exploration Methods in Reinforcement Learning ( http://arxiv.org/abs/2109.00157v2 )

ライセンス: Link先を確認
Susan Amin, Maziar Gomrokchi, Harsh Satija, Herke van Hoof, Doina Precup(参考訳) 探索は強化学習アルゴリズムの重要な要素であり、エージェントは未知の、しばしば確率的な環境を予測し、制御する方法を学ぶ必要がある。 強化学習エージェントは、十分な情報がないことが効果的な学習を妨げる可能性があるため、学習プロセスのための情報を得るための探索に大きく依存する。 本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。

Exploration is an essential component of reinforcement learning algorithms, where agents need to learn how to predict and control unknown and often stochastic environments. Reinforcement learning agents depend crucially on exploration to obtain informative data for the learning process as the lack of enough information could hinder effective learning. In this article, we provide a survey of modern exploration methods in (Sequential) reinforcement learning, as well as a taxonomy of exploration methods.
翻訳日:2021-09-03 10:30:07 公開日:2021-09-02
# 知覚に最適化された高ダイナミックレンジ画像トーンマッピング

Perceptually Optimized Deep High-Dynamic-Range Image Tone Mapping ( http://arxiv.org/abs/2109.00180v2 )

ライセンス: Link先を確認
Chenyang Le and Jiebin Yan and Yuming Fang and Kede Ma(参考訳) 本稿では,計算効率が高く知覚的に最適化された高ダイナミックレンジ(hdr)画像トーンマッピング演算子について述べる。 まず、hdr画像を正規化されたラプラシアピラミッドに分解し、2つのディープニューラルネットワーク(dnn)を用いて、所望のトーンマップ画像のラプラシアピラミッドを正規化表現から推定する。 次に,最近提案する知覚指標である正規化ラプラシアンピラミッド距離(nlpd)を最小化することにより,hdr画像のデータベース上での方法全体の最適化を行う。 質的かつ定量的な実験により,既存の局所トーンマッピングアルゴリズムの中で最も高速に映像を生成できることを示した。

We describe a deep high-dynamic-range (HDR) image tone mapping operator that is computationally efficient and perceptually optimized. We first decompose an HDR image into a normalized Laplacian pyramid, and use two deep neural networks (DNNs) to estimate the Laplacian pyramid of the desired tone-mapped image from the normalized representation. We then end-to-end optimize the entire method over a database of HDR images by minimizing the normalized Laplacian pyramid distance (NLPD), a recently proposed perceptual metric. Qualitative and quantitative experiments demonstrate that our method produces images with better visual quality, and runs the fastest among existing local tone mapping algorithms.
翻訳日:2021-09-03 10:29:59 公開日:2021-09-02
# kdd 2021 workshop on data-driven humanitarian mapping: using human-machine intelligence for high-stake public policy and resilience planning (特集 ヒューマン・マシン・インテリジェンス)

Proceedings of KDD 2021 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00100v2 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Elizabeth Bondi(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-03 10:29:46 公開日:2021-09-02
# kdd 2020ワークショップ「データ駆動人道マッピング」開催報告 : ヒューマン・マシン・インテリジェンスを活用した公共政策とレジリエンス計画

Proceedings of KDD 2020 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00435v2 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Yu-Ru Lin(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-03 10:29:19 公開日:2021-09-02
# EG-Booster: MLエクスポーテーションアタックの解説ガイド付きブースター

EG-Booster: Explanation-Guided Booster of ML Evasion Attacks ( http://arxiv.org/abs/2108.13930v2 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 多数のドメインで機械学習(ML)が広く使用されていることで、セキュリティクリティカルな環境における信頼性に関する疑問が持ち上がっている。 信頼できるMLの探求の1つは、テストタイムの敵例に対するMLモデルの堅牢性評価である。 信頼に値するml目標に沿って、堅牢性評価に役立つ有用なインプットは、モデル予測の機能ベースの説明である。 本稿では,EG-Boosterと呼ばれる新しい手法を提案する。この手法は,MLモデルのロバスト性評価を改善するために,説明可能なMLのテクニックを活用して,セキュリティクリティカルな設定にデプロイする。 EG-Boosterにおける重要な洞察は、モデル予測の特徴に基づく説明を用いて、モデル回避につながる可能性のある連続的な摂動を追加し、非連続的な予測が回避に寄与しそうにないことを避けることで、敵のサンプル作成を導くことである。 EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。 画像分類ベンチマークデータセットMNISTとCIFAR10を用いてEG-Boosterを評価する。 以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。 4つのホワイトボックスと3つのブラックボックス攻撃をカバーする広範な実験を通じて、MNISTとCIFAR10でトレーニングされた2つの未防御ニューラルネットワークと、CIFAR10でトレーニングされた別の逆トレーニングされたResNetモデルに対するEG-Boosterの有効性を実証する。 さらに,安定度評価尺度を導入し,EG-Boosterの複数回にわたるモデル分類出力の類似性を観察することにより,説明に基づくアプローチの信頼性を評価する。

The widespread usage of machine learning (ML) in a myriad of domains has raised questions about its trustworthiness in security-critical environments. Part of the quest for trustworthy ML is robustness evaluation of ML models to test-time adversarial examples. Inline with the trustworthy ML goal, a useful input to potentially aid robustness evaluation is feature-based explanations of model predictions. In this paper, we present a novel approach called EG-Booster that leverages techniques from explainable ML to guide adversarial example crafting for improved robustness evaluation of ML models before deploying them in security-critical settings. The key insight in EG-Booster is the use of feature-based explanations of model predictions to guide adversarial example crafting by adding consequential perturbations likely to result in model evasion and avoiding non-consequential ones unlikely to contribute to evasion. EG-Booster is agnostic to model architecture, threat model, and supports diverse distance metrics used previously in the literature. We evaluate EG-Booster using image classification benchmark datasets, MNIST and CIFAR10. Our findings suggest that EG-Booster significantly improves evasion rate of state-of-the-art attacks while performing less number of perturbations. Through extensive experiments that covers four white-box and three black-box attacks, we demonstrate the effectiveness of EG-Booster against two undefended neural networks trained on MNIST and CIFAR10, and another adversarially-trained ResNet model trained on CIFAR10. Furthermore, we introduce a stability assessment metric and evaluate the reliability of our explanation-based approach by observing the similarity between the model's classification outputs across multiple runs of EG-Booster.
翻訳日:2021-09-03 10:28:55 公開日:2021-09-02
# Morphence: 敵の事例に対する標的防御の移動

Morphence: Moving Target Defense Against Adversarial Examples ( http://arxiv.org/abs/2108.13952v2 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 機械学習モデルの敵対的な例に対する堅牢性は、いまだ研究のオープントピックである。 攻撃はしばしば、それを騙すために意図的に作られた敵の例で固定されたターゲットモデルを何度も探すことで成功する。 本稿では,モデルを敵の例に対して移動目標にすることで,防御景観を変える手法であるMorphenceを紹介する。 モデルの決定関数を定期的に移動させることで、Morphenceは繰り返しまたは関連する攻撃が成功するのを著しく困難にする。 Morphenceはベースモデルから生成されたモデルのプールを、予測クエリに応答するときに十分なランダム性をもたらす方法で展開する。 繰り返しまたは相関攻撃が失敗することを保証するため、クエリ予算に達した後、モデルのデプロイプールが自動的に終了し、モデルプールが予め生成された新しいモデルプールにシームレスに置き換えられる。 ベンチマーク画像分類データセット(MNISTとCIFAR10)を5つの参照攻撃(2つのホワイトボックスと3つのブラックボックス)に対してMorphenceを評価する。 あらゆるケースにおいて、Morphenceは、クリーンなデータに対する正確さを維持しながら、強力なホワイトボックス攻撃に直面した場合でも、より長期的な効果的な防御、敵の訓練を一貫して上回ります。

Robustness to adversarial examples of machine learning models remains an open topic of research. Attacks often succeed by repeatedly probing a fixed target model with adversarial examples purposely crafted to fool it. In this paper, we introduce Morphence, an approach that shifts the defense landscape by making a model a moving target against adversarial examples. By regularly moving the decision function of a model, Morphence makes it significantly challenging for repeated or correlated attacks to succeed. Morphence deploys a pool of models generated from a base model in a manner that introduces sufficient randomness when it responds to prediction queries. To ensure repeated or correlated attacks fail, the deployed pool of models automatically expires after a query budget is reached and the model pool is seamlessly replaced by a new model pool generated in advance. We evaluate Morphence on two benchmark image classification datasets (MNIST and CIFAR10) against five reference attacks (2 white-box and 3 black-box). In all cases, Morphence consistently outperforms the thus-far effective defense, adversarial training, even in the face of strong white-box attacks, while preserving accuracy on clean data.
翻訳日:2021-09-03 10:28:27 公開日:2021-09-02