このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210410となっている論文です。

PDF登録状況(公開日: 20210410)

TitleAuthorsAbstract論文公表日・翻訳日
# 位相相を保護した時間反転対称性のフレギリティ

Fragility of Time-Reversal Symmetry Protected Topological Phases ( http://arxiv.org/abs/2003.08120v3 )

ライセンス: Link先を確認
Max McGinley, Nigel R. Cooper(参考訳) 熱力学の第2法則は、エントロピーが増加するだけである「時間の矢印」の存在を指摘する。 これは、自然の顕微鏡法則の時間反転対称性(TRS)にもかかわらず生じる。 量子論において、TRSは多くの興味深い現象、特にトポロジカル絶縁体と量子マグネットのハルデン相を基盤としている。 ここでは,これらのTRS保護効果が環境との結合に対して根本的に不安定であることを示す。 微視的な対称性を無視すると、量子系とその周辺との相互作用は、分離された系におけるTLSによって禁じられるプロセスを促進する。 これにより、絡み合いエントロピーの生成やマクロな非可逆性が出現するだけでなく、ある種の対称性によって保護された位相相を含むtrs保護現象の消滅に繋がる。 本結果は,量子力学におけるTRSの謎的な性質と,量子技術におけるトポロジカルシステムの利用における潜在的な課題を明らかにするものである。

The second law of thermodynamics points to the existence of an `arrow of time', along which entropy only increases. This arises despite the time-reversal symmetry (TRS) of the microscopic laws of nature. Within quantum theory, TRS underpins many interesting phenomena, most notably topological insulators and the Haldane phase of quantum magnets. Here, we demonstrate that such TRS-protected effects are fundamentally unstable against coupling to an environment. Irrespective of the microscopic symmetries, interactions between a quantum system and its surroundings facilitate processes which would be forbidden by TRS in an isolated system. This leads not only to entanglement entropy production and the emergence of macroscopic irreversibility, but also to the demise of TRS-protected phenomena, including those associated with certain symmetry-protected topological phases. Our results highlight the enigmatic nature of TRS in quantum mechanics, and elucidate potential challenges in utilising topological systems for quantum technologies.
翻訳日:2023-05-28 20:25:09 公開日:2021-04-10
# Isingモデルによる多体ベル非局所性の検出

Detecting many-body Bell non-locality by solving Ising models ( http://arxiv.org/abs/2004.07796v2 )

ライセンス: Link先を確認
Ir\'en\'ee Fr\'erot and Tommaso Roscilde(参考訳) ベル非局所性(bell non-locality)は、量子の絡み合いの究極の結果であり、基本的には、空間的に分離された自由度がその測定の行為とは独立に客観的な属性を持つ古典的なテネットを損なう。 その重要性にもかかわらず、多体システムにおけるベル非局所性は、計算コストがシステムサイズと指数関数的にスケールするなど、非常に難しい課題であると考えられている。 ここでは,逆古典的イジング問題の解に基づく効率的な変分スキームを提案し,多項式時間内に任意の量子データの集合が局所理論と互換性があるかどうかを探索し,そうでなければ,量子データに違反する多体ベルの不等式を与える。 我々は、新しい多体ベルの不等式を明らかにするために、パラダイム量子状態(ハイゼンベルク反強磁性体の低エネルギー状態)の適切な測定に違反し、多体領域におけるベル試験の体系化への道を開いた。

Bell non-locality represents the ultimate consequence of quantum entanglement, fundamentally undermining the classical tenet that spatially-separated degrees of freedom possess objective attributes independently of the act of their measurement. Despite its importance, probing Bell non-locality in many-body systems is considered to be a formidable challenge, with a computational cost scaling exponentially with system size. Here we propose and validate an efficient variational scheme, based on the solution of inverse classical Ising problems, which in polynomial time can probe whether an arbitrary set of quantum data is compatible with a local theory; and, if not, it delivers a many-body Bell inequality violated by the quantum data. We use our approach to unveil new many-body Bell inequalities, violated by suitable measurements on paradigmatic quantum states (the low-energy states of Heisenberg antiferromagnets), paving the way to systematic Bell tests in the many-body realm.
翻訳日:2023-05-23 06:40:27 公開日:2021-04-10
# 古典光によるレゲット・ガーグの不等式違反

Violating the Leggett-Garg inequalities with classical light ( http://arxiv.org/abs/2009.02219v2 )

ライセンス: Link先を確認
Hadrien Chevalier, A. J. Paige, Hyukjoon Kwon and M.S. Kim(参考訳) 古典的マクロスコピックと量子微視的な状態の区別をよりよく定義するために、レゲット=ガルグの不等式は、古典力学の記述に適したクラスであると考えられているマクロ現実論の試験として確立された。 しかし、その違反と非古典性との関係は明らかではない。 量子光学的な意味でコヒーレント状態の任意の凸和である光の古典状態は、レゲット・ガーグの不等式を満たすことができない。 単純なマッハ・ツェンダーのセットアップを導入し、負の測定値を用いて単一光子に違反する方法を示した後、古典的な光状態、特に平均光子数に注目する。 我々は,変数の適切な割り当てで負の測定を行う方法を示し,不等式がコヒーレント状態と違反することを示す。 最後に、初期位相参照を放棄し、特に光の熱状態において、その違反が依然として可能であることを実証し、中間的強調の効果について検討する。

In an endeavour to better define the distinction between classical macroscopic and quantum microscopic regimes, the Leggett-Garg inequalities were established as a test of macroscopic-realistic theories, which are commonly thought to be a suitable class of descriptions for classical dynamics. The relationship between their violation and non-classicality is however not obvious. We show that classical states of light, which in the quantum optical sense are any convex sums of coherent states, may not satisfy the Leggett-Garg inequalities. After introducing a simple Mach-Zehnder setup and showing how to obtain a violation with a single photon using negative measurements, we focus on classical states of light, in particular those of low average photon number. We demonstrate how one can still perform negative measurements with an appropriate assignment of variables, and show that the inequalities are violable with coherent states. Finally, we abandon initial phase reference and demonstrate that the violation is still possible, in particular with thermal states of light, and we investigate the effect of intermediate dephasing.
翻訳日:2023-05-03 20:43:50 公開日:2021-04-10
# ボース・アインシュタイン凝縮の関数論

Functional Theory for Bose-Einstein Condensates ( http://arxiv.org/abs/2010.06634v2 )

ライセンス: Link先を確認
Julia Liebert and Christian Schilling(参考訳) 1粒子還元密度行列汎関数理論は、ボース=アインシュタイン凝縮を記述するための理想的なアプローチとなる。 つまり、マクロ的に複雑な波動関数を単純な1粒子還元密度行列で置き換えることで、凝縮度に直接アクセスし、正確な方法で量子相関を回復する。 最終的には、任意の対の相互作用を持つ一般同質のボース=アインシュタイン凝縮に対して、それぞれの普遍汎函数 $\mathcal{F}$ を導出し、この新しい理論を創始し確立する。 最も重要なのは、導出の成功はボゴリューボフ理論の素数保存的修正と関数論の共通相ジレンマの解を必要とすることである。 次に、この新しいアプローチを、均質なボース気体やボース・ハバード模型のようないくつかのボソニック系で説明する。 驚くべきことに、$\mathcal{f}$ の一般形式は、量子枯渇の代替的かつより基本的な説明を提供する普遍ボース=アインシュタイン凝縮力の存在を明らかにした。

One-particle reduced density matrix functional theory would potentially be the ideal approach for describing Bose-Einstein condensates. It namely replaces the macroscopically complex wavefunction by the simple one-particle reduced density matrix, therefore provides direct access to the degree of condensation and still recovers quantum correlations in an exact manner. We eventually initiate and establish this novel theory by deriving the respective universal functional $\mathcal{F}$ for general homogeneous Bose-Einstein condensates with arbitrary pair interaction. Most importantly, the successful derivation necessitates a particle-number conserving modification of Bogoliubov theory and a solution of the common phase dilemma of functional theories. We then illustrate this novel approach in several bosonic systems such as homogeneous Bose gases and the Bose-Hubbard model. Remarkably, the general form of $\mathcal{F}$ reveals the existence of a universal Bose-Einstein condensation force which provides an alternative and more fundamental explanation for quantum depletion.
翻訳日:2023-04-29 04:45:09 公開日:2021-04-10
# 分光分解NOON状態干渉

Spectrally resolved NOON state interference ( http://arxiv.org/abs/2104.01062v3 )

ライセンス: Link先を確認
Rui-Bo Jin, Ryosuke Shimizu, Takafumi Ono, Mikio Fujiwara, Guang-Wei Deng, Qiang Zhou, Masahide Sasaki, Masahiro Takeoka(参考訳) NOON状態干渉(NOON-SI)は位相検出精度を向上させる強力なツールであり、量子測定において重要な役割を果たす。 以前のNOON-SI実験のほとんどにおいて、測定は、関連する光子のスペクトル情報が統合され、測定中に失われる時間領域で行われた。 本研究では,時間領域と周波数領域の干渉パターンの異なる位置においてjsis(joint spectral intensities)を実験的に測定した。 JSIsは相依存性があり,0ドル (\pi$) の位相シフトで奇数(偶数)パターンを示し,時間領域測定では干渉は見られなかったが,周波数領域では干渉パターンが明らかであった。 我々の知る限りでは、後者はスペクトル分解された正午状態干渉の最初の観測であり、時間領域の測定から抽出できない代替情報を提供する。 その応用可能性を探るため,我々は干渉センシングをセットアップで検討した。 Fisher情報に基づく解析から、スペクトル分解されたNOON-SIは、非可視分解されたNOON-SIよりも非非遅延位置において優れた性能を示す。 スペクトル分解されたNOON-SIスキームは、量子位相検出、量子分光、リモート同期といった量子気象学の応用に有用である。

NOON state interference (NOON-SI) is a powerful tool to improve the phase sensing precision, and plays an important role in quantum measurement. In most of the previous NOON-SI experiments, the measurements were performed in time domain where the spectral information of the involved photons was integrated and lost during the measurement. In this work, we experimentally measured the joint spectral intensities (JSIs) at different positions of the interference patterns in both time and frequency domains. It was observed that the JSIs were phase-dependent and show odd (even)-number patterns at $0$ ($\pi$) phase shift; while no interference appeared in time domain measurement, the interference pattern clearly appeared in frequency domain. To our best knowledge, the latter is the first observation of the spectrally resolved NOON state interference, which provides alternative information that cannot be extracted from the time-domain measurement. To explore its potential applications, we considered the interferometric sensing with our setup. From the Fisher information-based analysis, we show that the spectrally resolved NOON-SI has a better performance at non-zero-delay position than its non-spectrally resolved counterpart. The spectrally resolved NOON-SI scheme may be useful for quantum metrology applications such as quantum phase sensing, quantum spectroscopy, and remote synchronization.
翻訳日:2023-04-05 19:50:15 公開日:2021-04-10
# 神経科学における説明モデル : その1 機械的抽象化を真剣に考える

Explanatory models in neuroscience: Part 1 -- taking mechanistic abstraction seriously ( http://arxiv.org/abs/2104.01490v2 )

ライセンス: Link先を確認
Rosa Cao and Daniel Yamins(参考訳) 視覚の知覚タスクで動物のパフォーマンスを模倣するニューラルネットワークモデルが最近成功しているにもかかわらず、批評家はこれらのモデルが脳の機能を照らさないことを懸念している。 神経科学におけるシステム説明の中心的なアプローチは、システムの部分、組織、活動、そしてそれらがどのようにして関心のある行動を引き起こすかを理解するためにシステムを理解するための機械的なモデリングである。 しかしながら、モデルがメカニズムを記述することの意味や、ニューラルネットワークモデルが説明可能なかどうかについては、いまだに議論の余地がある。 我々は、特定の種類のニューラルネットワークモデルは、機械的マッピングの正しい概念が展開されたときに実際に機械的モデルの良い例であると主張する。 モデル・ツー・メカニズムマッピング(3M)に関する既存の研究に基づいて、3M++と呼ばれる概念を記述した基準を記述する。 これらの基準は、まず「実行可能」に十分な抽象的かつ詳細な説明のレベルを特定し、続いて、個人間で脳から脳へのマッピングに使用されるものと同じ原則を用いてモデルから脳へのマッピングを構築する必要があります。 おそらく驚くことに、必要となる抽象化は実験神経科学ですでに使われているものであって、脳間マッピングの原則が動物間のデータの収集と分析に既に採用されている人々の精神によく似ているように、より親しみやすい計算モデルの構築に配備されているものだ。 本稿では,機能的進化的説明の文脈において,最適化と知性の関係について考察する。 計算モデルの機械論的解釈と、最適化プロセスによって照らされた形式と機能の間の依存関係は、なぜ脳システムを構築しているのかを理解するのに役立ちます。

Despite the recent success of neural network models in mimicking animal performance on visual perceptual tasks, critics worry that these models fail to illuminate brain function. We take it that a central approach to explanation in systems neuroscience is that of mechanistic modeling, where understanding the system is taken to require fleshing out the parts, organization, and activities of a system, and how those give rise to behaviors of interest. However, it remains somewhat controversial what it means for a model to describe a mechanism, and whether neural network models qualify as explanatory. We argue that certain kinds of neural network models are actually good examples of mechanistic models, when the right notion of mechanistic mapping is deployed. Building on existing work on model-to-mechanism mapping (3M), we describe criteria delineating such a notion, which we call 3M++. These criteria require us, first, to identify a level of description that is both abstract but detailed enough to be "runnable", and then, to construct model-to-brain mappings using the same principles as those employed for brain-to-brain mapping across individuals. Perhaps surprisingly, the abstractions required are those already in use in experimental neuroscience, and are of the kind deployed in the construction of more familiar computational models, just as the principles of inter-brain mappings are very much in the spirit of those already employed in the collection and analysis of data across animals. In a companion paper, we address the relationship between optimization and intelligibility, in the context of functional evolutionary explanations. Taken together, mechanistic interpretations of computational models and the dependencies between form and function illuminated by optimization processes can help us to understand why brain systems are built they way they are.
翻訳日:2023-04-05 10:57:37 公開日:2021-04-10
# 双対場を用いた差動位相シフト量子秘密共有

Differential phase shift quantum secret sharing using twin field ( http://arxiv.org/abs/2104.03467v2 )

ライセンス: Link先を確認
Jie Gu, Xiao-Yu Cao, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子秘密共有(QSS)は、将来の量子インターネットの基盤の1つであるマルチパーティ量子通信に不可欠である。 しかし、線形レート距離制限は、セキュアな鍵レートとQSSの伝送距離を厳しく制限する。 本稿では,高効率マルチパーティ通信タスクの解法として,差動位相シフト方式とツインフィールドのアイデアに基づく実運用QSSプロトコルを提案する。 従来提案されていた差動位相シフトQSSプロトコルとは対照的に,このプロトコルは線形速度依存性を破り,300km長繊維の秘密鍵レートを3桁改善することができる。 さらに、新しいプロトコルは、以前の差動位相シフトQSSに抵抗できないトロイの木馬攻撃に対して安全である。

Quantum secret sharing (QSS) is essential for multiparty quantum communication, which is one of cornerstones in the future quantum internet. However, a linear rate-distance limitation severely constrains the secure key rate and transmission distance of QSS. Here, we present a practical QSS protocol among three participants based on the differential phase shift scheme and twin field ideas for the solution of high-efficiency multiparty communication task. In contrast to formerly proposed differential phase shift QSS protocol, our protocol can break the linear rate-distance bound, theoretically improving the secret key rate by three orders of magnitude in a 300-km-long fiber. Furthermore, the new protocol is secure against Trojan horse attacks that cannot be resisted by previous differential phase shift QSS.
翻訳日:2023-04-04 12:19:43 公開日:2021-04-10
# 量子雲における量子囚人のジレンマと高周波トレーディング

Quantum Prisoner's Dilemma and High Frequency Trading on the Quantum Cloud ( http://arxiv.org/abs/2104.04663v1 )

ライセンス: Link先を確認
Faisal Shah Khan and Ning Bao(参考訳) 高周波取引(HFT)は、市販の第1世代準量子通信および計算技術の優れたユーザケースと潜在的なキラー応用を提供する。 この目的のために、我々は有名な2人のプレイヤーゲーム、Prisoner's Dilemmaとして、単純だが完全なHFTのゲーム理論モデルを提供している。 我々は,Eisert,Wilkens,Lewensteinの量子通信プロトコルを用いた(準)量子クラウド上のゲームとしてのHFTの実装について検討し,この実装がトランザクション速度を向上し,HFTのプレイヤーの多くを向上させる方法について検討する。 協調的なゲーム理論的推論を用いることで、インターネットが適切に量子化している近い将来、プレイヤーは強化学習の例としてhftでパレート最適化を実現することができることにも注目する。

High-frequency trading (HFT) offers an excellent user case and a potential killer application of the commercially available, first generation quasi-quantum communication and computation technologies. To this end, we offer here a simple but complete game-theoretic model of HFT as the famous two player game, Prisoner's Dilemma. We explore the implementation of HFT as a game on the (quasi) quantum cloud using the Eisert, Wilkens, and Lewenstein quantum mediated communication protocol, and how this implementation can increase transaction speed and improve the lot of the players in HFT. Using cooperative game-theoretic reasoning, we also note that in the near future when the internet is properly quantum, players will be able to achieve Pareto-optimality in HFT as an instance of reinforced learning.
翻訳日:2023-04-04 05:40:41 公開日:2021-04-10
# jet quenchingパラメータ $\hat{q}$ を計算するための量子戦略

A quantum strategy to compute the jet quenching parameter $\hat{q}$ ( http://arxiv.org/abs/2104.04661v1 )

ライセンス: Link先を確認
Jo\~ao Barata, Carlos A. Salgado(参考訳) ジェット・クエンチング(jet quenching)は、パルトンカスケードが媒質内で起こるときのqcdジェットの性質の修正であり、色コヒーレンス効果が必須の役割を果たす本質的に量子過程である。 ここ数年の大きな進歩にもかかわらず、完全な量子媒体によるカスケードのシミュレーションは、古典的モンテカルロパルトンシャワーでは利用できないままである。 この状況では、代替の定式化を試す価値があり、量子コンピューティングの急速な発展は、非常に有望な方向を提供する。 本研究の目的は、ジェットクレンチングの最も単純な構成要素である単一粒子運動量拡大を量子シミュレーションする戦略を導入することである。 モメンタム拡大は、QCD背景場としてモデル化された基礎媒体との相互作用によるクォークまたはグルーオン横運動量の変化である。 ここで考える$\alpha_s$の最下位では、運動量拡大はパルトン分割を伴わず、粒子数は保存され、量子アルゴリズムの実装は大幅に単純化される。 しかし、この量は、RHIC、LHCまたは将来のEICの現象学に非常に関係している。

Jet quenching, the modification of the properties of a QCD jet when the parton cascade takes place inside a medium, is an intrinsically quantum process, where color coherence effects play an essential role. Despite a very significant progress in the last years, the simulation of a full quantum medium induced cascade remains inaccessible to classical Monte Carlo parton showers. In this situation, alternative formulations are worth being tried and the fast developments in quantum computing provide a very promising direction. The goal of this paper is to introduce a strategy to quantum simulate single particle momentum broadening, the simplest building block of jet quenching. Momentum broadening is the modification of the quark or gluon transverse momentum due interactions with the underlying medium, modeled as a QCD background field. At the lowest order in $\alpha_s$ that we consider here, momentum broadening does not involve parton splittings and particle number is conserved, greatly simplifying the quantum algorithmic implementation. This quantity is, however, very relevant for the phenomenology of RHIC, LHC or the future EIC.
翻訳日:2023-04-04 05:40:24 公開日:2021-04-10
# フォーマルセマンティックスによるビデオゲームの健康評価と供給

Assessing and Supplying the Health of Videos Games via Formal Semantics ( http://arxiv.org/abs/2104.04867v1 )

ライセンス: Link先を確認
Mohammad Reza Besharati, Mohammad Izadi(参考訳) ビデオゲームは、他のメディアと同様、明示的メッセージと暗黙的メッセージの両方を持ち、ユーザーの身体的および精神的健康に影響を与える可能性がある。 これらの影響は正か負かである。 影響、影響、そしてゲームに存在する意味は、非常に広く、多層的で複雑である。 これらのビデオゲームの健全性を調査し、保証するには、(異なる視点から)ビデオゲームの意味を推定し、評価し、決定できることが必要である。 複雑で多層的な現象を研究する一般的なアプローチは形式的意味論である。 フォーマルで厳格な方法は、ビデオゲームの健康の評価と供給に役立つ。 本稿では,形式的かつ厳密な方法に基づく評価のための組織化を提案し,様々な受益者について考察する。 さらに,意味へのシステムコンプライアンス,モデルチェック手法,論理ソリューションに基づく技術ソリューションを提案する。 アジリティ、柔軟性、スケーラビリティ、レビューの再現性、透明性、適応性、レビューの利用可能な詳細、さまざまなレイヤの評価、ゲームシステムの暗黙的かつ明示的な意味合い、主観性や個人のスキルの回避、ルールや規則の遵守、スペシャリストの透明性と雇用のために受益者を計画する能力などだ。

Video games, just like any other media have both explicit and implicit messages, and they can have impact on physical and mental health of the users. These impacts can be positive or negative. The impacts, the implications and the meanings which exist in a game can be very widespread, multilayered and complicated. To investigate and guarantee the health of these video games, it is necessary to be able to estimate, assess and determine the implications of video games (from different perspectives). A common approach for studying complicated and multilayered phenomenon is formal semantics. Formal and rigorous methods can help in assessment and supplying the health of video games. In this article, an organizing for this assessment is proposed which is based on formal and rigorous methods and it considers various beneficiaries concerns. Moreover, a technological solution is presented which is based on system compliance to meanings, model checking methods and logical solution. The proposed organizing has several features such as: agility, flexibility, scalability, repeatability of reviews, transparency, adaptation, available details for reviews, assessing various layers and implicit and explicit implications of system of the game, avoiding subjectivity or individual skills, relying on rules and regulations, ability to plan for beneficiaries because of its transparency and employment for specialists.
翻訳日:2023-04-04 05:37:26 公開日:2021-04-10
# 同期オンライン授業におけるアクティブラーニングへの学生障壁 : キャラクタリゼーション,リフレクション,提案

Student Barriers to Active Learning in Synchronous Online Classes: Characterization, Reflections, and Suggestions ( http://arxiv.org/abs/2104.04862v1 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Yankun Zhao, Ehsan Ul Haq, Pan Hui, Xiaojuan Ma(参考訳) 対面授業がオンライン環境に移行するにつれ、学生の学習に対する新たな障壁を探ることの重要性が高まっている。 本研究は,同期オンライン環境におけるアクティブラーニングへの学生障壁を特徴付けることに焦点を当てている。 その目的は、初心者の教育者がそれらの障壁をよりよく理解し、アクティブなオンライン授業のための学生中心のコースプランを準備できるようにすることだ。 この目的に向けて,質的研究アプローチを採用し,ソーシャルメディアコンテンツやインタビュー,学生や専門教育者による調査など,さまざまな情報源からの情報を研究している。 テーマ分析を通じて,人間的,技術的,環境的障壁のテーマの中で,学生のオンラインアクティブラーニング障壁の微妙なリストを作成する。 各障壁は、アクティブなオンライン授業に対する頻度、重要性、排他性の3つの側面から探索される。 最後に,初等教育者12名を対象に総括研究を行い,アクティブオンライン授業における授業計画におけるバリアリスト活用のメリットについて解説する。

As more and more face-to-face classes move to online environments, it becomes increasingly important to explore any emerging barriers to students' learning. This work focuses on characterizing student barriers to active learning in synchronous online environments. The aim is to help novice educators develop a better understanding of those barriers and prepare more student-centered course plans for their active online classes. Towards this end, we adopt a qualitative research approach and study information from different sources: social media content, interviews, and surveys from students and expert educators. Through a thematic analysis, we craft a nuanced list of students' online active learning barriers within the themes of human-side, technological, and environmental barriers. Each barrier is explored from the three aspects of frequency, importance, and exclusiveness to active online classes. Finally, we conduct a summative study with 12 novice educators and explain the benefits of using our barrier list for course planning in active online classes.
翻訳日:2023-04-04 05:37:02 公開日:2021-04-10
# ダイヤモンド中の単一TR12中心のODMR

ODMR on Single TR12 Centers in Diamond ( http://arxiv.org/abs/2104.04746v1 )

ライセンス: Link先を確認
Jonas Foglszinger, Andrej Denisenko, Thomas Kornher, Matthias Schreck, Wolfgang Knolle, Boris Yavkin, Roman Kolesov and J\"org Wrachtrup(参考訳) 絶縁体の点欠陥は量子技術の有望な候補と考えられている。 これに合わせて、1956年から文献で知られている個々のTR12中心(ZPL at 471nm)の室温での広帯域光検出磁気共鳴(ODMR)研究を紹介する。 この研究で、光飽和下で強いODMR信号を示すTR12センターを発見した。 これらの欠陥は, 標準照射および熱処理により高純度エピタキシャルダイヤモンド層に生じた。 ODMRスペクトルの解析と反バンチング測定とコヒーレント集団トラップから, TR12中心のエネルギー準位構造を, 準安定三重項で補完する基底状態と励起状態一重項からなる構造として提案した。 中心の蛍光依存性を外部磁場とレーザー励起の偏光にマッピングすることで、TR12中心の12の非等価配向を特定できる。 これは、ダイヤモンド格子の双極子転移と三重項軸の正確な配向と、提案されたレベル構造に基づくモデリング結果との完全な一致を含む。 さらに, レーザー励起の様々な偏光に対して, 実時間蛍光信号で直接観測可能な2レベル間の蛍光スイッチングにより, 静的ジャーン・テラー効果が検出された。 これらの結果に基づいて、量子センシングおよび量子情報処理のためのダイヤモンドのTR12センターの展望について論じる。

Point defects in insulators are considered promising candidates for quantum technologies. In keeping with this, we present an extensive optically-detected magnetic resonance (ODMR) study at room-temperature on individual TR12 centers (ZPL at 471nm), which are known in the literature since 1956. In this work we found TR12 centers to show a strong ODMR signal under optical saturation. These observed defects were created in high-purity epitaxial layers of diamond by standard irradiation and annealing processes. From the analysis of the ODMR spectra along with antibunching measurements and coherent population trapping, we proposed the energy level structure of TR12 center, consisting of ground state and excited state singlets complemented by a metastable triplet in between. Mapping the fluorescence dependence of the center on an external magnetic field and on the polarization of laser excitation, allows us to identify twelve inequivalent orientations for TR12 centers. This includes the exact orientations of the dipole transition and the triplet axes in the diamond lattice in full agreement with the results of modeling based on the proposed level structure. Furthermore, a static Jahn-Teller effect was detected through fluorescence switching between two levels at low optical excitation power, directly observable in the real-time fluorescence signal for various polarization of laser excitation. Based on these results we discuss the prospects of the TR12 center in diamond for quantum sensing and quantum information processing.
翻訳日:2023-04-04 05:36:27 公開日:2021-04-10
# 古典量子ネットワーク符号化:テンソルに関する物語

Classical-quantum network coding: a story about tensor ( http://arxiv.org/abs/2104.04745v1 )

ライセンス: Link先を確認
Cl\'ement Meignant, Fr\'ed\'eric Grosshans, Damian Markham(参考訳) 本稿では,非ゼロ確率,確率的局所演算,古典的通信(slocc)演算を成功させる量子演算を用いて,量子ネットワーク上で純粋状態の分布を行う条件について検討する。 2010年の先駆的な研究で、小林らは古典的ネットワークコーディングプロトコルを量子ネットワークコーディングプロトコルに変換する方法を示した。 しかし、量子ネットワーク符号化プロトコルの存在が古典的なものの存在を暗示するかどうかを公表した。 この問題により、古典的および量子的ネットワークにおいて、ゼロの確率で達成可能な分布タスクの集合を特徴づける。 複雑な係数あるいは実正の係数を持つテンソルの因子化に対する分布タスクの解法を減らし,両タイプの分布プロトコルを包含する形式性を開発する。 この形式を用いて,いくつかの初等的および基礎的関係を示す分布プロトコルと,収束と分岐の具体例との等価性と相違について検討する。 いくつかのタスクは量子設定では実現可能ですが、古典的なタスクでは実現できません。 このフォーマリズムは、マルチパーティイト分散タスクを実行する量子ネットワーク能力の程度を研究する上で有用なツールであると考えています。

We study here the conditions to perform the distribution of a pure state on a quantum network using quantum operations which can succeed with a non-zero probability, the Stochastic Local Operation and Classical Communication (SLOCC) operations. In their pioneering 2010 work, Kobayashi et al. showed how to convert any classical network coding protocol into a quantum network coding protocol. However, they left open whether the existence of a quantum network coding protocol implied the existence of a classical one. Motivated by this question, we characterize the set of distribution tasks achievable with non zero probability for both classical and quantum networks. We develop a formalism which encompasses both types of distribution protocols by reducing the solving of a distribution task to the factorization of a tensor with complex coefficients or real positive ones. Using this formalism, we examine the equivalences and differences between both types of distribution protocols exhibiting several elementary and fundamental relations between them as well as concrete examples of both convergence and divergence. We answer by the negative to the issue previously left open: some tasks are achievable in the quantum setting, but not in the classical one. We believe this formalism to be a useful tool for studying the extent of quantum network ability to perform multipartite distribution tasks.
翻訳日:2023-04-04 05:36:02 公開日:2021-04-10
# 古典および量子対称ゲームにおけるカンティアン平衡

Kantian equilibria in classical and quantum symmetric games ( http://arxiv.org/abs/2104.04698v1 )

ライセンス: Link先を確認
Piotr Fr\k{a}ckiewicz(参考訳) この論文の目的は、2 \times 2$ 対称ゲームとその量子対数における単純なカンチアン平衡の概念を調べることである。 我々は,ゲーム全般におけるカンチアン均衡戦略の探索に焦点をあてる。 結果として、ビマトリクスゲームにおける任意の支払いに対して妥当な戦略を決定する公式を導出する。 これにより、ゲームプレイの古典的および量子的方法のペイオフ結果を比較することができます。 量子戦略を用いて遊べる場合、2 時間 2$ 対称ゲームのうち、非常に大きな部分はより有益なカンチアン平衡を持つことを示した。

The aim of the paper is to examine the notion of simple Kantian equilibrium in $2 \times 2$ symmetric games and their quantum counterparts. We focus on finding the Kantian equilibrium strategies in the general form of the games. As a result, we derive a formula that determines the reasonable strategies for any payoffs in the bimatrix game. This allowed us to compare the payoff results for classical and quantum way of playing the game. We showed that a very large part of $2\times 2$ symmetric games have more beneficial Kantian equilibria when they are played with the use of quantum strategies.
翻訳日:2023-04-04 05:35:13 公開日:2021-04-10
# COVID-19におけるインターコネクトネットワークのエピデミックモデルによるエピデミックダイナミクスの探索

An Extended Epidemic Model on Interconnected Networks for COVID-19 to Explore the Epidemic Dynamics ( http://arxiv.org/abs/2104.04695v1 )

ライセンス: Link先を確認
Ou Deng, Kiichi Tago, Qun Jin(参考訳) 新型コロナウイルス(covid-19)は世界的な公衆衛生危機を引き起こした。 パンデミックコントロールは、感染した個人の傾向や影響を捉える疫病モデルを必要とする。 多くのエキサイティングなモデルはこれを実装できるが、実践的な解釈性に欠ける。 本研究は疫学とネットワーク理論を結合し,この問題に対する因果解釈の枠組みを提案する。 このフレームワークは、相互接続ネットワークにおける拡張流行モデルと、人間の大きな移動性を持つ動的構造から構成される。 ネットワーク因果解析は確率的処理機構に焦点をあてる。 これは、観察可能な効果(毎日の新規症例数)と観察できない原因(感染者数)の間の介入推定手段としての社会的感染性を強調している。 東京都におけるデータセット実験により, 症状性および無症候性感染症の伝播特性が示唆された。 これらの新たな時空間的所見は、政策決定に有益である。

COVID-19 has resulted in a public health global crisis. The pandemic control necessitates epidemic models that capture the trends and impacts on infectious individuals. Many exciting models can implement this but they lack practical interpretability. This study combines the epidemiological and network theories and proposes a framework with causal interpretability in response to this issue. This framework consists of an extended epidemic model in interconnected networks and a dynamic structure that has major human mobility. The networked causal analysis focuses on the stochastic processing mechanism. It highlights the social infectivity as the intervention estimator between the observable effect (the number of daily new cases) and unobservable causes (the number of infectious persons). According to an experiment on the dataset for Tokyo metropolitan areas, the computational results indicate the propagation features of the symptomatic and asymptomatic infectious persons. These new spatiotemporal findings can be beneficial for policy decision making.
翻訳日:2023-04-04 05:35:02 公開日:2021-04-10
# 大規模パイプラインバックプロパゲーション - バッチなしで大規模モデルをトレーニングする

Pipelined Backpropagation at Scale: Training Large Models without Batches ( http://arxiv.org/abs/2003.11666v3 )

ライセンス: Link先を確認
Atli Kosson, Vitaliy Chiley, Abhinav Venigalla, Joel Hestness, Urs K\"oster(参考訳) 新しいハードウェアはディープニューラルネットワークトレーニングのスピードと効率を大幅に向上させることができる。 将来のハードウェアアーキテクチャの開発を導くために、代替訓練アルゴリズムのハードウェアと機械学習特性を探求することが重要である。 本研究では,ハードウェアのアドバンテージを生かした非同期パイプライン並列トレーニングアルゴリズムである,小さなバッチ細粒度パイプラインバックプロパゲーションの利用を評価する。 我々は,パイプライン化バックプロパゲーションの非同期性に起因する欠点を効果的に軽減するスパイク補償と線形重み予測という2つの手法を導入する。 適切な正規化と小さなバッチサイズがトレーニングにも有効であることを示す。 提案手法では,CIFAR-10 と ImageNet で訓練した複数のネットワークに対して,バッチサイズを用いた細粒化パイプラインバックプロパゲーションにより,SGD の精度を一致させることができる。 単純なスケーリングルールにより、既存のハイパーパラメータを、追加のチューニングなしで従来のトレーニングに使用できる。

New hardware can substantially increase the speed and efficiency of deep neural network training. To guide the development of future hardware architectures, it is pertinent to explore the hardware and machine learning properties of alternative training algorithms. In this work we evaluate the use of small batch, fine-grained Pipelined Backpropagation, an asynchronous pipeline parallel training algorithm that has significant hardware advantages. We introduce two methods, Spike Compensation and Linear Weight Prediction, that effectively mitigate the downsides caused by the asynchronicity of Pipelined Backpropagation and outperform existing techniques in our setting. We show that appropriate normalization and small batch sizes can also aid training. With our methods, fine-grained Pipelined Backpropagation using a batch size of one can match the accuracy of SGD for multiple networks trained on CIFAR-10 and ImageNet. Simple scaling rules allow the use of existing hyperparameters for traditional training without additional tuning.
翻訳日:2022-12-20 03:16:09 公開日:2021-04-10
# 解釈可能な計画戦略の自動発見

Automatic Discovery of Interpretable Planning Strategies ( http://arxiv.org/abs/2005.11730v3 )

ライセンス: Link先を確認
Julian Skirzy\'nski, Frederic Becker and Falk Lieder(参考訳) 決定を下すとき、人々はしばしば重要な情報を見落とし、無関係な情報によって動揺する。 これらのバイアスを軽減する一般的なアプローチは、意思決定者、特に医師のような専門家に意思決定木やフローチャートなどの意思決定支援を提供することである。 効果的な意思決定支援の設計は難しい問題です。 近年, 優れた意思決定のための巧妙なヒューリスティクスを発見するための強化学習手法が, この設計プロセスにおいて人的専門家を支援するために部分的に活用できることが提案されている。 上記の方法を活用する上での最大の障害の1つは、学習したポリシーが人々に不透明であることです。 この問題を解決するために,AI-Interpretは,慣用的ポリシーをシンプルかつ解釈可能な記述に変換する一般的な方法である。 提案アルゴリズムは,近年の模倣学習とプログラム帰納法の進歩と,単純かつ高性能な決定規則によって正確に記述可能なデモの大規模なサブセットを特定する新たなクラスタリング手法を組み合わせる。 新しいアルゴリズムを評価し,メタレベル強化学習によって発見された情報獲得ポリシーの翻訳を行う。 大規模行動実験の結果,AI-Interpret がフローチャートとして生み出す決定ルールは,逐次的決定問題の3つの異なるクラスにまたがる人々の計画戦略と決定を著しく改善した。 さらに、別の実験では、このアプローチがパフォーマンスフィードバックを与えることで、トレーニング担当者よりもはるかに効果的であることが判明した。 最後に、一連のアブレーション研究により、AI-Interpretが解釈可能な決定規則の発見に不可欠であることが確認された。 本研究は,人的意思決定を改善するために,自動戦略発見を活用するための重要なステップである。

When making decisions, people often overlook critical information or are overly swayed by irrelevant information. A common approach to mitigate these biases is to provide decision-makers, especially professionals such as medical doctors, with decision aids, such as decision trees and flowcharts. Designing effective decision aids is a difficult problem. We propose that recently developed reinforcement learning methods for discovering clever heuristics for good decision-making can be partially leveraged to assist human experts in this design process. One of the biggest remaining obstacles to leveraging the aforementioned methods is that the policies they learn are opaque to people. To solve this problem, we introduce AI-Interpret: a general method for transforming idiosyncratic policies into simple and interpretable descriptions. Our algorithm combines recent advances in imitation learning and program induction with a new clustering method for identifying a large subset of demonstrations that can be accurately described by a simple, high-performing decision rule. We evaluate our new algorithm and employ it to translate information-acquisition policies discovered through metalevel reinforcement learning. The results of large behavioral experiments showed that prividing the decision rules generated by AI-Interpret as flowcharts significantly improved people's planning strategies and decisions across three diferent classes of sequential decision problems. Moreover, another experiment revealed that this approach is significantly more effective than training people by giving them performance feedback. Finally, a series of ablation studies confirmed that AI-Interpret is critical to the discovery of interpretable decision rules. We conclude that the methods and findings presented herein are an important step towards leveraging automatic strategy discovery to improve human decision-making.
翻訳日:2022-11-29 13:16:05 公開日:2021-04-10
# オンライン知識蒸留のためのマルチビューコントラスト学習

Multi-view Contrastive Learning for Online Knowledge Distillation ( http://arxiv.org/abs/2006.04093v3 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Yongjun Xu(参考訳) 従来のオンライン知識蒸留(OKD)はしばしば相互に確率分布を交換するが、有用な表現的知識は無視する。 そこで我々は,複数のピアネットワークで符号化された特徴埋め込みの相関関係を暗黙的に捉えるために,OKDのためのMulti-view Contrastive Learning (MCL)を提案する。 MCLの利点は、従来のOKD法よりも分類のためのより差別的な表現空間を学習できることである。 画像分類実験の結果, MCL-OKDは, 追加の推論コストを犠牲にすることなく, 従来のOKD法よりも高い性能を示した。 コードはhttps://github.com/winycg/MCL-OKDで入手できる。

Previous Online Knowledge Distillation (OKD) often carries out mutually exchanging probability distributions, but neglects the useful representational knowledge. We therefore propose Multi-view Contrastive Learning (MCL) for OKD to implicitly capture correlations of feature embeddings encoded by multiple peer networks, which provide various views for understanding the input data instances. Benefiting from MCL, we can learn a more discriminative representation space for classification than previous OKD methods. Experimental results on image classification demonstrate that our MCL-OKD outperforms other state-of-the-art OKD methods by large margins without sacrificing additional inference cost. Codes are available at https://github.com/winycg/MCL-OKD.
翻訳日:2022-11-24 07:46:46 公開日:2021-04-10
# LA-HCN:階層型多ラベルテキスト分類ニューラルネットワークにおけるラベルに基づく注意

LA-HCN: Label-based Attention for Hierarchical Multi-label TextClassification Neural Network ( http://arxiv.org/abs/2009.10938v3 )

ライセンス: Link先を確認
Xinyi Zhang and Jiahao Xu and Charlie Soh and Lihui Chen(参考訳) 階層型マルチラベルテキスト分類 (HMTC) は, 多数の実世界のアプリケーションに適用可能であることから近年普及している。 既存のHMTCアルゴリズムは主に、ローカル、グローバル、またはそれらの組み合わせのような分類器の設計に焦点を当てている。 しかし,階層的特徴抽出に焦点をあてた研究は少なく,階層的ラベルとテキストの関係を探究している。 本稿では,階層的メタルティラベル・テキスト分類ニューラルネットワーク(la-hcn)のためのラベルベース・アテンションを提案し,新しいラベルベースのアテンションモジュールを用いて,異なる階層レベルのラベルに基づいて,テキストから重要な情報を階層的に抽出する。 さらに階層的な情報は階層的なラベルベースの情報を保持しながらレベル間で共有される。 個別のローカルおよびグローバルな文書埋め込みが得られ、各ローカルおよびグローバルな分類を容易にするために使用される。 我々の実験では、LA-HCNは4つの公開HMTCデータセット上で、最先端のニューラルネットワークベースのHMTCアルゴリズムより優れています。 アブレーション研究では,ラベルに基づくアテンションモジュールの有効性と,新たな局所的およびグローバルな埋め込みと分類の有効性も示した。 学習された注意(単語)を視覚化することで、la-hcnは異なるラベルに対応する有意義な情報を抽出でき、人間の分析に役に立つかもしれない説明可能性を提供する。

Hierarchical multi-label text classification (HMTC) has been gaining popularity in recent years thanks to its applicability to a plethora of real-world applications. The existing HMTC algorithms largely focus on the design of classifiers, such as the local, global, or a combination of them. However, very few studies have focused on hierarchical feature extraction and explore the association between the hierarchical labels and the text. In this paper, we propose a Label-based Attention for Hierarchical Mutlti-label Text Classification Neural Network (LA-HCN), where the novel label-based attention module is designed to hierarchically extract important information from the text based on the labels from different hierarchy levels. Besides, hierarchical information is shared across levels while preserving the hierarchical label-based information. Separate local and global document embeddings are obtained and used to facilitate the respective local and global classifications. In our experiments, LA-HCN outperforms other state-of-the-art neural network-based HMTC algorithms on four public HMTC datasets. The ablation study also demonstrates the effectiveness of the proposed label-based attention module as well as the novel local and global embeddings and classifications. By visualizing the learned attention (words), we find that LA-HCN is able to extract meaningful information corresponding to the different labels which provides explainability that may be helpful for the human analyst.
翻訳日:2022-10-15 15:16:20 公開日:2021-04-10
# 形状と時間的多様性を考慮した確率的時系列予測

Probabilistic Time Series Forecasting with Structured Shape and Temporal Diversity ( http://arxiv.org/abs/2010.07349v3 )

ライセンス: Link先を確認
Vincent Le Guen, Nicolas Thome(参考訳) 確率予測は将来の結果の分布を予測することである。 本稿では,非定常時系列に対してこの問題に対処する。 形状と時間的特徴に基づく構造的多様性を表現するためのstripeモデルを導入し,シャープで正確であると同時に,予測可能性も高い。 STRIPEは予測モデルに非依存であり,決定点過程(DPP)に依存した多様化機構を備える。 形状と時間の観点から多種多様な軌道をモデル化するために, 2つのdppカーネルを導入する。 また, ダイバーシティ構造を明示的に制御するために, 潜在空間における形状と時間表現を分離する反復サンプリング機構も設計する。 合成データセットを用いて行った実験により,STRIPEは予測モデルの精度を維持しつつ,多様性を表現するベースライン手法を著しく上回っていることがわかった。 また,反復サンプリング方式の妥当性と,品質や多様性を測定する上で異なる基準を用いることの重要性についても強調した。 最後に、実際のデータセットに関する実験は、STRIPEが最高のサンプル予測において最先端の確率予測アプローチより優れていることを示している。

Probabilistic forecasting consists in predicting a distribution of possible future outcomes. In this paper, we address this problem for non-stationary time series, which is very challenging yet crucially important. We introduce the STRIPE model for representing structured diversity based on shape and time features, ensuring both probable predictions while being sharp and accurate. STRIPE is agnostic to the forecasting model, and we equip it with a diversification mechanism relying on determinantal point processes (DPP). We introduce two DPP kernels for modeling diverse trajectories in terms of shape and time, which are both differentiable and proved to be positive semi-definite. To have an explicit control on the diversity structure, we also design an iterative sampling mechanism to disentangle shape and time representations in the latent space. Experiments carried out on synthetic datasets show that STRIPE significantly outperforms baseline methods for representing diversity, while maintaining accuracy of the forecasting model. We also highlight the relevance of the iterative sampling scheme and the importance to use different criteria for measuring quality and diversity. Finally, experiments on real datasets illustrate that STRIPE is able to outperform state-of-the-art probabilistic forecasting approaches in the best sample prediction.
翻訳日:2022-10-07 12:16:20 公開日:2021-04-10
# 薬物・薬物相互作用予測のための多視点グラフコントラスト表現学習

Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2010.11711v3 )

ライセンス: Link先を確認
Yingheng Wang, Yaosen Min, Xin Chen, Ji Wu(参考訳) 薬物・薬物相互作用(DDI)予測は、医療医療機械学習コミュニティにおいて重要な課題である。 本研究は,薬物と薬物の相互作用予測のためのマルチビューグラフコントラスト表現学習法であるMIRACLEを用いて,分子間構造と分子間相互作用を同時に捕捉する手法を提案する。 MIRACLEはDDIネットワークをマルチビューグラフとして扱い、相互作用グラフ内の各ノードは薬物分子グラフインスタンスである。 我々は,MIRACLE学習段階におけるDDI関係と薬物分子グラフをそれぞれ符号化するために,GCNと結合認識メッセージパッシングネットワークを使用する。 また,マルチビュー情報のバランスと統合のために,教師なしコントラスト学習コンポーネントを提案する。 複数の実データセットに対する総合的な実験により、MIRACLEは最先端のDDI予測モデルより一貫して優れていることが示された。

Drug-drug interaction(DDI) prediction is an important task in the medical health machine learning community. This study presents a new method, multi-view graph contrastive representation learning for drug-drug interaction prediction, MIRACLE for brevity, to capture inter-view molecule structure and intra-view interactions between molecules simultaneously. MIRACLE treats a DDI network as a multi-view graph where each node in the interaction graph itself is a drug molecular graph instance. We use GCNs and bond-aware attentive message passing networks to encode DDI relationships and drug molecular graphs in the MIRACLE learning stage, respectively. Also, we propose a novel unsupervised contrastive learning component to balance and integrate the multi-view information. Comprehensive experiments on multiple real datasets show that MIRACLE outperforms the state-of-the-art DDI prediction models consistently.
翻訳日:2022-10-04 05:21:37 公開日:2021-04-10
# 多言語BERTポストプレトレーニングアライメント

Multilingual BERT Post-Pretraining Alignment ( http://arxiv.org/abs/2010.12547v2 )

ライセンス: Link先を確認
Lin Pan, Chung-Wei Hang, Haode Qi, Abhishek Shah, Saloni Potdar, Mo Yu(参考訳) 本稿では,事前学習モデルのゼロショットクロスリンガル伝達性向上のための前訓練ステップとして,多言語文脈埋め込みをアライン化するための簡易な手法を提案する。 並列データを用いて,最近提案する翻訳言語モデリングの目的と,コントラスト学習とランダム入力シャッフルによる文レベルでの埋め込みを調整した。 また,下流タスクを微調整する際には,英語による文レベルのコード切り換えも行う。 XNLIでは、最良モデル(mBERTから初期化)は、ゼロショット設定でmBERTよりも4.7%向上し、同一並列データの18%未満と31%少ないモデルパラメータを使用しながら、翻訳訓練用のXLMに匹敵する結果が得られる。 MLQAでは、我々のモデルはXLM-R_Baseよりも57%高いパラメータを持つ。

We propose a simple method to align multilingual contextual embeddings as a post-pretraining step for improved zero-shot cross-lingual transferability of the pretrained models. Using parallel data, our method aligns embeddings on the word level through the recently proposed Translation Language Modeling objective as well as on the sentence level via contrastive learning and random input shuffling. We also perform sentence-level code-switching with English when finetuning on downstream tasks. On XNLI, our best model (initialized from mBERT) improves over mBERT by 4.7% in the zero-shot setting and achieves comparable result to XLM for translate-train while using less than 18% of the same parallel data and 31% less model parameters. On MLQA, our model outperforms XLM-R_Base that has 57% more parameters than ours.
翻訳日:2022-10-03 22:42:20 公開日:2021-04-10
# 広く深いネットワークは同じことを学べるのか? 幅と深さでニューラルネットワークを表現する方法

Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural Network Representations Vary with Width and Depth ( http://arxiv.org/abs/2010.15327v2 )

ライセンス: Link先を確認
Thao Nguyen, Maithra Raghu, Simon Kornblith(参考訳) ディープニューラルネットワークの成功の鍵となる要因は、アーキテクチャの深さと幅を変えて、モデルを拡張してパフォーマンスを向上させる能力である。 ニューラルネットワーク設計のこの単純な性質は、様々なタスクに対して非常に効果的なアーキテクチャをもたらす。 それでも、学習した表現に対する深さと幅の影響は限定的に理解されている。 本稿では,この基本的問題について考察する。 まず,大容量または大深度モデルの隠蔽表現における特徴的ブロック構造がモデル隠れ表現に与える影響について検討する。 このブロック構造は,モデル容量がトレーニングセットのサイズに対して大きい場合に発生し,それらの表現の主成分を保存・伝播する基盤層を示す。 この発見は、異なるモデルによって学習された特徴、すなわちブロック構造外の表現は、幅と深さの異なるアーキテクチャ間でよく似ているが、ブロック構造は各モデルに固有のものである。 異なるモデルアーキテクチャの出力予測を解析し、全体的な精度が似ていても、広範かつ深いモデルでは、クラス毎に固有のエラーパターンとバリエーションが示されることを示した。

A key factor in the success of deep neural networks is the ability to scale models to improve performance by varying the architecture depth and width. This simple property of neural network design has resulted in highly effective architectures for a variety of tasks. Nevertheless, there is limited understanding of effects of depth and width on the learned representations. In this paper, we study this fundamental question. We begin by investigating how varying depth and width affects model hidden representations, finding a characteristic block structure in the hidden representations of larger capacity (wider or deeper) models. We demonstrate that this block structure arises when model capacity is large relative to the size of the training set, and is indicative of the underlying layers preserving and propagating the dominant principal component of their representations. This discovery has important ramifications for features learned by different models, namely, representations outside the block structure are often similar across architectures with varying widths and depths, but the block structure is unique to each model. We analyze the output predictions of different model architectures, finding that even when the overall accuracy is similar, wide and deep models exhibit distinctive error patterns and variations across classes.
翻訳日:2022-10-01 23:10:13 公開日:2021-04-10
# Permute, Quantize, Fine-Tune: ニューラルネットワークの効率的な圧縮

Permute, Quantize, and Fine-tune: Efficient Compression of Neural Networks ( http://arxiv.org/abs/2010.15703v3 )

ライセンス: Link先を確認
Julieta Martinez, Jashan Shewakramani, Ting Wei Liu, Ioan Andrei B\^arsan, Wenyuan Zeng, Raquel Urtasun(参考訳) 大きなニューラルネットワークを圧縮することは、リソース制約のある計算プラットフォームに展開するための重要なステップである。 この文脈では、ベクトル量子化は、単一のコードを使って複数のパラメータを表現する魅力的なフレームワークであり、最近、様々なコアビジョンと自然言語処理タスクで最先端のネットワーク圧縮を達成した。 ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。 これまでの研究は、個々の畳み込みフィルタの空間次元をグループ化するヒューリスティックスに依存してきたが、一般的な解は未対応のままである。 これは、(現代のアーキテクチャを支配している)ポイントワイズ畳み込み、(空間次元の概念を持たない)線形層、および(複数のフィルタが同じ符号語に圧縮される場合)畳み込みに対して望ましい。 本稿では,隣接する2層の重みは同じ関数を表現しながら置換可能であることを観察する。 次に、レートゆがみ理論との接続を確立し、圧縮が容易なネットワークへと繋がる置換を探索する。 最後に,ネットワークを圧縮し,最終的な精度を高めるためにアニール量子化アルゴリズムを用いる。 画像分類,オブジェクト検出,セグメンテーションの結果から,未圧縮モデルとのギャップを40~70%削減した。

Compressing large neural networks is an important step for their deployment in resource-constrained computational platforms. In this context, vector quantization is an appealing framework that expresses multiple parameters using a single code, and has recently achieved state-of-the-art network compression on a range of core vision and natural language processing tasks. Key to the success of vector quantization is deciding which parameter groups should be compressed together. Previous work has relied on heuristics that group the spatial dimension of individual convolutional filters, but a general solution remains unaddressed. This is desirable for pointwise convolutions (which dominate modern architectures), linear layers (which have no notion of spatial dimension), and convolutions (when more than one filter is compressed to the same codeword). In this paper we make the observation that the weights of two adjacent layers can be permuted while expressing the same function. We then establish a connection to rate-distortion theory and search for permutations that result in networks that are easier to compress. Finally, we rely on an annealed quantization algorithm to better compress the network and achieve higher final accuracy. We show results on image classification, object detection, and segmentation, reducing the gap with the uncompressed model by 40 to 70% with respect to the current state of the art.
翻訳日:2022-10-01 22:10:05 公開日:2021-04-10
# セグメンテーションの前:部分教師付きインスタンスセグメンテーションにおける弱アノテートクラスのための前景キュー

Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Instance Segmentation ( http://arxiv.org/abs/2011.11787v2 )

ライセンス: Link先を確認
David Biertimpel, Sindi Shkodrani, Anil S. Baslamisli and N\'ora Baka(参考訳) インスタンスセグメンテーションメソッドは、高価なため、インスタンスレベルのマスクラベルが制限された大きなデータセットを必要とする。 部分教師付きインスタンスセグメンテーションは、より豊富な弱いボックスラベルを利用することで、マスクラベルによるマスク予測を改善することを目的としている。 本研究は,部分教師付きインスタンスセグメンテーションで一般的に使用されるクラス非依存マスクヘッドにおいて,ボックス・インスペクションのみを用いた弱注釈クラスにおける前景概念の学習が困難であることを示す。 この問題を解決するために,全クラスを監督するボックス分類責任者が暗黙的に学習するフォアグラウンドという概念をマスクヘッドに提供するオブジェクトマスクプリエント(omp)を導入する。 これにより、クラス非依存マスクヘッドは興味のある領域(RoI)の一次対象に集中することができ、弱アノテーション付きクラスへの一般化を改善することができる。 我々は、強い教師付きクラスと弱い教師付きクラスの異なる分割を用いて、COCOデータセットに対するアプローチをテストする。 提案手法は,Mask R-CNNベースラインよりも大幅に改善され,最先端技術との競争性能が向上し,よりシンプルなアーキテクチャを提供する。

Instance segmentation methods require large datasets with expensive and thus limited instance-level mask labels. Partially supervised instance segmentation aims to improve mask prediction with limited mask labels by utilizing the more abundant weak box labels. In this work, we show that a class agnostic mask head, commonly used in partially supervised instance segmentation, has difficulties learning a general concept of foreground for the weakly annotated classes using box supervision only. To resolve this problem we introduce an object mask prior (OMP) that provides the mask head with the general concept of foreground implicitly learned by the box classification head under the supervision of all classes. This helps the class agnostic mask head to focus on the primary object in a region of interest (RoI) and improves generalization to the weakly annotated classes. We test our approach on the COCO dataset using different splits of strongly and weakly supervised classes. Our approach significantly improves over the Mask R-CNN baseline and obtains competitive performance with the state-of-the-art, while offering a much simpler architecture.
翻訳日:2022-09-22 02:48:21 公開日:2021-04-10
# (参考訳) 弱教師付き関係抽出のための表現学習

Representation Learning for Weakly Supervised Relation Extraction ( http://arxiv.org/abs/2105.00815v1 )

ライセンス: CC BY 4.0
Zhuang Li(参考訳) 近年,情報抽出やそのサブタスクであるリレーション抽出が急速に進展している。 関係抽出は文中のエンティティ間の意味関係を検出することができる。 現在、関係抽出タスクに多くの効率的なアプローチが適用されている。 教師付き学習アプローチは特に優れたパフォーマンスを持つ。 しかし、まだ多くの難しい課題がある。 最も深刻な問題の1つは、手動ラベル付きデータを取得するのが難しいことである。 ほとんどの場合、教師付きアプローチの限られたデータは、粗悪なパフォーマンスに等しい。 そこで,本研究では,トレーニングデータに制限のある状況下では,教師なし事前学習による教師ありベースラインシステムの性能向上に注目する。 機能(feature)は、教師付きアプローチを改善する上で重要なコンポーネントの1つです。 伝統的なアプローチは通常手作りの特徴を適用し、専門知識と高価な人的労働を必要とする。 しかし、この種の機能はデータのスパーシティに支障をきたす可能性がある。トレーニングセットのサイズが小さい場合、モデルパラメータは低い推定値になる可能性がある。 本論文では,関係表現の構文・意味的パターンを多用した分散テキスト表現の特徴を学習するための,教師なし事前学習モデルを提案する。 実験により, 従来の手作りの特徴と組み合わせることで, 関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。

Recent years have seen rapid development in Information Extraction, as well as its subtask, Relation Extraction. Relation Extraction is able to detect semantic relations between entities in sentences. Currently, many efficient approaches have been applied to relation extraction tasks. Supervised learning approaches especially have good performance. However, there are still many difficult challenges. One of the most serious problems is that manually labeled data is difficult to acquire. In most cases, limited data for supervised approaches equals lousy performance. Thus here, under the situation with only limited training data, we focus on how to improve the performance of our supervised baseline system with unsupervised pre-training. Feature is one of the key components in improving the supervised approaches. Traditional approaches usually apply hand-crafted features, which require expert knowledge and expensive human labor. However, this type of feature might suffer from data sparsity: when the training set size is small, the model parameters might be poorly estimated. In this thesis, we present several novel unsupervised pre-training models to learn the distributed text representation features, which are encoded with rich syntactic-semantic patterns of relation expressions. The experiments have demonstrated that this type of feature, combine with the traditional hand-crafted features, could improve the performance of the logistic classification model for relation extraction, especially on the classification of relations with only minor training instances.
翻訳日:2021-05-06 07:34:39 公開日:2021-04-10
# 実世界のBCIに向けて:CCSPNet - コンパクトな被写体非依存モータ画像フレームワーク-

Toward Real-World BCI: CCSPNet, A Compact Subject-Independent Motor Imagery Framework ( http://arxiv.org/abs/2012.13567v3 )

ライセンス: Link先を確認
Mahbod Nouri, Faraz Moradi, Hafez Ghaemi, Ali Motie Nasrabadi(参考訳) 従来の脳-コンピュータインタフェース(BCI)は、使用前に各ユーザーに対して完全なデータ収集、トレーニング、校正フェーズを必要とする。 この予備段階は時間がかかり、BCIが適切に機能するための実験室で一般的に技術専門家の監督の下で実施されるべきである。 近年,主観非依存型(SI)BCIが多数開発されている。 しかし、現実のBCIアプリケーションでそれらが使われるのを防ぐには多くの問題がある。 主観依存(sd)アプローチに比べて弱い性能と、比較的多くのモデルパラメータが最も重要なものである。 したがって、現実世界のbciアプリケーションは、ユーザがオンするとすぐに使えるコンパクトなサブジェクト非依存のbciフレームワークから大きな恩恵を受け、iot(internet of things)の新興分野における低消費電力エッジコンピューティングやアプリケーションに適している。 本研究では,2段階のハンドムーブメントmiタスクを行う54名の被験者に対して,400回の試行からなる大規模脳波信号データベースの運動画像(mi)パラダイムに基づいて,ccspnet(convolutional common spatial pattern network)と呼ばれる新しい主題非依存型bciフレームワークを提案する。 提案手法は,ウェーブレット核畳み込みニューラルネットワーク(wkcnn)と時間畳み込みニューラルネットワーク(tcnn)を適用し,脳波信号の多様なスペクトル特性を表現・抽出する。 畳み込み層の出力は、空間特徴抽出のための共通空間パターン(CSP)アルゴリズムを介して行われる。 CSP特徴数は高密度ニューラルネットワークにより減少し、最終クラスラベルは線形判別分析(LDA)により決定される。 CCSPNet フレームワークの評価結果から,SD と SI の両性能を複雑で計算コストのかかるモデルに匹敵する低消費電力のコンパクト BCI を持つことが示唆された。

A conventional brain-computer interface (BCI) requires a complete data gathering, training, and calibration phase for each user before it can be used. This preliminary phase is time-consuming and should be done under the supervision of technical experts commonly in laboratories for the BCI to function properly. In recent years, a number of subject-independent (SI) BCIs have been developed. However, there are many problems preventing them from being used in real-world BCI applications. A weaker performance compared to the subject-dependent (SD) approach and a relatively large number of model parameters are the most important ones. Therefore, a real-world BCI application would greatly benefit from a compact subject-independent BCI framework, ready to be used immediately after the user puts it on, and suitable for low-power edge-computing and applications in the emerging area of internet of things (IoT). In this work, we propose a novel subject-independent BCI framework named CCSPNet (Convolutional Common Spatial Pattern Network) that is trained on the motor imagery (MI) paradigm of a large-scale EEG signals database consisting of 400 trials for every 54 subjects performing two-class hand-movement MI tasks. The proposed framework applies a wavelet kernel convolutional neural network (WKCNN) and a temporal convolutional neural network (TCNN) in order to represent and extract the diverse spectral features of EEG signals. The outputs of the convolutional layers go through a common spatial pattern (CSP) algorithm for spatial feature extraction. The number of CSP features is reduced by a dense neural network, and the final class label is determined by a linear discriminative analysis (LDA). The CCSPNet framework evaluation results show that it is possible to have a low-power compact BCI that achieves both SD and SI performance comparable to complex and computationally expensive models.
翻訳日:2021-04-25 04:36:10 公開日:2021-04-10
# ERNIE-M:単言語コーパスによる言語間セマンティックのアライメントによる多言語表現の強化

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora ( http://arxiv.org/abs/2012.15674v3 )

ライセンス: Link先を確認
Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 最近の研究では、訓練済みの言語横断モデルが下流の言語横断タスクで印象的な性能を発揮することが示されている。 この改善は、大量の単言語と並列コーパスの学習に起因している。 並列コーパスはモデルの性能向上に重要であると一般に認識されているが、既存の手法は特に低リソース言語では並列コーパスのサイズに制約されることが多い。 本稿では,並列コーパスサイズの制約を破るために,複数の言語表現を単言語コーパスと整合させる新しい学習法であるernie-mを提案する。 私たちの重要な洞察は、事前学習プロセスにバック翻訳のアイデアを統合することです。 単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にし、言語間モデルのセマンティックモデリングを強化する。 実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。 コードと事前訓練されたモデルは公開されます。

Recent studies have demonstrated that pre-trained cross-lingual models achieve impressive performance on downstream cross-lingual tasks. This improvement stems from the learning of a large amount of monolingual and parallel corpora. While it is generally acknowledged that parallel corpora are critical for improving the model performance, existing methods are often constrained by the size of parallel corpora, especially for the low-resource languages. In this paper, we propose ERNIE-M, a new training method that encourages the model to align the representation of multiple languages with monolingual corpora, to break the constraint of parallel corpus size on the model performance. Our key insight is to integrate the idea of back translation in the pre-training process. We generate pseudo-parallel sentences pairs on a monolingual corpus to enable the learning of semantic alignment between different languages, which enhances the semantic modeling of cross-lingual models. Experimental results show that ERNIE-M outperforms existing cross-lingual models and delivers new state-of-the-art results on various cross-lingual downstream tasks. The codes and pre-trained models will be made publicly available.
翻訳日:2021-04-17 17:13:13 公開日:2021-04-10
# (参考訳) auto-validate: データレイクから推定したデータドメインパターンを用いた教師なしデータ検証

Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes ( http://arxiv.org/abs/2104.04659v1 )

ライセンス: CC BY 4.0
Jie Song, Yeye He(参考訳) 複雑なデータパイプラインは、BIレポートやMLモデリングといった多様なアプリケーションでますます一般的になっています。 これらのパイプラインは、BIレポートを更新する必要があり、MLモデルを再トレーニングする必要があるため、定期的に再帰することが多い。 しかし、複雑なプロダクションパイプラインでは、上流のデータフィードが予期せぬ方法で変化し、ダウンストリームアプリケーションは解決にコストがかかる静かに壊れてしまうことが広く報告されている。 このように、データ検証は重要なトピックとなり、googleとamazonによる最近の注目すべき取り組みで示されているように、パイプラインでデータ品質の問題が発生すると早期にキャッチすることを目的としている。 しかし,本研究の経験から,文字列値データでは,これらの既存手法は偽陽性率が高く,人的介入が頻繁に必要であることが示唆された。 本研究では,データ品質の問題を最大化しながら偽陽性を最小限に抑える,基礎となるデータドメインを正確に記述する適切なデータバリデーション"パターン"を推測することで,自動検証するコーパス駆動手法を開発した。 実データレイクの生産データを用いた評価は、Auto-Validateが既存の方法よりもかなり効果的であることを示している。 この技術の一部は、 \textsc{Microsoft Azure Purview} の \textsc{Auto-Tag} 機能として出荷される。

Complex data pipelines are increasingly common in diverse applications such as BI reporting and ML modeling. These pipelines often recur regularly (e.g., daily or weekly), as BI reports need to be refreshed, and ML models need to be retrained. However, it is widely reported that in complex production pipelines, upstream data feeds can change in unexpected ways, causing downstream applications to break silently that are expensive to resolve. Data validation has thus become an important topic, as evidenced by notable recent efforts from Google and Amazon, where the objective is to catch data quality issues early as they arise in the pipelines. Our experience on production data suggests, however, that on string-valued data, these existing approaches yield high false-positive rates and frequently require human intervention. In this work, we develop a corpus-driven approach to auto-validate \emph{machine-generated data} by inferring suitable data-validation "patterns" that accurately describe the underlying data-domain, which minimizes false positives while maximizing data quality issues caught. Evaluations using production data from real data lakes suggest that Auto-Validate is substantially more effective than existing methods. Part of this technology ships as an \textsc{Auto-Tag} feature in \textsc{Microsoft Azure Purview}.
翻訳日:2021-04-16 07:55:46 公開日:2021-04-10
# (参考訳) プロンプトを改善するメタチューニング言語モデル

Meta-tuning Language Models to Answer Prompts Better ( http://arxiv.org/abs/2104.04670v1 )

ライセンス: CC0 1.0
Ruiqi Zhong, Kristy Lee, Zheng Zhang, Dan Klein(参考訳) GPT-3のような大規模な事前訓練された言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を得た。 例えば、レビューの感情を分類するには、レビューで言語モデルを"プロンプト"することができ、"レビューはポジティブか? 文脈として、次の単語が "Yes" か "No" かを予測するように求めます。 しかし、これらのモデルはこれらのプロンプトへの応答に特化していない。 この弱点に対処するために、我々はモデルにプロンプトへの応答を専門に訓練するが、それでも見当たらないタスクに一般化するメタチューニングを提案する。 トレーニングデータを作成するために、43の既存のデータセットを集約し、合計441のラベル記述を注釈付けし、上記の質問応答(QA)フォーマットにまとめました。 メタチューニング後、我々のモデルは、目に見えないタスクでほとんどのラベルに対して同じ大きさのQAモデルより優れており、さらに大きなモデルでは性能が向上すると予想する。 したがって、非特殊化言語モデル上でのZSCパフォーマンスの測定は、その真の能力を過小評価する可能性があり、データセットを集約し、フォーマットを統一するというコミュニティ全体の取り組みは、プロンプトをよりよく理解するモデルを構築するのに役立つ。

Large pretrained language models like GPT-3 have acquired a surprising ability to perform zero-shot classification (ZSC). For example, to classify review sentiments, we can "prompt" the language model with the review and the question "Is the review positive?" as the context, and ask it to predict whether the next word is "Yes" or "No". However, these models are not specialized for answering these prompts. To address this weakness, we propose meta-tuning, which trains the model to specialize in answering prompts but still generalize to unseen tasks. To create the training data, we aggregated 43 existing datasets, annotated 441 label descriptions in total, and unified them into the above question answering (QA) format. After meta-tuning, our model outperforms a same-sized QA model for most labels on unseen tasks, and we forecast that the performance would improve for even larger models. Therefore, measuring ZSC performance on non-specialized language models might underestimate their true capability, and community-wide efforts on aggregating datasets and unifying their formats can help build models that understand prompts better.
翻訳日:2021-04-16 07:26:20 公開日:2021-04-10
# (参考訳) B\'ezier Simplicesの近似ベイズ計算

Approximate Bayesian Computation of B\'ezier Simplices ( http://arxiv.org/abs/2104.04679v1 )

ライセンス: CC BY 4.0
Akinori Tanaka, Akiyoshi Sannai, Ken Kobayashi, and Naoki Hamada(参考訳) b\'ezier simplexフィッティングアルゴリズムは、多目的連続最適化問題のパレート集合/フロントを近似するために最近提案されている。 これらの新しい手法は、サンプルポイントがパレートセット/フロント上にある場合、パレートセット/フロントの様々な形状を近似することに成功した。 しかし、もしサンプルポイントがパレートセット/フロントから散乱した場合、これらのメソッドは過剰フィッティングに苦しむことが多い。 本稿では,この問題を克服するために,b\'ezier simplexモデルを確率的モデルに拡張し,wasserstein距離に基づく近似ベイズ計算(abc)の枠組みに当てはまる新しい学習アルゴリズムを提案する。 また、Wasserstein ABCアルゴリズムの収束性についても検討する。 公開問題事例に対する広範な実験的評価は、新しいアルゴリズムが有限標本に収束することを示している。 さらに,ノイズ発生時の決定論的フィッティング法を上回っている。

B\'ezier simplex fitting algorithms have been recently proposed to approximate the Pareto set/front of multi-objective continuous optimization problems. These new methods have shown to be successful at approximating various shapes of Pareto sets/fronts when sample points exactly lie on the Pareto set/front. However, if the sample points scatter away from the Pareto set/front, those methods often likely suffer from over-fitting. To overcome this issue, in this paper, we extend the B\'ezier simplex model to a probabilistic one and propose a new learning algorithm of it, which falls into the framework of approximate Bayesian computation (ABC) based on the Wasserstein distance. We also study the convergence property of the Wasserstein ABC algorithm. An extensive experimental evaluation on publicly available problem instances shows that the new algorithm converges on a finite sample. Moreover, it outperforms the deterministic fitting methods on noisy instances.
翻訳日:2021-04-16 06:29:23 公開日:2021-04-10
# (参考訳) 2Dから学ぶ:3次元事前学習のための画素間知識伝達

Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining ( http://arxiv.org/abs/2104.04687v1 )

ライセンス: CC BY 4.0
Yueh-Cheng Liu, Yu-Kai Huang, Hung-Yueh Chiang, Hung-Ting Su, Zhe-Yu Liu, Chin-Tang Chen, Ching-Yu Tseng, Winston H. Hsu(参考訳) 3Dネットワークのほとんどは、大規模なラベル付きデータセットの欠如によって、スクラッチの所有からトレーニングされている。 本稿では,リッチな2次元データセットから学習した2次元ネットワークを利用して,新しい3次元事前学習手法を提案する。 画素レベルの特徴と点レベルの特徴を同じ埋め込み空間にマッピングすることにより、2D情報を効果的に活用するための画素間知識伝達を提案する。 2dネットワークと3dネットワークの異質性から,2dと3dの機能を整合させて転送を可能にするバックプロジェクション機能を導入する。 さらに,高次2次元特徴写像の空間分解能を高めるために,アップサンプリング機能プロジェクション層を考案し,微細な3次元表現の学習を支援する。 事前訓練された2Dネットワークでは、提案した事前学習プロセスでは、追加の2Dまたは3Dラベル付きデータを必要としない。 私たちの知る限りでは、既存の2dトレーニング重みを活用して3d深層ニューラルネットワークを事前トレーニングした最初の例です。 集中的な実験により,2次元知識を事前学習した3dモデルが,実世界のさまざまな3dダウンストリームタスクのパフォーマンスを向上させることが示された。

Most of the 3D networks are trained from scratch owning to the lack of large-scale labeled datasets. In this paper, we present a novel 3D pretraining method by leveraging 2D networks learned from rich 2D datasets. We propose the pixel-to-point knowledge transfer to effectively utilize the 2D information by mapping the pixel-level and point-level features into the same embedding space. Due to the heterogeneous nature between 2D and 3D networks, we introduce the back-projection function to align the features between 2D and 3D to make the transfer possible. Additionally, we devise an upsampling feature projection layer to increase the spatial resolution of high-level 2D feature maps, which helps learning fine-grained 3D representations. With a pretrained 2D network, the proposed pretraining process requires no additional 2D or 3D labeled data, further alleviating the expansive 3D data annotation cost. To the best of our knowledge, we are the first to exploit existing 2D trained weights to pretrain 3D deep neural networks. Our intensive experiments show that the 3D models pretrained with 2D knowledge boost the performances across various real-world 3D downstream tasks.
翻訳日:2021-04-16 05:52:55 公開日:2021-04-10
# (参考訳) すべての注意が必要なものではない

Not All Attention Is All You Need ( http://arxiv.org/abs/2104.04692v1 )

ライセンス: CC BY 4.0
Hongqiu Wu, Hai Zhao, Min Zhang(参考訳) 自己注意に基づくモデルは自然言語処理において顕著な成功を収めた。 しかし,近年の研究では,自己着脱型ネットワークの設計は,有効性や冗長性が高いため,準最適であると見なされている。 本稿では,タスク固有チューニングに基づく自己計画型学習設計による事前学習言語モデルに焦点を当てる。 その結果,自然言語理解,文書分類,名前付きエンティティ認識,posタグづけなど複数のタスクにおいて,80%近い自己認識層が刈り取られた,より軽量な最先端モデルがさらに優れた結果が得られることを実証した。

Self-attention based models have achieved remarkable success in natural language processing. However, the self-attention network design is questioned as suboptimal in recent studies, due to its veiled validity and high redundancy. In this paper, we focus on pre-trained language models with self-pruning training design on task-specific tuning. We demonstrate that the lighter state-of-the-art models with nearly 80% of self-attention layers pruned, may achieve even better results on multiple tasks, including natural language understanding, document classification, named entity recognition and POS tagging, with nearly twice faster inference.
翻訳日:2021-04-16 05:36:43 公開日:2021-04-10
# (参考訳) MPTP: 宇宙空間におけるナビゲーションのための運動計画型タスクプランニング

MPTP: Motion-Planning-aware Task Planning for Navigation in Belief Space ( http://arxiv.org/abs/2104.04696v1 )

ライセンス: CC BY 4.0
Antony Thomas, Fulvio Mastrogiovanni, Marco Baglietto(参考訳) 大規模環境におけるナビゲーションのためのタスク移動計画(TMP)フレームワークについて述べる。 近年,TMPの操作に対する関心が高まり,様々なアプローチが増加している。 対照的に、ナビゲーション用のTMPは、かなり注目を集めていない。 現実の複雑なシナリオで動く自律ロボットは、離散的な(タスク)空間と連続的な(動き)空間での計画を必要とする。 知識集約的なドメインでは、ロボットは、取得する対象、取得する領域、取得する領域など、最も高いレベルを推論しなければならない。 これは、モーションプランニング・アウェアタスクプランナーの必要性を示す。 本稿では,このタスクと動作の相互作用を利用して,大規模知識集約領域をナビゲートし,タスクレベルで最適な計画を返す確率論的に完全なアプローチについて論じる。 このフレームワークは、運動中の運動計画と感覚の不確実性を目的としており、これは正式には信仰空間計画として知られている。 基礎となる方法論は、オフィス環境でのシミュレーションで検証され、そのスケーラビリティは、より大きなwillow garageの世界でテストされる。 私たちのアプローチに最も近い作品との合理的な比較も提供されています。 また,ビルディングフロアナビゲーション領域を考慮し,本手法の適応性を示す。 最後に、我々のアプローチの限界についても議論し、改善と今後の作業を提案する。

We present an integrated Task-Motion Planning (TMP) framework for navigation in large-scale environments. Of late, TMP for manipulation has attracted significant interest resulting in a proliferation of different approaches. In contrast, TMP for navigation has received considerably less attention. Autonomous robots operating in real-world complex scenarios require planning in the discrete (task) space and the continuous (motion) space. In knowledge-intensive domains, on the one hand, a robot has to reason at the highest-level, for example, the objects to procure, the regions to navigate to in order to acquire them; on the other hand, the feasibility of the respective navigation tasks have to be checked at the execution level. This presents a need for motion-planning-aware task planners. In this paper, we discuss a probabilistically complete approach that leverages this task-motion interaction for navigating in large knowledge-intensive domains, returning a plan that is optimal at the task-level. The framework is intended for motion planning under motion and sensing uncertainty, which is formally known as belief space planning. The underlying methodology is validated in simulation, in an office environment and its scalability is tested in the larger Willow Garage world. A reasonable comparison with a work that is closest to our approach is also provided. We also demonstrate the adaptability of our approach by considering a building floor navigation domain. Finally, we also discuss the limitations of our approach and put forward suggestions for improvements and future work.
翻訳日:2021-04-16 05:27:03 公開日:2021-04-10
# (参考訳) DuRIN: 深部展開型スパース反射率インバージョンネットワーク

DuRIN: A Deep-unfolded Sparse Seismic Reflectivity Inversion Network ( http://arxiv.org/abs/2104.04704v1 )

ライセンス: CC BY 4.0
Swapnil Mache, Praveen Kumar Pokala, Kusala Rajendran and Chandra Sekhar Seelamantula(参考訳) 地下構造を推定する上で欠かせない地震データから界面の位置と反射係数の振幅を復元する反射地震学の問題を考察する。 反射率反転問題は通常、欲求アルゴリズムと反復的手法を用いて解決される。 スパースベイズ学習フレームワーク、さらに最近では、ディープラーニング技術がこの問題を解決するデータ駆動アプローチの可能性を示している。 本稿では,重み付きミニマックス凹型ペナルティ正規化反射率反転式を提案し,モデルベースニューラルネットワークを用いて解いた。 このネットワークはdeep-unfolded reflectivity inversion network (durin) と呼ばれる。 カナダ・ノバスコシア沖のペノブスコット3D調査から得られた2次元マルムーシ2モデルと実データを用いて,合成1次元の地震跡と2次元のウェッジモデルを用いて,提案手法に対する提案手法の有効性を実証した。

We consider the reflection seismology problem of recovering the locations of interfaces and the amplitudes of reflection coefficients from seismic data, which are vital for estimating the subsurface structure. The reflectivity inversion problem is typically solved using greedy algorithms and iterative techniques. Sparse Bayesian learning framework, and more recently, deep learning techniques have shown the potential of data-driven approaches to solve the problem. In this paper, we propose a weighted minimax-concave penalty-regularized reflectivity inversion formulation and solve it through a model-based neural network. The network is referred to as deep-unfolded reflectivity inversion network (DuRIN). We demonstrate the efficacy of the proposed approach over the benchmark techniques by testing on synthetic 1-D seismic traces and 2-D wedge models and validation with the simulated 2-D Marmousi2 model and real data from the Penobscot 3D survey off the coast of Nova Scotia, Canada.
翻訳日:2021-04-16 05:26:02 公開日:2021-04-10
# (参考訳) ManyTypes4Py: 機械学習ベースの型推論のためのベンチマークPythonデータセット

ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type Inference ( http://arxiv.org/abs/2104.04706v1 )

ライセンス: CC BY-SA 4.0
Amir M. Mir, Evaldas Latoskinas, Georgios Gousios(参考訳) 本稿では機械学習(ML)に基づく型推論のためのPythonデータセットであるMultiTypes4Pyを紹介する。 データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。 重複するソースコードファイルは、重複バイアスの負の効果を排除するために削除された。 MLモデルのトレーニングと評価を容易にするため、データセットはファイルによるトレーニング、検証、テストセットに分割された。 抽象構文木(AST)から型情報を抽出するために、軽量な静的アナライザパイプラインを開発し、データセットを添付する。 このパイプラインを使用して収集したPythonプロジェクトを解析し、AST分析の結果をJSON形式のファイルに格納した。 ManyTypes4Pyデータセットはzenodoで共有されており、そのツールはGitHubで公開されている。

In this paper, we present ManyTypes4Py, a large Python dataset for machine learning (ML)-based type inference. The dataset contains a total of 5,382 Python projects with more than 869K type annotations. Duplicate source code files were removed to eliminate the negative effect of the duplication bias. To facilitate training and evaluation of ML models, the dataset was split into training, validation and test sets by files. To extract type information from abstract syntax trees (ASTs), a lightweight static analyzer pipeline is developed and accompanied with the dataset. Using this pipeline, the collected Python projects were analyzed and the results of the AST analysis were stored in JSON-formatted files. The ManyTypes4Py dataset is shared on zenodo and its tools are publicly available on GitHub.
翻訳日:2021-04-16 05:05:42 公開日:2021-04-10
# (参考訳) セマンティックセグメンテーションに基づく領域認識ポーリングによる顔画像からのBMIの推定

Estimation of BMI from Facial Images using Semantic Segmentation based Region-Aware Pooling ( http://arxiv.org/abs/2104.04733v1 )

ライセンス: CC BY 4.0
Nadeem Yousaf, Sarfaraz Hussein, Waqas Sultani(参考訳) Body-Mass-Index (BMI)は、健康や社会経済的状況などの生活に関する重要な情報を伝達する。 BMIの大規模自動推定は、健康、仕事の機会、友情、人気など、いくつかの社会的行動を予測するのに役立つ。 最近の研究では、手作りの幾何学的顔特徴と、face to bmi予測のための顔レベルの深い畳み込みニューラルネットワーク特徴が採用されている。 手作りの幾何学的特徴には一般化性がなく、顔レベルの深い特徴には詳細なローカル情報がない。 有用ではあるが、これらの手法は正確なBMI予測に不可欠な詳細なローカル情報を見逃した。 本稿では, 異なる顔領域(目, 鼻, まぶた, 唇など)からプールされる深い特徴を用いて, 顔領域からの明示的なプーリングが, BMI予測の性能を大幅に向上させることを示す。 高精度かつピクセルレベルの顔領域ローカライゼーションの問題に対処するため,本フレームワークでは顔意味セグメント化を提案する。 さまざまな畳み込みニューラルネットワーク(cnn)バックボーンを使用して、visualbmi、bollywood、vip属性の3つの公開データセットで、facenetとvgg-faceを含む広範な実験が行われている。 実験の結果,vip-attributeでは22.4\%,visualbmiでは3.3\%,bollywoodデータセットでは63.09\%,reg-gapでは22.4\%向上した。

Body-Mass-Index (BMI) conveys important information about one's life such as health and socio-economic conditions. Large-scale automatic estimation of BMIs can help predict several societal behaviors such as health, job opportunities, friendships, and popularity. The recent works have either employed hand-crafted geometrical face features or face-level deep convolutional neural network features for face to BMI prediction. The hand-crafted geometrical face feature lack generalizability and face-level deep features don't have detailed local information. Although useful, these methods missed the detailed local information which is essential for exact BMI prediction. In this paper, we propose to use deep features that are pooled from different face regions (eye, nose, eyebrow, lips, etc.,) and demonstrate that this explicit pooling from face regions can significantly boost the performance of BMI prediction. To address the problem of accurate and pixel-level face regions localization, we propose to use face semantic segmentation in our framework. Extensive experiments are performed using different Convolutional Neural Network (CNN) backbones including FaceNet and VGG-face on three publicly available datasets: VisualBMI, Bollywood and VIP attributes. Experimental results demonstrate that, as compared to the recent works, the proposed Reg-GAP gives a percentage improvement of 22.4\% on VIP-attribute, 3.3\% on VisualBMI, and 63.09\% on the Bollywood dataset.
翻訳日:2021-04-16 04:58:29 公開日:2021-04-10
# (参考訳) MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection

MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection ( http://arxiv.org/abs/2104.04739v1 )

ライセンス: CC BY 4.0
Mikhail Kotyushev, Anna Glazkova, Dmitry Morozov(参考訳) 本稿では,有害スパンズ検出におけるSemEval-2021 Task 5について述べる。 BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。 各種アンサンブル手法を用いて各種事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。 最後に,試験データからf1-scoreの67.55%を得た。

This paper describes our system for SemEval-2021 Task 5 on Toxic Spans Detection. We developed ensemble models using BERT-based neural architectures and post-processing to combine tokens into spans. We evaluated several pre-trained language models using various ensemble techniques for toxic span identification and achieved sizable improvements over our baseline fine-tuned BERT models. Finally, our system obtained a F1-score of 67.55% on test data.
翻訳日:2021-04-16 04:43:19 公開日:2021-04-10
# (参考訳) 自動運転のための車線検出・追尾前処理法

Preprocessing Methods of Lane Detection and Tracking for Autonomous Driving ( http://arxiv.org/abs/2104.04755v1 )

ライセンス: CC BY 4.0
Akram Heidarizadeh(参考訳) 過去数年間、高度運転支援システム(ADAS)の研究が、インテリジェントな車両で実施され、展開されてきた。 開発されているシステムは、車線維持支援(LKA)、車線離脱警告(LDW)、車線変更警告(LCW)、適応巡航制御(ACC)など、さまざまなタスクを実行することができる。 real time lane detection and tracking (ldt) は、上記のタスクを実行するための最重要部分の1つである。 映像から抽出された画像には、光度の変化、近くの物体からの影など、ノイズやその他の望ましくない要素が含まれている。 レーンマーキング検出と追跡のための 堅牢な前処理方法が必要です プリプロセッシングは、無関係な画像部分を削除し、興味をそそる特徴を高めるため、その後のステップやリアルタイムパフォーマンスにとって重要な機能である。 本稿では,車線標識検出のための前処理手法と,車線境界をリアルタイムで追跡するシステムについて検討する。

In the past few years, researches on advanced driver assistance systems (ADASs) have been carried out and deployed in intelligent vehicles. Systems that have been developed can perform different tasks, such as lane keeping assistance (LKA), lane departure warning (LDW), lane change warning (LCW) and adaptive cruise control (ACC). Real time lane detection and tracking (LDT) is one of the most consequential parts to performing the above tasks. Images which are extracted from the video, contain noise and other unwanted factors such as variation in lightening, shadow from nearby objects and etc. that requires robust preprocessing methods for lane marking detection and tracking. Preprocessing is critical for the subsequent steps and real time performance because its main function is to remove the irrelevant image parts and enhance the feature of interest. In this paper, we survey preprocessing methods for detecting lane marking as well as tracking lane boundaries in real time focusing on vision-based system.
翻訳日:2021-04-16 04:36:15 公開日:2021-04-10
# (参考訳) 逆向きな非負行列因子化

Adversarially-Trained Nonnegative Matrix Factorization ( http://arxiv.org/abs/2104.04757v1 )

ライセンス: CC BY 4.0
Ting Cai, Vincent Y. F. Tan, C\'edric F\'evotte(参考訳) 本稿では,非負行列分解の逆学習版を考える。 我々の定式化では、攻撃者は与えられたデータ行列に有界ノルムの任意の行列を追加する。 我々は,辞書や係数行列を最適化し,一般化能力を高めた効率的なアルゴリズムを設計する。 合成およびベンチマークデータセットの広範囲なシミュレーションにより,提案手法の行列完了タスクにおける予測性能は,逆行列係数の他の変種を含む最先端の競合よりも優れていた。

We consider an adversarially-trained version of the nonnegative matrix factorization, a popular latent dimensionality reduction technique. In our formulation, an attacker adds an arbitrary matrix of bounded norm to the given data matrix. We design efficient algorithms inspired by adversarial training to optimize for dictionary and coefficient matrices with enhanced generalization abilities. Extensive simulations on synthetic and benchmark datasets demonstrate the superior predictive performance on matrix completion tasks of our proposed method compared to state-of-the-art competitors, including other variants of adversarial nonnegative matrix factorization.
翻訳日:2021-04-16 04:24:36 公開日:2021-04-10
# (参考訳) MobileStyleGAN:高忠実画像合成のための軽量畳み込みニューラルネットワーク

MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis ( http://arxiv.org/abs/2104.04767v1 )

ライセンス: CC BY 4.0
Sergei Belousov(参考訳) 近年、GAN(Generative Adversarial Networks)の利用は、生成画像モデリングにおいて非常に人気がある。 スタイルベースのganアーキテクチャは最先端の画像合成をもたらすが、計算上は非常に複雑である。 本研究では,スタイルベース生成モデルの性能最適化に焦点をあてる。 そこで我々は,StyleGAN2の最も計算の難しい部分を解析し,エッジデバイスにスタイルベースの生成ネットワークをデプロイ可能にするジェネレータネットワークの変更を提案する。 パラメータがx3.5少ないMobileStyleGANアーキテクチャを導入し、StyleGAN2よりも計算的に複雑で、同等の品質を提供する。

In recent years, the use of Generative Adversarial Networks (GANs) has become very popular in generative image modeling. While style-based GAN architectures yield state-of-the-art results in high-fidelity image synthesis, computationally, they are highly complex. In our work, we focus on the performance optimization of style-based generative models. We analyze the most computationally hard parts of StyleGAN2, and propose changes in the generator network to make it possible to deploy style-based generative networks in the edge devices. We introduce MobileStyleGAN architecture, which has x3.5 fewer parameters and is x9.5 less computationally complex than StyleGAN2, while providing comparable quality.
翻訳日:2021-04-16 04:16:31 公開日:2021-04-10
# (参考訳) UTNLP at SemEval-2021 Task 5: Antention-based, Named Entity Recognition and Ensemble Models を用いた毒性スパン検出の比較解析

UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span Detection using Attention-based, Named Entity Recognition, and Ensemble Models ( http://arxiv.org/abs/2104.04770v1 )

ライセンス: CC BY 4.0
Alireza Salemi, Nazanin Sabri, Emad Kebriaei, Behnam Bahrak, Azadeh Shakery(参考訳) 文のどの部分がその文の毒性に寄与するかを検出することは、ヘイトフルネスの文レベルの評価を提供するのではなく、モデルの解釈性を高め、人間のモデレーターがシステムの出力をよりよく理解できるようにする。 本稿では,毒性スパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。 複数のモデルとコンテキスト埋め込みをテストし、最高の設定を報告します。 実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。 我々の最良のアプローチであるアンサンブルモデルは、競技の評価フェーズにおいて0.684のF1を達成する。

Detecting which parts of a sentence contribute to that sentence's toxicity -- rather than providing a sentence-level verdict of hatefulness -- would increase the interpretability of models and allow human moderators to better understand the outputs of the system. This paper presents our team's, UTNLP, methodology and results in the SemEval-2021 shared task 5 on toxic spans detection. We test multiple models and contextual embeddings and report the best setting out of all. The experiments start with keyword-based models and are followed by attention-based, named entity-based, transformers-based, and ensemble models. Our best approach, an ensemble model, achieves an F1 of 0.684 in the competition's evaluation phase.
翻訳日:2021-04-15 13:01:42 公開日:2021-04-10
# (参考訳) 時系列予測のためのブースト埋め込み

Boosted Embeddings for Time Series Forecasting ( http://arxiv.org/abs/2104.04781v1 )

ライセンス: CC BY 4.0
Sankeerth Rao Karingula and Nandini Ramanan and Rasool Tahsambi and Mehrnaz Amjadi and Deokwoo Jung and Ricky Si and Charanraj Thimmisetty and Claudionor Nunes Coelho Jr(参考訳) 時系列予測は、さまざまなデータ駆動アプリケーションから発生する基本的なタスクである。 ARIMAのような先進的な自己回帰手法は予測モデルの開発に使われた。 近年,deepar,neuralprophet,seq2seqなどのディープラーニングを用いた時系列予測手法が研究されている。 本稿では,新しい時系列予測モデルであるDeepGBを提案する。 我々は,弱い学習者が反復よりも漸進的に重みがみられるdnnである勾配ブースティングの変種を定式化し,実装する。 特に,グラデーションブースティング変種を用いた時系列学習モデルの性能を向上させる新しい組込みアーキテクチャを開発した。 我々のモデルは,実世界のセンサデータと公開データセットを用いて,既存の最先端モデルよりも優れていることを示す。

Time series forecasting is a fundamental task emerging from diverse data-driven applications. Many advanced autoregressive methods such as ARIMA were used to develop forecasting models. Recently, deep learning based methods such as DeepAr, NeuralProphet, Seq2Seq have been explored for time series forecasting problem. In this paper, we propose a novel time series forecast model, DeepGB. We formulate and implement a variant of Gradient boosting wherein the weak learners are DNNs whose weights are incrementally found in a greedy manner over iterations. In particular, we develop a new embedding architecture that improves the performance of many deep learning models on time series using Gradient boosting variant. We demonstrate that our model outperforms existing comparable state-of-the-art models using real-world sensor data and public dataset.
翻訳日:2021-04-15 10:54:57 公開日:2021-04-10
# (参考訳) 非教師付きビデオマルチオブジェクトセグメンテーションのためのターゲット認識オブジェクト発見とアソシエーション

Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation ( http://arxiv.org/abs/2104.04782v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Jianwu Li, Xueyi Li, Ling Shao(参考訳) 本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。 1)事前学習したMask R-CNNを用いてオブジェクト提案を検知し,2)再同定手法を用いて時間的アソシエーションのための一般的な特徴マッチングを行う。 しかし、両方の段階で広く使われている一般的な特徴は、見えない物体を特徴づけるには信頼できないため、一般化は不十分である。 そこで本研究では,より高精度で効率的な時空間分割手法を提案する。 特に,textbf{instance discrimination} に対処するために,前景領域の推定とインスタンスグループ化を一つのネットワークで組み合わせることを提案し,さらに,各フレームのセグメント化のための時間的ガイダンスを導入し,より正確なオブジェクト発見を可能にする。 textbf{temporal association}の場合、現在のビデオオブジェクトのセグメンテーションアーキテクチャを識別的外観モデルで補完し、よりきめ細かいターゲット固有の情報をキャプチャする。 インスタンス識別ネットワークからのオブジェクト提案を前提として,1) メモリ拡張外観モデルを用いたターゲット固有追跡,2) 提案の可能なトラックレットをトレースするターゲット非依存検証,3) 検証されたセグメントを用いた適応メモリ更新という,3つの重要なセグメンテーションが採用されている。 提案手法は, DAVIS$_{17}$とYouTube-VISで評価し, セグメンテーション精度と推論速度の両方において最先端の手法より優れていることを示した。

This paper addresses the task of unsupervised video multi-object segmentation. Current approaches follow a two-stage paradigm: 1) detect object proposals using pre-trained Mask R-CNN, and 2) conduct generic feature matching for temporal association using re-identification techniques. However, the generic features, widely used in both stages, are not reliable for characterizing unseen objects, leading to poor generalization. To address this, we introduce a novel approach for more accurate and efficient spatio-temporal segmentation. In particular, to address \textbf{instance discrimination}, we propose to combine foreground region estimation and instance grouping together in one network, and additionally introduce temporal guidance for segmenting each frame, enabling more accurate object discovery. For \textbf{temporal association}, we complement current video object segmentation architectures with a discriminative appearance model, capable of capturing more fine-grained target-specific information. Given object proposals from the instance discrimination network, three essential strategies are adopted to achieve accurate segmentation: 1) target-specific tracking using a memory-augmented appearance model; 2) target-agnostic verification to trace possible tracklets for the proposal; 3) adaptive memory updating using the verified segments. We evaluate the proposed approach on DAVIS$_{17}$ and YouTube-VIS, and the results demonstrate that it outperforms state-of-the-art methods both in segmentation accuracy and inference speed.
翻訳日:2021-04-15 10:38:54 公開日:2021-04-10
# (参考訳) 単一およびマルチパラメータ持続性のためのスマートベクトル化

Smart Vectorizations for Single and Multiparameter Persistence ( http://arxiv.org/abs/2104.04787v1 )

ライセンス: CC BY 4.0
Baris Coskunuzer and CUneyt Gurcan Akcora and Ignacio Segovia Dominguez and Zhiwei Zhen and Murat Kantarcioglu and Yulia R. Gel(参考訳) トポロジカルデータ解析の機械は、異常検出や多様体学習からグラフ分類まで、幅広い機械学習タスクで人気を博している。 ここでは永続的ホモロジーが重要なアプローチの1つであり、スケールパラメータの変化に応じて、データ内の様々な隠れパターンの進化を体系的に評価することができる。 抽出されたパターン(ホモロジー的特徴)は、スケールパラメータのフィルタリングを通して、そのような特徴がどれだけ長く持続するかの情報とともに、健全なデータ特性とデータ組織に関する重要な洞察を伝達する。 本稿では,シングルパラメータとマルチパラメータ持続性のための新しい,容易に解釈可能な2つのトポロジーサマリー,すなわちsaw関数とマルチパーシステンスグリッド関数を導入する。 所定の濾過工程におけるトポロジー的特徴量および/またはその寿命を評価する傾向にある既存のトポロジー的要約と比較して,提案するsawおよびmulti-persistence grid関数は,濾過工程毎に出生数や死亡数といった本質的補完情報を明示的に説明できる。 これらの新しい位相的要約は、濾過によって決定される進化する部分空間の複雑性測度と見なすことができ、グラフ上の永続ホモロジーの応用に特に有用である。 新たなソードとマルチパーシステンスグリッド関数の安定性に関する理論的保証を導出し,グラフ分類タスクへの適用性を示す。

The machinery of topological data analysis becomes increasingly popular in a broad range of machine learning tasks, ranging from anomaly detection and manifold learning to graph classification. Persistent homology is one of the key approaches here, allowing us to systematically assess the evolution of various hidden patterns in the data as we vary a scale parameter. The extracted patterns, or homological features, along with information on how long such features persist throughout the considered filtration of a scale parameter, convey a critical insight into salient data characteristics and data organization. In this work, we introduce two new and easily interpretable topological summaries for single and multi-parameter persistence, namely, saw functions and multi-persistence grid functions, respectively. Compared to the existing topological summaries which tend to assess the numbers of topological features and/or their lifespans at a given filtration step, our proposed saw and multi-persistence grid functions allow us to explicitly account for essential complementary information such as the numbers of births and deaths at each filtration step. These new topological summaries can be regarded as the complexity measures of the evolving subspaces determined by the filtration and are of particular utility for applications of persistent homology on graphs. We derive theoretical guarantees on the stability of the new saw and multi-persistence grid functions and illustrate their applicability for graph classification tasks.
翻訳日:2021-04-15 10:23:35 公開日:2021-04-10
# (参考訳) 多目的ベイズ最適化に有効なスキャスティング関数は何か?

What Makes an Effective Scalarising Function for Multi-Objective Bayesian Optimisation? ( http://arxiv.org/abs/2104.04790v1 )

ライセンス: CC BY 4.0
Clym Stock-Williams, Tinkle Chugh, Alma Rahat, Wei Yu(参考訳) 目的をスカラー化して多目的ベイズ最適化を行うことで、高価な多次元積分ベース獲得関数の計算を避けることができる。 ここでは、最近導入されたハイパーボリューム改善\textemdashと、マルチサロゲートの予測ハイパーボリューム改善との比較を行った。 得られたパレートフロントのハイパーボリュームの最大化におけるこれらの手法の有効性の相違について検討した。 さらに, サロゲートモデルの平均関数が探索と利用に与える影響について検討し, データ正規化の慎重な選択は, 期待された改善獲得関数でよく使用される探索パラメータに好適であることを示した。 最後に, 風車翼翼翼翼の空力性能と構造剛性の両方に対する最適化という実世界の課題について, 方法論的改善の有効性を実証した。 効果的なスカラー化により、ベイズ最適化は標準設計を強く支配する多数の新しいエアロフォイル形状を発見する。

Performing multi-objective Bayesian optimisation by scalarising the objectives avoids the computation of expensive multi-dimensional integral-based acquisition functions, instead of allowing one-dimensional standard acquisition functions\textemdash such as Expected Improvement\textemdash to be applied. Here, two infill criteria based on hypervolume improvement\textemdash one recently introduced and one novel\textemdash are compared with the multi-surrogate Expected Hypervolume Improvement. The reasons for the disparities in these methods' effectiveness in maximising the hypervolume of the acquired Pareto Front are investigated. In addition, the effect of the surrogate model mean function on exploration and exploitation is examined: careful choice of data normalisation is shown to be preferable to the exploration parameter commonly used with the Expected Improvement acquisition function. Finally, the effectiveness of all the methodological improvements defined here is demonstrated on a real-world problem: the optimisation of a wind turbine blade aerofoil for both aerodynamic performance and structural stiffness. With effective scalarisation, Bayesian optimisation finds a large number of new aerofoil shapes that strongly dominate standard designs.
翻訳日:2021-04-15 09:57:20 公開日:2021-04-10
# (参考訳) Swarm Variant for the Schr\odinger Solver

A Swarm Variant for the Schr\"odinger Solver ( http://arxiv.org/abs/2104.04795v1 )

ライセンス: CC BY 4.0
Urvil Nileshbhai Jivani, Omatharv Bharat Vaidya, Anwesh Bhattacharya, Snehanshu Saha(参考訳) 本稿では, ニューラルネットワークの微分自由最適化手法として, Exponentially Averaged Momentum Particle Swarm Optimization (EM-PSO) を提案する。 探索空間探索や局所最小値に対するロバスト性などのPSOの大きな利点をアダムのような勾配勾配のオプティマイザと比較すると採用している。 勾配最適化を備えたニューラルネットワークベースの解法が微分方程式の解の近似に使われている。 本稿では, 勾配近似におけるem-psoの新規性を示し, 粒子-箱問題に対するschr\"odinger方程式の解法としての性質を活用する。 また,アルゴリズムに適した数学的証明によって支援される最適パラメータセットも提供する。

This paper introduces application of the Exponentially Averaged Momentum Particle Swarm Optimization (EM-PSO) as a derivative-free optimizer for Neural Networks. It adopts PSO's major advantages such as search space exploration and higher robustness to local minima compared to gradient-descent optimizers such as Adam. Neural network based solvers endowed with gradient optimization are now being used to approximate solutions to Differential Equations. Here, we demonstrate the novelty of EM-PSO in approximating gradients and leveraging the property in solving the Schr\"odinger equation, for the Particle-in-a-Box problem. We also provide the optimal set of hyper-parameters supported by mathematical proofs, suited for our algorithm.
翻訳日:2021-04-15 09:43:03 公開日:2021-04-10
# (参考訳) mlとhpcアンサンブルの結合による複雑生物現象の100倍高速シミュレーションの実現

Achieving 100X faster simulations of complex biological phenomena by coupling ML to HPC ensembles ( http://arxiv.org/abs/2104.04797v1 )

ライセンス: CC BY 4.0
Alexander Brace, Hyungro Lee, Heng Ma, Anda Trifan, Matteo Turilli, Igor Yaskushin, Todd Munson, Ian Foster, Shantenu Jha and Arvind Ramanathan(参考訳) アンサンブルに基づくシミュレーションを動的に操るML手法は、科学的応用の性能を大幅に向上させる。 本稿では,ML駆動型HPCシミュレーションの多種多様なシナリオのためのツールであるDeepDriveMDを紹介し,ML駆動型アンサンブルベースアプリケーションの科学的性能向上の定量化に利用した。 我々はその設計と性能について論じる。 より高度な物理システムへのさらなる科学的改善と適用可能性によって、シミュレーションと学習方法間のストリームベースの通信をサポートするためにDeepDriveMDの設計を拡張した。 タンパク質を折り畳む100倍のスピードアップを示し、単位時間あたり1.6倍のシミュレーションを実行し、シーケンシャルなフレームワークと比べてリソース利用を改善する。 実験は、リーダーシップクラスプラットフォーム、最大o(1000)ノードのスケール、プロダクションワークロードで行われます。 我々は、ML駆動HPCシミュレーションシナリオの高性能フレームワークとしてDeepDriveMDを確立し、多様なシミュレーションとMLバックエンドをサポートし、時間とスケールのアクセスを改善することで、新たな科学的洞察を可能にする。

The use of ML methods to dynamically steer ensemble-based simulations promises significant improvements in the performance of scientific applications. We present DeepDriveMD, a tool for a range of prototypical ML-driven HPC simulation scenarios, and use it to quantify improvements in the scientific performance of ML-driven ensemble-based applications. We discuss its design and characterize its performance. Motivated by the potential for further scientific improvements and applicability to more sophisticated physical systems, we extend the design of DeepDriveMD to support stream-based communication between simulations and learning methods. It demonstrates a 100x speedup to fold proteins, and performs 1.6x more simulations per unit time, improving resource utilization compared to the sequential framework. Experiments are performed on leadership-class platforms, at scales of up to O(1000) nodes, and for production workloads. We establish DeepDriveMD as a high-performance framework for ML-driven HPC simulation scenarios, that supports diverse simulation and ML back-ends, and which enables new scientific insights by improving length- and time-scale accessed.
翻訳日:2021-04-15 09:31:34 公開日:2021-04-10
# (参考訳) 医用画像分割のための深層学習モデルの2層組

Two layer Ensemble of Deep Learning Models for Medical Image Segmentation ( http://arxiv.org/abs/2104.04809v1 )

ライセンス: CC BY 4.0
Truong Dang, Tien Thanh Nguyen, John McCall, Eyad Elyan, Carlos Francisco Moreno-Garc\'ia(参考訳) 近年, 深層学習は医療画像のセグメンテーションの方法として急速になってきている。 UNetのようなディープニューラルネットワーク(DNN)アーキテクチャは、多くの医療データセットで最先端の結果を得た。 セグメンテーションタスクの性能をさらに向上するため,様々なディープラーニングアーキテクチャを組み合わせたアンサンブルシステムを開発した。 医用画像のセグメンテーションのための深層学習モデルの2層アンサンブルを提案する。 第1層の各モデルによって作成された各トレーニング画像画素の予測を、アンサンブルの第2層のトレーニング画像の加算データとして使用する。 次に、各モデルが結合結果に異なる貢献をする重みに基づくスキームを用いて、第2層の予測を組み合わせる。 重みは線形回帰問題を解くことによって見出される。 CAMUS(英語版)とKvasir-SEG(英語版)という2つの一般的な医療データセットで実施された実験により、提案手法はよく知られたベンチマークアルゴリズムと比較して、2つのパフォーマンス指標(Dice Coefficient と Hausdorff の距離)に関してより良い結果が得られることが示された。

In recent years, deep learning has rapidly become a method of choice for the segmentation of medical images. Deep Neural Network (DNN) architectures such as UNet have achieved state-of-the-art results on many medical datasets. To further improve the performance in the segmentation task, we develop an ensemble system which combines various deep learning architectures. We propose a two-layer ensemble of deep learning models for the segmentation of medical images. The prediction for each training image pixel made by each model in the first layer is used as the augmented data of the training image for the second layer of the ensemble. The prediction of the second layer is then combined by using a weights-based scheme in which each model contributes differently to the combined result. The weights are found by solving linear regression problems. Experiments conducted on two popular medical datasets namely CAMUS and Kvasir-SEG show that the proposed method achieves better results concerning two performance metrics (Dice Coefficient and Hausdorff distance) compared to some well-known benchmark algorithms.
翻訳日:2021-04-15 09:09:22 公開日:2021-04-10
# (参考訳) 潜在コードベースの融合:volterraニューラルネットワークアプローチ

Latent Code-Based Fusion: A Volterra Neural Network Approach ( http://arxiv.org/abs/2104.04829v1 )

ライセンス: CC BY 4.0
Sally Ghanem, Siddharth Roheda, and Hamid Krim(参考訳) 本稿では,最近導入されたVolterra Neural Networks (VNN) を用いた深層構造エンコーダを提案する。 いわゆる自己表現の埋め込みは、同様に構築されたデコードによって駆動される単純な融合をもたらす。 パラメータ複雑性の低減を達成したボルテラフィルタアーキテクチャは、主に一般化されたアクティベーション関数とは対照的に高次畳み込みによって導入された制御された非線形性に起因する。 2つの異なるデータセットの実験結果から、従来の畳み込みニューラルネットワーク(CNN)オートエンコーダよりも、VNNの自動エンコーダのクラスタリング性能が大幅に向上した。 さらに,提案手法は,CNNベースのオートエンコーダに比べて,非常に頑健な分類性能を有する,非常に改良されたサンプル複雑性を示す。

We propose a deep structure encoder using the recently introduced Volterra Neural Networks (VNNs) to seek a latent representation of multi-modal data whose features are jointly captured by a union of subspaces. The so-called self-representation embedding of the latent codes leads to a simplified fusion which is driven by a similarly constructed decoding. The Volterra Filter architecture achieved reduction in parameter complexity is primarily due to controlled non-linearities being introduced by the higher-order convolutions in contrast to generalized activation functions. Experimental results on two different datasets have shown a significant improvement in the clustering performance for VNNs auto-encoder over conventional Convolutional Neural Networks (CNNs) auto-encoder. In addition, we also show that the proposed approach demonstrates a much-improved sample complexity over CNN-based auto-encoder with a superb robust classification performance.
翻訳日:2021-04-15 08:47:35 公開日:2021-04-10
# (参考訳) 分類器予測信頼度に基づくアンサンブル学習とポリプ局所化のための総合学習粒子群最適化

Ensemble Learning based on Classifier Prediction Confidence and Comprehensive Learning Particle Swarm Optimisation for polyp localisation ( http://arxiv.org/abs/2104.04832v1 )

ライセンス: CC BY 4.0
Truong Dang, Thanh Nguyen, John McCall, Alan Wee-Chung Liew(参考訳) 大腸癌(crc)は、多くの国で最初の死因である。 crcはポリープと呼ばれる結腸の内側にある小塊の細胞から発生し、時間とともに成長して悪性になる可能性がある。 したがって大腸がんの予防にはポリープの早期検出と除去が不可欠である。 本稿では,医療用ポリープセグメンテーションアルゴリズムのアンサンブルを紹介する。 異なるセグメンテーションアルゴリズムが実例の異なる部分集合に対して、それらが露出しているトレーニングセットの性質と大きさ、およびメソッドインタリンシックな要因によってうまく機能するという観測に基づいて、各アルゴリズムの予測に対する信頼度を測定し、その信頼度が許容できるかどうかをアソシエイトしきい値を用いて判断する。 信頼度が付随しきい値以下であれば、アンサンブルのためにアルゴリズムが選択される。 各セグメンテーションアルゴリズムの最適しきい値は、SwarmインテリジェンスアルゴリズムであるComprehensive Learning Particle Swarm Optimization (CLPSO)を用いて得られる。 画像セグメンテーションの一般的なパフォーマンス指標であるDice係数が適合度基準として使用される。 2つのポリプセグメンテーションデータセットであるmiccai2015とkvasir-segの実験結果は、既知のセグメンテーションアルゴリズムよりも優れた結果が得られることを確認した。

Colorectal cancer (CRC) is the first cause of death in many countries. CRC originates from a small clump of cells on the lining of the colon called polyps, which over time might grow and become malignant. Early detection and removal of polyps are therefore necessary for the prevention of colon cancer. In this paper, we introduce an ensemble of medical polyp segmentation algorithms. Based on an observation that different segmentation algorithms will perform well on different subsets of examples because of the nature and size of training sets they have been exposed to and because of method-intrinsic factors, we propose to measure the confidence in the prediction of each algorithm and then use an associate threshold to determine whether the confidence is acceptable or not. An algorithm is selected for the ensemble if the confidence is below its associate threshold. The optimal threshold for each segmentation algorithm is found by using Comprehensive Learning Particle Swarm Optimization (CLPSO), a swarm intelligence algorithm. The Dice coefficient, a popular performance metric for image segmentation, is used as the fitness criteria. Experimental results on two polyp segmentation datasets MICCAI2015 and Kvasir-SEG confirm that our ensemble achieves better results compared to some well-known segmentation algorithms.
翻訳日:2021-04-15 08:31:34 公開日:2021-04-10
# (参考訳) 衛星マルチイメージ幾何における誤差伝播

Error Propagation in Satellite Multi-image Geometry ( http://arxiv.org/abs/2104.04843v1 )

ライセンス: CC BY 4.0
Joseph L Mundy and Hank Theiss(参考訳) 本稿では,複数の衛星画像から構築したデジタル表面モデル(DSM)における地理空間誤差の源泉について述べる。 本研究では、表面形状の不確かさを、表面の絶対位置に影響する大域的誤差と、表面点から表面点へ変化する局所的誤差の2つの空間的成分に分離する。 グローバルエラー成分は、主に画像収集中の衛星の位置と向き(目的)の不確かさによって、衛星画像プロセスの不正確さによって引き起こされる。 この研究の鍵となる結果は、画像収集中の各衛星のポーズ共分散を考慮したdsmの絶対位置を決定する新しいアルゴリズムである。 この共分散情報は、dsmのグローバル位置の計算における各画像からの証拠を測定するために使用される。 共分散情報の利用は、グローバル位置における全体的な不確実性を大幅に減少させる。 また,DSM表面における局所誤差の予測手法についても述べる。 単一ステレオ表面再構成における表面位置の観測値のばらつきは、局所水平誤差を定義する。 単一のdsm位置における複数のステレオペアからの上昇の融合セットの分散は、局所的な垂直誤差を定義する。 これらの精度予測は、同じ地理的領域のLiDARスキャンによって提供される真実と比較される。

This paper describes an investigation of the source of geospatial error in digital surface models (DSMs) constructed from multiple satellite images. In this study the uncertainty in surface geometry is separated into two spatial components; global error that affects the absolute position of the surface, and local error that varies from surface point to surface point. The global error component is caused by inaccuracy in the satellite imaging process, mainly due to uncertainty in the satellite position and orientation (pose) during image collection. A key result of the investigation is a new algorithm for determining the absolute geoposition of the DSM that takes into account the pose covariance of each satellite during image collection. This covariance information is used to weigh the evidence from each image in the computation of the global position of the DSM. The use of covariance information significantly decreases the overall uncertainty in global position. The paper also describes an approach to the prediction of local error in the DSM surface. The observed variance in surface position within a single stereo surface reconstruction defines the local horizontal error. The variance in the fused set of elevations from multiple stereo pairs at a single DSM location defines the local vertical error. These accuracy predictions are compared to ground truth provided by LiDAR scans of the same geographic region of interest.
翻訳日:2021-04-15 08:10:29 公開日:2021-04-10
# (参考訳) 永続的エンタープライズシステムへの移行について

On migration to Perpetual Enterprise System ( http://arxiv.org/abs/2104.04844v1 )

ライセンス: CC BY-SA 4.0
Manuel Tomas Carrasco Benitez(参考訳) この文書は、組織コンピュータシステムを永久に進化し、組織全体に対処し、統合される新しいシステムに移行するための実践的なアプローチを説明している。 ガバナンスの側面は、純粋に技術的なITの側面と同じくらい重要である。 移行は、グリーンフィールドから始まっていないことを意味する。

This document describes a pragmatic approach on how to migrate an organisation computer system towards a new system that could evolve forever, addresses the whole organisation and it is integrated. Governance aspects are as important, if not more, than purely technical IT aspects: human resources, call for tenders, and similar. Migration implies that one is not starting from a green field.
翻訳日:2021-04-15 07:53:59 公開日:2021-04-10
# (参考訳) グループ分解と強化学習によるグループ同変ニューラルアーキテクチャ探索

Group Equivariant Neural Architecture Search via Group Decomposition and Reinforcement Learning ( http://arxiv.org/abs/2104.04848v1 )

ライセンス: CC BY 4.0
Sourya Basu, Akshayaa Magesh, Harshit Yadav, Lav R. Varshney(参考訳) 最近の研究は、帰納的バイアスとしてグループ同分散を含めることで、分類と生成タスクの両方においてニューラルネットワークのパフォーマンスが向上することを示している。 しかし、グループ同変ニューラルネットワークの設計は、グループの関心が大きく、不明な場合には困難である。 さらに、等分散の誘発は、機能サイズが固定されたネットワーク内の独立したパラメータの数を著しく減少させ、全体のパフォーマンスに影響を及ぼす。 我々は、ネットワークが大きな群に同変であることと、それが構成されるより小さな群に対して同変であることを示す同変ニューラルネットワークの文脈において、新たな群論的結果を証明することによって、これらの問題に対処する。 また、計算複雑性を大幅に改善する同変ネットワークを構築するアルゴリズムを設計する。 さらに,この理論的な結果を利用して,自己同値ネットワーク (autoequivariant network, aens) と呼ばれる手法を生かして,性能を最大化するグループ同値ネットワークの探索を行う。 AENを評価するために、我々はそれぞれMNISTとFashion-MNISTの群変換によって得られた新しいベンチマークデータセットG-MNISTとG-Fashion-MNISTを構築し、リリースする。 AEN は群同値とパラメータ数との適切なバランスを見出すことができ、従ってタスク性能が良好であることを示す。

Recent works show that including group equivariance as an inductive bias improves neural network performance for both classification and generation tasks. Designing group-equivariant neural networks is, however, challenging when the group of interest is large and is unknown. Moreover, inducing equivariance can significantly reduce the number of independent parameters in a network with fixed feature size, affecting its overall performance. We address these problems by proving a new group-theoretic result in the context of equivariant neural networks that shows that a network is equivariant to a large group if and only if it is equivariant to smaller groups from which it is constructed. We also design an algorithm to construct equivariant networks that significantly improves computational complexity. Further, leveraging our theoretical result, we use deep Q-learning to search for group equivariant networks that maximize performance, in a significantly reduced search space than naive approaches, yielding what we call autoequivariant networks (AENs). To evaluate AENs, we construct and release new benchmark datasets, G-MNIST and G-Fashion-MNIST, obtained via group transformations on MNIST and Fashion-MNIST respectively. We show that AENs find the right balance between group equivariance and number of parameters, thereby consistently having good task performance.
翻訳日:2021-04-15 07:42:45 公開日:2021-04-10
# (参考訳) 点的部分モジュラリティを超えて:クナップサック制約を受ける非単調適応部分モジュラー最大化

Beyond Pointwise Submodularity: Non-Monotone Adaptive Submodular Maximization subject to a Knapsack Constraint ( http://arxiv.org/abs/2104.04853v1 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 本稿では,knapsack制約を受ける非単調適応部分モジュラー最大化問題について検討する。 問題の入力は項目の集合であり、各項目は既知の事前分布から引き出された特定の状態を持つ。 しかしながら、アイテムの状態は当初不明であり、アイテムの状態を明らかにするためにアイテムを選択する必要がある。 さらに、各アイテムには固定コストがある。 アイテムとステートの上に定義されたユーティリティ関数があります。 本研究の目的は,knapsack制約の対象となる実用性を最大化するために,項目群を順次選択することである。 より一般的なマトロイド拘束型適応サブモジュラー最大化と同様に濃度制限された適応サブモジュラー最大化は文献でよく研究されているが、クナプサック拘束適応サブモジュラー最大化問題に対する定数近似解が存在するかどうかは未解決のままである。 このギャップを埋めるために、最初の定数近似解を提案する。 特に,ナップサック制約を受ける適応部分モジュラ関数を最大化するための$\frac{1}{10}$近似を実現するサンプリングに基づくランダム化アルゴリズムの開発に寄与した。

In this paper, we study the non-monotone adaptive submodular maximization problem subject to a knapsack constraint. The input of our problem is a set of items, where each item has a particular state drawn from a known prior distribution. However, the state of an item is initially unknown, one must select an item in order to reveal the state of that item. Moreover, each item has a fixed cost. There is a utility function which is defined over items and states. Our objective is to sequentially select a group of items to maximize the expected utility subject to a knapsack constraint. Although the cardinality-constrained, as well as the more general matroid-constrained, adaptive submodular maximization has been well studied in the literature, whether there exists a constant approximation solution for the knapsack-constrained adaptive submodular maximization problem remains an open problem. We fill this gap by proposing the first constant approximation solution. In particular, our main contribution is to develop a sampling-based randomized algorithm that achieves a $\frac{1}{10}$ approximation for maximizing an adaptive submodular function subject to a knapsack constraint.
翻訳日:2021-04-15 07:19:41 公開日:2021-04-10
# (参考訳) ソフトターゲット転送セット合成によるデータフリーな知識蒸留

Data-Free Knowledge Distillation with Soft Targeted Transfer Set Synthesis ( http://arxiv.org/abs/2104.04868v1 )

ライセンス: CC BY 4.0
Zi Wang(参考訳) 知識蒸留(kd)は、事前訓練された過パラメータネットワーク(教師)から知識を転送することで、コンパクトネットワーク(学生)を学習するディープニューラルネットワーク圧縮の効果的なアプローチであることが証明されている。 従来のkdでは、転送された知識は通常、教師ネットワークにトレーニングサンプルを供給してクラス確率を得る。 しかし、ストレージコストやプライバシの問題のために、オリジナルのトレーニングデータセットが常に利用できるとは限らない。 本研究では,教師の中間的特徴空間を多変量正規分布でモデル化し,その分布によって生成されたソフトターゲットラベルを用いて擬似サンプルを転送集合として合成し,新しいデータフリーkd手法を提案する。 これらの合成転送セットで訓練されたいくつかの学生ネットワークは、元のトレーニングセットや他のデータフリーkdアプローチで訓練されたネットワークと比較して競争力のある性能を示す。

Knowledge distillation (KD) has proved to be an effective approach for deep neural network compression, which learns a compact network (student) by transferring the knowledge from a pre-trained, over-parameterized network (teacher). In traditional KD, the transferred knowledge is usually obtained by feeding training samples to the teacher network to obtain the class probabilities. However, the original training dataset is not always available due to storage costs or privacy issues. In this study, we propose a novel data-free KD approach by modeling the intermediate feature space of the teacher with a multivariate normal distribution and leveraging the soft targeted labels generated by the distribution to synthesize pseudo samples as the transfer set. Several student networks trained with these synthesized transfer sets present competitive performance compared to the networks trained with the original training set and other data-free KD approaches.
翻訳日:2021-04-15 07:10:11 公開日:2021-04-10
# (参考訳) ソーシャルメディアにおける攻撃的言語識別と分類

Identifying and Categorizing Offensive Language in Social Media ( http://arxiv.org/abs/2104.04871v1 )

ライセンス: CC0 1.0
Nikhil Oswal(参考訳) 攻撃的な言葉はソーシャルメディアに広まります。 個人はコンピュータによるコミュニケーションの匿名性をよく利用し、実際の生活において多くの人が考慮しない行動にそれを利用する。 オンライン上での攻撃的コンテンツの自動識別は近年注目を集めている重要な課題である。 このタスクは、攻撃的または攻撃的コンテンツの何らかの形態の存在に関してアノテートされたポストを含むデータセットを使用してシステムが訓練される教師付き分類問題としてモデル化することができる。 本研究の目的は,SemEval-2019 Task 6: OffensEval用に構築された分類システムを記述することである。 このシステムは、ツイートを攻撃的または攻撃的でないもの(サブタスクA)に分類し、さらに攻撃的ツイートをカテゴリ(サブタスクB \&C)に分類する。 私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。 議論されているモデルには、Naive Bayes、SVM、Logistic Regression、Random Forest、LSTMなどがある。

Offensive language is pervasive in social media. Individuals frequently take advantage of the perceived anonymity of computer-mediated communication, using this to engage in behavior that many of them would not consider in real life. The automatic identification of offensive content online is an important task that has gained more attention in recent years. This task can be modeled as a supervised classification problem in which systems are trained using a dataset containing posts that are annotated with respect to the presence of some form(s) of abusive or offensive content. The objective of this study is to provide a description of a classification system built for SemEval-2019 Task 6: OffensEval. This system classifies a tweet as either offensive or not offensive (Sub-task A) and further classifies offensive tweets into categories (Sub-tasks B \& C). We trained machine learning and deep learning models along with data preprocessing and sampling techniques to come up with the best results. Models discussed include Naive Bayes, SVM, Logistic Regression, Random Forest and LSTM.
翻訳日:2021-04-15 06:54:41 公開日:2021-04-10
# 直交 Procrustes 解析による学習を組み込む高能率知識グラフ

Highly Efficient Knowledge Graph Embedding Learning with Orthogonal Procrustes Analysis ( http://arxiv.org/abs/2104.04676v1 )

ライセンス: Link先を確認
Xutan Peng, Guanyi Chen, Chenghua Lin, Mark Stevenson(参考訳) 知識グラフ埋め込み(KGE)は、広範囲のアプリケーションに対して約束されているため、近年、徹底的に研究されている。 しかし,既存の研究では,実行時間と環境影響の観点から,提案手法の計算コストを考慮せずに最終モデルの性能向上に重点を置いている。 本稿では,最先端の手法と比較してトレーニング時間と炭素フットプリントを桁違いに削減し,競争性能を向上する,シンプルで効果的なKGEフレームワークを提案する。 関係行列によるフルバッチ学習,kgesのクローズドフォーム直交探索分析,非負サンプリングトレーニングの3つの技術革新を強調する。 さらに、エンティティの埋め込みも完全な関係情報を格納する最初のKGE手法として、トレーニングされたモデルはリッチセマンティクスを符号化し、高度に解釈可能である。 13の強いベースラインと2つの標準データセットを含む総合的な実験とアブレーション研究により、アルゴリズムの有効性と効率が検証された。

Knowledge Graph Embeddings (KGEs) have been intensively explored in recent years due to their promise for a wide range of applications. However, existing studies focus on improving the final model performance without acknowledging the computational cost of the proposed approaches, in terms of execution time and environmental impact. This paper proposes a simple yet effective KGE framework which can reduce the training time and carbon footprint by orders of magnitudes compared with state-of-the-art approaches, while producing competitive performance. We highlight three technical innovations: full batch learning via relational matrices, closed-form Orthogonal Procrustes Analysis for KGEs, and non-negative-sampling training. In addition, as the first KGE method whose entity embeddings also store full relation information, our trained models encode rich semantics and are highly interpretable. Comprehensive experiments and ablation studies involving 13 strong baselines and two standard datasets verify the effectiveness and efficiency of our algorithm.
翻訳日:2021-04-13 14:44:16 公開日:2021-04-10
# ImperfectはRewardも保存する: より良いダイアログ管理のためのマルチレベルおよびシークエンシャルリワードモデリング

Imperfect also Deserves Reward: Multi-Level and Sequential Reward Modeling for Better Dialog Management ( http://arxiv.org/abs/2104.04748v1 )

ライセンス: Link先を確認
Zhengxu Hou, Bang Liu, Ruihui Zhao, Zijing Ou, Yafei Liu, Xi Chen, Yefeng Zheng(参考訳) タスク指向ダイアログシステムでは、RLのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむReinforcement Learning(RL)ベースのダイアログ管理モジュールをトレーニングする場合、RLのトレーニング時に適切な報酬を与えるための多くの戦略が提案されているが、その報酬は解釈可能性に欠け、実際のダイアログにおける状態-動作ペアの分布を正確に見積もることはできない。 本稿では,報酬をドメイン,アクタ,スロットという3つの階層に分解する多段階報酬モデリング手法を提案する。 提案手法は, 逆敵強化学習に基づき, ステートアクションペアに対してより正確かつ説明可能な報奨信号を与えることができ, 拡張的評価により, 幅広い強化学習に基づく対話システムに適用でき, 性能と収束速度が大幅に向上することを示す。

For task-oriented dialog systems, training a Reinforcement Learning (RL) based Dialog Management module suffers from low sample efficiency and slow convergence speed due to the sparse rewards in RL.To solve this problem, many strategies have been proposed to give proper rewards when training RL, but their rewards lack interpretability and cannot accurately estimate the distribution of state-action pairs in real dialogs. In this paper, we propose a multi-level reward modeling approach that factorizes a reward into a three-level hierarchy: domain, act, and slot. Based on inverse adversarial reinforcement learning, our designed reward model can provide more accurate and explainable reward signals for state-action pairs.Extensive evaluations show that our approach can be applied to a wide range of reinforcement learning-based dialog systems and significantly improves both the performance and the speed of convergence.
翻訳日:2021-04-13 14:43:03 公開日:2021-04-10
# 感性に基づくNMT候補選択

Sentiment-based Candidate Selection for NMT ( http://arxiv.org/abs/2104.04840v1 )

ライセンス: Link先を確認
Alex Jones, Derry Tanti Wijaya(参考訳) ユーザ生成コンテンツ(UGC)の爆発など。 ソーシャルメディアの投稿、コメント、レビューは、このような非公式テキストに合わせたNLPアプリケーションの開発を動機付けている。 これらの応用には感情分析と機械翻訳(MT)がある。 UGCが高度に慣用的で感傷的な言語を特徴とする観察に基づいて,自動感情スコアをMT候補選択プロセスに組み込むデコーダ側アプローチを提案する。 英語とスペイン語の感情分類器を分離し,ベースラインmtモデルで生成されたn-best候補をビーム探索で学習し,ソース文の感情スコアと翻訳文の感情スコアとの絶対差を最小化する候補を選択し,人間による評価を行い,生成した翻訳を評価する。 従来の作業と異なり、例えば、ソース文の感情スコアや翻訳を連続的な間隔で考慮することで、この極端に異なる翻訳を選択する。 よりきめ細かい翻訳候補の選択を可能にするバイナリ分類。 人的評価の結果,感情に基づくパイプラインを構築したオープンソースのMTベースラインモデルと比較して,我々のパイプラインは口語,感情重大なソーステキストのより正確な翻訳を生成することがわかった。

The explosion of user-generated content (UGC)--e.g. social media posts, comments, and reviews--has motivated the development of NLP applications tailored to these types of informal texts. Prevalent among these applications have been sentiment analysis and machine translation (MT). Grounded in the observation that UGC features highly idiomatic, sentiment-charged language, we propose a decoder-side approach that incorporates automatic sentiment scoring into the MT candidate selection process. We train separate English and Spanish sentiment classifiers, then, using n-best candidates generated by a baseline MT model with beam search, select the candidate that minimizes the absolute difference between the sentiment score of the source sentence and that of the translation, and perform a human evaluation to assess the produced translations. Unlike previous work, we select this minimally divergent translation by considering the sentiment scores of the source sentence and translation on a continuous interval, rather than using e.g. binary classification, allowing for more fine-grained selection of translation candidates. The results of human evaluations show that, in comparison to the open-source MT baseline model on top of which our sentiment-based pipeline is built, our pipeline produces more accurate translations of colloquial, sentiment-heavy source texts.
翻訳日:2021-04-13 14:42:44 公開日:2021-04-10
# 依存関係解析における高速言語間適応のためのメタラーニング

Meta-learning for fast cross-lingual adaptation in dependency parsing ( http://arxiv.org/abs/2104.04736v1 )

ライセンス: Link先を確認
Anna Langedijk, Verna Dankers, Sander Bos, Bryan Cardenas Guevara, Helen Yannakoudakis, Ekaterina Shutova(参考訳) メタラーニング(meta-learning)は、言語間nlp問題におけるリソース不足を克服するために、新しいタスクへの迅速な適応を可能にするテクニックである。 言語間依存関係解析のタスクにモデル非依存型メタラーニング(maml)を適用する。 我々は、新しい言語に迅速に適応できるパラメータ初期化を学ぶために、多様な言語でモデルを訓練する。 事前学習によるメタラーニングは,多種多様・多種多様・低リソースな言語に対して,言語伝達性能と標準教師あり学習ベースラインを大幅に向上させることができる。

Meta-learning, or learning to learn, is a technique that can help to overcome resource scarcity in cross-lingual NLP problems, by enabling fast adaptation to new tasks. We apply model-agnostic meta-learning (MAML) to the task of cross-lingual dependency parsing. We train our model on a diverse set of languages to learn a parameter initialization that can adapt quickly to new languages. We find that meta-learning with pre-training can significantly improve upon the performance of language transfer and standard supervised learning baselines for a variety of unseen, typologically diverse, and low-resource languages, in a few-shot learning setup.
翻訳日:2021-04-13 14:41:03 公開日:2021-04-10
# FRAKE: 統合リアルタイム自動キーワード抽出

FRAKE: Fusional Real-time Automatic Keyword Extraction ( http://arxiv.org/abs/2104.04830v1 )

ライセンス: Link先を確認
Aidin Zehtab-Salmasi, Mohammad-Reza Feizi-Derakhshi, Mohamad-Ali Balafar(参考訳) キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。 毎日、そしていつでも、電子インフラを通じて、大量のテキストが作成されています。 したがって、人間がこの大量の文書を研究し管理することは事実上不可能である。 しかし、これらの文書への効率的かつ効果的なアクセスの必要性は、様々な目的において明らかである。 Weblogs、News、およびTechnical Notesはほぼ長いテキストであり、読者は全文を読むためのトピックやキーワードによる概念を理解しようとしている。 この目的のために、グラフ中心性特徴とテクスチャ特徴の2つのモデルからなる組み合わせアプローチを用いる。 提案手法により抽出された候補キーワードの中から最適なキーワードを抽出するために,次に掲げるグラフ中心性(度数,差分,固有ベクトル,近接度中心性)を用いて最適に組み合わせた。 また、キーワードを候補句と区別し、別のキーワードとして考えるアプローチも導入されている。 提案手法を評価するために,semeval2010,semeval2017,inspec,fao30,thesis100,pak2018,wikinewsの7つのデータセットが用いられ,精度,リコール,f-測度が報告されている。

Keyword extraction is called identifying words or phrases that express the main concepts of texts in best. There is a huge amount of texts that are created every day and at all times through electronic infrastructure. So, it is practically impossible for humans to study and manage this volume of documents. However, the need for efficient and effective access to these documents is evident in various purposes. Weblogs, News, and technical notes are almost long texts, while the reader seeks to understand the concepts by topics or keywords to decide for reading the full text. To this aim, we use a combined approach that consists of two models of graph centrality features and textural features. In the following, graph centralities, such as degree, betweenness, eigenvector, and closeness centrality, have been used to optimally combine them to extract the best keyword among the candidate keywords extracted by the proposed method. Also, another approach has been introduced to distinguishing keywords among candidate phrases and considering them as a separate keyword. To evaluate the proposed method, seven datasets named, Semeval2010, SemEval2017, Inspec, fao30, Thesis100, pak2018 and WikiNews have been used, and results reported Precision, Recall, and F- measure.
翻訳日:2021-04-13 14:40:51 公開日:2021-04-10
# 自動・マーカーレスパーキンソン病評価に向けて:シットスタンドビデオを用いたUPDRSスコアの予測

Towards Automated and Marker-less Parkinson Disease Assessment: Predicting UPDRS Scores using Sit-stand videos ( http://arxiv.org/abs/2104.04650v1 )

ライセンス: Link先を確認
Deval Mehta, Umar Asif, Tian Hao, Erhan Bilal, Stefan Von Cavallar, Stefan Harrer, Jeffrey Rogers(参考訳) 本稿では,クリニックや自宅で使用できるUPDRS(Unified Parkinsons Disease Rating Scale)を評価するための,新たな深層学習型ビデオベース分析フレームワークを提案する。 パーキンソン病(pd)患者32名を対象に, 枠組みの性能と訓練を受けた臨床医の成績を比較した。 訓練された神経学者による対人臨床評価は、我々の枠組みを訓練し、パフォーマンスを比較するための基礎的真実として用いられる。 ブラジキネジア(brady)と姿勢不安定および歩行障害(pigd)のupdrsサブスコアを評価するのに標準のsit-to-stand活動が利用できることがわかった。 bradyの場合、このフレームワークを使ってf1-scoresは0.75、ビデオベースのrater cliniciansは0.50、piddでは0.78、ビデオベースのrater cliniciansは0.45である。 提案手法は,介護施設等の空間におけるPD進行の受動的追跡,在宅自己評価,遠隔医療の強化など,患者や臨床医に負担をかけることなく,より粒度の大きいPD終端点を臨床に許容できる可能性があると考えている。

This paper presents a novel deep learning enabled, video based analysis framework for assessing the Unified Parkinsons Disease Rating Scale (UPDRS) that can be used in the clinic or at home. We report results from comparing the performance of the framework to that of trained clinicians on a population of 32 Parkinsons disease (PD) patients. In-person clinical assessments by trained neurologists are used as the ground truth for training our framework and for comparing the performance. We find that the standard sit-to-stand activity can be used to evaluate the UPDRS sub-scores of bradykinesia (BRADY) and posture instability and gait disorders (PIGD). For BRADY we find F1-scores of 0.75 using our framework compared to 0.50 for the video based rater clinicians, while for PIGD we find 0.78 for the framework and 0.45 for the video based rater clinicians. We believe our proposed framework has potential to provide clinically acceptable end points of PD in greater granularity without imposing burdens on patients and clinicians, which empowers a variety of use cases such as passive tracking of PD progression in spaces such as nursing homes, in-home self-assessment, and enhanced tele-medicine.
翻訳日:2021-04-13 14:39:54 公開日:2021-04-10
# FreSaDa: クロスドメインなSatire検出のためのフランスのSatireデータセット

FreSaDa: A French Satire Data Set for Cross-Domain Satire Detection ( http://arxiv.org/abs/2104.04828v1 )

ライセンス: Link先を確認
Radu Tudor Ionescu, Adrian Gabriel Chifu(参考訳) 本稿では,ニュースドメインの11,570記事からなるフランス語Satire Data SetであるFreSaDaを紹介する。 本研究は,出版元固有の特徴の学習による不当に高い精度の報告を避けるため,本研究のサンプルを,学習・検証・試験に分割し,評価・試験用出版元と区別した。 これにより、クロスドメイン(クロスソース)の風刺検出タスクが発生する。 我々は,新しいデータセットのベースラインとして,低レベル特徴(文字n-gram)に基づく分類法と,高レベル特徴(CamemBERT単語埋め込みの平均値)に基づく分類法を用いる。 追加の貢献として,訓練試料と検証試料とのペアワイズ類似性(ドット積による)を特徴として,教師なしドメイン適応法を提案する。 これらのドメイン固有の機能を含めることで、キャラクタn-gramとCamemBERTの埋め込みの両方で大幅に改善されました。

In this paper, we introduce FreSaDa, a French Satire Data Set, which is composed of 11,570 articles from the news domain. In order to avoid reporting unreasonably high accuracy rates due to the learning of characteristics specific to publication sources, we divided our samples into training, validation and test, such that the training publication sources are distinct from the validation and test publication sources. This gives rise to a cross-domain (cross-source) satire detection task. We employ two classification methods as baselines for our new data set, one based on low-level features (character n-grams) and one based on high-level features (average of CamemBERT word embeddings). As an additional contribution, we present an unsupervised domain adaptation method based on regarding the pairwise similarities (given by the dot product) between the training samples and the validation samples as features. By including these domain-specific features, we attain significant improvements for both character n-grams and CamemBERT embeddings.
翻訳日:2021-04-13 14:38:52 公開日:2021-04-10
# ランダムインターセクションチェーン

Random Intersection Chains ( http://arxiv.org/abs/2104.04714v1 )

ライセンス: Link先を確認
Qiuqiang Lin, Chuanhou Gao(参考訳) いくつかの特徴間の相互作用は、予測タスクにおいて重要な役割を果たすことがある。 しかし、すべての相互作用を考慮に入れると、非常に重い計算負担が発生する。 分類的特徴については、入力が非常に高次元で、ワンホット符号化が適用されればスパースになるので、状況はより複雑になる。 連関規則マイニングに触発されて,ランダム交叉連鎖と呼ばれるカテゴリー特徴の相互作用を選択する手法を提案する。 ランダムな交差点を使って頻繁なパターンを検出し、最も有意義なパターンを選択する。 最初は複数の連鎖が生成され、各ノードは前ノードの交叉であり、ランダムに選択された観測である。 テールノード内のパターンの頻度を最大確率推定により推定し、最も推定頻度の高いパターンを選択する。 その後、彼らの信頼度はベイズの定理によって計算される。 最も自信のあるパターンはRandom Intersection Chainsによって最終的に返される。 連鎖の数と長さが適切に選択された場合、尾ノードのパターンはデータセットの中では最も頻繁なパターンであることを示す。 提案アルゴリズムの計算複雑性を解析し,推定器の収束性を証明する。 一連の実験の結果、アルゴリズムの効率と有効性が検証された。

Interactions between several features sometimes play an important role in prediction tasks. But taking all the interactions into consideration will lead to an extremely heavy computational burden. For categorical features, the situation is more complicated since the input will be extremely high-dimensional and sparse if one-hot encoding is applied. Inspired by association rule mining, we propose a method that selects interactions of categorical features, called Random Intersection Chains. It uses random intersections to detect frequent patterns, then selects the most meaningful ones among them. At first a number of chains are generated, in which each node is the intersection of the previous node and a random chosen observation. The frequency of patterns in the tail nodes is estimated by maximum likelihood estimation, then the patterns with largest estimated frequency are selected. After that, their confidence is calculated by Bayes' theorem. The most confident patterns are finally returned by Random Intersection Chains. We show that if the number and length of chains are appropriately chosen, the patterns in the tail nodes are indeed the most frequent ones in the data set. We analyze the computation complexity of the proposed algorithm and prove the convergence of the estimators. The results of a series of experiments verify the efficiency and effectiveness of the algorithm.
翻訳日:2021-04-13 14:33:55 公開日:2021-04-10
# SGDが不規則に一般化エラーを正規化

SGD Implicitly Regularizes Generalization Error ( http://arxiv.org/abs/2104.04874v1 )

ライセンス: Link先を確認
Daniel A. Roberts(参考訳) 我々は、勾配降下更新による一般化ギャップの変化に対する、単純でモデルに依存しない公式を導出する。 次に,確率勾配降下に対するテスト誤差の変化と等価な勾配降下更新数からのテスト誤差の変化を比較し,確率勾配降下が近傍更新を関連づけることで一般化誤差を正則化することを示す。 これらの計算は、特定の興味を持つモデルに対して容易に測定できる勾配分布の平均と共分散を通してのみモデルの詳細に依存する。 これらの計算のさらなる改善と確率的最適化の可能性について述べる。

We derive a simple and model-independent formula for the change in the generalization gap due to a gradient descent update. We then compare the change in the test error for stochastic gradient descent to the change in test error from an equivalent number of gradient descent updates and show explicitly that stochastic gradient descent acts to regularize generalization error by decorrelating nearby updates. These calculations depends on the details of the model only through the mean and covariance of the gradient distribution, which may be readily measured for particular models of interest. We discuss further improvements to these calculations and comment on possible implications for stochastic optimization.
翻訳日:2021-04-13 14:33:38 公開日:2021-04-10
# ユニバーサルブラックボックス領域適応について

On Universal Black-Box Domain Adaptation ( http://arxiv.org/abs/2104.04665v1 )

ライセンス: Link先を確認
Bin Deng, Yabin Zhang, Hui Tang, Changxing Ding, Kui Jia(参考訳) 本稿では,ターゲットドメインに対してソースモデルのインターフェースのみを利用可能とし,2つのドメイン間のラベル空間関係が異なったり未知になったりする,実用的なデプロイメントの観点から,少なくとも限定的なドメイン適応設定について検討する。 そのような設定をUniversal Black-Box Domain Adaptation (UB$^2$DA) と呼ぶ。 しかしUB$^2$DAが果たす大きな約束は、ドメイン適応は、ソースモデルのインターフェースにアクセスすることで、部分的に重なり合うラベル空間におけるラベルのないターゲットデータの予測にのみ依存するため、大きな学習課題をもたらす。 この課題に対処するために、まず、学習タスクを2つのサブタスクとして in-class\footnote{In this paper, we use in-class (out-class) to describe the class in-class (not observed) in the source black-box model。 識別とクラス外検出は、それぞれモデル蒸留とエントロピー分離によって学習できる。 対象サンプルの局所的近傍における予測の整合性によって正規化された自己学習フレームワークに統一することを提案する。 私たちのフレームワークはシンプルで堅牢で、最適化が容易です。 ドメイン適応ベンチマークの実験は、その効果を示している。 特に、ソースモデルのみのインターフェースにアクセスすることで、我々のフレームワークは、ソースデータや/またはソースモデルを利用する既存のユニバーサルドメイン適応手法をHスコアの新たな(そしてより合理的な)メトリックで上回り、平均的なクラス精度のメトリックと同等に実行します。

In this paper, we study an arguably least restrictive setting of domain adaptation in a sense of practical deployment, where only the interface of source model is available to the target domain, and where the label-space relations between the two domains are allowed to be different and unknown. We term such a setting as Universal Black-Box Domain Adaptation (UB$^2$DA). The great promise that UB$^2$DA makes, however, brings significant learning challenges, since domain adaptation can only rely on the predictions of unlabeled target data in a partially overlapped label space, by accessing the interface of source model. To tackle the challenges, we first note that the learning task can be converted as two subtasks of in-class\footnote{In this paper we use in-class (out-class) to describe the classes observed (not observed) in the source black-box model.} discrimination and out-class detection, which can be respectively learned by model distillation and entropy separation. We propose to unify them into a self-training framework, regularized by consistency of predictions in local neighborhoods of target samples. Our framework is simple, robust, and easy to be optimized. Experiments on domain adaptation benchmarks show its efficacy. Notably, by accessing the interface of source model only, our framework outperforms existing methods of universal domain adaptation that make use of source data and/or source models, with a newly proposed (and arguably more reasonable) metric of H-score, and performs on par with them with the metric of averaged class accuracy.
翻訳日:2021-04-13 14:32:50 公開日:2021-04-10
# ZS-BERT:属性表現学習によるゼロショット関係抽出に向けて

ZS-BERT: Towards Zero-Shot Relation Extraction with Attribute Representation Learning ( http://arxiv.org/abs/2104.04697v1 )

ライセンス: Link先を確認
Chih-Yao Chen, Cheng-Te Li(参考訳) 関係抽出は知識獲得と表現において必須の課題であり、実世界では新たな生成関係が一般的である一方で、訓練段階では観察できない未知の関係を予測しようとする努力は少ない。 本稿では, ゼロショット関係抽出問題を, 目に見えない関係のテキスト記述を取り入れて定式化する。 本研究では,手作りの属性ラベルや複数対の分類を使わずに,目に見えない関係を直接予測する,新しいマルチタスク学習モデルであるゼロショットBERT(ZS-BERT)を提案する。 ZS-BERTは、入力文とそれらの関係の記述からなる訓練例を前提として、文と関係記述を埋め込み空間に投影する2つの関数を、それらの間の距離を最小化し、目に見える関係を分類することによって学習する。 このような2つの機能に基づいて、未知の関係と新しい文の埋め込みを生成することにより、近接探索を用いて未知の関係の予測を得る。 2つのよく知られたデータセットで実施された実験では、ZS-BERTはF1スコアに対して少なくとも13.54 %改善することで既存の手法より優れていることが示されている。

While relation extraction is an essential task in knowledge acquisition and representation, and new-generated relations are common in the real world, less effort is made to predict unseen relations that cannot be observed at the training stage. In this paper, we formulate the zero-shot relation extraction problem by incorporating the text description of seen and unseen relations. We propose a novel multi-task learning model, zero-shot BERT (ZS-BERT), to directly predict unseen relations without hand-crafted attribute labeling and multiple pairwise classifications. Given training instances consisting of input sentences and the descriptions of their relations, ZS-BERT learns two functions that project sentences and relation descriptions into an embedding space by jointly minimizing the distances between them and classifying seen relations. By generating the embeddings of unseen relations and new-coming sentences based on such two functions, we use nearest neighbor search to obtain the prediction of unseen relations. Experiments conducted on two well-known datasets exhibit that ZS-BERT can outperform existing methods by at least 13.54\% improvement on F1 score.
翻訳日:2021-04-13 14:29:02 公開日:2021-04-10
# Selection-Expansion:Motion-Planning and Diversity Search Algorithmの統一フレームワーク

Selection-Expansion: A Unifying Framework for Motion-Planning and Diversity Search Algorithms ( http://arxiv.org/abs/2104.04768v1 )

ライセンス: Link先を確認
Alexandre Chenu, Nicolas Perrin-Gilbert, St\'ephane Doncieux, Olivier Sigaud(参考訳) 強化学習エージェントは、成功政策を学ぶために報酬信号を必要とする。 この信号が粗い場合や、それに対応する勾配が欺かれる場合、報酬に頼らずに探索空間を効率的に探索する専用のメカニズムが必要である。 行動の多様さやMP(Motion Planning)アルゴリズムの使用は、この文脈における2つの選択肢である。 本稿では,これら2つの選択肢間の共通ルーツに基づいて,2つの多様性探索アルゴリズム(ノベルティ探索法と目標探索法)の特性について検討する。 これらのアルゴリズムは、一般的に与えられたタスクにとって重要なものを表現するために手作業で設計された結果空間や行動空間の多様性を探索する。 MPアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさや滑らかさの欠如が、探索効率において重要な役割を果たすことを示している。 特に、マッピングが十分滑らかであれば、すなわち、実証的に示す。 パラメータ空間における2つの密接なポリシーが同様の結果をもたらす場合、多様性アルゴリズムはMPアルゴリズムの探索特性を継承する傾向がある。 対照的に、もしそうでなければ、多様性アルゴリズムはこれらの特性を失い、それらの性能は特定のヒューリスティック、特に検討されたポリシーを廃止するフィルタリング機構に大きく依存する。

Reinforcement learning agents need a reward signal to learn successful policies. When this signal is sparse or the corresponding gradient is deceptive, such agents need a dedicated mechanism to efficiently explore their search space without relying on the reward. Looking for a large diversity of behaviors or using Motion Planning (MP) algorithms are two options in this context. In this paper, we build on the common roots between these two options to investigate the properties of two diversity search algorithms, the Novelty Search and the Goal Exploration Process algorithms. These algorithms look for diversity in an outcome space or behavioral space which is generally hand-designed to represent what matters for a given task. The relation to MP algorithms reveals that the smoothness, or lack of smoothness of the mapping between the policy parameter space and the outcome space plays a key role in the search efficiency. In particular, we show empirically that, if the mapping is smooth enough, i.e. if two close policies in the parameter space lead to similar outcomes, then diversity algorithms tend to inherit exploration properties of MP algorithms. By contrast, if it is not, diversity algorithms lose these properties and their performance strongly depends on specific heuristics, notably filtering mechanisms that discard some of the explored policies.
翻訳日:2021-04-13 14:28:24 公開日:2021-04-10
# ピラミッド貯留層グラフニューラルネットワーク

Pyramidal Reservoir Graph Neural Network ( http://arxiv.org/abs/2104.04710v1 )

ライセンス: Link先を確認
Filippo Maria Bianchi, Claudio Gallicchio, Alessio Micheli(参考訳) 本稿では2種類の層を置換するディープグラフニューラルネットワーク(GNN)モデルを提案する。 最初のタイプはReservoir Computing (RC) にインスパイアされ、固定点に収束するまで非線形マップを繰り返すことで新しい頂点機能を生成する。 第2のタイプのレイヤはグラフプーリング処理を実装し、サポートグラフと頂点の特徴を徐々に減少させ、RCベースのGNNの計算効率をさらに向上させる。 したがって、建築はピラミッド的である。 最後の層では、残りの頂点の特徴を1つのベクトルに結合し、グラフの埋め込みを表す。 本論文で紹介された数学的導出により,グラフプーリングはモデルの計算複雑性を低減し,頂点特徴の動的更新の収束を高速化できることを示す。 RCベースGNNの設計に対する我々の提案したアプローチは、精度と複雑性のトレードオフを有利かつ原則的に提供し、大規模なグラフデータセットの実験において広範囲に実証する。

We propose a deep Graph Neural Network (GNN) model that alternates two types of layers. The first type is inspired by Reservoir Computing (RC) and generates new vertex features by iterating a non-linear map until it converges to a fixed point. The second type of layer implements graph pooling operations, that gradually reduce the support graph and the vertex features, and further improve the computational efficiency of the RC-based GNN. The architecture is, therefore, pyramidal. In the last layer, the features of the remaining vertices are combined into a single vector, which represents the graph embedding. Through a mathematical derivation introduced in this paper, we show formally how graph pooling can reduce the computational complexity of the model and speed-up the convergence of the dynamical updates of the vertex features. Our proposed approach to the design of RC-based GNNs offers an advantageous and principled trade-off between accuracy and complexity, which we extensively demonstrate in experiments on a large set of graph datasets.
翻訳日:2021-04-13 14:26:49 公開日:2021-04-10
# 構造的および合成機能的MRIデータを用いたアルツハイマー病の神経画像信号の深層学習による同定

Deep Learning Identifies Neuroimaging Signatures of Alzheimer's Disease Using Structural and Synthesized Functional MRI Data ( http://arxiv.org/abs/2104.04672v1 )

ライセンス: Link先を確認
Nanyan Zhu, Chen Liu, Xinyang Feng, Dipika Sikka, Sabrina Gjerswold-Selleck, Scott A. Small, Jia Guo(参考訳) 現在の神経イメージング技術は、脳の構造と機能を調べるための経路を提供し、アルツハイマー病(AD)の理解に大きな進歩をもたらした。 しかし、この疾患の調査や理解に広く用いられるグループレベルの分析は、個人の診断には適用できない。 近年,3次元脳画像の大規模複雑なパターンを効率的に解析できる深層学習が,疾患分類の正確かつ自動化により,コンピュータ支援による個人診断の道を開くのに役立っている。 より利用可能な構造的MRIデータに基づいて、ディープラーニングモデルによるADの分類に大きな進歩が見られた。 スケールマッチングされた機能的神経画像データの欠如は、病態の機能的変化を観察することによって、そのようなモデルをさらに改善することを防ぐ。 そこで本研究では,まず脳mriで構造から機能への変換を学習し,大規模構造スキャンから空間的に整合した機能画像の合成を行う。 健常者からAD患者を識別するための計算モデルを構築し, 構造的, 合成された機能的脳像を同一モデルに組み合わせた結果, 性能向上効果が示された。 さらに, 側頭葉を最も予測的構造領域とし, 頭頂頭頂葉を最も予測的機能領域と同定した。 今回我々は,AD分類に影響を及ぼし,ADのニューロイメージング・シグネチャを同定するために,大規模構造と合成MRIを用いたディープラーニングの可能性を示す。

Current neuroimaging techniques provide paths to investigate the structure and function of the brain in vivo and have made great advances in understanding Alzheimer's disease (AD). However, the group-level analyses prevalently used for investigation and understanding of the disease are not applicable for diagnosis of individuals. More recently, deep learning, which can efficiently analyze large-scale complex patterns in 3D brain images, has helped pave the way for computer-aided individual diagnosis by providing accurate and automated disease classification. Great progress has been made in classifying AD with deep learning models developed upon increasingly available structural MRI data. The lack of scale-matched functional neuroimaging data prevents such models from being further improved by observing functional changes in pathophysiology. Here we propose a potential solution by first learning a structural-to-functional transformation in brain MRI, and further synthesizing spatially matched functional images from large-scale structural scans. We evaluated our approach by building computational models to discriminate patients with AD from healthy normal subjects and demonstrated a performance boost after combining the structural and synthesized functional brain images into the same model. Furthermore, our regional analyses identified the temporal lobe to be the most predictive structural-region and the parieto-occipital lobe to be the most predictive functional-region of our model, which are both in concordance with previous group-level neuroimaging findings. Together, we demonstrate the potential of deep learning with large-scale structural and synthesized functional MRI to impact AD classification and to identify AD's neuroimaging signatures.
翻訳日:2021-04-13 14:26:35 公開日:2021-04-10
# 沿岸洪水の可視化のための物理的に一貫性のある生成逆ネットワーク

Physically-Consistent Generative Adversarial Networks for Coastal Flood Visualization ( http://arxiv.org/abs/2104.04785v1 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Brandon Leshchinskiy, Christian Requena-Mesa, Farrukh Chishtie, Natalia D\'iaz-Rodr\'iguez, Oc\'eane Boulais, Aruna Sankaranarayanan, Aaron Pi\~na, Yarin Gal, Chedy Ra\"issi, Alexander Lavin, Dava Newman(参考訳) 気候変動が自然災害の激しさを増すにつれ、社会は適応のためのより良いツールを必要としている。 例えば、洪水は最も頻繁な自然災害であり、洪水リスクコミュニケーションのためのより良いツールが洪水耐性のあるインフラ開発のサポートを増加させる可能性がある。 本研究の目的は,衛星画像として沿岸洪水モデルの出力を可視化することにより,大規模気候影響のより視覚的なコミュニケーションを可能にすることである。 合成視覚衛星画像の物理的整合性を確保するための,最初のディープラーニングパイプラインを提案する。 我々は,Pix2pixHDと呼ばれる最先端のGANを開発し,NOAA SLOSH(NoAA SLOSH)の出力と物理的に一致した画像を生成する。 物理ベースのフラッドマップと比較して画像を評価することにより,提案手法が物理一貫性とフォトリアリズムの両方においてベースラインモデルを上回ることを見出した。 われわれの研究は、気候変動が私たちの風景をどう形作るかを世界規模で視覚化する第一歩になることを期待している。 この道を進むと,北極海氷の融解を可視化するパイプラインが一般化することを示す。 また,25k以上のラベル付き画像ペアのデータセットを公開し,地球観測における画像間変換の研究を行った。

As climate change increases the intensity of natural disasters, society needs better tools for adaptation. Floods, for example, are the most frequent natural disaster, and better tools for flood risk communication could increase the support for flood-resilient infrastructure development. Our work aims to enable more visual communication of large-scale climate impacts via visualizing the output of coastal flood models as satellite imagery. We propose the first deep learning pipeline to ensure physical-consistency in synthetic visual satellite imagery. We advanced a state-of-the-art GAN called pix2pixHD, such that it produces imagery that is physically-consistent with the output of an expert-validated storm surge model (NOAA SLOSH). By evaluating the imagery relative to physics-based flood maps, we find that our proposed framework outperforms baseline models in both physical-consistency and photorealism. We envision our work to be the first step towards a global visualization of how climate change shapes our landscape. Continuing on this path, we show that the proposed pipeline generalizes to visualize arctic sea ice melt. We also publish a dataset of over 25k labelled image-pairs to study image-to-image translation in Earth observation.
翻訳日:2021-04-13 14:26:09 公開日:2021-04-10
# 深度監視型位置決め

Deep Weakly Supervised Positioning ( http://arxiv.org/abs/2104.04866v1 )

ライセンス: Link先を確認
Ruoyu Wang, Xuchu Xu, Li Ding, Yang Huang, Chen Feng(参考訳) PoseNetは、写真を撮影位置にマッピングすることができる。 しかし、PoseNetのトレーニングには完全な監督が必要である。 PoseNetは各観測の真理位置を知らずにトレーニングできますか? 制約ベースの弱いスーパービジョンによって実現可能であることを示し、提案したフレームワークであるDeepGPSに導いた。 特に、PoseNet出力間の制約として、ランダムな直線セグメントに沿ってロボットが移動した車輪エンコーダ推定距離を用いて、DeepGPSは相対的な位置決め誤差を2%未満で達成できる。 さらに、DeepGPSのトレーニングは、人間の参加がほとんどない自動校正(auto-calibration)として行うことができ、通常は注意と専門家レベルの手動校正を必要とする競合する手法よりも魅力的である。 我々は,DeepGPSの汎用性,有効性,精度を実証するために,シミュレーションおよび実データを用いた様々な実験を行い,その堅牢性に関する包括的解析を行った。 私たちのコードはhttps://ai4ce.github.io/DeepGPS/で利用可能です。

PoseNet can map a photo to the position where it is taken, which is appealing in robotics. However, training PoseNet requires full supervision, where ground truth positions are non-trivial to obtain. Can we train PoseNet without knowing the ground truth positions for each observation? We show that this is possible via constraint-based weak-supervision, leading to the proposed framework: DeepGPS. Particularly, using wheel-encoder-estimated distances traveled by a robot along random straight line segments as constraints between PoseNet outputs, DeepGPS can achieve a relative positioning error of less than 2%. Moreover, training DeepGPS can be done as auto-calibration with almost no human attendance, which is more attractive than its competing methods that typically require careful and expert-level manual calibration. We conduct various experiments on simulated and real datasets to demonstrate the general applicability, effectiveness, and accuracy of DeepGPS, and perform a comprehensive analysis of its robustness. Our code is available at https://ai4ce.github.io/DeepGPS/.
翻訳日:2021-04-13 14:25:50 公開日:2021-04-10
# Fool Me Twice: Wikipediaのゲーミフィケーションからのヒント

Fool Me Twice: Entailment from Wikipedia Gamification ( http://arxiv.org/abs/2104.04725v1 )

ライセンス: Link先を確認
Julian Martin Eisenschlos, Bhuwan Dhingra, Jannis Bulian, Benjamin B\"orschinger, Jordan Boyd-Graber(参考訳) foolmetwice (fm2:略してfm2)は、楽しいマルチプレイヤーゲームを通じて収集された、挑戦的な包括ペアの大規模なデータセットである。 ゲーミフィケーションは逆の例を奨励し、「ショートカット」を使って解決できる例の数を他の一般的な補足データセットと比較して劇的に削減する。 プレイヤーには2つの課題がある。 最初のタスクは、ウィキペディアページからの証拠に基づいて、プレイヤに妥当なクレームを書くように要求する。 2つ目は、他のプレイヤーが書いた2つの正当な主張を示し、そのうちの1つは虚偽であり、ゴールは時間が切れる前にそれを識別することである。 プレイヤーは証拠プールから得られた手がかりを見るために「支払う」:プレイヤーが必要とする証拠が増えるほど、クレームが難しくなる。 モチベーションのあるプレイヤー間のゲームプレイは、時間的推論や無関係なエビデンスへの分岐など、クレームを作るための多様な戦略をもたらし、エンテーメントとエビデンス検索タスクの質の高いデータをもたらす。 私たちはデータセットとゲームコードをオープンソース化します。

We release FoolMeTwice (FM2 for short), a large dataset of challenging entailment pairs collected through a fun multi-player game. Gamification encourages adversarial examples, drastically lowering the number of examples that can be solved using "shortcuts" compared to other popular entailment datasets. Players are presented with two tasks. The first task asks the player to write a plausible claim based on the evidence from a Wikipedia page. The second one shows two plausible claims written by other players, one of which is false, and the goal is to identify it before the time runs out. Players "pay" to see clues retrieved from the evidence pool: the more evidence the player needs, the harder the claim. Game-play between motivated players leads to diverse strategies for crafting claims, such as temporal inference and diverting to unrelated evidence, and results in higher quality data for the entailment and evidence retrieval tasks. We open source the dataset and the game code.
翻訳日:2021-04-13 14:23:20 公開日:2021-04-10
# NLI Data Sanity Check: データ破壊がモデルパフォーマンスに与える影響を評価する

NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model Performance ( http://arxiv.org/abs/2104.04751v1 )

ライセンス: Link先を確認
Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis, J\"org Tiedemann(参考訳) 事前学習されたニューラルネットワークモデルは、自然言語推論(NLI)タスクに高いパフォーマンスを与える。 しかし、実際に処理された配列の意味を理解するかどうかは不明だ。 本稿では,データセットがモデルの意味理解能力を評価するための優れたテストベッドを構成するかどうかを評価するための新しい診断テストスイートを提案する。 特に,広く使用されているベンチマーク (MNLI と ANLI) に制御汚職変換を適用し,単語のクラス全体を取り除き,非意味な文対につながることが多い。 破損したデータのモデル精度が高ければ、データセットは予測を導く統計バイアスとアーティファクトを含む可能性が高い。 逆に、モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な課題をもたらすことを示している。 したがって,提案する制御は,nliタスクの高品質データ開発のためのクラッシュテストとして機能する。

Pre-trained neural language models give high performance on natural language inference (NLI) tasks. But whether they actually understand the meaning of the processed sequences remains unclear. We propose a new diagnostics test suite which allows to assess whether a dataset constitutes a good testbed for evaluating the models' meaning understanding capabilities. We specifically apply controlled corruption transformations to widely used benchmarks (MNLI and ANLI), which involve removing entire word classes and often lead to non-sensical sentence pairs. If model accuracy on the corrupted data remains high, then the dataset is likely to contain statistical biases and artefacts that guide prediction. Inversely, a large decrease in model accuracy indicates that the original dataset provides a proper challenge to the models' reasoning capabilities. Hence, our proposed controls can serve as a crash test for developing high quality data for NLI tasks.
翻訳日:2021-04-13 14:23:01 公開日:2021-04-10
# 重複しないマルチカメラシステムを用いた大規模屋内空間における人体移動

Unveiling personnel movement in a larger indoor area with a non-overlapping multi-camera system ( http://arxiv.org/abs/2104.04662v1 )

ライセンス: Link先を確認
Ping Zhang, Zhenxiang Tao, Wenjie Yang, Minze Chen, Shan Ding, Xiaodong Liu, Rui Yang, Hui Zhang(参考訳) サーベイランスカメラは、エネルギー管理と社会保障を構築するのに役立つ屋内占有率測定と人間の運動知覚に広く応用されている。 本研究では,カメラ間コラボレーションの欠如に加えて,単一カメラの視野角の制限という課題に対処するため,監視領域を拡大する非重複マルチカメラシステムを提案し,異なるカメラビューから同一人物を検索することに専念する。 システムはオフィスビルに展開され、4日間のビデオが収集される。 深層畳み込みニューラルネットワークを訓練することにより,提案するシステムは,まず,異なるカメラから検出された各個人画像の出現特徴埋め込みを,類似性比較のために抽出する。 そして、確率的カメラ間遷移行列を外観特徴に関連付けて人物再識別ランキング結果をさらに改善する。 最後に、マッチング改善を分析するためにノイズ抑制説明を行う。 本稿では,重複しない複数のカメラを用いた室内運動知覚のスコープを拡大し,センサの追加を必要とせず,歩行者再識別の精度を向上させる。

Surveillance cameras are widely applied for indoor occupancy measurement and human movement perception, which benefit for building energy management and social security. To address the challenges of limited view angle of single camera as well as lacking of inter-camera collaboration, this study presents a non-overlapping multi-camera system to enlarge the surveillance area and devotes to retrieve the same person appeared from different camera views. The system is deployed in an office building and four-day videos are collected. By training a deep convolutional neural network, the proposed system first extracts the appearance feature embeddings of each personal image, which detected from different cameras, for similarity comparison. Then, a stochastic inter-camera transition matrix is associated with appearance feature for further improving the person re-identification ranking results. Finally, a noise-suppression explanation is given for analyzing the matching improvements. This paper expands the scope of indoor movement perception based on non-overlapping multiple cameras and improves the accuracy of pedestrian re-identification without introducing additional types of sensors.
翻訳日:2021-04-13 14:16:58 公開日:2021-04-10
# 未確認ビデオオブジェクト:密集したオープンワールドセグメンテーションのためのベンチマーク

Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation ( http://arxiv.org/abs/2104.04691v1 )

ライセンス: Link先を確認
Weiyao Wang, Matt Feiszli, Heng Wang, Du Tran(参考訳) 現在の最先端のオブジェクト検出とセグメンテーション手法は、クローズドワールドの仮定の下でうまく機能する。 このクローズドワールド設定は、トレーニングとデプロイメントの間にオブジェクトカテゴリのリストが利用可能であることを前提としている。 しかし、現実世界の多くのアプリケーションは、新しいオブジェクトを検知またはセグメント化する必要がある。 本稿では,ビデオにおけるオープンワールドクラス非依存オブジェクトセグメンテーションのための新しいベンチマーク uvo (unidentified video objects) を提案する。 問題の焦点をオープンワールドにシフトするだけでなく、UVOははるかに大きく、DAVISの約8倍のビデオを提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。 UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。 我々は,オープンワールドオブジェクトセグメンテーション以外に,オブジェクトトラッキングやスーパーボクセルセグメンテーションなど,他のアプリケーションにもUVOが利用できることを示した。 UVoは、オープンワールドのクラスに依存しないオブジェクトセグメンテーションのための新しいアプローチを開発するための、汎用的なテストベッドであると考えています。

Current state-of-the-art object detection and segmentation methods work well under the closed-world assumption. This closed-world setting assumes that the list of object categories is available during training and deployment. However, many real-world applications require detecting or segmenting novel objects, i.e., object categories never seen during training. In this paper, we present, UVO (Unidentified Video Objects), a new benchmark for open-world class-agnostic object segmentation in videos. Besides shifting the problem focus to the open-world setup, UVO is significantly larger, providing approximately 8 times more videos compared with DAVIS, and 7 times more mask (instance) annotations per video compared with YouTube-VOS and YouTube-VIS. UVO is also more challenging as it includes many videos with crowded scenes and complex background motions. We demonstrated that UVO can be used for other applications, such as object tracking and super-voxel segmentation, besides open-world object segmentation. We believe that UVo is a versatile testbed for researchers to develop novel approaches for open-world class-agnostic object segmentation, and inspires new research directions towards a more comprehensive video understanding beyond classification and detection.
翻訳日:2021-04-13 14:16:41 公開日:2021-04-10
# 未知の動作の分類と局所化のためのオブジェクト優先

Object Priors for Classifying and Localizing Unseen Actions ( http://arxiv.org/abs/2104.04715v1 )

ライセンス: Link先を確認
Pascal Mettes, William Thong, Cees G. M. Snoek(参考訳) この研究は、ラベル付きビデオトレーニングの例を必要とせずに、ビデオ内の人間の行動の分類とローカライズに努めている。 既存の作業がグローバル属性やオブジェクト情報を目に見えないアクションビデオに転送することに依存している場合、画像ベースのオブジェクト情報のみから、未認識のアクションを分類し、時空間的にローカライズすることを目指している。 本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。 上述の3つのセマンティックオブジェクト先行処理は、単語埋め込みによるセマンティックマッチングを拡張し、セマンティックなあいまいさ、オブジェクトの識別、オブジェクトの命名に対処する3つの単純な機能を持つ。 ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。 ユーザが指定したオブジェクト、空間関係、およびオブジェクトサイズに基づいて、ビデオコレクション内のアクションチューブを検索する新しいビデオ検索タスクを導入することができる。 5つのアクションデータセットの実験的評価は、未知のアクションに対する空間的および意味的オブジェクト優先の重要性を示している。 複数の言語と単純なオブジェクトフィルタリングを使用することで、意味マッチングが直接改善される一方で、人間とオブジェクトは、未認識のアクションのローカライゼーションとローカライゼーションの両方において最先端の結果をもたらす。

This work strives for the classification and localization of human actions in videos, without the need for any labeled video training examples. Where existing work relies on transferring global attribute or object information from seen to unseen action videos, we seek to classify and spatio-temporally localize unseen actions in videos from image-based object information only. We propose three spatial object priors, which encode local person and object detectors along with their spatial relations. On top we introduce three semantic object priors, which extend semantic matching through word embeddings with three simple functions that tackle semantic ambiguity, object discrimination, and object naming. A video embedding combines the spatial and semantic object priors. It enables us to introduce a new video retrieval task that retrieves action tubes in video collections based on user-specified objects, spatial relations, and object size. Experimental evaluation on five action datasets shows the importance of spatial and semantic object priors for unseen actions. We find that persons and objects have preferred spatial relations that benefit unseen action localization, while using multiple languages and simple object filtering directly improves semantic matching, leading to state-of-the-art results for both unseen action classification and localization.
翻訳日:2021-04-13 14:16:19 公開日:2021-04-10
# われわれは、複数の人からビデオへ転送する。

Do as we do: Multiple Person Video-To-Video Transfer ( http://arxiv.org/abs/2104.04721v1 )

ライセンス: Link先を確認
Mickael Cormier, Houraalsadat Mortazavi Moshkenan, Franz L\"orch, J\"urgen Metzler, J\"urgen Beyerer(参考訳) 私たちのゴールは、実際の人の動きをソースビデオからリアルな結果のターゲットビデオに転送することです。 最近の進歩は画像から画像への翻訳を大幅に改善したが、身体の動きと時間的一貫性を考慮に入れた作品はほとんどない。 ただし、ビデオの再ターゲティングはシングルアクター/シングルアクターのみに焦点を当てている。 本研究では,ポーズを中間表現として用いたマルチ対人ビデオ転送のためのマーカーレス手法を提案する。 複数の人が踊ったりワークアウトしたりするソースビデオが与えられると、この方法はすべての俳優の体の動きを別のビデオ内の新しい俳優群に転送する。 近年の"do as i do"方式とは違って,複数の人物を同時に転送し,関連するアイデンティティスイッチ問題に取り組むことに注力している。 本手法は,床に触れた足や被写体の相対位置など,対象映像の特定の特徴を保ちながら,身体運動を対象映像に説得的に伝達することができる。 評価は、所有者の許可を得た公開ビデオを使用して、視覚品質と外観の指標で行われる。

Our goal is to transfer the motion of real people from a source video to a target video with realistic results. While recent advances significantly improved image-to-image translations, only few works account for body motions and temporal consistency. However, those focus only on video re-targeting for a single actor/ for single actors. In this work, we propose a marker-less approach for multiple-person video-to-video transfer using pose as an intermediate representation. Given a source video with multiple persons dancing or working out, our method transfers the body motion of all actors to a new set of actors in a different video. Differently from recent "do as I do" methods, we focus specifically on transferring multiple person at the same time and tackle the related identity switch problem. Our method is able to convincingly transfer body motion to the target video, while preserving specific features of the target video, such as feet touching the floor and relative position of the actors. The evaluation is performed with visual quality and appearance metrics using publicly available videos with the permission of their owners.
翻訳日:2021-04-13 14:15:56 公開日:2021-04-10
# 咬合誘導型3次元点雲上の自己教師付きシーンフロー推定

Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point Clouds ( http://arxiv.org/abs/2104.04724v1 )

ライセンス: Link先を確認
Bojun Ouyang, Dan Raviv(参考訳) 2つの連続する時間フレーム間のスパースサンプリングポイントの3次元空間でのフローを理解することは、VR/AR、ロボティクス、自律運転といった現代の幾何学駆動システムのコアストーンである。 このタスクの実際の、非シミュレートされたラベル付きデータの欠如は、自己や教師なしのディープアーキテクチャの重要性を強調する。 本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。 ここでは,流れ予測と閉塞検出のスマートな多層融合が,オクルードおよび非オクルードシナリオに対して,従来のアーキテクチャよりも大きなマージンを持つことを示す。 我々はflyingthings3dとkittiデータセットの教師付きおよび自己教師付きトレーニングにおける最新結果について報告する。

Understanding the flow in 3D space of sparsely sampled points between two consecutive time frames is the core stone of modern geometric-driven systems such as VR/AR, Robotics, and Autonomous driving. The lack of real, non-simulated, labeled data for this task emphasizes the importance of self- or un-supervised deep architectures. This work presents a new self-supervised training method and an architecture for the 3D scene flow estimation under occlusions. Here we show that smart multi-layer fusion between flow prediction and occlusion detection outperforms traditional architectures by a large margin for occluded and non-occluded scenarios. We report state-of-the-art results on Flyingthings3D and KITTI datasets for both the supervised and self-supervised training.
翻訳日:2021-04-13 14:15:40 公開日:2021-04-10
# 低ランクタッカーALSと3D-HEVCに基づくマルチ露光ステレオ符号化の統一モデル

A Novel Unified Model for Multi-exposure Stereo Coding Based on Low Rank Tucker-ALS and 3D-HEVC ( http://arxiv.org/abs/2104.04726v1 )

ライセンス: Link先を確認
Mansi Sharma, Aditya Wadaskar(参考訳) ディスプレイ技術はハイダイナミックレンジ(hdr)のコントラストに基づく奥行き誘導と3次元パーソナライズを同時に提供する必要がある。 HDRステレオデータを効率よく圧縮するアルゴリズムが重要である。 HDRカメラのコストと不足のため、HDRコンテンツの直接キャプチャは複雑である。 HDR 3D画像は、様々な露出設定のステレオカメラを用いて取得した低ダイナミックレンジ(LDR)画像を融合することにより、低コストで生成することができる。 本稿では,テンソル低ランク近似に基づくマルチ露光ステレオ画像の効率的な符号化手法を提案する。 マルチ露光融合により、デコーダでHDRステレオ出力を生成し、現実性を高め、双眼3D奥行きを誇張することができる。 LDRステレオ画像における空間冗長性を利用するために、マルチ露光ステレオ画像のスタックを、最小二乗タッカー分解モデルに従って投影行列とコアテンソルのセットに分解する。 シーンのコンパクトで低ランクな表現は、高効率ビデオ符号化規格の3D拡張によりさらに処理される。 3d-hevcを用いた符号化は, フレーム内, ビュー間および部品間冗長性を低ランク近似表現で活用することにより, 提案手法の効率を高める。 我々は、IPTおよびY'CbCr色空間の輝度特性を正確に近似し、符号化歪みを知覚的に最小化するために検討する。 さらに,提案手法は,コアテンソルのランクと量子化を変化させることで,テンソル潜在成分のビットレートを柔軟に調整する。 自然界における大規模な実験により,提案手法は最先端のJPEG-XTと3D-HEVC範囲の符号化基準より優れていることが示された。

Display technology must offer high dynamic range (HDR) contrast-based depth induction and 3D personalization simultaneously. Efficient algorithms to compress HDR stereo data is critical. Direct capturing of HDR content is complicated due to the high expense and scarcity of HDR cameras. The HDR 3D images could be generated in low-cost by fusing low-dynamic-range (LDR) images acquired using a stereo camera with various exposure settings. In this paper, an efficient scheme for coding multi-exposure stereo images is proposed based on a tensor low-rank approximation scheme. The multi-exposure fusion can be realized to generate HDR stereo output at the decoder for increased realism and exaggerated binocular 3D depth cues. For exploiting spatial redundancy in LDR stereo images, the stack of multi-exposure stereo images is decomposed into a set of projection matrices and a core tensor following an alternating least squares Tucker decomposition model. The compact, low-rank representation of the scene, thus, generated is further processed by 3D extension of High Efficiency Video Coding standard. The encoding with 3D-HEVC enhance the proposed scheme efficiency by exploiting intra-frame, inter-view and the inter-component redundancies in low-rank approximated representation. We consider constant luminance property of IPT and Y'CbCr color space to precisely approximate intensity prediction and perceptually minimize the encoding distortion. Besides, the proposed scheme gives flexibility to adjust the bitrate of tensor latent components by changing the rank of core tensor and its quantization. Extensive experiments on natural scenes demonstrate that the proposed scheme outperforms state-of-the-art JPEG-XT and 3D-HEVC range coding standards.
翻訳日:2021-04-13 14:15:29 公開日:2021-04-10
# 外部ビセムデコードを用いた唇読解法

Lip reading using external viseme decoding ( http://arxiv.org/abs/2104.04784v1 )

ライセンス: Link先を確認
Javad Peymanfard, Mohammad Reza Mohammadi, Hossein Zeinali and Nasser Mozayani(参考訳) 唇読みは唇の動きから発声を認識する操作である。 これは、単語を発音する際の唇の動きが類似しているため、難しい作業である。 visemeは会話中の唇の動きを記述するのに使われる。 本稿では,ビデオからキャラクタへの変換を2段階に分割し,ビセメから文字への変換を別モデルで行うことにより,外部テキストデータ(ビセメからキャラクタへのマッピング)の活用方法を示す。 提案手法は, bbc-oxford lip reading sentences 2 (lrs2) データセットにおいて, 単語誤り率を正規列と比較して4\%向上させる。

Lip-reading is the operation of recognizing speech from lip movements. This is a difficult task because the movements of the lips when pronouncing the words are similar for some of them. Viseme is used to describe lip movements during a conversation. This paper aims to show how to use external text data (for viseme-to-character mapping) by dividing video-to-character into two stages, namely converting video to viseme, and then converting viseme to character by using separate models. Our proposed method improves word error rate by 4\% compared to the normal sequence to sequence lip-reading model on the BBC-Oxford Lip Reading Sentences 2 (LRS2) dataset.
翻訳日:2021-04-13 14:15:00 公開日:2021-04-10
# 仮想現実のためのロバストなエゴセントリックフォトリアリスティックな表情伝達

Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual Reality ( http://arxiv.org/abs/2104.04794v1 )

ライセンス: Link先を確認
Amin Jourabloo, Fernando De la Torre, Jason Saragih, Shih-En Wei, Te-Li Wang, Stephen Lombardi, Danielle Belko, Autumn Trimble, Hernan Badino(参考訳) ソーシャルな存在感は、現実の人といるという感覚が、バーチャルリアリティ(vr)でデジタル人間によって駆動される次世代のコミュニケーションシステムを刺激する。 最高の3dビデオリアルなvrアバターは、人固有の(ps)モデルに依存している。 しかし、これらのPSモデルは構築に時間がかかり、典型的には限られたデータ可変性で訓練される。 表情伝達アルゴリズムの精度に影響を与える変数の主な要因は、異なるVRヘッドセット(例えば、カメラの設定、ヘッドセットの傾斜)の使用、時間の経過とともに顔の外観の変化(例えば、ひげ、メイクアップ)、環境要因(例えば、照明、背景)である。 これは、VRにおけるこれらのモデルのスケーラビリティの大きな欠点である。 本稿では,拡張戦略を訓練したエンドツーエンドのマルチアイデンティティアーキテクチャ(MIA)を提案することにより,これらの制限を克服する。 MIAは、最小限のパーソナライズされた情報(中性3Dメッシュ形状)を用いて、VRヘッドセット(2つの目と1つの口)の3つのカメラからアバターの形状成分を訓練されていない被験者に駆動する。 同様に、PSテクスチャデコーダが利用可能であれば、MIAは挑戦的なシナリオでPSモデルより頑丈に優れたフルアバター(シェープ+テクスチャ)を駆動することができる。 頑健さと一般化を改善するための重要な貢献は、我々の手法が、無監督の方法で、迷惑要因(例えばヘッドセット、環境、顔の外観)から顔の表情を暗黙的に分離することです。 種々の実験において,提案手法と最先端PS手法の優れた性能とロバスト性を示す。

Social presence, the feeling of being there with a real person, will fuel the next generation of communication systems driven by digital humans in virtual reality (VR). The best 3D video-realistic VR avatars that minimize the uncanny effect rely on person-specific (PS) models. However, these PS models are time-consuming to build and are typically trained with limited data variability, which results in poor generalization and robustness. Major sources of variability that affects the accuracy of facial expression transfer algorithms include using different VR headsets (e.g., camera configuration, slop of the headset), facial appearance changes over time (e.g., beard, make-up), and environmental factors (e.g., lighting, backgrounds). This is a major drawback for the scalability of these models in VR. This paper makes progress in overcoming these limitations by proposing an end-to-end multi-identity architecture (MIA) trained with specialized augmentation strategies. MIA drives the shape component of the avatar from three cameras in the VR headset (two eyes, one mouth), in untrained subjects, using minimal personalized information (i.e., neutral 3D mesh shape). Similarly, if the PS texture decoder is available, MIA is able to drive the full avatar (shape+texture) robustly outperforming PS models in challenging scenarios. Our key contribution to improve robustness and generalization, is that our method implicitly decouples, in an unsupervised manner, the facial expression from nuisance factors (e.g., headset, environment, facial appearance). We demonstrate the superior performance and robustness of the proposed method versus state-of-the-art PS approaches in a variety of experiments.
翻訳日:2021-04-13 14:14:50 公開日:2021-04-10
# ShadowGNN: テキストからSQLへのパーサのためのグラフ投影ニューラルネットワーク

ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser ( http://arxiv.org/abs/2104.04689v1 )

ライセンス: Link先を確認
Zhi Chen, Lu Chen, Yanbin Zhao, Ruisheng Cao, Zihan Xu, Su Zhu and Kai Yu(参考訳) データベーススキーマが与えられたら、Text-to-SQLは自然言語の質問を対応するSQLクエリに変換することを目的としている。 クロスドメインの設定下では、従来の意味構文解析モデルは、未認識のデータベーススキーマへの適応に苦しむ。 稀かつ未確認なスキーマのモデル一般化機能を改善するために,抽象的および意味的なレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案する。 データベース内の意味項目の名前を無視して、よく設計されたグラフ投影ニューラルネットワークで抽象スキーマを活用し、疑問とスキーマの語彙化表現を得る。 ドメインに依存しない表現に基づいて、関係認識変換器を用いて質問とスキーマの間の論理的リンクをさらに抽出する。 最後に、文脈自由文法を持つSQLデコーダを適用する。 挑戦的なText-to-SQLベンチマークのSpiderでは、実験的な結果として、ShadowGNNが最先端モデルを上回っていることが示されている。 注釈付きデータが極端に制限された場合(トレーニングセットは10\%)、shadowgnnは絶対的な5\%性能向上を達成し、強力な一般化能力を示す。 我々の実装は、 \url{https://github.com/WowCZ/shadowgnn} でオープンソース化されます。

Given a database schema, Text-to-SQL aims to translate a natural language question into the corresponding SQL query. Under the setup of cross-domain, traditional semantic parsing models struggle to adapt to unseen database schemas. To improve the model generalization capability for rare and unseen schemas, we propose a new architecture, ShadowGNN, which processes schemas at abstract and semantic levels. By ignoring names of semantic items in databases, abstract schemas are exploited in a well-designed graph projection neural network to obtain delexicalized representation of question and schema. Based on the domain-independent representations, a relation-aware transformer is utilized to further extract logical linking between question and schema. Finally, a SQL decoder with context-free grammar is applied. On the challenging Text-to-SQL benchmark Spider, empirical results show that ShadowGNN outperforms state-of-the-art models. When the annotated data is extremely limited (only 10\% training set), ShadowGNN gets over absolute 5\% performance gain, which shows its powerful generalization ability. Our implementation will be open-sourced at \url{https://github.com/WowCZ/shadowgnn}.
翻訳日:2021-04-13 14:03:17 公開日:2021-04-10
# ニューラルネットワーク学習のための知識キャリアとしての変成関係の利用

Use of Metamorphic Relations as Knowledge Carriers to Train Deep Neural Networks ( http://arxiv.org/abs/2104.04718v1 )

ライセンス: Link先を確認
Tsong Yueh Chen, Pak-Lok Poon, Kun Qiu, Zheng Zheng, Jinyi Zhou(参考訳) 多層深層ニューラルネットワーク(dnn)のトレーニングは難しい。 多数のサンプルをトレーニングに使用する標準的なプラクティスは、DNNのパフォーマンスを満足のいくレベルに改善しないことが多い。 したがって、体系的なトレーニングアプローチが必要となる。 このニーズに対処するため、我々はDNNの訓練にメタモルフィックリレーション(MR)を「知識キャリア」として利用する革新的なアプローチを導入する。 メタモルフィックテストとMR(ソフトウェアテストにおけるテストオラクルの役割を担う)の概念に基づいて、私たちは、メタモルフィックなグループの入力を(知識の抽象化である)MRの具体例として利用して、DNNを体系的かつ効果的な方法で訓練します。 我々は,mrsとmrsで訓練した2つのdnnの性能を比較する予備実験を行い,mrsで訓練した2つのdnnの性能を比較したところ,mrsで訓練されたdnnの方が優れた性能を得られており,mrsを知識キャリアとして使用するアプローチが有望であることを確認した。 しかし、このアプローチを固め、活用し、効果的なDNNトレーニングに広範な影響を及ぼすためには、より多くの研究と研究が必要である。

Training multiple-layered deep neural networks (DNNs) is difficult. The standard practice of using a large number of samples for training often does not improve the performance of a DNN to a satisfactory level. Thus, a systematic training approach is needed. To address this need, we introduce an innovative approach of using metamorphic relations (MRs) as "knowledge carriers" to train DNNs. Based on the concept of metamorphic testing and MRs (which play the role of a test oracle in software testing), we make use of the notion of metamorphic group of inputs as concrete instances of MRs (which are abstractions of knowledge) to train a DNN in a systematic and effective manner. To verify the viability of our training approach, we have conducted a preliminary experiment to compare the performance of two DNNs: one trained with MRs and the other trained without MRs. We found that the DNN trained with MRs has delivered a better performance, thereby confirming that our approach of using MRs as knowledge carriers to train DNNs is promising. More work and studies, however, are needed to solidify and leverage this approach to generate widespread impact on effective DNN training.
翻訳日:2021-04-13 14:02:01 公開日:2021-04-10
# エンラクシアル層厚計算のための回帰ネットワーク

Regression Networks For Calculating Englacial Layer Thickness ( http://arxiv.org/abs/2104.04654v1 )

ライセンス: Link先を確認
Debvrat Varshney, Maryam Rahnemoonfar, Masoud Yari, and John Paden(参考訳) 氷厚推定は氷床研究の重要な側面である。 本研究では、複数の出力ノードを持つ畳み込みニューラルネットワークを用いて、グリーンランド北西部で収集されたSnow Radar画像の内部氷層厚の回帰と学習を行う。 ResNet50の残差接続により、テストセット上で平均1.251ピクセルの絶対誤差を実現することができる。 このような回帰ベースのネットワークは、手動アノテーションの要求を減らすために、ドメイン知識とレーダ情報をニューラルネットワークに埋め込むことにより、さらに改善することができる。

Ice thickness estimation is an important aspect of ice sheet studies. In this work, we use convolutional neural networks with multiple output nodes to regress and learn the thickness of internal ice layers in Snow Radar images collected in northwest Greenland. We experiment with some state-of-the-art networks and find that with the residual connections of ResNet50, we could achieve a mean absolute error of 1.251 pixels over the test set. Such regression-based networks can further be improved by embedding domain knowledge and radar information in the neural network in order to reduce the requirement of manual annotations.
翻訳日:2021-04-13 13:59:45 公開日:2021-04-10
# BERTを用いた非自己回帰変換器を用いたエンドツーエンドASR

Non-autoregressive Transformer-based End-to-end ASR using BERT ( http://arxiv.org/abs/2104.04805v1 )

ライセンス: Link先を確認
Fu-Hao Yu and Kuan-Yu Chen(参考訳) トランスフォーマーベースのモデルは、音声処理、自然言語処理、コンピュータビジョンなど、様々な古典的および実践的な分野において大きな革新をもたらした。 変換器上には,近年,注目に基づくエンドツーエンド音声認識(ASR)モデルが普及している。 具体的には、従来の自己回帰手法と比較して高速な推論速度と同等の性能を達成できる非自己回帰モデリングは、創発的な研究トピックである。 自然言語処理の文脈において、トランスフォーマ(bert)モデルからの双方向エンコーダ表現は、コンテキスト化された単語表現を推論し、単純な微調整のみを行うことで下流タスクの優れた性能を得る能力によって、広く注目されている。 本稿では、非自己回帰的ASRモデリングの利点を継承するだけでなく、事前学習された言語モデル(例えばBERT)の恩恵を受けるために、BERTに基づく非自己回帰的トランスフォーマーに基づくエンドツーエンドASRモデルを提案する。 AISHELL-1データセットで実施された一連の実験は、最先端のASRシステムと比較して、提案モデルの競争力や優れた結果を示す。

Transformer-based models have led to a significant innovation in various classic and practical subjects, including speech processing, natural language processing, and computer vision. On top of the transformer, the attention-based end-to-end automatic speech recognition (ASR) models have become a popular fashion in recent years. Specifically, the non-autoregressive modeling, which can achieve fast inference speed and comparable performance when compared to conventional autoregressive methods, is an emergent research topic. In the context of natural language processing, the bidirectional encoder representations from transformers (BERT) model has received widespread attention, partially due to its ability to infer contextualized word representations and to obtain superior performances of downstream tasks by performing only simple fine-tuning. In order to not only inherit the advantages of non-autoregressive ASR modeling, but also receive benefits from a pre-trained language model (e.g., BERT), a non-autoregressive transformer-based end-to-end ASR model based on BERT is presented in this paper. A series of experiments conducted on the AISHELL-1 dataset demonstrates competitive or superior results of the proposed model when compared to state-of-the-art ASR systems.
翻訳日:2021-04-13 13:58:18 公開日:2021-04-10
# ALOS-2衛星SAR画像からの海岸線抽出

Coastline extraction from ALOS-2 satellite SAR images ( http://arxiv.org/abs/2104.04722v1 )

ライセンス: Link先を確認
Petr Hurtik and Marek Vajgl(参考訳) 海岸の継続的監視は、侵食に対する海岸保護戦略の設計において重要な役割を担っている。 雲や日光の影響を避けるため、合成開口レーダーを用いた衛星画像を用いて必要なデータを提供する。 本研究では, 深層学習に基づく手法により, 最先端の手法を用いて, 海岸線の位置を検出できることを示す。 プロセスをデータ読み取り、データ前処理、モデルトレーニング、推論、センスリング、後処理に分割し、各部分の最高のテクニックを説明します。 最後に,人間の認識が得られなくても,海岸線を画像から正確に抽出できる独自の解を提案する。 私たちのソリューションは、Signateのコンペの間、世界中の109チームの中で、海岸線の実際のGPS位置に対して検証されました。

The continuous monitoring of a shore plays an essential role in designing strategies for shore protection against erosion. To avoid the effect of clouds and sunlight, satellite-based imagery with synthetic aperture radar is used to provide the required data. We show how such data can be processed using state-of-the-art methods, namely, by a deep-learning-based approach, to detect the coastline location. We split the process into data reading, data preprocessing, model training, inference, ensembling, and postprocessing, and describe the best techniques for each of the parts. Finally, we present our own solution that is able to precisely extract the coastline from an image even if it is not recognizable by a human. Our solution has been validated against the real GPS location of the coastline during Signate's competition, where it was runner-up among 109 teams across the whole world.
翻訳日:2021-04-13 13:56:12 公開日:2021-04-10
# メタ学習双方向更新ルール

Meta-Learning Bidirectional Update Rules ( http://arxiv.org/abs/2104.04657v1 )

ライセンス: Link先を確認
Mark Sandler and Max Vladymyrov and Andrey Zhmoginov and Nolan Miller and Andrew Jackson and Tom Madams and Blaise Aguera y Arcas(参考訳) 本稿では,ニューロンとシナプスが複数の状態を維持する新しいタイプの一般化ニューラルネットワークを提案する。 ニューラルネットワークにおける古典的勾配に基づくバックプロパゲーションは,1つの状態がアクティベーションに,もう1つの状態が勾配に使用される2状態ネットワークの特別な場合と見なすことができる。 我々の一般的なフレームワークでは、ネットワークは勾配の明示的な概念も受け取らない。 シナプスとニューロンは、共有低次元「遺伝子」によってパラメータ化された双方向のhebbスタイルの更新規則を用いて更新される。 このようなゲノムは、従来の最適化手法やCMA-ESのような進化戦略を用いて、ゼロからメタ学習できることを示す。 結果、更新ルールは未認識のタスクに一般化し、いくつかの標準的なコンピュータビジョンと合成タスクの勾配降下に基づくオプティマイザよりも高速にトレーニングする。

In this paper, we introduce a new type of generalized neural network where neurons and synapses maintain multiple states. We show that classical gradient-based backpropagation in neural networks can be seen as a special case of a two-state network where one state is used for activations and another for gradients, with update rules derived from the chain rule. In our generalized framework, networks have neither explicit notion of nor ever receive gradients. The synapses and neurons are updated using a bidirectional Hebb-style update rule parameterized by a shared low-dimensional "genome". We show that such genomes can be meta-learned from scratch, using either conventional optimization techniques, or evolutionary strategies, such as CMA-ES. Resulting update rules generalize to unseen tasks and train faster than gradient descent based optimizers for several standard computer vision and synthetic tasks.
翻訳日:2021-04-13 13:51:33 公開日:2021-04-10
# 関係ルールマイニングに基づくカテゴリー主体と相互作用効果の発見

Discovering Categorical Main and Interaction Effects Based on Association Rule Mining ( http://arxiv.org/abs/2104.04728v1 )

ライセンス: Link先を確認
Qiuqiang Lin, Chuanhou Gao(参考訳) データセットのサイズが大きくなるにつれて、機能の選択がますます重要になる。 オリジナルの特徴の相互作用を考慮に入れると、特に特徴がカテゴリー化され、1つのホットエンコーディングが適用される場合に、非常に高い次元がもたらされる。 これにより、有用な機能やインタラクションをマイニングする価値が高まる。 アソシエーションルールマイニングはアイテム間の興味深い相関関係を抽出することを目的としているが、ルールを資格分類器自身として使用するのは困難である。 関連ルールマイニングから着想を得て,関連ルールを用いて特徴と相互作用を選択し,そのアルゴリズムを実用的問題に修正する手法を考案した。 提案アルゴリズムの計算複雑性を分析し,その効率性を示す。 そして、一連の実験の結果からアルゴリズムの有効性が検証された。

With the growing size of data sets, feature selection becomes increasingly important. Taking interactions of original features into consideration will lead to extremely high dimension, especially when the features are categorical and one-hot encoding is applied. This makes it more worthwhile mining useful features as well as their interactions. Association rule mining aims to extract interesting correlations between items, but it is difficult to use rules as a qualified classifier themselves. Drawing inspiration from association rule mining, we come up with a method that uses association rules to select features and their interactions, then modify the algorithm for several practical concerns. We analyze the computational complexity of the proposed algorithm to show its efficiency. And the results of a series of experiments verify the effectiveness of the algorithm.
翻訳日:2021-04-13 13:51:18 公開日:2021-04-10
# 物理インフォームド科学機械学習の地下科学への応用:サーベイ

Applications of physics-informed scientific machine learning in subsurface science: A survey ( http://arxiv.org/abs/2104.04764v1 )

ライセンス: Link先を確認
Alexander Y. Sun, Hongkyu Yoon, Chung-Yan Shih, Zhi Zhong(参考訳) 地質構造は、化石エネルギー探査、廃棄物処理、地質炭素隔離、再生可能エネルギー生成といった人間の活動によって変化する地質構造である。 地球系はまた、地球規模の水エネルギーnexusにおいて重要なリンクであり、気候変動や変化に社会的な適応を可能にするための源泉と緩衝機構を提供する。 したがって、ジオシステムの利用と探索は、効率的なモニタリング、リスクアセスメント、そして実用的な実装のための意思決定支援ツールに依存するジオシステムガバナンスにとって重要である。 近年、機械学習(ml)アルゴリズムと新しいセンシング技術が急速に進歩し、地下研究コミュニティがジオシステムガバナンスの有効性と透明性を向上させる新しい機会がもたらされた。 近年の研究では、科学的ML(SciML)モデルに大きな可能性を示しているが、多角性、高次元性、データ分解の不均一性に代表されるジオシステムの管理において、どのようにMLを最大限に活用するかという疑問が残る。 本調査は,SciMLの地層研究における最近の発展と応用について,その正確性,解釈可能性,拡張性,信頼性,一般化のスキルを改良して,地質学的コミュニティに役立てる方法について,体系的なレビューを行う。

Geosystems are geological formations altered by humans activities such as fossil energy exploration, waste disposal, geologic carbon sequestration, and renewable energy generation. Geosystems also represent a critical link in the global water-energy nexus, providing both the source and buffering mechanisms for enabling societal adaptation to climate variability and change. The responsible use and exploration of geosystems are thus critical to the geosystem governance, which in turn depends on the efficient monitoring, risk assessment, and decision support tools for practical implementation. Fast advances in machine learning (ML) algorithms and novel sensing technologies in recent years have presented new opportunities for the subsurface research community to improve the efficacy and transparency of geosystem governance. Although recent studies have shown the great promise of scientific ML (SciML) models, questions remain on how to best leverage ML in the management of geosystems, which are typified by multiscality, high-dimensionality, and data resolution inhomogeneity. This survey will provide a systematic review of the recent development and applications of domain-aware SciML in geosystem researches, with an emphasis on how the accuracy, interpretability, scalability, defensibility, and generalization skill of ML approaches can be improved to better serve the geoscientific community.
翻訳日:2021-04-13 13:51:07 公開日:2021-04-10
# 統一ソースフィルタgan:準周期並列ウェーブガンの因子分解に基づく統一ソースフィルタネットワーク

Unified Source-Filter GAN: Unified Source-filter Network Based On Factorization of Quasi-Periodic Parallel WaveGAN ( http://arxiv.org/abs/2104.04668v1 )

ライセンス: Link先を確認
Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda(参考訳) 音源フィルタモデルの柔軟性を維持しながら、高品質な合成音声波形を生成できるニューラルボコーダを開発するために、単一ニューラルネットワークを用いたデータ駆動音源フィルタモデリングに統一的なアプローチを提案する。 今回提案するunified source-filter generative adversarial network (usfgan) と呼ばれるネットワークは,単一のニューラルネットワークに基づくニューラルボコーダの1つである準周期並列ウェーブガン (qppwg) を,音源励振生成ネットワークと声道共鳴フィルタリングネットワークに分解し,さらに正規化損失を実装した。 さらに、ニューラルソースフィルタ(NSF)にインスパイアされた正弦波波形のみが、ソースフィルタモデルにおける近似の影響を最小限に抑えつつ、周期的なソース励起波形を生成するための最も簡単な手がかりとして用いられる。 実験の結果,uSFGANはQPPWGやNSFといった従来のニューラルボコーダよりも音声品質とピッチ制御性に優れていた。

We propose a unified approach to data-driven source-filter modeling using a single neural network for developing a neural vocoder capable of generating high-quality synthetic speech waveforms while retaining flexibility of the source-filter model to control their voice characteristics. Our proposed network called unified source-filter generative adversarial networks (uSFGAN) is developed by factorizing quasi-periodic parallel WaveGAN (QPPWG), one of the neural vocoders based on a single neural network, into a source excitation generation network and a vocal tract resonance filtering network by additionally implementing a regularization loss. Moreover, inspired by neural source filter (NSF), only a sinusoidal waveform is additionally used as the simplest clue to generate a periodic source excitation waveform while minimizing the effect of approximations in the source filter model. The experimental results demonstrate that uSFGAN outperforms conventional neural vocoders, such as QPPWG and NSF in both speech quality and pitch controllability.
翻訳日:2021-04-13 13:46:25 公開日:2021-04-10
# 制約満足度問題としてのディープラーニング加速器のプログラミング

The Programming of Deep Learning Accelerators as a Constraint Satisfaction Problem ( http://arxiv.org/abs/2104.04731v1 )

ライセンス: Link先を確認
Dennis Rieber, Axel Acosta, Holger Fr\"oning(参考訳) 多くのドメインでDeep Artificial Neural Networks(DNN)の成功は、計算集約型DNNオペレーターのためのハードウェアアクセラレーターに関する豊富な研究を生み出した。 しかし、行列乗算のような複雑な命令を効率的に実装することは、まだ適切に自動化されていない課題である。 この問題を解決するには、しばしば複雑なプログラムとメモリレイアウト変換が必要である。 この問題に対する最初の解決策として、tvmやisamirが提案されており、オペレータのループレベルの表現に取り組み、オペレータへの命令が実行される前にプログラムを書き換える。 このトップダウンアプローチは、探索範囲と検索空間の複雑さの間の緊張関係を生み出す。 本研究では,この問題に対する新しいアプローチを提案する。 我々は,アクセラレータの命令セットに基づいて直接実装を生成できるボトムアップ手法を開発した。 スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。 さらなる制約を加えることで、解法は好ましい解のサブセットを生成することができる。 % 計算された埋め込みの情報から実装を生成することができる。 baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動的に生成し、さらにメモリレイアウトの柔軟性が全体的なパフォーマンスに有益であることを示しています。 参照実装は, 固定埋込戦略によりハードウェア利用率が極めて低いが, ジオ平均速度は x2.49 まで向上し, 個々の演算子は x238 まで改善できる。

The success of Deep Artificial Neural Networks (DNNs) in many domains created a rich body of research concerned with hardware accelerators for compute-intensive DNN operators. However, implementing such operators efficiently with complex instructions such as matrix multiply is a task not yet automated gracefully. Solving this task often requires complex program and memory layout transformations. First solutions to this problem have been proposed, such as TVM or ISAMIR, which work on a loop-level representation of operators and rewrite the program before an instruction embedding into the operator is performed. This top-down approach creates a tension between exploration range and search space complexity. In this work, we propose a new approach to this problem. We have created a bottom-up method that allows the direct generation of implementations based on an accelerator's instruction set. By formulating the embedding as a constraint satisfaction problem over the scalar dataflow, every possible embedding solution is contained in the search space. By adding additional constraints, a solver can produce the subset of preferable solutions. %From the information in a computed embedding, an implementation can be generated. A detailed evaluation using the VTA hardware accelerator with the Baidu DeepBench inference benchmark suite shows that our approach can automatically generate code competitive to reference implementations, and furthermore that memory layout flexibilty can be beneficial for overall performance. While the reference implementation achieves very low hardware utilization due to its fixed embedding strategy, we achieve a geomean speedup of up to x2.49, while individual operators can improve as much as x238.
翻訳日:2021-04-13 13:46:04 公開日:2021-04-10
# DCT-Domain Deep BiLSTM Network を用いたQ行列の二重JPEG検出

Q-matrix Unaware Double JPEG Detection using DCT-Domain Deep BiLSTM Network ( http://arxiv.org/abs/2104.04765v1 )

ライセンス: Link先を確認
Vinay Verma, Deepak Singh, and Nitin Khanna(参考訳) 近年、JPEG圧縮検出が注目されているのは、最も広く使われているJPEGファイルフォーマットの法医学ツールとしての利用性である。 既存のcnnベースの手法では、全ての周波数のヒストグラムを使用するか、特定の低周波のヒストグラムを選択するヒューリスティックスに依存している。 しかし、二重圧縮画像/パッチの低い周波数でも、すべての周波数のヒストグラムは単一の圧縮画像と区別できる特徴を持っていない。 本稿では,JPEG画像からの量子化DCT係数を直接抽出し,すべてのAC周波数のヒストグラムを取得し,各ヒストグラムと対応するq-要素の固有関係を学習するために1\times 1$ depth-wise convolutionsに基づくモジュールを用いて,これらの特徴ベクトル列を選択的に符号化するためにテーラーメイドのBiLSTMネットワークを利用する。 提案手法は, 比較的大規模かつ多種多様な公開データセットにおいて, 単一および二重圧縮パッチのベースラインメソッドを上回っている。 単一のJPEG圧縮検出システムにおけるもうひとつの重要な側面は、テストパッチがトレーニング中に使用するものと全く異なる量子化行列(Q-行列)で圧縮されるシナリオを扱うことだ。 一連の広範な実験により、単一のデータセットでトレーニングされたシステムは、完全に未知の量子化行列で圧縮された他のデータセットによく一般化し、観測および未検出の量子化行列のシナリオにおいて最先端の方法を上回ることが示されている。

The double JPEG compression detection has received much attention in recent years due to its applicability as a forensic tool for the most widely used JPEG file format. Existing state-of-the-art CNN-based methods either use histograms of all the frequencies or rely on heuristics to select histograms of specific low frequencies to classify single and double compressed images. However, even amidst lower frequencies of double compressed images/patches, histograms of all the frequencies do not have distinguishable features to separate them from single compressed images. This paper directly extracts the quantized DCT coefficients from the JPEG images without decompressing them in the pixel domain, obtains all AC frequencies' histograms, uses a module based on $1\times 1$ depth-wise convolutions to learn the inherent relation between each histogram and corresponding q-factor, and utilizes a tailor-made BiLSTM network for selectively encoding these feature vector sequences. The proposed system outperforms several baseline methods on a relatively large and diverse publicly available dataset of single and double compressed patches. Another essential aspect of any single vs. double JPEG compression detection system is handling the scenario where test patches are compressed with entirely different quantization matrices (Q-matrices) than those used while training; different camera manufacturers and image processing software generally utilize their customized quantization matrices. A set of extensive experiments shows that the proposed system trained on a single dataset generalizes well on other datasets compressed with completely unseen quantization matrices and outperforms the state-of-the-art methods in both seen and unseen quantization matrices scenarios.
翻訳日:2021-04-13 13:45:41 公開日:2021-04-10
# 電力系統安定性評価のための量子機械学習

Quantum Machine Learning for Power System Stability Assessment ( http://arxiv.org/abs/2104.04855v1 )

ライセンス: Link先を確認
Yifan Zhou and Peng Zhang(参考訳) 過渡安定度評価(TSA)は、今日の相互接続電力網のレジリエントな運用の基盤であり、電力系統の創始以来、未解決の課題である。 本稿では,量子コンピューティング,データサイエンス,機械学習の融合により,高次元,非線形性,不確実性によって生じる課題を解決する。 バルク電力系統におけるスケーラブルで効率的なデータ駆動過渡安定予測を実現するために,量子tsa(quantum tsa)法(low-depth, high expressibility quantum neural network)を考案した。 qTSAは、ヒルベルト空間において難易度の高いTSAを単純かつ無力に表現し、かつてないほどレジリエンスでセキュアな電力システム操作を可能にする豊富な情報を提供する。 量子シミュレータと実量子コンピュータに関する大規模な実験は、qTSAの精度、雑音耐性、拡張性、普遍性を検証する。 qtsaは量子可能で超レジリエントな電力網の基礎を固めており、人々だけでなく、様々な商業部門や産業部門にも利益をもたらすだろう。

Transient stability assessment (TSA), a cornerstone for resilient operations of today's interconnected power grids, is a grand challenge yet to be addressed since the genesis of electric power systems. This paper is a confluence of quantum computing, data science and machine learning to potentially resolve the aforementioned challenge caused by high dimensionality, non-linearity and uncertainty. We devise a quantum TSA (qTSA) method, a low-depth, high expressibility quantum neural network, to enable scalable and efficient data-driven transient stability prediction for bulk power systems. qTSA renders the intractable TSA straightforward and effortless in the Hilbert space, and provides rich information that enables unprecedentedly resilient and secure power system operations. Extensive experiments on quantum simulators and real quantum computers verify the accuracy, noise-resilience, scalability and universality of qTSA. qTSA underpins a solid foundation of a quantum-enabled, ultra-resilient power grid which will benefit the people as well as various commercial and industrial sectors.
翻訳日:2021-04-13 13:45:10 公開日:2021-04-10
# 誰が先に行くの? 分類向上のための自己監督型概念ソーティングモデル

Who Should Go First? A Self-Supervised Concept Sorting Model for Improving Taxonomy Expansion ( http://arxiv.org/abs/2104.03682v2 )

ライセンス: Link先を確認
Xiangchen Song, Jiaming Shen, Jieyu Zhang, and Jiawei Han(参考訳) 分類法は様々な機械学習やテキストマイニングシステムで広く使われ、知識を整理し、下流の作業を容易にする。 重要な課題の1つは、データとビジネスのスコープが実際のアプリケーションで大きくなるにつれて、既存の分類体系を拡大して新しい概念を組み込む必要があることである。 分類の展開過程に関する以前の研究は、新しい概念を独立かつ同時に独立に展開し、それらの間の潜在的な関係と挿入操作の適切な順序を無視した。 しかし、実際には、新しい概念は相互に相関し、局所的なハイパーニム・ハイポニム構造を形成する傾向がある。 このようなシナリオでは、新しい概念の依存関係を無視し、挿入順序がエラー伝搬を引き起こす可能性がある。 例えば、既存の分類学拡張システムは、そのハイパーネムの前に既存の分類学に仮説を挿入する可能性がある。 既存の分類体系を補完するために,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。 分類体系は任意の分類体系に直接接続でき、拡張された分類体系の品質を向上させることができる。 実世界のデータセットを用いた実験は、分類学拡張システムを強化するためのTaxoOrderの有効性を検証し、様々な評価基準の下でのベースラインと比較して、より良い分類基準をもたらす。

Taxonomies have been widely used in various machine learning and text mining systems to organize knowledge and facilitate downstream tasks. One critical challenge is that, as data and business scope grow in real applications, existing taxonomies need to be expanded to incorporate new concepts. Previous works on taxonomy expansion process the new concepts independently and simultaneously, ignoring the potential relationships among them and the appropriate order of inserting operations. However, in reality, the new concepts tend to be mutually correlated and form local hypernym-hyponym structures. In such a scenario, ignoring the dependencies of new concepts and the order of insertion may trigger error propagation. For example, existing taxonomy expansion systems may insert hyponyms to existing taxonomies before their hypernym, leading to sub-optimal expanded taxonomies. To complement existing taxonomy expansion systems, we propose TaxoOrder, a novel self-supervised framework that simultaneously discovers the local hypernym-hyponym structure among new concepts and decides the order of insertion. TaxoOrder can be directly plugged into any taxonomy expansion system and improve the quality of expanded taxonomies. Experiments on the real-world dataset validate the effectiveness of TaxoOrder to enhance taxonomy expansion systems, leading to better-resulting taxonomies with comparison to baselines under various evaluation metrics.
翻訳日:2021-04-13 10:34:21 公開日:2021-04-10