このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20211012となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子ウォークのヒット時間に対する上限の改善 Improved Upper Bounds for the Hitting Times of Quantum Walks ( http://arxiv.org/abs/2005.04062v5 ) ライセンス: Link先を確認 | Yosi Atia and Shantanav Chakraborty | (参考訳) 連続時間量子ウォークは、いくつかの量子アルゴリズムの設計において非常に有用なフレームワークであることが証明されている。
しばしば、このフレームワークにおける量子アルゴリズムの実行時間は、量子ウォークが高い確率で興味のある頂点を見つけるのに必要な時間である量子ヒット時間によって特徴づけられる。
本稿では、いくつかのCTQWベースの量子アルゴリズムに適用可能な量子ヒット時間の改善した上限を提供する。
特に, この手法を接着木問題に適用し, 多項式係数による到達時間上限を, $o(n^5)$ から $o(n^2\log n)$ に改善した。
さらに本手法は,連続時間量子ウォークに基づくアルゴリズムの精度依存性を指数関数的に改善し,chakrabortyらによる任意の可逆マルコフ連鎖上のマーキングノードを探索するのに役立つ。
[PRA 102, 022227 (2020)] Continuous-time quantum walks have proven to be an extremely useful framework for the design of several quantum algorithms. Often, the running time of quantum algorithms in this framework is characterized by the quantum hitting time: the time required by the quantum walk to find a vertex of interest with a high probability. In this article, we provide improved upper bounds for the quantum hitting time that can be applied to several CTQW-based quantum algorithms. In particular, we apply our techniques to the glued-trees problem, improving their hitting time upper bound by a polynomial factor: from $O(n^5)$ to $O(n^2\log n)$. Furthermore, our methods also help to exponentially improve the dependence on precision of the continuous-time quantum walk based algorithm to find a marked node on any ergodic, reversible Markov chain by Chakraborty et al. [PRA 102, 022227 (2020)]. | 翻訳日:2023-05-20 20:20:03 公開日:2021-10-12 |
# バイオインスパイアされた自然光励起レーザー Bio-inspired natural sunlight-pumped lasers ( http://arxiv.org/abs/2007.04314v2 ) ライセンス: Link先を確認 | Francesco Mattiotti, William M. Brown, Nicola Piovella, Stefano Olivares, Erik M. Gauger and G. Luca Celardo | (参考訳) 太陽光は人類にとって最も豊富な再生可能エネルギー源であるが、その希薄で可変的な性質は、このエネルギーを収集、貯蔵、流通するための効率的な方法を維持してきた。
太陽から供給される非コヒーレントなエネルギー供給をコヒーレントなレーザービームに変えることは、太陽光をクリーンエネルギーの源として使用する際の実際的な制限を克服する。
そこで本研究では, 集光しない自然光をコヒーレントレーザービームにアップグレードすることを目的とした, 新規レーザー用バイオインスパイアブループリントを提案する。
提案する設計は, 太陽光励起レーザーに対する新しい, 異なる経路を構成する。
そこで本研究では, 天然光合成錯体の構造に着想を得た分子集合体からなるレーザー媒体を提案する。
このような錯体は、自然の日光のように希薄な電源から光子を収穫する際の非常に大きな内部効率を示す。
具体的には、紫細菌(Rhodobacter sphaeroides)の光合成錯体が、2つの強く結合したクロロフォアからなる分子二量体を取り囲むハイブリッド構造を考える。
太陽エネルギーを効率的に収集し集中する周辺の光合成複合体によって励起されると、コアダイマー構造は人口反転に到達し、自然日光の下で発散しきい値に達する。
ここで提案される設計原則は、他のバイオインスパイアされた量子デバイスを開発するための道を開く。 Even though sunlight is by far the most abundant renewable energy source available to humanity, its dilute and variable nature has kept efficient ways to collect, store, and distribute this energy tantalisingly out of reach. Turning the incoherent energy supply provided by the Sun into a coherent laser beam would overcome several of the practical limitations inherent in using sunlight as a source of clean energy: laser beams travel nearly losslessly over large distances, and they are effective at driving chemical reactions which convert sunlight into chemical energy. Here we propose a bio-inspired blueprint for a novel type of laser with the aim of upgrading unconcentrated natural sunlight into a coherent laser beam. Our proposed design constitutes a novel and different path towards sunlight-pumped lasers. In order to achieve lasing with the extremely dilute power provided by natural sunlight, we here propose a laser medium comprised of molecular aggregates inspired by the architecture of natural photosynthetic complexes. Such complexes exhibit a very large internal efficiency in harvesting photons from a power source as dilute as natural sunlight. Specifically, we consider a hybrid structure, where photosynthetic complexes in purple bacteria (Rhodobacter sphaeroides) surround a suitably engineered molecular dimer composed of two strongly coupled chromophores. We show that if pumped by the surrounding photosynthetic complex, which efficiently collects and concentrates solar energy, the core dimer structure can reach population inversion, and reach the lasing threshold under natural sunlight. The design principles proposed here will also pave the way for developing other bio-inspired quantum devices. | 翻訳日:2023-05-10 23:32:55 公開日:2021-10-12 |
# ウィンドウビュー品質評価フレームワーク A window view quality assessment framework ( http://arxiv.org/abs/2010.07025v7 ) ライセンス: Link先を確認 | Won Hee Ko, Michael G. Kent, Stefano Schiavon, Brendon Levitt, Giovanni Betti | (参考訳) 窓が建物内部から提供するビューは、人間の健康と幸福に影響を与える。
ウィンドウビューはアーキテクチャの重要な要素であるが、その設計を導くための確立したフレームワークはない。
文学は様々な分野に分散しており、この情報を建築設計に適用可能な枠組みにまとめる必要がある。
文献に基づいて,「ビュー品質」を構成するものの枠組みを提案する。
提案手法では,3つの主要な変数を提案する。ビューコンテンツ(ウィンドウビューで見る視覚特徴の評価),ビューアクセス(占有者の位置から窓越しに表示できるビューの量の測定),ビュー明快度(占有者が見るウィンドウビューにおけるビューコンテンツの明快さの評価)である。
各変数は、昼光標準、緑の認証システム、科学研究など、様々な情報源から数学的に導出された。
本稿では,各変数の最も重要な特徴について述べるとともに,本論文のレビューから,ウィンドウビューの品質を評価する概念的指標を提案する。
本稿では,これらの3変数を構築プロセスに統合するための設計勧告を要約し,今後の研究における知識ギャップを明らかにする。 The views that windows provide from inside a building affect human health and well-being. Although window view is an important element of architecture, there is no established framework to guide its design. The literature is widely dispersed across different disciplinary fields, and there is a need to coalesce this information into a framework that can be applied into the building design. Based on the literature, we present a framework for what constitutes 'view quality.' At the basis of our framework, we propose three primary variables: View Content (the assessment of visual features seen in the window view), View Access (the measure of how much of the view can be seen through the window from the occupant's position), and View Clarity (the assessment of how clear the view content appears in the window view when seen by an occupant). Each variable was thematically derived from different sources including daylighting standards, green certification systems, and scientific research studies. We describe the most important characteristics of each variable, and from our review of the literature, we propose a conceptual index that can evaluate the quality of a window view. While discussing the index, we summarize design recommendations for integrating these three variables into the building process and identify knowledge gaps for future research. | 翻訳日:2023-04-29 22:19:16 公開日:2021-10-12 |
# 「それはただのインフルエンザ」:youtubeの疑似科学ビデオレコメンデーションにおける視聴履歴の影響評価 "It is just a flu": Assessing the Effect of Watch History on YouTube's Pseudoscientific Video Recommendations ( http://arxiv.org/abs/2010.11638v5 ) ライセンス: Link先を確認 | Kostantinos Papadamou and Savvas Zannettou and Jeremy Blackburn and Emiliano De Cristofaro and Gianluca Stringhini and Michael Sirivianos | (参考訳) youtubeのレコメンデーションアルゴリズムが誤って誤った情報や陰謀説を宣伝する役割は、完全には分かっていない。
しかし、特に新型コロナウイルス(COVID-19)のパンデミックなど、重要な時期に疑似科学的コンテンツがユーザーに宣伝された場合、これは現実世界に恐ろしい結果をもたらす可能性がある。
本稿では,YouTube上の疑似科学的誤報を識別し,検出する。
我々は、COVID-19、フラットアース理論、および予防接種と対マスク運動に関連する6.6Kのビデオを収集している。
クラウドソーシングを用いて、これらを疑似科学、正当科学、あるいは無関係と注釈し、深層学習分類器を訓練して擬似科学的ビデオの精度0.79で検出する。
我々は、プラットフォームの様々な部分におけるこのコンテンツに対するユーザ露出の定量化と、ユーザのウォッチ履歴に基づいて、この露出がどのように変化するかを示す。
YouTubeは、従来の疑似科学的トピック(例えば、平地、予防接種など)に関する疑似科学的内容が、新興のトピック(COVID-19など)よりも多いことを示唆している。
同時に、これらのレコメンデーションは、ユーザーのホームページや動画を積極的に視聴する際のレコメンデーションセクションよりも検索結果ページの方が一般的である。
最後に,ユーザの視聴履歴が推奨ビデオのタイプに大きく影響する点について考察した。 The role played by YouTube's recommendation algorithm in unwittingly promoting misinformation and conspiracy theories is not entirely understood. Yet, this can have dire real-world consequences, especially when pseudoscientific content is promoted to users at critical times, such as the COVID-19 pandemic. In this paper, we set out to characterize and detect pseudoscientific misinformation on YouTube. We collect 6.6K videos related to COVID-19, the Flat Earth theory, as well as the anti-vaccination and anti-mask movements. Using crowdsourcing, we annotate them as pseudoscience, legitimate science, or irrelevant and train a deep learning classifier to detect pseudoscientific videos with an accuracy of 0.79. We quantify user exposure to this content on various parts of the platform and how this exposure changes based on the user's watch history. We find that YouTube suggests more pseudoscientific content regarding traditional pseudoscientific topics (e.g., flat earth, anti-vaccination) than for emerging ones (like COVID-19). At the same time, these recommendations are more common on the search results page than on a user's homepage or in the recommendation section when actively watching videos. Finally, we shed light on how a user's watch history substantially affects the type of recommended videos. | 翻訳日:2023-04-28 01:06:48 公開日:2021-10-12 |
# 高オーバトンバルク音響共鳴を用いた量子コヒーレントマイクロ波光伝送 Quantum coherent microwave-optical transduction using high overtone bulk acoustic resonances ( http://arxiv.org/abs/2103.00471v5 ) ライセンス: Link先を確認 | Terence Bl\'esin, Hao Tian, Sunil Bhave, and Tobias J. Kippenberg | (参考訳) マイクロ波場の1量子を光学領域に変換できる装置は、遠くの超伝導量子ビット間の量子インターコネクトの文脈において顕著な試みであるが、同様に電波天文学や古典的な領域ではマイクロ波フォトニクスのような他の分野にも応用することができる。
光機械的または電気的相互作用に基づく様々な変換アプローチが提案され、実現されているが、必要となるノイズの消失とユニティに近づく効率はまだ達成されていない。
本稿では,理論上,量子コヒーレント双方向変換の要件を満たす新しい変換スキームを提案する。
本手法は,マイクロ波と光子を圧電効果とひずみ光学効果を両立させるため,中間機械的モード,ハイオーバートンバルク音響共鳴(HBAR)を利用する。
集積Si3N4フォトニック回路と超低損失の高キャビティ光子数の組み合わせと、圧電結合HBARによって提供される高効率マイクロ波-機械的トランスダクションにより効率が向上した。
電子レンジモードとメカニカルモード間の圧電相互作用の量子化法を第一原理から導入し、後者を従来のバターワース・ヴァン・ダイクモデルと結びつけて、この多部系に対する量子理論を開発した。
hbarはその後、ひずみ光学効果を介して結合された光学環空洞から2対のハイブリダイゼーション光学モードに結合される。
信号フローグラフを用いて提案装置の変換能力を解析し,現実的な実験パラメータを用いて量子コヒーレント変換が可能であることを示す。 A device capable of converting single quanta of the microwave field to the optical domain is an outstanding endeavour in the context of quantum interconnects between distant superconducting qubits, but likewise can have applications in other fields, such as radio astronomy or, in the classical realm, microwave photonics. A variety of transduction approaches, based on optomechanical or electro-optical interactions, have been proposed and realized, yet the required vanishing added noises and an efficiency approaching unity, have not yet been attained. Here we present a new transduction scheme that could in theory satisfy the requirements for quantum coherent bidirectional transduction. Our scheme relies on an intermediary mechanical mode, a high overtone bulk acoustic resonance (HBAR), to coherently couple microwave and optical photons through the piezoelectric and strain-optical effects. Its efficiency results from the combination of integrated Si3N4 photonic circuits with ultra low loss sustaining high intracavity photon numbers with the highly efficient microwave to mechanical transduction offered by piezoelectrically coupled HBAR. We develop a quantum theory for this multipartite system by first introducing a quantization method for the piezoelectric interaction between the microwave mode and the mechanical mode from first principles (which to our knowledge has not been presented in this form), and link the latter to the conventional Butterworth-Van Dyke model. The HBAR is subsequently coupled to a pair of hybridized optical modes from coupled optical ring cavities via the strain-optical effect. We analyze the conversion capabilities of the proposed device using signal flow graphs, and demonstrate that near quantum coherent transduction is possible, with realistic experimental parameters. | 翻訳日:2023-04-09 16:44:39 公開日:2021-10-12 |
# 符号化量子ビット上のユニバーサルゲートの誤差緩和 Error mitigation for universal gates on encoded qubits ( http://arxiv.org/abs/2103.04915v2 ) ライセンス: Link先を確認 | Christophe Piveteau, David Sutter, Sergey Bravyi, Jay M. Gambetta, Kristan Temme | (参考訳) eastin-knill の定理では、量子誤り訂正符号は超越ゲートの普遍的な集合を持つことができない。
クリフォードゲートを実装したcssコードでは、tゲートのような非クリフォードゲートを追加して普遍性を実現するだけで十分である。
マジック状態蒸留のようなフォールトトレラントなtゲートを実装する一般的な方法は、ハードウェアのオーバーヘッドを発生させ、近い将来に実用的利用を妨げる可能性がある。
近年,誤り訂正によって保護されない浅量子回路におけるノイズの影響を軽減する手法が開発されている。
誤差緩和法は追加のハードウェアリソースを必要としないが、漸近的なスケーリングに悩まされ、制限された量子アルゴリズムにのみ適用される。
本研究では,両手法を組み合わせてClifford+T回路の実装方法を示す。Cliffordゲートは誤り訂正によりノイズから保護され,ノイズ符号化Tゲートによる誤差は準確率法により緩和される。
その結果、物理ノイズ率に逆比例する多数のTゲートを有するクリフォード+T回路を、マジック状態蒸留なしで小さな誤差補正装置に実装することができる。
このような回路は最先端の古典的シミュレーションアルゴリズムでは不可能である。 The Eastin-Knill theorem states that no quantum error correcting code can have a universal set of transversal gates. For CSS codes that can implement Clifford gates transversally it suffices to provide one additional non-Clifford gate, such as the T-gate, to achieve universality. Common methods to implement fault-tolerant T-gates like magic state distillation generate a significant hardware overhead that will likely prevent their practical usage in the near-term future. Recently methods have been developed to mitigate the effect of noise in shallow quantum circuits that are not protected by error correction. Error mitigation methods require no additional hardware resources but suffer from a bad asymptotic scaling and apply only to a restricted class of quantum algorithms. In this work, we combine both approaches and show how to implement encoded Clifford+T circuits where Clifford gates are protected from noise by error correction while errors introduced by noisy encoded T-gates are mitigated using the quasi-probability method. As a result, Clifford+T circuits with a number of T-gates inversely proportional to the physical noise rate can be implemented on small error-corrected devices without magic state distillation. We argue that such circuits can be out of reach for state-of-the-art classical simulation algorithms. | 翻訳日:2023-04-08 18:12:39 公開日:2021-10-12 |
# シリコン基板上にエピタキシャル成長した全窒化物超電導量子ビットのコヒーレンス向上 Enhanced coherence of all-nitride superconducting qubits epitaxially grown on silicon substrate ( http://arxiv.org/abs/2103.07711v3 ) ライセンス: Link先を確認 | Sunmi Kim, Hirotaka Terai, Taro Yamashita, Wei Qiu, Tomoko Fuse, Fumiki Yoshihara, Sahel Ashhab, Kunihiro Inomata, and Kouichi Semba | (参考訳) 超伝導量子ビットのコヒーレンスを改善することは、フォールトトレラント量子計算の実現に向けた基本的なステップである。
しかし、従来のアルミニウム系ジョセフソン接合を用いた量子回路のコヒーレンス時間は、アモルファス酸化アルミニウムトンネルバリア内の微視的2レベル系の存在によって制限される。
そこで我々は,Al/AlO$_{x}$/Al接合に基づく量子ビットの欠点を克服することを約束する,NbN/AlN/NbNエピタキシャルジョセフソン接合を用いた超伝導量子ビットを開発した。
全窒化物量子ビットは、酸化に対する化学的安定性などの大きな利点があり、2レベルゆらぎの低減、エネルギー緩和と減圧を減少させるエピタキシャルトンネルバリアの実現性、NbNの超伝導ギャップは、準粒子の励起を抑制するアルミニウムの$\sim$0.3 meVに対して$\sim$5.2 meVである。
従来のMgOをシリコン基板に置換し、窒化物接合のエピタキシャル成長のためのTiNバッファー層に置き換えることで、クォービットエネルギー緩和時間$T$_{1}$=16.3$\mu$sとスピン-エチョデコール時間$T$$$_{2}$=21.5$\mu$sを示す。
これらの量子コヒーレンスの大幅な改善は、MgO基板を持つNbNベースの量子ビット(T$$_{1}$$\approx$T$$$$$$\approx$0.5$\mu$s)と比較して誘電損失の減少によって説明される。
これらの結果は、量子ハードウェアを超伝導する新しいプラットフォームを構築するための重要なステップである。 Improving the coherence of superconducting qubits is a fundamental step towards the realization of fault-tolerant quantum computation. However, coherence times of quantum circuits made from conventional aluminium-based Josephson junctions are limited by the presence of microscopic two-level systems in the amorphous aluminum oxide tunnel barriers. Here, we have developed superconducting qubits based on NbN/AlN/NbN epitaxial Josephson junctions on silicon substrates which promise to overcome the drawbacks of qubits based on Al/AlO$_{x}$/Al junctions. The all-nitride qubits have great advantages such as chemical stability against oxidation, resulting in fewer two-level fluctuators, feasibility for epitaxial tunnel barriers that reduce energy relaxation and dephasing, and a larger superconducting gap of $\sim$5.2 meV for NbN, compared to $\sim$0.3 meV for aluminium, which suppresses the excitation of quasiparticles. By replacing conventional MgO by a silicon substrate with a TiN buffer layer for epitaxial growth of nitride junctions, we demonstrate a qubit energy relaxation time $T$$_{1}$=16.3 $\mu$s and a spin-echo dephasing time $T$$_{2}$=21.5 $\mu$s. These significant improvements in quantum coherence are explained by the reduced dielectric loss compared to previously reported NbN-based qubits with MgO substrates ($T$$_{1}$$\approx$$T$$_{2}$$\approx$0.5 $\mu$s). These results are an important step towards constructing a new platform for superconducting quantum hardware. | 翻訳日:2023-04-08 06:32:50 公開日:2021-10-12 |
# 局所測定による絡み合った連続変数量子状態の効率的な検証 Efficient verification of entangled continuous-variable quantum states with local measurements ( http://arxiv.org/abs/2103.16275v2 ) ライセンス: Link先を確認 | Ye-Chao Liu, Jiangwei Shang, Xiangdong Zhang | (参考訳) 連続可変量子状態は、量子通信や量子センシングを含む様々な量子情報処理タスクにおいて特に重要である。
しかし、量子システムのサイズが急速に増大し、その効率性を著しく損なうことでボトルネックが発生している。
本研究では,局所的な測定のみを用いることで,絡み合った連続変数量子状態を検証するための体系的枠組みを確立する。
本プロトコルは, 量子トモグラフィや非断層撮影法よりも2次的に優れた無条件高い検証効率を実現することができる。
具体的には,局所的な測定値と絡み合った2モードおよびマルチモードコヒーレント状態の効率的な検証を行い,プロトコルのパワーを実証する。 Continuous-variable quantum states are of particular importance in various quantum information processing tasks including quantum communication and quantum sensing. However, a bottleneck has emerged with the fast increasing in size of the quantum systems which severely hinders their efficient characterization. In this work, we establish a systematic framework for verifying entangled continuous-variable quantum states by employing local measurements only. Our protocol is able to achieve the unconditionally high verification efficiency which is quadratically better than quantum tomography as well as other nontomographic methods. Specifically, we demonstrate the power of our protocol by showing the efficient verification of entangled two-mode and multimode coherent states with local measurements. | 翻訳日:2023-04-06 03:51:34 公開日:2021-10-12 |
# 格子内部分非局在原子を用いた量子拡張キャビティQED干渉計 Quantum Enhanced Cavity QED Interferometer with Partially Delocalized Atoms in Lattices ( http://arxiv.org/abs/2104.04204v3 ) ライセンス: Link先を確認 | Anjun Chu, Peiru He, James K. Thompson, Ana Maria Rey | (参考訳) 定在波キャビティに支持された光学格子における冷間原子を用いた重力・力センシングのための量子拡張干渉計プロトコルを提案する。
部分的に非局在化したワニエ・スターク状態に原子をロードすることにより、格子とキャビティ場のミスマッチから生じる望ましくない不均一性をキャンセルし、一様一軸ねじれモデルによりスピン圧縮状態を生成することができる。
量子強化された状態の感度は、それに続く複合パルスシーケンスの応用と組み合わされ、複数の格子部位で原子を分離することができる。
これは、表面から微小な距離で格子に小さな原子雲を積み込む能力とともに、我々の設定を短距離力の感知に最適にする。
我々は,10^4$の原子配列の場合,本プロトコルは一次デコヒーレンス源を考慮した非絡み合い格子型干渉計と比較して,必要な平均時間を10ドル削減できることを示した。 We propose a quantum enhanced interferometric protocol for gravimetry and force sensing using cold atoms in an optical lattice supported by a standing-wave cavity. By loading the atoms in partially delocalized Wannier-Stark states, it is possible to cancel the undesirable inhomogeneities arising from the mismatch between the lattice and cavity fields and to generate spin squeezed states via a uniform one-axis twisting model. The quantum enhanced sensitivity of the states is combined with the subsequent application of a compound pulse sequence that allows to separate atoms by several lattice sites. This, together with the capability to load small atomic clouds in the lattice at micrometric distances from a surface, make our setup ideal for sensing short-range forces. We show that for arrays of $10^4$ atoms, our protocol can reduce the required averaging time by a factor of $10$ compared to unentangled lattice-based interferometers after accounting for primary sources of decoherence. | 翻訳日:2023-04-04 08:01:49 公開日:2021-10-12 |
# 名前に基づくアプローチによる人種推定時のバイアス回避 Avoiding bias when inferring race using name-based approaches ( http://arxiv.org/abs/2104.12553v3 ) ライセンス: Link先を確認 | Diego Kozlowski, Dakota S. Murray, Alexis Bell, Will Hulsey, Vincent Larivi\`ere, Thema Monroe-White and Cassidy R. Sugimoto | (参考訳) アカデミアにおける人種格差は広く認識されている問題である。
人種に基づく体系的不平等の定量的理解は、より公平な研究システムに向けた重要なステップである。
しかし、著者の人種に関する堅牢な情報がないため、この話題に関する大規模な分析はほとんど行われていない。
アルゴリズムアプローチは、著者の名前などの既知の情報を使用して、認識された人種を推測する1つのソリューションを提供する。
他のアルゴリズムと同様に、人種的推論のプロセスは慎重に考慮されていない場合、バイアスを発生させることができる。
本稿の目的は、名前に基づく人種的推論のために異なるアプローチを用いてアルゴリズムバイアスが導入された範囲を評価することである。
我々は、米国国勢調査および住宅ローン申請の情報を用いて、米国関連作家のウェブ・オブ・サイエンスにおける人種を推測する。
与えられた氏名や家族名、しきい値や連続分布、インプテーションの使用の効果を推定する。
その結果、人種・民族によって名前に基づく推論の有効性が異なり、しきい値が黒人作家を過小評価し、白人作家を過小評価することを示した。
潜在的なバイアスを避けるための勧告で締めくくります。
この記事では、科学における人種格差に関するより体系的でバイアスの少ない調査の基礎を述べます。 Racial disparity in academia is a widely acknowledged problem. The quantitative understanding of racial based systemic inequalities is an important step towards a more equitable research system. However, because of the lack of robust information on authors' race, few large scale analyses have been performed on this topic. Algorithmic approaches offer one solution, using known information about authors, such as their names, to infer their perceived race. As with any other algorithm, the process of racial inference can generate biases if it is not carefully considered. The goal of this article is to assess the extent to which algorithmic bias is introduced using different approaches for name based racial inference. We use information from the U.S. Census and mortgage applications to infer the race of U.S. affiliated authors in the Web of Science. We estimate the effects of using given and family names, thresholds or continuous distributions, and imputation. Our results demonstrate that the validity of name based inference varies by race/ethnicity and that threshold approaches underestimate Black authors and overestimate White authors. We conclude with recommendations to avoid potential biases. This article lays the foundation for more systematic and less biased investigations into racial disparities in science. | 翻訳日:2023-04-03 20:55:11 公開日:2021-10-12 |
# 結合型ディラックシステムの削減スキーム Reduction scheme for coupled Dirac systems ( http://arxiv.org/abs/2104.10582v3 ) ライセンス: Link先を確認 | Miguel Castillo-Celeita, V\'it Jakubsk\'y | (参考訳) 補助相互作用を持つ2つの非結合な低次元量子設定によってダイナミクスを理解できる結合量子系のクラスを解析する。
ポテンシャル項の代数的性質に基づく一般還元スキームは、2次元ディラックハミルトニアンについて詳細に議論されている。
グラフェンまたは二層グラフェン中のディラックフェルミオンの歪み散乱やスピン軌道相互作用の存在下での応用について論じる。
我々は、関連する相互作用が空間と時間において一様でない明示的な例の一般的な結果を説明する。 We analyze a class of coupled quantum systems whose dynamics can be understood via two uncoupled, lower-dimensional quantum settings with auxiliary interactions. The general reduction scheme, based on algebraic properties of the potential term, is discussed in detail for two-dimensional Dirac Hamiltonian. We discuss its possible application in description of Dirac fermions in graphene or bilayer graphene in presence of distortion scattering or spin-orbit interaction. We illustrate the general results on the explicit examples where the involved interactions are non-uniform in space and time. | 翻訳日:2023-04-03 00:22:00 公開日:2021-10-12 |
# ゼロ領域パルスの単光子ホログラム Single-photon hologram of a zero-area pulse ( http://arxiv.org/abs/2105.02795v2 ) ライセンス: Link先を確認 | Micha{\l} Lipka, Micha{\l} Parniak | (参考訳) 単一光子は、香港・ウー・マンデル効果のような本質的に量子的で直観的な性質を示し、そのボソニックで量子化された性質を示すが、同時に非常に複雑な構造を持つ空間的あるいは時間的モードの単一励起に対応する。
これら2つの特徴が一緒に見られることは滅多にない。
ここでは、単一光子 \textendash{} の複雑な時相モードを、テラヘルツバンド幅光子の共鳴相互作用と原子蒸気の狭いギガヘルツ幅の原子遷移によって得られるゼロ領域パルス \textendash{} に特徴付けるために、Hong-Ou-Mandel効果をスペクトル分解して利用する方法を実験的に示す。
ボソニック量子挙動と帯域幅ミスマッチ光原子相互作用の組み合わせは、両方の現象のより深い理解と、超高速な過渡過程のキャラクタリゼーションにおけるその工学的応用に不可欠である。 Single photons exhibit inherently quantum and unintuitive properties such as the Hong-ou-Mandel effect, demonstrating their bosonic and quantized nature, yet at the same time may correspond to single excitations of spatial or temporal modes with a very complex structure. Those two features are rarely seen together. Here we experimentally demonstrate how the Hong-Ou-Mandel effect can be spectrally-resolved and harnessed to characterize a complex temporal mode of a single-photon \textendash{} a zero-area pulse \textendash{} obtained via a resonant interaction of a terahertz-bandwidth photon with a narrow gigahertz-wide atomic transition of atomic vapor. The combination of bosonic quantum behavior with bandwidth-mismatched light-atom interaction is of fundamental importance for a deeper understanding of both phenomena, as well as their engineering offering applications in the characterization of ultra-fast transient processes. | 翻訳日:2023-04-01 07:50:30 公開日:2021-10-12 |
# bethの実験に基づくスピン誘起トルク検出用二重ねじり振子の特性評価 Characterization of a double torsion pendulum used to detect spin-induced torque based on Beth's experiment ( http://arxiv.org/abs/2105.06181v2 ) ライセンス: Link先を確認 | Runa Yasuda and Atsushi Hatakeyama | (参考訳) 光子スピン誘起トルクの測定を含む二重ねじり振り子系を特徴とした。
我々の実験戦略は、1936年に懸濁物体への光入射の偏光変調による強制振動を用いて光スピン誘起トルクを測定するために行われたベスの実験に類似していた。
吊り下げられた物体を外部の振動騒音から単純な受動的に分離することにより,10^4 sの測定時間におけるトルク感度は2 x 10^{-17} Nmであり,Bethの実験で測定された最小トルクよりも1次小さい。
光吸収光学において観測されたスピン誘起トルクは、光子当たりのhbarの角運動量移動と一致する。 We characterized a double torsion pendulum system, including measurements of the photon-spin-induced torque. Our experimental strategy was similar to that used in Beth's experiment, which was performed in 1936 to measure photon-spin-induced torque using forced oscillation caused by polarization modulation of light incident on a suspended object. Through simple passive isolation of the suspended object from external vibration noise, the achieved torque sensitivity was 2 x 10^{-17} N m in a measurement time of 10^4 s, which is close to the thermal noise limit and one order smaller than the minimum torque measured in Beth's experiment. The observed spin-induced torque exerted on the light-absorbing optics is consistent with the angular momentum transfer of hbar per photon. | 翻訳日:2023-03-31 06:32:19 公開日:2021-10-12 |
# EIT読み出しによる最適原子量子センシング Optimal Atomic Quantum Sensing using EIT Readout ( http://arxiv.org/abs/2105.10494v3 ) ライセンス: Link先を確認 | David H. Meyer, Chistopher O'Brien, Donald P. Fahey, Kevin C. Cox, and Paul D. Kunz | (参考訳) 量子センサは、量子エンタングルメントを使用して標準量子限界(SQL)以上を演算することで、前例のない精度に達する能力を提供する。
しかし、Rydberg電磁誘導透過(EIT)を使ってrf電場を検出する量子センサーは、まだSQLに到達していない。
この研究において、この不一致は、EIT探索機構の基本的な制限によるものであることを証明した。
我々はeitに基づく3レベル量子センサの最適感度、あるいはより一般的なコヒーレント分光法を導出し、これをsqlと比較する。
我々は、強い探査場、熱膨張、大きな光学深度を許容しながら、最小限の仮定を適用する。
我々は,レーザー強度と光深度を最適に導出し,実験条件下での高感度動作に関する具体的なガイドラインを提供する。
パフォーマンスの明確なバウンダリが確立され、避けられない吸収損失のため、lavel-EITはSQLを達成できないことが明らかになった。
結果は、任意のEITベースの量子センサに適用できるが、特に、Rydberg量子センシングの増大する分野に対する我々の結果の重要性を強調している。 Quantum sensors offer the capability to reach unprecedented precision by operating at the standard quantum limit (SQL) or beyond by using quantum entanglement. But an emerging class of quantum sensors that use Rydberg electromagnetically-induced transparency (EIT) to detect rf electric fields have yet to reach the SQL. In this work we prove that this discrepancy is due to fundamental limitations in the EIT probing mechanism. We derive the optimum sensitivity of a three-level quantum sensor based on EIT, or more generally coherent spectroscopy, and compare this to the SQL. We apply a minimal set of assumptions, while allowing strong probing fields, thermal broadening, and large optical depth. We derive the optimal laser intensities and optical depth, providing specific guidelines for sensitive operation under common experimental conditions. Clear boundaries of performance are established, revealing that ladder-EIT can not achieve the SQL due to unavoidable absorption loss. The results may be applied to any EIT-based quantum sensor, but we particularly emphasize our results' importance to the growing field of Rydberg quantum sensing. | 翻訳日:2023-03-30 05:17:39 公開日:2021-10-12 |
# 三重ウェルポテンシャルにおける相互作用ボソン系の量子古典的対応 Quantum-classical correspondence of a system of interacting bosons in a triple-well potential ( http://arxiv.org/abs/2105.10515v3 ) ライセンス: Link先を確認 | E. R. Castro, Jorge Chavez-Carlos, I. Roditi, Lea F. Santos, Jorge G. Hirsch | (参考訳) 傾斜三重ウェルポテンシャルにおける相互作用ボソン系の量子古典的対応について検討した。
半古典的解析により、量子系の異なる相と、量子情報科学にどのように使用できるかをよりよく理解することができる。
可積分極限において、半古典的ハミルトニアンの定常点の解析は、2階量子相転移に関連する臨界点を明らかにする。
非可積分領域では、システムはクロスオーバーを示す。
パラメータと量によっては、量子古典対応は非常に少ないボソンを持つ。
いくつかのパラメータ領域では、基底状態は、量子情報プロトコル(量子センシング)に用いられる相互作用強度(ティルト振幅)の変化に対してロバスト(高感度)である。 We study the quantum-classical correspondence of an experimentally accessible system of interacting bosons in a tilted triple-well potential. With the semiclassical analysis, we get a better understanding of the different phases of the quantum system and how they could be used for quantum information science. In the integrable limits, our analysis of the stationary points of the semiclassical Hamiltonian reveals critical points associated with second-order quantum phase transitions. In the nonintegrable domain, the system exhibits crossovers. Depending on the parameters and quantities, the quantum-classical correspondence holds for very few bosons. In some parameter regions, the ground state is robust (highly sensitive) to changes in the interaction strength (tilt amplitude), which may be of use for quantum information protocols (quantum sensing). | 翻訳日:2023-03-30 05:05:08 公開日:2021-10-12 |
# 励起共鳴スピン増幅は固体中の希土類イオンのミリ秒電子スピンコヒーレンス時間を明らかにする Stimulated resonant spin amplification reveals millisecond electron spin coherence time of rare-earth ions in solids ( http://arxiv.org/abs/2105.13674v2 ) ライセンス: Link先を確認 | V. V. Belykh, A. R. Korotneva, D. R. Yakovlev | (参考訳) 電子スピンアンサンブルの不均一性と個々のスピンに作用する変動環境はスピンコヒーレンス時間$t_2$を劇的に短縮し、コヒーレントスピン操作を阻害する。
この問題を、不均質な環境から分離されたコヒーレントスピンプリセッションを刺激する高周波(rf)フィールドと、このプリセッションを増幅する周期的光パルスの同時適用によって解決できることを示す。
rf磁場周波数がレーザーパルス繰り返し周波数に近づくと生じる共鳴は、不均一性効果のないスピンコヒーレンス時間$T_2$で決定される幅を有する。
我々は、低温でのYAG格子中のCe$^{3+}$イオンの基底状態における電子に対して50Hzの電子スピン共鳴とミリ秒長のT_2$を測定し、不均一なスピンデファス化時間$T_2^*$はわずか25 nsである。
本研究は、スピン系におけるコヒーレントな光学的操作を不均一環境から切り離す方法である。 The inhomogeneity of an electron spin ensemble as well as fluctuating environment acting upon individual spins drastically shorten the spin coherence time $T_2$ and hinder coherent spin manipulation. We show that this problem can be solved by the simultaneous application of a radiofrequency (rf) field, which stimulates coherent spin precession decoupled from an inhomogeneous environment, and periodic optical pulses, which amplify this precession. The resulting resonance, taking place when the rf field frequency approaches the laser pulse repetition frequency, has a width determined by the spin coherence time $T_2$ that is free from the inhomogeneity effects. We measure a 50-Hz-narrow electron spin resonance and milliseconds-long $T_2$ for electrons in the ground state of Ce$^{3+}$ ions in the YAG lattice at low temperatures, while the inhomogeneous spin dephasing time $T_2^*$ is only 25 ns. This study paves the way to coherent optical manipulation in spin systems decoupled from their inhomogeneous environment. | 翻訳日:2023-03-29 04:47:03 公開日:2021-10-12 |
# 機械学習によるスクイーズ状態の劣化情報の抽出 Extract the Degradation Information in Squeezed States with Machine Learning ( http://arxiv.org/abs/2106.04058v2 ) ライセンス: Link先を確認 | Hsien-Yi Hsieh, Yi-Ru Chen, Hsun-Chung Wu, Huali Chen, Jingyu Ning, Yao-Chin Huang, Chien-Ming Wu, and Ray-Kuang Lee | (参考訳) 不可避なデコヒーレンスで絞り込む量子ノイズのフルパワーを活用するために、絞り込み光の純度劣化の完全な理解が要求される。
畳み込みニューラルネットワークを用いて機械学習アーキテクチャを実装することにより、バランスの取れたホモダイン検出器から生成された実験的なデータを通して、連続変数に対する高速で堅牢で正確な量子状態トモグラフィーを記述する。
時間的および過度に適合する問題に悩まされる最大推定法と比較して, 減圧真空および減圧熱状態が供給されるよく訓練された機械は, 密度行列を1秒未満で復元するタスクを完了することができる。
さらに、結果の忠実度は、squeezingレベルが$20$~dbよりも高い場合でも$0.99$である。
環境と周囲の真空とを結合した位相雑音と損失機構と比較すると、劣化情報は、低騒音と高騒音のシナリオ、すなわち、それぞれ12ドル〜dbと18ドル〜dbという、機械学習によって明らかにされる。
我々のニューラルネットワーク拡張量子状態トモグラフィーは、単一ショットで観測された全ての特徴を物理的に説明するためのメトリクスを提供し、大規模量子システムをリアルタイムに探索する方法を舗装する。 In order to leverage the full power of quantum noise squeezing with unavoidable decoherence, a complete understanding of the degradation in the purity of squeezed light is demanded. By implementing machine learning architecture with a convolutional neural network, we illustrate a fast, robust, and precise quantum state tomography for continuous variables, through the experimentally measured data generated from the balanced homodyne detectors. Compared with the maximum likelihood estimation method, which suffers from time-consuming and over-fitting problems, a well-trained machine fed with squeezed vacuum and squeezed thermal states can complete the task of reconstruction of the density matrix in less than one second. Moreover, the resulting fidelity remains as high as $0.99$ even when the anti-squeezing level is higher than $20$~dB. Compared with the phase noise and loss mechanisms coupled from the environment and surrounding vacuum, experimentally, the degradation information is unveiled with machine learning for low and high noisy scenarios, i.e., with the anti-squeezing levels at $12$~dB and $18$~dB, respectively. Our neural network enhanced quantum state tomography provides the metrics to give physical descriptions of every feature observed in the quantum state with a single-shot measurement and paves a way of exploring large-scale quantum systems in real-time. | 翻訳日:2023-03-27 06:52:01 公開日:2021-10-12 |
# 動的に生成された論理量子ビット Dynamically Generated Logical Qubits ( http://arxiv.org/abs/2107.02194v2 ) ライセンス: Link先を確認 | Matthew B. Hastings, Jeongwan Haah | (参考訳) 動的に生成された論理量子ビットを用いた量子誤り訂正符号を提案する。
サブシステムコードと見なすと、コードは論理キュービットを持たない。
それでも、我々の測定パターンは論理量子ビットを生成し、フォールトトレラントな量子メモリとして機能する。
我々の特定のコードは2次元トーリック符号と非常によく似たモデルを与えるが、それぞれの測定は2量子パウリ測定である。 We present a quantum error correcting code with dynamically generated logical qubits. When viewed as a subsystem code, the code has no logical qubits. Nevertheless, our measurement patterns generate logical qubits, allowing the code to act as a fault-tolerant quantum memory. Our particular code gives a model very similar to the two-dimensional toric code, but each measurement is a two-qubit Pauli measurement. | 翻訳日:2023-03-23 08:48:19 公開日:2021-10-12 |
# オープンソースソフトウェアの地理学 - GitHubからの証拠 The Geography of Open Source Software: Evidence from GitHub ( http://arxiv.org/abs/2107.03200v2 ) ライセンス: Link先を確認 | Johannes Wachs, Mariusz Nitecki, William Schueller, Axel Polleres | (参考訳) オープンソースソフトウェア(OSS)はデジタル経済において重要な役割を果たす。
しかし、ソフトウェア生産はリモートコラボレーションに適しており、アウトプットは遠隔地で簡単に共有できるが、ソフトウェア開発は、シリコンバレー、ロンドン、ベルリンなど、地理的にクラスターしているように見える。
最近の研究は、OSSアクティビティが知識の流出や情報効果を通じて局所的に発生するポジティブな外部性を生成することを示しているが、アクティブなオープンソース開発者の地理的分布に関する最新のデータは限られている。
これは、公共セクター機関のコスト削減ツールとしてOSSを国家レベルで推進する政策立案者にとって重要な盲点となる。
このギャップに対処するために、2021年初頭にGitHubに50万人以上のアクティブなコントリビュータをさまざまな空間スケールで配置しました。
2010年の成果と比較すると、アジア、ラテンアメリカ、東ヨーロッパを拠点とする開発者のシェアは大幅に増加しており、OSS開発者の世界的普及が示唆されている。
しかし、国内では、ハイテク分野の労働者の集中を上回って、地域がかなり集中しているのがわかります。
社会・経済開発指標は、EUにおけるOSS活動の地域的変化のほぼ半分を予測しており、OSSのクラスタが同調的なルーツを持っていることを示唆している。
OSSの育成を目指す政策立案者は,OSS開発者のネットワークを支援するために,クラスタポリシのツールを使用して,全国的ではなく地方に集中すべきだ,と我々は主張する。 Open Source Software (OSS) plays an important role in the digital economy. Yet although software production is amenable to remote collaboration and its outputs are easily shared across distances, software development seems to cluster geographically in places such as Silicon Valley, London, or Berlin. And while recent work indicates that OSS activity creates positive externalities which accrue locally through knowledge spillovers and information effects, up-to-date data on the geographic distribution of active open source developers is limited. This presents a significant blindspot for policymakers, who tend to promote OSS at the national level as a cost-saving tool for public sector institutions. We address this gap by geolocating more than half a million active contributors to GitHub in early 2021 at various spatial scales. Compared to results from 2010, we find a significant increase in the share of developers based in Asia, Latin America and Eastern Europe, suggesting a more even spread of OSS developers globally. Within countries, however, we find significant concentration in regions, exceeding the concentration of workers in high-tech fields. Social and economic development indicators predict at most half of regional variation in OSS activity in the EU, suggesting that clusters of OSS have idiosyncratic roots. We argue that policymakers seeking to foster OSS should focus locally rather than nationally, using the tools of cluster policy to support networks of OSS developers. | 翻訳日:2023-03-23 04:24:04 公開日:2021-10-12 |
# 児童福祉のケーススタディによる公共セクターのための高精度アルゴリズム意思決定の枠組み A Framework of High-Stakes Algorithmic Decision-Making for the Public Sector Developed through a Case Study of Child-Welfare ( http://arxiv.org/abs/2107.03487v3 ) ライセンス: Link先を確認 | Devansh Saxena, Karla Badillo-Urquiola, Pamela Wisniewski, Shion Guha | (参考訳) アルゴリズムは、市民政府や社会全体に浸透し、人間の生活に関する高い視点の決定に使われている。
本稿では,まず,人間-コンピュータ間インタラクション(hci),科学技術研究(sts),公共行政(pa)の分野における異種の作業体を合成することによって,<textit{human discretion}>,<textit{bureaucratic processes}>,<textit{algorithmic decision-making} の複雑な社会技術的相互作用を反映した,公共部門(admaps)に適したアルゴリズム的意思決定の凝集フレームワークを開発した。
そこで我々はADMAPSフレームワークを用いて,米国中西部の約900家族と1300人の子供を対象とする児童福祉機関において,日常生活におけるアルゴリズムの詳細な8ヶ月のエスノグラフィーの質的分析を行った。
全体として、社会生態学の枠組みを中心とした強度に基づくアルゴリズムの結果に焦点を合わせる必要がある。
加えて、アルゴリズムシステムは既存の官僚的プロセスをサポートし、それを置き換えるのではなく、人間の裁量を強化する必要がある。
最後に、アルゴリズムシステムにおける集合的な購入には、実践者および官僚レベルの目標結果に対する信頼が必要である。
本研究は, 児童福祉システムにおいて, より一般的には公共部門において, ハイテイクなアルゴリズムによる意思決定ツールの設計ガイドラインを提案する。
提案手法は,理論的に導出されたADMAPSフレームワークを実証的に検証し,公共セクター向けアルゴリズムの設計に関する実用的決定を体系的に行う上で有用であることを示す。 Algorithms have permeated throughout civil government and society, where they are being used to make high-stakes decisions about human lives. In this paper, we first develop a cohesive framework of algorithmic decision-making adapted for the public sector (ADMAPS) that reflects the complex socio-technical interactions between \textit{human discretion}, \textit{bureaucratic processes}, and \textit{algorithmic decision-making} by synthesizing disparate bodies of work in the fields of Human-Computer Interaction (HCI), Science and Technology Studies (STS), and Public Administration (PA). We then applied the ADMAPS framework to conduct a qualitative analysis of an in-depth, eight-month ethnographic case study of the algorithms in daily use within a child-welfare agency that serves approximately 900 families and 1300 children in the mid-western United States. Overall, we found there is a need to focus on strength-based algorithmic outcomes centered in social ecological frameworks. In addition, algorithmic systems need to support existing bureaucratic processes and augment human discretion, rather than replace it. Finally, collective buy-in in algorithmic systems requires trust in the target outcomes at both the practitioner and bureaucratic levels. As a result of our study, we propose guidelines for the design of high-stakes algorithmic decision-making tools in the child-welfare system, and more generally, in the public sector. We empirically validate the theoretically derived ADMAPS framework to demonstrate how it can be useful for systematically making pragmatic decisions about the design of algorithms for the public sector. | 翻訳日:2023-03-23 04:05:45 公開日:2021-10-12 |
# ハミルトン学習のための最適短時間測定 Optimal short-time measurements for Hamiltonian learning ( http://arxiv.org/abs/2108.08824v2 ) ライセンス: Link先を確認 | Assaf Zubida, Elad Yitzhaki, Netanel H. Lindner, Eyal Bairey | (参考訳) ノイズの多い量子デバイスを特徴づけるには、その力学を支配する量子ハミルトニアンを学ぶ方法が必要である。
このような手法は、指数関数的な計算複雑性を必要とするタスクである候補ハミルトンのシミュレーションと比較されることが多い。
本稿では,この指数的困難を回避した短時間ダイナミクスに基づく効率的な計測手法を提案する。
最適な測定スケジュールと再構成誤差の見積を行い,これらの推定を数値的に検証する。
この再構築には, システムサイズの独立な実験ショット数が必要であり, 短距離ハミルトニアンの学習に最適の精度をもたらす, 最小限の状態準備と測定値のセットを特定する。
最後に,可換オブザーバブルのグルーピングとハミルトニアン対称性の利用により,ハミルトニアン復元の精度が向上することを示す。 Characterizing noisy quantum devices requires methods for learning the underlying quantum Hamiltonian which governs their dynamics. Often, such methods compare measurements to simulations of candidate Hamiltonians, a task which requires exponential computational complexity. Here, we propose efficient measurement schemes based on short-time dynamics which circumvent this exponential difficulty. We provide estimates for the optimal measurement schedule and reconstruction error, and verify these estimates numerically. We demonstrate that the reconstruction requires a system-size independent number of experimental shots, and identify a minimal set of state preparations and measurements which yields optimal accuracy for learning short-ranged Hamiltonians. Finally, we show how grouping of commuting observables and use of Hamiltonian symmetries improve the accuracy of the Hamiltonian reconstruction. | 翻訳日:2023-03-18 01:09:10 公開日:2021-10-12 |
# pビットによる確率計算 Probabilistic computing with p-bits ( http://arxiv.org/abs/2108.09836v2 ) ライセンス: Link先を確認 | Jan Kaiser and Supriyo Datta | (参考訳) デジタルコンピュータは2つの値 0 と 1 のうちの1つを取るビットの形で情報を格納するが、量子コンピュータは複素波動関数によって記述される量子ビットに基づいており、その2乗の大きさは 0 か 1 のいずれかを測定する確率を与える。
ここでは、制御された確率を持つ値 0 と 1 を持ち、特別なコンパクトエネルギー効率のハードウェアで実装できる p-bit に基づく確率的コンピュータを例に挙げる。
このようなp-コンピュータのための汎用アーキテクチャを提案し,数千のp-bitを持つシステムをエミュレートすることで,ベイズネットワークや最適化,イジングモデル,量子モンテカルロなど,さまざまなアプリケーションで使用されているランダム化アルゴリズムを著しく高速化できることを示す。 Digital computers store information in the form of bits that can take on one of two values 0 and 1, while quantum computers are based on qubits that are described by a complex wavefunction, whose squared magnitude gives the probability of measuring either 0 or 1. Here, we make the case for a probabilistic computer based on p-bits, which take on values 0 and 1 with controlled probabilities and can be implemented with specialized compact energy-efficient hardware. We propose a generic architecture for such p-computers and emulate systems with thousands of p-bits to show that they can significantly accelerate randomized algorithms used in a wide variety of applications including but not limited to Bayesian networks, optimization, Ising models, and quantum Monte Carlo. | 翻訳日:2023-03-17 18:25:32 公開日:2021-10-12 |
# オルソモジュラー論理の自然推論システム A natural deduction system for orthomodular logic ( http://arxiv.org/abs/2109.05383v3 ) ライセンス: Link先を確認 | Andre Kornell | (参考訳) 正則論理(英: orthomodular logic)は、ビルホフとフォン・ノイマンの意味での量子論理の弱化である。
直交論理は非線形非可換論理である。
シークエントは、否定、結合、含意を使用する命題公式のちょうど1つの意味論と一致する、物理的に動機づけられた意味論が与えられる。
特に、この論理における推論定理を満たす佐々木矢と解釈されなければならない。
応用として、この導出系は述語論理の2つの系に拡張される: 1つはタケウティの量子集合論のための音、もう1つはウィーバーの量子論理の変種に対する音である。 Orthomodular logic is a weakening of quantum logic in the sense of Birkhoff and von Neumann. Orthomodular logic is shown to be a nonlinear noncommutative logic. Sequents are given a physically motivated semantics that is consistent with exactly one semantics for propositional formulas that use negation, conjunction, and implication. In particular, implication must be interpreted as the Sasaki arrow, which satisfies the deduction theorem in this logic. As an application, this deductive system is extended to two systems of predicate logic: the first is sound for Takeuti's quantum set theory, and the second is sound for a variant of Weaver's quantum logic. | 翻訳日:2023-03-15 09:14:02 公開日:2021-10-12 |
# 非アニーニックqudit ZW-計算 A non-anyonic qudit ZW-calculus ( http://arxiv.org/abs/2109.11285v2 ) ライセンス: Link先を確認 | Quanlong Wang | (参考訳) ZW計算は純粋量子ビット量子コンピューティングに有用なグラフィカル言語である。
ZW-計算の完全性の翻訳によって、ZX-計算の完全性の最初の証明が得られた。
量子ビットZW-計算のdレベル一般化 (anyonic qudit ZW-calculus) が[Hadzihasanovic 2017] において与えられる。
しかし、このタイプのZW計算におけるWクモの解釈は、いわゆるq二項係数を持つため、計算は非常に複雑である。
本稿では,量子ビットZW計算に類似した生成器と書き換え規則を備えた新しいタイプのqudit ZW計算法を提案する。
特に、zスパイダーは[wang 2021]で与えられるクディット zx の計算と全く同じであり、新しい w スパイダーは線形写像としてより単純な解釈を持っている。
さらに、このqudit ZW-calculusと[Wang 2021]に示すように普遍的なqudit ZX-calculusとの変換を確立するので、qudit ZW-calculusは純粋qudit量子コンピューティングにも普遍的である。 ZW-calculus is a useful graphical language for pure qubit quantum computing. It is via the translation of the completeness of ZW-calculus that the first proof of completeness of ZX-calculus was obtained. A d-level generalisation of qubit ZW-calculus (anyonic qudit ZW-calculus) has been given in [Hadzihasanovic 2017] which is universal for pure qudit quantum computing. However, the interpretation of the W spider in this type of ZW-calculus has so-called q-binomial coefficients involved, thus makes computation quite complicated. In this paper, we give a new type of qudit ZW-calculus which has generators and rewriting rules similar to that of the qubit ZW-calculus. Especially, the Z spider is exactly the same as that of the qudit ZX-calculus as given in [Wang 2021], and the new W spider has much simpler interpretation as a linear map. Furthermore, we establish a translation between this qudit ZW-calculus and the qudit ZX-calculus which is universal as shown in [Wang 2021], therefore this qudit ZW-calculus is also universal for pure qudit quantum computing. | 翻訳日:2023-03-13 23:13:09 公開日:2021-10-12 |
# 非局所ゲーム、圧縮理論、および算術的階層 Nonlocal Games, Compression Theorems, and the Arithmetical Hierarchy ( http://arxiv.org/abs/2110.04651v2 ) ライセンス: Link先を確認 | Hamoon Mousavi, Seyed Sajjad Nezhadi, Henry Yuen | (参考訳) 本研究では,非局所ゲームの複雑性と,それらを定義する算術公式の複雑さに応じて言語を分類する算術階層との関係について検討する。
最近ではji, natarajan, vidick, wright, yuenによって、非ローカルゲームの(有限次元)量子値が1ドルか、または少なくとも$\frac{1}{2}$が$\sigma_1$(すなわち$\mathsf{re}$)のクラスで完結しているかを決定することが示されている。
Slofstraの結果は、非局所ゲームの可換演算子値が$1$と等しいかどうかを決定することは、クラス$\Pi_1$(つまり$\mathsf{coRE}$)に対して完備であることを意味する。
このクラスは算術階層の第二レベルにあり、「$\forall x \, \exists y \, \phi(x,y)$」という形の式に対応する。
これは、量子値の正確な計算は、それを近似するよりも厳密に、また通勤演算子値の計算よりも厳密に難しいことを示している。
我々は,非ローカルゲームの複雑性に関する結果が,圧縮と呼ばれる手法から統一的に従う方法を説明する。
われわれの$\Pi_2$-completenessの結果の中核は、量子的および可換作用素戦略の両方に当てはまる新しい「ギャップレス」圧縮定理である。
我々の圧縮定理は、量子相関の集合が閉でないというSlofstraの結果の代替証明を副産物として得る。
また、可換作用素戦略のための「gap保存」圧縮定理は、可換作用素値の近似が$\pi_1$で完備であることを示す。 We investigate the connection between the complexity of nonlocal games and the arithmetical hierarchy, a classification of languages according to the complexity of arithmetical formulas defining them. It was recently shown by Ji, Natarajan, Vidick, Wright and Yuen that deciding whether the (finite-dimensional) quantum value of a nonlocal game is $1$ or at most $\frac{1}{2}$ is complete for the class $\Sigma_1$ (i.e., $\mathsf{RE}$). A result of Slofstra implies that deciding whether the commuting operator value of a nonlocal game is equal to $1$ is complete for the class $\Pi_1$ (i.e., $\mathsf{coRE}$). We prove that deciding whether the quantum value of a two-player nonlocal game is exactly equal to $1$ is complete for $\Pi_2$; this class is in the second level of the arithmetical hierarchy and corresponds to formulas of the form "$\forall x \, \exists y \, \phi(x,y)$". This shows that exactly computing the quantum value is strictly harder than approximating it, and also strictly harder than computing the commuting operator value (either exactly or approximately). We explain how results about the complexity of nonlocal games all follow in a unified manner from a technique known as compression. At the core of our $\Pi_2$-completeness result is a new "gapless" compression theorem that holds for both quantum and commuting operator strategies. Our compression theorem yields as a byproduct an alternative proof of Slofstra's result that the set of quantum correlations is not closed. We also show how a "gap-preserving" compression theorem for commuting operator strategies would imply that approximating the commuting operator value is complete for $\Pi_1$. | 翻訳日:2023-03-11 23:09:19 公開日:2021-10-12 |
# テンソルフローによる複雑な制約と変数の少ない量子制御パルスの最適化 Optimizing quantum control pulses with complex constraints and few variables through Tensorflow ( http://arxiv.org/abs/2110.05334v2 ) ライセンス: Link先を確認 | Yao Song, Junning Li, Yong-Ju Hai, Qihao Guo, and Xiu-Hao Deng | (参考訳) 最適な制御アルゴリズムを現実的な量子システムに適用することは、最適化において物理的制約を効率的に適用し、実験的なチューンアップの利便性のために変数を最小化するという2つの大きな課題に直面する。
これらの問題を解決するために,帯域幅制御のための有限フーリエ基底の個数に変換されたパルス定数値に対する勾配最適化に,複数の制約を組み込んだ新しいアルゴリズムを提案する。
このような複雑な制約と最適化に関わる変数変換は、勾配の計算に極端に困難をもたらす。
テンソルフローの自動微分を利用して効率よくこの問題を解決する。
我々は,常時オン相互作用を持つトランスモン量子ビットを超伝導する単一量子ビットおよび2量子ビットゲートを実装するためのスムーズな制御パルスを探索し,本アルゴリズムを検証した。
本アルゴリズムは, 複雑で任意の物理制約に適応した最適量子制御手法を提供する。 Applying optimal control algorithms on realistic quantum systems confronts two key challenges: to efficiently adopt physical constraints in the optimization and to minimize the variables for the convenience of experimental tune-ups. In order to resolve these issues, we propose a novel algorithm by incorporating multiple constraints into the gradient optimization over piece-wise pulse constant values, which are transformed to contained numbers of the finite Fourier basis for bandwidth control. Such complex constraints and variable transformation involved in the optimization introduce extreme difficulty in calculating gradients. We resolve this issue efficiently utilizing auto-differentiation on Tensorflow. We test our algorithm by finding smooth control pulses to implement single-qubit and two-qubit gates for superconducting transmon qubits with always-on interaction, which remains a challenge of quantum control in various qubit systems. Our algorithm provides a promising optimal quantum control approach that is friendly to complex and optional physical constraints. | 翻訳日:2023-03-11 19:07:42 公開日:2021-10-12 |
# 量子コンピュータにおける指数関数とガウス関数の効率的な評価 Efficient Evaluation of Exponential and Gaussian Functions on a Quantum Computer ( http://arxiv.org/abs/2110.05653v1 ) ライセンス: Link先を確認 | Bill Poirier | (参考訳) 指数関数とガウス関数は、科学、工学、数学のあらゆる分野において、最も基本的かつ重要な演算の一つである。
形式的には任意の関数が量子コンピュータ上で実現可能であることはよく知られているが、実際には現在のアルゴリズムは非常に高価である。
本研究では,指数関数およびガウス関数を量子コンピュータ上で効率的に評価するためのアルゴリズムを提案する。
実装は(一般に)少ない数の乗法を必要とし、これは全体の計算ボトルネックを表す。
具体的かつ現実的なNISQ応用の場合、指数関数のトフォリ数は15,690から912に減少し、H\"anerと同僚(arXiv:1805.12445)による最先端の競合法と比較すると、各手法に最も好適な条件下で比較される。
対応するガウス関数の比較において、トフォリ数は19,090から704に減少する。
上記の NISQ アプリケーションが 71 個の論理量子ビットで実装可能である限り、空間要求もかなり控えめである。
より一般的に、ここで提示されるメソッドは、エラー訂正された乗法などを使用して、フォールトトレラントなコンテキストでも同じように適用することができる。 The exponential and Gaussian functions are among the most fundamental and important operations, appearing ubiquitously throughout all areas of science, engineering, and mathematics. Whereas formally, it is well-known that any function may in principle be realized on a quantum computer, in practice present-day algorithms tend to be very expensive. In this work, we present algorithms for evaluating exponential and Gaussian functions efficiently on quantum computers. The implementations require a (generally) small number of multiplications, which represent the overall computational bottleneck. For a specific, realistic NISQ application, the Toffoli count of the exponential function is found to be reduced from 15,690 down to 912, when compared against a state-of-the art competing method by H\"aner and coworkers [arXiv:1805.12445], under the most favorable conditions for each method. For the corresponding Gaussian function comparison, the Toffoli count is reduced from 19,090 down to 704. Space requirements are also quite modest, to the extent that the aforementioned NISQ application can be implemented with as few as 71 logical qubits. More generally, the methods presented here could also be equally well applied in a fault-tolerant context, using error-corrected multiplications, etc. | 翻訳日:2023-03-11 17:14:50 公開日:2021-10-12 |
# 幾何学的位相とsagnac効果:基礎的側面とセンシング応用 Geometric phases and the Sagnac effect: Foundational aspects and sensing applications ( http://arxiv.org/abs/2110.05824v1 ) ライセンス: Link先を確認 | Ismael L. Paiva, Rain Lenny, Eliahu Cohen | (参考訳) 幾何学的位相は量子科学とテクノロジーの多くの分野において重要な要素である。
本稿では,量子幾何学相の基本的側面と古典幾何学相との関係について概説する。
次に,aharonov-bohm と sagnac 効果がこの文脈にどのように適合するかを考察する。
さらに,ジャイロスコープや重力波検出器などの重力センシングを中心に,後者の技術応用を簡潔に概観する。 Geometric phase is a key player in many areas of quantum science and technology. In this review article, we outline several foundational aspects of quantum geometric phases and their relations to classical geometric phases. We then discuss how the Aharonov-Bohm and Sagnac effects fit into this context. Moreover, we present a concise overview of technological applications of the latter, with special emphasis on gravitational sensing, like in gyroscopes and gravitational wave detectors. | 翻訳日:2023-03-11 17:12:07 公開日:2021-10-12 |
# 4\times 4$ Dirac方程式に対するフォーム保存ダルブー変換 Form-preserving Darboux transformations for $4\times 4$ Dirac equations ( http://arxiv.org/abs/2110.05816v1 ) ライセンス: Link先を確認 | M. Castillo-Celeita, V. Jakubsk\'y, K. Zelaya | (参考訳) darboux変換は、量子力学における新しい可解モデルを構築するための強力なツールである。
本稿では,4\times4$ Dirac Hamiltoniansによって記述された物理系の文脈での使用について論じる。
一般のフレームワークは、出力エネルギー演算子に対する限定的な制御を提供し、必要な物理的解釈が得られないようにしている。
この問題は、構成による物理的相互作用の必要な形態を保存できる還元可能なdarboux変換によって回避できることを示す。
そこで我々は, グラフェン中のディラックフェルミオンの歪み散乱とスピン軌道相互作用に着目した。
我々は、還元可能なダルブックス変換を用いて、バック散乱が欠如しているこれらのシステムの正確に解けるモデルを構築する。 Darboux transformation is a powerful tool for the construction of new solvable models in quantum mechanics. In this article, we discuss its use in the context of physical systems described by $4\times4$ Dirac Hamiltonians. The general framework provides limited control over the resulting energy operator, so that it can fail to have the required physical interpretation. We show that this problem can be circumvented with the reducible Darboux transformation that can preserve the required form of physical interactions by construction. To demonstrate it explicitly, we focus on distortion scattering and spin-orbit interaction of Dirac fermions in graphene. We use the reducible Darboux transformation to construct exactly solvable models of these systems where backscattering is absent, i.e. the models are reflectionless. | 翻訳日:2023-03-11 17:12:00 公開日:2021-10-12 |
# 開量子系における仕事と熱の準確率 Quasi-probabilities of work and heat in an open quantum system ( http://arxiv.org/abs/2110.05768v1 ) ライセンス: Link先を確認 | Paolo Solinas, Mirko Amico and Nino N. Zangh\`i | (参考訳) 外部古典場によって駆動されるオープン量子系の作業量,放散熱および内部エネルギーの変動を決定するためのアプローチについて議論する。
これらの量は、異なる時間で量子系と量子検出器を結合することによって測定される。
このアプローチにより、進化の完全な量子的特徴を維持できる。
測定された位相から、対応する観測対象に対する準特性関数と準確率密度関数を得ることができる。
これらの準確率密度関数は直接測定の結果ではないにもかかわらず、物理量の期待値を再現している。
ウィグナー関数と同様に、これらの準確率密度関数の負の領域は、古典的用語では解釈できない純粋な量子過程に直接関係している。
この特徴を利用して、強い散逸の限界において、量子的特徴は消滅し、エネルギー交換プロセスの古典的な限界の出現と解釈する。
本分析は,ibmqデバイスで実施した最近の実験で観察された挙動を説明し,確認する。
古典的特徴と量子的特徴を区別できる可能性により、提案手法は量子レベルでのエネルギー交換プロセスの効率を高めるために量子効果を利用することができるかどうかを判断する優れたツールとなる。 We discuss an approach to determine averages of the work, dissipated heat and variation of internal energy of an open quantum system driven by an external classical field. These quantities are measured by coupling the quantum system to a quantum detector at different times. This approach allows us to preserve the full quantum features of the evolution. From the measured phase, we are able to obtain a quasi-characteristic function and a quasi-probability density function for the corresponding observables. Despite the fact that these quasi-probability density functions are not the results of direct measurements, they reproduce the expected value of the physical quantities. Analogously to the Wigner function, the negative regions of these quasi-probability density functions are directly related to pure quantum processes which are not interpretable in classical terms. We use this feature to show that in the limit of strong dissipation, the quantum features vanish and interpret this as the emergence of the classical limit of the energy exchange process. Our analysis explains and confirms the behavior observed in recent experiments performed on IBMQ devices [1]. The possibility to discriminate between classical and quantum features makes the proposed approach an excellent tool to determine if, and in which conditions, quantum effects can be exploited to increase the efficiency in an energy exchange process at the quantum level. | 翻訳日:2023-03-11 17:11:48 公開日:2021-10-12 |
# ポラリトン導波路における超高速、低エネルギー、全光スイッチ Ultrafast, low-energy, all-optical switch in polariton waveguides ( http://arxiv.org/abs/2110.05704v1 ) ライセンス: Link先を確認 | D. G. Su\'arez-Forero, F. Riminucci, V. Ardizzone, A. Gianfrate, F. Todisco, M. De Giorgi, D. Ballarini, G. Gigli, K. Baldwin, L. Pfeiffer, D. Sanvitto | (参考訳) 光技術における信号の光-電気-光変換の要件は、しばしば速度とエネルギー消費の点で大きなボトルネックの1つである。
有色光子(ポラリトンとも呼ばれる)を使用することで、スイッチや光ゲートなどの光学的集積素子の性能を大幅に向上させることができる。
本研究は、光パルス共振器によって誘導される偏光導波路にレーザーの超高速スイッチを、同じ分散で低エネルギーで示すものである。
実験では,光スターク効果によるサブピコ秒時間範囲と,電荷貯水池の生成によって制御されるピコ秒範囲の2つの異なる時間範囲でレーザーの伝送を妨害できる効果を示した。
後者の方法では、励起の特定の力で暗黒状態の活性化は、明るい励起子寿命よりもずっと長いスイッチングの持続を可能にすることが判明した。 The requirement for optical-electrical-optical conversion of signals in optical technologies is often one of the majors bottleneck in terms of speed and energy consumption. The use of dressed photons (also called polaritons), that allows for intrinsic sizable interactions, could significantly improve the performances of optical integrated elements such as switches or optical gates. In this work we demonstrate the ultrafast switch of a laser coupled into a polaritonic waveguide triggered by an optical pulse resonant with the same dispersion but at a lower energy. Our experiments show two effects capable to interrupt the transmission of the laser in two different time ranges: a sub-picosecond time range due to the optical Stark effect, and a picosecond range governed by the creation of a charge reservoir. In the latter regime we found that at certain power of excitation the activation of dark states allows for a long persistence of the switching much beyond the bright exciton lifetime. | 翻訳日:2023-03-11 17:10:15 公開日:2021-10-12 |
# 限られた制御による量子システム間の量子情報伝達と量子コンピュータ Transferring quantum information between a quantum system with limited control and a quantum computer ( http://arxiv.org/abs/2110.05683v1 ) ライセンス: Link先を確認 | Ryosuke Sakai, Akihito Soeda, Mio Murao | (参考訳) 固定されたハミルトニアンと量子コンピュータに従って連続的に進化する量子ビット系からなるハイブリッド量子系を考える。
量子ビット系は、量子コンピュータに固定された相互作用ハミルトニアンを通して結合し、オン/オフしかできない。
そこで,量子アルゴリズムを用いて量子情報を量子ビット系と量子コンピュータの間で近似的に転送する手法を提案する。
我々のアルゴリズムは、所定のインターフェース相互作用ハミルトニアンに対する閉公式のゲート列によってプログラムされる。 We consider a hybrid quantum system consisting of a qubit system continuously evolving according to its fixed own Hamiltonian and a quantum computer. The qubit system couples to a quantum computer through a fixed interaction Hamiltonian, which can only be switched on and off. We present quantum algorithms to approximately transfer quantum information between the qubit system with limited control and the quantum computer under this setting. Our algorithms are programmed by the gate sequences in a closed formula for a given interface interaction Hamiltonian. | 翻訳日:2023-03-11 17:09:59 公開日:2021-10-12 |
# 倫理指向型AI実装法ECCOLAの拡張のためのデプロイモデル A Deployment Model to Extend Ethically Aligned AI Implementation Method ECCOLA ( http://arxiv.org/abs/2110.05933v1 ) ライセンス: Link先を確認 | Jani Antikainen, Mamia Agbese, Hanna-Kaisa Alanen, Erika Halme, Hannakaisa Isom\"aki, Marianna Jantunen, Kai-Kristian Kemell, Rebekah Rousi, Heidi Vainio-Pekka, Ville Vakkuri | (参考訳) 人工知能(AI)倫理は、倫理的に健全なAIシステムを開発、実装しながら、実践者が活用する実行可能な方法やモデルに根ざすのに苦労している。
AI倫理は定義や理論的根拠の合意なしに曖昧な概念であり、実践とはほとんど関係がない。
ソフトウェア開発のような技術的タスクを主に含むプラクティスは、倫理的考慮事項を処理し、決定するのに適していない。
AI開発に携わる人々を支援するツールやガイドラインを作成する努力は、AIの技術的な側面にのみ集中してきた。
倫理的に整合したAIシステムを作成するECCOLAメソッドなど、いくつかの例外が適用される。
ECCOLAは、AIシステム開発における倫理的配慮の増加という観点から、成果を証明している。
しかし、これは新しいイノベーションであり、開発の余地はまだ残っている。
本研究は、ECCOLAをデプロイモデルで拡張して、ECCOLAの採用を促進することを目的としている。
このモデルは、倫理的AI開発における倫理的ギャップや成果のコミュニケーションを容易にするための単純なメトリクスを含んでいる。
任意のライフサイクルフェーズにおいて、任意のAIシステムを評価する機会を提供する。例えば、取得中のAIシステムの倫理性を分析するなどの可能性を開く。 There is a struggle in Artificial intelligence (AI) ethics to gain ground in actionable methods and models to be utilized by practitioners while developing and implementing ethically sound AI systems. AI ethics is a vague concept without a consensus of definition or theoretical grounding and bearing little connection to practice. Practice involving primarily technical tasks like software development is not aptly equipped to process and decide upon ethical considerations. Efforts to create tools and guidelines to help people working with AI development have been concentrating almost solely on the technical aspects of AI. A few exceptions do apply, such as the ECCOLA method for creating ethically aligned AI -systems. ECCOLA has proven results in terms of increased ethical considerations in AI systems development. Yet, it is a novel innovation, and room for development still exists. This study aims to extend ECCOLA with a deployment model to drive the adoption of ECCOLA, as any method, no matter how good, is of no value without adoption and use. The model includes simple metrics to facilitate the communication of ethical gaps or outcomes of ethical AI development. It offers the opportunity to assess any AI system at any given lifecycle phase, e.g., opening possibilities like analyzing the ethicality of an AI system under acquisition. | 翻訳日:2023-03-11 17:02:02 公開日:2021-10-12 |
# クラスター状態における識別不能光子の決定論的源 A deterministic source of indistinguishable photons in a cluster state ( http://arxiv.org/abs/2110.05908v1 ) ライセンス: Link先を確認 | Dan Cogan, Zu-En Su, Oded Kenneth, and David Gershoni | (参考訳) 測定に基づく量子通信は、高度に絡み合った多光子クラスター状態の可用性に依存する。
クラスタ内の組み込み冗長性により、リモートノード間の通信は、繰り返し局所的な測定によって可能となり、フォトン損失と確率的ベル測定を補償する。
実現可能なアプリケーションの場合、クラスタ生成は高速で決定論的であり、光子であるべきです。
半導体量子ドットデバイスを用いた新しい光源を提案する。
ドットは重い穴を閉じ込め、微調整された外部の弱い磁場で、光パルスの連続によって周期的に励起される。
その結果、ドットは識別不能な偏光子を放出し、そこでは磁場強度が絡み合いを最適化する。
ギガヘルツ速度決定論により、10光子以上のエンタングルメント長を持つクラスター状態における90%以上の識別不能光子の生成を示す。 Measurement-based quantum communication relies on the availability of highly entangled multi-photon cluster states. The inbuilt redundancy in the cluster allows communication between remote nodes using repeated local measurements, compensating for photon losses and probabilistic Bell-measurements. For feasible applications, the cluster generation should be fast, deterministic, and its photons - indistinguishable. We present a novel source based on a semiconductor quantum-dot device. The dot confines a heavy-hole, precessing in a finely tuned external weak magnetic field while periodically excited by a sequence of optical pulses. Consequently, the dot emits indistinguishable polarization-entangled photons, where the field strength optimizes the entanglement. We demonstrate Gigahertz rate deterministic generation of >90% indistinguishable photons in a cluster state with more than 10 photons characteristic entanglement-length. | 翻訳日:2023-03-11 17:01:44 公開日:2021-10-12 |
# 量子資源の隠蔽と探究--量子ステガノグラフィーの新しいおよび修正されたプロトコル Hide and seek with quantum resources: New and modified protocols for quantum steganography ( http://arxiv.org/abs/2110.05893v1 ) ライセンス: Link先を確認 | Rohan Joshi, Akhil Gupta, Kishore Thapliyal, R Srikanth, Anirban Pathak | (参考訳) ステガノグラフィー(英: Steganography)とは、秘密のメッセージを秘密のテキストに埋め込んで、盗聴者がその存在を知らないようにする科学である。
以前は量子鍵分布(QKD)を用いたステガノグラフィーの確立の試みがあった。
近年、そのようなプロトコルは、隠されたメッセージの存在を検知し、通信全体を抑制できる特定のsteg analysis攻撃に対して脆弱であることが示されている。
本研究では,この検出攻撃に対して安全性を損なうオリジナルプロトコルの脆弱性について詳述する。
さらに,この検出に基づく攻撃の脅威を排除する離散変調連続変数QKDを用いた新しいステガノグラフィープロトコルを提案する。
また, 本プロトコルの特性から, その脆弱性を解消し, ステガナリシスの影響を受けないように, オリジナルプロトコルの修正も提案する。 Steganography is the science of hiding and communicating a secret message by embedding it in an innocent looking text such that the eavesdropper is unaware of its existence. Previously, attempts were made to establish steganography using quantum key distribution (QKD). Recently, it has been shown that such protocols are vulnerable to a certain steganalysis attack that can detect the presence of the hidden message and suppress the entire communication. In this work, we elaborate on the vulnerabilities of the original protocol which make it insecure against this detection attack. Further, we propose a novel steganography protocol using discrete modulation continuous variable QKD that eliminates the threat of this detection-based attack. Deriving from the properties of our protocol, we also propose modifications in the original protocol to dispose of its vulnerabilities and make it insusceptible to steganalysis. | 翻訳日:2023-03-11 17:01:24 公開日:2021-10-12 |
# qopt:実験指向量子ビットシミュレーションと量子最適制御パッケージ qopt: An experiment-oriented Qubit Simulation and Quantum Optimal Control Package ( http://arxiv.org/abs/2110.05873v1 ) ライセンス: Link先を確認 | Julian D. Teske, Pascal Cerfontaine, Hendrik Bluhm | (参考訳) 量子プロセッサの性能予測と制御最適化には,制御ハードウェアが課すノイズや制約を含む量子ビットシステムの現実的モデリングが必要である。
我々は、量子ビット力学とロバスト量子最適制御をシミュレーションするソフトウェアフレームワークであるqoptを紹介した。
そこで本研究では,実音特性と実験制約のシミュレーションに焦点をあてて,オープンかつクローズドな量子ビット系をモデル化する。
具体的には、モンテカルロ法、効率的なマスター方程式、あるいは効率的なフィルタ関数形式を用いてノイズの影響を計算し、自動相関ノイズの調査と緩和を可能にする。
また、有限帯域効果や非線形伝達関数、駆動依存ノイズを含む制御エレクトロニクスの限界を考慮することができる。
解析結果に基づいて勾配の計算を行い、制御パルスの効率的な最適化を容易にする。
ソフトウェアはQuTipと簡単にインターフェースでき、オープンソースライセンスで公開されており、十分にテストされており、詳細なドキュメントが特徴である。 Realistic modeling of qubit systems including noise and constraints imposed by control hardware is required for performance prediction and control optimization of quantum processors. We introduce qopt, a software framework for simulating qubit dynamics and robust quantum optimal control considering common experimental situations. To this end, we model open and closed qubit systems with a focus on the simulation of realistic noise characteristics and experimental constraints. Specifically, the influence of noise can be calculated using Monte Carlo methods, effective master equations or with the efficient filter function formalism, which enables the investigation and mitigation of auto-correlated noise. In addition, limitations of control electronics including finite bandwidth effects as well as nonlinear transfer functions and drive-dependent noise can be considered. The calculation of gradients based on analytic results is implemented to facilitate the efficient optimization of control pulses. The software easily interfaces with QuTip, is published under an open source license, well-tested and features a detailed documentation. | 翻訳日:2023-03-11 17:00:49 公開日:2021-10-12 |
# 波の性質に基づくビームスプリッタ上の光子束の非古典的特徴の解釈 A wave nature-based interpretation of the nonclassical feature of photon bunching on a beam splitter ( http://arxiv.org/abs/2110.06099v1 ) ライセンス: Link先を確認 | Byoung S. Ham | (参考訳) ボーリングルールは、物理量の測定プロセスの確率振幅に基づいて量子力学を理解するための鍵である。
光子の典型的な粒子の性質に基づき、2つの入力光子の相対位相を明確に定義しなくても、2つの出力光子のビームスプリッタに束ねる光子の量子特性をボルン則で説明することができる。
本論文では,光子束の量子的特徴をビームスプリッタの位相基底重畳により説明する,光子の波動特性に基づく新しい解釈を提案する。
提案手法の正しさをサポートするためにマッハツェンダー干渉計も提案されている。
その結果、量子的特徴の限定的な理解は破壊的量子干渉に関する位相基底重ね合わせによって深められる。
したがって、いわゆる謎の量子特徴は、ペア光子間の定相関係と、光学系の位相基底重ね合わせの新しい項の両方によって明らかにされる。 Born rule is key to understanding quantum mechanics based on the probability amplitude for the measurement process of a physical quantity. Based on a typical particle nature of a photon, the quantum feature of photon bunching on a beam splitter between two output photons can be explained by Born rule even without clear definition of the relative phase between two input photons. Unlike conventional understanding on this matter, known as the Hong-Ou-Mandel effect, here, we present a new interpretation based on the wave nature of a photon, where the quantum feature of photon bunching is explained through phase basis superposition of the beam splitter. A Mach-Zehnder interferometer is additionally presented to support the correctness of the presented method. As a result, our limited understanding of the quantum feature is deepened via phase basis superposition regarding the destructive quantum interference. Thus, the so-called mysterious quantum feature is now clarified by both the definite phase relationship between paired photons and a new term of the phase basis superposition of an optical system. | 翻訳日:2023-03-11 16:54:16 公開日:2021-10-12 |
# コンピュータサイエンスにおける学術スタッフの男女バランスの高まり--事例研究 Increasing Gender Balance Across Academic Staffing in Computer Science -- case study ( http://arxiv.org/abs/2110.06094v1 ) ライセンス: Link先を確認 | Susan Mckeever and Deirdre Lillis | (参考訳) 2019年時点では、ユニバーシティ・ダブリン* コンピュータサイエンスは、コンピュータサイエンス学校の女性学術スタッフのジェンダーバランスの観点から、アイルランドでトップの大学である。
大学職員の36%が女性で、上級指導部(4人中2人)の50%が女性で、学校の幹部の75%が女性(4人中3人)で、その中には女子校長も含まれています。
これは、ソース、キャリア、環境、サポートという4つのストランドアプローチを持つ7年間の成功プログラムの結果です。
ソースストランド(source strand)は、女性が求人活動に応募することを明示的に奨励し、キャリアは、女性としてのキャリアとスキル開発に焦点をあて、環境は、学校内、我々の組織内、アイルランドの第3レベルのセクターにわたって、女性フレンドリーな文化と評判を生み出した。
その結果,過去5年間で女性スタッフの転職率は0%であった(男性スタッフの転職率は10%に対して)。
今後数年間、女性スタッフのパイプラインを維持し、女性にとって挑戦的な学術的およびict部門での成功を確実にするために、これらの4つのストランドにまたがって取り組んでいきます。 As at 2019, Technological University Dublin* Computer Science is the top university in Ireland in terms of gender balance of female academic staff in computer science schools. In an academic team of approximately 55 full-time equivalents, 36% of our academic staff are female, 50% of our senior academic leadership team (2 of 4) are female and 75% of our School Executive are female (3 of 4), including a female Head of School. This is as a result of our seven year SUCCESS programme which had a four strand approach: Source, Career, Environment and Support. The Source strand explicitly encouraged females to apply for each recruitment drive; Career focused on female career and skills development initiatives; Environment created a female-friendly culture and reputation, both within the School, across our organisation and across the third level sector in Ireland and Support addressed practical supports for the specific difficulties experienced by female staff. As a result we have had 0% turnover in female staff in the past five years (in contrast to 10% male staff turnover). We will continue to work across these four strands to preserve our pipeline of female staff and ensure their success over the coming years in an academic and ICT sector that remains challenging for females. | 翻訳日:2023-03-11 16:54:01 公開日:2021-10-12 |
# 導波路QEDにおけるフォトニック境界状態と散乱共鳴 Photonic Bound States and Scattering Resonances in Waveguide QED ( http://arxiv.org/abs/2110.06093v1 ) ライセンス: Link先を確認 | Bastian Bakkensen, Yu-Xiang Zhang, Johannes Bjerlin, Anders S{\o}ndberg S{\o}rensen | (参考訳) キラリティの導波路における2種類の2光子境界状態の出現について検討する。
具体的には、部分的にキラルな無限の2レベルエミッタ配列に結合した導波路からなる系の固有状態を解析的に決定する体系的な方法を提案する。
効果的なハミルトニアンアプローチを用いて, 2光子結合状態の分散関係と内部構造を決定することにより特性を決定する。
境界状態は、2光子運動量とエミッタ間隔に依存する2つの種類に分けられる。
これらの状態の1つは長寿命の真の結合状態であり、もう1つは散乱共鳴であり、自由二光子状態へのカップリングによって時間的に崩壊し、光子-光子散乱における共鳴と対応する位相シフトをもたらす。 We study the emergence of two types of two-photon bounds states in waveguides of any chirality. Specifically, we present a systematic way of analytically determining the eigenstates of a system consisting of a waveguide coupled to a partially chiral, infinite array of equidistant two-level emitters. Using an effective Hamiltonian approach, we determine the properties of the two-photon bound states by determining their dispersion relation and internal structure. The bound states come in two varieties, depending on the two-photon momentum and emitter spacing. One of these states is a long-lived true bound state, whereas the other, a scattering resonance, decays in time via coupling to free two-photon states, leading to resonances and corresponding phase shifts in the photon-photon scattering. | 翻訳日:2023-03-11 16:53:36 公開日:2021-10-12 |
# コンピュータ科学における女子学生の第三段階のリクルートと留保への取り組み Addressing the Recruitment and Retention of Female Students in Computer Science at Third Level ( http://arxiv.org/abs/2110.06090v1 ) ライセンス: Link先を確認 | Susan McKeever, Deirdre Lillis | (参考訳) アイルランドのダブリン工科大学(DIT)のコンピューティングスクールでは、女子学部のコンピュータサイエンス(CS)学生の採用と維持問題に対処するため、学部レベルで構造改革を実施するための5年間の戦略であるCS4All(Computer Science for All)イニシアティブを実施しました。
2012年以降,CS4Allでは,学生の留学生を育成するための様々な改革を実施し,より多くの女子学生を惹きつけるための新しいCSプログラムを設置し,女子学生のコミュニティ意識を高めるための変化を提供した。
我々は大幅に改善した。
例えば、初年度の進捗率では、保持率を45%から89%に劇的に改善しました。
我々の新しいハイブリッドCSインターナショナルプログラムは、他の学部生のプログラムと比べて、初年度の女性の比率が2倍以上になっている。
2018年と同様、cs4allの残りの部分を校内で展開し続けています。 In the School of Computing at the Dublin Institute of Technology (DIT), Ireland, we undertook our Computer Science for All (CS4All) initiative, a five year strategy to implement structural reforms at Faculty level, to address recruitment and retention issues of female undergraduate computer science (CS) students. Since 2012, under CS4All we implemented a variety of reforms to improve student retention, set up a new CS program to attract more female students, and delivered changes to promote a sense of community amongst our female students. We have made significant improvements. For example, we have achieved a dramatic improvement in retention rising from 45% to 89% in first year progression rates. Our new hybrid CS International program has more than double the percentage of females first year enrolments in comparison to our other undergraduate programs. As at 2018, we continue to roll out the remaining parts of CS4All within our School. | 翻訳日:2023-03-11 16:53:23 公開日:2021-10-12 |
# 非物質を特徴づける。
スティーブン・ベントンのホログラムエンジンNo.9の非侵襲イメージングと解析 Characterizing the Immaterial. Noninvasive Imaging and Analysis of Stephen Benton's Hologram Engine no. 9 ( http://arxiv.org/abs/2110.06080v1 ) ライセンス: Link先を確認 | Marc Walton, Pengxiao Hao, Marc Vermeulen, Florian Willomitzer, Oliver Cossairt | (参考訳) 1962年に発明されたホログラフィーは、芸術と技術の融合である。
1990年代を通じて科学的な最先端に留まり、デジタルイメージングが登場し、フィルムに取って代わられた。
今日、ホログラフィーは、アナログホログラムが主要な美術館のコレクションに入るにつれて、ボナ・フェイドの芸術作品として新たな関心を集めている。
本論では,北西部科学研究センターにおける初歩として,ホログラムの保存に関する技術的課題について述べ,その性質を活発な素材として強調する。
ホログラフィック画像は、ユーザーのインタラクションを見る必要があり、材料は繊細で劣化しやすい。
具体的には, 伝搬光の波面を文書化し, ホログラフィック作品のデジタル保存コピーを作成する手法について概説する。
このようにして、テラバイトのデータを使わずに、高空間分解能、全視差、深部深度を忠実に捉えることがなぜ難しいのかを実証する。
さらに, スペクトルイメージング, x線蛍光, 光コヒーレンストモグラフィなどの非侵襲的解析技術を用いてホログラム材料特性の考察を行った。
これらの研究を通じて、ホログラムの長期保存に関する現在の懸念に対処しつつ、新たなオーディエンスを惹きつけるためのデジタル形式に変換したいと考えている。 Invented in 1962, holography is a unique merging of art and technology. It persisted at the scientific cutting edge through the 1990s, when digital imaging emerged and supplanted film. Today, holography is experiencing new interest as analog holograms enter major museum collections as bona fide works of art. In this essay, we articulate our initial steps at Northwestern's Center for Scientific Studies in the Arts to describe the technological challenges on the conservation of holograms, emphasizing their nature as an active material. A holographic image requires user interaction to be viewed, and the materials are delicate and prone to deterioration. Specifically, we outline our methods for creating digital preservation copies of holographic artworks by documenting the wavefront of propagating light. In so doing, we demonstrate why it remains challenging to faithfully capture their high spatial resolution, the full parallax, and deep depths of field without terabytes of data. In addition, we use noninvasive analytical techniques such as spectral imaging, X-ray fluorescence, and optical coherence tomography, to provide insights on hologram material properties. Through these studies we hope to address current concerns about the long term preservation of holograms while translating this artform into a digital format to entice new audiences. | 翻訳日:2023-03-11 16:53:06 公開日:2021-10-12 |
# テレポーテーションに基づく光コヒーレント状態の無ノイズ量子増幅 Teleportation-based noiseless quantum amplification of coherent states of light ( http://arxiv.org/abs/2110.06040v1 ) ライセンス: Link先を確認 | Jarom\'ir Fiur\'a\v{s}ek | (参考訳) 光のコヒーレント状態の高忠実度ノイズレス量子増幅のためのテレポーテーションに基づくスキームを提案し,理論的に解析する。
提案手法では,確率的ノイズレス量子増幅演算を適切な2モード交絡状態に符号化し,連続可変量子テレポーテーションにより入力コヒーレント状態に適用する。
このスキームは、テレポーテーションプロトコルにおけるホモダイン測定結果の条件付けを必要とする。
条件付き単光子付加と減算の組み合わせに基づく高忠実性ノイズレス量子増幅器とは対照的に、本方式では光子減算と補助ガウス真空状態の組合せのみを必要とする。
まず、プロトコルの純粋な状態記述を提供し、その原則と機能を明確に説明できるようにします。
次に, 量子状態の位相空間表現に基づくより包括的なモデルを構築し, 補助励起状態における余剰ノイズや光子の有無のみを識別できる単光子検出器の限界効率など, 様々な実験的欠陥を考慮に入れた。
ノイズレス遠隔増幅器の位相空間モデルの予測と解析を行う。 We propose and theoretically analyze a teleportation-based scheme for high-fidelity noiseless quantum amplification of coherent states of light. In our approach, the probabilistic noiseless quantum amplification operation is encoded into a suitable auxiliary two-mode entangled state and then applied to the input coherent state via continuous-variable quantum teleportation. The scheme requires conditioning on the outcomes of homodyne measurements in the teleportation protocol. In contrast to high-fidelity noiseless quantum amplifiers based on combination of conditional single-photon addition and subtraction, the present scheme requires only photon subtraction in combination with auxiliary Gaussian squeezed vacuum states. We first provide a pure-state description of the protocol which allows us to to clearly explain its principles and functioning. Next we develop a more comprehensive model based on phase-space representation of quantum states, that accounts for various experimental imperfections such as excess noise in the auxiliary squeezed states or limited efficiency of the single-photon detectors that can only distinguish the presence or absence of photons. We present and analyze predictions of this phase-space model of the noiseless tele-amplifier. | 翻訳日:2023-03-11 16:52:04 公開日:2021-10-12 |
# 時相論理を用いた微視的交通パラメータの定式化とモニタリング Towards formalization and monitoring of microscopic traffic parameters using temporal logic ( http://arxiv.org/abs/2110.06208v1 ) ライセンス: Link先を確認 | Mariam Nour, Mohamed H. Zaki | (参考訳) スマートシティはテクノロジーの統合によって交通インフラに革命をもたらしている。
しかし,様々な輸送システムコンポーネントが期待通りに運用され,安全に運用されることは大きな課題である。
本稿では,トラヒックネットワークの複雑な特性を記述・推論するための手法として,形式的手法の利用を提案する。
形式的手法は、不整合挙動を捉え、交通シーンの様々な状態を探索し、その中の不整合を検出することによって、交通ネットワークの安全な操作を定義する柔軟なツールを提供する。
そこで我々は, 正式な言語であるSignal Temporal Logicを用いて, トラフィックネットワーク解析のための仕様ベースモニタリングを開発した。
速度制限に準拠したり,適切なヘッドウェイを維持するなど,安全関連の動作を識別するモニタを開発した。
このフレームワークは、校正されたマイクロシミュレーションハイウェイシナリオを用いてテストされ、オフライン仕様に基づく監視が個々の車両軌跡に適用され、それらが定義された安全仕様に違反しているか、あるいは満たされているかが分かる。
結果の統計的分析により,提案手法は,規定された仕様に基づいて,違反と適合する車両軌跡を区別できることが示された。
この作業は交通管理センターがトラヒックストリーム特性を調査し、ハザードを特定し、トラヒック監視システムを自動化する上で貴重なフィードバックを提供するために利用することができる。 Smart cities are revolutionizing the transportation infrastructure by the integration of technology. However, ensuring that various transportation system components are operating as expected and in a safe manner is a great challenge. In this work, we propose the use of formal methods as a means to specify and reason about the traffic network's complex properties. Formal methods provide a flexible tool to define the safe operation of the traffic network by capturing non-conforming behavior, exploring various possible states of the traffic scene, and detecting any inconsistencies within it. Hence, we develop specification-based monitoring for the analysis of traffic networks using the formal language, Signal Temporal Logic. We develop monitors that identify safety-related behavior such as conforming to speed limits and maintaining appropriate headway. The framework is tested using a calibrated micro-simulated highway scenario and offline specification-based monitoring is applied to individual vehicle trajectories to understand whether they violate or satisfy the defined safety specifications. Statistical analysis of the outputs show that our approach can differentiate violating from conforming vehicle trajectories based on the defined specifications. This work can be utilized by traffic management centers to study the traffic stream properties, identify possible hazards, and provide valuable feedback for automating the traffic monitoring systems. | 翻訳日:2023-03-11 16:44:59 公開日:2021-10-12 |
# 合成スクイージングによる2量子ビットエンタングルメントの安定化 Stabilizing two-qubit entanglement with engineered synthetic squeezing ( http://arxiv.org/abs/2110.06201v1 ) ライセンス: Link先を確認 | L. C. G. Govia, A. Lingenfelter, A. A. Clerk | (参考訳) 圧縮真空環境に浸漬された量子ビットは、散逸性の絡み合い安定化を含む多くのエキゾチックな現象を示すことが知られている。
ここで,これらの効果は励起過程と減衰過程の干渉のみを必要とすることを示し,古典的時間変調を用いた非古典的光を忠実に模倣できることを示した。
伝送線路または導波路を介して結合された2つのリモートキュービット間の絡み合いを安定化するために、このアイデアを利用するスキームを提案する。
様々な不完全性に対するこれらのアプローチの弾力性を分析し、また、エンタングルメント安定化の速度と品質のトレードオフを特徴付ける。
我々のプロトコルはアーティファクトQEDシステムの状態と互換性がある。 It is well known that qubits immersed in a squeezed vacuum environment exhibit many exotic phenomena, including dissipative entanglement stabilization. Here, we show that these effects only require interference between excitation and decay processes, and can be faithfully mimicked without non-classical light using simple classical temporal modulation. We present schemes that harnesses this idea to stabilize entanglement between two remote qubits coupled via a transmission line or waveguide, where either the qubit-waveguide coupling is modulated, or the qubits are directly driven. We analyze the resilience of these approaches against various imperfections, and also characterize the trade-off between the speed and quality of entanglement stabilization. Our protocols are compatible with state of the art cavity QED systems. | 翻訳日:2023-03-11 16:44:38 公開日:2021-10-12 |
# 非線形光応答の非線形性 Non-Uniqueness of Non-Linear Optical Response ( http://arxiv.org/abs/2110.06189v1 ) ライセンス: Link先を確認 | Gerard McCaul, Alexander F. King and Denys I. Bondar | (参考訳) 近年、非線形光学現象が注目されており、特に非線形応答の工学と利用に焦点を当てている。
しかしながら、これらの反応を発生させる駆動分野に関する研究は、比較的少ない。
本研究では、駆動場とそれが引き起こす光応答の関係が非特異であることを実証する。
強相互作用系に対する汎用モデルを用いて、複数の候補駆動場が存在し、すべて同じ応答を生成することを示す。
したがって、光学応答は系の内部力学を決定するのに不十分であり、駆動場に対する異なる解がシステム上で異なる量の作業を行うことを示すことができる。
この非特異性現象は、将来、光学応答を変更せずに内部システム状態を設計するために利用することができる。 In recent years, non-linear optical phenomena have attracted much attention, with a particular focus on the engineering and exploitation of non-linear responses. Comparatively little study has however been devoted to the driving fields that generate these responses. In this work, we demonstrate that the relationship between a driving field and the optical response it induces is non-unique. Using a generic model for a strongly interacting system, we show that multiple candidate driving field exists, which will all generate the same response. Consequently, it is possible show that the optical response is not sufficient to determine the internal dynamics of the system, and that different solutions for the driving field will do different amounts of work on a system. This non-uniqueness phenomenon may in future be utilised to engineer internal system states without modifying its optical response. | 翻訳日:2023-03-11 16:44:03 公開日:2021-10-12 |
# 構造設計の離散最適化におけるメタヒューリスティック法のパラメータチューニング戦略 Parameter Tuning Strategies for Metaheuristic Methods Applied to Discrete Optimization of Structural Design ( http://arxiv.org/abs/2110.06186v1 ) ライセンス: Link先を確認 | Iv\'an Negrin and Dirk Roose and Ernesto Chagoy\'en | (参考訳) 本稿では, 鉄筋コンクリート(RC)構造物の設計最適化のためのメタヒューリスティック手法のパラメータを調整するためのいくつかの手法を提案する。
平均性能曲線の下の領域に基づいて,新しい実用度指標を提案する。
現実的なRC構造のモデリング、解析、設計のプロセスは、その評価が計算的に非常に高価である客観的な機能をもたらす。
コストのかかるシミュレーションを避けるため、2種類のサロゲートモデルが使用される。
最初の1つは、可能なすべてのソリューションを含むデータベースの作成です。
2つ目は、ベンチマーク関数を使用して、個々のサブスペースを作成し、現実的な問題の主な特徴をシミュレートする。
4つのメタヒューリスティックのパラメータチューニングは2つの戦略に基づいて行われる。
両者の主な違いは、部分的な評価を行うために確立されたパラメータ制御である。
最も単純な戦略は、パラメータの設定にかかわらず、優れた'ジェネリスト'メソッド、すなわち優れたパフォーマンスを持つメソッドをチューニングするのに適している。
もう1つはより高価だが、あらゆる方法を評価するのに適している。
チューニングの結果、比較的新しい進化的アルゴリズムであるバイオジオグラフィーに基づく最適化は、リコンビネーションや突然変異演算子を適用するという特定のアプローチにより、GAやPSOといった他の手法よりも優れていることが証明された。 This paper presents several strategies to tune the parameters of metaheuristic methods for (discrete) design optimization of reinforced concrete (RC) structures. A novel utility metric is proposed, based on the area under the average performance curve. The process of modelling, analysis and design of realistic RC structures leads to objective functions for which the evaluation is computationally very expensive. To avoid costly simulations, two types of surrogate models are used. The first one consists of the creation of a database containing all possible solutions. The second one uses benchmark functions to create a discrete sub-space of them, simulating the main features of realistic problems. Parameter tuning of four metaheuristics is performed based on two strategies. The main difference between them is the parameter control established to perform partial assessments. The simplest strategy is suitable to tune good `generalist' methods, i.e., methods with good performance regardless the parameter configuration. The other one is more expensive, but is well suited to assess any method. Tuning results prove that Biogeography-Based Optimization, a relatively new evolutionary algorithm, outperforms other methods such as GA or PSO for such optimization problems, due to its particular approach of applying recombination and mutation operators. | 翻訳日:2023-03-11 16:43:40 公開日:2021-10-12 |
# 集積量子フォトニクスのためのフェムト秒レーザーマイクロマシニング Femtosecond laser micromachining for integrated quantum photonics ( http://arxiv.org/abs/2110.06162v1 ) ライセンス: Link先を確認 | Giacomo Corrielli, Andrea Crespi and Roberto Osellame | (参考訳) 集積量子フォトニクス、すなわち集積フォトニクスチップにおける光の量子状態の生成、操作、検出は、通信からコンピュータまで、全てのアプリケーションにおける量子情報の分野に革命をもたらしている。
シリコンフォトニクスからニオブリチウムフォトニック回路まで、現在多くの異なるプラットフォームが開発されているが、フェムト秒レーザーマイクロマシニング(flm)が量子源、再構成可能な状態操作、量子記憶、検出を含む完全な量子システムの全ての構成要素を生産する可能性を示すものはない。
実際、多くの量子デバイスや機能の最初のデモにおいて、FLMが重要なツールであることは明らかである。
FLMは他のプラットフォームと同じレベルの小型化は達成できないが、集積量子フォトニクスには多くのユニークな利点がある。
特に過去5年間で、flmは量子応用の範囲を大きく拡大し、いくつかの科学的ブレークスルーを達成した。
これらの理由から、このトピックに関するレビュー記事は非常にタイムリーであり、この技術プラットフォームの潜在能力をエンドユーザに納得させ、FLMのさらなる研究グループを刺激することで、量子技術のエキサイティングな分野への取り組みを促進することで、この分野の発展をさらに促進できると考えている。 Integrated quantum photonics, i.e. the generation, manipulation and detection of quantum states of light in integrated photonic chips, is revolutionizing the field of quantum information in all applications, from communications to computing. Although many different platforms are being currently developed, from silicon photonics to lithium niobate photonic circuits, none of them has shown the versatility of femtosecond laser micromachining (FLM) in producing all the components of a complete quantum system, encompassing quantum sources, reconfigurable state manipulation, quantum memories and detection. It is in fact evident that FLM has been a key enabling tool in the first-time demonstration of many quantum devices and functionalities. Although FLM cannot achieve the same level of miniaturization of other platforms, it still has many unique advantages for integrated quantum photonics. In particular, in the last five years, FLM has greatly expanded its range of quantum applications with several scientific breakthroughs achieved. For these reasons, we believe that a review article on this topic is very timely and could further promote the development of this field by convincing end-users of the great potentials of this technological platform and by stimulating more research groups in FLM to direct their efforts to the exciting field of quantum technologies. | 翻訳日:2023-03-11 16:43:23 公開日:2021-10-12 |
# 量子コンピュータを用いた化学動力学の変分量子シミュレーション Variational Quantum Simulation of Chemical Dynamics with Quantum Computers ( http://arxiv.org/abs/2110.06143v1 ) ライセンス: Link先を確認 | Chee-Kong Lee, Chang-Yu Hsieh, Shengyu Zhang, Liang Shi | (参考訳) 実空間量子力学の古典的シミュレーションは、計算コストとシステム次元の指数的スケーリングのために困難である。
量子コンピュータは、多項式の複雑さで量子力学をシミュレートする能力を提供するが、スプリット操作技術に基づく既存の量子アルゴリズムは、近い将来に解明される大規模なフォールトトレラント量子コンピュータを必要とする。
本稿では,ノイズ中間スケール量子(NISQ)デバイスの実装に適した実空間量子力学の変動シミュレーションを提案する。
ハミルトニアンは最初に離散変数表現(dvr)とバイナリエンコーディングスキームを用いてキュービットにエンコードされる。
マクラクランの原理に基づくリアルタイム変分量子アルゴリズムの直接適用は、一般的なポテンシャルエネルギーの量子ビット数と指数関数的に増大し、正確な結果を得るためには極めて小さな時間ステップサイズが必要となるため、非効率であることを示す。
低エネルギー部分空間で起こるほとんどの化学動力学の知見に動機づけられ、時間依存の駆動場を含むハミルトニアンの全体を量子コンピュータを用いて低エネルギー固有状態部分空間に投影することで、部分空間内の正確な量子力学を古典的に解くことができる部分空間拡大法を提案する。
部分空間アプローチの測定コストは一般ポテンシャルエネルギーの次元で多項式的に増大することを示す。
我々の数値的な例は、強いレーザー場の下でも、我々のアプローチの能力を示している。
我々の研究は、NISQハードウェアで化学力学をシミュレートする可能性を開く。 Classical simulation of real-space quantum dynamics is challenging due to the exponential scaling of computational cost with system dimensions. Quantum computer offers the potential to simulate quantum dynamics with polynomial complexity; however, existing quantum algorithms based on the split-operator techniques require large-scale fault-tolerant quantum computers that remain elusive in the near future. Here we present variational simulations of real-space quantum dynamics suitable for implementation in Noisy Intermediate-Scale Quantum (NISQ) devices. The Hamiltonian is first encoded onto qubits using a discrete variable representation (DVR) and binary encoding scheme. We show that direct application of real-time variational quantum algorithm based on the McLachlan's principle is inefficient as the measurement cost grows exponentially with the qubit number for general potential energy and extremely small time-step size is required to achieve accurate results. Motivated by the insights that most chemical dynamics occur in the low energy subspace, we propose a subspace expansion method by projecting the total Hamiltonian, including the time-dependent driving field, onto the system low-energy eigenstate subspace using quantum computers, the exact quantum dynamics within the subspace can then be solved classically. We show that the measurement cost of the subspace approach grows polynomially with dimensionality for general potential energy. Our numerical examples demonstrate the capability of our approach, even under intense laser fields. Our work opens the possibility of simulating chemical dynamics with NISQ hardware. | 翻訳日:2023-03-11 16:42:21 公開日:2021-10-12 |
# ピアツーピア電力市場における小売業者の役割--単一小売業者の視点から Roles of Retailers in the Peer-to-Peer Electricity Market: A Single Retailer Perspective ( http://arxiv.org/abs/2110.09303v1 ) ライセンス: Link先を確認 | Wayes Tushar, Chau Yuen, Tapan Saha, Deb Chattopadhyay, Sohrab Nizami, Sarmad Hanif, Jan E Alam, and H. Vincent Poor | (参考訳) 過去5年間にわたる広範な研究と、いくつかの成功と進行中のパイロットプロジェクトにもかかわらず、規制当局は今でも、今日の電気市場における大規模なピアツーピア取引の実施に消極的だ。
その理由の一部は、市場参加を除外した小売業者のような現在の市場参加者が不利である、という認識がある可能性がある。
その結果、近年、小売業者がピアツーピア取引に参加することを支持するエネルギーサービス事業者からの圧力が高まっている。
しかし、ピアツーピア市場における小売業者の役割はまだ確立されていない。
この文脈において、この視点は、ピアツーピア市場における小売業者の関与の可能性について議論する第一歩となる。
そこで、我々は、小売業とピアツーピア電力市場の重要特性を特定し、両市場の基本的な意思決定特性を損なうことなく、ピアツーピア市場に単一小売業者を組み込む方法について議論する。
最後に、仮説上のビジネスモデルの例を示し、小売業者がピアツーピア市場の一部となり、参加者に集合的な利益をもたらすことを実証する。 Despite extensive research in the past five years and several successfully completed and on-going pilot projects, regulators are still reluctant to implement peer-to-peer trading at a large-scale in today's electricity market. The reason could partly be attributed to the perceived disadvantage of current market participants like retailers due to their exclusion from market participation - a fundamental property of decentralised peer-to-peer trading. As a consequence, recently, there has been growing pressure from energy service providers in favour of retailers' participation in peer-to-peer trading. However, the role of retailers in the peer-to-peer market is yet to be established as no existing study has challenged this fundamental circumspection of decentralized trading. In this context, this perspective takes the first step to discuss the feasibility of retailers' involvement in the peer-to-peer market. In doing so, we identify key characteristics of retail-based and peer-to-peer electricity markets and discuss our viewpoint on how to incorporate a single retailer in a peer-to-peer market without compromising the fundamental decision-making characteristics of both markets. Finally, we give an example of a hypothetical business model to demonstrate how a retailer can be a part of a peer-to-peer market with a promise of collective benefits for the participants. | 翻訳日:2023-03-11 16:35:39 公開日:2021-10-12 |
# 時空平均化から生まれた規則の起源 The Origin of the Born Rule from Spacetime Averaging ( http://arxiv.org/abs/2110.06392v1 ) ライセンス: Link先を確認 | Nikodem Pop{\l}awski and Michael Del Grosso | (参考訳) ボルン則は、量子力学における測定の確率は波動関数 $\psi$ の二乗モジュラスと関連していると仮定する。
エネルギー固有函数の方程式を並べ替えて、エネルギーを$\hat{E}\psi/\psi$ の実部として定義する。
固有状態に対して、この定義は定数エネルギー固有値を与える。
一般的な波動関数では、エネルギーは空間と時間で変動する。
2つの状態と空間と時間の平均エネルギーの重ね合わせにおいて、1次元の正方形井戸ポテンシャルの粒子を考える。
ほとんどの場合、そのようなエネルギー期待値は、ボルン則を用いて計算した値とわずか数パーセント異なることが示されている。
この差は期待値の実験実験と一致し、ボルン則は時空平均化の近似である可能性が示唆される。 The Born rule postulates that the probability of measurement in quantum mechanics is related to the squared modulus of the wave function $\psi$. We rearrange the equation for energy eigenfunctions to define the energy as the real part of $\hat{E}\psi/\psi$. For an eigenstate, this definition gives a constant energy eigenvalue. For a general wave function, the energy fluctuates in space and time. We consider a particle in a one-dimensional square well potential in a superposition of two states and average the energy over space and time. We show that, for most cases, such an energy expectation value differs by only a few percent from that calculated using the Born rule. This difference is consistent with experimental tests of the expectation value and suggests that the Born rule may be an approximation of spacetime averaging. | 翻訳日:2023-03-11 16:35:18 公開日:2021-10-12 |
# リングコアファイバにおける軌道角運動量モードクロストークによる量子ランダムネス生成 Quantum randomness generation via orbital angular momentum modes crosstalk in a ring-core fiber ( http://arxiv.org/abs/2110.06387v1 ) ライセンス: Link先を確認 | Mujtaba Zahidy, Hamid Tebyanian, Daniele Cozzolino, Yaoxin Liu, Yunhong Ding, Toshio Morioka, Leif K. Oxenl{\o}we, Davide Bacco | (参考訳) 固有乱数は、量子力学理論によって提供される本質的なランダム性を通じて疑念の影を越えて生成することができる。
ランダム性の生成には多くの自由度が研究されているが、光の軌道角運動量には十分な注意が払われていない。
本研究では,リングコアファイバ内のクロストークによる軌道角運動量モードの重ね合わせから継承した固有ランダム性に基づく量子乱数生成器を提案する。
1つは、システムが信頼されているデバイス依存、もう1つは、敵が測定を制御できる半デバイス非依存である。
我々は,前者の無作為性を実験的に実現し,プライバシアンプリフィケーション後に10Mbit/s以上の生成率を達成した。
さらに,新たに導入されたシリコンフォトニックチップを用いた半デバイス非依存プロトコルの実現の可能性を示した。
我々の研究は、光の軌道角運動量に基づく量子乱数生成器の新しい研究の出発点と考えることができる。 Genuine random numbers can be produced beyond a shadow of doubt through the intrinsic randomness provided by quantum mechanics theory. While many degrees of freedom have been investigated for randomness generation, not adequate attention has been paid to the orbital angular momentum of light. In this work, we present a quantum random number generator based on the intrinsic randomness inherited from the superposition of orbital angular momentum modes caused by the crosstalk inside a ring-core fiber. We studied two possible cases: a first one, device-dependent, where the system is trusted, and a second one, semi-device-independent, where the adversary can control the measurements. We experimentally realized the former, extracted randomness, and, after privacy amplification, we achieved a generation rate higher than 10 Mbit/s. In addition, we presented a possible realization of the semi-device-independent protocol, using a newly introduced integrated silicon photonic chip. Our work can be considered as a starting point for novel investigations of quantum random number generators based on the orbital angular momentum of light. | 翻訳日:2023-03-11 16:35:06 公開日:2021-10-12 |
# 4ビット最大絡み合った状態を生成する量子回路 Quantum circuits generating four-qubit maximally entangled states ( http://arxiv.org/abs/2110.06362v1 ) ライセンス: Link先を確認 | Marc Bataille | (参考訳) 4量子ビットの最大エンタングル状態を生成する量子回路について記述し、ケイリー超決定式の絶対値をエンタングルメントモノトーンとして用いることで、エンタングルメントの量を定量化する。
より正確には、このタイプの4量子ビットの絡み合った状態は、状態 |0000 > のlu軌道のいくつかの特別な状態に対するcnot回路のファミリーの作用によって得られる。 We describe quantum circuits generating four-qubit maximally entangled states, the amount of entanglement being quantified by using the absolute value of the Cayley hyperdeterminant as an entanglement monotone. More precisely, we show that this type of four-qubit entangled states can be obtained by the action of a family of CNOT circuits on some special states of the LU orbit of the state |0000 >. | 翻訳日:2023-03-11 16:34:49 公開日:2021-10-12 |
# ハイア・ヒルベルト・スペース教会におけるヨルダンの絡み合いと熱ゆらぎ Jordan in The Church of The Higher Hilbert Space: Entanglement and Thermal Fluctuations ( http://arxiv.org/abs/2110.06360v1 ) ライセンス: Link先を確認 | Vlatko Vedral | (参考訳) 私は、熱平衡における黒体のエネルギー変動に関するアインシュタインの公式のジョーダンの導出を再考する。
この公式は、ゆらぎが波状および粒子様の寄与の和であることが示されるため、通常、電磁波の波動と粒子の面の統一を表すために用いられる。
しかし、ヨルダンの処理ではプランク分布は言及されておらず、全ての平均は純粋な放射線状態に関して行われる(混合状態はまだ発見されていない)。
ヨルダンがアインシュタインの結果を放射の熱状態を使っていないにもかかわらず再現する主な理由は、黒体の小さな体積(全体と比較)のゆらぎに焦点を当てているからである。
小さな体積の放射線状態は黒体の他の部分と強く絡み合っており、これは実際には、全体状態が純粋なもの(すなわち0温度)であると仮定しても、正しいゆらぎをもたらす。
私は、混合状態の例としてゆらぎ公式の単純な導出を、より高レベルな純粋状態の還元、つまり「高次ヒルベルト空間のチャーチ」として知られる表現として提示する。
この混合状態の見方によれば、温度はシステムと環境の間の絡み合いの量に過ぎない。 I revisit Jordan's derivation of Einstein's formula for energy fluctuations in the black body in thermal equilibrium. This formula is usually taken to represent the unification of the wave and the particle aspects of the electromagnetic field since the fluctuations can be shown to be the sum of wave-like and particle-like contributions. However, in Jordan's treatment there is no mention of the Planck distribution and all averages are performed with respect to pure number states of radiation (mixed states had not yet been discovered!). The chief reason why Jordan does reproduce Einstein's result despite not using thermal states of radiation is that he focuses on fluctuations in a small (compared to the whole) volume of the black body. The state of radiation in a small volume is highly entangled to the rest of the black body which leads to the correct fluctuations even though the overall state might, in fact, be assumed to be pure (i.e. at zero temperature). I present a simple derivation of the fluctuations formula as an instance of mixed states being reductions of higher level pure states, a representation that is affectionately known as ``Church of the Higher Hilbert Space". According to this view of mixed states, temperature is nothing but the amount of entanglement between the system and its environment. | 翻訳日:2023-03-11 16:34:42 公開日:2021-10-12 |
# 6GPaまでのダイヤモンドアンビルセルにおける窒素空孔中心を用いた交流センシング AC sensing using nitrogen vacancy centers in a diamond anvil cell up to 6 GPa ( http://arxiv.org/abs/2110.06327v1 ) ライセンス: Link先を確認 | Z. Wang, C. McPherson, R. Kadado, N. Brandt, S. Edwards, W. H. Casey, and N. J. Curro | (参考訳) ダイヤモンド中の窒素空孔カラーセンターは、静磁場、電気、ひずみ、熱場の量子センサーとして広く注目されており、特にダイヤモンドアンビル細胞の圧力下での量子センシングには魅力的である。
光ベースの核磁気共鳴は、数gpa以上の圧力で可能であり、従来のファラデーインダクションに基づく検出に代わる魅力的な方法である。
ここで、交流センシング結果を示し、6gpaまでの同期読み出しを示すが、マイクロ波磁場の不均一性と試料空間内の圧力により感度が低下する。
これらの実験により、ナノリットル試料の高圧力下での全光高分解能磁気共鳴が可能となる。 Nitrogen-vacancy color centers in diamond have attracted broad attention as quantum sensors for both static and dynamic magnetic, electrical, strain and thermal fields, and are particularly attractive for quantum sensing under pressure in diamond anvil cells. Optically-based nuclear magnetic resonance may be possible at pressures greater than a few GPa, and offers an attractive alternative to conventional Faraday-induction based detection. Here we present AC sensing results and demonstrate synchronized readout up to 6 GPa, but find that the sensitivity is reduced due to inhomogeneities of the microwave field and pressure within the sample space. These experiments enable the possibility for all-optical high resolution magnetic resonance of nanoliter sample volumes at high pressures. | 翻訳日:2023-03-11 16:33:58 公開日:2021-10-12 |
# 量子アルゴリズムを用いたエネルギアウェア無線センサネットワークルーティング Controller-based Energy-Aware Wireless Sensor Network Routing using Quantum Algorithms ( http://arxiv.org/abs/2110.06321v1 ) ライセンス: Link先を確認 | Jie Chen, Prasanna Date, Nicholas Chancellor, Mohammed Atiquzzaman, Cormac Sreenan | (参考訳) 無線センサネットワークにおけるエネルギー効率のよいルーティングは、学術と産業の両方の研究者から注目を集めており、最近ではSDN(ソフトウェア定義ネットワーク)にインスパイアされたアプローチを利用する機会に動機付けられている。
これらの問題はNPハードであり、アルゴリズムは問題サイズの多項式よりも高速にスケールする計算時間を必要とする。
その結果、ヒューリスティックなアルゴリズムが実際に使われ、最適に保証できない。
本稿では,古典的プロセッサの代わりに量子アニールプロセッサを用いるための原理実証を行い,最適解や準最適解を高速に発見する。
小さなネットワークに対する予備的な結果は、量子コンピューティングを用いたこのアプローチは大きな可能性を秘めており、ネットワークアルゴリズムの有効性の他の大きな改善の扉を開く可能性があることを示している。 Energy efficient routing in wireless sensor networks has attracted attention from researchers in both academia and industry, most recently motivated by the opportunity to use SDN (software defined network)-inspired approaches. These problems are NP-hard, with algorithms needing computation time which scales faster than polynomial in the problem size. Consequently, heuristic algorithms are used in practice, which are unable to guarantee optimally. In this short paper, we show proof-of-principle for the use of a quantum annealing processor instead of a classical processor, to find optimal or near-optimal solutions very quickly. Our preliminary results for small networks show that this approach using quantum computing has great promise and may open the door for other significant improvements in the efficacy of network algorithms. | 翻訳日:2023-03-11 16:33:46 公開日:2021-10-12 |
# 相関多体量子システムから仕事を抽出する Extracting work from correlated many-body quantum systems ( http://arxiv.org/abs/2110.06219v1 ) ライセンス: Link先を確認 | Raffaele Salvia and Vittorio Giovannetti | (参考訳) 相互作用しない多体量子系の入力状態における相関の存在は、大域的ユニタリ過程(エルゴトロピー)の下で引き出すことができる作業量の増加につながる。
本研究は, 行列積演算子形式に基づく翻訳不変系に対するそのような効果を探索し, それらの相関関係の尺度を定義する。
多数のサイトの熱力学的限界において, 相対的相関強度(dB単位における2因子の減少)に対して, 完全作業抽出が達成できることが観察された。
最も重要なことは、そのような効果は入力状態(古典的相関源)における量子相関(例えばエンタングルメント)の存在と関係がなく、不整合エルゴトロピーのみを用いることで達成可能であるように見える。
解析の副産物として、[Alicki and Fannes, 2013] で最初に定式化されたヒューリスティックな典型性引数の厳密な定式化も提示する。 The presence of correlations in the input state of a non-interacting many-body quantum system can lead to an increase in the amount of work we can extract from it under global unitary processes (ergotropy). The present work explore such effect on translationally invariant systems relaying on the Matrix Product Operator formalism to define a measure of how much they are correlated. We observe that in the thermodynamic limit of large number of sites, complete work extraction can be attained for relatively small correlation strength (a reduction of a 2 factor in dB unit). Most importantly such an effect appears not to be associated with the presence of quantum correlations (e.g. entanglement) in the input state (classical correlation sources), and to be attainable by only using incoherent ergotropy. As a byproduct of our analysis we also present a rigorous formulation of the heuristic typicality argument first formulated in [Alicki and Fannes, 2013], which gives the maximum work extractable for a set of many identical quantum systems in the asymptotic limit. | 翻訳日:2023-03-11 16:33:23 公開日:2021-10-12 |
# 自己誘導近似線形プログラム Self-guided Approximate Linear Programs ( http://arxiv.org/abs/2001.02798v2 ) ライセンス: Link先を確認 | Parshan Pakiman, Selvaprabu Nadarajah, Negar Soheili and Qihang Lin | (参考訳) 近似線形プログラム (alps) は、値関数近似 (vfas) に基づいたよく知られたモデルであり、割引コストマルコフ決定過程 (mdps) の最適政策コストのポリシーと下限を得る。
ALP の定式化には
(i)基本関数、vfaを定義する線形結合、及び
(II)VFAエラーの最小化を目的としたALP目標における異なる状態の相対的重要性を決定する状態関連分布。
基本関数の選択はドメインの知識に依存し、状態関連分布はヒューリスティックなポリシーによって訪問される状態の頻度で指定される。
本稿では,安価サンプリングにより得られるランダム基底関数を組み込んだalpの自己誘導列を提案し,従来からの既知のvfaを用いて,現在の反復におけるvfa計算を導出する。
自己誘導型ALPは、基本関数選択時のドメイン知識の必要性を軽減し、状態関連分布の初期選択の影響を緩和し、ALP実装の負担を大幅に軽減する。
このシーケンスから,VFAに高い確率誤差境界を定め,政策性能の最悪の指標が改善されていることを示す。
これらの望ましい実装と理論的特性は、自己誘導ALPポリシーが問題固有の方法によるポリシーを改善することにより、在庫管理とオプション価格のアプリケーションに対する数値的な結果をもたらすことが判明した。
より広範に、我々の研究は、MDPのアプリケーションに依存しない政策と境界に向けて有意義な一歩を踏み出した。 Approximate linear programs (ALPs) are well-known models based on value function approximations (VFAs) to obtain policies and lower bounds on the optimal policy cost of discounted-cost Markov decision processes (MDPs). Formulating an ALP requires (i) basis functions, the linear combination of which defines the VFA, and (ii) a state-relevance distribution, which determines the relative importance of different states in the ALP objective for the purpose of minimizing VFA error. Both these choices are typically heuristic: basis function selection relies on domain knowledge while the state-relevance distribution is specified using the frequency of states visited by a heuristic policy. We propose a self-guided sequence of ALPs that embeds random basis functions obtained via inexpensive sampling and uses the known VFA from the previous iteration to guide VFA computation in the current iteration. Self-guided ALPs mitigate the need for domain knowledge during basis function selection as well as the impact of the initial choice of the state-relevance distribution, thus significantly reducing the ALP implementation burden. We establish high probability error bounds on the VFAs from this sequence and show that a worst-case measure of policy performance is improved. We find that these favorable implementation and theoretical properties translate to encouraging numerical results on perishable inventory control and options pricing applications, where self-guided ALP policies improve upon policies from problem-specific methods. More broadly, our research takes a meaningful step toward application-agnostic policies and bounds for MDPs. | 翻訳日:2023-01-13 04:41:03 公開日:2021-10-12 |
# 1次元ガウス過程の線形時間推論 Linear-time inference for Gaussian Processes on one dimension ( http://arxiv.org/abs/2003.05554v5 ) ライセンス: Link先を確認 | Jackson Loper, David Blei, John P. Cunningham, and Liam Paninski | (参考訳) ガウス過程(GP)は補間、予測、平滑化のための強力な確率的フレームワークを提供するが、計算スケーリングの問題によって妨げられている。
本稿では,1次元(例えば,任意の間隔でサンプリングされたスカラーまたはベクトル時系列)でサンプリングされたデータについて検討する。
状態空間モデルは一般であり、任意の1次元GPを近似することができると長い間推測されてきた。
この予想の最初の一般的な証明を提供し、ルベーグ可積分連続核によって制御されるベクトル値の観測を持つ一次元上の任意の定常 gp は、特定のチョセン状態空間モデルを用いて任意の所望の精度に近似できることを示した。
この新族は、一般の状態空間モデルと比較していくつかの利点を提供している: それは常に安定(非有界成長)であり、共分散は閉形式で計算でき、パラメータ空間は無拘束である(勾配降下による簡単な推定が可能)。
この定理の証明はスペクトル混合カーネルとの関係も引き合いに出し、この人気のあるカーネルの族についての洞察を与える。
LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。 Gaussian Processes (GPs) provide powerful probabilistic frameworks for interpolation, forecasting, and smoothing, but have been hampered by computational scaling issues. Here we investigate data sampled on one dimension (e.g., a scalar or vector time series sampled at arbitrarily-spaced intervals), for which state-space models are popular due to their linearly-scaling computational costs. It has long been conjectured that state-space models are general, able to approximate any one-dimensional GP. We provide the first general proof of this conjecture, showing that any stationary GP on one dimension with vector-valued observations governed by a Lebesgue-integrable continuous kernel can be approximated to any desired precision using a specifically-chosen state-space model: the Latent Exponentially Generated (LEG) family. This new family offers several advantages compared to the general state-space model: it is always stable (no unbounded growth), the covariance can be computed in closed form, and its parameter space is unconstrained (allowing straightforward estimation via gradient descent). The theorem's proof also draws connections to Spectral Mixture Kernels, providing insight about this popular family of kernels. We develop parallelized algorithms for performing inference and learning in the LEG model, test the algorithm on real and synthetic data, and demonstrate scaling to datasets with billions of samples. | 翻訳日:2022-12-24 13:46:43 公開日:2021-10-12 |
# 制約獲得のための部分的クエリ Partial Queries for Constraint Acquisition ( http://arxiv.org/abs/2003.06649v2 ) ライセンス: Link先を確認 | Christian Bessiere, Clement Carbonnel, Anton Dries, Emmanuel Hebrard, George Katsirelos, Nadjib Lazaar, Nina Narodytska, Claude-Guy Quimper, Kostas Stergiou, Dimosthenis C. Tsouros, Toby Walsh | (参考訳) 学習制約ネットワークは、変数数で指数関数的に多くのメンバシップクエリを必要とすることが知られている。
本稿では,ユーザの部分的問合せを問うことで制約ネットワークを学習する。
すなわち、変数のサブセットへの代入を正あるいは負のものとして分類するようユーザに求めます。
我々は、負の例を与えられた場合、サンプルのサイズで対数的な多数のクエリにおいて、対象ネットワークの制約に焦点をあてる QUACQ と呼ばれるアルゴリズムを提供する。
制約ネットワーク全体は、多項式数の部分的なクエリで学習することができる。
制約ネットワークの単純なクラスを学習するために情報理論下限を与え、ある場合には汎用アルゴリズムが最適であることを示す。 Learning constraint networks is known to require a number of membership queries exponential in the number of variables. In this paper, we learn constraint networks by asking the user partial queries. That is, we ask the user to classify assignments to subsets of the variables as positive or negative. We provide an algorithm, called QUACQ, that, given a negative example, focuses onto a constraint of the target network in a number of queries logarithmic in the size of the example. The whole constraint network can then be learned with a polynomial number of partial queries. We give information theoretic lower bounds for learning some simple classes of constraint networks and show that our generic algorithm is optimal in some cases. | 翻訳日:2022-12-23 20:10:48 公開日:2021-10-12 |
# 対象性を考慮した少数ショット意味セグメンテーション Objectness-Aware Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2004.02945v3 ) ライセンス: Link先を確認 | Yinan Zhao, Brian Price, Scott Cohen, Danna Gurari | (参考訳) 少数ショットのセマンティクスセグメンテーションモデルは、いくつかの注釈付き例から学んだ後にイメージをセグメンテーションすることを目的としている。
彼らにとって重要な課題は、トレーニングデータに制限があるため、オーバーフィッティングを避ける方法だ。
以前の作業は通常、オーバーフィッティングを緩和するためにモデル全体の容量を制限するが、このハマーはセグメント化の精度を損なう。
クラス固有の特徴と相補的な使用のために、クラスに依存しないため過度に適合しないオブジェクト性を導入することで、モデル全体のキャパシティを向上させる方法を示す。
大規模な実験は、異なるデータローダとトレーニングスケジュール(DENet、PFENet)と異なるバックボーンモデル(ResNet-50、ResNet-101、HRNetV2-W48)に依存する、異なるベースアーキテクチャにオブジェクト指向を導入するという私たちの単純なアプローチの汎用性を示しています。
その結果, PASCAL-5i と COCO-20i では, mIoU に関する最先端手法を少なくとも4.7%, 1.5% 上回っていることがわかった。 Few-shot semantic segmentation models aim to segment images after learning from only a few annotated examples. A key challenge for them is how to avoid overfitting because limited training data is available. While prior works usually limited the overall model capacity to alleviate overfitting, this hampers segmentation accuracy. We demonstrate how to increase overall model capacity to achieve improved performance, by introducing objectness, which is class-agnostic and so not prone to overfitting, for complementary use with class-specific features. Extensive experiments demonstrate the versatility of our simple approach of introducing objectness for different base architectures that rely on different data loaders and training schedules (DENet, PFENet) as well as with different backbone models (ResNet-50, ResNet-101 and HRNetV2-W48). Given only one annotated example of an unseen category, experiments show that our method outperforms state-of-art methods with respect to mIoU by at least 4.7% and 1.5% on PASCAL-5i and COCO-20i respectively. | 翻訳日:2022-12-16 07:12:37 公開日:2021-10-12 |
# ポジティブトレーニングデータのみを用いた定量化 Quantifying With Only Positive Training Data ( http://arxiv.org/abs/2004.10356v2 ) ライセンス: Link先を確認 | Denis dos Reis, Marc\'ilio de Souto, Elaine de Sousa, Gustavo Batista | (参考訳) 定量化は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。
伝統的に、この分野の研究者は全てのクラスにラベル付き観測が利用可能であると仮定し、定量化モデルを誘導する。
しかし、クラス数が大きすぎる、あるいは未知である場合や、1つのクラスの信頼できるデータがある場合がしばしばあります。
多クラス量子化器の導出が不可能な場合、私たちはしばしば特定の種類の興味を持つための推定に関心を持つ。
そこで我々は,一級量子化(OCQ)と呼ばれる新しい設定を提案する。
対照的に、Positive and Unlabeled Learning (PUL)は、PULの焦点ではない定量化にもかかわらず、OCQのソリューションを提供している。
この記事ではPULとOCQのギャップを埋め、両領域を統一された視点でまとめる。
提案手法であるパッシブ攻撃閾値(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
PATは、異なるデータのサンプルを定量化するために再利用できる量子化モデルを誘導する。
さらに, TIcE (Exhaustive TIcE) を導入し, C推定のためのPULアルゴリズムツリーインジェクションの改良版を提案する。
我々は,いくつかの負の観測結果が正の観測値と同一であるシナリオにおいて,ExTIcEがPATおよび他の評価アルゴリズムよりも精度良く定量化することを示した。 Quantification is the research field that studies methods for counting the number of data points that belong to each class in an unlabeled sample. Traditionally, researchers in this field assume the availability of labelled observations for all classes to induce a quantification model. However, we often face situations where the number of classes is large or even unknown, or we have reliable data for a single class. When inducing a multi-class quantifier is infeasible, we are often concerned with estimates for a specific class of interest. In this context, we have proposed a novel setting known as One-class Quantification (OCQ). In contrast, Positive and Unlabeled Learning (PUL), another branch of Machine Learning, has offered solutions to OCQ, despite quantification not being the focal point of PUL. This article closes the gap between PUL and OCQ and brings both areas together under a unified view. We compare our method, Passive Aggressive Threshold (PAT), against PUL methods and show that PAT generally is the fastest and most accurate algorithm. PAT induces quantification models that can be reused to quantify different samples of data. We additionally introduce Exhaustive TIcE (ExTIcE), an improved version of the PUL algorithm Tree Induction for c Estimation (TIcE). We show that ExTIcE quantifies more accurately than PAT and the other assessed algorithms in scenarios where several negative observations are identical to the positive ones. | 翻訳日:2022-12-10 17:21:23 公開日:2021-10-12 |
# 反事実推論のための学習分解表現 Learning Decomposed Representation for Counterfactual Inference ( http://arxiv.org/abs/2006.07040v2 ) ライセンス: Link先を確認 | Anpeng Wu, Kun Kuang, Junkun Yuan, Bo Li, Runze Wu, Qiang Zhu, Yueting Zhuang, Fei Wu | (参考訳) 観察データから治療効果を推定する基本的な問題は、共同設立者の識別とバランスである。
これまでの方法の多くは、観察されたすべての事前処理変数を共同創設者として扱い、共同創設者と非共同創設者の識別をさらに無視することで、共同ファウンダーのバランスを実現していた。
一般に、観察された全ての前処理変数は、治療の共通原因と結果を参照する共同創設者であるわけではなく、一部の変数は治療にのみ寄与し、一部の変数は結果にのみ寄与する。
機器変数や調整変数を含む、これらの非共同創業者のバランスをとることで、治療効果推定のためのさらなるバイアスが生じる。
観察された前処理変数,治療,成果の異なる因果関係をモデル化することにより,相乗学習の枠組みを提案する。
1)共同設立者及び非共同設立者の非分割表現を学習して共同設立者を特定する。
2)サンプル再重み付け技術によるバランス共同設立と同時実施
3) 観察研究における治療効果を反事実推論によって推定する。
合成および実世界のデータセットに対する実験結果から,提案手法は共同ファウンダーを正確に分解し,ベースラインよりも精度の高い治療効果を推定できることが示された。 The fundamental problem in treatment effect estimation from observational data is confounder identification and balancing. Most of the previous methods realized confounder balancing by treating all observed pre-treatment variables as confounders, ignoring further identifying confounders and non-confounders. In general, not all the observed pre-treatment variables are confounders that refer to the common causes of the treatment and the outcome, some variables only contribute to the treatment and some only contribute to the outcome. Balancing those non-confounders, including instrumental variables and adjustment variables, would generate additional bias for treatment effect estimation. By modeling the different causal relations among observed pre-treatment variables, treatment and outcome, we propose a synergistic learning framework to 1) identify confounders by learning decomposed representations of both confounders and non-confounders, 2) balance confounder with sample re-weighting technique, and simultaneously 3) estimate the treatment effect in observational studies via counterfactual inference. Empirical results on synthetic and real-world datasets demonstrate that the proposed method can precisely decompose confounders and achieve a more precise estimation of treatment effect than baselines. | 翻訳日:2022-11-22 03:34:12 公開日:2021-10-12 |
# 個人的信頼区間のパラメトリックブートストラップ Parametric Bootstrap for Differentially Private Confidence Intervals ( http://arxiv.org/abs/2006.07749v2 ) ライセンス: Link先を確認 | Cecilia Ferrando, Shufan Wang, Daniel Sheldon | (参考訳) 本研究の目的は,個人差分パラメトリック推定のための信頼区間を構築するための実用的で汎用的なアプローチを開発することである。
パラメトリックブートストラップはシンプルで効果的なソリューションであることが分かりました。
データサンプルとランダム化されたプライバシメカニズムの両方のばらつきを清潔に理由付け、広範囲のプライベートな見積ルーチンに"アウト・オブ・ボックス"を適用する。
また、データのクリップによるバイアスを正し、感度を制限できる。
パラメトリックブートストラップは,共変量データへのアクセスを複数回避ける線形回帰への新しい適応を含む,2つの広く関連する設定において,一貫した信頼区間を与えることが証明される。
各種推定器の有効性を実証し, 適度なサンプルサイズでも良好なカバレッジで信頼区間を提供し, 代替手法よりも優れた性能を示した。 The goal of this paper is to develop a practical and general-purpose approach to construct confidence intervals for differentially private parametric estimation. We find that the parametric bootstrap is a simple and effective solution. It cleanly reasons about variability of both the data sample and the randomized privacy mechanism and applies "out of the box" to a wide class of private estimation routines. It can also help correct bias caused by clipping data to limit sensitivity. We prove that the parametric bootstrap gives consistent confidence intervals in two broadly relevant settings, including a novel adaptation to linear regression that avoids accessing the covariate data multiple times. We demonstrate its effectiveness for a variety of estimators, and find that it provides confidence intervals with good coverage even at modest sample sizes and performs better than alternative approaches. | 翻訳日:2022-11-21 09:52:37 公開日:2021-10-12 |
# 知識のない2人プレイの完全情報ゲームを学ぶ Learning to Play Two-Player Perfect-Information Games without Knowledge ( http://arxiv.org/abs/2008.01188v3 ) ライセンス: Link先を確認 | Quentin Cohen-Solal | (参考訳) 本稿では,強化によるゲーム状態評価関数の学習手法をいくつか提案する。
一つは木のブートストラップの一般化(ツリー学習)であり、非線形関数に基づいた知識のない強化学習の文脈に適応する。
この手法では、強化学習プロセス中に情報を失うことはない。
2つ目は、最良な動作列を終端状態まで延ばす非有界深さを持つミニマックスの修正である。
この修正された検索は、学習プロセスで使用されることを意図している。
3つ目はゲームの古典的なゲイン(+1 / -1)を強化ヒューリスティックに置き換えることである。
迅速な勝利と遅い敗北、スコア、モビリティやプレゼンスなど、特に強化ヒューリスティックな研究を行っている。
the fourはunbounded minimaxのもう一つの変種であり、最善のアクションを演じるのではなく、最も安全なアクションを演じる。
この修正された検索は、学習プロセス後に使用されることを意図している。
この5つが、新しいアクション選択ディストリビューションだ。
これらの手法が遊びのレベルを向上させることを示唆する実験を行った。
最後に、これらの異なる手法を、知識のない自己学習から強化学習を行い、Mohex 3HNNのレベルを超えるHex(サイズ11と13)のゲームに応用する。 In this paper, several techniques for learning game state evaluation functions by reinforcement are proposed. The first is a generalization of tree bootstrapping (tree learning): it is adapted to the context of reinforcement learning without knowledge based on non-linear functions. With this technique, no information is lost during the reinforcement learning process. The second is a modification of minimax with unbounded depth extending the best sequences of actions to the terminal states. This modified search is intended to be used during the learning process. The third is to replace the classic gain of a game (+1 / -1) with a reinforcement heuristic. We study particular reinforcement heuristics such as: quick wins and slow defeats ; scoring ; mobility or presence. The four is another variant of unbounded minimax, which plays the safest action instead of playing the best action. This modified search is intended to be used after the learning process. The five is a new action selection distribution. The conducted experiments suggest that these techniques improve the level of play. Finally, we apply these different techniques to design program-players to the game of Hex (size 11 and 13) surpassing the level of Mohex 3HNN with reinforcement learning from self-play without knowledge. | 翻訳日:2022-11-03 06:23:17 公開日:2021-10-12 |
# PX-NET:測光ステレオネットワークの簡易かつ効率的な画素幅トレーニング PX-NET: Simple and Efficient Pixel-Wise Training of Photometric Stereo Networks ( http://arxiv.org/abs/2008.04933v3 ) ライセンス: Link先を確認 | Fotios Logothetis, Ignas Budvytis, Roberto Mecca, Roberto Cipolla | (参考訳) 光を反射する物体の正確な3D再構成は、コンピュータビジョンにおいて非常に難しい課題だ。
光度ステレオ問題の定義から40年以上経っても、ほとんどの文献は、キャストシャドウ、自己反射、周囲の光といった地球規模の照明効果が、特にスペクチュラーな面に現れると、あまり成功しなかった。
近年,画像照射方程式を逆転させて物体の形状を復元するために,コンピュータグラフィックスと併用して深層学習の力を活用し,膨大なトレーニングデータの必要性に対処している。
しかし、グローバル照明効果のレンダリングは遅いプロセスであり、生成可能なトレーニングデータの量を制限することができる。
本研究では,グローバルレンダリング画像のトレーニングデータ(観測マップ)をピクセル単位の独立生成データに置き換え,正規予測のための新しいピクセル単位のトレーニング手順を提案する。
本研究では,グローバルな物理効果を観測マップ領域上で近似し,データ生成手順の簡素化と高速化を図っている。
我々のネットワークであるPX-NETは、合成データセット上の他のピクセルワイズ手法や、密度とスパースの両方の光設定上のディリジェントリアルデータセットと比較して、最先端の性能を達成する。 Retrieving accurate 3D reconstructions of objects from the way they reflect light is a very challenging task in computer vision. Despite more than four decades since the definition of the Photometric Stereo problem, most of the literature has had limited success when global illumination effects such as cast shadows, self-reflections and ambient light come into play, especially for specular surfaces. Recent approaches have leveraged the power of deep learning in conjunction with computer graphics in order to cope with the need of a vast number of training data in order to invert the image irradiance equation and retrieve the geometry of the object. However, rendering global illumination effects is a slow process which can limit the amount of training data that can be generated. In this work we propose a novel pixel-wise training procedure for normal prediction by replacing the training data (observation maps) of globally rendered images with independent per-pixel generated data. We show that global physical effects can be approximated on the observation map domain and this simplifies and speeds up the data creation procedure. Our network, PX-NET, achieves the state-of-the-art performance compared to other pixelwise methods on synthetic datasets, as well as the Diligent real dataset on both dense and sparse light settings. | 翻訳日:2022-10-31 11:52:43 公開日:2021-10-12 |
# 抜粋的質問応答の目的の再検討 Rethinking the Objectives of Extractive Question Answering ( http://arxiv.org/abs/2008.12804v4 ) ライセンス: Link先を確認 | Martin Fajcik, Josef Jon, Pavel Smrz | (参考訳) この研究は、独立仮定を用いてスパン確率をモデル化する目的を$P(a_s,a_e) = P(a_s)P(a_e)$ で開始し、位置$a_s$ で終了する目的が悪影響を持つことを示す。
したがって、結合確率$P(a_s,a_e)$を直接モデル化する複数のアプローチを提案する。
それらの中で, 共起確率から構成した複合目的を, 独立を前提とした目標を補助目的として維持する。
我々は、複合目的が、完全に一致する他の仮定よりも一貫して優れているか、あるいは等しいことを見出している。
さらに,独立性の仮定による一般的な誤りを特定し,実例に複合目的が与える影響を実例で示すとともに,その予測を手作業で検証した。
本研究は,6つのデータセットを対象とした3つの抽出QAモデル(BIDAF,BERT,ALBERT)による実験により支援された。 This work demonstrates that using the objective with independence assumption for modelling the span probability $P(a_s,a_e) = P(a_s)P(a_e)$ of span starting at position $a_s$ and ending at position $a_e$ has adverse effects. Therefore we propose multiple approaches to modelling joint probability $P(a_s,a_e)$ directly. Among those, we propose a compound objective, composed from the joint probability while still keeping the objective with independence assumption as an auxiliary objective. We find that the compound objective is consistently superior or equal to other assumptions in exact match. Additionally, we identified common errors caused by the assumption of independence and manually checked the counterpart predictions, demonstrating the impact of the compound objective on the real examples. Our findings are supported via experiments with three extractive QA models (BIDAF, BERT, ALBERT) over six datasets and our code, individual results and manual analysis are available online. | 翻訳日:2022-10-24 01:22:18 公開日:2021-10-12 |
# sunny-as2: アルゴリズム選択のためのSUNNYの強化 sunny-as2: Enhancing SUNNY for Algorithm Selection ( http://arxiv.org/abs/2009.03107v3 ) ライセンス: Link先を確認 | Tong Liu, Roberto Amadini, Jacopo Mauro, Maurizio Gabbrielli | (参考訳) SUNNYはアルゴリズム選択(AS)技術で、元々は制約プログラミング(CP)向けに開発された。
SUNNYは、解のポートフォリオから、あるCP問題で実行される解のサブセットをスケジュールすることができる。
このアプローチはCP問題に有効であることが証明され、その並列バージョンはCP解決者の国際競争であるミニジンクチャレンジのオープンカテゴリーで多くの金メダルを獲得した。
2015年、ASlibベンチマークは、異なるフィールド(ASP、QBF、SATなど)から来るASシステムを比較するためにリリースされ、SUNNYは一般的なAS問題に対処するために拡張された。
これにより、ASlibシナリオ用のSUNNYに基づくアルゴリズムセレクタであるSnow-as2が開発された。
sun-as2の予備バージョンは2017年にopen algorithm selection challenge(oasc)に提出され、決定問題のランタイム最小化のための最善のアプローチであることが判明した。
本稿では,sunny-as2の技術進歩について述べる。
(i)ラッパーに基づく特徴選択
二 特徴選択と近隣の大きさ構成を組み合わせた訓練アプローチ
(三)ネストクロスバリデーションの適用
我々は,ASのシナリオによって,日当たり2のパフォーマンスがいかに異なるかを示し,その強みと弱点について論じる。
最後に、OASCに提出された予備バージョンにおいて、Snow-as2がいかに改善されているかを示す。 SUNNY is an Algorithm Selection (AS) technique originally tailored for Constraint Programming (CP). SUNNY enables to schedule, from a portfolio of solvers, a subset of solvers to be run on a given CP problem. This approach has proved to be effective for CP problems, and its parallel version won many gold medals in the Open category of the MiniZinc Challenge -- the yearly international competition for CP solvers. In 2015, the ASlib benchmarks were released for comparing AS systems coming from disparate fields (e.g., ASP, QBF, and SAT) and SUNNY was extended to deal with generic AS problems. This led to the development of sunny-as2, an algorithm selector based on SUNNY for ASlib scenarios. A preliminary version of sunny-as2 was submitted to the Open Algorithm Selection Challenge (OASC) in 2017, where it turned out to be the best approach for the runtime minimization of decision problems. In this work, we present the technical advancements of sunny-as2, including: (i) wrapper-based feature selection; (ii) a training approach combining feature selection and neighbourhood size configuration; (iii) the application of nested cross-validation. We show how sunny-as2 performance varies depending on the considered AS scenarios, and we discuss its strengths and weaknesses. Finally, we also show how sunny-as2 improves on its preliminary version submitted to OASC. | 翻訳日:2022-10-21 02:22:16 公開日:2021-10-12 |
# 教師なしステレオ対応学習における視差注意 Parallax Attention for Unsupervised Stereo Correspondence Learning ( http://arxiv.org/abs/2009.08250v2 ) ライセンス: Link先を確認 | Longguang Wang and Yulan Guo and Yingqian Wang and Zhengfa Liang and Zaiping Lin and Jungang Yang and Wei An | (参考訳) ステレオ画像ペアは、3dシーンキューを左右の画像間のステレオ対応に符号化する。
ステレオ画像内の3次元キューを利用するため、最近のcnnベースの手法では、コストボリューム技術を使用して、大きな異種間のステレオ対応を捉えるのが一般的である。
しかし、ベースライン、焦点距離、解像度の異なるステレオカメラでは、差が著しく異なるため、コストボリューム技術で使われる固定された最大差は、大きな差がある異なるステレオ画像ペアを扱うことを妨げている。
本稿では,相違によらずステレオ対応を捉える汎用パララックスアテンション機構(PAM)を提案する。
我々のPAMは、エピポーラの制約とアテンション機構を統合して、エピポーラ線に沿った特徴的類似性を計算し、ステレオ対応を捉える。
PAMに基づいて、ステレオマッチングとステレオ画像の超解像処理のためのパララックス・アテンション・ステレオマッチングネットワーク(PASMnet)とパララックス・アテンション・ステレオ画像超解像ネットワーク(PASSRnet)を提案する。
さらに,ステレオ画像超解像のための大規模データセットFlickr1024を導入する。
実験結果から,我々のPAMは汎用的であり,非教師的手法で多変量でステレオ対応を効果的に学習できることが示唆された。
その結果,PASMnetとPASSRnetは最先端の性能を達成できた。 Stereo image pairs encode 3D scene cues into stereo correspondences between the left and right images. To exploit 3D cues within stereo images, recent CNN based methods commonly use cost volume techniques to capture stereo correspondence over large disparities. However, since disparities can vary significantly for stereo cameras with different baselines, focal lengths and resolutions, the fixed maximum disparity used in cost volume techniques hinders them to handle different stereo image pairs with large disparity variations. In this paper, we propose a generic parallax-attention mechanism (PAM) to capture stereo correspondence regardless of disparity variations. Our PAM integrates epipolar constraints with attention mechanism to calculate feature similarities along the epipolar line to capture stereo correspondence. Based on our PAM, we propose a parallax-attention stereo matching network (PASMnet) and a parallax-attention stereo image super-resolution network (PASSRnet) for stereo matching and stereo image super-resolution tasks. Moreover, we introduce a new and large-scale dataset named Flickr1024 for stereo image super-resolution. Experimental results show that our PAM is generic and can effectively learn stereo correspondence under large disparity variations in an unsupervised manner. Comparative results show that our PASMnet and PASSRnet achieve the state-of-the-art performance. | 翻訳日:2022-10-18 00:30:57 公開日:2021-10-12 |
# スタブボーンノードを用いた投票モデルによる選挙予測 Forecasting elections results via the voter model with stubborn nodes ( http://arxiv.org/abs/2009.10627v3 ) ライセンス: Link先を確認 | Antoine Vendeville and Benjamin Guedj and Shi Zhou | (参考訳) 本稿では、前回の選挙の結果のみを用いて、選挙結果を予測する新しい手法を提案する。
これは頑健なノードを持つ投票者モデルに基づいており、我々の以前の研究で開発された理論的結果を用いている。
我々は、英国の保守党と労働党、米国の共和党と民主党の投票シェアについて調べる。
モデルパラメータの時間発展的な見積もりを実行し、任意の選挙における各政党の投票シェアを予測できます。
平均絶対誤差は 4.74 % である。
副産物として、我々のパラメーターは、政治情勢について有意義な洞察を与え、各政党の強い支持者である有権者の割合を教えてくれます。 In this paper we propose a novel method to forecast the result of elections using only official results of previous ones. It is based on the voter model with stubborn nodes and uses theoretical results developed in a previous work of ours. We look at popular vote shares for the Conservative and Labour parties in the UK and the Republican and Democrat parties in the US. We are able to perform time-evolving estimates of the model parameters and use these to forecast the vote shares for each party in any election. We obtain a mean absolute error of 4.74\%. As a side product, our parameters estimates provide meaningful insight on the political landscape, informing us on the proportion of voters that are strong supporters of each of the considered parties. | 翻訳日:2022-10-15 23:18:06 公開日:2021-10-12 |
# expectigrad:ロバスト収束特性を持つ高速確率最適化 Expectigrad: Fast Stochastic Optimization with Robust Convergence Properties ( http://arxiv.org/abs/2010.01356v2 ) ライセンス: Link先を確認 | Brett Daley and Christopher Amato | (参考訳) adamやrmspropのような多くの一般的な適応勾配法は、ステップ化を正規化するために指数移動平均(ema)に依存する。
EMAはこれらの手法を新しい勾配情報に高い応答性を与えるが、最近の研究では少なくとも1つの凸最適化問題にばらつきを引き起こすことも示されている。
本稿では,すべての履歴勾配の成分ごとの非重み付け平均に従ってステップを調整し,ニュミレータとデノミネータを結合してバイアス補正モーメント項を計算する,expigradと呼ばれる新しい手法を提案する。
我々は、Adamを分岐させる最適化問題のすべての事例において、期待度が分岐できないことを証明した。
また、一般確率的非凸設定において、期待段階が既存の方法よりも勾配分散の影響を受けにくいことを示唆する後悔境界を確立する。
いくつかの高次元機械学習タスクを期待してテストすると、ハイパーパラメータチューニングの少ない最先端の手法に好適に機能することが多い。 Many popular adaptive gradient methods such as Adam and RMSProp rely on an exponential moving average (EMA) to normalize their stepsizes. While the EMA makes these methods highly responsive to new gradient information, recent research has shown that it also causes divergence on at least one convex optimization problem. We propose a novel method called Expectigrad, which adjusts stepsizes according to a per-component unweighted mean of all historical gradients and computes a bias-corrected momentum term jointly between the numerator and denominator. We prove that Expectigrad cannot diverge on every instance of the optimization problem known to cause Adam to diverge. We also establish a regret bound in the general stochastic nonconvex setting that suggests Expectigrad is less susceptible to gradient variance than existing methods are. Testing Expectigrad on several high-dimensional machine learning tasks, we find it often performs favorably to state-of-the-art methods with little hyperparameter tuning. | 翻訳日:2022-10-11 08:54:37 公開日:2021-10-12 |
# 有限時間収束流からの第一次最適化 First-Order Optimization Inspired from Finite-Time Convergent Flows ( http://arxiv.org/abs/2010.02990v3 ) ライセンス: Link先を確認 | Siqi Zhang, Mouhacine Benosman, Orlando Romero, Anoop Cherian | (参考訳) 本稿では,有限時間最適化フローの前方オイラー離散化から得られる2つの一階最適化アルゴリズムの性能について検討する。
これらの流れは、再スケール段階フロー (RGF) と符号段階フロー (SGF) であり、非Lipscthiz あるいは不連続な力学系から成り、有限時間で勾配支配関数のミニマに局所的に収束する。
これらの一階有限時間流に対するオイラー離散化を提案し、決定論的および確率的設定において収束を保証する。
次に、提案したアルゴリズムを学術的な例に適用し、深層ニューラルネットワークトレーニングを行い、SVHNデータセット上でそのパフォーマンスを実証的にテストする。
提案手法は標準最適化代替案に対してより高速に収束することを示す。 In this paper, we investigate the performance of two first-order optimization algorithms, obtained from forward Euler discretization of finite-time optimization flows. These flows are the rescaled-gradient flow (RGF) and the signed-gradient flow (SGF), and consist of non-Lipscthiz or discontinuous dynamical systems that converge locally in finite time to the minima of gradient-dominated functions. We propose an Euler discretization for these first-order finite-time flows, and provide convergence guarantees, in the deterministic and the stochastic setting. We then apply the proposed algorithms to academic examples, as well as deep neural networks training, where we empirically test their performances on the SVHN dataset. Our results show that our schemes demonstrate faster convergences against standard optimization alternatives. | 翻訳日:2022-10-10 08:06:23 公開日:2021-10-12 |
# 変圧器を用いた物体検出のためのセット予測の再考 Rethinking Transformer-based Set Prediction for Object Detection ( http://arxiv.org/abs/2011.10881v2 ) ライセンス: Link先を確認 | Zhiqing Sun, Shengcao Cao, Yiming Yang, Kris Kitani | (参考訳) DETRは、オブジェクト検出をセット予測問題とみなし、最先端性能を実現するが、収束に余分な訓練時間を必要とするトランスフォーマーベースの手法である。
本稿では,DETRのトレーニングにおける最適化困難の原因について検討する。
検討の結果,detrの収束が遅い要因がいくつか見いだされ,主にハンガリーの損失とトランスフォーマーのクロス・アテンション機構の問題が明らかになった。
これらの問題を解決するために,TSP-FCOS (Transformer-based Set Prediction with FCOS) と TSP-RCNN (Transformer-based Set Prediction with RCNN) の2つのソリューションを提案する。
実験結果から,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度においてDTRや他のベースラインよりも優れていた。 DETR is a recently proposed Transformer-based method which views object detection as a set prediction problem and achieves state-of-the-art performance but demands extra-long training time to converge. In this paper, we investigate the causes of the optimization difficulty in the training of DETR. Our examinations reveal several factors contributing to the slow convergence of DETR, primarily the issues with the Hungarian loss and the Transformer cross-attention mechanism. To overcome these issues we propose two solutions, namely, TSP-FCOS (Transformer-based Set Prediction with FCOS) and TSP-RCNN (Transformer-based Set Prediction with RCNN). Experimental results show that the proposed methods not only converge much faster than the original DETR, but also significantly outperform DETR and other baselines in terms of detection accuracy. | 翻訳日:2022-09-22 23:06:26 公開日:2021-10-12 |
# Omni: 敵の侵入攻撃に対する予期せぬモデルによる自動アンサンブル Omni: Automated Ensemble with Unexpected Models against Adversarial Evasion Attack ( http://arxiv.org/abs/2011.12720v2 ) ライセンス: Link先を確認 | Rui Shu, Tianpei Xia, Laurie Williams, Tim Menzies | (参考訳) 背景: 機械学習ベースのセキュリティ検出モデルは、現代のマルウェアや侵入検知システムで普及している。
しかし、以前の研究では、そのようなモデルは敵対的回避攻撃の影響を受けやすいことが示されている。
このタイプの攻撃では、入力(すなわち敵の例)は、既存の最先端モデル(ディープニューラルネットワークなど)によって誤って分類されることを目的として、知的悪意のある敵によって特別に作成される。
攻撃者が分類器を騙して悪意のある入力が実際に良質であると考えると、機械学習ベースのマルウェアや侵入検知システムが無効になる。
目標: セキュリティ実践者や研究者がアンサンブルモデルの概念を通じて、非適応的、ホワイトボックス、非標的の敵の回避攻撃に対してより堅牢なモデルを構築するのを助けること。
方法:オムニと呼ばれる手法を提案し,その主な考え方は「未予測モデル」のアンサンブルを生成する手法を探索することである。すなわち,制御ハイパーパラメータが敵のターゲットモデルのハイパーパラメータと大きな距離を持つモデルであり,最適化された重み付けアンサンブル予測を行う。
結果: セキュリティデータセット(NSL-KDD, CIC-IDS-2017, CSE-CIC-IDS2018, CICAnd-Mal2017, Contagio PDFデータセット)の5種類の逆回避攻撃(FGSM, BIM, JSMA, DeepFooland Carlini-Wagner)を用いた研究において, Omniは他のベースライン治療と比較して、敵攻撃に対する防衛戦略として有望なアプローチであることが示された。
結論: 敵の回避攻撃に対するアンサンブル防御を用いる場合, ハイパーパラメータ最適化などの手法を用いて, 攻撃者の予測モデル(標的モデル)から離れた予期せぬモデルでアンサンブルを作成することを提案する。 Background: Machine learning-based security detection models have become prevalent in modern malware and intrusion detection systems. However, previous studies show that such models are susceptible to adversarial evasion attacks. In this type of attack, inputs (i.e., adversarial examples) are specially crafted by intelligent malicious adversaries, with the aim of being misclassified by existing state-of-the-art models (e.g., deep neural networks). Once the attackers can fool a classifier to think that a malicious input is actually benign, they can render a machine learning-based malware or intrusion detection system ineffective. Goal: To help security practitioners and researchers build a more robust model against non-adaptive, white-box, and non-targeted adversarial evasion attacks through the idea of an ensemble model. Method: We propose an approach called Omni, the main idea of which is to explore methods that create an ensemble of "unexpected models"; i.e., models whose control hyperparameters have a large distance to the hyperparameters of an adversary's target model, with which we then make an optimized weighted ensemble prediction. Result: In studies with five types of adversarial evasion attacks (FGSM, BIM, JSMA, DeepFooland Carlini-Wagner) on five security datasets (NSL-KDD, CIC-IDS-2017, CSE-CIC-IDS2018, CICAnd-Mal2017, and the Contagio PDF dataset), we show Omni is a promising approach as a defense strategy against adversarial attacks when compared with other baseline treatments. Conclusion: When employing ensemble defense against adversarial evasion attacks, we suggest creating an ensemble with unexpected models that are distant from the attacker's expected model (i.e., target model) through methods such as hyperparameter optimization. | 翻訳日:2022-09-22 03:23:35 公開日:2021-10-12 |
# CVRPのハイブリッド遺伝的検索:オープンソース実装とSWAP*周辺 Hybrid Genetic Search for the CVRP: Open-Source Implementation and SWAP* Neighborhood ( http://arxiv.org/abs/2012.10384v2 ) ライセンス: Link先を確認 | Thibaut Vidal | (参考訳) 車両経路問題は、その実用的重要性と方法論的関心から、最も研究された組合せ最適化のトピックの1つである。
しかし、方法論的な進歩にもかかわらず、最近の多くの研究は、単純で効率的なオープンソースソリューションメソッドへのアクセスの制限によって妨げられている。
現在のアルゴリズムの洗練度を考えると、再実装は困難で時間のかかる作業となり、詳細が本当に成功するには広範囲の注意が必要である。
このような背景から,本稿では,キャパシタン化車両ルーティング問題(CVRP)に特化したハイブリッド遺伝子探索(HGS)の簡易-オープンソース-実装について紹介する。
この最先端のアルゴリズムは、Vidal et al. (2012)と同じ一般的な手法を用いており、また過去10年間に学んだ方法論的改善や教訓も含んでいる。
特に、SWAP*と呼ばれる追加の地区があり、この地区は2人の客を異なるルートで交換する。
本研究で強調したように,SWAP* の効率的な探索は局所探索の性能に大きく貢献する。
さらに、Uchoa et al. (2017) の古典的な例に関する他の実験的なアプローチと比較すると、HGS はソリューションの品質、収束速度、概念的単純性に関する主要なメタヒューリスティックである。 The vehicle routing problem is one of the most studied combinatorial optimization topics, due to its practical importance and methodological interest. Yet, despite extensive methodological progress, many recent studies are hampered by the limited access to simple and efficient open-source solution methods. Given the sophistication of current algorithms, reimplementation is becoming a difficult and time-consuming exercise that requires extensive care for details to be truly successful. Against this background, we use the opportunity of this short paper to introduce a simple -- open-source -- implementation of the hybrid genetic search (HGS) specialized to the capacitated vehicle routing problem (CVRP). This state-of-the-art algorithm uses the same general methodology as Vidal et al. (2012) but also includes additional methodological improvements and lessons learned over the past decade of research. In particular, it includes an additional neighborhood called SWAP* which consists in exchanging two customers between different routes without an insertion in place. As highlighted in our study, an efficient exploration of SWAP* moves significantly contributes to the performance of local searches. Moreover, as observed in experimental comparisons with other recent approaches on the classical instances of Uchoa et al. (2017), HGS still stands as a leading metaheuristic regarding solution quality, convergence speed, and conceptual simplicity. | 翻訳日:2022-09-22 01:45:53 公開日:2021-10-12 |
# バイアス検出のためのディープラーニング: 開始から展開まで Deep Learning for Bias Detection: From Inception to Deployment ( http://arxiv.org/abs/2110.15728v1 ) ライセンス: Link先を確認 | Md Abul Bashar, Richi Nayak, Anjor Kothare, Vishal Sharma, Kesavan Kandadai | (参考訳) より包括的な職場を作るために、企業は様々な機能に対する無意識の偏見(性別、人種、年齢、障害、エリート主義、宗教など)の特定と排除に積極的に投資している。
企業コンテンツのバイアスを自動的に識別するために,手作業でタグ付けされた文書から学習するための,トランスファー学習に基づく言語モデルを用いたディープラーニングモデルを提案する。
まず、ウィキペディアを用いてディープラーニングベースの言語モデルを事前学習し、それから様々な種類のエンタープライズコンテンツに関連する大きな未学習データセットでモデルを微調整する。
最後に、言語モデルの最後に線形層とソフトマックス層を追加し、エンタープライズコンテンツからなるラベル付きバイアスデータセットに基づいてモデルをトレーニングする。
トレーニングされたモデルは、一般的なアプリケーションを保証するために、独立したデータセットで徹底的に評価される。
提案手法とその展開の詳細を実世界のアプリケーションに提示する。 To create a more inclusive workplace, enterprises are actively investing in identifying and eliminating unconscious bias (e.g., gender, race, age, disability, elitism and religion) across their various functions. We propose a deep learning model with a transfer learning based language model to learn from manually tagged documents for automatically identifying bias in enterprise content. We first pretrain a deep learning-based language-model using Wikipedia, then fine tune the model with a large unlabelled data set related with various types of enterprise content. Finally, a linear layer followed by softmax layer is added at the end of the language model and the model is trained on a labelled bias dataset consisting of enterprise content. The trained model is thoroughly evaluated on independent datasets to ensure a general application. We present the proposed method and its deployment detail in a real-world application. | 翻訳日:2021-11-07 11:39:46 公開日:2021-10-12 |
# ネットワーク効率に基づく複雑なネットワークにおけるノード同定のための修正重力モデル A modified gravity model based on network efficiency for vital nodes identification in complex networks ( http://arxiv.org/abs/2111.01526v1 ) ライセンス: Link先を確認 | Hanwen Li, Qiuyan Shang, Yong Deng | (参考訳) 生きたノードの同定はネットワーク科学において重要な問題である。
この問題を解決するために様々な方法が提案されている。
特に、重力モデルに基づいて、複雑なネットワークにおいて重要なノードを見つけるために、一連の改良された重力モデルが提案されている。
しかし、改善の余地は残っている。
本稿では,ネットワーク効率重心性モデル (NEG) と名付けられ, 重力モデルとネットワーク効率を融合した, 新規で改良された重力モデルを提案する。
異なる重力モデルに基づく他の手法と比較して,提案手法はネットワークの構造的堅牢性に対するノードの影響をよく検討する。
提案手法の優位性を固めるために,実世界のネットワークの多様性に関する実験を行った。 Vital nodes identification is an essential problem in network science. Various methods have been proposed to solve this problem. In particular, based on the gravity model, a series of improved gravity models are proposed to find vital nodes better in complex networks. However, they still have the room to be improved. In this paper, a novel and improved gravity model, which is named network efficiency gravity centrality model (NEG), integrates gravity model and network efficiency is proposed. Compared to other methods based on different gravity models, the proposed method considers the effect of the nodes on structure robustness of the network better. To solidate the superiority of the proposed method, experiments on varieties of real-world networks are carried out. | 翻訳日:2021-11-07 11:38:59 公開日:2021-10-12 |
# (参考訳) 視覚的セマンティックな埋め込みによる複合イベント検出のための信頼性のあるショット識別 Reliable Shot Identification for Complex Event Detection via Visual-Semantic Embedding ( http://arxiv.org/abs/2110.08063v1 ) ライセンス: CC BY 4.0 | Minnan Luo and Xiaojun Chang and Chen Gong | (参考訳) マルチメディアイベント検出は、ウェブサイト上でユーザーが生成したビデオの特定のイベントを検出するタスクである。
このタスクに直面する最も根本的な課題は、ビデオの質が大幅に変化することと、イベントを本質的に高レベルに抽象化することにある。
本稿では,映像を複数のセグメントに分解し,複雑なイベント検出のタスクを複数のインスタンス学習問題として直感的にモデル化し,各セグメントをインスタンスと呼ぶセグメントの「袋」として表現する。
インスタンスを均等に扱う代わりに、各インスタンスをその重要性を示す信頼性変数に関連付け、トレーニング用の信頼性のあるインスタンスを選択する。
様々なインスタンスの信頼性を正確に測定するために,視覚情報から低レベル特徴と高レベルセマンティック特徴を併用し,視覚的セマンティック誘導損失を提案する。
カリキュラム学習に動機づけられ,信頼性の高いインスタンスで分類器を訓練し,比較的信頼性の低いインスタンスを徐々に考慮し始めるための,負の弾力性ネット正規化用語を導入する。
提案する非凸非スムース問題を解くための代替最適化アルゴリズムを開発した。
標準データセットであるTRECVID MEDTest 2013とTRECVID MEDTest 2014の実験結果は、提案手法のベースラインアルゴリズムの有効性と優位性を示している。 Multimedia event detection is the task of detecting a specific event of interest in an user-generated video on websites. The most fundamental challenge facing this task lies in the enormously varying quality of the video as well as the high-level semantic abstraction of event inherently. In this paper, we decompose the video into several segments and intuitively model the task of complex event detection as a multiple instance learning problem by representing each video as a "bag" of segments in which each segment is referred to as an instance. Instead of treating the instances equally, we associate each instance with a reliability variable to indicate its importance and then select reliable instances for training. To measure the reliability of the varying instances precisely, we propose a visual-semantic guided loss by exploiting low-level feature from visual information together with instance-event similarity based high-level semantic feature. Motivated by curriculum learning, we introduce a negative elastic-net regularization term to start training the classifier with instances of high reliability and gradually taking the instances with relatively low reliability into consideration. An alternative optimization algorithm is developed to solve the proposed challenging non-convex non-smooth problem. Experimental results on standard datasets, i.e., TRECVID MEDTest 2013 and TRECVID MEDTest 2014, demonstrate the effectiveness and superiority of the proposed method to the baseline algorithms. | 翻訳日:2021-10-24 13:11:56 公開日:2021-10-12 |
# (参考訳) ブラックボックスモデル決定記述のためのレート歪みフレームワーク A Rate-Distortion Framework for Explaining Black-box Model Decisions ( http://arxiv.org/abs/2110.08252v1 ) ライセンス: CC BY 4.0 | Stefan Kolek, Duc Anh Nguyen, Ron Levie, Joan Bruna, Gitta Kutyniok | (参考訳) 我々は,ブラックボックスモデル決定を数学的に確立した手法であるRDE(Rate-Distortion Explanation)フレームワークを提案する。
このフレームワークは、ターゲットの入力信号の摂動に基づいており、ニューラルネットワークのような様々な訓練済みのモデルに適用できる。
本実験は,都市環境の様々なデータモダリティ,特に画像,音声,物理シミュレーションに対するフレームワークの適応性を示す。 We present the Rate-Distortion Explanation (RDE) framework, a mathematically well-founded method for explaining black-box model decisions. The framework is based on perturbations of the target input signal and applies to any differentiable pre-trained model such as neural networks. Our experiments demonstrate the framework's adaptability to diverse data modalities, particularly images, audio, and physical simulations of urban environments. | 翻訳日:2021-10-24 12:47:15 公開日:2021-10-12 |
# AIに基づく太陽光発電予測における偽データ注入の影響の解析 Analysis of False Data Injection Impact on AI based Solar Photovoltaic Power Generation Forecasting ( http://arxiv.org/abs/2110.09948v1 ) ライセンス: Link先を確認 | S. Sarp, M. Kuzlu, U. Cali, O. Elma, and O. Guler | (参考訳) 太陽光発電(PV)エネルギーの使用は電力グリッドに追加の資源を提供する。
この統合の欠点は、太陽光発電の供給が信頼性がなく、気象条件に依存することである。
太陽エネルギーの完全利用には予測可能性と安定性が不可欠である。
本研究では,公衆データセットを用いた太陽光発電発電予測のための各種機械学習モデルの検討と評価を行う。
さらに、平均二乗誤差(RMSE)、平均二乗誤差(MSE)、平均平均誤差(MAE)測定値を用いて結果を評価する。
線形回帰、ガウス過程回帰、K-Nearest Neighbor、Decision Trees、Gradient Boosting Regression Trees、Multi-layer Perceptron、Support Vector Regressionアルゴリズムを評価する。
偽データ注入攻撃に対する彼らの反応も調査される。
マルチレイヤパーセプトロン回帰法は、正規およびノイズ注入されたデータセットを他の手法よりも頑健に予測する。 The use of solar photovoltaics (PV) energy provides additional resources to the electric power grid. The downside of this integration is that the solar power supply is unreliable and highly dependent on the weather condition. The predictability and stability of forecasting are critical for the full utilization of solar power. This study reviews and evaluates various machine learning-based models for solar PV power generation forecasting using a public dataset. Furthermore, The root mean squared error (RMSE), mean squared error (MSE), and mean average error (MAE) metrics are used to evaluate the results. Linear Regression, Gaussian Process Regression, K-Nearest Neighbor, Decision Trees, Gradient Boosting Regression Trees, Multi-layer Perceptron, and Support Vector Regression algorithms are assessed. Their responses against false data injection attacks are also investigated. The Multi-layer Perceptron Regression method shows robust prediction on both regular and noise injected datasets over other methods. | 翻訳日:2021-10-24 04:34:43 公開日:2021-10-12 |
# 均一暗号の医用画像への応用 Application of Homomorphic Encryption in Medical Imaging ( http://arxiv.org/abs/2110.07768v1 ) ライセンス: Link先を確認 | Francis Dutil, Alexandre See, Lisa Di Jorio and Florent Chandelier | (参考訳) 本技術報告では,厳密な \textit{Privacy by Design} サービスの提供や,データガバナンスのゼロトラストモデルの適用のために,トレーニングやディープラーニング(DL)モデルによる予測における同型暗号化(HE)の利用について検討する。
まず, OCT画像を用いた疾患分類タスクにおいて, HEを用いて医療画像の予測を行い, データの不正な二次的使用を防止できることを示し, その結果を詳述する。
そこで,本研究では,3次元胸部CT-Scansを用いて結節検出を行う実験を,連合学習によるDLモデルのトレーニングに活用できることを実証した。 In this technical report, we explore the use of homomorphic encryption (HE) in the context of training and predicting with deep learning (DL) models to deliver strict \textit{Privacy by Design} services, and to enforce a zero-trust model of data governance. First, we show how HE can be used to make predictions over medical images while preventing unauthorized secondary use of data, and detail our results on a disease classification task with OCT images. Then, we demonstrate that HE can be used to secure the training of DL models through federated learning, and report some experiments using 3D chest CT-Scans for a nodule detection task. | 翻訳日:2021-10-24 04:34:27 公開日:2021-10-12 |
# 自動音声認識のためのマルチモーダル事前訓練 Multi-Modal Pre-Training for Automated Speech Recognition ( http://arxiv.org/abs/2110.09890v1 ) ライセンス: Link先を確認 | David M. Chan, Shalini Ghosh, Debmalya Chakrabarty and Bj\"orn Hoffmeister | (参考訳) 伝統的に、音声認識の研究は、発話中の音声音素を予測するために、音声表現のローカルファーストエンコーディングに焦点を当ててきた。
残念なことに、そのようなローカルな情報に依存するアプローチは、訓練中に見られていないローカルレベルの汚職(オーディオフレームドロップや大音量ノイズなど)とグローバルレベルのノイズ(環境ノイズやバックグラウンドノイズなど)の両方に弱い傾向にある。
本研究では,マスク付き言語モデルに基づく自己教師型学習手法を用いて,発話の発生する環境のグローバルなマルチモーダル符号化を演算する手法を提案する。
次に、このグローバルコンテキストを従来のASRメソッドに統合するために、新しいディープフュージョンフレームワークを使用し、その結果、Librispeechで最大7%、内部データセットでは6%から45%(より小さなモデルでは45%)の精度でベースラインメソッドを上回ります。 Traditionally, research in automated speech recognition has focused on local-first encoding of audio representations to predict the spoken phonemes in an utterance. Unfortunately, approaches relying on such hyper-local information tend to be vulnerable to both local-level corruption (such as audio-frame drops, or loud noises) and global-level noise (such as environmental noise, or background noise) that has not been seen during training. In this work, we introduce a novel approach which leverages a self-supervised learning technique based on masked language modeling to compute a global, multi-modal encoding of the environment in which the utterance occurs. We then use a new deep-fusion framework to integrate this global context into a traditional ASR method, and demonstrate that the resulting method can outperform baseline methods by up to 7% on Librispeech; gains on internal datasets range from 6% (on larger models) to 45% (on smaller models). | 翻訳日:2021-10-24 04:34:14 公開日:2021-10-12 |
# 理論誘導畳み込みニューラルネットワークによる多孔質媒体中の二相流の代理及び逆モデリング Surrogate and inverse modeling for two-phase flow in porous media via theory-guided convolutional neural network ( http://arxiv.org/abs/2110.10080v1 ) ライセンス: Link先を確認 | Nanzhe Wang, Haibin Chang, Dongxiao Zhang | (参考訳) 畳み込みニューラルネットワーク(CNN)のトレーニングに離散化された支配方程式残差を組み込むことができる理論誘導畳み込みニューラルネットワーク(TgCNN)フレームワークは、本研究で二相多孔性メディアフロー問題に拡張される。
考慮された問題の2つの主変数である圧力と飽和は、それぞれ2つのCNNと同時に近似される。
支配方程式では, 圧力と飽和が互いに結合するので, 2つのネットワークは離散化された支配方程式によって訓練過程において相互に条件付けされ, モデルトレーニングの難易度も増大する。
結合および離散化方程式は、トレーニングプロセスにおいて貴重な情報を提供することができる。
理論誘導の助けを借りて、TgCNNサロゲートは二相流問題における通常のCNNサロゲートよりも精度が高い。
さらに,時間次元の異なるセグメントに対してtgcnnサロゲートを構築し,それを積み重ねて時間スパン全体の解を予測した,様々なウェルコントロールを持つシナリオについて,分割学習戦略を提案する。
生成特性場のばらつきが大きいシナリオでは、TgCNNサロゲートも良好な性能が得られる。
構築されたTgCNNサロゲートは、繰り返しアンサンブルスムーサ(IES)アルゴリズムと組み合わせて透過性フィールドの反転にさらに使用され、十分なインバージョン精度が向上して得られる。 The theory-guided convolutional neural network (TgCNN) framework, which can incorporate discretized governing equation residuals into the training of convolutional neural networks (CNNs), is extended to two-phase porous media flow problems in this work. The two principal variables of the considered problem, pressure and saturation, are approximated simultaneously with two CNNs, respectively. Pressure and saturation are coupled with each other in the governing equations, and thus the two networks are also mutually conditioned in the training process by the discretized governing equations, which also increases the difficulty of model training. The coupled and discretized equations can provide valuable information in the training process. With the assistance of theory-guidance, the TgCNN surrogates can achieve better accuracy than ordinary CNN surrogates in two-phase flow problems. Moreover, a piecewise training strategy is proposed for the scenario with varying well controls, in which the TgCNN surrogates are constructed for different segments on the time dimension and stacked together to predict solutions for the whole time-span. For scenarios with larger variance of the formation property field, the TgCNN surrogates can also achieve satisfactory performance. The constructed TgCNN surrogates are further used for inversion of permeability fields by combining them with the iterative ensemble smoother (IES) algorithm, and sufficient inversion accuracy is obtained with improved efficiency. | 翻訳日:2021-10-24 04:33:55 公開日:2021-10-12 |
# アルツハイマー病の異常接続予測のための先行ガイド付き逆境表現学習とハイパーグラフ知覚ネットワーク A Prior Guided Adversarial Representation Learning and Hypergraph Perceptual Network for Predicting Abnormal Connections of Alzheimer's Disease ( http://arxiv.org/abs/2110.09302v1 ) ライセンス: Link先を確認 | Qiankun Zuo, Baiying Lei, Shuqiang Wang, Yong Liu, Bingchuan Wang, Yanyan Shen | (参考訳) アルツハイマー病は、進行変性過程における脳の構造的および機能的接続の変化を特徴とする。
既存の補助的診断手法は分類タスクを完了しているが,脳結合の変化特性を正確に評価できるものは少ない。
本研究は,三重モード医療画像による脳の異常な接続を予測するために,先行ガイド付き対向表現学習とハイパーグラフ知覚ネットワーク(PGARL-HPN)を提案する。
具体的には, 解剖学知識からの事前分布を推定し, 対角戦略を用いたマルチモーダル表現学習を導く。
また、ペアワイズコラボレーティブな識別器構造を利用して、表現分布の差を狭める。
さらに,マルチモーダル画像間の高次関係を確立しつつ,学習表現を効果的に融合するハイパーグラフ知覚ネットワークを開発した。
実験の結果,提案モデルがアルツハイマー病の進行を解析し予測する他の方法よりも優れていることが示された。
さらに重要なことに、特定された異常な接続は、前回の神経科学の発見と部分的に一致している。
提案モデルはアルツハイマー病の異なる段階における異常脳結合の特徴を評価することができ,認知疾患研究や早期治療に有用である。 Alzheimer's disease is characterized by alterations of the brain's structural and functional connectivity during its progressive degenerative processes. Existing auxiliary diagnostic methods have accomplished the classification task, but few of them can accurately evaluate the changing characteristics of brain connectivity. In this work, a prior guided adversarial representation learning and hypergraph perceptual network (PGARL-HPN) is proposed to predict abnormal brain connections using triple-modality medical images. Concretely, a prior distribution from the anatomical knowledge is estimated to guide multimodal representation learning using an adversarial strategy. Also, the pairwise collaborative discriminator structure is further utilized to narrow the difference of representation distribution. Moreover, the hypergraph perceptual network is developed to effectively fuse the learned representations while establishing high-order relations within and between multimodal images. Experimental results demonstrate that the proposed model outperforms other related methods in analyzing and predicting Alzheimer's disease progression. More importantly, the identified abnormal connections are partly consistent with the previous neuroscience discoveries. The proposed model can evaluate characteristics of abnormal brain connections at different stages of Alzheimer's disease, which is helpful for cognitive disease study and early treatment. | 翻訳日:2021-10-24 03:45:35 公開日:2021-10-12 |
# 都市自動計画のための深層誘導条件変分生成モデル Deep Human-guided Conditional Variational Generative Modeling for Automated Urban Planning ( http://arxiv.org/abs/2110.07717v1 ) ライセンス: Link先を確認 | Dongjie Wang, Kunpeng Liu, Pauline Johnson, Leilei Sun, Bowen Du, Yanjie Fu | (参考訳) 都市計画は土地利用構成を設計でき、居住可能で持続可能な安全なコミュニティを構築することができる。
画像生成にインスパイアされた深層都市計画は、深層学習を活用して土地利用構成を生成することを目的としている。
しかし、都市計画は複雑なプロセスである。
既存の研究では、計画におけるパーソナライズされた人間指導の必要性や、計画生成における空間階層構造は無視されている。
さらに、大規模な土地利用構成サンプルの欠如は、データスパーシティの課題となる。
本稿では, 上記の課題を共同で解決するための, 深層都市計画手法について検討する。
具体的には、この問題を深い条件付き変分オートエンコーダベースのフレームワークに定式化する。
本研究では,深層エンコーダデコーダの設計を利用して土地利用構成を生成する。
土地利用の空間的階層構造を捉えるため,機能領域の粗粒層とPOI分布の微細粒層の両方を生成するデコーダを強制する。
人間の指導を統合するために、人間は必要なものをテキストとして記述し、これらのテキストをモデル条件入力として使用することができる。
トレーニングデータの分散を緩和し、モデルロバスト性を改善するため、変分ガウス埋め込み機構を導入する。
これにより、トレーニングデータの埋め込み空間分布をよりよく近似し、より大きな人口をサンプリングして疎結合を克服するだけでなく、都市計画世代に確率的ランダム性を加え、埋め込み多様性を改善し、堅牢性を向上させることができる。
最後に,提案手法の性能向上を実証するための実験を行った。 Urban planning designs land-use configurations and can benefit building livable, sustainable, safe communities. Inspired by image generation, deep urban planning aims to leverage deep learning to generate land-use configurations. However, urban planning is a complex process. Existing studies usually ignore the need of personalized human guidance in planning, and spatial hierarchical structure in planning generation. Moreover, the lack of large-scale land-use configuration samples poses a data sparsity challenge. This paper studies a novel deep human guided urban planning method to jointly solve the above challenges. Specifically, we formulate the problem into a deep conditional variational autoencoder based framework. In this framework, we exploit the deep encoder-decoder design to generate land-use configurations. To capture the spatial hierarchy structure of land uses, we enforce the decoder to generate both the coarse-grained layer of functional zones, and the fine-grained layer of POI distributions. To integrate human guidance, we allow humans to describe what they need as texts and use these texts as a model condition input. To mitigate training data sparsity and improve model robustness, we introduce a variational Gaussian embedding mechanism. It not just allows us to better approximate the embedding space distribution of training data and sample a larger population to overcome sparsity, but also adds more probabilistic randomness into the urban planning generation to improve embedding diversity so as to improve robustness. Finally, we present extensive experiments to validate the enhanced performances of our method. | 翻訳日:2021-10-24 03:45:16 公開日:2021-10-12 |
# ランダム性とファジィ性に起因するシグママックスシステム The Sigma-Max System Induced from Randomness and Fuzziness ( http://arxiv.org/abs/2110.07722v1 ) ライセンス: Link先を確認 | Wei Mei, Ming Li, Yuanzeng Cheng and Limin Liu | (参考訳) 本稿では,確率論(シグマ・システム)と可能性理論(マックス・システム)を,それぞれランダム性とファジィ性から導出することに成功した。
このような目的は,3つのオープンキー問題に対処することで達成される。
a) ランダム性及び曖昧性の明確な数学的定義の欠如
b) 可能性の直感的な数学的定義の欠如
c) 直感的定義からの確率/可能性の公理的定義の抽象化手順の欠如
特に、最後の問題は、なぜ「最大性」の鍵公理が可能性尺度に採用されたのかという問題である。
十分定義されたランダム性と曖昧さの性質を生かして、"max" はファジィ事象空間にまたがって適用できる唯一のしかし制限のない分離作用素であり、最大推論が厳密なメカニズムであることを保証するファジィ特徴抽出の厳密な演算子である、という重要な結論を導いた。
可能性理論の基礎に対する合意の欠如という長年の問題は十分に解決されており、可能性理論を実際より広く採用し、可能性と可能性に関する2つの不確実性理論の相互繁栄を促進するであろう。 This paper managed to induce probability theory (sigma system) and possibility theory (max system) respectively from randomness and fuzziness, through which the premature theory of possibility is expected to be well founded. Such an objective is achieved by addressing three open key issues: a) the lack of clear mathematical definitions of randomness and fuzziness; b) the lack of intuitive mathematical definition of possibility; c) the lack of abstraction procedure of the axiomatic definitions of probability/possibility from their intuitive definitions. Especially, the last issue involves the question why the key axiom of "maxitivity" is adopted for possibility measure. By taking advantage of properties of the well-defined randomness and fuzziness, we derived the important conclusion that "max" is the only but un-strict disjunctive operator that is applicable across the fuzzy event space, and is an exact operator for fuzzy feature extraction that assures the max inference is an exact mechanism. It is fair to claim that the long-standing problem of lack of consensus to the foundation of possibility theory is well resolved, which would facilitate wider adoption of possibility theory in practice and promote cross prosperity of the two uncertainty theories of probability and possibility. | 翻訳日:2021-10-24 03:41:47 公開日:2021-10-12 |
# (参考訳) トーナメント表現の理論 A Theory of Tournament Representations ( http://arxiv.org/abs/2110.05188v2 ) ライセンス: CC BY 4.0 | Arun Rajkumar, Vishnu Veerathu and Abdul Bakey Mir | (参考訳) 現実世界のトーナメントはほとんど常に非定型である。
最近の研究によると、d$ 次元のノード表現を仮定したパラメトリックモデルは、非推移的なトーナメントを効果的にモデル化できる。
しかし、固定された$d$次元表現から生じるトーナメントのクラスの構造については何も分かっていない。
本研究では,パラメトリックトーナメント表現を理解するための新しい理論を開発する。
私たちの最初の貢献は、$d$次元表現から生じるトーナメントのクラスを構造的に特徴づけることです。
これらのトーナメントクラスは、必ずしもフリップクラスの統一でなければならない構成を禁止しており、これはすべてのトーナメントのセットを分割する新しい方法である。
さらに、関連する禁制のフリップクラスがわずか2ドルのトーナメントを含んでいることを示すことで、2ドルのトーナメントを完全に特徴づける。
具体的には、ランキング2ドルのトーナメントは、地域横断トーナメントと同等であることを示す。
この知見は,このトーナメントクラスにおける最小フィードバック節集合問題を,標準Quicksortプロシージャを用いて解くことができることを示す。
一般的な階数$d$トーナメントクラスの場合、サイズ$\mathcal{O}(\sqrt{d})$の2倍正規トーナメントに関連するフリップクラスは禁制の構成でなければならないことを示す。
二重質問に答えるためには、 \cite{forster} の有名な結果を用いて、$n$ ノード上のすべてのトーナメントを表すのに必要な最小次元に対して、$\mathcal{o}(\sqrt{n})$ の下限を示す。
任意のトーナメントにおいて、トーナメントに関連するフリップクラスのフィードバックアーク集合における一意ノードの数の最小サイズに依存する最小の表現次元上の新しい上限を示す。
我々の結果は、行列の符号ランクの上限にも光を当てている。 Real world tournaments are almost always intransitive. Recent works have noted that parametric models which assume $d$ dimensional node representations can effectively model intransitive tournaments. However, nothing is known about the structure of the class of tournaments that arise out of any fixed $d$ dimensional representations. In this work, we develop a novel theory for understanding parametric tournament representations. Our first contribution is to structurally characterize the class of tournaments that arise out of $d$ dimensional representations. We do this by showing that these tournament classes have forbidden configurations which must necessarily be union of flip classes, a novel way to partition the set of all tournaments. We further characterise rank $2$ tournaments completely by showing that the associated forbidden flip class contains just $2$ tournaments. Specifically, we show that the rank $2$ tournaments are equivalent to locally-transitive tournaments. This insight allows us to show that the minimum feedback arc set problem on this tournament class can be solved using the standard Quicksort procedure. For a general rank $d$ tournament class, we show that the flip class associated with a coned-doubly regular tournament of size $\mathcal{O}(\sqrt{d})$ must be a forbidden configuration. To answer a dual question, using a celebrated result of \cite{forster}, we show a lower bound of $\mathcal{O}(\sqrt{n})$ on the minimum dimension needed to represent all tournaments on $n$ nodes. For any given tournament, we show a novel upper bound on the smallest representation dimension that depends on the least size of the number of unique nodes in any feedback arc set of the flip class associated with a tournament. We show how our results also shed light on upper bound of sign-rank of matrices. | 翻訳日:2021-10-17 13:16:39 公開日:2021-10-12 |
# (参考訳) TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations ( http://arxiv.org/abs/2110.04507v2 ) ライセンス: CC BY 4.0 | Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, Jun Zhu | (参考訳) 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。
しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。
これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)などのフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。
本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。
そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。
われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。
さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。 Deep reinforcement learning (DRL) has achieved super-human performance on complex video games (e.g., StarCraft II and Dota II). However, current DRL systems still suffer from challenges of multi-agent coordination, sparse rewards, stochastic environments, etc. In seeking to address these challenges, we employ a football video game, e.g., Google Research Football (GRF), as our testbed and develop an end-to-end learning-based AI system (denoted as TiKick) to complete this challenging task. In this work, we first generated a large replay dataset from the self-playing of single-agent experts, which are obtained from league training. We then developed a distributed learning system and new offline algorithms to learn a powerful multi-agent AI from the fixed single-agent dataset. To the best of our knowledge, Tikick is the first learning-based AI system that can take over the multi-agent Google Research Football full game, while previous work could either control a single agent or experiment on toy academic scenarios. Extensive experiments further show that our pre-trained model can accelerate the training process of the modern multi-agent algorithm and our method achieves state-of-the-art performances on various academic scenarios. | 翻訳日:2021-10-17 01:35:47 公開日:2021-10-12 |
# (参考訳) 適応放射線治療のための cyclegan-based cbct enhancement の制約の検討 Exploring constraints on CycleGAN-based CBCT enhancement for adaptive radiotherapy ( http://arxiv.org/abs/2110.04659v2 ) ライセンス: CC BY 4.0 | Suraj Pai | (参考訳) サイクガンベースの合成画像生成を探求する研究は、最近医療コミュニティで加速され、ペアリングされていないデータセットを効果的に活用できるようになった。
しかし,これらの合成画像の臨床的受容は,厳密な評価プロトコルの対象となるため,大きな課題となる。
一般的に確立されたCycleGANの欠点として、生成された画像にアーティファクトを導入することは、医療画像では許せない。
この欠点を軽減するため,CycleGANの異なる制約を探索し,これらの制約の適応制御について検討する。
損失を保持する構造という形で、サイクルガンに付加的な制約を課すことの利点も検討されている。
arxiv:2012.12821に触発された、ソースとターゲットの間の周波数領域の内容を保存する一般化された周波数損失を調査し、マインドロスarxiv:1809.04536のような既存の損失と比較する。
ganslateフレームワークのcyclegan実装(https://github.com/ganslate-team/ganslate)は、この論文の実験に使われている。
提案手法から生成された合成画像は,ベースラインのCycleGANおよび他のアプローチよりも定量的に,質的に優れている。
さらに、観察可能なアーティファクトや画像品質の損失は見られず、これらの合成画像の受容に不可欠である。
このように生成された合成医用画像は、臨床ワークフローへの適用性を明確に強調するために、ドメイン固有の評価とセグメンテーションを下流タスクとして用いることにより評価される。 Research exploring CycleGAN-based synthetic image generation has recently accelerated in the medical community, as it is able to leverage unpaired datasets effectively. However, clinical acceptance of these synthetic images pose a significant challenge as they are subject to strict evaluation protocols. A commonly established drawback of the CycleGAN, the introduction of artifacts in generated images is unforgivable in the case of medical images. In an attempt to alleviate this drawback, we explore different constraints of the CycleGAN along with investigation of adaptive control of these constraints. The benefits of imposing additional constraints on the CycleGAN, in the form of structure retaining losses is also explored. A generalized frequency loss inspired by arxiv:2012.12821 that preserves content in the frequency domain between source and target is investigated and compared with existing losses such as the MIND loss arXiv:1809.04536. CycleGAN implementations from the ganslate framework (https://github.com/ganslate-team/ganslate) are used for experimentation in this thesis. Synthetic images generated from our methods are quantitatively and qualitatively investigated and outperform the baseline CycleGAN and other approaches. Furthermore, no observable artifacts or loss in image quality is found, which is critical for acceptance of these synthetic images. The synthetic medical images thus generated are also evaluated using domain-specific evaluation and using segmentation as a downstream task, in order to clearly highlight their applicability to clinical workflows. | 翻訳日:2021-10-16 20:33:32 公開日:2021-10-12 |
# (参考訳) 顔再現のための細粒度アイデンティティ保存ランドマーク合成 Fine-grained Identity Preserving Landmark Synthesis for Face Reenactment ( http://arxiv.org/abs/2110.04708v2 ) ライセンス: CC BY 4.0 | Haichao Zhang, Youcheng Ben, Weixi Zhang, Tao Chen, Gang Yu, Bin Fu | (参考訳) 最近の顔再現作業は粗い参照ランドマークによって制限されており、操作されたランドマークと実人から採取されたランドマークとの分配ギャップのため、アイデンティティ保存性能が不十分である。
この問題に対処するため, 粒度保存型ランドマーク誘導顔再現法を提案する。
提案手法には2つの新しい特徴がある。
まず、より詳細な細かなランドマークを生成できるように設計されたランドマーク合成ネットワーク。
ネットワークは操作されたランドマークを洗練し、良好なアイデンティティ保存能力を持つ滑らかで徐々に変化する顔ランドマークシーケンスを生成する。
第二に、鮮明でシャープな高品質な顔の合成を目的とした、合成顔識別保護損失、前景/裏面マスク損失、境界損失などの新規な損失関数を設計する。
自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。
得られた定性的および定量的な結果から,本手法は高精細な高精細な顔の再現が可能であることを示す。
コードは再生のためにリリースされます。 Recent face reenactment works are limited by the coarse reference landmarks, leading to unsatisfactory identity preserving performance due to the distribution gap between the manipulated landmarks and those sampled from a real person. To address this issue, we propose a fine-grained identity-preserving landmark-guided face reenactment approach. The proposed method has two novelties. First, a landmark synthesis network which is designed to generate fine-grained landmark faces with more details. The network refines the manipulated landmarks and generates a smooth and gradually changing face landmark sequence with good identity preserving ability. Second, several novel loss functions including synthesized face identity preserving loss, foreground/background mask loss as well as boundary loss are designed, which aims at synthesizing clear and sharp high-quality faces. Experiments are conducted on our self-collected BeautySelfie and the public VoxCeleb1 datasets. The presented qualitative and quantitative results show that our method can reenact fine-grained higher quality faces with good ID-preserved appearance details, fewer artifacts and clearer boundaries than state-of-the-art works. Code will be released for reproduction. | 翻訳日:2021-10-16 17:42:14 公開日:2021-10-12 |
# (参考訳) AIR-Net: 行列補完のための適応型および命令型正規化ニューラルネットワーク AIR-Net: Adaptive and Implicit Regularization Neural Network for Matrix Completion ( http://arxiv.org/abs/2110.07557v1 ) ライセンス: CC BY 4.0 | Zhemin Li, Hongxia Wang | (参考訳) 従来、行列完備化(MC)モデルは、部分的に観察された要素から行列を復元することを目的としていた。
正確なリカバリは、必ずしも未知の行列/信号の事前を適切に符号化する正規化を必要とする。
しかし、複雑な自然信号のプリエントを正確に符号化することは困難であり、それでも、モデルは特定の行列型以外ではうまく一般化できないかもしれない。
この作業は適応性と暗黙の低ランク正規化を組み合わせることで、現在の回復行列に従って前者を動的にキャプチャする。
さらに、適応正則化は暗黙の正則化にどのように影響するのか?
ニューラルネットワークを用いて適応的および暗黙的正規化を表現し,提案モデル \textit{air-net} を命名した。
理論的解析により、AIR-Netの適応部分が暗黙の正規化を促進することが示されている。
さらに、適応正則化器は最後に消滅し、飽和問題を回避することができる。
様々なデータに対する数値実験はAIR-Netの有効性を示し、特に欠落した要素の位置がランダムに選択されない場合である。
行列表現のためのニューラルネットワークを選択するための完全な柔軟性により、AIR-Netはより一般的な逆問題を解決するために拡張できる。 Conventionally, the matrix completion (MC) model aims to recover a matrix from partially observed elements. Accurate recovery necessarily requires a regularization encoding priors of the unknown matrix/signal properly. However, encoding the priors accurately for the complex natural signal is difficult, and even then, the model might not generalize well outside the particular matrix type. This work combines adaptive and implicit low-rank regularization that captures the prior dynamically according to the current recovered matrix. Furthermore, we aim to answer the question: how does adaptive regularization affect implicit regularization? We utilize neural networks to represent Adaptive and Implicit Regularization and named the proposed model \textit{AIR-Net}. Theoretical analyses show that the adaptive part of the AIR-Net enhances implicit regularization. In addition, the adaptive regularizer vanishes at the end, thus can avoid saturation issues. Numerical experiments for various data demonstrate the effectiveness of AIR-Net, especially when the locations of missing elements are not randomly chosen. With complete flexibility to select neural networks for matrix representation, AIR-Net can be extended to solve more general inverse problems. | 翻訳日:2021-10-16 13:14:07 公開日:2021-10-12 |
# (参考訳) FILM: モジュール型メソッドによる言語命令に従う FILM: Following Instructions in Language with Modular Methods ( http://arxiv.org/abs/2110.07342v1 ) ライセンス: CC BY 4.0 | So Yeon Min, Devendra Singh Chaplot, Pradeep Ravikumar, Yonatan Bisk, Ruslan Salakhutdinov | (参考訳) 最近のインボディード・インストラクションの手法は、一般的に模倣学習を用いてエンドツーエンドに訓練されている。
これは専門家の軌跡と低レベルの言語命令を使う必要がある。
このようなアプローチは、学習された隠れた状態が言語とビジョンからのセマンティクスを同時に統合し、状態追跡、空間記憶、探索、長期計画を実行すると仮定する。
これとは対照的に,(1)シーンのセマンティックマップを構築し,(2)自然言語の目的を達成するためにセマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
提案手法は,従来手法と同等な(8.17 %)ギャップを持つsota性能 (24.46%) を実現するとともに,熟練した軌跡と低レベルの命令の両方をエスキューすることで少ないデータを使用する。
しかし、低レベル言語を活用することで、パフォーマンスがさらに向上します(26.49%)。
本研究は, 空間記憶と意味探索によって, 専門家の軌跡や低レベルの指示がなくても, より強く, より汎用的な状態追跡とガイダンスの表現が可能であることを示唆する。 Recent methods for embodied instruction following are typically trained end-to-end using imitation learning. This requires the use of expert trajectories and low-level language instructions. Such approaches assume learned hidden states will simultaneously integrate semantics from the language and vision to perform state tracking, spatial memory, exploration, and long-term planning. In contrast, we propose a modular method with structured representations that (1) builds a semantic map of the scene, and (2) performs exploration with a semantic search policy, to achieve the natural language goal. Our modular method achieves SOTA performance (24.46%) with a substantial (8.17 % absolute) gap from previous work while using less data by eschewing both expert trajectories and low-level instructions. Leveraging low-level language, however, can further increase our performance (26.49%). Our findings suggest that an explicit spatial memory and a semantic search policy can provide a stronger and more general representation for state-tracking and guidance, even in the absence of expert trajectories or low-level instructions. | 翻訳日:2021-10-16 12:32:10 公開日:2021-10-12 |
# ループ内話題検出・追跡のための話題時間ヒートマップ Topic-time Heatmaps for Human-in-the-loop Topic Detection and Tracking ( http://arxiv.org/abs/2110.07337v1 ) ライセンス: Link先を確認 | Doug Beeferman, Hang Jiang | (参考訳) Topic Detection and Tracking (TDT) の重要な課題は、ニュースメディアの集合を、同じ現実世界のイベントに関連するストーリーの集合にまとめることである。
検索エンジンや発見ツールなどの実用的なアプリケーションにtdtモデルを適用するには、興味のあるコーパスの"イベント"の範囲をピンダウンするには、人間によるガイダンスが必要である。
本稿では,ユーザがtdtアルゴリズムを反復的に微調整し,そのアルゴリズムとユーザ自身がイベントの性質をよりよく理解できるように,ループ内ヒューマン・イン・ザ・ループ法を提案する。
コーパス全体の視覚的概要を生成し、ユーザーは概要から興味のある領域を選択し、選択した文書が同じイベントに属することを確認(または拒否)するために一連の質問をすることができる。
これらの質問に対する回答は、システムの基盤となるイベント類似性モデルのトレーニングデータを補完する。 The essential task of Topic Detection and Tracking (TDT) is to organize a collection of news media into clusters of stories that pertain to the same real-world event. To apply TDT models to practical applications such as search engines and discovery tools, human guidance is needed to pin down the scope of an "event" for the corpus of interest. In this work in progress, we explore a human-in-the-loop method that helps users iteratively fine-tune TDT algorithms so that both the algorithms and the users themselves better understand the nature of the events. We generate a visual overview of the entire corpus, allowing the user to select regions of interest from the overview, and then ask a series of questions to affirm (or reject) that the selected documents belong to the same event. The answers to these questions supplement the training data for the event similarity model that underlies the system. | 翻訳日:2021-10-15 15:11:41 公開日:2021-10-12 |
# 法的質問応答システムに関する調査研究 A Survey on Legal Question Answering Systems ( http://arxiv.org/abs/2110.07333v1 ) ライセンス: Link先を確認 | Jorge Martinez-Gil | (参考訳) 多くの法律専門家は、地域、地域、国家、国際法に関する情報の爆発により、彼らの行為はよりコストがかかり、時間もかかり、エラーを起こしてしまうと考えている。
この2つの主な理由は、ほとんどの法律は非構造化であり、法が公表される膨大な量とペースが日々の業務に情報過負荷を引き起こすためである。
法的領域の場合、研究コミュニティは、法的問題に対する自動応答を生成するシステムが日々の業務における多くの実践的影響に大きく影響することに同意している。
有用性の度合いは、半自動的なソリューションでさえ、直面するワークロードを減らすのに大いに役立つ。
これは主に、質問応答システムが大量の法的リソースを自動的に処理して、質問や疑念に数秒で答えることができるためであり、つまり、法的な分野の多くの専門家にとって、労力、お金、時間という形でリソースを節約することができる。
本研究では,この課題に対応するために現在存在する解決策を定量的かつ質的に調査する。 Many legal professionals think that the explosion of information about local, regional, national, and international legislation makes their practice more costly, time-consuming, and even error-prone. The two main reasons for this are that most legislation is usually unstructured, and the tremendous amount and pace with which laws are released causes information overload in their daily tasks. In the case of the legal domain, the research community agrees that a system allowing to generate automatic responses to legal questions could substantially impact many practical implications in daily activities. The degree of usefulness is such that even a semi-automatic solution could significantly help to reduce the workload to be faced. This is mainly because a Question Answering system could be able to automatically process a massive amount of legal resources to answer a question or doubt in seconds, which means that it could save resources in the form of effort, money, and time to many professionals in the legal sector. In this work, we quantitatively and qualitatively survey the solutions that currently exist to meet this challenge. | 翻訳日:2021-10-15 12:51:40 公開日:2021-10-12 |
# (参考訳) ファウショットNLIのアウト・オブ・ディストリビューション一般化における自然言語説明の効果の検討 Investigating the Effect of Natural Language Explanations on Out-of-Distribution Generalization in Few-shot NLI ( http://arxiv.org/abs/2110.06223v1 ) ライセンス: CC BY 4.0 | Yangqiaoyu Zhou, Chenhao Tan | (参考訳) SNLIのようなデータセットでは、ニューラルモデルは強力なパフォーマンスを示しているが、アウト・オブ・ディストリビューション(OOD)を一般化する能力は欠如している。
そこで本研究では,OODの一般化に対する自然言語説明の効果について,数発の学習設定を定式化して検討する。
テンプレートをhansデータセットで活用し,テンプレート毎にテンプレート化された自然言語説明を構築する。
生成された説明は、基礎的な説明と競合するbleuスコアを示すが、予測性能は向上しない。
さらに,生成した説明はラベルを示す情報やミスキー要素をしばしば暗示することを示した。 Although neural models have shown strong performance in datasets such as SNLI, they lack the ability to generalize out-of-distribution (OOD). In this work, we formulate a few-shot learning setup and examine the effects of natural language explanations on OOD generalization. We leverage the templates in the HANS dataset and construct templated natural language explanations for each template. Although generated explanations show competitive BLEU scores against groundtruth explanations, they fail to improve prediction performance. We further show that generated explanations often hallucinate information and miss key elements that indicate the label. | 翻訳日:2021-10-15 10:30:10 公開日:2021-10-12 |
# (参考訳) 幾何散乱による分子グラフ生成 Molecular Graph Generation via Geometric Scattering ( http://arxiv.org/abs/2110.06241v1 ) ライセンス: CC BY 4.0 | Dhananjay Bhaskar, Jackson D. Grady, Michael A. Perlmutter, Smita Krishnaswamy | (参考訳) グラフニューラルネットワーク(GNN)は、薬物の設計と発見の問題を解決するために広く使われている。
リガンド分子とターゲット分子は、それぞれ原子要素と結合に関する情報をエンコードするノードとエッジを持つグラフとして表される。
既存の深層学習モデルは物理化学的特性と結合親和性を予測するのに優れているが、最適化された性質を持つ新しい分子の生成は依然として困難である。
代わって、ほとんどのGNNはメッセージパッシングパラダイムの限界のため、グラフ全体の表現が不十分である。
さらに、強化学習やその他のシーケンシャルな処理を用いるステップバイステップグラフ生成フレームワークは遅くなり、分析の原理を満たすために、かなりの後処理を必要とする無効な分子の割合が高くなる。
これらの問題に対処するため,我々は分子グラフ生成のための表現優先アプローチを提案する。
グラフ構造情報を幾何学的散乱変換で捉えることにより、自己エンコーダの潜在表現を導出し、その表現を分子特性によっても構成するペナルティを適用する。
この高度に構造化された潜在空間は、GANを用いて直接分子グラフ生成に利用できることを示す。
我々のアーキテクチャは、薬物データセットの有意義な表現を学習し、目標指向の薬物合成のプラットフォームを提供する。 Graph neural networks (GNNs) have been used extensively for addressing problems in drug design and discovery. Both ligand and target molecules are represented as graphs with node and edge features encoding information about atomic elements and bonds respectively. Although existing deep learning models perform remarkably well at predicting physicochemical properties and binding affinities, the generation of new molecules with optimized properties remains challenging. Inherently, most GNNs perform poorly in whole-graph representation due to the limitations of the message-passing paradigm. Furthermore, step-by-step graph generation frameworks that use reinforcement learning or other sequential processing can be slow and result in a high proportion of invalid molecules with substantial post-processing needed in order to satisfy the principles of stoichiometry. To address these issues, we propose a representation-first approach to molecular graph generation. We guide the latent representation of an autoencoder by capturing graph structure information with the geometric scattering transform and apply penalties that structure the representation also by molecular properties. We show that this highly structured latent space can be directly used for molecular graph generation by the use of a GAN. We demonstrate that our architecture learns meaningful representations of drug datasets and provides a platform for goal-directed drug synthesis. | 翻訳日:2021-10-15 10:20:58 公開日:2021-10-12 |
# (参考訳) 条件付き定常時間系列からの因果発見 Causal discovery from conditionally stationary time-series ( http://arxiv.org/abs/2110.06257v1 ) ライセンス: CC BY 4.0 | Carles Balsells Rodas, Ruibo Tu, Hedvig Kjellstrom | (参考訳) 因果発見(Causal discovery)、すなわち、シーンやシステムの観察から根底にある因果関係を推定することは、人間の認知に固有のメカニズムであるが、自動化は非常に困難であることが示されている。
このタスクを目指す文学におけるアプローチの大部分は、定常時系列から完全に観測された変数やデータを持つ制約付きシナリオを検討する。
本研究では,より一般的なシナリオ,時間とともに非定常的な振る舞いを伴うシーンの因果発見を目指す。
私たちの目的のために、私たちはシーンを時間をかけて相互に相互作用する合成オブジェクトと見なしています。
非定常性(non-stationarity)は、基礎となる変数、すなわちさまざまな次元の状態、あるいはシーンの観察によって隠れている状態の定常性としてモデル化される。
条件付き定常時系列データにおける因果発見のための状態依存因果推論(sdci)と呼ばれる確率論的深層学習手法を提案する。
2つの異なる合成シナリオにおいて,本手法は隠れ状態であっても高い精度で因果関係を復元できることを示す。 Causal discovery, i.e., inferring underlying cause-effect relationships from observations of a scene or system, is an inherent mechanism in human cognition, but has been shown to be highly challenging to automate. The majority of approaches in the literature aiming for this task consider constrained scenarios with fully observed variables or data from stationary time-series. In this work we aim for causal discovery in a more general class of scenarios, scenes with non-stationary behavior over time. For our purposes we here regard a scene as a composition objects interacting with each other over time. Non-stationarity is modeled as stationarity conditioned on an underlying variable, a state, which can be of varying dimension, more or less hidden given observations of the scene, and also depend more or less directly on these observations. We propose a probabilistic deep learning approach called State-Dependent Causal Inference (SDCI) for causal discovery in such conditionally stationary time-series data. Results in two different synthetic scenarios show that this method is able to recover the underlying causal dependencies with high accuracy even in cases with hidden states. | 翻訳日:2021-10-15 10:08:34 公開日:2021-10-12 |
# (参考訳) 2次正規化MDPとロバストネスと正則化の等価性 Twice regularized MDPs and the equivalence between robustness and regularization ( http://arxiv.org/abs/2110.06267v1 ) ライセンス: CC BY 4.0 | Esther Derman, Matthieu Geist, Shie Mannor | (参考訳) ロバストマルコフ決定プロセス(MDPs)は、システムダイナミクスの変更や部分的に知られている処理の処理を目的としている。
それらを解決するために、一般的には堅牢な最適化手法を用いる。
しかし、これは計算の複雑さを著しく増加させ、学習と計画の両方におけるスケーラビリティを制限します。
一方、正規化されたmdpは、時間の複雑さを損なうことなく、ポリシー学習においてより安定性を示す。
しかし、一般にモデル力学における不確実性は含まない。
本研究では,正規化を用いた堅牢なMDPの学習を目指す。
まず、正規化されたMDPは、不確実な報酬を持つ堅牢なMDPの特殊な例であることを示す。
したがって、報酬を損なうMDPのポリシーイテレーションは、正規化されたMDPと同じ時間複雑性を持つ。
我々はさらにこの関係を不確定な遷移を伴うmdpにも拡張する: これは値関数にさらに依存する正規化項をもたらす。
最終的に正規化 MDP を2倍の正規化 MDP (R${}^2$ MDPs)、すなわち$\textit{both}$値を持つ MDP とポリシー正規化に一般化する。
対応するベルマン演算子は、収束性とロバスト性を保証するポリシー反復スキームの開発を可能にする。
また、堅牢なMDPの計画と学習を正規化されたMDPに還元する。 Robust Markov decision processes (MDPs) aim to handle changing or partially known system dynamics. To solve them, one typically resorts to robust optimization methods. However, this significantly increases computational complexity and limits scalability in both learning and planning. On the other hand, regularized MDPs show more stability in policy learning without impairing time complexity. Yet, they generally do not encompass uncertainty in the model dynamics. In this work, we aim to learn robust MDPs using regularization. We first show that regularized MDPs are a particular instance of robust MDPs with uncertain reward. We thus establish that policy iteration on reward-robust MDPs can have the same time complexity as on regularized MDPs. We further extend this relationship to MDPs with uncertain transitions: this leads to a regularization term with an additional dependence on the value function. We finally generalize regularized MDPs to twice regularized MDPs (R${}^2$ MDPs), i.e., MDPs with $\textit{both}$ value and policy regularization. The corresponding Bellman operators enable developing policy iteration schemes with convergence and robustness guarantees. It also reduces planning and learning in robust MDPs to regularized MDPs. | 翻訳日:2021-10-15 09:53:23 公開日:2021-10-12 |
# (参考訳) セグメントによる実画像インバージョン Real Image Inversion via Segments ( http://arxiv.org/abs/2110.06269v1 ) ライセンス: CC BY 4.0 | David Futschik, Michal Luk\'a\v{c}, Eli Shechtman, Daniel S\'ykora | (参考訳) 本稿では,GAN(Generative Adversarial Network)を用いて,実画像の編集をシンプルかつ効果的に行う手法を提案する。
従来の手法とは異なり、すべての編集タスクを、我々のアプローチでは画像全体のピクセル値に影響を与える操作として扱うことで、画像を小さなセグメントに分割する。
生成ネットワークの潜在符号に対応するセグメントについては、制約の少ないため、高い精度で推定することができる。
ユーザがコードを変更すると、画像内のコンテンツはローカルに操作され、残りの部分は影響を受けない。
この特性により、最終的な編集された画像は元の構造をよりよく保持し、自然の外観を維持するのに役立つ。 In this short report, we present a simple, yet effective approach to editing real images via generative adversarial networks (GAN). Unlike previous techniques, that treat all editing tasks as an operation that affects pixel values in the entire image in our approach we cut up the image into a set of smaller segments. For those segments corresponding latent codes of a generative network can be estimated with greater accuracy due to the lower number of constraints. When codes are altered by the user the content in the image is manipulated locally while the rest of it remains unaffected. Thanks to this property the final edited image better retains the original structures and thus helps to preserve natural look. | 翻訳日:2021-10-15 08:55:29 公開日:2021-10-12 |
# (参考訳) sm{\aa}prat:転送学習によるスウェーデン語対話の自然言語生成のためのダイアログ Sm{\aa}prat: DialoGPT for Natural Language Generation of Swedish Dialogue by Transfer Learning ( http://arxiv.org/abs/2110.06273v1 ) ライセンス: CC BY 4.0 | Tosin Adewumi, Nosheen Abid, Maryam Pahlavan, Rickard Br\"annvall, Sana Sabah Sabry, Foteini Liwicki and Marcus Liwicki | (参考訳) 説得力のある応答を生成するオープンドメインの会話システム(あるいはチャットボット)を構築することは、認識される課題である。
最近の自然言語対話生成のためのsota(state-of-the-art)トランスフォーマーモデルでは、英語で人間のような単ターン会話をシミュレートする素晴らしい性能を示している。
本研究は,実験的な研究により,そのようなモデルのスウェーデン語への転用学習の可能性について検討する。
英語の事前学習モデルであるDiloGPTは、公開されているソースから得られる3つの異なるスウェーデン語会話データセットのトレーニングによって適応される。
パープレキシティスコア(自動内在的言語モデルメトリクス)と人間評価によるサーベイは、微調整されたモデルのパフォーマンスを評価するために用いられ、トランスファー学習の能力は相当な成功で活用できることを示した。
人間の評価者は、最大(スウェーデン)データセットでトレーニングされたモデルに対して、チャットボットの反応の57%以上が人間に近いと判断されたシミュレーション対話のスコアを要求された。
私たちはHuggingFaceプラットフォーム上で、英語とスウェーデン語のチャットボットのデモとモデルチェックポイントを提供しています。 Building open-domain conversational systems (or chatbots) that produce convincing responses is a recognized challenge. Recent state-of-the-art (SoTA) transformer-based models for the generation of natural language dialogue have demonstrated impressive performance in simulating human-like, single-turn conversations in English. This work investigates, by an empirical study, the potential for transfer learning of such models to Swedish language. DialoGPT, an English language pre-trained model, is adapted by training on three different Swedish language conversational datasets obtained from publicly available sources. Perplexity score (an automated intrinsic language model metric) and surveys by human evaluation were used to assess the performances of the fine-tuned models, with results that indicate that the capacity for transfer learning can be exploited with considerable success. Human evaluators asked to score the simulated dialogue judged over 57% of the chatbot responses to be human-like for the model trained on the largest (Swedish) dataset. We provide the demos and model checkpoints of our English and Swedish chatbots on the HuggingFace platform for public use. | 翻訳日:2021-10-15 08:49:11 公開日:2021-10-12 |
# (参考訳) LiST:Lite Self-trainingは、学習者が効果的に学習できるツール LiST: Lite Self-training Makes Efficient Few-shot Learners ( http://arxiv.org/abs/2110.06274v1 ) ライセンス: CC BY 4.0 | Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao | (参考訳) 本稿では,事前学習による大規模言語モデル(plm)の高精度な微調整を行うための新しい手法リストを提案する。
LiSTは、2つの重要な技術を用いた迅速な微調整を採用する最近の手法よりも大幅に改善されている。
ひとつは、プロンプトチューニングに大量のラベルのないデータを活用するために、セルフトレーニングを使用することで、数ショット設定でモデルパフォーマンスを大幅に向上する。
自己学習とメタラーニングを併用して,ノイズの多い疑似プロンプトラベルの重み付けを行う。
しかし、モデルパラメータを繰り返し更新する必要があるため、従来のセルフトレーニングは高価である。
そこで我々は,plmエンコーダを凍結させながら,自己学習中に微調整されるタスク固有のアダプタパラメータを少数導入する,軽量化のための第2の手法を用いる。
これはまた、推論のバックボーンとして共通のplmエンコーダを共有することができるいくつかのタスク全体のモデルフットプリントを大幅に削減する。
上記の手法を組み合わせることで、LiSTはターゲットドメインでの数ショット学習のモデル性能を向上するだけでなく、モデルメモリフットプリントを削減できる。
本稿では,6つのNLUタスクについて総合的研究を行い,LiSTの有効性を検証した。
その結果,従来の微調整法より35%,プロンプトチューニングより6%改善し,各対象領域からラベル付きサンプルが30個未満で微調整した場合,トレーニング可能なパラメータの数を96%削減した。 We present a new method LiST for efficient fine-tuning of large pre-trained language models (PLMs) in few-shot learning settings. LiST significantly improves over recent methods that adopt prompt fine-tuning using two key techniques. The first one is the use of self-training to leverage large amounts of unlabeled data for prompt-tuning to significantly boost the model performance in few-shot settings. We use self-training in conjunction with meta-learning for re-weighting noisy pseudo-prompt labels. However, traditional self-training is expensive as it requires updating all the model parameters repetitively. Therefore, we use a second technique for light-weight fine-tuning where we introduce a small number of task-specific adapter parameters that are fine-tuned during self-training while keeping the PLM encoder frozen. This also significantly reduces the overall model footprint across several tasks that can now share a common PLM encoder as backbone for inference. Combining the above techniques, LiST not only improves the model performance for few-shot learning on target domains but also reduces the model memory footprint. We present a comprehensive study on six NLU tasks to validate the effectiveness of LiST. The results show that LiST improves by 35% over classic fine-tuning methods and 6% over prompt-tuning with 96% reduction in number of trainable parameters when fine-tuned with no more than 30 labeled examples from each target domain. | 翻訳日:2021-10-15 08:35:47 公開日:2021-10-12 |
# (参考訳) S3PRL-VC:自己教師型音声表現を用いたオープンソースの音声変換フレームワーク S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations ( http://arxiv.org/abs/2110.06280v1 ) ライセンス: CC BY 4.0 | Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-Yi Lee, Shinji Watanabe, Tomoki Toda | (参考訳) 本稿では,S3PRLツールキットに基づくオープンソースの音声変換(VC)フレームワークであるS3PRL-VCを紹介する。
認識合成VCの文脈では、自己教師付き音声表現(S3R)は最先端のVCシステムで採用される高価な教師付き表現に取って代わる可能性がある。
さらに、VCはS3R分析の優れた探索タスクであると主張する。
本稿では,VCC2020における2つのタスク,すなわち,A2OVC内/言語間ノンツーワンVCのベンチマークと,A2A設定の詳細な分析を行う。
また、異なるS3Rだけでなく、VCC2020の上位システムと教師付き表現との比較も提供する。
本稿では,S3RをベースとしたA2AVCにおいて,S3Rは類似性の観点からVCC2020トップシステムと同等であり,最先端のA2AVCを実現していることを示す。
私たちは、この広範な分析とツールキット自体が、S3RコミュニティだけでなくVCコミュニティにも貢献していると信じています。
コードベースは現在オープンソース化されている。 This paper introduces S3PRL-VC, an open-source voice conversion (VC) framework based on the S3PRL toolkit. In the context of recognition-synthesis VC, self-supervised speech representation (S3R) is valuable in its potential to replace the expensive supervised representation adopted by state-of-the-art VC systems. Moreover, we claim that VC is a good probing task for S3R analysis. In this work, we provide a series of in-depth analyses by benchmarking on the two tasks in VCC2020, namely intra-/cross-lingual any-to-one (A2O) VC, as well as an any-to-any (A2A) setting. We also provide comparisons between not only different S3Rs but also top systems in VCC2020 with supervised representations. Systematic objective and subjective evaluation were conducted, and we show that S3R is comparable with VCC2020 top systems in the A2O setting in terms of similarity, and achieves state-of-the-art in S3R-based A2A VC. We believe the extensive analysis, as well as the toolkit itself, contribute to not only the S3R community but also the VC community. The codebase is now open-sourced. | 翻訳日:2021-10-15 08:15:19 公開日:2021-10-12 |
# (参考訳) 辺縁距離確率分布を考慮した深部推薦システムのエキスパートによるリアルタイム学習 Real-Time Learning from An Expert in Deep Recommendation Systems with Marginal Distance Probability Distribution ( http://arxiv.org/abs/2110.06287v1 ) ライセンス: CC BY 4.0 | Arash Mahyari, Peter Pirolli, Jacqueline A. LeBlanc | (参考訳) 今日のデジタル世界ではレコメンデーションシステムが重要な役割を果たす。
彼らは、例えばspotifyのような音楽プラットフォームや、netflixのような映画ストリーミングサービスといった様々なアプリケーションでアプリケーションを見つけました。
身体運動レコメンデーションシステムにはほとんど研究努力が注がれていない。
sedentary lifestylesは、医療費だけでなく、いくつかの病気の主要な原因となっている。
本稿では,その履歴,プロファイル,および類似ユーザに基づいて,日々の運動活動を支援するレコメンデーションシステムの開発を行う。
開発したレコメンデーションシステムは,ユーザの注目と時間的注意機構を備えたディープリカレントニューラルネットワークを用いる。
さらに,運動レコメンデーションシステムの参加者からのクリックフィードバックを収集できない点において,運動レコメンデーションシステムはストリーミングレコメンデーションシステムと大きく異なる。
そこで本研究では,リアルタイムなループ内能動的学習手法を提案する。
アクティブ学習者は、各ユーザの時間ステップ毎の推薦者の不確かさを算出し、確信度が低い場合に専門家に推薦を求める。
本稿では,限界距離の確率分布関数を導出し,それを専門家にフィードバックを求めるタイミングを決定する。
mHealthデータセットを用いた実験の結果,リアルタイム能動学習システムとレコメンデーションシステムを組み合わせた結果,精度が向上した。 Recommendation systems play an important role in today's digital world. They have found applications in various applications such as music platforms, e.g., Spotify, and movie streaming services, e.g., Netflix. Less research effort has been devoted to physical exercise recommendation systems. Sedentary lifestyles have become the major driver of several diseases as well as healthcare costs. In this paper, we develop a recommendation system for daily exercise activities to users based on their history, profile and similar users. The developed recommendation system uses a deep recurrent neural network with user-profile attention and temporal attention mechanisms. Moreover, exercise recommendation systems are significantly different from streaming recommendation systems in that we are not able to collect click feedback from the participants in exercise recommendation systems. Thus, we propose a real-time, expert-in-the-loop active learning procedure. The active learners calculate the uncertainty of the recommender at each time step for each user and ask an expert for a recommendation when the certainty is low. In this paper, we derive the probability distribution function of marginal distance, and use it to determine when to ask experts for feedback. Our experimental results on a mHealth dataset show improved accuracy after incorporating the real-time active learner with the recommendation system. | 翻訳日:2021-10-15 08:04:49 公開日:2021-10-12 |
# (参考訳) 分散動的グラフにおけるインクリメンタルコミュニティ検出 Incremental Community Detection in Distributed Dynamic Graph ( http://arxiv.org/abs/2110.06311v1 ) ライセンス: CC BY 4.0 | Tariq Abughofa, Ahmed A.Harby, Haruna Isah, Farhana Zulkernine | (参考訳) コミュニティ検出は、広範囲のアプリケーションを持つグラフ分析において重要な研究トピックである。
様々な静的コミュニティ検出アルゴリズムと品質指標がここ数年の間に開発された。
しかし、ほとんどの現実世界のグラフは静的ではなく、時間とともに変化する。
ストリーミングデータの場合、関連するグラフ内のコミュニティを継続的に更新するか、あるいは新しいデータストリームがグラフに追加されるたびに更新する必要がある。
本稿では,ストリーミングデータ上で動的グラフを維持するためのインクリメンタルコミュニティ検出アルゴリズムを提案する。
この研究の貢献には
(a)分散重み付きコミュニティクラスタリング(DWCC)アルゴリズムの実装
(b)新規分散重み付きコミュニティクラスタリング(IDWCC)アルゴリズムの設計と実装、及び
c)idwccアルゴリズムの性能をdwccアルゴリズムと比較するための実験的検討。
ストリーミングデータの処理や大規模なインメモリ分散動的グラフ解析におけるフレームワークの機能と効率性を検証する。
その結果,IDWCCアルゴリズムはDWCCアルゴリズムよりも最大3倍高速に動作し,精度が向上した。 Community detection is an important research topic in graph analytics that has a wide range of applications. A variety of static community detection algorithms and quality metrics were developed in the past few years. However, most real-world graphs are not static and often change over time. In the case of streaming data, communities in the associated graph need to be updated either continuously or whenever new data streams are added to the graph, which poses a much greater challenge in devising good community detection algorithms for maintaining dynamic graphs over streaming data. In this paper, we propose an incremental community detection algorithm for maintaining a dynamic graph over streaming data. The contributions of this study include (a) the implementation of a Distributed Weighted Community Clustering (DWCC) algorithm, (b) the design and implementation of a novel Incremental Distributed Weighted Community Clustering (IDWCC) algorithm, and (c) an experimental study to compare the performance of our IDWCC algorithm with the DWCC algorithm. We validate the functionality and efficiency of our framework in processing streaming data and performing large in-memory distributed dynamic graph analytics. The results demonstrate that our IDWCC algorithm performs up to three times faster than the DWCC algorithm for a similar accuracy. | 翻訳日:2021-10-15 07:48:59 公開日:2021-10-12 |
# (参考訳) ABCと同じくらい簡単: 一様性テストのための適応的バインディング共入テスト As Easy as ABC: Adaptive Binning Coincidence Test for Uniformity Testing ( http://arxiv.org/abs/2110.06325v1 ) ライセンス: CC BY 4.0 | Sudeep Salgia, Qing Zhao, Lang Tong | (参考訳) 有界な支持を持つリプシッツ連続分布の一様性テストの問題を考える。
代替仮説は、一様分布から少なくとも$\varepsilon$が$\ell_1$の距離にあるリプシッツ連続分布の合成集合である。
代替仮説の下で未知の分布に適応するシーケンシャルテストを提案する。
アダプティブ・ビンニング・アソシエーション(abc)テストと呼ばれ、提案された戦略は2つの方法で適応する。
まず、一様分布への距離に基づいて、代替分布の集合を層に分割する。
その後、一様への距離を減らした層によって代替分布層を順次除去し、その後、早期に離脱することで、遠方代替の好ましい状況を利用する。
第二に、別の分布の層にまたがって、偶然の統計を計算するための離散化の解像度レベルに適応する。
層が均一から遠く離れるほど、この層を除去/排出するためには、離散化が必要とされる。
したがって、検出プロセスの早い段階でも、より低い解像度で、好適な代替分布を生かして、迅速に退避する。
abcテストは、独立した関心を持つ離散分布に対する新しい逐次一致テストに基づいている。
提案するテストのサンプルの複雑さと,より低いバウンダリを確立する。 We consider the problem of uniformity testing of Lipschitz continuous distributions with bounded support. The alternative hypothesis is a composite set of Lipschitz continuous distributions that are at least $\varepsilon$ away in $\ell_1$ distance from the uniform distribution. We propose a sequential test that adapts to the unknown distribution under the alternative hypothesis. Referred to as the Adaptive Binning Coincidence (ABC) test, the proposed strategy adapts in two ways. First, it partitions the set of alternative distributions into layers based on their distances to the uniform distribution. It then sequentially eliminates the alternative distributions layer by layer in decreasing distance to the uniform, and subsequently takes advantage of favorable situations of a distant alternative by exiting early. Second, it adapts, across layers of the alternative distributions, the resolution level of the discretization for computing the coincidence statistic. The farther away the layer is from the uniform, the coarser the discretization is needed for eliminating/exiting this layer. It thus exits both early in the detection process and quickly by using a lower resolution to take advantage of favorable alternative distributions. The ABC test builds on a novel sequential coincidence test for discrete distributions, which is of independent interest. We establish the sample complexity of the proposed tests as well as a lower bound. | 翻訳日:2021-10-15 07:30:05 公開日:2021-10-12 |
# (参考訳) ガウスの不確かさ下における運動計画のための実測・境界衝突確率 Exact and Bounded Collision Probability for Motion Planning under Gaussian Uncertainty ( http://arxiv.org/abs/2110.06348v1 ) ライセンス: CC BY 4.0 | Antony Thomas, Fulvio Mastrogiovanni, Marco Baglietto | (参考訳) 衝突のない軌道の計算は安全な航法において重要である。
本稿では,ガウス分散運動下での衝突確率を計算し,ロボットとの不確かさや楕円形近似した静的障害物形状を検知する手法を提案する。
衝突条件は楕円体間の距離として定式化され、従来の手法とは異なり正確な衝突確率を計算する方法を提供する。
さらに,オンライン計画においてより高速に計算できる強固な上界を提供する。
他の最先端の方法との比較も提供される。
提案手法は,様々な構成と障害物数でシミュレーションにより評価される。 Computing collision-free trajectories is of prime importance for safe navigation. We present an approach for computing the collision probability under Gaussian distributed motion and sensing uncertainty with the robot and static obstacle shapes approximated as ellipsoids. The collision condition is formulated as the distance between ellipsoids and unlike previous approaches we provide a method for computing the exact collision probability. Furthermore, we provide a tight upper bound that can be computed much faster during online planning. Comparison to other state-of-the-art methods is also provided. The proposed method is evaluated in simulation under varying configuration and number of obstacles. | 翻訳日:2021-10-15 07:28:51 公開日:2021-10-12 |
# (参考訳) 調査の仕方を教えてください - 自動読み取りパス生成による文献レビューのシンプル化 Tell Me How to Survey: Literature Review Made Simple with Automatic Reading Path Generation ( http://arxiv.org/abs/2110.06354v1 ) ライセンス: CC BY-SA 4.0 | Jiayuan Ding, Tong Xiang, Zijing Ou, Wangyang Zuo, Ruihui Zhao, Chenghua Lin, Yefeng Zheng, Bang Liu | (参考訳) 近年、特にコンピュータ科学の分野では、多くの新しい研究論文が毎日発行されている。
論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。
google scholarのような既存の学術検索エンジンは、各論文とクエリの関係を個別に計算して関連論文を返す。
しかしながら、そのようなシステムは通常、研究トピックの必須鎖を省略し、意味のある読解経路を形成することはできない。
本稿では,与えられたクエリに対して読み出す論文のパスを自動的に生成することを目的とした,読み出しパス生成(rpg)という新しいタスクを提案する。
調査ベンチマークとして,計算機科学の分野における大量の調査論文と引用関係からなるデータセットであるSurveyBankを提案する。
各調査論文にはタイトルから抽出されたキーフレーズと、その参考文献から推測される多レベル読み上げリストが含まれている。
さらに,論文間の関係を考慮した読み経路生成のためのグラフ最適化手法を提案する。
広範な評価は、我々のアプローチが他のベースラインよりも優れていることを示している。
RePaGer(Real-time Reading Path Generation System)も設計したモデルで実装されている。
我々の知る限りでは、我々はこの重要な研究課題を最初に標的にしている。
RePaGerシステムとSurveyBankのデータセットのソースコードはここにある。 Recent years have witnessed the dramatic growth of paper volumes with plenty of new research papers published every day, especially in the area of computer science. How to glean papers worth reading from the massive literature to do a quick survey or keep up with the latest advancement about a specific research topic has become a challenging task. Existing academic search engines such as Google Scholar return relevant papers by individually calculating the relevance between each paper and query. However, such systems usually omit the prerequisite chains of a research topic and cannot form a meaningful reading path. In this paper, we introduce a new task named Reading Path Generation (RPG) which aims at automatically producing a path of papers to read for a given query. To serve as a research benchmark, we further propose SurveyBank, a dataset consisting of large quantities of survey papers in the field of computer science as well as their citation relationships. Each survey paper contains key phrases extracted from its title and multi-level reading lists inferred from its references. Furthermore, we propose a graph-optimization-based approach for reading path generation which takes the relationship between papers into account. Extensive evaluations demonstrate that our approach outperforms other baselines. A Real-time Reading Path Generation System (RePaGer) has been also implemented with our designed model. To the best of our knowledge, we are the first to target this important research problem. Our source code of RePaGer system and SurveyBank dataset can be found on here. | 翻訳日:2021-10-15 07:07:42 公開日:2021-10-12 |
# (参考訳) 時相言語モデルのための時間マスキング Time Masking for Temporal Language Models ( http://arxiv.org/abs/2110.06366v1 ) ライセンス: CC BY 4.0 | Guy D. Rosin, Ido Guy, Kira Radinsky | (参考訳) 私たちの世界は常に進化し続けており、web上のコンテンツもそうである。
それゆえ、我々の言語は、しばしば世界を反映していると言われるが、自然界では動的である。
しかし、現在のコンテキスト言語モデルは静的であり、時間とともに変更に適応できない。
本研究では,テキストの追加文脈として時間を用いるテンポバーストという時間的文脈言語モデルを提案する。
本手法は,時相情報によるテキストの修正と時間マスキング(補足時間情報に対する特定のマスキング)に基づく。
我々は,意味変化の検出と文時間予測のタスクにアプローチを活用し,時間,サイズ,ジャンル,言語といったさまざまなデータセットを実験する。
広範な評価の結果,両タスクとも時間マスキングのメリットが示された。 Our world is constantly evolving, and so is the content on the web. Consequently, our languages, often said to mirror the world, are dynamic in nature. However, most current contextual language models are static and cannot adapt to changes over time. In this work, we propose a temporal contextual language model called TempoBERT, which uses time as an additional context of texts. Our technique is based on modifying texts with temporal information and performing time masking - specific masking for the supplementary time information. We leverage our approach for the tasks of semantic change detection and sentence time prediction, experimenting on diverse datasets in terms of time, size, genre, and language. Our extensive evaluation shows that both tasks benefit from exploiting time masking. | 翻訳日:2021-10-15 06:46:53 公開日:2021-10-12 |
# (参考訳) ニューラルネットワークを用いた超音波内視鏡分類のための音声支援画像ラベリング Voice-assisted Image Labelling for Endoscopic Ultrasound Classification using Neural Networks ( http://arxiv.org/abs/2110.06367v1 ) ライセンス: CC BY 4.0 | Ester Bonmati, Yipeng Hu, Alexander Grimwood, Gavin J. Johnson, George Goodchild, Margaret G. Keane, Kurinchi Gurusamy, Brian Davidson, Matthew J. Clarkson, Stephen P. Pereira, Dean C. Barratt | (参考訳) 超音波イメージングは、診断および治療中の患者解剖をリアルタイムで可視化するための一般的に用いられる技術である。
高いオペレータ依存性と低い再現性は、急な学習曲線で超音波画像と解釈に挑戦する。
深層学習による自動画像分類は, 初心者の超音波訓練支援や, 複雑な病理疾患を有する患者の超音波画像解釈支援などにより, 課題を克服する可能性が示唆されている。
しかし、正確な結果を得るためには、ディープラーニング手法を使用するには大量のデータが必要である。
大規模な超音波データセットのラベル付けは、インビボで利用可能な3d空間コンテキストのない2d画像にラベルを遡及的に割り当てることや、手術中にフレーム間を視覚的に追跡しながら推測されるため、難しい課題である。
そこで本研究では,臨床医が提示した生の言語コメントから内視鏡的超音波画像(eus)をラベル付けするマルチモーダル畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。
我々は,音声データと画像データに2つの枝からなるCNNを用いて,解剖学的ランドマークの音声名から画像ラベルを予測する。
ネットワークは専門家による音声によるコメントを用いて訓練された。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
音声によるコメントの追加は,超音波画像分類の性能を高め,深層学習に必要な大規模なEUSデータセットを手作業でラベル付けする作業の負担を軽減することができる。 Ultrasound imaging is a commonly used technology for visualising patient anatomy in real-time during diagnostic and therapeutic procedures. High operator dependency and low reproducibility make ultrasound imaging and interpretation challenging with a steep learning curve. Automatic image classification using deep learning has the potential to overcome some of these challenges by supporting ultrasound training in novices, as well as aiding ultrasound image interpretation in patient with complex pathology for more experienced practitioners. However, the use of deep learning methods requires a large amount of data in order to provide accurate results. Labelling large ultrasound datasets is a challenging task because labels are retrospectively assigned to 2D images without the 3D spatial context available in vivo or that would be inferred while visually tracking structures between frames during the procedure. In this work, we propose a multi-modal convolutional neural network (CNN) architecture that labels endoscopic ultrasound (EUS) images from raw verbal comments provided by a clinician during the procedure. We use a CNN composed of two branches, one for voice data and another for image data, which are joined to predict image labels from the spoken names of anatomical landmarks. The network was trained using recorded verbal comments from expert operators. Our results show a prediction accuracy of 76% at image level on a dataset with 5 different labels. We conclude that the addition of spoken commentaries can increase the performance of ultrasound image classification, and eliminate the burden of manually labelling large EUS datasets necessary for deep learning applications. | 翻訳日:2021-10-15 06:29:40 公開日:2021-10-12 |
# (参考訳) 1kオフザシェルフカードによるレベル4自動運転の実現 Enabling Level-4 Autonomous Driving on a Single $1k Off-the-Shelf Card ( http://arxiv.org/abs/2110.06373v1 ) ライセンス: CC BY 4.0 | Hsin-Hsuan Sung, Yuanchao Xu, Jiexiong Guan, Wei Niu, Shaoshan Liu, Bin Ren, Yanzhi Wang, Xipeng Shen | (参考訳) 自動運転は研究と産業の両方に大きな関心を持っている。
高いコストは、実際に自動運転の開発と導入を遅らせる主要な障害の1つです。
本論文は,1k未満でレベル4(すなわち完全自律運転)のソフトウェアを1枚のオフ・ザ・シェルフ・カード(jetson agx xavier)上で1k未満で実行することが可能であることを示す。
この成功は、一連の措置と革新を通じて、既存のプラクティスによって共有される重要な問題の解決から来ています。
この研究は、レベル4自動運転に必要なコンピューティングリソースの一般的な認識を覆し、業界がコストを下げる有望な経路を指摘し、アーキテクチャ、ソフトウェア設計、自動運転の最適化を再考する多くの研究機会を示唆している。 Autonomous driving is of great interest in both research and industry. The high cost has been one of the major roadblocks that slow down the development and adoption of autonomous driving in practice. This paper, for the first-time, shows that it is possible to run level-4 (i.e., fully autonomous driving) software on a single off-the-shelf card (Jetson AGX Xavier) for less than $1k, an order of magnitude less than the state-of-the-art systems, while meeting all the requirements of latency. The success comes from the resolution of some important issues shared by existing practices through a series of measures and innovations. The study overturns the common perceptions of the computing resources required by level-4 autonomous driving, points out a promising path for the industry to lower the cost, and suggests a number of research opportunities for rethinking the architecture, software design, and optimizations of autonomous driving. | 翻訳日:2021-10-15 06:14:27 公開日:2021-10-12 |
# (参考訳) 複合型・非結合型動的モード分解と疫学的・付加的製造問題への応用 Coupled and Uncoupled Dynamic Mode Decomposition in Multi-Compartmental Systems with Applications to Epidemiological and Additive Manufacturing Problems ( http://arxiv.org/abs/2110.06375v1 ) ライセンス: CC0 1.0 | Alex Viguerie, Gabriel F. Barros, Mal\'u Grave, Alessandro Reali, Alvaro L.G.A. Coutinho | (参考訳) 動的モード分解(Dynamic Mode Decomposition、DMD)は、方程式のない構造、データのコヒーレントな時空間構造を容易に識別する能力、特定の問題に対して合理的に正確な予測を提供することにより、近年注目されている教師なし機械学習手法である。
これらの成功にもかかわらず、高非線形過渡ダイナミクスを特徴とする特定の問題へのMDDの適用は依然として困難である。
そのような場合、dmdは許容できる予測を提供しないだけでなく、実際に訓練されたデータの再作成に失敗し、診断目的への応用を制限する可能性がある。
生物学や物理科学における多くの問題に対して、系の構造は、系内の質量の移動が状態内を移動する区画的枠組みに従う。
このような場合、システム内の1つの量にMDDを適用することでシステムの振る舞いを正確に再現することはできないが、システムダイナミクスの適切な知識は、単一のコンパートメントであっても、他のコンパートメントの挙動を考慮に入れなければならない。
本研究では, コンパートメント構造を持つ完全結合型pdeシステム上でdmdを行う場合, dmdがコンパートメント単位で振る舞う場合においても, 有用な予測挙動を回復できることを理論的および数値的に示す。
また,保存量として重要な物理量が結合DMD外挿で維持されていることも確認した。
数学的および数値解析の結果、dmdはこの共通問題に適用すると強力なツールになる可能性が示唆された。
特に,Covid-19の連続遅延SIRDモデルへの興味深い数値的応用と,非線型温度場を考慮した添加性製造の問題,粉末,液体,固体状態からの物質相の変化について述べる。 Dynamic Mode Decomposition (DMD) is an unsupervised machine learning method that has attracted considerable attention in recent years owing to its equation-free structure, ability to easily identify coherent spatio-temporal structures in data, and effectiveness in providing reasonably accurate predictions for certain problems. Despite these successes, the application of DMD to certain problems featuring highly nonlinear transient dynamics remains challenging. In such cases, DMD may not only fail to provide acceptable predictions but may indeed fail to recreate the data in which it was trained, restricting its application to diagnostic purposes. For many problems in the biological and physical sciences, the structure of the system obeys a compartmental framework, in which the transfer of mass within the system moves within states. In these cases, the behavior of the system may not be accurately recreated by applying DMD to a single quantity within the system, as proper knowledge of the system dynamics, even for a single compartment, requires that the behavior of other compartments is taken into account in the DMD process. In this work, we demonstrate, theoretically and numerically, that, when performing DMD on a fully coupled PDE system with compartmental structure, one may recover useful predictive behavior, even when DMD performs poorly when acting compartment-wise. We also establish that important physical quantities, as mass conservation, are maintained in the coupled-DMD extrapolation. The mathematical and numerical analysis suggests that DMD may be a powerful tool when applied to this common class of problems. In particular, we show interesting numerical applications to a continuous delayed-SIRD model for Covid-19, and to a problem from additive manufacturing considering a nonlinear temperature field and the resulting change of material phase from powder, liquid, and solid states. | 翻訳日:2021-10-15 05:50:34 公開日:2021-10-12 |
# (参考訳) エネルギーに基づく決定論的不確かさに対するメタラーニング低ランク共分散因子 Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic Uncertainty ( http://arxiv.org/abs/2110.06381v1 ) ライセンス: CC BY 4.0 | Jeffrey Ryan Willette, Hae Beom Lee, Juho Lee, Sung Ju Hwang | (参考訳) 最近の多くの研究は、ニューラルネットワーク層のバイリプシッツ正規化を利用して、各層の特徴空間におけるデータインスタンス間の相対距離を保存する。
この距離感度は、不確実性キャリブレーションやout-of-distribution (ood) 検出などのタスクにおけるデータ支援に役立つ。
従来の研究では, 距離感度モデルを用いて抽出した特徴を用いて, 決定論的不確実性推定やOOD検出に使用される特徴共分散行列を構築した。
しかしながら、タスクが分散している場合、これらのメソッドはタスク間で共有できる全てのメタ情報を活用できないため、サブ最適である共分散をもたらす。
注意セットエンコーダを用いて, 対角的あるいは対角的および低ランクな因子をメタ学習し, タスク固有共分散行列を効率的に構築することを提案する。
さらに,oodデータの分離が容易な最終予測分布を実現するために,スケールド・エネルギを用いた推定手法を提案する。 Numerous recent works utilize bi-Lipschitz regularization of neural network layers to preserve relative distances between data instances in the feature spaces of each layer. This distance sensitivity with respect to the data aids in tasks such as uncertainty calibration and out-of-distribution (OOD) detection. In previous works, features extracted with a distance sensitive model are used to construct feature covariance matrices which are used in deterministic uncertainty estimation or OOD detection. However, in cases where there is a distribution over tasks, these methods result in covariances which are sub-optimal, as they may not leverage all of the meta information which can be shared among tasks. With the use of an attentive set encoder, we propose to meta learn either diagonal or diagonal plus low-rank factors to efficiently construct task specific covariance matrices. Additionally, we propose an inference procedure which utilizes scaled energy to achieve a final predictive distribution which can better separate OOD data, and is well calibrated under a distributional dataset shift. | 翻訳日:2021-10-15 05:30:06 公開日:2021-10-12 |
# (参考訳) 時系列データによるリアルタイムドリフト検出 Real-time Drift Detection on Time-series Data ( http://arxiv.org/abs/2110.06383v1 ) ライセンス: CC BY 4.0 | Nandini Ramanan, Rasool Tahmasbi, Marjorie Sayer, Deokwoo Jung, Shalini Hemachandran, Claudionor Nunes Coelho Jr | (参考訳) ファイヤーウォールログ分析のような、異常な振る舞いを積極的に検出する時系列データを含む実用的な機械学習アプリケーションは、ストリーミングデータのリアルタイム分析に関係している。
したがって、このようなデータの統計的特性が時間とともに頻繁に変化する可能性があるため、MLモデルを更新する必要がある。
文献で検討された1つの代替案は、モデルの精度が低下するたびに更新されたデータでモデルを再訓練することである。
しかし、これらの手法は、ほぼリアルタイムに真実の真理が得られ、実現されることはほとんどない。
さらに、季節データを用いたアプリケーションでは、季節変動によって時間概念ドリフトが組み合わされる。
本研究では,非教師付き時間ドリフト検出器 (unsupervised Temporal Drift Detector, UTDD) と呼ばれる手法を提案する。 Practical machine learning applications involving time series data, such as firewall log analysis to proactively detect anomalous behavior, are concerned with real time analysis of streaming data. Consequently, we need to update the ML models as the statistical characteristics of such data may shift frequently with time. One alternative explored in the literature is to retrain models with updated data whenever the models accuracy is observed to degrade. However, these methods rely on near real time availability of ground truth, which is rarely fulfilled. Further, in applications with seasonal data, temporal concept drift is confounded by seasonal variation. In this work, we propose an approach called Unsupervised Temporal Drift Detector or UTDD to flexibly account for seasonal variation, efficiently detect temporal concept drift in time series data in the absence of ground truth, and subsequently adapt our ML models to concept drift for better generalization. | 翻訳日:2021-10-15 05:08:50 公開日:2021-10-12 |
# (参考訳) AutoNLU: NLUモデルエラーの検出、ルートキャスティング、修正 AutoNLU: Detecting, root-causing, and fixing NLU model errors ( http://arxiv.org/abs/2110.06384v1 ) ライセンス: CC BY 4.0 | Pooja Sethi, Denis Savenkov, Forough Arabshahi, Jack Goetz, Micaela Tolliver, Nicolas Scheffer, Ilknur Kabul, Yue Liu, Ahmed Aly | (参考訳) 自然言語理解(NLU)モデルの品質、より具体的には、本番環境でのタスク指向のセマンティックパーシングモデルの改善は、面倒な作業です。
本研究では,NLUの品質改善プロセスのスケールアップを目的としたAutoNLUシステムを提案する。
検出、帰属、モデルエラーの修正、すなわちバグの3つの重要なステップに自動化を追加する。
ランダムサンプリングよりも4倍のタスクが検出された結果,非校正モデル上での単純な能動的学習サンプリング手法でさえ,驚くほど効果的であることが判明した。
AutoNLUツールにより、言語学者は、以前の手作業のプロセスよりも10倍のセマンティック解析バグを修正でき、すべての特定バグの65%を自動修正できる。 Improving the quality of Natural Language Understanding (NLU) models, and more specifically, task-oriented semantic parsing models, in production is a cumbersome task. In this work, we present a system called AutoNLU, which we designed to scale the NLU quality improvement process. It adds automation to three key steps: detection, attribution, and correction of model errors, i.e., bugs. We detected four times more failed tasks than with random sampling, finding that even a simple active learning sampling method on an uncalibrated model is surprisingly effective for this purpose. The AutoNLU tool empowered linguists to fix ten times more semantic parsing bugs than with prior manual processes, auto-correcting 65% of all identified bugs. | 翻訳日:2021-10-15 05:03:21 公開日:2021-10-12 |
# (参考訳) ボトムアップ合成計画と合成可能な分子設計のための償却木生成 Amortized Tree Generation for Bottom-up Synthesis Planning and Synthesizable Molecular Design ( http://arxiv.org/abs/2110.06389v1 ) ライセンス: CC BY 4.0 | Wenhao Gao, Roc\'io Mercado and Connor W. Coley | (参考訳) 分子設計と合成計画は、条件付き合成経路生成の単一の共有タスクとして定式化する分子発見のプロセスにおいて2つの重要なステップである。
ターゲット分子の埋め込みを条件としたマルコフ決定過程として合成経路を生成するための償却アプローチを報告する。
提案手法により,最適化された条件付き符号から復号化することで,ボトムアップ方式で合成計画を実行し,合成可能な分子を設計することができる。
この手法はニューラルネットワークを利用して合成木を確率論的にモデル化し、反応テンプレートの離散的なアクション空間に符号化された反応規則に従って1回に1回反応する。
私たちはこれらのネットワークを、購入可能な化合物のプールと専門家によるテンプレートのリストから生成された数十万の人工経路でトレーニングします。
私たちは手法を検証します
(a)条件付き生成による分子の回復
b) 合成可能な構造的類似物の同定及び
c) 薬物発見に関連するオラクルの機能を与えられた分子構造の最適化。 Molecular design and synthesis planning are two critical steps in the process of molecular discovery that we propose to formulate as a single shared task of conditional synthetic pathway generation. We report an amortized approach to generate synthetic pathways as a Markov decision process conditioned on a target molecular embedding. This approach allows us to conduct synthesis planning in a bottom-up manner and design synthesizable molecules by decoding from optimized conditional codes, demonstrating the potential to solve both problems of design and synthesis simultaneously. The approach leverages neural networks to probabilistically model the synthetic trees, one reaction step at a time, according to reactivity rules encoded in a discrete action space of reaction templates. We train these networks on hundreds of thousands of artificial pathways generated from a pool of purchasable compounds and a list of expert-curated templates. We validate our method with (a) the recovery of molecules using conditional generation, (b) the identification of synthesizable structural analogs, and (c) the optimization of molecular structures given oracle functions relevant to drug discovery. | 翻訳日:2021-10-15 04:44:36 公開日:2021-10-12 |
# (参考訳) GridLearn:グリッド対応建築エネルギー管理のためのマルチエージェント強化学習 GridLearn: Multiagent Reinforcement Learning for Grid-Aware Building Energy Management ( http://arxiv.org/abs/2110.06396v1 ) ライセンス: CC BY 4.0 | Aisling Pigott, Constance Crozier, Kyri Baker, Zoltan Nagy | (参考訳) 分散ネットワークにおける分散生成の増大は、ネットワーク全体にわたる電圧規制の課題と機会を提供する。
スマートインバータやその他のスマートビルディングエネルギ管理システムのインテリジェントな制御は、これらの問題を緩和するために活用できる。
gridlearnは、エネルギーモデルの構築とグリッドレベルの目標を達成するために電力フローモデルの両方を組み込んだマルチエージェント強化学習プラットフォームである。
本研究では,マルチエージェント強化学習が,グリッドレベルの目標を追求しながら,建築所有者のプライバシーと快適性を維持する方法を示す。
ビルレベルの目標のためにRLを検討するCityLearnフレームワークに基づいて、この作業は、グリッドレベルの目標が考慮されるネットワーク設定までフレームワークを拡張します。
本研究では,制御可能なビル負荷,エネルギー貯蔵,スマートインバータを用いたIEEE-33バスネットワークの電圧制御について考察する。
その結果、RLエージェントは名目上、過電圧のインスタンスを34%減らし、過電圧のインスタンスを34%減らした。 Increasing amounts of distributed generation in distribution networks can provide both challenges and opportunities for voltage regulation across the network. Intelligent control of smart inverters and other smart building energy management systems can be leveraged to alleviate these issues. GridLearn is a multiagent reinforcement learning platform that incorporates both building energy models and power flow models to achieve grid level goals, by controlling behind-the-meter resources. This study demonstrates how multi-agent reinforcement learning can preserve building owner privacy and comfort while pursuing grid-level objectives. Building upon the CityLearn framework which considers RL for building-level goals, this work expands the framework to a network setting where grid-level goals are additionally considered. As a case study, we consider voltage regulation on the IEEE-33 bus network using controllable building loads, energy storage, and smart inverters. The results show that the RL agents nominally reduce instances of undervoltages and reduce instances of overvoltages by 34%. | 翻訳日:2021-10-15 04:24:13 公開日:2021-10-12 |
# (参考訳) COVID-19アナリティクスのオントロジーとツールサポートの概要 An Overview of Ontologies and Tool Support for COVID-19 Analytics ( http://arxiv.org/abs/2110.06397v1 ) ライセンス: CC BY 4.0 | Aakash Ahmad, Madhushi Bandara, Mahdi Fahmideh, Henderik A. Proper, Giancarlo Guizzardi, Jeffrey Soar | (参考訳) 新型コロナウイルス感染症(COVID-19)のSARS-CoV-2流行は、既存の医療、経済、社会緊急バックエンドシステムにデータ分析機能を持たせることを要求する。
これらのシステムでデータ分析の利点を利用する上で障害となるのは、統一されたフレームワークや参照モデルがないことだ。
オントロジーは、症状、感染率、接触追跡、薬物モデリングといった新型コロナウイルスの概念を形式的に表現することで、このギャップを埋める有望な解決策として強調されている。
オントロジーベースのソリューションにより、パンデミックデータの理解を深める多様なデータソースの統合、パンデミックホットスポットを特定するスマートロックダウンの管理、知識駆動推論、推論、周辺問題に取り組むための推奨などが可能になる。 The outbreak of the SARS-CoV-2 pandemic of the new COVID-19 disease (COVID-19 for short) demands empowering existing medical, economic, and social emergency backend systems with data analytics capabilities. An impediment in taking advantages of data analytics in these systems is the lack of a unified framework or reference model. Ontologies are highlighted as a promising solution to bridge this gap by providing a formal representation of COVID-19 concepts such as symptoms, infections rate, contact tracing, and drug modelling. Ontology-based solutions enable the integration of diverse data sources that leads to a better understanding of pandemic data, management of smart lockdowns by identifying pandemic hotspots, and knowledge-driven inference, reasoning, and recommendations to tackle surrounding issues. | 翻訳日:2021-10-15 04:10:59 公開日:2021-10-12 |
# (参考訳) CovXR: 機械学習による胸部X線におけるCOVID-19肺炎の自動検出 CovXR: Automated Detection of COVID-19 Pneumonia in Chest X-Rays through Machine Learning ( http://arxiv.org/abs/2110.06398v1 ) ライセンス: CC BY 4.0 | Vishal Shenoy, Sachin B. Malik | (参考訳) コロナウイルス病2019(COVID-19)は、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)による伝染性疾患である。
新型コロナウイルスの標準的な診断方法として、リアルタイムポリメラーゼ連鎖反応(PCR)を用いてSARS-CoV-2核酸の鼻咽頭スワブを検査し、診断に数日を要する。
もう一つの検査形態は迅速抗原検査であり、PCRに比べて感度が低いが、診断時間は通常15分から30分である。
新型コロナウイルス(COVID-19)陽性の患者は87%の患者でびまん性肺胞損傷を示した。
機械学習は放射線学における画像分類問題に利点があることが証明されている。
本研究では,covxrを胸部x線(cxr)におけるcovxr肺炎の検出を目的とした機械学習モデルとして紹介する。
CovXRは4,300個の胸部X線で訓練された畳み込みニューラルネットワーク(CNN)である。
モデルの性能は、精度、F1スコア、感度、特異性によって測定される。
このモデルは95.5%の精度でF1スコアは0.954である。
感度は93.5%、特異性は97.5%である。
95%以上の精度と0.95以上のF1スコアを持つCovXRは、CXR上でのCOVID-19肺炎の予測に非常に正確である。
このモデルは以前の作業よりも精度が高く、独自のアプローチで新型コロナウイルスの肺炎を識別する。
CovXRはPCR陽性と診断された患者のCXR上での新型コロナウイルスの同定に極めて正確であり、PCR検査よりはるかに速い結果をもたらす。 Coronavirus disease 2019 (COVID-19) is the highly contagious illness caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). The standard diagnostic testing procedure for COVID-19 is testing a nasopharyngeal swab for SARS-CoV-2 nucleic acid using a real-time polymerase chain reaction (PCR), which can take multiple days to provide a diagnosis. Another widespread form of testing is rapid antigen testing, which has a low sensitivity compared to PCR, but is favored for its quick diagnosis time of usually 15-30 minutes. Patients who test positive for COVID-19 demonstrate diffuse alveolar damage in 87% of cases. Machine learning has proven to have advantages in image classification problems with radiology. In this work, we introduce CovXR as a machine learning model designed to detect COVID-19 pneumonia in chest X-rays (CXR). CovXR is a convolutional neural network (CNN) trained on over 4,300 chest X-rays. The performance of the model is measured through accuracy, F1 score, sensitivity, and specificity. The model achieves an accuracy of 95.5% and an F1 score of 0.954. The sensitivity is 93.5% and specificity is 97.5%. With accuracy above 95% and F1 score above 0.95, CovXR is highly accurate in predicting COVID-19 pneumonia on CXRs. The model achieves better accuracy than prior work and uses a unique approach to identify COVID-19 pneumonia. CovXR is highly accurate in identifying COVID-19 on CXRs of patients with a PCR confirmed positive diagnosis and provides much faster results than PCR tests. | 翻訳日:2021-10-15 03:57:17 公開日:2021-10-12 |
# (参考訳) 神経インタプリタによる動的推論 Dynamic Inference with Neural Interpreters ( http://arxiv.org/abs/2110.06399v1 ) ライセンス: CC BY 4.0 | Nasim Rahaman, Muhammad Waleed Gondal, Shruti Joshi, Peter Gehler, Yoshua Bengio, Francesco Locatello, Bernhard Sch\"olkopf | (参考訳) 現代のニューラルネットワークアーキテクチャは、トレーニング分布内でうまく一般化するために大量のデータを活用することができる。
しかし、それらは、知識の構成的推論と再利用を必要とすると仮定される、見当たらないが関連する分布から引き出されたデータに対する体系的な一般化にはほど遠い。
本稿では,モジュールのシステムとして自己アテンションネットワーク内の推論を分解するアーキテクチャであるNeural Interpretersを紹介し,これを「emph{functions}」と呼ぶ。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
提案アーキテクチャは、幅と深さに沿って柔軟に計算を構成でき、訓練後の容量拡張に適している。
ニューラルインタプリタの汎用性を示すために,画像分類とラヴェンプログレッシブ行列の視覚的抽象推論という2つの異なる設定で評価する。
前者では、ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
後者では、神経インタプリタが体系的一般化の観点から最先端技術に関して競争力があることが分かる。 Modern neural network architectures can leverage large amounts of data to generalize well within the training distribution. However, they are less capable of systematic generalization to data drawn from unseen but related distributions, a feat that is hypothesized to require compositional reasoning and reuse of knowledge. In this work, we present Neural Interpreters, an architecture that factorizes inference in a self-attention network as a system of modules, which we call \emph{functions}. Inputs to the model are routed through a sequence of functions in a way that is end-to-end learned. The proposed architecture can flexibly compose computation along width and depth, and lends itself well to capacity extension after training. To demonstrate the versatility of Neural Interpreters, we evaluate it in two distinct settings: image classification and visual abstract reasoning on Raven Progressive Matrices. In the former, we show that Neural Interpreters perform on par with the vision transformer using fewer parameters, while being transferrable to a new task in a sample efficient manner. In the latter, we find that Neural Interpreters are competitive with respect to the state-of-the-art in terms of systematic generalization | 翻訳日:2021-10-15 03:48:43 公開日:2021-10-12 |
# ワッサーシュタイン距離を用いたタンジェント空間と次元推定 Tangent Space and Dimension Estimation with the Wasserstein Distance ( http://arxiv.org/abs/2110.06357v1 ) ライセンス: Link先を確認 | Uzu Lim, Vidit Nanda, Harald Oberhauser | (参考訳) 局所主成分分析により(滑らかでコンパクトな)ユークリッド部分多様体の接空間と内在次元を推定するのに必要なサンプル点の数に明示的な境界を与える。
本手法は局所的に共分散行列を推定し, 接空間と多様体の固有次元の両方を同時に推定する。
鍵となる議論は、行列濃度の不等式、多様体を平坦化するためのワッサーシュタイン境界、およびワッサーシュタイン距離に関する共分散行列に対するリプシッツ関係を含む。 We provide explicit bounds on the number of sample points required to estimate tangent spaces and intrinsic dimensions of (smooth, compact) Euclidean submanifolds via local principal component analysis. Our approach directly estimates covariance matrices locally, which simultaneously allows estimating both the tangent spaces and the intrinsic dimension of a manifold. The key arguments involve a matrix concentration inequality, a Wasserstein bound for flattening a manifold, and a Lipschitz relation for the covariance matrix with respect to the Wasserstein distance. | 翻訳日:2021-10-14 15:48:33 公開日:2021-10-12 |
# 辞書学習とグラフに基づく補間による水流ネットワークにおけるデータ駆動型漏洩位置推定 Data-driven Leak Localization in Water Distribution Networks via Dictionary Learning and Graph-based Interpolation ( http://arxiv.org/abs/2110.06372v1 ) ライセンス: Link先を確認 | Paul Irofti and Luis Romero-Ben and Florin Stoican and Vicen\c{c} Puig | (参考訳) 本稿では,グラフに基づく補間と辞書分類の2つの補完的アプローチを組み合わせた水流ネットワーク(wdns)のためのデータ駆動型漏洩局所化手法を提案する。
前者は、あるノードとネットワークグラフにおける実測値から完全なWDN油圧状態(すなわち油圧ヘッド)を推定する。
次に、これらの実測値は、価値ある推定状態のサブセットとともに、辞書学習スキームの供給と訓練に使用される。
したがって、これらの2つの手法のメッシュ化は、その性能がどちらのアプローチよりも優れていることを示し、古典的な問題(例えば、次元性、補間誤差など)に対するレジリエンスを高めるための異なるメカニズムを導出した。
この手法は、BattLeDIM2020で提案されたL-TOWNベンチマークを用いて検証されている。 In this paper, we propose a data-driven leak localization method for water distribution networks (WDNs) which combines two complementary approaches: graph-based interpolation and dictionary classification. The former estimates the complete WDN hydraulic state (i.e., hydraulic heads) from real measurements at certain nodes and the network graph. Then, these actual measurements, together with a subset of valuable estimated states, are used to feed and train the dictionary learning scheme. Thus, the meshing of these two methods is explored, showing that its performance is superior to either approach alone, even deriving different mechanisms to increase its resilience to classical problems (e.g., dimensionality, interpolation errors, etc.). The approach is validated using the L-TOWN benchmark proposed at BattLeDIM2020. | 翻訳日:2021-10-14 15:48:23 公開日:2021-10-12 |
# グラフネットワークを用いた量子ハミルトンの基底状態の学習 Learning ground states of quantum Hamiltonians with graph networks ( http://arxiv.org/abs/2110.06390v1 ) ライセンス: Link先を確認 | Dmitrii Kochkov and Tobias Pfaff and Alvaro Sanchez-Gonzalez and Peter Battaglia and Bryan K. Clark | (参考訳) 多体シュロディンガー方程式の最低エネルギー固有状態を解くことは、様々な量子現象の理解を妨げる基礎的な問題である。
この難しさは、支配方程式を指数関数的に大きく構成された行列の固有値問題としてキャストするヒルベルト空間の指数的性質から生じる。
変分法は、低次元変分多様体内の最良近似を探すことによってこの問題にアプローチする。
この研究では、グラフニューラルネットワークを用いて構造化変分多様体を定義し、そのパラメータを最適化し、ハイゼンベルクハミルトニアンの多様な集合上の最低エネルギー解の高品質な近似を求める。
グラフネットワークを用いて、構成によって問題の物理対称性を尊重し、より大きなサイズの問題に一般化する分散表現を学習する。
提案手法は、量子多体ベンチマークの一連の問題に対して最先端の結果を達成し、正定値でない問題にうまく取り組む。
議論された手法は、量子多体システムの研究に有用なツールであり、指数関数サイズのオブジェクトの最適化と暗黙的なモデリングに関する洞察を提供する。 Solving for the lowest energy eigenstate of the many-body Schrodinger equation is a cornerstone problem that hinders understanding of a variety of quantum phenomena. The difficulty arises from the exponential nature of the Hilbert space which casts the governing equations as an eigenvalue problem of exponentially large, structured matrices. Variational methods approach this problem by searching for the best approximation within a lower-dimensional variational manifold. In this work we use graph neural networks to define a structured variational manifold and optimize its parameters to find high quality approximations of the lowest energy solutions on a diverse set of Heisenberg Hamiltonians. Using graph networks we learn distributed representations that by construction respect underlying physical symmetries of the problem and generalize to problems of larger size. Our approach achieves state-of-the-art results on a set of quantum many-body benchmark problems and works well on problems whose solutions are not positive-definite. The discussed techniques hold promise of being a useful tool for studying quantum many-body systems and providing insights into optimization and implicit modeling of exponentially-sized objects. | 翻訳日:2021-10-14 15:48:08 公開日:2021-10-12 |
# すべてのノイズが等しく説明されるわけではない: 大きなサンプリングレートによる個人学習のメリット Not all noise is accounted equally: How differentially private learning benefits from large sampling rates ( http://arxiv.org/abs/2110.06255v1 ) ライセンス: Link先を確認 | Friedrich D\"ormann, Osvald Frisk, Lars N{\o}rvang Andersen, Christian Fischer Pedersen | (参考訳) 学習はしばしば機密データを伴うため、SGD(Stochastic Gradient Descent)や他の機械学習アルゴリズムに対するプライバシー保護拡張は、差分プライバシー(DP)の定義を用いて開発されている。
差分的にプライベートなSGDでは、各トレーニングイテレーションで計算された勾配は2種類のノイズを受ける。
第一に、ミニバッチの使用による固有のサンプリングノイズ。
第二に、プライバシーを導入するメカニズムの付加的なガウスノイズ。
本研究では、これらの2種類のノイズが、プライベートニューラルネットワークの有用性に等価であることを示すが、プライバシ予算において等しく考慮されていない。
本研究は, プライバシー予算において, ノイズの比率をより小さく, 付加的な雑音にシフトさせる訓練パラダイムを提案する。
このパラダイムにより、プライベートなエンドツーエンドCNNのプライバシ/ユーティリティトレードオフにおける最先端の改善が可能になります。 Learning often involves sensitive data and as such, privacy preserving extensions to Stochastic Gradient Descent (SGD) and other machine learning algorithms have been developed using the definitions of Differential Privacy (DP). In differentially private SGD, the gradients computed at each training iteration are subject to two different types of noise. Firstly, inherent sampling noise arising from the use of minibatches. Secondly, additive Gaussian noise from the underlying mechanisms that introduce privacy. In this study, we show that these two types of noise are equivalent in their effect on the utility of private neural networks, however they are not accounted for equally in the privacy budget. Given this observation, we propose a training paradigm that shifts the proportions of noise towards less inherent and more additive noise, such that more of the overall noise can be accounted for in the privacy budget. With this paradigm, we are able to improve on the state-of-the-art in the privacy/utility tradeoff of private end-to-end CNNs. | 翻訳日:2021-10-14 15:39:57 公開日:2021-10-12 |
# ノイズラベルを検知する良い表現法 A Good Representation Detects Noisy Labels ( http://arxiv.org/abs/2110.06283v1 ) ライセンス: Link先を確認 | Zhaowei Zhu, Zihao Dong, Hao Cheng, Yang Liu | (参考訳) ラベルノイズは、誤った相関パターンを符号化し、ディープニューラルネットワーク(dnn)の一般化を損なう現実世界のデータセットに広まります。
腐敗したパターンを検出する効率的な方法を見つけることが重要です。
現在の手法は主に、DNNが破損したパターンを記憶しないよう、堅牢なトレーニング技術を設計することに焦点を当てている。
このアプローチには2つの特筆すべき点がある。
1) 各データセットにこのアプローチを適用するには、しばしばカスタマイズされたトレーニングプロセスが必要です。
2) モデルがノイズの多い監視の下でトレーニングされている限り,破損したパターンへの過剰適合を避けることがしばしば困難であり,検出性能が低下する。
本稿では,良質な表現を前提として,ノイズのあるラベルを検知する汎用かつトレーニング不要なソリューションを提案する。
直感的には、優れた表現は各トレーニングインスタンスの‘neighbors’を定義するのに役立つ。
まず,近傍情報に基づいて,近傍表現のノイズラベルのコンセンサスをチェックすることで,``ローカル投票' を用いる方法を提案する。
もうひとつは、各インスタンスをスコア付けして、腐敗する可能性のあるインスタンス数をフィルタする、ランキングベースのアプローチだ。
実際に利用できる良い(しかしおそらく不完全な)表現が与えられた場合、局所投票がどのように影響するかを理論的に分析し、近隣の規模を調整するためのガイドラインを提供する。
また、ランキングベース手法の最悪のエラーも証明する。
合成および実世界のラベルノイズを用いた実験は、トレーニングフリーなソリューションが、トレーニングベースのベースラインの大部分に対して一貫して、大幅に改善されていることを示している。
コードはgithub.com/UCSC-REAL/SimiRepで入手できる。 Label noise is pervasive in real-world datasets, which encodes wrong correlation patterns and impairs the generalization of deep neural networks (DNNs). It is critical to find efficient ways to detect the corrupted patterns. Current methods primarily focus on designing robust training techniques to prevent DNNs from memorizing corrupted patterns. This approach has two outstanding caveats: 1) applying this approach to each individual dataset would often require customized training processes; 2) as long as the model is trained with noisy supervisions, overfitting to corrupted patterns is often hard to avoid, leading to performance drop in detection. In this paper, given good representations, we propose a universally applicable and training-free solution to detect noisy labels. Intuitively, good representations help define ``neighbors'' of each training instance, and closer instances are more likely to share the same clean label. Based on the neighborhood information, we propose two methods: the first one uses ``local voting" via checking the noisy label consensuses of nearby representations. The second one is a ranking-based approach that scores each instance and filters out a guaranteed number of instances that are likely to be corrupted, again using only representations. Given good (but possibly imperfect) representations that are commonly available in practice, we theoretically analyze how they affect the local voting and provide guidelines for tuning neighborhood size. We also prove the worst-case error bound for the ranking-based method. Experiments with both synthetic and real-world label noise demonstrate our training-free solutions are consistently and significantly improving over most of the training-based baselines. Code is available at github.com/UCSC-REAL/SimiRep. | 翻訳日:2021-10-14 15:27:23 公開日:2021-10-12 |
# 自己センブル自己蒸留によるグラフニューラルネットワークのスケーラブルな一貫性トレーニング Scalable Consistency Training for Graph Neural Networks via Self-Ensemble Self-Distillation ( http://arxiv.org/abs/2110.06290v1 ) ライセンス: Link先を確認 | Cole Hawkins, Vassilis N. Ioannidis, Soji Adeshina, George Karypis | (参考訳) 一貫性トレーニングは、コンピュータビジョンと自然言語処理におけるディープラーニングモデルを改善する一般的な方法である。
グラフニューラルネットワーク(gnns)は,様々なネットワーク科学学習タスクにおいて顕著な性能を発揮するが,大規模グラフ問題に対する一貫性トレーニングの効果は,これまで研究されていない。
GNNは、高次ノードを扱うために、ミニバッチトレーニングとサブサンプルノード隣人によって大きなグラフにスケールする。
本稿では,隣人のサブサンプリングに内在するランダム性を利用し,精度を向上させるための新しい一貫性トレーニング手法を提案する。
対象ノードに対して、異なる近傍展開を生成し、予測平均の知識をGNNに蒸留する。
本手法は, 近傍試料の予測値に近似し, 少数の試料しか必要としない。
トレーニング手法は,いくつかの異なる設定で標準GNNトレーニングより優れており,ラベルレートが低い場合には最大利得が得られることを示す。 Consistency training is a popular method to improve deep learning models in computer vision and natural language processing. Graph neural networks (GNNs) have achieved remarkable performance in a variety of network science learning tasks, but to date no work has studied the effect of consistency training on large-scale graph problems. GNNs scale to large graphs by minibatch training and subsample node neighbors to deal with high degree nodes. We utilize the randomness inherent in the subsampling of neighbors and introduce a novel consistency training method to improve accuracy. For a target node we generate different neighborhood expansions, and distill the knowledge of the average of the predictions to the GNN. Our method approximates the expected prediction of the possible neighborhood samples and practically only requires a few samples. We demonstrate that our training method outperforms standard GNN training in several different settings, and yields the largest gains when label rates are low. | 翻訳日:2021-10-14 15:26:59 公開日:2021-10-12 |
# ニューラルネットワークの線形モード接続における置換不変性の役割 The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks ( http://arxiv.org/abs/2110.06296v1 ) ライセンス: Link先を確認 | Rahim Entezari, Hanie Sedghi, Olga Saukh, Behnam Neyshabur | (参考訳) 本稿では、ニューラルネットワークの置換不変性を考慮に入れれば、SGD解はそれらの間の線形補間において障壁を持たないであろうと推測する。
大胆な予想であるが、実験的な試みがいかに広範囲に及ばないかを示す。
さらに,予想を裏付ける予備的な理論結果も提示する。
我々の予想は、宝くじの仮説、分散トレーニング、アンサンブル手法に影響を及ぼす。 In this paper, we conjecture that if the permutation invariance of neural networks is taken into account, SGD solutions will likely have no barrier in the linear interpolation between them. Although it is a bold conjecture, we show how extensive empirical attempts fall short of refuting it. We further provide a preliminary theoretical result to support our conjecture. Our conjecture has implications for lottery ticket hypothesis, distributed training, and ensemble methods. | 翻訳日:2021-10-14 15:26:44 公開日:2021-10-12 |
# PSML: 脱炭エネルギーグリッドにおける機械学習のためのマルチスケール時系列データセット PSML: A Multi-scale Time-series Dataset for Machine Learning in Decarbonized Energy Grids ( http://arxiv.org/abs/2110.06324v1 ) ライセンス: Link先を確認 | Xiangtian Zheng, Nan Xu, Loc Trinh, Dongqi Wu, Tong Huang, S. Sivaranjani, Yan Liu, Le Xie | (参考訳) 気候変動に対処するため、電力網は炭素中立への野心的な移行のためのインフラとなる。
再生可能エネルギー資源の浸透と電気輸送の深化に伴い、電力網の信頼性と安全性の確保がますます困難になっている。
本稿では,データ駆動機械学習(ML)に基づく今後の電力網の信頼性向上に向けたアプローチの開発を支援する,オープンアクセス型マルチスケール時系列データセットPSMLを提案する。
データセットは、電力負荷、再生可能エネルギー、天気、電圧、電流測定を複数の時空間スケールで含む、グリッドダイナミクスのますます重要な相互作用と不確実性を記録するために設計された新しいtransmission + distribution (t+d) 共シミュレーションによって生成される。
PSMLを用いて、重要な3つのユースケースに挑戦する3つの課題に対して、最先端のMLベースラインを提供する。
(i)動的外乱事象の早期検出、正確な分類及び局在
(ii)不確実性及び極端な事象の有無による負荷及び再生可能エネルギーのロバストな階層的予測
(iii)物理則拘束測定時系列の現実的な合成生成
このデータセットは、動的システムにおけるMLの進歩を可能にすると同時に、ML研究者がカーボンニュートラル電気と移動性に貢献できることを期待している。 The electric grid is a key enabling infrastructure for the ambitious transition towards carbon neutrality as we grapple with climate change. With deepening penetration of renewable energy resources and electrified transportation, the reliable and secure operation of the electric grid becomes increasingly challenging. In this paper, we present PSML, a first-of-its-kind open-access multi-scale time-series dataset, to aid in the development of data-driven machine learning (ML) based approaches towards reliable operation of future electric grids. The dataset is generated through a novel transmission + distribution (T+D) co-simulation designed to capture the increasingly important interactions and uncertainties of the grid dynamics, containing electric load, renewable generation, weather, voltage and current measurements at multiple spatio-temporal scales. Using PSML, we provide state-of-the-art ML baselines on three challenging use cases of critical importance to achieve: (i) early detection, accurate classification and localization of dynamic disturbance events; (ii) robust hierarchical forecasting of load and renewable energy with the presence of uncertainties and extreme events; and (iii) realistic synthetic generation of physical-law-constrained measurement time series. We envision that this dataset will enable advances for ML in dynamic systems, while simultaneously allowing ML researchers to contribute towards carbon-neutral electricity and mobility. | 翻訳日:2021-10-14 15:26:37 公開日:2021-10-12 |
# オープンソースのユーザアクティビティトレースとユーザモビリティ評価・モデリングへの応用に関する研究 A Survey of Open Source User Activity Traces with Applications to User Mobility Characterization and Modeling ( http://arxiv.org/abs/2110.06382v1 ) ライセンス: Link先を確認 | Sinjoni Mukhopadhyay King, Faisal Nawab, Katia Obraczka | (参考訳) ユーザモビリティ研究における現在の最先端技術は、ユーザーがコネクテッドヘルスケア、ローカライゼーション、ソーシャルメディア、eコマースなど幅広いアプリケーションに従事しているため、歩行者や車内活動から捉えたオープンソースのモビリティトレースに大きく依存している。
これらのトレースのほとんどは機能豊富で多様であり、提供する情報だけでなく、利用や活用方法にも影響します。
この多様性は、利用可能なモビリティデータセットを利用したい研究者と実践者に2つの大きな課題をもたらす。
第一に、十分な時間をかけることなく、利用可能な痕跡を鳥の目線で見ることは極めて困難である。
第二に、ひとたびトレースを見つけたら、そのトレースが彼らのニーズに相応しいかどうかを見極める必要がある。
この調査の目的は3つある。
モビリティモード、データソース、収集技術を含むオープンソースのモビリティトレースを分類する分類法を提案する。
そして、提案されている分類法を使って既存のオープンソースのモビリティトレースを分類し、最後に、人気のある公開データセットを使った3つのケーススタディを強調し、我々の分類法が特定のユースケースに適用性を決定するのに役立つトレースのフィーチャセットをどのようにティーズするかを示す。 The current state-of-the-art in user mobility research has extensively relied on open-source mobility traces captured from pedestrian and vehicular activity through a variety of communication technologies as users engage in a wide-range of applications, including connected healthcare, localization, social media, e-commerce, etc. Most of these traces are feature-rich and diverse, not only in the information they provide, but also in how they can be used and leveraged. This diversity poses two main challenges for researchers and practitioners who wish to make use of available mobility datasets. First, it is quite difficult to get a bird's eye view of the available traces without spending considerable time looking them up. Second, once they have found the traces, they still need to figure out whether the traces are adequate to their needs. The purpose of this survey is three-fold. It proposes a taxonomy to classify open-source mobility traces including their mobility mode, data source and collection technology. It then uses the proposed taxonomy to classify existing open-source mobility traces and finally, highlights three case studies using popular publicly available datasets to showcase how our taxonomy can tease out feature sets in traces to help determine their applicability to specific use-cases. | 翻訳日:2021-10-14 15:18:52 公開日:2021-10-12 |
# より効果的な深層学習のための局所的永続的ホモロジー Localized Persistent Homologies for more Effective Deep Learning ( http://arxiv.org/abs/2110.06295v1 ) ライセンス: Link先を確認 | Doruk Oner, Ad\'elie Garin, Mateusz Kozi\'nski, Kathryn Hess, Pascal Fua | (参考訳) 永続ホモロジーは、キュビリニア構造の検出と結果のトポロジ的品質向上のために訓練されたディープネットワークの性能向上に成功している。
しかし、既存の手法は非常にグローバルであり、位相的特徴の場所を無視する。
本稿では,ネットワークトレーニング中の位置を考慮に入れた新しいフィルタ機能を利用するアプローチを提案する。
この方法で訓練されたネットワークが抽出した曲線構造のトポロジを回復するのに役立つ道路の2次元画像と神経過程の3次元画像スタックを実験的に実証した。 Persistent Homologies have been successfully used to increase the performance of deep networks trained to detect curvilinear structures and to improve the topological quality of the results. However, existing methods are very global and ignore the location of topological features. In this paper, we introduce an approach that relies on a new filtration function to account for location during network training. We demonstrate experimentally on 2D images of roads and 3D image stacks of neuronal processes that networks trained in this manner are better at recovering the topology of the curvilinear structures they extract. | 翻訳日:2021-10-14 15:00:30 公開日:2021-10-12 |
# スタイル転送・意味画像分割・アンサンブル学習を用いた高バランスメラノーマデータのためのコンテンツベース画像検索の検討 Exploring Content Based Image Retrieval for Highly Imbalanced Melanoma Data using Style Transfer, Semantic Image Segmentation and Ensemble Learning ( http://arxiv.org/abs/2110.06331v1 ) ライセンス: Link先を確認 | Priyam Mehta | (参考訳) 病変画像は、しばしばオープンセット設定で撮影される。
このため、生成した画像データは本質的に非常に多様であり、畳み込みニューラルネットワークが適切な特徴を見つけ、一般化することは困難であり、その結果、病変画像に対するCBIR(コンテンツベース画像検索)システムの構築は困難である。
本稿では,この領域を探究し,i1-scoreと呼ばれる新しい類似度尺度を用いて,スタイルロスとサイス係数を用いた多重類似度尺度を提案する。
提案したCBIR類似度尺度のうち、純粋なスタイル損失アプローチはユークリッド距離やコサイン類似度といった従来の手法よりも顕著な精度の向上を達成する。
スタイル損失を用いたI1-Scoresは従来の手法よりも小さなマージンで優れていたが、ダイス係数を持つI1-Scoresは非常に貧弱であった。
使用するモデルは、より一般化するためにアンサンブル学習を用いて訓練される。 Lesion images are frequently taken in open-set settings. Because of this, the image data generated is extremely varied in nature.It is difficult for a convolutional neural network to find proper features and generalise well, as a result content based image retrieval (CBIR) system for lesion images are difficult to build. This paper explores this domain and proposes multiple similarity measures which uses Style Loss and Dice Coefficient via a novel similarity measure called I1-Score. Out of the CBIR similarity measures proposed, pure style loss approach achieves a remarkable accuracy increase over traditional approaches like Euclidean Distance and Cosine Similarity. The I1-Scores using style loss performed better than traditional approaches by a small margin, whereas, I1-Scores with dice-coefficient faired very poorly. The model used is trained using ensemble learning for better generalization. | 翻訳日:2021-10-14 15:00:19 公開日:2021-10-12 |
# 抽出質問応答のための注意誘導生成モデル Attention-guided Generative Models for Extractive Question Answering ( http://arxiv.org/abs/2110.06393v1 ) ライセンス: Link先を確認 | Peng Xu, Davis Liang, Zhiheng Huang, Bing Xiang | (参考訳) 本稿では,質問応答(qa)タスクの抽出にトランスフォーマティブモデルを適用する新しい手法を提案する。
近年,事前学習型生成系列列列モデル (seq2seq) は質問応答において大きな成功を収めている。
これらのモデルの成功への貢献は、横断的注意のような内部的な注意機構である。
本稿では,デコーダのクロスアテンションパターンを利用して,生成モデルから抽出された回答を抽出する簡単な手法を提案する。
アーキテクチャ上の前提としてクロスアテンションを考慮し,QAパフォーマンスをさらに向上させるために共同トレーニングを適用した。
実験の結果,NaturalQuestions や TriviaQA などのオープンドメイン質問応答データセットでは,生成的および抽出的推論の両方において,パラメータをはるかに少なくしながら,最先端の性能にアプローチしていることがわかった。
さらに,本手法は,モデルが関連する経路を再現する能力を大幅に改善しつつ,幻覚のない推論を行うことを可能にする。 We propose a novel method for applying Transformer models to extractive question answering (QA) tasks. Recently, pretrained generative sequence-to-sequence (seq2seq) models have achieved great success in question answering. Contributing to the success of these models are internal attention mechanisms such as cross-attention. We propose a simple strategy to obtain an extractive answer span from the generative model by leveraging the decoder cross-attention patterns. Viewing cross-attention as an architectural prior, we apply joint training to further improve QA performance. Empirical results show that on open-domain question answering datasets like NaturalQuestions and TriviaQA, our method approaches state-of-the-art performance on both generative and extractive inference, all while using much fewer parameters. Furthermore, this strategy allows us to perform hallucination-free inference while conferring significant improvements to the model's ability to rerank relevant passages. | 翻訳日:2021-10-14 14:52:44 公開日:2021-10-12 |
# 定点のない訓練損失の収束性について On Convergence of Training Loss Without Reaching Stationary Points ( http://arxiv.org/abs/2110.06256v1 ) ライセンス: Link先を確認 | Jingzhao Zhang, Haochuan Li, Suvrit Sra, Ali Jadbabaie | (参考訳) 非凸最適化が最悪の場合には計算上難解であることはよく知られている。
その結果、勾配降下のような最適化アルゴリズムの理論解析は、勾配ノルムがゼロあるいは無視できる定常点への局所収束に焦点を当てることが多い。
本研究では,グラデーションベースアルゴリズムの既存の理論的解析と実際の実践との解離について検討する。
具体的には、imagenet、resnet、wt103 + transformerxlモデルのような大規模ニューラルネットワークトレーニングにおいて、ニューラルネットワークの重み変数が損失関数の勾配が消滅する定常点に収束しないことを示す数値的証拠を提供する。
しかし、注目すべきことに、重みは定常点に収束しないが、損失関数の値は収束する。
この観測から着想を得て,力学系のエルゴード理論に基づく新たな視点を提案する。
この現象を説明する近似不変測度への重み値分布の収束を(滑らかさを仮定せずに)証明する。
我々はさらに、この視点が理論と経験的観察をよりよく一致させる方法について論じる。 It is a well-known fact that nonconvex optimization is computationally intractable in the worst case. As a result, theoretical analysis of optimization algorithms such as gradient descent often focuses on local convergence to stationary points where the gradient norm is zero or negligible. In this work, we examine the disconnect between the existing theoretical analysis of gradient-based algorithms and actual practice. Specifically, we provide numerical evidence that in large-scale neural network training, such as in ImageNet, ResNet, and WT103 + TransformerXL models, the Neural Network weight variables do not converge to stationary points where the gradient of the loss function vanishes. Remarkably, however, we observe that while weights do not converge to stationary points, the value of the loss function converges. Inspired by this observation, we propose a new perspective based on ergodic theory of dynamical systems. We prove convergence of the distribution of weight values to an approximate invariant measure (without smoothness assumptions) that explains this phenomenon. We further discuss how this perspective can better align the theory with empirical observations. | 翻訳日:2021-10-14 14:38:01 公開日:2021-10-12 |
# CyTran: ノンコントラストCT変換のためのサイクル一貫性変換器 CyTran: Cycle-Consistent Transformers for Non-Contrast to Contrast CT Translation ( http://arxiv.org/abs/2110.06400v1 ) ライセンス: Link先を確認 | Nicolae-Catalin Ristea, Andreea-Iuliana Miron, Olivian Savencu, Mariana-Iuliana Georgescu, Nicolae Verga, Fahad Shahbaz Khan, Radu Tudor Ionescu | (参考訳) コントラストct(unpaired contrast ct)スキャンを非コントラストctスキャンに変換する方法を提案する。
このタスクの解決には2つの重要な応用がある。
(i)造影剤を投与しない患者に対して、造影ctスキャンを自動的に生成すること、及び
(ii)登録前のコントラスト物質による差を低減し、コントラストctと非コントラストctとのアライメントを高める。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
我々のニューラルモデルは、サイクル一貫性損失の統合のため、未ペア画像でトレーニングすることができる。
高解像度画像を扱うために,畳み込み層と多面的アテンション層に基づくハイブリッドアーキテクチャを設計する。
また,100名の女性患者から収集した3次元肺CT(計37,290画像)を含む新しいデータセットColtea-Lung-CT-100Wを導入する。
各スキャンには3つの位相(非コントラスト、早期門脈、後期動脈)が含まれており、新しいアプローチと最新の画像スタイル転送法を比較する実験を行うことができる。
実験の結果、CyTranは競合するすべての手法より優れています。
また,最新の医用画像アライメント法を改善するための予備的なステップとして,CyTranを使用できることを示す。
私たちは、新しいモデルとデータセットをオープンソースとしてリリースします。 We propose a novel approach to translate unpaired contrast computed tomography (CT) scans to non-contrast CT scans and the other way around. Solving this task has two important applications: (i) to automatically generate contrast CT scans for patients for whom injecting contrast substance is not an option, and (ii) to enhance alignment between contrast and non-contrast CT by reducing the differences induced by the contrast substance before registration. Our approach is based on cycle-consistent generative adversarial convolutional transformers, for short, CyTran. Our neural model can be trained on unpaired images, due to the integration of a cycle-consistency loss. To deal with high-resolution images, we design a hybrid architecture based on convolutional and multi-head attention layers. In addition, we introduce a novel data set, Coltea-Lung-CT-100W, containing 3D triphasic lung CT scans (with a total of 37,290 images) collected from 100 female patients. Each scan contains three phases (non-contrast, early portal venous, and late arterial), allowing us to perform experiments to compare our novel approach with state-of-the-art methods for image style transfer. Our empirical results show that CyTran outperforms all competing methods. Moreover, we show that CyTran can be employed as a preliminary step to improve a state-of-the-art medical image alignment method. We release our novel model and data set as open source at: https://github.com/ristea/cycle-transformer. | 翻訳日:2021-10-14 14:37:44 公開日:2021-10-12 |
# 推定基準分解のための決定論的質問生成:実証的研究と計算モデル Decision-Theoretic Question Generation for Situated Reference Resolution: An Empirical Study and Computational Model ( http://arxiv.org/abs/2110.06288v1 ) ライセンス: Link先を確認 | Felix Gervits, Gordon Briggs, Antonio Roque, Genki A. Kadomatsu, Dean Thurston, Matthias Scheutz, Matthew Marge | (参考訳) 位置する環境で人間と対話する対話エージェントは、複数のモードにわたる参照曖昧さを管理し、必要に応じて助けを求める必要がある。
しかし、そのようなエージェントが問うべき質問の種類や、そのような質問に対する答えが曖昧さの解消にどのように役立つかは明らかではない。
そこで我々は,遠隔実験者との対話をしながら,ツールセットの編成を行う仮想ロボットを参加者が制御する対話型研究から対話データを分析した。
その結果,あいまいさ解消のための質問型分布や,対話レベルの要因が参照解決プロセスに与える影響など,多くの新しい結果が得られた。
これらの経験的知見に基づいて,(1)エントロピーに基づくユーティリティ割り当て手法を用いた意思決定ネットワークを用いた要求の明確化のための計算モデルを開発し,(2)アンビグニティの異なる環境において,スロット満載ベースラインよりも優れていることを示すとともに,(3)エージェントが参照解決を容易にするための質問方法に関する洞察を提供するために,結果の解釈を行った。 Dialogue agents that interact with humans in situated environments need to manage referential ambiguity across multiple modalities and ask for help as needed. However, it is not clear what kinds of questions such agents should ask nor how the answers to such questions can be used to resolve ambiguity. To address this, we analyzed dialogue data from an interactive study in which participants controlled a virtual robot tasked with organizing a set of tools while engaging in dialogue with a live, remote experimenter. We discovered a number of novel results, including the distribution of question types used to resolve ambiguity and the influence of dialogue-level factors on the reference resolution process. Based on these empirical findings we: (1) developed a computational model for clarification requests using a decision network with an entropy-based utility assignment method that operates across modalities, (2) evaluated the model, showing that it outperforms a slot-filling baseline in environments of varying ambiguity, and (3) interpreted the results to offer insight into the ways that agents can ask questions to facilitate situated reference resolution. | 翻訳日:2021-10-14 14:34:51 公開日:2021-10-12 |
# MTのためのコンパクトメトリックの学習 Learning Compact Metrics for MT ( http://arxiv.org/abs/2110.06341v1 ) ライセンス: Link先を確認 | Amy Pu, Hyung Won Chung, Ankur P. Parikh, Sebastian Gehrmann, Thibault Sellam | (参考訳) 機械翻訳と多言語テキスト生成の最近の進歩により、COMETやBLEURTのような訓練されたメトリクスが採用され、回帰問題としての評価を扱い、XLM-RoBERTaやmBERTのような多言語事前学習モデルの表現を使用するようになった。
しかし、関連するタスクの研究は、これらのモデルが大きければ最も効率的であり、評価には費用がかかり実用的でないことを示唆している。
WMT Metrics Shared Taskのデータを用いて、最先端多言語モデルRemBERTによる多言語性とモデル容量のトレードオフについて検討する。
本研究では, モデルサイズが実際に言語間移動のボトルネックとなることを示す一連の実験を行い, 人工データ生成を活用し, 関連する言語で訓練された複数の生徒に知識を伝達することによって, 蒸留がいかにこのボトルネックに対処できるかを実証する。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。 Recent developments in machine translation and multilingual text generation have led researchers to adopt trained metrics such as COMET or BLEURT, which treat evaluation as a regression problem and use representations from multilingual pre-trained models such as XLM-RoBERTa or mBERT. Yet studies on related tasks suggest that these models are most efficient when they are large, which is costly and impractical for evaluation. We investigate the trade-off between multilinguality and model capacity with RemBERT, a state-of-the-art multilingual language model, using data from the WMT Metrics Shared Task. We present a series of experiments which show that model size is indeed a bottleneck for cross-lingual transfer, then demonstrate how distillation can help addressing this bottleneck, by leveraging synthetic data generation and transferring knowledge from one teacher to multiple students trained on related languages. Our method yields up to 10.5% improvement over vanilla fine-tuning and reaches 92.6% of RemBERT's performance using only a third of its parameters. | 翻訳日:2021-10-14 14:34:30 公開日:2021-10-12 |
# all Dolphins are Intelligent and SOME are Friendly: Probing BERT for Nouns' Semantic Properties and their Prototypeality ALL Dolphins Are Intelligent and SOME Are Friendly: Probing BERT for Nouns' Semantic Properties and their Prototypicality ( http://arxiv.org/abs/2110.06376v1 ) ライセンス: Link先を確認 | Marianna Apidianaki and Aina Gar\'i Soler | (参考訳) 大規模言語モデルは、事前学習中に大量のデータに曝露することで得られた豊富なコモンセンス知識を符号化するが、エンティティとその意味的特性に対する理解は不明確である。
我々は、修飾する名詞の参照範囲を制限しない形容詞によって表現される英語の名詞の性質についてbert(devlin et al., 2019)を調べ、代わりにいくつかの固有の側面(「赤いイチゴ」)を強調した。
本研究は,名詞間の関係強さと意味的特徴を捉える心理言語学的データセットに基づく。
本研究は,閉鎖タスクと分類設定を用いてBERTを探索し,これらの特徴とそれらの有意な有意な有意な有意な有意性を示す。
評価を困難にし、モデルの名詞特性に関する知識に関する一般的な結論を引き出す要因について議論する。
最後に, BERT では, 従来の手法よりも優れた形容詞構成の意味を推論する上で必要な情報を活用することができた。 Large scale language models encode rich commonsense knowledge acquired through exposure to massive data during pre-training, but their understanding of entities and their semantic properties is unclear. We probe BERT (Devlin et al., 2019) for the properties of English nouns as expressed by adjectives that do not restrict the reference scope of the noun they modify (as in "red car"), but instead emphasise some inherent aspect ("red strawberry"). We base our study on psycholinguistics datasets that capture the association strength between nouns and their semantic features. We probe BERT using cloze tasks and in a classification setting, and show that the model has marginal knowledge of these features and their prevalence as expressed in these datasets. We discuss factors that make evaluation challenging and impede drawing general conclusions about the models' knowledge of noun properties. Finally, we show that when tested in a fine-tuning setting addressing entailment, BERT successfully leverages the information needed for reasoning about the meaning of adjective-noun constructions outperforming previous methods. | 翻訳日:2021-10-14 14:34:10 公開日:2021-10-12 |
# 機械学習のための自動微分入門 An Introduction to Automatic Differentiation forMachine Learning ( http://arxiv.org/abs/2110.06209v1 ) ライセンス: Link先を確認 | Davan Harrison | (参考訳) 特に機械学習とニューラルネットワークモデルは、多くの人工知能関連のタスクにおけるアートパフォーマンスの状態を改善している。
ニューラルネットワークモデルは一般的に、モデルにデータセットを適合させるために勾配に基づく最適化手法を実行するフレームワークを使用して実装される。
これらのフレームワークは自動微分 (automatic differentiation, aad) と呼ばれる微分を計算し、モデル設計者からの微分計算の負担をなくす手法を使っている。
本稿では,ADとそのモチベーション,実装の異なるアプローチについて述べる。
我々は、ADに関連するデータフロープログラミングを簡潔に記述する。
最後に、一般的に使われている2つのADフレームワークであるTensorflowとPyTorchで実装した例を示す。 Machine learning and neural network models in particular have been improving the state of the art performance on many artificial intelligence related tasks. Neural network models are typically implemented using frameworks that perform gradient based optimization methods to fit a model to a dataset. These frameworks use a technique of calculating derivatives called automatic differentiation (AD) which removes the burden of performing derivative calculations from the model designer. In this report we describe AD, its motivations, and different implementation approaches. We briefly describe dataflow programming as it relates to AD. Lastly, we present example programs that are implemented with Tensorflow and PyTorch, which are two commonly used AD frameworks. | 翻訳日:2021-10-14 14:06:00 公開日:2021-10-12 |
# トランスベーステキスト音声合成における細粒度スタイル制御 Fine-grained style control in Transformer-based Text-to-speech Synthesis ( http://arxiv.org/abs/2110.06306v1 ) ライセンス: Link先を確認 | Li-Wei Chen and Alexander Rudnicky | (参考訳) 本稿では,トランスフォーマティブ・テキストから音声への合成(transformertts)の細粒度制御を実現するための新しいアーキテクチャを提案する。
具体的には、参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
TransformerTTSの既存のコンテントエンコーダは、コンテントとスタイルの融合とアライメントのために設計したクロスアテンションブロックに置き換えられます。
スキップ接続と共に融合が行われると、我々のクロスアテンションブロックは、音素表現を所定のスタイルで徐々に融合させる優れた帰納的バイアスを与える。
また,学習中のlstをランダムに切断し,wav2vec 2.0機能を用いて,言語コンテンツのエンコードを防止する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
私たちのコードとサンプルは公開されています。 In this paper, we present a novel architecture to realize fine-grained style control on the transformer-based text-to-speech synthesis (TransformerTTS). Specifically, we model the speaking style by extracting a time sequence of local style tokens (LST) from the reference speech. The existing content encoder in TransformerTTS is then replaced by our designed cross-attention blocks for fusion and alignment between content and style. As the fusion is performed along with the skip connection, our cross-attention block provides a good inductive bias to gradually infuse the phoneme representation with a given style. Additionally, we prevent the style embedding from encoding linguistic content by randomly truncating LST during training and using wav2vec 2.0 features. Experiments show that with fine-grained style control, our system performs better in terms of naturalness, intelligibility, and style transferability. Our code and samples are publicly available. | 翻訳日:2021-10-14 14:04:48 公開日:2021-10-12 |
# 音声認識改善のためのWav2vec 2.0微調整の検討 Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition ( http://arxiv.org/abs/2110.06309v1 ) ライセンス: Link先を確認 | Li-Wei Chen and Alexander Rudnicky | (参考訳) wav2vec 2.0は音声認識(ASR)のために提案されているが、音声認識(SER)にも使用できる。
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTはIEMOCAPデータセットの最先端モデルより優れていることを示す。
既存のNLPファインチューニング戦略であるTAPTは、SERの性能をさらに向上させる。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
実験の結果,P-TAPTは低リソース環境下ではTAPTよりも優れていた。
この文献の先行研究と比較すると、トップラインシステムはIEMOCAPの最先端性能よりも7.4%の精度(UA)が絶対的に向上した。
私たちのコードは公開されています。 While wav2vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different fine-tuning strategies. Two baseline methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are first presented. We show that V-FT is able to outperform state-of-the-art models on the IEMOCAP dataset. TAPT, an existing NLP fine-tuning strategy, further improves the performance on SER. We also introduce a novel fine-tuning method termed P-TAPT, which modifies the TAPT objective to learn contextualized emotion representations. Experiments show that P-TAPT performs better than TAPT especially under low-resource settings. Compared to prior works in this literature, our top-line system achieved a 7.4% absolute improvement on unweighted accuracy (UA) over the state-of-the-art performance on IEMOCAP. Our code is publicly available. | 翻訳日:2021-10-14 14:04:33 公開日:2021-10-12 |
# 制限付き自己照合を用いた音声要約 Speech Summarization using Restricted Self-Attention ( http://arxiv.org/abs/2110.06263v1 ) ライセンス: Link先を確認 | Roshan Sharma, Shruti Palaskar, Alan W Black and Florian Metze | (参考訳) 音声要約は通常、音声認識とテキスト要約モデルのカスケードを用いて行われる。
音声要約モデルのエンドツーエンドモデリングは、長い入力音声シーケンスから生じるメモリと計算制約のために困難である。
文書要約における最近の研究は、トランスフォーマーモデルで長いシーケンスを処理できる自己意図の複雑さを減らす方法にインスピレーションを与えている。
本稿では,音声要約に最適化された単一モデルを提案する。
本稿では,テキストベースモデルから音声モデルへの制約付き自己認識手法を適用し,メモリと計算制約に対処する。
提案モデルでは,ハウツーコーパスによる音声の要約を学習できることを実証する。
提案したエンドツーエンドモデルは,ROUGEで提案したカスケードモデルよりも3点絶対的に優れている。
さらに,音声入力から概念を推定する音声言語理解タスクについて検討し,提案手法がカスケードモデルよりも4点絶対値f-1の方が優れていることを示す。 Speech summarization is typically performed by using a cascade of speech recognition and text summarization models. End-to-end modeling of speech summarization models is challenging due to memory and compute constraints arising from long input audio sequences. Recent work in document summarization has inspired methods to reduce the complexity of self-attentions, which enables transformer models to handle long sequences. In this work, we introduce a single model optimized end-to-end for speech summarization. We apply the restricted self-attention technique from text-based models to speech models to address the memory and compute constraints. We demonstrate that the proposed model learns to directly summarize speech for the How-2 corpus of instructional videos. The proposed end-to-end model outperforms the previously proposed cascaded model by 3 points absolute on ROUGE. Further, we consider the spoken language understanding task of predicting concepts from speech inputs and show that the proposed end-to-end model outperforms the cascade model by 4 points absolute F-1. | 翻訳日:2021-10-14 13:39:49 公開日:2021-10-12 |
# ジョブショップスケジューリングのための高速近似:ラグランジアン二重ディープラーニング法 Fast Approximations for Job Shop Scheduling: A Lagrangian Dual Deep Learning Method ( http://arxiv.org/abs/2110.06365v1 ) ライセンス: Link先を確認 | James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck | (参考訳) ジョブスショップスケジューリング問題(Jobs shop Scheduling Problem、JSP)は、様々な産業目的のために日常的に解決される標準組合せ最適化問題である。
特定の処理時間に対して、個々のタスクが所定のリソースへの排他的アクセスを必要とする固定順序の操作の下で、複数のタスクシーケンスの最適スケジューリングをモデル化する。
問題はnpハードで、中規模のインスタンスでも計算が難しい。
本稿では,生産チェーンの確率性の向上を動機として,JSPに効率的かつ正確な近似を提供するためのディープラーニングアプローチを提案する。
特に,問題構造を利用するディープニューラルネットワークアーキテクチャの設計,問題制約を捉えるためのラグランジアン双対性の統合,および解の実現性を保証するための後処理最適化を提案する。JSPLIBベンチマークライブラリのハードJSPインスタンス上でJSP-DNNと呼ばれる手法が評価されている。
計算結果から、JSP-DNNは無視可能な計算コストで高い品質のJSP近似を生成できることが示された。 The Jobs shop Scheduling Problem (JSP) is a canonical combinatorial optimization problem that is routinely solved for a variety of industrial purposes. It models the optimal scheduling of multiple sequences of tasks, each under a fixed order of operations, in which individual tasks require exclusive access to a predetermined resource for a specified processing time. The problem is NP-hard and computationally challenging even for medium-sized instances. Motivated by the increased stochasticity in production chains, this paper explores a deep learning approach to deliver efficient and accurate approximations to the JSP. In particular, this paper proposes the design of a deep neural network architecture to exploit the problem structure, its integration with Lagrangian duality to capture the problem constraints, and a post-processing optimization to guarantee solution feasibility.The resulting method, called JSP-DNN, is evaluated on hard JSP instances from the JSPLIB benchmark library. Computational results show that JSP-DNN can produce JSP approximations of high quality at negligible computational costs. | 翻訳日:2021-10-14 13:39:05 公開日:2021-10-12 |
# 富がより豊かになる - 半監督学習の影響の相違 The Rich Get Richer: Disparate Impact of Semi-Supervised Learning ( http://arxiv.org/abs/2110.06282v1 ) ライセンス: Link先を確認 | Zhaowei Zhu, Tianyi Luo, Yang Liu | (参考訳) 半教師付き学習(SSL)は、高品質な教師付きデータが著しく制限された場合に、様々な学習タスクのモデル精度を向上させる可能性を実証している。
データ全体の平均精度が向上することがしばしば確認されているが、SSLがどのように異なるサブ人口と一致しているかは不明である。
以上の疑問を理解することは、これらの異なるサブ集団が、我々が公平に扱おうとする人口集団によって定義されるときに、かなりの公平性をもたらす。
本稿では,SSLの展開による異なる影響を明らかにする。SSLを使わずに高いベースライン精度を持つサブポピュレーションは,SSLの恩恵を受ける傾向にあるが,低ベースライン精度に悩まされるサブポピュレーション("poor"サブポピュレーション)は,SSLモジュールの追加後にパフォーマンス低下を観測することもある。
我々は、SSLアルゴリズムの幅広いファミリに対して、理論上かつ実証的に、補助的な ``pseudo-label' を明示的に、または暗黙的に使用することを証明した。
画像およびテキスト分類タスクのセットに関する実験は、我々の主張を裏付けるものである。
我々は、この異なる影響を緩和する方法について議論し、われわれの論文がSSLの使用の潜在的な落とし穴を警告し、将来のSSLアルゴリズムの多面的評価を促進することを期待する。
コードはgithub.com/UCSC-REAL/Disparate-SSLで入手できる。 Semi-supervised learning (SSL) has demonstrated its potential to improve the model accuracy for a variety of learning tasks when the high-quality supervised data is severely limited. Although it is often established that the average accuracy for the entire population of data is improved, it is unclear how SSL fares with different sub-populations. Understanding the above question has substantial fairness implications when these different sub-populations are defined by the demographic groups we aim to treat fairly. In this paper, we reveal the disparate impacts of deploying SSL: the sub-population who has a higher baseline accuracy without using SSL (the ``rich" sub-population) tends to benefit more from SSL; while the sub-population who suffers from a low baseline accuracy (the ``poor" sub-population) might even observe a performance drop after adding the SSL module. We theoretically and empirically establish the above observation for a broad family of SSL algorithms, which either explicitly or implicitly use an auxiliary ``pseudo-label". Our experiments on a set of image and text classification tasks confirm our claims. We discuss how this disparate impact can be mitigated and hope that our paper will alarm the potential pitfall of using SSL and encourage a multifaceted evaluation of future SSL algorithms. Code is available at github.com/UCSC-REAL/Disparate-SSL. | 翻訳日:2021-10-14 13:37:15 公開日:2021-10-12 |
# ドメインベース共分散最小化による領域一般化 Domain Generalization via Domain-based Covariance Minimization ( http://arxiv.org/abs/2110.06298v1 ) ライセンス: Link先を確認 | Anqi Wu | (参考訳) 研究者は、データ生成メカニズムが、非常に異なる分布のトレーニングデータやテストデータにつながる内部的または外部的な要因に影響される可能性があるという困難な問題に直面しており、その結果、伝統的な分類やトレーニングセットからの回帰は、テストデータで満足のいく結果を達成することができない。
本稿では, この非自明な領域一般化問題に対して, 関数関係を最大保存しつつ, 領域ベース共分散を最小化する中心部分空間を求める。
本研究では,複数の領域における条件分布の差を最小限に抑えるための新しい分散測定法を提案し,その一方で,与えられた条件分布の分散を最大化して機能的関係を保っている。
さらに,大規模行列演算において計算量が少なく,メモリも小さく,ドメインの一般化だけでなく,カーネルベースの固有値分解にも適する高速な実装も提供する。
提案手法の実用性を示すため,合成データと実世界の双方でよく知られた次元縮小法と領域一般化法を比較した。
小規模データセットでは,未取得のテストデータセットよりも一般化性能が向上することを示す定量的な結果が得られている。
大規模問題に対して提案した高速実装は定量的性能を維持するが、計算コストはかなり低い。 Researchers have been facing a difficult problem that data generation mechanisms could be influenced by internal or external factors leading to the training and test data with quite different distributions, consequently traditional classification or regression from the training set is unable to achieve satisfying results on test data. In this paper, we address this nontrivial domain generalization problem by finding a central subspace in which domain-based covariance is minimized while the functional relationship is simultaneously maximally preserved. We propose a novel variance measurement for multiple domains so as to minimize the difference between conditional distributions across domains with solid theoretical demonstration and supports, meanwhile, the algorithm preserves the functional relationship via maximizing the variance of conditional expectations given output. Furthermore, we also provide a fast implementation that requires much less computation and smaller memory for large-scale matrix operations, suitable for not only domain generalization but also other kernel-based eigenvalue decompositions. To show the practicality of the proposed method, we compare our methods against some well-known dimension reduction and domain generalization techniques on both synthetic data and real-world applications. We show that for small-scale datasets, we are able to achieve better quantitative results indicating better generalization performance over unseen test datasets. For large-scale problems, the proposed fast implementation maintains the quantitative performance but at a substantially lower computational cost. | 翻訳日:2021-10-14 13:36:50 公開日:2021-10-12 |
# 不確実性学習によるロバストな神経回帰 Robust Neural Regression via Uncertainty Learning ( http://arxiv.org/abs/2110.06395v1 ) ライセンス: Link先を確認 | Akib Mashrur and Wei Luo and Nayyar A. Zaidi and Antonio Robles-Kelly | (参考訳) ディープニューラルネットワークは不確実性を過小評価し、自信過剰な予測を生み出す傾向がある。
mc dropoutやsdenetのような最近提案されたソリューションは、複雑なトレーニングと/または補助的な分散データを必要とする。
一般化線形回帰法において、時間的反復重み付き最小二乗(IRLS)を拡張して簡単な解を提案する。
2つのサブネットワークを用いて予測と不確実性推定を行い,複雑な入力や非線形応答の処理を容易にする。
2つのサブネットワークは共通の表現を持ち、予測と不確実性推定のための2つの相補的損失関数によって訓練される。
mc-dropout や sde-net のようなより複雑なモデルと比較すると,提案するネットワークは実装が簡単で,より堅牢である。 Deep neural networks tend to underestimate uncertainty and produce overly confident predictions. Recently proposed solutions, such as MC Dropout and SDENet, require complex training and/or auxiliary out-of-distribution data. We propose a simple solution by extending the time-tested iterative reweighted least square (IRLS) in generalised linear regression. We use two sub-networks to parametrise the prediction and uncertainty estimation, enabling easy handling of complex inputs and nonlinear response. The two sub-networks have shared representations and are trained via two complementary loss functions for the prediction and the uncertainty estimates, with interleaving steps as in a cooperative game. Compared with more complex models such as MC-Dropout or SDE-Net, our proposed network is simpler to implement and more robust (insensitive to varying aleatoric and epistemic uncertainty). | 翻訳日:2021-10-14 13:04:17 公開日:2021-10-12 |
# HETFORMER:長文抽出要約のためのスパースアテンションを有する異種変圧器 HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization ( http://arxiv.org/abs/2110.06388v1 ) ライセンス: Link先を確認 | Ye Liu, Jian-Guo Zhang, Yao Wan, Congying Xia, Lifang He, Philip S. Yu | (参考訳) 生テキストから意味グラフ構造を捉えるため,既存の要約手法は事前学習モデルを用いてGNN上に構築されている。
しかし、これらの手法は長文文書に対する煩雑な手続きと非効率的な計算に苦しむ。
この問題を軽減するため,本論文では,長文抽出要約のための多粒度スパース注意を持つ変圧器型事前学習モデルhetformerを提案する。
具体的には,生文中の異なる意味ノードを潜在的に異質なグラフとしてモデル化し,トランスフォーマによってノード間の異種関係(エッジ)を直接学習する。
単一文書と複数文書の要約タスクの広範な実験により、HETFORMERはより少ないメモリと少ないパラメータを使用しながら、ルージュF1における最先端のパフォーマンスを達成することが示された。 To capture the semantic graph structure from raw text, most existing summarization approaches are built on GNNs with a pre-trained model. However, these methods suffer from cumbersome procedures and inefficient computations for long-text documents. To mitigate these issues, this paper proposes HETFORMER, a Transformer-based pre-trained model with multi-granularity sparse attentions for long-text extractive summarization. Specifically, we model different types of semantic nodes in raw text as a potential heterogeneous graph and directly learn heterogeneous relationships (edges) among nodes by Transformer. Extensive experiments on both single- and multi-document summarization tasks show that HETFORMER achieves state-of-the-art performance in Rouge F1 while using less memory and fewer parameters. | 翻訳日:2021-10-14 12:55:36 公開日:2021-10-12 |
# リニア関数近似を用いたリワードフリーモデルベース強化学習 Reward-Free Model-Based Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2110.06394v1 ) ライセンス: Link先を確認 | Weitong Zhang and Dongruo Zhou and Quanquan Gu | (参考訳) エピソディックマルコフ決定過程(mdps)に対する線形関数近似を用いたモデルベース無報酬強化学習について検討した。
この設定では、エージェントは2つのフェーズで動作する。
探索フェーズでは、エージェントは環境と相互作用し、報酬なしでサンプルを収集する。
計画段階では、エージェントは特定の報酬関数を与えられ、調査フェーズから収集されたサンプルを使用して適切なポリシーを学ぶ。
本稿では, 線形混合MDP仮定の下で, 状態, 動作, 次の状態の3重項上に定義された特徴写像に対して, MDP の遷移確率カーネルを線形関数でパラメータ化できる, 証明可能な新しいアルゴリズム UCRL-RFE を提案する。
任意の報酬関数に対して$\epsilon$-optimal policyを得るには、探索段階で最大$\tilde o(h^5d^2\epsilon^{-2})$のエピソードをサンプリングする必要がある。
ここで、$H$はエピソードの長さであり、$d$はフィーチャーマッピングの次元である。
ベルンシュタイン型ボーナスを用いたUCRL-RFEの変種も提案し、最大$\tilde O(H^4d(H + d)\epsilon^{-2})$でサンプリングし、$\epsilon$-optimal Policyを達成する必要があることを示す。
線形混合 MDP の特別なクラスを構築することで、どんな報酬のないアルゴリズムに対しても、$\epsilon$-optimal policy を得るために少なくとも$\tilde \Omega(H^2d\epsilon^{-2})$ episodes をサンプリングする必要があることも証明できる。
我々の上限は、$\epsilon$への依存と$h \ge d$ に対する$d$への依存という観点で下限に一致する。 We study the model-based reward-free reinforcement learning with linear function approximation for episodic Markov decision processes (MDPs). In this setting, the agent works in two phases. In the exploration phase, the agent interacts with the environment and collects samples without the reward. In the planning phase, the agent is given a specific reward function and uses samples collected from the exploration phase to learn a good policy. We propose a new provably efficient algorithm, called UCRL-RFE under the Linear Mixture MDP assumption, where the transition probability kernel of the MDP can be parameterized by a linear function over certain feature mappings defined on the triplet of state, action, and next state. We show that to obtain an $\epsilon$-optimal policy for arbitrary reward function, UCRL-RFE needs to sample at most $\tilde O(H^5d^2\epsilon^{-2})$ episodes during the exploration phase. Here, $H$ is the length of the episode, $d$ is the dimension of the feature mapping. We also propose a variant of UCRL-RFE using Bernstein-type bonus and show that it needs to sample at most $\tilde O(H^4d(H + d)\epsilon^{-2})$ to achieve an $\epsilon$-optimal policy. By constructing a special class of linear Mixture MDPs, we also prove that for any reward-free algorithm, it needs to sample at least $\tilde \Omega(H^2d\epsilon^{-2})$ episodes to obtain an $\epsilon$-optimal policy. Our upper bound matches the lower bound in terms of the dependence on $\epsilon$ and the dependence on $d$ if $H \ge d$. | 翻訳日:2021-10-14 12:54:09 公開日:2021-10-12 |
# (参考訳) 生物医学領域における事前学習言語モデル:体系的調査 Pre-trained Language Models in Biomedical Domain: A Systematic Survey ( http://arxiv.org/abs/2110.05006v2 ) ライセンス: CC BY 4.0 | Benyou Wang, Qianqian Xie, Jiahuan Pei, Prayag Tiwari, Zhao Li, and Jie fu | (参考訳) 事前学習された言語モデル(plms)は、ほとんどの自然言語処理(nlp)タスクのデファクトパラダイムである。
情報学、医学、コンピュータサイエンス(CS)コミュニティの研究者は、バイオメディカルテキスト、電子健康記録、タンパク質、および様々なバイオメディカルタスクのためのDNA配列など、バイオメディカルデータセットに基づいて訓練された様々なPLMを提案する。
しかし、生物医学的plmの学際的特徴はコミュニティ間の拡散を阻害し、既存の作品のいくつかは包括的に比較・議論することなく互いに分離されている。
バイオメディカルplmの最近の進歩とその応用を体系的にレビューするだけでなく、用語やベンチマークを標準化する調査が期待されている。
本稿では,生物医学領域における事前学習言語モデルの最近の進歩と,その生物医学下流課題への応用について概説する。
特に,その動機を議論し,既存の生物医学plmの分類法を提案する。
バイオメディカルダウンストリームタスクにおけるそれらの応用を概観する。
最後に,研究コミュニティの今後の研究にインスピレーションを与えてくれるような,さまざまな制限と今後のトレンドについて紹介する。 Pre-trained language models (PLMs) have been the de facto paradigm for most natural language processing (NLP) tasks. This also benefits biomedical domain: researchers from informatics, medicine, and computer science (CS) communities propose various PLMs trained on biomedical datasets, e.g., biomedical text, electronic health records, protein, and DNA sequences for various biomedical tasks. However, the cross-discipline characteristics of biomedical PLMs hinder their spreading among communities; some existing works are isolated from each other without comprehensive comparison and discussions. It expects a survey that not only systematically reviews recent advances of biomedical PLMs and their applications but also standardizes terminology and benchmarks. In this paper, we summarize the recent progress of pre-trained language models in the biomedical domain and their applications in biomedical downstream tasks. Particularly, we discuss the motivations and propose a taxonomy of existing biomedical PLMs. Their applications in biomedical downstream tasks are exhaustively discussed. At last, we illustrate various limitations and future trends, which we hope can provide inspiration for the future research of the research community. | 翻訳日:2021-10-14 10:31:51 公開日:2021-10-12 |
# (参考訳) DANIEL:高出力比のポイントクラウド登録のための高速かつロバストな合意最大化手法 DANIEL: A Fast and Robust Consensus Maximization Method for Point Cloud Registration with High Outlier Ratios ( http://arxiv.org/abs/2110.05075v2 ) ライセンス: CC0 1.0 | Lei Sun | (参考訳) 対応ベースの点雲登録は、幾何学的コンピュータビジョン、ロボット認識、フォトグラム、リモートセンシングの基盤であり、3Dキーポイント上に確立された対応から、2点雲間の最良の剛性変換を推定することを目指している。
しかし、ロバスト性や正確性が限られているため、現在の3dキーポイントマッチング技術は、おそらく非常に大きな数であっても、外れ値を生み出す可能性が非常に高いため、ポイントクラウド登録の堅牢な推定が非常に重要である。
残念ながら、既存のロバストな手法は高い計算コストや、高い(あるいは極端な)アウトリーチ比に遭遇する際には不十分なロバスト性に悩まされる可能性がある。
本稿では, DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity) と呼ばれる新しい時間効率RANSAC型コンセンサス最大化法を提案する。
DANIELは、2つのランダムサンプリング層で設計されており、最小の計算コストで不適切なサブセットを見つける。
具体的には
(i)一点サンプリングの第1層の生の異常値に剛性制約を適用する。
(II)二点サンプリングの第2層におけるより効率的なコンセンサス最大化を実現するため、最小限のモデル間の迅速な互換性チェックを行うための一連の階層化要素整合性試験を導入し、
(iii)最終イリアー集合のタイムリーな復帰を保証するために確率的終了条件が用いられる。
複数の実データセットに対する様々な実験に基づいて、DANIELは99%以上の外れ値に対して堅牢であり、既存の最先端の堅牢な解法(RANSAC、FGR、GOREなど)よりもはるかに高速であることを示す。 Correspondence-based point cloud registration is a cornerstone in geometric computer vision, robotics perception, photogrammetry and remote sensing, which seeks to estimate the best rigid transformation between two point clouds from the correspondences established over 3D keypoints. However, due to limited robustness and accuracy, current 3D keypoint matching techniques are very prone to yield outliers, probably even in very large numbers, making robust estimation for point cloud registration of great importance. Unfortunately, existing robust methods may suffer from high computational cost or insufficient robustness when encountering high (or even extreme) outlier ratios, hardly ideal enough for practical use. In this paper, we present a novel time-efficient RANSAC-type consensus maximization solver, named DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity), for robust registration. DANIEL is designed with two layers of random sampling, in order to find inlier subsets with the lowest computational cost possible. Specifically, we: (i) apply the rigidity constraint to prune raw outliers in the first layer of one-point sampling, (ii) introduce a series of stratified element-wise compatibility tests to conduct rapid compatibility checking between minimal models so as to realize more efficient consensus maximization in the second layer of two-point sampling, and (iii) probabilistic termination conditions are employed to ensure the timely return of the final inlier set. Based on a variety of experiments over multiple real datasets, we show that DANIEL is robust against over 99% outliers and also significantly faster than existing state-of-the-art robust solvers (e.g. RANSAC, FGR, GORE). | 翻訳日:2021-10-14 10:30:45 公開日:2021-10-12 |
# (参考訳) ソーシャルメディア上のBotNet検出 BotNet Detection On Social Media ( http://arxiv.org/abs/2110.05661v1 ) ライセンス: CC BY-SA 4.0 | Aniket Chandrakant Devle, Julia Ann Jose, Abhay Shrinivas Saraswathula, Shubham Mehta, Siddhant Srivastava, Sirisha Kona, Sudheera Daggumalli | (参考訳) ソーシャルメディアの人気と、それが言論の自由を促進するプラットフォームであるという考えから、これらのプラットフォームを使って他のユーザーを操作しようとするユーザー(ボット)アカウントのオープンプレイグラウンドとなっている。
ソーシャルボットは人間の会話、作法、存在を学習するだけでなく、世論の操作、詐欺行為、株式市場の操作なども行う。
ボットが選挙結果を操作している証拠は、全国、つまり世界にとって大きな脅威となる可能性がある。
そのため、ボットを放出または生成するキャンペーンの識別と防止は、その起源に対処するために重要になっている。
私たちの目標は、セマンティックウェブマイニング技術を活用して、これらの活動に関わる偽のボットやアカウントを特定することです。 Given the popularity of social media and the notion of it being a platform encouraging free speech, it has become an open playground for user (bot) accounts trying to manipulate other users using these platforms. Social bots not only learn human conversations, manners, and presence but also manipulate public opinion, act as scammers, manipulate stock markets, etc. There has been evidence of bots manipulating the election results which can be a great threat to the whole nation and hence the whole world. So identification and prevention of such campaigns that release or create the bots have become critical to tackling it at its source of origin. Our goal is to leverage semantic web mining techniques to identify fake bots or accounts involved in these activities. | 翻訳日:2021-10-14 05:17:02 公開日:2021-10-12 |
# (参考訳) 学習した構文文法が公開度を高めたレジスタに収束 Learned Construction Grammars Converge Across Registers Given Increased Exposure ( http://arxiv.org/abs/2110.05663v1 ) ライセンス: CC BY-SA 4.0 | Jonathan Dunn and Harish Tayyar Madabushi | (参考訳) 本稿では,学習した構文文法が,異なるレジスタのデータに基づいて学習された場合の共有表現に収束するか否かに対する露出の増加の影響を計測する。
登録は建設の頻度に影響し、いくつかの構造は形式的には一般的だが非公式には使われない。
異なるレジスタに露呈する文法帰納アルゴリズムは、異なる構成を得られると期待する。
エクスポージャーの増加はレジスタ固有文法の収束にどの程度つながるのか?
本稿では,12言語(半分はゲルマン語,半分はロマンス語)の言語学習をシミュレートし,コーパスは3つのレジスタ(Twitter,Wikipedia,Web)を表す。
これらのシミュレーションは、文法の収束に対する露出の影響を測定するために、1万語から200万語への露出の増加とともに繰り返される。
その結果,全言語にまたがる文法の収束につながることが明らかとなった。
さらに、レジスタ・ユニバーサル構成の共有コアは、露出の増加とともに一定である。 This paper measures the impact of increased exposure on whether learned construction grammars converge onto shared representations when trained on data from different registers. Register influences the frequency of constructions, with some structures common in formal but not informal usage. We expect that a grammar induction algorithm exposed to different registers will acquire different constructions. To what degree does increased exposure lead to the convergence of register-specific grammars? The experiments in this paper simulate language learning in 12 languages (half Germanic and half Romance) with corpora representing three registers (Twitter, Wikipedia, Web). These simulations are repeated with increasing amounts of exposure, from 100k to 2 million words, to measure the impact of exposure on the convergence of grammars. The results show that increased exposure does lead to converging grammars across all languages. In addition, a shared core of register-universal constructions remains constant across increasing amounts of exposure. | 翻訳日:2021-10-14 05:09:33 公開日:2021-10-12 |
# (参考訳) スケーラブル深層学習による超音波画像からの肝ステアトーシスの精度と定量評価 Accurate and Generalizable Quantitative Scoring of Liver Steatosis from Ultrasound Images via Scalable Deep Learning ( http://arxiv.org/abs/2110.05664v1 ) ライセンス: CC BY 4.0 | Bowen Li, Dar-In Tai, Ke Yan, Yi-Cheng Chen, Shiu-Feng Huang, Tse-Hwa Hsu, Wan-Ting Yu, Jing Xiao, Le Lu, Adam P. Harrison | (参考訳) 背景と目的:肝ステアトーシスは慢性肝疾患の主要な原因である。
2D超音波はスクリーニングとモニタリングにおいて最も広く用いられている非侵襲的ツールであるが、関連する診断は非常に主観的である。
2次元超音波画像から肝脂肪症の定量的評価のための拡張型ディープラーニング(DL)アルゴリズムを開発した。
アプローチ&結果:3,310例,19,513例,画像228,075例の多視点超音波データを用いて,超音波診断からステアトーシスステージ(健康,軽度,中等度,重度)を診断するdlアルゴリズムを訓練した。
病理組織学的脂肪細胞パーセンテージの診断と線維スカン診断の1つのサブセットを伴う2つの非盲検・盲検例(147例,112例)で成績が検証された。
我々はまた、スキャナーと視点の信頼性を定量化した。
Bland-Altman and receiver operating characteristic (ROC) を用いて評価した。
DLアルゴリズムは、3つのプレミアム超音波スキャナー間で、適度な数の画像(各視点)と高一致で繰り返し測定を行う。
roc曲線下の領域では>mild,>=moderate,=severe steatosis gradesはそれぞれ0.85, 0.90, 0.93であった。
dlアルゴリズムはフィブロスカンに比較して有意な改善がみられ,非盲検組織学-プロフェンコホート,<severe steatosis on the blinded histology-proven cohortに対して統計的に有意な改善がみられた。
結論: DLアルゴリズムは2つのマルチスキャナーコホートにおけるビューおよびスキャナー間の信頼性の高い定量的ステアトーシス評価を提供する。
診断性能はフィブロスカンと同等かそれ以上であった。 Background & Aims: Hepatic steatosis is a major cause of chronic liver disease. 2D ultrasound is the most widely used non-invasive tool for screening and monitoring, but associated diagnoses are highly subjective. We developed a scalable deep learning (DL) algorithm for quantitative scoring of liver steatosis from 2D ultrasound images. Approach & Results: Using retrospectively collected multi-view ultrasound data from 3,310 patients, 19,513 studies, and 228,075 images, we trained a DL algorithm to diagnose steatosis stages (healthy, mild, moderate, or severe) from ultrasound diagnoses. Performance was validated on two multi-scanner unblinded and blinded (initially to DL developer) histology-proven cohorts (147 and 112 patients) with histopathology fatty cell percentage diagnoses, and a subset with FibroScan diagnoses. We also quantified reliability across scanners and viewpoints. Results were evaluated using Bland-Altman and receiver operating characteristic (ROC) analysis. The DL algorithm demonstrates repeatable measurements with a moderate number of images (3 for each viewpoint) and high agreement across 3 premium ultrasound scanners. High diagnostic performance was observed across all viewpoints: area under the curves of the ROC to classify >=mild, >=moderate, =severe steatosis grades were 0.85, 0.90, and 0.93, respectively. The DL algorithm outperformed or performed at least comparably to FibroScan with statistically significant improvements for all levels on the unblinded histology-proven cohort, and for =severe steatosis on the blinded histology-proven cohort. Conclusions: The DL algorithm provides a reliable quantitative steatosis assessment across view and scanners on two multi-scanner cohorts. Diagnostic performance was high with comparable or better performance than FibroScan. | 翻訳日:2021-10-14 04:58:42 公開日:2021-10-12 |
# (参考訳) 私の言う通りにしてるの?
ALFREDにおけるモダリティアライメントについて Are you doing what I say? On modalities alignment in ALFRED ( http://arxiv.org/abs/2110.05665v1 ) ライセンス: CC BY-SA 4.0 | Ting-Rui Chiang, Yi-Ting Yeh, Ta-Chung Chi, Yau-Shian Wang | (参考訳) ALFREDは最近提案されたベンチマークで、自然言語の命令によって指定されたシミュレーションされた住宅環境でタスクを完了させるモデルを必要とする。
成功への鍵は、テキストのモダリティを視覚的な入力と正確に一致させることであると仮定する。
提案する本質的指標である境界遵守スコア(bas)を用いて,既存のモデルがこれらのモダリティをどのように整列できるかを検証した。
結果は、以前のモデルが適切なアライメントを実行できないことを示している。
この問題に対処するために、モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンスの向上を実証する。 ALFRED is a recently proposed benchmark that requires a model to complete tasks in simulated house environments specified by instructions in natural language. We hypothesize that key to success is accurately aligning the text modality with visual inputs. Motivated by this, we inspect how well existing models can align these modalities using our proposed intrinsic metric, boundary adherence score (BAS). The results show the previous models are indeed failing to perform proper alignment. To address this issue, we introduce approaches aimed at improving model alignment and demonstrate how improved alignment, improves end task performance. | 翻訳日:2021-10-14 04:57:10 公開日:2021-10-12 |
# (参考訳) NAS-Bench-360: ニューラルネットワーク探索のためのタスクのベンチマーク NAS-Bench-360: Benchmarking Diverse Tasks for Neural Architecture Search ( http://arxiv.org/abs/2110.05668v1 ) ライセンス: CC BY 4.0 | Renbo Tu, Mikhail Khodak, Nicholas Roberts, Ameet Talwalkar | (参考訳) 既存のニューラルネットワークサーチ(NAS)ベンチマークとアルゴリズムは、よく研究されたタスク、例えばCIFARとImageNetの画像分類のパフォーマンスを優先している。
これにより、より多様な領域におけるNASアプローチの適用性が不十分になる。
本稿では,畳み込みニューラルネットワーク(CNN)の最先端NAS手法を評価するベンチマークスイートであるNAS-Bench-360を提案する。
これを構築するために、さまざまなアプリケーションドメイン、データセットのサイズ、問題次元、学習目標からなる10のタスクのコレクションをキュレーションします。
従来のCNNベースの検索手法と相互運用できるタスクを慎重に選択することで、NAS-Bench-360は、従来のNASメソッドが様々なタスクでうまく機能しているかという、次の中心的な疑問に答えることができる。
画像分類のための現代的なNASプロシージャは、他の次元や学習目的を持つタスクに対して優れたアーキテクチャを見出すことができるが、同じ手法はよりタスク固有の手法に抗し、非視覚領域の分類において破滅的に貧弱な処理を行う。
リソース制約のある環境では、NASロバストネスのケースは、より単純なベースラインよりも、最近のNASメソッドでは、ほとんど恩恵を受けない。
これらの結果は、NAS-Bench-360のようなベンチマークが、真に堅牢で自動化されたパイプラインの重要なコンポーネントである様々なタスクでうまく機能するNASアプローチの開発を支援する必要性を示している。
最後に、一連のタスクが実現するであろう将来の研究のデモで締めくくります。
すべてのデータとコードは公開されています。 Most existing neural architecture search (NAS) benchmarks and algorithms prioritize performance on well-studied tasks, e.g., image classification on CIFAR and ImageNet. This makes the applicability of NAS approaches in more diverse areas inadequately understood. In this paper, we present NAS-Bench-360, a benchmark suite for evaluating state-of-the-art NAS methods for convolutional neural networks (CNNs). To construct it, we curate a collection of ten tasks spanning a diverse array of application domains, dataset sizes, problem dimensionalities, and learning objectives. By carefully selecting tasks that can both interoperate with modern CNN-based search methods but that are also far-afield from their original development domain, we can use NAS-Bench-360 to investigate the following central question: do existing state-of-the-art NAS methods perform well on diverse tasks? Our experiments show that a modern NAS procedure designed for image classification can indeed find good architectures for tasks with other dimensionalities and learning objectives; however, the same method struggles against more task-specific methods and performs catastrophically poorly on classification in non-vision domains. The case for NAS robustness becomes even more dire in a resource-constrained setting, where a recent NAS method provides little-to-no benefit over much simpler baselines. These results demonstrate the need for a benchmark such as NAS-Bench-360 to help develop NAS approaches that work well on a variety of tasks, a crucial component of a truly robust and automated pipeline. We conclude with a demonstration of the kind of future research our suite of tasks will enable. All data and code is made publicly available. | 翻訳日:2021-10-14 04:45:56 公開日:2021-10-12 |
# (参考訳) 大規模言語モデルは強力な個人学習者になれる Large Language Models Can Be Strong Differentially Private Learners ( http://arxiv.org/abs/2110.05679v1 ) ライセンス: CC BY 4.0 | Xuechen Li, Florian Tram\`er, Percy Liang, Tatsunori Hashimoto | (参考訳) Differentially Private (DP) 学習はテキストの大規模深層学習モデルの構築に限定的に成功しており、NLPタスクに微分プライベート確率勾配(DP-SGD)を直接適用しようとする試みは、大きなパフォーマンス低下と高い計算オーバーヘッドをもたらしている。
この性能低下は,(1)大規模事前学習モデルの利用,(2)dp最適化に適したハイパーパラメータ,(3)事前学習手順に適合した微調整目標によって軽減できることを示す。
これらの要因を適切に設定することで、中規模コーパス上でdp最適化を施した事前学習モデルを直接調整することで、最先端のプライベートトレーニングアプローチや強力な非プライベートベースラインを上回るプライベートnlpモデルを得る。
大規模トランスフォーマーを用いたdp-sgdの計算課題に対処するために,dp-sgdのクリップングをモデル内の任意の層に対して,サンプル毎の勾配をインスタンス化することなく実行できるメモリ節約手法を提案する。
この技術は、最小限のランタイムオーバーヘッドでプライベートトレーニングとほぼ同じメモリコストで、トランスフォーマーをプライベートにトレーニングすることを可能にする。
DP最適化は高次元モデル(次元に合わせてスケールするノイズのため)の学習に失敗するという従来の知恵とは対照的に、事前学習されたモデルによる私的な学習は次元に依存した性能劣化に悩まされない傾向にある。 Differentially Private (DP) learning has seen limited success for building large deep learning models of text, and attempts at straightforwardly applying Differentially Private Stochastic Gradient Descent (DP-SGD) to NLP tasks have resulted in large performance drops and high computational overhead. We show that this performance drop can be mitigated with (1) the use of large pretrained models; (2) hyperparameters that suit DP optimization; and (3) fine-tuning objectives aligned with the pretraining procedure. With these factors set right, we obtain private NLP models that outperform state-of-the-art private training approaches and strong non-private baselines -- by directly fine-tuning pretrained models with DP optimization on moderately-sized corpora. To address the computational challenge of running DP-SGD with large Transformers, we propose a memory saving technique that allows clipping in DP-SGD to run without instantiating per-example gradients for any layer in the model. The technique enables privately training Transformers with almost the same memory cost as non-private training at a modest run-time overhead. Contrary to conventional wisdom that DP optimization fails at learning high-dimensional models (due to noise that scales with dimension) empirical results reveal that private learning with pretrained models tends to not suffer from dimension-dependent performance degradation. | 翻訳日:2021-10-14 04:25:22 公開日:2021-10-12 |
# (参考訳) 収穫の方法がない:堅固な画像作物のローカライゼーションについて No way to crop: On robust image crop localization ( http://arxiv.org/abs/2110.05687v1 ) ライセンス: CC BY 4.0 | Qichao Ying, Xiaoxiao Hu, Hang Zhou, Xiangyu Zhang, Zhengxin You and Zhenxing Qian | (参考訳) 作物検出のための従来の画像鑑識は、画像が切り取られたかどうかの予測にのみ制限されている。
本稿では,ロバストな透かしを用いた画像作物定位手法を提案する。
さらに,攻撃画像に対する改ざん攻撃を検知する手法をさらに拡張する。
本手法は,高精度かつロバストな画像作物定位を提供する最初の手法であることを示す。
さらに、タンパー検出の精度は多くの最先端手法に匹敵する。 Previous image forensics schemes for crop detection are only limited on predicting whether an image has been cropped. This paper presents a novel scheme for image crop localization using robust watermarking. We further extend our scheme to detect tampering attack on the attacked image. We demonstrate that our scheme is the first to provide high-accuracy and robust image crop localization. Besides, the accuracy of tamper detection is comparable to many state-of-the-art methods. | 翻訳日:2021-10-14 03:43:51 公開日:2021-10-12 |
# (参考訳) 包括的デザイン:認知障害者のアクセシビリティ設定 Inclusive Design: Accessibility Settings for People with Cognitive Disabilities ( http://arxiv.org/abs/2110.05688v1 ) ライセンス: CC BY-SA 4.0 | Trae Waggoner, Julia Ann Jose, Ashwin Nair, Sudarsan Manikandan | (参考訳) 技術の進歩は世界のどの分野よりも急速に進展しており、これらの新技術の発展に伴い、これらのツールが障害者を含むすべての人が確実に利用できるようにすることが重要である。
コンピュータ機器のアクセシビリティオプションは、誰もが高度な技術に同じアクセスを確実にするのに役立つ。
残念ながら、筋萎縮性側索硬化症(ALS)のような、よりユニークで時折困難な宿泊施設を必要とする人々にとって、最も一般的に使用されるアクセシビリティー機能は、単に不十分である。
ALSの補助技術は存在するが、複数の周辺機器が必要であり、一括して非常に高価になる。
本研究の目的は,スマートフォンやタブレットに実装可能なALSアシスト技術に対して,より安価で手頃な選択肢を提案することである。 The advancement of technology has progressed faster than any other field in the world and with the development of these new technologies, it is important to make sure that these tools can be used by everyone, including people with disabilities. Accessibility options in computing devices help ensure that everyone has the same access to advanced technologies. Unfortunately, for those who require more unique and sometimes challenging accommodations, such as people with Amyotrophic lateral sclerosis ( ALS), the most commonly used accessibility features are simply not enough. While assistive technology for those with ALS does exist, it requires multiple peripheral devices that can become quite expensive collectively. The purpose of this paper is to suggest a more affordable and readily available option for ALS assistive technology that can be implemented on a smartphone or tablet. | 翻訳日:2021-10-14 03:27:12 公開日:2021-10-12 |
# (参考訳) 実世界ロバストな画像に画像を入れる Hiding Images into Images with Real-world Robustness ( http://arxiv.org/abs/2110.05689v1 ) ライセンス: CC BY 4.0 | Qichao Ying, Hang Zhou, Xianhan Zeng, Haisheng Xu, Zhenxing Qian and Xinpeng Zhang | (参考訳) 既存の画像埋め込みネットワークは、JPEG圧縮やノイズ付加のような悪意のある攻撃に対して本質的に脆弱であり、現実世界の著作権保護タスクには適用できない。
そこで本研究では,合成画像から高品質な抽出を行いながら画像に画像を隠す,生成的深層ネットワークに基づく手法を提案する。
埋め込みネットワークは、攻撃層、疎結合ネットワーク、画像抽出ネットワークと順次連結される。
分離ネットワークの追加により、攻撃された画像から埋め込み透かしを抽出する。
また,先行研究におけるロバスト性に対する敵意トレーニングの弱点を指摘し,改良した実世界アタックシミュレータを構築した。
実験結果から,提案手法が一般的なディジタル攻撃に対して大きなマージンで勝ることを示すとともに,プログレッシブ・リカバリ戦略の助けを借りて,回復画像の性能向上を図った。
さらに、我々は3つの秘密画像をロバストに隠した最初の人物です。 The existing image embedding networks are basically vulnerable to malicious attacks such as JPEG compression and noise adding, not applicable for real-world copyright protection tasks. To solve this problem, we introduce a generative deep network based method for hiding images into images while assuring high-quality extraction from the destructive synthesized images. An embedding network is sequentially concatenated with an attack layer, a decoupling network and an image extraction network. The addition of decoupling network learns to extract the embedded watermark from the attacked image. We also pinpoint the weaknesses of the adversarial training for robustness in previous works and build our improved real-world attack simulator. Experimental results demonstrate the superiority of the proposed method against typical digital attacks by a large margin, as well as the performance boost of the recovered images with the aid of progressive recovery strategy. Besides, we are the first to robustly hide three secret images. | 翻訳日:2021-10-14 03:20:32 公開日:2021-10-12 |
# (参考訳) 観測・実験データからの部分的対物同定 Partial Counterfactual Identification from Observational and Experimental Data ( http://arxiv.org/abs/2110.05690v1 ) ライセンス: CC BY-SA 4.0 | Junzhe Zhang, Jin Tian, Elias Bareinboim | (参考訳) 本稿では,観測分布および実験分布の任意の集合からの反事実クエリのバウンディング問題と,因果図形式で表される基礎となるデータ生成モデルに関する質的知識について検討する。
任意の構造因果モデル(SCM)におけるすべての反事実分布は、観測されていない(外在的な)変数が有限領域で離散的な同じ因果図を持つSCMの正準族によって生成できることを示す。
正準scmを用いて,反事実クエリに対して解が最適境界を与える多項式プログラミングの問題に反事実のバウンディング問題を翻訳する。
このような多項式プログラムの解法は通常計算コストが高い。
そこで我々は,観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
私たちのアルゴリズムは、合成および実世界のデータセット上で広く検証されています。 This paper investigates the problem of bounding counterfactual queries from an arbitrary collection of observational and experimental distributions and qualitative knowledge about the underlying data-generating model represented in the form of a causal diagram. We show that all counterfactual distributions in an arbitrary structural causal model (SCM) could be generated by a canonical family of SCMs with the same causal diagram where unobserved (exogenous) variables are discrete with a finite domain. Utilizing the canonical SCMs, we translate the problem of bounding counterfactuals into that of polynomial programming whose solution provides optimal bounds for the counterfactual query. Solving such polynomial programs is in general computationally expensive. We therefore develop effective Monte Carlo algorithms to approximate the optimal bounds from an arbitrary combination of observational and experimental data. Our algorithms are validated extensively on synthetic and real-world datasets. | 翻訳日:2021-10-14 03:08:08 公開日:2021-10-12 |
# (参考訳) 弱ラベル映像におけるタスク認識とアクションセグメンテーションのための階層的モデリング Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional Videos ( http://arxiv.org/abs/2110.05697v1 ) ライセンス: CC BY 4.0 | Reza Ghoddoosian, Saif Sayed, Vassilis Athitsos | (参考訳) 本稿では,訓練中のビデオレベルアクションの順序列のみを使用可能な,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位タスクを認識する2ストリームフレームワークを提案する。
さらに,提案手法では,微粒なアクションシーケンスの推論を制約するために,予測タスクが使用される。
人気のBreakfast and Cooking 2データセットの実験結果から、私たちの2ストリームの階層的なタスクモデリングは、すべてのデータセットとメトリクスの上位レベルのタスク認識において、既存のメソッドよりも大幅に優れています。
さらに,提案するトップダウンアクションセグメンテーション手法におけるタスク認識フレームワークの利用により,技術状況は一貫して改善され,セグメンテーションの時間も80~90%短縮される。 This paper focuses on task recognition and action segmentation in weakly-labeled instructional videos, where only the ordered sequence of video-level actions is available during training. We propose a two-stream framework, which exploits semantic and temporal hierarchies to recognize top-level tasks in instructional videos. Further, we present a novel top-down weakly-supervised action segmentation approach, where the predicted task is used to constrain the inference of fine-grained action sequences. Experimental results on the popular Breakfast and Cooking 2 datasets show that our two-stream hierarchical task modeling significantly outperforms existing methods in top-level task recognition for all datasets and metrics. Additionally, using our task recognition framework in the proposed top-down action segmentation approach consistently improves the state of the art, while also reducing segmentation inference time by 80-90 percent. | 翻訳日:2021-10-14 02:11:16 公開日:2021-10-12 |
# (参考訳) データセットにおけるアノテータレベルラベルと情報のリリースについて On Releasing Annotator-Level Labels and Information in Datasets ( http://arxiv.org/abs/2110.05699v1 ) ライセンス: CC BY 4.0 | Vinodkumar Prabhakaran, Aida Mostafazadeh Davani, Mark D\'iaz | (参考訳) NLPデータセットの構築における一般的なプラクティスは、特にクラウドソースのアノテーションを使用して、同じデータインスタンス上で複数のアノテータ判断を取得し、多数決、平均化、あるいは偏見を通じて、単一の"地上真実"ラベルまたはスコアを生成するようにフラット化される。
これらのアプローチは特定のアノテーションタスクに適しているが、そのような集約は、より主観的なタスクに対するアノテーションがキャプチャーすることを意図した、社会的に構築された人間の知覚の性質を見落としている。
特に、社会文化的背景や生活経験による注釈者間の系統的不一致は、しばしばそのような集約によって無視される。
本稿では,ラベルアグリゲーションが個人およびグループ視点の表現バイアスをもたらすことを実証的に示す。
この発見に基づいて、下流のユースケースに対するデータセットの有用性と透明性を高めるための一連の勧告を提案する。 A common practice in building NLP datasets, especially using crowd-sourced annotations, involves obtaining multiple annotator judgements on the same data instances, which are then flattened to produce a single "ground truth" label or score, through majority voting, averaging, or adjudication. While these approaches may be appropriate in certain annotation tasks, such aggregations overlook the socially constructed nature of human perceptions that annotations for relatively more subjective tasks are meant to capture. In particular, systematic disagreements between annotators owing to their socio-cultural backgrounds and/or lived experiences are often obfuscated through such aggregations. In this paper, we empirically demonstrate that label aggregation may introduce representational biases of individual and group perspectives. Based on this finding, we propose a set of recommendations for increased utility and transparency of datasets for downstream use cases. | 翻訳日:2021-10-14 01:51:19 公開日:2021-10-12 |
# (参考訳) デプロイ中の安全・コンプライアンスのためのロボット学習 Auditing Robot Learning for Safety and Compliance during Deployment ( http://arxiv.org/abs/2110.05702v1 ) ライセンス: CC BY 4.0 | Homanga Bharadhwaj | (参考訳) 未来のロボットは、さまざまなタスクで人間らしく超人間的な知性を発揮するようになるだろう。
彼らはまた、失敗し、より微妙な方法で人間の好みに従わない可能性が高い。
自律型ロボットの実現という目標に向けて、ロボット学習コミュニティは、データとインタラクションを通じてロボットを訓練するための機械学習技術の適用を、急速に進めてきた。
これにより、これらのアルゴリズムが人間との互換性、関係性、緊急性をチェックするのに最適な方法が研究される。
本稿では,aiの安全性とアライメントのコミュニティからインスピレーションを得て,ロボット学習アルゴリズムを最もよく監査し,障害モードをチェックし,自律的に運用する場合,人間のアルゴリズム設計者が意図する方法で行動することを保証する方法について,緊急に検討する必要があることを述べる。
これはロボット学習コミュニティ全体の努力を必要とする課題であり、監査のための具体的なフレームワークを提供しようとはしていません。
その代わり、ロボット学習の文脈で監査を考える上で有用な出発点として、我々は、高レベルのガイダンスと、このフレームワークの定式化への可能なアプローチを概説する。 Robots of the future are going to exhibit increasingly human-like and super-human intelligence in a myriad of different tasks. They are also likely going to fail and be incompliant with human preferences in increasingly subtle ways. Towards the goal of achieving autonomous robots, the robot learning community has made rapid strides in applying machine learning techniques to train robots through data and interaction. This makes the study of how best to audit these algorithms for checking their compatibility with humans, pertinent and urgent. In this paper, we draw inspiration from the AI Safety and Alignment communities and make the case that we need to urgently consider ways in which we can best audit our robot learning algorithms to check for failure modes, and ensure that when operating autonomously, they are indeed behaving in ways that the human algorithm designers intend them to. We believe that this is a challenging problem that will require efforts from the entire robot learning community, and do not attempt to provide a concrete framework for auditing. Instead, we outline high-level guidance and a possible approach towards formulating this framework which we hope will serve as a useful starting point for thinking about auditing in the context of robot learning. | 翻訳日:2021-10-14 01:42:28 公開日:2021-10-12 |
# (参考訳) 不一致に対処する - 主観的アノテーションの多数決を超えて見る Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations ( http://arxiv.org/abs/2110.05719v1 ) ライセンス: CC BY 4.0 | Aida Mostafazadeh Davani, Mark D\'iaz, Vinodkumar Prabhakaran | (参考訳) 多数決と平均化は、アノテータの不一致を解消し、複数のアノテーションから単一基底真理ラベルを導出するための一般的なアプローチである。
しかし、アノテーターは体系的に互いに意見の相違があり、特に感情、攻撃性、ヘイトスピーチなどの主観的タスクの場合、個々のバイアスや価値観を反映することが多い。
アノテーションの不一致は、しばしば無視されるようなタスクにおいて重要なニュアンスを捉え、アノテーションを一つの根拠の真実に集約する。
そこで本研究では,マルチアノテータモデルの有効性について検討する。
特に、マルチタスクに基づくアプローチでは、各アノテータの判断を個別のサブタスクとして予測し、タスクの共通の学習表現を共有する。
このアプローチは、7つの異なるバイナリ分類タスクにまたがるトレーニングの前にデータラベルを集約するよりも、同等または優れたパフォーマンスをもたらす。
提案手法は予測の不確かさを推定する手段も提供し,従来の手法よりもアノテーションの不一致との相関が良好であることを示す。
不確実性をモデル化できることは、予測を行うべきでないことを知るデプロイメントシナリオにおいて特に有用である。 Majority voting and averaging are common approaches employed to resolve annotator disagreements and derive single ground truth labels from multiple annotations. However, annotators may systematically disagree with one another, often reflecting their individual biases and values, especially in the case of subjective tasks such as detecting affect, aggression, and hate speech. Annotator disagreements may capture important nuances in such tasks that are often ignored while aggregating annotations to a single ground truth. In order to address this, we investigate the efficacy of multi-annotator models. In particular, our multi-task based approach treats predicting each annotators' judgements as separate subtasks, while sharing a common learned representation of the task. We show that this approach yields same or better performance than aggregating labels in the data prior to training across seven different binary classification tasks. Our approach also provides a way to estimate uncertainty in predictions, which we demonstrate better correlate with annotation disagreements than traditional methods. Being able to model uncertainty is especially useful in deployment scenarios where knowing when not to make a prediction is important. | 翻訳日:2021-10-14 01:34:00 公開日:2021-10-12 |
# (参考訳) LightSeq: GPU上のトランスフォーマーベースのモデルの高速化トレーニング LightSeq: Accelerated Training for Transformer-based Models on GPUs ( http://arxiv.org/abs/2110.05722v1 ) ライセンス: CC BY 4.0 | Xiaohui Wang, Ying Xiong, Xian Qian, Yang Wei, Lei Li, Mingxuan Wang | (参考訳) トランスフォーマーベースのモデルは、多くの自然言語、コンピュータビジョン、音声認識アプリケーションで強力であることが証明されている。
これらのモデルのトレーニングは、未修正の入力長、複雑な計算、そして大量のパラメータのために高価である。
既存のシステムは効率的な推論のみにフォーカスするか、bertライクなエンコーダモデルのみを最適化する。
本稿では,GPU上でのTransformerベースのモデルの効率的なトレーニングシステムであるLightSeqを提案する。
本稿では,トランスフォーマーにおけるニューラルネットワークの計算フローとメモリアクセスパターンに適したgpu最適化手法を提案する。
LightSeqはBERT(エンコーダのみ)、GPT(デコーダのみ)、Transformer(エンコーダのみ)など、さまざまなネットワークアーキテクチャをサポートしている。
各種モデルとデータセットを用いたGPU実験の結果,LightSeqは従来のシステムに比べて1.4-3.5倍高速であることがわかった。
特に、大規模な公開機械翻訳ベンチマーク(WMT14英語-ドイツ語)の既存のシステムと比較して、トレーニング速度が308%向上している。 Transformer-based models have proven to be powerful in many natural language, computer vision, and speech recognition applications. It is expensive to train these types of models due to unfixed input length, complex computation, and large numbers of parameters. Existing systems either only focus on efficient inference or optimize only BERT-like encoder models. In this paper, we present LightSeq, a system for efficient training of Transformer-based models on GPUs. We propose a series of GPU optimization techniques tailored to computation flow and memory access patterns of neural layers in Transformers. LightSeq supports a variety of network architectures, including BERT (encoder-only), GPT (decoder-only), and Transformer (encoder-decoder). Our experiments on GPUs with varying models and datasets show that LightSeq is 1.4-3.5x faster than previous systems. In particular, it gains 308% training speedup compared with existing systems on a large public machine translation benchmark (WMT14 English-German). | 翻訳日:2021-10-14 01:12:05 公開日:2021-10-12 |
# (参考訳) SOTA照合アルゴリズムのロバスト性評価のためのオントノートにGUMを適応させるオントガムの解剖 Anatomy of OntoGUM--Adapting GUM to the OntoNotes Scheme to Evaluate Robustness of SOTA Coreference Algorithms ( http://arxiv.org/abs/2110.05727v1 ) ライセンス: CC BY 4.0 | Yilun Zhu, Sameer Pradhan, Amir Zeldes | (参考訳) SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。
しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。
Zhu et al. (2021)は、最新のニューラルLMベースのエンドツーエンドシステムの発芽性を評価するためのOntoGUMコーパスの作成を導入した。
本稿では,GUMコーパスで手動で注釈付けされたリッチな構文および談話アノテーションに適用される決定論的ルールの集合であるマッピングプロセスの詳細について述べる。
12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。 SOTA coreference resolution produces increasingly impressive scores on the OntoNotes benchmark. However lack of comparable data following the same scheme for more genres makes it difficult to evaluate generalizability to open domain data. Zhu et al. (2021) introduced the creation of the OntoGUM corpus for evaluating geralizability of the latest neural LM-based end-to-end systems. This paper covers details of the mapping process which is a set of deterministic rules applied to the rich syntactic and discourse annotations manually annotated in the GUM corpus. Out-of-domain evaluation across 12 genres shows nearly 15-20% degradation for both deterministic and deep learning systems, indicating a lack of generalizability or covert overfitting in existing coreference resolution models. | 翻訳日:2021-10-14 00:51:05 公開日:2021-10-12 |
# (参考訳) マルチエージェント協調視覚探索の学習 Learning Efficient Multi-Agent Cooperative Visual Exploration ( http://arxiv.org/abs/2110.05734v1 ) ライセンス: CC BY 4.0 | Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, Yi Wu | (参考訳) 本稿では,複数のエージェントによる視覚的室内探索の課題について検討し,エージェントは可能な限り少ないステップで屋内領域全体を協調的に探索する必要がある。
古典的な計画に基づく手法は、推論ステップごとに特に高価な計算に悩まされ、協調戦略の限定的な表現性に悩まされることが多い。
対照的に、強化学習(RL)は、任意の複雑な戦略のモデリング能力と最小の推論オーバーヘッドのため、この課題に取り組むためのトレンドパラダイムとなっている。
本稿では,各エージェントの空間情報をエンドツーエンドで活用し,探索効率の高い異なる空間目標に向けて,エージェントを効果的に誘導する新しいrlベースのグローバルゴールプランナーである空間協調プランナー(scp)を導入することにより,最先端のシングルエージェントrlソリューションであるアクティブニューラルスラム(ans)をマルチエージェント設定に拡張する。
SCPは、エージェント内相互作用をキャプチャするトランスフォーマーベースのリレーションエンコーダと、正確な目標を生成する空間行動デコーダから構成される。
さらに,各エージェントからの局所情報を処理するマルチエージェント拡張も実装し,協調した空間表現とより正確な計画を行う。
最後のソリューションであるMulti-Agent Active Neural SLAM (MAANS) は、これらの技術を組み合わせて、4つの異なるプランニングベース手法と、写真リアルな物理テストベッドHabitatにおける様々なRLベースラインを大幅に上回る。 We consider the task of visual indoor exploration with multiple agents, where the agents need to cooperatively explore the entire indoor region using as few steps as possible. Classical planning-based methods often suffer from particularly expensive computation at each inference step and a limited expressiveness of cooperation strategy. By contrast, reinforcement learning (RL) has become a trending paradigm for tackling this challenge due to its modeling capability of arbitrarily complex strategies and minimal inference overhead. We extend the state-of-the-art single-agent RL solution, Active Neural SLAM (ANS), to the multi-agent setting by introducing a novel RL-based global-goal planner, Spatial Coordination Planner (SCP), which leverages spatial information from each individual agent in an end-to-end manner and effectively guides the agents to navigate towards different spatial goals with high exploration efficiency. SCP consists of a transformer-based relation encoder to capture intra-agent interactions and a spatial action decoder to produce accurate goals. In addition, we also implement a few multi-agent enhancements to process local information from each agent for an aligned spatial representation and more precise planning. Our final solution, Multi-Agent Active Neural SLAM (MAANS), combines all these techniques and substantially outperforms 4 different planning-based methods and various RL baselines in the photo-realistic physical testbed, Habitat. | 翻訳日:2021-10-14 00:39:37 公開日:2021-10-12 |
# (参考訳) 後継表現を用いた強化学習における時間的抽象化 Temporal Abstraction in Reinforcement Learning with the Successor Representation ( http://arxiv.org/abs/2110.05740v1 ) ライセンス: CC BY 4.0 | Marlos C. Machado and Andre Barreto and Doina Precup | (参考訳) 時間的抽象化の複数のレベルでの推論は、インテリジェンスの重要な特性の1つである。
強化学習では、オプションと呼ばれる時間的に拡張されたアクションのコースを通じてモデル化されることが多い。
オプションによってエージェントは予測を行い、環境内のさまざまなレベルの抽象化で操作できる。
それでも、option frameworkに基づくアプローチは、合理的なオプションセットが事前に知られているという仮定から始めることが多い。
もしそうでなければ、どの選択肢を検討するべきか決定的な答えはありません。
本稿では,国家訪問のパターンに基づいて状態を符号化した後継表現 (SR) を,時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々の主張を支持するために、我々は最近の成果を概観し、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示した。
我々はこれらの結果を,エージェントの表現を用いて有用なオプションを識別し,その表現をさらに改善する,オプション発見のための一般的なフレームワークのインスタンス化として用いた。
この結果、表現とオプションの両方が互いに基づいて常に洗練される、厳密で絶え間ないサイクルがもたらされる。
オプション発見そのもの以外にも、SRによって、追加の学習なしに、組合せ的に大きな選択肢にオプションセットを拡張できる方法について論じる。
これは、以前に学習したオプションを組み合わせることで実現される。
我々の経験的評価は、時間的拡張探索のための選択肢と、それらを組み合わせるためのSRの使用に焦点を当てている。
実験の結果,オプションの定義に関わる設計上の決定に光を当て,固有オプションやオプションキーボードなど,SRに基づく異なる手法の相乗効果を実証した。 Reasoning at multiple levels of temporal abstraction is one of the key attributes of intelligence. In reinforcement learning, this is often modeled through temporally extended courses of actions called options. Options allow agents to make predictions and to operate at different levels of abstraction within an environment. Nevertheless, approaches based on the options framework often start with the assumption that a reasonable set of options is known beforehand. When this is not the case, there are no definitive answers for which options one should consider. In this paper, we argue that the successor representation (SR), which encodes states based on the pattern of state visitation that follows them, can be seen as a natural substrate for the discovery and use of temporal abstractions. To support our claim, we take a big picture view of recent results, showing how the SR can be used to discover options that facilitate either temporally-extended exploration or planning. We cast these results as instantiations of a general framework for option discovery in which the agent's representation is used to identify useful options, which are then used to further improve its representation. This results in a virtuous, never-ending, cycle in which both the representation and the options are constantly refined based on each other. Beyond option discovery itself, we discuss how the SR allows us to augment a set of options into a combinatorially large counterpart without additional learning. This is achieved through the combination of previously learned options. Our empirical evaluation focuses on options discovered for temporally-extended exploration and on the use of the SR to combine them. The results of our experiments shed light on design decisions involved in the definition of options and demonstrate the synergy of different methods based on the SR, such as eigenoptions and the option keyboard. | 翻訳日:2021-10-14 00:17:15 公開日:2021-10-12 |
# (参考訳) SEPP: 逆文の保存・検出のための予測確率の類似性推定 SEPP: Similarity Estimation of Predicted Probabilities for Defending and Detecting Adversarial Text ( http://arxiv.org/abs/2110.05748v1 ) ライセンス: CC BY 4.0 | Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto | (参考訳) 分類器が入力テキストをどのように処理するか、すなわち誤分類と正しい分類の2つのケースがある。
誤分類されたテキストの観点では、分類器は不正な予測と敵対的なテキストの両方でテキストを扱い、分類器を騙すために生成される。
どちらのタイプも被害者によって誤解されているが、他の分類器でも認識できる。
これにより、被害者と他の分類器の間の予測確率に大きなギャップが生じる。
対照的に、被害者によって正しく分類されたテキストは、しばしば他人によって予測され、小さなギャップを生じさせる。
本稿では,予測確率の類似度推定(sepp)に基づくアンサンブルモデルを提案する。
SEPPは、誤分類されたテキストの誤った予測を修正する。
各種の被害者分類器、分類タスク、敵攻撃による敵対的テキストの保護・検出におけるSEPPのレジリエンスを実証する。 There are two cases describing how a classifier processes input text, namely, misclassification and correct classification. In terms of misclassified texts, a classifier handles the texts with both incorrect predictions and adversarial texts, which are generated to fool the classifier, which is called a victim. Both types are misunderstood by the victim, but they can still be recognized by other classifiers. This induces large gaps in predicted probabilities between the victim and the other classifiers. In contrast, text correctly classified by the victim is often successfully predicted by the others and induces small gaps. In this paper, we propose an ensemble model based on similarity estimation of predicted probabilities (SEPP) to exploit the large gaps in the misclassified predictions in contrast to small gaps in the correct classification. SEPP then corrects the incorrect predictions of the misclassified texts. We demonstrate the resilience of SEPP in defending and detecting adversarial texts through different types of victim classifiers, classification tasks, and adversarial attacks. | 翻訳日:2021-10-14 00:16:00 公開日:2021-10-12 |
# (参考訳) 構造・電子特性の機械学習解析による金属組織によるCO$_2$の回収効率の予測 Predicting the Efficiency of CO$_2$ Sequestering by Metal Organic Frameworks Through Machine Learning Analysis of Structural and Electronic Properties ( http://arxiv.org/abs/2110.05753v1 ) ライセンス: CC BY 4.0 | Mahati Manda | (参考訳) 気候変動の深刻化により、効率的なco$_2$キャプチャの実装が重要になっている。
このプロジェクトの目的は、機械学習を用いて、CO$2$の金属有機フレームワーク(MOF)の取り込みを予測するアルゴリズムを作成することである。
これらの値は、これらのMOFの効率を測り、MOFが合成に値するかどうかを最大化する方法を探している科学者に提供します。
このアルゴリズムは、科学者が仮説MOFを低効率で無視できるため、時間や機器などの資源を節約する。
さらに,本稿では,データセット内の最も重要な機能についても強調する。
この研究は、MOFを吸着するCO$2$の迅速な合成に寄与する。 Due the alarming rate of climate change, the implementation of efficient CO$_2$ capture has become crucial. This project aims to create an algorithm that predicts the uptake of CO$_2$ adsorbing Metal-Organic Frameworks (MOFs) by using Machine Learning. These values will in turn gauge the efficiency of these MOFs and provide scientists who are looking to maximize the uptake a way to know whether or not the MOF is worth synthesizing. This algorithm will save resources such as time and equipment as scientists will be able to disregard hypothetical MOFs with low efficiencies. In addition, this paper will also highlight the most important features within the data set. This research will contribute to enable the rapid synthesis of CO$_2$ adsorbing MOFs. | 翻訳日:2021-10-14 00:04:36 公開日:2021-10-12 |
# (参考訳) 不均質体型エージェントにおける創発的コミュニケーションの解釈 Interpretation of Emergent Communication in Heterogeneous Collaborative Embodied Agents ( http://arxiv.org/abs/2110.05769v1 ) ライセンス: CC BY 4.0 | Shivansh Patel, Saim Wani, Unnat Jain, Alexander Schwing, Svetlana Lazebnik, Manolis Savva, Angel X. Chang | (参考訳) エンボディドAIエージェント間のコミュニケーションは近年注目を集めている。
その使用にもかかわらず、学習されたコミュニケーションが解釈可能で、知覚に基礎があるかどうかはまだ不明である。
まず,創発的なコミュニケーション形態の接地を研究するため,協調型多目的ナビゲーションタスクcomonを導入する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
タスクを成功させるためには、効果的なコミュニケーションが不可欠である。
したがって、コモンは異種エージェント、すなわち異なる機能と役割を持つエージェント間の異なるコミュニケーション機構を研究する基礎となる。
2つの共通通信機構を調査し,エゴセントリックレンズと空間レンズを用いて通信パターンを分析した。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
ビデオ要約: https://youtu.be/kLv2rxO9t0g Communication between embodied AI agents has received increasing attention in recent years. Despite its use, it is still unclear whether the learned communication is interpretable and grounded in perception. To study the grounding of emergent forms of communication, we first introduce the collaborative multi-object navigation task CoMON. In this task, an oracle agent has detailed environment information in the form of a map. It communicates with a navigator agent that perceives the environment visually and is tasked to find a sequence of goals. To succeed at the task, effective communication is essential. CoMON hence serves as a basis to study different communication mechanisms between heterogeneous agents, that is, agents with different capabilities and roles. We study two common communication mechanisms and analyze their communication patterns through an egocentric and spatial lens. We show that the emergent communication can be grounded to the agent observations and the spatial structure of the 3D environment. Video summary: https://youtu.be/kLv2rxO9t0g | 翻訳日:2021-10-13 23:56:50 公開日:2021-10-12 |
# (参考訳) 語彙減少における認知的要因の定量化 Quantifying Cognitive Factors in Lexical Decline ( http://arxiv.org/abs/2110.05775v1 ) ライセンス: CC BY 4.0 | David Francis, Ella Rabinovich, Farhan Samir, David Mortensen, Suzanne Stevenson | (参考訳) 我々は,認知的要因(社会的要因に加えて)が言語エコシステムにおける単語の適合性とその成功に影響を及ぼす言語変化に関する進化的視点を採用する。
具体的には、単語が時間とともに大幅に頻度を減少させる語彙の減少を予測できる様々な心理言語学的要因(意味、分布、音韻論的)を提案する。
3つの言語(英語、フランス語、ドイツ語)にまたがる歴史的データを用いて、提案された要因のほとんどが、それぞれの縮小した単語群と一致した安定な単語の予測方向に有意な差があることが判明した。
さらに,ロジスティック回帰分析により,意味的および分布的要因が単語減少を予測する上で重要であることが示された。
さらにダイアクロニック分析により、単語の減少は時間とともに語彙的文脈の多様性を減少させ、徐々に「生態的ニッチ」を狭める傾向があることが明らかになった。 We adopt an evolutionary view on language change in which cognitive factors (in addition to social ones) affect the fitness of words and their success in the linguistic ecosystem. Specifically, we propose a variety of psycholinguistic factors -- semantic, distributional, and phonological -- that we hypothesize are predictive of lexical decline, in which words greatly decrease in frequency over time. Using historical data across three languages (English, French, and German), we find that most of our proposed factors show a significant difference in the expected direction between each curated set of declining words and their matched stable words. Moreover, logistic regression analyses show that semantic and distributional factors are significant in predicting declining words. Further diachronic analysis reveals that declining words tend to decrease in the diversity of their lexical contexts over time, gradually narrowing their 'ecological niches'. | 翻訳日:2021-10-13 23:55:35 公開日:2021-10-12 |
# (参考訳) ダイアログの類似性を測定するための新しいアプローチ We've had this conversation before: A Novel Approach to Measuring Dialog Similarity ( http://arxiv.org/abs/2110.05780v1 ) ライセンス: CC BY 4.0 | Ofer Lavi, Ella Rabinovich, Segev Shlomov, David Boaz, Inbal Ronen, Ateret Anaby-Tavor | (参考訳) ダイアログは人間の自然言語相互作用の中核的な構成要素である。
動的かつ進化的な方法で、ある当事者から別の当事者に情報を伝えるために使用される多人数発話を含む。
ダイアログを比較する機能は、コンタクトセンター呼び出しの会話分析や仮想エージェント設計など、現実世界の多くのユースケースで有用である。
ダイアログ類似性のシナリオに対する編集距離距離の新たな適応法を提案する。
提案手法は発話意味論,会話フロー,参加者など,会話のさまざまな側面を考慮に入れる。
この新しいアプローチを評価し、2つの公開データセット上の既存の文書類似度尺度と比較する。
その結果,提案手法は対話フローをキャプチャする他の手法よりも優れており,会話の類似性に対する人間の認識に合致する可能性が示唆された。 Dialog is a core building block of human natural language interactions. It contains multi-party utterances used to convey information from one party to another in a dynamic and evolving manner. The ability to compare dialogs is beneficial in many real world use cases, such as conversation analytics for contact center calls and virtual agent design. We propose a novel adaptation of the edit distance metric to the scenario of dialog similarity. Our approach takes into account various conversation aspects such as utterance semantics, conversation flow, and the participants. We evaluate this new approach and compare it to existing document similarity measures on two publicly available datasets. The results demonstrate that our method outperforms the other approaches in capturing dialog flow, and is better aligned with the human perception of conversation similarity. | 翻訳日:2021-10-13 23:35:19 公開日:2021-10-12 |
# (参考訳) オープンプレイヤーモデリング: データ透明性によるプレイヤーの強化 Open Player Modeling: Empowering Players through Data Transparency ( http://arxiv.org/abs/2110.05810v1 ) ライセンス: CC BY 4.0 | Jichen Zhu, Magy Seif El-Nasr | (参考訳) データは、ほとんどのソフトウェアの設計決定において重要なポイントになりつつある。
ゲーム開発は例外ではない。
データ駆動の手法やシステムがこれらの環境に浸透し始めたとき、よい疑問は、このデータから開発されたモデルをユーザに透過的に提供することができるか、ということです。
本稿では,知的ユーザインタフェースと学習科学研究コミュニティの既存の成果を合成し,これらのデータとモデルをユーザに提供する可能性について検討した。
次に,新たな研究分野としてオープンプレイヤモデリング(open player modeling)という,この問題を探求する新たな領域を提案する。
我々は、オープンプレイヤーモデルの設計空間を定義し、ゲーム研究コミュニティが探求できるエキサイティングなオープン問題を提示します。
本稿はケーススタディで締めくくり、このアプローチの潜在的価値について論じる。 Data is becoming an important central point for making design decisions for most software. Game development is not an exception. As data-driven methods and systems start to populate these environments, a good question is: can we make models developed from this data transparent to users? In this paper, we synthesize existing work from the Intelligent User Interface and Learning Science research communities, where they started to investigate the potential of making such data and models available to users. We then present a new area exploring this question, which we call Open Player Modeling, as an emerging research area. We define the design space of Open Player Models and present exciting open problems that the games research community can explore. We conclude the paper with a case study and discuss the potential value of this approach. | 翻訳日:2021-10-13 23:24:42 公開日:2021-10-12 |
# (参考訳) 衛星画像のセマンティックセグメンテーション Satellite Image Semantic Segmentation ( http://arxiv.org/abs/2110.05812v1 ) ライセンス: CC BY-SA 4.0 | Eric Gu\'erin, Killian Oechslin, Christian Wolf, Beno\^it Martinez | (参考訳) 本稿では,衛星画像の自動セマンティクスセグメンテーションを6つのクラス(疎林,密林,湿原,草本形成,建築,道路)に分類する手法を提案する。
Swin Transformerアーキテクチャに頼り、IGNのオープンデータからデータセットを構築します。
本稿では,このデータセットの定量および定性的セグメンテーション結果について報告し,強度と限界について考察する。
データセットとトレーニングされたモデルは公開されています。 In this paper, we propose a method for the automatic semantic segmentation of satellite images into six classes (sparse forest, dense forest, moor, herbaceous formation, building, and road). We rely on Swin Transformer architecture and build the dataset from IGN open data. We report quantitative and qualitative segmentation results on this dataset and discuss strengths and limitations. The dataset and the trained model are made publicly available. | 翻訳日:2021-10-13 23:12:00 公開日:2021-10-12 |
# (参考訳) CoarSAS2hvec: バランスの取れたネットワークサンプリングを組み込んだ異種情報ネットワーク CoarSAS2hvec: Heterogeneous Information Network Embedding with Balanced Network Sampling ( http://arxiv.org/abs/2110.05820v1 ) ライセンス: CC BY 4.0 | Ling Zhan, Tao Jia | (参考訳) ヘテロジニアス情報ネットワーク(hin)埋め込みは、異なる性質のエンティティ間の近接を保つノードの表現を見つけることを目的としている。
広く採用されている一連のアプローチはランダムウォークを適用して異種コンテキストのシーケンスを生成し、そこから埋め込みが学習される。
しかし、HINの多部グラフ構造のため、ハブノードはサンプルシーケンスで過剰に表現される傾向にあり、ネットワークの不均衡なサンプルが発生する。
本稿では,新しい埋め込み手法であるCoarSAS2hvecを提案する。
hin粗粒化手順(coarsas)を用いた自己不要な短配列サンプリングを用いて、hinの豊富な情報をよりよく収集する。
hin構造埋め込みの性能を改善するために最適化された損失関数が使用される。
CoarSAS2hvecは他の9つのメソッドを2つの異なるタスクで4つの実世界のデータセットでパフォーマンスする。
アブレーション研究では、CoarSASが収集したサンプルが、他の方法と比較してネットワークのリッチな情報を含んでおり、高い情報エントロピーが特徴であることを確認した。
したがって、CoarSASによる従来の損失関数も改善された結果が得られる。
本研究は,これまで強調されなかったランダムウォークベースのhin埋め込みの限界に対処し,hin解析における様々な問題に光を当てる。 Heterogeneous information network (HIN) embedding aims to find the representations of nodes that preserve the proximity between entities of different nature. A family of approaches that are wildly adopted applies random walk to generate a sequence of heterogeneous context, from which the embedding is learned. However, due to the multipartite graph structure of HIN, hub nodes tend to be over-represented in the sampled sequence, giving rise to imbalanced samples of the network. Here we propose a new embedding method CoarSAS2hvec. The self-avoid short sequence sampling with the HIN coarsening procedure (CoarSAS) is utilized to better collect the rich information in HIN. An optimized loss function is used to improve the performance of the HIN structure embedding. CoarSAS2hvec outperforms nine other methods in two different tasks on four real-world data sets. The ablation study confirms that the samples collected by CoarSAS contain richer information of the network compared with those by other methods, which is characterized by a higher information entropy. Hence, the traditional loss function applied to samples by CoarSAS can also yield improved results. Our work addresses a limitation of the random-walk-based HIN embedding that has not been emphasized before, which can shed light on a range of problems in HIN analyses. | 翻訳日:2021-10-13 23:08:55 公開日:2021-10-12 |
# (参考訳) 動的系統シミュレーションのためのQラーニングスケジューリングを用いた高速ブロック線形系解法 Fast Block Linear System Solver Using Q-Learning Schduling for Unified Dynamic Power System Simulations ( http://arxiv.org/abs/2110.05843v1 ) ライセンス: CC BY 4.0 | Yingshi Chen and Xinli Song and HanYang Dai and Tao Liu and Wuzhi Zhong and Guoyang Wu | (参考訳) 本稿では,電力系統の統一動的シミュレーションのための高速ブロック直接解法を提案する。
タスクスケジューリングにQ-ラーニングに基づく新しい手法を用いる。
電力系統の統一動的シミュレーションは、電気機械的な過渡現象、中長期の動的現象を有機的に結合する手法である。
解法における高い階数と多数の数のため、これらの方程式の高速解がシミュレーションを高速化する鍵となる。
シミュレーションのスパースシステムは複雑なネストブロック構造を含み、この構造はソルバによって高速に使用することができる。
解法におけるブロックとフロントのスケジューリングには,マルコフ決定プロセスのフレームワークにおいて,学習に基づくタスクツリースケジューリング手法を用いる。
つまり、多くのサンプル行列のオフライントレーニングによって最適なスケジューリング戦略を学べる。
そして、どんなシステムでも、学習したモデル上で最適なタスク分割とスケジューリングが得られる。
学習に基づくアルゴリズムは,いくつかの数値実験で検証されたスパースソルバの性能向上に役立つ。
大規模電力系統のシミュレーションにより,回路シミュレーション問題に対する最先端の分散解法であるkluより2~6倍高速であることが判明した。 We present a fast block direct solver for the unified dynamic simulations of power systems. This solver uses a novel Q-learning based method for task scheduling. Unified dynamic simulations of power systems represent a method in which the electric-mechanical transient, medium-term and long-term dynamic phenomena are organically united. Due to the high rank and large numbers in solving, fast solution of these equations is the key to speeding up the simulation. The sparse systems of simulation contain complex nested block structure, which could be used by the solver to speed up. For the scheduling of blocks and frontals in the solver, we use a learning based task-tree scheduling technique in the framework of Markov Decision Process. That is, we could learn optimal scheduling strategies by offline training on many sample matrices. Then for any systems, the solver would get optimal task partition and scheduling on the learned model. Our learning-based algorithm could help improve the performance of sparse solver, which has been verified in some numerical experiments. The simulation on some large power systems shows that our solver is 2-6 times faster than KLU, which is the state-of-the-art sparse solver for circuit simulation problems. | 翻訳日:2021-10-13 22:53:19 公開日:2021-10-12 |
# (参考訳) 表面コードのためのスケーラブルで高速な人工ニューラルネットワーク症候群デコーダ A scalable and fast artificial neural network syndrome decoder for surface codes ( http://arxiv.org/abs/2110.05854v1 ) ライセンス: CC BY 4.0 | Spiro Gicev, Lloyd C. L. Hollenberg, Muhammad Usman | (参考訳) surface code error correctionは、スケーラブルなフォールトトレラント量子コンピューティングを実現する、非常に有望な経路を提供する。
安定化器符号として動作する場合、表面符号計算は、物理量子ビットにおける誤差の適切な修正を決定するために測定された安定化器演算子を使用するシンドローム復号ステップからなる。
復号アルゴリズムは、機械学習(ML)技術を取り入れた最近の研究によって、かなり発展してきた。
MLベースのシンドロームデコーダは、有望な初期結果にもかかわらず、低レイテンシで小さなデモに制限されており、境界条件や格子の手術や編曲に必要な様々な形状で表面コードを扱うことができない。
本稿では,任意の形状と大きさの表面符号をデポーラライズ誤差モデルに苦しむデータキュービットでデコードできる,スケーラブルで高速なニューラルネットワーク(ann)ベースのデコーダの開発について報告する。
ANNデコーダは、5000万以上のランダムな量子エラーインスタンスの厳格なトレーニングに基づいて、これまでで最大のMLベースのデコーダデモである1000以上のコード距離(400万以上の物理量子ビット)で動作することを示した。
確立されたANNデコーダは、基本的にコード距離に依存しない実行時間を示しており、専用ハードウェアに実装することでO($\mu$sec)の表面コードデコードが可能であり、実験的に実現可能なキュービットコヒーレンス時間と相容れないことを示唆している。
今後10年以内に量子プロセッサのスケールアップが期待される中、本研究で開発された高速でスケーラブルなシンドロームデコーダによる拡張は、フォールトトレラント量子情報処理の実験的実装に決定的な役割を果たすことが期待される。 Surface code error correction offers a highly promising pathway to achieve scalable fault-tolerant quantum computing. When operated as stabilizer codes, surface code computations consist of a syndrome decoding step where measured stabilizer operators are used to determine appropriate corrections for errors in physical qubits. Decoding algorithms have undergone substantial development, with recent work incorporating machine learning (ML) techniques. Despite promising initial results, the ML-based syndrome decoders are still limited to small scale demonstrations with low latency and are incapable of handling surface codes with boundary conditions and various shapes needed for lattice surgery and braiding. Here, we report the development of an artificial neural network (ANN) based scalable and fast syndrome decoder capable of decoding surface codes of arbitrary shape and size with data qubits suffering from the depolarizing error model. Based on rigorous training over 50 million random quantum error instances, our ANN decoder is shown to work with code distances exceeding 1000 (more than 4 million physical qubits), which is the largest ML-based decoder demonstration to-date. The established ANN decoder demonstrates an execution time in principle independent of code distance, implying that its implementation on dedicated hardware could potentially offer surface code decoding times of O($\mu$sec), commensurate with the experimentally realisable qubit coherence times. With the anticipated scale-up of quantum processors within the next decade, their augmentation with a fast and scalable syndrome decoder such as developed in our work is expected to play a decisive role towards experimental implementation of fault-tolerant quantum information processing. | 翻訳日:2021-10-13 22:45:31 公開日:2021-10-12 |
# (参考訳) text2sdg:テキストから持続可能な開発目標を監視するオープンソースソリューション text2sdg: An open-source solution to monitoring sustainable development goals from text ( http://arxiv.org/abs/2110.05856v1 ) ライセンス: CC BY-SA 4.0 | Dirk U. Wulff, Rui Mata, Dominik S. Meier | (参考訳) 国連持続可能な開発目標(sdgs)の監視は学術組織と非学術組織の両方にとって重要である。
sdgを監視する既存のアプローチは、特定のデータタイプ、すなわちプロプライエタリな研究データベースにリストされた出版物に焦点を当てている。
ユーザフレンドリーなオープンソースパッケージであるtext2sdg R パッケージを,テキストソースから複数の異なるクエリシステムを用いて,任意のテキストデータ中のSDGを検出する。
text2sdgパッケージは、幅広いテキストソースに対するSDGの監視を容易にし、テキストからSDGを検出する既存のメソッドを検証および改善するための、待望の基盤を提供する。 Monitoring progress on the United Nations Sustainable Development Goals (SDGs) is important for both academic and non-academic organizations. Existing approaches to monitoring SDGs have focused on specific data types, namely, publications listed in proprietary research databases. We present the text2sdg R package, a user-friendly, open-source package that detects SDGs in any kind of text data using several different query systems from any text source. The text2sdg package thereby facilitates the monitoring of SDGs for a wide array of text sources and provides a much-needed basis for validating and improving extant methods to detect SDGs from text. | 翻訳日:2021-10-13 22:24:00 公開日:2021-10-12 |
# (参考訳) 畳み込みニューラルネットワークは翻訳に不変ではないが、学習できる Convolutional Neural Networks Are Not Invariant to Translation, but They Can Learn to Be ( http://arxiv.org/abs/2110.05861v1 ) ライセンス: CC BY-SA 4.0 | Valerio Biscione, Jeffrey S. Bowers | (参考訳) 新しい物体を見るとき、人間はそれを異なる網膜の位置ですぐに認識することができる: 内部オブジェクトの表現は翻訳に不変である。
畳み込みニューラルネットワーク(CNN)は、それらが持つ畳み込みやプール操作のおかげで、アーキテクチャ上、翻訳に不変であると一般的に信じられている。
実際、いくつかの研究では、これらのネットワークが訓練されていない場所で新しい物体を認識できないことが分かっている。
本研究では,多種多様な cnns アーキテクチャをテストし,drknet-121 を除けば,どのモデルもアーキテクチャ的に変換に不変であることを示す。
しかし、それらすべてが翻訳に不変であることを学ぶことができた。
imagenetで事前トレーニングすることで、これを実現する方法を示し、入力キャンバスをまたいですべてのアイテムが完全に変換された場合に、ずっと単純なデータセットでも可能とします。
同時に、この不変性は壊滅的な忘れ/干渉によるさらなる訓練によって破壊することができる。
これらの実験は、適切な「ラテント」特性(より自然主義的な環境)を持つ環境におけるネットワークの事前学習が、その後の一般化を劇的に改善する深い知覚規則を学習する結果をもたらすことを示す。 When seeing a new object, humans can immediately recognize it across different retinal locations: the internal object representation is invariant to translation. It is commonly believed that Convolutional Neural Networks (CNNs) are architecturally invariant to translation thanks to the convolution and/or pooling operations they are endowed with. In fact, several studies have found that these networks systematically fail to recognise new objects on untrained locations. In this work, we test a wide variety of CNNs architectures showing how, apart from DenseNet-121, none of the models tested was architecturally invariant to translation. Nevertheless, all of them could learn to be invariant to translation. We show how this can be achieved by pretraining on ImageNet, and it is sometimes possible with much simpler data sets when all the items are fully translated across the input canvas. At the same time, this invariance can be disrupted by further training due to catastrophic forgetting/interference. These experiments show how pretraining a network on an environment with the right `latent' characteristics (a more naturalistic environment) can result in the network learning deep perceptual rules which would dramatically improve subsequent generalization. | 翻訳日:2021-10-13 22:19:39 公開日:2021-10-12 |
# (参考訳) 個人特性を推測するグループを観察する Observing a group to infer individual characteristics ( http://arxiv.org/abs/2110.05864v1 ) ライセンス: CC BY 4.0 | Arshed Nabeel and Danny Raj M | (参考訳) 集団運動の研究において、個々のエージェントとその相互作用の特徴を推測するために、グループのレベルにおける移動情報を集めることが一般的である。
しかし、集団の動きデータから個々人の特徴を常に正しく推測できるかどうかは定かではない。
本研究では,2つのエージェント群からなる複合群集の文脈において,それぞれが所望の動作方向でこの問題を考察する。
単純なオブザーバは、エージェントをその移動情報に基づいてそのグループに分類しようとする。
しかし、衝突、エージェントの拘束、車線やクラスターの形成などの集団効果は、分類問題を非自明なものにし、誤分類につながる。
これらの効果の理解に基づいて,観測された動き情報のみに基づいて,地域がエージェントの動きを助長したり妨げたりする方法を推定する新しいオブザーバアルゴリズムを提案する。
従来の教師付き学習アプローチとは異なり、このアルゴリズムは物理的洞察とスケーリング引数に基づいており、トレーニングデータに依存しない。
この新たなオブザーバは、分類性能を改善し、動作が同一であっても異なるグループに属するエージェントを区別することができる。
このようなデータ非依存のアプローチは、クリーンでラベル付きデータの取得が難しい、現実世界の大規模な問題と関連性があり、データとドメインの知識を統合するハイブリッドアプローチへの一歩です。 In the study of collective motion, it is common practice to collect movement information at the level of the group to infer the characteristics of the individual agents and their interactions. However, it is not clear whether one can always correctly infer individual characteristics from movement data of the collective. We investigate this question in the context of a composite crowd with two groups of agents, each with its own desired direction of motion. A simple observer attempts to classify an agent into its group based on its movement information. However, collective effects such as collisions, entrainment of agents, formation of lanes and clusters, etc. render the classification problem non-trivial, and lead to misclassifications. Based on our understanding of these effects, we propose a new observer algorithm that infers, based only on observed movement information, how the local neighborhood aids or hinders agent movement. Unlike a traditional supervised learning approach, this algorithm is based on physical insights and scaling arguments, and does not rely on training-data. This new observer improves classification performance and is able to differentiate agents belonging to different groups even when their motion is identical. Data-agnostic approaches like this have relevance to a large class of real-world problems where clean, labeled data is difficult to obtain, and is a step towards hybrid approaches that integrate both data and domain knowledge. | 翻訳日:2021-10-13 21:57:10 公開日:2021-10-12 |
# (参考訳) MetricGAN-U: 雑音/残響音声のみに基づく教師なし音声強調/残響 MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only on noisy/ reverberated speech ( http://arxiv.org/abs/2110.05866v1 ) ライセンス: CC BY 4.0 | Szu-Wei Fu, Cheng Yu, Kuo-Hsuan Hung, Mirco Ravanelli, Yu Tsao | (参考訳) 深層学習に基づく音声強調モデルのほとんどが教師ありの方法で学習されるため、トレーニングではノイズとクリーンな音声のペアが必要となる。
そのため、日常生活で録音されたいくつかの騒がしいスピーチは、モデルのトレーニングに使用できない。
ペア制約を解決するための教師なし学習フレームワークも提案されているが、トレーニングにはクリーンなスピーチやノイズが必要である。
そこで本稿では,従来の教師なし学習からさらに制約を解放するために,教師なしメトリクスの指標であるmetricgan-uを提案する。
metricgan-uでは、非インタラクティブな音声品質指標を最適化することにより、モデルのトレーニングにノイズの多い音声のみを必要とする。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。 Most of the deep learning-based speech enhancement models are learned in a supervised manner, which implies that pairs of noisy and clean speech are required during training. Consequently, several noisy speeches recorded in daily life cannot be used to train the model. Although certain unsupervised learning frameworks have also been proposed to solve the pair constraint, they still require clean speech or noise for training. Therefore, in this paper, we propose MetricGAN-U, which stands for MetricGAN-unsupervised, to further release the constraint from conventional unsupervised learning. In MetricGAN-U, only noisy speech is required to train the model by optimizing non-intrusive speech quality metrics. The experimental results verified that MetricGAN-U outperforms baselines in both objective and subjective metrics. | 翻訳日:2021-10-13 21:34:09 公開日:2021-10-12 |
# (参考訳) 自動車内レーダを用いたロバストな人物のラベル付きランク付き損失 Label-Aware Ranked Loss for robust People Counting using Automotive in-cabin Radar ( http://arxiv.org/abs/2110.05876v1 ) ライセンス: CC BY 4.0 | Lorenzo Servadei, Huawei Sun, Julius Ott, Michael Stephan, Souvik Hazra, Thomas Stadelmayer, Daniela Sanchez Lopera, Robert Wille, Avik Santra | (参考訳) 本稿では,新しいメトリクス損失関数であるラベル認識ランク付き損失について紹介する。
最先端のDeep Metric Learning損失と比較して、この関数は回帰問題におけるラベルのランク付けを生かしている。
そこで,本研究では,ラベルの異なるデータポイントを組込み空間において,互いに一様な角度でランク付けして配置する場合,損失が最小となることを示す。
そして,その性能を計測するために,近距離レーダを用いた回帰作業,すなわち車両キャビンにおける回帰作業において,提案する損失を応用する。
提案されたアプローチでは精度が向上し、近隣のラベルの精度は83.0%と99.9%に向上した。 In this paper, we introduce the Label-Aware Ranked loss, a novel metric loss function. Compared to the state-of-the-art Deep Metric Learning losses, this function takes advantage of the ranked ordering of the labels in regression problems. To this end, we first show that the loss minimises when datapoints of different labels are ranked and laid at uniform angles between each other in the embedding space. Then, to measure its performance, we apply the proposed loss on a regression task of people counting with a short-range radar in a challenging scenario, namely a vehicle cabin. The introduced approach improves the accuracy as well as the neighboring labels accuracy up to 83.0% and 99.9%: An increase of 6.7%and 2.1% on state-of-the-art methods, respectively. | 翻訳日:2021-10-13 21:24:49 公開日:2021-10-12 |
# (参考訳) openhands: ポーズベースの事前学習モデルで手話認識を可能にする OpenHands: Making Sign Language Recognition Accessible with Pose-based Pretrained Models across Languages ( http://arxiv.org/abs/2110.05877v1 ) ライセンス: CC BY 4.0 | Prem Selvaraj, Gokul NC, Pratyush Kumar, Mitesh Khapra | (参考訳) 自然言語のためのAI技術は、最近大きく進歩しました。
しかし、手話、特に記号を個々の単語または完全文として認識する過程において、複合的な進歩は行われていない。
OpenHandsは低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリです。
まず,事前学習したモデルから抽出したポーズを,トレーニング時間を短縮し,効率的な推論を可能にするための標準モデルとして利用し,アメリカ,アルゼンチン,中国,ギリシャ,インド,トルコの6つの手話言語に対して,標準化されたポーズデータセットをリリースする。
第2に,6言語すべてにまたがって,ポーズベースで分離された4つの手話認識モデルのチェックポイントをトレーニングし,リリースする。
第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。
インド手話(Indian-SL)で最大のポーズベースの事前学習データセットをキュレートし、リリースする。
第4に,様々な事前学習戦略を比較し,手話認識に事前学習が有効であることを初めて証明した。
(a)特に低リソース環境での微調整性能の向上、
b)インド-SLから他の手話への高い言語間移動
OpenHandsのすべてのモデルとデータセットをオープンソースとして公開し、手話言語の研究をよりアクセスしやすいものにしたいと考えています。 AI technologies for Natural Languages have made tremendous progress recently. However, commensurate progress has not been made on Sign Languages, in particular, in recognizing signs as individual words or as complete sentences. We introduce OpenHands, a library where we take four key ideas from the NLP community for low-resource languages and apply them to sign languages for word-level recognition. First, we propose using pose extracted through pretrained models as the standard modality of data to reduce training time and enable efficient inference, and we release standardized pose datasets for 6 different sign languages - American, Argentinian, Chinese, Greek, Indian, and Turkish. Second, we train and release checkpoints of 4 pose-based isolated sign language recognition models across all 6 languages, providing baselines and ready checkpoints for deployment. Third, to address the lack of labelled data, we propose self-supervised pretraining on unlabelled data. We curate and release the largest pose-based pretraining dataset on Indian Sign Language (Indian-SL). Fourth, we compare different pretraining strategies and for the first time establish that pretraining is effective for sign language recognition by demonstrating (a) improved fine-tuning performance especially in low-resource settings, and (b) high crosslingual transfer from Indian-SL to few other sign languages. We open-source all models and datasets in OpenHands with a hope that it makes research in sign languages more accessible, available here at https://github.com/AI4Bharat/OpenHands . | 翻訳日:2021-10-13 21:15:01 公開日:2021-10-12 |
# (参考訳) シャープ境界を用いた単眼深度推定 Monocular Depth Estimation with Sharp Boundary ( http://arxiv.org/abs/2110.05885v1 ) ライセンス: CC BY 4.0 | Xin Yang, Qingling Chang, Xinlin Liu, and Yan Cui | (参考訳) 単眼深度推定はコンピュータビジョンにおける基本課題である。
ディープラーニングの開発によって、この10年間で大きな発展を遂げています。
しかし、深度マップの境界線はいまだに深刻な問題である。
まず、境界情報と構造情報を含む低レベル特徴は、畳み込みの過程でより深いネットワークで失われる可能性がある。
第二に、モデルでは、バックプロパゲーション中の領域全体の境界のわずかな部分のため、境界領域によってもたらされる誤差を無視する。
境界ぼけ問題を緩和するために,上記の2つの影響因子に着目した。
まず,低レベル・高レベルの特徴を持つグローバル情報を学習するためのシーン理解モジュールを設計し,デコーダの異なるフェーズに応じて,提案したスケール変換モジュールを用いてグローバル情報を異なるスケールに変換する。
次に,境界を認識できる深さ損失関数を提案し,境界の深さ値の影響に注意する。
広範に実験した結果,より明確な境界を持つ深度マップの予測が可能であり,NYU-deepth v2およびSUN RGB-Dにおける深度精度ベースの性能は競争力が高いことがわかった。 Monocular depth estimation is the base task in computer vision. It has a tremendous development in the decade with the development of deep learning. But the boundary blur of the depth map is still a serious problem. Research finds the boundary blur problem is mainly caused by two factors, first, the low-level features containing boundary and structure information may loss in deeper networks during the convolution process., second, the model ignores the errors introduced by the boundary area due to the few portions of the boundary in the whole areas during the backpropagation. In order to mitigate the boundary blur problem, we focus on the above two impact factors. Firstly, we design a scene understanding module to learn the global information with low- and high-level features, and then to transform the global information to different scales with our proposed scale transform module according to the different phases in the decoder. Secondly, we propose a boundary-aware depth loss function to pay attention to the effects of the boundary's depth value. The extensive experiments show that our method can predict the depth maps with clearer boundaries, and the performance of the depth accuracy base on NYU-depth v2 and SUN RGB-D is competitive. | 翻訳日:2021-10-13 20:56:00 公開日:2021-10-12 |
# (参考訳) CTC-Prefixesを用いたテキスト行認識のための系列列列モデル Rescoring Sequence-to-Sequence Models for Text Line Recognition with CTC-Prefixes ( http://arxiv.org/abs/2110.05909v1 ) ライセンス: CC BY 4.0 | Christoph Wick and Jochen Z\"ollner and Tobias Gr\"uning | (参考訳) 接続主義時相分類(ctc)のアプローチとは対照的に、手書きテキスト認識(htr)のためのsequence-to-sequence(s2s)モデルは、シーケンスの最後にしばしば発生するスキップや繰り返しといったエラーに苦しむ。
本稿では,S2S復号時にCTC-Prefix-Scoreを用いることを提案する。
これにより、ビーム探索中に、CTC信頼行列に従って無効となるパスがペナルティ化される。
我々のネットワークアーキテクチャは、視覚バックボーンとしての畳み込みニューラルネットワーク(CNN)、エンコーダとしての双方向長短メモリセル(LSTM)、相互注意層を挿入したトランスフォーマーであるデコーダで構成される。
CTC信頼度はエンコーダ上で計算され、トランスフォーマーは文字単位のS2Sデコードにのみ使用される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
IAMでは、合成データに基づく事前学習を行い、現代英語の文字ベース言語モデルを含む場合、2.95%の競合的文字誤り率(CER)を達成する。
他の最先端手法と比較して、我々のモデルはパラメーターを10~20倍少なくする必要がある。
GitHubへのこのリンクを通じて、共有実装にアクセスしてください。 In contrast to Connectionist Temporal Classification (CTC) approaches, Sequence-To-Sequence (S2S) models for Handwritten Text Recognition (HTR) suffer from errors such as skipped or repeated words which often occur at the end of a sequence. In this paper, to combine the best of both approaches, we propose to use the CTC-Prefix-Score during S2S decoding. Hereby, during beam search, paths that are invalid according to the CTC confidence matrix are penalised. Our network architecture is composed of a Convolutional Neural Network (CNN) as visual backbone, bidirectional Long-Short-Term-Memory-Cells (LSTMs) as encoder, and a decoder which is a Transformer with inserted mutual attention layers. The CTC confidences are computed on the encoder while the Transformer is only used for character-wise S2S decoding. We evaluate this setup on three HTR data sets: IAM, Rimes, and StAZH. On IAM, we achieve a competitive Character Error Rate (CER) of 2.95% when pretraining our model on synthetic data and including a character-based language model for contemporary English. Compared to other state-of-the-art approaches, our model requires about 10-20 times less parameters. Access our shared implementations via this link to GitHub: https://github.com/Planet-AI-GmbH/tfaip-hybrid-ctc-s2s. | 翻訳日:2021-10-13 20:29:37 公開日:2021-10-12 |
# (参考訳) 概念空間におけるファジィ概念のカテゴリー意味論 A Categorical Semantics of Fuzzy Concepts in Conceptual Spaces ( http://arxiv.org/abs/2110.05985v1 ) ライセンス: CC BY 4.0 | Sean Tull | (参考訳) ファジィ概念とファジィ概念推論をモデル化する対称モノイド圏を g\"ardenfors' framework of concept (convex) 空間で定義する。
ファジィ概念のモデルとしてlog-concave関数を提案し、g\"ardenfors による基準を満たす最も一般的な選択であり、構成的にも良好であることを示す。
次にこれらを一般化して、凸空間間の対数凹凸確率チャネルの圏を定義し、ノイズのある入力でファジィ推論をモデル化し、マルコフ圏の新たな例を提供する。 We define a symmetric monoidal category modelling fuzzy concepts and fuzzy conceptual reasoning within G\"ardenfors' framework of conceptual (convex) spaces. We propose log-concave functions as models of fuzzy concepts, showing that these are the most general choice satisfying a criterion due to G\"ardenfors and which are well-behaved compositionally. We then generalise these to define the category of log-concave probabilistic channels between convex spaces, which allows one to model fuzzy reasoning with noisy inputs, and provides a novel example of a Markov category. | 翻訳日:2021-10-13 20:17:23 公開日:2021-10-12 |
# (参考訳) 心的制約と数量演算子を持つFO2の重み付きモデルカウント:閉じた形式式 Weighted Model Counting in FO2 with Cardinality Constraints and Counting Quantifiers: A Closed Form Formula ( http://arxiv.org/abs/2110.05992v1 ) ライセンス: CC BY 4.0 | Sagar Malhotra and Luciano Serafini | (参考訳) 重み付き一階モデルカウント(WFOMC)は、与えられた有限領域上の一階論理理論のモデルの重み付き和を計算する。
多項式時間 WFOMC w.r.t 領域の濃度を許容する一階論理理論は、領域リフトと呼ばれる。
WFOMCの閉形式を定式化するためのツールとして,リフト解釈の概念を導入する。
解法解釈を用いて多項式時間fomcの閉形式式を,beameらにより以前に提唱されたfo2の普遍的定量化断片で再構成した。
次に、この閉形式を拡張して、濃度制約、存在量化器、および量化器(C2)をドメインリフト性を失うことなく数える。
最後に、得られた閉形式は、対称重み関数よりも厳密に大きい重み関数族の自然な定義を動機付けていることを示す。 Weighted First-Order Model Counting (WFOMC) computes the weighted sum of the models of a first-order logic theory on a given finite domain. First-Order Logic theories that admit polynomial-time WFOMC w.r.t domain cardinality are called domain liftable. We introduce the concept of lifted interpretations as a tool for formulating closed-forms for WFOMC. Using lifted interpretations, we reconstruct the closed-form formula for polynomial-time FOMC in the universally quantified fragment of FO2, earlier proposed by Beame et al. We then expand this closed-form to incorporate cardinality constraints, existential quantifiers, and counting quantifiers (a.k.a C2) without losing domain-liftability. Finally, we show that the obtained closed-form motivates a natural definition of a family of weight functions strictly larger than symmetric weight functions. | 翻訳日:2021-10-13 19:59:05 公開日:2021-10-12 |
# (参考訳) DiscoDVT:Discourse-Aware Discrete Variational Transformerによる長文生成 DiscoDVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer ( http://arxiv.org/abs/2110.05999v1 ) ライセンス: CC BY 4.0 | Haozhe Ji, Minlie Huang | (参考訳) 高品質テキストを生成するために、事前学習された言語モデルを適用する最近の進歩にもかかわらず、長距離コヒーレンスを維持する長いパスを生成することは、これらのモデルにとって依然として困難である。
本稿では,不整合問題に対処する談話対応離散変分変換器DiscoDVTを提案する。
discodvtは、テキストの全体構造を要約した離散変数列を学習し、各復号ステップで生成プロセスをガイドするためにそれを適用する。
さらに, 離散的潜在表現に談話認識情報を埋め込むため, テキスト内の談話関係をモデル化するための補助目的を提案する。
2つのオープンストーリー生成データセットに関する広範囲な実験を行い、より長距離のコヒーレンスを持つ長文を生成するモデルを導く談話構造に対して、潜在コードは有意義な対応を学習できることを実証する。 Despite the recent advances in applying pre-trained language models to generate high-quality texts, generating long passages that maintain long-range coherence is yet challenging for these models. In this paper, we propose DiscoDVT, a discourse-aware discrete variational Transformer to tackle the incoherence issue. DiscoDVT learns a discrete variable sequence that summarizes the global structure of the text and then applies it to guide the generation process at each decoding step. To further embed discourse-aware information into the discrete latent representations, we introduce an auxiliary objective to model the discourse relations within the text. We conduct extensive experiments on two open story generation datasets and demonstrate that the latent codes learn meaningful correspondence to the discourse structures that guide the model to generate long texts with better long-range coherence. | 翻訳日:2021-10-13 19:40:16 公開日:2021-10-12 |
# (参考訳) 埋め込みモデルフロー:モデルなしディープラーニングの帰納バイアスと明示的確率的モデリングを組み合わせる Embedded-model flows: Combining the inductive biases of model-free deep learning and explicit probabilistic modeling ( http://arxiv.org/abs/2110.06021v1 ) ライセンス: CC BY 4.0 | Gianluigi Silvestri, Emily Fertig, Dave Moore, Luca Ambrogioni | (参考訳) 正規化フローは汎用密度推定器として大きな成功を収めている。
しかし、現実世界のアプリケーションの多くは、フローの正規化が容易に組み込めないドメイン固有の知識を必要とする。
ドメイン固有の帰納的バイアスを埋め込んだ構造層と汎用変換を交互に行う組込みモデルフロー(emf)を提案する。
これらの層は、ユーザの特定した微分可能確率モデルを等価な単射変換に変換することで自動的に構築される。
また、データ統計を捉えるのに失敗するモデルのパーツをバイパスできるゲート構造層も導入しています。
マルチモダリティ,階層結合,連続性といった望ましい特性を誘導するためにemfが使用できることを示す。
さらに、EMFは、前モデルの構造が変動アーキテクチャに埋め込まれているような、変動推論の高性能な形式を可能にすることを示す。
本研究では,本手法が共通構造推論問題において,最先端手法よりも優れていることを示す。 Normalizing flows have shown great success as general-purpose density estimators. However, many real world applications require the use of domain-specific knowledge, which normalizing flows cannot readily incorporate. We propose embedded-model flows(EMF), which alternate general-purpose transformations with structured layers that embed domain-specific inductive biases. These layers are automatically constructed by converting user-specified differentiable probabilistic models into equivalent bijective transformations. We also introduce gated structured layers, which allow bypassing the parts of the models that fail to capture the statistics of the data. We demonstrate that EMFs can be used to induce desirable properties such as multimodality, hierarchical coupling and continuity. Furthermore, we show that EMFs enable a high performance form of variational inference where the structure of the prior model is embedded in the variational architecture. In our experiments, we show that this approach outperforms state-of-the-art methods in common structured inference problems. | 翻訳日:2021-10-13 19:17:17 公開日:2021-10-12 |
# (参考訳) フェデレートラーニングとLSTMに基づくプライバシ保護型フィッシングメール検出 Privacy-Preserving Phishing Email Detection Based on Federated Learning and LSTM ( http://arxiv.org/abs/2110.06025v1 ) ライセンス: CC BY 4.0 | Yuwei Sun, Ng Chong, and Hideya Ochiai | (参考訳) フィッシングメールは、悪意のあるリンクや文書をクリックするよう人々を誘惑するものだ。
近年、より洗練されたフィッシングキャンペーンは、従来のシグネチャベースの方法以外のより適応的な検出システムを必要としている。
この点において、ディープニューラルネットワーク(DNN)を用いた自然言語処理(NLP)が、多数の電子メールからの知識取得に採用されている。
しかし,プライバシの懸念が高まるため,個人情報を含むセンシティブな日常コミュニケーションは,実生活における集中学習のためのサーバでは収集が困難である。
そこで本研究では,連合学習と長期短期記憶(lstm)を活用したフェデレーションファシッシュボウル(fpb)と呼ばれる分散型フィッシングメール検出手法を提案する。
FPBは、メールのセキュリティとプライバシを保護するためにトレーニングされたモデルの集約を通じて、さまざまなクライアント間で共通の知識表現と共有を可能にする。
最近のフィッシングメールデータセットが政府間組織から収集され、モデルをトレーニングした。
さらに,クライアントの総数とデータ不均一度に関する様々な仮定に基づいて,モデルの性能を評価した。
総合的な実験結果から,FPBはクライアント数やデータの不均一性レベルを継続的に増加させ,検出精度0.83を維持し,機密メール通信のプライバシーを保護することが示唆された。 Phishing emails that appear legitimate lure people into clicking on the attached malicious links or documents. Increasingly more sophisticated phishing campaigns in recent years necessitate a more adaptive detection system other than traditional signature-based methods. In this regard, natural language processing (NLP) with deep neural networks (DNNs) is adopted for knowledge acquisition from a large number of emails. However, such sensitive daily communications containing personal information are difficult to collect on a server for centralized learning in real life due to escalating privacy concerns. To this end, we propose a decentralized phishing email detection method called the Federated Phish Bowl (FPB) leveraging federated learning and long short-term memory (LSTM). FPB allows common knowledge representation and sharing among different clients through the aggregation of trained models to safeguard the email security and privacy. A recent phishing email dataset was collected from an intergovernmental organization to train the model. Moreover, we evaluated the model performance based on various assumptions regarding the total client number and the level of data heterogeneity. The comprehensive experimental results suggest that FPB is robust to a continually increasing client number and various data heterogeneity levels, retaining a detection accuracy of 0.83 and protecting the privacy of sensitive email communications. | 翻訳日:2021-10-13 18:56:13 公開日:2021-10-12 |
# (参考訳) SoftNeuro: マルチプラットフォーム最適化を用いた高速深層推論 SoftNeuro: Fast Deep Inference using Multi-platform Optimization ( http://arxiv.org/abs/2110.06037v1 ) ライセンス: CC BY 4.0 | Masaki Hilaga, Yasuhiro Kuroda, Hitoshi Matsuo, Tatsuya Kawaguchi, Gabriel Ogawa, Hiroshi Miyake and Yusuke Kozawa | (参考訳) ディープラーニングモデルのより高速な推論は、金融と環境の両方の理由から、エッジデバイスやサーバにも非常に要求される。
この問題に対処するために,効率的なパフォーマンスチューニングを行う新しい高性能推論フレームワークであるSoftNeuroを提案する。
鍵となるアイデアは、ネットワーク層からアルゴリズムルーチンを分離することだ。
本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。
最適な経路を効率よく見つけるために,動的プログラミングに基づくルーチン選択アルゴリズムを提案する。
実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。 Faster inference of deep learning models is highly demanded on edge devices and even servers, for both financial and environmental reasons. To address this issue, we propose SoftNeuro, a novel, high-performance inference framework with efficient performance tuning. The key idea is to separate algorithmic routines from network layers. Our framework maximizes the inference performance by profiling various routines for each layer and selecting the fastest path. To efficiently find the best path, we propose a routine-selection algorithm based on dynamic programming. Experiments show that the proposed framework achieves both fast inference and efficient tuning. | 翻訳日:2021-10-13 18:45:35 公開日:2021-10-12 |
# (参考訳) 地図理解によるトピックモデルの構築 Topic Model Supervised by Understanding Map ( http://arxiv.org/abs/2110.06043v1 ) ライセンス: CC BY 4.0 | Gangli Liu | (参考訳) 物理学における質量中心の概念に触発されて、SCOM(Semantic Center of Mass)と呼ばれる拡張が提案され、文書の抽象的な「トピック」を発見するために使用される。
この概念は、理解マップ監視トピックモデル(UM-S-TM)と呼ばれるフレームワークモデルに基づいている。
UM-S-TMの目標は、ドキュメントの内容とセマンティックネットワーク(具体的には、地図を理解する)の両方が、ドキュメントの意味を解釈する役割を果たすことである。
異なる正当化に基づいて、文書のSCOMを発見するために3つの方法が考案された。
人工文書と理解マップに関するいくつかの実験を行い、その結果を検証した。
さらに,文書のベクトル化とシーケンシャルな情報の取得能力についても検証した。
また,UM-S-TMをLDA(Latent Dirichlet Allocation)やpLSA(Latent Semantic Analysis)といった確率論的トピックモデルと比較した。 Inspired by the notion of Center of Mass in physics, an extension called Semantic Center of Mass (SCOM) is proposed, and used to discover the abstract "topic" of a document. The notion is under a framework model called Understanding Map Supervised Topic Model (UM-S-TM). The devise aim of UM-S-TM is to let both the document content and a semantic network -- specifically, Understanding Map -- play a role, in interpreting the meaning of a document. Based on different justifications, three possible methods are devised to discover the SCOM of a document. Some experiments on artificial documents and Understanding Maps are conducted to test their outcomes. In addition, its ability of vectorization of documents and capturing sequential information are tested. We also compared UM-S-TM with probabilistic topic models like Latent Dirichlet Allocation (LDA) and probabilistic Latent Semantic Analysis (pLSA). | 翻訳日:2021-10-13 18:27:49 公開日:2021-10-12 |
# (参考訳) 油井の過渡生産の長期予測のための深層変圧器モデルの開発 Development of Deep Transformer-Based Models for Long-Term Prediction of Transient Production of Oil Wells ( http://arxiv.org/abs/2110.06059v1 ) ライセンス: CC BY 4.0 | Ildar Abdrakhmanov, Evgenii Kanin, Sergei Boronin, Evgeny Burnaev, Andrei Osiptsov | (参考訳) 本稿では,油井の過渡生産に関するデータ駆動型モデリング手法を提案する。
本研究では,様々な油井のパラメータからなる多変量時系列で学習したトランスベースニューラルネットワークを適用した。
オープンソースフィールドデータセット上で1つの井戸(隣接する井戸の影響を無視する)に対する機械学習モデルをチューニングすることにより、ボトムホール圧力ダイナミクスの予測において、トランスフォーマーがLSTM/GRUセルとの繰り返しニューラルネットワークよりも優れていることを示す。
本研究では,変圧器を用いたサロゲートモデルに適用し,特定の井戸からのデータセットの初期訓練とターゲット井戸からのデータセットの重み付けの追加チューニングを含む。
トランスファーラーニングアプローチは、モデルの予測能力を改善するのに役立つ。
次に,複数井戸の変圧器構造に基づく単一ウェルモデルを一般化し,複雑な過渡油田レベルパターンをシミュレートする。
言い換えると、我々は、複数の井戸から生産履歴で構成されたデータセットを扱うグローバルモデルを作成し、井戸の干渉を捉え、それぞれの井戸の底穴圧力や流量の進化をより正確に予測することができる。
単孔油田スケールモデリングのための開発した機器は、炭化水素の回収を増加させるために運転体制と潜水装置を選択して製造プロセスを最適化するために使用できる。
さらに、モデルはコストのかかるシャットイン操作を避けるために、十分にテストするのに役立つ。 We propose a novel approach to data-driven modeling of a transient production of oil wells. We apply the transformer-based neural networks trained on the multivariate time series composed of various parameters of oil wells measured during their exploitation. By tuning the machine learning models for a single well (ignoring the effect of neighboring wells) on the open-source field datasets, we demonstrate that transformer outperforms recurrent neural networks with LSTM/GRU cells in the forecasting of the bottomhole pressure dynamics. We apply the transfer learning procedure to the transformer-based surrogate model, which includes the initial training on the dataset from a certain well and additional tuning of the model's weights on the dataset from a target well. Transfer learning approach helps to improve the prediction capability of the model. Next, we generalize the single-well model based on the transformer architecture for multiple wells to simulate complex transient oilfield-level patterns. In other words, we create the global model which deals with the dataset, comprised of the production history from multiple wells, and allows for capturing the well interference resulting in more accurate prediction of the bottomhole pressure or flow rate evolutions for each well under consideration. The developed instruments for a single-well and oilfield-scale modelling can be used to optimize the production process by selecting the operating regime and submersible equipment to increase the hydrocarbon recovery. In addition, the models can be helpful to perform well-testing avoiding costly shut-in operations. | 翻訳日:2021-10-13 18:11:01 公開日:2021-10-12 |
# (参考訳) モデルに基づく脳活動分析による305名の言語階層の解明 Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects ( http://arxiv.org/abs/2110.06078v1 ) ライセンス: CC BY 4.0 | Charlotte Caucheteux, Alexandre Gramfort, Jean-R\'emi King | (参考訳) 言語の神経基盤を分解する一般的なアプローチは、個人間で、異なる刺激に対する脳反応(例えば、スクランブルされた単語、文、段落)を関連付けるものである。
成功したが、この「モデルフリー」アプローチは、大規模でコストのかかる神経画像データを取得する必要がある。
本稿では,モデルに基づくアプローチが,自然刺激に曝された被験者の同等の結果に到達できることを示す。
我々は、最近発見された深層言語モデルと人間の脳の類似性を利用して、マッピングの計算を行う。
一 通常の言論に対する脳の反応及び
二 修正刺激(例えば、スクランブル語、文又は段落)により引き起こされる深層言語モデルの活性化
モデルに基づくアプローチはLerner et al. (2011) の初歩的な研究を成功させ, 通常の物語とスクランブルされた物語の7分を聴く7人の機能的磁気共鳴画像(fMRI)を比較して言語領域の階層性を明らかにした。
さらに、これらの結果を4.1時間のナレーションを聴く305人の脳信号に拡張し、精密化する。
全体として、この研究は言語の脳基盤の効率的で柔軟な分析への道を開くものだ。 A popular approach to decompose the neural bases of language consists in correlating, across individuals, the brain responses to different stimuli (e.g. regular speech versus scrambled words, sentences, or paragraphs). Although successful, this `model-free' approach necessitates the acquisition of a large and costly set of neuroimaging data. Here, we show that a model-based approach can reach equivalent results within subjects exposed to natural stimuli. We capitalize on the recently-discovered similarities between deep language models and the human brain to compute the mapping between i) the brain responses to regular speech and ii) the activations of deep language models elicited by modified stimuli (e.g. scrambled words, sentences, or paragraphs). Our model-based approach successfully replicates the seminal study of Lerner et al. (2011), which revealed the hierarchy of language areas by comparing the functional-magnetic resonance imaging (fMRI) of seven subjects listening to 7min of both regular and scrambled narratives. We further extend and precise these results to the brain signals of 305 individuals listening to 4.1 hours of narrated stories. Overall, this study paves the way for efficient and flexible analyses of the brain bases of language. | 翻訳日:2021-10-13 17:56:37 公開日:2021-10-12 |
# (参考訳) 二次ネットワークの表現性とトレーサビリティ Expressivity and Trainability of Quadratic Networks ( http://arxiv.org/abs/2110.06081v1 ) ライセンス: CC BY 4.0 | Feng-Lei Fan, Mengzhou Li, Fei Wang, Rongjie Lai, Ge Wang | (参考訳) 生物ニューロンの多様性にインスパイアされた二次人工ニューロンは、ディープラーニングモデルにおいて重要な役割を果たす。
我々の関心を持つ二次ニューロンの種類は、通常のニューロンの内積操作を二次機能に置き換える。
これまでは二次ニューロンのネットワークによって有望な結果が得られたが、未解決の重要な問題がある。
理論的には、従来のネットワークまたは2次活性化による従来のネットワークよりも優れた2次ネットワークの表現性は、完全には解明されておらず、2次ネットワークの使用は不十分である。
実際には、二次ネットワークは一般的なバックプロパゲーションによって訓練できるが、従来のネットワークよりも崩壊のリスクが高い。
これらの問題に対処するために、まずスプライン理論と代数幾何学からの測度を適用して、2次ネットワークのモデル表現性を示す2つの定理を与える。
そこで本研究では,ReLinearと呼ばれる2次ネットワークのトレーニングプロセスを安定させ,関連する機械学習タスクの潜在能力を最大限に活用するための,効果的で効率的なトレーニング戦略を提案する。
一般的なデータセットに関する総合的な実験を行い,2次深層学習の性能評価を行った。 Inspired by diversity of biological neurons, quadratic artificial neurons can play an important role in deep learning models. The type of quadratic neurons of our interest replaces the inner-product operation in the conventional neuron with a quadratic function. Despite promising results so far achieved by networks of quadratic neurons, there are important issues not well addressed. Theoretically, the superior expressivity of a quadratic network over either a conventional network or a conventional network via quadratic activation is not fully elucidated, which makes the use of quadratic networks not well grounded. Practically, although a quadratic network can be trained via generic backpropagation, it can be subject to a higher risk of collapse than the conventional counterpart. To address these issues, we first apply the spline theory and a measure from algebraic geometry to give two theorems that demonstrate better model expressivity of a quadratic network than the conventional counterpart with or without quadratic activation. Then, we propose an effective and efficient training strategy referred to as ReLinear to stabilize the training process of a quadratic network, thereby unleashing the full potential in its associated machine learning tasks. Comprehensive experiments on popular datasets are performed to support our findings and evaluate the performance of quadratic deep learning. | 翻訳日:2021-10-13 17:42:51 公開日:2021-10-12 |
# (参考訳) 点雲セグメンテーションのための連続条件ランダム場畳み込み Continuous Conditional Random Field Convolution for Point Cloud Segmentation ( http://arxiv.org/abs/2110.06085v1 ) ライセンス: CC BY 4.0 | Fei Yang, Franck Davoine, Huan Wang, Zhong Jin | (参考訳) ポイントクラウドセグメンテーションは、現代の知的システムのための3次元環境認識の基礎である。
この問題を解決するために、条件付きランダムフィールド(CRF)は通常、ラベル空間における離散モデルとして定式化され、ラベルの一貫性が促進される。
本稿では,CRFを点雲セグメンテーションのための特徴空間として再考する。それは,単に滑らかにするのではなく,特徴の構造をうまく捉えて特徴の表現能力を向上させることができるからである。
そこで,我々はまず,連続的二次エネルギーモデルを用いてポイントクラウドの特徴をモデル化し,その解プロセスをメッセージ通過グラフ畳み込みとして定式化し,ディープネットワークに容易に統合できるようにする。
理論的には、グラフ畳み込みにおけるメッセージの通過は連続CRFモデルの平均場近似と等価である。
さらに,提案する連続crfグラフ畳み込み(crfconv)に基づくエンコーダ・デコーダネットワークを構築することにより,デコード層に埋め込まれたcrfconvが,エンコード段階で失われた高レベルな特徴の詳細を復元し,ネットワークの位置能力を向上させることにより,セグメント化の恩恵を受ける。
CRFConvと類似して、従来の離散CRFは、別のグラフ畳み込みによって提案されたネットワークと協調して動作し、セグメンテーション結果をさらに改善できることを示す。
各種クラウドベンチマーク実験により,提案手法の有効性とロバスト性を示した。
最先端手法と比較して,提案手法は競合セグメンテーション性能も達成できる。 Point cloud segmentation is the foundation of 3D environmental perception for modern intelligent systems. To solve this problem and image segmentation, conditional random fields (CRFs) are usually formulated as discrete models in label space to encourage label consistency, which is actually a kind of postprocessing. In this paper, we reconsider the CRF in feature space for point cloud segmentation because it can capture the structure of features well to improve the representation ability of features rather than simply smoothing. Therefore, we first model the point cloud features with a continuous quadratic energy model and formulate its solution process as a message-passing graph convolution, by which it can be easily integrated into a deep network. We theoretically demonstrate that the message passing in the graph convolution is equivalent to the mean-field approximation of a continuous CRF model. Furthermore, we build an encoder-decoder network based on the proposed continuous CRF graph convolution (CRFConv), in which the CRFConv embedded in the decoding layers can restore the details of high-level features that were lost in the encoding stage to enhance the location ability of the network, thereby benefiting segmentation. Analogous to the CRFConv, we show that the classical discrete CRF can also work collaboratively with the proposed network via another graph convolution to further improve the segmentation results. Experiments on various point cloud benchmarks demonstrate the effectiveness and robustness of the proposed method. Compared with the state-of-the-art methods, the proposed method can also achieve competitive segmentation performance. | 翻訳日:2021-10-13 17:19:58 公開日:2021-10-12 |
# (参考訳) Cubature Kalman Filter を用いたハイブリッド微分方程式 Recurrent Neural Network Physiological Dynamic Model の学習 Cubature Kalman Filter Based Training of Hybrid Differential Equation Recurrent Neural Network Physiological Dynamic Models ( http://arxiv.org/abs/2110.06089v1 ) ライセンス: CC BY 4.0 | Ahmet Demirkaya, Tales Imbiriba, Kyle Lockwood, Sumientra Rampersad, Elie Alhajjar, Giovanna Guidoboni, Zachary Danziger, Deniz Erdogmus | (参考訳) 生体力学系のモデリングは、異なるシステムコンポーネントの相互依存のために困難であり、その一部は完全には理解されていない。
物理系を機械的にモデル化する能力の既存のギャップを埋めるため,ニューラルネットワークと物理モデルを組み合わせることを提案する。
具体的には、ベイジアンフィルタ法を用いて、未知の常微分方程式(ODE)と既知のODEを結合してモデルパラメータをトレーニングし、動的状態変数を同時に推定する方法を示す。
研究ケースとして、人間の網膜における血液循環についてよく理解されたモデルを利用し、その中核となるODEの1つをニューラルネットワーク近似で置き換える。
その結果、欠落したodeに対応する状態ダイナミクスは、既知の状態動的微分方程式と組み合わされた方法で再帰ベイズフィルタリングアプローチを用いて訓練されたニューラルネットワークを用いてよく近似できることが示された。
これにより、再帰ベイズ状態推定(rbse)フレームワーク内の合同状態推定とモデルパラメータ推定により、行方不明状態変数のダイナミクスと影響を捉えることができる。
また、このRBSEによるNNパラメータのトレーニングは、同じ環境でのバックプロパゲーションでニューラルネットワークをトレーニングするよりも、より良い結果(測定/状態推定精度)が得られることを示す。 Modeling biological dynamical systems is challenging due to the interdependence of different system components, some of which are not fully understood. To fill existing gaps in our ability to mechanistically model physiological systems, we propose to combine neural networks with physics-based models. Specifically, we demonstrate how we can approximate missing ordinary differential equations (ODEs) coupled with known ODEs using Bayesian filtering techniques to train the model parameters and simultaneously estimate dynamic state variables. As a study case we leverage a well-understood model for blood circulation in the human retina and replace one of its core ODEs with a neural network approximation, representing the case where we have incomplete knowledge of the physiological state dynamics. Results demonstrate that state dynamics corresponding to the missing ODEs can be approximated well using a neural network trained using a recursive Bayesian filtering approach in a fashion coupled with the known state dynamic differential equations. This demonstrates that dynamics and impact of missing state variables can be captured through joint state estimation and model parameter estimation within a recursive Bayesian state estimation (RBSE) framework. Results also indicate that this RBSE approach to training the NN parameters yields better outcomes (measurement/state estimation accuracy) than training the neural network with backpropagation through time in the same setting. | 翻訳日:2021-10-13 16:59:39 公開日:2021-10-12 |
# (参考訳) twitterにおけるスペイン語変化の大規模語彙分析と意味分析 A large scale lexical and semantic analysis of Spanish language variations in Twitter ( http://arxiv.org/abs/2110.06128v1 ) ライセンス: CC BY 4.0 | Eric S. Tellez and Daniela Moctezuma and Sabino Miranda and Mario Graff | (参考訳) ダイアレクトメトリー(Diterlectometry)は、地理的領域周辺の言語の変化を研究する専門分野である。
彼らの目標の1つは、問題の領域で研究中の言語の類似性と相違を捉える言語的アトラスの作成である。
例えば、スペイン語は世界中で最も話されている言語の1つだが、必ずしも異なる国で同じようにスペイン語が書かれ、話されているわけではない。
この写本は、世界中の26のスペイン語圏における語彙的・意味的関係を記述した広範な分析を示している。
本研究では,twitterのジオタグ付き公開ストリームの4年間を分析し,各国のスペイン語語彙,分布,用語の意味的使用,絵文字について広範な調査を行った。
また、他の研究者や実践者が地域モデルを活用できるように、スペイン語のTwitterにオープンな地域語埋め込みリソースを提供しています。 Dialectometry is a discipline devoted to studying the variations of a language around a geographical region. One of their goals is the creation of linguistic atlases capturing the similarities and differences of the language under study around the area in question. For instance, Spanish is one of the most spoken languages across the world, but not necessarily Spanish is written and spoken in the same way in different countries. This manuscript presents a broad analysis describing lexical and semantic relationships among 26 Spanish-speaking countries around the globe. For this study, we analyze four-year of the Twitter geotagged public stream to provide an extensive survey of the Spanish language vocabularies of different countries, its distributions, semantic usage of terms, and emojis. We also offer open regional word-embedding resources for Spanish Twitter to help other researchers and practitioners take advantage of regionalized models. | 翻訳日:2021-10-13 16:50:21 公開日:2021-10-12 |
# (参考訳) 層間特徴マップ圧縮に基づくメモリ効率cnn加速器 Memory-Efficient CNN Accelerator Based on Interlayer Feature Map Compression ( http://arxiv.org/abs/2110.06155v1 ) ライセンス: CC BY 4.0 | Zhuang Shao, Xiaoliang Chen, Li Du, Lei Chen, Yuan Du, Wei Zhuang, Huadong Wei, Chenjia Xie, and Zhongfeng Wang | (参考訳) 既存の深層畳み込みニューラルネットワーク(cnns)は、ネットワーク推論中に大量の層間特徴データを生成する。
組込みシステムにおけるリアルタイム処理を維持するためには,層間特徴マップのバッファリングには,大きなオンチップメモリが必要となる。
本稿では,オンチップメモリサイズとオフチップメモリアクセス帯域幅を大幅に削減するために,層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。
アクセラレータは、ハードウェア実装8x8離散コサイン変換(DCT)を用いて、記憶されたデータを周波数領域に変換することにより、層間特徴写像を圧縮する。
高周波成分は、量子化によりDCT後に除去される。
スパース行列圧縮を用いて、層間特徴写像をさらに圧縮する。
オンチップメモリ割り当て方式は、異なるネットワーク層要求に応じて特徴マップバッファサイズとスクラッチパッドサイズの動的構成をサポートするように設計されている。
ハードウェアアクセラレータは圧縮、減圧縮、cnnの加速を1つの計算ストリームに組み合わせ、最小の圧縮と処理遅延を達成する。
FPGAプラットフォーム上でプロトタイプアクセラレータが実装され、TSMC 28nm COMS技術で合成される。
403GOPSピークスループットと1.4x~3.3x層間特徴マップの削減を実現し、軽量ハードウェア領域のオーバーヘッドを追加し、インテリジェントIoTデバイスのハードウェアアクセラレータとして期待できる。 Existing deep convolutional neural networks (CNNs) generate massive interlayer feature data during network inference. To maintain real-time processing in embedded systems, large on-chip memory is required to buffer the interlayer feature maps. In this paper, we propose an efficient hardware accelerator with an interlayer feature compression technique to significantly reduce the required on-chip memory size and off-chip memory access bandwidth. The accelerator compresses interlayer feature maps through transforming the stored data into frequency domain using hardware-implemented 8x8 discrete cosine transform (DCT). The high-frequency components are removed after the DCT through quantization. Sparse matrix compression is utilized to further compress the interlayer feature maps. The on-chip memory allocation scheme is designed to support dynamic configuration of the feature map buffer size and scratch pad size according to different network-layer requirements. The hardware accelerator combines compression, decompression, and CNN acceleration into one computing stream, achieving minimal compressing and processing delay. A prototype accelerator is implemented on an FPGA platform and also synthesized in TSMC 28-nm COMS technology. It achieves 403GOPS peak throughput and 1.4x~3.3x interlayer feature map reduction by adding light hardware area overhead, making it a promising hardware accelerator for intelligent IoT devices. | 翻訳日:2021-10-13 16:32:41 公開日:2021-10-12 |
# (参考訳) 最寄り-neighbor分類の関連点の探索 Finding Relevant Points for Nearest-Neighbor Classification ( http://arxiv.org/abs/2110.06163v1 ) ライセンス: CC BY 4.0 | David Eppstein | (参考訳) 至近距離分類問題において、既知の分類を持つ1組の1組のd$-d訓練点が与えられ、最近の訓練点と同じ分類を用いて、他の点の未知の分類を推測するために使用される。
トレーニングセットからの欠落がこれらの推論の結果を変える場合、トレーニングポイントは重要となる。
関連する点のサブセットに設定されたトレーニングを細分化する簡単なアルゴリズムを提供し、各点の集合の最小スパンディングツリーを探索し、点の集合の極端点(凸包頂点)を求めるサブルーチンアルゴリズムとして使用する。
我々のアルゴリズムの時間境界は、任意の定数次元$d\ge 3$で、クラークソン (FOCS 1994) による同じ問題に対する以前のアルゴリズムを改善する。 In nearest-neighbor classification problems, a set of $d$-dimensional training points are given, each with a known classification, and are used to infer unknown classifications of other points by using the same classification as the nearest training point. A training point is relevant if its omission from the training set would change the outcome of some of these inferences. We provide a simple algorithm for thinning a training set down to its subset of relevant points, using as subroutines algorithms for finding the minimum spanning tree of a set of points and for finding the extreme points (convex hull vertices) of a set of points. The time bounds for our algorithm, in any constant dimension $d\ge 3$, improve on a previous algorithm for the same problem by Clarkson (FOCS 1994). | 翻訳日:2021-10-13 16:08:59 公開日:2021-10-12 |
# (参考訳) m2gan: 自律走行車における画像雨除去のための多段セルフアテンションネットワーク M2GAN: A Multi-Stage Self-Attention Network for Image Rain Removal on Autonomous Vehicles ( http://arxiv.org/abs/2110.06164v1 ) ライセンス: CC BY 4.0 | Duc Manh Nguyen, Sang-Woong Lee | (参考訳) イメージレーダリングは、自動運転車の応用において新たな挑戦的な問題である。
豪雨の悪天候下では、主に車両のフロントガラスを打つ雨滴は、フロントガラスのワイパーが一部を除去できるとしても、観測能力を著しく低下させることができる。
さらに、フロントガラスの上に広がる雨流は屈折の物理的効果を生じさせ、観光線を著しく阻害したり、車両に搭載された機械学習システムを弱めたりする。
本稿では,自動車のフロントガラスにぶつかる雨滴の問題に対処するため,マルチタスク・リカレント・ジェネレーティブ・逆向ネットワーク(M2GAN)を提案する。
また、ガラス窓やレンズに現れる雨滴の除去にも適用できる。
M2GANは, セマンティックセグメンテーションなどの先進的な高レベル情報を利用して, デライン性能を向上させるマルチタスク生成対向ネットワークである。
M2GANを実証するために,自律走行車における降雨除去のための最初の実世界のデータセットを紹介する。
実験結果から,本手法は他の雨滴流出手法よりも定量的指標と視覚品質において優れていることが示唆された。
M2GANは、自動運転車のような制約のない環境下での現実世界の雨の問題に対処する最初の方法と考えられている。 Image deraining is a new challenging problem in applications of autonomous vehicles. In a bad weather condition of heavy rainfall, raindrops, mainly hitting the vehicle's windshield, can significantly reduce observation ability even though the windshield wipers might be able to remove part of it. Moreover, rain flows spreading over the windshield can yield the physical effect of refraction, which seriously impede the sightline or undermine the machine learning system equipped in the vehicle. In this paper, we propose a new multi-stage multi-task recurrent generative adversarial network (M2GAN) to deal with challenging problems of raindrops hitting the car's windshield. This method is also applicable for removing raindrops appearing on a glass window or lens. M2GAN is a multi-stage multi-task generative adversarial network that can utilize prior high-level information, such as semantic segmentation, to boost deraining performance. To demonstrate M2GAN, we introduce the first real-world dataset for rain removal on autonomous vehicles. The experimental results show that our proposed method is superior to other state-of-the-art approaches of deraining raindrops in respect of quantitative metrics and visual quality. M2GAN is considered the first method to deal with challenging problems of real-world rains under unconstrained environments such as autonomous vehicles. | 翻訳日:2021-10-13 15:53:15 公開日:2021-10-12 |
# (参考訳) GraPE: 高速でスケーラブルなグラフ処理と埋め込み GraPE: fast and scalable Graph Processing and Embedding ( http://arxiv.org/abs/2110.06196v1 ) ライセンス: CC BY 4.0 | Luca Cappelletti, Tommaso Fontana, Elena Casiraghi, Vida Ravanmehr, Tiffany J.Callahan, Marcin P. Joachimiak, Christopher J. Mungall, Peter N. Robinson, Justin Reese and Giorgio Valentini | (参考訳) グラフ表現学習手法は、グラフ形式で表現可能なデータに対して、幅広い学習問題に対処することができる。
それでも、経済、生物学、医学、その他の分野における現実のいくつかの問題は、数百万のノードと数十億のエッジを特徴とする実世界のグラフのサイズのため、既存の方法とそのソフトウェア実装に関するスケーリングの問題を引き起こした。
本稿では,グラフ処理とランダムウォークに基づく埋め込みのためのソフトウェアリソースであるgrapeを提案する。
grapeは特殊なデータ構造、アルゴリズム、高速な並列実装で構成されており、経験的空間と時間の複雑さにおいて、最先端のソフトウェアリソースと比較して、経験的空間と時間的複雑さが大幅に向上し、エッジとノードラベルの予測とグラフの教師なし解析のための機械学習メソッドのパフォーマンスが向上している。grapeはラップトップやデスクトップコンピュータだけでなく、高性能コンピューティングクラスタ上でも動作するように設計されている。 Graph Representation Learning methods have enabled a wide range of learning problems to be addressed for data that can be represented in graph form. Nevertheless, several real world problems in economy, biology, medicine and other fields raised relevant scaling problems with existing methods and their software implementation, due to the size of real world graphs characterized by millions of nodes and billions of edges. We present GraPE, a software resource for graph processing and random walk based embedding, that can scale with large and high-degree graphs and significantly speed up-computation. GraPE comprises specialized data structures, algorithms, and a fast parallel implementation that displays everal orders of magnitude improvement in empirical space and time complexity compared to state of the art software resources, with a corresponding boost in the performance of machine learning methods for edge and node label prediction and for the unsupervised analysis of graphs.GraPE is designed to run on laptop and desktop computers, as well as on high performance computing clusters | 翻訳日:2021-10-13 15:39:54 公開日:2021-10-12 |
# codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for Everyone ( http://arxiv.org/abs/2110.05802v1 ) ライセンス: Link先を確認 | Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera, Isabelle Guyon | (参考訳) 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。
統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。
ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。
Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。
Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。
まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。
これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。
次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。
Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。
第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。
Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。
実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。 Obtaining standardized crowdsourced benchmark of computational methods is a major issue in scientific communities. Dedicated frameworks enabling fair continuous benchmarking in a unified environment are yet to be developed. Here we introduce Codabench, an open-sourced, community-driven platform for benchmarking algorithms or software agents versus datasets or tasks. A public instance of Codabench is open to everyone, free of charge, and allows benchmark organizers to compare fairly submissions, under the same setting (software, hardware, data, algorithms), with custom protocols and data formats. Codabench has unique features facilitating the organization of benchmarks flexibly, easily and reproducibly. Firstly, it supports code submission and data submission for testing on dedicated compute workers, which can be supplied by the benchmark organizers. This makes the system scalable, at low cost for the platform providers. Secondly, Codabench benchmarks are created from self-contained bundles, which are zip files containing a full description of the benchmark in a configuration file (following a well-defined schema), documentation pages, data, ingestion and scoring programs, making benchmarks reusable and portable. The Codabench documentation includes many examples of bundles that can serve as templates. Thirdly, Codabench uses dockers for each task's running environment to make results reproducible. Codabench has been used internally and externally with more than 10 applications during the past 6 months. As illustrative use cases, we introduce 4 diverse benchmarks covering Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and Reinforcement Learning. | 翻訳日:2021-10-13 15:38:28 公開日:2021-10-12 |
# オンラインランキングシステムの最適化 Optimizing Ranking Systems Online as Bandits ( http://arxiv.org/abs/2110.05807v1 ) ライセンス: Link先を確認 | Chang Li | (参考訳) ランキングシステムは現代の検索とレコメンデーションシステムの中核部分であり、ユーザのコンテキストに応じて候補項目をランク付けすることを目的としている。
オンラインでランキングシステムを最適化することは、デプロイされたシステムがユーザの要求、例えばウェブ検索でのクエリ、クリックなどのユーザーインタラクションから学習することでランキングポリシーを最適化できることを意味する。
banditは一般的なオンライン学習フレームワークで、最適化タスクで使用できます。
しかし,ランキングのユニークな特徴から,ランキングシステム最適化のためのバンドイットアルゴリズムの設計にはいくつかの課題がある。
本論文では,オンラインランキングシステムを最適化する上で,有効性,安全性,非定常性,多様化という4つの課題について検討し,提案する。
まず、効果はアルゴリズムが相互作用からどれだけ速く学習するかに関係している。
本稿では,オンラインランサー評価を効果的に行うために,MergeDTSアルゴリズムを提案する。
第二に、デプロイされたアルゴリズムは安全でなければならない。つまり、アルゴリズムはユーザ要求に対して適切なコンテンツのみを表示する。
安全なオンライン学習のランク付けを実現するために,BubbleRankアルゴリズムを提案する。
第三に、ユーザーが常に好みを変えるとき、アルゴリズムは非定常性を扱うべきである。
我々は、この非定常オンライン学習をカスケード非定常帯域としてランク付けし、その問題を解決するためにカスケードDUCBおよびカスケードSWUCBアルゴリズムを提案する。
最後に、ランクリストの内容は多様であるべきである。
本研究では,ユーザインタラクションから学習する場合に,項目の関連度と結果の多様化度を考慮したカスケードハイバードアルゴリズムを提案する。 Ranking system is the core part of modern retrieval and recommender systems, where the goal is to rank candidate items given user contexts. Optimizing ranking systems online means that the deployed system can serve user requests, e.g., queries in the web search, and optimize the ranking policy by learning from user interactions, e.g., clicks. Bandit is a general online learning framework and can be used in our optimization task. However, due to the unique features of ranking, there are several challenges in designing bandit algorithms for ranking system optimization. In this dissertation, we study and propose solutions for four challenges in optimizing ranking systems online: effectiveness, safety, nonstationarity, and diversification. First, the effectiveness is related to how fast the algorithm learns from interactions. We study the effective online ranker evaluation task and propose the MergeDTS algorithm to solve the problem effectively. Second, the deployed algorithm should be safe, which means the algorithm only displays reasonable content to user requests. To solve the safe online learning to rank problem, we propose the BubbleRank algorithm. Third, as users change their preferences constantly, the algorithm should handle the nonstationarity. We formulate this nonstationary online learning to rank problem as cascade non-stationary bandits and propose CascadeDUCB and CascadeSWUCB algorithms to solve the problem. Finally, the contents in ranked lists should be diverse. We consider the results diversification task and propose the CascadeHybird algorithm that considers both the item relevance and results diversification when learning from user interactions. | 翻訳日:2021-10-13 15:38:05 公開日:2021-10-12 |
# カップル学習:疑似ラベルを用いた平均教師法による半教師付き深層学習結果の改善 Couple Learning: Mean Teacher method with pseudo-labels improves semi-supervised deep learning results ( http://arxiv.org/abs/2110.05809v1 ) ライセンス: Link先を確認 | Rui Tao, Long Yan, Kazushige Ouchi, Xiangdong Wang | (参考訳) 最近提案された平均教師は、いくつかの半教師付き学習ベンチマークで最先端の結果を得た。
平均教師法は,大規模未ラベルデータを自己認識的に活用することができる。
本稿では, よく訓練されたモデルと平均教師モデルに基づく効果的な結合学習手法を提案する。
提案する擬似ラベル生成モデル (plg) は, 強ラベルデータと弱ラベルデータを増やし, 平均教師法の性能を向上させる。
平均教師法は擬似ラベルデータのノイズを抑制することができる。
複合学習データにより多くの情報を抽出することができる。
dcase2020チャレンジのタスク4におけるこれらの実験結果は、提案手法の優位性を示し、公的なevalセット上で39.18%のf1-scoreを達成し、ベースラインシステムの37.12%をかなりのマージンで上回った。 The recently proposed Mean Teacher has achieved state-of-the-art results in several semi-supervised learning benchmarks. The Mean Teacher method can exploit large-scale unlabeled data in a self-ensembling manner. In this paper, an effective Couple Learning method based on a well-trained model and a Mean Teacher model is proposed. The proposed pseudo-labels generated model (PLG) can increase strongly-labeled data and weakly-labeled data to improve performance of the Mean Teacher method. The Mean Teacher method can suppress noise in pseudo-labels data. The Couple Learning method can extract more information in the compound training data. These experimental results on Task 4 of the DCASE2020 challenge demonstrate the superiority of the proposed method, achieving about 39.18% F1-score on public eval set, outperforming 37.12% of the baseline system by a significant margin. | 翻訳日:2021-10-13 15:37:42 公開日:2021-10-12 |
# FANCI機能共有:DGA検出のための特徴抽出のプライバシ分析 Sharing FANCI Features: A Privacy Analysis of Feature Extraction for DGA Detection ( http://arxiv.org/abs/2110.05849v1 ) ライセンス: Link先を確認 | Benedikt Holmes, Arthur Drichel, Ulrike Meyer | (参考訳) ドメイン生成アルゴリズム(DGA)検出の目標は、ボットマルウェアによる感染を認識し、非解決型ドメイン名システム(DNS)トラフィックを分類し、潜在的に機密性の高いデータに基づいてトレーニングされる機械学習アプローチの助けを借りることである。
それと並行して、マシンラーニングの世界におけるプライバシ研究の台頭は、ディープラーニングモデルのアーキテクチャやトレーニングルーチンと密に結合した、プライバシ保護対策に繋がる一方で、非ディープラーニングアプローチは、実際の分類モジュール以外のプライバシ向上手法の適用に一般的に適している。
本研究では,機能ベースDGA検出器FANCI(Feature-based Automated Nx domain Classification and Intelligence)の機能抽出器のプライバシ能力を測定することを目的とする。
我々の目標は、データ豊富な敵がFANCIの特徴抽出器の逆写像を学習し、特徴ベクトルからドメイン名を再構築できるかどうかを評価することである。
攻撃の成功は、FANCIの機能表現を共有するためにプライバシー上の脅威となるが、その逆は、プライバシーの懸念なしにこの表現を共有できるようにする。
実世界の3つのデータセットを用いて、再構成タスクで繰り返し機械学習モデルをトレーニングする。
提案手法は復元性能の低下を招き,特徴抽出過程を数学的に検討して結果の裏付けを試みている。
したがって、FANCIの機能表現を共有することは、かなりのプライバシー漏洩にはならない。 The goal of Domain Generation Algorithm (DGA) detection is to recognize infections with bot malware and is often done with help of Machine Learning approaches that classify non-resolving Domain Name System (DNS) traffic and are trained on possibly sensitive data. In parallel, the rise of privacy research in the Machine Learning world leads to privacy-preserving measures that are tightly coupled with a deep learning model's architecture or training routine, while non deep learning approaches are commonly better suited for the application of privacy-enhancing methods outside the actual classification module. In this work, we aim to measure the privacy capability of the feature extractor of feature-based DGA detector FANCI (Feature-based Automated Nxdomain Classification and Intelligence). Our goal is to assess whether a data-rich adversary can learn an inverse mapping of FANCI's feature extractor and thereby reconstruct domain names from feature vectors. Attack success would pose a privacy threat to sharing FANCI's feature representation, while the opposite would enable this representation to be shared without privacy concerns. Using three real-world data sets, we train a recurrent Machine Learning model on the reconstruction task. Our approaches result in poor reconstruction performance and we attempt to back our findings with a mathematical review of the feature extraction process. We thus reckon that sharing FANCI's feature representation does not constitute a considerable privacy leakage. | 翻訳日:2021-10-13 15:37:27 公開日:2021-10-12 |
# Synergy:マルチテナントクラスタにおけるリソース感性DNNスケジューリング Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters ( http://arxiv.org/abs/2110.06073v1 ) ライセンス: Link先を確認 | Jayashree Mohan, Amar Phanishayee, Janardhan Kulkarni, Vijay Chidambaram | (参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
DNNトレーニングの既存のスケジューラは、GPUを主要なリソースと考え、ジョブが要求するGPUの数に比例したCPUやメモリなどの他のリソースを割り当てる。
残念ながら、これらのスケジューラは、cpu、メモリ、ストレージリソースの割り当てに対するジョブの感度の影響を考慮しない。
本稿では,共有gpuクラスタのためのリソースセンシティブなスケジューラであるsynergyを提案する。
Synergyは、楽観的なプロファイリングを使用して異なるリソースに対してDNNの感度を推測する。一部のジョブはGPUのプロポーショナルアロケーション以上の恩恵を受け、一部のジョブはGPUのプロポーショナルアロケーションよりも影響を受けない可能性がある。
synergyは新しい最適化のオンラインアルゴリズムを使用して、共有マルチテナントクラスタ上でスケジュールされた一連のジョブに対して、このようなマルチリソースのワークロード対応割り当てを実行する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。 Training Deep Neural Networks (DNNs) is a widely popular workload in both enterprises and cloud data centers. Existing schedulers for DNN training consider GPU as the dominant resource, and allocate other resources such as CPU and memory proportional to the number of GPUs requested by the job. Unfortunately, these schedulers do not consider the impact of a job's sensitivity to allocation of CPU, memory, and storage resources. In this work, we propose Synergy, a resource-sensitive scheduler for shared GPU clusters. Synergy infers the sensitivity of DNNs to different resources using optimistic profiling; some jobs might benefit from more than the GPU-proportional allocation and some jobs might not be affected by less than GPU-proportional allocation. Synergy performs such multi-resource workload-aware assignments across a set of jobs scheduled on shared multi-tenant clusters using a new near-optimal online algorithm. Our experiments show that workload-aware CPU and memory allocations can improve average JCT up to 3.4x when compared to traditional GPU-proportional scheduling. | 翻訳日:2021-10-13 15:36:26 公開日:2021-10-12 |
# 10億規模のセマンティック製品検索のためのデータ構造の導入 Embracing Structure in Data for Billion-Scale Semantic Product Search ( http://arxiv.org/abs/2110.06125v1 ) ライセンス: Link先を確認 | Vihan Lakshman, Choon Hui Teo, Xiaowen Chu, Priyanka Nigam, Abhinandan Patni, Pooja Maknikar, SVN Vishwanathan | (参考訳) 我々は,10億の規模でDyadic Neural Embedding Modelをトレーニングし,デプロイするための原則的アプローチを提案し,セマンティックプロダクトサーチの適用について検討する。
ダイアドモデルのトレーニングでは、2種類のエンティティ(クエリやドキュメント、ユーザや映画など)を共通のベクトル空間に埋め込んで、関連性の高いペアが近くに位置するようにしようとする。
推論において、あるタイプ(例えば、クエリやユーザ)の埋め込みが与えられた場合、関係性の高い他のタイプのエンティティ(例えば、ドキュメントや映画)を検索しようとする。
本研究では,実世界のデータセットの自然構造を活用することで,両者の課題を効率的に解決できることを示す。
具体的には、正の相関関係を持つペア間の辺を持つ二部グラフとしてdyadicデータをモデル化する。
次に、このネットワークを意味的に一貫性のあるクラスタに分割し、与えられた入力に対してこれらのパーティションの小さなサブセットに焦点を当てることで、検索スペースを削減することを提案する。
トレーニング中、このテクニックにより、ハードネガティブな例を効率的にマイニングできる一方で、推論では、与えられた埋め込みの最も近い隣接点を素早く見つけることができます。
我々は、10億規模のamazon.com製品検索データセットでトレーニングと推論の両方にこの技術の有効性を示すオフライン実験結果を提供する。 We present principled approaches to train and deploy dyadic neural embedding models at the billion scale, focusing our investigation on the application of semantic product search. When training a dyadic model, one seeks to embed two different types of entities (e.g., queries and documents or users and movies) in a common vector space such that pairs with high relevance are positioned nearby. During inference, given an embedding of one type (e.g., a query or a user), one seeks to retrieve the entities of the other type (e.g., documents or movies, respectively) that are highly relevant. In this work, we show that exploiting the natural structure of real-world datasets helps address both challenges efficiently. Specifically, we model dyadic data as a bipartite graph with edges between pairs with positive associations. We then propose to partition this network into semantically coherent clusters and thus reduce our search space by focusing on a small subset of these partitions for a given input. During training, this technique enables us to efficiently mine hard negative examples while, at inference, we can quickly find the nearest neighbors for a given embedding. We provide offline experimental results that demonstrate the efficacy of our techniques for both training and inference on a billion-scale Amazon.com product search dataset. | 翻訳日:2021-10-13 15:36:09 公開日:2021-10-12 |
# バイオメディシンにおけるラベル不足:データ豊富な潜伏因子の発見は表現型予測を促進する Label scarcity in biomedicine: Data-rich latent factor discovery enhances phenotype prediction ( http://arxiv.org/abs/2110.06135v1 ) ライセンス: Link先を確認 | Marc-Andre Schulz, Bertrand Thirion, Alexandre Gramfort, Ga\"el Varoquaux, Danilo Bzdok | (参考訳) 高品質なデータ蓄積は、今では健康領域で広く普及している。
健常者からの豊富なデータを利用して、悪名高いデータ不足のある特定の疾患における教師付き推定値を改善する機会が増えている。
低次元の埋め込み空間は、イギリスのバイオバンク人口データセットから導出され、健康指標、生活習慣、人口特性の予測データを強化するために使用される。
変分自己エンコーダ多様体により促進される現象型予測は, PCA や Isomap による次元減少よりもラベルなしデータの増大により, 典型的に向上した。
semisupervisonのアプローチによるパフォーマンス向上は、様々な医療データサイエンスアプリケーションにとって重要な要素になるだろう。 High-quality data accumulation is now becoming ubiquitous in the health domain. There is increasing opportunity to exploit rich data from normal subjects to improve supervised estimators in specific diseases with notorious data scarcity. We demonstrate that low-dimensional embedding spaces can be derived from the UK Biobank population dataset and used to enhance data-scarce prediction of health indicators, lifestyle and demographic characteristics. Phenotype predictions facilitated by Variational Autoencoder manifolds typically scaled better with increasing unlabeled data than dimensionality reduction by PCA or Isomap. Performances gains from semisupervison approaches will probably become an important ingredient for various medical data science applications. | 翻訳日:2021-10-13 15:35:05 公開日:2021-10-12 |
# 部分制御可能な線形系のスパーシティ Sparsity in Partially Controllable Linear Systems ( http://arxiv.org/abs/2110.06150v1 ) ライセンス: Link先を確認 | Yonathan Efroni, Sham Kakade, Akshay Krishnamurthy, Cyril Zhang | (参考訳) 制御理論の基本的な概念は制御可能性であり、任意のシステム状態が適切な制御入力の選択によって到達できる。
実際、古典的および近代的なアプローチの大きなボディは、制御可能な線形力学系のために設計されている。
しかし、実際には、多くの状態変数が制御入力から独立して均一に進化するシステムに遭遇することが多く、そのようなシステムは単に \emph{partially controllable} である。
この研究の焦点は、部分制御可能な線形力学系の大きなクラスであり、基礎となるスパーシティパターンによって特定される。
本研究の主な成果は, 構造条件の確立と, システム制御の学習のための有限サンプル保証である。
特に, 最適制御に無関係な状態変数を特徴付け, 古典的制御技術から逸脱した解析を行った。
アルゴリズムの結果は,高次元統計,特にソフトスレッショルドおよびセミパラメトリックな最小二乗法を用いて,基礎となるスパーシティパターンを活用し,確実性同値に基づいて著しく改善する有限サンプル保証を得る。
また、シミュレーション研究により、一定の等価制御に対するこれらの理論的改善を裏付ける。 A fundamental concept in control theory is that of controllability, where any system state can be reached through an appropriate choice of control inputs. Indeed, a large body of classical and modern approaches are designed for controllable linear dynamical systems. However, in practice, we often encounter systems in which a large set of state variables evolve exogenously and independently of the control inputs; such systems are only \emph{partially controllable}. The focus of this work is on a large class of partially controllable linear dynamical systems, specified by an underlying sparsity pattern. Our main results establish structural conditions and finite-sample guarantees for learning to control such systems. In particular, our structural results characterize those state variables which are irrelevant for optimal control, an analysis which departs from classical control techniques. Our algorithmic results adapt techniques from high-dimensional statistics -- specifically soft-thresholding and semiparametric least-squares -- to exploit the underlying sparsity pattern in order to obtain finite-sample guarantees that significantly improve over those based on certainty-equivalence. We also corroborate these theoretical improvements over certainty-equivalent control through a simulation study. | 翻訳日:2021-10-13 15:34:54 公開日:2021-10-12 |
# ピック・アンド・プレイスを超えて: 異形ロボットを積み重ねる Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes ( http://arxiv.org/abs/2110.06192v1 ) ライセンス: Link先を確認 | Alex X. Lee, Coline Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, Claudio Fantacci, Jose Enrique Chen, Akhil Raju, Rae Jeong, Michael Neunert, Antoine Laurens, Stefano Saliceti, Federico Casarini, Martin Riedmiller, Raia Hadsell, Francesco Nori | (参考訳) 複雑な幾何学の物体を用いたロボット積み重ね問題について検討する。
単純な"ピック・アンド・プレース"ソリューション以上の戦略を必要とするように慎重に設計された、挑戦的で多様なオブジェクトセットを提案する。
本手法は,視覚に基づく対話的政策蒸留とシミュレーションから現実への伝達を組み合わせた強化学習(rl)手法である。
学習したポリシーは、現実世界の複数のオブジェクトの組み合わせを効率的に扱うことができ、様々な積み重ねスキルを発揮できる。
本研究では,このような汎用視覚エージェントをシミュレーションで学習する上で,どのような選択が重要か,ロボットの最適移動にどのような影響を及ぼすかを検討する。
そして、このようなポリシーによって収集されたデータを活用し、オフラインのRLで改善します。
私たちの作品のビデオとブログ記事が補足資料として提供されている。 We study the problem of robotic stacking with objects of complex geometry. We propose a challenging and diverse set of such objects that was carefully designed to require strategies beyond a simple "pick-and-place" solution. Our method is a reinforcement learning (RL) approach combined with vision-based interactive policy distillation and simulation-to-reality transfer. Our learned policies can efficiently handle multiple object combinations in the real world and exhibit a large variety of stacking skills. In a large experimental study, we investigate what choices matter for learning such general vision-based agents in simulation, and what affects optimal transfer to the real robot. We then leverage data collected by such policies and improve upon them with offline RL. A video and a blog post of our work are provided as supplementary material. | 翻訳日:2021-10-13 15:34:36 公開日:2021-10-12 |
# 終端ノックオフフィルタ:偽発見率制御による高速高次元可変選択 The Terminating-Knockoff Filter: Fast High-Dimensional Variable Selection with False Discovery Rate Control ( http://arxiv.org/abs/2110.06048v1 ) ライセンス: Link先を確認 | Jasin Machkour, Michael Muma, Daniel P. Palomar | (参考訳) 本稿では,高次元データに対する高速変数選択法であるT-Knockoffフィルタを提案する。
T-Knockフィルタは、選択された真の正の数を最大化しながら、ユーザ定義のターゲット偽発見率(FDR)を制御する。
これは複数の初期終端ランダム実験の解を融合させることによって達成される。
実験は、元のデータとランダムに生成されたノックオフ変数の複数セットを組み合わせたものである。
FDR制御特性に対するマーチンゲール理論に基づく有限サンプル証明を提供する。
数値シミュレーションにより、FDRは高出力を許容しながら目標レベルで制御されていることが示された。
弱い条件下では、ノックオフが任意の単変量分布からサンプリングできることが証明される。
提案手法の計算複雑性を導出し, 数値シミュレーションにより, 逐次計算時間は, 比較的高次元設定において, 最強ベンチマーク法よりも桁違いに小さいことを実証した。
t-knockフィルタは、シミュレーションゲノムワイドアソシエーション研究(gwas)におけるfdr制御のための最先端の手法よりも優れており、計算時間は最強のベンチマーク手法よりも2桁以上低い。 We propose the Terminating-Knockoff (T-Knock) filter, a fast variable selection method for high-dimensional data. The T-Knock filter controls a user-defined target false discovery rate (FDR) while maximizing the number of selected true positives. This is achieved by fusing the solutions of multiple early terminated random experiments. The experiments are conducted on a combination of the original data and multiple sets of randomly generated knockoff variables. A finite sample proof based on martingale theory for the FDR control property is provided. Numerical simulations show that the FDR is controlled at the target level while allowing for a high power. We prove under mild conditions that the knockoffs can be sampled from any univariate distribution. The computational complexity of the proposed method is derived and it is demonstrated via numerical simulations that the sequential computation time is multiple orders of magnitude lower than that of the strongest benchmark methods in sparse high-dimensional settings. The T-Knock filter outperforms state-of-the-art methods for FDR control on a simulated genome-wide association study (GWAS), while its computation time is more than two orders of magnitude lower than that of the strongest benchmark methods. | 翻訳日:2021-10-13 15:34:24 公開日:2021-10-12 |
# Mirrornet : 感覚運動の相互作用に触発された学習音声合成器制御 The Mirrornet : Learning Audio Synthesizer Controls Inspired by Sensorimotor Interaction ( http://arxiv.org/abs/2110.05695v1 ) ライセンス: Link先を確認 | Yashish M. Siriwardena, Guilhem Marion, Shihab Shamma | (参考訳) ヒト皮質音声システムにおける感覚運動ニューロンの相互作用を理解する実験は、聴覚領域と運動領域の相互作用の双方向的流れの存在を支持する。
彼らの重要な機能は、脳が音声生成のための声道の制御方法を「学習」できるようにすることである。
このアイデアは、制約付きオートエンコーダアーキテクチャである"MirrorNet"の推進力である。
本稿では、ミラーネットを用いて、特定のオーディオシンセサイザー(diva)の制御を教師なしで学習し、その聴覚スペクトログラムからのみメロディを生成する。
その結果、MirrorNetがシンセサイザーパラメータを発見し、元のメロディと見えないメロディとによく似たメロディを生成し、異なるシンセサイザーによって生成された複雑なピアノメロディの近似的なリフレクションに最適な設定パラメータを決定できることを示した。
MirrorNetのこの一般化性は、センサーデータから自動運転車のような任意のモータープラントの制御を発見する可能性を示している。 Experiments to understand the sensorimotor neural interactions in the human cortical speech system support the existence of a bidirectional flow of interactions between the auditory and motor regions. Their key function is to enable the brain to 'learn' how to control the vocal tract for speech production. This idea is the impetus for the recently proposed "MirrorNet", a constrained autoencoder architecture. In this paper, the MirrorNet is applied to learn, in an unsupervised manner, the controls of a specific audio synthesizer (DIVA) to produce melodies only from their auditory spectrograms. The results demonstrate how the MirrorNet discovers the synthesizer parameters to generate the melodies that closely resemble the original and those of unseen melodies, and even determine the best set parameters to approximate renditions of complex piano melodies generated by a different synthesizer. This generalizability of the MirrorNet illustrates its potential to discover from sensory data the controls of arbitrary motor-plants such as autonomous vehicles. | 翻訳日:2021-10-13 15:30:53 公開日:2021-10-12 |
# 自動運転のためのディープフェデレーション学習 Deep Federated Learning for Autonomous Driving ( http://arxiv.org/abs/2110.05754v1 ) ライセンス: Link先を確認 | Anh Nguyen, Tuong Do, Minh Tran, Binh X. Nguyen, Chien Duong, Tu Phan, Erman Tjiputra, Quang D. Tran | (参考訳) 自律運転は学術と産業の両方において活発な研究課題である。
しかし、既存のソリューションのほとんどは、学習可能なモデルを集中的な大規模データでトレーニングすることで精度を向上させることに重点を置いている。
したがって、これらの方法はユーザのプライバシーを考慮しない。
本稿では,プライバシーを尊重しながら自律運転政策を学習するための新しいアプローチを提案する。
本稿では,ピア・ツー・ピアのディープ・フェデレーション・ラーニング(dfl)アプローチを提案する。
本研究では,モデル安定性の向上,収束の確保,不均衡なデータ分散問題への対処を可能にするとともに,フェデレーション学習法を用いてトレーニングを行う新しいフェデレーション自律運転ネットワーク(fadnet)を設計した。
3つのデータセットについて集中的に実験した結果,fadnet と dfl のアプローチは他の手法と比較して精度が優れていることがわかった。
さらに,ユーザデータを中央サーバに収集しないことにより,プライバシの維持も可能である。 Autonomous driving is an active research topic in both academia and industry. However, most of the existing solutions focus on improving the accuracy by training learnable models with centralized large-scale data. Therefore, these methods do not take into account the user's privacy. In this paper, we present a new approach to learn autonomous driving policy while respecting privacy concerns. We propose a peer-to-peer Deep Federated Learning (DFL) approach to train deep architectures in a fully decentralized manner and remove the need for central orchestration. We design a new Federated Autonomous Driving network (FADNet) that can improve the model stability, ensure convergence, and handle imbalanced data distribution problems while is being trained with federated learning methods. Intensively experimental results on three datasets show that our approach with FADNet and DFL achieves superior accuracy compared with other recent methods. Furthermore, our approach can maintain privacy by not collecting user data to a central server. | 翻訳日:2021-10-13 15:30:35 公開日:2021-10-12 |
# 音楽の感情伝達 Music Sentiment Transfer ( http://arxiv.org/abs/2110.05765v1 ) ライセンス: Link先を確認 | Miles Sigel, Michael Zhou, Jiebo Luo | (参考訳) 音楽の感情伝達は、まったく新しいタスクです。
感情伝達は、対象とするメディアに対する新たな感情であるソースの感情を適用することに根ざしているため、高度に研究されたスタイル伝達タスクの自然な進化である。
音楽の感情伝達は、感情伝達の高レベルな目的を音楽の領域に適用しようとする。
異なる領域をブリッジするCycleGANを提案する。
ネットワークを利用するためには,音楽フォーマットとしてシンボル的MIDIデータを用いる。
サイクル一貫性の損失を利用することで、ソースデータのコンテンツとリアリズムを保存する1対1のマッピングを作成できます。
その結果,音楽の時間的特性と既存のデータセットの欠如から,音楽の感情伝達の課題はイメージの感情伝達よりも難しいことが示唆された。 Music sentiment transfer is a completely novel task. Sentiment transfer is a natural evolution of the heavily-studied style transfer task, as sentiment transfer is rooted in applying the sentiment of a source to be the new sentiment for a target piece of media; yet compared to style transfer, sentiment transfer has been only scantily studied on images. Music sentiment transfer attempts to apply the high level objective of sentiment transfer to the domain of music. We propose CycleGAN to bridge disparate domains. In order to use the network, we choose to use symbolic, MIDI, data as the music format. Through the use of a cycle consistency loss, we are able to create one-to-one mappings that preserve the content and realism of the source data. Results and literature suggest that the task of music sentiment transfer is more difficult than image sentiment transfer because of the temporal characteristics of music and lack of existing datasets. | 翻訳日:2021-10-13 15:30:20 公開日:2021-10-12 |
# 非負の空間因子化 Nonnegative spatial factorization ( http://arxiv.org/abs/2110.06122v1 ) ライセンス: Link先を確認 | F. William Townes and Barbara E. Engelhardt | (参考訳) ガウス過程は、その非パラメトリックな柔軟性と不確かさを定量化できる能力のために、空間データの分析に広く使われており、最近開発されたスケーラブルな近似は、大規模データセットへの応用を促進する。
多変量結果に対して、コリージョン化の線形モデルは次元減少と空間相関を結合する。
しかし、非負のモデルとは異なり、部品ベースの表現を回復しないため、実数値の潜在因子やロードは解釈が難しい。
非負空間分解 (non negative spatial factorization, nsf) は、自然にスパーシティを助長する確率的次元減少モデルである。
シミュレーションと高次元空間転写学データを用いたMEFISTOや非空間次元縮小法などの実数値空間分解との比較を行った。
NSFは遺伝子発現の一般化可能な空間パターンを同定する。
遺伝子発現のすべてのパターンが空間的であるわけではないので、空間的および非空間的要素を組み合わせたNSFのハイブリッド拡張を提案し、観察と特徴の両方において空間的重要性の定量化を可能にする。
NSFのTensorFlow実装はhttps://github.com/willtownes/nsf-paperから入手できる。 Gaussian processes are widely used for the analysis of spatial data due to their nonparametric flexibility and ability to quantify uncertainty, and recently developed scalable approximations have facilitated application to massive datasets. For multivariate outcomes, linear models of coregionalization combine dimension reduction with spatial correlation. However, their real-valued latent factors and loadings are difficult to interpret because, unlike nonnegative models, they do not recover a parts-based representation. We present nonnegative spatial factorization (NSF), a spatially-aware probabilistic dimension reduction model that naturally encourages sparsity. We compare NSF to real-valued spatial factorizations such as MEFISTO and nonspatial dimension reduction methods using simulations and high-dimensional spatial transcriptomics data. NSF identifies generalizable spatial patterns of gene expression. Since not all patterns of gene expression are spatial, we also propose a hybrid extension of NSF that combines spatial and nonspatial components, enabling quantification of spatial importance for both observations and features. A TensorFlow implementation of NSF is available from https://github.com/willtownes/nsf-paper . | 翻訳日:2021-10-13 15:28:17 公開日:2021-10-12 |
# 空間ミックスアップ:音のイベントの定位と検出のためのデータ拡張としての方向的ラウドネス修正 Spatial mixup: Directional loudness modification as data augmentation for sound event localization and detection ( http://arxiv.org/abs/2110.06126v1 ) ライセンス: Link先を確認 | Ricardo Falcon-Perez, Kazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Yuki Mitsufuji | (参考訳) データ拡張手法はラベル付きデータが少ない、あるいはコストがかかる様々な教師付き学習問題において非常に重要である。
音声イベントのローカライゼーションと検出(SELD)タスクには,画像や音声,モノフォニックオーディオなど,他の領域からのアイデアの借用など,いくつかの拡張手法が提案されている。
しかし、完全な3Dオーディオシーンの空間的特性を利用するのはごくわずかである。
本研究では,データ拡張のためのパラメトリック空間音声効果の応用として,アンビソニックス領域で符号化されたマルチチャネル空間音声信号の指向性を変化させる空間ミックスアップを提案する。
ビームフォーミングと同様に、これらの修正は特定の方向から来る信号を強化または抑制するが、効果は少ない。
そのため、深層学習モデルで小さな空間摂動に不変性を達成できる。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースラインの性能が向上し、他のよく知られた拡張手法と比較される。
さらに、空間混合と他の手法を組み合わせることにより、性能が大幅に向上する。 Data augmentation methods have shown great importance in diverse supervised learning problems where labeled data is scarce or costly to obtain. For sound event localization and detection (SELD) tasks several augmentation methods have been proposed, with most borrowing ideas from other domains such as images, speech, or monophonic audio. However, only a few exploit the spatial properties of a full 3D audio scene. We propose Spatial Mixup, as an application of parametric spatial audio effects for data augmentation, which modifies the directional properties of a multi-channel spatial audio signal encoded in the ambisonics domain. Similarly to beamforming, these modifications enhance or suppress signals arriving from certain directions, although the effect is less pronounced. Therefore enabling deep learning models to achieve invariance to small spatial perturbations. The method is evaluated with experiments in the DCASE 2021 Task 3 dataset, where spatial mixup increases performance over a non-augmented baseline, and compares to other well known augmentation methods. Furthermore, combining spatial mixup with other methods greatly improves performance. | 翻訳日:2021-10-13 15:28:00 公開日:2021-10-12 |
# 周期材料生成のための結晶拡散変分オートエンコーダ Crystal Diffusion Variational Autoencoder for Periodic Material Generation ( http://arxiv.org/abs/2110.06197v1 ) ライセンス: Link先を確認 | Tian Xie, Xiang Fu, Octavian-Eugen Ganea, Regina Barzilay, Tommi Jaakkola | (参考訳) 安定材料の周期構造の生成は、材料設計コミュニティにとって長年の課題である。
この仕事は、安定な物質は原子の全ての可能な周期配置の低次元部分空間にのみ存在するため難しい。
1) 座標は、量子力学によって定義される局所エネルギーの最小値でなければならない。
2) 大域的安定性はまた、構造が異なる原子タイプ間の複雑だが特定の結合嗜好に従う必要がある。
既存の手法ではこれらの因子を取り入れられず、しばしば適切な不変性が欠けている。
本稿では,物質安定性の物理的帰納バイアスを捉える結晶拡散変分オートコーダ(CDVAE)を提案する。
安定物質のデータ分布から学習することにより、デコーダは、原子座標を低いエネルギー状態へ移動させ、隣同士の結合性を満たすために原子タイプを更新する拡散過程において材料を生成する。
我々のモデルは、周期的境界を越えて相互作用を明示的に符号化し、置換、翻訳、回転、周期的不変性を尊重する。
我々は過去のメソッドを3つのタスクで大幅に上回ります。
1)入力構造の再構築
2)有効で多種多様で現実的な材料を生成して
3) 特定の性質を最適化する材料の生成。
また、幅広い機械学習コミュニティのために、いくつかの標準データセットと評価指標も提供しています。 Generating the periodic structure of stable materials is a long-standing challenge for the material design community. This task is difficult because stable materials only exist in a low-dimensional subspace of all possible periodic arrangements of atoms: 1) the coordinates must lie in the local energy minimum defined by quantum mechanics, and 2) global stability also requires the structure to follow the complex, yet specific bonding preferences between different atom types. Existing methods fail to incorporate these factors and often lack proper invariances. We propose a Crystal Diffusion Variational Autoencoder (CDVAE) that captures the physical inductive bias of material stability. By learning from the data distribution of stable materials, the decoder generates materials in a diffusion process that moves atomic coordinates towards a lower energy state and updates atom types to satisfy bonding preferences between neighbors. Our model also explicitly encodes interactions across periodic boundaries and respects permutation, translation, rotation, and periodic invariances. We significantly outperform past methods in three tasks: 1) reconstructing the input structure, 2) generating valid, diverse, and realistic materials, and 3) generating materials that optimize a specific property. We also provide several standard datasets and evaluation metrics for the broader machine learning community. | 翻訳日:2021-10-13 15:27:43 公開日:2021-10-12 |
# (参考訳) オープンセット認識:良いクローズドセット分類器は必要なだけ Open-Set Recognition: A Good Closed-Set Classifier is All You Need ( http://arxiv.org/abs/2110.06207v1 ) ライセンス: CC BY 4.0 | Sagar Vaze and Kai Han and Andrea Vedaldi and Andrew Zisserman | (参考訳) テストサンプルが分類器のトレーニングセットのセマンティッククラスに属するかどうかを識別する能力は、モデルの実践的なデプロイに不可欠である。
このタスクはopen-set recognition(osr)と呼ばれ、近年注目を集めている。
本稿では,まず,分類器が'単立'決定を行う能力と閉集合クラスにおけるその精度との相関が高いことを実証する。
この関係は損失目標とアーキテクチャにまたがって成り立ち、標準OSRベンチマークと大規模イメージネット評価の両方でさらにその傾向を示す。
第2に,この相関を利用してクロスエントロピーosr ‘baseline’の性能を向上させることにより,クローズドセット精度を向上させる。
同様に、クローズドセットの精度を向上させることで既存の最先端手法の性能を向上させるが、これは最も困難なデータセットの強力なベースラインを超えない。
第3の貢献は、OSR評価に使用されるデータセットを再評価し、近隣の機械学習分野が取り組んだ低レベルの分散シフトとは対照的に、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築することである。
この新たな設定では、強いベースラインと既存の最先端の相違が無視できることを示す。 The ability to identify whether or not a test sample belongs to one of the semantic classes in a classifier's training set is critical to practical deployment of the model. This task is termed open-set recognition (OSR) and has received significant attention in recent years. In this paper, we first demonstrate that the ability of a classifier to make the 'none-of-above' decision is highly correlated with its accuracy on the closed-set classes. We find that this relationship holds across loss objectives and architectures, and further demonstrate the trend both on the standard OSR benchmarks as well as on a large-scale ImageNet evaluation. Second, we use this correlation to boost the performance of the cross-entropy OSR 'baseline' by improving its closed-set accuracy, and with this strong baseline achieve a new state-of-the-art on the most challenging OSR benchmark. Similarly, we boost the performance of the existing state-of-the-art method by improving its closed-set accuracy, but this does not surpass the strong baseline on the most challenging dataset. Our third contribution is to reappraise the datasets used for OSR evaluation, and construct new benchmarks which better respect the task of detecting semantic novelty, as opposed to low-level distributional shifts as tackled by neighbouring machine learning fields. In this new setting, we again demonstrate that there is negligible difference between the strong baseline and the existing state-of-the-art. | 翻訳日:2021-10-13 15:25:51 公開日:2021-10-12 |
# KBQAにおける意味解析のためのプログラム転送とオントロジー Program Transfer and Ontology Awareness for Semantic Parsing in KBQA ( http://arxiv.org/abs/2110.05743v1 ) ライセンス: Link先を確認 | Shulin Cao, Jiaxin Shi, Zijun Yao, Lei Hou, Juanzi Li | (参考訳) KBQAの意味解析は、自然言語の質問を論理形式に解析することを目的としており、知識ベースに対する実行は答えを生み出す。
質問と回答のペアからセマンティックパーサーを学習するには、答えに整合した論理形式の巨大な空間を探索する必要がある。
現在の手法では、検索空間を減らすために様々な事前知識やエンティティレベルのkb制約を利用する。
本稿では,外部論理形アノテーションとオントロジレベルの制約から,初めて事前知識を検討する。
プログラム転送のための階層的アーキテクチャを設計し,探索空間を削減するためのオントロジー誘導プルーニングアルゴリズムを提案する。
コンプレックス・ウェブ・クエスト(complexwebquestion)の実験により、この手法は最先端のf1スコアを44.0%から58.7%に改善し、絶対的なゲインは14.7%となり、プログラムの転送とオントロジーの認識の有効性が示された。 Semantic parsing in KBQA aims to parse natural language questions into logical forms, whose execution against a knowledge base produces answers. Learning semantic parsers from question-answer pairs requires searching over a huge space of logical forms for ones consistent with answers. Current methods utilize various prior knowlege or entity-level KB constraints to reduce the search space. In this paper, we investigate for the first time prior knowledge from external logical form annotations and ontology-level constraints. We design a hierarchical architecture for program transfer, and propose an ontology-guided pruning algorithm to reduce the search space. The experiments on ComplexWebQuestions show that our method improves the state-of-the-art F1 score from 44.0% to 58.7%, with an absolute gain of 14.7%, which demonstrates the effectiveness of program transfer and ontology awareness. | 翻訳日:2021-10-13 14:56:03 公開日:2021-10-12 |
# デュアルイメージ画像からのデフォーカスマップの推定と劣化 Defocus Map Estimation and Deblurring from a Single Dual-Pixel Image ( http://arxiv.org/abs/2110.05655v1 ) ライセンス: Link先を確認 | Shumian Xin, Neal Wadhwa, Tianfan Xue, Jonathan T. Barron, Pratul P. Srinivasan, Jiawen Chen, Ioannis Gkioulekas, Rahul Garg | (参考訳) 1つのデュアルピクセル画像を入力として入力し、同時に画像のデフォーカスマップ -- 各ピクセルのデフォーカスぼけ量 -- を推定し、オールインフォーカス画像を復元する手法を提案する。
この方法は、多くの消費者向けカメラで使用可能なデュアルピクセルセンサーを活用してオートフォーカスを支援し、デフォーカスマップやオールインフォーカス画像のリカバリに利用する最近の研究から着想を得ている。
これらの先行研究は、互いに独立して2つのリカバリ問題を解決し、しばしば教師付きトレーニングのために大きなラベル付きデータセットを必要とする。
対照的に,これら2つの密接した問題を同時に扱うことは有益である。
そこで我々は,デュアルピクセル画像の光学を慎重にモデル化することにより,両問題を共同で解決する最適化問題を構築した。
消費者向けスマートフォンカメラでキャプチャしたデータを用いて,1回のキャリブレーションステップを経て,完全に教師なしであるにも関わらず,地図のデフォーカス推定とぼかし除去の両面において,以前の作業を改善することを実証する。 We present a method that takes as input a single dual-pixel image, and simultaneously estimates the image's defocus map -- the amount of defocus blur at each pixel -- and recovers an all-in-focus image. Our method is inspired from recent works that leverage the dual-pixel sensors available in many consumer cameras to assist with autofocus, and use them for recovery of defocus maps or all-in-focus images. These prior works have solved the two recovery problems independently of each other, and often require large labeled datasets for supervised training. By contrast, we show that it is beneficial to treat these two closely-connected problems simultaneously. To this end, we set up an optimization problem that, by carefully modeling the optics of dual-pixel images, jointly solves both problems. We use data captured with a consumer smartphone camera to demonstrate that, after a one-time calibration step, our approach improves upon prior works for both defocus map estimation and blur removal, despite being entirely unsupervised. | 翻訳日:2021-10-13 14:54:45 公開日:2021-10-12 |
# ヒートマップに基づくランドマーク検出の改善 Improved Heatmap-based Landmark Detection ( http://arxiv.org/abs/2110.05676v1 ) ライセンス: Link先を確認 | Huifeng Yao, Ziyu Guo, Yatao Zhang, Xiaomeng Li | (参考訳) 僧帽弁修復は非常に難しい手術であり、経験豊富な外科医を必要とすることが多い。
医師は、心臓機能の回復を助けるために補綴リングを挿入します。
義歯の縫合位置は極めて重要である。
手術中にそれらを入手し、研究することは、新しい外科医にとって貴重な学習体験である。
本稿では,画像中の縫合点数の変動を解消し,内視鏡画像中の縫合点を検出するためのランドマーク検出ネットワークを提案する。
シミュレーションされた領域からのデータセットと実際の術中データからのデータセットが2つ存在するため、この研究はCycleGANを使用して2つの領域からの画像を相互変換し、より大きなデータセットと実際の術中データに対するより良いスコアを得る。
本論文は,2708枚の写真と2376枚の画像からなる実データを用いて,シミュレーションデータセットを用いて実験を行った。
シミュレーションデータセットの平均感度は約75.64%、精度は約73.62%である。
実際のデータセットの平均感度は約50.23%で、精度は約62.76%である。
データはAdaptor MICCAI Challenge 2021から取得したもので、https://zenodo.org/record/4646979\#で見ることができる。
YO1zLUxCQ2x。 Mitral valve repair is a very difficult operation, often requiring experienced surgeons. The doctor will insert a prosthetic ring to aid in the restoration of heart function. The location of the prosthesis' sutures is critical. Obtaining and studying them during the procedure is a valuable learning experience for new surgeons. This paper proposes a landmark detection network for detecting sutures in endoscopic pictures, which solves the problem of a variable number of suture points in the images. Because there are two datasets, one from the simulated domain and the other from real intraoperative data, this work uses cycleGAN to interconvert the images from the two domains to obtain a larger dataset and a better score on real intraoperative data. This paper performed the tests using a simulated dataset of 2708 photos and a real dataset of 2376 images. The mean sensitivity on the simulated dataset is about 75.64% and the precision is about 73.62%. The mean sensitivity on the real dataset is about 50.23% and the precision is about 62.76%. The data is from the AdaptOR MICCAI Challenge 2021, which can be found at https://zenodo.org/record/4646979\#.YO1zLUxCQ2x. | 翻訳日:2021-10-13 14:54:26 公開日:2021-10-12 |
# シーンテキスト検出モデルのロバスト性探索と改善について On Exploring and Improving Robustness of Scene Text Detection Models ( http://arxiv.org/abs/2110.05700v1 ) ライセンス: Link先を確認 | Shilian Wu, Wei Zhai, Yongrui Li, Kewei Wang, Zengfu Wang | (参考訳) シーンテキスト検出技術には実用的応用が数多くあるため, 大規模な汚職に関してテキスト検出モデルの堅牢性を理解することが重要である。
この問題を体系的に検討するために,シーンテキスト検出モデルであるICDAR2015-C(IC15-C)とCTW1500-C(CTW-C)の2つのデータセットを提案する。
本研究は,提案する領域提案,レグレッション,セグメンテーションに基づくシーンテキスト検出フレームワークの性能と堅牢性について検討する。
さらに,事前トレーニングデータ,バックボーン,機能融合モジュール,マルチスケール予測,テキストインスタンスの表現,損失関数の6つの主要コンポーネントのロバスト性解析を行う。
最後に、背景と前景を融合させることでテキスト領域の滑らかさを損なう、シンプルで効果的なデータベース手法を提案し、異なるテキスト検出ネットワークの堅牢性を大幅に向上させることができる。
本研究は,今後の研究に有効なデータポイントと経験を提供することを期待する。
ベンチマーク、コード、データは \url{https://github.com/wushilian/robust-scene-text-detection-benchmark} で利用可能になる。 It is crucial to understand the robustness of text detection models with regard to extensive corruptions, since scene text detection techniques have many practical applications. For systematically exploring this problem, we propose two datasets from which to evaluate scene text detection models: ICDAR2015-C (IC15-C) and CTW1500-C (CTW-C). Our study extends the investigation of the performance and robustness of the proposed region proposal, regression and segmentation-based scene text detection frameworks. Furthermore, we perform a robustness analysis of six key components: pre-training data, backbone, feature fusion module, multi-scale predictions, representation of text instances and loss function. Finally, we present a simple yet effective data-based method to destroy the smoothness of text regions by merging background and foreground, which can significantly increase the robustness of different text detection networks. We hope that this study will provide valid data points as well as experience for future research. Benchmark, code and data will be made available at \url{https://github.com/wushilian/robust-scene-text-detection-benchmark}. | 翻訳日:2021-10-13 14:54:05 公開日:2021-10-12 |
# キャプションからの注意蒸留による話題シーングラフ生成 Topic Scene Graph Generation by Attention Distillation from Caption ( http://arxiv.org/abs/2110.05731v1 ) ライセンス: Link先を確認 | W. Wang, R. Wang, X. Chen | (参考訳) イメージが物語を語る場合、その画像キャプションは最も簡潔なナレーターである。
一般的に、シーングラフは全知的なジェネラリストを好むが、画像キャプションは専門家になりたがる。
従来の研究では、簡単な内容やノイズを減らさない限り、シーングラフは期待したほど実用的ではないことが分かってきた。
この点において、イメージキャプションは良い家庭教師である。
この目的のために、画像キャプションから機能をシーングラフに借用させることで、トピックシーングラフと呼ばれる全周でスペシャリストになれるようにします。
画像キャプションが注意を向けたものを蒸留してシーングラフに渡し、部分的なオブジェクト、関係、イベントの重要性を推定する。
具体的には、キャプション生成の際、各タイムステップにおける個々のオブジェクトに対する注意を集め、プールし、組み立て、関係性についての注意を得る。
さらに、この注目蒸留プロセスは、画像キャプションとシーングラフの生成を併用する機会を提供するので、シーングラフを、画像キャプションと1世代モデルを共有することにより、リッチで自由な表現で言語形式に変換する。
実験により, 注意蒸留は, 強い監督を伴わない重要な関係のマイニングにおいて, 大幅な改善をもたらすことが示された。 If an image tells a story, the image caption is the briefest narrator. Generally, a scene graph prefers to be an omniscient generalist, while the image caption is more willing to be a specialist, which outlines the gist. Lots of previous studies have found that a scene graph is not as practical as expected unless it can reduce the trivial contents and noises. In this respect, the image caption is a good tutor. To this end, we let the scene graph borrow the ability from the image caption so that it can be a specialist on the basis of remaining all-around, resulting in the so-called Topic Scene Graph. What an image caption pays attention to is distilled and passed to the scene graph for estimating the importance of partial objects, relationships, and events. Specifically, during the caption generation, the attention about individual objects in each time step is collected, pooled, and assembled to obtain the attention about relationships, which serves as weak supervision for regularizing the estimated importance scores of relationships. In addition, as this attention distillation process provides an opportunity for combining the generation of image caption and scene graph together, we further transform the scene graph into linguistic form with rich and free-form expressions by sharing a single generation model with image caption. Experiments show that attention distillation brings significant improvements in mining important relationships without strong supervision, and the topic scene graph shows great potential in subsequent applications. | 翻訳日:2021-10-13 14:53:44 公開日:2021-10-12 |
# 弱監視対象位置推定のための低レベル特徴量活性化マップのオンラインリファインメント Online Refinement of Low-level Feature Based Activation Map for Weakly Supervised Object Localization ( http://arxiv.org/abs/2110.05741v1 ) ライセンス: Link先を確認 | Jinheng Xie, Cheng Luo, Xiangping Zhu, Ziqi Jin, Weizeng Lu, Linlin Shen | (参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)のための2段階学習フレームワークを提案する。
従来は高レベル機能ベースCAM(Class Activation Maps)に頼っていたが,低レベル機能ベースアクティベーションマップを用いたオブジェクトのローカライズを提案する。
第1段階では、アクティベーションマップ生成装置は、リッチなコンテキストオブジェクト情報がオンライン形式で含まれるように、分類器内の低レベル特徴マップに基づいてアクティベーションマップを生成する。
第2段階では、活性化マップ生成器によって予測される活性化マップを評価するために評価器を用いる。
さらに,対象と背景の間の活性化の不確かさを実質的に低減するために,重み付きエントロピー損失,注意的消去,領域損失を提案し,識別領域の少ない領域を探索する。
第1ステージに保存された低レベルオブジェクト情報に基づいて、第2ステージモデルは、画像中のオブジェクトの分離された完全かつコンパクトなアクティベーションマップを徐々に生成する。
CUB-200-2011とImageNet-1Kデータセットの大規模な実験により、我々のフレームワークが従来の手法をはるかに上回っていることが示され、WSOLの新たな最先端が実現された。 We present a two-stage learning framework for weakly supervised object localization (WSOL). While most previous efforts rely on high-level feature based CAMs (Class Activation Maps), this paper proposes to localize objects using the low-level feature based activation maps. In the first stage, an activation map generator produces activation maps based on the low-level feature maps in the classifier, such that rich contextual object information is included in an online manner. In the second stage, we employ an evaluator to evaluate the activation maps predicted by the activation map generator. Based on this, we further propose a weighted entropy loss, an attentive erasing, and an area loss to drive the activation map generator to substantially reduce the uncertainty of activations between object and background, and explore less discriminative regions. Based on the low-level object information preserved in the first stage, the second stage model gradually generates a well-separated, complete, and compact activation map of object in the image, which can be easily thresholded for accurate localization. Extensive experiments on CUB-200-2011 and ImageNet-1K datasets show that our framework surpasses previous methods by a large margin, which sets a new state-of-the-art for WSOL. | 翻訳日:2021-10-13 14:53:17 公開日:2021-10-12 |
# HyperCube:Voxelized 3D Modelの暗黙の場表現 HyperCube: Implicit Field Representations of Voxelized 3D Models ( http://arxiv.org/abs/2110.05770v1 ) ライセンス: Link先を確認 | Magdalena Proszewska, Marcin Mazur, Tomasz Trzci\'nski, Przemys{\l}aw Spurek | (参考訳) 最近導入された暗黙のフィールド表現は、3dオブジェクトの形状を生成する効果的な方法を提供する。
これらのデコーダは、形状符号化と連結した3次元点座標を学習し、その点が形状の外側にあるか否かを示す値を出力する。
このアプローチは視覚的に妥当なオブジェクトの効率的なレンダリングを可能にするが、2つの大きな制限がある。
まず、トレーニングセットからすべてのオブジェクトに専用の1つのニューラルネットワークをベースとしており、面倒なトレーニング手順と実生活におけるその応用をもたらす。
さらに重要なことは、暗黙のデコーダは(ボクセル全体ではなく)ボクセル内でサンプリングされた点のみを取り、分類境界の問題を生じさせ、その結果、レンダリングメッシュ内の空空間が生じることである。
上記の制約を解決するために,超ネットワークパラダイムを用いてトレーニングされた3次元ボクセルの直接処理を可能にする区間演算ネットワークに基づく新しいハイパーキューブアーキテクチャを導入する。
voxel内で個々の3dサンプルを処理する代わりに、このアプローチでは、凸殻座標で表されるvoxel(3d立方体)全体を入力し、ハイパーネットによって構築されたターゲットネットワークは、それを内部または外部のカテゴリに割り当てる。
その結果、HyperCubeモデルは、トレーニングと推論効率、最終的なメッシュ品質の両方において競合するアプローチよりも優れています。 Recently introduced implicit field representations offer an effective way of generating 3D object shapes. They leverage implicit decoder trained to take a 3D point coordinate concatenated with a shape encoding and to output a value which indicates whether the point is outside the shape or not. Although this approach enables efficient rendering of visually plausible objects, it has two significant limitations. First, it is based on a single neural network dedicated for all objects from a training set which results in a cumbersome training procedure and its application in real life. More importantly, the implicit decoder takes only points sampled within voxels (and not the entire voxels) which yields problems at the classification boundaries and results in empty spaces within the rendered mesh. To solve the above limitations, we introduce a new HyperCube architecture based on interval arithmetic network, that enables direct processing of 3D voxels, trained using a hypernetwork paradigm to enforce model convergence. Instead of processing individual 3D samples from within a voxel, our approach allows to input the entire voxel (3D cube) represented with its convex hull coordinates, while the target network constructed by a hypernet assigns it to an inside or outside category. As a result our HyperCube model outperforms the competing approaches both in terms of training and inference efficiency, as well as the final mesh quality. | 翻訳日:2021-10-13 14:52:37 公開日:2021-10-12 |
# plnet: 教師なし屋内深度推定のための平面および線先行 PLNet: Plane and Line Priors for Unsupervised Indoor Depth Estimation ( http://arxiv.org/abs/2110.05839v1 ) ライセンス: Link先を確認 | Hualie Jiang, Laiyan Ding, Junjie Hu, Rui Huang | (参考訳) 人工環境にはテクスチャのない領域が多いため,屋内単眼映像からの奥行きの教師なし学習は困難である。
幸いなことに、屋内のシーンは平面や線のような特定の構造でいっぱいで、教師なしの深層学習をガイドするのに役立ちます。
本稿では,平面と直線の先行値を利用して深度推定を行うPLNetを提案する。
まず,局所平面係数を用いてシーン形状を表現し,その表現に滑らかさ制約を課す。
さらに,コプランナあるいはコリニアであろう点の集合をランダムに選択して,単純かつ効果的な一貫性損失を構築することにより,平面的および線形的一貫性を強制する。
さらに,提案手法の有効性を検証するために,信頼できる平面領域と線形領域における予測点雲の平坦性と直線性を評価することを提案する。
これらの地域の規則性は、質の高い屋内復元を示している。
NYU Depth V2とScanNetの実験では、PLNetが既存のメソッドより優れていることが示されている。
コードは \url{https://github.com/halleyjiang/plnet} で入手できる。 Unsupervised learning of depth from indoor monocular videos is challenging as the artificial environment contains many textureless regions. Fortunately, the indoor scenes are full of specific structures, such as planes and lines, which should help guide unsupervised depth learning. This paper proposes PLNet that leverages the plane and line priors to enhance the depth estimation. We first represent the scene geometry using local planar coefficients and impose the smoothness constraint on the representation. Moreover, we enforce the planar and linear consistency by randomly selecting some sets of points that are probably coplanar or collinear to construct simple and effective consistency losses. To verify the proposed method's effectiveness, we further propose to evaluate the flatness and straightness of the predicted point cloud on the reliable planar and linear regions. The regularity of these regions indicates quality indoor reconstruction. Experiments on NYU Depth V2 and ScanNet show that PLNet outperforms existing methods. The code is available at \url{https://github.com/HalleyJiang/PLNet}. | 翻訳日:2021-10-13 14:52:12 公開日:2021-10-12 |
# 細粒度半教師付き学習 Fine-Grained Adversarial Semi-supervised Learning ( http://arxiv.org/abs/2110.05848v1 ) ライセンス: Link先を確認 | Daniele Mugnai, Federico Pernici, Francesco Turchini, Alberto Del Bimbo | (参考訳) 本稿では,FGVCの性能向上のために,SSL(Semi-Supervised Learning)を用いてトレーニングデータの量を増やす。
この問題は、FGVCが要求する厳格なアノテーションコストにもかかわらず、これまで調査されていない。
提案手法は,2次プールモデルを用いて内部特徴表現を得る逆最適化戦略を用いてラベル付きデータを利用する。
この組み合わせにより、第2次プーリングで表される部品の情報を、反対のトレーニング設定でラベルのないデータにバックプロパゲーションすることができる。
本研究では,航空機,スタンフォード・カーズ,CUB-200-2011,オックスフォード・フラワーズ,スタンフォード・ドッグス,最近のセミ・スーパーバイザードiNaturalist-Avesを含む,最先端の細粒度データセットの6つの実験を行った。
実験結果から,提案手法は従来手法よりも優れた性能を示し,比較した教師あり学習法よりも高い分類精度が得られた。 In this paper we exploit Semi-Supervised Learning (SSL) to increase the amount of training data to improve the performance of Fine-Grained Visual Categorization (FGVC). This problem has not been investigated in the past in spite of prohibitive annotation costs that FGVC requires. Our approach leverages unlabeled data with an adversarial optimization strategy in which the internal features representation is obtained with a second-order pooling model. This combination allows to back-propagate the information of the parts, represented by second-order pooling, onto unlabeled data in an adversarial training setting. We demonstrate the effectiveness of the combined use by conducting experiments on six state-of-the-art fine-grained datasets, which include Aircrafts, Stanford Cars, CUB-200-2011, Oxford Flowers, Stanford Dogs, and the recent Semi-Supervised iNaturalist-Aves. Experimental results clearly show that our proposed method has better performance than the only previous approach that examined this problem; it also obtained higher classification accuracy with respect to the supervised learning methods with which we compared. | 翻訳日:2021-10-13 14:51:55 公開日:2021-10-12 |
# 潜在重みをフル活用したバイナリニューラルネットワークの改善 Improving Binary Neural Networks through Fully Utilizing Latent Weights ( http://arxiv.org/abs/2110.05850v1 ) ライセンス: Link先を確認 | Weixiang Xu, Qiang Chen, Xiangyu He, Peisong Wang, Jian Cheng | (参考訳) バイナリニューラルネットワーク(BNN)は、バイナリトレーニングを支援するために、実数値の補助変数Wに依存する。
しかしながら、先駆的なバイナリワークは、wを使用して後方伝播中に勾配更新を蓄積するだけであり、そのパワーを十分に活用できず、bnnの新たな進歩を妨げる可能性がある。
本研究は,潜伏変数として機能する以外に,トレーニングにおけるWの役割について考察する。
特に、計算グラフにWを加えることを提案し、バイナリトレーニングを支援するために、実数値の特徴抽出器として機能させる。
我々は、実際の重みの活用方法の異なる試みを行い、専門的な監督を提案する。
可視化実験は、異なるカテゴリを区別しやすくするためのアプローチの有効性を質的に検証する。
定量的実験により,本手法は現状よりも優れた性能を示し,浮動小数点ネットワークとBNNの性能ギャップを埋める。
ResNet-18 (Top-1 63.4%)、ResNet-34 (Top-1 67.0%)によるImageNetの評価は、新しい最先端技術を実現する。 Binary Neural Networks (BNNs) rely on a real-valued auxiliary variable W to help binary training. However, pioneering binary works only use W to accumulate gradient updates during backward propagation, which can not fully exploit its power and may hinder novel advances in BNNs. In this work, we explore the role of W in training besides acting as a latent variable. Notably, we propose to add W into the computation graph, making it perform as a real-valued feature extractor to aid the binary training. We make different attempts on how to utilize the real-valued weights and propose a specialized supervision. Visualization experiments qualitatively verify the effectiveness of our approach in making it easier to distinguish between different categories. Quantitative experiments show that our approach outperforms current state-of-the-arts, further closing the performance gap between floating-point networks and BNNs. Evaluation on ImageNet with ResNet-18 (Top-1 63.4%), ResNet-34 (Top-1 67.0%) achieves new state-of-the-art. | 翻訳日:2021-10-13 14:51:36 公開日:2021-10-12 |
# 人間の行動認識のための階層表現に関する共同学習 Joint Learning On The Hierarchy Representation for Fine-Grained Human Action Recognition ( http://arxiv.org/abs/2110.05853v1 ) ライセンス: Link先を確認 | Mei Chee Leong, Hui Li Tan, Haosong Zhang, Liyuan Li, Feng Lin, Joo Hwee Lim | (参考訳) きめ細かい人間の行動認識は、コンピュータビジョンの主要な研究テーマである。
近年提案されている細粒度動作の階層表現に着想を得て,細粒度階層表現を活用し,細粒度動作認識のための効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
マルチタスクネットワークは,イベント,セット,要素のフレームレートを徐々に増加させ,協調学習と予測のための統合層を提案する,スローオンリーネットワークの3つの経路からなる。
これは2段階のアプローチであり、まず各階層レベルで深い特徴表現を学習し、その後にマルチタスク学習のための特徴エンコーディングと融合を行う。
FineGymデータセットに関する実験結果は、91.80%のTop-1精度と88.46%の平均的なエレメントアクションの精度で、新しい最先端のパフォーマンスを実現しています。 Fine-grained human action recognition is a core research topic in computer vision. Inspired by the recently proposed hierarchy representation of fine-grained actions in FineGym and SlowFast network for action recognition, we propose a novel multi-task network which exploits the FineGym hierarchy representation to achieve effective joint learning and prediction for fine-grained human action recognition. The multi-task network consists of three pathways of SlowOnly networks with gradually increased frame rates for events, sets and elements of fine-grained actions, followed by our proposed integration layers for joint learning and prediction. It is a two-stage approach, where it first learns deep feature representation at each hierarchical level, and is followed by feature encoding and fusion for multi-task learning. Our empirical results on the FineGym dataset achieve a new state-of-the-art performance, with 91.80% Top-1 accuracy and 88.46% mean accuracy for element actions, which are 3.40% and 7.26% higher than the previous best results. | 翻訳日:2021-10-13 14:51:19 公開日:2021-10-12 |
# リレーショナル物体運動によるフーリエ映像の予測 Fourier-based Video Prediction through Relational Object Motion ( http://arxiv.org/abs/2110.05881v1 ) ライセンス: Link先を確認 | Malte Mosbach, Sven Behnke | (参考訳) 監視されたビデオフレームに基づいて将来の結果を予測する能力は、自律システムにおけるインテリジェントな意思決定に不可欠である。
近年,映像予測の課題に深部再帰型アーキテクチャを適用している。
しかし、これはしばしばぼやけた予測となり、大規模なデータセットでの退屈なトレーニングを必要とする。
本稿では,(1)映像予測のための周波数領域アプローチ,(2)観察シーンにおけるオブジェクト-モーション関係を明示的に推定するアプローチについて検討する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに悩まされない。 The ability to predict future outcomes conditioned on observed video frames is crucial for intelligent decision-making in autonomous systems. Recently, deep recurrent architectures have been applied to the task of video prediction. However, this often results in blurry predictions and requires tedious training on large datasets. Here, we explore a different approach by (1) using frequency-domain approaches for video prediction and (2) explicitly inferring object-motion relationships in the observed scene. The resulting predictions are consistent with the observed dynamics in a scene and do not suffer from blur. | 翻訳日:2021-10-13 14:50:58 公開日:2021-10-12 |
# ラベルの不確かさ学習による弱教師付きセマンティックセグメンテーション Weakly-Supervised Semantic Segmentation by Learning Label Uncertainty ( http://arxiv.org/abs/2110.05926v1 ) ライセンス: Link先を確認 | Robby Neven, Davy Neven, Bert De Brabandere, Marc Proesmans and Toon Goedem\'e | (参考訳) ディープラーニングの登場以来、多くのコンピュータビジョンタスクは大きな進歩を遂げてきた。
しかし、ディープラーニングの欠点は、非常にデータ不足であることです。
特にセグメンテーション問題では、ディープニューラルネットワークのトレーニングには、ピクセル完全画像ラベルの形での深い監督が必要である。
本稿では,少数の画素完全ラベルを持つセグメンテーションネットワークをトレーニングする新たな損失関数を提案するが,安価なバウンディングボックスラベルという形で弱アノテーション付きトレーニングサンプルを利用する。
ボックス・ツー・マスクの提案ジェネレータを利用する最近の作品とは異なり、ネットワークをトレーニングし、バウンディングボックス内でラベルの不確実性を学習し、オンラインブートストラップ(ボックスをセグメンテーションマスクに変換する)を実行することができる。
提案手法は,複数クラスセグメンテーションタスク (cityscapes vehicle and person) とともに,バイナリセグメンテーションタスクに関する評価を行った。
18%のピクセル完全と82%のバウンディングボックスラベルからなるデータセットで各タスクをトレーニングし、完全なピクセル完全データセットでトレーニングされたベースラインモデルと比較した。
また,2値分割タスクでは,ベースラインモデルに匹敵するIoUスコアが98.33%,マルチクラスタスクでは97.12%,ベースラインモデルに匹敵するIoUスコアが79.8mIoUであった。 Since the rise of deep learning, many computer vision tasks have seen significant advancements. However, the downside of deep learning is that it is very data-hungry. Especially for segmentation problems, training a deep neural net requires dense supervision in the form of pixel-perfect image labels, which are very costly. In this paper, we present a new loss function to train a segmentation network with only a small subset of pixel-perfect labels, but take the advantage of weakly-annotated training samples in the form of cheap bounding-box labels. Unlike recent works which make use of box-to-mask proposal generators, our loss trains the network to learn a label uncertainty within the bounding-box, which can be leveraged to perform online bootstrapping (i.e. transforming the boxes to segmentation masks), while training the network. We evaluated our method on binary segmentation tasks, as well as a multi-class segmentation task (CityScapes vehicles and persons). We trained each task on a dataset comprised of only 18% pixel-perfect and 82% bounding-box labels, and compared the results to a baseline model trained on a completely pixel-perfect dataset. For the binary segmentation tasks, our method achieves an IoU score which is ~98.33% as good as our baseline model, while for the multi-class task, our method is 97.12% as good as our baseline model (77.5 vs. 79.8 mIoU). | 翻訳日:2021-10-13 14:50:49 公開日:2021-10-12 |
# 3次元物体検出のための細粒度特徴付き柱の改良 Improved Pillar with Fine-grained Feature for 3D Object Detection ( http://arxiv.org/abs/2110.06049v1 ) ライセンス: Link先を確認 | Jiahui Fu, Guanghui Ren, Yunpeng Chen, Si Liu | (参考訳) LiDAR点雲を用いた3次元物体検出は、高速、安定性、精度を必要とする自律走行認識モジュールにおいて重要な役割を果たす。
しかし,既存の点ベース法は生の点が多すぎるため速度要件に到達することは困難であり,ボクセル法は3次元スパース畳み込みにより安定な速度を確保できない。
対照的に、pointpillarのような2dグリッドベースの手法は、単純な2d畳み込みに基づく安定かつ効率的な速度を容易に達成できるが、粗粒度点雲表現による競合精度の制限は困難である。
そこで我々は,pointpillarに基づく細粒度で検出精度が大幅に向上した柱を提案する。
高さを認識できるサブピラーと、空間の垂直方向と水平方向にそれぞれ細粒度を表現できるスペーサベースの小さなピラーの2つのモジュールで構成されている。
高さ認識サブピラーについては、2次元擬似画像に投影する際に各サブピラーの高さ情報を保持する高さ位置符号化を導入する。
疎度をベースとした小型ピラーでは,高密度特徴と疎度注意モジュールを積み重ねたスポーシティベースCNNバックボーンを導入し,より広い受容野を持つ特徴を効率よく抽出する。
実験の結果,提案手法はwaymo open datasetにおける最先端の3d検出手法を大幅に上回ることがわかった。
関連するコードは、学術および産業研究を促進するためにリリースされます。 3D object detection with LiDAR point clouds plays an important role in autonomous driving perception module that requires high speed, stability and accuracy. However, the existing point-based methods are challenging to reach the speed requirements because of too many raw points, and the voxel-based methods are unable to ensure stable speed because of the 3D sparse convolution. In contrast, the 2D grid-based methods, such as PointPillar, can easily achieve a stable and efficient speed based on simple 2D convolution, but it is hard to get the competitive accuracy limited by the coarse-grained point clouds representation. So we propose an improved pillar with fine-grained feature based on PointPillar that can significantly improve detection accuracy. It consists of two modules, including height-aware sub-pillar and sparsity-based tiny-pillar, which get fine-grained representation respectively in the vertical and horizontal direction of 3D space. For height-aware sub-pillar, we introduce a height position encoding to keep height information of each sub-pillar during projecting to a 2D pseudo image. For sparsity-based tiny-pillar, we introduce sparsity-based CNN backbone stacked by dense feature and sparse attention module to extract feature with larger receptive field efficiently. Experimental results show that our proposed method significantly outperforms previous state-of-the-art 3D detection methods on the Waymo Open Dataset. The related code will be released to facilitate the academic and industrial study. | 翻訳日:2021-10-13 14:50:21 公開日:2021-10-12 |
# ビデオにおける時間的言語定位のためのマルチモーダルインタラクショングラフ畳み込みネットワーク Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos ( http://arxiv.org/abs/2110.06058v1 ) ライセンス: Link先を確認 | Zongmeng Zhang, Xianjing Han, Xuemeng Song, Yan Yan and Liqiang Nie | (参考訳) 本稿では,ビデオ中の時間的言語ローカライゼーションの問題に対処することに焦点を当て,自然言語文で記述されたモーメントの開始点と終了点を特定することを目的とした。
しかし、ビデオと文問合せの包括的理解だけでなく、それらの間の正確な意味的対応も必要となるため、これは簡単ではない。
既存の取り組みは主に、ビデオクリップ間のシーケンシャルな関係を探求し、ビデオと文のクエリを推論し、他のモード内関係を無視する(例えば、ビデオクリップ間の意味的類似性とクエリワード間の構文依存)。
そこで本研究では,ビデオと文の問合せに含まれる複雑なモーダル内関係とモーダル間相互作用を共同研究し,映像と文の問合せの理解と意味的対応の獲得を容易にするマルチモーダルインタラクショングラフ畳み込みネットワーク(migcn)を提案する。
また,提案手法では,コンテキスト情報を候補モーメントに取り込み,マルチスケールの完全連結層を,生成した粗い候補モーメントの境界を異なる長さでランク付け・調整するように設計する適応的コンテキストアウェア・ローカライズ手法を提案する。
charades-sta と activitynet データセットに関する広範な実験により,本モデルの有望な性能と優れた効率を示す。 This paper focuses on tackling the problem of temporal language localization in videos, which aims to identify the start and end points of a moment described by a natural language sentence in an untrimmed video. However, it is non-trivial since it requires not only the comprehensive understanding of the video and sentence query, but also the accurate semantic correspondence capture between them. Existing efforts are mainly centered on exploring the sequential relation among video clips and query words to reason the video and sentence query, neglecting the other intra-modal relations (e.g., semantic similarity among video clips and syntactic dependency among the query words). Towards this end, in this work, we propose a Multi-modal Interaction Graph Convolutional Network (MIGCN), which jointly explores the complex intra-modal relations and inter-modal interactions residing in the video and sentence query to facilitate the understanding and semantic correspondence capture of the video and sentence query. In addition, we devise an adaptive context-aware localization method, where the context information is taken into the candidate moments and the multi-scale fully connected layers are designed to rank and adjust the boundary of the generated coarse candidate moments with different lengths. Extensive experiments on Charades-STA and ActivityNet datasets demonstrate the promising performance and superior efficiency of our model. | 翻訳日:2021-10-13 14:49:11 公開日:2021-10-12 |
# タダ!
映像理解のための時間適応畳み込み TAda! Temporally-Adaptive Convolutions for Video Understanding ( http://arxiv.org/abs/2110.06178v1 ) ライセンス: Link先を確認 | Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr | (参考訳) 空間畳み込みは多くのディープビデオモデルで広く使われている。
基本的には時空間不変性、すなわち異なるフレーム内のすべての位置の共有重みを用いる。
ビデオ理解のための時間適応的畳み込み(TAdaConv)は、時間次元に沿った適応的な重み付けが、ビデオの複雑な時間的ダイナミクスをモデル化するための効率的な方法であることを示す。
具体的には,各フレームの畳み込み重みを局所的および大域的な時間的文脈に応じて調整することにより,時間的モデリング能力を有する空間畳み込みを付与する。
従来の時間的モデリング操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴の代わりに畳み込みカーネル上で動作するので、より効率的である。
さらに、カーネルキャリブレーションは、モデルキャパシティも増加させる。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
また,計算オーバーヘッドを無視できるプラグイン操作により,TAdaConvは既存のビデオモデルの多くを効果的に改善できることを示す。
コードとモデルはhttps://github.com/alibaba-mmai-research/pytorch-video-understandingで利用可能になる。 Spatial convolutions are widely used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modelling complex temporal dynamics in videos. Specifically, TAdaConv empowers the spatial convolutions with temporal modelling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to previous temporal modelling operations, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, the kernel calibration also brings an increased model capacity. We construct TAda2D networks by replacing the spatial convolutions in ResNet with TAdaConv, which leads to on par or better performance compared to state-of-the-art approaches on multiple video action recognition and localization benchmarks. We also demonstrate that as a readily plug-in operation with negligible computation overhead, TAdaConv can effectively improve many existing video models with a convincing margin. Codes and models will be made available at https://github.com/alibaba-mmai-research/pytorch-video-understanding. | 翻訳日:2021-10-13 14:48:44 公開日:2021-10-12 |
# ソーシャル・ネットワーク・マイニングによる新型コロナウイルス対策の抽出 Extracting Feelings of People Regarding COVID-19 by Social Network Mining ( http://arxiv.org/abs/2110.06151v1 ) ライセンス: Link先を確認 | Hamed Vahdat-Nejad, Fatemeh Salmani, Mahdi Hajiabadi, Faezeh Azizi, Sajedeh Abbasi, Mohadese Jamalian, Reyhane Mosafer, Hamideh Hajiabadi | (参考訳) 2020年、新型コロナウイルスは世界の主要な関心事となり、依然としてすべてのソーシャルネットワークで広く反映されている。
ユーザーは毎日、このテーマについて何百万ものツイートやコメントを投稿する。
この点に関しては、2020年3月23日から6月23日までの200万以上のツイートからなり、新型コロナウイルスの流行の初期段階の各国の人々の感情を抽出するために、英語でのcovid-19関連ツイートのデータセットが収集されている。
この目的のために、まず、GeoNamesの地理的データベースとレキシコンベースのアプローチを使用して、ツイートを位置情報にラベル付けする。
次に、最近紹介され広く引用されているRoBERTaモデルに基づいて、感情内容を分析する手法を提案する。
その後、ツイートの頻度と感情のトレンドグラフが、新型コロナウイルス(covid-19)にもっと携わっていた世界と国のために作成されている。
グラフ分析の結果、大多数の国のツイートの頻度グラフは、それらに苦しむ日々の公式統計と著しく相関していることがわかった。
さらに、暗黙の知識を抽出し、議論する。 In 2020, COVID-19 became the chief concern of the world and is still reflected widely in all social networks. Each day, users post millions of tweets and comments on this subject, which contain significant implicit information about the public opinion. In this regard, a dataset of COVID-related tweets in English language is collected, which consists of more than two million tweets from March 23 to June 23 of 2020 to extract the feelings of the people in various countries in the early stages of this outbreak. To this end, first, we use a lexicon-based approach in conjunction with the GeoNames geographic database to label the tweets with their locations. Next, a method based on the recently introduced and widely cited RoBERTa model is proposed to analyze their sentimental content. After that, the trend graphs of the frequency of tweets as well as sentiments are produced for the world and the nations that were more engaged with COVID-19. Graph analysis shows that the frequency graphs of the tweets for the majority of nations are significantly correlated with the official statistics of the daily afflicted in them. Moreover, several implicit knowledge is extracted and discussed. | 翻訳日:2021-10-13 14:47:36 公開日:2021-10-12 |
# 質問するな - 予算バンドに対する問題依存の保証 Dare not to Ask: Problem-Dependent Guarantees for Budgeted Bandits ( http://arxiv.org/abs/2110.05724v1 ) ライセンス: Link先を確認 | Nadav Merlis, Yonathan Efroni, Shie Mannor | (参考訳) 我々は,フィードバックが(おそらく時間依存の)予算によって制限され,報酬が観察されるよう積極的に要求される確率的多腕バンディット設定を考える。
この設定に関する以前の作業は厳格なフィードバック予算を前提として、問題に依存しない後悔の保証を提供しながら、この制約に違反しないことに重点を置いていた。
本研究では,後悔とフィードバックの両方に対して,問題に依存した保証を提供する。
特に、要求されるフィードバックに対する問題依存下限を導出し、一意と複数の最適アームを持つ問題の間に根本的な違いがあることを示す。
さらに,問題依存的後悔と累積フィードバック境界を導出するbufaluと呼ばれる新しいアルゴリズムを提案する。
特に、BuFALUは最適なアームの数に自然に適応することを示す。 We consider a stochastic multi-armed bandit setting where feedback is limited by a (possibly time-dependent) budget, and reward must be actively inquired for it to be observed. Previous works on this setting assumed a strict feedback budget and focused on not violating this constraint while providing problem-independent regret guarantees. In this work, we provide problem-dependent guarantees on both the regret and the asked feedback. In particular, we derive problem-dependent lower bounds on the required feedback and show that there is a fundamental difference between problems with a unique and multiple optimal arms. Furthermore, we present a new algorithm called BuFALU for which we derive problem-dependent regret and cumulative feedback bounds. Notably, we show that BuFALU naturally adapts to the number of optimal arms. | 翻訳日:2021-10-13 14:45:16 公開日:2021-10-12 |
# メタ学習によるタスク間ニューラルネットワーク探索 Across-Task Neural Architecture Search via Meta Learning ( http://arxiv.org/abs/2110.05842v1 ) ライセンス: Link先を確認 | Jingtao Rong and Xinyi Yu and Mingyang Zhang and Linlin Ou | (参考訳) 適切なラベル付きデータと高価な計算リソースは、ニューラルネットワーク検索(nas)の成功の前提条件である。
限られた計算リソースとデータを持つメタ学習シナリオにNASを適用するのは難しい。
本稿では,勾配に基づくメタラーニングとeaベースのnasを組み合わせることでタスクの分散を学習し,タスク横断型ニューラルネットワーク探索(at-nas)を提案する。
スーパーネットは、その重みをメタ学習することで、一連のタスクを通して学習される。
スーパーネットからサンプリングされたサブネットのアーキテクチャエンコーディングは、タスクに敏感なメタネットワークを検索しながら、進化的アルゴリズムによって反復的に適応される。
検索されたメタネットワークは、いくつかの学習ステップを通じて新しいタスクに適応できる。
実験の結果,AT-NASは数発の分類精度において関連するアプローチを超越していることがわかった。
分類ベンチマークにおけるAT-NASの性能は、5GPUの事前訓練されたメタネットワークから1時間以内でアーキテクチャを適応することで、スクラッチから検索したモデルに匹敵する。 Adequate labeled data and expensive compute resources are the prerequisites for the success of neural architecture search(NAS). It is challenging to apply NAS in meta-learning scenarios with limited compute resources and data. In this paper, an across-task neural architecture search (AT-NAS) is proposed to address the problem through combining gradient-based meta-learning with EA-based NAS to learn over the distribution of tasks. The supernet is learned over an entire set of tasks by meta-learning its weights. Architecture encodes of subnets sampled from the supernet are iteratively adapted by evolutionary algorithms while simultaneously searching for a task-sensitive meta-network. Searched meta-network can be adapted to a novel task via a few learning steps and only costs a little search time. Empirical results show that AT-NAS surpasses the related approaches on few-shot classification accuracy. The performance of AT-NAS on classification benchmarks is comparable to that of models searched from scratch, by adapting the architecture in less than an hour from a 5-GPU-day pretrained meta-network. | 翻訳日:2021-10-13 14:45:03 公開日:2021-10-12 |
# 暗黙的q-learningを用いたオフライン強化学習 Offline Reinforcement Learning with Implicit Q-Learning ( http://arxiv.org/abs/2110.06169v1 ) ライセンス: Link先を確認 | Ilya Kostrikov, Ashvin Nair, Sergey Levine | (参考訳) オフラインの強化学習では、2つの相反する目標:データセットを収集する行動ポリシーよりも改善するポリシーを学習すると同時に、分散シフトによるエラーを避けるために行動ポリシーからの逸脱を最小化する。
このトレードオフは、現在のオフライン強化学習手法のほとんどが、ポリシーを改善するためにトレーニング中に見当たらないアクションの値をクエリする必要があるため、これらのアクションを分散に制限するか、あるいはその値を正規化する必要があるため、非常に重要である。
本稿では,データセット以外の動作を評価する必要のないオフラインRL手法を提案する。
私たちの研究の主な洞察は、最新のポリシーから見いだせないアクションを評価する代わりに、アクションによって決定されるランダム性(過度の楽観主義を避けるためにダイナミクス上で統合されているにもかかわらず)で、状態値関数を乱数変数として扱い、その状態における最善のアクションの値を推定して、ポリシー改善ステップを暗黙的に近似することができるということです。
これは関数近似器の一般化能力を利用して、この目に見えないアクションでQ関数を直接問い合わせることなく、与えられた状態における最良のアクションの値を推定する。
我々のアルゴリズムはこの上限値関数を適合させ、Q関数にバックアップする。
そこで我々は,有利な行動クローニングを通じてポリシーを抽出する。
暗黙的なQ-ラーニング (IQL) を行う。
IQLは、オフライン強化学習の標準ベンチマークであるD4RLの最先端パフォーマンスを実証している。
また、IQLはオフライン初期化後にオンラインインタラクションを使用して、強力なパフォーマンスの微調整を実現することを示す。 Offline reinforcement learning requires reconciling two conflicting aims: learning a policy that improves over the behavior policy that collected the dataset, while at the same time minimizing the deviation from the behavior policy so as to avoid errors due to distributional shift. This trade-off is critical, because most current offline reinforcement learning methods need to query the value of unseen actions during training to improve the policy, and therefore need to either constrain these actions to be in-distribution, or else regularize their values. We propose an offline RL method that never needs to evaluate actions outside of the dataset, but still enables the learned policy to improve substantially over the best behavior in the data through generalization. The main insight in our work is that, instead of evaluating unseen actions from the latest policy, we can approximate the policy improvement step implicitly by treating the state value function as a random variable, with randomness determined by the action (while still integrating over the dynamics to avoid excessive optimism), and then taking a state conditional upper expectile of this random variable to estimate the value of the best actions in that state. This leverages the generalization capacity of the function approximator to estimate the value of the best available action at a given state without ever directly querying a Q-function with this unseen action. Our algorithm alternates between fitting this upper expectile value function and backing it up into a Q-function. Then, we extract the policy via advantage-weighted behavioral cloning. We dub our method implicit Q-learning (IQL). IQL demonstrates the state-of-the-art performance on D4RL, a standard benchmark for offline reinforcement learning. We also demonstrate that IQL achieves strong performance fine-tuning using online interaction after offline initialization. | 翻訳日:2021-10-13 14:44:45 公開日:2021-10-12 |
# ニュースレコメンデーションのためのアスペクト駆動ユーザ選好とニュース表現学習 Aspect-driven User Preference and News Representation Learning for News Recommendation ( http://arxiv.org/abs/2110.05792v1 ) ライセンス: Link先を確認 | Rongyao Wang, Wenpeng Lu, Shoujin Wang, Xueping Peng, Hao Wu and Qian Zhang | (参考訳) ニュースレコメンデーターシステムは、ユーザーが大量のニュースからこれらの興味深いニュースを効率的に、効果的に見つけるのを助けるために不可欠である。
既存のニュースレコメンデーションシステムの多くは、通常、ユーザーとニュースのトピックレベルの表現をレコメンデーションのために学び、より情報に富んだユーザーとニュースの機能を学ぶことを無視する。
その結果、限られたレコメンデーションパフォーマンスが達成される。
この欠陥に対処するために,アスペクトレベルのユーザ嗜好とニュース表現学習に基づく新しいAspect-driven News Recommender System (ANRS)を提案する。
ここでは、textit{news aspect} は、関連する単語の集合によって表現されるきめ細かい意味情報であり、ニュースによって記述される特定の側面を示す。
anrsでは、ユーザの好みとニュース特性のきめ細かいアスペクトレベル表現を学習するために \textit{news aspect-level encoder} と \textit{user aspect-level encoder} が考案され、それぞれ \textit{click predictor} に供給され、ユーザが候補ニュースをクリックする確率を判断する。
一般的な実世界のデータセットであるMINDを用いて大規模な実験を行い、代表的手法や最先端手法と比較して、本手法の優位性を実証した。 News recommender systems are essential for helping users to efficiently and effectively find out those interesting news from a large amount of news. Most of existing news recommender systems usually learn topic-level representations of users and news for recommendation, and neglect to learn more informative aspect-level features of users and news for more accurate recommendation. As a result, they achieve limited recommendation performance. Aiming at addressing this deficiency, we propose a novel Aspect-driven News Recommender System (ANRS) built on aspect-level user preference and news representation learning. Here, \textit{news aspect} is fine-grained semantic information expressed by a set of related words, which indicates specific aspects described by the news. In ANRS, \textit{news aspect-level encoder} and \textit{user aspect-level encoder} are devised to learn the fine-grained aspect-level representations of user's preferences and news characteristics respectively, which are fed into \textit{click predictor} to judge the probability of the user clicking the candidate news. Extensive experiments are done on the commonly used real-world dataset MIND, which demonstrate the superiority of our method compared with representative and state-of-the-art methods. | 翻訳日:2021-10-13 14:44:16 公開日:2021-10-12 |
# 文字誤り率の向上はクリーン音声と同等ではない:ブラックボックス音響モデルを用いたasrシステムの音声強調 Improving Character Error Rate Is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-box Acoustic Models ( http://arxiv.org/abs/2110.05968v1 ) ライセンス: Link先を確認 | Ryosuke Sawata, Yosuke Kashiwagi and Shusuke Takahashi | (参考訳) 本稿では,音声認識システム(ASR)の性能を最大化するためのディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
ASRシステムを評価するための指標の1つである文字誤り率(CER)の観点からDNNベースのSEモデルを最適化するために,本手法では,音声処理用と音響モデル(AM)による出力CERを模倣する2つのDNNを用いる。
そして、両方のDNNがトレーニングフェーズで交互に最適化されます。
例えば、サードパーティが提供するようなブラックボックスであっても、DNNを模倣するDNNが微分可能であるため、提案手法はCERの観点からDNNベースのSEモデルを最適化することができる。
その結果,提案手法は既存のDNN手法のトレーニングスキームに過ぎないため,新たな計算コストやネットワークアーキテクチャの変更など,負の効果のないCER中心のSEモデルを構築することが可能になった。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。 A deep neural network (DNN)-based speech enhancement (SE) aiming to maximize the performance of an automatic speech recognition (ASR) system is proposed in this paper. In order to optimize the DNN-based SE model in terms of the character error rate (CER), which is one of the metric to evaluate the ASR system and generally non-differentiable, our method uses two DNNs: one for speech processing and one for mimicking the output CERs derived through an acoustic model (AM). Then both of DNNs are alternately optimized in the training phase. Even if the AM is a black-box, e.g., like one provided by a third-party, the proposed method enables the DNN-based SE model to be optimized in terms of the CER since the DNN mimicking the AM is differentiable. Consequently, it becomes feasible to build CER-centric SE model that has no negative effect, e.g., additional calculation cost and changing network architecture, on the inference phase since our method is merely a training scheme for the existing DNN-based methods. Experimental results show that our method improved CER by 7.3% relative derived through a black-box AM although certain noise levels are kept. | 翻訳日:2021-10-13 14:42:23 公開日:2021-10-12 |
# UniSpeech-SAT:話者による事前学習によるユニバーサル音声表現学習 UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training ( http://arxiv.org/abs/2110.05752v1 ) ライセンス: Link先を確認 | Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu | (参考訳) ssl(self-supervised learning)は、大規模なラベルなしデータを使用し、広範なラベル付けを回避するため、音声処理の長年の目標である。
近年,音声認識における自己教師型学習の適用は,話者特性のモデル化にSSLを適用した限定的な探索が試みられ,大きな成功を収めている。
本稿では,話者表現学習のための既存のSSLフレームワークの改善を目指す。
教師なし話者情報抽出の2つの手法が導入された。
まず、マルチタスク学習を現在のSSLフレームワークに適用し、SSLの目的関数と発話的に対照的な損失を統合する。
第二に, 話者識別の改善のために, 教師なし, 訓練中に重なり合った発話が生成されるデータ拡張のための発話混合戦略を提案する。
提案手法を HuBERT フレームワークに統合する。
superbベンチマークによる実験の結果,本システムは,話者識別指向タスクにおいて,普遍表現学習において最先端のパフォーマンスを達成していることがわかった。
それぞれの方法の有効性を検証するアブレーション研究を行う。
最後に、トレーニングデータセットを94000時間公開オーディオデータにスケールアップし、すべてのSUPERBタスクでさらなるパフォーマンス向上を実現する。 Self-supervised learning (SSL) is a long-standing goal for speech processing, since it utilizes large-scale unlabeled data and avoids extensive human labeling. Recent years witness great successes in applying self-supervised learning in speech recognition, while limited exploration was attempted in applying SSL for modeling speaker characteristics. In this paper, we aim to improve the existing SSL framework for speaker representation learning. Two methods are introduced for enhancing the unsupervised speaker information extraction. First, we apply the multi-task learning to the current SSL framework, where we integrate the utterance-wise contrastive loss with the SSL objective function. Second, for better speaker discrimination, we propose an utterance mixing strategy for data augmentation, where additional overlapped utterances are created unsupervisely and incorporate during training. We integrate the proposed methods into the HuBERT framework. Experiment results on SUPERB benchmark show that the proposed system achieves state-of-the-art performance in universal representation learning, especially for speaker identification oriented tasks. An ablation study is performed verifying the efficacy of each proposed method. Finally, we scale up training dataset to 94 thousand hours public audio data and achieve further performance improvement in all SUPERB tasks. | 翻訳日:2021-10-13 14:42:03 公開日:2021-10-12 |
# トランスファーラーニングを用いた新しい話者に対するTSモデルの適用 Adapting TTS models For New Speakers using Transfer Learning ( http://arxiv.org/abs/2110.05798v1 ) ライセンス: Link先を確認 | Paarth Neekhara, Jason Li, Boris Ginsburg | (参考訳) 新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
これまでは、新しい話者の音声データを使って、事前訓練されたマルチスピーカーTSモデルを新しい音声に適応させることで、この課題に対処しようとしていた。
しかし、一般に入手可能な大規模マルチスピーカーデータセットは、しばしば騒がしいため、製品での使用には適さないttsモデルとなる。
この課題に対して,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
新しい話者に対して異なる量のデータを用いて広範な研究を行い、対象話者と自然性および音声/スタイルの類似性の観点から合成音声を評価する。
たった30分のデータで単一話者TSモデルを微調整すると、男性と女性の両方のターゲット話者に対して27時間以上のデータでゼロからトレーニングされたモデルに匹敵するパフォーマンスが得られる。 Training neural text-to-speech (TTS) models for a new speaker typically requires several hours of high quality speech data. Prior works on voice cloning attempt to address this challenge by adapting pre-trained multi-speaker TTS models for a new voice, using a few minutes of speech data of the new speaker. However, publicly available large multi-speaker datasets are often noisy, thereby resulting in TTS models that are not suitable for use in products. We address this challenge by proposing transfer-learning guidelines for adapting high quality single-speaker TTS models for a new speaker, using only a few minutes of speech data. We conduct an extensive study using different amounts of data for a new speaker and evaluate the synthesized speech in terms of naturalness and voice/style similarity to the target speaker. We find that fine-tuning a single-speaker TTS model on just 30 minutes of data, can yield comparable performance to a model trained from scratch on more than 27 hours of data for both male and female target speakers. | 翻訳日:2021-10-13 14:41:43 公開日:2021-10-12 |
# 単語順は音声認識には重要ではない Word Order Does Not Matter For Speech Recognition ( http://arxiv.org/abs/2110.05994v1 ) ライセンス: Link先を確認 | Vineel Pratap, Qiantong Xu, Tatiana Likhomanenko, Gabriel Synnaeve and Ronan Collobert | (参考訳) 本稿では,音声学習データの書き起こしラベル中の単語の順序が不明な弱教師付き環境での自動音声認識システムの訓練について検討する。
我々は,LogSumExp操作を用いて,全ての出力フレームの分布を集約する単語レベル音響モデルを訓練し,単語分布と一致させるために,クロスエントロピー損失を用いる。
このモデルから生成された擬似ラベルをトレーニングセットで使用し,コネクショニスト時間分類損失を用いて文字ベース音響モデルを訓練する。
本システムでは,2.4%/5.3%をLibriSpeechのテストクリーン/テスト-その他のサブセットで達成している。 In this paper, we study training of automatic speech recognition system in a weakly supervised setting where the order of words in transcript labels of the audio training data is not known. We train a word-level acoustic model which aggregates the distribution of all output frames using LogSumExp operation and uses a cross-entropy loss to match with the ground-truth words distribution. Using the pseudo-labels generated from this model on the training set, we then train a letter-based acoustic model using Connectionist Temporal Classification loss. Our system achieves 2.4%/5.3% on test-clean/test-other subsets of LibriSpeech, which is competitive with the supervised baseline's performance. | 翻訳日:2021-10-13 14:41:23 公開日:2021-10-12 |
# デジタル画像におけるシームレスコピー移動操作 Seamless Copy Move Manipulation in Digital Images ( http://arxiv.org/abs/2110.05747v1 ) ライセンス: Link先を確認 | Tanzila Qazi, Mushtaq Ali and Khizar Hayat | (参考訳) デジタル画像鑑定の重要性と関連性は、偽造を検知するだけでなく、様々な技術を確立する研究者を惹きつけている。
受動画像偽造のコアカテゴリは、異なる変換を適用して画像の独自性に影響を与えるコピーモブ画像偽造である。
本稿では、周波数領域画像操作法を提案し、離散ウェーブレット変換(dwt)の局所的性質を利用して、ホスト画像の領域を保持する。
パッチとホストイメージのどちらも同じレベル$l$でdwtを受け取り、3l + 1$のサブバンドを取得し、パッチの各サブバンドは、ホストイメージの対応するサブバンドの特定領域にペーストされる。
その結果、操作されたホストサブバンドは、最終的な操作されたホストイメージを取得するために逆DWTを受ける。
提案手法は, 2つの周波数領域偽造検出手法による検出に対して良好な抵抗性を示す。
本研究の目的は、偽造を作成し、悪意のある偽造に対して堅牢な偽造検出方法を作成する必要性を強調することである。 The importance and relevance of digital image forensics has attracted researchers to establish different techniques for creating as well as detecting forgeries. The core category in passive image forgery is copy-move image forgery that affects the originality of image by applying a different transformation. In this paper frequency domain image manipulation method is being presented.The method exploits the localized nature of discrete wavelet transform (DWT) to get hold of the region of the host image to be manipulated. Both the patch and host image are subjected to DWT at the same level $l$ to get $3l + 1$ sub-bands and each sub-band of the patch is pasted to the identified region in the corresponding sub-band of the host image. The resultant manipulated host sub-bands are then subjected to inverse DWT to get the final manipulated host image. The proposed method shows good resistance against detection by two frequency domain forgery detection methods from the literature. The purpose of this research work is to create the forgery and highlight the need to produce forgery detection methods that are robust against the malicious copy-move forgery. | 翻訳日:2021-10-13 14:41:10 公開日:2021-10-12 |
# リアルタイムクラウドソーシング画像による被害検出と伝達学習 Detecting Damage Building Using Real-time Crowdsourced Images and Transfer Learning ( http://arxiv.org/abs/2110.05762v1 ) ライセンス: Link先を確認 | Gaurav Chachra, Qingkai Kong, Jim Huang, Srujay Korlakunta, Jennifer Grannen, Alexander Robson, Richard Allen | (参考訳) 大規模な地震の後、スマートフォンの大量使用により個人やメディアがソーシャルメディアプラットフォームに投稿した画像を見ることができる。
これらの画像は, 地震地域の地震被害に関する情報を公共・研究コミュニティの両方に提供し, 救助作業の指導に活用することができる。
本稿では,twitterなどのソーシャルメディアプラットフォームから地震後の建物画像を自動的に抽出し,その画像を含む特定のユーザ投稿を識別する手法を提案する。
トランスファーラーニングと6500枚の手動ラベル付き画像を用いて,現場に損傷のある建物を画像として認識する深層学習モデルを訓練した。
訓練されたモデルは、異なる場所で新たに取得した地震の画像でテストし、トルコのM7.0地震の後、Twitterフィードでほぼリアルタイムで実行された。
さらに,モデルの意思決定方法の理解を深めるために,画像上の重要な位置を可視化するgrad-cam手法も実装した。 After significant earthquakes, we can see images posted on social media platforms by individuals and media agencies owing to the mass usage of smartphones these days. These images can be utilized to provide information about the shaking damage in the earthquake region both to the public and research community, and potentially to guide rescue work. This paper presents an automated way to extract the damaged building images after earthquakes from social media platforms such as Twitter and thus identify the particular user posts containing such images. Using transfer learning and ~6500 manually labelled images, we trained a deep learning model to recognize images with damaged buildings in the scene. The trained model achieved good performance when tested on newly acquired images of earthquakes at different locations and ran in near real-time on Twitter feed after the 2020 M7.0 earthquake in Turkey. Furthermore, to better understand how the model makes decisions, we also implemented the Grad-CAM method to visualize the important locations on the images that facilitate the decision. | 翻訳日:2021-10-13 14:40:50 公開日:2021-10-12 |
# sdwnet:ウェーブレット変換を用いた画像デブラリング用ストレート拡張ネットワーク SDWNet: A Straight Dilated Network with Wavelet Transformation for Image Deblurring ( http://arxiv.org/abs/2110.05803v1 ) ライセンス: Link先を確認 | Wenbin Zou, Mingchao Jiang, Yunchen Zhang, Liang Chen, Zhiyong Lu, Yi Wu | (参考訳) 画像劣化は、ぼやけた画像から鋭い画像を復元することを目的とした古典的なコンピュータビジョン問題である。
この問題を解決するため、既存の手法ではEncode-Decodeアーキテクチャを用いて複雑なネットワークを設計し、優れた性能を実現している。
しかし、これらの手法の多くは、反復的なアップサンプリングとダウンサンプリング構造を使用して受容野を拡大し、サンプリング過程でテクスチャ情報の損失を生じさせ、いくつかの手法では収束を困難にする複数の段階を設計する。
そこで,本モデルは拡張畳み込みを用いることで,空間分解能の高い大きな受容場を得ることができる。
異なる受容場をフル活用することにより,本手法はより優れた性能を実現することができる。
そこで我々は,アップサンプリングとダウンサンプリングの数を削減し,単純なネットワーク構造を設計する。
さらに,ウェーブレット変換を用いた新しいモジュールを提案する。
実データと合成データセットの質的、定量的評価により、より低い訓練条件で既存のアルゴリズムに匹敵する性能が得られた。
ソースコードと事前学習されたモデルはhttps://github.com/flyegle/sdwnetで入手できる。 Image deblurring is a classical computer vision problem that aims to recover a sharp image from a blurred image. To solve this problem, existing methods apply the Encode-Decode architecture to design the complex networks to make a good performance. However, most of these methods use repeated up-sampling and down-sampling structures to expand the receptive field, which results in texture information loss during the sampling process and some of them design the multiple stages that lead to difficulties with convergence. Therefore, our model uses dilated convolution to enable the obtainment of the large receptive field with high spatial resolution. Through making full use of the different receptive fields, our method can achieve better performance. On this basis, we reduce the number of up-sampling and down-sampling and design a simple network structure. Besides, we propose a novel module using the wavelet transform, which effectively helps the network to recover clear high-frequency texture details. Qualitative and quantitative evaluations of real and synthetic datasets show that our deblurring method is comparable to existing algorithms in terms of performance with much lower training requirements. The source code and pre-trained models are available at https://github.com/FlyEgle/SDWNet. | 翻訳日:2021-10-13 14:39:35 公開日:2021-10-12 |
# イベントベース高速低遅延画像マーカー追跡 Event-Based high-speed low-latency fiducial marker tracking ( http://arxiv.org/abs/2110.05819v1 ) ライセンス: Link先を確認 | Adam Loch, Germain Haessig, Markus Vincze | (参考訳) 動きと動的環境、特に困難な照明条件下では、ロバストなロボットアプリケーションにとって依然としてオープンな問題である。
本稿では,実時間,低レイテンシ,自由度6自由度姿勢推定のためのエンドツーエンドパイプラインを提案する。
従来のフレームベースアプローチでポーズ推定を行う代わりに、連続するイベントを用いて、空間変換を直接洗練するためにイベントベースのセンサの高速能力を利用する。
さらに,推定された姿勢をバックトラッキングすることで追跡誤差を検出できる新しい双方向検証手法を導入することで,追跡の質を評価することができる。
このアプローチでは,CPUリソースのみに依存しながら,最大156〜kHzのレートでポーズ推定を行うことができる。
提案手法の平均終端レイテンシは3~msである。
実験の結果,高速な動作知覚ループにおける視覚サーボなどのロボットタスクに顕著な可能性を示した。 Motion and dynamic environments, especially under challenging lighting conditions, are still an open issue for robust robotic applications. In this paper, we propose an end-to-end pipeline for real-time, low latency, 6 degrees-of-freedom pose estimation of fiducial markers. Instead of achieving a pose estimation through a conventional frame-based approach, we employ the high-speed abilities of event-based sensors to directly refine the spatial transformation, using consecutive events. Furthermore, we introduce a novel two-way verification process for detecting tracking errors by backtracking the estimated pose, allowing us to evaluate the quality of our tracking. This approach allows us to achieve pose estimation at a rate up to 156~kHz, while only relying on CPU resources. The average end-to-end latency of our method is 3~ms. Experimental results demonstrate outstanding potential for robotic tasks, such as visual servoing in fast action-perception loops. | 翻訳日:2021-10-13 14:39:15 公開日:2021-10-12 |
# ビデオはグラフ: ビデオアクション認識のための構造化グラフモジュール Video Is Graph: Structured Graph Module for Video Action Recognition ( http://arxiv.org/abs/2110.05904v1 ) ライセンス: Link先を確認 | Rong-Chang Li, Tianyang Xu, Xiao-Jun Wu, and Josef Kittler | (参考訳) アクション認識の分野では、ビデオクリップは後続処理のための順序付きフレームとして扱われる。
時空間知覚を実現するために、既存のアプローチでは、隣接する時間相互作用を畳み込み層に埋め込むことを提案する。
したがって、グローバルな意味情報は複数のローカルレイヤを階層的に積み重ねることで得られる。
しかし、このようなグローバルな時間的蓄積は、浅い層における潜在的低レベルの全体的手がかりを無視して、深層における高レベルの意味を反映することができる。
本稿ではまず,ビデオシーケンスをグラフに変換して,時間フレーム間の直接的な長期的依存関係を求める。
変換中のシーケンシャルな情報を保存するために、構造化グラフモジュール(SGM)を考案し、ネットワーク全体にわたってきめ細かな時間的相互作用を実現する。
特に、sgmは各ノードの近傍を複数の時間領域に分割し、多様な逐次フローを持つグローバル構造情報を抽出する。
一般的なベンチマークデータセット(Something V1 & V2, Diving48, Kinetics-400, UCF101, HMDB51)で大規模な実験が行われる。
報告した性能と解析の結果,sgmは計算量が少なく,精度に優れることがわかった。 In the field of action recognition, video clips are always treated as ordered frames for subsequent processing. To achieve spatio-temporal perception, existing approaches propose to embed adjacent temporal interaction in the convolutional layer. The global semantic information can therefore be obtained by stacking multiple local layers hierarchically. However, such global temporal accumulation can only reflect the high-level semantics in deep layers, neglecting the potential low-level holistic clues in shallow layers. In this paper, we first propose to transform a video sequence into a graph to obtain direct long-term dependencies among temporal frames. To preserve sequential information during transformation, we devise a structured graph module (SGM), achieving fine-grained temporal interactions throughout the entire network. In particular, SGM divides the neighbors of each node into several temporal regions so as to extract global structural information with diverse sequential flows. Extensive experiments are performed on standard benchmark datasets, i.e., Something-Something V1 & V2, Diving48, Kinetics-400, UCF101, and HMDB51. The reported performance and analysis demonstrate that SGM can achieve outstanding precision with less computational complexity. | 翻訳日:2021-10-13 14:39:03 公開日:2021-10-12 |
# medusa: 医用画像解析のためのマルチスケールエンコーダ・デコーダ自己アテンションディープニューラルネットワークアーキテクチャ MEDUSA: Multi-scale Encoder-Decoder Self-Attention Deep Neural Network Architecture for Medical Image Analysis ( http://arxiv.org/abs/2110.06063v1 ) ライセンス: Link先を確認 | Hossein Aboutalebi, Maya Pavlova, Hayden Gunraj, Mohammad Javad Shafiee, Ali Sabri, Amer Alaref, Alexander Wong | (参考訳) 医療画像分析は、特定の疾患の微妙な特徴と、疾患の出現の顕著な重複を考えると、興味深い課題が続いている。
本研究では,病気の微妙さに対処するための自己注意の概念を探求する。
この目的のために,医療画像解析に適したマルチスケールエンコーダデコーダ自己保持機構であるMEDUSAを紹介する。
While self-attention deep convolutional neural network architectures in existing literature center around the notion of multiple isolated lightweight attention mechanisms with limited individual capacities being incorporated at different points in the network architecture, MEDUSA takes a significant departure from this notion by possessing a single, unified self-attention mechanism with significantly higher capacity with multiple attention heads feeding into different scales in the network architecture.
著者の知る限りでは、これは最初の「シングルボディ、マルチスケールヘッド」による自己注意の実現であり、個々の抽象レベルで異なる局所的注意コンテキストを許容しながら、異なる表現的抽象化のレベルにおいて選択的に注意を向けることにより、明示的なグローバルコンテキストを実現する。
MEDUSAでは、これまでの研究と比較すると、COVIDx、RSNA RICORD、RSNA Pneumonia Challengeなど、複数の挑戦的な医療画像分析ベンチマークの最先端性能が得られた。
私たちのMEDUSAモデルは公開されています。 Medical image analysis continues to hold interesting challenges given the subtle characteristics of certain diseases and the significant overlap in appearance between diseases. In this work, we explore the concept of self-attention for tackling such subtleties in and between diseases. To this end, we introduce MEDUSA, a multi-scale encoder-decoder self-attention mechanism tailored for medical image analysis. While self-attention deep convolutional neural network architectures in existing literature center around the notion of multiple isolated lightweight attention mechanisms with limited individual capacities being incorporated at different points in the network architecture, MEDUSA takes a significant departure from this notion by possessing a single, unified self-attention mechanism with significantly higher capacity with multiple attention heads feeding into different scales in the network architecture. To the best of the authors' knowledge, this is the first "single body, multi-scale heads" realization of self-attention and enables explicit global context amongst selective attention at different levels of representational abstractions while still enabling differing local attention context at individual levels of abstractions. With MEDUSA, we obtain state-of-the-art performance on multiple challenging medical image analysis benchmarks including COVIDx, RSNA RICORD, and RSNA Pneumonia Challenge when compared to previous work. Our MEDUSA model is publicly available. | 翻訳日:2021-10-13 14:38:42 公開日:2021-10-12 |
# 再パラメータ光場のスペクトル解析 Spectral analysis of re-parameterized light fields ( http://arxiv.org/abs/2110.06064v1 ) ライセンス: Link先を確認 | Martin Alain and Aljosa Smolic | (参考訳) 本稿では,再パラメータ化光場のスペクトル特性について検討する。
特にサンプリングガイドラインを提供していた光電界スペクトルの先行研究に続いて,光電界の2次元パラメータ化に焦点をあてた。
しかし,画像平面を傾けるだけでなく,平行に傾けることで,さらに柔軟性が向上した。
画像平面配向をシーン形状に適応させる際に、より柔軟なサンプリングガイドライン(例えば、より広いカメラベースライン)を用いて光場をサンプリングすることが可能であることを示すフォーマルな理論的分析が最初に提示される。
次にシミュレーションと結果を提示し,理論的な知見を裏付ける。
本稿で紹介された研究は概ね理論的であるが、ビュー合成やコンパクト表現といったより実践的な光場応用のために、これらの新たな発見がエキサイティングな道を開くと信じている。 In this paper, we study the spectral properties of re-parameterized light field. Following previous studies of the light field spectrum, which notably provided sampling guidelines, we focus on the two plane parameterization of the light field. However, we introduce additional flexibility by allowing the image plane to be tilted and not only parallel. A formal theoretical analysis is first presented, which shows that more flexible sampling guidelines (i.e. wider camera baselines) can be used to sample the light field when adapting the image plane orientation to the scene geometry. We then present our simulations and results to support these theoretical findings. While the work introduced in this paper is mostly theoretical, we believe these new findings open exciting avenues for more practical application of light fields, such as view synthesis or compact representation. | 翻訳日:2021-10-13 14:38:22 公開日:2021-10-12 |
# Robust Glare Detection: レビュー、分析、データセットのリリース Robust Glare Detection: Review, Analysis, and Dataset Release ( http://arxiv.org/abs/2110.06006v1 ) ライセンス: Link先を確認 | Mahdi Abolfazli Esfahani, Han Wang | (参考訳) 太陽の輝きは、屋外環境での無人地上と航空機で撮影された画像に広く存在する。
画像にそのようなアーティファクトが存在することは、誤った特徴抽出と自律システムの失敗をもたらす。
人間は(特に運転中に)輝きを観測すると自分の見解を適応させようとし、この行動は次世代の自動運転車にとって必須の要件である。
日光源は太陽に限らず、夜の間に撮影された画像や屋内環境では、異なる光源が存在するため、月光が見え、反射面はそのような人工物の生成にも影響を及ぼす。
グラアの視覚特性は様々なカメラで撮影された画像によって異なり、カメラのシャッター速度や露出レベルといったいくつかの要因に依存する。
したがって、様々な撮像画像でうまく機能するグラア検出のための汎用的、ロバストで正確なアルゴリズムを導入することは困難である。
本研究は,異なるカメラで撮影された画像を含む,グラア検出のための最初のデータセットの導入を目的としている。
さらに,提案したディープネットワークアーキテクチャを用いて,複数の画像表現とその組み合わせがグラア検出に与える影響について検討した。
リリースされたデータセットはhttps://github.com/maesfahani/glaredetectionで利用可能である。 Sun Glare widely exists in the images captured by unmanned ground and aerial vehicles performing in outdoor environments. The existence of such artifacts in images will result in wrong feature extraction and failure of autonomous systems. Humans will try to adapt their view once they observe a glare (especially when driving), and this behavior is an essential requirement for the next generation of autonomous vehicles. The source of glare is not limited to the sun, and glare can be seen in the images captured during the nighttime and in indoor environments, which is due to the presence of different light sources; reflective surfaces also influence the generation of such artifacts. The glare's visual characteristics are different on images captured by various cameras and depend on several factors such as the camera's shutter speed and exposure level. Hence, it is challenging to introduce a general - robust and accurate - algorithm for glare detection that can perform well in various captured images. This research aims to introduce the first dataset for glare detection, which includes images captured by different cameras. Besides, the effect of multiple image representations and their combination in glare detection is examined using the proposed deep network architecture. The released dataset is available at https://github.com/maesfahani/glaredetection | 翻訳日:2021-10-13 14:36:47 公開日:2021-10-12 |
# なぜ宝くじが勝つのか。
ニューラルネットワークにおけるサンプル複雑性の理論的展望 Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks ( http://arxiv.org/abs/2110.05667v1 ) ライセンス: Link先を確認 | Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong | (参考訳) lth ( \textit{lottery ticket hypothesis}) は、適切に刈り取られたネットワーク( \textit{winning ticket})で学習することで、元の未刈り込みネットワークよりもテスト精度が向上することを示す。
lthはコンピュータビジョンや自然言語処理などの応用を含む幅広い深層ニューラルネットワーク(dnn)で実証的に正当化されてきたが、当選チケットの一般化に関する理論的検証はいまだに解明されていない。
我々の知識を最大限に活用するために、我々の研究は、目的関数の幾何学的構造とサンプルの複雑さを分析して、探索されたニューラルネットワークを訓練する性能を初めて特徴づけ、一般化誤差をゼロにする。
ニューラルネットワークモデルが刈り取られるにつれて,汎用性が保証された望ましいモデル近傍の凸領域が拡大し,当選券の構造的重要性が示された。
さらに,prunedニューラルネットワークの学習アルゴリズムを(加速)確率的勾配降下アルゴリズムとして指定すると,理論上,ゼロ一般化誤差を達成するために必要なサンプル数が隠れた層内の非pruned重みの個数に比例することを示す。
一定のサンプル数で、プルーンされたニューラルネットワークのトレーニングは、元のプルーンされたニューラルネットワークのトレーニングよりも望ましいモデルへの収束率を高くし、勝利チケットの一般化が改善された公式な正当化を提供する。
実験の結果は,1つの隠れた層からなるプルーニングニューラルネットワークの学習から得られたものであるが,複数層ニューラルネットワークのプルーニングにおける意義を正当化するための実験結果が得られた。 The \textit{lottery ticket hypothesis} (LTH) states that learning on a properly pruned network (the \textit{winning ticket}) improves test accuracy over the original unpruned network. Although LTH has been justified empirically in a broad range of deep neural network (DNN) involved applications like computer vision and natural language processing, the theoretical validation of the improved generalization of a winning ticket remains elusive. To the best of our knowledge, our work, for the first time, characterizes the performance of training a pruned neural network by analyzing the geometric structure of the objective function and the sample complexity to achieve zero generalization error. We show that the convex region near a desirable model with guaranteed generalization enlarges as the neural network model is pruned, indicating the structural importance of a winning ticket. Moreover, when the algorithm for training a pruned neural network is specified as an (accelerated) stochastic gradient descent algorithm, we theoretically show that the number of samples required for achieving zero generalization error is proportional to the number of the non-pruned weights in the hidden layer. With a fixed number of samples, training a pruned neural network enjoys a faster convergence rate to the desired model than training the original unpruned one, providing a formal justification of the improved generalization of the winning ticket. Our theoretical results are acquired from learning a pruned neural network of one hidden layer, while experimental results are further provided to justify the implications in pruning multi-layer neural networks. | 翻訳日:2021-10-13 14:35:20 公開日:2021-10-12 |
# 機械学習による化学変換の立体選択性予測 Predicting the Stereoselectivity of Chemical Transformations by Machine Learning ( http://arxiv.org/abs/2110.05671v1 ) ライセンス: Link先を確認 | Justin Li, Dakang Zhang, Yifei Wang, Christopher Ye, Hao Xu, Pengyu Hong | (参考訳) 立体選択的反応(化学反応と酵素反応の両方)は生命の起源、進化、人間生物学、医学に必須である。
1960年代後半から、非対称触媒のエキサイティングな新しいフロンティアで多くの成功があった。
しかし、今日では非対称触媒における成功や失敗のエネルギー差は驚くほど小さいため、ほとんどの産業用および学術用非対称触媒は試行錯誤モデルに従っている。
立体選択的反応に関する現在の理解は、立体選択性は、複数の競合する力学経路における立体効果と電子効果の違いから生じると定性的である。
化学反応の立体選択性を定量的に理解し、調節することは依然として非常に難しい。
本稿では2つのガウス混合モデルを用いてLASSOモデルと2つのランダムフォレストモデルを組み合わせて化学反応の立体選択性を定量的に予測する新しい機械学習手法を提案する。
最近の画期的なアプローチ [1] と比較して、我々のアプローチは特徴間のインタラクションをキャプチャし、複雑なデータ分布を利用することができます。
最近発表されたデータセットの実験結果から,我々のアプローチは[1]よりも有意に優れていた。
この結果から得られた知見は, 立体選択的反応を生かした, 合成に価値はあるが機械的に興味深い他の化合物のさらなる探索の基礎となる。 Stereoselective reactions (both chemical and enzymatic reactions) have been essential for origin of life, evolution, human biology and medicine. Since late 1960s, there have been numerous successes in the exciting new frontier of asymmetric catalysis. However, most industrial and academic asymmetric catalysis nowadays do follow the trial-and-error model, since the energetic difference for success or failure in asymmetric catalysis is incredibly small. Our current understanding about stereoselective reactions is mostly qualitative that stereoselectivity arises from differences in steric effects and electronic effects in multiple competing mechanistic pathways. Quantitatively understanding and modulating the stereoselectivity of for a given chemical reaction still remains extremely difficult. As a proof of principle, we herein present a novel machine learning technique, which combines a LASSO model and two Random Forest model via two Gaussian Mixture models, for quantitatively predicting stereoselectivity of chemical reactions. Compared to the recent ground-breaking approach [1], our approach is able to capture interactions between features and exploit complex data distributions, which are important for predicting stereoselectivity. Experimental results on a recently published dataset demonstrate that our approach significantly outperform [1]. The insight obtained from our results provide a solid foundation for further exploration of other synthetically valuable yet mechanistically intriguing stereoselective reactions. | 翻訳日:2021-10-13 14:34:50 公開日:2021-10-12 |
# (参考訳) 局所マルコフ境界探索による効率よいベイズネットワーク構造学習 Efficient Bayesian network structure learning via local Markov boundary search ( http://arxiv.org/abs/2110.06082v1 ) ライセンス: CC BY 4.0 | Ming Gao, Bryon Aragam | (参考訳) 分布的仮定を伴わずに一般の観測データから学習指向型非循環グラフィカルモデルの複雑性を解析した。
提案手法は情報理論であり,局所マルコフ境界探索法を用いて,基礎となるグラフィカルモデルにおける祖先集合を再帰的に構築する。
意外なことに、あるグラフアンサンブルに対して、単純な前方の欲求探索アルゴリズム(つまり、後方のプルーニングフェーズがない)が各ノードのマルコフ境界を学習するのに十分であることを示す。
これによりサンプルの複雑さが大幅に改善され、ノード数の多項式が最大になる。
これは、既存の条件を文学から一般化する新しい識別可能性条件の下でグラフ全体を学習するために適用される。
独立した関心事として,データからマルコフ境界を回復する問題に対する有限サンプル保証を確立する。
さらに,仮定を単純化し,多項式時間でポリツリーを識別し,学習可能な明示的な条件を提供する,ポリツリーの特殊ケースに適用した。
さらにシミュレーション研究において,実装が容易なアルゴリズムの性能について述べる。
我々のアプローチは一般に、離散的あるいは連続的な分布を分布の仮定なしで処理し、データから有向グラフモデルの構造を効率的に学習するために必要な最小の仮定に光を当てる。 We analyze the complexity of learning directed acyclic graphical models from observational data in general settings without specific distributional assumptions. Our approach is information-theoretic and uses a local Markov boundary search procedure in order to recursively construct ancestral sets in the underlying graphical model. Perhaps surprisingly, we show that for certain graph ensembles, a simple forward greedy search algorithm (i.e. without a backward pruning phase) suffices to learn the Markov boundary of each node. This substantially improves the sample complexity, which we show is at most polynomial in the number of nodes. This is then applied to learn the entire graph under a novel identifiability condition that generalizes existing conditions from the literature. As a matter of independent interest, we establish finite-sample guarantees for the problem of recovering Markov boundaries from data. Moreover, we apply our results to the special case of polytrees, for which the assumptions simplify, and provide explicit conditions under which polytrees are identifiable and learnable in polynomial time. We further illustrate the performance of the algorithm, which is easy to implement, in a simulation study. Our approach is general, works for discrete or continuous distributions without distributional assumptions, and as such sheds light on the minimal assumptions required to efficiently learn the structure of directed graphical models from data. | 翻訳日:2021-10-13 14:32:57 公開日:2021-10-12 |
# 情報理論構造生成モデリング Information Theoretic Structured Generative Modeling ( http://arxiv.org/abs/2110.05794v1 ) ライセンス: Link先を確認 | Bo Hu, Shujian Yu, Jose C. Principe | (参考訳) R'enyiの情報は、再生カーネルヒルベルト空間(RKHS)におけるペアワイズ評価に基づいて、トラクタブルでデータ効率のよい非パラメトリック密度推定の理論的基礎を提供する。
本稿は、R\'enyiの情報がガウス混合の閉形式で推定できるという事実に動機づけられたパラメトリック確率モデルに拡張する。
この特別な接続に基づき、コストはスケール不変であり、絶対連続性に対する制約を少なくしつつ高い勾配分散を回避し、パラメトリック情報理論最適化において大きな利点となる、構造生成モデル(structured generative model, sgm)と呼ばれる新しい生成モデルフレームワークが提案されている。
この実装では、無限ガウス混合モデル(IMoG)の学習に適合する単一白色ノイズ源に付加された正規正規入力によって駆動される単一ニューラルネットワークを用いており、低次元での実験的に抽出可能なモデル分布を提供する。
SGMを訓練するために、R\'enyiの2階エントロピーと発散に基づく3つの新しい変分コスト関数を提供し、クロスエントロピーの最小化、$f$-divergenceの変分表現の最小化、エビデンスの下限(条件付き確率)の最大化を行う。
相互情報推定の枠組みをテストし,その結果を相互情報ニューラル推定(mine)と比較し,密度推定,マルコフモデルにおける条件付き確率推定,逆ネットワークの訓練について検討した。
予備実験の結果,sgmは,データ効率とばらつき,従来のガウス混合モデルと変分ガウス混合モデル,および生成型逆ネットワークの性能において,地雷推定を著しく改善することが示された。 R\'enyi's information provides a theoretical foundation for tractable and data-efficient non-parametric density estimation, based on pair-wise evaluations in a reproducing kernel Hilbert space (RKHS). This paper extends this framework to parametric probabilistic modeling, motivated by the fact that R\'enyi's information can be estimated in closed-form for Gaussian mixtures. Based on this special connection, a novel generative model framework called the structured generative model (SGM) is proposed that makes straightforward optimization possible, because costs are scale-invariant, avoiding high gradient variance while imposing less restrictions on absolute continuity, which is a huge advantage in parametric information theoretic optimization. The implementation employs a single neural network driven by an orthonormal input appended to a single white noise source adapted to learn an infinite Gaussian mixture model (IMoG), which provides an empirically tractable model distribution in low dimensions. To train SGM, we provide three novel variational cost functions, based on R\'enyi's second-order entropy and divergence, to implement minimization of cross-entropy, minimization of variational representations of $f$-divergence, and maximization of the evidence lower bound (conditional probability). We test the framework for estimation of mutual information and compare the results with the mutual information neural estimation (MINE), for density estimation, for conditional probability estimation in Markov models as well as for training adversarial networks. Our preliminary results show that SGM significantly improves MINE estimation in terms of data efficiency and variance, conventional and variational Gaussian mixture models, as well as the performance of generative adversarial networks. | 翻訳日:2021-10-13 13:44:41 公開日:2021-10-12 |
# 特徴選択における自己ペナライゼーション現象について On the Self-Penalization Phenomenon in Feature Selection ( http://arxiv.org/abs/2110.05852v1 ) ライセンス: Link先を確認 | Michael I. Jordan, Keli Liu, and Feng Ruan | (参考訳) カーネルの族上の最小化に基づく暗黙のスペーサ性誘導機構を記述する: \begin{equation*} \min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n \|f\|_{\mathcal{H}_q}^2~~\text{subject to}~\beta \ge 0, \end{equation*} ここで$L$は損失、$\odot$は座標的乗算、$\mathcal{H}_q$はカーネルの $k_q(x, x') = h(x, x') = h(\|||||||q_q) である。
勾配降下を用いて$\beta$ に関してこの目標を最適化することは、確率の高いちょうどスパースな定常点をもたらす。
スパーシリティは、ペナライゼーション(例えば$\ell_1$)、早期停止または後処理(例えば、クリッピング)など、よく知られた明示的なスペーシフィケーションテクニックを使わずに達成される。
アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。 We describe an implicit sparsity-inducing mechanism based on minimization over a family of kernels: \begin{equation*} \min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n \|f\|_{\mathcal{H}_q}^2~~\text{subject to}~~\beta \ge 0, \end{equation*} where $L$ is the loss, $\odot$ is coordinate-wise multiplication and $\mathcal{H}_q$ is the reproducing kernel Hilbert space based on the kernel $k_q(x, x') = h(\|x-x'\|_q^q)$, where $\|\cdot\|_q$ is the $\ell_q$ norm. Using gradient descent to optimize this objective with respect to $\beta$ leads to exactly sparse stationary points with high probability. The sparsity is achieved without using any of the well-known explicit sparsification techniques such as penalization (e.g., $\ell_1$), early stopping or post-processing (e.g., clipping). As an application, we use this sparsity-inducing mechanism to build algorithms consistent for feature selection. | 翻訳日:2021-10-13 13:44:06 公開日:2021-10-12 |
# 過パラメータ線形回帰のための崩壊段階を有するsgdの最後の反復的リスク境界 Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear Regression ( http://arxiv.org/abs/2110.06198v1 ) ライセンス: Link先を確認 | Jingfeng Wu and Difan Zou and Vladimir Braverman and Quanquan Gu and Sham M. Kakade | (参考訳) 確率勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化することが示されている。
実際には、しばしばsgdを幾何的に減衰するステップ、すなわち定数初期ステップ、そして複数の幾何学的ステップで実行し、最後のイテレートを出力として使用する。
この種のSGDは古典的有限次元線形回帰問題(Ge et al., 2019)に最適に近い最小値であることが知られ(Ge et al., 2019)、統計的ミニマックス率の観点からは多項式減衰段数でSGDを確実に上回る。
しかし、過パラメータ化条件におけるステップサイズが減衰した最後のSGDの急激な解析は未解決のままである。
本稿では,線形回帰問題に対して,sgdの崩壊段階化を伴う最後の反復的リスク境界に関する問題依存分析を行う。
特に、幾何学的に崩壊するステップズ(またはテールに崩壊するステップズ)を持つsgdでは、過剰なリスクの上限が上界と下界とほぼ一致することが証明される。
以上の結果から,SGDの超パラメータ化問題に対する一般化能力を実証し,古典的状態の対数的要因まで最小値の最適値を復元できることを示した。
さらに, sgd に対して, 多項式減衰ステップ化を伴う過大なリスク下限を与え, 先行研究における最小速度比較を補完する, インスタンス分割による幾何減衰ステップ化の利点を明らかにした。 Stochastic gradient descent (SGD) has been demonstrated to generalize well in many deep learning applications. In practice, one often runs SGD with a geometrically decaying stepsize, i.e., a constant initial stepsize followed by multiple geometric stepsize decay, and uses the last iterate as the output. This kind of SGD is known to be nearly minimax optimal for classical finite-dimensional linear regression problems (Ge et al., 2019), and provably outperforms SGD with polynomially decaying stepsize in terms of the statistical minimax rates. However, a sharp analysis for the last iterate of SGD with decaying step size in the overparameterized setting is still open. In this paper, we provide problem-dependent analysis on the last iterate risk bounds of SGD with decaying stepsize, for (overparameterized) linear regression problems. In particular, for SGD with geometrically decaying stepsize (or tail geometrically decaying stepsize), we prove nearly matching upper and lower bounds on the excess risk. Our results demonstrate the generalization ability of SGD for a wide class of overparameterized problems, and can recover the minimax optimal results up to logarithmic factors in the classical regime. Moreover, we provide an excess risk lower bound for SGD with polynomially decaying stepsize and illustrate the advantage of geometrically decaying stepsize in an instance-wise manner, which complements the minimax rate comparison made in previous work. | 翻訳日:2021-10-13 13:41:27 公開日:2021-10-12 |
# 多焦点超解像核融合に先立つ深部核融合 Deep Fusion Prior for Multi-Focus Image Super Resolution Fusion ( http://arxiv.org/abs/2110.05706v1 ) ライセンス: Link先を確認 | Yuanjie Gu, Zhibo Xiao, Hailun Wang, Cheng Liu, Shouyu Wang | (参考訳) 本稿では,MFISRFタスクとして,マルチフォーカス画像融合(MFIF)とブラインドスーパー解像度(SR)問題を統一し,このMFISRFタスクに対処するために,DFP(Deep fusion prior)という新しいデータセットのない非教師なしフレームワークを提案する。
dfpはskipnet network, doublereblur focus measurement tactic, decision embedded module, loss functionで構成される。
In particular, DFP can obtain MFISRF only from two low-resolution inputs without any extent dataset; SKIPnet implementing unsupervised learning via deep image prior is an end-to-end generated network acting as the engine of DFP; DoubleReblur is used to determine the primary decision map without learning but based on estimated PSF and Gaussian kernels convolution; decision embedding module optimizes the decision map via learning; and DFP losses composed of content loss, joint gradient loss and gradient limit loss can obtain high-quality MFISRF results robustly.
実験の結果,提案するDFPアプローチは,最先端のMFIF法とSR法の組み合わせよりも優れていた。
さらに、DFPは一般的なフレームワークであり、ネットワークと焦点測定の戦術を継続的に更新し、MFISRFの性能をさらに向上させることができる。
DFPコードはオープンソースで、近々http://github.com/GuYuanjie/DeepFusionPrior.comで利用可能になる。 This paper unifies the multi-focus images fusion (MFIF) and blind super resolution (SR) problems as the multi-focus image super resolution fusion (MFISRF) task, and proposes a novel unified dataset-free unsupervised framework named deep fusion prior (DFP) to address such MFISRF task. DFP consists of SKIPnet network, DoubleReblur focus measurement tactic, decision embedding module and loss functions. In particular, DFP can obtain MFISRF only from two low-resolution inputs without any extent dataset; SKIPnet implementing unsupervised learning via deep image prior is an end-to-end generated network acting as the engine of DFP; DoubleReblur is used to determine the primary decision map without learning but based on estimated PSF and Gaussian kernels convolution; decision embedding module optimizes the decision map via learning; and DFP losses composed of content loss, joint gradient loss and gradient limit loss can obtain high-quality MFISRF results robustly. Experiments have proved that our proposed DFP approaches and even outperforms those state-of-art MFIF and SR method combinations. Additionally, DFP is a general framework, thus its networks and focus measurement tactics can be continuously updated to further improve the MFISRF performance. DFP codes are open source and will be available soon at http://github.com/GuYuanjie/DeepFusionPrior. | 翻訳日:2021-10-13 13:41:00 公開日:2021-10-12 |
# 経皮的画像による早期黒色腫診断 Early Melanoma Diagnosis with Sequential Dermoscopic Images ( http://arxiv.org/abs/2110.05976v1 ) ライセンス: Link先を確認 | Zhen Yu, Jennifer Nguyen, Toan D Nguyen, John Kelly, Catriona Mclean, Paul Bonnington, Lei Zhang, Victoria Mar, Zongyuan Ge | (参考訳) 皮膚科医は皮膚病変の追跡鏡像を評価して早期黒色腫を診断または除外することが多い。
しかし, 悪性黒色腫早期診断のアルゴリズムは, 病変の1点画像を用いて開発されている。
病変の時間的,形態的変化を無視することは,境界症例の誤診につながる可能性がある。
そこで本研究では,経時的皮膚鏡画像を用いた早期黒色腫診断の枠組みを提案する。
この目的のために,本手法を3つのステップで構築する。
まず, 推定ユークリッド変換を用いて皮膚病変の連続的皮膚鏡像を整列し, 連続画像間の画像差を演算して病変成長領域を抽出し, 整列した病変画像と対応する差分画像から皮膚鏡変化を捉えるための時空間ネットワークを提案する。
最後に,病変画像の悪性度スコアを時間とともに算出する早期診断モジュールを開発した。
122例から179例の経皮的画像データを集め,本法の有効性を確認した。
大規模な実験により、提案モデルは他の一般的なシーケンスモデルよりも優れていることが示された。
また,本モデルの診断結果を,経験者7名,登録者5名と比較した。
本モデルは臨床医よりも高い診断精度(それぞれ63.69%対54.33%)を示し,早期に黒色腫と診断した(最初のフォローアップ画像で診断された黒色腫の60.7%対32.7%)。
以上の結果より,本モデルを用いて早期に悪性形質転換のリスクが高い黒色腫病変を同定し,早期に黒色腫を検出できる可能性が示唆された。 Dermatologists often diagnose or rule out early melanoma by evaluating the follow-up dermoscopic images of skin lesions. However, existing algorithms for early melanoma diagnosis are developed using single time-point images of lesions. Ignoring the temporal, morphological changes of lesions can lead to misdiagnosis in borderline cases. In this study, we propose a framework for automated early melanoma diagnosis using sequential dermoscopic images. To this end, we construct our method in three steps. First, we align sequential dermoscopic images of skin lesions using estimated Euclidean transformations, extract the lesion growth region by computing image differences among the consecutive images, and then propose a spatio-temporal network to capture the dermoscopic changes from aligned lesion images and the corresponding difference images. Finally, we develop an early diagnosis module to compute probability scores of malignancy for lesion images over time. We collected 179 serial dermoscopic imaging data from 122 patients to verify our method. Extensive experiments show that the proposed model outperforms other commonly used sequence models. We also compared the diagnostic results of our model with those of seven experienced dermatologists and five registrars. Our model achieved higher diagnostic accuracy than clinicians (63.69% vs. 54.33%, respectively) and provided an earlier diagnosis of melanoma (60.7% vs. 32.7% of melanoma correctly diagnosed on the first follow-up images). These results demonstrate that our model can be used to identify melanocytic lesions that are at high-risk of malignant transformation earlier in the disease process and thereby redefine what is possible in the early detection of melanoma. | 翻訳日:2021-10-13 13:39:32 公開日:2021-10-12 |
# AutoMLのセキュリティリスクについて On the Security Risks of AutoML ( http://arxiv.org/abs/2110.06018v1 ) ライセンス: Link先を確認 | Ren Pang, Zhaohan Xi, Shouling Ji, Xiapu Luo, Ting Wang | (参考訳) neural architecture search(nas)は、与えられたタスクに合わせたモデルを自動的に検索する、新たな機械学習(ml)パラダイムである。
しかし、nasによって引き起こされる潜在的なセキュリティリスクについてはほとんど知られていない。
この作業はギャップを埋めるための確固たる最初のステップである。
10の一般的なNAS手法に関する広範な実証研究を通して、NAS生成モデルは手動で設計した手法と比較して、様々な悪意ある攻撃(例えば、敵の回避、モデル中毒、機能盗難)により大きな脆弱性を被る傾向があることを示した。
さらに,経験的および分析的証拠の両方により,このような現象の説明が可能となる: 禁止された探索空間と訓練コストを考えると,ほとんどのnas手法は,初期訓練段階で高速に収束するモデルを好む; この傾向は,攻撃の脆弱性(例えば,高損失の滑らかさと低勾配分散)に関連するアーキテクチャ的特性をもたらす。
本研究は,モデル特性と攻撃脆弱性の関係を明らかにするだけでなく,異なる攻撃の基盤となる固有接続を示唆する。
最後に、細胞深度の増加やスキップ接続の抑制など、このような欠点を軽減するための潜在的対策について議論し、いくつかの有望な研究方向を導いた。 Neural Architecture Search (NAS) represents an emerging machine learning (ML) paradigm that automatically searches for models tailored to given tasks, which greatly simplifies the development of ML systems and propels the trend of ML democratization. Yet, little is known about the potential security risks incurred by NAS, which is concerning given the increasing use of NAS-generated models in critical domains. This work represents a solid initial step towards bridging the gap. Through an extensive empirical study of 10 popular NAS methods, we show that compared with their manually designed counterparts, NAS-generated models tend to suffer greater vulnerability to various malicious attacks (e.g., adversarial evasion, model poisoning, and functionality stealing). Further, with both empirical and analytical evidence, we provide possible explanations for such phenomena: given the prohibitive search space and training cost, most NAS methods favor models that converge fast at early training stages; this preference results in architectural properties associated with attack vulnerability (e.g., high loss smoothness and low gradient variance). Our findings not only reveal the relationships between model characteristics and attack vulnerability but also suggest the inherent connections underlying different attacks. Finally, we discuss potential remedies to mitigate such drawbacks, including increasing cell depth and suppressing skip connects, which lead to several promising research directions. | 翻訳日:2021-10-13 13:39:06 公開日:2021-10-12 |
# 分散行列因子化 Deviance Matrix Factorization ( http://arxiv.org/abs/2110.05674v1 ) ライセンス: Link先を確認 | Liang Wang, Luis Carvalho | (参考訳) 逸脱に基づく損失に対する一般化行列因子分解について検討し、ユビキタス特異値分解を二乗誤差損失を超えて拡張する。
同様の手法がこれまで検討されてきたが,本研究では,構造零点とエントリー重みを許容できるほど柔軟なアルゴリズムを提案する。
さらに,これらの分解を理論的に支援する。
(i)一般化線形モデル構成の下で強い整合性を示す。
(ii)一般化ホスマー・ルメショー検定による選択指数関数族の妥当性の検証、及び
(iii)最大固有値ギャップ法による分解のランクを決定する。
本研究は, 画像認識, 自然言語処理, ネットワーク解析, バイオメディカル研究から得られたベンチマークデータセットを用いて, 分解仮定に対する堅牢性を評価するためのシミュレーション研究を行う。
理論的および実証的な結果から,提案手法はより柔軟で汎用的で,従来の手法と比較して性能が向上することが示された。 We investigate a general matrix factorization for deviance-based losses, extending the ubiquitous singular value decomposition beyond squared error loss. While similar approaches have been explored before, here we propose an efficient algorithm that is flexible enough to allow for structural zeros and entry weights. Moreover, we provide theoretical support for these decompositions by (i) showing strong consistency under a generalized linear model setup, (ii) checking the adequacy of a chosen exponential family via a generalized Hosmer-Lemeshow test, and (iii) determining the rank of the decomposition via a maximum eigenvalue gap method. To further support our findings, we conduct simulation studies to assess robustness to decomposition assumptions and extensive case studies using benchmark datasets from image face recognition, natural language processing, network analysis, and biomedical studies. Our theoretical and empirical results indicate that the proposed decomposition is more flexible, general, and can provide improved performance when compared to traditional methods. | 翻訳日:2021-10-13 13:38:19 公開日:2021-10-12 |
# ニューラルマシン翻訳のための二重学習逆データ拡張 Doubly-Trained Adversarial Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2110.05691v1 ) ライセンス: Link先を確認 | Weiting Tan, Shuoyang Ding, Huda Khayrallah, Philipp Koehn | (参考訳) ニューラルマシン翻訳(nmt)モデルはノイズの入力に苦しむことが知られている。
モデルを堅牢化するために、モデルを攻撃し、ソース側の意味的意味を同時に保持する対向的な拡張サンプルを生成する。
このようなサンプルを生成するために,2つの逆変換方向のnmtモデルと,ターゲット側攻撃とソース側意味的類似性制約を組み合わせたジョイント損失関数を組み合わせる二重学習アーキテクチャを提案する。
3つの異なる言語対と2つの評価指標による実験の結果、これらの対立サンプルがモデルロバスト性を向上させることが示された。 Neural Machine Translation (NMT) models are known to suffer from noisy inputs. To make models robust, we generate adversarial augmentation samples that attack the model and preserve the source-side semantic meaning at the same time. To generate such samples, we propose a doubly-trained architecture that pairs two NMT models of opposite translation directions with a joint loss function, which combines the target-side attack and the source-side semantic similarity constraint. The results from our experiments across three different language pairs and two evaluation metrics show that these adversarial samples improve the model robustness. | 翻訳日:2021-10-13 13:37:48 公開日:2021-10-12 |
# sportssum2.0:ライブテキストによる高品質スポーツニュースの生成 SportsSum2.0: Generating High-Quality Sports News from Live Text Commentary ( http://arxiv.org/abs/2110.05750v1 ) ライセンス: Link先を確認 | Jiaan Wang, Zhixu Li, Qiang Yang, Jianfeng Qu, Zhigang Chen, Qingsheng Liu, Guoping Hu | (参考訳) スポーツゲームの要約は、ライブテキストコメンタリーからニュース記事を生成することを目的としている。
最近の最新の研究であるsportssumは、大規模なベンチマークデータセットを構築するだけでなく、2段階のフレームワークも提案している。
その大きな貢献にもかかわらず、その作品には3つの大きな欠点がある。
1)スポーツサムデータセットに存在するノイズは、要約性能を劣化させる。
2) ニュースとコメントの語彙重なりの無視は,低品質の擬似ラベルアルゴリズムをもたらす。
3)書き直し文を直接結合してニュースを形成することは,その実践性を制限している。
本稿では,新しいベンチマークデータセットsportssum2.0を,修正された要約フレームワークと共に公開する。
特に、クリーンなデータセットを得るために、群衆労働者を使ってオリジナルのデータセットを手動できれいにします。
さらに、語彙重なりの度合いを擬似ラベルの生成に組み込む。
さらに,要約されたニュースの流布度と表現性を考慮するために,再帰的要約器を導入する。
我々のモデルは最先端のベースラインよりも優れています。 Sports game summarization aims to generate news articles from live text commentaries. A recent state-of-the-art work, SportsSum, not only constructs a large benchmark dataset, but also proposes a two-step framework. Despite its great contributions, the work has three main drawbacks: 1) the noise existed in SportsSum dataset degrades the summarization performance; 2) the neglect of lexical overlap between news and commentaries results in low-quality pseudo-labeling algorithm; 3) the usage of directly concatenating rewritten sentences to form news limits its practicability. In this paper, we publish a new benchmark dataset SportsSum2.0, together with a modified summarization framework. In particular, to obtain a clean dataset, we employ crowd workers to manually clean the original dataset. Moreover, the degree of lexical overlap is incorporated into the generation of pseudo labels. Further, we introduce a reranker-enhanced summarizer to take into account the fluency and expressiveness of the summarized news. Extensive experiments show that our model outperforms the state-of-the-art baseline. | 翻訳日:2021-10-13 13:36:26 公開日:2021-10-12 |
# LaoPLM: Laoの事前トレーニング言語モデル LaoPLM: Pre-trained Language Models for Lao ( http://arxiv.org/abs/2110.05896v1 ) ライセンス: Link先を確認 | Nankai Lin and Yingwen Fu and Ziyu Yang and Shengyi Jiang | (参考訳) 大規模なコーパスで訓練されたプレトレーニング言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
複数の下流自然言語処理(NLP)タスクの恩恵を受けることができる。
PTMは、ほとんどのNLPアプリケーション、特に英語などの高リソース言語で広く使われているが、Lao NLP研究ではあまり使われていない。
laoの以前の作業は、注釈付きデータセットの欠如と言語リソースのスパースによって妨げられている。
本研究では,lao言語の資源管理状況を軽減するために,テキスト分類データセットを構築する。
さらに, BERT-small, BERT-base, ELECTRA-small, ELECTRA-baseの4つのバージョンを持つLao用のトランスフォーマーベースのPTMを提示し, 音声タグ付けとテキスト分類という2つの下流タスクで評価する。
実験はlaoモデルの有効性を示す。
私たちは、Lao NLPアプリケーションの今後の開発を促進するために、モデルとデータセットをコミュニティにリリースします。 Trained on the large corpus, pre-trained language models (PLMs) can capture different levels of concepts in context and hence generate universal language representations. They can benefit multiple downstream natural language processing (NLP) tasks. Although PTMs have been widely used in most NLP applications, especially for high-resource languages such as English, it is under-represented in Lao NLP research. Previous work on Lao has been hampered by the lack of annotated datasets and the sparsity of language resources. In this work, we construct a text classification dataset to alleviate the resource-scare situation of the Lao language. We additionally present the first transformer-based PTMs for Lao with four versions: BERT-small, BERT-base, ELECTRA-small and ELECTRA-base, and evaluate it over two downstream tasks: part-of-speech tagging and text classification. Experiments demonstrate the effectiveness of our Lao models. We will release our models and datasets to the community, hoping to facilitate the future development of Lao NLP applications. | 翻訳日:2021-10-13 13:36:13 公開日:2021-10-12 |
# (参考訳) ABO:実世界の3Dオブジェクト理解のためのデータセットとベンチマーク ABO: Dataset and Benchmarks for Real-World 3D Object Understanding ( http://arxiv.org/abs/2110.06199v1 ) ライセンス: CC BY 4.0 | Jasmine Collins, Shubham Goel, Achleshwar Luthra, Leon Xu, Kenan Deng, Xi Zhang, Tomas F. Yago Vicente, Himanshu Arora, Thomas Dideriksen, Matthieu Guillaumin, Jitendra Malik | (参考訳) amazon-berkeley objects (abo) は,製品イメージと実家庭のオブジェクトに対応する3dモデルの新しい大規模データセットである。
この現実的なオブジェクト中心の3Dデータセットを用いて、合成オブジェクトでトレーニングされた単一ビュー3D再構成ネットワークの領域ギャップを測定する。
また、ABOのマルチビュー画像を用いて、さまざまなカメラ視点に対する最先端のメトリック学習アプローチの堅牢性を測定する。
最後に、ABOの物理ベースのレンダリング材料を利用して、様々な複雑な実世界の測地に対して、単視点および多視点の材料推定を行う。
完全なデータセットはhttps://amazon-berkeley-objects.s3.amazonaws.com/index.htmlでダウンロードできる。 We introduce Amazon-Berkeley Objects (ABO), a new large-scale dataset of product images and 3D models corresponding to real household objects. We use this realistic, object-centric 3D dataset to measure the domain gap for single-view 3D reconstruction networks trained on synthetic objects. We also use multi-view images from ABO to measure the robustness of state-of-the-art metric learning approaches to different camera viewpoints. Finally, leveraging the physically-based rendering materials in ABO, we perform single- and multi-view material estimation for a variety of complex, real-world geometries. The full dataset is available for download at https://amazon-berkeley-objects.s3.amazonaws.com/index.html. | 翻訳日:2021-10-13 13:33:23 公開日:2021-10-12 |
# 中国語話者の政治的傾向の予測 Prediction of Political Leanings of Chinese Speaking Twitter Users ( http://arxiv.org/abs/2110.05723v1 ) ライセンス: Link先を確認 | Fenglei Gu and Duoji Jiang | (参考訳) 本研究は、中国語圏の政治家や他のTwitterユーザーによる姿勢の分類モデルを作成するための教師付き手法を提案する。
これまでの政治ツイートの予測は多くの英文ツイートに存在しているが、我々の知る限りでは、これは中国の政治ツイートの予測モデルを構築する最初の作品だ。
まず、有名な政治家とその関連ユーザーのツイートをかき集めてデータを収集する。
第2に、政治的スペクトルを2つのグループで定義している:中国共産党の承認を示すグループとそうでないグループである。
独立した単語を識別するための中国語の単語間に空間がないため、中国語のセグメンテーションツールであるjiebaによってセグメンテーションとベクトル化が完了する。
最後に、政治的ツイートから収集したデータをトレーニングし、Twitter上でユーザーの政治的スタンスを理解するための高精度な分類モデルを作成する。 This work presents a supervised method for generating a classifier model of the stances held by Chinese-speaking politicians and other Twitter users. Many previous works of political tweets prediction exist on English tweets, but to the best of our knowledge, this is the first work that builds prediction model on Chinese political tweets. It firstly collects data by scraping tweets of famous political figure and their related users. It secondly defines the political spectrum in two groups: the group that shows approvals to the Chinese Communist Party and the group that does not. Since there are not space between words in Chinese to identify the independent words, it then completes segmentation and vectorization by Jieba, a Chinese segmentation tool. Finally, it trains the data collected from political tweets and produce a classification model with high accuracy for understanding users' political stances from their tweets on Twitter. | 翻訳日:2021-10-13 13:16:43 公開日:2021-10-12 |
# DecGAN: アルツハイマー病の神経回路異常を検出するジェネレーティブ・アドバイサル・ネットワークの分離 DecGAN: Decoupling Generative Adversarial Network detecting abnormal neural circuits for Alzheimer's disease ( http://arxiv.org/abs/2110.05712v1 ) ライセンス: Link先を確認 | Junren Pan, Baiying Lei, Shuqiang Wang, Bingchuan Wang, Yong Liu, Yanyan Shen | (参考訳) アルツハイマー病(ad)の主な原因の1つは、いくつかの神経回路の障害である。
既存のAD予測手法は大きな成功を収めているが、脳ネットワークの観点から異常な神経回路を検出することは依然として大きな課題である。
本研究では,ADの異常な神経回路を検出するために,新たにデカップリング生成対向ネットワーク(DecGAN)を提案する。
具体的には、デカップリングモジュールは、脳ネットワークを2つの部分に分解するように設計されている。一方は、ADの発達を主に決定する神経回路を表すスパースグラフで構成され、もう一方は補足グラフであり、ADへの影響を無視することができる。
さらに、逆方向戦略を用いてデカップリングモジュールを誘導し、ADとより関連性の高い特徴を抽出する。
一方、検出された神経回路をハイパーグラフデータに符号化することにより、ハイパーエッジニューロンアルゴリズムに関連する解析モジュールが、神経回路を識別するように設計されている。
さらに, ニューラル回路の固有位相分布を最小化し, 提案モデルの精度とロバスト性を大幅に向上させるため, 空間スペクトルハイパーグラフ類似性に基づく新しいスパース容量損失法を開発した。
実験の結果,adの異なる段階の異常神経回路を効果的に検出できることが示され,病理学的研究や早期治療に有用である。 One of the main reasons for Alzheimer's disease (AD) is the disorder of some neural circuits. Existing methods for AD prediction have achieved great success, however, detecting abnormal neural circuits from the perspective of brain networks is still a big challenge. In this work, a novel decoupling generative adversarial network (DecGAN) is proposed to detect abnormal neural circuits for AD. Concretely, a decoupling module is designed to decompose a brain network into two parts: one part is composed of a few sparse graphs which represent the neural circuits largely determining the development of AD; the other part is a supplement graph, whose influence on AD can be ignored. Furthermore, the adversarial strategy is utilized to guide the decoupling module to extract the feature more related to AD. Meanwhile, by encoding the detected neural circuits to hypergraph data, an analytic module associated with the hyperedge neurons algorithm is designed to identify the neural circuits. More importantly, a novel sparse capacity loss based on the spatial-spectral hypergraph similarity is developed to minimize the intrinsic topological distribution of neural circuits, which can significantly improve the accuracy and robustness of the proposed model. Experimental results demonstrate that the proposed model can effectively detect the abnormal neural circuits at different stages of AD, which is helpful for pathological study and early treatment. | 翻訳日:2021-10-13 13:15:11 公開日:2021-10-12 |
# 構造制約のある制御のための動作不足状態表現学習 Action-Sufficient State Representation Learning for Control with Structural Constraints ( http://arxiv.org/abs/2110.05721v1 ) ライセンス: Link先を確認 | Biwei Huang, Chaochao Lu, Liu Leqi, Jos\'e Miguel Hern\'andez-Lobato, Clark Glymour, Bernhard Sch\"olkopf, Kun Zhang | (参考訳) 実世界のシナリオにおける知覚された信号は、通常、高次元で騒がしいものであり、下流の意思決定タスクに必要な必須情報と十分な情報を含むそれらの表現の発見と使用は、タスクの計算効率と一般化能力を改善するのに役立つ。
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する最小限の状態表現(ASR)を学習することを提案する。
我々は,システム内の変数間の構造的関係に関する生成環境モデルを構築し,構造的制約と,政策学習における累積報酬を最大化する目標に基づいて,asrを特徴付ける原則的手法を提案する。
次に,環境モデルを推定し,asrを抽出するための構造的逐次変分オートエンコーダを開発した。
CarRacing と VizDoom の実証実験の結果は,政策学習における ASR の学習と利用の明確な優位性を示している。
さらに, 推定環境モデルとasrにより, コンパクト潜在空間における想定された結果から学習行動が得られ, サンプル効率が向上する。 Perceived signals in real-world scenarios are usually high-dimensional and noisy, and finding and using their representation that contains essential and sufficient information required by downstream decision-making tasks will help improve computational efficiency and generalization ability in the tasks. In this paper, we focus on partially observable environments and propose to learn a minimal set of state representations that capture sufficient information for decision-making, termed \textit{Action-Sufficient state Representations} (ASRs). We build a generative environment model for the structural relationships among variables in the system and present a principled way to characterize ASRs based on structural constraints and the goal of maximizing cumulative reward in policy learning. We then develop a structured sequential Variational Auto-Encoder to estimate the environment model and extract ASRs. Our empirical results on CarRacing and VizDoom demonstrate a clear advantage of learning and using ASRs for policy learning. Moreover, the estimated environment model and ASRs allow learning behaviors from imagined outcomes in the compact latent space to improve sample efficiency. | 翻訳日:2021-10-13 13:14:48 公開日:2021-10-12 |
# ウェアラブルを用いた行動認識のためのadversarial representation learning Guided-GAN: Adversarial Representation Learning for Activity Recognition with Wearables ( http://arxiv.org/abs/2110.05732v1 ) ライセンス: Link先を確認 | Alireza Abedin, Hamid Rezatofighi, Damith C. Ranasinghe | (参考訳) HAR(Human Activity Recognition)はユビキタスコンピューティングにおける重要な研究分野であり、大規模ラベル付きセンサーデータの取得は退屈で、労働集約的で、時間を要する。
HARにおけるデータアノテーションの負担を軽減するために、最先端の教師なしの治療法が調査された。
本稿では,ウェアラブルセンサデータから教師なし特徴表現を学習するためのGAN(Generative Adversarial Network)パラダイムについて検討し,そのタスクのために新しいGANフレームワークを幾何学的にガイドしたGAN(Guid-GAN)を設計する。
提案手法の有効性を示すために,3つの下流分類ベンチマークにおいて,ガイド付きganで得られた特徴を教師なしで評価した。
本研究は,既存の教師なしのアプローチを上回りつつ,教師なしの学習表現によるパフォーマンスに密接なアプローチを示す。
提案手法は、ヒューマンデータアノテーションタスクのコスト削減に寄与しながら、教師なしと教師なしのヒューマンアクティビティ認識のギャップを埋める方法である。 Human activity recognition (HAR) is an important research field in ubiquitous computing where the acquisition of large-scale labeled sensor data is tedious, labor-intensive and time consuming. State-of-the-art unsupervised remedies investigated to alleviate the burdens of data annotations in HAR mainly explore training autoencoder frameworks. In this paper: we explore generative adversarial network (GAN) paradigms to learn unsupervised feature representations from wearable sensor data; and design a new GAN framework-Geometrically-Guided GAN or Guided-GAN-for the task. To demonstrate the effectiveness of our formulation, we evaluate the features learned by Guided-GAN in an unsupervised manner on three downstream classification benchmarks. Our results demonstrate Guided-GAN to outperform existing unsupervised approaches whilst closely approaching the performance with fully supervised learned representations. The proposed approach paves the way to bridge the gap between unsupervised and supervised human activity recognition whilst helping to reduce the cost of human data annotation tasks. | 翻訳日:2021-10-13 13:14:31 公開日:2021-10-12 |
# 相対分子自己着脱トランスフォーマ Relative Molecule Self-Attention Transformer ( http://arxiv.org/abs/2110.05841v1 ) ライセンス: Link先を確認 | {\L}ukasz Maziarka, Dawid Majchrowski, Tomasz Danel, Piotr Gai\'nski, Jacek Tabor, Igor Podolak, Pawe{\l} Morkisz, Stanis{\l}aw Jastrz\k{e}bski | (参考訳) 自己監督学習は、希少な実験データからのデータ効率的な学習を可能にすることで、分子特性予測(創薬と多くの産業にとって中心的なタスク)に革命をもたらすことを約束している。
かなりの進歩にもかかわらず、未訓練のメソッドは特定の設定でまだ競争力がある。
アーキテクチャが重要なボトルネックになるかも知れないからです。
特に、バックボーンアーキテクチャをドメイン固有の帰納バイアスで強化することは、他のドメインにおける自己教師型学習の成功の鍵となった。
本研究では,分子データに合わせた自己保持機構の設計空間を方法論的に探索する。
我々は,原子間の距離関係とグラフの融合を含む,相対的な自己アテンション層に着想を得た,プロセス分子に適応した新しい自己アテンションの変種を同定する。
我々の主な貢献は、R-MAT(Relative Molecule Attention Transformer)である。これは、新しいトランスフォーマーベースのモデルで、分子特性予測タスクの幅広い範囲にわたる最先端または非常に競争的な結果を達成する。 Self-supervised learning holds promise to revolutionize molecule property prediction - a central task to drug discovery and many more industries - by enabling data efficient learning from scarce experimental data. Despite significant progress, non-pretrained methods can be still competitive in certain settings. We reason that architecture might be a key bottleneck. In particular, enriching the backbone architecture with domain-specific inductive biases has been key for the success of self-supervised learning in other domains. In this spirit, we methodologically explore the design space of the self-attention mechanism tailored to molecular data. We identify a novel variant of self-attention adapted to processing molecules, inspired by the relative self-attention layer, which involves fusing embedded graph and distance relationships between atoms. Our main contribution is Relative Molecule Attention Transformer (R-MAT): a novel Transformer-based model based on the developed self-attention layer that achieves state-of-the-art or very competitive results across a~wide range of molecule property prediction tasks. | 翻訳日:2021-10-13 13:14:12 公開日:2021-10-12 |
# 線形同変ネットワークの入射バイアス Implicit Bias of Linear Equivariant Networks ( http://arxiv.org/abs/2110.06084v1 ) ライセンス: Link先を確認 | Hannah Lawrence, Kristian Georgiev, Andrew Dienes, Bobak T. Kiani | (参考訳) g-cnns (group equivariant convolutional neural network) は畳み込みニューラルネットワーク (convolutional neural networks, cnns) の一般化であり、そのアーキテクチャにおいて、回転や置換といった群対称性を明示的にエンコードすることで、幅広い科学的および技術的応用に優れている。
g-cnnsの成功は、畳み込みアーキテクチャの明示的な対称性バイアスによって導かれるが、最近の研究は、特定のパラメータ化(あるいはアーキテクチャ)におけるトレーニングアルゴリズムの暗黙のバイアスが、過剰パラメータ化されたニューラルネットワークの一般化を理解する上で鍵となると提案している。
この文脈では、二進分類タスクにおける勾配降下により訓練された$L$層全幅線形G-CNNが、低ランクフーリエ行列係数の解に収束し、2/L$-Schatten行列ノルムで正規化されることを示す。
本研究は,すべての有限群上の線形g-cnnに対する線形cnnの暗黙的バイアスに関する先行分析を厳密に一般化し,非可換対称性群(置換など)の難解な設定を含む。
様々な群の実験を通して定理を検証するとともに、局所的に類似の正規化パターンを捉えたより現実的な非線形ネットワークを実証的に探究する。
最後に、不確実性原理を通じて実空間におけるフーリエ空間の暗黙正規化結果の直観的な解釈を提供する。 Group equivariant convolutional neural networks (G-CNNs) are generalizations of convolutional neural networks (CNNs) which excel in a wide range of scientific and technical applications by explicitly encoding group symmetries, such as rotations and permutations, in their architectures. Although the success of G-CNNs is driven by the explicit symmetry bias of their convolutional architecture, a recent line of work has proposed that the implicit bias of training algorithms on a particular parameterization (or architecture) is key to understanding generalization for overparameterized neural nets. In this context, we show that $L$-layer full-width linear G-CNNs trained via gradient descent in a binary classification task converge to solutions with low-rank Fourier matrix coefficients, regularized by the $2/L$-Schatten matrix norm. Our work strictly generalizes previous analysis on the implicit bias of linear CNNs to linear G-CNNs over all finite groups, including the challenging setting of non-commutative symmetry groups (such as permutations). We validate our theorems via experiments on a variety of groups and empirically explore more realistic nonlinear networks, which locally capture similar regularization patterns. Finally, we provide intuitive interpretations of our Fourier space implicit regularization results in real space via uncertainty principles. | 翻訳日:2021-10-13 13:13:52 公開日:2021-10-12 |
# コンビネータ型検索空間を有する環境における画素からの計画 Planning from Pixels in Environments with Combinatorially Hard Search Spaces ( http://arxiv.org/abs/2110.06149v1 ) ライセンス: Link先を確認 | Marco Bagatella, Mirek Ol\v{s}\'ak, Michal Rol\'inek, Georg Martius | (参考訳) 生の視覚入力に基づいて複雑な計画を形成する能力は、従来の2つのコンピュータ科学の異なる領域である視覚処理と抽象的なアルゴリズム実行のシームレスな組み合わせを必要とするため、人工知能の現在の能力のためのlitmusテストである。
近年のこの分野への関心の高まりは、アーケードゲームから連続制御に至るまでのタスクにおいて、優れたパフォーマンスをもたらす進歩をもたらしたが、これらの手法には、一般化能力の制限や、組合せ的にハードなプランニングインスタンスを扱う際の難しさなど、重大な問題がない。
私たちの貢献は2つあります。
(i)その環境を潜在グラフとして表現することを学び、状態同一化を利用して指数関数から線形へ良い方針を見つける複雑さを減らす方法を提案する。
(ii)人間にとっても計画が困難である離散的な組合せ構造を持つ軽量環境のセットを導入する。
さらに,本手法は,低品質軌跡のみを提供するオフラインRLパラダイムにおいて,「ワンショット」計画のような非常に不利な制度であっても,環境の変動に対して強い経験的一般化を実現することを示す。 The ability to form complex plans based on raw visual input is a litmus test for current capabilities of artificial intelligence, as it requires a seamless combination of visual processing and abstract algorithmic execution, two traditionally separate areas of computer science. A recent surge of interest in this field brought advances that yield good performance in tasks ranging from arcade games to continuous control; these methods however do not come without significant issues, such as limited generalization capabilities and difficulties when dealing with combinatorially hard planning instances. Our contribution is two-fold: (i) we present a method that learns to represent its environment as a latent graph and leverages state reidentification to reduce the complexity of finding a good policy from exponential to linear (ii) we introduce a set of lightweight environments with an underlying discrete combinatorial structure in which planning is challenging even for humans. Moreover, we show that our methods achieves strong empirical generalization to variations in the environment, even across highly disadvantaged regimes, such as "one-shot" planning, or in an offline RL paradigm which only provides low-quality trajectories. | 翻訳日:2021-10-13 13:12:58 公開日:2021-10-12 |
# StARformer: State-Action-Reward表現を備えたTransformer StARformer: Transformer with State-Action-Reward Representations ( http://arxiv.org/abs/2110.06206v1 ) ライセンス: Link先を確認 | Jinghuan Shang and Michael S. Ryoo | (参考訳) 強化学習(rl)は、過去の状態-アクション-リワードの一連の経験から、将来のアクションのシーケンスを自己回帰的に予測するシーケンスモデリングタスクと見なすことができる。
近年、トランスフォーマーはこの問題のモデル化に成功している。
本研究では, 局所因果関係を明示的にモデル化し, 長いシーケンスにおける動作予測の改善に寄与する State-Action-Reward Transformer (StARformer) を提案する。
StARformerはまず、非常に短い時間で各状態-アクション-リワードトークン群から局所表現(すなわち、StAR-representations)を抽出する。
そのような局所表現と状態表現を組み合わせたシーケンスは、長時間にわたって行動予測を行うために使用される。
実験の結果、StARformerは、オフラインRLと模倣学習設定の両方において、Atari(画像)およびGym(状態ベクトル)ベンチマーク上で最先端のTransformerベースの手法よりも優れていることがわかった。
StARformerはまた、ベースラインよりも長い入力シーケンスに適合している。
私たちのコードはhttps://github.com/elicassion/starformerで利用可能です。 Reinforcement Learning (RL) can be considered as a sequence modeling task, i.e., given a sequence of past state-action-reward experiences, a model autoregressively predicts a sequence of future actions. Recently, Transformers have been successfully adopted to model this problem. In this work, we propose State-Action-Reward Transformer (StARformer), which explicitly models local causal relations to help improve action prediction in long sequences. StARformer first extracts local representations (i.e., StAR-representations) from each group of state-action-reward tokens within a very short time span. A sequence of such local representations combined with state representations, is then used to make action predictions over a long time span. Our experiments show that StARformer outperforms the state-of-the-art Transformer-based method on Atari (image) and Gym (state vector) benchmarks, in both offline-RL and imitation learning settings. StARformer is also more compliant with longer sequences of inputs compared to the baseline. Our code is available at https://github.com/elicassion/StARformer. | 翻訳日:2021-10-13 13:12:39 公開日:2021-10-12 |
# 単一独立成分回収とその応用 Single Independent Component Recovery and Applications ( http://arxiv.org/abs/2110.05887v1 ) ライセンス: Link先を確認 | Uri Shaham, Jonathan Svirsky, Ori Katz and Ronen Talmon | (参考訳) 潜在変数発見は、応用科学における幅広い応用を伴うデータ分析における中心的な問題である。
本研究では,2つの統計的独立成分の可逆混合として与えられたデータを考察し,一方の成分が他方が隠れている間に観測されていることを仮定する。
私たちの目標は隠れた部品を回収することです。
そこで本研究では,判別器を備えたオートエンコーダを提案する。
非同定性が示された標準非線形ica問題と異なり、ここで検討するicaの特別な場合において、このアプローチはエントロピー保存変換によって関心の成分を回復できることを示す。
本稿では,画像合成,音声クローニング,胎児心電図抽出など,いくつかのデータセットにおける提案手法の性能を示す。 Latent variable discovery is a central problem in data analysis with a broad range of applications in applied science. In this work, we consider data given as an invertible mixture of two statistically independent components, and assume that one of the components is observed while the other is hidden. Our goal is to recover the hidden component. For this purpose, we propose an autoencoder equipped with a discriminator. Unlike the standard nonlinear ICA problem, which was shown to be non-identifiable, in the special case of ICA we consider here, we show that our approach can recover the component of interest up to entropy-preserving transformation. We demonstrate the performance of the proposed approach on several datasets, including image synthesis, voice cloning, and fetal ECG extraction. | 翻訳日:2021-10-13 13:12:02 公開日:2021-10-12 |
# シークエンシャル環境における一般化のためのGated Information Bottleneck Gated Information Bottleneck for Generalization in Sequential Environments ( http://arxiv.org/abs/2110.06057v1 ) ライセンス: Link先を確認 | Francesco Alesiani, Shujian Yu, Xi Yu | (参考訳) 深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。
トレーニングデータから最小限の表現を学習することにより、情報ボトルネック(IB)アプローチは、異なるAIアプリケーションにおける一般化を改善する効果を実証した。
本研究では,スプリアス相関を動的に除去し,学習可能なソフトマスク(生特徴)を用いて,複数の環境にまたがるタスク関連機能を段階的に選択する,新たなニューラルネットワークベースのib手法であるgated information bottleneck(gib)を提案する。
GIBは、変分近似や分布的仮定なしに、単純で扱いやすい目的を享受する。
我々は、敵対的ロバスト性とアウト・オブ・ディストリビューション(OOD)検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
一方,ib理論と不変因果表現学習との関係も確立し,gibは異なる環境が連続的に到達すると魅力的な性能を示すこと,不変リスク最小化 (irm) が失敗するより実用的なシナリオであることを確認した。
GIBのコードはhttps://github.com/falesiani/GIBで公開されている。 Deep neural networks suffer from poor generalization to unseen environments when the underlying data distribution is different from that in the training set. By learning minimum sufficient representations from training data, the information bottleneck (IB) approach has demonstrated its effectiveness to improve generalization in different AI applications. In this work, we propose a new neural network-based IB approach, termed gated information bottleneck (GIB), that dynamically drops spurious correlations and progressively selects the most task-relevant features across different environments by a trainable soft mask (on raw features). GIB enjoys a simple and tractable objective, without any variational approximation or distributional assumption. We empirically demonstrate the superiority of GIB over other popular neural network-based IB approaches in adversarial robustness and out-of-distribution (OOD) detection. Meanwhile, we also establish the connection between IB theory and invariant causal representation learning, and observed that GIB demonstrates appealing performance when different environments arrive sequentially, a more practical scenario where invariant risk minimization (IRM) fails. Code of GIB is available at https://github.com/falesiani/GIB | 翻訳日:2021-10-13 13:11:49 公開日:2021-10-12 |
# デプロイされたモデルのリスクを追跡し、有害な分布シフトを検出する Tracking the risk of a deployed model and detecting harmful distribution shifts ( http://arxiv.org/abs/2110.06177v1 ) ライセンス: Link先を確認 | Aleksandr Podkopaev, Aaditya Ramdas | (参考訳) 現実世界にデプロイされた場合、機械学習モデルはデータ分散の変化に必然的に遭遇し、特定の - すべてではないが - 分散シフトによってパフォーマンスが大幅に低下する可能性がある。
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視して、人間の専門家(またはモデル再訓練)による介入を不要にすることは理にかなっている。
いくつかの研究で分散シフトのテストが開発されているが、通常は非逐次的な方法を使うか、任意のシフト(良性や有害性)を検出するか、両方である。
我々は、警告を発射するための賢明な方法が両方あると論じる。
(a)良心を無視しながら有害な変化を検知し、
(b)誤報率を増大させることなくモデル性能の連続監視を可能にする。
本研究では、ソース(トレーニング)とターゲット(テスト)の分布の違いが、精度やキャリブレーションといった利害関係のリスク関数を著しく低下させるかどうかをテストするための単純なシーケンシャルツールを設計する。
時間一様信頼系列の構築における最近の進歩は、追跡過程中に蓄積された統計証拠の効率的な集約を可能にする。
設計されたフレームワークは、予測が実行された後に(一部)真のラベルが明らかにされたり、遅延した方法でラベルのバッチが利用可能になった場合に適用できる。
提案手法の有効性を,シミュレーションおよび実データセットの収集に関する広範な実証的研究を通じて実証する。 When deployed in the real world, machine learning models inevitably encounter changes in the data distribution, and certain -- but not all -- distribution shifts could result in significant performance degradation. In practice, it may make sense to ignore benign shifts, under which the performance of a deployed model does not degrade substantially, making interventions by a human expert (or model retraining) unnecessary. While several works have developed tests for distribution shifts, these typically either use non-sequential methods, or detect arbitrary shifts (benign or harmful), or both. We argue that a sensible method for firing off a warning has to both (a) detect harmful shifts while ignoring benign ones, and (b) allow continuous monitoring of model performance without increasing the false alarm rate. In this work, we design simple sequential tools for testing if the difference between source (training) and target (test) distributions leads to a significant drop in a risk function of interest, like accuracy or calibration. Recent advances in constructing time-uniform confidence sequences allow efficient aggregation of statistical evidence accumulated during the tracking process. The designed framework is applicable in settings where (some) true labels are revealed after the prediction is performed, or when batches of labels become available in a delayed fashion. We demonstrate the efficacy of the proposed framework through an extensive empirical study on a collection of simulated and real datasets. | 翻訳日:2021-10-13 13:11:29 公開日:2021-10-12 |
# 視覚・言語ナビゲーションに先立つ空間経路の再考 Rethinking the Spatial Route Prior in Vision-and-Language Navigation ( http://arxiv.org/abs/2110.05728v1 ) ライセンス: Link先を確認 | Xinzhe Zhou, Wei Liu, Yadong Mu | (参考訳) VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
本研究は, vln の課題を, ナビゲーションシーンの前の空間経路を, 事前に無視した側面から解決するものである。
この研究で重要な革新は、いくつかの異なるVLN設定の下で空間経路を明示的に検討することである。
環境マップを知り,最短経路を事前に認める最も情報に富んだ場合,原点-終点ノードペアが与えられた場合,内部経路は一意に決定できる。
したがって、VLNはシーン内のすべての可能な宛先ノードに対して、通常の分類問題として効果的に定式化することができる。
さらに、より一般的なVLN設定に緩和し、(最短経路を先に放棄することで)シーケンシャル決定のバリエーションと(環境マップを知らない場合に対処する)探索と探索のスキームを提案し、コンパクトで情報に富むサブグラフをキュレートする。
34]により報告されたように,過去2年間,VLN法の性能は高原で停滞している。
モデル複雑性が増大しているにもかかわらず、R2R検証の未確認セットにおける最先端の成功率は、シングルランでは62%、モデルアンサンブルでは73%である。
我々はR2RとR4Rの両方について総合的な評価を行い、上記の性能天井を破る鍵となる空間経路の事前利用が驚くべき結果となった。
例えば、R2Rの検証未確認セットでは、探索された離散ノード数が約40である場合、我々の単一モデルの成功率は73%に達し、話者モデルがアンサンブルされた場合の78%まで増加し、3つのモデルがアンサンブルされた以前のVLN-BERTをはるかに上回る。 Vision-and-language navigation (VLN) is a trending topic which aims to navigate an intelligent agent to an expected position through natural language instructions. This work addresses the task of VLN from a previously-ignored aspect, namely the spatial route prior of the navigation scenes. A critically enabling innovation of this work is explicitly considering the spatial route prior under several different VLN settings. In a most information-rich case of knowing environment maps and admitting shortest-path prior, we observe that given an origin-destination node pair, the internal route can be uniquely determined. Thus, VLN can be effectively formulated as an ordinary classification problem over all possible destination nodes in the scenes. Furthermore, we relax it to other more general VLN settings, proposing a sequential-decision variant (by abandoning the shortest-path route prior) and an explore-and-exploit scheme (for addressing the case of not knowing the environment maps) that curates a compact and informative sub-graph to exploit. As reported by [34], the performance of VLN methods has been stuck at a plateau in past two years. Even with increased model complexity, the state-of-the-art success rate on R2R validation-unseen set has stayed around 62% for single-run and 73% for beam-search with model-ensemble. We have conducted comprehensive evaluations on both R2R and R4R, and surprisingly found that utilizing the spatial route priors may be the key of breaking above-mentioned performance ceiling. For example, on R2R validation-unseen set, when the number of discrete nodes explored is about 40, our single-model success rate reaches 73%, and increases to 78% if a Speaker model is ensembled, which significantly outstrips previous state-of-the-art VLN-BERT with 3 models ensembled. | 翻訳日:2021-10-13 13:09:40 公開日:2021-10-12 |
# マシンはビジュアルデータベースなしで見ることができるか? Can machines learn to see without visual databases? ( http://arxiv.org/abs/2110.05973v1 ) ライセンス: Link先を確認 | Alessandro Betti, Marco Gori, Stefano Melacci, Marcello Pelillo, Fabio Roli | (参考訳) 本論文は,声動インタラクションと補聴器のみの指示によって,人間のような物体の監督を行う,真に人間的な文脈で視覚スキルを克服する学習機械を考える上での時間的猶予を保っている。
これはおそらく、単純な人間と機械の言語的相互作用の下で、視覚的記述のタスクに機械を巻き込むために、視覚の計算プロセスに関する新しい基礎を必要とする。
課題は、ビジュアルデータベースを使わずに見ることを学ぶマシンを開発することにある。
これは、巨大なビジュアルデータベースの蓄積に依存しないビジョンのためのディープラーニング技術に関する、真に直交する競争軌道への扉を開くかもしれない。 This paper sustains the position that the time has come for thinking of learning machines that conquer visual skills in a truly human-like context, where a few human-like object supervisions are given by vocal interactions and pointing aids only. This likely requires new foundations on computational processes of vision with the final purpose of involving machines in tasks of visual description by living in their own visual environment under simple man-machine linguistic interactions. The challenge consists of developing machines that learn to see without needing to handle visual databases. This might open the doors to a truly orthogonal competitive track concerning deep learning technologies for vision which does not rely on the accumulation of huge visual databases. | 翻訳日:2021-10-13 13:09:07 公開日:2021-10-12 |
# 下流転送改善のための教師付き事前訓練の再考 Rethinking supervised pre-training for better downstream transferring ( http://arxiv.org/abs/2110.06014v1 ) ライセンス: Link先を確認 | Yutong Feng, Jianwen Jiang, Mingqian Tang, Rong Jin, Yue Gao | (参考訳) プレトレイン-ファインチューンパラダイムは、上流の大きなデータセット(例えばImageNet)でモデルを事前トレーニングし、異なる下流タスクに微調整する、ディープラーニングの多くのアプリケーションで優れたパフォーマンスを示している。
ほとんどの場合、事前訓練は教師付き手法に基づいて行われるが、近年の自己指導型事前訓練の研究は、強力な伝達性を示し、複数の下流タスクにおいて監督型事前訓練よりも優れている。
したがって、教師付き事前トレーニングモデルをダウンストリームタスクにもっとよく一般化する方法は、まだ疑問の余地がない。
本稿では,既存の教師付き事前学習手法の伝達可能性の悪さが,クラス内意味差の無視から生じることを論じる。
これは、これらの手法が視覚内容の多様さにもかかわらず、同じクラスから画像を押し合う傾向があるためであり、これは「上流タスクの過度化」と呼ばれる問題である。
この問題を軽減するために,Leave-One-Out K-Nearest-Neighbor(LOOK)に基づく教師付き事前学習手法を提案する。
アップストリームタスクのオーバーフィットは、各イメージがクラスラベルをほとんどの近辺で共有することだけを要求することで軽減されるため、各クラスがマルチモードの分散を示し、クラス内の差分の一部を連続的に保持することで、ダウンストリームタスクへのより良い転送を可能にします。
提案手法を大規模データセットに対して効率的に実装する手法を開発した。
複数の下流タスクに関する実験的研究は、LOOKが教師付きおよび自己教師付き事前訓練のための他の最先端の手法よりも優れていることを示している。 The pretrain-finetune paradigm has shown outstanding performance on many applications of deep learning, where a model is pre-trained on a upstream large dataset (e.g. ImageNet), and is then fine-tuned to different downstream tasks. Though for most cases, the pre-training stage is conducted based on supervised methods, recent works on self-supervised pre-training have shown powerful transferability and even outperform supervised pre-training on multiple downstream tasks. It thus remains an open question how to better generalize supervised pre-training model to downstream tasks. In this paper, we argue that the worse transferability of existing supervised pre-training methods arise from the negligence of valuable intra-class semantic difference. This is because these methods tend to push images from the same class close to each other despite of the large diversity in their visual contents, a problem to which referred as "overfit of upstream tasks". To alleviate this problem, we propose a new supervised pre-training method based on Leave-One-Out K-Nearest-Neighbor, or LOOK for short. It relieves the problem of overfitting upstream tasks by only requiring each image to share its class label with most of its k nearest neighbors, thus allowing each class to exhibit a multi-mode distribution and consequentially preserving part of intra-class difference for better transferring to downstream tasks. We developed efficient implementation of the proposed method that scales well to large datasets. Experimental studies on multiple downstream tasks show that LOOK outperforms other state-of-the-art methods for supervised and self-supervised pre-training. | 翻訳日:2021-10-13 13:08:54 公開日:2021-10-12 |
# SlideGraph+:乳がんのHER2像を予測する全画像レベルグラフ SlideGraph+: Whole Slide Image Level Graphs to Predict HER2Status in Breast Cancer ( http://arxiv.org/abs/2110.06042v1 ) ライセンス: Link先を確認 | Wenqi Lu, Michael Toss, Emad Rakha, Nasir Rajpoot, Fayyaz Minhas | (参考訳) ヒト上皮成長因子受容体2(HER2)は、乳癌(BCa)の15-20%で過剰発現される重要な予後および予測因子である。
現状の決定は、治療体制の選択と予後を決定する上で重要な臨床決定ステップである。
HER2の状態は、手動による観察バイアスによる分析的変動に加えて、追加のコストと組織負担を必要とするシチューハイブリダイゼーション(ISH)を介して、トランスクロプトミックまたは免疫組織化学(IHC)を用いて評価される。
本研究では,HematoxylinおよびEosin(H&E)スライドの全スライディング画像から直接HER2状態を予測するための新しいグラフニューラルネットワーク(GNN)モデル(SlideGraph+)を提案する。
ネットワークは、2つの独立したテストデータセットに加えて、The Cancer Genome Atlas(TCGA)のスライドでトレーニングされ、テストされた。
提案手法は,RCC曲線(AUC)値 > 0.75,独立したテストセット 0.8 の領域で,最先端の手法よりも優れていることを示す。
以上の結果から,提案手法は,症例のトリージングや診断環境における診断テストの事前注文に利用できることが示唆された。
計算病理学における他の弱い教師付き予測問題にも用いられる。
SlideGraph+のコードはhttps://github.com/wenqi006/SlideGraphで入手できる。 Human epidermal growth factor receptor 2 (HER2) is an important prognostic and predictive factor which is overexpressed in 15-20% of breast cancer (BCa). The determination of its status is a key clinical decision making step for selection of treatment regimen and prognostication. HER2 status is evaluated using transcroptomics or immunohistochemistry (IHC) through situ hybridisation (ISH) which require additional costs and tissue burden in addition to analytical variabilities in terms of manual observational biases in scoring. In this study, we propose a novel graph neural network (GNN) based model (termed SlideGraph+) to predict HER2 status directly from whole-slide images of routine Haematoxylin and Eosin (H&E) slides. The network was trained and tested on slides from The Cancer Genome Atlas (TCGA) in addition to two independent test datasets. We demonstrate that the proposed model outperforms the state-of-the-art methods with area under the ROC curve (AUC) values > 0.75 on TCGA and 0.8 on independent test sets. Our experiments show that the proposed approach can be utilised for case triaging as well as pre-ordering diagnostic tests in a diagnostic setting. It can also be used for other weakly supervised prediction problems in computational pathology. The SlideGraph+ code is available at https://github.com/wenqi006/SlideGraph. | 翻訳日:2021-10-13 13:08:28 公開日:2021-10-12 |
# MGH:教師なし人物再識別のためのメタデータガイドハイパーグラフモデリング MGH: Metadata Guided Hypergraph Modeling for Unsupervised Person Re-identification ( http://arxiv.org/abs/2110.05886v1 ) ライセンス: Link先を確認 | Yiming Wu and Xintian Wu and Xi Li and Jian Tian | (参考訳) 課題として、教師なしのReIDは、ラベル付き情報を必要としないクエリイメージと同一のIDを一致させることを目指している。
一般的に、既存のアプローチは視覚的な手がかりのみに焦点を当てており、潜在的に価値のある補助メタデータ情報(時空間的文脈など)は探索されない。
現実世界では、このようなメタデータは通常、キャプチャされた画像と一緒に利用できるため、いくつかのハードなReIDマッチングを分離する上で重要な役割を果たす。
このモチベーションを念頭に置いて,メタ情報を用いて特徴学習とラベルリファインメントのためのハイパーグラフを構築する,新しい教師なしのReIDアプローチである~\textbf{MGH}を提案する。
原則としてハイパーグラフは、カメラ間の異種データ相関をモデル化するカメラトポロジー対応ハイパーエッジで構成されている。
ハイパーグラフ上のラベル伝搬を利用して,提案手法では,誤りラベルの修正やノイズラベルの平滑化など,reid結果を効果的に洗練することができる。
さらに,改良された結果から,平均精度を直接近似的に最適化するメモリベースのリストワイズ損失を示す。
3つのベンチマークの大規模な実験は、提案手法の最先端に対する効果を示す。 As a challenging task, unsupervised person ReID aims to match the same identity with query images which does not require any labeled information. In general, most existing approaches focus on the visual cues only, leaving potentially valuable auxiliary metadata information (e.g., spatio-temporal context) unexplored. In the real world, such metadata is normally available alongside captured images, and thus plays an important role in separating several hard ReID matches. With this motivation in mind, we propose~\textbf{MGH}, a novel unsupervised person ReID approach that uses meta information to construct a hypergraph for feature learning and label refinement. In principle, the hypergraph is composed of camera-topology-aware hyperedges, which can model the heterogeneous data correlations across cameras. Taking advantage of label propagation on the hypergraph, the proposed approach is able to effectively refine the ReID results, such as correcting the wrong labels or smoothing the noisy labels. Given the refined results, We further present a memory-based listwise loss to directly optimize the average precision in an approximate manner. Extensive experiments on three benchmarks demonstrate the effectiveness of the proposed approach against the state-of-the-art. | 翻訳日:2021-10-13 13:08:04 公開日:2021-10-12 |
# VarArray: アレー幾何学-非依存連続音声分離 VarArray: Array-Geometry-Agnostic Continuous Speech Separation ( http://arxiv.org/abs/2110.05745v1 ) ライセンス: Link先を確認 | Takuya Yoshioka, Xiaofei Wang, Dongmei Wang, Min Tang, Zirun Zhu, Zhuo Chen, Naoyuki Kanda | (参考訳) マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける重なり問題に対処する上で有望であることがわかった。
本稿では,アレイジオメトリ非依存な音声分離ニューラルネットワークモデルであるvararrayを提案する。
提案手法は,入力チャネル間の非線形相関を生かしながら,任意の数のマイクロホンに適用可能である。
提案手法は, 変換平均結合, コンフォメータ音声分離, チャネル間位相差など, 従来提案されていた異なる要素を分離し, 効率よく結合的に組み合わせる。
参照セグメンテーションなどの事前知識を必要としない完全に発達した転写システムを用いて,2つの実際の会議転写タスクを用いて大規模評価を行った。
提案手法は,全ての幾何学的構成を考慮した配列幾何学非依存モデルにおいて,AMI開発と評価セットにおいて,それぞれ17.5%,20.4%のアスクライトに基づく話者非依存語誤り率を達成し,また,接地構造セグメンテーションを用いないエンド・ツー・エンド設定において,従来の手法よりも優れていた。 Continuous speech separation using a microphone array was shown to be promising in dealing with the speech overlap problem in natural conversation transcription. This paper proposes VarArray, an array-geometry-agnostic speech separation neural network model. The proposed model is applicable to any number of microphones without retraining while leveraging the nonlinear correlation between the input channels. The proposed method adapts different elements that were proposed before separately, including transform-average-concatenate, conformer speech separation, and inter-channel phase differences, and combines them in an efficient and cohesive way. Large-scale evaluation was performed with two real meeting transcription tasks by using a fully developed transcription system requiring no prior knowledge such as reference segmentations, which allowed us to measure the impact that the continuous speech separation system could have in realistic settings. The proposed model outperformed a previous approach to array-geometry-agnostic modeling for all of the geometry configurations considered, achieving asclite-based speaker-agnostic word error rates of 17.5% and 20.4% for the AMI development and evaluation sets, respectively, in the end-to-end setting using no ground-truth segmentations. | 翻訳日:2021-10-13 13:07:43 公開日:2021-10-12 |
# BERTraffic:ロバストなBERTに基づく話者変化検出とエアトラフ通信の役割同定 BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection and Role Identification of Air-Traffic Communications ( http://arxiv.org/abs/2110.05781v1 ) ライセンス: Link先を確認 | Juan Zuluaga-Gomez and Seyyed Saeed Sarfjoo and Amrutha Prasad and Iuliia Nigmatulina and Petr Motlicek and Oliver Ohneiser and Hartmut Helmke | (参考訳) 自動音声認識(ASR)は、航空交通制御(ATC)に特に関心を寄せている。
ASRは、航空管制官(ATCO)とパイロットの間の通信を転写することができる。
これらの転写はATCコマンドタイプと航空機のコールサインなどの名前付きエンティティを抽出するために使用される。
1つの一般的な問題は、音声活動検出(SAD)またはダイアリゼーションシステムが故障し、2つ以上の単一話者セグメントが同一記録に含まれ、システム全体の性能を損なうことである。
本研究では,SADモジュールのセグメンテーションをBERTモデルと組み合わせて,ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
本研究は,テキストデータ上で直接ダイアリゼーションを行う実生活ATCテストセットが,アコースティックレベルダイアリゼーションを超えることを示す。
提案したモデルは、いくつかのテストセットでATCO/パイロットで ~0.90/~0.95 F1スコアに達する。
テキストベースのダイアリゼーションシステムは、標準的な音響ベースのダイアリゼーションと比較して、ダイアリゼーションエラーレート(DER)を27%改善する。
これらの結果は, ASR 転写産物であっても, 単語誤り率を推定した ATC テストセットの ASR 転写産物を用いて評価した。 Automatic Speech Recognition (ASR) is gaining special interest in Air Traffic Control (ATC). ASR allows transcribing the communications between air traffic controllers (ATCOs) and pilots. These transcriptions are used to extract ATC command types and named entities such as aircraft callsigns. One common problem is when the Speech Activity Detection (SAD) or diarization system fails and then two or more single speaker segments are in the same recording, jeopardizing the overall system's performance. We developed a system that combines the segmentation of a SAD module with a BERT-based model that performs Speaker Change Detection (SCD) and Speaker Role Identification (SRI) based on ASR transcripts (i.e., diarization + SRI). This research demonstrates on a real-life ATC test set that performing diarization directly on textual data surpass acoustic level diarization. The proposed model reaches up to ~0.90/~0.95 F1-score on ATCO/pilot for SRI on several test sets. The text-based diarization system brings a 27% relative improvement on Diarization Error Rate (DER) compared to standard acoustic-based diarization. These results were on ASR transcripts of a challenging ATC test set with an estimated ~13% word error rate, validating the approach's robustness even on noisy ASR transcripts. | 翻訳日:2021-10-13 13:05:56 公開日:2021-10-12 |
# 熟考過程における機械翻訳を用いた抽象要約モデルの評価 Evaluation of Abstractive Summarisation Models with Machine Translation in Deliberative Processes ( http://arxiv.org/abs/2110.05847v1 ) ライセンス: Link先を確認 | M. Arana-Catania, Rob Procter, Yulan He, Maria Liakata | (参考訳) 本稿では,非英語言語の熟考過程を要約する。
ニュース記事などの一般的な研究データセットとは異なり、この検討データセットは、主に文法的品質の悪い複数の物語を単一のテキストで組み合わせることの難しさを反映している。
本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。
テキストは英語に翻訳され、要約され、元の言語に翻訳される。
我々は,生成した要約の流動性,一貫性,妥当性について有望な結果を得る。
我々のアプローチは、単に翻訳モデルを変更するだけで、生産目的のために多くの言語の実装が容易です。 We present work on summarising deliberative processes for non-English languages. Unlike commonly studied datasets, such as news articles, this deliberation dataset reflects difficulties of combining multiple narratives, mostly of poor grammatical quality, in a single text. We report an extensive evaluation of a wide range of abstractive summarisation models in combination with an off-the-shelf machine translation model. Texts are translated into English, summarised, and translated back to the original language. We obtain promising results regarding the fluency, consistency and relevance of the summaries produced. Our approach is easy to implement for many languages for production purposes by simply changing the translation model. | 翻訳日:2021-10-13 13:05:32 公開日:2021-10-12 |
# 分散一般サムマルコフゲームにおける効果的な強化学習 Provably Efficient Reinforcement Learning in Decentralized General-Sum Markov Games ( http://arxiv.org/abs/2110.05682v1 ) ライセンス: Link先を確認 | Weichao Mao, Tamer Ba\c{s}ar | (参考訳) 本稿では,分散マルチエージェント強化学習による一般サムマルコフゲームにおける平衡学習の効率化について述べる。
ナッシュ均衡(NE)を計算することの根本的な困難さを考えると、我々はエージェントの戦略間の相関を許容することによってNEを一般化するソリューション概念である粗相関平衡(CCE)を見つけることを目指している。
本稿では,各エージェントが楽観的v-learning(q-learningの変種)を独立に実行して未知環境を効率的に探索するアルゴリズムを提案する。
エージェントは$\epsilon$-approximate CCEを最大$\widetilde{O}(H^6S A /\epsilon^2)$のエピソードで見つけることができる。
これは一般的な一般のマルコフゲームで学ぶための最初のサンプル複雑性の結果である。
本研究は, 動的学習率と重み付き後悔を伴うOMDに対して, 常に高い確率の後悔が伴うことを新たな研究に頼っている。
アルゴリズムの重要な特徴の1つは、各エージェントがローカル情報のみにアクセスでき、他のエージェントの存在を全く無視できるという意味で、完全に\emph{decentralized} であることである。
このようにして、我々のアルゴリズムは任意の数のエージェントに容易にスケールアップできるが、エージェント数への指数的な依存に悩まされることはない。 This paper addresses the problem of learning an equilibrium efficiently in general-sum Markov games through decentralized multi-agent reinforcement learning. Given the fundamental difficulty of calculating a Nash equilibrium (NE), we instead aim at finding a coarse correlated equilibrium (CCE), a solution concept that generalizes NE by allowing possible correlations among the agents' strategies. We propose an algorithm in which each agent independently runs optimistic V-learning (a variant of Q-learning) to efficiently explore the unknown environment, while using a stabilized online mirror descent (OMD) subroutine for policy updates. We show that the agents can find an $\epsilon$-approximate CCE in at most $\widetilde{O}( H^6S A /\epsilon^2)$ episodes, where $S$ is the number of states, $A$ is the size of the largest individual action space, and $H$ is the length of an episode. This appears to be the first sample complexity result for learning in generic general-sum Markov games. Our results rely on a novel investigation of an anytime high-probability regret bound for OMD with a dynamic learning rate and weighted regret, which would be of independent interest. One key feature of our algorithm is that it is fully \emph{decentralized}, in the sense that each agent has access to only its local information, and is completely oblivious to the presence of others. This way, our algorithm can readily scale up to an arbitrary number of agents, without suffering from the exponential dependence on the number of agents. | 翻訳日:2021-10-13 13:05:09 公開日:2021-10-12 |
# 探索型分散協調型マルチエージェント強化学習 Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration ( http://arxiv.org/abs/2110.05707v1 ) ライセンス: Link先を確認 | Weichao Mao, Tamer Ba\c{s}ar, Lin F. Yang, Kaiqing Zhang | (参考訳) マルチエージェント強化学習(RL)の現実的な応用は、マルチロボットナビゲーションやサイバー物理システムの分散制御などであり、エージェントが連携する目的を持ったチームとして協力することを含んでいる。
協力エージェントが共通の報酬を共有するマルコフゲームのクラスであるマルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェントRLを研究する。
本稿では,各エージェントが段階ベースのv-learning(q-learningスタイルアルゴリズム)を独立に実行して未知環境を効率的に探索し,確率勾配降下(sgd)サブルーチンを用いてポリシー更新を行うアルゴリズムを提案する。
エージェントは最大$\propto\widetilde{o}(1/\epsilon^4)$のエピソードで$\epsilon$-approximate nash平衡ポリシーを学ぶことができる。
本研究は,ステージワイドな静止環境を構築するための新しいV-ラーニング手法を提案する。
また、ある平滑性仮定の下では、我々のアルゴリズムがほぼ \emph{team-optimal} nash平衡を達成できることを示した。
シミュレーション結果は理論的な結果と相関する。
アルゴリズムの重要な特徴の1つは、各エージェントが状態とそのローカルアクションのみにアクセスでき、他のエージェントの存在に対しても \emph{oblivious} であるという意味での \emph{decentralized} である。
学習中、チームメイト間のコミュニケーションや中央コントローラによるコーディネーションは必要とされない。
したがって,本アルゴリズムはエージェント数に指数関数的依存を伴わずに,任意のエージェント数に容易に一般化することができる。 Many real-world applications of multi-agent reinforcement learning (RL), such as multi-robot navigation and decentralized control of cyber-physical systems, involve the cooperation of agents as a team with aligned objectives. We study multi-agent RL in the most basic cooperative setting -- Markov teams -- a class of Markov games where the cooperating agents share a common reward. We propose an algorithm in which each agent independently runs stage-based V-learning (a Q-learning style algorithm) to efficiently explore the unknown environment, while using a stochastic gradient descent (SGD) subroutine for policy updates. We show that the agents can learn an $\epsilon$-approximate Nash equilibrium policy in at most $\propto\widetilde{O}(1/\epsilon^4)$ episodes. Our results advocate the use of a novel \emph{stage-based} V-learning approach to create a stage-wise stationary environment. We also show that under certain smoothness assumptions of the team, our algorithm can achieve a nearly \emph{team-optimal} Nash equilibrium. Simulation results corroborate our theoretical findings. One key feature of our algorithm is being \emph{decentralized}, in the sense that each agent has access to only the state and its local actions, and is even \emph{oblivious} to the presence of the other agents. Neither communication among teammates nor coordination by a central controller is required during learning. Hence, our algorithm can readily generalize to an arbitrary number of agents, without suffering from the exponential dependence on the number of agents. | 翻訳日:2021-10-13 13:04:39 公開日:2021-10-12 |
# 高速RF信号サーベイランスのためのゼロバイアスディープニューラルネットワーク Zero-bias Deep Neural Network for Quickest RF Signal Surveillance ( http://arxiv.org/abs/2110.05797v1 ) ライセンス: Link先を確認 | Yongxin Liu, Yingjie Chen, Jian Wang, Shuteng Niu, Dahai Liu, Houbing Song | (参考訳) モノのインターネット(IoT)は、十分な数のRFデバイスがRFチャネルを介して情報を接続し、共有できるようにすることによって、現代社会を再構築している。
しかし、そのようなオープンな性質は監視に障害をもたらす。
緩和のために、監視神託または認知コミュニケーション実体は、既知の信号源または未知の信号源の出現をリアルタイムに識別し確認する必要がある。
本稿では,rf信号監視のための深層学習フレームワークを提案する。
具体的には、Deep Neural Networks(DNN)とQuickest Detection(QD)を統合して、シーケンシャルな信号監視スキームを形成する。
まず、ニューラルネットワーク分類モデルの潜時空間特性を分析し、DNN分類器の応答特性を活用し、既存のDNN分類器を性能保証バイナリ異常検出器に変換する新しい手法を提案する。
このようにして、DNNをパラメトリック・クイック検出とシームレスに統合する。
最後に,信号監視システムにおけるdnnの数値的安定性が向上した拡張弾性重み統合 (ewc) アルゴリズムを提案し,ゼロバイアスdnnが,インクリメンタル学習と意思決定の公平性を考慮した正規dnnモデルよりも優れていることを示す。
提案フレームワークを実信号データセットを用いて評価し,信頼性の高いiotエコシステムの開発に有用であると考えている。 The Internet of Things (IoT) is reshaping modern society by allowing a decent number of RF devices to connect and share information through RF channels. However, such an open nature also brings obstacles to surveillance. For alleviation, a surveillance oracle, or a cognitive communication entity needs to identify and confirm the appearance of known or unknown signal sources in real-time. In this paper, we provide a deep learning framework for RF signal surveillance. Specifically, we jointly integrate the Deep Neural Networks (DNNs) and Quickest Detection (QD) to form a sequential signal surveillance scheme. We first analyze the latent space characteristic of neural network classification models, and then we leverage the response characteristics of DNN classifiers and propose a novel method to transform existing DNN classifiers into performance-assured binary abnormality detectors. In this way, we seamlessly integrate the DNNs with the parametric quickest detection. Finally, we propose an enhanced Elastic Weight Consolidation (EWC) algorithm with better numerical stability for DNNs in signal surveillance systems to evolve incrementally, we demonstrate that the zero-bias DNN is superior to regular DNN models considering incremental learning and decision fairness. We evaluated the proposed framework using real signal datasets and we believe this framework is helpful in developing a trustworthy IoT ecosystem. | 翻訳日:2021-10-13 13:04:11 公開日:2021-10-12 |
# (参考訳) 骨格型マルチモデルアンサンブルによる手話認識 Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble ( http://arxiv.org/abs/2110.06161v1 ) ライセンス: CC BY 4.0 | Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu | (参考訳) 手話は通常、聴覚障害者やミュート人のコミュニケーションに使用されるが、マスターするには多大な労力を要する。
通常、手の動きが速くて繊細な動き、身体の姿勢、さらには表情で演奏される。
現在の手話認識(SLR)法は通常、ディープニューラルネットワークを介して特徴を抽出し、限られたノイズの多いデータのために過度に適合する。
近年,手指アノテーションの欠如によりスケルトンベースslrが探究中であるのに対し,スケルトンベースの行動認識が注目されている。
一部の研究者は、オフラインのハンドポーズトラッカーを使用して、ハンドキーポイントを取得し、リカレントニューラルネットワークによる手話認識を支援しようと試みている。
しかし、いずれもRGBベースのアプローチより優れているものはない。
そこで本研究では,孤立型slr(sam-slr-v2)のためのグローバルアンサンブルモデル(gem)を用いた新しい骨格認識型マルチモーダルフレームワークを提案する。
具体的には,スケルトンキーポイントの埋め込み力学をモデル化する手話グラフ畳み込みネットワーク (SL-GCN) と,スケルトンの特徴を活かした分離型空間時間畳み込みネットワーク (SSTCN) を提案する。
骨格に基づく予測は他のRGBや深度に基づくモダリティと融合し、グローバル情報を提供し、忠実なSLR予測を行う。
3つの独立したSLRデータセットを用いた実験により,提案したSAM-SLR-v2フレームワークは極めて有効であり,最先端の性能を著しく向上することを示した。
私たちのコードはhttps://github.com/jackyjsy/SAM-SLR-v2で公開されます。 Sign language is commonly used by deaf or mute people to communicate but requires extensive effort to master. It is usually performed with the fast yet delicate movement of hand gestures, body posture, and even facial expressions. Current Sign Language Recognition (SLR) methods usually extract features via deep neural networks and suffer overfitting due to limited and noisy data. Recently, skeleton-based action recognition has attracted increasing attention due to its subject-invariant and background-invariant nature, whereas skeleton-based SLR is still under exploration due to the lack of hand annotations. Some researchers have tried to use off-line hand pose trackers to obtain hand keypoints and aid in recognizing sign language via recurrent neural networks. Nevertheless, none of them outperforms RGB-based approaches yet. To this end, we propose a novel Skeleton Aware Multi-modal Framework with a Global Ensemble Model (GEM) for isolated SLR (SAM-SLR-v2) to learn and fuse multi-modal feature representations towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics of skeleton keypoints and a Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. The skeleton-based predictions are fused with other RGB and depth based modalities by the proposed late-fusion GEM to provide global information and make a faithful SLR prediction. Experiments on three isolated SLR datasets demonstrate that our proposed SAM-SLR-v2 framework is exceedingly effective and achieves state-of-the-art performance with significant margins. Our code will be available at https://github.com/jackyjsy/SAM-SLR-v2 | 翻訳日:2021-10-13 13:02:01 公開日:2021-10-12 |
# 時間的言語接地のための関係認識ビデオ読解 Relation-aware Video Reading Comprehension for Temporal Language Grounding ( http://arxiv.org/abs/2110.05717v1 ) ライセンス: Link先を確認 | Jialin Gao, Xin Sun, Mengmeng Xu, Xi Zhou and Bernard Ghanem | (参考訳) ビデオにおける時間言語グラウンドニングは、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
以前の方法は、境界回帰タスクまたはスパン抽出タスクとして扱う。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
このフレームワークは、粗い選択-クエリ相互作用と選択-選択関係構築の助けを借りて、予め定義された回答セットからビデオモーメント選択を選択することを目的としている。
文-モーメントレベルとトークン-モーメントレベルで同時に視覚情報とテキスト情報とを一致させるために,選択クエリの対話器を提案する。
さらに、グラフ畳み込みを利用して最適な選択選択のためにビデオモーメント選択間の依存関係をキャプチャすることにより、新しいマルチチョース関係コンストラクタを導入する。
ActivityNet-Captions, TACoS, Charades-STAの大規模な実験により, 本ソリューションの有効性が示された。
コードはまもなくリリースされる予定だ。 Temporal language grounding in videos aims to localize the temporal span relevant to the given query sentence. Previous methods treat it either as a boundary regression task or a span extraction task. This paper will formulate temporal language grounding into video reading comprehension and propose a Relation-aware Network (RaNet) to address it. This framework aims to select a video moment choice from the predefined answer set with the aid of coarse-and-fine choice-query interaction and choice-choice relation construction. A choice-query interactor is proposed to match the visual and textual information simultaneously in sentence-moment and token-moment levels, leading to a coarse-and-fine cross-modal interaction. Moreover, a novel multi-choice relation constructor is introduced by leveraging graph convolution to capture the dependencies among video moment choices for the best choice selection. Extensive experiments on ActivityNet-Captions, TACoS, and Charades-STA demonstrate the effectiveness of our solution. Codes will be released soon. | 翻訳日:2021-10-13 12:35:51 公開日:2021-10-12 |
# AVoE:人工認知への期待の振動を理解するための合成3Dデータセット AVoE: A Synthetic 3D Dataset on Understanding Violation of Expectation for Artificial Cognition ( http://arxiv.org/abs/2110.05836v1 ) ライセンス: Link先を確認 | Arijit Dasgupta, Jiafei Duan, Marcelo H. Ang Jr, Cheston Tan | (参考訳) 認知的推論とコンピュータビジョンの最近の研究は、合成データセットにおけるVoE(Violation-of-Expectation)パラダイムの人気を高めている。
幼児心理学の研究に触発されて、研究者はモデルが予想された場面と驚きの場面を区別できる能力を、その推論能力の兆候として評価し始めた。
物理推論における既存のVoEベースの3Dデータセットは、視覚データのみを提供する。
しかし、現在の心理学者による身体的推論の認知モデルでは、幼児は物体と相互作用の高度な抽象的な表現を作り出す。
AVoEは、物理推論の5つの事象カテゴリに対して、複数の新しいサブカテゴリからの刺激を提示する合成3D VoEベースのデータセットである。
既存の仕事と比較すると、avoeはビジョンデータに付加された抽象的特徴と規則の接地的ラベルで武装しており、物理的な推論タスクにおける高いレベルの象徴的予測への道を開く。 Recent work in cognitive reasoning and computer vision has engendered an increasing popularity for the Violation-of-Expectation (VoE) paradigm in synthetic datasets. Inspired by work in infant psychology, researchers have started evaluating a model's ability to discriminate between expected and surprising scenes as a sign of its reasoning ability. Existing VoE-based 3D datasets in physical reasoning only provide vision data. However, current cognitive models of physical reasoning by psychologists reveal infants create high-level abstract representations of objects and interactions. Capitalizing on this knowledge, we propose AVoE: a synthetic 3D VoE-based dataset that presents stimuli from multiple novel sub-categories for five event categories of physical reasoning. Compared to existing work, AVoE is armed with ground-truth labels of abstract features and rules augmented to vision data, paving the way for high-level symbolic predictions in physical reasoning tasks. | 翻訳日:2021-10-13 12:35:33 公開日:2021-10-12 |
# ニューラルネーム付きエンティティ認識のためのデータ適応手法の検討 Investigation on Data Adaptation Techniques for Neural Named Entity Recognition ( http://arxiv.org/abs/2110.05892v1 ) ライセンス: Link先を確認 | Evgeniia Tokarchuk, David Thulke, Weiyue Wang, Christian Dugast, Hermann Ney | (参考訳) データ処理は、自然言語処理タスクにおいて重要なステップである。
名前付きエンティティ認識でよく使われるデータセットは限られた数のサンプルしか含まないため、効率的かつ信頼性の高いラベル付きデータを取得することが重要である。
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータ(データ拡張)から合成データを作成することである。
本研究では,これらの2つの手法が3つの異なるエンティティ認識タスクの性能に与える影響について検討する。 Data processing is an important step in various natural language processing tasks. As the commonly used datasets in named entity recognition contain only a limited number of samples, it is important to obtain additional labeled data in an efficient and reliable manner. A common practice is to utilize large monolingual unlabeled corpora. Another popular technique is to create synthetic data from the original labeled data (data augmentation). In this work, we investigate the impact of these two methods on the performance of three different named entity recognition tasks. | 翻訳日:2021-10-13 12:35:18 公開日:2021-10-12 |
# (参考訳) mention memory: entity mention attentionによるトランスフォーマーへのテキスト知識の導入 Mention Memory: incorporating textual knowledge into Transformers through entity mention attention ( http://arxiv.org/abs/2110.06176v1 ) ライセンス: CC BY 4.0 | Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Fei Sha, William Cohen | (参考訳) オープンドメイン質問応答のような自然言語理解タスクは、複数の情報源から事実情報を検索し、同化する必要があることが多い。
本稿では,大文字コーパスの半パラメトリック表現を事実知識の源としてトランスフォーマーモデルに統合することで,この問題に対処することを提案する。
具体的には、コーパスに言及されるすべてのエンティティの密接なベクトル表現の表である「メンションメモリ」を用いて知識を表現する。
提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。
このアプローチは、単一のトランスフォーマモデル内で、多くの異なる情報ソースの合成と推論を可能にする。
ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで強力なパフォーマンスを達成している。
また、モデルが直接の監督なしに情報的言及に出席することを学ぶことを示す。
最後に、再学習せずにメモリを更新することで、モデルが新しい未知のエンティティに一般化できることを実証する。 Natural language understanding tasks such as open-domain question answering often require retrieving and assimilating factual information from multiple sources. We propose to address this problem by integrating a semi-parametric representation of a large text corpus into a Transformer model as a source of factual knowledge. Specifically, our method represents knowledge with `mention memory', a table of dense vector representations of every entity mention in a corpus. The proposed model - TOME - is a Transformer that accesses the information through internal memory layers in which each entity mention in the input passage attends to the mention memory. This approach enables synthesis of and reasoning over many disparate sources of information within a single Transformer model. In experiments using a memory of 150 million Wikipedia mentions, TOME achieves strong performance on several open-domain knowledge-intensive tasks, including the claim verification benchmarks HoVer and FEVER and several entity-based QA benchmarks. We also show that the model learns to attend to informative mentions without any direct supervision. Finally we demonstrate that the model can generalize to new unseen entities by updating the memory without retraining. | 翻訳日:2021-10-13 12:32:24 公開日:2021-10-12 |
# マルチタスク学習における平均値と最悪値のバランス Balancing Average and Worst-case Accuracy in Multitask Learning ( http://arxiv.org/abs/2110.05838v1 ) ライセンス: Link先を確認 | Paul Michel and Sebastian Ruder and Dani Yogatama | (参考訳) 機械学習モデルを多数のタスクでトレーニングし評価する場合、平均的なタスク精度(これは簡単なタスクや冗長なタスクに偏っている可能性がある)だけでなく、最悪のケースの精度(つまり、タスクのパフォーマンスが最低の精度で)を見ることが重要です。
本研究では、分散ロバスト最適化(DRO)の手法を用いて、マルチタスク学習における最悪の性能を改善する方法について述べる。
そこで本研究では,DROの故障事例をいくつか取り上げ,改良されたLookahead-DRO(L-DRO)を提案する。
L-DROの中核となる考え方は、様々なタスク損失の動的再重み付けを選択するために、トレーニング中のタスク間の相互作用を予測することである。
i)最小限の最悪の損失につながる
(ii)できるだけ多くの仕事をこなす。
CIFAR-100画像分類データセットのマルチタスクバージョンと大規模多言語言語モデリング実験の2つの現実的なベンチマークでL-DROの有効性を実証した。
実験の結果,L-DROは計算オーバーヘッドが少なく,平均値と最悪の値とのトレードオフが良好であることがわかった。 When training and evaluating machine learning models on a large number of tasks, it is important to not only look at average task accuracy -- which may be biased by easy or redundant tasks -- but also worst-case accuracy (i.e. the performance on the task with the lowest accuracy). In this work, we show how to use techniques from the distributionally robust optimization (DRO) literature to improve worst-case performance in multitask learning. We highlight several failure cases of DRO when applied off-the-shelf and present an improved method, Lookahead-DRO (L-DRO), which mitigates these issues. The core idea of L-DRO is to anticipate the interaction between tasks during training in order to choose a dynamic re-weighting of the various task losses, which will (i) lead to minimal worst-case loss and (ii) train on as many tasks as possible. After demonstrating the efficacy of L-DRO on a small controlled synthetic setting, we evaluate it on two realistic benchmarks: a multitask version of the CIFAR-100 image classification dataset and a large-scale multilingual language modeling experiment. Our empirical results show that L-DRO achieves a better trade-off between average and worst-case accuracy with little computational overhead compared to several strong baselines. | 翻訳日:2021-10-13 12:16:15 公開日:2021-10-12 |
# 不確実性に基づく分布外検出には適切な関数空間の優先順位を必要とする Uncertainty-based out-of-distribution detection requires suitable function space priors ( http://arxiv.org/abs/2110.06020v1 ) ライセンス: Link先を確認 | Francesco D'Angelo and Christian Henning | (参考訳) 不慣れなデータに対する確実な予測を避ける必要性が、アウト・オブ・ディストリビューション(OOD)検出への関心を喚起した。
ベイズニューラルネットワーク(BNN)はこの課題に適していると広く考えられている。
本稿では,この仮定に疑問を呈し,ニューラルネットワークによって引き起こされる関数空間優先性を持つ固有ベイズ推定が必ずしも良いood検出につながるとは限らないことを示す。
近似推論の使用を回避するために、ベイズ推論がガウス過程との対応により正確である無限幅の場合を研究することから始める。
興味深いことに、共通のアーキテクチャ選択の下で誘導されるカーネルは、基盤となるデータ生成プロセスを反映せず、従ってOOD検出には適さない不確実性をもたらす。
重要なことに、このOODの挙動は対応する有限幅ネットワークと一致している。
所望の関数空間特性は事前の重み空間にエンコードできるが、現在はドメインの特定のサブセットにのみ適用されるため、本質的にはoodデータには拡張されない。
最後に、一般化とOOD能力のトレードオフが、実際には望ましくないOOD検出のためのBNNの適用をもたらす可能性があると論じる。
本研究は,OOD検出にBNNを用いた場合の基本的問題点を明らかにし,今後の研究に興味深い道を開く。 The need to avoid confident predictions on unfamiliar data has sparked interest in out-of-distribution (OOD) detection. It is widely assumed that Bayesian neural networks (BNNs) are well suited for this task, as the endowed epistemic uncertainty should lead to disagreement in predictions on outliers. In this paper, we question this assumption and show that proper Bayesian inference with function space priors induced by neural networks does not necessarily lead to good OOD detection. To circumvent the use of approximate inference, we start by studying the infinite-width case, where Bayesian inference can be exact due to the correspondence with Gaussian processes. Strikingly, the kernels induced under common architectural choices lead to uncertainties that do not reflect the underlying data generating process and are therefore unsuited for OOD detection. Importantly, we find this OOD behavior to be consistent with the corresponding finite-width networks. Desirable function space properties can be encoded in the prior in weight space, however, this currently only applies to a specified subset of the domain and thus does not inherently extend to OOD data. Finally, we argue that a trade-off between generalization and OOD capabilities might render the application of BNNs for OOD detection undesirable in practice. Overall, our study discloses fundamental problems when naively using BNNs for OOD detection and opens interesting avenues for future research. | 翻訳日:2021-10-13 12:15:53 公開日:2021-10-12 |
# 自明か不可能か -- dichotomous data difficulty masks model differences (imagenet と beyond) Trivial or impossible -- dichotomous data difficulty masks model differences (on ImageNet and beyond) ( http://arxiv.org/abs/2110.05922v1 ) ライセンス: Link先を確認 | Kristof Meding, Luca M. Schulze Buschoff, Robert Geirhos, Felix A. Wichmann | (参考訳) 「一般化システムの力はそのバイアスから直接従う」(Mitchell 1980)。
しかし、その帰納的バイアスがモデル決定にどのように影響するかは、どの程度理解されていますか?
ここでは、モデルがどのように決定するかを決定する様々な側面を切り離そうとします。
特に、あるモデルが他のモデルと異なる決定をする理由を尋ねます。
厳密に制御された設定では、(1.)ネットワークアーキテクチャや目的(例えば、自己監督型、半教師型、ビジョントランスフォーマー、反復型モデル)に関係なく、全てのモデルが同様の決定境界に達する。
(2.)
これらの知見を理解するために,imagenetバリデーションセットのモデル決定をエポックからエポック,イメージごとに分析した。
ImageNetバリデーションセットは、特に2コマトクスデータ困難(DDD)に悩まされている。 調査対象のモデルの範囲とその精度については、46.0%の「自明」イメージと11.5%の「不可能」イメージ(ラベルエラーに加えて)で支配されている。
画像の42.5%だけが2つのモデルの決定境界の違いの原因となる可能性がある。
(3.)
不可能な"イメージと"自明な"イメージを削除するだけで、モデルの明確な違いが分かるのです。
(4.)
人間はCNN(81.4%)のどの画像が「自明」で「不可能」かを正確に予測できる。
これは、将来の脳、機械、行動の比較において、画像の決定的な役割とそれらの困難の分布についての調査から多くを得る可能性があることを意味する。 "The power of a generalization system follows directly from its biases" (Mitchell 1980). Today, CNNs are incredibly powerful generalisation systems -- but to what degree have we understood how their inductive bias influences model decisions? We here attempt to disentangle the various aspects that determine how a model decides. In particular, we ask: what makes one model decide differently from another? In a meticulously controlled setting, we find that (1.) irrespective of the network architecture or objective (e.g. self-supervised, semi-supervised, vision transformers, recurrent models) all models end up with a similar decision boundary. (2.) To understand these findings, we analysed model decisions on the ImageNet validation set from epoch to epoch and image by image. We find that the ImageNet validation set, among others, suffers from dichotomous data difficulty (DDD): For the range of investigated models and their accuracies, it is dominated by 46.0% "trivial" and 11.5% "impossible" images (beyond label errors). Only 42.5% of the images could possibly be responsible for the differences between two models' decision boundaries. (3.) Only removing the "impossible" and "trivial" images allows us to see pronounced differences between models. (4.) Humans are highly accurate at predicting which images are "trivial" and "impossible" for CNNs (81.4%). This implies that in future comparisons of brains, machines and behaviour, much may be gained from investigating the decisive role of images and the distribution of their difficulties. | 翻訳日:2021-10-13 12:15:29 公開日:2021-10-12 |
# (参考訳) 少数ショット画像分類のためのプロトタイプ分類器について A Closer Look at Prototype Classifier for Few-shot Image Classification ( http://arxiv.org/abs/2110.05076v2 ) ライセンス: CC BY-SA 4.0 | Mingcheng Hou and Issei Sato | (参考訳) prototypical networkはメタラーニングに基づくプロトタイプ分類器であり、メタテスト中にハイパーパラメータを調整せずにクラス固有のプロトタイプを構築して、見当たらない例を分類することで、少数の学習に広く使われている。
興味深いことに、近年の研究では、メタラーニングアルゴリズムを使用しない線形分類器が、原型ネットワークと互換性を持って動作していることが示されている。
しかし、微調整には、新しい環境にモデルを適用する際に追加のハイパーパラメータが必要である。
さらに、数少ない学習の目的はモデルが新しい環境に素早く適応できるようにすることであるが、新しいクラスが現れるたびに微調整を適用する必要があるため、迅速な適応が困難になる。
本稿では,プロトタイプ分類器が微調整やメタ学習を伴わずに等しく機能するかを解析する。
実験により, 標準事前学習モデルを用いて抽出された特徴ベクトルを直接使用して, メタテストにおけるプロトタイプ分類器は, 事前学習モデルの微調整と特徴ベクトルを用いた原型ネットワークや線形分類器と同様に機能しないことがわかった。
そこで,本論文では,特徴ベクトルのノルムの分散に着目することで,性能を向上させることができることを示す。
ノルムの分散を最小化するためのいくつかの正規化法を実験的に検討し、l2正規化と埋め込み空間変換を用いて、微調整やメタラーニングを行わずに同じ性能が得られることを見出した。 The prototypical network is a prototype classifier based on meta-learning and is widely used for few-shot learning because it classifies unseen examples by constructing class-specific prototypes without adjusting hyper-parameters during meta-testing. Interestingly, recent research has attracted a lot of attention, showing that a linear classifier with fine-tuning, which does not use a meta-learning algorithm, performs comparably with the prototypical network. However, fine-tuning requires additional hyper-parameters when adapting a model to a new environment. In addition, although the purpose of few-shot learning is to enable the model to quickly adapt to a new environment, fine-tuning needs to be applied every time a new class appears, making fast adaptation difficult. In this paper, we analyze how a prototype classifier works equally well without fine-tuning and meta-learning. We experimentally found that directly using the feature vector extracted using standard pre-trained models to construct a prototype classifier in meta-testing does not perform as well as the prototypical network and linear classifiers with fine-tuning and feature vectors of pre-trained models. Thus, we derive a novel generalization bound for the prototypical network and show that focusing on the variance of the norm of a feature vector can improve performance. We experimentally investigated several normalization methods for minimizing the variance of the norm and found that the same performance can be obtained by using the L2 normalization and embedding space transformation without fine-tuning or meta-learning. | 翻訳日:2021-10-13 12:13:08 公開日:2021-10-12 |
# (参考訳) ViSeRet: 微細なビデオセグメンテーションによるモーメント検索へのシンプルかつ効果的なアプローチ ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation ( http://arxiv.org/abs/2110.05146v2 ) ライセンス: CC BY 4.0 | Aiden Seungjoon Lee, Hanseok Oh, Minjoon Seo | (参考訳) ビデオテキスト検索には、メディア分析、監視、ロボット工学など、多くの現実世界のアプリケーションがある。
本稿では,ICCV VALUE Challenge 2021のビデオ検索における第1位ソリューションを提案する。
本稿では,2つのビデオテキスト検索タスク(ビデオ検索とビデオコーパスモーメント検索)に,ビデオ検索タスクにのみ訓練されたモデルを活用することで,シンプルかつ効果的なアプローチを提案する。
さらに,VALUE Challengeで提示された4つのデータセット(TVr, How2r, YouCook2r, VATEXr)に対して,新しい最先端のパフォーマンスを実現するアンサンブルモデルを作成する。 Video-text retrieval has many real-world applications such as media analytics, surveillance, and robotics. This paper presents the 1st place solution to the video retrieval track of the ICCV VALUE Challenge 2021. We present a simple yet effective approach to jointly tackle two video-text retrieval tasks (video retrieval and video corpus moment retrieval) by leveraging the model trained only on the video retrieval task. In addition, we create an ensemble model that achieves the new state-of-the-art performance on all four datasets (TVr, How2r, YouCook2r, and VATEXr) presented in the VALUE Challenge. | 翻訳日:2021-10-13 11:47:54 公開日:2021-10-12 |
# (参考訳) 神経算術論理モジュールを用いた学習分割 Learning Division with Neural Arithmetic Logic Modules ( http://arxiv.org/abs/2110.05177v2 ) ライセンス: CC BY 4.0 | Bhumika Mistry, Katayoun Farrahi, Jonathon Hare | (参考訳) 体系的な一般化を実現するために、まず算術のような単純なタスクを習得することが合理的である。
4つの基本的な算術演算(+,-,$\times$,$\div$)のうち、分割は人間とコンピュータの両方にとって最も難しいと考えられている。
本稿では、2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。
本稿では,NRU(Neural Reciprocal Unit)とNMRU(Neural Multiplicative Reciprocal Unit)の2つの新しい手法を提案し,既存の分割モジュールであるReal Neural Power Unit(Real NPU)の改良を提案する。
225の異なるトレーニングセットに入力冗長性を持つ学習分割の実験では、提案する実 npu への修正により、オリジナルよりも平均で 85.3$\%$ 改善が15.1$\% 向上することがわかった。
上記の提案を踏まえて、NMRUアプローチは、さらなる成功を91.6$\%$に向上させることができる。 To achieve systematic generalisation, it first makes sense to master simple tasks such as arithmetic. Of the four fundamental arithmetic operations (+,-,$\times$,$\div$), division is considered the most difficult for both humans and computers. In this paper we show that robustly learning division in a systematic manner remains a challenge even at the simplest level of dividing two numbers. We propose two novel approaches for division which we call the Neural Reciprocal Unit (NRU) and the Neural Multiplicative Reciprocal Unit (NMRU), and present improvements for an existing division module, the Real Neural Power Unit (Real NPU). Experiments in learning division with input redundancy on 225 different training sets, find that our proposed modifications to the Real NPU obtains an average success of 85.3$\%$ improving over the original by 15.1$\%$. In light of the suggestion above, our NMRU approach can further improve the success to 91.6$\%$. | 翻訳日:2021-10-13 11:39:10 公開日:2021-10-12 |
# Yuan 1.0: ゼロショット学習における大規模事前学習型言語モデル Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning ( http://arxiv.org/abs/2110.04725v2 ) ライセンス: Link先を確認 | Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo Zhang, Chong Shen, Hongli Liu, Feng Li, Hong Zhu, Jiangang Luo, Liang Xu, Xuanwei Zhang | (参考訳) GPT-3のような最近の研究は、モデルサイズ、データセットサイズ、計算量をスケールアップすることで、多くの自然言語処理(NLP)タスクにおけるゼロショットとフューショット学習の優れたパフォーマンスを示した。
しかし、GPT-3のようなモデルのトレーニングには膨大な量の計算資源が必要であり、研究者にとって困難である。
本研究では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
この方法では、245Bパラメータを持つ現在の最大のシングルトン言語モデルであるYuan 1.0は、トレーニング中に数千のGPU上で優れたパフォーマンスを実現し、NLPタスクにおける最先端の結果を得る。
大量の原データを効率よくフィルタリングするデータ処理方法が設計されている。
5tbの高品質テキストを持つ現在最大の中国製コーパスは、この方法に基づいて構築されている。
また,Zero-ShotおよびFew-Shotの性能向上のためにキャリブレーション・ラベル展開法を提案し,各種タスクの精度を安定的に改善した。
yuan 1.0は自然言語生成の能力が高く、生成した記事は人間が書いたものと区別が難しい。 Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones. | 翻訳日:2021-10-13 10:45:24 公開日:2021-10-12 |
# 確率的エキスパートによる疎活性化変圧器のモデリング Taming Sparsely Activated Transformer with Stochastic Experts ( http://arxiv.org/abs/2110.04260v2 ) ライセンス: Link先を確認 | Simiao Zuo, Xiaodong Liu, Jian Jiao, Young Jin Kim, Hany Hassan, Ruofei Zhang, Tuo Zhao, Jianfeng Gao | (参考訳) Mixture-of-Experts (MoE) のようなスパースアクティベートモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
しかし、SAMはパラメータ非効率であると報告されており、大きなモデルが必ずしもより良いパフォーマンスをもたらすとは限らない。
現在進行中のほとんどの研究は、専門家に入力をルーティングする方法を探索することでSAMsモデルの改善に重点を置いているが、そのような研究は我々が期待する解決には至らないかもしれない。
本稿では,新たなエキスパートベースモデルであるthor(transformer with stochastic experts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングや推論中に各入力に対してランダムに活性化される。
thorモデルは一貫性のある正規化損失を用いてトレーニングされ、専門家はトレーニングデータからだけでなく、教師として他の専門家からも学び、すべての専門家が一貫した予測を行う。
機械翻訳作業におけるTHORの有効性を検証する。
その結果,THORモデルの方がパラメータ効率が良く,TransformerモデルやMoEモデルよりも優れていることがわかった。
例えば、多言語翻訳では、thorはスイッチトランスフォーマーを2 bleuスコアで上回り、最先端のmoeモデルの18倍の大きさのbleuスコアを得る。
私たちのコードは、https://github.com/microsoft/Stochastic-Mixture-of-Experts.comで公開されています。 Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported to be parameter inefficient such that larger models do not always lead to better performance. While most on-going research focuses on improving SAMs models by exploring methods of routing inputs to experts, our analysis reveals that such research might not lead to the solution we expect, i.e., the commonly-used routing methods based on gating mechanisms do not work better than randomly routing inputs to experts. In this paper, we propose a new expert-based model, THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models, such as the Switch Transformer, experts in THOR are randomly activated for each input during training and inference. THOR models are trained using a consistency regularized loss, where experts learn not only from training data but also from other experts as teachers, such that all the experts make consistent predictions. We validate the effectiveness of THOR on machine translation tasks. Results show that THOR models are more parameter efficient in that they significantly outperform the Transformer and MoE models across various settings. For example, in multilingual translation, THOR outperforms the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as that of a state-of-the-art MoE model that is 18 times larger. Our code is publicly available at: https://github.com/microsoft/Stochastic-Mixture-of-Experts. | 翻訳日:2021-10-13 10:45:03 公開日:2021-10-12 |
# マルチターン対話理解の進歩:サーベイ Advances in Multi-turn Dialogue Comprehension: A Survey ( http://arxiv.org/abs/2110.04984v2 ) ライセンス: Link先を確認 | Zhuosheng Zhang and Hai Zhao | (参考訳) 自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と不可欠なタスクである。
対話システムの多様性は、ディープラーニング技術、特に最近の事前学習言語モデル(PrLM)の急速な発展と共に設計されている。
これらの研究の中で、基本的な課題は対話理解であり、その役割は機械に応答する前に対話コンテキストを読み、理解させることである。
本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。
平文読解とは対照的に,対話理解の特徴と課題を要約する。
次に,対話モデリングの典型的な3つのパターンについて論じる。
さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。
最後に,近年の技術的進歩を浮き彫りにして,実証的分析から得た教訓と新たな研究のフロンティアへの展望を指摘する。 Training machines to understand natural language and interact with humans is an elusive and essential task of artificial intelligence. A diversity of dialogue systems has been designed with the rapid development of deep learning techniques, especially the recent pre-trained language models (PrLMs). Among these studies, the fundamental yet challenging type of task is dialogue comprehension whose role is to teach the machines to read and comprehend the dialogue context before responding. In this paper, we review the previous methods from the technical perspective of dialogue modeling for the dialogue comprehension task. We summarize the characteristics and challenges of dialogue comprehension in contrast to plain-text reading comprehension. Then, we discuss three typical patterns of dialogue modeling. In addition, we categorize dialogue-related pre-training techniques which are employed to enhance PrLMs in dialogue scenarios. Finally, we highlight the technical advances in recent years and point out the lessons from the empirical analysis and the prospects towards a new frontier of researches. | 翻訳日:2021-10-13 10:44:37 公開日:2021-10-12 |
# グラフニューラルネットワークによる巡回セールスパーソン問題の局所探索 Graph Neural Network Guided Local Search for the Traveling Salesperson Problem ( http://arxiv.org/abs/2110.05291v2 ) ライセンス: Link先を確認 | Benjamin Hudson and Qingbiao Li and Matthew Malencia and Amanda Prorok | (参考訳) トラベルセールスパーソン問題(tsp)の解決策は、輸送、物流、自動化のプロセスに実用的な応用があるが、基礎となるタスクのリアルタイム性を満たすために、最小限の遅延で計算する必要がある。
しかし、現在の近似アルゴリズムでは、ソリューションの品質を犠牲にすることなく、大規模なTSPインスタンスを迅速に解決することは困難である。
このギャップを埋めるために、グラフニューラルネットワーク(GNN)とガイドローカルサーチ(GLS)に基づくTSPを解くためのハイブリッドデータ駆動型アプローチを提案する。
我々のモデルは問題グラフの各エッジを解に含めることの後悔を予測し、GLSはこれらの予測を元の問題グラフと併用して解を見つける。
我々の実験は、この手法が最先端の学習ベースアプローチやTSPの非学習GLSアルゴリズムよりも速い速度で最適解に収束することを示し、特に50ノード問題セットの96%、次のベストベンチマークの7%、100ノード問題セットの20%、次のベストベンチマークの4.5倍の最適解を見出した。
20ノード問題から100ノード問題集合に一般化すると、平均最適性差2.5%の解が、次の最良の学習ベースのベンチマークよりも10倍向上する。 Solutions to the Traveling Salesperson Problem (TSP) have practical applications to processes in transportation, logistics, and automation, yet must be computed with minimal delay to satisfy the real-time nature of the underlying tasks. However, solving large TSP instances quickly without sacrificing solution quality remains challenging for current approximate algorithms. To close this gap, we present a hybrid data-driven approach for solving the TSP based on Graph Neural Networks (GNNs) and Guided Local Search (GLS). Our model predicts the regret of including each edge of the problem graph in the solution; GLS uses these predictions in conjunction with the original problem graph to find solutions. Our experiments demonstrate that this approach converges to optimal solutions at a faster rate than state-of-the-art learning-based approaches and non-learning GLS algorithms for the TSP, notably finding optimal solutions to 96% of the 50-node problem set, 7% more than the next best benchmark, and to 20% of the 100-node problem set, 4.5x more than the next best benchmark. When generalizing from 20-node problems to the 100-node problem set, our approach finds solutions with an average optimality gap of 2.5%, a 10x improvement over the next best learning-based benchmark. | 翻訳日:2021-10-13 10:44:25 公開日:2021-10-12 |
# マルチラベル画像認識のためのトランスフォーマーベースデュアルリレーショナルグラフ Transformer-based Dual Relation Graph for Multi-label Image Recognition ( http://arxiv.org/abs/2110.04722v2 ) ライセンス: Link先を確認 | Jiawei Zhao, Ke Yan, Yifan Zhao, Xiaowei Guo, Feiyue Huang, Jia Li | (参考訳) 1つの画像における複数のオブジェクトの同時認識は、様々なオブジェクトスケール、一貫性のない外観、混乱したクラス間の関係など、認識領域における複数のイベントにまたがる難しい課題である。
最近の研究は、不明瞭なセマンティクスを強化するために、統計ラベルの共起と言語単語の埋め込みを主に活用している。
本稿では,これらの研究と異なり,相関関係の2つの側面,すなわち構造関係グラフと意味関係グラフを探索して相補関係を構築する,新しいトランスフォーマベースの二重関係学習フレームワークを提案する。
構造関係グラフは、オブジェクトコンテキストから長距離相関を捉えることを目的として、クロススケールトランスフォーマーベースのアーキテクチャを開発する。
セマンティックグラフは、明示的なセマンティック・アウェア制約で画像オブジェクトの意味を動的にモデル化する。
さらに、学習した構造関係を意味グラフに組み込んで、堅牢な表現のための結合関係グラフを構築する。
これら2つの効果的な関係グラフの協調学習により,MS-COCOとVOC 2007データセットという2つの一般的なマルチラベル認識ベンチマーク上で,新たな最先端技術を実現する。 The simultaneous recognition of multiple objects in one image remains a challenging task, spanning multiple events in the recognition field such as various object scales, inconsistent appearances, and confused inter-class relationships. Recent research efforts mainly resort to the statistic label co-occurrences and linguistic word embedding to enhance the unclear semantics. Different from these researches, in this paper, we propose a novel Transformer-based Dual Relation learning framework, constructing complementary relationships by exploring two aspects of correlation, i.e., structural relation graph and semantic relation graph. The structural relation graph aims to capture long-range correlations from object context, by developing a cross-scale transformer-based architecture. The semantic graph dynamically models the semantic meanings of image objects with explicit semantic-aware constraints. In addition, we also incorporate the learnt structural relationship into the semantic graph, constructing a joint relation graph for robust representations. With the collaborative learning of these two effective relation graphs, our approach achieves new state-of-the-art on two popular multi-label recognition benchmarks, i.e., MS-COCO and VOC 2007 dataset. | 翻訳日:2021-10-13 10:41:59 公開日:2021-10-12 |
# BEV-Net: ソーシャル・ディスタンシング・コンプライアンスの評価 : 共同人物のローカライゼーションと幾何学的推論 BEV-Net: Assessing Social Distancing Compliance by Joint People Localization and Geometric Reasoning ( http://arxiv.org/abs/2110.04931v2 ) ライセンス: Link先を確認 | Zhirui Dai, Yuepeng Jiang, Yi Li, Bo Liu, Antoni B. Chan, Nuno Vasconcelos | (参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑えるため、公衆衛生に欠かせないソーシャルディスタンシングが注目されている。
本研究は,広い視野カメラを備えた多忙な公共空間におけるソーシャルディスタンス・コンプライアンス・アセスメントの問題点について考察する。
鳥眼図 (bev) 下での注釈付き群衆シーンのデータセットと距離計測のための地上真理を導入し, 社会的距離検出システムの評価のためのいくつかの尺度を提案する。
マルチブランチネットワークであるBEV-Netは、世界座標における個人をローカライズし、社会的距離違反のリスクの高い地域を特定する。
BEV-Netは、頭と足の位置の検出、カメラポーズ推定、画像のBEV座標へのマッピングのための相違可能なホモグラフィモジュール、および幾何学的推論を組み合わせて、シーン内の人々の位置のBEVマップを生成する。
複雑な混雑したシーンにおける実験は、アプローチのパワーを示し、文献の手法から派生したベースラインよりも優れたパフォーマンスを示す。
公衆衛生意思決定者への関心の応用について論じる。
データセット、コード、事前トレーニングされたモデルはgithubで公開されている。 Social distancing, an essential public health measure to limit the spread of contagious diseases, has gained significant attention since the outbreak of the COVID-19 pandemic. In this work, the problem of visual social distancing compliance assessment in busy public areas, with wide field-of-view cameras, is considered. A dataset of crowd scenes with people annotations under a bird's eye view (BEV) and ground truth for metric distances is introduced, and several measures for the evaluation of social distance detection systems are proposed. A multi-branch network, BEV-Net, is proposed to localize individuals in world coordinates and identify high-risk regions where social distancing is violated. BEV-Net combines detection of head and feet locations, camera pose estimation, a differentiable homography module to map image into BEV coordinates, and geometric reasoning to produce a BEV map of the people locations in the scene. Experiments on complex crowded scenes demonstrate the power of the approach and show superior performance over baselines derived from methods in the literature. Applications of interest for public health decision makers are finally discussed. Datasets, code and pretrained models are publicly available at GitHub. | 翻訳日:2021-10-13 10:41:37 公開日:2021-10-12 |
# 歌声合成におけるピッチ保存 Pitch Preservation In Singing Voice Synthesis ( http://arxiv.org/abs/2110.05033v2 ) ライセンス: Link先を確認 | Shujun Liu, Hai Zhu, Kun Wang, Huajun Wang | (参考訳) 歌唱音声コーパスの制限を受け、エンコーダ・デコーダ・ニューラルネットを構築して分光図を直接生成する既存の歌唱音声合成(SVS)手法は、推論フェーズ中に不規則な問題を引き起こす可能性がある。
そこで本研究では,音素と音素情報を楽譜から切り離してコーパスを完全に活用する,独立したピッチエンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
具体的には、等速理論により、ピッチエンコーダは、隣接する入力ピッチ間の距離をエンコーダ出力間の対応する周波数倍にマッピングするピッチメトリック損失によって制約される。
音素エンコーダは、異なるピッチに対応する同じ音素が類似の発音を生成することができるという分析に基づいて、異なるピッチを持つ同一音素を同じ音素特徴空間にマッピングする逆訓練されたピッチ分類器が続く。
これらの手段により、元の入力空間におけるスパース音素とピッチをそれぞれよりコンパクトな特徴空間に変換することができ、同じ要素が密集して相互に協調して合成品質を向上させることができる。
次に、2つのエンコーダの出力を合計して次のデコーダを音響モデルで通過させる。
実験の結果,提案手法はピッチ入力間の固有構造を特徴付け,ピッチ合成精度を向上し,ベースラインシステムに対する歌唱合成性能を向上できることがわかった。 Suffering from limited singing voice corpus, existing singing voice synthesis (SVS) methods that build encoder-decoder neural networks to directly generate spectrogram could lead to out-of-tune issues during the inference phase. To attenuate these issues, this paper presents a novel acoustic model with independent pitch encoder and phoneme encoder, which disentangles the phoneme and pitch information from music score to fully utilize the corpus. Specifically, according to equal temperament theory, the pitch encoder is constrained by a pitch metric loss that maps distances between adjacent input pitches into corresponding frequency multiples between the encoder outputs. For the phoneme encoder, based on the analysis that same phonemes corresponding to varying pitches can produce similar pronunciations, this encoder is followed by an adversarially trained pitch classifier to enforce the identical phonemes with different pitches mapping into the same phoneme feature space. By these means, the sparse phonemes and pitches in original input spaces can be transformed into more compact feature spaces respectively, where the same elements cluster closely and cooperate mutually to enhance synthesis quality. Then, the outputs of the two encoders are summed together to pass through the following decoder in the acoustic model. Experimental results indicate that the proposed approaches can characterize intrinsic structure between pitch inputs to obtain better pitch synthesis accuracy and achieve superior singing synthesis performance against the advanced baseline system. | 翻訳日:2021-10-13 10:41:15 公開日:2021-10-12 |
# 確率的勾配ランジュバンダイナミクスはディープラーニングに微分プライバシーをもたらすか? Can Stochastic Gradient Langevin Dynamics Provide Differential Privacy for Deep Learning? ( http://arxiv.org/abs/2110.05057v2 ) ライセンス: Link先を確認 | Guy Heller, Ethan Fetaya | (参考訳) Stochastic Gradient Langevin Dynamics (SGLD) によるベイズ学習は、異なる個人学習のために提案されている。
これまでの研究では、収束やアルゴリズムの初期段階に近づくと、sgldの差分プライバシ境界を提供するが、どの差分プライバシ保証が可能かという問題は未解決のままである。
この中間領域は特にベイズニューラルネットワークにとって不可欠であり、後部への収束を保証することは困難である。
本稿では,SGLDを使用すれば,後方からのサンプリングが所望の差分プライベートである場合でも,この中間領域のプライバシーを損なう可能性があることを示す。 Bayesian learning via Stochastic Gradient Langevin Dynamics (SGLD) has been suggested for differentially private learning. While previous research provides differential privacy bounds for SGLD when close to convergence or at the initial steps of the algorithm, the question of what differential privacy guarantees can be made in between remains unanswered. This interim region is essential, especially for Bayesian neural networks, as it is hard to guarantee convergence to the posterior. This paper will show that using SGLD might result in unbounded privacy loss for this interim region, even when sampling from the posterior is as differentially private as desired. | 翻訳日:2021-10-13 10:40:48 公開日:2021-10-12 |