このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210820となっている論文です。

PDF登録状況(公開日: 20210820)

TitleAuthorsAbstract論文公表日・翻訳日
# 中国のe-Romance:Alibabaのバレンタインデー購入額7.92億件の分析と可視化

Chinese E-Romance: Analyzing and Visualizing 7.92 Million Alibaba Valentine's Day Purchases ( http://arxiv.org/abs/2002.03060v6 )

ライセンス: Link先を確認
Yongzhen Wang, Xiaozhong Liu, Yingnan Ju, Katy B\"orner, Jun Lin, Changlong Sun, Luo Si(参考訳) バレンタインデーに先立つ日は、世界中の広範囲にわたるギフトショッピングが特徴である。 オンラインショッピングが盛んである中国では、近年バレンタインデーに電子商取引の売上が爆発的に伸びている。 本研究は,2019年バレンタインデーまでの2週間にわたって,各製品カテゴリと各買い物客グループが,中国のe-market内でロマンチックな愛を表現できる程度を調査したものである。 世界最大のeコマース小売業者であるAlibabaの膨大なデータは、革新的なロマンス指数(RI)を定式化し、商品や買い物客の電子ロマンティックな価値を定量的に測定するために利用されている。 バレンタインデーに何百万もの商品を購入した数百万人の買い物客は、彼らの愛の消費とロマンチックな贈り物を示すケーススタディとして分析される。 分析の結果は、異なる商品カテゴリーと買い物客グループの視点に基づいて、中国のe-romanceを理解するのに役立ちます。 この経験的情報可視化は、中国のバレンタインデーのセグメンテーション、ターゲティング、位置付けの改善にも貢献している。

The days that precede Valentine's Day are characterized by extensive gift shopping activities all across the globe. In China, where much shopping takes place online, there has been an explosive growth in e-commerce sales during Valentine's Day over the recent years. This exploratory study investigates the extent to which each product category and each shopper group can exhibit romantic love within China's e-market throughout the 2 weeks leading up to 2019 Valentine's Day. Massive data from Alibaba, the biggest e-commerce retailer worldwide, are utilized to formulate an innovative romance index (RI) to quantitatively measure e-romantic values for products and shoppers. On this basis, millions of shoppers, along with their millions of products purchased around Valentine's Day, are analyzed as a case study to demonstrate their love consumption and romantic gift-giving. The results of the analysis are then illustrated to help understand Chinese e-romance based on the perspectives of different product categories and shopper groups. This empirical information visualization also contributes to improving the segmentation, targeting, and positioning of China's e-market for Valentine's Day.
翻訳日:2023-06-04 05:35:27 公開日:2021-08-20
# ドイツ語圏におけるCovid-19危機時の情報行動

Information Behavior During the Covid-19 Crisis in German-Speaking Countries ( http://arxiv.org/abs/2007.13833v3 )

ライセンス: Link先を確認
Stefan Dreisiebner, Sophie M\"arz, Thomas Mandl(参考訳) 本稿は、2020年4月から5月にかけてのドイツ、ドイツ、スイスの308カ国の参加者を対象に、コビッドウイルス危機が個人情報行動のレベルに与える影響について調査する。 結果はまず、Covid-19の危機が信頼できる情報の需要の増加につながったことを示している。 これは公共放送、新聞、公共機関が提供する情報の利用が大幅に増加したのと並行している。 第2に、参加者の過半数(84%)がコビッド19号危機時の情報供給に満足していると回答した。 情報提供に満足していない参加者は、信頼性の高い情報源、特に公共テレビ、全国紙、公共団体が提供する情報の利用を著しく減らした。 第3に、Covid-19関連の情報の量によって、一部の参加者は情報の過負荷を感じ、情報検索とメディア使用の削減につながった。

This paper explores the impact of the Covid-19 crisis at the level of individual information behavior, based on an online survey among 308 participants from the German-speaking countries Austria, Germany and Switzerland in April and May 2020. The results show first that the Covid-19 crisis has led to an increased demand for reliable information. This goes alongside a significant increased use of public broadcasting, newspapers and information provided by public organizations. Second, the majority (84%) of the participants reported being satisfied with the information supply during the Covid-19 crisis. Participants who were less satisfied with the information supply used reliable sources significantly less frequently, specifically public television, national newspapers and information provided by public organizations. Third, the amount of Covid-19-related information led some participants to a feeling of information overload, which resulted in a reduction of information seeking and media use.
翻訳日:2023-05-08 02:29:08 公開日:2021-08-20
# 局所的および決定論的波動関数崩壊のおもちゃモデル

A Toy Model for Local and Deterministic Wave-function Collapse ( http://arxiv.org/abs/2010.01327v5 )

ライセンス: Link先を確認
Sandro Donadi, Sabine Hossenfelder(参考訳) 量子力学の局所的決定論的玩具モデルを導入し議論する。 隠れた変数を平均化すると、このモデルは量子力学と同じ予測を生成することが示されている。 ここで考慮されたモデルでは、ダイナミクスは検出時の測定装置の設定のみに依存しており、その設定が選択された方法ではない。 その結果、モデルは局所的な因果関係にあるが、統計的独立に反する。 微調整も超光信号もできないことを示す。

A local, deterministic toy model for quantum mechanics is introduced and discussed. It is demonstrated that, when averaged over the hidden variables, the model produces the same predictions as quantum mechanics. In the model considered here, the dynamics depends only on the settings of the measurement device at the detection time, not how those settings were chosen. As a consequence, the model is locally causal but violates statistical independence. We show that it is neither fine-tuned nor allows for superluminal signalling.
翻訳日:2023-04-30 02:16:37 公開日:2021-08-20
# 高密度メソスコピック・アンサンブルにおける分子分極

Molecular polaritonics in dense mesoscopic disordered ensembles ( http://arxiv.org/abs/2010.07155v2 )

ライセンス: Link先を確認
Christian Sommer, Michael Reitz, Francesca Mineo and Claudiu Genes(参考訳) 分子分極における真空ラビ分裂(VRS)の周波数障害,振動,近接場効果,密度依存性について検討した。 メソスコピック・リミットでは、静周波数障害のみに極性状態からダークステート貯水池への損失機構が既に導入されており、この機構を定量的に説明し、障害レベルのVRSの分析的スケーリングを提供する。 さらに、障害は分子アンサンブルをドナー型およびアクセプター型分子に分割し、ビブロニックカップリング、双極子-双極子相互作用、振動緩和の組み合わせにより、集合分子状態内の励起の非コヒーレントFRET(F\"{o}rster resonance energy transfer)移動を誘導する。 これは散逸性障害と同等であり、メソスコピックで高密度の限界におけるVRSの飽和と減少の効果がある。 この分析により、空洞量子力学において暗黒状態が果たす重要な役割を、メソスコピックで混乱したアンサンブルで定量化することができる。

We study the dependence of the vacuum Rabi splitting (VRS) on frequency disorder, vibrations, near-field effects and density in molecular polaritonics. In the mesoscopic limit, static frequency disorder alone can already introduce a loss mechanism from polaritonic states into a dark state reservoir, which we quantitatively describe, providing an analytical scaling of the VRS with the level of disorder. Disorder additionally can split a molecular ensemble into donor-type and acceptor-type molecules and the combination of vibronic coupling, dipole-dipole interactions and vibrational relaxation induces an incoherent FRET (F\"{o}rster resonance energy transfer) migration of excitations within the collective molecular state. This is equivalent to a dissipative disorder and has the effect of saturating and even reducing the VRS in the mesoscopic, high-density limit. Overall, this analysis allows to quantify the crucial role played by dark states in cavity quantum electrodynamics with mesoscopic, disordered ensembles.
翻訳日:2023-04-29 02:46:31 公開日:2021-08-20
# プラットフォーム移行はコンテンツモデレーションを損なうか? r/The_Donaldとr/Incelsからの証拠

Do Platform Migrations Compromise Content Moderation? Evidence from r/The_Donald and r/Incels ( http://arxiv.org/abs/2010.10397v3 )

ライセンス: Link先を確認
Manoel Horta Ribeiro, Shagun Jhaver, Savvas Zannettou, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, Robert West(参考訳) 主流プラットフォーム上の有害なオンラインコミュニティが禁止などのモデレーション措置に直面している場合、ラキサーポリシーで他のプラットフォームに移行したり、独自のウェブサイトを設置したりすることができる。 これまでの研究は、主流のプラットフォームでは、中程度のコミュニティによる害を軽減するために、コミュニティレベルのモデレーションが有効であることを示唆している。 しかし、この結果が、より広いウェブエコシステムを考える際にも影響するかどうかは不明だ。 有害なコミュニティは、新しいプラットフォーム上でのユーザーベースや活動の観点から成長を続けていますか? メンバーはより毒性が高く、イデオロギー的に過激化するのか? 本稿では,コミュニティレベルの緩和措置にともなうオンラインコミュニティの進展状況について,大規模な観察研究の結果を報告する。 r/The_Donaldとr/Incelsの2つのコミュニティからのデータを分析しました。 その結果,どちらの場合においても,モデレーション対策によって新プラットフォームでの投稿活動が大幅に減少し,投稿数,アクティブユーザ,新参者数が減少することが示唆された。 それにもかかわらず、研究コミュニティ(r/the_donald)の利用者は、毒性やラジカル化に関連するシグナルの増加を示し、より有毒で急進的なコミュニティの犠牲になる可能性があるという懸念を正当化した。 全体として,コミュニティレベルのモデレーションの結果の微妙なイメージを描き,その設計と展開を通知することができる。

When toxic online communities on mainstream platforms face moderation measures, such as bans, they may migrate to other platforms with laxer policies or set up their own dedicated websites. Previous work suggests that within mainstream platforms, community-level moderation is effective in mitigating the harm caused by the moderated communities. It is, however, unclear whether these results also hold when considering the broader Web ecosystem. Do toxic communities continue to grow in terms of their user base and activity on the new platforms? Do their members become more toxic and ideologically radicalized? In this paper, we report the results of a large-scale observational study of how problematic online communities progress following community-level moderation measures. We analyze data from r/The_Donald and r/Incels, two communities that were banned from Reddit and subsequently migrated to their own standalone websites. Our results suggest that, in both cases, moderation measures significantly decreased posting activity on the new platform, reducing the number of posts, active users, and newcomers. In spite of that, users in one of the studied communities (r/The_Donald) showed increases in signals associated with toxicity and radicalization, which justifies concerns that the reduction in activity may come at the expense of a more toxic and radical community. Overall, our results paint a nuanced portrait of the consequences of community-level moderation and can inform their design and deployment.
翻訳日:2023-04-28 05:42:39 公開日:2021-08-20
# Bogoliubov de Gennesシステムにおけるトポロジカルアンプの選択規則

Selection Rule for Topological Amplifiers in Bogoliubov de Gennes Systems ( http://arxiv.org/abs/2011.14935v3 )

ライセンス: Link先を確認
Hong Y. Ling and Ben Kain(参考訳) 動的不安定性はボソニック系の固有の特徴であり、ボゴリューボフ・デ・ゲエネス(BdG)ハミルトニアンによって記述されている。 bdgシステムを崩壊させるため、一般的には避けるべきであると考えられている。 近年、安定なバルクバンドを持つが、指数関数的に速い速度で人口できる不安定なエッジモードを持つトポロジカルアンプを作成するために、この不安定性を活用する多くの努力がなされている。 ここでは、BdGハミルトニアンの数の保存部分と数非保存部分の間の非伝統的な可換性の観点から、ゼロから十分なエネルギーで状態の安定性を決定する定理を示す。 この定理をガリロらによるモデルの一般化に適用する。 [Phys. Rev. Lett, 115, 245302(2015)]は、ハニカム格子内の相互作用するスピン-1原子系のトポロジカル増幅器をクエンチプロセスで生成する。 このモデルを用いて、非慣習的コンミュータの消失がシステムの対称性をどのように選択し、そのバルク状態が(弱)ペアリング相互作用に対して安定するかを説明する。 時間反転対称性が保存されている限り、我々のシステムは、反転対称性を破るオンサイトスタガードポテンシャルの存在下であっても、トポロジカルアンプとして振る舞うことができる。

Dynamical instability is an inherent feature of bosonic systems described by the Bogoliubov de Geenes (BdG) Hamiltonian. Since it causes the BdG system to collapse, it is generally thought that it should be avoided. Recently, there has been much effort to harness this instability for the benefit of creating a topological amplifier with stable bulk bands but unstable edge modes which can be populated at an exponentially fast rate. We present a theorem for determining the stability of states with energies sufficiently away from zero, in terms of an unconventional commutator between the number conserving part and number nonconserving part of the BdG Hamiltonian. We apply the theorem to a generalization of a model from Galilo et al. [Phys. Rev. Lett, 115, 245302(2015)] for creating a topological amplifier in an interacting spin-1 atom system in a honeycomb lattice through a quench process. We use this model to illustrate how the vanishing of the unconventional commutator selects the symmetries for a system so that its bulk states are stable against (weak) pairing interactions. We find that as long as time reversal symmetry is preserved, our system can act like a topological amplifier, even in the presence of an onsite staggered potential which breaks the inversion symmetry.
翻訳日:2023-04-22 14:30:01 公開日:2021-08-20
# 量子状態における古典データ学習のためのハイブリッドシステム

A Hybrid System for Learning Classical Data in Quantum States ( http://arxiv.org/abs/2012.00256v2 )

ライセンス: Link先を確認
Samuel A. Stein, Ryan L'Abbate, Wenrui Mu, Yue Liu, Betis Baheri, Ying Mao, Qiang Guan, Ang Li, Bo Fang(参考訳) ディープニューラルネットワークを利用した人工知能は、さまざまなアプリケーションで私たちの日常生活を急速に変えてきた。 しかし、ディープニューラルネットワークの重要なステップの1つとして、重み付けされたネットワークのトレーニングには膨大なコンピューティングリソースが必要である。 特にムーア法時代以降、半導体製造技術の限界は、高強度トレーニングデータの増加に対応するための学習アルゴリズムの開発を制限してきた。 一方、量子コンピューティングは、従来の計算集約的なワークロードのスピードアップにおいて、その大きな可能性を実証している。 例えば、Googleは200秒でサンプリング計算タスクを完了させることで量子超越性を説明した。 この目的のために、量子ベースの学習は、量子スピードアップのポテンシャルとともに、関心の領域となっている。 本稿では,古典的データを量子状態から学習するためのハイブリッドで汎用的な量子フレームワークGenQuを提案する。 我々は、実際のデータセットを用いてGenQuを評価し、シミュレーションと実量子コンピュータIBM-Qの両方で実験を行う。 我々の評価では,GenQuフレームワーク上で動作する提案モデルでは,従来の手法と比較して,非常に少ないキュービット数で同様の精度でパラメータサイズを95.86%,33.33%高速化した。

Deep neural network powered artificial intelligence has rapidly changed our daily life with various applications. However, as one of the essential steps of deep neural networks, training a heavily weighted network requires a tremendous amount of computing resources. Especially in the post-Moore's Law era, the limit of semiconductor fabrication technology has restricted the development of learning algorithms to cope with the increasing high-intensity training data. Meanwhile, quantum computing has demonstrated its significant potential in terms of speeding up the traditionally compute-intensive workloads. For example, Google illustrated quantum supremacy by completing a sampling calculation task in 200 seconds, which is otherwise impracticable on the world's largest supercomputers. To this end, quantum-based learning has become an area of interest, with the potential of a quantum speedup. In this paper, we propose GenQu, a hybrid and general-purpose quantum framework for learning classical data through quantum states. We evaluate GenQu with real datasets and conduct experiments on both simulations and real quantum computer IBM-Q. Our evaluation demonstrates that, compared with classical solutions, the proposed models running on GenQu framework achieve similar accuracy with a much smaller number of qubits, while significantly reducing the parameter size by up to 95.86% and converging speedup by 33.33% faster.
翻訳日:2023-04-22 12:17:25 公開日:2021-08-20
# $\mathbb{z}_2$格子ゲージ理論とキタエフのトーリック符号:アナログ量子シミュレーションのためのスキーム

$\mathbb{Z}_2$ lattice gauge theories and Kitaev's toric code: A scheme for analog quantum simulation ( http://arxiv.org/abs/2012.05235v2 )

ライセンス: Link先を確認
Lukas Homeier and Christian Schweizer and Monika Aidelsburger and Arkady Fedorov and Fabian Grusdt(参考訳) キタエフのトーリック符号は、量子計算と誤り訂正に潜在的に応用できる$\mathbb{z}_2$-topological orderを持つ、正確に解くことができるモデルである。 しかし、直接の実験的な実現は未解決の課題である。 本稿では,動的問題に結合した $\mathbb{z}_2$ 格子ゲージ理論の構成ブロックを提案し,トーリック符号基底状態とその位相的励起をどのように実装できるかを示す。 これは個々の小冊子に別々の物質励起を導入することで達成され、その運動は必要な小冊子項を誘導する。 提案するビルディングブロックは2次カップリング方式で実現され,超伝導量子ビットの実装に適している。 さらに,基礎となる結合強度の順序に大きなギャップが存在する場合に,位相的に非自明な初期状態を生成する経路を提案する。 これは解析的議論と数値的研究の両方によって検証される。 さらに、基底状態波動関数の実験的なシグネチャを概説し、最小のブレイディングプロトコルを導入する。 このプロトコルでラムゼーの縁間の$\pi$-phaseシフトを検出すると、3つの三角形のラケットを持つ系において、トーリック符号ハミルトニアンの正準励起が明らかになる。 我々の研究は、アナログ量子シミュレータで非可換エノンを実現する方法を示している。

Kitaev's toric code is an exactly solvable model with $\mathbb{Z}_2$-topological order, which has potential applications in quantum computation and error correction. However, a direct experimental realization remains an open challenge. Here, we propose a building block for $\mathbb{Z}_2$ lattice gauge theories coupled to dynamical matter and demonstrate how it allows for an implementation of the toric-code ground state and its topological excitations. This is achieved by introducing separate matter excitations on individual plaquettes, whose motion induce the required plaquette terms. The proposed building block is realized in the second-order coupling regime and is well suited for implementations with superconducting qubits. Furthermore, we propose a pathway to prepare topologically non-trivial initial states during which a large gap on the order of the underlying coupling strength is present. This is verified by both analytical arguments and numerical studies. Moreover, we outline experimental signatures of the ground-state wavefunction and introduce a minimal braiding protocol. Detecting a $\pi$-phase shift between Ramsey fringes in this protocol reveals the anyonic excitations of the toric-code Hamiltonian in a system with only three triangular plaquettes. Our work paves the way for realizing non-Abelian anyons in analog quantum simulators.
翻訳日:2023-04-21 07:57:25 公開日:2021-08-20
# 変分量子固有解法アルゴリズムを用いた原子系における多体効果の量子シミュレーション精度の評価

Assessing the Precision of Quantum Simulation of Many-Body Effects in Atomic Systems using the Variational Quantum Eigensolver Algorithm ( http://arxiv.org/abs/2101.05553v2 )

ライセンス: Link先を確認
Sumeet, V. S. Prasannaa, B. P. Das and B. K. Sahoo(参考訳) マルチボディシステムの量子シミュレーションの分野は、量子コンピューティングの非常に重要な応用として広く認識されている。 多電子系におけるその実現に向けた重要なステップは、異なる相互作用の厳密な量子力学的処理を必要とする。 本研究では,古典量子ハイブリッド変分量子固有解法(VQE)アルゴリズムを用いて,原子系の基底状態エネルギーにおける平均場近似(電子相関)を超える物理効果について検討する。 この目的のために、我々は3つの等電子種、すなわちBe, Li-, B+を考える。 このユニークな選択は、中性原子、陰イオン、カチオンの3つのクラスにまたがる。 我々は、ユニタリ結合クラスター(ucc)アンサッツを用いて、電子相関効果のシミュレーションの精度に影響を与える2つの非常に重要な因子、すなわちマッピングとバックエンドシミュレータの厳密な分析を行った。 我々は、4つの基底集合で全電子計算を行う。 その結果,古典的コンピュータ上での完全構成相互作用,従来の結合クラスタ法,UCC法を用いて計算した結果と比較し,その精度について検討した。 この研究の注目すべき特徴は、理想的な量子コンピュータを模倣したibm qiskitのqasmシミュレータバックエンドによる計算に必要なショット数(vqeアルゴリズムが統計を構築するために繰り返し繰り返される回数)を見つけるための詳細な分析である。 より多くの量子ビットが利用可能になると、vqeアルゴリズムを用いた素粒子の標準モデルを超える新しい物理学や原子時計など、様々な応用に対する興味のある他の性質を計算するための最初のステップとなる。

The emerging field of quantum simulation of many-body systems is widely recognized as a very important application of quantum computing. A crucial step towards its realization in the context of many-electron systems requires a rigorous quantum mechanical treatment of the different interactions. In this pilot study, we investigate the physical effects beyond the mean-field approximation, known as electron correlation, in the ground state energies of atomic systems using the classical-quantum hybrid variational quantum eigensolver (VQE) algorithm. To this end, we consider three isoelectronic species, namely Be, Li-, and B+. This unique choice spans three classes, a neutral atom, an anion, and a cation. We have employed the unitary coupled-cluster (UCC) ansatz to perform a rigorous analysis of two very important factors that could affect the precision of the simulations of electron correlation effects within a basis, namely mapping and backend simulator. We carry out our all-electron calculations with four such basis sets. The results obtained are compared with those calculated by using the full configuration interaction, traditional coupled-cluster and the UCC methods, on a classical computer, to assess the precision of our results. A salient feature of the study involves a detailed analysis to find the number of shots (the number of times a VQE algorithm is repeated to build statistics) required for calculations with IBM Qiskit's QASM simulator backend, which mimics an ideal quantum computer. When more qubits become available, our study will serve as among the first steps taken towards computing other properties of interest to various applications such as new physics beyond the Standard Model of elementary particles and atomic clocks using the VQE algorithm.
翻訳日:2023-04-15 05:26:52 公開日:2021-08-20
# 超伝導量子コンピュータにおける27量子グリーンバーガー・ホーネ・ザイリンガー状態の生成と検証

Generation and verification of 27-qubit Greenberger-Horne-Zeilinger states in a superconducting quantum computer ( http://arxiv.org/abs/2101.08946v3 )

ライセンス: Link先を確認
Gary J. Mooney, Gregory A. L. White, Charles D. Hill and Lloyd C. L. Hollenberg(参考訳) 物理デバイス上に準備されたサイズ可能な量子状態の真のマルチパートエンタングルメント(GME)の生成と検出は、短期量子コンピュータの進歩を強調する重要なベンチマークである。 GMEを認証するための一般的なアプローチは、グリーンベルガー・ホルン・ザイリンガー状態(GHZ)を作成し、少なくとも0.5のGHZ忠実度を測定することである。 ibm量子ibmq_montrealデバイス上で準備された11量子ビットから27量子ビットのghz状態の複数の量子コヒーレンスを用いてフィデリティを測定する。 量子読み出し誤差緩和(qrem)とパリティ検証誤差検出の組み合わせが、これらの状態に適用される。 QREMを使用すると、0.546 \pm 0.017$の忠実さが27ビットのGHZ状態に記録され、信頼度98.6%の全デバイスでGMEが実証された。 重ヘキサゴナルアーキテクチャ上での2つのGHZ状態形成におけるパリティ検証の効果をベンチマークした。 その結果,パリティ検証の効果は比較的軽度であるが,GHZの忠実度が向上することが示唆された。

Generating and detecting genuine multipartite entanglement (GME) of sizeable quantum states prepared on physical devices is an important benchmark for highlighting the progress of near-term quantum computers. A common approach to certify GME is to prepare a Greenberger-Horne-Zeilinger (GHZ) state and measure a GHZ fidelity of at least 0.5. We measure the fidelities using multiple quantum coherences of GHZ states on 11 to 27 qubits prepared on the IBM Quantum ibmq_montreal device. Combinations of quantum readout error mitigation (QREM) and parity verification error detection are applied to the states. A fidelity of $0.546 \pm 0.017$ was recorded for a 27-qubit GHZ state when QREM was used, demonstrating GME across the full device with a confidence level of 98.6%. We benchmarked the effect of parity verification on GHZ fidelity for two GHZ state preparation embeddings on the heavy-hexagon architecture. The results show that the effect of parity verification, while relatively modest, led to a detectable improvement of GHZ fidelity.
翻訳日:2023-04-14 06:27:18 公開日:2021-08-20
# 頑健な多要素音声変換のための不整合音声表現の逆学習

Adversarially learning disentangled speech representations for robust multi-factor voice conversion ( http://arxiv.org/abs/2102.00184v2 )

ライセンス: Link先を確認
Jie Wang, Jingbei Li, Xintao Zhao, Zhiyong Wu, Shiyin Kang, Helen Meng(参考訳) 音声変換(VC)における高制御可能なスタイル伝達を実現するためには,不整合表現としての分解音声が不可欠である。 VCにおける従来の音声表現学習法は、音声を話者とコンテンツとしてのみ分解し、他の韻律関連因子の制御性に欠ける。 より多くの音声因子に対する最先端の音声表現学習手法は、ランダムな再サンプリングやアドホックなボトルネック層サイズ調整などの一次不等角化アルゴリズムを使用しているが、頑健な音声表現の不等角化を保証するのは難しい。 本稿では,VCにおける複数の要因に対する高度に制御可能なスタイル伝達のロバスト性を高めるために,敵対的学習に基づく言語表現学習フレームワークを提案する。 内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらにBERTにインスパイアされた敵のMask-And-Predict(MAP)ネットワークによって歪められる。 対向ネットワークは、音声表現間の相関をランダムにマスキングし、他の表現から1つの表現を予測することによって最小化する。 実験の結果,提案手法は, 音声品質のMOSを2.79から3.30に, MCDを3.89から3.58に向上させることで, VCの堅牢性を著しく向上させることがわかった。

Factorizing speech as disentangled speech representations is vital to achieve highly controllable style transfer in voice conversion (VC). Conventional speech representation learning methods in VC only factorize speech as speaker and content, lacking controllability on other prosody-related factors. State-of-the-art speech representation learning methods for more speechfactors are using primary disentangle algorithms such as random resampling and ad-hoc bottleneck layer size adjustment,which however is hard to ensure robust speech representationdisentanglement. To increase the robustness of highly controllable style transfer on multiple factors in VC, we propose a disentangled speech representation learning framework based on adversarial learning. Four speech representations characterizing content, timbre, rhythm and pitch are extracted, and further disentangled by an adversarial Mask-And-Predict (MAP)network inspired by BERT. The adversarial network is used tominimize the correlations between the speech representations,by randomly masking and predicting one of the representationsfrom the others. Experimental results show that the proposedframework significantly improves the robustness of VC on multiple factors by increasing the speech quality MOS from 2.79 to3.30 and decreasing the MCD from 3.89 to 3.58.
翻訳日:2023-04-13 06:53:36 公開日:2021-08-20
# 量子資源としての対称識別性

Symmetric distinguishability as a quantum resource ( http://arxiv.org/abs/2102.12512v2 )

ライセンス: Link先を確認
Robert Salzmann, Nilanjana Datta, Gilad Gour, Xin Wang, Mark M. Wilde(参考訳) 我々は、対称識別可能性の資源理論を開発し、基本対象は基本量子情報源、すなわち、与えられた事前確率を持つ2つの可能な量子状態のうちの1つを放出する源である。 そのような情報源は、2つの量子状態のアンサンブルに対応する合成系$XA$の古典量子状態で表すことができ、$X$は古典的、$A$は量子的である。 自由操作の2つの異なるクラスに対して資源理論を研究する。 (i)$ $$${\rm{cptp}}_a$ は、$a$ と $ にのみ作用する量子チャネルからなる。 (ii)$条件付き二重確率 (cds) マップは$xa$に作用する。 基本源の対称微分可能性の概念を導入し、これら2種類の自由演算のクラスにおいて単調であることを証明する。 単発型および漸近型の双方において, 蒸留および対称的識別可能性の希釈の課題について検討した。 漸近的状態において、基本源を他の源に変換する最適速度は、これらの自由操作のクラスの両方で、それらの量子チャーノフ分岐の比率に等しいことを証明している。 これは量子チャーンオフの発散に新しい操作的解釈を与える。 また、対称的識別可能性の希釈という文脈で、トンプソン計量の興味深い操作的解釈を得る。

We develop a resource theory of symmetric distinguishability, the fundamental objects of which are elementary quantum information sources, i.e., sources that emit one of two possible quantum states with given prior probabilities. Such a source can be represented by a classical-quantum state of a composite system $XA$, corresponding to an ensemble of two quantum states, with $X$ being classical and $A$ being quantum. We study the resource theory for two different classes of free operations: $(i)$ ${\rm{CPTP}}_A$, which consists of quantum channels acting only on $A$, and $(ii)$ conditional doubly stochastic (CDS) maps acting on $XA$. We introduce the notion of symmetric distinguishability of an elementary source and prove that it is a monotone under both these classes of free operations. We study the tasks of distillation and dilution of symmetric distinguishability, both in the one-shot and asymptotic regimes. We prove that in the asymptotic regime, the optimal rate of converting one elementary source to another is equal to the ratio of their quantum Chernoff divergences, under both these classes of free operations. This imparts a new operational interpretation to the quantum Chernoff divergence. We also obtain interesting operational interpretations of the Thompson metric, in the context of the dilution of symmetric distinguishability.
翻訳日:2023-04-10 00:46:15 公開日:2021-08-20
# スピン鎖の超拡散

Superdiffusion in spin chains ( http://arxiv.org/abs/2103.01976v2 )

ライセンス: Link先を確認
Vir B. Bulchandani, Sarang Gopalakrishnan, Enej Ilievski(参考訳) 本稿では, スピン鎖における異常輸送の理解の最近の進歩を, 可積分性レンズを通して概説する。 テンソルネットワーク法に基づく数値的な進歩は、多くの標準可積分スピンチェーン(最も有名なハイゼンベルク模型)の輸送が異常であることを示した。 同時に、一般化された流体力学の枠組みが拡張され、異常輸送の基盤となるいくつかのメカニズムが説明されている。 これらのメカニズムについて現在理解されていることを示し、それらが他の文脈における異常輸送のメカニズムとどのように類似(および異なる)かについて議論する。 また, 可積分性が創発的あるいは近似的性質である系において, ポテンシャル輸送異常を簡潔に検討する。 我々は,現在理解されている異常輸送と力学の事例を調査した。

This review summarizes recent advances in our understanding of anomalous transport in spin chains, viewed through the lens of integrability. Numerical advances, based on tensor-network methods, have shown that transport in many canonical integrable spin chains -- most famously the Heisenberg model -- is anomalous. Concurrently, the framework of generalized hydrodynamics has been extended to explain some of the mechanisms underlying anomalous transport. We present what is currently understood about these mechanisms, and discuss how they resemble (and differ from) the mechanisms for anomalous transport in other contexts. We also briefly review potential transport anomalies in systems where integrability is an emergent or approximate property. We survey instances of anomalous transport and dynamics that remain to be understood.
翻訳日:2023-04-09 12:04:11 公開日:2021-08-20
# TOUR: アプリリリース支援のためのユーザレビューの動的トピックと感性分析

TOUR: Dynamic Topic and Sentiment Analysis of User Reviews for Assisting App Release ( http://arxiv.org/abs/2103.15774v2 )

ライセンス: Link先を確認
Tianyi Yang, Cuiyun Gao, Jingya Zang, David Lo, Michael R. Lyu(参考訳) アプリレビューは、アプリリリースに関するユーザの意見と新たな問題(新しいバグなど)を提供する。 アプリのレビューのダイナミックな性質から、アプリのリリースバージョンとともに、レビューのトピックや感情が変わるだろう。 アプリ機能に対するユーザ感情を分析してユーザ意見を要約することに焦点を当てた研究もいくつかあるが、実用的なツールはリリースされていない。 大量のレビューとノイズワードは、ユーザーレビューを監視する自動化ツールも必要である。 本稿では,ユーザレビューの動的トピックと感情分析のためのTOURを紹介する。 TOUR (複数形 TOURs) (i)アプリバージョンよりも新しいアプリの問題を検出し、まとめる。 (二)アプリ機能に対するユーザ感情を識別し、 三 開発者の審査を促進するために重要なユーザレビューを優先すること。 TOURの中核となる技術は、オンライントピックモデリングアプローチと感情予測戦略である。 TOURはハイパーパラメータをカスタマイズするためのエントリを提供し、結果がインタラクティブな方法で表示される。 我々は,15人の開発者を対象とした開発者調査を実施し,ツアーによる推奨機能変更の実用的有用性を確認した。

App reviews deliver user opinions and emerging issues (e.g., new bugs) about the app releases. Due to the dynamic nature of app reviews, topics and sentiment of the reviews would change along with app release versions. Although several studies have focused on summarizing user opinions by analyzing user sentiment towards app features, no practical tool is released. The large quantity of reviews and noise words also necessitates an automated tool for monitoring user reviews. In this paper, we introduce TOUR for dynamic TOpic and sentiment analysis of User Reviews. TOUR is able to (i) detect and summarize emerging app issues over app versions, (ii) identify user sentiment towards app features, and (iii) prioritize important user reviews for facilitating developers' examination. The core techniques of TOUR include the online topic modeling approach and sentiment prediction strategy. TOUR provides entries for developers to customize the hyper-parameters and the results are presented in an interactive way. We evaluate TOUR by conducting a developer survey that involves 15 developers, and all of them confirm the practical usefulness of the recommended feature changes by TOUR.
翻訳日:2023-04-06 19:01:09 公開日:2021-08-20
# 略球状誘電体光共振器の摂動理論

Perturbation theory of nearly spherical dielectric optical resonators ( http://arxiv.org/abs/2104.13783v3 )

ライセンス: Link先を確認
Julius Gohsrich, Tirth Shah, Andrea Aiello(参考訳) 様々な大きさの誘電体球は、非常に狭い線幅を持つ光周波数で共鳴する電磁的ささやきモードを維持できる。 球形からの任意な小さな偏差は典型的に変化し、そのような共鳴を拡大する。 私たちの目標は、これらのシフトと拡大共鳴を決定することです。 ほぼ円形の膜の音響振動に対する境界条件摂動理論は1世紀以上前にレイリーによって開発された。 この理論を拡張して、ほぼ球状誘電体空洞の電磁励起を記述する。 このアプローチにより、崩壊する準正規モードを扱うことを避けることができる。 任意に変形したほぼ球状誘電体キャビティに対する光共鳴の周波数と線幅を,2次項までの小さなパラメータによるパワー級数展開として明示的に求める。 我々は摂動理論の適用可能性に関する物理条件を徹底的に議論する。

Dielectric spheres of various sizes may sustain electromagnetic whispering-gallery modes resonating at optical frequencies with very narrow linewidths. Arbitrary small deviations from the spherical shape typically shift and broaden such resonances. Our goal is to determine these shifted and broadened resonances. A boundary-condition perturbation theory for the acoustic vibrations of nearly circular membranes was developed by Rayleigh more than a century ago. We extend this theory to describe the electromagnetic excitations of nearly spherical dielectric cavities. This approach permits us to avoid dealing with decaying quasinormal modes. We explicitly find the frequencies and the linewidths of the optical resonances for arbitrarily deformed nearly spherical dielectric cavities, as power series expansions by a small parameter, up to and including second-order terms. We thoroughly discuss the physical conditions for the applicability of perturbation theory.
翻訳日:2023-04-02 04:29:18 公開日:2021-08-20
# アメリカ合衆国国勢調査開示回避制度が再編成と投票権分析に及ぼす影響

The Impact of the U.S. Census Disclosure Avoidance System on Redistricting and Voting Rights Analysis ( http://arxiv.org/abs/2105.14197v3 )

ライセンス: Link先を確認
Christopher T. Kenny (1), Shiro Kuriwaki (1), Cory McCartan (2), Evan Rosenman (3), Tyler Simko (1), Kosuke Imai (1 and 2) ((1) Department of Government, Harvard University, (2) Department of Statistics, Harvard University, (3) Harvard Data Science Initiative)(参考訳) 米国国勢調査局(US Census Bureau)は、2020年国勢調査の回答者のプライバシーを、その情報開示回避システム(DAS)を通じて保護する計画だ。 dasで保護された2010年の国勢調査データに再帰的シミュレーションと分析手法を適用することで、保護されたデータは再帰的目的のために十分な品質を持っていないことが判明した。 入射騒音は、州が1人1票の原則を正確に遵守することが不可能であることを示す。 分析の結果,DASで保護されたデータは,投票者の投票率や党派・人種構成によって特定の領域に偏りがあり,これらの偏見は,党派・人種的ゲリマンダーの分析において大きく予測不能な誤りをもたらすことがわかった。 最後に,DASアルゴリズムは応答性プライバシーを普遍的に保護しないことを示す。 登録有権者の名前と住所に基づいて、2010年国勢調査のデータのようにDASで保護されたデータを用いて、彼らの人種を正確に予測することができる。 それにもかかわらず、DASが保護したデータは依然として多数派マイノリティ地区の数を不正確に見積もることができる。 我々は、2020年国勢調査のプライバシー保護に関して、国勢調査局がどのように進むべきかを推奨する。

The US Census Bureau plans to protect the privacy of 2020 Census respondents through its Disclosure Avoidance System (DAS), which attempts to achieve differential privacy guarantees by adding noise to the Census microdata. By applying redistricting simulation and analysis methods to DAS-protected 2010 Census data, we find that the protected data are not of sufficient quality for redistricting purposes. We demonstrate that the injected noise makes it impossible for states to accurately comply with the One Person, One Vote principle. Our analysis finds that the DAS-protected data are biased against certain areas, depending on voter turnout and partisan and racial composition, and that these biases lead to large and unpredictable errors in the analysis of partisan and racial gerrymanders. Finally, we show that the DAS algorithm does not universally protect respondent privacy. Based on the names and addresses of registered voters, we are able to predict their race as accurately using the DAS-protected data as when using the 2010 Census data. Despite this, the DAS-protected data can still inaccurately estimate the number of majority-minority districts. We conclude with recommendations for how the Census Bureau should proceed with privacy protection for the 2020 Census.
翻訳日:2023-03-28 12:11:51 公開日:2021-08-20
# 投資バンドとターゲットボラティリティを用いた量子ポートフォリオ最適化

Quantum Portfolio Optimization with Investment Bands and Target Volatility ( http://arxiv.org/abs/2106.06735v4 )

ライセンス: Link先を確認
Samuel Palmer, Serkan Sahin, Rodrigo Hernandez, Samuel Mugel, Roman Orus(参考訳) 本稿では,ポートフォリオ最適化問題に対する複雑な実生活制約を単純な方法で実装することで,量子最適化アルゴリズムに適応する手法を提案する。 具体的には、まず、特定のターゲットリスクで最高の投資ポートフォリオを得る方法を説明します。 これは、金融機関が通常提供しているように、異なるリスクプロファイルを持つポートフォリオを作成するために重要である。 第2に,個々の投資バンド,すなわち,各資産に対する最小限の投資と最大投資の実施方法を示す。 これはまた、多様化を課し、コーナーソリューションを避けるためにも重要である。 非常に驚くべきことに、量子アニーラーの自然な入力である二次二分最適化(qubo)問題として制約付きコスト関数を構築する方法を示す。 s&p100 と s&p500 の資産を全て備えたポートフォリオ上で,d-wave hybrid とそのアドバンテージ量子プロセッサを用いた最適ポートフォリオを見つけることで,実装の有効性が証明された。 この結果から,現在のNISQ量子プロセッサや実データ,現実的な市場条件下で,定量的ファイナンスにおける日々の現実的な制約が,いかに簡単に実装できるかが示唆された。 クラスタリングアルゴリズムと組み合わせることで,Nasdaq Compositeなどの複雑なインデックスの動作を再現することが可能となり,ETF(Exchange Traded Funds)の構築と複製に特に有用となる。

In this paper we show how to implement in a simple way some complex real-life constraints on the portfolio optimization problem, so that it becomes amenable to quantum optimization algorithms. Specifically, first we explain how to obtain the best investment portfolio with a given target risk. This is important in order to produce portfolios with different risk profiles, as typically offered by financial institutions. Second, we show how to implement individual investment bands, i.e., minimum and maximum possible investments for each asset. This is also important in order to impose diversification and avoid corner solutions. Quite remarkably, we show how to build the constrained cost function as a quadratic binary optimization (QUBO) problem, this being the natural input of quantum annealers. The validity of our implementation is proven by finding the optimal portfolios, using D-Wave Hybrid and its Advantage quantum processor, on portfolios built with all the assets from S&P100 and S&P500. Our results show how practical daily constraints found in quantitative finance can be implemented in a simple way in current NISQ quantum processors, with real data, and under realistic market conditions. In combination with clustering algorithms, our methods would allow to replicate the behaviour of more complex indexes, such as Nasdaq Composite or others, in turn being particularly useful to build and replicate Exchange Traded Funds (ETF).
翻訳日:2023-03-26 21:38:59 公開日:2021-08-20
# 理想多モード検出器による平衡ホモダイン検出における量子ノイズと真空揺らぎ

Quantum noise and vacuum fluctuations in balanced homodyne detections through ideal multi-mode detectors ( http://arxiv.org/abs/2107.05614v3 )

ライセンス: Link先を確認
Kouji Nakamura(参考訳) 重力波検出器の読み出しスキームとしての平衡ホモダイン検出は、量子場理論の観点から慎重に検討される。 重力波検出器の読み出しスキームは、検出中の直接測定された量子演算子を指定する。 この仕様は、最近開発された量子計測理論を重力波検出に適用する場合に必要である。 2つの測定モデルについて検討する。 1つは、光検出器の直接測定された量子作用素がグラウバーの光子数演算子であるモデルであり、もう1つは光学場の電力演算子を直接測定するモデルである。 これら2つは光検出器の理想的なモデルと見なされている。 まず,これら2つのモデルが測定の期待値と同じ値を与えることを示す。 重力波コミュニティでは真空揺らぎが検出器のノイズに寄与することがコンセンサスであるため,重力波コミュニティで使用される2光子定式化を用いることなく,真空揺らぎが量子ノイズスペクトル密度に寄与することを明らかにする。 2光子定式化における従来の雑音スペクトル密度は、主干渉計からの真空揺らぎを含むが、局所振動子からのノイズは含まない。 局所発振器からの真空ゆらぎの寄与は、理論上、上記の2つのモデル間のノイズスペクトル密度の差をもたらすが、現実の状況ではこの差は無視できる。

The balanced homodyne detection as a readout scheme of gravitational-wave detectors is carefully examined from the quantum field theoretical point of view. The readout scheme in gravitational-wave detectors specifies the directly measured quantum operator in the detection. This specification is necessary when we apply the recently developed quantum measurement theory to gravitational-wave detections. We examine the two models of measurement. One is the model in which the directly measured quantum operator at the photodetector is Glauber's photon number operator, and the other is the model in which the power operator of the optical field is directly measured. These two are regarded as ideal models of photodetectors. We first show these two models yield the same expectation value of the measurement. Since it is consensus in the gravitational-wave community that vacuum fluctuations contribute to the noises in the detectors, we also clarify the contributions of vacuum fluctuations to the quantum noise spectral density without using the two-photon formulation which is used in the gravitational-wave community. We found that the conventional noise spectral density in the two-photon formulation includes vacuum fluctuations from the main interferometer but does not include those from the local oscillator. Although the contribution of vacuum fluctuations from the local oscillator theoretically yields the difference between the above two models in the noise spectral densities, this difference is negligible in realistic situations.
翻訳日:2023-03-22 18:10:45 公開日:2021-08-20
# 断熱量子計算による実水流ネットワークにおけるセンサ配置問題の解法

Solving Sensor Placement Problems In Real Water Distribution Networks Using Adiabatic Quantum Computation ( http://arxiv.org/abs/2108.04075v2 )

ライセンス: Link先を確認
Stefano Speziali, Federico Bianchi, Andrea Marini, Lorenzo Menculini, Massimiliano Proietti, Loris F. Termite, Alberto Garinei, Marcello Marconi, Andrea Delogu(参考訳) 量子アニールは、大規模な組合せ最適化問題を解決するための有望な量子コンピューティングアプローチとしてここ数年で登場した。 本稿では,水分配ネットワーク(WDN)に圧力センサを正しく配置する問題を,擬似非拘束バイナリ最適化(QUBO)モデルやIsingモデルを用いて組合せ最適化問題として定式化する。 障害イベントの検出と分離には,センサ配置の最適性が重要です。 本稿では,ネットワークトポロジから開始したセンサ配置問題に対するquboとイジングの定式化と,その他のいくつかの特徴について概説する。 本稿では,オープンソースのPythonライブラリであるPyQUBOを用いて,ハミルトニアンを最小化することで,この問題を解決するための詳細な手順を提案する。 次に,本手法を実際の配水ネットワークの場合に適用する。 シミュレーションアニーリングとD-Waveマシンに対するハイブリッド量子古典的アプローチの両方を用いる。

Quantum annealing has emerged in the last few years as a promising quantum computing approach to solving large-scale combinatorial optimization problems. In this paper, we formulate the problem of correctly placing pressure sensors on a Water Distribution Network (WDN) as a combinatorial optimization problem in the form of a Quadratic Unconstrained Binary Optimization (QUBO) or Ising model. Optimal sensor placement is indeed key to detect and isolate fault events. We outline the QUBO and Ising formulations for the sensor placement problem starting from the network topology and few other features. We present a detailed procedure to solve the problem by minimizing its Hamiltonian using PyQUBO, an open-source Python Library. We then apply our methods to the case of a real Water Distribution Network. Both simulated annealing and a hybrid quantum-classical approach on a D-Wave machine are employed.
翻訳日:2023-03-19 04:58:13 公開日:2021-08-20
# ハミルトニアン進化のための量子回路の代数圧縮

Algebraic Compression of Quantum Circuits for Hamiltonian Evolution ( http://arxiv.org/abs/2108.03282v2 )

ライセンス: Link先を確認
Efekan K\"okc\"u, Daan Camps, Lindsay Bassman, James K. Freericks, Wibe A. de Jong, Roel Van Beeumen, Alexander F. Kemper(参考訳) 時間依存ハミルトニアンの下でのユニタリ進化は、量子ハードウェアにおけるシミュレーションの重要な要素である。 対応する量子回路の合成は、通常、進化を小さな時間ステップに分解することで行われる。 回路要素が su(4) の部分集合に制限されているとき、あるいは同値な場合、ハミルトニアンが自由フェルミオン模型に写像される場合、回路を結合し単純化する連続的な同一性が存在する。 そこで本研究では,トロッターステップを量子ゲートの一ブロックに圧縮するアルゴリズムを提案する。 この結果、ハミルトニアンのある種のクラスに対する固定深度時間進化がもたらされる。 このアルゴリズムがいくつかのスピンモデルに対してどのように機能するかを明確に示し、横フィールドイジングモデルの断熱的状態準備に使用することを示す。

Unitary evolution under a time dependent Hamiltonian is a key component of simulation on quantum hardware. Synthesizing the corresponding quantum circuit is typically done by breaking the evolution into small time steps, also known as Trotterization, which leads to circuits whose depth scales with the number of steps. When the circuit elements are limited to a subset of SU(4) -- or equivalently, when the Hamiltonian may be mapped onto free fermionic models -- several identities exist that combine and simplify the circuit. Based on this, we present an algorithm that compresses the Trotter steps into a single block of quantum gates. This results in a fixed depth time evolution for certain classes of Hamiltonians. We explicitly show how this algorithm works for several spin models, and demonstrate its use for adiabatic state preparation of the transverse field Ising model.
翻訳日:2023-03-19 04:57:04 公開日:2021-08-20
# 良い体は必要なものだけだ。エージェントアーキテクチャーサーチによる破滅的な干渉を避ける

A good body is all you need: avoiding catastrophic interference via agent architecture search ( http://arxiv.org/abs/2108.08398v2 )

ライセンス: Link先を確認
Joshua Powers, Ryan Grindle, Lapo Frati, Josh Bongard(参考訳) ロボット工学では、破滅的な干渉が環境横断の政策訓練を抑え続けている。 これまでの破滅的な干渉に対処する取り組みは、新しいニューラルアーキテクチャやトレーニング手法にフォーカスしており、新しい環境でのトレーニングを容易にする適切な初期設定のポリシーに最近注目が集まっている。 しかし、これらの方法のいずれも、ニューラルネットワークの選択と同じように、ロボットの物理的アーキテクチャが破壊的干渉を阻害したり、促進したりする方法を考慮に入れていない。 これまでの研究で、ロボットの物理的構造(特にセンサー配置)の側面が、所定の物理的構造に対する最適なポリシーの比率を増加させることで、ポリシー学習をいかに促進できるかを示してきた。 ここでは、この破滅的干渉のプロキシ尺度が、いくつかの探索方法にまたがるサンプル効率と相関し、物理構造の正しい選択によって、良好な損失景観を誘導できることを初めて示す。 ロボットの構造と制御方針を同時に最適化することで、このような構造が発見できることを示すとともに、破滅的な干渉耐性ロボットの構造と方針を同時に実現し、制御ポリシーのみよりも効率的であることを示す。 最後に,これらの構造は環境全体にわたってセンサホメオスタシスを示し,これをロボットが破滅的な干渉を克服するメカニズムとして紹介する。

In robotics, catastrophic interference continues to restrain policy training across environments. Efforts to combat catastrophic interference to date focus on novel neural architectures or training methods, with a recent emphasis on policies with good initial settings that facilitate training in new environments. However, none of these methods to date have taken into account how the physical architecture of the robot can obstruct or facilitate catastrophic interference, just as the choice of neural architecture can. In previous work we have shown how aspects of a robot's physical structure (specifically, sensor placement) can facilitate policy learning by increasing the fraction of optimal policies for a given physical structure. Here we show for the first time that this proxy measure of catastrophic interference correlates with sample efficiency across several search methods, proving that favorable loss landscapes can be induced by the correct choice of physical structure. We show that such structures can be found via co-optimization -- optimization of a robot's structure and control policy simultaneously -- yielding catastrophic interference resistant robot structures and policies, and that this is more efficient than control policy optimization alone. Finally, we show that such structures exhibit sensor homeostasis across environments and introduce this as the mechanism by which certain robots overcome catastrophic interference.
翻訳日:2023-03-18 03:09:33 公開日:2021-08-20
# 時間依存非エルミート振動子の厳密解:古典的および量子的画像

Exact solutions for time-dependent non-Hermitian oscillators: classical and quantum pictures ( http://arxiv.org/abs/2108.08958v1 )

ライセンス: Link先を確認
Kevin Zelaya and Oscar Rosas-Ortiz(参考訳) 定常高調波発振器と非ハーモニティを示す時間依存系を点変換により関連付ける。 新しいシステムは、完全に可解であり、全実スペクトルを持ち、関連するパラメータの適切な値のエルミート構成に遷移する。 特定の場合にcaldirola-kanaiモデルを含むスワンソン発振器の具体的一般化を提供する。 古典画像と量子画像の両方で明示的な解が与えられる。

We associate the stationary harmonic oscillator with time-dependent systems exhibiting non-Hermiticity by means of point transformations. The new systems are exactly solvable, with all-real spectrum, and transit to the Hermitian configuration for the appropriate values of the involved parameters. We provide a concrete generalization of the Swanson oscillator that includes the Caldirola-Kanai model as a particular case. Explicit solutions are given in both, the classical and quantum pictures.
翻訳日:2023-03-17 23:14:48 公開日:2021-08-20
# エネルギー境界に基づく半デバイス非依存フルランダムネス増幅

Semi-device-independent full randomness amplification based on energy bounds ( http://arxiv.org/abs/2108.09100v1 )

ライセンス: Link先を確認
Gabriel Senno, Antonio Ac\'in(参考訳) 量子ベル非局所性(quantum bell nonlocality)は、公と任意に偏ったsantha-vaziraniソースのランダム性を増幅するプロトコルの設計を可能にする。 これらのプロトコルにおける情報理論的なセキュリティは、観察された非局所統計のみから、そして干渉するデバイスの内部動作についての仮定なしに、デバイスに依存しない方法で認証される。 一方、もしプロトコルの装置の完全な量子力学的記述を信頼するなら、量子ビットが相互に偏りのない基底のペアで代用的に測定される基本スキームは、簡単にはランダムネス増幅のためのプロトコルである。 本研究では,未調査の中間地盤について検討する。 完全ランダム性増幅は、絡み合いや干渉する量子状態と測定の完全な特徴付けを必要とせずに実現可能であることが証明される。 van himbeeck et al., quantum 1, 33 (2017)]で導入されたエネルギーバウンドフレームワークに基づいて、我々の準備・測定プロトコルは、あらゆる公開santha-vaziraniソースのランダム性を増幅することができ、可能な最小数の入力と結果を必要とし、量子敵に対して安全である。

Quantum Bell nonlocality allows for the design of protocols that amplify the randomness of public and arbitrarily biased Santha-Vazirani sources, a classically impossible task. Information-theoretical security in these protocols is certified in a device-independent manner, i.e. solely from the observed nonlocal statistics and without any assumption about the inner-workings of the intervening devices. On the other hand, if one is willing to trust on a complete quantum-mechanical description of a protocol's devices, the elementary scheme in which a qubit is alternatively measured in a pair of mutually unbiased bases is, straightforwardly, a protocol for randomness amplification. In this work, we study the unexplored middle ground. We prove that full randomness amplification can be achieved without requiring entanglement or a complete characterization of the intervening quantum states and measurements. Based on the energy-bounded framework introduced in [Van Himbeeck et al., Quantum 1, 33 (2017)], our prepare-and-measure protocol is able to amplify the randomness of any public Santha-Vazirani source, requiring the smallest number of inputs and outcomes possible and being secure against quantum adversaries.
翻訳日:2023-03-17 23:12:48 公開日:2021-08-20
# ダイヤモンドの電極閉じ込めによるスピン-チャージ変換

Spin-to-Charge conversion with electrode confinement in diamond ( http://arxiv.org/abs/2108.09027v1 )

ライセンス: Link先を確認
Liam Hanlon, Lachlan Oberg, Yun Heng Chen, and Marcus W. Doherty(参考訳) ダイヤモンドの窒素空洞(nv)中心は、量子計測、通信、計算において幅広い応用可能性を持っている。 その使用の鍵は、光スピンコントラストの大きさとスピン状態の読み出しの忠実さにある。 本稿では, スピン選択共振光イオン化のためのダイヤモンド導電バンドを識別するために, 外部電極の使用と低温を利用したスピンチャージプロトコルとのコントラスト改善機構を提案する。 我々は実効質量理論を用いて、この新しい系の離散エネルギーを計算し、NV基底状態からダイヤモンド伝導帯への共鳴光電離を含む新しいスピン-電荷プロトコルを定式化する。 実験の設計を導くために、拡張の主要な源泉も取り組まれている。 この機構により、光スピンコントラストを理論化し、関連するスピン読み出し忠実度は85%である。 この大幅な改善は、多くの低温量子技術に適用できる。

The nitrogen-vacancy (NV) center in diamond has a wide range of potential applications in quantum metrology, communications and computation. The key to its use lies in how large the optical spin contrast is and the associated fidelity of spin state readout. In this paper we propose a new mechanism for improving contrast with a spin-to-charge protocol that relies on the use of an external electrode and cryogenic temperatures to discretize the diamond conduction band for spin-selective resonant photoionization. We use effective mass theory to calculate the discrete eigenenergies in this new system and use them to formulate a new spin-to-charge protocol that involves resonant photoionization out the NV ground state into the diamond conduction band. The major sources of broadening are also addressed which guide the design of the experiment. With this mechanism we theorise an optical spin contrast that and an associated spin readout fidelity of 85%. This significant improvement can be applied to a number of cryogenic quantum technologies.
翻訳日:2023-03-17 23:11:44 公開日:2021-08-20
# 量子振幅推定とチェビシェフ補間によるベルムダンオプション価格設定

Bermudan option pricing by quantum amplitude estimation and Chebyshev interpolation ( http://arxiv.org/abs/2108.09014v1 )

ライセンス: Link先を確認
Koichi Miyamoto(参考訳) 金融デリバティブの価格、特にベルムダンオプションのような初期のエクササイズ可能なオプションは、金融機関にとって重要な数値課題であるが、そのスピードアップは大きなビジネス効果をもたらす。 近年,金融問題に対する量子コンピューティングの応用が検討されている。 本稿では,まずベルムダンオプション価格の量子アルゴリズムを提案する。 この方法は、量子振幅推定により推定された補間ノードの値を用いて、チェビシェフ補間によりベルムダンオプション価格の重要な部分である継続値の近似を行う。 この方法では、基礎となる資産価格経路を生成するためのオラクルへの呼び出しの数は$\widetilde{O}(\epsilon^{-1})$とスケールし、$\epsilon$はオプション価格のエラー耐性である。 これは、最小二乗モンテカルロのような古典的モンテカルロ法と比較して二次的なスピードアップを意味し、オラクルの呼び出し番号は$\widetilde{O}(\epsilon^{-2})$である。

Pricing of financial derivatives, in particular early exercisable options such as Bermudan options, is an important but heavy numerical task in financial institutions, and its speed-up will provide a large business impact. Recently, applications of quantum computing to financial problems have been started to be investigated. In this paper, we first propose a quantum algorithm for Bermudan option pricing. This method performs the approximation of the continuation value, which is a crucial part of Bermudan option pricing, by Chebyshev interpolation, using the values at interpolation nodes estimated by quantum amplitude estimation. In this method, the number of calls to the oracle to generate underlying asset price paths scales as $\widetilde{O}(\epsilon^{-1})$, where $\epsilon$ is the error tolerance of the option price. This means the quadratic speed-up compared with classical Monte Carlo-based methods such as least-squares Monte Carlo, in which the oracle call number is $\widetilde{O}(\epsilon^{-2})$.
翻訳日:2023-03-17 23:11:30 公開日:2021-08-20
# 量子臨界点と符号問題

Quantum Critical Points and the Sign Problem ( http://arxiv.org/abs/2108.08974v1 )

ライセンス: Link先を確認
Rubem Mondaini, Sabyasachi Tarat, Richard T. Scalettar(参考訳) 符号問題 (SP) は、凝縮物質物理学における強相関物質のシミュレーション、有限バリオン密度での量子色力学の解法、核物質の計算的研究に対する基本的な制限である。 結果として、超低温原子物理学のような分野がとてもエキサイティングな理由の一部である:spのため、そうでなければ解決できないモデルの量子エミュレータを提供することができる。 同じ理由から、量子計算の背後にある主要な動機の一つでもある。 sp は特定のハミルトニアンの物理学に固有のものではないとしばしば主張されるが、なぜならそれがどのように開始され、その結果として生じるかの詳細はアルゴリズムや多粒子基底の選択によって変更できるからである。 それにもかかわらず、行列式量子モンテカルロ(DQMC)のSPが量子臨界挙動と定量的に関連していることが示される。 我々は、ハニカム格子上のスピンフルおよびスピンレスハバード・ハミルトン多様体や、臨界特性が比較的よく理解されているイオンハバード・ハミルトン多様体など、凝縮物質物理学の基本モデルのシミュレーションを通じてこれを実証する。 次に, 凝縮体物理学における重要な開問題である半充填から離れて, 正方格子上のハバードモデルに対する低平均符号の再解釈を, 擬ギャップ挙動とエキゾチック超伝導の開始の観点から提案する。 本研究は,多体ハミルトニアンの低温での量子シミュレーションを妨げる障害としてではなく,qmcシミュレーションにおける平均符号を利用して量子臨界挙動を理解する方法を示す。

The "sign problem" (SP) is the fundamental limitation to simulations of strongly correlated materials in condensed matter physics, solving quantum chromodynamics at finite baryon density, and computational studies of nuclear matter. As a result, it is part of the reason fields such as ultra-cold atomic physics are so exciting: they can provide quantum emulators of models that could not otherwise be solved, due to the SP. For the same reason, it is also one of the primary motivations behind quantum computation. It is often argued that the SP is not intrinsic to the physics of particular Hamiltonians, since the details of how it onsets, and its eventual occurrence, can be altered by the choice of algorithm or many-particle basis. Despite that, we show that the SP in determinant quantum Monte Carlo (DQMC) is quantitatively linked to quantum critical behavior. We demonstrate this via simulations of a number of fundamental models of condensed matter physics, including the spinful and spinless Hubbard Hamiltonians on a honeycomb lattice and the ionic Hubbard Hamiltonian, all of whose critical properties are relatively well understood. We then propose a reinterpretation of the low average sign for the Hubbard model on the square lattice when away from half-filling, an important open problem in condensed matter physics, in terms of the onset of pseudogap behavior and exotic superconductivity. Our study charts a path for exploiting the average sign in QMC simulations to understand quantum critical behavior, rather than solely as an obstacle that prevents quantum simulations of many-body Hamiltonians at low temperature.
翻訳日:2023-03-17 23:10:42 公開日:2021-08-20
# 結合二層原子における超ラジカル相転移の可能性

Possibility of superradiant phase transitions in coupled two-level atoms ( http://arxiv.org/abs/2108.08973v1 )

ライセンス: Link先を確認
Tao Liu, Yu-Yu Zhang, Qing-Hu Chen, and Ke-Lin Wang(参考訳) 振動子強度和則は理想的な非相互作用性2レベル原子系の相転移を禁ずるが、共振器内の結合した2レベル原子における量子相転移の可能性を示す。 この系は熱力学限界における超ラジカル相転移を受け、この遷移は原子-原子間の魅力的な相互作用を考慮し、和則に違反する。 ボゾンコヒーレント状態法は有限サイズ系の量子臨界点を正確に見つけるために採用されている。 我々は、原子数の増加に伴う超高次相転移の存在を予測し、和則によって課される全ての制約を満たす。

Although the oscillator strength sum rule forbids the phase transition in ideal non-interacting two-level atoms systems, we present the possibility of the quantum phase transition in the coupled two-level atoms in a cavity. The system undergoes the superradiant phase transition in the thermodynamics limit and this transition is account for the atom-atom attractive interaction, exhibiting a violation of the sum rule. The bosonic coherent state technique has been adopted to locate the quantum critical point accurately in the finite-size system. We predict the existence of the superadiant phase transition as the number of atoms increases, satisfying all the constraints imposed by the sum rule.
翻訳日:2023-03-17 23:10:15 公開日:2021-08-20
# 自然発生による量子から古典的な歩行遷移

Quantum to Classical Walk Transitions Tuned by Spontaneous Emissions ( http://arxiv.org/abs/2108.09276v1 )

ライセンス: Link先を確認
J. H. Clark, C. Groiseau, Z. N. Shaw, S. Dadras, C. Binegar, S. Wimberger, G. S. Summy, Y. Liu(参考訳) 我々は、周期的キックポテンシャルをウォークオペレータとして、共鳴マイクロ波パルスをコイントスオペレータとして適用することにより、ルビジウムスピノルボース・アインシュタイン凝縮を伴う運動量空間における量子ウォークを実現する。 生成された量子ウォークは最大10ステップで安定し、ウォークオペレーターのレーザービームによって誘導される自然放出により古典的なウォークに素早く移動する。 我々は、量子ウォーク中に外部光源でよく制御された自然発光を導入することで、これらの量子から古典的な歩行遷移を研究する。 本研究は, 量子ウォークのロバスト性を制御し, 自然発光を含む他の低温原子実験にも適用可能であることを示す。

We have realized a quantum walk in momentum space with a rubidium spinor Bose-Einstein condensate by applying a periodic kicking potential as a walk operator and a resonant microwave pulse as a coin toss operator. The generated quantum walks appear to be stable for up to ten steps and then quickly transit to classical walks due to spontaneous emissions induced by laser beams of the walk operator. We investigate these quantum to classical walk transitions by introducing well controlled spontaneous emissions with an external light source during quantum walks. Our findings demonstrate a scheme to control the robustness of the quantum walks and can also be applied to other cold atom experiments involving spontaneous emissions.
翻訳日:2023-03-17 23:04:02 公開日:2021-08-20
# 原子性媒質中における光スピン波の近接場誘起劣化の正規化群解析

Renormalization group analysis of near-field induced dephasing of optical spin waves in an atomic medium ( http://arxiv.org/abs/2108.09268v1 )

ライセンス: Link先を確認
Stefano Grava, Yizun He, Saijun Wu and Darrick E. Chang(参考訳) 原子-光相互作用の典型的な理論は、原子媒体を滑らかに扱うが、原子の粒度、双極子-双極子相互作用、多重散乱による微視的な光学効果が重要な効果をもたらすことはよく知られている。 例えば、近年、これらの成分が不規則な原子媒質中における光スピン波の基本的な密度依存性の劣化を引き起こすことが実験的に観察された。 ここで、我々は、任意の時間と原子密度に対するデファスダイナミクスの包括的理論を開発するために、以前に検討した短い時間と希薄な限界を超える。 特に、近隣同士の近接場光学的相互作用が強調過程を駆動する役割を定量的に予測するために、強い障害再正規化群に基づく新しい非摂動理論を開発する。 この理論はまた、効果的な単一原子モデルの観点から、多原子デファス・ダイナミクスの重要な特徴を捉えることができる。 これらの結果は、高密度原子メディアにおける量子光学現象の近接場相互作用によって課される限界に光を当て、そのようなシステムにおける複雑な微視的な光学現象を扱う方法として強い無秩序再正規化群の期待を示す。

While typical theories of atom-light interactions treat the atomic medium as being smooth, it is well-known that microscopic optical effects driven by atomic granularity, dipole-dipole interactions, and multiple scattering can lead to important effects. Recently, for example, it was experimentally observed that these ingredients can lead to a fundamental, density-dependent dephasing of optical spin waves in a disordered atomic medium. Here, we go beyond the short-time and dilute limits considered previously, to develop a comprehensive theory of dephasing dynamics for arbitrary times and atomic densities. In particular, we develop a novel, non-perturbative theory based on strong disorder renormalization group, in order to quantitatively predict the dominant role that near-field optical interactions between nearby neighbors has in driving the dephasing process. This theory also enables one to capture the key features of the many-atom dephasing dynamics in terms of an effective single-atom model. These results should shed light on the limits imposed by near-field interactions on quantum optical phenomena in dense atomic media, and illustrate the promise of strong disorder renormalization group as a method of dealing with complex microscopic optical phenomena in such systems.
翻訳日:2023-03-17 23:03:34 公開日:2021-08-20
# 雑音量子回路のスケーラブルな誤差緩和は競合期待値を生成する

Scalable error mitigation for noisy quantum circuits produces competitive expectation values ( http://arxiv.org/abs/2108.09197v1 )

ライセンス: Link先を確認
Youngseok Kim, Christopher J. Wood, Theodore J. Yoder, Seth T. Merkel, Jay M. Gambetta, Kristan Temme, Abhinav Kandala(参考訳) 既存の量子プロセッサのノイズは理想的な量子計算への近似のみを可能にする。 しかし、これらの近似は、小さな実験実験で示されるように、期待値の計算のために誤差緩和によって大幅に改善することができる。 しかし,これらの手法の大規模システムへの実践的スケーリングは未だ不明である。 本稿では、最大26量子ビット、60の回路深度、および1080のcnotゲートを用いた、関連する量子回路に対するゼロノイズ補間の有用性を示す。 本研究では, 製品状態の正準例のスケーリングと, 増大するクリフォード回路の絡み込みについて検討し, カップリングの異なる2次元イジングスピン格子のクエンチダイナミクスに拡張する。 回路時間を短縮する追加のエラー抑制技術とネイティブゲート分解により,誤差軽減の有効性が大幅に向上することを示す。 これらの手法を組み合わせることで、最先端2次元テンソルネットワーク法から得られる古典的近似を超越したクエンチ力学の近似量子シミュレーションにおける精度を示す。 これらの結果は、ノイズの多いデジタル量子プロセッサによる関連する量子優位への道を示す。

Noise in existing quantum processors only enables an approximation to ideal quantum computation. However, these approximations can be vastly improved by error mitigation, for the computation of expectation values, as shown by small-scale experimental demonstrations. However, the practical scaling of these methods to larger system sizes remains unknown. Here, we demonstrate the utility of zero-noise extrapolation for relevant quantum circuits using up to 26 qubits, circuit depths of 60, and 1080 CNOT gates. We study the scaling of the method for canonical examples of product states and entangling Clifford circuits of increasing size, and extend it to the quench dynamics of 2-D Ising spin lattices with varying couplings. We show that the efficacy of the error mitigation is greatly enhanced by additional error suppression techniques and native gate decomposition that reduce the circuit time. By combining these methods, we demonstrate an accuracy in the approximate quantum simulation of the quench dynamics that surpasses the classical approximations obtained from a state-of-the-art 2-D tensor network method. These results reveal a path to a relevant quantum advantage with noisy, digital, quantum processors.
翻訳日:2023-03-17 23:02:55 公開日:2021-08-20
# 量子位相空間における連続的メジャー化

Continuous majorization in quantum phase space ( http://arxiv.org/abs/2108.09167v1 )

ライセンス: Link先を確認
Zacharie Van Herstraeten, Michael G. Jabbour and Nicolas J. Cerf(参考訳) 量子位相空間における主化理論の役割を考察する。 この目的のために、正のウィグナー函数を持つ量子状態に自分自身を制限し、偏極化理論の連続バージョンが位相空間におけるウィグナー函数の情報理論的性質を探索するためのエレガントで非常に自然なアプローチを提供することを示した。 調和発振器のすべてのガウス純状態が、ハドソンの定理に照らしてよく理解できるような連続偏波の正確な意味で同値であると特定した後、基本偏波関係を予想する:任意の正のウィグナー函数は基底状態(または真空状態)のウィグナー函数によって大化される。 その結果、ウィグナー関数の任意のシュル凹関数は真空状態の値によって境界が低くなる。 これは逆に、ウィグナーエントロピー(従ってwehrlエントロピー)が真空状態の値によって境界が低くなることを意味するが、逆は特に真ではない。 我々の主な結果は、調和発振器の3つの最低固有状態の混合であるウィグナー正の量子状態の関連する部分集合に対する基本的なメジャー化関係を証明することである。 さらに、この予想は数値的な証拠も支持している。 位相空間におけるエントロピー的不確実性関係の文脈における予想の意味を議論することで結論付ける。

We explore the role of majorization theory in quantum phase space. To this purpose, we restrict ourselves to quantum states with positive Wigner functions and show that the continuous version of majorization theory provides an elegant and very natural approach to exploring the information-theoretic properties of Wigner functions in phase space. After identifying all Gaussian pure states of a harmonic oscillator as equivalent in the precise sense of continuous majorization, which can be well understood in light of Hudson's theorem, we conjecture a fundamental majorization relation: any positive Wigner function is majorized by the Wigner function of the ground state (or vacuum state). As a consequence, any Shur-concave function of the Wigner function is lower bounded by the value it takes for the vacuum state. This implies in turn that the Wigner entropy -- hence also the Wehrl entropy -- is lower bounded by its value for the vacuum state, while the converse is notably not true. Our main result is then to prove the fundamental majorization relation for a relevant subset of Wigner-positive quantum states which are mixtures of the three lowest eigenstates of the harmonic oscillator. Beyond that, the conjecture is also supported by numerical evidence. We conclude by discussing the implications of the conjecture in the context of entropic uncertainty relations in phase space.
翻訳日:2023-03-17 23:02:37 公開日:2021-08-20
# hayden-preskillプロトコルと有限温度でのホーキング放射の復号化

Hayden-Preskill protocol and decoding Hawking radiation at finite temperature ( http://arxiv.org/abs/2108.09144v1 )

ライセンス: Link先を確認
Ran Li, Jin Wang(参考訳) 本研究では,Hayden-Preskillシンキング実験を有限温度で研究し,ホーキング放射を復号することで,古いブラックホールに投げられた情報を抽出できる解離条件を得る。 次に、全放射とブラックホールのユニタリダイナミクスにアクセスできるブラックホールの外の観測者を仮定して、Hayden-Preskillプロトコルを有限温度で復号する。 また,ホーキング放射が貯蔵中にノイズやデコヒーレンスがある場合についても考察する。 復号確率と対応する忠実度を算出する。 私たちが検討した3つのケースすべてにおいて、復号性は一般に統一性よりも小さいことが示されている。 この結果は,有限温度ではデコード戦略とリカバリアルゴリズムは無限温度よりも実現が困難であることを示している。

We study the Hayden-Preskill thought experiment at finite temperature and obtain the decoupling condition that the information thrown into an old black hole can be extracted by decoding the Hawking radiation. We then consider the decoding Hayden-Preskill protocol at finite temperature assuming the observer outside the black hole who has the access to the full radiation and the unitary dynamics of the black hole. We also consider the cases when the Hawking radiation has noise and decoherence in the storage. The decoding probabilities and the corresponding fidelities are calculated. It is shown that for all the three cases we have considered, the decoding fidelities are less than unity in general. This result indicates that at finite temperature, the decoding strategy and the recovery algorithm is harder to realize than that at infinite temperature.
翻訳日:2023-03-17 23:02:13 公開日:2021-08-20
# 雑音極大絡み状態を持つ非局所ゲームは決定可能である

Nonlocal games with noisy maximally entangled states are decidable ( http://arxiv.org/abs/2108.09140v1 )

ライセンス: Link先を確認
Minglong Qin and Penghui Yao(参考訳) 本稿では,非ローカルゲームの特別なクラスである$(g,\psi)$を考える。ここでは$g$は2人プレイのワンラウンドゲームであり,$\psi$は$g$とは独立した2部制である。 ゲーム$(G,\psi)$では、プレイヤーは任意の数の$\psi$のコピーを共有することができる。 ゲーム $(G,\psi)$ の値は$\omega^*(G,\psi)$ で表され、プレイヤーが任意の数のプレシェイド状態のコピーで達成できる勝利確率の上限である。 雑音的に最大に絡み合った状態$\psi$, 2人プレイヤの1ラウンドゲーム$G$, 任意に小さな精度$\epsilon>0$に対して、この論文はプレイヤーがゲームに勝つ確率$\epsilon$を$\omega^*(G,\psi)$に近い確率で獲得するための$\psi$のコピー数に対する上限を証明している。 したがって、およそ$\omega^*(G,\psi)$を任意の精度で計算することが可能である。 最近では、Ji, Natarajan, Vidick, Wright, Yuen によるブレークスルーの結果、プレイヤーが完全最大絡み合った状態のコピーを任意に多くのコピーするときに、非局所ゲームの価値を一定の精度で近似することは決定不可能であることが示され、$\mathrm{MIP}^*=\mathrm{RE}$ となる。 対照的に,本研究の結果は,事前共有された最大絡み合い状態が雑音である場合,非局所ゲーム近似の難易度が低下することを示している。 本稿では,行列空間に対するフーリエ解析の理論を,ブール解析とエルミート解析を行列空間に拡張することによって展開する。 我々は、量子不変原理やランダム演算子に対する超収縮的不等式のような一連の新しい手法を確立し、さらなる応用があると信じている。

This paper considers a special class of nonlocal games $(G,\psi)$, where $G$ is a two-player one-round game, and $\psi$ is a bipartite state independent of $G$. In the game $(G,\psi)$, the players are allowed to share arbitrarily many copies of $\psi$. The value of the game $(G,\psi)$, denoted by $\omega^*(G,\psi)$, is the supremum of the winning probability that the players can achieve with arbitrarily many copies of preshared states $\psi$. For a noisy maximally entangled state $\psi$, a two-player one-round game $G$ and an arbitrarily small precision $\epsilon>0$, this paper proves an upper bound on the number of copies of $\psi$ for the players to win the game with a probability $\epsilon$ close to $\omega^*(G,\psi)$. Hence, it is feasible to approximately compute $\omega^*(G,\psi)$ to an arbitrarily precision. Recently, a breakthrough result by Ji, Natarajan, Vidick, Wright and Yuen showed that it is undecidable to approximate the values of nonlocal games to a constant precision when the players preshare arbitrarily many copies of perfect maximally entangled states, which implies that $\mathrm{MIP}^*=\mathrm{RE}$. In contrast, our result implies the hardness of approximating nonlocal games collapses when the preshared maximally entangled states are noisy. The paper develops a theory of Fourier analysis on matrix spaces by extending a number of techniques in Boolean analysis and Hermitian analysis to matrix spaces. We establish a series of new techniques, such as a quantum invariance principle and a hypercontractive inequality for random operators, which we believe have further applications.
翻訳日:2023-03-17 23:01:59 公開日:2021-08-20
# 窒素空隙センタ型センシング用平面マイクロ波アンテナの最適化

Optimized Planar Microwave Antenna for Nitrogen Vacancy Center based Sensing Applications ( http://arxiv.org/abs/2108.09122v1 )

ライセンス: Link先を確認
Oliver Roman Opaluch, Nimba Oshnik, Richard Nelz, and Elke Neu(参考訳) ダイヤモンド中の窒素空孔(NV)色中心は、スピンベースの多用途量子センサーである。 NV中心のスピンを2.5GHzから3.5GHzの周波数帯でマイクロ波でコヒーレントに制御する必要がある。 本研究では,NVスピンを確実に操作できるストリップライン型平面形マイクロ波アンテナを提案する。 有限積分シミュレーションを用いて最適アンテナ設計を行う。 低コストで透明なガラス基板上にアンテナを作製する。 約400 x 400 {\mu}m^2の領域におけるマイクロ波の高均一性を示すとともに,NV中心のアンサンブルにおいて最大10MHzのRabi周波数を実現する。

Individual nitrogen vacancy (NV) color centers in diamond are versatile, spin-based quantum sensors. Coherently controlling the spin of NV centers using microwaves in a typical frequency range between 2.5 and 3.5 GHz is necessary for sensing applications. In this work, we present a stripline-based, planar, {\Omega}-shaped microwave antenna that enables to reliably manipulate NV spins. We find an optimal antenna design using finite integral simulations. We fabricate our antennas on low-cost, transparent glass substrate. We demonstrate highly uniform microwave fields in areas of roughly 400 x 400 {\mu}m^2 while realizing high Rabi frequencies of up to 10 MHz in an ensemble of NV centers.
翻訳日:2023-03-17 23:01:20 公開日:2021-08-20
# 強化学習と自律運転の独立研究

An Independent Study of Reinforcement Learning and Autonomous Driving ( http://arxiv.org/abs/2110.07729v1 )

ライセンス: Link先を確認
Hanzhi Yang(参考訳) 強化学習は、この10年でもっともトレンドとなっている科目の一つとなっている。 ロボット操作、自律運転、経路計画、コンピュータゲームなど、さまざまな分野で応用されている。 私たちはこのプロジェクトの過程で3つの仕事を成し遂げた。 まず,表環境のq-learningアルゴリズムを検討した結果,openaiジム環境である taxi に適用した。 次に,カートポール環境におけるディープqネットワークアルゴリズムの理解と実装を行った。 第3に,自律運転における強化学習の適用と安全チェック制約(安全制御装置)の併用についても検討した。 高速道路ギム環境を用いた大雑把な自律運転エージェントを訓練し,報奨機能などの環境構成がエージェントの訓練性能に及ぼす影響について検討した。

Reinforcement learning has become one of the most trending subjects in the recent decade. It has seen applications in various fields such as robot manipulations, autonomous driving, path planning, computer gaming, etc. We accomplished three tasks during the course of this project. Firstly, we studied the Q-learning algorithm for tabular environments and applied it successfully to an OpenAi Gym environment, Taxi. Secondly, we gained an understanding of and implemented the deep Q-network algorithm for Cart-Pole environment. Thirdly, we also studied the application of reinforcement learning in autonomous driving and its combination with safety check constraints (safety controllers). We trained a rough autonomous driving agent using highway-gym environment and explored the effects of various environment configurations like reward functions on the agent training performance.
翻訳日:2023-03-17 22:54:27 公開日:2021-08-20
# 量子プローブからのカオスの偽信号

False signals of chaos from quantum probes ( http://arxiv.org/abs/2108.09391v1 )

ライセンス: Link先を確認
W. Kirkby, D. H. J. O'Dell, J. Mumford(参考訳) 古典的正則力学系においてもランダム行列理論によって予測される挙動を示すことにより,時間外順序相関関数(otocs)の一般化である2時間相関関数はカオスの「false-flag」を示すことができることを示した。 特に,二重ウェルポテンシャルに閉じ込められ,粒子に分散結合した量子ドットによって観測されたボソンの系を解析した。 これは可積分系である(分離された部分と総称される)。 実際のハミルトニアンが生成する連続時間発展にもかかわらず、プローブのn-フォールドの2-時間相関関数は、デジタル量子シミュレーションで発生するトロッタライズド時間発展を想起させる形で、2つの異なる非可換ハミルトニアンによってボソンが交互に駆動されるような、効果的なストロボスコープまたはフロッケダイナミクスを記述する。 この有効なダイナミクスの古典的極限は非ゼロのリアプノフ指数を持ち、有効レベルの統計と帰納確率はカオス的振る舞いの伝統的なシグネチャを示す。 いくつかの最近の研究と並行して、この研究は、OTOCの挙動とその一般化が注意を払って解釈されなければならないという事実を強調している。

We demonstrate that two-time correlation functions, which are generalizations of out-of-time-ordered correlators (OTOCs), can show 'false-flags' of chaos by exhibiting behaviour predicted by random matrix theory even in a system with classically regular dynamics. In particular, we analyze a system of bosons trapped in a double-well potential and probed by a quantum dot which is coupled to the bosons dispersively. This is an integrable system (considered both as separate parts and in total). Despite the continuous time evolution generated by the actual Hamiltonian, we find that the n-fold two-time correlation function for the probe describes an effective stroboscopic or Floquet dynamics whereby the bosons appear to be alternately driven by two different non-commuting Hamiltonians in a manner reminiscent of the Trotterized time evolution that occurs in digital quantum simulation. The classical limit of this effective dynamics can have a nonzero Lyapunov exponent, while the effective level statistics and return probability show traditional signatures of chaotic behaviour. In line with several other recent studies, this work highlights the fact that the behavior of OTOCs and their generalizations must be interpreted with some care.
翻訳日:2023-03-17 22:53:53 公開日:2021-08-20
# 完全移行と分数再生を伴う「ニュートンクレードル」の解析

Analytic "Newton's cradles" with perfect transfer and fractional revival ( http://arxiv.org/abs/2108.09386v1 )

ライセンス: Link先を確認
Hugo Sch\'erer, Luc Vinet, Alexei Zhedanov(参考訳) 無分散パルス転送および分数再生を有する分析質量ばね鎖について述べる。 これらはパララッカ多項式の性質を用いて得られる。 これは量子情報の重要なタスクである完全状態移動と絡み合い生成を実現する量子スピンチェーンの古典的なアナログを提供する。

Analytic mass-spring chains with dispersionless pulse transfer and fractional revival are presented. These are obtained using the properties of the para-Racah polynomials. This provides classical analogs of the quantum spin chains that realize important tasks in quantum information: perfect state transfer and entanglement generation.
翻訳日:2023-03-17 22:53:32 公開日:2021-08-20
# ポラリトン系量子メmristor

Polariton-based quantum memristors ( http://arxiv.org/abs/2108.09382v1 )

ライセンス: Link先を確認
Ariel Norambuena, Felipe Torres, Massimiliano Di Ventra and Ra\'ul Coto(参考訳) 同じ物理システムによる情報処理と保存は、従来のコンピューティングプラットフォームに代わる有望な選択肢として現れつつある。 逆に、メモリの内容を容易に調整し制御できる基本ユニットを実現する必要がある。 本稿では,ポラリトン型量子メムリスタについて紹介する。メムリゾリューションの性質はキャビティ間ポラリトン交換から生じ,時間的に変化する原子キャビティデチューニングによって制御される。 動的ヒステリシスは、履歴情報が動的位相に符号化される瞬間偏光子数の変動によって特徴づけられる。 リンドブラッド・マスター方程式のアプローチを用いて、ヒステリシスループの領域や循環のような量子メムリスタダイナミクスの特徴は、量子状態の初期化によって制御されるある種の「塑性」を示す。 これにより、この量子メムリスタは幅広い用途に非常に汎用性がある。

Information processing and storing by the same physical system is emerging as a promising alternative to traditional computing platforms. In turn, this requires the realization of elementary units whose memory content can be easily tuned and controlled. Here, we introduce a polariton-based quantum memristor where the memristive nature arises from the inter-cavity polariton exchange and is controlled by a time-varying atom-cavity detuning. A dynamical hysteresis is characterized by the fluctuations in the instantaneous polariton number, where the history information is encoded into a dynamical phase. Using a Lindblad master equation approach, we find that features of the quantum memristor dynamics, such as the area and circulation of the hysteresis loop, showcase a kind of "plasticity" controlled by quantum state initialization. This makes this quantum memristor very versatile for a wide range of applications
翻訳日:2023-03-17 22:53:29 公開日:2021-08-20
# 臨界量子スピン鎖における熱場二重状態のマルチバウンダリー一般化とその実現

Multi-boundary generalization of thermofield double states and their realization in critical quantum spin chains ( http://arxiv.org/abs/2108.09366v1 )

ライセンス: Link先を確認
Yijian Zou, Guifre Vidal(参考訳) 二次元共形場理論(CFT)の熱場二重状態(TFD)の多元的一般化を提案し、複素平面への共形写像を通して、それらが多点相関関数と密接に関連していることを示す。 次に、臨界量子スピン鎖ハミルトニアンから、格子上でこれらの多界TFD状態を数値的にほぼ実現する方法についても述べる。 さらに、格子上の有限サイズの補正は、量子スピンの自由度を局所的に再配置する数値的に最適化されたユニタリ変換である \textit{smoothers} の使用によって大幅に削減される。 スピン鎖実現の利点の1つは、その絡み合い構造の特徴づけを含む数値実験により、提案された多界TFD状態の性質を探索できることである。 図示として,Ising CFTの3つの境界と4つの境界を持つ一般化TFD状態と,新しい自由フェルミオン法による絡み合い量とを明示的に構成する。 マルチパーティの絡み合いが重要あるいは無視できるパラメータの範囲を見つけ出す。

We propose a multi-boundary generalization of thermofield double states (TFD) of a two-dimensional conformal field theory (CFT) and show, through a conformal map to the complex plane, that they are closely related to multi-point correlation functions. We then also describe how to approximately realize these multi-boundary TFD states numerically on the lattice, starting from a critical quantum spin chain Hamiltonian. In addition, finite size corrections on the lattice are seen to be significantly reduced by the use of \textit{smoothers} -- numerically optimized unitary transformations that locally re-arrange the quantum spin degrees of freedom. One merit of the spin chain realization is that it allows us to probe the properties of the proposed multi-boundary TFD states through numerical experiments, including the characterization of their entanglement structure. As an illustration, we explicitly construct generalized TFD states with three and four boundaries for the Ising CFT and compute entanglement quantities using novel free fermion techniques. We find ranges of parameters where their multipartite entanglement is significant or negligible.
翻訳日:2023-03-17 22:53:14 公開日:2021-08-20
# Fock Space Perspective on Optimal Heralding Schemes

Fock Space Perspective on Optimal Heralding Schemes ( http://arxiv.org/abs/2108.09336v1 )

ライセンス: Link先を確認
F.V. Gubarev(参考訳) 線形光量子コンピューティングの文脈における最適シェルディングスキームの設計に対処する。 この問題は, [phys. rev. a100, 022301; arxiv:1901.06178] の線形視可能性基準により, 関連するフォック空間における単位忠実性の定式化が認められる。 対応する解法が提示される。 応用としてベル状態生成のいくつかの既知のスキームの最適性を検証する。 6モードと2次光子成功率2/27は準最適であることが示されている。

We address the design of optimal heralding schemes in linear optical quantum computing context. The problem admits unit fidelity formulation in relevant Fock space, thanks to linear optic feasibility criteria of [Phys. Rev. A100, 022301; arXiv:1901.06178]. Corresponding solution methodology is presented. As an application we inspect optimality of a few known schemes of Bell states generation. It is shown that in case of six modes and two ancillary photons success rate 2/27 is suboptimal.
翻訳日:2023-03-17 22:52:13 公開日:2021-08-20
# 可変スピン系の半古典的離散化と長期進化

Semi-Classical Discretization and Long-Time Evolution of Variable Spin Systems ( http://arxiv.org/abs/2108.09324v1 )

ライセンス: Link先を確認
Giovani E. Morales-Hern\'andez, Juan C. Castellanos, Jos\'e L. Romero and Andrei B. Klimov(参考訳) 一般化された$SO(3)$写像の半古典的極限を4次元シンプレクティック多様体における変数スピン系の表現に適用し、$T^{\ast }\mathcal{S}_{2}$上の有効古典力学の進化項を近似する。 恒星生成物の漸近形式を用いて、古典的な動的変数の1つを「量子化」し、Trncated Wigner Approximation (TWA) の離散化版を導入する。 量子力学の2つのエンブレマティックな例(外部場におけるローターと2つの結合スピン)を解析し、twaの完全、連続、離散化の結果を比較した。

We apply the semi-classical limit of the generalized $SO(3)$ map for representation of variable-spin systems in a four-dimensional symplectic manifold and approximate their evolution terms of effective classical dynamics on $T^{\ast }\mathcal{S}_{2}$. Using the asymptotic form of the star-product, we manage to "quantize" one of the classical dynamic variables and introduce a discretized version of the Truncated Wigner Approximation (TWA). Two emblematic examples of quantum dynamics (rotor in an external field and two coupled spins) are analyzed, and the results of exact, continuous, and discretized versions of TWA are compared.
翻訳日:2023-03-17 22:52:04 公開日:2021-08-20
# 一貫性最適化対象に向けた動的階層的ミミキング

Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives ( http://arxiv.org/abs/2003.10739v2 )

ライセンス: Link先を確認
Duo Li and Qifeng Chen(参考訳) 現代の畳み込みニューラルネットワーク(CNN)の深さは、先駆的なネットワークの深さをかなり上回っているが、従来の監督方法は、最終分類器を越え、上流の勾配流を徐々に伝播させるだけである。 長い鎖を通る勾配流に起因する最適化の難しさを軽減するため, セミナルディープ・スーパーバイザード・ネットワーク (DSN) が提案された。 しかし,本稿では,階層的表現生成プロセスへの干渉や,一貫性のない最適化目標などの問題に対して,まだ脆弱である。 従来の学習戦略を補完し,汎用的特徴学習機構である動的階層模倣法を提案し,一般化能力を高めたcnnトレーニングを前進させる。 DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。 各ブランチは、バックボーンネットワークに根付いた表現を保持するだけでなく、独自の経路に沿ってより多様な表現を生成する。 さらに,各分岐間の多レベル相互作用を最適化公式により促進し,確率的予測損失を予測し,より堅牢な最適化プロセスと表現能力を保証する。 カテゴリ認識タスクとインスタンス認識タスクの両方の実験は、様々な最先端CNNアーキテクチャを用いて、対応する手法よりも大幅に改善されたことを示す。 コードとモデルはhttps://github.com/d-li14/dhmで公開されている。

While the depth of modern Convolutional Neural Networks (CNNs) surpasses that of the pioneering networks with a significant margin, the traditional way of appending supervision only over the final classifier and progressively propagating gradient flow upstream remains the training mainstay. Seminal Deeply-Supervised Networks (DSN) were proposed to alleviate the difficulty of optimization arising from gradient flow through a long chain. However, it is still vulnerable to issues including interference to the hierarchical representation generation process and inconsistent optimization objectives, as illustrated theoretically and empirically in this paper. Complementary to previous training strategies, we propose Dynamic Hierarchical Mimicking, a generic feature learning mechanism, to advance CNN training with enhanced generalization ability. Partially inspired by DSN, we fork delicately designed side branches from the intermediate layers of a given neural network. Each branch can emerge from certain locations of the main branch dynamically, which not only retains representation rooted in the backbone network but also generates more diverse representations along its own pathway. We go one step further to promote multi-level interactions among different branches through an optimization formula with probabilistic prediction matching losses, thus guaranteeing a more robust optimization process and better representation ability. Experiments on both category and instance recognition tasks demonstrate the substantial improvements of our proposed method over its corresponding counterparts using diverse state-of-the-art CNN architectures. Code and models are publicly available at https://github.com/d-li14/DHM
翻訳日:2022-12-20 09:18:52 公開日:2021-08-20
# graph to graphsフレームワークによる再合成予測

A Graph to Graphs Framework for Retrosynthesis Prediction ( http://arxiv.org/abs/2003.12725v3 )

ライセンス: Link先を確認
Chence Shi, Minkai Xu, Hongyu Guo, Ming Zhang, Jian Tang(参考訳) 計算化学における基本的な問題は、標的分子、すなわちレトロ合成予測を合成する反応剤の集合を見つけることである。 既存の最先端の手法は、ターゲット分子と大量の反応テンプレートのマッチングに依存しているが、計算コストが非常に高く、カバレッジの問題も抱えている。 本稿では,標的分子グラフを反応分子グラフの集合に変換することにより,G2Gsと呼ばれるテンプレートフリーな手法を提案する。 G2Gsはまず反応中心を同定し、標的となる分子グラフを一連のシンソンに分割し、その後変分グラフ変換フレームワークを介して最終反応グラフに変換する。 実験結果から,G2Gsは従来のテンプレートフリーアプローチを最大63%向上させ,最先端のテンプレートベースアプローチに近い性能を実現するが,ドメイン知識は必要とせず,はるかにスケーラブルであることがわかった。

A fundamental problem in computational chemistry is to find a set of reactants to synthesize a target molecule, a.k.a. retrosynthesis prediction. Existing state-of-the-art methods rely on matching the target molecule with a large set of reaction templates, which are very computationally expensive and also suffer from the problem of coverage. In this paper, we propose a novel template-free approach called G2Gs by transforming a target molecular graph into a set of reactant molecular graphs. G2Gs first splits the target molecular graph into a set of synthons by identifying the reaction centers, and then translates the synthons to the final reactant graphs via a variational graph translation framework. Experimental results show that G2Gs significantly outperforms existing template-free approaches by up to 63% in terms of the top-1 accuracy and achieves a performance close to that of state-of-the-art template based approaches, but does not require domain knowledge and is much more scalable.
翻訳日:2022-12-18 23:29:15 公開日:2021-08-20
# 不均衡時系列分類のためのマイノリティオーバーサンプリング

Minority Oversampling for Imbalanced Time Series Classification ( http://arxiv.org/abs/2004.06373v5 )

ライセンス: Link先を確認
Tuanfei Zhu, Cheng Luo, Jing Li, Siqi Ren and Zhihong Zhang(参考訳) 多くの重要な実世界のアプリケーションは、歪んだ分布を持つ時系列データを含んでいる。 従来の不均衡学習問題に比べ、不均衡時系列データの分類は高次元と高変量相関のためより困難である。 本稿では,高次元不均衡時間系列分類(OHIT)に対処するオーバーサンプリング手法を提案する。 OHITはまず、密度比に基づく共有近傍クラスタリングアルゴリズムを利用して、高次元空間におけるマイノリティクラスのモードをキャプチャする。 各モードに対して、大次元共分散行列の収縮法を適用して、正確かつ信頼性の高い共分散構造を得る。 最後にohitは推定共分散行列を用いて多変量ガウス分布に基づく構造保存合成サンプルを生成する。 いくつかの公開時系列データセット(unimodalや multimodalを含む)の実験結果は、F1、G-mean、AUCといった最先端のオーバーサンプリングアルゴリズムに対するOHITの優位性を示している。

Many important real-world applications involve time-series data with skewed distribution. Compared to conventional imbalance learning problems, the classification of imbalanced time-series data is more challenging due to high dimensionality and high inter-variable correlation. This paper proposes a structure preserving Oversampling method to combat the High-dimensional Imbalanced Time-series classification (OHIT). OHIT first leverages a density-ratio based shared nearest neighbor clustering algorithm to capture the modes of minority class in high-dimensional space. It then for each mode applies the shrinkage technique of large-dimensional covariance matrix to obtain accurate and reliable covariance structure. Finally, OHIT generates the structure-preserving synthetic samples based on multivariate Gaussian distribution by using the estimated covariance matrices. Experimental results on several publicly available time-series datasets (including unimodal and multimodal) demonstrate the superiority of OHIT against the state-of-the-art oversampling algorithms in terms of F1, G-mean, and AUC.
翻訳日:2022-12-13 08:55:40 公開日:2021-08-20
# AlphaPilot:自律型ドローンレース

AlphaPilot: Autonomous Drone Racing ( http://arxiv.org/abs/2005.12813v2 )

ライセンス: Link先を確認
Philipp Foehn, Dario Brescianini, Elia Kaufmann, Titus Cieslewski, Mathias Gehrig, Manasi Muglikar and Davide Scaramuzza(参考訳) 本稿では,学習データ抽象化,非線形フィルタリング,時間-最適軌道計画を組み合わせた自律型視覚型ドローンレースシステムを提案する。 このシステムは、初の自律型ドローンレース世界選手権、2019 alphapilot challengeで展開に成功した。 次のゲートのみを検出する従来のドローンレースシステムとは対照的に、当社のアプローチでは、任意の可視ゲートを利用し、複数の同時ゲート検出を利用して、状態推定におけるドリフトを補償し、ゲートのグローバルマップを構築する。 グローバルマップとドリフト補償状態の推定により、ゲートがすぐに見えない場合でも、ドローンはレースコースをナビゲートでき、さらに近似ドローンのダイナミックスに基づいて、レースコースをほぼ最適な経路をリアルタイムで計画することができる。 提案されたシステムは、2019年のAlphaPilot Challengeで最高速度8m/sでドローンを誘導することに成功した。

This paper presents a novel system for autonomous, vision-based drone racing combining learned data abstraction, nonlinear filtering, and time-optimal trajectory planning. The system has successfully been deployed at the first autonomous drone racing world championship: the 2019 AlphaPilot Challenge. Contrary to traditional drone racing systems, which only detect the next gate, our approach makes use of any visible gate and takes advantage of multiple, simultaneous gate detections to compensate for drift in the state estimate and build a global map of the gates. The global map and drift-compensated state estimate allow the drone to navigate through the race course even when the gates are not immediately visible and further enable to plan a near time-optimal path through the race course in real time based on approximate drone dynamics. The proposed system has been demonstrated to successfully guide the drone through tight race courses reaching speeds up to 8m/s and ranked second at the 2019 AlphaPilot Challenge.
翻訳日:2022-11-29 00:49:35 公開日:2021-08-20
# コンピュータビジョンを用いたcctvカメラの大規模・自動化・高精度検出に向けて プライバシ、安全性、サイバーセキュリティに対するアプリケーションと影響。 (プレプリント)

Towards large-scale, automated, accurate detection of CCTV camera objects using computer vision. Applications and implications for privacy, safety, and cybersecurity. (Preprint) ( http://arxiv.org/abs/2006.03870v3 )

ライセンス: Link先を確認
Hannu Turtiainen, Andrei Costin, Tuomo Lahtinen, Lauri Sintonen, Timo Hamalainen(参考訳) CCTVカメラや技術によるプライバシーの継続的な侵略に対処するためには、プライバシー、安全性、サイバーセキュリティ機能を提供するCCTV対応のソリューションが存在している必要がある。 このようなCCTV対応ソリューションへの第一歩は、プライバシと安全ルーティングとナビゲーションの両方を提供するマッピングシステム(Google Maps、OpenStreetMapなど)でなければなりません。 しかし、このマッピングシステムは、CCTVカメラの正確な位置情報、カバレッジエリア、およびおそらく他のメタデータ(例えば、解像度、顔認識機能、オペレーター)に関する更新情報を含む必要がある。 しかし、現在のマッピングシステムにはそのような情報が欠落しており、これを修正する方法はいくつかある。 例えば、さまざまなプラットフォーム上のストリートビュー画像、flickrなどの画像共有プラットフォームに公開されているユーザー画像などだ。 残念ながら、私たちの知る限りでは、CCTVカメラオブジェクト検出のためのコンピュータビジョンモデルや、プライバシと安全ルーティングオプションをサポートするマッピングシステムはありません。 このギャップを埋めるために、本稿では、画像やビデオフレーム内のCCTVおよびビデオ監視カメラを正確に検出できるコンピュータビジョンMS COCO互換モデルとして、CCTVCVを紹介します。 この目的のために、最高の検出器は8387の画像を手動でレビューし、10419個のCCTVカメラインスタンスを含むように注釈付けし、98.7%の精度を実現した。 さらに,複数のモデルを構築し評価し,その性能の包括的比較を行い,研究の核となる課題を概説する。

In order to withstand the ever-increasing invasion of privacy by CCTV cameras and technologies, on par CCTV-aware solutions must exist that provide privacy, safety, and cybersecurity features. We argue that a first important step towards such CCTV-aware solutions must be a mapping system (e.g., Google Maps, OpenStreetMap) that provides both privacy and safety routing and navigation options. However, this in turn requires that the mapping system contains updated information on CCTV cameras' exact geo-location, coverage area, and possibly other meta-data (e.g., resolution, facial recognition features, operator). Such information is however missing from current mapping systems, and there are several ways to fix this. One solution is to perform CCTV camera detection on geo-location tagged images, e.g., street view imagery on various platforms, user images publicly posted in image sharing platforms such as Flickr. Unfortunately, to the best of our knowledge, there are no computer vision models for CCTV camera object detection as well as no mapping system that supports privacy and safety routing options. To close these gaps, with this paper we introduce CCTVCV -- the first and only computer vision MS COCO-compatible models that are able to accurately detect CCTV and video surveillance cameras in images and video frames. To this end, our best detectors were built using 8387 images that were manually reviewed and annotated to contain 10419 CCTV camera instances, and achieve an accuracy of up to 98.7%. Moreover, we build and evaluate multiple models, present a comprehensive comparison of their performance, and outline core challenges associated with such research.
翻訳日:2022-11-24 21:59:13 公開日:2021-08-20
# 真に教師なしの画像から画像への翻訳を再考する

Rethinking the Truly Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2006.06500v2 )

ライセンス: Link先を確認
Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim(参考訳) 最近の画像から画像への変換モデルは、本質的にイメージレベル(入力出力ペア)またはセットレベル(ドメインラベル)の監督を必要とする。 しかし、セットレベルの監視でさえ、実際にはデータ収集にとって深刻なボトルネックとなる可能性がある。 本稿では、画像から画像への変換を、完全に教師なしの設定、すなわち、ペア画像もドメインラベルも取り扱う。 そこで本研究では、画像領域を分離し、入力画像を推定領域に変換する、真の教師なしイメージ・ツー・イメージ翻訳モデル(TUNIT)を提案する。 実験結果から,本モデルは,フルラベルで訓練されたセットレベルの教師付きモデルと同等あるいはそれ以上の性能を達成でき,様々なデータセットでよく一般化でき,ハイパーパラメータの選択(擬似ドメインのプリセット数など)に対して堅牢であることが示された。 さらに、TUNITはラベル付きデータでセミ教師付き学習に容易に拡張できる。

Every recent image-to-image translation model inherently requires either image-level (i.e. input-output pairs) or set-level (i.e. domain labels) supervision. However, even set-level supervision can be a severe bottleneck for data collection in practice. In this paper, we tackle image-to-image translation in a fully unsupervised setting, i.e., neither paired images nor domain labels. To this end, we propose a truly unsupervised image-to-image translation model (TUNIT) that simultaneously learns to separate image domains and translates input images into the estimated domains. Experimental results show that our model achieves comparable or even better performance than the set-level supervised model trained with full labels, generalizes well on various datasets, and is robust against the choice of hyperparameters (e.g. the preset number of pseudo domains). Furthermore, TUNIT can be easily extended to semi-supervised learning with a few labeled data.
翻訳日:2022-11-22 12:57:10 公開日:2021-08-20
# プライバシ保存型低解像度深度画像のヒューマンポース推定

Human Pose Estimation on Privacy-Preserving Low-Resolution Depth Images ( http://arxiv.org/abs/2007.08340v2 )

ライセンス: Link先を確認
Vinkle Srivastav, Afshin Gangi, Nicolas Padoy(参考訳) ヒューマンポーズ推定(HPE)は、オペレーティングルーム(OR)内でAIベースのコンテキスト認識システムを開発するための重要なビルディングブロックである。 OR天井に搭載されたカメラからの24/7画像の使用は、RGB-Dセンサーが捉えた奥行き画像であってもプライバシーの懸念を引き起こす可能性がある。 低解像度のプライバシー保存イメージのみを使用できることで、これらの懸念に対処し、より多くのorsにデータに依存するコンピュータ支援アプローチのスケールアップに役立ちます。 本稿では,低解像度深度画像におけるhpeの問題を紹介し,マルチスケール超高解像度ネットワークと2次元人格推定ネットワークを統合するエンドツーエンドソリューションを提案する。 提案手法は, 異なる超解像度で生成した中間特徴写像を利用して, フル解像度画像(640×480)でトレーニング, テストしたアプローチと同等の低解像度画像(64x48)のボディポーズ結果を得る。

Human pose estimation (HPE) is a key building block for developing AI-based context-aware systems inside the operating room (OR). The 24/7 use of images coming from cameras mounted on the OR ceiling can however raise concerns for privacy, even in the case of depth images captured by RGB-D sensors. Being able to solely use low-resolution privacy-preserving images would address these concerns and help scale up the computer-assisted approaches that rely on such data to a larger number of ORs. In this paper, we introduce the problem of HPE on low-resolution depth images and propose an end-to-end solution that integrates a multi-scale super-resolution network with a 2D human pose estimation network. By exploiting intermediate feature-maps generated at different super-resolution, our approach achieves body pose results on low-resolution images (of size 64x48) that are on par with those of an approach trained and tested on full resolution images (of size 640x480).
翻訳日:2022-11-09 23:24:10 公開日:2021-08-20
# マルチパーソン2D/3D人物姿勢推定のための不正ORデータの自己監督

Self-supervision on Unlabelled OR Data for Multi-person 2D/3D Human Pose Estimation ( http://arxiv.org/abs/2007.08354v2 )

ライセンス: Link先を確認
Vinkle Srivastav, Afshin Gangi, Nicolas Padoy(参考訳) 2d/3d人間のポーズ推定は,臨床活動の分析と支援が可能な手術室のための新しい知的ツールの開発に必要である。 注釈付きデータの欠如と最先端のポーズ推定アプローチの複雑さは、or内にそのようなテクニックを展開することを制限する。 本研究では,教師・学生の枠組みで知識蒸留を活用し,大規模非注釈データセットに存在する知識を活用し,高精度かつ複雑な多段階教師ネットワークを用いて,2d/3dポーズ推定のための軽量ネットワークを訓練することを提案する。 教師ネットワークは、未ラベルのデータを利用して、生徒の予測を改善するのに役立つハードラベルとソフトラベルの両方を生成する。 この効果的なセルフスーパービジョン戦略を用いてトレーニングされた容易にデプロイ可能なネットワークは、すべての人が完全に注釈付けされた公開MVORデータセットの拡張である \emph{MVOR+} 上の教師ネットワークと同等に動作し、ORにおけるリアルタイム2D/3D人間のポーズ推定に実行可能なソリューションを提供する。

2D/3D human pose estimation is needed to develop novel intelligent tools for the operating room that can analyze and support the clinical activities. The lack of annotated data and the complexity of state-of-the-art pose estimation approaches limit, however, the deployment of such techniques inside the OR. In this work, we propose to use knowledge distillation in a teacher/student framework to harness the knowledge present in a large-scale non-annotated dataset and in an accurate but complex multi-stage teacher network to train a lightweight network for joint 2D/3D pose estimation. The teacher network also exploits the unlabeled data to generate both hard and soft labels useful in improving the student predictions. The easily deployable network trained using this effective self-supervision strategy performs on par with the teacher network on \emph{MVOR+}, an extension of the public MVOR dataset where all persons have been fully annotated, thus providing a viable solution for real-time 2D/3D human pose estimation in the OR.
翻訳日:2022-11-09 23:23:52 公開日:2021-08-20
# GraphReach: 到達可能性推定を用いた位置対応グラフニューラルネットワーク

GraphReach: Position-Aware Graph Neural Network using Reachability Estimations ( http://arxiv.org/abs/2008.09657v4 )

ライセンス: Link先を確認
Sunil Nishad and Shubhangi Agarwal and Arnab Bhattacharya and Sayan Ranu(参考訳) 既存のグラフニューラルネットワーク(GNN)の大多数は、その位置を符号化するノード埋め込みを学ぶ。 その結果、2つのノードは、非常に遠くにあるが、類似したローカルな地区にある。 この制限は、位置情報に依存する予測タスクの正確なパフォーマンスを妨げる。 本稿では,位置認識型誘導型GNNであるGraphReachを開発し,アンカーノードの集合に対する到達可能性推定により,ノードのグローバルな位置をキャプチャする。 アンカーは戦略的に選択され、すべてのノードに対する到達可能性推定が最大化される。 この組合せ的アンカー選択問題はNP-hardであり、従ってグリーディ(1-1/e)近似ヒューリスティックを開発する。 最先端のGNNアーキテクチャに対する実証的な評価は、GraphReachが精度を最大40%改善することを示している。 さらに、敵の攻撃に対してより強固である。

Majority of the existing graph neural networks (GNN) learn node embeddings that encode their local neighborhoods but not their positions. Consequently, two nodes that are vastly distant but located in similar local neighborhoods map to similar embeddings in those networks. This limitation prevents accurate performance in predictive tasks that rely on position information. In this paper, we develop GraphReach, a position-aware inductive GNN that captures the global positions of nodes through reachability estimations with respect to a set of anchor nodes. The anchors are strategically selected so that reachability estimations across all the nodes are maximized. We show that this combinatorial anchor selection problem is NP-hard and, consequently, develop a greedy (1-1/e) approximation heuristic. Empirical evaluation against state-of-the-art GNN architectures reveal that GraphReach provides up to 40% relative improvement in accuracy. In addition, it is more robust to adversarial attacks.
翻訳日:2022-10-27 09:18:09 公開日:2021-08-20
# 中国医学読解理解のための知識を活用した表現学習:課題・モデル・資源

Knowledge-Empowered Representation Learning for Chinese Medical Reading Comprehension: Task, Model and Resources ( http://arxiv.org/abs/2008.10327v2 )

ライセンス: Link先を確認
Taolin Zhang, Chengyu Wang, Minghui Qiu, Bite Yang, Xiaofeng He, Jun Huang(参考訳) Machine Reading Comprehension (MRC)は、与えられた質問に対する回答を抽出することを目的としている。 近年、特にオープンドメインにおいて広く研究されている。 しかし、大規模なトレーニングデータがないため、クローズドドメイン MRC への取り組みはほとんど行われていない。 本稿では,医療知識提供の信頼性を確保するため,医療情報提供者からの質問に対する回答とそれに対応する支援文を同時に予測することを目的とした医療領域向け多目的MRCタスクを提案する。 高品質なデータセットは、Multi-task Chinese Medical MRC dataset (CMedMRC) と呼ばれる手動で構築され、詳細な分析が行われる。 さらに、異種特徴の動的融合機構とマルチタスク学習戦略により、医学知識を事前学習言語モデルに融合させる、タスクのための中国の医療用BERTモデル(CMedBERT)を提案する。 実験の結果,CMedBERTはコンテキスト認識と知識認識のトークン表現を融合することにより,強いベースラインを一貫して上回ることがわかった。

Machine Reading Comprehension (MRC) aims to extract answers to questions given a passage. It has been widely studied recently, especially in open domains. However, few efforts have been made on closed-domain MRC, mainly due to the lack of large-scale training data. In this paper, we introduce a multi-target MRC task for the medical domain, whose goal is to predict answers to medical questions and the corresponding support sentences from medical information sources simultaneously, in order to ensure the high reliability of medical knowledge serving. A high-quality dataset is manually constructed for the purpose, named Multi-task Chinese Medical MRC dataset (CMedMRC), with detailed analysis conducted. We further propose the Chinese medical BERT model for the task (CMedBERT), which fuses medical knowledge into pre-trained language models by the dynamic fusion mechanism of heterogeneous features and the multi-task learning strategy. Experiments show that CMedBERT consistently outperforms strong baselines by fusing context-aware and knowledge-aware token representations.
翻訳日:2022-10-25 08:58:46 公開日:2021-08-20
# SCOUTER:説明可能な画像認識のためのスロット注意に基づく分類器

SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition ( http://arxiv.org/abs/2009.06138v4 )

ライセンス: Link先を確認
Liangzhi Li, Bowen Wang, Manisha Verma, Yuta Nakashima, Ryo Kawasaki, Hajime Nagahara(参考訳) 説明可能な人工知能はここ数年注目を集めている。 しかし、既存の手法のほとんどは勾配や中間的特徴に基づいており、分類器の意思決定プロセスに直接は関与していない。 本稿では,透過的かつ正確な分類のためのスロットアテンションベース分類器SCOUTERを提案する。 他の注意に基づく方法との主な違いは次のとおりである。 (a)SCOUTERの説明は各カテゴリーの最終的な信頼に関係しており、より直感的な解釈を提供し、 b)全てのカテゴリは、対応する正または負の説明を持ち、「なぜ像があるカテゴリであるか」または「なぜ像があるカテゴリではないのか」を意味する。 SCOUTERに最適化された新たな損失を設計し、モデルが肯定的かつ否定的な説明と説明的領域のサイズを切り替える動作を制御する。 実験結果から,SCOUTERは,小・中規模のデータセットに対して精度を保ちながら,様々な指標でより良い視覚的説明を行うことができることがわかった。

Explainable artificial intelligence has been gaining attention in the past few years. However, most existing methods are based on gradients or intermediate features, which are not directly involved in the decision-making process of the classifier. In this paper, we propose a slot attention-based classifier called SCOUTER for transparent yet accurate classification. Two major differences from other attention-based methods include: (a) SCOUTER's explanation is involved in the final confidence for each category, offering more intuitive interpretation, and (b) all the categories have their corresponding positive or negative explanation, which tells "why the image is of a certain category" or "why the image is not of a certain category." We design a new loss tailored for SCOUTER that controls the model's behavior to switch between positive and negative explanations, as well as the size of explanatory regions. Experimental results show that SCOUTER can give better visual explanations in terms of various metrics while keeping good accuracy on small and medium-sized datasets.
翻訳日:2022-10-18 12:26:37 公開日:2021-08-20
# Apollo: 非凸確率最適化のための適応パラメータワイド準ニュートン法

Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2009.13586v6 )

ライセンス: Link先を確認
Xuezhe Ma(参考訳) 本稿では,非凸確率最適化のための準ニュートン法であるApolloを紹介し,対角行列を用いてヘッセンを近似することにより損失関数の曲率を動的に組み込む。 重要なことに、ヘッセンの対角近似の更新と保存は、時間とメモリの両方に線形複雑性を持つ適応一階最適化法と同じくらい効率的である。 非凸性を扱うために、ヘシアンを正定値に置き換え、正定値であることが保証される。 視覚と言語に関する3つのタスクの実験から、アポロは収束速度と一般化性能の両方の観点から、SGDやAdamの変種を含む他の確率最適化手法よりも大幅に改善されていることが示されている。 アルゴリズムの実装はhttps://github.com/xuezhemax/apolloで利用可能である。

In this paper, we introduce Apollo, a quasi-Newton method for nonconvex stochastic optimization, which dynamically incorporates the curvature of the loss function by approximating the Hessian via a diagonal matrix. Importantly, the update and storage of the diagonal approximation of Hessian is as efficient as adaptive first-order optimization methods with linear complexity for both time and memory. To handle nonconvexity, we replace the Hessian with its rectified absolute value, which is guaranteed to be positive-definite. Experiments on three tasks of vision and language show that Apollo achieves significant improvements over other stochastic optimization methods, including SGD and variants of Adam, in term of both convergence speed and generalization performance. The implementation of the algorithm is available at https://github.com/XuezheMax/apollo.
翻訳日:2022-10-13 21:14:30 公開日:2021-08-20
# 効率的強化学習のための協調学習型状態動作埋め込み

Jointly-Learned State-Action Embedding for Efficient Reinforcement Learning ( http://arxiv.org/abs/2010.04444v4 )

ライセンス: Link先を確認
Paul J. Pritz and Liang Ma and Kin K. Leung(参考訳) 近年では強化学習がかなりの成功を収めているが、現状のモデルは状態空間や行動空間のサイズによって制限されることが多い。 モデルなし強化学習アプローチは状態表現の何らかの形式を使用し、最新の研究は、より一般化と適用性の向上を目的として、アクションの埋め込み技術を探究している。 しかし、これらのアプローチは状態や行動のみを考慮し、埋め込み表現を生成する際の相互作用を無視している。 本研究では,組込み状態と行動を用いた強化学習エージェントの訓練の有効性に関する理論的基礎を確立する。 次に, 離散領域と連続領域の両方に適用可能なモデルフリーとモデルベース強化学習の側面を組み合わせた, 状態と動作の組込みを共同学習するための新しいアプローチを提案する。 具体的には、環境モデルを用いて状態と動作の埋め込みを取得し、これらを利用してポリシーを学習する汎用アーキテクチャを提案する。 このようにして、このアプローチによって得られる埋め込み表現は、埋め込み空間の類似性を捉えることにより、状態とアクションの両方に対してより良い一般化を可能にする。 いくつかのゲーム、ロボット制御、リコメンデータシステムに対する我々のアプローチの評価は、大きな状態/アクション空間を持つ離散/連続両方の領域において、最先端モデルよりも大幅に優れており、その有効性を確認している。

While reinforcement learning has achieved considerable successes in recent years, state-of-the-art models are often still limited by the size of state and action spaces. Model-free reinforcement learning approaches use some form of state representations and the latest work has explored embedding techniques for actions, both with the aim of achieving better generalization and applicability. However, these approaches consider only states or actions, ignoring the interaction between them when generating embedded representations. In this work, we establish the theoretical foundations for the validity of training a reinforcement learning agent using embedded states and actions. We then propose a new approach for jointly learning embeddings for states and actions that combines aspects of model-free and model-based reinforcement learning, which can be applied in both discrete and continuous domains. Specifically, we use a model of the environment to obtain embeddings for states and actions and present a generic architecture that leverages these to learn a policy. In this way, the embedded representations obtained via our approach enable better generalization over both states and actions by capturing similarities in the embedding spaces. Evaluations of our approach on several gaming, robotic control, and recommender systems show it significantly outperforms state-of-the-art models in both discrete/continuous domains with large state/action spaces, thus confirming its efficacy.
翻訳日:2022-10-09 04:28:59 公開日:2021-08-20
# EasyTransfer - NLPアプリケーションのためのシンプルでスケーラブルなディープラーニング学習プラットフォーム

EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP Applications ( http://arxiv.org/abs/2011.09463v3 )

ライセンス: Link先を確認
Minghui Qiu and Peng Li and Chengyu Wang and Hanjie Pan and Ang Wang and Cen Chen and Xianyan Jia and Yaliang Li and Jun Huang and Deng Cai and Wei Lin(参考訳) この文献は、事前訓練された言語モデル(PLM)とトランスファーラーニング(TL)アルゴリズムを幅広い自然言語処理(NLP)アプリケーションに活用することの成功を目撃しているが、この目的のために使いやすくスケーラブルなTLツールキットを構築するのは容易ではない。 このギャップを埋めるため、EasyTransferプラットフォームは、NLPアプリケーションのためのディープTLアルゴリズムを開発するように設計されている。 easytransferは、効率的なトレーニングと推論のための高性能でスケーラブルなエンジンを備えており、工業規模のtlアプリケーションの開発を容易にするために、包括的な深いtlアルゴリズムを統合する。 EasyTransferでは、組込みデータとモデル並列化戦略とAIコンパイラの最適化を組み合わせることで、分散トレーニングのコミュニティバージョンよりも4.0倍高速であることが示されている。 EasyTransfer は ModelZoo で様々な NLP モデルをサポートしている。 また、NLPアプリケーション用のAppZooとともに、社内で開発された様々なTLアルゴリズムも備えている。 このツールキットは、モデルトレーニング、評価、オンラインデプロイメントを素早く始めるのに便利です。 EasyTransferは現在Alibabaにデプロイされており、アイテムレコメンデーション、パーソナライズされた検索、会話による質問応答など、さまざまなビジネスシナリオをサポートする。 実世界のデータセットとオンラインアプリケーションに関する大規模な実験によると、EasyTransferはオンライン生産に適している。 EasyTransferのソースコードはGithub(https://github.com/alibaba/EasyTransfer)で公開されている。

The literature has witnessed the success of leveraging Pre-trained Language Models (PLMs) and Transfer Learning (TL) algorithms to a wide range of Natural Language Processing (NLP) applications, yet it is not easy to build an easy-to-use and scalable TL toolkit for this purpose. To bridge this gap, the EasyTransfer platform is designed to develop deep TL algorithms for NLP applications. EasyTransfer is backended with a high-performance and scalable engine for efficient training and inference, and also integrates comprehensive deep TL algorithms, to make the development of industrial-scale TL applications easier. In EasyTransfer, the built-in data and model parallelism strategies, combined with AI compiler optimization, show to be 4.0x faster than the community version of distributed training. EasyTransfer supports various NLP models in the ModelZoo, including mainstream PLMs and multi-modality models. It also features various in-house developed TL algorithms, together with the AppZoo for NLP applications. The toolkit is convenient for users to quickly start model training, evaluation, and online deployment. EasyTransfer is currently deployed at Alibaba to support a variety of business scenarios, including item recommendation, personalized search, conversational question answering, etc. Extensive experiments on real-world datasets and online applications show that EasyTransfer is suitable for online production with cutting-edge performance for various applications. The source code of EasyTransfer is released at Github (https://github.com/alibaba/EasyTransfer).
翻訳日:2022-09-24 04:03:26 公開日:2021-08-20
# 骨格に基づく行動認識のための時空間インセプショングラフ畳み込みネットワーク

Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2011.13322v2 )

ライセンス: Link先を確認
Zhen Huang, Xu Shen, Xinmei Tian, Houqiang Li, Jianqiang Huang and Xian-Sheng Hua(参考訳) 骨格に基づく人間の行動認識は、アクセス可能な深度センサーの普及によって多くの注目を集めている。 近年、グラフ畳み込みネットワーク(GCN)は、グラフデータをモデル化する強力な能力のために広く利用されている。 隣接グラフのトポロジーは、入力骨格の相関をモデル化するための重要な要素である。 したがって、従来の手法は主にグラフトポロジの設計/学習に焦点を当てていた。 しかし、トポロジが学習されると、ネットワークの各層に単一スケールの機能と1つの変換しか存在しない。 畳み込みニューラルネットワーク(CNN)において非常に有効であることが証明されたマルチスケール情報や複数の変換セットなどの多くの洞察は、GCNでは研究されていない。 理由は、グラフ構造化スケルトンデータと従来の画像/ビデオデータとのギャップがあるため、これらの洞察をGCNに埋め込むことが非常に困難であるからである。 このギャップを克服するため、スケルトン配列処理のためのGCNにおける分割変換マージ戦略を再発明する。 具体的には、スケルトンに基づく行動認識のための、シンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。 ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。 我々のネットワークは,パラメータの1/5とFLOPの1/10の差で,最先端の手法よりも優れていた。 コードはhttps://github.com/yellowtownhz/stigcnで入手できる。

Skeleton-based human action recognition has attracted much attention with the prevalence of accessible depth sensors. Recently, graph convolutional networks (GCNs) have been widely used for this task due to their powerful capability to model graph data. The topology of the adjacency graph is a key factor for modeling the correlations of the input skeletons. Thus, previous methods mainly focus on the design/learning of the graph topology. But once the topology is learned, only a single-scale feature and one transformation exist in each layer of the networks. Many insights, such as multi-scale information and multiple sets of transformations, that have been proven to be very effective in convolutional neural networks (CNNs), have not been investigated in GCNs. The reason is that, due to the gap between graph-structured skeleton data and conventional image/video data, it is very challenging to embed these insights into GCNs. To overcome this gap, we reinvent the split-transform-merge strategy in GCNs for skeleton sequence processing. Specifically, we design a simple and highly modularized graph convolutional network architecture for skeleton-based action recognition. Our network is constructed by repeating a building block that aggregates multi-granularity information from both the spatial and temporal paths. Extensive experiments demonstrate that our network outperforms state-of-the-art methods by a significant margin with only 1/5 of the parameters and 1/10 of the FLOPs. Code is available at https://github.com/yellowtownhz/STIGCN.
翻訳日:2022-09-20 08:11:48 公開日:2021-08-20
# (参考訳) 視覚に基づく自律走行モデルと空間映像データの地理文脈認識

Geo-Context Aware Study of Vision-Based Autonomous Driving Models and Spatial Video Data ( http://arxiv.org/abs/2109.10895v1 )

ライセンス: CC BY 4.0
Suphanut Jamonnak, Ye Zhao, Xinyi Huang, and Md Amiruzzaman(参考訳) 視覚に基づくディープラーニング(DL)手法は,大規模クラウドソースのビデオデータセットから自律走行モデルの学習に大きな進歩をもたらした。 それらは車載カメラで捉えたビデオデータから瞬時運転行動を予測するように訓練されている。 本稿では,大規模ADMビデオデータとともに,自律走行モデル(ADM)予測研究のための地理コンテキスト対応可視化システムを開発する。 本研究は, DLモデルの性能と地理空間可視化技術を組み合わせることで, 地理的環境とシームレスに統合される。 モデル性能測定は、地図ビュー上の地理空間属性のセットとともに研究することができる。 ユーザーは、道路画像やビデオコンテンツとともに、街路レベルの分析で複数のDLモデルの予測行動を発見し、比較することができる。 そこでこのシステムは、自動運転におけるDLモデル設計者のための新しい視覚探索プラットフォームを提供する。 ユースケースとドメインエキスパートの評価は、可視化システムの有用性と有効性を示している。

Vision-based deep learning (DL) methods have made great progress in learning autonomous driving models from large-scale crowd-sourced video datasets. They are trained to predict instantaneous driving behaviors from video data captured by on-vehicle cameras. In this paper, we develop a geo-context aware visualization system for the study of Autonomous Driving Model (ADM) predictions together with large-scale ADM video data. The visual study is seamlessly integrated with the geographical environment by combining DL model performance with geospatial visualization techniques. Model performance measures can be studied together with a set of geospatial attributes over map views. Users can also discover and compare prediction behaviors of multiple DL models in both city-wide and street-level analysis, together with road images and video contents. Therefore, the system provides a new visual exploration platform for DL model designers in autonomous driving. Use cases and domain expert evaluation show the utility and effectiveness of the visualization system.
翻訳日:2021-09-27 00:00:21 公開日:2021-08-20
# (参考訳) 電子商取引におけるマルチモーダル事前学習の知識

Knowledge Perceived Multi-modal Pretraining in E-commerce ( http://arxiv.org/abs/2109.00895v1 )

ライセンス: CC BY 4.0
Yushan Zhu, Huaixiao Tou, Wen Zhang, Ganqiang Ye, Hui Chen, Ningyu Zhang and Huajun Chen(参考訳) 本稿では,Eコマース分野における製品データのマルチモーダル事前学習について述べる。 画像とテキストのモダリティのための現在のマルチモーダル事前学習法は、実電子商取引シナリオにおける多モーダル製品データの広範化問題であるモダリティの欠如とモダリティノイズに直面するロバスト性に欠ける。 そこで本研究では,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補う手法K3Mを提案する。 モダリティエンコーディング層は、各モダリティの特徴を抽出する。 画像のモダリティとテキストのモダリティの独立性を維持するために初期対話的特徴融合モデルを設計し、画像、テキスト、知識のモダリティの情報を融合する構造集約モジュールを設計した、複数のモダリティの相互作用を効果的にモデル化することができる。 我々は,マスクオブジェクトモデリング(MOM),マスク言語モデリング(MLM),リンク予測モデリング(LPM)の3つの事前訓練タスクで,K3Mを事前訓練する。 実世界のeコマースデータセットと一連の製品ベースのダウンストリームタスクの実験結果は、モダリティノイズやモダリティミスが存在する場合、k3mはベースラインや最先端のメソッドよりもパフォーマンスが大幅に向上していることを示している。

In this paper, we address multi-modal pretraining of product data in the field of E-commerce. Current multi-modal pretraining methods proposed for image and text modalities lack robustness in the face of modality-missing and modality-noise, which are two pervasive problems of multi-modal product data in real E-commerce scenarios. To this end, we propose a novel method, K3M, which introduces knowledge modality in multi-modal pretraining to correct the noise and supplement the missing of image and text modalities. The modal-encoding layer extracts the features of each modality. The modal-interaction layer is capable of effectively modeling the interaction of multiple modalities, where an initial-interactive feature fusion model is designed to maintain the independence of image modality and text modality, and a structure aggregation module is designed to fuse the information of image, text, and knowledge modalities. We pretrain K3M with three pretraining tasks, including masked object modeling (MOM), masked language modeling (MLM), and link prediction modeling (LPM). Experimental results on a real-world E-commerce dataset and a series of product-based downstream tasks demonstrate that K3M achieves significant improvements in performances than the baseline and state-of-the-art methods when modality-noise or modality-missing exists.
翻訳日:2021-09-05 11:00:47 公開日:2021-08-20
# (参考訳) Transformer-based NLPによる定性的因果構造抽出

Extracting Qualitative Causal Structure with Transformer-Based NLP ( http://arxiv.org/abs/2108.13304v1 )

ライセンス: CC BY 4.0
Scott E. Friedman and Ian H. Magnusson and Sonja M. Schmer-Galunder(参考訳) 定性的因果関係は、世界の離散的または連続的な相互作用の方向、依存性、時間的制約、単調性制約をコンパクトに表現する。 日常言語や学術言語では、量(例えば睡眠がストレスを減少させる)、離散的な事象や実体(例えばタンパク質が他のタンパク質の転写を阻害する)、意図的または機能的要因(例えば、病院の患者は痛みを和らげるように祈る)の間の相互作用を表現できる。 本稿では,(1)言語に記述された変数や要因,(2)これらの変数に対する質的因果関係,(3)因果関係を制約する修飾子や等級を共同で同定し抽出するトランスフォーマティブベースのnlpアーキテクチャを提案する。 このアプローチを実証し,学術出版物,ニュース記事,ソーシャルメディアからのテキスト入力処理という2つのユースケースから得られる有望な結果を紹介する。

Qualitative causal relationships compactly express the direction, dependency, temporal constraints, and monotonicity constraints of discrete or continuous interactions in the world. In everyday or academic language, we may express interactions between quantities (e.g., sleep decreases stress), between discrete events or entities (e.g., a protein inhibits another protein's transcription), or between intentional or functional factors (e.g., hospital patients pray to relieve their pain). This paper presents a transformer-based NLP architecture that jointly identifies and extracts (1) variables or factors described in language, (2) qualitative causal relationships over these variables, and (3) qualifiers and magnitudes that constrain these causal relationships. We demonstrate this approach and include promising results from in two use cases, processing textual inputs from academic publications, news articles, and social media.
翻訳日:2021-09-05 10:35:26 公開日:2021-08-20
# リレーショナルトリプル抽出のための条件付きカスケードモデル

A Conditional Cascade Model for Relational Triple Extraction ( http://arxiv.org/abs/2108.13303v1 )

ライセンス: Link先を確認
Feiliang Ren, Longhui Zhang, Shujuan Yin, Xiaofeng Zhao, Shilei Liu, Bochao Li(参考訳) タグ付けに基づく手法は,関係性三重項抽出における主流手法の一つである。 しかし、多くは階級不均衡の問題に悩まされている。 本稿では,この問題を2つの側面から解決する,新しいタグ付けモデルを提案する。 まず,モデルレベルでは,サンプルの総数を大幅に削減できる3段階抽出フレームワークを提案する。 第2に,モデル内レベルでは,主要なクラスのサンプルを直接無視できるクロスエントロピー損失に基づく信頼しきい値を提案する。 提案モデルをnytとwebnlgで評価した。 大規模な実験により、上記の問題に効果的に対処でき、両方のデータセットで最先端の結果が得られることが示された。 私たちのモデルのソースコードは以下の通りである。

Tagging based methods are one of the mainstream methods in relational triple extraction. However, most of them suffer from the class imbalance issue greatly. Here we propose a novel tagging based model that addresses this issue from following two aspects. First, at the model level, we propose a three-step extraction framework that can reduce the total number of samples greatly, which implicitly decreases the severity of the mentioned issue. Second, at the intra-model level, we propose a confidence threshold based cross entropy loss that can directly neglect some samples in the major classes. We evaluate the proposed model on NYT and WebNLG. Extensive experiments show that it can address the mentioned issue effectively and achieves state-of-the-art results on both datasets. The source code of our model is available at: https://github.com/neukg/ConCasRTE.
翻訳日:2021-09-05 08:54:15 公開日:2021-08-20
# IEEE AVテストチャレンジへのシナリオとVerifAIの取り組み

Addressing the IEEE AV Test Challenge with Scenic and VerifAI ( http://arxiv.org/abs/2108.13796v1 )

ライセンス: Link先を確認
Kesav Viswanadha, Francis Indaheng, Justin Wong, Edward Kim, Ellen Kalvan, Yash Pant, Daniel J. Fremont, Sanjit A. Seshia(参考訳) 本稿では,IEEE AVテストチャレンジのシミュレーションにおいて,自律走行車(AV)のテストに対する我々の公式なアプローチを要約する。 我々は,知的サイバー物理システムのための形式駆動シミュレーションに関するこれまでの研究を生かした,系統的なテストフレームワークを実証する。 まず、複数のエージェントを含むインタラクティブなシナリオをモデル化し、生成するために、シナリオを特定するための確率的プログラミング言語であるraitiseを使用しました。 シナリオプログラムは抽象的なシナリオを、物理的なオブジェクトの構成と時間とともにその振る舞いの分布として定義する。 抽象的なシナリオからサンプリングすると、AVのテストケースとして実行できる多くの具体的なシナリオが得られる。 抽象的な駆動シナリオを符号化するScanicプログラムから始めて、VerifAIツールキットを使用して、複数のAV評価指標に関して、シナリオ内の障害ケースを検索できる。 さまざまな現実的なトラフィックシナリオから始まるオープンソースのオートパイロットApolloの具体的な障害シナリオを特定することで、テストフレームワークの有効性を実証する。

This paper summarizes our formal approach to testing autonomous vehicles (AVs) in simulation for the IEEE AV Test Challenge. We demonstrate a systematic testing framework leveraging our previous work on formally-driven simulation for intelligent cyber-physical systems. First, to model and generate interactive scenarios involving multiple agents, we used Scenic, a probabilistic programming language for specifying scenarios. A Scenic program defines an abstract scenario as a distribution over configurations of physical objects and their behaviors over time. Sampling from an abstract scenario yields many different concrete scenarios which can be run as test cases for the AV. Starting from a Scenic program encoding an abstract driving scenario, we can use the VerifAI toolkit to search within the scenario for failure cases with respect to multiple AV evaluation metrics. We demonstrate the effectiveness of our testing framework by identifying concrete failure scenarios for an open-source autopilot, Apollo, starting from a variety of realistic traffic scenarios.
翻訳日:2021-09-05 08:53:38 公開日:2021-08-20
# LSHインデックスとCNN Resnet50に基づくWeb画像検索エンジン

Web image search engine based on LSH index and CNN Resnet50 ( http://arxiv.org/abs/2108.13301v1 )

ライセンス: Link先を確認
Marco Parola, Alice Nannini, Stefano Poleggi(参考訳) CBIR(Content Based Image Retrieval)システムを実装するためには,効率的な検索手法を採用することが不可欠である。 この結果を達成する1つの方法は近似探索手法を利用することである。 実際、非常に大量のデータを扱う場合、正確な検索方法を用いることでシステムは非常に遅くなります。 このプロジェクトでは、CBIRシステムを実装するためにLocality Sensitive Hashing(LSH)インデックスを採用し、深い特徴の高速な類似検索を可能にします。 具体的には、画像から深い特徴を抽出するために転送学習技術を利用する。このフェーズでは、2つの有名な畳み込みニューラルネットワーク(CNN)を用いて特徴抽出を行う: Resnet50とResnet50v2。 次に、前述の2つのCNNの上に構築された、完全に接続されたディープニューラルネットワークを試して、データセット上でそれらを微調整します。 どちらのケースでも、インデックスの導入が結果にどの程度影響するかをよりよく理解するため、LSHインデックス実装内の機能とシーケンシャルスキャン内の機能をインデックス化します。 最後に、結果セットの関連性を評価し、異なる実験で得られたmAP(平均精度)値を、比較結果の数とLSH指数のハイパーパラメータ値の変化について計算する。

To implement a good Content Based Image Retrieval (CBIR) system, it is essential to adopt efficient search methods. One way to achieve this results is by exploiting approximate search techniques. In fact, when we deal with very large collections of data, using an exact search method makes the system very slow. In this project, we adopt the Locality Sensitive Hashing (LSH) index to implement a CBIR system that allows us to perform fast similarity search on deep features. Specifically, we exploit transfer learning techniques to extract deep features from images; this phase is done using two famous Convolutional Neural Networks (CNNs) as features extractors: Resnet50 and Resnet50v2, both pre-trained on ImageNet. Then we try out several fully connected deep neural networks, built on top of both of the previously mentioned CNNs in order to fine-tuned them on our dataset. In both of previous cases, we index the features within our LSH index implementation and within a sequential scan, to better understand how much the introduction of the index affects the results. Finally, we carry out a performance analysis: we evaluate the relevance of the result set, computing the mAP (mean Average Precision) value obtained during the different experiments with respect to the number of done comparison and varying the hyper-parameter values of the LSH index.
翻訳日:2021-09-05 08:53:24 公開日:2021-08-20
# (参考訳) ガウス混合モデルのベイズ推定に関する調査

A survey on Bayesian inference for Gaussian mixture model ( http://arxiv.org/abs/2108.11753v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) クラスタリングは、主に教師なし学習、クラスタリング、分類、密度推定の分野への応用によって、機械学習のコア技術となっている。 emアルゴリズムとして知られる混合モデルに基づく手のクラスタリングには、通常、混合モデルのパラメータを最大確率推定フレームワークに推定する、頻繁なアプローチが存在する。 有限かつ無限ガウス混合モデルに対するベイズ的アプローチは、すべての変数に対する点推定と関連する不確かさを全推定の後方分布の形で生成する。 この調査の唯一の目的は、後のセクションでそれらの応用をシームレスに導入するために、有限かつ無限のガウス混合モデルに対するベイズ推定における概念と数学的ツールを自己完結的に導入することである。 しかし,この分野に関する有用かつ興味深い結果をすべてカバーできないことを明確に認識し,この議論を行うためのスコープのpaucity,例えばスティックブレーキングとポリアのurnアプローチによるディリクレ試料生成の分離分析を想定した。 本稿では,dirichletプロセス混合モデルの分野における文献について,関連分野のより詳細な紹介を行う。 優れた例としては(Frigyik et al., 2010; Murphy, 2012; Gelman et al., 2014; Hoff, 2009)がある。 この調査は、主にガウス混合モデル(例えば、ディリクレ・プリア、中華料理のプロセス)の目的、重要背景およびテクニックの要約であり、最も重要なのは、現代の応用に光を当てた手法の起源と複雑さである。 数学的前提条件は確率の最初のコースである。 この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。

Clustering has become a core technology in machine learning, largely due to its application in the field of unsupervised learning, clustering, classification, and density estimation. A frequentist approach exists to hand clustering based on mixture model which is known as the EM algorithm where the parameters of the mixture model are usually estimated into a maximum likelihood estimation framework. Bayesian approach for finite and infinite Gaussian mixture model generates point estimates for all variables as well as associated uncertainty in the form of the whole estimates' posterior distribution. The sole aim of this survey is to give a self-contained introduction to concepts and mathematical tools in Bayesian inference for finite and infinite Gaussian mixture model in order to seamlessly introduce their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning this field and given the paucity of scope to present this discussion, e.g., the separated analysis of the generation of Dirichlet samples by stick-breaking and Polya's Urn approaches. We refer the reader to literature in the field of the Dirichlet process mixture model for a much detailed introduction to the related fields. Some excellent examples include (Frigyik et al., 2010; Murphy, 2012; Gelman et al., 2014; Hoff, 2009). This survey is primarily a summary of purpose, significance of important background and techniques for Gaussian mixture model, e.g., Dirichlet prior, Chinese restaurant process, and most importantly the origin and complexity of the methods which shed light on their modern applications. The mathematical prerequisite is a first course in probability. Other than this modest background, the development is self-contained, with rigorous proofs provided throughout.
翻訳日:2021-08-29 12:20:43 公開日:2021-08-20
# (参考訳) adversarial oversampingは私たちに役立つか?

Does Adversarial Oversampling Help us? ( http://arxiv.org/abs/2108.10697v1 )

ライセンス: CC BY 4.0
Tanmoy Dam, Md Meftahul Ferdaus, Sreenatha G. Anavatti, Senthilnath Jayavelu, Hussein A. Abbass(参考訳) 従来のオーバーサンプリング手法は、データセットのクラス不均衡を処理するために一般的に使用される。 このオーバーサンプリングアプローチは分類器とは独立であり、エンドツーエンドのソリューションを提供しない。 そこで本研究では,ジェネレータ,判別器,マルチクラス分類器のドメイン制約を混合した3プレイヤー対局型エンド・ツー・エンド方式を提案する。 敵対的なマイノリティオーバーサンプリングではなく、adversarial oversampling(ao)とdata-space oversampling(do)アプローチを提案する。 AOでは、ジェネレータは分類器と識別器の両方を騙して更新するが、DOでは分類器を好んで識別器を騙して更新する。 分類器を更新する際、AOの実際のサンプルと合成されたサンプルの両方を考慮する。 しかしdoでは、実際のサンプルを好み、サブセットクラス固有の生成されたサンプルをだまします。 多数派クラスに対する分類器のバイアスを軽減するため、少数派サンプルは分数率で過剰サンプリングされる。 このような実装はより堅牢な分類境界を提供する。 提案手法の有効性は,高次元・高度不均衡・大規模多クラス表型データセットを用いて検証した。 平均クラス特定精度 (ACSA) によって測定された結果, 提案手法は, ベースライン分類器と比較して, より良い分類精度(0.7%から49.27%の範囲での改善)を提供することが示された。

Traditional oversampling methods are generally employed to handle class imbalance in datasets. This oversampling approach is independent of the classifier; thus, it does not offer an end-to-end solution. To overcome this, we propose a three-player adversarial game-based end-to-end method, where a domain-constraints mixture of generators, a discriminator, and a multi-class classifier are used. Rather than adversarial minority oversampling, we propose an adversarial oversampling (AO) and a data-space oversampling (DO) approach. In AO, the generator updates by fooling both the classifier and discriminator, however, in DO, it updates by favoring the classifier and fooling the discriminator. While updating the classifier, it considers both the real and synthetically generated samples in AO. But, in DO, it favors the real samples and fools the subset class-specific generated samples. To mitigate the biases of a classifier towards the majority class, minority samples are over-sampled at a fractional rate. Such implementation is shown to provide more robust classification boundaries. The effectiveness of our proposed method has been validated with high-dimensional, highly imbalanced and large-scale multi-class tabular datasets. The results as measured by average class specific accuracy (ACSA) clearly indicate that the proposed method provides better classification accuracy (improvement in the range of 0.7% to 49.27%) as compared to the baseline classifier.
翻訳日:2021-08-26 01:59:04 公開日:2021-08-20
# (参考訳) データ駆動型スマートポンジスキーム検出

Data-driven Smart Ponzi Scheme Detection ( http://arxiv.org/abs/2108.09305v1 )

ライセンス: CC BY 4.0
Yuzhi Liang, Weijing Wu, Kai Lei and Feiyang Wang(参考訳) smart ponzi schemeは、ethereumスマートコントラクトアカウントと暗号通貨を使用してponziスキームを実装する、新しいタイプの経済犯罪である。 スマートPonziスキームは、多くの投資家の興味を害してきたが、スマートPonziスキームの検出に関する研究は依然として非常に限られている。 既存のスマートポンジスキーム検出手法は、機能工学やモデルポータビリティの貧弱さにおいて多くの人材を必要とする。 本稿では,これらの問題を解決するために,データ駆動型スマートポンジ・スキーム検出システムを提案する。 このシステムは動的グラフ埋め込み技術を用いて、アカウントトランザクションに関連するマルチソースおよびマルチモーダルデータに基づいて、アカウントの表現を自動的に学習する。 従来の手法と比較して、提案システムは非常に限定的な人間とコンピュータの相互作用を必要とする。 我々の知る限りでは、動的グラフ埋め込みによるスマートPonziスキーム検出の実装はこれが初めてである。 実験結果から,本手法は既存のスマートポンジスキーム検出法よりもはるかに優れていることがわかった。

A smart Ponzi scheme is a new form of economic crime that uses Ethereum smart contract account and cryptocurrency to implement Ponzi scheme. The smart Ponzi scheme has harmed the interests of many investors, but researches on smart Ponzi scheme detection is still very limited. The existing smart Ponzi scheme detection methods have the problems of requiring many human resources in feature engineering and poor model portability. To solve these problems, we propose a data-driven smart Ponzi scheme detection system in this paper. The system uses dynamic graph embedding technology to automatically learn the representation of an account based on multi-source and multi-modal data related to account transactions. Compared with traditional methods, the proposed system requires very limited human-computer interaction. To the best of our knowledge, this is the first work to implement smart Ponzi scheme detection through dynamic graph embedding. Experimental results show that this method is significantly better than the existing smart Ponzi scheme detection methods.
翻訳日:2021-08-26 01:50:58 公開日:2021-08-20
# (参考訳) D-DARTS:分散微分可能なアーキテクチャ検索

D-DARTS: Distributed Differentiable Architecture Search ( http://arxiv.org/abs/2108.09306v1 )

ライセンス: CC BY 4.0
Alexandre Heuillet, Hedi Tabia, Hichem Arioui, Kamal Youcef-Toumi(参考訳) 微分可能なArchiTecture Search(DARTS)は、Stochastic Gradient Descent(SGD)とウェイトシェアリングを利用して、検索コストを大幅に削減する最もトレンドのあったNeural Architecture Search(NAS)手法の1つである。 しかし、検索スペースを大幅に減らし、潜在的に有望なアーキテクチャが発見されないようにする。 本稿では,複数のニューラルネットワークをセルレベルでネストさせることでこの問題に対処し,より多様なアーキテクチャを実現するd-dartを提案する。 さらに,いくつかのセルからより深いアーキテクチャを導出し,性能の向上と計算時間を節約できる新しいアルゴリズムを提案する。 我々のソリューションは、CIFAR-10、CIFAR-100、ImageNetに対して、従来のベースラインよりもパラメータをはるかに少なくし、ハードウェア効率のよいニューラルネットワークを実現することができる。

Differentiable ARchiTecture Search (DARTS) is one of the most trending Neural Architecture Search (NAS) methods, drastically reducing search cost by resorting to Stochastic Gradient Descent (SGD) and weight-sharing. However, it also greatly reduces the search space, thus excluding potential promising architectures from being discovered. In this paper, we propose D-DARTS, a novel solution that addresses this problem by nesting several neural networks at cell-level instead of using weight-sharing to produce more diversified and specialized architectures. Moreover, we introduce a novel algorithm which can derive deeper architectures from a few trained cells, increasing performance and saving computation time. Our solution is able to provide state-of-the-art results on CIFAR-10, CIFAR-100 and ImageNet while using significantly less parameters than previous baselines, resulting in more hardware-efficient neural networks.
翻訳日:2021-08-26 01:28:12 公開日:2021-08-20
# 説明可能な人工知能による心不全生存予測モデルの改良

Improvement of a Prediction Model for Heart Failure Survival through Explainable Artificial Intelligence ( http://arxiv.org/abs/2108.10717v1 )

ライセンス: Link先を確認
Pedro A. Moreno-Sanchez(参考訳) 心臓血管疾患とその関連する心不全は、世界中で大きな死因の1つであり、医師がその発症と医学的結果を検出し予測することが最優先事項である。 人工知能(AI)により、医師は臨床指標を発見し、診断と治療を強化することができる。 具体的には、説明可能なAIは、結果の解釈可能性の低い臨床予測モデルを改善するためのツールを提供する。 本研究は、心不全を患った299人の患者からなるデータセットを用いて、心不全生存予測モデルの説明可能性分析と評価を行う。 このモデルでは、最高のアンサンブルツリーアルゴリズムを選択できるデータワークフローパイプラインと、最高の機能選択テクニックが採用されている。 さらに,モデルの説明可能性分析にはポストホック法が用いられている。 この論文の主な貢献は、精度-説明可能性バランスに基づいてHF生存率の最良の予測モデルを選択するための説明可能性駆動型アプローチである。 したがって、最もバランスの取れた予測モデルでは、12のうち5つの選択された特徴(フォローアップ時間、血清クレアチニン、放出率、年齢、糖尿病)に対してエクストラツリー分類器を実装し、それぞれ85.1%と79.5%のバランスの取れた精度を、クロスバリデーションと新しい未知のデータで達成している。 フォローアップ時間は、血清クレアチニンとエジェクションフラクションに続く最も影響のある特徴である。 本論文で提示されたHF生存予測モデルは、医師に直感を与え、通常、ブラックボックスAI臨床ソリューションの推論をよりよく理解し、より合理的でデータ駆動的な決定を行うことにより、臨床予測モデルのさらなる導入を改善することができる。

Cardiovascular diseases and their associated disorder of heart failure are one of the major death causes globally, being a priority for doctors to detect and predict its onset and medical consequences. Artificial Intelligence (AI) allows doctors to discover clinical indicators and enhance their diagnosis and treatments. Specifically, explainable AI offers tools to improve the clinical prediction models that experience poor interpretability of their results. This work presents an explainability analysis and evaluation of a prediction model for heart failure survival by using a dataset that comprises 299 patients who suffered heart failure. The model employs a data workflow pipeline able to select the best ensemble tree algorithm as well as the best feature selection technique. Moreover, different post-hoc techniques have been used for the explainability analysis of the model. The paper's main contribution is an explainability-driven approach to select the best prediction model for HF survival based on an accuracy-explainability balance. Therefore, the most balanced explainable prediction model implements an Extra Trees classifier over 5 selected features (follow-up time, serum creatinine, ejection fraction, age and diabetes) out of 12, achieving a balanced-accuracy of 85.1% and 79.5% with cross-validation and new unseen data respectively. The follow-up time is the most influencing feature followed by serum-creatinine and ejection-fraction. The explainable prediction model for HF survival presented in this paper would improve a further adoption of clinical prediction models by providing doctors with intuitions to better understand the reasoning of, usually, black-box AI clinical solutions, and make more reasonable and data-driven decisions.
翻訳日:2021-08-25 14:26:42 公開日:2021-08-20
# 最適, モデル予測, 適応制御のためのAlphaZeroからの教訓

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control ( http://arxiv.org/abs/2108.10315v1 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 本稿では,オフライントレーニングによるオンライン意思決定の効果を説明する分析と洞察(可視化に基づくものが多い)を提供することを目的としている。 特に、統一的な抽象数学的枠組みを通じて、値空間とロールアウトの近似に関するAlphaZero/TD-Gammonの原理が、離散的かつ連続的な探索空間の両方を含む決定論的および確率的最適制御問題に非常に広く適用されていることを示す。 さらに、これらのアイデアはモデル予測制御、適応制御、分散制御、離散およびベイズ最適化、ニューラルネットワークに基づく値とポリシー近似、離散最適化のためのヒューリスティックアルゴリズムといった他の重要な方法論と効果的に統合することができる。

In this paper we aim to provide analysis and insights (often based on visualization), which explain the beneficial effects of on-line decision making on top of off-line training. In particular, through a unifying abstract mathematical framework, we show that the principal AlphaZero/TD-Gammon ideas of approximation in value space and rollout apply very broadly to deterministic and stochastic optimal control problems, involving both discrete and continuous search spaces. Moreover, these ideas can be effectively integrated with other important methodologies such as model predictive control, adaptive control, decentralized control, discrete and Bayesian optimization, neural network-based value and policy approximations, and heuristic algorithms for discrete optimization.
翻訳日:2021-08-25 14:12:18 公開日:2021-08-20
# (参考訳) loop: ディープメトリック学習のための最適なハードネガティブ埋め込みを探す

LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric Learning ( http://arxiv.org/abs/2108.09335v1 )

ライセンス: CC BY 4.0
Bhavya Vasudeva, Puneesh Deora, Saumik Bhattacharya, Umapada Pal, Sukalpa Chanda(参考訳) ディープメトリック学習は、画像検索やクラスタリングなど、さまざまな視覚タスクのための距離メトリクスを効果的に学習するために使用されています。 トレーニングプロセスを支援するため、既存の方法は、最も情報性の高いサンプルを抽出するためにハードマイニング戦略を使用するか、追加のネットワークを使用してハードシンセサイザーを生成する。 このようなアプローチは異なる課題に直面し、前者では偏りのある埋め込みにつながり、(i)より難しい最適化(ii)より遅いトレーニング速度(iii)後者ではモデルの複雑さが高くなる。 これらの課題を克服するために,我々は埋め込み空間における最適ハード負(ループ)を求める新しいアプローチを提案し,各タプルを最大限に活用し,対の正と対の負の間の最小距離を計算する。 マイニングに基づく手法とは異なり,本手法では組込みの対間の空間全体を考慮し,最適なハード負を計算する。 我々のアプローチと代表的なメトリック学習損失を組み合わせた大規模な実験により、3つのベンチマークデータセットのパフォーマンスが大幅に向上した。

Deep metric learning has been effectively used to learn distance metrics for different visual tasks like image retrieval, clustering, etc. In order to aid the training process, existing methods either use a hard mining strategy to extract the most informative samples or seek to generate hard synthetics using an additional network. Such approaches face different challenges and can lead to biased embeddings in the former case, and (i) harder optimization (ii) slower training speed (iii) higher model complexity in the latter case. In order to overcome these challenges, we propose a novel approach that looks for optimal hard negatives (LoOp) in the embedding space, taking full advantage of each tuple by calculating the minimum distance between a pair of positives and a pair of negatives. Unlike mining-based methods, our approach considers the entire space between pairs of embeddings to calculate the optimal hard negatives. Extensive experiments combining our approach and representative metric learning losses reveal a significant boost in performance on three benchmark datasets.
翻訳日:2021-08-25 13:57:28 公開日:2021-08-20
# (参考訳) 経時的非定常成分分析 : 非侵襲的胎児心電図抽出への応用

Temporally Nonstationary Component Analysis; Application to Noninvasive Fetal Electrocardiogram Extraction ( http://arxiv.org/abs/2108.09353v1 )

ライセンス: CC BY 4.0
Fahimeh Jamshidian-Tehrani and Reza Sameni and Christian Jutten(参考訳) 目的: 時間的非定常信号の混合は、生体医学的応用において非常に一般的である。 音源信号の非定常性を信号分離の識別特性として用いることができる。 本稿では,信号と雑音の線形多チャンネル混合から時間的非定常成分を抽出するための半盲点分離アルゴリズムを提案する。 方法: 時間的非定常事象の検出と融合のための仮説テストを提案し, アドホック指標を用いて, イノベーションプロセスの第1次および第2次統計をモニタリングする。 概念実証として、一般的な枠組みは、母性腹部から取得した非侵襲的な胎児心記録、一般に入手可能なデータセット、1)ローカルパワー変動検出器、2)拡張カルマンフィルタのイノベーションプロセス特性を用いたモデルデバイエーション検出器という2種類の非定常検出器を使用してカスタマイズされ、テストされる。 結果: 提案手法の性能は, 信号対雑音比の異なる白色雑音と有色雑音の存在下で評価される。 結論と意義:提案手法は汎用的であり,多くの機械学習アプリケーションにおいて繰り返し発生する問題である多変量データの推定モデルから,非定常事象やサンプル偏差の抽出に利用できる。

Objective: Mixtures of temporally nonstationary signals are very common in biomedical applications. The nonstationarity of the source signals can be used as a discriminative property for signal separation. Herein, a semi-blind source separation algorithm is proposed for the extraction of temporally nonstationary components from linear multichannel mixtures of signals and noises. Methods: A hypothesis test is proposed for the detection and fusion of temporally nonstationary events, by using ad hoc indexes for monitoring the first and second order statistics of the innovation process. As proof of concept, the general framework is customized and tested over noninvasive fetal cardiac recordings acquired from the maternal abdomen, over publicly available datasets, using two types of nonstationarity detectors: 1) a local power variations detector, and 2) a model-deviations detector using the innovation process properties of an extended Kalman filter. Results: The performance of the proposed method is assessed in presence of white and colored noise, in different signal-to-noise ratios. Conclusion and Significance: The proposed scheme is general and it can be used for the extraction of nonstationary events and sample deviations from a presumed model in multivariate data, which is a recurrent problem in many machine learning applications.
翻訳日:2021-08-25 13:32:06 公開日:2021-08-20
# (参考訳) patch2cad:パッチワイズ埋め込み学習による1枚の画像からの字形検索

Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image ( http://arxiv.org/abs/2108.09368v1 )

ライセンス: CC BY 4.0
Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, Angela Dai(参考訳) rgb画像入力による物体形状の3次元知覚は,空間的3次元実世界環境におけるイメージベース知覚の基盤となる意味的シーン理解に向けている。 オブジェクトのイメージビューと3次元形状のマッピングを実現するため,既存の大規模データベースからCADモデルに先立って,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案し,オブジェクトの画像ビューのパッチとCAD幾何学のパッチとの対応性を確立する。 これにより、データベース内の正確な一致なしに、類似したCADを新しい画像ビューに検索する部分類似性推論が可能になる。 パッチ埋め込みは,単一の入力画像におけるcadモデル形状とポーズのエンドツーエンド推定において,形状推定のためのよりロバストなcad検索を提供する。 ScanNetの複雑な画像を用いた実験により、我々のアプローチはCADの正確な一致のない実世界のシナリオにおける最先端技術よりも堅牢であることが示された。

3D perception of object shapes from RGB image input is fundamental towards semantic scene understanding, grounding image-based perception in our spatially 3-dimensional real-world environments. To achieve a mapping between image views of objects and 3D shapes, we leverage CAD model priors from existing large-scale databases, and propose a novel approach towards constructing a joint embedding space between 2D images and 3D CAD models in a patch-wise fashion -- establishing correspondences between patches of an image view of an object and patches of CAD geometry. This enables part similarity reasoning for retrieving similar CADs to a new image view without exact matches in the database. Our patch embedding provides more robust CAD retrieval for shape estimation in our end-to-end estimation of CAD model shape and pose for detected objects in a single input image. Experiments on in-the-wild, complex imagery from ScanNet show that our approach is more robust than state of the art in real-world scenarios without any exact CAD matches.
翻訳日:2021-08-25 13:12:03 公開日:2021-08-20
# (参考訳) インド生物多様性知識管理のためのオントロジーInBiodiv-O

InBiodiv-O: An Ontology for Indian Biodiversity Knowledge Management ( http://arxiv.org/abs/2108.09372v1 )

ライセンス: CC BY 4.0
Archana Patel, Sarika Jain, Narayan C. Debnath, Vishal Lama(参考訳) 生物多様性情報を提示するには,生物とその生息地に関するあらゆる種類のデータを接続する意味モデルが必要である。 モデルは、マシンを理解するための人間の知識をエンコードできなければならない。 オントロジーは、生物多様性領域で広く使われている(単に機械処理可能ではなく)最もリッチな機械解釈と明示的な意味論を提供する。 生物多様性領域のための様々なオントロジーが開発されているが、現在の展望を概観すると、インドは多国籍国の一つであるにもかかわらず、これらのオントロジーはインド生物多様性情報を定義することができない。 インドの生物多様性情報を意味的に分析するには、webで利用可能な非構造化フォーマットから、このドメインの本質的な用語をすべて記述したオントロジーを構築することが不可欠である。 ゆえに、オントロジーのキュレーションはこれらが実装されている領域に大きく依存するため、普遍的利用の準備が整っていない理想的な方法論は定義されていない。 本論文の目的は,提案手法に基づいて,インドにおける生物多様性情報のすべての項を意味的にエンコードするオントロジーを開発することである。 提案するオントロジーの包括的評価は、オントロジーが特定の領域によく構築されていることを示している。

To present the biodiversity information, a semantic model is required that connects all kinds of data about living creatures and their habitats. The model must be able to encode human knowledge for machines to be understood. Ontology offers the richest machine-interpretable (rather than just machine-processable) and explicit semantics that are being extensively used in the biodiversity domain. Various ontologies are developed for the biodiversity domain however a review of the current landscape shows that these ontologies are not capable to define the Indian biodiversity information though India is one of the megadiverse countries. To semantically analyze the Indian biodiversity information, it is crucial to build an ontology that describes all the essential terms of this domain from the unstructured format of the data available on the web. Since, the curation of the ontologies heavily depends on the domain where these are implemented hence there is no ideal methodology is defined yet to be ready for universal use. The aim of this article is to develop an ontology that semantically encodes all the terms of Indian biodiversity information in all its dimensions based on the proposed methodology. The comprehensive evaluation of the proposed ontology depicts that ontology is well built in the specified domain.
翻訳日:2021-08-25 12:57:07 公開日:2021-08-20
# (参考訳) 産業用RecSysトレーニングにおけるデータ取り込みパイプラインの理解と共同設計

Understanding and Co-designing the Data Ingestion Pipeline for Industry-Scale RecSys Training ( http://arxiv.org/abs/2108.09373v1 )

ライセンス: CC BY 4.0
Mark Zhao, Niket Agarwal, Aarti Basant, Bugra Gedik, Satadru Pan, Mustafa Ozdal, Rakesh Komuravelli, Jerry Pan, Tianshu Bao, Haowei Lu, Sundaram Narayanan, Jack Langman, Kevin Wilfong, Harsha Rastogi, Carole-Jean Wu, Christos Kozyrakis, Parik Pol(参考訳) トレーニングデータの保存と前処理を担当するデータ取り込みパイプラインは、あらゆる機械学習トレーニングジョブの重要なコンポーネントである。 facebookでは、サービス全体でレコメンデーションモデルを幅広く使用しています。 これらのモデルをトレーニングするためのデータ取り込み要件はかなり大きい。 本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題の広範な特徴について述べる。 まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。 第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。 これらの要求はトレーニングスループットを大幅に削減し、現在のトレーニング前処理ソリューションを使用するとGPUリソースを浪費する。 これらの課題に対処するため、データ取り込みパイプラインを分解する。 分散ストレージノード上に構築された中央データウェアハウスが含まれている。 データプリプロセッシングサービス(data pre processing service, dpp)は、数百のノードにスケール可能な、完全に分散したプリプロセッシングサービスで、トレーニングスループットを56%削減できるデータストールを排除します。 我々はストレージとDPPをまたいだ重要な最適化を行い、ストレージと前処理のスループットをそれぞれ1.9倍と2.3倍に向上させ、データ取り込みの実質的な電力要求に対処する。 私たちは学んだ教訓に近づき、大規模なデータ取り込みを取り巻く重要な課題と機会を取り上げます。

The data ingestion pipeline, responsible for storing and preprocessing training data, is an important component of any machine learning training job. At Facebook, we use recommendation models extensively across our services. The data ingestion requirements to train these models are substantial. In this paper, we present an extensive characterization of the data ingestion challenges for industry-scale recommendation model training. First, dataset storage requirements are massive and variable; exceeding local storage capacities. Secondly, reading and preprocessing data is computationally expensive, requiring substantially more compute, memory, and network resources than are available on trainers themselves. These demands result in drastically reduced training throughput, and thus wasted GPU resources, when current on-trainer preprocessing solutions are used. To address these challenges, we present a disaggregated data ingestion pipeline. It includes a central data warehouse built on distributed storage nodes. We introduce Data PreProcessing Service (DPP), a fully disaggregated preprocessing service that scales to hundreds of nodes, eliminating data stalls that can reduce training throughput by 56%. We implement important optimizations across storage and DPP, increasing storage and preprocessing throughput by 1.9x and 2.3x, respectively, addressing the substantial power requirements of data ingestion. We close with lessons learned and cover the important remaining challenges and opportunities surrounding data ingestion at scale.
翻訳日:2021-08-25 12:42:41 公開日:2021-08-20
# (参考訳) フーリエニューラル演算子ネットワーク:光音響波動方程式の高速で一般的な解法

Fourier Neural Operator Networks: A Fast and General Solver for the Photoacoustic Wave Equation ( http://arxiv.org/abs/2108.09374v1 )

ライセンス: CC BY 4.0
Steven Guan, Ko-Tsung Hsu, and Parag V. Chitnis(参考訳) 光音響伝搬のためのシミュレーションツールは、画質に影響するパラメータに対する定量的・質的洞察を提供することで、光音響イメージングの進歩において重要な役割を果たす。 光音響波動方程式を数値的に解く古典的手法は、空間の微細な離散化に依存し、大きな計算格子に対して計算コストがかかる。 本研究では,FNO(Fourier Neural Operator)ネットワークを高速なデータ駆動深層学習法として応用し,同質媒質中の2次元光音響波動方程式を解く。 FNOネットワークと疑似スペクトル時間領域の比較により、FNOネットワークは小さな誤差で比較可能なシミュレーションを生成し、桁違いに高速であった。 さらに、FNOネットワークは一般化可能であり、トレーニングデータでは観測できないシミュレーションを生成することができる。

Simulation tools for photoacoustic wave propagation have played a key role in advancing photoacoustic imaging by providing quantitative and qualitative insights into parameters affecting image quality. Classical methods for numerically solving the photoacoustic wave equation relies on a fine discretization of space and can become computationally expensive for large computational grids. In this work, we apply Fourier Neural Operator (FNO) networks as a fast data-driven deep learning method for solving the 2D photoacoustic wave equation in a homogeneous medium. Comparisons between the FNO network and pseudo-spectral time domain approach demonstrated that the FNO network generated comparable simulations with small errors and was several orders of magnitude faster. Moreover, the FNO network was generalizable and can generate simulations not observed in the training data.
翻訳日:2021-08-25 12:02:59 公開日:2021-08-20
# (参考訳) 非均一曲面上の特異性予測のための多視点幾何モデル

A Multiple-View Geometric Model for Specularity Prediction on Non-Uniformly Curved Surfaces ( http://arxiv.org/abs/2108.09378v1 )

ライセンス: CC BY 4.0
Alexandre Morgand (1) Mohamed Tamaazousti (2) and Adrien Bartoli (3) ((1) SLAMcore ltd, London, UK (2) Universit\'e Paris Saclay, CEA, LIST, Gif-sur-Yvette, France (3) IP-UMR 6602 - CNRS/UCA/CHU, Clermont-Ferrand, France)(参考訳) 特異性予測は、拡張現実(AR)、同時局在マッピング(SLAM)、3次元再構成と物質モデリングで使用できる重要な視覚的手がかりを提供することによって、多くのコンピュータビジョンアプリケーションにとって不可欠である。 しかし、カメラポーズ、シーンの幾何学、光源、材料特性など、シーンからの多数の情報を必要とする課題である。 我々の以前の研究では、特定のカメラのポーズのスペクティリティ・イメージの輪郭に合致する楕円体を用いて明示的なモデルを作成することでこの問題に対処しました。 これらの楕円体に基づくアプローチは、Joint-LIght Material Specularity (JOLIMAS)と呼ばれるモデルの族に属する。 しかし、我々の最新のアプローチはまだ一様曲面に限られている。 本稿では、JOLIMASを任意の表面形状に一般化し、計算性能を犠牲にすることなく、特異性予測の質を改善した。 提案手法は, 先行研究から幾何学的仮定を取り上げるために, 表面曲率と鏡面形状とのリンクを確立する。 従来の研究とは対照的に、我々の新しいモデルは物理に基づく局所照明モデルであるTorrance-Sparrowから構築され、より良いモデル再構成を提供する。 本モデルを用いた特異性予測は, 形状曲率の異なる合成および実数列において, 最新のJOLIMASバージョンと比較した。 本手法は,ビデオを用いた補足資料で示されるように,リアルタイム設定を含む投機性予測における従来のアプローチを上回っている。

Specularity prediction is essential to many computer vision applications by giving important visual cues that could be used in Augmented Reality (AR), Simultaneous Localisation and Mapping (SLAM), 3D reconstruction and material modeling, thus improving scene understanding. However, it is a challenging task requiring numerous information from the scene including the camera pose, the geometry of the scene, the light sources and the material properties. Our previous work have addressed this task by creating an explicit model using an ellipsoid whose projection fits the specularity image contours for a given camera pose. These ellipsoid-based approaches belong to a family of models called JOint-LIght MAterial Specularity (JOLIMAS), where we have attempted to gradually remove assumptions on the scene such as the geometry of the specular surfaces. However, our most recent approach is still limited to uniformly curved surfaces. This paper builds upon these methods by generalising JOLIMAS to any surface geometry while improving the quality of specularity prediction, without sacrificing computation performances. The proposed method establishes a link between surface curvature and specularity shape in order to lift the geometric assumptions from previous work. Contrary to previous work, our new model is built from a physics-based local illumination model namely Torrance-Sparrow, providing a better model reconstruction. Specularity prediction using our new model is tested against the most recent JOLIMAS version on both synthetic and real sequences with objects of varying shape curvatures. Our method outperforms previous approaches in specularity prediction, including the real-time setup, as shown in the supplementary material using videos.
翻訳日:2021-08-25 10:56:52 公開日:2021-08-20
# (参考訳) 画像からの逆グラフパターンの検出とセグメンテーション

Detecting and Segmenting Adversarial Graphics Patterns from Images ( http://arxiv.org/abs/2108.09383v1 )

ライセンス: CC BY-SA 4.0
Xiangyu Qu (1) and Stanley H. Chan (1) ((1) Purdue University)(参考訳) 敵の攻撃はコンピュータビジョンシステムのセキュリティに重大な脅威をもたらすが、ソーシャルメディア業界は常に、不適切な画像をアップロードし、人工的なグラフィックパターンを追加することで自動スクリーニングシステムを騙そうとする別のタイプの「敵の攻撃」に直面している。 本稿では,人工的なグラフィックパターン分割問題のような攻撃に対する防御を定式化する。 本稿では,いくつかのセグメンテーションアルゴリズムの有効性を評価し,その性能の観察に基づいて,この問題に適した新しい手法を提案する。 大規模な実験により,提案手法はベースラインよりも優れ,有望な一般化能力を有しており,人工グラフィックパターンのセグメント化において最も重要な側面であることがわかった。

Adversarial attacks pose a substantial threat to computer vision system security, but the social media industry constantly faces another form of "adversarial attack" in which the hackers attempt to upload inappropriate images and fool the automated screening systems by adding artificial graphics patterns. In this paper, we formulate the defense against such attacks as an artificial graphics pattern segmentation problem. We evaluate the efficacy of several segmentation algorithms and, based on observation of their performance, propose a new method tailored to this specific problem. Extensive experiments show that the proposed method outperforms the baselines and has a promising generalization capability, which is the most crucial aspect in segmenting artificial graphics patterns.
翻訳日:2021-08-25 10:38:59 公開日:2021-08-20
# (参考訳) 地域保健センターにおけるcovid-19モニタリングとppe需要予測のためのマルチタスク学習フレームワーク

A Multi-Task Learning Framework for COVID-19 Monitoring and Prediction of PPE Demand in Community Health Centres ( http://arxiv.org/abs/2108.09402v1 )

ライセンス: CC BY 4.0
Bonaventure Chidube Molokwu, Shaon Bhatta Shuvo, Ziad Kobti, Anne Snowdon(参考訳) 現在、世界は新たなSARS-CoV-2の拡散を制御・防止するための適切な緩和技術を模索している。 本稿では,SARS-CoV-2の効果と,地域保健センターにおける個人・保護・機器消費を協調的に予測する特有なマルチタスク学習フレームワークを提案する。 ウイルス(sars-cov-2)の効果を研究や解析によって予測することで、sars-cov-2の増殖と拡散を促進する要因について理解することができる。 そのため、この集団は広く認知され、2019年のコロナウイルスの流行を緩和するため、より積極的に慎重になる可能性がある(共同-19)。 さらに、個人保護装置の需要の理解と予測は、地域保健センターにおける医療従事者の効率と安全性を促進する。 SARS-CoV-2の新規な性質と変異により、この点に関しての文献や研究は比較的少ない。 これらの既存の文献はエージェントベースモデル、機械学習モデル、数学的モデルのいずれかを用いて問題文の解決を試みた。 これを踏まえて,本研究は,課題文をマルチタスク学習問題としてモデル化することで,既存の文献に追加する。 以上の結果から,SARS-CoV-2の拡散に影響を及ぼす最も重要な要因は,政府の行動や人的要因であることが明らかとなった。

Currently, the world seeks to find appropriate mitigation techniques to control and prevent the spread of the new SARS-CoV-2. In our paper herein, we present a peculiar Multi-Task Learning framework that jointly predicts the effect of SARS-CoV-2 as well as Personal-Protective-Equipment consumption in Community Health Centres for a given populace. Predicting the effect of the virus (SARS-CoV-2), via studies and analyses, enables us to understand the nature of SARS-CoV- 2 with reference to factors that promote its growth and spread. Therefore, these foster widespread awareness; and the populace can become more proactive and cautious so as to mitigate the spread of Corona Virus Disease 2019 (COVID- 19). Furthermore, understanding and predicting the demand for Personal Protective Equipment promotes the efficiency and safety of healthcare workers in Community Health Centres. Owing to the novel nature and strains of SARS-CoV-2, relatively few literature and research exist in this regard. These existing literature have attempted to solve the problem statement(s) using either Agent-based Models, Machine Learning Models, or Mathematical Models. In view of this, our work herein adds to existing literature via modeling our problem statements as Multi- Task Learning problems. Results from our research indicate that government actions and human factors are the most significant determinants that influence the spread of SARS-CoV-2.
翻訳日:2021-08-25 10:22:25 公開日:2021-08-20
# 一人ひとりのチャットボット:不適切なユーザープロファイルに基づく個人化チャットボットの作成

One Chatbot Per Person: Creating Personalized Chatbots based on Implicit User Profiles ( http://arxiv.org/abs/2108.09355v1 )

ライセンス: Link先を確認
Zhengyi Ma, Zhicheng Dou, Yutao Zhu, Hanxun Zhong, Ji-Rong Wen(参考訳) パーソナライズされたチャットボットは、本物のユーザーのように振る舞う一貫したパーソナリティを持つチャットボットを内在させ、より有益な反応を与え、さらにパーソナルアシスタントとして振る舞うことに焦点を当てている。 既存のパーソナライズされたアプローチは、いくつかのテキスト記述を明示的なユーザプロファイルとして組み込もうとした。 しかし、そのような明示的なプロファイルの取得は高価で時間がかかるため、大規模な実世界のアプリケーションでは実用的ではない。 さらに、制限された事前定義プロファイルは、実際のユーザの言語動作を無視し、ユーザの関心の変化とともに自動的に更新されない。 本稿では,チャットボット構築のための大規模ユーザ対話履歴から暗黙のユーザプロファイルを自動的に学習する手法を提案する。 具体的には,Transformerの利点を言語理解に活かし,ユーザの履歴応答から一般ユーザプロファイルを構築するためにパーソナライズされた言語モデルを訓練する。 入力ポストに対する関連する履歴応答を強調するために、過去の応答後ペアのキー値メモリネットワークをさらに確立し、動的応答後ユーザプロファイルを構築する。 動的プロファイルは、ユーザーがどの投稿に対してどのように反応したかを主に記述している。 ユーザの頻繁に使われる単語を明示的に利用するために、汎用語彙から単語を生成し、ユーザのパーソナライズされた語彙から1つの単語をコピーすることを含む、2つの復号戦略を融合するパーソナライズドデコーダを設計する。 2つの実世界のデータセットに対する実験は、既存の手法と比較して、我々のモデルの大幅な改善を示している。

Personalized chatbots focus on endowing chatbots with a consistent personality to behave like real users, give more informative responses, and further act as personal assistants. Existing personalized approaches tried to incorporate several text descriptions as explicit user profiles. However, the acquisition of such explicit profiles is expensive and time-consuming, thus being impractical for large-scale real-world applications. Moreover, the restricted predefined profile neglects the language behavior of a real user and cannot be automatically updated together with the change of user interests. In this paper, we propose to learn implicit user profiles automatically from large-scale user dialogue history for building personalized chatbots. Specifically, leveraging the benefits of Transformer on language understanding, we train a personalized language model to construct a general user profile from the user's historical responses. To highlight the relevant historical responses to the input post, we further establish a key-value memory network of historical post-response pairs, and build a dynamic post-aware user profile. The dynamic profile mainly describes what and how the user has responded to similar posts in history. To explicitly utilize users' frequently used words, we design a personalized decoder to fuse two decoding strategies, including generating a word from the generic vocabulary and copying one word from the user's personalized vocabulary. Experiments on two real-world datasets show the significant improvement of our model compared with existing methods.
翻訳日:2021-08-24 16:05:49 公開日:2021-08-20
# 能動学習における影響選択

Influence Selection for Active Learning ( http://arxiv.org/abs/2108.09331v1 )

ライセンス: Link先を確認
Zhuoming Liu, Hao Ding, Huaping Zhong, Weijia Li, Jifeng Dai, Conghui He(参考訳) 既存のアクティブラーニング手法では、異なるタスクやモデル固有の基準に基づいて、サンプルの不確実性やラベル付きデータセットの多様性の影響を評価してサンプルを選択する。 本稿では,モデル性能に最も有意な影響を与える非ラベルサンプルを選択するアクティブラーニング(isal)に対する影響選択を提案する。 アクティブな学習シナリオにおける未ラベルサンプルの影響を得るために,未ラベルサンプル影響計算(Untrained Unlabeled sample Influence calculated, UUIC)を設計し,その影響を計算した未ラベルサンプルの予測勾配を推定する。 UUICの有効性を証明するため,理論的および実験的解析を行った。 UUICは任意のニューラルネットワークから容易に得られるモデル勾配に依存するため、我々のアクティブラーニングアルゴリズムはタスク非依存でモデル非依存である。 ISALは、異なるデータセットで異なるタスクに対して異なるアクティブな学習設定で最先端のパフォーマンスを達成する。 従来の手法と比較して,CIFAR10,VOC2012,COCOでは,アノテーションのコストを少なくとも12%,13%,16%削減する。

The existing active learning methods select the samples by evaluating the sample's uncertainty or its effect on the diversity of labeled datasets based on different task-specific or model-specific criteria. In this paper, we propose the Influence Selection for Active Learning(ISAL) which selects the unlabeled samples that can provide the most positive Influence on model performance. To obtain the Influence of the unlabeled sample in the active learning scenario, we design the Untrained Unlabeled sample Influence Calculation(UUIC) to estimate the unlabeled sample's expected gradient with which we calculate its Influence. To prove the effectiveness of UUIC, we provide both theoretical and experimental analyses. Since the UUIC just depends on the model gradients, which can be obtained easily from any neural network, our active learning algorithm is task-agnostic and model-agnostic. ISAL achieves state-of-the-art performance in different active learning settings for different tasks with different datasets. Compared with previous methods, our method decreases the annotation cost at least by 12%, 13% and 16% on CIFAR10, VOC2012 and COCO, respectively.
翻訳日:2021-08-24 16:00:11 公開日:2021-08-20
# プライバシ保護医療プラットフォームのための時空間スプリット学習 : COVID-19 CT, X線, コレステロールデータを用いたケーススタディ

Spatio-Temporal Split Learning for Privacy-Preserving Medical Platforms: Case Studies with COVID-19 CT, X-Ray, and Cholesterol Data ( http://arxiv.org/abs/2108.10147v1 )

ライセンス: Link先を確認
Yoo Jeong Ha, Minjae Yoo, Gusang Lee, Soyi Jung, Sae Won Choi, Joongheon Kim, and Seehwan Yoo(参考訳) 機械学習は、特に高精度な医療アプリケーションで使用される場合、大量のサンプルデータを必要とする。 しかし、患者記録は、通常、機関間で共有されていない最も機密性の高い個人情報の1つである。 本稿では、プライバシに敏感な組織間のコラボレーションを可能にするための転換点である分散ディープニューラルネットワークフレームワークである時空間分割学習を提案する。 我々の時空間分割学習は、分散機械学習を最小限のプライバシーで効率的に行う方法を示している。 提案する分割学習は,多数のクライアントと集中型サーバで構成される。 各クライアントは、プライバシ保護層として機能する1つの隠蔽層しか持たず、集中型サーバは、他の隠蔽層と出力層から構成される。 集中型サーバはトレーニングデータにアクセスせず、プライバシ保存層から受信したパラメータでディープニューラルネットワークをトレーニングするため、元のデータのプライバシが保証される。 複数のクライアントが空間的に分散して、さまざまな参加者のさまざまなデータセットをカバーすることにより、私たちは学習プロセスを一時的に分割し、プライバシー保護層を他の学習プロセスから切り離し、プライバシー侵害を最小限に抑えることができるのです。 本稿では,コロナウイルス感染症 (COVID-19) 胸部CT, MU (MU) RA-ography (MU) X線画像, コレステロール値の多地点時分割学習アルゴリズムを用いて, 医療データのプライバシー確保を図りながら, 医療データを解析する方法を示す。

Machine learning requires a large volume of sample data, especially when it is used in high-accuracy medical applications. However, patient records are one of the most sensitive private information that is not usually shared among institutes. This paper presents spatio-temporal split learning, a distributed deep neural network framework, which is a turning point in allowing collaboration among privacy-sensitive organizations. Our spatio-temporal split learning presents how distributed machine learning can be efficiently conducted with minimal privacy concerns. The proposed split learning consists of a number of clients and a centralized server. Each client has only has one hidden layer, which acts as the privacy-preserving layer, and the centralized server comprises the other hidden layers and the output layer. Since the centralized server does not need to access the training data and trains the deep neural network with parameters received from the privacy-preserving layer, privacy of original data is guaranteed. We have coined the term, spatio-temporal split learning, as multiple clients are spatially distributed to cover diverse datasets from different participants, and we can temporally split the learning process, detaching the privacy preserving layer from the rest of the learning process to minimize privacy breaches. This paper shows how we can analyze the medical data whilst ensuring privacy using our proposed multi-site spatio-temporal split learning algorithm on Coronavirus Disease-19 (COVID-19) chest Computed Tomography (CT) scans, MUsculoskeletal RAdiographs (MURA) X-ray images, and cholesterol levels.
翻訳日:2021-08-24 15:56:45 公開日:2021-08-20
# 歪んだ画像に対する早期出力ディープニューラルネットワーク:効率的なエッジオフロードを提供する

Early-exit deep neural networks for distorted images: providing an efficient edge offloading ( http://arxiv.org/abs/2108.09343v1 )

ライセンス: Link先を確認
Roberto G. Pacheco, Fernanda D.V.R. Oliveira and Rodrigo S. Couto(参考訳) ディープニューラルネットワーク(DNN)のエッジオフロードは、早期出力のDNNを使用することで、入力の複雑さに適応することができる。 これらのDNNはアーキテクチャ全体にわたってサイドブランチを持ち、推論をエッジで早期に終了させることができる。 枝は与えられた入力の精度を推定する。 この推定精度がしきい値に達すると、推論はエッジで終了する。 そうでなければ、エッジはクラウドに推論をオフロードし、残りのDNN層を処理する。 しかし、画像分類のためのDNNは歪んだ画像を扱うため、枝の推定精度に悪影響を及ぼす。 その結果、エッジはより多くの推論をクラウドにオフロードする。 この研究は、画像歪みに対する堅牢性を改善するために、特定の歪みタイプで訓練されたエキスパートサイドブランチを導入する。 エッジは歪みタイプを検出し、推論を行う適切な専門家ブランチを選択する。 このアプローチはエッジ上の推定精度を高め、オフロードの決定を改善する。 エッジがDNN推論をAmazon EC2インスタンスにオフロードする現実的なシナリオで、私たちの提案を検証する。

Edge offloading for deep neural networks (DNNs) can be adaptive to the input's complexity by using early-exit DNNs. These DNNs have side branches throughout their architecture, allowing the inference to end earlier in the edge. The branches estimate the accuracy for a given input. If this estimated accuracy reaches a threshold, the inference ends on the edge. Otherwise, the edge offloads the inference to the cloud to process the remaining DNN layers. However, DNNs for image classification deals with distorted images, which negatively impact the branches' estimated accuracy. Consequently, the edge offloads more inferences to the cloud. This work introduces expert side branches trained on a particular distortion type to improve robustness against image distortion. The edge detects the distortion type and selects appropriate expert branches to perform the inference. This approach increases the estimated accuracy on the edge, improving the offloading decisions. We validate our proposal in a realistic scenario, in which the edge offloads DNN inference to Amazon EC2 instances.
翻訳日:2021-08-24 15:54:08 公開日:2021-08-20
# mm-vit:圧縮ビデオ動作認識用マルチモーダルビデオトランス

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition ( http://arxiv.org/abs/2108.09322v1 )

ライセンス: Link先を確認
Jiawei Chen, Chiu Man Ho(参考訳) 本稿では,マルチモーダルビデオトランスフォーマタ (mm-vit) と呼ばれる,ビデオ動作認識のための純粋トランスフォーマティブ方式を提案する。 復号化RGBフレームのみを利用する他のスキームとは異なり、MM-ViTは圧縮されたビデオ領域でのみ動作し、Iフレーム、モーションベクトル、残差、オーディオ波形など、利用可能なすべてのモダリティを利用する。 複数のモーダル性から抽出された多数の時空間トークンを扱うために,空間,時間,モダリティ次元をまたいだ自己アテンションを分解するスケーラブルなモデル変異体を開発した。 さらに, リッチなモーダル間相互作用とその効果をさらに探究するため, トランスフォーマービルディングブロックにシームレスに統合可能な3つの異なるクロスモーダル注意機構を開発・比較した。 3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーを効率と精度の両方で上回り、計算量の多いCNNと同等か等に優れていることを示した。

This paper presents a pure transformer-based approach, dubbed the Multi-Modal Video Transformer (MM-ViT), for video action recognition. Different from other schemes which solely utilize the decoded RGB frames, MM-ViT operates exclusively in the compressed video domain and exploits all readily available modalities, i.e., I-frames, motion vectors, residuals and audio waveform. In order to handle the large number of spatiotemporal tokens extracted from multiple modalities, we develop several scalable model variants which factorize self-attention across the space, time and modality dimensions. In addition, to further explore the rich inter-modal interactions and their effects, we develop and compare three distinct cross-modal attention mechanisms that can be seamlessly integrated into the transformer building block. Extensive experiments on three public action recognition benchmarks (UCF-101, Something-Something-v2, Kinetics-600) demonstrate that MM-ViT outperforms the state-of-the-art video transformers in both efficiency and accuracy, and performs better or equally well to the state-of-the-art CNN counterparts with computationally-heavy optical flow.
翻訳日:2021-08-24 15:50:13 公開日:2021-08-20
# BlockCopy: ブロックスパース機能プロパゲーションとオンラインポリシによる高解像度ビデオ処理

BlockCopy: High-Resolution Video Processing with Block-Sparse Feature Propagation and Online Policies ( http://arxiv.org/abs/2108.09376v1 )

ライセンス: Link先を確認
Thomas Verelst, Tinne Tuytelaars(参考訳) 本稿では,プリトレーニングされたフレームベースのcnnを高速化し,標準フレーム毎フレーム処理と比較してより効率的に映像処理を行うblockcopyを提案する。 この目的のために、軽量ポリシーネットワークは、画像内の重要な領域を決定し、カスタムブロックスパース畳み込みを用いて、選択された領域のみに操作を適用する。 非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。 実行方針は、真理アノテーションを必要とせず、オンラインで強化学習を用いて訓練される。 提案手法は,最先端のart(center and scale predictor, mgan, swiftnet)と標準ベースラインネットワーク(mask-rcnn, deeplabv3+)の両方を用いて,歩行者検出,インスタンスセグメンテーション,セマンティクスセグメンテーションなどの密集した予測タスクについて実証する。 BlockCopyはFLOPSの大幅な削減と推論の高速化を実現している。

In this paper we propose BlockCopy, a scheme that accelerates pretrained frame-based CNNs to process video more efficiently, compared to standard frame-by-frame processing. To this end, a lightweight policy network determines important regions in an image, and operations are applied on selected regions only, using custom block-sparse convolutions. Features of non-selected regions are simply copied from the preceding frame, reducing the number of computations and latency. The execution policy is trained using reinforcement learning in an online fashion without requiring ground truth annotations. Our universal framework is demonstrated on dense prediction tasks such as pedestrian detection, instance segmentation and semantic segmentation, using both state of the art (Center and Scale Predictor, MGAN, SwiftNet) and standard baseline networks (Mask-RCNN, DeepLabV3+). BlockCopy achieves significant FLOPS savings and inference speedup with minimal impact on accuracy.
翻訳日:2021-08-24 15:49:48 公開日:2021-08-20
# Cascade Watchdog:アウトリーチ検出のための多層対向ガード

Cascade Watchdog: A Multi-tiered Adversarial Guard for Outlier Detection ( http://arxiv.org/abs/2108.09375v1 )

ライセンス: Link先を確認
Glauco A. Amigo Gal\'an and Justin Bui and Robert J. Marks(参考訳) 分散コンテンツの同定は、ニューラルネットワークの実装の成功に不可欠である。 watchdogの技術はこれらの入力の検出をサポートするために開発されているが、その性能は利用可能なデータ量によって制限される。 生成的敵ネットワークは、優れた精度でファクシミリを生成する機能を含む、多数の能力を示した。 本稿では,gan生成データを用いて開発した多層ウォッチドッグを用いて,分散検出精度の向上を実現した。 カスケードウォッチドッグは、より検出が難しい分散要素に似た利用可能なデータ量を増やすために、逆のトレーニングを使用する。 そして、特殊第2ガードを順次追加する。 その結果, 極めて低い偽陽性率を維持しつつ, 最も困難な分布外入力の検出において, 安定かつ有意な改善が得られた。

The identification of out-of-distribution content is critical to the successful implementation of neural networks. Watchdog techniques have been developed to support the detection of these inputs, but the performance can be limited by the amount of available data. Generative adversarial networks have displayed numerous capabilities, including the ability to generate facsimiles with excellent accuracy. This paper presents and empirically evaluates a multi-tiered watchdog, which is developed using GAN generated data, for improved out-of-distribution detection. The cascade watchdog uses adversarial training to increase the amount of available data similar to the out-of-distribution elements that are more difficult to detect. Then, a specialized second guard is added in sequential order. The results show a solid and significant improvement on the detection of the most challenging out-of-distribution inputs while preserving an extremely low false positive rate.
翻訳日:2021-08-24 15:38:43 公開日:2021-08-20
# ウィンドフォールクロースによる安全なトランスフォーメーションAI

Safe Transformative AI via a Windfall Clause ( http://arxiv.org/abs/2108.09404v1 )

ライセンス: Link先を確認
Paolo Bova, Jonas Emanuel M\"uller, Benjamin Harack(参考訳) 社会はすぐにトランスフォーメーション人工知能(tai:transformative artificial intelligence)を見ることができた。 tai showの競争モデルは、安全になる前にtaiシステムを展開する強力な競争圧力にさらされている。 本稿では、開発者が最終的に非常に大きな利益のかなりの部分を良い原因に寄付することを約束するWindfall Clauseという、この問題に対する解決策を提案する。 しかし、Windfall Clauseにとって重要な課題は、企業が参加する理由がなければならないことだ。 企業はこれらのコミットメントが信頼できると信じなければならない。 我々は、これらの課題を克服するWindfall Clauseを企業や政策立案者がどのように設計できるかを示すために、Windfall ClauseとTAIコンペティションのモデルを拡張します。 企業は幅広いシナリオでWindfall Clauseに参加することで利益を得る。 また、競争がより危険な場合、企業はより頻繁にウィンドフォール条項に参加します。 企業が互いの能力を習得しても、企業がウィンドフォール・クロースへの支持を辞退することはめったにない。 これらの3つの知見は,TAIの安全開発を促進するためにウィンドフォール・クロースを用いたケースを強化するものである。

Society could soon see transformative artificial intelligence (TAI). Models of competition for TAI show firms face strong competitive pressure to deploy TAI systems before they are safe. This paper explores a proposed solution to this problem, a Windfall Clause, where developers commit to donating a significant portion of any eventual extremely large profits to good causes. However, a key challenge for a Windfall Clause is that firms must have reason to join one. Firms must also believe these commitments are credible. We extend a model of TAI competition with a Windfall Clause to show how firms and policymakers can design a Windfall Clause which overcomes these challenges. Encouragingly, firms benefit from joining a Windfall Clause under a wide range of scenarios. We also find that firms join the Windfall Clause more often when the competition is more dangerous. Even when firms learn each other's capabilities, firms rarely wish to withdraw their support for the Windfall Clause. These three findings strengthen the case for using a Windfall Clause to promote the safe development of TAI.
翻訳日:2021-08-24 15:34:54 公開日:2021-08-20
# OSRM-CCTV:プライバシー、匿名、安全のためのCCTV対応ルーティングおよびナビゲーションシステム(プレプリント)

OSRM-CCTV: Open-source CCTV-aware routing and navigation system for privacy, anonymity and safety (Preprint) ( http://arxiv.org/abs/2108.09369v1 )

ライセンス: Link先を確認
Lauri Sintonen, Hannu Turtiainen, Andrei Costin, Timo Hamalainen, Tuomo Lahtinen(参考訳) 過去数十年間、世界中のクローズド・サーキット・テレビ(cctv)カメラの利用が拡大し、広範に広まり、不当に利用され、プライバシーのリスクが懸念されてきた。 IoT(Internet of Things)接続やAI(Artificial Intelligence)ベースの顔認識など、多くのCCTVカメラの最近の追加機能により、プライバシ擁護者の間での懸念が増している。 したがって、プライバシ、安全性、サイバーセキュリティ機能を提供するpal \emph{CCTV-aware solution}が存在する必要がある。 我々は、ルーティングやナビゲーションシステム(OpenStreetMap、Google Mapsなど)を通じて、カメラの存在が知られている領域のプライバシーと安全性の両方を提供する、プライバシー問題に対処するソリューションを開発することが重要なステップであると主張している。 しかし、現在、オンラインでもオフラインでも、CCTV対応の機能を提供していない。 本稿では,プライバシ,匿名性,安全性アプリケーション用に設計された,最初のcctv対応ルーティングおよびナビゲーションシステムであるosrm-cctvを紹介する。 システムの有効性とユーザビリティを,少数の合成および実世界の例で検証し,実証する。 当社の作業の検証に加えて,システムの開発と広範な採用をさらに促進するために,osrm-cctvをオープンソースとしてリリースします。

For the last several decades, the increased, widespread, unwarranted, and unaccountable use of Closed-Circuit TeleVision (CCTV) cameras globally has raised concerns about privacy risks. Additional recent features of many CCTV cameras, such as Internet of Things (IoT) connectivity and Artificial Intelligence (AI)-based facial recognition, only increase concerns among privacy advocates. Therefore, on par \emph{CCTV-aware solutions} must exist that provide privacy, safety, and cybersecurity features. We argue that an important step forward is to develop solutions addressing privacy concerns via routing and navigation systems (e.g., OpenStreetMap, Google Maps) that provide both privacy and safety options for areas where cameras are known to be present. However, at present no routing and navigation system, whether online or offline, provide corresponding CCTV-aware functionality. In this paper we introduce OSRM-CCTV -- the first and only CCTV-aware routing and navigation system designed and built for privacy, anonymity and safety applications. We validate and demonstrate the effectiveness and usability of the system on a handful of synthetic and real-world examples. To help validate our work as well as to further encourage the development and wide adoption of the system, we release OSRM-CCTV as open-source.
翻訳日:2021-08-24 15:23:26 公開日:2021-08-20
# beyond tracking: 生物群における新しい相互作用の発見にディープラーニングを使用する

Beyond Tracking: Using Deep Learning to Discover Novel Interactions in Biological Swarms ( http://arxiv.org/abs/2108.09394v1 )

ライセンス: Link先を確認
Taeyeong Choi, Benjamin Pyenson, Juergen Liebig, Theodore P. Pavlic(参考訳) 生物群を理解するための多くのディープラーニングフレームワークは、ビデオ観察から別々に収集された個々のレベルのデータ(例えば、個人の特徴の空間座標)に集団行動の知覚モデルに適合するように設計されている。 自動追跡の大幅な進歩にもかかわらず、これらの方法は同時に多数の動物を追跡する際に、非常に高価または信頼性が低い。 さらに、このアプローチでは、集団行動における重要なパターンを説明するのに十分な特徴を含むヒューマン・チョーセンの特徴を仮定する。 これらの問題に対処するため,我々は,システムレベルの状態を全体から直接予測する深層ネットワークモデルのトレーニングを提案する。 結果の予測モデルは人間の理解した予測値に基づいていないため、深層ネットワークモデルの潜伏変数に隠された情報とビデオデータ自体を結合した説明モジュール(Grad-CAMなど)を用いて、観察された個々の行動の側面がグループ行動の予測に最も有益であるかを人間の観察者に伝える。 これは行動生態学における人工知能の例であり、人間-aiチームにおける知識の共創である。 概念実証として,50以上のハルペグナトス塩分アリのコロニーの20日間のビデオ記録を用いて,個々のアノテーションが提供されないと,訓練されたモデルがビデオフレーム全体に"importance map"を生成して,繁殖階層の再形成の解決に寄与するデュエル(aiには事前知識がない)などの重要な行動の領域を強調することができることを示した。 実験結果に基づいて, 潜在的な利用可能性と現状の課題について考察する。

Most deep-learning frameworks for understanding biological swarms are designed to fit perceptive models of group behavior to individual-level data (e.g., spatial coordinates of identified features of individuals) that have been separately gathered from video observations. Despite considerable advances in automated tracking, these methods are still very expensive or unreliable when tracking large numbers of animals simultaneously. Moreover, this approach assumes that the human-chosen features include sufficient features to explain important patterns in collective behavior. To address these issues, we propose training deep network models to predict system-level states directly from generic graphical features from the entire view, which can be relatively inexpensive to gather in a completely automated fashion. Because the resulting predictive models are not based on human-understood predictors, we use explanatory modules (e.g., Grad-CAM) that combine information hidden in the latent variables of the deep-network model with the video data itself to communicate to a human observer which aspects of observed individual behaviors are most informative in predicting group behavior. This represents an example of augmented intelligence in behavioral ecology -- knowledge co-creation in a human-AI team. As proof of concept, we utilize a 20-day video recording of a colony of over 50 Harpegnathos saltator ants to showcase that, without any individual annotations provided, a trained model can generate an "importance map" across the video frames to highlight regions of important behaviors, such as dueling (which the AI has no a priori knowledge of), that play a role in the resolution of reproductive-hierarchy re-formation. Based on the empirical results, we also discuss the potential use and current challenges.
翻訳日:2021-08-24 15:23:05 公開日:2021-08-20
# 強化学習とアタックグラフを用いたクラウンジュエル分析

Crown Jewels Analysis using Reinforcement Learning with Attack Graphs ( http://arxiv.org/abs/2108.09358v1 )

ライセンス: Link先を確認
Rohit Gangupantulu, Tyler Cody, Abdul Rahman, Christopher Redino, Ryan Clark, Paul Park(参考訳) サイバー攻撃は国家や企業に存在の脅威をもたらす。 現在の実践は、厳密なサイバー地形分析と戦場の情報準備の代わりに脅威モデルを用いた断片的分析を好んでいる。 強化学習を用いた自動浸透試験は、ネットワーク構造とサイバー地形によって駆動される方法論を新たに開発するための有望なアプローチを提供する。 本稿では,強化学習を用いたクラウンジュエル分析法であるcja-rlを用いて,クラウンジュエルを活用するための重要な地形とアプローチの道筋を同定する手法を提案する。 我々の実験では、CJA-RLは、複数のクラウン宝石を用いたネットワークを利用するための理想的なエントリポイント、チョークポイント、ピボットを特定し、CJA-RLと強化学習が一般に浸透試験にどのように役立つかを示した。

Cyber attacks pose existential threats to nations and enterprises. Current practice favors piece-wise analysis using threat-models in the stead of rigorous cyber terrain analysis and intelligence preparation of the battlefield. Automated penetration testing using reinforcement learning offers a new and promising approach for developing methodologies that are driven by network structure and cyber terrain, that can be later interpreted in terms of threat-models, but that are principally network-driven analyses. This paper presents a novel method for crown jewel analysis termed CJA-RL that uses reinforcement learning to identify key terrain and avenues of approach for exploiting crown jewels. In our experiment, CJA-RL identified ideal entry points, choke points, and pivots for exploiting a network with multiple crown jewels, exemplifying how CJA-RL and reinforcement learning for penetration testing generally can benefit computer network operations workflows.
翻訳日:2021-08-24 15:21:20 公開日:2021-08-20
# 多入力多出力トランスベースハイブリッドニューラルネットワークによる多クラスプライバシー開示検出

A Multi-input Multi-output Transformer-based Hybrid Neural Network for Multi-class Privacy Disclosure Detection ( http://arxiv.org/abs/2108.08483v2 )

ライセンス: Link先を確認
A K M Nuhil Mehdy, Hoda Mehrpouyan(参考訳) ユーザのデータプライバシに関する懸念は,コミュニケーションプラットフォームやソーシャルネットワークサイトの増加,オンライン公開談話へのユーザの参加の増加などにより,最高水準に達している。 リスクや影響を意識せずに、電子メール、テキストメッセージ、ソーシャルメディアを通じて個人情報を交換する人が増えている。 自然言語処理(NLP)分野の研究者は、大量のデータがテキスト形式で交換されるため、テキストデータのプライベート情報を識別、分類、衛生化するためのツールと戦略の開発に集中している。 しかし, 検出手法の多くは, テキスト中の事前識別キーワードの存在にのみ依存しており, 特定の文脈における発話の基本的な意味の推測を無視している。 したがって、いくつかの状況では、これらのツールとアルゴリズムは開示を検知できず、結果が誤分類される。 本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。 我々の目標は、状況の文脈で、開示/非開示コンテンツの分類を改善することである。 我々は5400のツイートを含む人間の注釈付き地上真理データセットでモデルを訓練し、評価した。 その結果,提案モデルでは2つのタスクを共同で学習することで,77.4%の精度でツイートによるプライバシー開示を識別でき,その情報タイプを99%の印象的な精度で分類することができた。

The concern regarding users' data privacy has risen to its highest level due to the massive increase in communication platforms, social networking sites, and greater users' participation in online public discourse. An increasing number of people exchange private information via emails, text messages, and social media without being aware of the risks and implications. Researchers in the field of Natural Language Processing (NLP) have concentrated on creating tools and strategies to identify, categorize, and sanitize private information in text data since a substantial amount of data is exchanged in textual form. However, most of the detection methods solely rely on the existence of pre-identified keywords in the text and disregard the inference of the underlying meaning of the utterance in a specific context. Hence, in some situations, these tools and algorithms fail to detect disclosure, or the produced results are miss-classified. In this paper, we propose a multi-input, multi-output hybrid neural network which utilizes transfer-learning, linguistics, and metadata to learn the hidden patterns. Our goal is to better classify disclosure/non-disclosure content in terms of the context of situation. We trained and evaluated our model on a human-annotated ground truth dataset, containing a total of 5,400 tweets. The results show that the proposed model was able to identify privacy disclosure through tweets with an accuracy of 77.4% while classifying the information type of those tweets with an impressive accuracy of 99%, by jointly learning for two separate tasks.
翻訳日:2021-08-24 11:28:59 公開日:2021-08-20
# (参考訳) 分解二次数を用いたグラフスラム最適化のための幾何学的プリミティブの統一表現

Unified Representation of Geometric Primitives for Graph-SLAM Optimization Using Decomposed Quadrics ( http://arxiv.org/abs/2108.08957v1 )

ライセンス: CC BY 4.0
Weikun Zhen, Huai Yu, Yaoyu Hu, Sebastian Scherer(参考訳) SLAM問題では、高レベルのランドマークは、従来のポイントベースのランドマークと比較してコンパクトで情報的なマップを構築する可能性がある。 この研究は、点、線、平面、楕円形、シリンダー、円錐など、最も頻繁に使用される高水準幾何学的プリミティブのパラメータ化問題に焦点を当てている。 まず、これらの幾何学的プリミティブの統一表現を \emph{quadrics} を用いて提示し、一貫した簡潔な定式化をもたらす。 さらに,二次の対称的および縮退的性質を開示する二次の分解モデルについても検討する。 この分解に基づいて,グラフスラム問題の設定において,物理的に有意な二次因子を展開する。 最後に, シミュレーション実験において, 分解された定式化はベースラインパラメータ化よりも, 観測ノイズに対する効率とロバスト性が向上することを示した。 実世界の実験では、提案したバックエンドフレームワークがコンパクトで規則化された地図を構築できることが実証されている。

In Simultaneous Localization And Mapping (SLAM) problems, high-level landmarks have the potential to build compact and informative maps compared to traditional point-based landmarks. This work is focused on the parameterization problem of high-level geometric primitives that are most frequently used, including points, lines, planes, ellipsoids, cylinders, and cones. We first present a unified representation of those geometric primitives using \emph{quadrics} which yields a consistent and concise formulation. Then we further study a decomposed model of quadrics that discloses the symmetric and degenerated nature of quadrics. Based on the decomposition, we develop physically meaningful quadrics factors in the settings of the graph-SLAM problem. Finally, in simulation experiments, it is shown that the decomposed formulation has better efficiency and robustness to observation noises than baseline parameterizations. And in real-world experiments, the proposed back-end framework is demonstrated to be capable of building compact and regularized maps.
翻訳日:2021-08-23 23:29:42 公開日:2021-08-20
# (参考訳) Plug and Play - モデルに基づく強化学習

Plug and Play, Model-Based Reinforcement Learning ( http://arxiv.org/abs/2108.08960v1 )

ライセンス: CC BY 4.0
Majid Abdolshah, Hung Le, Thommen Karimpanal George, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) 強化学習アプローチのサンプル効率の一般化は、特に多くのコンポーネントを持つ複雑なシーンにおいて、常に課題となっている。 本稿では、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現であるPlug and Play Markov Decision Processesを紹介する。 これはグローバル遷移ダイナミクスを局所遷移関数の結合として表現することで実現され、それぞれシーン内の1つのアクティブなオブジェクトに関するものである。 オブジェクトクラスからの遷移ダイナミクスは事前学習可能であるため、新しい環境で使う準備ができている。 それぞれのアクティブオブジェクトにも報酬関数が付与される。 中央報酬関数がないため、関連するオブジェクトの報酬関数を更新するだけで、オブジェクトの追加や削除を効率的に行うことができる。 このような場合に報奨機能を適用するための新しい転校学習機構も提案されている。 実験により,様々なセットアップにおいてサンプル効率が達成できることが示される。

Sample-efficient generalisation of reinforcement learning approaches have always been a challenge, especially, for complex scenes with many components. In this work, we introduce Plug and Play Markov Decision Processes, an object-based representation that allows zero-shot integration of new objects from known object classes. This is achieved by representing the global transition dynamics as a union of local transition functions, each with respect to one active object in the scene. Transition dynamics from an object class can be pre-learnt and thus would be ready to use in a new environment. Each active object is also endowed with its reward function. Since there is no central reward function, addition or removal of objects can be handled efficiently by only updating the reward functions of objects involved. A new transfer learning mechanism is also proposed to adapt reward function in such cases. Experiments show that our representation can achieve sample-efficiency in a variety of set-ups.
翻訳日:2021-08-23 23:15:44 公開日:2021-08-20
# (参考訳) CloudShield: クラウドにおけるリアルタイム異常検出

CloudShield: Real-time Anomaly Detection in the Cloud ( http://arxiv.org/abs/2108.08977v1 )

ライセンス: CC BY 4.0
Zecheng He, Ruby B. Lee(参考訳) クラウドコンピューティングでは,不審な動作が自動異常検出システムによって検出できることが望ましい。 異常検出は過去にも研究されてきたが、クラウドコンピューティングでは未解決である。 課題は、クラウドサーバの通常の振る舞いを特徴づけること、良心と悪意のある異常(攻撃)を区別すること、誤報による警告疲労を防ぐことである。 CloudShieldは,クラウドコンピューティングの現実的で一般化可能なリアルタイム異常検出システムである。 cloudshieldは、さまざまなクラウドワークロードでトレーニング済みの一般的なディープラーニングモデルを使用して、正常な振る舞いを予測し、モデル再構成エラー分布を調べることで、リアルタイムかつ連続的な検出を行う。 異常が検出されると、警告疲労を軽減するため、cloudshieldは予測エラー分布を調べることで、良性プログラム、既知の攻撃、ゼロデイ攻撃を自動的に区別する。 提案するcloudshieldを代表的クラウドベンチマークで評価する。 評価の結果,モデル事前トレーニングを使用したCloudShieldは,幅広いクラウドワークロードに適用可能であることがわかった。 特に、CloudShieldは、最近提案された投機的実行攻撃、例えばSpectreやMeltdown攻撃をミリ秒で検出できる。 さらに、cloudshieldは既知の攻撃や潜在的なゼロデイ攻撃を良質なプログラムと正確に区別し、優先順位付けする。 これにより、誤報を最大99.0%減らすことができる。

In cloud computing, it is desirable if suspicious activities can be detected by automatic anomaly detection systems. Although anomaly detection has been investigated in the past, it remains unsolved in cloud computing. Challenges are: characterizing the normal behavior of a cloud server, distinguishing between benign and malicious anomalies (attacks), and preventing alert fatigue due to false alarms. We propose CloudShield, a practical and generalizable real-time anomaly and attack detection system for cloud computing. Cloudshield uses a general, pretrained deep learning model with different cloud workloads, to predict the normal behavior and provide real-time and continuous detection by examining the model reconstruction error distributions. Once an anomaly is detected, to reduce alert fatigue, CloudShield automatically distinguishes between benign programs, known attacks, and zero-day attacks, by examining the prediction error distributions. We evaluate the proposed CloudShield on representative cloud benchmarks. Our evaluation shows that CloudShield, using model pretraining, can apply to a wide scope of cloud workloads. Especially, we observe that CloudShield can detect the recently proposed speculative execution attacks, e.g., Spectre and Meltdown attacks, in milliseconds. Furthermore, we show that CloudShield accurately differentiates and prioritizes known attacks, and potential zero-day attacks, from benign programs. Thus, it significantly reduces false alarms by up to 99.0%.
翻訳日:2021-08-23 23:04:16 公開日:2021-08-20
# (参考訳) 変分推論を用いたショット動作認識

Few Shot Activity Recognition Using Variational Inference ( http://arxiv.org/abs/2108.08990v1 )

ライセンス: CC BY 4.0
Neeraj Kumar, Siddhansh Narang(参考訳) ここ数年、いくつかのラベル付き例しか持たない新しいクラスを認識できるモデルを学ぶことは驚くべき進歩を遂げている。 アクション認識のためのFSL(Few-shot Learning)は、トレーニングデータの少数のインスタンスで表される新しいアクションカテゴリを認識する上で難しい課題である。 本稿では,ショット動作認識の少ない新しい変分推論型アーキテクチャフレームワーク(hf-ar)を提案する。 本フレームワークは,体積保存型世帯フローを活用し,新しいクラスの柔軟な後方分布を学習する。 これにより、人間の活動認識に対する最先端のアプローチに比べて優れたパフォーマンスが得られる。 アプローチはベースモデルとアダプタモデルで構成される。 私たちのアーキテクチャはベースモデルとアダプタモデルで構成されています。 ベースモデルは見たクラスでトレーニングされ、入力されたビデオから抽出された空間的および時間的洞察を表す埋め込みを計算します。 Resnet-152とLSTMベースのエンコーダデコーダモデルの組み合わせ。 アダプタモデルは、少数のショットアプローチで高い精度を与える柔軟な後方分布を計算するために、一連の家計変換を適用する。 UCF101、HMDB51、Something-V2の3つのよく知られたデータセットに対する大規模な実験は、1ショットと5ショットの分類において、RGBフレームシーケンスのみを入力として使用する最先端のいくつかのショットアプローチと比較して、類似またはより良いパフォーマンスを示す。 我々の知識を最大限に活用するために、我々はまず、後方分布のフルランク共分散行列を捉えるために、世帯変換とともに変分推論を初めて探求し、活動認識におけるわずかなショットラーニングを行う。

There has been a remarkable progress in learning a model which could recognise novel classes with only a few labeled examples in the last few years. Few-shot learning (FSL) for action recognition is a challenging task of recognising novel action categories which are represented by few instances in the training data. We propose a novel variational inference based architectural framework (HF-AR) for few shot activity recognition. Our framework leverages volume-preserving Householder Flow to learn a flexible posterior distribution of the novel classes. This results in better performance as compared to state-of-the-art few shot approaches for human activity recognition. approach consists of base model and an adapter model. Our architecture consists of a base model and an adapter model. The base model is trained on seen classes and it computes an embedding that represent the spatial and temporal insights extracted from the input video, e.g. combination of Resnet-152 and LSTM based encoder-decoder model. The adapter model applies a series of Householder transformations to compute a flexible posterior distribution that lends higher accuracy in the few shot approach. Extensive experiments on three well-known datasets: UCF101, HMDB51 and Something-Something-V2, demonstrate similar or better performance on 1-shot and 5-shot classification as compared to state-of-the-art few shot approaches that use only RGB frame sequence as input. To the best of our knowledge, we are the first to explore variational inference along with householder transformations to capture the full rank covariance matrix of posterior distribution, for few shot learning in activity recognition.
翻訳日:2021-08-23 22:36:04 公開日:2021-08-20
# (参考訳) セマンティック・セグメンテーションされた深度画像からの室内シーン生成

Indoor Scene Generation from a Collection of Semantic-Segmented Depth Images ( http://arxiv.org/abs/2108.09022v1 )

ライセンス: CC BY 4.0
Ming-Jia Yang and Yu-Xiao Guo and Bin Zhou and Xin Tong(参考訳) 本稿では,異なる未知のシーンから捉えた,意味的セグメントの奥行き画像の集合から学習した生成モデルを用いて,室内3次元シーンを作成する手法を提案する。 特定の大きさの部屋が与えられた場合、ランダムにサンプリングされた潜伏コードから室内の3Dオブジェクトを自動的に生成する。 室内シーンのタイプ,位置,その他の特性を室内で表現し,完全な室内シーンの集合からシーンレイアウトを学習する既存の方法とは異なり,本手法は室内シーンを3次元意味的シーンボリュームとしてモデル化し,2.5次元部分的な3次元シーンの集合から体積生成逆数ネットワーク(GAN)を学習する。 この目的のために,生成した3次元意味シーンボリュームをセマンティックセグメンテーション深度画像に投影するために微分可能な投影層を適用し,2.5d意味セグメンテーション深度画像から完全な3次元シーンボリュームを学習する新しいマルチビュー判別器を設計する。 既存の手法と比較して,本手法は3次元シーンのモデリングと取得の作業量を効率的に削減するだけでなく,より優れたオブジェクト形状と詳細なレイアウトを生成する。 本手法は屋内シーンの異なるデータセットを用いて評価し,その利点を示す。 また,実シーンのRGB画像から推定したセマンティックセグメンテーション深度画像から室内3次元シーンを生成する手法を拡張した。

We present a method for creating 3D indoor scenes with a generative model learned from a collection of semantic-segmented depth images captured from different unknown scenes. Given a room with a specified size, our method automatically generates 3D objects in a room from a randomly sampled latent code. Different from existing methods that represent an indoor scene with the type, location, and other properties of objects in the room and learn the scene layout from a collection of complete 3D indoor scenes, our method models each indoor scene as a 3D semantic scene volume and learns a volumetric generative adversarial network (GAN) from a collection of 2.5D partial observations of 3D scenes. To this end, we apply a differentiable projection layer to project the generated 3D semantic scene volumes into semantic-segmented depth images and design a new multiple-view discriminator for learning the complete 3D scene volume from 2.5D semantic-segmented depth images. Compared to existing methods, our method not only efficiently reduces the workload of modeling and acquiring 3D scenes for training, but also produces better object shapes and their detailed layouts in the scene. We evaluate our method with different indoor scene datasets and demonstrate the advantages of our method. We also extend our method for generating 3D indoor scenes from semantic-segmented depth images inferred from RGB images of real scenes.
翻訳日:2021-08-23 22:24:17 公開日:2021-08-20
# (参考訳) autolay: 自動運転のためのアモーダルレイアウト推定のベンチマーク

AutoLay: Benchmarking amodal layout estimation for autonomous driving ( http://arxiv.org/abs/2108.09047v1 )

ライセンス: CC BY 4.0
Kaustubh Mani, N. Sai Shankar, Krishna Murthy Jatavallabhula and K. Madhava Krishna(参考訳) 単眼カメラから撮影した画像や映像が与えられた場合、アモーダルレイアウト推定は鳥の視線における意味や占有度を予測するタスクである。 amodalという用語は、シーン内のエンティティが画像空間に隠されたり、取り除かれたりする理由でもある。 この問題にいくつかの取り組みが取り組んできたが、タスク仕様、データセット、評価プロトコルの標準化が欠如している。 モノクロ画像からのアモーダルレイアウト推定のためのデータセットとベンチマークであるAutoLayを用いて,これらのギャップに対処する。 AutoLayは、KITTIとArgoverseという2つの一般的なデータセットからイメージを駆動する。 レーン,歩道,車両などの細かな属性に加えて,意味的にアノテートされた3dポイントクラウドも提供する。 いくつかのベースラインと最先端アプローチを実装し、データとコードを解放します。

Given an image or a video captured from a monocular camera, amodal layout estimation is the task of predicting semantics and occupancy in bird's eye view. The term amodal implies we also reason about entities in the scene that are occluded or truncated in image space. While several recent efforts have tackled this problem, there is a lack of standardization in task specification, datasets, and evaluation protocols. We address these gaps with AutoLay, a dataset and benchmark for amodal layout estimation from monocular images. AutoLay encompasses driving imagery from two popular datasets: KITTI and Argoverse. In addition to fine-grained attributes such as lanes, sidewalks, and vehicles, we also provide semantically annotated 3D point clouds. We implement several baselines and bleeding edge approaches, and release our data and code.
翻訳日:2021-08-23 22:09:29 公開日:2021-08-20
# (参考訳) somesci - a 5 star open data gold standard knowledge graph of software mentions in scientific article

SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles ( http://arxiv.org/abs/2108.09070v1 )

ライセンス: CC BY 4.0
David Schindler, Felix Bensmann, Stefan Dietze and Frank Kr\"uger(参考訳) 科学的調査で使用されるソフトウェアに関する知識は、例えばデータ処理に関わる証明と方法の理解を可能にするために、いくつかの理由から重要である。 しかし、ソフトウェアは通常、正式に言及されるのではなく、調査の学術的な説明の中で非公式に言及され、自動的な情報抽出と曖昧さの解消の必要性が高まる。 信頼できる根拠データがないことを考慮し、科学論文におけるソフトウェア言及のゴールド標準知識グラフであるsomesci(software mentions in science)を提示する。 1367年のpubmed centralの記事で言及された3756のソフトウェアのうち、高品質なアノテーション(irr: $\kappa{=}.82$)を含んでいる。 ソフトウェアについての平凡な言及に加えて、バージョン、開発者、URL、引用などの追加情報のための関係ラベルも提供しています。 さらに,アプリケーションやプラグイン,プログラミング環境といった異なるタイプと,使用や生成といったさまざまなタイプの言及を区別する。 私たちの知る限り、SoMeSciは科学論文におけるソフトウェア言及に関する最も包括的なコーパスであり、名前付きエンティティ認識、関係抽出、エンティティの曖昧さ、エンティティリンクのためのトレーニングサンプルを提供します。 最後に、潜在的なユースケースをスケッチし、ベースライン結果を提供する。

Knowledge about software used in scientific investigations is important for several reasons, for instance, to enable an understanding of provenance and methods involved in data handling. However, software is usually not formally cited, but rather mentioned informally within the scholarly description of the investigation, raising the need for automatic information extraction and disambiguation. Given the lack of reliable ground truth data, we present SoMeSci (Software Mentions in Science) a gold standard knowledge graph of software mentions in scientific articles. It contains high quality annotations (IRR: $\kappa{=}.82$) of 3756 software mentions in 1367 PubMed Central articles. Besides the plain mention of the software, we also provide relation labels for additional information, such as the version, the developer, a URL or citations. Moreover, we distinguish between different types, such as application, plugin or programming environment, as well as different types of mentions, such as usage or creation. To the best of our knowledge, SoMeSci is the most comprehensive corpus about software mentions in scientific articles, providing training samples for Named Entity Recognition, Relation Extraction, Entity Disambiguation, and Entity Linking. Finally, we sketch potential use cases and provide baseline results.
翻訳日:2021-08-23 21:58:07 公開日:2021-08-20
# (参考訳) kompetenzerwerbsf\"orderung durch e-assessment: individuelle kompetenzerfassung am beispiel des fachs mathematik

Kompetenzerwerbsf\"orderung durch E-Assessment: Individuelle Kompetenzerfassung am Beispiel des Fachs Mathematik ( http://arxiv.org/abs/2108.09072v1 )

ライセンス: CC BY 4.0
Roy Meissner, Claudia Ruhland, Katja Ihsberner(参考訳) 本稿では,マイクロアセスメントとe-アセスメントを数学的領域に応用して,獲得した個々のスキルや不足したスキルを自動的に決定し,これらの情報に基づいて,ソフトウェア支援プロセスにおける不足スキルや追加スキルの獲得を指導する概念について述べる。 この概念に必要なモデルは、デジタルで作成され、注釈付きのe-assesment item pool、トピックを含むドメインのデジタルモデリング、必要な能力、導入的および連続的な材料、およびデジタル個別モデルであり、コンピテンシーを確実に記録し、それらの損失に関する側面を統合することができる。

In this article, we present a concept of how micro- and e-assessments can be used for the mathematical domain to automatically determine acquired and missing individual skills and, based on these information, guide individuals to acquire missing or additional skills in a software-supported process. The models required for this concept are a digitally prepared and annotated e-assessment item pool, a digital modeling of the domain that includes topics, necessary competencies, as well as introductory and continuative material, as well as a digital individual model, which can reliably record competencies and integrates aspects about the loss of such.
翻訳日:2021-08-23 21:43:49 公開日:2021-08-20
# (参考訳) 共同SARとマルチスペクトル土地被覆分類のための自己教師付き学習

Self-supervised learning for joint SAR and multispectral land cover classification ( http://arxiv.org/abs/2108.09075v1 )

ライセンス: CC BY 4.0
Antonio Montanaro, Diego Valsesia, Giulia Fracastoro, Enrico Magli(参考訳) ラベル付きデータが少ない場合でも、効果的なモデルを構築する能力によって、自己教師付き学習技術が人気を集めている。 本稿では,マルチスペクトルと合成開口レーダ画像の融合など,マルチチャネルモデルの自己教師型トレーニングのためのフレームワークと具体的なタスクを提案する。 提案手法は,土地被覆分類のラベルと相関する学習機能に非常に有効であることを示す。 これは、感覚のモダリティ間のギャップを埋めることを促進し、入力のスペクトル特性を利用する事前訓練タスクの明示的な設計によって実現される。 限定ラベルが利用可能であれば,sarを用いた土地被覆分類のための自己教師付き事前学習と教師付き微調整を用いることで,純粋教師付き学習,imagenetでのトレーニングからの初期化,近年のコンピュータビジョンタスクに対する自己教師付きアプローチといった従来のアプローチを上回っている。

Self-supervised learning techniques are gaining popularity due to their capability of building models that are effective, even when scarce amounts of labeled data are available. In this paper, we present a framework and specific tasks for self-supervised training of multichannel models, such as the fusion of multispectral and synthetic aperture radar images. We show that the proposed self-supervised approach is highly effective at learning features that correlate with the labels for land cover classification. This is enabled by an explicit design of pretraining tasks which promotes bridging the gaps between sensing modalities and exploiting the spectral characteristics of the input. When limited labels are available, using the proposed self-supervised pretraining and supervised finetuning for land cover classification with SAR and multispectral data outperforms conventional approaches such as purely supervised learning, initialization from training on Imagenet and recent self-supervised approaches for computer vision tasks.
翻訳日:2021-08-23 21:18:49 公開日:2021-08-20
# (参考訳) PASTO:レコメンデーションシステムにおける戦略的パラメータ最適化 -確率は決定論的よりも優れている

PASTO: Strategic Parameter Optimization in Recommendation Systems -- Probabilistic is Better than Deterministic ( http://arxiv.org/abs/2108.09076v1 )

ライセンス: CC BY 4.0
Weicong Ding, Hanlin Tang, Jingshuo Feng, Lei Yuan, Sen Yang, Guangxu Yang, Jie Zheng, Jing Wang, Qiang Su, Dong Zheng, Xuezhong Qiu, Yongqi Liu, Yuxuan Chen, Yang Liu, Chao Song, Dongying Kong, Kai Ren, Peng Jiang, Qiao Lian, Ji Liu(参考訳) 現実世界のレコメンデーションシステムは2つのフェーズから構成されることが多い。 第1フェーズでは、複数の予測モデルが、異なる即時ユーザアクションの確率を生成する。 第2フェーズでは、これらの予測は一連の"戦略パラメータ"に従って集約され、より長いユーザのエンゲージメント、収益の可能性の向上、コミュニティ/ネットワーク間インタラクションなど、さまざまなビジネス目標のセットに適合する。 正確な予測モデルの構築に加えて、この一連の「戦略パラメータ」を最適化し、一次目標を最適化し、二次ガードレールが損傷を受けないようにすることも重要である。 本研究は,複数の制約付き目標を持つ場合において,確率的戦略パラメータレジームが1つの決定論的パラメータを見つける標準的なレジームよりも優れた価値を得られることを発見した。 新しい確率的体系は、戦略パラメータの選択よりも最適な分布を学習し、各ユーザがプラットフォームを訪れたときに、その分布から1つの戦略パラメータをサンプリングすることである。 最適確率解を追求するために,不偏確率勾配が利用できない確率的構成最適化問題へと問題を定式化する。 当社のアプローチは、数億人の日々のユーザを抱える人気のあるソーシャルネットワークプラットフォームに適用され、推奨タスクにおけるユーザエンゲージメントの+0.22%、最適な決定論的パラメータ戦略を用いた広告最適化シナリオにおける収益の+1.7%を達成する。

Real-world recommendation systems often consist of two phases. In the first phase, multiple predictive models produce the probability of different immediate user actions. In the second phase, these predictions are aggregated according to a set of 'strategic parameters' to meet a diverse set of business goals, such as longer user engagement, higher revenue potential, or more community/network interactions. In addition to building accurate predictive models, it is also crucial to optimize this set of 'strategic parameters' so that primary goals are optimized while secondary guardrails are not hurt. In this setting with multiple and constrained goals, this paper discovers that a probabilistic strategic parameter regime can achieve better value compared to the standard regime of finding a single deterministic parameter. The new probabilistic regime is to learn the best distribution over strategic parameter choices and sample one strategic parameter from the distribution when each user visits the platform. To pursue the optimal probabilistic solution, we formulate the problem into a stochastic compositional optimization problem, in which the unbiased stochastic gradient is unavailable. Our approach is applied in a popular social network platform with hundreds of millions of daily users and achieves +0.22% lift of user engagement in a recommendation task and +1.7% lift in revenue in an advertising optimization scenario comparing to using the best deterministic parameter strategy.
翻訳日:2021-08-23 20:58:36 公開日:2021-08-20
# (参考訳) 残差チャネル事前指導による構造保存レーダリング

Structure-Preserving Deraining with Residue Channel Prior Guidance ( http://arxiv.org/abs/2108.09079v1 )

ライセンス: CC BY-SA 4.0
Qiaosi Yi, Juncheng Li, Qinyan Dai, Faming Fang, Guixu Zhang, and Tieyong Zeng(参考訳) 降雨が画像の可視性を著しく低下させ、画像の認識と解析に影響を及ぼすため、多くの高レベルコンピュータビジョンタスクにおいて単一画像のレーディングは重要である。 近年,降雨除去のための多くのCNN手法が提案されている。 これらの手法は雨害の一部を除去することができるが、現実のシナリオに適応し、透明で正確な構造で高品質な無雨画像を復元することは困難である。 そこで本研究では,RCP ガイダンスを用いた構造保存評価ネットワーク (SPDNet) を提案する。 SPDNetは、RCPの指導のもと、澄んだ正確な構造を持つ高品質な無雨画像を直接生成するが、降雨仮定には依存しない。 具体的には,画像のRCPには降雨画像よりも正確な構造情報が含まれていることがわかった。 そこで我々は,無雨画像の構造情報を保護するために,このネットワークを導入した。 一方,雨画像の背景情報を学習するためのバックボーンとして,wmlm(wavelet-based multi-level module)を提案し,rcp情報を活用した対話型核融合モジュール(ifm)を提案する。 また,rcpの精度を徐々に向上させ,その結果を進行経路に改良するための反復的指導戦略を提案する。 合成と実世界の両方のデータセットに対する大規模な実験結果から,提案したモデルが新たな最先端の結果を得られることが示された。 コード:https://github.com/Joyies/SPDNet

Single image deraining is important for many high-level computer vision tasks since the rain streaks can severely degrade the visibility of images, thereby affecting the recognition and analysis of the image. Recently, many CNN-based methods have been proposed for rain removal. Although these methods can remove part of the rain streaks, it is difficult for them to adapt to real-world scenarios and restore high-quality rain-free images with clear and accurate structures. To solve this problem, we propose a Structure-Preserving Deraining Network (SPDNet) with RCP guidance. SPDNet directly generates high-quality rain-free images with clear and accurate structures under the guidance of RCP but does not rely on any rain-generating assumptions. Specifically, we found that the RCP of images contains more accurate structural information than rainy images. Therefore, we introduced it to our deraining network to protect structure information of the rain-free image. Meanwhile, a Wavelet-based Multi-Level Module (WMLM) is proposed as the backbone for learning the background information of rainy images and an Interactive Fusion Module (IFM) is designed to make full use of RCP information. In addition, an iterative guidance strategy is proposed to gradually improve the accuracy of RCP, refining the result in a progressive path. Extensive experimental results on both synthetic and real-world datasets demonstrate that the proposed model achieves new state-of-the-art results. Code: https://github.com/Joyies/SPDNet
翻訳日:2021-08-23 20:36:34 公開日:2021-08-20
# (参考訳) Fastformer: 追加アテンションは必要なだけ

Fastformer: Additive Attention is All You Need ( http://arxiv.org/abs/2108.09084v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerは、テキスト理解のための強力なモデルである。 しかし、入力シーケンス長の2次複雑さのため、非効率である。 変圧器の加速には多くの方法があるが、長いシーケンスでは効率が悪いか、十分に効果的ではない。 本稿では,付加的注意に基づく効率的な変圧器モデルであるfastformerを提案する。 Fastformerでは、トークン間のペアワイズ相互作用をモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンション機構を使用し、さらにグローバルコンテキスト表現との相互作用に基づいて各トークン表現を変換する。 このように、fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。 5つのデータセットに関する広範囲な実験により、fastformerは既存の多くのトランスフォーマーモデルよりもはるかに効率的であり、同時に、同等あるいはそれ以上の長いテキストモデリング性能を達成することができる。

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.
翻訳日:2021-08-23 20:22:40 公開日:2021-08-20
# (参考訳) DL-Traff:都市交通予測のためのディープラーニングモデルの調査とベンチマーク

DL-Traff: Survey and Benchmark of Deep Learning Models for Urban Traffic Prediction ( http://arxiv.org/abs/2108.09091v1 )

ライセンス: CC BY 4.0
Renhe Jiang, Du Yin, Zhaonan Wang, Yizhuo Wang, Jiewen Deng, Hangchen Liu, Zekun Cai, Jinliang Deng, Xuan Song, Ryosuke Shibasaki(参考訳) 今日では、IoT(IoT of Things)とCPS(Cyber-Physical Systems)技術の急速な発展に伴い、携帯電話、カーナビゲーションシステム、交通センサーから大規模な時空間データが発生している。 このようなデータに最先端のディープラーニング技術を活用することで、都市交通予測はAIとインテリジェントトランスポーテーションシステムコミュニティに大きな注目を集めている。 問題は3次元テンソル(T, N, C)で一様にモデル化することができ、Tは全時間ステップを表し、Nは空間領域(メッシュ格子またはグラフノード)のサイズを表し、Cは情報チャネルを表す。 特定のモデリング戦略に従って、最先端のディープラーニングモデルは、グリッドベース、グラフベース、多変量時系列モデルという3つのカテゴリに分けられる。 本研究では,まず,ディープトラヒックモデルと広く使用されているデータセットを総合的にレビューし,その性能を同じ設定とメトリクスで総合的に評価する標準ベンチマークを構築した。 私たちの研究であるDL-Traffは、TensorFlowとPyTorchの2つの人気のあるディープラーニングフレームワークで実装されています。 DL-Traffでは、時空間データ分析に関心のある研究者に有用なリソースを提供したいと思っています。

Nowadays, with the rapid development of IoT (Internet of Things) and CPS (Cyber-Physical Systems) technologies, big spatiotemporal data are being generated from mobile phones, car navigation systems, and traffic sensors. By leveraging state-of-the-art deep learning technologies on such data, urban traffic prediction has drawn a lot of attention in AI and Intelligent Transportation System community. The problem can be uniformly modeled with a 3D tensor (T, N, C), where T denotes the total time steps, N denotes the size of the spatial domain (i.e., mesh-grids or graph-nodes), and C denotes the channels of information. According to the specific modeling strategy, the state-of-the-art deep learning models can be divided into three categories: grid-based, graph-based, and multivariate time-series models. In this study, we first synthetically review the deep traffic models as well as the widely used datasets, then build a standard benchmark to comprehensively evaluate their performances with the same settings and metrics. Our study named DL-Traff is implemented with two most popular deep learning frameworks, i.e., TensorFlow and PyTorch, which is already publicly available as two GitHub repositories https://github.com/deepkashiwa20/DL-Traff-Grid and https://github.com/deepkashiwa20/DL-Traff-Graph. With DL-Traff, we hope to deliver a useful resource to researchers who are interested in spatiotemporal data analysis.
翻訳日:2021-08-23 20:09:50 公開日:2021-08-20
# (参考訳) 階層型無線ネットワークにおけるモビリティアウェアクラスタフェデレーション学習

Mobility-Aware Cluster Federated Learning in Hierarchical Wireless Networks ( http://arxiv.org/abs/2108.09103v1 )

ライセンス: CC BY 4.0
Chenyuan Feng, Howard H. Yang, Deshun Hu, Zhiwei Zhao, Tony Q. S. Quek, and Geyong Min(参考訳) 無線ネットワークにおける連合学習(fl)アルゴリズムの実装は、幅広い注目を集めている。 しかし,ユーザモビリティが学習性能に与える影響を考察した研究は少ない。 この研究ギャップを埋めるために、まず、モバイルユーザーが複数のエッジアクセスポイントを移動できる無線ネットワークにおける階層的フェデレーション学習(HFL)アルゴリズムを特徴付ける理論モデルを構築し、不整合FLトレーニングを補完する。 次に,ユーザの移動性を考慮したHFLの収束解析を行う。 分析の結果,HFLの学習性能はハイモービルユーザで著しく低下していることがわかった。 そして、この学習性能の低下は、少数の参加者と、ユーザのローカルデータ間での大規模なデータ分散の相違によって悪化する。 これらの問題を回避するために,アクセス機構,ローカル更新ルール,モデル集約方式を再設計し,モビリティ対応クラスタフェデレーション学習(MACFL)アルゴリズムを提案する。 最後に,HFLとMACFLの学習性能を評価する実験を行った。 その結果,MACFLは,非独立・同一分布データを持つユーザの場合,モビリティが高いユーザの場合,少数のユーザの場合の3つの異なるケースにおいて,学習性能を向上させることができることがわかった。

Implementing federated learning (FL) algorithms in wireless networks has garnered a wide range of attention. However, few works have considered the impact of user mobility on the learning performance. To fill this research gap, firstly, we develop a theoretical model to characterize the hierarchical federated learning (HFL) algorithm in wireless networks where the mobile users may roam across multiple edge access points, leading to incompletion of inconsistent FL training. Secondly, we provide the convergence analysis of HFL with user mobility. Our analysis proves that the learning performance of HFL deteriorates drastically with highly-mobile users. And this decline in the learning performance will be exacerbated with small number of participants and large data distribution divergences among local data of users. To circumvent these issues, we propose a mobility-aware cluster federated learning (MACFL) algorithm by redesigning the access mechanism, local update rule and model aggregation scheme. Finally, we provide experiments to evaluate the learning performance of HFL and our MACFL. The results show that our MACFL can enhance the learning performance, especially for three different cases, namely, the case of users with non-independent and identical distribution data, the case of users with high mobility, and the cases with a small number of users.
翻訳日:2021-08-23 19:49:22 公開日:2021-08-20
# (参考訳) airbert: 視覚言語ナビゲーションのためのドメイン内事前トレーニング

Airbert: In-domain Pretraining for Vision-and-Language Navigation ( http://arxiv.org/abs/2108.09105v1 )

ライセンス: CC BY 4.0
Pierre-Louis Guhur, Makarand Tapaswi, Shizhe Chen, Ivan Laptev, Cordelia Schmid(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。 ドメイン固有のトレーニングデータの不足や画像や言語入力の多様性の高さを考えると、VLNエージェントの未知環境への一般化は依然として困難である。 近年, 一般化のための事前学習が検討されているが, 汎用画像キャプチャーデータセットや既存の小型VLN環境の利用は最適ではない。 本稿では,大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。 私たちはまず、オンラインレンタルマーケットプレイスから何十万ものリストから画像キャプチャ(IC)ペアを収集します。 次に、ICペアを用いて、数百万のVLNパス命令(PI)ペアを生成する自動戦略を提案する。 さらに,PIペア内の時間秩序の学習を改善するシャッフル損失を提案する。 差別的かつ生成的な設定に適応可能なBnBプレトレーニングのAirbertモデルを使用し、Room-to-Room(R2R)ナビゲーションとRemote Referring Expression(REVERIE)ベンチマークの最先端性を示す。 さらに、ドメイン内事前トレーニングは、いくつかの住宅からのVLN命令でのみモデルをトレーニングする、挑戦的な数ショットのVLN評価において、性能を著しく向上させる。

Vision-and-language navigation (VLN) aims to enable embodied agents to navigate in realistic environments using natural language instructions. Given the scarcity of domain-specific training data and the high diversity of image and language inputs, the generalization of VLN agents to unseen environments remains challenging. Recent methods explore pretraining to improve generalization, however, the use of generic image-caption datasets or existing small-scale VLN environments is suboptimal and results in limited improvements. In this work, we introduce BnB, a large-scale and diverse in-domain VLN dataset. We first collect image-caption (IC) pairs from hundreds of thousands of listings from online rental marketplaces. Using IC pairs we next propose automatic strategies to generate millions of VLN path-instruction (PI) pairs. We further propose a shuffling loss that improves the learning of temporal order inside PI pairs. We use BnB pretrain our Airbert model that can be adapted to discriminative and generative settings and show that it outperforms state of the art for Room-to-Room (R2R) navigation and Remote Referring Expression (REVERIE) benchmarks. Moreover, our in-domain pretraining significantly increases performance on a challenging few-shot VLN evaluation, where we train the model only on VLN instructions from a few houses.
翻訳日:2021-08-23 19:13:40 公開日:2021-08-20
# (参考訳) 画像に基づくカメラ定位のための連続学習

Continual Learning for Image-Based Camera Localization ( http://arxiv.org/abs/2108.09112v1 )

ライセンス: CC BY 4.0
Shuzhe Wang and Zakaria Laskar and Iaroslav Melekhov and Xiaotian Li and Juho Kannala(参考訳) 拡張現実、自動運転、ロボット工学など、いくつかの新興技術にとって、視覚的ローカライゼーションは重要な要素である。 深層ニューラルネットワークを用いた入力画像からのカメラポーズ/3Dシーン座標の直接回帰は大きな可能性を示している。 しかし、これらの手法はトレーニング中にすべてのシーンが同時に利用可能な静止データ分布を仮定する。 本稿では,連続的な学習環境における視覚的ローカライゼーションの問題にアプローチする。 以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。 この問題に対処するために,固定バッファからのイメージの保存と再生に基づく強力なベースラインを提案する。 さらに,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適用する,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。 その結果,2つの難易度データセット – 7scene,12scene,19scene – において,標準バッファリング法よりも一貫性のある改善が得られた。

For several emerging technologies such as augmented reality, autonomous driving and robotics, visual localization is a critical component. Directly regressing camera pose/3D scene coordinates from the input image using deep neural networks has shown great potential. However, such methods assume a stationary data distribution with all scenes simultaneously available during training. In this paper, we approach the problem of visual localization in a continual learning setup -- whereby the model is trained on scenes in an incremental manner. Our results show that similar to the classification domain, non-stationary data induces catastrophic forgetting in deep networks for visual localization. To address this issue, a strong baseline based on storing and replaying images from a fixed buffer is proposed. Furthermore, we propose a new sampling method based on coverage score (Buff-CS) that adapts the existing sampling strategies in the buffering process to the problem of visual localization. Results demonstrate consistent improvements over standard buffering methods on two challenging datasets -- 7Scenes, 12Scenes, and also 19Scenes by combining the former scenes.
翻訳日:2021-08-23 19:12:36 公開日:2021-08-20
# (参考訳) 適応ユニバーサルトランスを用いた意味コミュニケーション

Semantic Communication with Adaptive Universal Transformer ( http://arxiv.org/abs/2108.09119v1 )

ライセンス: CC BY 4.0
Qingyang Zhou, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, and Honggang Zhang(参考訳) ディープラーニング(DL)の開発により、自然言語処理(NLP)によって、大量の言語テキストを分析し、理解することが可能になった。 そこで我々は,NLPの助けを借りて,雑音の多いチャネル上での協調的セマンティック・ソースとチャネル・コーディングによるセマンティック・コミュニケーションを実現する。 しかし、この目的を実現するための既存の方法は、各文に含まれる意味情報の差を無視しながら、NLPの固定変換器を使用することである。 そこで本稿では,ユニバーサルトランスフォーマーを用いた新しい意味コミュニケーションシステムを提案する。 従来の変圧器と比較して、ユニバーサル変圧器に適応循環機構を導入する。 循環機構の導入により、新しい意味コミュニケーションシステムは、異なる意味情報を持つ文を送信し、様々なチャンネル条件下でより優れたエンドツーエンド性能を実現することができる。

With the development of deep learning (DL), natural language processing (NLP) makes it possible for us to analyze and understand a large amount of language texts. Accordingly, we can achieve a semantic communication in terms of joint semantic source and channel coding over a noisy channel with the help of NLP. However, the existing method to realize this goal is to use a fixed transformer of NLP while ignoring the difference of semantic information contained in each sentence. To solve this problem, we propose a new semantic communication system based on Universal Transformer. Compared with the traditional transformer, an adaptive circulation mechanism is introduced in the Universal Transformer. Through the introduction of the circulation mechanism, the new semantic communication system can be more flexible to transmit sentences with different semantic information, and achieve better end-to-end performance under various channel conditions.
翻訳日:2021-08-23 18:56:00 公開日:2021-08-20
# (参考訳) 探索空間のクラスタリング解析からの教訓:NAS初期化へのセントロイド的アプローチ

Lessons from the Clustering Analysis of a Search Space: A Centroid-based Approach to Initializing NAS ( http://arxiv.org/abs/2108.09126v1 )

ライセンス: CC BY 4.0
Kalifou Rene Traore, Andr\'es Camero, Xiao Xiang Zhu(参考訳) ニューラルアーキテクチャサーチ(NAS)の研究は、より効率的で低コストな手法を設計することを目的としたアルゴリズム開発に多くの努力が注がれている。 しかしながら,これらの手法の初期化に関する調査は依然として少なく,現在,ほとんどのNAS手法は探索に先立って情報を取得するため,確率的初期化手順に依存している。 しかし、最近のNASベンチマークにより、低計算リソースのプロトタイピングが可能になった。 本研究では、NASベンチマークの可用性を活用し、データ駆動初期化手法を用いてNASアルゴリズムを高速化することを提案する。 特に,二段階法を提案する。 まず、探索空間の校正クラスタリング解析を行う。 次に、センチロイドを抽出してNASアルゴリズムを初期化する。 我々はNAS-bench-101の進化アルゴリズムであるAging Evolutionを用いて提案手法を検証した。 その結果,ランダム初期化と比較して,より高速な収束と最終解の性能向上が達成された。

Lots of effort in neural architecture search (NAS) research has been dedicated to algorithmic development, aiming at designing more efficient and less costly methods. Nonetheless, the investigation of the initialization of these techniques remain scare, and currently most NAS methodologies rely on stochastic initialization procedures, because acquiring information prior to search is costly. However, the recent availability of NAS benchmarks have enabled low computational resources prototyping. In this study, we propose to accelerate a NAS algorithm using a data-driven initialization technique, leveraging the availability of NAS benchmarks. Particularly, we proposed a two-step methodology. First, a calibrated clustering analysis of the search space is performed. Second, the centroids are extracted and used to initialize a NAS algorithm. We tested our proposal using Aging Evolution, an evolutionary algorithm, on NAS-bench-101. The results show that, compared to a random initialization, a faster convergence and a better performance of the final solution is achieved.
翻訳日:2021-08-23 18:47:07 公開日:2021-08-20
# (参考訳) tabgnn: 表データ予測のための多重グラフニューラルネットワーク

TabGNN: Multiplex Graph Neural Network for Tabular Data Prediction ( http://arxiv.org/abs/2108.09127v1 )

ライセンス: CC0 1.0
Xiawei Guo, Yuhan Quan, Huan Zhao, Quanming Yao, Yong Li, Weiwei Tu(参考訳) タブラルデータ予測(TDP)は最も一般的な産業応用の1つであり、予測性能を向上させるために様々な手法が設計されている。 しかし、既存の作品は機能的な相互作用に重点を置いており、例えば同じ教育水準のユーザーが負債を返済するのと同じような能力を持つなど、サンプル関係を無視している。 本稿では,サンプル関係を明示的に体系的にモデル化することにより,最近普及したグラフニューラルネットワーク(gnn)に基づく新しいフレームワークtabgnnを提案する。 具体的には,まず多面的サンプル関係をモデル化するために多重グラフを構築し,次に,各サンプルに対する拡張表現を学習するための多重グラフニューラルネットワークを設計する。 当社のTabGNNと表型ソリューションを統合するため、学習した埋め込みと元の埋め込みを結合し、ソリューション内の予測モデルに供給する。 分類と回帰を含む11のTDPデータセットの実験は、TabGNNが4Paradigmの表計算ソリューションであるAutoFEと比較して、一貫してパフォーマンスを改善することができることを示している。

Tabular data prediction (TDP) is one of the most popular industrial applications, and various methods have been designed to improve the prediction performance. However, existing works mainly focus on feature interactions and ignore sample relations, e.g., users with the same education level might have a similar ability to repay the debt. In this work, by explicitly and systematically modeling sample relations, we propose a novel framework TabGNN based on recently popular graph neural networks (GNN). Specifically, we firstly construct a multiplex graph to model the multifaceted sample relations, and then design a multiplex graph neural network to learn enhanced representation for each sample. To integrate TabGNN with the tabular solution in our company, we concatenate the learned embeddings and the original ones, which are then fed to prediction models inside the solution. Experiments on eleven TDP datasets from various domains, including classification and regression ones, show that TabGNN can consistently improve the performance compared to the tabular solution AutoFE in 4Paradigm.
翻訳日:2021-08-23 18:37:38 公開日:2021-08-20
# (参考訳) 微分可能な深量子化を伴う半教師付きネットワーク埋め込み

Semi-supervised Network Embedding with Differentiable Deep Quantisation ( http://arxiv.org/abs/2108.09128v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) ネットワークの正確な低次元埋め込みを学ぶことは、多くのダウンストリームネットワーク分析タスクを促進するため、重要なタスクである。 大規模なネットワークでは、トレーニング済みの埋め込みは保存するスペースをかなり必要としており、ストレージと処理は困難である。 半教師付きネットワーク埋め込みに関するこれまでの研究に基づいて、ネットワーク埋め込みのための微分可能なDNNベースの量子化法であるd-SNEQを開発した。 d-SNEQは、学習した量子化符号にリッチな高次情報を与えるためにランクロスを組み込み、トレーニング済みの埋め込みのサイズを大幅に圧縮し、ストレージフットプリントを削減し、検索速度を高速化する。 また,高次情報保存におけるモデル性能を,比較的直接的に評価するための新しい評価基準,経路予測を提案する。 本研究では,d-sneqがリンク予測,パス予測,ノード分類,ノード推薦において最先端の埋め込み手法を上回り,空間的かつ時間的効率が向上することを示す。

Learning accurate low-dimensional embeddings for a network is a crucial task as it facilitates many downstream network analytics tasks. For large networks, the trained embeddings often require a significant amount of space to store, making storage and processing a challenge. Building on our previous work on semi-supervised network embedding, we develop d-SNEQ, a differentiable DNN-based quantisation method for network embedding. d-SNEQ incorporates a rank loss to equip the learned quantisation codes with rich high-order information and is able to substantially compress the size of trained embeddings, thus reducing storage footprint and accelerating retrieval speed. We also propose a new evaluation metric, path prediction, to fairly and more directly evaluate model performance on the preservation of high-order information. Our evaluation on four real-world networks of diverse characteristics shows that d-SNEQ outperforms a number of state-of-the-art embedding methods in link prediction, path prediction, node classification, and node recommendation while being far more space- and time-efficient.
翻訳日:2021-08-23 18:21:53 公開日:2021-08-20
# (参考訳) グローバルバイアスオプティマイザによるフェデレーション学習の高速化

Accelerating Federated Learning with a Global Biased Optimiser ( http://arxiv.org/abs/2108.09134v1 )

ライセンス: CC BY 4.0
Jed Mills, Jia Hu, Geyong Min, Rui Jin, Siwei Zheng, Jin Wang(参考訳) Federated Learning(FL)は、データプライバシを維持するために、クライアントデバイスを離れるトレーニングデータなしでモデルを協調訓練する機械学習の分野における最近の開発である。 現実的な設定では、総トレーニングセットは、FL収束速度と最終的なモデル性能を損なうために広範囲に表示され、非独立で直接的でない分散(非IID)方式でクライアントに分散される。 本稿では,FedGBO(Federated Global Biased Optimiser)アルゴリズムを用いて,適応最適化手法をFLに適用する手法を提案する。 FedGBOは、FLの局所的なトレーニングフェーズにおいて、グローバルバイアス付きオプティマイザ値のセットを適用することでFLを加速し、非IIDデータから'client-drift'を減らし、適応運動量/学習率法の恩恵を受ける。 一般化オプティマイザによるFedGBO更新は偏りのある勾配とオプティマイザの更新を伴う集中的な更新と見なすことができ、この理論的枠組みを用いて運動量-確率的グラディエントDescentを用いてFedGBOの収束を証明することができる。 また、4つの現実的なベンチマークFLデータセットと3つの一般的な適応最適化器を用いて、異なる適応FLアプローチの性能を比較し、FedGBOが低通信と計算コストを考慮して高い競争性能を持つことを示した。

Federated Learning (FL) is a recent development in the field of machine learning that collaboratively trains models without the training data leaving client devices, in order to preserve data-privacy. In realistic settings, the total training set is distributed over clients in a highly non-Independent and Identically Distributed (non-IID) fashion, which has been shown extensively to harm FL convergence speed and final model performance. We propose a novel, generalised approach for applying adaptive optimisation techniques to FL with the Federated Global Biased Optimiser (FedGBO) algorithm. FedGBO accelerates FL by applying a set of global biased optimiser values during the local training phase of FL, which helps to reduce `client-drift' from non-IID data, whilst also benefiting from adaptive momentum/learning-rate methods. We show that the FedGBO update with a generic optimiser can be viewed as a centralised update with biased gradients and optimiser update, and use this theoretical framework to prove the convergence of FedGBO using momentum-Stochastic Gradient Descent. We also perform extensive experiments using 4 realistic benchmark FL datasets and 3 popular adaptive optimisers to compare the performance of different adaptive-FL approaches, demonstrating that FedGBO has highly competitive performance considering its low communication and computation costs, and providing highly practical insights for the use of adaptive optimisation in FL.
翻訳日:2021-08-23 17:59:33 公開日:2021-08-20
# (参考訳) ネットワークのための教師なしドメイン適応ハッシュ

Unsupervised Domain-adaptive Hash for Networks ( http://arxiv.org/abs/2108.09136v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) 実世界のデータは、効率的で効果的な学習アルゴリズムを必要とする大規模ネットワークによって自然に表現できる。 同時に、ラベルは一部のネットワークでのみ利用可能であり、これらのアルゴリズムはラベルのないネットワークに適応できるようにする必要がある。 ドメイン適応型ハッシュ学習は、検索時間とストレージフットプリントのコストが低く、多くの実用的なタスクにおいて、コンピュータビジョンコミュニティでかなりの成功を収めています。 しかし、マルチドメインネットワークには適用されていない。 本研究では,ネットワークのための教師なしのドメイン適応型ハッシュ学習手法udahの開発により,このギャップを埋める。 具体的には,(1)ハードグループ指向のコントラスト損失によるネットワーク構造保存,(2)緩和のない教師付きハッシュ,(3)ドメイン横断型識別器,(4)セマンティックセンターアライメントの4つのコンポーネントを開発する。 我々は,リンク予測,ノード分類,隣接推薦などのタスクにおいて,提案手法の有効性と効率を評価するために,幅広い実験を行った。 評価結果は,従来の従来の離散埋め込み手法よりも優れた性能が得られることを示す。

Abundant real-world data can be naturally represented by large-scale networks, which demands efficient and effective learning algorithms. At the same time, labels may only be available for some networks, which demands these algorithms to be able to adapt to unlabeled networks. Domain-adaptive hash learning has enjoyed considerable success in the computer vision community in many practical tasks due to its lower cost in both retrieval time and storage footprint. However, it has not been applied to multiple-domain networks. In this work, we bridge this gap by developing an unsupervised domain-adaptive hash learning method for networks, dubbed UDAH. Specifically, we develop four {task-specific yet correlated} components: (1) network structure preservation via a hard groupwise contrastive loss, (2) relaxation-free supervised hashing, (3) cross-domain intersected discriminators, and (4) semantic center alignment. We conduct a wide range of experiments to evaluate the effectiveness and efficiency of our method on a range of tasks including link prediction, node classification, and neighbor recommendation. Our evaluation results demonstrate that our model achieves better performance than the state-of-the-art conventional discrete embedding methods over all the tasks.
翻訳日:2021-08-23 17:35:03 公開日:2021-08-20
# (参考訳) デジタルホログラフィのための畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)

Convolutional Neural Network (CNN) vs Visual Transformer (ViT) for Digital Holography ( http://arxiv.org/abs/2108.09147v1 )

ライセンス: CC BY 4.0
St\'ephane Cuenat, Rapha\"el Couturier(参考訳) デジタルホログラフィー(DH)では、その振幅と位相を再構成するために、ホログラムから対象距離を抽出することが重要である。 このステップはオートフォーカスと呼ばれ、まず画像のスタックを再構成し、エントロピーや分散といった焦点距離を用いて各再構成画像をシャープすることで解決する。 最もシャープな画像に対応する距離を焦点位置とする。 このアプローチは効率的ではあるが、計算的な要求と時間を要する。 本稿では,Deep Learning (DL) を用いて距離の決定を行う。 2つのディープラーニング(DL)アーキテクチャを比較する。畳み込みニューラルネットワーク(CNN)とビジュアルトランスフォーマー(ViT)である。 ViTとCNNは、分類問題としてオートフォーカスの問題に対処するために使用される。 2つの連続するクラス間の距離が100{\mu}mとなる最初の試み [11] と比較して、提案手法により、この距離を1{\mu}mに劇的に削減することができる。さらに、ViTは、CNNよりも精度が良く、より堅牢である。

In Digital Holography (DH), it is crucial to extract the object distance from a hologram in order to reconstruct its amplitude and phase. This step is called auto-focusing and it is conventionally solved by first reconstructing a stack of images and then by sharpening each reconstructed image using a focus metric such as entropy or variance. The distance corresponding to the sharpest image is considered the focal position. This approach, while effective, is computationally demanding and time-consuming. In this paper, the determination of the distance is performed by Deep Learning (DL). Two deep learning (DL) architectures are compared: Convolutional Neural Network (CNN)and Visual transformer (ViT). ViT and CNN are used to cope with the problem of auto-focusing as a classification problem. Compared to a first attempt [11] in which the distance between two consecutive classes was 100{\mu}m, our proposal allows us to drastically reduce this distance to 1{\mu}m. Moreover, ViT reaches similar accuracy and is more robust than CNN.
翻訳日:2021-08-23 17:34:01 公開日:2021-08-20
# (参考訳) メモリアテンションを考慮したグループベース識別画像キャプション

Group-based Distinctive Image Captioning with Memory Attention ( http://arxiv.org/abs/2108.09151v1 )

ライセンス: CC0 1.0
Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan(参考訳) 自然言語による画像記述は画像キャプションとして広く知られており、コンピュータビジョンや自然言語生成技術の発展により一貫した進歩を遂げている。 従来のキャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて高い精度を達成するが、他の類似画像とターゲット画像を区別するキャプションの能力は低い。 特徴あるキャプションを生成するために、いくつかの先駆者たちは、1つの入力画像に焦点を当てた対照的な学習や、表向きのキャプションを再強調する。 しかし、類似のイメージグループ内のオブジェクト(例えば、同じアルバム内のアイテムやプロパティ、またはきめ細かいイベント)間の関係は無視される。 本稿では,グループベースの識別キャプションモデル(gdiscap)を用いて,画像キャプションの識別性を向上させる。 特に,画像群に特有のオブジェクト特徴を格納するグループベースのメモリアテンション(GMA)モジュールを提案する。 これらのユニークなオブジェクトの特徴は、キャプションを生成するときに強調され、より特徴的なキャプションをもたらす。 さらに、言語デコーダとGMAを監督するために、接頭辞節中の特徴語を選択する。 最後に,キャプションの識別性を評価するために,新しい評価基準である特徴語率(DisWordRate)を提案する。 定量的な結果から,提案手法は複数のベースラインモデルの識別性を著しく改善し,精度と識別性の両方において最先端の性能を実現することが示唆された。 ユーザスタディの結果は定量的評価と一致し,新たな指標であるDisWordRateの合理性を示す。

Describing images using natural language is widely known as image captioning, which has made consistent progress due to the development of computer vision and natural language generation techniques. Though conventional captioning models achieve high accuracy based on popular metrics, i.e., BLEU, CIDEr, and SPICE, the ability of captions to distinguish the target image from other similar images is under-explored. To generate distinctive captions, a few pioneers employ contrastive learning or re-weighted the ground-truth captions, which focuses on one single input image. However, the relationships between objects in a similar image group (e.g., items or properties within the same album or fine-grained events) are neglected. In this paper, we improve the distinctiveness of image captions using a Group-based Distinctive Captioning Model (GdisCap), which compares each image with other images in one similar group and highlights the uniqueness of each image. In particular, we propose a group-based memory attention (GMA) module, which stores object features that are unique among the image group (i.e., with low similarity to objects in other images). These unique object features are highlighted when generating captions, resulting in more distinctive captions. Furthermore, the distinctive words in the ground-truth captions are selected to supervise the language decoder and GMA. Finally, we propose a new evaluation metric, distinctive word rate (DisWordRate) to measure the distinctiveness of captions. Quantitative results indicate that the proposed method significantly improves the distinctiveness of several baseline models, and achieves the state-of-the-art performance on both accuracy and distinctiveness. Results of a user study agree with the quantitative evaluation and demonstrate the rationality of the new metric DisWordRate.
翻訳日:2021-08-23 17:26:08 公開日:2021-08-20
# (参考訳) 微調整を必要とするラベル騒音のコントラスト表現

Contrastive Representations for Label Noise Require Fine-Tuning ( http://arxiv.org/abs/2108.09154v1 )

ライセンス: CC BY 4.0
Pierre Nodet and Vincent Lemaire and Alexis Bondu and Antoine Cornu\'ejols(参考訳) 本稿では,ラベルノイズロバスト分類ヘッドと対比表現の組み合わせにより,最新の性能を実現するためには,表現の微調整が必要となることを示す。 微調整された表現が凍った表現よりも優れていることが示されるので、適切な出発点が与えられた場合、ノイズロバスト分類ヘッドは確かに有意義な表現を促進することができると結論付けることができる。 6つの方法と9つの異なる種類のノイズインスタンス(1つ、対称、非対称)を特徴とする総合的なパフォーマンス図を作成する実験を行った。 雑音の存在下では、コントラスト表現の微調整により、6つの方法がエンドツーエンド学習よりも優れた結果を得ることができ、最新の技術との比較で新しい参照を表現することができることを示した。 結果もノイズレベルに対して顕著に安定している。

In this paper we show that the combination of a Contrastive representation with a label noise-robust classification head requires fine-tuning the representation in order to achieve state-of-the-art performances. Since fine-tuned representations are shown to outperform frozen ones, one can conclude that noise-robust classification heads are indeed able to promote meaningful representations if provided with a suitable starting point. Experiments are conducted to draw a comprehensive picture of performances by featuring six methods and nine noise instances of three different kinds (none, symmetric, and asymmetric). In presence of noise the experiments show that fine tuning of Contrastive representation allows the six methods to achieve better results than end-to-end learning and represent a new reference compare to the recent state of art. Results are also remarkable stable versus the noise level.
翻訳日:2021-08-23 17:20:32 公開日:2021-08-20
# (参考訳) コールディテール記録に基づくユーザのローカライズ

User Localization Based on Call Detail Records ( http://arxiv.org/abs/2108.09157v1 )

ライセンス: CC BY 4.0
Buddhi Ayesha, Bhagya Jeewanthi, Charith Chitraranjan, Amal Shehan Perera, Amal S. Kumarage(参考訳) 交通計画を含む多くの分野において、人間の移動性を理解することは不可欠である。 現在、このような分析の主要な情報源は調査である。 しかし、近年、多くの研究者が旅行パターンを特定するためにCDR(Call Detail Records)に注目している。 CDRは人間の移動行動と相関している。 しかし、CDRデータを使用する場合の大きな問題の1つは、データと負荷共有効果などの他のアーティファクトの解像度が低いため、ユーザの正確な位置を特定することが難しいことである。 既存のアプローチには一定の制限がある。 cdrを用いた以前の研究では、ユーザをローカライズする際にセルタワーの送信電力を考慮せず、負荷共有効果を特定するために単純化されたアプローチを用いる。 さらに、利用者の全体は、異なるセグメントの移動パターンの違いを無視する一つのグループであると考えている。 本研究は,CDRからのユーザ位置定位のための新しい手法を導入し,負荷共有効果の検出を改善し,送信電力を考慮に入れ,モデルのパラメータを学習するために,ユーザを異なるグループに分割する手法を提案する。 さらに本研究は,既存の制限に対処し,40億近いcdrデータポイントと旅行調査データと自発的に収集したモバイルデータを用いて,生成した結果の検証を行う。

Understanding human mobility is essential for many fields, including transportation planning. Currently, surveys are the primary source for such analysis. However, in the recent past, many researchers have focused on Call Detail Records (CDR) for identifying travel patterns. CDRs have shown correlation to human mobility behavior. However, one of the main issues in using CDR data is that it is difficult to identify the precise location of the user due to the low spacial resolution of the data and other artifacts such as the load sharing effect. Existing approaches have certain limitations. Previous studies using CDRs do not consider the transmit power of cell towers when localizing the users and use an oversimplified approach to identify load sharing effects. Furthermore, they consider the entire population of users as one group neglecting the differences in mobility patterns of different segments of users. This research introduces a novel methodology to user position localization from CDRs through improved detection of load sharing effects, by taking the transmit power into account, and segmenting the users into distinct groups for the purpose of learning any parameters of the model. Moreover, this research uses several methods to address the existing limitations and validate the generated results using nearly 4 billion CDR data points with travel survey data and voluntarily collected mobile data.
翻訳日:2021-08-23 17:06:08 公開日:2021-08-20
# (参考訳) 等価共有メモリを用いたニューラル会話生成モデル

A Neural Conversation Generation Model via Equivalent Shared Memory Investigation ( http://arxiv.org/abs/2108.09164v1 )

ライセンス: CC BY 4.0
Changzhen Ji, Yating Zhang, Xiaozhong Liu, Adam Jatowt, Changlong Sun, Conghui Zhu and Tiejun Zhao(参考訳) 自然言語生成(NLG)における課題としての会話生成は,近年ますます注目を集めている。 最近の多くの作品では、外部知識とともにシーケンスからシーケンスへの構造を採用しており、それによって生成された会話の品質が向上した。 にもかかわらず、類似した会話から抽出された知識を発話生成に利用した作品はほとんどない。 顧客サービスや法廷の議論領域での会話を例として、本質的なエンティティやフレーズ、関連するロジックや相互関係を抽出し、類似の会話インスタンスから借用できることは明らかである。 このような情報は会話生成を改善するのに役立つ。 本稿では,類似した会話の有用な情報を記憶し,発話生成を改善するための新しい読解・記憶フレームワークであるdeep reading memory network(drmn)を提案する。 弊社のモデルは、正義とeコマースの2つの大規模な会話データセットに適用する。 実験により、提案したモデルが最先端のアプローチより優れていることが証明された。

Conversation generation as a challenging task in Natural Language Generation (NLG) has been increasingly attracting attention over the last years. A number of recent works adopted sequence-to-sequence structures along with external knowledge, which successfully enhanced the quality of generated conversations. Nevertheless, few works utilized the knowledge extracted from similar conversations for utterance generation. Taking conversations in customer service and court debate domains as examples, it is evident that essential entities/phrases, as well as their associated logic and inter-relationships can be extracted and borrowed from similar conversation instances. Such information could provide useful signals for improving conversation generation. In this paper, we propose a novel reading and memory framework called Deep Reading Memory Network (DRMN) which is capable of remembering useful information of similar conversations for improving utterance generation. We apply our model to two large-scale conversation datasets of justice and e-commerce fields. Experiments prove that the proposed model outperforms the state-of-the-art approaches.
翻訳日:2021-08-23 16:57:12 公開日:2021-08-20
# (参考訳) クラッタシーンの領域レベルアクティブラーニング

Region-level Active Learning for Cluttered Scenes ( http://arxiv.org/abs/2108.09186v1 )

ライセンス: CC BY 4.0
Michael Laielli, Giscard Biamby, Dian Chen, Adam Loeffler, Phat Dat Nguyen, Ross Luo, Trevor Darrell, Sayna Ebrahimi(参考訳) オブジェクト検出のためのアクティブラーニングは、個々の検出を画像レベルの選択基準に集約する方法で分類のために開発された技術を適用することで、従来より実現されている。 これは通常、ラベル付けのために選択された全ての画像は徹底的に注釈付けされなければならないというコストのかかる仮定と結合される。 これにより、精巧なビジョンデータセットと、実際のイメージで発生するデータ不均衡や視覚的なクラッタの存在下での苦労が、徐々に改善される。 画像レベルのアプローチの代替案は、文学において驚くほど過小評価されている。 本稿では,従来の画像レベルおよびオブジェクトレベルのアプローチを,同じ画像から近接する冗長なクエリを回避し,ラベラーのコンテキストスイッチを最小化することで空間的多様性を促進する,一般化された領域レベルのアプローチに組み込む新たな戦略を提案する。 このアプローチはラベリングの労力を大幅に削減し,クラス不均衡と乱雑なシーンを持つ現実データに対するレアオブジェクト検索を改善する。

Active learning for object detection is conventionally achieved by applying techniques developed for classification in a way that aggregates individual detections into image-level selection criteria. This is typically coupled with the costly assumption that every image selected for labelling must be exhaustively annotated. This yields incremental improvements on well-curated vision datasets and struggles in the presence of data imbalance and visual clutter that occurs in real-world imagery. Alternatives to the image-level approach are surprisingly under-explored in the literature. In this work, we introduce a new strategy that subsumes previous Image-level and Object-level approaches into a generalized, Region-level approach that promotes spatial-diversity by avoiding nearby redundant queries from the same image and minimizes context-switching for the labeler. We show that this approach significantly decreases labeling effort and improves rare object search on realistic data with inherent class-imbalance and cluttered scenes.
翻訳日:2021-08-23 16:40:44 公開日:2021-08-20
# (参考訳) Smart Bird: 効率的かつ効果的なトランスのための学習可能なスパースアテンション

Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer ( http://arxiv.org/abs/2108.09193v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) トランスフォーマーはNLPで大成功を収めた。 しかし、変圧器の自己着脱機構の二次的複雑性は長い列を扱うのに非効率である。 既存の多くの作品では、ある位置やランダムに選択されたトークンのトークンに通常出席する密度の高いものの代わりに、ばらばらな自己アテンションを計算することでトランスフォーマーを加速しようと試みている。 しかし、手動で選択されたトークンやランダムトークンはコンテキストモデリングには役に立たない。 本稿では,学習可能なスパースアテンションを持つ効率的かつ効率的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、トークン間の潜在的な重要な相互作用を見つけることを目的として、1ヘッドの低次元トランスフォーマーを用いてスケッチされた注目行列を最初に計算する。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。 最後に、インデックス行列に従ってトークン埋め込みを選択し、スパースアテンションネットワークの入力を形成する。 テキストモデリングにおけるSmart Birdの有効性と有効性を検証した6つのベンチマークデータセットの大規模な実験。

Transformer has achieved great success in NLP. However, the quadratic complexity of the self-attention mechanism in Transformer makes it inefficient in handling long sequences. Many existing works explore to accelerate Transformers by computing sparse self-attention instead of a dense one, which usually attends to tokens at certain positions or randomly selected tokens. However, manually selected or random tokens may be uninformative for context modeling. In this paper, we propose Smart Bird, which is an efficient and effective Transformer with learnable sparse attention. In Smart Bird, we first compute a sketched attention matrix with a single-head low-dimensional Transformer, which aims to find potential important interactions between tokens. We then sample token pairs based on their probability scores derived from the sketched attention matrix to generate different sparse attention index matrices for different attention heads. Finally, we select token embeddings according to the index matrices to form the input of sparse attention networks. Extensive experiments on six benchmark datasets for different tasks validate the efficiency and effectiveness of Smart Bird in text modeling.
翻訳日:2021-08-23 16:28:10 公開日:2021-08-20
# (参考訳) ディープオーディオ埋め込みによるパーシングバードソング

Parsing Birdsong with Deep Audio Embeddings ( http://arxiv.org/abs/2108.09203v1 )

ライセンス: CC BY 4.0
Irina Tolkova, Brian Chu, Marcel Hedman, Stefan Kahl, Holger Klinck(参考訳) 鳥類の個体数のモニタリングは、保全活動や生物多様性の喪失の理解において重要な役割を担っている。 このプロセスの自動化は、受動的音響モニタリングのようなセンシング技術と、ディープラーニングのような分析ツールの両方によって促進されている。 しかし、機械学習モデルは、トレーニングデータで遭遇しない例に一般化することがしばしば困難である。 本研究では,特徴的呼出と環境騒音を特定するための半教師付きアプローチを提案する。 我々は,畳み込みオートエンコーダと2つの事前学習ネットワークを含む音声サンプルの潜伏表現を学習するために,複数の手法を用いて学習し,その結果の埋め込みをドメインの専門家にグループ化し,クラスタラベルを識別する。 本手法は,環境音響データセットの潜在構造を把握し,分類精度を向上できることを示す。

Monitoring of bird populations has played a vital role in conservation efforts and in understanding biodiversity loss. The automation of this process has been facilitated by both sensing technologies, such as passive acoustic monitoring, and accompanying analytical tools, such as deep learning. However, machine learning models frequently have difficulty generalizing to examples not encountered in the training data. In our work, we present a semi-supervised approach to identify characteristic calls and environmental noise. We utilize several methods to learn a latent representation of audio samples, including a convolutional autoencoder and two pre-trained networks, and group the resulting embeddings for a domain expert to identify cluster labels. We show that our approach can improve classification precision and provide insight into the latent structure of environmental acoustic datasets.
翻訳日:2021-08-23 16:15:50 公開日:2021-08-20
# (参考訳) ガウス過程帯域に対する最適順序簡易レグレット

Optimal Order Simple Regret for Gaussian Process Bandits ( http://arxiv.org/abs/2108.09262v1 )

ライセンス: CC BY 4.0
Sattar Vakili, Nacime Bouziani, Sepehr Jalali, Alberto Bernacchia, Da-shan Shiu(参考訳) 連続、おそらく非凸の逐次最適化を考えると、目的関数 $f$ を評価するのに費用がかかる。 この問題は、再生カーネルヒルベルト空間(RKHS)に$f$を持つガウス過程(GP)バンディットとしてキャストできる。 いくつかの学習アルゴリズムのアート解析の状況は、単純な後悔性能における下限と上限の差が顕著であることを示している。 N$ が探索試行数であり、$\gamma_N$ が最大情報ゲインであるとき、既存の境界よりもかなり厳密な純粋探索アルゴリズムの単純な後悔性能に基づいて $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$ を証明します。 この境界は、後悔に関する下限が知られている場合の対数的要因まで最適であることを示す。 これらの結果を確立するために,幅広い関心を持つrkhs要素に適用可能なgpモデルの新規かつ鋭い信頼区間を示す。

Consider the sequential optimization of a continuous, possibly non-convex, and expensive to evaluate objective function $f$. The problem can be cast as a Gaussian Process (GP) bandit where $f$ lives in a reproducing kernel Hilbert space (RKHS). The state of the art analysis of several learning algorithms shows a significant gap between the lower and upper bounds on the simple regret performance. When $N$ is the number of exploration trials and $\gamma_N$ is the maximal information gain, we prove an $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$ bound on the simple regret performance of a pure exploration algorithm that is significantly tighter than the existing bounds. We show that this bound is order optimal up to logarithmic factors for the cases where a lower bound on regret is known. To establish these results, we prove novel and sharp confidence intervals for GP models applicable to RKHS elements which may be of broader interest.
翻訳日:2021-08-23 16:05:53 公開日:2021-08-20
# (参考訳) 実用的・高速運動量ベース電力方式

Practical and Fast Momentum-Based Power Methods ( http://arxiv.org/abs/2108.09264v1 )

ライセンス: CC BY 4.0
Tahseen Rabbani, Apollo Jain, Arjun Rajkumar, Furong Huang(参考訳) Power Methodは、ストリーミングPCA、スペクトルクラスタリング、低ランク行列近似などの機械学習タスクに広く応用された古典的アルゴリズムである。 バニラパワー法の蒸留目的は、行列の最大の固有値(絶対値)とその固有ベクトルを決定することである。 運動量に基づくスキームは電力法を高速化するために用いられるが、既存のアルゴリズムで最適収束率を達成するには、実行時に利用できない追加のスペクトル情報に批判的に依存する。 本稿では,遅延運動量法 (dmpower) とストリーミング方式である遅延運動量ストリーミング法 (dmstream) の2つの新しい運動量ベース電力法を提案する。 提案手法は不正確なデフレを生かし, 極端に制約の少ないハイパーパラメータ要求でほぼ最適収束を実現することができる。 摂動論のレンズを通して両アルゴリズムの収束解析を行う。 さらに,dmpowerがバニラパワー法を日常的に上回っており,両アルゴリズムが完全なスペクトル知識を持つ既存の高速化手法を実行するoracleの収束速度と一致することを実験的に証明した。

The power method is a classical algorithm with broad applications in machine learning tasks, including streaming PCA, spectral clustering, and low-rank matrix approximation. The distilled purpose of the vanilla power method is to determine the largest eigenvalue (in absolute modulus) and its eigenvector of a matrix. A momentum-based scheme can be used to accelerate the power method, but achieving an optimal convergence rate with existing algorithms critically relies on additional spectral information that is unavailable at run-time, and sub-optimal initializations can result in divergence. In this paper, we provide a pair of novel momentum-based power methods, which we call the delayed momentum power method (DMPower) and a streaming variant, the delayed momentum streaming method (DMStream). Our methods leverage inexact deflation and are capable of achieving near-optimal convergence with far less restrictive hyperparameter requirements. We provide convergence analyses for both algorithms through the lens of perturbation theory. Further, we experimentally demonstrate that DMPower routinely outperforms the vanilla power method and that both algorithms match the convergence speed of an oracle running existing accelerated methods with perfect spectral knowledge.
翻訳日:2021-08-23 15:35:59 公開日:2021-08-20
# (参考訳) 近似ベイズ型ニューラルドプライメージング

Approximate Bayesian Neural Doppler Imaging ( http://arxiv.org/abs/2108.09266v1 )

ライセンス: CC BY 4.0
A. Asensio Ramos, C. Diaz Baso, O. Kochukhov(参考訳) 回転する活動星の表面温度分布は、ドップラーイメージング法で定期的にマッピングされる。 表面の不均一性は、可視半球の位置によって波長が変化する高分解能分光観測の特徴を生んでいる。 インバージョン問題は、滑らかさや最大エントロピーを仮定した最大アポテリオ正規化法を用いて体系的に解決されている。 本研究の目的は、恒星の表面温度の後方分布へのアクセスを提供することにより、ベイズ推理問題を完全に解決することである。 任意の回転位相でサンプリングされたスペクトル範囲の分光観測のために,高次元の後方分布を近似するモデルを作成するために,amortized neural posterior estimationを用いた。 後部分布は条件正規化フローと近似され、任意の分布への近似の標本化が容易で柔軟である。 分光観測を条件にすると、後方分布から試料を得るのに非常に効率的な方法が得られる。 観測の条件付けは、任意の波長サンプリングと回転位相を扱えるトランスフォーマーエンコーダを用いて得られる。 私たちのモデルは毎秒何千もの後方サンプルを生成できる。 非常に高い信号と雑音の観測のためのモデルの検証は,拡張度を過大評価しながらも,後部を正確に近似していることを示す。 このモデルを適度に速い回転子 ii の peg に適用し、温度不均質性の最初のベイズ写像を生成する。 条件付き正規化フローは、磁気特性の制約など、恒星物理学におけるより複雑な問題において近似ベイズ推論を実行するための非常に有望なツールである。

The non-uniform surface temperature distribution of rotating active stars is routinely mapped with the Doppler Imaging technique. Inhomogeneities in the surface produce features in high-resolution spectroscopic observations that shift in wavelength depending on their position on the visible hemisphere. The inversion problem has been systematically solved using maximum a-posteriori regularized methods assuming smoothness or maximum entropy. Our aim in this work is to solve the full Bayesian inference problem, by providing access to the posterior distribution of the surface temperature in the star. We use amortized neural posterior estimation to produce a model that approximates the high-dimensional posterior distribution for spectroscopic observations of selected spectral ranges sampled at arbitrary rotation phases. The posterior distribution is approximated with conditional normalizing flows, which are flexible, tractable and easy to sample approximations to arbitrary distributions. When conditioned on the spectroscopic observations, they provide a very efficient way of obtaining samples from the posterior distribution. The conditioning on observations is obtained through the use of Transformer encoders, which can deal with arbitrary wavelength sampling and rotation phases. Our model can produce thousands of posterior samples per second. Our validation of the model for very high signal-to-noise observations shows that it correctly approximates the posterior, although with some overestimation of the broadening. We apply the model to the moderately fast rotator II Peg, producing the first Bayesian map of its temperature inhomogenities. We conclude that conditional normalizing flows are a very promising tool to carry out approximate Bayesian inference in more complex problems in stellar physics, like constraining the magnetic properties.
翻訳日:2021-08-23 15:34:54 公開日:2021-08-20
# (参考訳) 科学データセットと分析パイプラインのためのレコメンダシステム

A Recommender System for Scientific Datasets and Analysis Pipelines ( http://arxiv.org/abs/2108.09275v1 )

ライセンス: CC BY 4.0
Mandana Mazaheri, Gregory Kiar, Tristan Glatard(参考訳) 科学データセットと分析パイプラインは、オープンサイエンスの利益のために公開されつつある。 しかしながら、どのパイプラインとデータセットを適切に使用できるかを確実に識別するメカニズムが欠けている。 高品質な公開データセットやパイプラインの増加を考えると、明確な互換性の欠如は、これらのリソースの発見性と再利用性を脅かしている。 本研究では,前回の実行実績に基づくパイプラインやデータセットを推薦するための協調フィルタリングシステムの実現可能性について検討する。 我々は、オープンニューロサイエンスの全国的イニシアチブであるcanadian open neuroscience platformから抽出されたデータセットとパイプラインを用いてシステムを評価する。 システムが提供する勧告(auc$=0.83$)は、以前の知識やパイプラインやデータセットの記述(auc$=0.63$)を使用するドメインの専門家による推奨よりもはるかに優れている。 特にドメインの専門家は、前処理のレベルなど、パイプラインとデータセットのインタラクションの低レベルな技術的側面を無視することが多い。 証明に基づくパイプラインとデータセットレコメンデータは、オープンサイエンスリソースの共有と利用に有効であり、有益である、と結論付けている。 今後の作業は、より包括的な実績トレースの収集と、本番環境にシステムを展開することに集中する。

Scientific datasets and analysis pipelines are increasingly being shared publicly in the interest of open science. However, mechanisms are lacking to reliably identify which pipelines and datasets can appropriately be used together. Given the increasing number of high-quality public datasets and pipelines, this lack of clear compatibility threatens the findability and reusability of these resources. We investigate the feasibility of a collaborative filtering system to recommend pipelines and datasets based on provenance records from previous executions. We evaluate our system using datasets and pipelines extracted from the Canadian Open Neuroscience Platform, a national initiative for open neuroscience. The recommendations provided by our system (AUC$=0.83$) are significantly better than chance and outperform recommendations made by domain experts using their previous knowledge as well as pipeline and dataset descriptions (AUC$=0.63$). In particular, domain experts often neglect low-level technical aspects of a pipeline-dataset interaction, such as the level of pre-processing, which are captured by a provenance-based system. We conclude that provenance-based pipeline and dataset recommenders are feasible and beneficial to the sharing and usage of open-science resources. Future work will focus on the collection of more comprehensive provenance traces, and on deploying the system in production.
翻訳日:2021-08-23 14:55:40 公開日:2021-08-20
# (参考訳) MG-GAN:歩行者軌道予測における分布外サンプル防止のための多世代モデル

MG-GAN: A Multi-Generator Model Preventing Out-of-Distribution Samples in Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2108.09274v1 )

ライセンス: CC BY 4.0
Patrick Dendorfer, Sven Elflein, Laura Leal-Taixe(参考訳) 歩行者の軌道予測は不確実かつ多様性のため困難である。 生成的敵ネットワークは将来の軌道上の分布を学習できるが、将来の軌道の分布が複数の、おそらくは切断されたモードの混合である場合、分布外サンプルを予測する傾向がある。 そこで本研究では,歩行者追跡予測のためのマルチジェネレータモデルを提案する。 各ジェネレータは、シーンの1つの主要なモードにルーティングする軌跡上の分布を学習するのを専門とし、第2のネットワークはこれらのジェネレータ上のカテゴリ分布を動的およびシーン入力に基づいて学習する。 このアーキテクチャにより、特殊なジェネレータから効果的にサンプルをサンプリングでき、単一ジェネレータメソッドと比較して分散サンプルを大幅に削減できます。

Pedestrian trajectory prediction is challenging due to its uncertain and multimodal nature. While generative adversarial networks can learn a distribution over future trajectories, they tend to predict out-of-distribution samples when the distribution of future trajectories is a mixture of multiple, possibly disconnected modes. To address this issue, we propose a multi-generator model for pedestrian trajectory prediction. Each generator specializes in learning a distribution over trajectories routing towards one of the primary modes in the scene, while a second network learns a categorical distribution over these generators, conditioned on the dynamics and scene input. This architecture allows us to effectively sample from specialized generators and to significantly reduce the out-of-distribution samples compared to single generator methods.
翻訳日:2021-08-23 14:24:40 公開日:2021-08-20
# 深部領域一般化のための識別領域不変逆ネットワーク

Discriminative Domain-Invariant Adversarial Network for Deep Domain Generalization ( http://arxiv.org/abs/2108.08995v1 )

ライセンス: Link先を確認
Mohammad Mahfujur Rahman, Clinton Fookes, Sridha Sridharan(参考訳) ドメイン一般化アプローチは、異なる分布を持つ複数のトレーニングソースドメインから未知のターゲットドメインに対するドメイン不変予測モデルを学ぶことを目的としている。 これは機械学習とコンピュータビジョンのコミュニティにおいて、挑戦的でトピック的な問題である。 以前のドメイン一般化のアプローチでは、すべてのドメインの条件分布はソースドメイン全体にわたって同じであり、限界分布を最小化することでドメイン不変量モデルを学ぶと仮定している。 しかし、トレーニングソースドメインの安定した条件分布の仮定は実際には成立しない。 ソース領域から学習した超平面は、クラスタの境界に散らばったサンプルを、対応するクラス中心から遠ざかるサンプルを誤って分類する。 上記の2つの欠点に対処するため、ドメイン一般化のための識別的ドメイン不変逆数ネットワーク(DDIAN)を提案する。 特徴の判別性は識別機能モジュールを通じて保証され、ドメイン不変機能はグローバルドメインとローカルサブドメインアライメントモジュールを介して保証される。 いくつかのベンチマークにおいて、DDIANは、最先端のドメイン一般化アプローチと比較して、トレーニング中に見つからないターゲットデータに対するより良い予測を達成している。

Domain generalization approaches aim to learn a domain invariant prediction model for unknown target domains from multiple training source domains with different distributions. Significant efforts have recently been committed to broad domain generalization, which is a challenging and topical problem in machine learning and computer vision communities. Most previous domain generalization approaches assume that the conditional distribution across the domains remain the same across the source domains and learn a domain invariant model by minimizing the marginal distributions. However, the assumption of a stable conditional distribution of the training source domains does not really hold in practice. The hyperplane learned from the source domains will easily misclassify samples scattered at the boundary of clusters or far from their corresponding class centres. To address the above two drawbacks, we propose a discriminative domain-invariant adversarial network (DDIAN) for domain generalization. The discriminativeness of the features are guaranteed through a discriminative feature module and domain-invariant features are guaranteed through the global domain and local sub-domain alignment modules. Extensive experiments on several benchmarks show that DDIAN achieves better prediction on unseen target data during training compared to state-of-the-art domain generalization approaches.
翻訳日:2021-08-23 13:40:18 公開日:2021-08-20
# VAE-CE: 遠方VAEを用いた視覚的コントラスト記述

VAE-CE: Visual Contrastive Explanation using Disentangled VAEs ( http://arxiv.org/abs/2108.09159v1 )

ライセンス: Link先を確認
Yoeri Poels, Vlado Menkovski(参考訳) 分類モデルの目標は、正しいラベルをデータに割り当てることである。 ほとんどの場合、このデータはラベルのセットによって完全には記述されない。 多くの場合、各データポイントをより正確に記述できる、意味のある概念の豊富なセットがドメインに存在する。 このような概念はモデルの分類を解釈するのに非常に有用である。 本稿では,高次概念を持つデータを表す変分オートエンコーダに基づくコントラスト説明(vae-ce)と呼ばれるモデルを提案し,この表現を分類と説明生成の両方に利用する。 説明は対照的な方法で作成され、なぜデータポイントが別のクラスではなく1つのクラスに割り当てられるのかを伝える。 説明は入力データポイントの変換のセットとして指定され、各ステップは対照的なクラスに変化する概念を表す。 我々は,各次元を分離する新しい教師あり手法を用いて拡張した,異方性vaeを用いてモデルを構築した。 合成データとMNISTの分析は、解離と説明の両方へのアプローチが他の方法よりも有利であることを示している。

The goal of a classification model is to assign the correct labels to data. In most cases, this data is not fully described by the given set of labels. Often a rich set of meaningful concepts exist in the domain that can much more precisely describe each datapoint. Such concepts can also be highly useful for interpreting the model's classifications. In this paper we propose a model, denoted as Variational Autoencoder-based Contrastive Explanation (VAE-CE), that represents data with high-level concepts and uses this representation for both classification and generating explanations. The explanations are produced in a contrastive manner, conveying why a datapoint is assigned to one class rather than an alternative class. An explanation is specified as a set of transformations of the input datapoint, with each step depicting a concept changing towards the contrastive class. We build the model using a disentangled VAE, extended with a new supervised method for disentangling individual dimensions. An analysis on synthetic data and MNIST shows that the approaches to both disentanglement and explanation provide benefits over other methods.
翻訳日:2021-08-23 13:39:59 公開日:2021-08-20
# 弱い修正グラフ埋め込みを用いたTwitterユーザ表現

Twitter User Representation using Weakly Supervised Graph Embedding ( http://arxiv.org/abs/2108.08988v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) ソーシャルメディアプラットフォームは、ユーザーが様々なコンテンツ上で複数のオンライン活動に参加するための便利な手段を提供する。 しかし、この急激なアクセスは多様な情報を増やし、ソーシャルメディアで共有される人々のライフスタイル決定を理解するために、ユーザータイプを特徴付けることは困難である。 本稿では,ユーザタイプを理解するための弱い教師付きグラフ埋め込みベースフレームワークを提案する。 本研究では,Twitterの「ヨガ」や「ケトダイエット」に焦点をあてて,Twitterのツイートに対して弱い監督力を用いて学習したユーザ埋め込みを評価する。 実世界のデータセットの実験では、提案されたフレームワークがユーザタイプを検出するベースラインを上回っている。 最後に、データセットから異なるタイプのユーザ(例えば、実践者対プロモーション)のデータ分析について説明する。 ライフスタイル関連のツイート(ヨガ、ケトなど)に集中しながら、ユーザ表現の構築方法は、他のドメインに容易に一般化します。

Social media platforms provide convenient means for users to participate in multiple online activities on various contents and create fast widespread interactions. However, this rapidly growing access has also increased the diverse information, and characterizing user types to understand people's lifestyle decisions shared in social media is challenging. In this paper, we propose a weakly supervised graph embedding based framework for understanding user types. We evaluate the user embedding learned using weak supervision over well-being related tweets from Twitter, focusing on 'Yoga', 'Keto diet'. Experiments on real-world datasets demonstrate that the proposed framework outperforms the baselines for detecting user types. Finally, we illustrate data analysis on different types of users (e.g., practitioner vs. promotional) from our dataset. While we focus on lifestyle-related tweets (i.e., yoga, keto), our method for constructing user representation readily generalizes to other domains.
翻訳日:2021-08-23 13:39:43 公開日:2021-08-20
# オープンリレーショナルモデリング: エンティティ間の関係を定義することを学ぶ

Open Relation Modeling: Learning to Define Relations between Entities ( http://arxiv.org/abs/2108.09241v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) エンティティ間の関係は、例えば、知識グラフ(KG)内のエンティティまたは事実の両方を含む文など、異なるインスタンスで表すことができる。 しかし、これらの事例は、エンティティ間の一般的な関係を正しく捉えていないかもしれないし、人間によっては理解しづらいかもしれないし、知識ソースの不完全さのためにも見当たらないかもしれない。 本稿では,2つのエンティティが与えられたとき,それらの関係を記述するコヒーレント文を生成するオープンリレーションモデリングタスクを提案する。 そこで本研究では,機械にエンティティの定義から学習させることで,定義的関係記述を生成する方法を提案する。 具体的には、抽出されたエンティティペアに条件付き定義を生成するために、事前学習言語モデル(PLM)を微調整する。 エンティティ間のplm推論を支援し、オープンリレーションモデリングのためにplmに追加のリレーショナル知識を提供するため、kgsに推論パスを取り入れ、推論パス選択機構を含む。 我々は, PLM が信頼度推定によって解釈可能かつ情報的推論経路を選択できることを示し, 選択した経路が PLM を誘導し, より優れた関係記述を生成することを示す。 実験の結果,本モデルは,エンティティと関係の代表的特徴を捉えた簡潔で有益な関係記述を生成できることがわかった。

Relations between entities can be represented by different instances, e.g., a sentence containing both entities or a fact in a Knowledge Graph (KG). However, these instances may not well capture the general relations between entities, may be difficult to understand by humans, even may not be found due to the incompleteness of the knowledge source. In this paper, we introduce the Open Relation Modeling task - given two entities, generate a coherent sentence describing the relation between them. To solve this task, we propose to teach machines to generate definition-like relation descriptions by letting them learn from definitions of entities. Specifically, we fine-tune Pre-trained Language Models (PLMs) to produce definitions conditioned on extracted entity pairs. To help PLMs reason between entities and provide additional relational knowledge to PLMs for open relation modeling, we incorporate reasoning paths in KGs and include a reasoning path selection mechanism. We show that PLMs can select interpretable and informative reasoning paths by confidence estimation, and the selected path can guide PLMs to generate better relation descriptions. Experimental results show that our model can generate concise but informative relation descriptions that capture the representative characteristics of entities and relations.
翻訳日:2021-08-23 13:39:26 公開日:2021-08-20
# CIGLI:言語と画像からの条件付き画像生成

CIGLI: Conditional Image Generation from Language & Image ( http://arxiv.org/abs/2108.08955v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Lynnette Ng, Jared Fernandez, Hao Zhu(参考訳) マルチモーダル世代は近年広く研究されている。 現在の研究方向は、画像に基づいてテキストを生成するか、その逆である。 本稿では,cigli: conditional image generation from language and imageというタスクを提案する。 テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。 テキスト記述が両方の画像からの情報を記述し,その記述のみを分析するだけで画像を生成することができないことを保証するために,新たなデータセットを設計した。 そこで本研究では,定量的(自動)評価と質的(人間)評価により,確立した2つのベースライン法の性能を向上させる新しい言語・画像融合モデルを提案する。 コードとデータセットはhttps://github.com/vincentlux/cigliで入手できる。

Multi-modal generation has been widely explored in recent years. Current research directions involve generating text based on an image or vice versa. In this paper, we propose a new task called CIGLI: Conditional Image Generation from Language and Image. Instead of generating an image based on text as in text-image generation, this task requires the generation of an image from a textual description and an image prompt. We designed a new dataset to ensure that the text description describes information from both images, and that solely analyzing the description is insufficient to generate an image. We then propose a novel language-image fusion model which improves the performance over two established baseline methods, as evaluated by quantitative (automatic) and qualitative (human) evaluations. The code and dataset is available at https://github.com/vincentlux/CIGLI.
翻訳日:2021-08-23 13:39:04 公開日:2021-08-20
# ローカライズ、グループ、選択:シーンテキストモデリングによるテキストVQAの強化

Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling ( http://arxiv.org/abs/2108.08965v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Zhen Fan, Yansen Wang, Jean Oh, Carolyn P. Rose(参考訳) マルチモーダルな文脈理解における重要な課題として,テキストVQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的とする。 Text-VQAは、クロスモーダルグラウンド機能に加えて、大量のシーン・テキスト関係の理解を必要とするため、オリジナルのVQAタスクと差別化されている。 本稿では,複数の側面からこの問題に対処する新しいモデルであるLocalize, Group, and Select(LOGOS)を提案する。 LOGOSは2つのグラウンディングタスクを活用して、画像のキー情報をよりよくローカライズし、シーンテキストクラスタリングを使用して個々のOCRトークンをグループ化し、OCRテキストの異なるソースから最適な回答を選択することを学ぶ。 実験により、LOGOSは2つのText-VQAベンチマークにおいて、追加のOCRアノテーションデータを用いることなく、従来の最先端メソッドよりも優れていることが示された。 アブレーション研究と分析は、異なるモダリティをブリッジし、シーンテキストをよりよく理解するLOGOSの能力を示している。

As an important task in multimodal context understanding, Text-VQA (Visual Question Answering) aims at question answering through reading text information in images. It differentiates from the original VQA task as Text-VQA requires large amounts of scene-text relationship understanding, in addition to the cross-modal grounding capability. In this paper, we propose Localize, Group, and Select (LOGOS), a novel model which attempts to tackle this problem from multiple aspects. LOGOS leverages two grounding tasks to better localize the key information of the image, utilizes scene text clustering to group individual OCR tokens, and learns to select the best answer from different sources of OCR (Optical Character Recognition) texts. Experiments show that LOGOS outperforms previous state-of-the-art methods on two Text-VQA benchmarks without using additional OCR annotation data. Ablation studies and analysis demonstrate the capability of LOGOS to bridge different modalities and better understand scene text.
翻訳日:2021-08-23 13:38:52 公開日:2021-08-20
# 弱教師付き関節異常検出と分類

Weakly-supervised Joint Anomaly Detection and Classification ( http://arxiv.org/abs/2108.08996v1 )

ライセンス: Link先を確認
Snehashis Majhi, Srijan Das, Francois Bremond, Ratnakar Dash and Pankaj Kumar Sa(参考訳) 強盗、爆発、事故などの異常行為。 現実世界の監視システムに 人命と財産の喪失を 防ぐための即時行動が必要です 最近の監視システムにおける自動化は、異常を検出することができるが、異常を分類し、必要な予防措置を取るための人間の努力が必要である。 これは現実のシナリオに対して異常検出と分類を行う方法論が欠如しているためである。 即時行動を必要とする異常を検出・分類できる完全自動化型監視システムを考えると,共同異常検出・分類手法が必要となる。 近代的な深層建築を訓練するための重要な要素である, 異常クラスに関連する濃密な注釈付きビデオが利用できないため, 異常の同時検出と分類が困難になる。 さらに、手作業でやることは不可能に思える。 そこで本研究では,弱い教師付き学習パラダイムを採用し,単一フレームワークにおける異常検出と分類を共同で行う手法を提案する。 濃密な時間的アノテーションの代わりに弱教師付き学習では、ビデオレベルのラベルだけが学習に十分である。 提案モデルは,大規模公開可能なUCF-Crimeデータセット上で検証され,最先端の結果が得られた。

Anomaly activities such as robbery, explosion, accidents, etc. need immediate actions for preventing loss of human life and property in real world surveillance systems. Although the recent automation in surveillance systems are capable of detecting the anomalies, but they still need human efforts for categorizing the anomalies and taking necessary preventive actions. This is due to the lack of methodology performing both anomaly detection and classification for real world scenarios. Thinking of a fully automatized surveillance system, which is capable of both detecting and classifying the anomalies that need immediate actions, a joint anomaly detection and classification method is a pressing need. The task of joint detection and classification of anomalies becomes challenging due to the unavailability of dense annotated videos pertaining to anomalous classes, which is a crucial factor for training modern deep architecture. Furthermore, doing it through manual human effort seems impossible. Thus, we propose a method that jointly handles the anomaly detection and classification in a single framework by adopting a weakly-supervised learning paradigm. In weakly-supervised learning instead of dense temporal annotations, only video-level labels are sufficient for learning. The proposed model is validated on a large-scale publicly available UCF-Crime dataset, achieving state-of-the-art results.
翻訳日:2021-08-23 13:38:33 公開日:2021-08-20
# 解析合成ネットワークを用いた単一水中画像強調

Single Underwater Image Enhancement Using an Analysis-Synthesis Network ( http://arxiv.org/abs/2108.09023v1 )

ライセンス: Link先を確認
Zhengyong Wang, Liquan Shen, Mei Yu, Yufei Lin and Qiuyu Zhu(参考訳) 水中画像強調のためのほとんどの深層モデルは、水中画像形成モデルに基づく合成データセットの訓練に頼っている。 Although promising performances have been achieved, they are still limited by two problems: (1) existing underwater image synthesis models have an intrinsic limitation, in which the homogeneous ambient light is usually randomly generated and many important dependencies are ignored, and thus the synthesized training data cannot adequately express characteristics of real underwater environments; (2) most of deep models disregard lots of favorable underwater priors and heavily rely on training data, which extensively limits their application ranges. これらの制限に対処するために、改良された環境光合成方程式を組み込んだ新しい水中合成データセットがまず確立された。 改訂された方程式は、RGBチャネルにおける周囲光の強度値と、表面オブジェクトの深さや水の種類などの多くの依存関係との間の複雑な数学的関係を明確に定義し、実際の水中のシーンの外観をシミュレートするのに役立つ。 第2に,先行(水中ドメイン知識)とデータ情報(水中歪み分布)の協調による水中画像の効果的向上が可能な統合フレームワークANA-SYNを提案する。 提案フレームワークは、分析ネットワークと合成ネットワークと、事前探索のためのものと、事前統合のためのものである。 より正確な事前情報を活用するために、解析ネットワークにおいて、入力画像の各先行画像の重要性を探索し、適応重み付けモジュールを動的に再分類するように設計する。 一方、合成ネットワークに新しい事前誘導モジュールを導入し、先行特徴とデータ特徴を効果的に集約し、より合理的な画像強調を行うためのより良いハイブリッド情報を提供する。

Most deep models for underwater image enhancement resort to training on synthetic datasets based on underwater image formation models. Although promising performances have been achieved, they are still limited by two problems: (1) existing underwater image synthesis models have an intrinsic limitation, in which the homogeneous ambient light is usually randomly generated and many important dependencies are ignored, and thus the synthesized training data cannot adequately express characteristics of real underwater environments; (2) most of deep models disregard lots of favorable underwater priors and heavily rely on training data, which extensively limits their application ranges. To address these limitations, a new underwater synthetic dataset is first established, in which a revised ambient light synthesis equation is embedded. The revised equation explicitly defines the complex mathematical relationship among intensity values of the ambient light in RGB channels and many dependencies such as surface-object depth, water types, etc, which helps to better simulate real underwater scene appearances. Secondly, a unified framework is proposed, named ANA-SYN, which can effectively enhance underwater images under collaborations of priors (underwater domain knowledge) and data information (underwater distortion distribution). The proposed framework includes an analysis network and a synthesis network, one for priors exploration and another for priors integration. To exploit more accurate priors, the significance of each prior for the input image is explored in the analysis network and an adaptive weighting module is designed to dynamically recalibrate them. Meanwhile, a novel prior guidance module is introduced in the synthesis network, which effectively aggregates the prior and data features and thus provides better hybrid information to perform the more reasonable image enhancement.
翻訳日:2021-08-23 13:38:14 公開日:2021-08-20
# 分布的ロバスト学習

Distributionally Robust Learning ( http://arxiv.org/abs/2108.08993v1 )

ライセンス: Link先を確認
Ruidi Chen, Ioannis Ch. Paschalidis(参考訳) このモノグラフは、ワッサーシュタイン計量の下で分布ロバスト最適化(DRO)を用いてデータ中の(分配的な)摂動に頑健な包括的な統計学習フレームワークを開発する。 ワッサーシュタイン計量とDROの定式化の基本的な性質から始め、抽出可能な定式化に到達する双対性を探求し、漸近的かつ性能保証とともに有限サンプルを開発する。 i) 分布的ロバストな線形回帰, (ii) 予測系における群構造を伴う分布的ロバスト回帰, (iii) 分布的ロバストな多重出力回帰と多クラス分類, (iv) 分布的ロバストな回帰と近近距離推定を組み合わせた最適意思決定, (v) 分布的ロバストな半教師付き学習, (vi) 分布的ロバストな強化学習など, 一連の学習問題を考える。 各問題に対する扱いやすいdro緩和が導出され、ロバスト性と正則化の関係が確立され、解の予測と推定誤差の境界が得られる。 理論以外にも,合成データと実データを用いた数値実験やケーススタディも含む。 実際のデータ実験は、すべて健康情報学のさまざまな問題と関連づけられている。

This monograph develops a comprehensive statistical learning framework that is robust to (distributional) perturbations in the data using Distributionally Robust Optimization (DRO) under the Wasserstein metric. Beginning with fundamental properties of the Wasserstein metric and the DRO formulation, we explore duality to arrive at tractable formulations and develop finite-sample, as well as asymptotic, performance guarantees. We consider a series of learning problems, including (i) distributionally robust linear regression; (ii) distributionally robust regression with group structure in the predictors; (iii) distributionally robust multi-output regression and multiclass classification, (iv) optimal decision making that combines distributionally robust regression with nearest-neighbor estimation; (v) distributionally robust semi-supervised learning, and (vi) distributionally robust reinforcement learning. A tractable DRO relaxation for each problem is being derived, establishing a connection between robustness and regularization, and obtaining bounds on the prediction and estimation errors of the solution. Beyond theory, we include numerical experiments and case studies using synthetic and real data. The real data experiments are all associated with various health informatics problems, an application area which provided the initial impetus for this work.
翻訳日:2021-08-23 13:37:49 公開日:2021-08-20
# 低ランク動的モード分解のための最先端アルゴリズム

State-Of-The-Art Algorithms For Low-Rank Dynamic Mode Decomposition ( http://arxiv.org/abs/2108.09160v1 )

ライセンス: Link先を確認
Patrick Heas and Cedric Herzet(参考訳) この技術ノートは,低ランクダイナミックモード分解(DMD)を用いた高次元力学系の線形近似のための最先端アルゴリズムを概観する。 論文のいくつかの部分を「低ランクな動的モード分解:正確かつトラクタブルな解」と繰り返しながら、この研究は最先端の手法の全体像を構築するのに有用な追加の詳細を提供する。

This technical note reviews sate-of-the-art algorithms for linear approximation of high-dimensional dynamical systems using low-rank dynamic mode decomposition (DMD). While repeating several parts of our article "low-rank dynamic mode decomposition: an exact and tractable solution", this work provides additional details useful for building a comprehensive picture of state-of-the-art methods.
翻訳日:2021-08-23 13:37:23 公開日:2021-08-20
# 不均衡トレーニングデータを用いた医用画像分類のための半教師付き学習

Semi-supervised learning for medical image classification using imbalanced training data ( http://arxiv.org/abs/2108.08956v1 )

ライセンス: Link先を確認
Tri Huynh, Aiden Nibali and Zhen He(参考訳) 医用画像分類は、高価で時間を要するアノテーションプロトコルによるラベル付き例の欠如と、より広い人口における疾患陽性個体の相対的不足によるクラスラベルの不均衡の2つの理由により、しばしば困難である。 ラベルの欠如を扱うための半教師付き学習(SSL)手法は存在するが、一般にクラス不均衡の問題には対処しない。 本研究では,摂動型SSL方式における整合性損失の代替として,適応的Blended Consistency Loss (ABCL)を提案する。 ABCLは、クラス周波数に応じて、目標とする一貫性損失のクラス分布を適応的に混合してデータスキューに対処する。 abclを用いた実験により,2つの不均衡医用画像分類データセットにおける非重み付け平均リコールの改善が,クラス不均衡対策として設計されていない既存の一貫性損失と比較して明らかにされた。

Medical image classification is often challenging for two reasons: a lack of labelled examples due to expensive and time-consuming annotation protocols, and imbalanced class labels due to the relative scarcity of disease-positive individuals in the wider population. Semi-supervised learning (SSL) methods exist for dealing with a lack of labels, but they generally do not address the problem of class imbalance. In this study we propose Adaptive Blended Consistency Loss (ABCL), a drop-in replacement for consistency loss in perturbation-based SSL methods. ABCL counteracts data skew by adaptively mixing the target class distribution of the consistency loss in accordance with class frequency. Our experiments with ABCL reveal improvements to unweighted average recall on two different imbalanced medical image classification datasets when compared with existing consistency losses that are not designed to counteract class imbalance.
翻訳日:2021-08-23 13:37:00 公開日:2021-08-20
# 自然分布シフトを用いたオンライン連続学習:ビジュアルデータを用いた実証的研究

Online Continual Learning with Natural Distribution Shifts: An Empirical Study with Visual Data ( http://arxiv.org/abs/2108.09020v1 )

ライセンス: Link先を確認
Zhipeng Cai and Ozan Sener and Vladlen Koltun(参考訳) 継続的な学習は、複数のタスクや環境を通して知識を学習し、保持する問題である。 研究は主に、新しいタスク/クラスを離散的な時間間隔で追加するインクリメンタルな分類設定に焦点を当てている。 このような「オフライン」設定は、エージェントがタスクを追加しても時間制限なく複数の学習エポックを実行できるため、効果的かつ効率的に学習するエージェントの能力を評価するものではない。 タスク境界のない単一連続ストリームであるオンライン連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。 オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。 訓練されたモデルは、情報保持を評価するために履歴データに基づいて評価される。 大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを導入する。 大規模解析により、連続学習における勾配に基づく最適化の重要かつ未観測の現象を特定し、実データを用いて勾配に基づくオンライン連続学習を改善する効果的な戦略を提案する。 ソースコードとデータセットは、 https://github.com/IntelLabs/continuallearning.comで入手できる。

Continual learning is the problem of learning and retaining knowledge through time over multiple tasks and environments. Research has primarily focused on the incremental classification setting, where new tasks/classes are added at discrete time intervals. Such an "offline" setting does not evaluate the ability of agents to learn effectively and efficiently, since an agent can perform multiple learning epochs without any time limitation when a task is added. We argue that "online" continual learning, where data is a single continuous stream without task boundaries, enables evaluating both information retention and online learning efficacy. In online continual learning, each incoming small batch of data is first used for testing and then added to the training set, making the problem truly online. Trained models are later evaluated on historical data to assess information retention. We introduce a new benchmark for online continual visual learning that exhibits large scale and natural distribution shifts. Through a large-scale analysis, we identify critical and previously unobserved phenomena of gradient-based optimization in continual learning, and propose effective strategies for improving gradient-based online continual learning with real data. The source code and dataset are available in: https://github.com/IntelLabs/continuallearning.
翻訳日:2021-08-23 13:36:44 公開日:2021-08-20
# CNNを医療用トランスフォーマーに置き換える時が来たか?

Is it Time to Replace CNNs with Transformers for Medical Images? ( http://arxiv.org/abs/2108.09038v1 )

ライセンス: Link先を確認
Christos Matsoukas, Johan Fredin Haslum, Magnus S\"oderberg and Kevin Smith(参考訳) 畳み込みニューラルネットワーク(cnns)は、医療画像の自動診断に対するデファクトアプローチとして10年間にわたって支配されてきた。 近年、視覚トランスフォーマー(vits)はcnnの代替品として登場し、同様のレベルの性能を実現しつつ、医療画像処理に有益ないくつかの興味深い特性を持っている。 この作業では、トランスフォーマーベースのモデルに移行する時期なのか、CNNで作業を続けるべきなのか、簡単にトランスフォーマーに切り替えられるのか、検討する。 もしそうなら、医用画像診断のためにViTsに切り替える利点と欠点は何でしょうか? これらの質問は、3つの主要な医療画像データセットに関する一連の実験で考察する。 以上の結果から,既定ハイパーパラメータを用いた市販の視覚トランスフォーマーはimagenetで事前トレーニングした場合はcnnと同等であり,自己スーパービジョンで事前トレーニングした場合はcnnのトランスフォーマーよりも優れていた。

Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis. Recently, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding similar levels of performance while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore whether it is time to move to transformer-based models or if we should keep working with CNNs - can we trivially switch to transformers? If so, what are the advantages and drawbacks of switching to ViTs for medical image diagnosis? We consider these questions in a series of experiments on three mainstream medical image datasets. Our findings show that, while CNNs perform better when trained from scratch, off-the-shelf vision transformers using default hyperparameters are on par with CNNs when pretrained on ImageNet, and outperform their CNN counterparts when pretrained using self-supervision.
翻訳日:2021-08-23 13:36:26 公開日:2021-08-20
# 逆ロバスト分類器の生成能力の理解に向けて

Towards Understanding the Generative Capability of Adversarially Robust Classifiers ( http://arxiv.org/abs/2108.09093v1 )

ライセンス: Link先を確認
Yao Zhu, Jiacheng Ma, Jiacheng Sun, Zewei Chen, Rongxin Jiang, Zhenguo Li(参考訳) 最近では、逆向きに頑健な分類器が生成モデルに匹敵する優れた画像を生成できる興味深い現象が発見されている。 我々は,この現象をエネルギーの観点から検討し,新しい説明を与える。 我々は、エネルギー関数の観点から、対向例生成、対向訓練、画像生成を再構成する。 逆行訓練は, 生成能力の鍵となる, 実データを中心とした低エネルギーで平坦なエネルギー関数の獲得に寄与することがわかった。 また,我々の新たな理解に基づいて,高品質な画像を生成し,広範囲の攻撃下で新たな最先端のロバスト性を実現する,より優れた対人訓練手法であるJEATを提案する。 JEATが生成した画像のインセプションスコア(CIFAR-10)は8.80であり、オリジナルの堅牢な分類器(7.50)よりもはるかに優れている。 特に, CIFAR-10 (57.20%から62.04%) と CIFAR-100 (30.03%から30.18%) に対して, 余分なトレーニングデータなしで新たな最先端の堅牢性を実現する。

Recently, some works found an interesting phenomenon that adversarially robust classifiers can generate good images comparable to generative models. We investigate this phenomenon from an energy perspective and provide a novel explanation. We reformulate adversarial example generation, adversarial training, and image generation in terms of an energy function. We find that adversarial training contributes to obtaining an energy function that is flat and has low energy around the real data, which is the key for generative capability. Based on our new understanding, we further propose a better adversarial training method, Joint Energy Adversarial Training (JEAT), which can generate high-quality images and achieve new state-of-the-art robustness under a wide range of attacks. The Inception Score of the images (CIFAR-10) generated by JEAT is 8.80, much better than original robust classifiers (7.50). In particular, we achieve new state-of-the-art robustness on CIFAR-10 (from 57.20% to 62.04%) and CIFAR-100 (from 30.03% to 30.18%) without extra training data.
翻訳日:2021-08-23 13:36:08 公開日:2021-08-20
# fedskel: スケルトン勾配更新によるヘテロジニアスシステムの効率的なフェデレーション学習

FedSkel: Efficient Federated Learning on Heterogeneous Systems with Skeleton Gradients Update ( http://arxiv.org/abs/2108.09081v1 )

ライセンス: Link先を確認
Junyu Luo, Jianlei Yang, Xucheng Ye, Xin Guo, Weisheng Zhao(参考訳) フェデレーション学習は、異なる参加者からのデータ分析を実行しながら、ユーザのプライバシーを保護することを目的としている。 しかし,様々な計算能力と通信ボトルネックにより,異種システムのトレーニング効率を保証することは困難である。 本研究では,モデルの本質的部分であるスケルトンネットワークを更新するだけで,エッジデバイス上での計算効率と通信効率のよいフェデレーション学習を実現するためのFedSkelを提案する。 fedskelは、不均衡データセットを持つ実際のエッジデバイスで評価される。 実験の結果、CONV層のバックプロパゲーションの最大5.52$\times$スピードアップ、トレーニングプロセス全体の1.82$\times$スピードアップを実現し、64.8%の通信コストを削減できることがわかった。

Federated learning aims to protect users' privacy while performing data analysis from different participants. However, it is challenging to guarantee the training efficiency on heterogeneous systems due to the various computational capabilities and communication bottlenecks. In this work, we propose FedSkel to enable computation-efficient and communication-efficient federated learning on edge devices by only updating the model's essential parts, named skeleton networks. FedSkel is evaluated on real edge devices with imbalanced datasets. Experimental results show that it could achieve up to 5.52$\times$ speedups for CONV layers' back-propagation, 1.82$\times$ speedups for the whole training process, and reduce 64.8% communication cost, with negligible accuracy loss.
翻訳日:2021-08-23 13:34:58 公開日:2021-08-20
# コールドスタートレコメンデーションにおけるライフタイム値最適化のための強化学習

Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation ( http://arxiv.org/abs/2108.09141v1 )

ライセンス: Link先を確認
Luo Ji and Qin Qi and Bingqing Han and Hongxia Yang(参考訳) 現代のEコマースプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。 ユーザーとアイテム間の歴史的相互作用が欠如しているため、コールドスタート推奨は難しい問題である。 コールドスタート問題を軽減するため、既存の手法では補助情報としてコンテンツや文脈情報を導入している。 しかしながら、これらの手法は推奨項目が時間とともに着実に振る舞うと仮定する一方で、典型的なEコマースのシナリオでは、一般的にその期間を通して非常に異なるパフォーマンスを持つ。 このような場合、通常従来の方法では無視される項目の観点から長期的なリターンを考えることは有益である。 強化学習 (Reinforcement Learning, RL) はこのような長期最適化問題に自然に適合し, 推薦者が高い潜在的な項目を識別し, ユーザインプレッションを積極的に割り当てて成長を促進させ, 多周期累積ゲインを改善する。 このアイデアにインスパイアされたプロセスは、部分観測可能かつ制御可能なマルコフ決定プロセス(POC-MDP)としてモデル化され、アイテム寿命値(LTV)を推奨に組み込むアクタークリティカルなRLフレームワーク(RL-LTV)が提案される。 RL-LTVにおいて、批評家はアイテムの歴史的軌跡を研究し、新鮮なアイテムの将来のLTVを予測する一方、アクターは将来のLTV期待を最大化するスコアベースのポリシーを提案する。 アクターが提案するスコアは、古典的なランキングスコアとデュアルランクのフレームワークで組み合わせられるため、レコメンデーションはLTVの考慮とバランスがとれる。 本手法は,最大規模のEコマースプラットフォームであるITVとGMVの相対的な改善率8.67%と18.03%で,強力なライブベースラインを上回っている。

Recommender system plays a crucial role in modern E-commerce platform. Due to the lack of historical interactions between users and items, cold-start recommendation is a challenging problem. In order to alleviate the cold-start issue, most existing methods introduce content and contextual information as the auxiliary information. Nevertheless, these methods assume the recommended items behave steadily over time, while in a typical E-commerce scenario, items generally have very different performances throughout their life period. In such a situation, it would be beneficial to consider the long-term return from the item perspective, which is usually ignored in conventional methods. Reinforcement learning (RL) naturally fits such a long-term optimization problem, in which the recommender could identify high potential items, proactively allocate more user impressions to boost their growth, therefore improve the multi-period cumulative gains. Inspired by this idea, we model the process as a Partially Observable and Controllable Markov Decision Process (POC-MDP), and propose an actor-critic RL framework (RL-LTV) to incorporate the item lifetime values (LTV) into the recommendation. In RL-LTV, the critic studies historical trajectories of items and predict the future LTV of fresh item, while the actor suggests a score-based policy which maximizes the future LTV expectation. Scores suggested by the actor are then combined with classical ranking scores in a dual-rank framework, therefore the recommendation is balanced with the LTV consideration. Our method outperforms the strong live baseline with a relative improvement of 8.67% and 18.03% on IPV and GMV of cold-start items, on one of the largest E-commerce platform.
翻訳日:2021-08-23 13:34:42 公開日:2021-08-20
# ディープラーニングモデルへの量子化バックドア

Quantization Backdoors to Deep Learning Models ( http://arxiv.org/abs/2108.09187v1 )

ライセンス: Link先を確認
Hua Ma, Huming Qiu, Yansong Gao, Zhi Zhang, Alsharif Abuadbba, Anmin Fu, Said Al-Sarawi, Derek Abbott(参考訳) 現在、ディープラーニング(DL)モデルをユビキタスエッジのInternet of Thingsデバイスにデプロイする需要は急増している。 しかし、DLモデルは多くの場合、サイズが大きく、大規模な計算を必要とするため、リソースが制限され32ビット浮動小数点演算が利用できないIoTデバイスに直接配置できない。 モデル量子化(model quantization)は実用的なソリューションであり、大きな高精度モデルから小さな低精度モデルに、モデル推論精度を保ちつつ、無益に計算後、モバイルデバイスや組み込みシステムへのdlデプロイを可能にする。 この研究は、標準的な量子化操作を悪用してバックドアを起動できることを明らかにする。 我々は、バックドアが休眠状態であるためにトリガーの存在下でバックドア効果を持たない完全な精度のバックドアモデルが、これまで唯一製品対応の量子化フレームワークであるデフォルトのtensorflow-lite量子化によって活性化できることを実証する。 すべての訓練されたフロート-32バックドアモデルがトリガー入力の存在下においてもバックドア効果を示さないことを確認した。 Neural CleanseやSTRIPといった最先端のフロントエンド検出アプローチは、float-32モデルのバックドアを識別できない。 フロート32の各モデルが標準のtflite後トレーニング量子化によってint-8フォーマットモデルに変換されると、バックドアは量子化モデルで活性化され、トリガーで入力すると100%近い攻撃成功率を示し、トリガーでない入力では正常に振る舞う。 この研究は、エンドユーザがオンデバイストレーニング後のモデル量子化ツールキットを使用して、フロントエンドの検査をパスしてもdlモデルのクロスプラットフォームオーバーホールをセキュリティ研究者に通知することで、ステルス的なセキュリティ脅威が発生することを強調する。

There is currently a burgeoning demand for deploying deep learning (DL) models on ubiquitous edge Internet of Things devices attributing to their low latency and high privacy preservation. However, DL models are often large in size and require large-scale computation, which prevents them from being placed directly onto IoT devices where resources are constrained and 32-bit floating-point operations are unavailable. Model quantization is a pragmatic solution, which enables DL deployment on mobile devices and embedded systems by effortlessly post-quantizing a large high-precision model into a small low-precision model while retaining the model inference accuracy. This work reveals that the standard quantization operation can be abused to activate a backdoor. We demonstrate that a full-precision backdoored model that does not have any backdoor effect in the presence of a trigger -- as the backdoor is dormant -- can be activated by the default TensorFlow-Lite quantization, the only product-ready quantization framework to date. We ascertain that all trained float-32 backdoored models exhibit no backdoor effect even in the presence of trigger inputs. State-of-the-art frontend detection approaches, such as Neural Cleanse and STRIP, fail to identify the backdoor in the float-32 models. When each of the float-32 models is converted into an int-8 format model through the standard TFLite post-training quantization, the backdoor is activated in the quantized model, which shows a stable attack success rate close to 100% upon inputs with the trigger, while behaves normally upon non-trigger inputs. This work highlights that a stealthy security threat occurs when end users utilize the on-device post-training model quantization toolkits, informing security researchers of cross-platform overhaul of DL models post quantization even if they pass frontend inspections.
翻訳日:2021-08-23 13:34:09 公開日:2021-08-20
# RISの位相構成のための分散ロバスト最適化

Federated Distributionally Robust Optimization for Phase Configuration of RISs ( http://arxiv.org/abs/2108.09026v1 )

ライセンス: Link先を確認
Chaouki Ben Issaid, Sumudu Samarakoon, Mehdi Bennis, and H. Vincent Poor(参考訳) 本稿では,教師付き学習環境における多種性RIS型に対する堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。 異種RIS設計上のダウンリンク通信を分散的に最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を分散的に頑健な定式化を用いて解決し、その収束率を確立した。 これにより、最悪の作業者のグローバルモデルパフォーマンスが、他の作業者のパフォーマンスに近いことを保証する。 シミュレーションの結果,提案アルゴリズムは,競合ベースラインと同等の最悪の分布テスト精度を達成するために,通信ラウンド(約50%)を少なくできることがわかった。

In this article, we study the problem of robust reconfigurable intelligent surface (RIS)-aided downlink communication over heterogeneous RIS types in the supervised learning setting. By modeling downlink communication over heterogeneous RIS designs as different workers that learn how to optimize phase configurations in a distributed manner, we solve this distributed learning problem using a distributionally robust formulation in a communication-efficient manner, while establishing its rate of convergence. By doing so, we ensure that the global model performance of the worst-case worker is close to the performance of other workers. Simulation results show that our proposed algorithm requires fewer communication rounds (about 50% lesser) to achieve the same worst-case distribution test accuracy compared to competitive baselines.
翻訳日:2021-08-23 13:32:50 公開日:2021-08-20
# AdvDrop:DNNに対する情報ドロップによる敵攻撃

AdvDrop: Adversarial Attack to DNNs by Dropping Information ( http://arxiv.org/abs/2108.09034v1 )

ライセンス: Link先を確認
Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, A. K. Qin, Yuan He(参考訳) 人間は、失われた情報を持つ視覚オブジェクトを容易に認識することができる。 漫画だ しかし、ディープニューラルネットワーク(dnn)の視覚知覚に関しては、抽象オブジェクト(情報を失った視覚オブジェクト)を認識する能力は依然として課題である。 本研究は,DNNの性能が,わずかな情報しか失わない画像においても低下するか,という逆の視点から,この問題を考察する。 そこで本研究では,画像の既存情報を削除することで,敵の例を再現する新たな攻撃手法であるtextit{AdvDrop}を提案する。 これまでは、ほとんどの敵攻撃は、クリーンな画像に余計な乱雑な情報を加えていた。 従来の研究に対抗して,本研究では,DNNモデルの対角的堅牢性について,非知覚的な詳細をクラフト対向例に落とし込むことにより,新たな視点で検討する。 広範にわたる実験により, \textit{advdrop}の有効性を実証し,この新たなタイプの敵対的例は,現在の防衛システムによって防御されるのがより困難であることを示す。

Human can easily recognize visual objects with lost information: even losing most details with only contour reserved, e.g. cartoon. However, in terms of visual perception of Deep Neural Networks (DNNs), the ability for recognizing abstract objects (visual objects with lost information) is still a challenge. In this work, we investigate this issue from an adversarial viewpoint: will the performance of DNNs decrease even for the images only losing a little information? Towards this end, we propose a novel adversarial attack, named \textit{AdvDrop}, which crafts adversarial examples by dropping existing information of images. Previously, most adversarial attacks add extra disturbing information on clean images explicitly. Opposite to previous works, our proposed work explores the adversarial robustness of DNN models in a novel perspective by dropping imperceptible details to craft adversarial examples. We demonstrate the effectiveness of \textit{AdvDrop} by extensive experiments, and show that this new type of adversarial examples is more difficult to be defended by current defense systems.
翻訳日:2021-08-23 13:32:25 公開日:2021-08-20
# SMedBERT:医療用テキストマイニングのための構造化意味論的知識強化型事前学習言語モデル

SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining ( http://arxiv.org/abs/2108.08983v1 )

ライセンス: Link先を確認
Taolin Zhang, Zerui Cai, Chengyu Wang, Minghui Qiu, Bite Yang, Xiaofeng He(参考訳) 近年,言語理解能力を高めるために知識事実を注入することにより,事前学習言語モデル(PLM)の性能が大幅に向上している。 医学領域では、膨大な医学用語とそれらの複雑な関係がテキストで理解しにくいため、背景知識源は特に有用である。 本研究では,大規模医療コーパスを訓練した医療用PLMであるSMedBERTを紹介する。SMedBERTでは,近縁者の近縁者からの深い構造的意味的知識を取り入れて,異種関係情報を学習し,エンティティタイプの意味的表現を同質な隣接エンティティ構造に注入する。 外部機能としての知識統合は別として、知識グラフ内のリンクエンティティの隣人をテキスト参照のグローバルなコンテキストとして利用し、共有された隣人を介してコミュニケーションし、セマンティック表現を豊かにすることを提案する。 SMedBERTは、様々な知識集約的な中国の医療タスクにおいて、強いベースラインを著しく上回ることを示した。 質問応答や質問マッチング,自然言語推論など,他のタスクのパフォーマンスも向上している。

Recently, the performance of Pre-trained Language Models (PLMs) has been significantly improved by injecting knowledge facts to enhance their abilities of language understanding. For medical domains, the background knowledge sources are especially useful, due to the massive medical terms and their complicated relations are difficult to understand in text. In this work, we introduce SMedBERT, a medical PLM trained on large-scale medical corpora, incorporating deep structured semantic knowledge from neighbors of linked-entity.In SMedBERT, the mention-neighbor hybrid attention is proposed to learn heterogeneous-entity information, which infuses the semantic representations of entity types into the homogeneous neighboring entity structure. Apart from knowledge integration as external features, we propose to employ the neighbors of linked-entities in the knowledge graph as additional global contexts of text mentions, allowing them to communicate via shared neighbors, thus enrich their semantic representations. Experiments demonstrate that SMedBERT significantly outperforms strong baselines in various knowledge-intensive Chinese medical tasks. It also improves the performance of other tasks such as question answering, question matching and natural language inference.
翻訳日:2021-08-23 13:31:49 公開日:2021-08-20
# GEDIT: Baidu Mapsにおける共同POIとアクセシビリティ抽出のための地理的拡張および依存性誘導タグ

GEDIT: Geographic-Enhanced and Dependency-Guided Tagging for Joint POI and Accessibility Extraction at Baidu Maps ( http://arxiv.org/abs/2108.09104v1 )

ライセンス: Link先を確認
Yibo Sun, Jizhou Huang, Chunyuan Yuan, Miao Fan, Haifeng Wang, Ming Liu, Bing Qin(参考訳) poi(point-of-interest)のタイムリーなアクセシビリティリマインダーの提供は、場所の発見や訪問判断に対するユーザの満足度向上に重要な役割を果たします。 しかし、ビジネスの変化の動的な性質のため、POIデータベースを現実世界のデータベースと同期させることは困難です。 この問題を軽減するために,非構造化テキストからPOIの言及を共同で抽出し,それらが結合したアクセシビリティラベルを識別する実用的なソリューションを定式化し提示する。 非構造化テキストから<poi名,アクセシビリティラベル>ペアを生成することを目的として,シーケンスタグ問題としてこのタスクにアプローチする。 この課題は,(1)POI の名称が新しいエンティティやブランドの登録に成功するためにしばしば新しくコピーされた単語であり,(2) テキスト内に複数のペアが存在し,各POI をアクセシビリティラベルと組み合わせるために1対のマッピングや複数対のマッピングを必要とする,という2つの問題のために難しい。 そこで本稿では,GEDIT(Geographic-Enhanced and Dependency-GuIded sequence Tagging)モデルを提案する。 まず、チャレンジ#1を緩和するために、テキスト表現を学ぶために、地理エンハンスド事前学習モデルを開発した。 第2の課題を緩和するために,関係グラフ畳み込みネットワークを適用し,解析された依存木から木ノード表現を学習する。 最後に、事前に学習した表現をCRF層に統合し、入力することで、ニューラルシーケンスタグ付けモデルを構築する。 実世界のデータセット上で行われた大規模な実験は、GEDITの優位性と有効性を示している。 さらに、すでにBaidu Mapsで本番環境にデプロイされている。 統計によれば、提案されたソリューションは、同じ量の文書を扱うためにかなりの人的労力と労働コストを節約でき、poiアクセシビリティ維持のための実用的な方法であることが示されている。

Providing timely accessibility reminders of a point-of-interest (POI) plays a vital role in improving user satisfaction of finding places and making visiting decisions. However, it is difficult to keep the POI database in sync with the real-world counterparts due to the dynamic nature of business changes. To alleviate this problem, we formulate and present a practical solution that jointly extracts POI mentions and identifies their coupled accessibility labels from unstructured text. We approach this task as a sequence tagging problem, where the goal is to produce <POI name, accessibility label> pairs from unstructured text. This task is challenging because of two main issues: (1) POI names are often newly-coined words so as to successfully register new entities or brands and (2) there may exist multiple pairs in the text, which necessitates dealing with one-to-many or many-to-one mapping to make each POI coupled with its accessibility label. To this end, we propose a Geographic-Enhanced and Dependency-guIded sequence Tagging (GEDIT) model to concurrently address the two challenges. First, to alleviate challenge #1, we develop a geographic-enhanced pre-trained model to learn the text representations. Second, to mitigate challenge #2, we apply a relational graph convolutional network to learn the tree node representations from the parsed dependency tree. Finally, we construct a neural sequence tagging model by integrating and feeding the previously pre-learned representations into a CRF layer. Extensive experiments conducted on a real-world dataset demonstrate the superiority and effectiveness of GEDIT. In addition, it has already been deployed in production at Baidu Maps. Statistics show that the proposed solution can save significant human effort and labor costs to deal with the same amount of documents, which confirms that it is a practical way for POI accessibility maintenance.
翻訳日:2021-08-23 13:31:27 公開日:2021-08-20
# Span-based BERTリレーション抽出モデルを用いた正常化解剖情報による放射線学的所見の抽出

Extracting Radiological Findings With Normalized Anatomical Information Using a Span-Based BERT Relation Extraction Model ( http://arxiv.org/abs/2108.09211v1 )

ライセンス: Link先を確認
Kevin Lybarger, Aashka Damani, Martin Gunn, Ozlem Uzuner, Meliha Yetisgen(参考訳) 医療画像は、多くのがんを含む多くの医学的問題の診断と治療に重要である。 医用イメージングレポートは、放射線医の発見と観察を精査し、非構造的医療画像の非構造的テキスト表現を作成する。 このテキストエンコードされた情報の大規模利用には、構造化されていないテキストを構造化された意味表現に変換する必要がある。 放射線学的所見に関連する放射線学的報告における解剖学的情報の抽出と正規化について検討する。 本研究では,BERTを用いてエンティティと関係を共同抽出するスパンベース関係抽出モデルを用いて,この抽出と正規化タスクについて検討する。 本研究は, 身体部分・臓器系, 発生頻度, 長さ, 多様性など, 抽出および正規化性能に影響を与える要因について検討する。 放射学現象の性能向上と高品質な意味表現の創出について論じる。

Medical imaging is critical to the diagnosis and treatment of numerous medical problems, including many forms of cancer. Medical imaging reports distill the findings and observations of radiologists, creating an unstructured textual representation of unstructured medical images. Large-scale use of this text-encoded information requires converting the unstructured text to a structured, semantic representation. We explore the extraction and normalization of anatomical information in radiology reports that is associated with radiological findings. We investigate this extraction and normalization task using a span-based relation extraction model that jointly extracts entities and relations using BERT. This work examines the factors that influence extraction and normalization performance, including the body part/organ system, frequency of occurrence, span length, and span diversity. It discusses approaches for improving performance and creating high-quality semantic representations of radiological phenomena.
翻訳日:2021-08-23 13:30:52 公開日:2021-08-20
# ブロードXAIのための説明可能な強化学習:概念的枠組みと調査

Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey ( http://arxiv.org/abs/2108.09003v1 )

ライセンス: Link先を確認
Richard Dazeley, Peter Vamplew, Francisco Cruz(参考訳) Broad Explainable Artificial Intelligenceは、単一のダタムに基づいて個々の決定を解釈することから離れ、複数の機械学習アルゴリズムから、説明者のコミュニケーションニーズに合わせたエージェントの振る舞いの一貫性のある説明への統合的な説明を提供することを目指している。 本稿では,Broad-XAIの開発に必要な認知モデルのバックボーンとして,強化学習(RL)手法を提案する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。 しかし、これらのアルゴリズムはすべてブラックボックス問題解決器として動作し、複雑な値と関数の配列を通して意思決定ポリシーを省略する。 説明可能なRL(XRL)は、エージェントから概念を抽出する技術を開発することを目的とした、比較的最近の研究分野である。 本稿では,現在のXRL研究を統合し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework(CXF)という概念的フレームワークを導入することを目的とする。 さらに,RL手法には,エージェントが環境に適応できるように,さまざまな技術が組み込まれていることも認識している。 CXFは、多くの標準RL拡張を組み入れ、外部オントロジーや通信設備と統合して、エージェントが結果を説明する質問に答え、決定を正当化できるように設計されている。

Broad Explainable Artificial Intelligence moves away from interpreting individual decisions based on a single datum and aims to provide integrated explanations from multiple machine learning algorithms into a coherent explanation of an agent's behaviour that is aligned to the communication needs of the explainee. Reinforcement Learning (RL) methods, we propose, provide a potential backbone for the cognitive model required for the development of Broad-XAI. RL represents a suite of approaches that have had increasing success in solving a range of sequential decision-making problems. However, these algorithms all operate as black-box problem solvers, where they obfuscate their decision-making policy through a complex array of values and functions. EXplainable RL (XRL) is relatively recent field of research that aims to develop techniques to extract concepts from the agent's: perception of the environment; intrinsic/extrinsic motivations/beliefs; Q-values, goals and objectives. This paper aims to introduce a conceptual framework, called the Causal XRL Framework (CXF), that unifies the current XRL research and uses RL as a backbone to the development of Broad-XAI. Additionally, we recognise that RL methods have the ability to incorporate a range of technologies to allow agents to adapt to their environment. CXF is designed for the incorporation of many standard RL extensions and integrated with external ontologies and communication facilities so that the agent can answer questions that explain outcomes and justify its decisions.
翻訳日:2021-08-23 13:30:39 公開日:2021-08-20
# 幾何学変換を用いた外乱画像のGANインバージョン

GAN Inversion for Out-of-Range Images with Geometric Transformations ( http://arxiv.org/abs/2108.08998v1 )

ライセンス: Link先を確認
Kyoungkook Kang, Seongtae Kim, Sunghyun Cho(参考訳) 実画像のセマンティック編集を成功させるためには、事前訓練されたGANモデルのドメインと整合するドメイン内潜在コードを見つけるために、GANインバージョン法が重要である。 残念ながら、そのようなドメイン内の潜伏符号は、GANモデルのトレーニング画像と一致する範囲内の画像に対してのみ見つかる。 本稿では,GANモデルのトレーニング画像と幾何学的に一致しない領域外画像のセマンティック編集のための新しいGAN変換手法であるBDInvertを提案する。 意味的に編集可能な潜在コードを見つけるために、bdinvertは入力された範囲外画像を元の潜在コード空間よりも別の潜在コード空間に反転させる。 また,代替空間における意味編集をサポートする解を求めるための正規化逆変換法を提案する。 実験の結果,BDInvertは幾何学的変換による領域外画像のセマンティックな編集を効果的にサポートすることがわかった。

For successful semantic editing of real images, it is critical for a GAN inversion method to find an in-domain latent code that aligns with the domain of a pre-trained GAN model. Unfortunately, such in-domain latent codes can be found only for in-range images that align with the training images of a GAN model. In this paper, we propose BDInvert, a novel GAN inversion approach to semantic editing of out-of-range images that are geometrically unaligned with the training images of a GAN model. To find a latent code that is semantically editable, BDInvert inverts an input out-of-range image into an alternative latent space than the original latent space. We also propose a regularized inversion method to find a solution that supports semantic editing in the alternative space. Our experiments show that BDInvert effectively supports semantic editing of out-of-range images with geometric transformations.
翻訳日:2021-08-23 13:29:12 公開日:2021-08-20
# 人工三次元形状のためのディープバーチャルマーカー

Deep Virtual Markers for Articulated 3D Shapes ( http://arxiv.org/abs/2108.09000v1 )

ライセンス: Link先を確認
Hyomin Kim, Jungeon Kim, Jaewon Kam, Jaesik Park, Seungyong Lee(参考訳) 我々は,様々な種類の3Dデータに対して,密集した正確な位置情報を推定するフレームワークであるディープ仮想マーカーを提案する。 我々は、人間のような3次元調音モデルの3Dポイントを仮想マーカーラベルにマッピングするフレームワークを設計し、構築する。 この枠組みを実現するために,分散畳み込みニューラルネットワークを採用し,調音モデルの3d点を仮想マーカーラベルに分類する。 測地線距離に基づくリッチで高密度なクラス間関係を学習するために, ソフトラベルを用いた分類法を提案する。 仮想マーカーのローカライズ精度を測定するために,faustチャレンジをテストし,その結果が最先端を上回った。 また,汎用性テスト,見つからないデータ評価,および異なる3次元データタイプ(メシと深度マップ)において優れた性能を示す。 非剛性登録、テクスチャ転送、深度マップからのリアルタイム高密度マーカー予測などの仮想マーカーを用いた追加の応用を示す。

We propose deep virtual markers, a framework for estimating dense and accurate positional information for various types of 3D data. We design a concept and construct a framework that maps 3D points of 3D articulated models, like humans, into virtual marker labels. To realize the framework, we adopt a sparse convolutional neural network and classify 3D points of an articulated model into virtual marker labels. We propose to use soft labels for the classifier to learn rich and dense interclass relationships based on geodesic distance. To measure the localization accuracy of the virtual markers, we test FAUST challenge, and our result outperforms the state-of-the-art. We also observe outstanding performance on the generalizability test, unseen data evaluation, and different 3D data types (meshes and depth maps). We show additional applications using the estimated virtual markers, such as non-rigid registration, texture transfer, and realtime dense marker prediction from depth maps.
翻訳日:2021-08-23 13:28:54 公開日:2021-08-20
# 条件付き画像生成のためのデュアルプロジェクション生成対向ネットワーク

Dual Projection Generative Adversarial Networks for Conditional Image Generation ( http://arxiv.org/abs/2108.09016v1 )

ライセンス: Link先を確認
Ligong Han, Martin Renqiang Min, Anastasis Stathopoulos, Yu Tian, Ruijiang Gao, Asim Kadav, Dimitris Metaxas(参考訳) conditional generative adversarial networks (cgans) は標準の無条件ganフレームワークを拡張してサンプルから共同データラベル分布を学習し、高忠実度画像を生成する強力な生成モデルとして確立されている。 このようなモデルのトレーニングの課題は、クラス情報をジェネレータや判別器に適切に注入することにある。 識別器では、(1)ラベルを直接入力として組み込むか、(2)ラベルを補助的な分類損失に含めることにより、クラス条件付けを行うことができる。 本稿では,前者がクラス条件付き偽・実データ分布 $p(\text{image}|\text{class})$ ({\em data matching}) を直接調整し,後者がデータ条件付きクラス分布 $p(\text{class}|\text{image})$ ({\em label matching}) を直接調整することを示す。 分類自体が本質的に難しい場合、クラス分離性は直接サンプル品質に変換されず、負担となるが、異なるクラスの特徴が同一点にマッピングされ、したがって分離不能になる場合、識別器はジェネレータに有用なガイダンスを提供することができない。 この直観に動機づけられて, 2重射影gan (p2gan) モデルを提案し,このモデルを用いて「emデータマッチング」と「emラベルマッチング」のバランスをとることを学ぶ。 次に、補助分類を用いた改良されたcGANモデルを提案し、$f$-divergenceを最小化することにより、偽条件と実条件を直接調整する。 gaussian(mog)データセットとcifar100、imagenet、vggface2を含む様々な実世界のデータセットを合成した実験により、提案モデルの有効性が示された。

Conditional Generative Adversarial Networks (cGANs) extend the standard unconditional GAN framework to learning joint data-label distributions from samples, and have been established as powerful generative models capable of generating high-fidelity imagery. A challenge of training such a model lies in properly infusing class information into its generator and discriminator. For the discriminator, class conditioning can be achieved by either (1) directly incorporating labels as input or (2) involving labels in an auxiliary classification loss. In this paper, we show that the former directly aligns the class-conditioned fake-and-real data distributions $P(\text{image}|\text{class})$ ({\em data matching}), while the latter aligns data-conditioned class distributions $P(\text{class}|\text{image})$ ({\em label matching}). Although class separability does not directly translate to sample quality and becomes a burden if classification itself is intrinsically difficult, the discriminator cannot provide useful guidance for the generator if features of distinct classes are mapped to the same point and thus become inseparable. Motivated by this intuition, we propose a Dual Projection GAN (P2GAN) model that learns to balance between {\em data matching} and {\em label matching}. We then propose an improved cGAN model with Auxiliary Classification that directly aligns the fake and real conditionals $P(\text{class}|\text{image})$ by minimizing their $f$-divergence. Experiments on a synthetic Mixture of Gaussian (MoG) dataset and a variety of real-world datasets including CIFAR100, ImageNet, and VGGFace2 demonstrate the efficacy of our proposed models.
翻訳日:2021-08-23 13:28:36 公開日:2021-08-20
# DeFRCN:Few-Shotオブジェクト検出のためのより高速なR-CNN

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection ( http://arxiv.org/abs/2108.09017v1 )

ライセンス: Link先を確認
Limeng Qiao, Yuxuan Zhao, Zhiyuan Li, Xi Qiu, Jianan Wu and Chi Zhang(参考訳) 未確認クラスの注釈を付した極めて少ない例から,新規な物体を迅速に検出することを目的とした少数ショット物体検出は,コミュニティにおいて大きな研究関心を集めている。 既存のアプローチの多くは、r-cnnを基本的な検出フレームワークとして採用しているが、データスカルスシナリオの最適化された考慮が欠如しているため、その性能は満足できないことが多い。 本稿では,従来のFaster R-CNNを詳しく検討し,その矛盾点を2つの直交的視点(RPN対RCNN)とマルチタスク(クラス化対ローカライゼーション)から解析する。 これらの問題を解決するために,Decoupled Faster R-CNN (DeFRCN) というシンプルなアーキテクチャを提案する。 具体的には、マルチステージデカップリングのためのグラディエントデカップリング層とマルチタスクデカップリングのためのプロトタイプキャリブレーションブロックを導入することで、より高速なR-CNNを拡張する。 前者は,次の層と前層を分離する特徴フォワード動作と勾配バックワード動作を再定義した,新しい深層であり,後者は,検出器の提案を入力として,元の分類スコアを追加のペアワイズスコアで高めるオフラインプロトタイプベースの分類モデルである。 複数のベンチマークに関する広範囲な実験によって、我々のフレームワークは他の既存のアプローチよりも著しく優れていることが分かり、わずかな文献で新しい最先端の手法を確立しました。

Few-shot object detection, which aims at detecting novel objects rapidly from extremely few annotated examples of previously unseen classes, has attracted significant research interest in the community. Most existing approaches employ the Faster R-CNN as basic detection framework, yet, due to the lack of tailored considerations for data-scarce scenario, their performance is often not satisfactory. In this paper, we look closely into the conventional Faster R-CNN and analyze its contradictions from two orthogonal perspectives, namely multi-stage (RPN vs. RCNN) and multi-task (classification vs. localization). To resolve these issues, we propose a simple yet effective architecture, named Decoupled Faster R-CNN (DeFRCN). To be concrete, we extend Faster R-CNN by introducing Gradient Decoupled Layer for multi-stage decoupling and Prototypical Calibration Block for multi-task decoupling. The former is a novel deep layer with redefining the feature-forward operation and gradient-backward operation for decoupling its subsequent layer and preceding layer, and the latter is an offline prototype-based classification model with taking the proposals from detector as input and boosting the original classification scores with additional pairwise scores for calibration. Extensive experiments on multiple benchmarks show our framework is remarkably superior to other existing approaches and establishes a new state-of-the-art in few-shot literature.
翻訳日:2021-08-23 13:27:51 公開日:2021-08-20
# Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation

Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.09025v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Bodi Yuan, Hong Wu, Zhiqiang Yuan, Jian Peng, Yu-Xiong Wang(参考訳) 本稿では,画像拡張間のラベル空間一貫性特性と異なる画素間の特徴空間コントラスト特性という,セグメンテーションモデルの正則性の2つのデシデラタを共同で達成した,新しい半教師付き意味セグメンテーション法を提案する。 画素レベルL2損失と画素コントラスト損失をそれぞれ2つの目的に活用する。 ピクセルのコントラスト損失に関わる計算効率問題と偽負ノイズ問題に対処するため、さらにいくつかの負サンプリング手法を紹介し、検討する。 大規模な実験では、VOC、Cityscapes、COCOデータセットから派生したいくつかの挑戦的な半教師付き設定において、DeepLab-v3+アーキテクチャによる手法(PC2Seg)の最先端性能を実証している。

We present a novel semi-supervised semantic segmentation method which jointly achieves two desiderata of segmentation model regularities: the label-space consistency property between image augmentations and the feature-space contrastive property among different pixels. We leverage the pixel-level L2 loss and the pixel contrastive loss for the two purposes respectively. To address the computational efficiency issue and the false negative noise issue involved in the pixel contrastive loss, we further introduce and investigate several negative sampling techniques. Extensive experiments demonstrate the state-of-the-art performance of our method (PC2Seg) with the DeepLab-v3+ architecture, in several challenging semi-supervised settings derived from the VOC, Cityscapes, and COCO datasets.
翻訳日:2021-08-23 13:27:21 公開日:2021-08-20
# 空間記憶ネットワークと時間記憶ネットワークによる人物再同定

Video-based Person Re-identification with Spatial and Temporal Memory Networks ( http://arxiv.org/abs/2108.09039v1 )

ライセンス: Link先を確認
Chanho Eom, Geon Lee, Junghyup Lee, Bumsub Ham(参考訳) reID(re-based person re-identification)は、複数のカメラにまたがる問い合わせ者と同じアイデンティティを持つ人物の動画を検索することを目的としている。 背景クラッタやフレーム上の部分閉塞といった人物ビデオの空間的および時間的邪魔は、この課題を画像ベースの人物のリードよりも難しくする。 空間的注意散逸が特定の場所に一貫して現れるのを観察し、時間的注意散逸は、例えば、最初の数フレームで部分的閉塞が発生するいくつかのパターンを示し、そのようなパターンは、どのフレームにフォーカスするか(例えば、時間的注意)を予測するための情報的手がかりを提供する。 そこで我々は,STMN(Spatial and Temporal Memory Networks)を提案する。 空間記憶は、ビデオフレームに頻繁に現れる空間的邪魔者の特徴を記憶し、時間記憶は、ビデオの典型的な時間的パターンに最適化された注意を節約する。 空間的および時間的記憶を利用してフレームレベルの人物表現を洗練し、洗練されたフレームレベルの特徴をシーケンスレベルの人物表現に集約し、人物ビデオにおける空間的および時間的邪魔を効果的に処理する。 また,メモリ拡散損失により,モデルがメモリ内でのみ特定の項目に対処できないことも紹介する。 MARS, DukeMTMC-VideoReID, LS-VID などの標準ベンチマーク実験の結果, 本手法の有効性が示された。

Video-based person re-identification (reID) aims to retrieve person videos with the same identity as a query person across multiple cameras. Spatial and temporal distractors in person videos, such as background clutter and partial occlusions over frames, respectively, make this task much more challenging than image-based person reID. We observe that spatial distractors appear consistently in a particular location, and temporal distractors show several patterns, e.g., partial occlusions occur in the first few frames, where such patterns provide informative cues for predicting which frames to focus on (i.e., temporal attentions). Based on this, we introduce a novel Spatial and Temporal Memory Networks (STMN). The spatial memory stores features for spatial distractors that frequently emerge across video frames, while the temporal memory saves attentions which are optimized for typical temporal patterns in person videos. We leverage the spatial and temporal memories to refine frame-level person representations and to aggregate the refined frame-level features into a sequence-level person representation, respectively, effectively handling spatial and temporal distractors in person videos. We also introduce a memory spread loss preventing our model from addressing particular items only in the memories. Experimental results on standard benchmarks, including MARS, DukeMTMC-VideoReID, and LS-VID, demonstrate the effectiveness of our method.
翻訳日:2021-08-23 13:27:03 公開日:2021-08-20
# フルフレームビデオ安定化に向けた境界外映像合成

Out-of-boundary View Synthesis Towards Full-Frame Video Stabilization ( http://arxiv.org/abs/2108.09041v1 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) ワーピングベースのビデオ安定化器は、各画素の変位と、不安定なフレームからのワープ安定化を制限し、カメラ軌道を円滑にする。 しかし、ウォーピング中に境界の外の視点が得られないため、安定したフレームの境界付近の穴は、視覚的な一貫性を維持するために破棄されなければならない(つまり、トリッピング)ため、安定性とトリッピング比のトレードオフにつながる。 本稿では,新しいアウトオブバウンダリビュー合成(OVS)手法を提案することにより,この問題に対処する試みを行う。 隣接フレームと各フレーム内の空間コヒーレンスの性質により、OVSは各参照フレームに隣接フレームをアライメントすることで、境界外ビューを外挿する。 技術的には、まず光学フローを計算し、親和性に応じて外部境界領域に伝播し、それに従って画素をワープする。 OVSは、既存のワーピングベースの安定化器にプラグアンドプレイモジュールとして統合することができ、安定した結果のトリミング比を大幅に改善することができる。 また、切り欠き・再サイズによるジッタ増幅効果が低下し、安定性が向上する。 NUSベンチマークの実験結果から,OVSは客観的指標と主観的視覚的品質の観点から,5つの最先端手法の性能を向上させることができることが示された。 コードはhttps://github.com/Annbless/OVS_Stabilizationで公開されている。

Warping-based video stabilizers smooth camera trajectory by constraining each pixel's displacement and warp stabilized frames from unstable ones accordingly. However, since the view outside the boundary is not available during warping, the resulting holes around the boundary of the stabilized frame must be discarded (i.e., cropping) to maintain visual consistency, and thus does leads to a tradeoff between stability and cropping ratio. In this paper, we make a first attempt to address this issue by proposing a new Out-of-boundary View Synthesis (OVS) method. By the nature of spatial coherence between adjacent frames and within each frame, OVS extrapolates the out-of-boundary view by aligning adjacent frames to each reference one. Technically, it first calculates the optical flow and propagates it to the outer boundary region according to the affinity, and then warps pixels accordingly. OVS can be integrated into existing warping-based stabilizers as a plug-and-play module to significantly improve the cropping ratio of the stabilized results. In addition, stability is improved because the jitter amplification effect caused by cropping and resizing is reduced. Experimental results on the NUS benchmark show that OVS can improve the performance of five representative state-of-the-art methods in terms of objective metrics and subjective visual quality. The code is publicly available at https://github.com/Annbless/OVS_Stabilization.
翻訳日:2021-08-23 13:26:38 公開日:2021-08-20
# 無接触指紋認識システム

A Contactless Fingerprint Recognition System ( http://arxiv.org/abs/2108.09048v1 )

ライセンス: Link先を確認
Aman Attrish, Nagasai Bharat, Vijay Anand, and Vivek Kanhangad(参考訳) 指紋は最も広く研究されている生体計測特性の1つである。 具体的には、接触型指紋認識システムが、その堅牢性、ポータビリティ、およびこの分野における広範な研究により、優位に立つ。 しかし、これらのシステムは衛生、物理的接触によるセンサーの劣化、潜在指紋の脅威などの問題に苦しんでいる。 本稿では,画像センサを用いて距離から指紋を捕捉する非接触指紋認識システムを提案する。 撮影された指の写真はさらに処理され、グローバルかつローカルな機能(minutiaeベース)が得られる。 特に、シアム畳み込みニューラルネットワーク(cnn)は、与えられた指の写真からグローバルな特徴を抽出するように設計されている。 提案システムはcnnベースの特徴とminutiaeに基づく特徴のマッチングスコアを計算する。 最後に、2つのスコアを融合してプローブと参照指紋テンプレートの最終マッチングスコアを得る。 最も重要なのは、Nvidia Jetson Nano開発キットを使用して、最小レイテンシと許容整合精度で、リアルタイムに非接触指紋認識を行うシステムである。 提案システムの性能評価は, 内装型IITI非接触指紋データセット(IITI-CFD)を用いて行った。 提案方式は,IITI-CFDで2.19%のエラー率を達成する。

Fingerprints are one of the most widely explored biometric traits. Specifically, contact-based fingerprint recognition systems reign supreme due to their robustness, portability and the extensive research work done in the field. However, these systems suffer from issues such as hygiene, sensor degradation due to constant physical contact, and latent fingerprint threats. In this paper, we propose an approach for developing a contactless fingerprint recognition system that captures finger photo from a distance using an image sensor in a suitable environment. The captured finger photos are then processed further to obtain global and local (minutiae-based) features. Specifically, a Siamese convolutional neural network (CNN) is designed to extract global features from a given finger photo. The proposed system computes matching scores from CNN-based features and minutiae-based features. Finally, the two scores are fused to obtain the final matching score between the probe and reference fingerprint templates. Most importantly, the proposed system is developed using the Nvidia Jetson Nano development kit, which allows us to perform contactless fingerprint recognition in real-time with minimum latency and acceptable matching accuracy. The performance of the proposed system is evaluated on an in-house IITI contactless fingerprint dataset (IITI-CFD) containing 105train and 100 test subjects. The proposed system achieves an equal-error-rate of 2.19% on IITI-CFD.
翻訳日:2021-08-23 13:26:14 公開日:2021-08-20
# カーネル共有並列atrous畳み込みを用いた単一画像デフォーカスデブラリング

Single Image Defocus Deblurring Using Kernel-Sharing Parallel Atrous Convolutions ( http://arxiv.org/abs/2108.09108v1 )

ライセンス: Link先を確認
Hyeongseok Son, Junyong Lee, Sunghyun Cho, Seungyong Lee(参考訳) 本稿では,逆カーネルに基づく単一画像デフォーカスデブルリングのための新しい深層学習手法を提案する。 デフォーカス画像では、ぼやけた形状はピクセル間で似ているが、ぼやけた大きさは空間的に異なる。 この特性を逆カーネルで活用するために,デフォーカスボケの大きさのみが形状を維持しながら変化する場合,対応する逆カーネルの形状は同一のままであり,スケールのみが変化するという観察を活用した。 そこで本研究では,単一画像デフォーカスデブラリングのための逆カーネルの特性を組み込んだカーネル共有並列atrous convolutional (kpac)ブロックを提案する。 異なるスケールで逆カーネルの不変形状を効果的にシミュレートするために、KPACは複数のアトラスな畳み込み層で同じ畳み込み重みを共有する。 逆カーネルの様々なスケールを効率的にシミュレートするために、KPACは異なるダイレーションを持つ少数のアトラスな畳み込み層で構成され、ピクセルごとのスケールの注意を学習し、レイヤーの出力を集約する。 KPACはまた、形状注意を利用して、各アトラス畳み込み層における複数の畳み込みフィルタの出力を組み合わせ、わずかに異なる形状のデフォーカスぼけに対処する。 提案手法は,従来の手法よりもはるかに少ないパラメータで,最先端の性能を実現する。

This paper proposes a novel deep learning approach for single image defocus deblurring based on inverse kernels. In a defocused image, the blur shapes are similar among pixels although the blur sizes can spatially vary. To utilize the property with inverse kernels, we exploit the observation that when only the size of a defocus blur changes while keeping the shape, the shape of the corresponding inverse kernel remains the same and only the scale changes. Based on the observation, we propose a kernel-sharing parallel atrous convolutional (KPAC) block specifically designed by incorporating the property of inverse kernels for single image defocus deblurring. To effectively simulate the invariant shapes of inverse kernels with different scales, KPAC shares the same convolutional weights among multiple atrous convolution layers. To efficiently simulate the varying scales of inverse kernels, KPAC consists of only a few atrous convolution layers with different dilations and learns per-pixel scale attentions to aggregate the outputs of the layers. KPAC also utilizes the shape attention to combine the outputs of multiple convolution filters in each atrous convolution layer, to deal with defocus blur with a slightly varying shape. We demonstrate that our approach achieves state-of-the-art performance with a much smaller number of parameters than previous methods.
翻訳日:2021-08-23 13:25:54 公開日:2021-08-20
# regenmorph: アタック・リジェネレーションによる、現実的なgan生成顔モーフィング攻撃

ReGenMorph: Visibly Realistic GAN Generated Face Morphing Attacks by Attack Re-generation ( http://arxiv.org/abs/2108.09130v1 )

ライセンス: Link先を確認
Naser Damer, Kiran Raja, Marius S\"u{\ss}milch, Sushma Venkatesh, Fadi Boutros, Meiling Fang, Florian Kirchbuchner, Raghavendra Ramachandra, Arjan Kuijper(参考訳) フェイスモーフィング攻撃は、複数のアイデンティティの顔として検証可能な顔画像を作成することを目的としている。 形態素顔検出器(MFD)を作成する一方で、あらゆる可能な攻撃タイプに対する訓練は、優れた検出性能を達成するために不可欠である。 そこで, モーフィング攻撃の新たな手法を検討することにより, MADの一般化が可能となる。 画像レベル, ランドマーク補間, 潜時空間レベルでのモーフィング攻撃は, 生成的対向ネットワークにおいて潜時ベクトルを操作することによって行われる。 初期の結果は様々なブレンドアーティファクトとなり、後者は合成的なストリミングアーティファクトとなる。 この研究は、新しいモーフィングパイプラインReGenMorphを提示し、GANをベースとした生成物を用いてLMAブレンディングアーティファクトを除去し、潜伏空間の操作を排除し、従来のものと比べて視覚的にリアルなモーフィング画像をもたらす。 生成したregenmorph appearanceは、最近のmorphingアプローチと比較され、顔認識の脆弱性や、既知の攻撃や未知の攻撃を検知する可能性について評価されている。

Face morphing attacks aim at creating face images that are verifiable to be the face of multiple identities, which can lead to building faulty identity links in operations like border checks. While creating a morphed face detector (MFD), training on all possible attack types is essential to achieve good detection performance. Therefore, investigating new methods of creating morphing attacks drives the generalizability of MADs. Creating morphing attacks was performed on the image level, by landmark interpolation, or on the latent-space level, by manipulating latent vectors in a generative adversarial network. The earlier results in varying blending artifacts and the latter results in synthetic-like striping artifacts. This work presents the novel morphing pipeline, ReGenMorph, to eliminate the LMA blending artifacts by using a GAN-based generation, as well as, eliminate the manipulation in the latent space, resulting in visibly realistic morphed images compared to previous works. The generated ReGenMorph appearance is compared to recent morphing approaches and evaluated for face recognition vulnerability and attack detectability, whether as known or unknown attacks.
翻訳日:2021-08-23 13:25:30 公開日:2021-08-20
# 物体点雲の教師なし領域適応のための幾何アウェア自己学習

Geometry-Aware Self-Training for Unsupervised Domain Adaptationon Object Point Clouds ( http://arxiv.org/abs/2108.09169v1 )

ライセンス: Link先を確認
Longkun Zou, Hui Tang, Ke Chen, Kui Jia(参考訳) オブジェクトの点クラウド表現は、一貫性のないデータ取得手順の観点から大きな幾何学的変動を持つため、多様で制御不能な形状表現のクロスデータセットによるドメインの不一致が生じる。 実用的かつ実現可能な視点でポイントベースジオメトリの非知覚分布の識別を改善するため,本論文では,オブジェクトポイントクラウド分類の教師なし領域適応のための新しい幾何認識自己学習法を提案する。 具体的には,2つの新しい自己教師付き幾何学習タスクを特徴正規化として,意味カテゴリーのドメイン共有表現を学習することを目的とした。 一方、表現学習は、自発的な回転ラベルを持つ点雲サンプルを線形に混合することで、局所幾何学のグローバルな位相的構成を捉えることができる。 一方,データセットにまたがる多様な点分布は,新しい曲率対応歪み定位法を用いて正規化することができる。 PointDA-10データセットの実験により、GAST法は最先端の手法よりも大幅に優れていることが示された。

The point cloud representation of an object can have a large geometric variation in view of inconsistent data acquisition procedure, which thus leads to domain discrepancy due to diverse and uncontrollable shape representation cross datasets. To improve discrimination on unseen distribution of point-based geometries in a practical and feasible perspective, this paper proposes a new method of geometry-aware self-training (GAST) for unsupervised domain adaptation of object point cloud classification. Specifically, this paper aims to learn a domain-shared representation of semantic categories, via two novel self-supervised geometric learning tasks as feature regularization. On one hand, the representation learning is empowered by a linear mixup of point cloud samples with their self-generated rotation labels, to capture a global topological configuration of local geometries. On the other hand, a diverse point distribution across datasets can be normalized with a novel curvature-aware distortion localization. Experiments on the PointDA-10 dataset show that our GAST method can significantly outperform the state-of-the-art methods.
翻訳日:2021-08-23 13:25:06 公開日:2021-08-20
# 大腸癌組織検出のための非教師なしドメイン適応を用いた自己ルール適応型マルチソース特徴学習

Self-Rule to Adapt: Generalized Multi-source Feature Learning Using Unsupervised Domain Adaptation for Colorectal Cancer Tissue Detection ( http://arxiv.org/abs/2108.09178v1 )

ライセンス: Link先を確認
Christian Abbet, Linda Studer, Andreas Fischer, Heather Dawson, Inti Zlobec, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 教師付き学習は、特にデジタル病理学の分野での取得に費用がかかるラベル付きデータの可用性によって制限される。 オープンソースのデータを事前トレーニングやドメイン適応に利用することで、この問題を克服することができる。 しかし、トレーニング済みのネットワークは、組織染色、型、テクスチャのバリエーションにより同一に分布しない新しいテストドメインに一般化できないことが多い。 さらに、現在のドメイン適応メソッドは、主に完全なラベル付きソースデータセットに依存している。 本研究では,自己教師型学習を利用してドメイン適応を行い,完全ラベル付きソースデータセットの必要性を解消するSRAを提案する。 SRAは、いくつかのラベル付きソースドメインのデータから得られた識別知識を、追加の組織アノテーションを必要としない新しいターゲットドメインに効果的に転送することができる。 本手法は、ドメイン内およびドメイン間自己監督と視覚的類似性を捉えることにより、両方のドメインの構造を利用する。 さらに,マルチソースドメインからアーキテクチャを学べるように,このアプローチの一般化した定式化を提案する。 提案手法は大腸組織型分類のドメイン適応基準を上回っており,本手法の社内臨床コホートに対するアプローチをさらに検証する。 コードとモデルはオープンソースである。 https://github.com/christianabbet/sra。

Supervised learning is constrained by the availability of labeled data, which are especially expensive to acquire in the field of digital pathology. Making use of open-source data for pre-training or using domain adaptation can be a way to overcome this issue. However, pre-trained networks often fail to generalize to new test domains that are not distributed identically due to variations in tissue stainings, types, and textures. Additionally, current domain adaptation methods mainly rely on fully-labeled source datasets. In this work, we propose SRA, which takes advantage of self-supervised learning to perform domain adaptation and removes the necessity of a fully-labeled source dataset. SRA can effectively transfer the discriminative knowledge obtained from a few labeled source domain's data to a new target domain without requiring additional tissue annotations. Our method harnesses both domains' structures by capturing visual similarity with intra-domain and cross-domain self-supervision. Moreover, we present a generalized formulation of our approach that allows the architecture to learn from multi-source domains. We show that our proposed method outperforms baselines for domain adaptation of colorectal tissue type classification and further validate our approach on our in-house clinical cohort. The code and models are available open-source: https://github.com/christianabbet/SRA.
翻訳日:2021-08-23 13:24:48 公開日:2021-08-20
# 頭部ポーズ推定のためのオフセットアンサンブルからの知識蒸留

Knowledge Distillation from Ensemble of Offsets for Head Pose Estimation ( http://arxiv.org/abs/2108.09183v1 )

ライセンス: Link先を確認
Andrey Sheka, Victor Samun(参考訳) 本稿では,頭部ポーズを単一画像から推定する手法を提案する。 この推定は、ニューラルネットワーク(NN)を2段階に分けて行う。 第一段階では1つの回帰ヘッドと4つの回帰ヘッドを持つベースNNを分類(RvC)ヘッドで訓練した。 顔境界ボックスの小さなオフセットを用いてオフセットのアンサンブルを構築する。 第2段階では、ベースNNのオフセットのアンサンブルから、RvCヘッド1つで最終NNへの知識蒸留(KD)を行う。 メインテストプロトコルでは、オフセットアンサンブルの使用によりベースnnの結果が改善され、kdはオフセットアンサンブルから結果が改善される。 kdは、ナンセンス版と比較して平均7.7\%で結果を改善する。 メインテストプロトコル上のNNは、AFLW2000の最先端結果を改善し、最小のギャップしか持たず、BIWIの最先端結果を改善する。 私たちのNNは頭ポーズデータのみを使用しますが、以前の最先端モデルはトレーニング中に顔のランドマークも使用しています。 我々は,300W-LP,AFLW,AFLW2000,BIWIデータセット用のトレーニングNNとフェイスバウンディングボックスを公開している。 KD-ResNet152 は最良の結果であり、KD-ResNet18 は AFLW2000 データセットよりも優れた結果が得られる。

This paper proposes a method for estimating the head pose from a single image. This estimation uses a neural network (NN) obtained in two stages. In the first stage, we trained the base NN, which has one regression head and four regression via classification (RvC) heads. We build the ensemble of offsets using small offsets of face bounding boxes. In the second stage, we perform knowledge distillation (KD) from the ensemble of offsets of the base NN into the final NN with one RvC head. On the main test protocol, the use of the offset ensemble improves the results of the base NN, and the KD improves the results from the offset ensemble. The KD improves the results by an average of 7.7\% compared to the non-ensemble version. The proposed NN on the main test protocol improves the state-of-the-art result on AFLW2000 and approaches, with only a minimal gap, the state-of-the-art result on BIWI. Our NN uses only head pose data, but the previous state-of-the-art model also uses facial landmarks during training. We have made publicly available trained NNs and face bounding boxes for the 300W-LP, AFLW, AFLW2000, and BIWI datasets. KD-ResNet152 has the best results, and KD-ResNet18 has a better result on the AFLW2000 dataset than any previous method.
翻訳日:2021-08-23 13:24:28 公開日:2021-08-20
# 想像力によるフォトリアリスティックカラー化に向けて

Towards Photorealistic Colorization by Imagination ( http://arxiv.org/abs/2108.09195v1 )

ライセンス: Link先を確認
Chenyang Lei and Yue Wu and Qifeng Chen(参考訳) 本稿では,人間の想像過程を模倣した画像自動カラー化手法を提案する。 われわれのイマジネーションモジュールは、白黒写真とコンテキスト関係のカラー画像を生成するように設計されている。 白黒画像が与えられた後、私たちの想像モジュールはまずコンテキスト情報を抽出し、条件付き画像合成ネットワーク(セマンティック画像合成モデルなど)を用いて色と多彩な画像を合成する。 次に,フォトリアリスティックなカラー化のための想像力の指導により,白黒画像をカラー化するカラー化モジュールを設計した。 実験の結果,最先端画像のカラー化手法よりも色鮮やかで多彩な結果が得られた。 ソースコードは公開される予定だ。

We present a novel approach to automatic image colorization by imitating the imagination process of human experts. Our imagination module is designed to generate color images that are context-correlated with black-and-white photos. Given a black-and-white image, our imagination module firstly extracts the context information, which is then used to synthesize colorful and diverse images using a conditional image synthesis network (e.g., semantic image synthesis model). We then design a colorization module to colorize the black-and-white images with the guidance of imagination for photorealistic colorization. Experimental results show that our work produces more colorful and diverse results than state-of-the-art image colorization methods. Our source codes will be publicly available.
翻訳日:2021-08-23 13:24:07 公開日:2021-08-20
# データアグリゲーションと変換によるビジュアルドメイン間の一般化

Exploring Data Aggregation and Transformations to Generalize across Visual Domains ( http://arxiv.org/abs/2108.09208v1 )

ライセンス: Link先を確認
Antono D'Innocente(参考訳) コンピュータビジョンは、ディープラーニングの進歩、高速でスケーラブルなハードウェアソリューション、構造化画像データの大規模利用により、近年繁栄している。 教師付きタスクとバックプロパゲーションを訓練した畳み込みニューラルネットワークは、生のピクセルから意味のある表現を自動的に抽出し、画像理解において浅い方法を超える。 ネットワークはトレーニング信号のみからパラメータを学習し、トレーニングとテストの分布が異なる場合は通常、パフォーマンスが悪くなります。 この問題を軽減するため、ドメイン一般化(DG)、ドメイン適応(DA)とそのバリエーションの研究が増加している。 この論文は、データセットバイアス問題を解決する新しい効果的な方法を提示し、これらの研究トピックに寄与する。 本稿では,データ拡張とマルチタスク統合による機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。 また,オブジェクト検出モデルをテスト時に任意の分布サンプルに適応させるアルゴリズムを設計する。 実験を通じて,提案手法が確立したdgおよびdaベンチマークにおいて,最先端のアプローチに勝ることを示す。

Computer vision has flourished in recent years thanks to Deep Learning advancements, fast and scalable hardware solutions and large availability of structured image data. Convolutional Neural Networks trained on supervised tasks with backpropagation learn to extract meaningful representations from raw pixels automatically, and surpass shallow methods in image understanding. Though convenient, data-driven feature learning is prone to dataset bias: a network learns its parameters from training signals alone, and will usually perform poorly if train and test distribution differ. To alleviate this problem, research on Domain Generalization (DG), Domain Adaptation (DA) and their variations is increasing. This thesis contributes to these research topics by presenting novel and effective ways to solve the dataset bias problem in its various settings. We propose new frameworks for Domain Generalization and Domain Adaptation which make use of feature aggregation strategies and visual transformations via data-augmentation and multi-task integration of self-supervision. We also design an algorithm that adapts an object detection model to any out of distribution sample at test time. With through experimentation, we show how our proposed solutions outperform competitive state-of-the-art approaches in established DG and DA benchmarks.
翻訳日:2021-08-23 13:23:54 公開日:2021-08-20
# シーン信頼度予測とタグ付けを組み合わせた映像広告コンテンツ構造化

Video Ads Content Structuring by Combining Scene Confidence Prediction and Tagging ( http://arxiv.org/abs/2108.09215v1 )

ライセンス: Link先を確認
Tomoyuki Suzuki and Antonio Tejero-de-Pablos(参考訳) ビデオ広告のセグメンテーションとタグ付けは、(1)ビデオシーンの構造が複雑で(2)複数のモダリティ(例えば、視覚、音声、テキストなど)が含まれている、という2つの主な理由から難しい課題である。 以前の作品は、主にアクティビティビデオ(例えば)に焦点を当てていた。 「クッキング」「スポーツ」) ビデオ広告コンテンツ構造化の課題に取り組むためにどのように活用できるかは明らかになっていない。 本稿では,まずシーンの境界を提示し,各シーンに対する信頼度スコアと,そのシーンに予測されるタグクラスを組み合わせた2段階の手法を提案する。 提案手法に用いたネットワークアーキテクチャとモダリティに関する広範な実験結果を提供する。 我々の組み合わせた手法は、挑戦的な“Tencent〜ビデオ”データセットの以前のベースラインを改善する。

Video ads segmentation and tagging is a challenging task due to two main reasons: (1) the video scene structure is complex and (2) it includes multiple modalities (e.g., visual, audio, text.). While previous work focuses mostly on activity videos (e.g. "cooking", "sports"), it is not clear how they can be leveraged to tackle the task of video ads content structuring. In this paper, we propose a two-stage method that first provides the boundaries of the scenes, and then combines a confidence score for each segmented scene and the tag classes predicted for that scene. We provide extensive experimental results on the network architectures and modalities used for the proposed method. Our combined method improves the previous baselines on the challenging "Tencent Advertisement Video" dataset.
翻訳日:2021-08-23 13:23:33 公開日:2021-08-20
# 点雲解析のための二重近傍深部核融合ネットワーク

Dual-Neighborhood Deep Fusion Network for Point Cloud Analysis ( http://arxiv.org/abs/2108.09228v1 )

ライセンス: Link先を確認
Guoquan Xu, Hezhi Cao, Yifan Zhang, Jianwei Wan, Ke Xu, Yanxin Ma(参考訳) 畳み込みニューラルネットワークは、理想的な点雲の分類において顕著な成果を上げてきたが、非理想化された点雲の分類は依然として難しい課題である。 本稿では,DNDFN,すなわちDual-Neighborhood Deep Fusion Networkを提案する。 DNDFNには2つのキーポイントがある。 一つは、地域とグローバルな地区の組み合わせである。 最寄りの近傍(knn)またはボールクエリは、ローカルな近傍をキャプチャできるが、長距離の依存関係を無視する。 TNラーニング(TN-Learning)と呼ばれる訓練可能な近隣学習メソドを提案する。 TN学習と組み合わせて、よりリッチな近隣情報を得る。 もう1つは情報伝達畳み込み(it-conv)で、2点間の構造情報を学習し、それを通して特徴を伝達することができる。 DNDFNを検証する4つのタスクにまたがる、理想化および非理想化ベンチマークの広範なエクスペラメントは、芸術の状態を達成している。

Convolutional neural network has made remarkable achievements in classification of idealized point cloud, however, non-idealized point cloud classification is still a challenging task. In this paper, DNDFN, namely, Dual-Neighborhood Deep Fusion Network, is proposed to deal with this problem. DNDFN has two key points. One is combination of local neighborhood and global neigh-borhood. nearest neighbor (kNN) or ball query can capture the local neighborhood but ignores long-distance dependencies. A trainable neighborhood learning meth-od called TN-Learning is proposed, which can capture the global neighborhood. TN-Learning is combined with them to obtain richer neighborhood information. The other is information transfer convolution (IT-Conv) which can learn the structural information between two points and transfer features through it. Extensive exper-iments on idealized and non-idealized benchmarks across four tasks verify DNDFN achieves the state of the arts.
翻訳日:2021-08-23 13:23:19 公開日:2021-08-20
# 識別領域に基づくマルチラベルゼロショット学習

Discriminative Region-based Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2108.09301v1 )

ライセンス: Link先を確認
Sanath Narayan, Akshita Gupta, Salman Khan, Fahad Shahbaz Khan, Ling Shao, Mubarak Shah(参考訳) マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、複数のオブジェクトが自然画像に共存できるため、標準のシングルラベルZSLのより現実的な対位法である。 しかし、複数のオブジェクトの出現は推論を複雑にし、視覚的特徴の領域固有の処理を必要とする。 既存のマルチラベルZSL手法では,すべてのクラスに共通する注目マップを用いて,地域機能への参加に向けた共通アプローチを採っている。 このような共有マップは、クラス数が大きければ関連する場所を差別的に重視しない、拡散した注意を導く。 さらに、空間的にプールされた視覚的特徴をクラスセマンティクスにマッピングすると、クラス間の特徴の絡み合いが生じ、分類が妨げられる。 本稿では,地域別識別可能性保存型マルチラベルゼロショット分類への代替アプローチを提案する。 本手法では,領域レベルの特徴を保存する空間分解能を維持し,bi-level attention module (biam) を用いて地域情報とシーンコンテキスト情報の両方を組み込むことにより,特徴を豊かにする。 拡張された領域レベルの特徴をクラスセマンティクスにマッピングし、それらのクラス予測のみを空間的にプールして画像レベルの予測を得る。 提案手法は, NUS-WIDE と Open Images の2つの大規模マルチラベルゼロショットベンチマークに新たな技術状況を設定する。 NUS-WIDE では,ZSL の絶対値が 6.9% mAP となる。

Multi-label zero-shot learning (ZSL) is a more realistic counter-part of standard single-label ZSL since several objects can co-exist in a natural image. However, the occurrence of multiple objects complicates the reasoning and requires region-specific processing of visual features to preserve their contextual cues. We note that the best existing multi-label ZSL method takes a shared approach towards attending to region features with a common set of attention maps for all the classes. Such shared maps lead to diffused attention, which does not discriminatively focus on relevant locations when the number of classes are large. Moreover, mapping spatially-pooled visual features to the class semantics leads to inter-class feature entanglement, thus hampering the classification. Here, we propose an alternate approach towards region-based discriminability-preserving multi-label zero-shot classification. Our approach maintains the spatial resolution to preserve region-level characteristics and utilizes a bi-level attention module (BiAM) to enrich the features by incorporating both region and scene context information. The enriched region-level features are then mapped to the class semantics and only their class predictions are spatially pooled to obtain image-level predictions, thereby keeping the multi-class features disentangled. Our approach sets a new state of the art on two large-scale multi-label zero-shot benchmarks: NUS-WIDE and Open Images. On NUS-WIDE, our approach achieves an absolute gain of 6.9% mAP for ZSL, compared to the best published results.
翻訳日:2021-08-23 13:23:02 公開日:2021-08-20
# ASAT: 時系列における適応型対人訓練

ASAT: Adaptively Scaled Adversarial Training in Time Series ( http://arxiv.org/abs/2108.08976v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Wei Li, Ruihan Bao, Keiko Harimoto, Yunfang Wu, Xu Sun(参考訳) 敵のトレーニングは、敵の例に対する堅牢性を改善するためにニューラルネットワークを強化する方法である。 潜在的な敵の例に対するセキュリティ上の懸念に加えて、敵のトレーニングはニューラルネットワークの性能を改善し、堅牢なニューラルネットワークをトレーニングし、ニューラルネットワークの解釈可能性を提供する。 本研究は,金融分野を例として,時系列分析における敵対的トレーニングの導入に向けた第一歩である。 本稿では,時間依存の重み付けによって異なる時間帯のデータを扱うことにより,適応的スケールの対人訓練(ASAT)を時系列解析で提案する。 実験の結果,提案したASATはニューラルネットワークの精度と対角的堅牢性の両方を向上できることがわかった。 ニューラルネットワークの強化に加えて,入力次元の感度と重要度を調べるために,次元方向の対向感度指標を提案する。 提案する指標を用いて,ブラックボックスニューラルネットワークの判断基盤を説明することができる。

Adversarial training is a method for enhancing neural networks to improve the robustness against adversarial examples. Besides the security concerns of potential adversarial examples, adversarial training can also improve the performance of the neural networks, train robust neural networks, and provide interpretability for neural networks. In this work, we take the first step to introduce adversarial training in time series analysis by taking the finance field as an example. Rethinking existing researches of adversarial training, we propose the adaptively scaled adversarial training (ASAT) in time series analysis, by treating data at different time slots with time-dependent importance weights. Experimental results show that the proposed ASAT can improve both the accuracy and the adversarial robustness of neural networks. Besides enhancing neural networks, we also propose the dimension-wise adversarial sensitivity indicator to probe the sensitivities and importance of input dimensions. With the proposed indicator, we can explain the decision bases of black box neural networks.
翻訳日:2021-08-23 13:22:22 公開日:2021-08-20
# 構造パターン分類データセットの特徴に明示的に暗黙的に符号化されたバイアスを発見するファジィルー不確実性尺度

A fuzzy-rough uncertainty measure to discover bias encoded explicitly or implicitly in features of structured pattern classification datasets ( http://arxiv.org/abs/2108.09098v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles, Lisa Koutsoviti Koumeri(参考訳) パターン認識問題を解決するために使用される表データに符号化されたバイアスを測定する必要性は、アカデミアや議員、企業によって広く認識されている。 これまでの研究では、ファジィフー集合論に依存するファジィフー不確実性(fuzzy-rough uncer-tainty)と呼ばれるバイアス定量化尺度を提案した。 直観は、保護された特徴は決定クラスのファジィロー境界領域を著しく変えるべきではないと規定している。 これが起こる範囲は、意思決定コンテキストにおける不確実性として表現されるバイアスのプロキシである。 我々の主な利点は、どんな機械学習予測モデルにも依存せず、距離関数にも依存しないことです。 本稿では,保護属性と非保護属性の相関によって定義される非保護特徴において暗黙的に符号化されるバイアスの存在を探究することにより,本研究を拡張した。 この分析は、ドメインの専門家がバイアスに取り組む方法を決定する前に評価すべき4つのシナリオにつながります。 さらに,境界領域の変化を最善に捉えたファジィ作用素と距離関数を決定するための感度解析を行う。

The need to measure bias encoded in tabular data that are used to solve pattern recognition problems is widely recognized by academia, legislators and enterprises alike. In previous work, we proposed a bias quantification measure, called fuzzy-rough uncer-tainty, which relies on the fuzzy-rough set theory. The intuition dictates that protected features should not change the fuzzy-rough boundary regions of a decision class significantly. The extent to which this happens is a proxy for bias expressed as uncertainty in adecision-making context. Our measure's main advantage is that it does not depend on any machine learning prediction model but adistance function. In this paper, we extend our study by exploring the existence of bias encoded implicitly in non-protected featuresas defined by the correlation between protected and unprotected attributes. This analysis leads to four scenarios that domain experts should evaluate before deciding how to tackle bias. In addition, we conduct a sensitivity analysis to determine the fuzzy operatorsand distance function that best capture change in the boundary regions.
翻訳日:2021-08-23 13:22:06 公開日:2021-08-20
# 観察対象の決定による因果効果の効率的なオンライン推定

Efficient Online Estimation of Causal Effects by Deciding What to Observe ( http://arxiv.org/abs/2108.09265v1 )

ライセンス: Link先を確認
Shantanu Gupta, Zachary C. Lipton, David Childers(参考訳) 研究者はしばしばデータ融合の問題に直面し、複数のデータソースが利用可能であり、それぞれが異なる変数のサブセットをキャプチャする。 問題定式化は典型的にはデータを取得するが、実際にはデータ取得は進行中のプロセスである。 本稿では,どのデータソースに対して問い合わせを行うかを決定することにより,確率モデル(例えば因果効果)の任意の関数を可能な限り効率的に推定することを目的とする。 モーメント条件として構造的仮定を符号化するフレームワークであるオンラインモーメント選択(OMS)を提案する。 各ステップにおける最適な行動は、部分的には、関心の機能を識別する瞬間に依存する。 我々のアルゴリズムは、現在のモーメントの推定値から示唆される最良の行動を選択することで探索のバランスをとる。 我々は,(1)探索-then-commit (OMS-ETC) と(2)探索-then-greedy (OMS-ETG) の2つの選択戦略を提案する。 平均処理効果推定のセットアップをインスタンス化し、因果グラフによって構造的仮定が与えられ、データソースには仲介者、共同設立者、機器変数のサブセットが含まれる可能性がある。

Researchers often face data fusion problems, where multiple data sources are available, each capturing a distinct subset of variables. While problem formulations typically take the data as given, in practice, data acquisition can be an ongoing process. In this paper, we aim to estimate any functional of a probabilistic model (e.g., a causal effect) as efficiently as possible, by deciding, at each time, which data source to query. We propose online moment selection (OMS), a framework in which structural assumptions are encoded as moment conditions. The optimal action at each step depends, in part, on the very moments that identify the functional of interest. Our algorithms balance exploration with choosing the best action as suggested by current estimates of the moments. We propose two selection strategies: (1) explore-then-commit (OMS-ETC) and (2) explore-then-greedy (OMS-ETG), proving that both achieve zero asymptotic regret as assessed by MSE. We instantiate our setup for average treatment effect estimation, where structural assumptions are given by a causal graph and data sources may include subsets of mediators, confounders, and instrumental variables.
翻訳日:2021-08-23 13:21:45 公開日:2021-08-20
# GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価

An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions ( http://arxiv.org/abs/2108.09293v1 )

ライセンス: Link先を確認
Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri(参考訳) コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。 最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。 しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。 これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。 本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。 この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。 MITREの"Top 25"リストから引用)。 弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。 総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。

There is burgeoning interest in designing AI-based systems to assist humans in designing computing systems, including tools that automatically generate computer code. The most notable of these comes in the form of the first self-described `AI pair programmer', GitHub Copilot, a language model trained over open-source GitHub code. However, code often contains bugs - and so, given the vast quantity of unvetted code that Copilot has processed, it is certain that the language model will have learned from exploitable, buggy code. This raises concerns on the security of Copilot's code contributions. In this work, we systematically investigate the prevalence and conditions that can cause GitHub Copilot to recommend insecure code. To perform this analysis we prompt Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those from MITRE's "Top 25" list). We explore Copilot's performance on three distinct code generation axes -- examining how it performs given diversity of weaknesses, diversity of prompts, and diversity of domains. In total, we produce 89 different scenarios for Copilot to complete, producing 1,692 programs. Of these, we found approximately 40% to be vulnerable.
翻訳日:2021-08-23 13:21:24 公開日:2021-08-20
# RGB-Dカメラを用いた動的物体の時空間テクスチャ再構成

Spatiotemporal Texture Reconstruction for Dynamic Objects Using a Single RGB-D Camera ( http://arxiv.org/abs/2108.09007v1 )

ライセンス: Link先を確認
Hyomin Kim, Jungeon Kim, Hyeonseo Nam, Jaesik Park, and Seungyong Lee(参考訳) 本稿では,1台のRGB-Dカメラを用いて動的物体の時空間テクスチャマップを生成する方法を提案する。 フレームワークの入力は3DテンプレートモデルとRGB-D画像シーケンスである。 単一カメラ設定のフレームには目に見えない領域があるため、そのような領域のテクスチャを他のフレームから借用する必要がある。 我々は,mrf最適化として問題を定式化し,動的物体の時空間的テクスチャを再構成するためのコスト関数を定義する。 実験により,我々の時空間テクスチャは,単一のテクスチャマップを用いたアプローチよりも,捕獲対象のアクティブな外観を再現できることが示された。

This paper presents an effective method for generating a spatiotemporal (time-varying) texture map for a dynamic object using a single RGB-D camera. The input of our framework is a 3D template model and an RGB-D image sequence. Since there are invisible areas of the object at a frame in a single-camera setup, textures of such areas need to be borrowed from other frames. We formulate the problem as an MRF optimization and define cost functions to reconstruct a plausible spatiotemporal texture for a dynamic object. Experimental results demonstrate that our spatiotemporal textures can reproduce the active appearances of captured objects better than approaches using a single texture map.
翻訳日:2021-08-23 13:20:51 公開日:2021-08-20
# patchcleanser: 画像分類器の敵パッチに対する証明可能な堅牢な防御

PatchCleanser: Certifiably Robust Defense against Adversarial Patches for Any Image Classifier ( http://arxiv.org/abs/2108.09135v1 )

ライセンス: Link先を確認
Chong Xiang, Saeed Mahloujifar, Prateek Mittal(参考訳) 画像分類モデルに対する逆パッチ攻撃は、モデル誤分類を誘導するために、局所的な制限された画像領域(すなわちパッチ)内で、反対に作られたピクセルを注入することを目的としている。 この攻撃は、被害者のオブジェクトにパッチを印刷して取り付けることで、物理的世界で実現でき、コンピュータビジョンシステムに現実世界の脅威を課すことができる。 この脅威に対処するため、画像分類器と互換性のある敵対パッチに対する堅牢な防御手段として、PatchCleanserを提案する。 PatchCleanserでは、入力画像上に2ラウンドのピクセルマスキングを行い、対向パッチの効果を中和する。 マスクの第1ラウンドでは、入力画像に慎重に生成されたマスクのセットを適用し、マスク画像毎にモデル予測を評価する。 全画像のモデル予測が一致した一致に達した場合、一致した予測ラベルを出力する。 そうでない場合は、2枚マスキング画像のモデル予測を評価し、正しい予測ラベルをロバストに復元する第2ラウンドのマスキングを行う。 特に、脅威モデル内の任意の適応的ホワイトボックス攻撃に対して、特定の画像に対して常に正しい予測を行い、認証された堅牢性を達成することを証明できます。 我々は,ImageNet, ImageNette, CIFAR-10, CIFAR-100, SVHN, Flowers-102データセットに対する防衛を広範囲に評価し,我々の防衛が最先端の分類モデルと類似したクリーンな精度を達成し,先行研究から証明された堅牢性を著しく向上させることを示した。 特に、当社の防御は、1000クラスのimagenetデータセット上のどこでも2%ピクセルの正方形パッチに対して、83.8%のクリーンな精度と60.4%のtop-1認定ロバストな精度を達成できます。

The adversarial patch attack against image classification models aims to inject adversarially crafted pixels within a localized restricted image region (i.e., a patch) for inducing model misclassification. This attack can be realized in the physical world by printing and attaching the patch to the victim object and thus imposes a real-world threat to computer vision systems. To counter this threat, we propose PatchCleanser as a certifiably robust defense against adversarial patches that is compatible with any image classifier. In PatchCleanser, we perform two rounds of pixel masking on the input image to neutralize the effect of the adversarial patch. In the first round of masking, we apply a set of carefully generated masks to the input image and evaluate the model prediction on every masked image. If model predictions on all one-masked images reach a unanimous agreement, we output the agreed prediction label. Otherwise, we perform a second round of masking to settle the disagreement, in which we evaluate model predictions on two-masked images to robustly recover the correct prediction label. Notably, we can prove that our defense will always make correct predictions on certain images against any adaptive white-box attacker within our threat model, achieving certified robustness. We extensively evaluate our defense on the ImageNet, ImageNette, CIFAR-10, CIFAR-100, SVHN, and Flowers-102 datasets and demonstrate that our defense achieves similar clean accuracy as state-of-the-art classification models and also significantly improves certified robustness from prior works. Notably, our defense can achieve 83.8% top-1 clean accuracy and 60.4% top-1 certified robust accuracy against a 2%-pixel square patch anywhere on the 1000-class ImageNet dataset.
翻訳日:2021-08-23 13:20:40 公開日:2021-08-20
# PowerLinear Activation関数とCNNの第1層への応用

PowerLinear Activation Functions with application to the first layer of CNNs ( http://arxiv.org/abs/2108.09256v1 )

ライセンス: Link先を確認
Kamyar Nasiri, Kamaledin Ghiasi-Shirazi(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンと画像処理における未解決問題を扱う最先端のツールとなっている。 畳み込み演算子は線形演算子であるため、CNNの性能を改善するためにいくつかの一般化が提案されている。 畳み込み演算子の能力を高める一つの方法は、内部積演算子に活性化関数を適用することである。 本稿では,畳み込み演算子の多項式核一般化に基づく電力線形活性化関数を提案する。 EvenPowLin関数はPowerLinearアクティベーション関数のメインブランチである。 このタイプの活性化関数は正の入力領域にも負の入力領域にも飽和しない。 また、負の入力は正の入力と同じ大きさで活性化される。 これらの特徴により、EvenPowLinアクティベーション機能はCNNアーキテクチャの第1層で利用でき、入力画像の複雑な機能を学ぶことができる。 さらに、EvenPowLinのアクティベーション関数はCNNモデルで使用されており、通常のアクティベーション関数よりもはるかに優れたグレースケールイメージのインバージョンを正確に分類することができる。

Convolutional neural networks (CNNs) have become the state-of-the-art tool for dealing with unsolved problems in computer vision and image processing. Since the convolution operator is a linear operator, several generalizations have been proposed to improve the performance of CNNs. One way to increase the capability of the convolution operator is by applying activation functions on the inner product operator. In this paper, we will introduce PowerLinear activation functions, which are based on the polynomial kernel generalization of the convolution operator. EvenPowLin functions are the main branch of the PowerLinear activation functions. This class of activation functions is saturated neither in the positive input region nor in the negative one. Also, the negative inputs are activated with the same magnitude as the positive inputs. These features made the EvenPowLin activation functions able to be utilized in the first layer of CNN architectures and learn complex features of input images. Additionally, EvenPowLin activation functions are used in CNN models to classify the inversion of grayscale images as accurately as the original grayscale images, which is significantly better than commonly used activation functions.
翻訳日:2021-08-23 13:20:01 公開日:2021-08-20
# Zoom, Enhance! サーベイランスGANアップサンプリングの測定

Zoom, Enhance! Measuring Surveillance GAN Up-sampling ( http://arxiv.org/abs/2108.09285v1 )

ライセンス: Link先を確認
Jake Sparkman and Abdalla Al-Ayrot and Utkarsh Contractor(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンやパターン認識アプリケーションで非常にうまく使われている。 畳み込みニューラルネットワーク(CNN)は、アートイメージの分類の状況を示す一方で、ジェネレーティブ・アドバイサル・ネットワーク(GAN)は、画像生成におけるアート機能の状態を提供する。 本稿では,cnnとgansのセキュリティおよび監視分野におけるアップサンプリング手法を実験するために,その適用範囲を拡張した。 この研究を通じて,監視領域におけるcnnおよびganに基づく画像およびビデオのアップサンプリングにおけるアート技術の評価,比較,対比を行う。 本研究は, 監視領域におけるGANベースのイメージアップサンプリングを比較するための強力な画像品質評価(IQA)指標として, DISTSを確立するための実験的証拠を提供する。

Deep Neural Networks have been very successfully used for many computer vision and pattern recognition applications. While Convolutional Neural Networks(CNNs) have shown the path to state of art image classifications, Generative Adversarial Networks or GANs have provided state of art capabilities in image generation. In this paper we extend the applications of CNNs and GANs to experiment with up-sampling techniques in the domains of security and surveillance. Through this work we evaluate, compare and contrast the state of art techniques in both CNN and GAN based image and video up-sampling in the surveillance domain. As a result of this study we also provide experimental evidence to establish DISTS as a stronger Image Quality Assessment(IQA) metric for comparing GAN Based Image Up-sampling in the surveillance domain.
翻訳日:2021-08-23 13:19:44 公開日:2021-08-20
# Shuffleモデルにおける均一性テスト:よりシンプルで、より速く、より高速に

Uniformity Testing in the Shuffle Model: Simpler, Better, Faster ( http://arxiv.org/abs/2108.08987v1 )

ライセンス: Link先を確認
Cl\'ement L. Canonne and Hongyi Lyu(参考訳) 一様性テスト、または独立した観察が一様に分布しているかどうかのテストは、分布テストの原型的問題である。 過去数年間、データに対するプライバシーの制約の下での均一性テストに重点が置かれ、セントラルディファレンシャルプライバシ(dp)、ローカルプライバシ(ldp)、パンプライバシ(pan-privacy)、そして最近ではディファレンシャルプライバシのシャッフルモデルといった、さまざまなプライバシモデルの下で、プライベートでデータ効率の高いアルゴリズムを取得してきた。 本研究では、シャッフルモデルにおける既知の一様性テストアルゴリズムの解析をかなり単純化し、近年の「シャッフルによるプライバシー増幅」の結果を用いて、初等かつ合理化された引数で同じ保証を得る代替アルゴリズムを提供する。

Uniformity testing, or testing whether independent observations are uniformly distributed, is the prototypical question in distribution testing. Over the past years, a line of work has been focusing on uniformity testing under privacy constraints on the data, and obtained private and data-efficient algorithms under various privacy models such as central differential privacy (DP), local privacy (LDP), pan-privacy, and, very recently, the shuffle model of differential privacy. In this work, we considerably simplify the analysis of the known uniformity testing algorithm in the shuffle model, and, using a recent result on "privacy amplification via shuffling," provide an alternative algorithm attaining the same guarantees with an elementary and streamlined argument.
翻訳日:2021-08-23 13:19:31 公開日:2021-08-20
# 発生的敵ネットワークによる温室効果ガス排出の予測

Mitigating Greenhouse Gas Emissions Through Generative Adversarial Networks Based Wildfire Prediction ( http://arxiv.org/abs/2108.08952v1 )

ライセンス: Link先を確認
Sifat Chowdhury, Kai Zhu, Yu Zhang(参考訳) 過去10年間で、特にカリフォルニア州では、世界中で山火事の数が大幅に増加した。 森林火災によって放出される温室効果ガス(ghg)の高濃度濃度は地球温暖化を悪化させ、さらなる火災のリスクを増大させる。 したがって、野火発生の正確な予測は、大規模で長期にわたる野火の発生を防止し、ghg排出量を減少させるのに大いに役立つ。 火災リスク予測のための様々な手法が検討されている。 しかしながら、多くの自然要因と人間の要因の複雑な相関と野火の点火は予測タスクを非常に困難にする。 本稿では,山火事リスク予測のための深層学習に基づくデータ拡張手法を提案する。 火災の着火に責任を負う多様な特徴からなるデータセットを構築し, リスクレベルの目標値と関連するすべての特徴との間の基盤となるパターンを探索するために, 条件付き表層生成敵ネットワークを利用する。 公平かつ包括的に比較すると,提案手法は,提案手法と他の5つのベースライン法を比較した。 また,ロバスト性を相関させるため,提案手法の性能を別のデータセットで検証した結果,効率性も向上した。 提案手法を適用すれば, 温室効果ガス排出削減のため, 森林火災対策の予防策を講じることができる。

Over the past decade, the number of wildfire has increased significantly around the world, especially in the State of California. The high-level concentration of greenhouse gas (GHG) emitted by wildfires aggravates global warming that further increases the risk of more fires. Therefore, an accurate prediction of wildfire occurrence greatly helps in preventing large-scale and long-lasting wildfires and reducing the consequent GHG emissions. Various methods have been explored for wildfire risk prediction. However, the complex correlations among a lot of natural and human factors and wildfire ignition make the prediction task very challenging. In this paper, we develop a deep learning based data augmentation approach for wildfire risk prediction. We build a dataset consisting of diverse features responsible for fire ignition and utilize a conditional tabular generative adversarial network to explore the underlying patterns between the target value of risk levels and all involved features. For fair and comprehensive comparisons, we compare our proposed scheme with five other baseline methods where the former outperformed most of them. To corroborate the robustness, we have also tested the performance of our method with another dataset that also resulted in better efficiency. By adopting the proposed method, we can take preventive strategies of wildfire mitigation to reduce global GHG emissions.
翻訳日:2021-08-23 13:18:58 公開日:2021-08-20
# unsplit: data-oblivious model inversion, model steal, label inference attackによるスプリット学習

UnSplit: Data-Oblivious Model Inversion, Model Stealing, and Label Inference Attacks Against Split Learning ( http://arxiv.org/abs/2108.09033v1 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) ディープニューラルネットワークのトレーニングには大規模なデータが必要であり、プライバシの懸念を伴う分散あるいはアウトソースの設定で作業しなければならない場合が多い。 Split Learningフレームワークは、クライアントとサーバ間でモデルを分割することで、この問題に対処することを目指している。 サーバはモデルの一部のクライアントにアクセスできないため、このスキームはプライバシを提供すると考えられている。 これは2つの新しい攻撃によるものではない。 1) クライアントのニューラルネットワークアーキテクチャの知識のみを取り入れた真に正確な分割学習サーバは, クライアントが攻撃を検出することなく, 入力サンプルを復元し, クライアントモデルと機能的に類似したモデルを得ることができることを示す。 さらに,分割学習を用いてトレーニングラベルの保護を行う場合,誠実だが正確なサーバがラベルを完全な精度で推測できることを示す。 我々は、3つのベンチマークデータセットを用いて攻撃をテストし、攻撃の有効性に影響を与えるシステム全体の様々な特性を調査した。 その結果,平文分割学習パラダイムは深刻なセキュリティリスクを生じさせ,誤ったセキュリティ感覚をもたらさないことが分かった。

Training deep neural networks requires large scale data, which often forces users to work in a distributed or outsourced setting, accompanied with privacy concerns. Split learning framework aims to address this concern by splitting up the model among the client and the server. The idea is that since the server does not have access to client's part of the model, the scheme supposedly provides privacy. We show that this is not true via two novel attacks. (1) We show that an honest-but-curious split learning server, equipped only with the knowledge of the client neural network architecture, can recover the input samples and also obtain a functionally similar model to the client model, without the client being able to detect the attack. (2) Furthermore, we show that if split learning is used naively to protect the training labels, the honest-but-curious server can infer the labels with perfect accuracy. We test our attacks using three benchmark datasets and investigate various properties of the overall system that affect the attacks' effectiveness. Our results show that plaintext split learning paradigm can pose serious security risks and provide no more than a false sense of security.
翻訳日:2021-08-23 13:18:39 公開日:2021-08-20
# SplitGuard: スプリットラーニングにおけるトレーニングハイジャック攻撃の検出と緩和

SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2108.09052v1 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) 分割学習のような分散ディープラーニングフレームワークは、最近、参加者のグループが生データを共有せずにディープニューラルネットワークを協調的にトレーニングできるように提案されている。 特にスプリットラーニングは、クライアントとサーバの間のニューラルネットワークを分割して、クライアントが初期レイヤを計算し、サーバが残りのレイヤを計算することで、この目標を達成する。 しかし,本手法では,クライアントのプライベートデータを盗もうとする悪意のあるサーバに対して,クライアントモデルから選択したタスクを学習するためのユニークな攻撃ベクトルを導入する。 具体的な例がすでに提案されているように、このようなトレーニングハイジャック攻撃は、スプリットラーニングクライアントのデータプライバシに重大なリスクをもたらす。 本論文では,スプリット学習クライアントが,トレーニングハイジャック攻撃の対象であるか否かを検知する手法であるSplitGuardを提案する。 我々は,その効果を実験的に評価し,その利用に関する諸点を詳細に検討した。 スプリットガードは、敵が回収した情報の量を最小限に抑えつつ、トレーニングハイジャック攻撃を効果的に検出できると結論付けた。

Distributed deep learning frameworks, such as split learning, have recently been proposed to enable a group of participants to collaboratively train a deep neural network without sharing their raw data. Split learning in particular achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning a task of its choice. With a concrete example already proposed, such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate its effectiveness, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.
翻訳日:2021-08-23 13:18:19 公開日:2021-08-20
# 転送学習,再帰学習,アンサンブル学習の併用によるインドにおける複数日先行covid-19症例予測

Combination of Transfer Learning, Recursive Learning and Ensemble Learning for Multi-Day Ahead COVID-19 Cases Prediction in India using Gated Recurrent Unit Networks ( http://arxiv.org/abs/2108.09131v1 )

ライセンス: Link先を確認
Debasrita Chakraborty, Debayan Goswami, Susmita Ghosh, Ashish Ghosh, Jonathan H. Chan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、インドの医療インフラに大きな課題をもたらした。 第2波でより多くの人が被害を受け、病院は過密になり、物資や酸素が尽きてしまった。 このシナリオでは、それまでの新型コロナウイルス感染者数の予測は、限られた資源や物資のより良い利用に役立った可能性がある。 この写本は、新型コロナウイルス(covid-19)の新規感染者、新規死亡者、および数日間のアクティブケースの予測を扱っている。 提案手法は,主予測モデルとしてゲートリカレントユニットネットワークを用いる。 調査は、米国、ブラジル、スペイン、バングラデシュの4カ国のデータに基づいて事前訓練された4つのモデルを構築し、インドのデータに基づいて微調整または再訓練された。 選ばれた4カ国は異なる種類の感染曲線を経験しているため、事前学習は様々な状況を考慮したモデルへの移行学習を提供する。 4つのモデルはそれぞれ、インドのテストデータに対して再帰的学習法を用いた数日間の予測を行う。 最終的な予測は、異なるモデルの組み合わせの予測の集合から得られる。 スペインとブラジルのこの手法は、他の伝統的な回帰モデルと比較して、すべての組み合わせの中で最高のパフォーマンスを達成している。

The current COVID-19 pandemic has put a huge challenge on the Indian health infrastructure. With more and more people getting affected during the second wave, the hospitals were over-burdened, running out of supplies and oxygen. In this scenario, prediction of the number of COVID-19 cases beforehand might have helped in the better utilization of limited resources and supplies. This manuscript deals with the prediction of new COVID-19 cases, new deaths and total active cases for multiple days in advance. The proposed method uses gated recurrent unit networks as the main predicting model. A study is conducted by building four models that are pre-trained on the data from four different countries (United States of America, Brazil, Spain and Bangladesh) and are fine-tuned or retrained on India's data. Since the four countries chosen have experienced different types of infection curves, the pre-training provides a transfer learning to the models incorporating diverse situations into account. Each of the four models then give a multiple days ahead predictions using recursive learning method for the Indian test data. The final prediction comes from an ensemble of the predictions of the combination of different models. This method with two countries, Spain and Brazil, is seen to achieve the best performance amongst all the combinations as well as compared to other traditional regression models.
翻訳日:2021-08-23 13:18:00 公開日:2021-08-20
# 量子ドットアレイにおける電荷状態遷移の自動発見のための凸ポリトープの推定

Estimation of Convex Polytopes for Automatic Discovery of Charge State Transitions in Quantum Dot Arrays ( http://arxiv.org/abs/2108.09133v1 )

ライセンス: Link先を確認
Oswin Krause, Torbj{\o}rn Rasmussen, Bertram Brovang, Anasua Chatterjee, Ferdinand Kuemmeth(参考訳) スピンベースの量子ドットアレイでは、量子計算アプリケーションの主要な技術である材料や製造のインプレッションがデバイスの振る舞いに影響を与え、チューニングパラメータによって補償される。 これらのデバイスパラメータの自動チューニングは、機械学習にとって大きな課題となる。 本稿では、スピン量子ビットアレイにおける電子の遷移を制御するための最初の実用的なアルゴリズムを提案する。 計算幾何学への接続を利用して、そのタスクを計測から凸ポリトープを推定する。 提案アルゴリズムは,与えられたポリトープのすべての面の個数,形状,サイズを求めるために,能動的学習を用いる。 我々は,人工多面体および実2x2スピン量子ビットアレイ上で,本アルゴリズムを検証した。 以上の結果から, 測定精度の順に小型のファセットを含め, ポリトープのファセットを確実に発見できることが示唆された。 本稿では,基礎となる推定問題のnp硬さの意義を考察し,将来的なスピン量子デバイス制御のための設計上の考察,限界,チューニング戦略について概説する。

In spin based quantum dot arrays, a leading technology for quantum computation applications, material or fabrication imprecisions affect the behaviour of the device, which is compensated via tuning parameters. Automatic tuning of these device parameters constitutes a formidable challenge for machine-learning. Here, we present the first practical algorithm for controlling the transition of electrons in a spin qubit array. We exploit a connection to computational geometry and phrase the task as estimating a convex polytope from measurements. Our proposed algorithm uses active learning, to find the count, shapes and sizes of all facets of a given polytope. We test our algorithm on artifical polytopes as well as a real 2x2 spin qubit array. Our results show that we can reliably find the facets of the polytope, including small facets with sizes on the order of the measurement precision. We discuss the implications of the NP-hardness of the underlying estimation problem and outline design considerations, limitations and tuning strategies for controlling future large-scale spin qubit devices.
翻訳日:2021-08-23 13:17:38 公開日:2021-08-20
# trans4trans:リアルタイムナビゲーション支援における透明物体と意味シーンセグメンテーションのための効率的なトランスフォーマー

Trans4Trans: Efficient Transformer for Transparent Object and Semantic Scene Segmentation in Real-World Navigation Assistance ( http://arxiv.org/abs/2108.09174v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin M\"uller, Rainer Stiefelhagen(参考訳) ガラスの壁やドアのような透明な物体は、視力や盲目の人々の移動を妨げる建築上の障害を構成する。 例えば、ガラスのドアの後ろのオープンスペースは、正しく認識され、相互作用しない限りアクセスできない。 しかし、従来の補助技術は、これらの安全クリティカルな透明物体のセグメンテーションをほとんどカバーしていない。 本稿では,一般物体と透明物体をセグメンテーション可能な,透過性(trans4trans)知覚モデルのための新しいデュアルヘッドトランスフォーマを用いたウェアラブルシステムを構築する。 2つの密接なセグメンテーション結果とシステム内の深度情報を組み合わせることで、ユーザが安全にナビゲートし、透明な障害物の交渉を支援する。 本稿では,トランスフォーマーベースのデコーダにおいて,マルチスケールの特徴解釈を行う軽量トランスフォーマー解析モジュール(TPM)を提案する。 TPMから恩恵を受けるため、ダブルデコーダは対応するデータセットからのジョイントラーニングを実行して堅牢性を追求し、一方可搬性のあるGPU上で効率を維持できる。 Trans4Transモデル全体は対称エンコーダデコーダアーキテクチャで構築されており、Stanford2D3DとTrans10K-v2データセットのテストセットでは、それぞれ45.13%と75.14%のmIoUが得られる。 屋内および屋外の場面におけるユーザスタディと各種プレテストを通じて,本システムの有用性と信頼性を広く検証した。 一方、Tran4Transモデルでは、シーンデータセットの駆動に優れたパフォーマンスがある。 一般的な環境、悪天候、交通事故のシナリオに対応する都市景観、ACDC、DAD-segデータセットでは、mIoUスコアは81.5%、76.3%、39.2%となり、実際の輸送用途において高い効率と堅牢性を示している。

Transparent objects, such as glass walls and doors, constitute architectural obstacles hindering the mobility of people with low vision or blindness. For instance, the open space behind glass doors is inaccessible, unless it is correctly perceived and interacted with. However, traditional assistive technologies rarely cover the segmentation of these safety-critical transparent objects. In this paper, we build a wearable system with a novel dual-head Transformer for Transparency (Trans4Trans) perception model, which can segment general- and transparent objects. The two dense segmentation results are further combined with depth information in the system to help users navigate safely and assist them to negotiate transparent obstacles. We propose a lightweight Transformer Parsing Module (TPM) to perform multi-scale feature interpretation in the transformer-based decoder. Benefiting from TPM, the double decoders can perform joint learning from corresponding datasets to pursue robustness, meanwhile maintain efficiency on a portable GPU, with negligible calculation increase. The entire Trans4Trans model is constructed in a symmetrical encoder-decoder architecture, which outperforms state-of-the-art methods on the test sets of Stanford2D3D and Trans10K-v2 datasets, obtaining mIoU of 45.13% and 75.14%, respectively. Through a user study and various pre-tests conducted in indoor and outdoor scenes, the usability and reliability of our assistive system have been extensively verified. Meanwhile, the Tran4Trans model has outstanding performances on driving scene datasets. On Cityscapes, ACDC, and DADA-seg datasets corresponding to common environments, adverse weather, and traffic accident scenarios, mIoU scores of 81.5%, 76.3%, and 39.2% are obtained, demonstrating its high efficiency and robustness for real-world transportation applications.
翻訳日:2021-08-23 13:17:04 公開日:2021-08-20
# 逆例の物理心電図信号への応用

Application of Adversarial Examples to Physical ECG Signals ( http://arxiv.org/abs/2108.08972v1 )

ライセンス: Link先を確認
Taiga Ono (1), Takeshi Sugawara (2), Jun Sakuma (3), Tatsuya Mori (1 and 4) ((1) Waseda University, (2) The University of Electro-Communications, (3) University of Tsukuba, (4) RIKEN AIP)(参考訳) 本研究の目的は,機械学習アルゴリズムを用いた心臓診断システムに対する対人攻撃の現実性と実現可能性を評価することである。 そこで本研究では,心電図(ECG)のビート・バイ・ビート分類システムに特化して適合する逆行性摂動である逆行性ビートを導入する。 まず,ECG分類ニューラルネットワークモデルの逆例を生成するアルゴリズムを定式化し,その攻撃成功率について検討する。 次に,物理的環境におけるその実現可能性を評価するために,ecgセンサの読み出しに逆ビートを注入する悪意のある信号生成器を設計することで,ハードウェア攻撃を行う。 我々の知識を最大限に活用するために、我々の研究は、ECGの敵例の熟練度を物理的に評価する最初のものである。 実世界の実験では、40回のうち3~5回、敵ビートが2分間にわたって診断結果の操作に成功したことが示されています。 最後に,攻撃者の動機や制約を明確に定義することで,攻撃の全体的な実現可能性と影響について検討する。

This work aims to assess the reality and feasibility of the adversarial attack against cardiac diagnosis system powered by machine learning algorithms. To this end, we introduce adversarial beats, which are adversarial perturbations tailored specifically against electrocardiograms (ECGs) beat-by-beat classification system. We first formulate an algorithm to generate adversarial examples for the ECG classification neural network model, and study its attack success rate. Next, to evaluate its feasibility in a physical environment, we mount a hardware attack by designing a malicious signal generator which injects adversarial beats into ECG sensor readings. To the best of our knowledge, our work is the first in evaluating the proficiency of adversarial examples for ECGs in a physical setup. Our real-world experiments demonstrate that adversarial beats successfully manipulated the diagnosis results 3-5 times out of 40 attempts throughout the course of 2 minutes. Finally, we discuss the overall feasibility and impact of the attack, by clearly defining motives and constraints of expected attackers along with our experimental results.
翻訳日:2021-08-23 13:16:30 公開日:2021-08-20
# ディープシーケンスモデリング:アセット価格における開発と応用

Deep Sequence Modeling: Development and Applications in Asset Pricing ( http://arxiv.org/abs/2108.08999v1 )

ライセンス: Link先を確認
Lin William Cong, Ke Tang, Jingyuan Wang, Yang Zhang(参考訳) 我々はアセットリターンを予測し,人工知能の顕著な手法である深部シーケンスモデリングを用いてリスク・プレアミアを計測する。 資産の返却は、しばしば従来の時系列モデルでは効果的に捉えられないシーケンシャルな依存を示すため、シーケンスモデリングはデータ駆動アプローチと優れたパフォーマンスで有望な経路を提供する。 本稿では,まず,深層シーケンスモデルの開発を概観し,それらの応用を資産価格で紹介し,その利点と限界について論じる。 次に、米国株のデータを用いて、これらの手法の比較分析を行う。 我々は、複雑な履歴パス依存を取り入れたシーケンスモデリングが投資家全般にどのような恩恵をもたらすかを実証し、LSTM(Long- and Short-term Memory)ベースのモデルが最高のアウト・オブ・サンプル性能を持つことを示した。

We predict asset returns and measure risk premia using a prominent technique from artificial intelligence -- deep sequence modeling. Because asset returns often exhibit sequential dependence that may not be effectively captured by conventional time series models, sequence modeling offers a promising path with its data-driven approach and superior performance. In this paper, we first overview the development of deep sequence models, introduce their applications in asset pricing, and discuss their advantages and limitations. We then perform a comparative analysis of these methods using data on U.S. equities. We demonstrate how sequence modeling benefits investors in general through incorporating complex historical path dependence, and that Long- and Short-term Memory (LSTM) based models tend to have the best out-of-sample performance.
翻訳日:2021-08-23 13:16:13 公開日:2021-08-20
# ゼロデイアタックに対する適応型深層学習型侵入検知システム

An Adaptable Deep Learning-Based Intrusion Detection System to Zero-Day Attacks ( http://arxiv.org/abs/2108.09199v1 )

ライセンス: Link先を確認
Mahdi Soltani, Behzad Ousat, Mahdi Jafari Siavoshani, Amir Hossein Jahangir(参考訳) 侵入検知システム(IDS)は、コンピュータネットワークにおけるセキュリティ監視の重要な要素である。 IDSは、悪意のあるトラフィックと良性のあるトラフィックを区別し、組織の資産を対象とした攻撃タイプを決定する。 IDSの主な課題は、新しい(すなわちゼロデイの)攻撃に直面し、それらを良質なトラフィックと既存の攻撃から切り離すことである。 高度な特徴の自動抽出における深層学習ベースのIDSの力と、時間とコストのかかる署名抽出プロセスからの独立性に加えて、上記の課題は新世代のIDSにも残っている。 本稿では,新たな攻撃に対処する深層学習型IDSのためのフレームワークを提案する。 このフレームワークは、セキュリティスコープにおいて、深層構造の特殊な層に基づく従来のクラスタリングに加えて、深層ノベルティベースの分類器を使用する最初のアプローチである。 さらに, DOC++ を DOC のより新しいバージョンとして導入する。 また,前処理フェーズにdeep intrusion detection(did)フレームワークを採用し,コンテンツベースの攻撃を検出するディープラーニングアルゴリズムの能力を向上させる。 DOC,DOC++,OpenMax,AutoSVMの4つのアルゴリズムをフレームワークの新規分類器として比較し,CIC-IDS2017とCSE-CIC-IDS2018データセットの両方を用いて評価を行った。 その結果,DOC++はオープンセット認識モジュールの最良の実装であることがわかった。 さらに、クラスタリングとポストトレーニングフェーズの完全性と均一性は、このモデルが教師付きラベリングと更新フェーズに十分であることを示す。

The intrusion detection system (IDS) is an essential element of security monitoring in computer networks. An IDS distinguishes the malicious traffic from the benign one and determines the attack types targeting the assets of the organization. The main challenge of an IDS is facing new (i.e., zero-day) attacks and separating them from benign traffic and existing types of attacks. Along with the power of the deep learning-based IDSes in auto-extracting high-level features and its independence from the time-consuming and costly signature extraction process, the mentioned challenge still exists in this new generation of IDSes. In this paper, we propose a framework for deep learning-based IDSes addressing new attacks. This framework is the first approach using both deep novelty-based classifiers besides the traditional clustering based on the specialized layer of deep structures, in the security scope. Additionally, we introduce DOC++ as a newer version of DOC as a deep novelty-based classifier. We also employ the Deep Intrusion Detection (DID) framework for the preprocessing phase, which improves the ability of deep learning algorithms to detect content-based attacks. We compare four different algorithms (including DOC, DOC++, OpenMax, and AutoSVM) as the novelty classifier of the framework and use both the CIC-IDS2017 and CSE-CIC-IDS2018 datasets for the evaluation. Our results show that DOC++ is the best implementation of the open set recognition module. Besides, the completeness and homogeneity of the clustering and post-training phase prove that this model is good enough for the supervised labeling and updating phase.
翻訳日:2021-08-23 13:15:57 公開日:2021-08-20
# (参考訳) 時系列予測のための特徴重み付きスタックリング : COVID-19エピデミック曲線を事例として

Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case Study of the COVID-19 Epidemic Curves ( http://arxiv.org/abs/2108.08723v2 )

ライセンス: CC0 1.0
Pieter Cawood and Terence L. van Zyl(参考訳) 本研究は,新型コロナウイルスのパンデミックの初期に発生したような,季節的でない時系列での利用の可能性について,その予測手法について検討する。 重要なフェーズにおいて、組織や意思決定者にデータ駆動決定を提供するため、予測方法の改善が不可欠である。 予備予測段階における予測能力を証明する2つの予測モデルと2つのメタ機能の組み合わせを用いて,遅延データ融合を提案する。 最終的なアンサンブルには、ベースモデルとして予言と長期記憶(LSTM)ニューラルネットワークが含まれる。 ベースモデルは多層パーセプトロン(MLP)によって結合され、各ベースモデルの予測精度と最も高い相関を示すメタ特徴を考慮に入れられる。 さらに,メタ機能の導入により,一般的に7日から14日間の2つの予測地平線におけるアンサンブルの予測精度が向上することを示す。 本研究は,従来の統計モデルと深層学習モデルを組み合わせて,異なる領域と季節の時系列のより正確な予測モデルを作成することの価値を実証する。

We investigate ensembling techniques in forecasting and examine their potential for use in nonseasonal time-series similar to those in the early days of the COVID-19 pandemic. Developing improved forecast methods is essential as they provide data-driven decisions to organisations and decision-makers during critical phases. We propose using late data fusion, using a stacked ensemble of two forecasting models and two meta-features that prove their predictive power during a preliminary forecasting stage. The final ensembles include a Prophet and long short term memory (LSTM) neural network as base models. The base models are combined by a multilayer perceptron (MLP), taking into account meta-features that indicate the highest correlation with each base model's forecast accuracy. We further show that the inclusion of meta-features generally improves the ensemble's forecast accuracy across two forecast horizons of seven and fourteen days. This research reinforces previous work and demonstrates the value of combining traditional statistical models with deep learning models to produce more accurate forecast models for time-series from different domains and seasonality.
翻訳日:2021-08-23 10:45:50 公開日:2021-08-20
# 新しいクラス発見のための統一目的

A Unified Objective for Novel Class Discovery ( http://arxiv.org/abs/2108.08536v2 )

ライセンス: Link先を確認
Enrico Fini and Enver Sangineto and St\'ephane Lathuili\`ere and Zhun Zhong and Moin Nabi and Elisa Ricci(参考訳) 本稿では,新しいクラス発見(NCD)の問題について考察する。 NCDは、異なるが関連するクラスを含むラベル付き集合の事前知識を活用して、ラベルなし集合で新しいオブジェクトカテゴリを推論することを目的としている。 既存のアプローチでは、通常ラベル付きサンプルとラベル付サンプルの特別な損失項を含む複数の目的関数を考慮し、しばしば補助正規化項を必要とする。 本稿では,この従来の手法から脱却し,教師なし学習と教師なし学習の相乗効果を優先して,新しいクラスを発見するための統一目的関数 (uno) を導入する。 多視点自己ラベル戦略を用いて、基底真理ラベルと均質に扱うことができる擬似ラベルを生成する。 これは、既知のクラスと未知のクラスの両方で動作する単一の分類目標につながる。 その単純さにもかかわらず、UNOはいくつかのベンチマーク(CIFAR-100で約10%、ImageNetで+8%)で最先端の成果を上げている。 プロジェクトページは、https://ncd-uno.github.io.com/で入手できる。

In this paper, we study the problem of Novel Class Discovery (NCD). NCD aims at inferring novel object categories in an unlabeled set by leveraging from prior knowledge of a labeled set containing different, but related classes. Existing approaches tackle this problem by considering multiple objective functions, usually involving specialized loss terms for the labeled and the unlabeled samples respectively, and often requiring auxiliary regularization terms. In this paper, we depart from this traditional scheme and introduce a UNified Objective function (UNO) for discovering novel classes, with the explicit purpose of favoring synergy between supervised and unsupervised learning. Using a multi-view self-labeling strategy, we generate pseudo-labels that can be treated homogeneously with ground truth labels. This leads to a single classification objective operating on both known and unknown classes. Despite its simplicity, UNO outperforms the state of the art by a significant margin on several benchmarks (~+10% on CIFAR-100 and +8% on ImageNet). The project page is available at: https://ncd-uno.github.io.
翻訳日:2021-08-23 10:34:47 公開日:2021-08-20
# マルチエージェント政策勾配のばらつきの解決

Settling the Variance of Multi-Agent Policy Gradients ( http://arxiv.org/abs/2108.08612v2 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Muning Wen, Yaodong Yang, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang(参考訳) ポリシーグラデーション(pg)法は一般的な強化学習(rl)手法であり、勾配推定のばらつきを減らすためにベースラインがしばしば適用される。 マルチエージェント RL (MARL) では、PG定理は自然に拡張できるが、エージェント数とともに勾配推定のばらつきが急速に増加するにつれて、マルチエージェント PG (MAPG) 法の有効性は低下する。 本稿では,まず,mapg推定器の分散に対するエージェント数とエージェントの探索の寄与度を定量化することにより,mapg法の厳密な解析を行う。 この分析に基づいて、最小分散を実現する最適ベースライン(OB)を導出する。 OBと比較して,バニラMAPGやCOMAといった既存のMARLアルゴリズムの過度な分散を測定する。 深層ニューラルネットワークの利用を考えると,marl の既存の pg メソッドにシームレスに接続可能な,サブロゲート版の ob も提案する。 マルチエージェント MuJoCo と StarCraft のベンチマークでは,OB 技術はトレーニングを効果的に安定化し,マルチエージェント PPO と COMA アルゴリズムの性能を著しく向上させる。

Policy gradient (PG) methods are popular reinforcement learning (RL) methods where a baseline is often applied to reduce the variance of gradient estimates. In multi-agent RL (MARL), although the PG theorem can be naturally extended, the effectiveness of multi-agent PG (MAPG) methods degrades as the variance of gradient estimates increases rapidly with the number of agents. In this paper, we offer a rigorous analysis of MAPG methods by, firstly, quantifying the contributions of the number of agents and agents' explorations to the variance of MAPG estimators. Based on this analysis, we derive the optimal baseline (OB) that achieves the minimal variance. In comparison to the OB, we measure the excess variance of existing MARL algorithms such as vanilla MAPG and COMA. Considering using deep neural networks, we also propose a surrogate version of OB, which can be seamlessly plugged into any existing PG methods in MARL. On benchmarks of Multi-Agent MuJoCo and StarCraft challenges, our OB technique effectively stabilises training and improves the performance of multi-agent PPO and COMA algorithms by a significant margin.
翻訳日:2021-08-23 10:34:28 公開日:2021-08-20
# 不確かなプロセストレース実現の確率推定

Probability Estimation of Uncertain Process Trace Realizations ( http://arxiv.org/abs/2108.08615v2 )

ライセンス: Link先を確認
Marco Pegoraro, Bianka Bakullari, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) プロセスマイニングは、イベントログと呼ばれるデータベースでしばしば収集されるイベントデータを分析する科学的分野である。 近年、不確定なイベントログが注目され、非決定論的かつ確率的イベント属性が含まれ、多くの現実的シナリオを表現している。 本稿では,各シナリオの確率を確実に推定し,その分析を可能にする手法を提案する。 実験により,本手法で計算した確率は,特定の結果の発生確率と密接に一致し,不確定なデータに対する信頼性の高い分析が可能となった。

Process mining is a scientific discipline that analyzes event data, often collected in databases called event logs. Recently, uncertain event logs have become of interest, which contain non-deterministic and stochastic event attributes that may represent many possible real-life scenarios. In this paper, we present a method to reliably estimate the probability of each of such scenarios, allowing their analysis. Experiments show that the probabilities calculated with our method closely match the true chances of occurrence of specific outcomes, enabling more trustworthy analyses on uncertain data.
翻訳日:2021-08-23 10:34:07 公開日:2021-08-20
# Neural-GIF: 衣服の人々をアニメーションするためのニューラルネットワーク一般化インシシシット機能

Neural-GIF: Neural Generalized Implicit Functions for Animating People in Clothing ( http://arxiv.org/abs/2108.08807v2 )

ライセンス: Link先を確認
Garvita Tiwari, Nikolaos Sarafianos, Tony Tung, Gerard Pons-Moll(参考訳) 本稿では,身体のポーズ機能として衣服の人々をアニメーション化するために,ニューラル一般インシシット関数(Neural-GIF)を提案する。 様々なポーズの被験者の連続したスキャンを与えられた場合、我々は新しいポーズのキャラクターをアニメーション化することを学ぶ。 既存の方法は、人体(または衣服)のテンプレートベースの表現に依存している。 しかし、そのようなモデルは通常、固定解像度と限定解像度を持ち、難しいデータ前処理ステップを必要とし、複雑な衣服では使用できない。 動きを調音および非剛性変形に分解するテンプレートベースの手法から着想を得たが、この概念を暗黙的な形状学習に一般化し、より柔軟なモデルを得る。 空間内のすべての点を正準空間に写像し、そこでは符号付き距離場を評価する前に、学習された変形場をモデル非剛性効果に適用する。 我々の定式化は、現在のアプローチと共通するテンプレート登録を計算せずに、衣服や軟組織の複雑な非剛性変形の学習を可能にする。 neural-gifは生の3dスキャンで訓練でき、複雑な表面形状や変形を再現できる。 さらに、モデルは新しいポーズに一般化することができる。 本手法は,多様な衣服スタイルの各種公開データセットから様々な文字を抽出し,定量的・定性的にベースライン法よりも有意な改善が見られた。 また、モデルを複数の形状設定に拡張します。 さらなる研究を刺激するため、モデル、コード、データはhttps://virtualhumans.mpi-inf.mpg.de/neuralgif/で公開します。

We present Neural Generalized Implicit Functions(Neural-GIF), to animate people in clothing as a function of the body pose. Given a sequence of scans of a subject in various poses, we learn to animate the character for new poses. Existing methods have relied on template-based representations of the human body (or clothing). However such models usually have fixed and limited resolutions, require difficult data pre-processing steps and cannot be used with complex clothing. We draw inspiration from template-based methods, which factorize motion into articulation and non-rigid deformation, but generalize this concept for implicit shape learning to obtain a more flexible model. We learn to map every point in the space to a canonical space, where a learned deformation field is applied to model non-rigid effects, before evaluating the signed distance field. Our formulation allows the learning of complex and non-rigid deformations of clothing and soft tissue, without computing a template registration as it is common with current approaches. Neural-GIF can be trained on raw 3D scans and reconstructs detailed complex surface geometry and deformations. Moreover, the model can generalize to new poses. We evaluate our method on a variety of characters from different public datasets in diverse clothing styles and show significant improvements over baseline methods, quantitatively and qualitatively. We also extend our model to multiple shape setting. To stimulate further research, we will make the model, code and data publicly available at: https://virtualhumans.mpi-inf.mpg.de/neuralgif/
翻訳日:2021-08-23 10:33:56 公開日:2021-08-20
# 屋外セルトラフィックを考慮した空間時間予測のための多変量・伝搬グラフ注意ネットワーク

Multivariate and Propagation Graph Attention Network for Spatial-Temporal Prediction with Outdoor Cellular Traffic ( http://arxiv.org/abs/2108.08307v2 )

ライセンス: Link先を確認
Chung-Yi Lin, Hung-Ting Su, Shen-Lung Tung, Winston H. Hsu(参考訳) 時空間予測は知的輸送にとって重要な問題であり,交通制御や事故防止といったタスクに有用である。 これまでの研究は、センサーから収集された大規模トラフィックデータに依存していた。 しかし、装置とメンテナンスコストのため、すべての領域にセンサーを配備する可能性は低い。 本稿では, 通信企業における1日20億件以上のデータから抽出した屋外セルラートラフィックを, 利用者移動によって誘導される屋外セルラートラフィックが交通量に大きく関係していることから, この問題に対処する。 都市における道路交差点について検討し、歴史的屋外セル交通を前提として、全交差点の屋外セルトラフィックを予測することを目的としている。 さらに,2つの拡張グラフアテンションネットワーク(GAT)で構成される多変量空間時間予測モデルを提案する。 GATは多変量セルトラフィック間の相関を探索するために用いられる。 別のGATは、空間依存を捕捉する効率を高めるために、アテンションメカニズムをグラフ伝播に活用する。 実験により,提案モデルが,我々のデータセットにおける最先端のメソッドを大幅に上回ることを示した。

Spatial-temporal prediction is a critical problem for intelligent transportation, which is helpful for tasks such as traffic control and accident prevention. Previous studies rely on large-scale traffic data collected from sensors. However, it is unlikely to deploy sensors in all regions due to the device and maintenance costs. This paper addresses the problem via outdoor cellular traffic distilled from over two billion records per day in a telecom company, because outdoor cellular traffic induced by user mobility is highly related to transportation traffic. We study road intersections in urban and aim to predict future outdoor cellular traffic of all intersections given historic outdoor cellular traffic. Furthermore, We propose a new model for multivariate spatial-temporal prediction, mainly consisting of two extending graph attention networks (GAT). First GAT is used to explore correlations among multivariate cellular traffic. Another GAT leverages the attention mechanism into graph propagation to increase the efficiency of capturing spatial dependency. Experiments show that the proposed model significantly outperforms the state-of-the-art methods on our dataset.
翻訳日:2021-08-23 10:33:29 公開日:2021-08-20
# データベースにおける一貫性のある問合せ応答のための二階述語仕様と量化子除去

Second-Order Specifications and Quantifier Elimination for Consistent Query Answering in Databases ( http://arxiv.org/abs/2108.08423v2 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 一貫性のないデータベースからのクエリに対する一貫性のある回答は、データベースの可能なすべての修復から同時に取得される回答である。 修復は、元の一貫性のないインスタンスと最小に異なる一貫性のあるインスタンスである。 データベースの修復は、解法論理プログラムの安定モデルとして特定できることが以前に示されている。 本稿では,この修復プログラムを用いて,一貫した問合せ応答の問題を推論問題w.r.tに変換する方法について述べる。 2階述語論理で書かれた理論。 また, 2次量子化器の除去手法を適用して, 代わりに1次理論を得る方法も検討した。

Consistent answers to a query from a possibly inconsistent database are answers that are simultaneously retrieved from every possible repair of the database. Repairs are consistent instances that minimally differ from the original inconsistent instance. It has been shown before that database repairs can be specified as the stable models of a disjunctive logic program. In this paper we show how to use the repair programs to transform the problem of consistent query answering into a problem of reasoning w.r.t. a theory written in second-order predicate logic. It also investigated how a first-order theory can be obtained instead by applying second-order quantifier elimination techniques.
翻訳日:2021-08-23 10:33:12 公開日:2021-08-20