このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200815となっている論文です。

PDF登録状況(公開日: 20200815)

TitleAuthorsAbstract論文公表日・翻訳日
# 線形な環境と相互作用する開量子系のダイナミクスの低減に必要な十分条件

Necessary and sufficient condition for the reduced dynamics of an open quantum system interacting with an environment to be linear ( http://arxiv.org/abs/2003.00460v2 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) 閉量子系の力学は、ユニタリ時間発展の$U$の下で、明らかに線型である。 しかし、オープン量子系の$S$は環境と相互作用し、$E$は一般に線形ではない。 Dominyなど。 [量子. inf. process. 15, 465 (2016)] では、系環境の初期状態のセット $\mathcal{s}=\lbrace\rho_{se}\rbrace$ が凸であり、また別の性質を持つ場合、それらは $u$-consistency と呼ばれる。 このような状況下では、$s$ のシステムのダイナミクスが線形であることが示されている。 ドミニ・シャバニ・リダルの枠組みが最も一般的なものであるかどうかは、本論文の主題である。 削減されたダイナミクスは線形であると仮定し、これが彼らのフレームワークにつながることを示す。 言い換えれば、システムの還元ダイナミクスが線型であることと、それがドミニ-シャバニ-ライダーフレームワーク内で定式化できることは同値である。

The dynamics of a closed quantum system, under a unitary time evolution $U$, is, obviously, linear. But, the reduced dynamics of an open quantum system $S$, interacting with an environment $E$, is not linear, in general. Dominy et al. [Quant. Inf. Process. 15, 465 (2016)] considered the case that the set $\mathcal{S}=\lbrace\rho_{SE}\rbrace$, of possible initial states of the system-environment, is convex and, also, possesses another property, which they called $U$-consistency. They have shown that, under such circumstances, the reduced dynamics of the system $S$ is linear. Whether the Dominy-Shabani-Lidar framework is the most general one is the subject of this paper. We assume that the reduced dynamics is linear and show that this leads us to their framework. In other words, the reduced dynamics of the system is linear if and only if it can be formulated within the Dominy-Shabani-Lidar framework.
翻訳日:2023-06-01 03:45:26 公開日:2020-08-15
# フラクタル状グラフ上の完全状態伝達ハミルトニアンのスペクトル

Spectra of Perfect State Transfer Hamiltonians on Fractal-Like Graphs ( http://arxiv.org/abs/2003.11190v2 )

ライセンス: Link先を確認
Gamal Mograby, Maxim Derevyagin, Gerald V. Dunne, Alexander Teplyaev(参考訳) 本稿では、完全量子状態遷移の特殊性質を示すハミルトニアンのフラクタルグラフ上のスペクトル特徴、すなわち散逸のない量子状態の伝達について研究する。 基本的な目標は、量子情報科学の応用のための新しいプロトコルを設計するために、完全な量子状態伝達、スペクトル特性、基礎となるグラフの幾何学間の相互作用を理解する理論的枠組みを開発することである。 本稿では,新しい昇降・昇降構造を示し,これを用いて様々なフラクタル状グラフに適用可能な帰納的スペクトル構造に関する結果を示す。 この構成をダイアモンドグラフのいくつかのクラスの明示的な例で示す。

In this paper we study the spectral features, on fractal-like graphs, of Hamiltonians which exhibit the special property of perfect quantum state transfer: the transmission of quantum states without dissipation. The essential goal is to develop the theoretical framework for understanding the interplay between perfect quantum state transfer, spectral properties, and the geometry of the underlying graph, in order to design novel protocols for applications in quantum information science. We present a new lifting and gluing construction, and use this to prove results concerning an inductive spectral structure, applicable to a wide variety of fractal-like graphs. We illustrate this construction with explicit examples for several classes of diamond graphs.
翻訳日:2023-05-27 22:55:16 公開日:2020-08-15
# リドベルク封鎖下でのFloquet量子多体傷

Exact Floquet quantum many-body scars under Rydberg blockade ( http://arxiv.org/abs/2004.04431v3 )

ライセンス: Link先を確認
Kaoru Mizuta, Kazuaki Takasan, and Norio Kawakami(参考訳) 量子多体傷は、近年のライドバーグ原子および関連する理論的研究により、固有状態熱化仮説(ETH)違反として多くの関心を集めている。 本稿では,ETHのFloquetバージョンに違反する正確なFloquet量子多体傷を包含するモデルを構築した。 pxpモデルのような隣接するスピン(rydbergブロック)を禁止する2つの一様駆動型静的ハミルトニアンを考察し、それらからなるバイナリドライブを構成する。 静的PXPモデルでは, 温度の無限化を完全に回避する4次元部分空間が存在し, 静的PXPモデルで報告された特別な傷跡を含む他の状態は, 加熱や無限温度への緩和に弱いことが示されている。 さらに,フロッケ量子多体傷を示す時間依存pxp型ハミルトニアンからなるより一般化した周期ドライブを構築し,リドバーグ原子におけるモデルの実験的実現の可能性について議論した。

Quantum many-body scars have attracted much interest as a violation of the eigenstate thermalization hypothesis (ETH) due to recent experimental observation in Rydberg atoms and related theoretical studies. In this paper, we construct a model hosting exact Floquet quantum many-body scars, which violate the Floquet version of ETH. We consider two uniformly-driven static Hamiltonians prohibiting neighboring up spins (Rydberg blockade) like the PXP model, and construct a binary drive composed of them. We show that there exists a four-dimensional subspace which completely avoids thermalization to infinite temperature and that any other states, including some special scar states reported in the static PXP model, are vulnerable to heating and relax to infinite temperature. We also construct a more generalized periodic drive composed of time-dependent PXP-type Hamiltonians showing exact Floquet quantum many-body scars and discuss possible experimental realization of the model in Rydberg atoms.
翻訳日:2023-05-25 08:53:31 公開日:2020-08-15
# 大スピンの時間的量子相関のancilla-assisted probing

Ancilla-assisted probing of temporal quantum correlations of large spins ( http://arxiv.org/abs/2006.07028v2 )

ライセンス: Link先を確認
Michael Kastner(参考訳) 量子スピンを2つ以上の異なる時間で測定する場合、後の測定は、以前の測定による測定バックアクションによって影響を受ける。 これにより、時間量子相関関数の測定が困難になる。 本稿では,スピン選択規則を利用して測定バックアクションの効果を緩和する測定プロトコルを提案する。 適切な条件下では、スピン量子数$l\gg s$を持つスピンからなる系をスピン-$s$アンシラ自由度に結合することにより、2時間量子相関に対する測定バックアクションの効果が無視可能であることを示す。 このような測定プロトコルの潜在的応用は、光によるボース・アインシュタイン凝縮の配列の探索である。

When measuring quantum spins at two or more different times, the later measurements are affected by measurement backaction occurring due to the earlier measurements. This makes the measurement of temporal quantum correlation functions challenging. In this paper, I propose a measurement protocol that mitigates the effect of measurement backaction by exploiting spin selection rules. I show that, under suitable conditions, the effect of measurement backaction on two-time quantum correlations becomes negligible when probing a system consisting of spins with large spin quantum numbers $l\gg s$ by coupling it to a spin-$s$ ancilla degree of freedom. A potential application of such a measurement protocol is the probing of an array of Bose-Einstein condensates by light.
翻訳日:2023-05-15 22:34:30 公開日:2020-08-15
# 光アクセス不能希ガススピンを用いた光量子メモリ

Optical quantum memory with optically inaccessible noble-gas spins ( http://arxiv.org/abs/2007.08770v2 )

ライセンス: Link先を確認
Or Katz, Eran Reches, Roy Shaham, Alexey V. Gorshkov, and Ofer Firstenberg(参考訳) 光子の量子状態を保存し保存する光量子記憶は、光学的にアクセス可能な物質状態への光子の状態のコヒーレントなマッピングに依存している。 ここでは、光子の状態を長寿命だが光学的にアクセスできない希ガススピンの集合状態にマッピングする新しい物理機構を概説する。 このマッピングは、ランダムな衝突とアルカリ蒸気から生じるコヒーレントなスピン交換相互作用を用いる。 各種パラメータにおける非古典光の高効率記憶と検索のための最適戦略を解析する。 これらの戦略に基づき、室温以上で数時間のコヒーレンス時間を有する希ガススピンを用いた効率的な量子記憶を実現するための実現可能な実験条件を同定する。

Optical quantum memories, which store and preserve the quantum state of photons, rely on a coherent mapping of the photonic state onto matter states that are optically accessible. Here we outline a new physical mechanism to map the state of photons onto the long-lived but optically inaccessible collective state of noble-gas spins. The mapping employs the coherent spin-exchange interaction arising from random collisions with alkali vapor. We analyze optimal strategies for high-efficiency storage and retrieval of non-classical light at various parameter regimes. Based on these strategies, we identify feasible experimental conditions for realizing efficient quantum memories with noble-gas spins having hours-long coherence times at room temperature and above
翻訳日:2023-05-09 05:08:35 公開日:2020-08-15
# スマートホームデバイスはipvの犠牲者を捨てるのか?

Are Smart Home Devices Abandoning IPV Victims? ( http://arxiv.org/abs/2008.06612v1 )

ライセンス: Link先を確認
Ahmed Alshehri, Malek Ben Salem, and Lei Ding(参考訳) スマートホームデバイスには、高度なセキュリティ、利便性、エンターテイメントなど多くのメリットがあります。 しかし、これらのデバイスは、最近の研究が示すように、同じ家庭の親密なパートナーに対してデバイス所有者に究極の力を与えるなど、意図しない結果をもたらしている。 本稿では,スマートホームにおける技術利用に関する知見を体系化する。 スマートホームにおける家庭内虐待と親密なパートナー暴力(IPV)は、虐待者にとってより効果的でリスクが少ないことを示す。 被害者は、自分を守ることがより有害で難しいと感じている。 我々は、スマートホームにおける虐待のすべてのフェーズを包括的に分析し、各フェーズにおけるリスクとニーズを分類する。 現在のスマートホーム技術の技術的分析は、その限界に光を当てるために行われる。 我々はまた、スマートホームにおけるテクノロジー利用と戦うための最近の推奨事項を要約し、その可能性と欠点に焦点を当てている。 当然のことながら、スマートホームにおける虐待のフェーズの理解の欠如により、多くのレコメンデーションが互いに矛盾している。 虐待に抵抗するスマートホームデバイスを設計するための望ましい特性は、虐待のあらゆる段階において提案されている。 研究コミュニティは、既存のスマートホームデバイスの安全対策の盲点を満たし、スマートホームにおけるテクノロジーを損なう脅威を考慮した適切な安全対策を構築することに重点を置くよう、分析と勧告から恩恵を受ける。

Smart home devices have brought us many benefits such as advanced security, convenience, and entertainment. However, these devices also have made unintended consequences like giving ultimate power for devices' owners over their intimate partners in the same household which might lead to tech-facilitated domestic abuse (tech-abuse) as recent research has shown. In this paper, we systematize findings on tech-abuse in smart homes. We show that domestic abuse and Intimate Partner Violence (IPV) in smart homes is more effective and less risky for abusers. Victims find it more harmful and more challenging to protect themselves from. We articulate a comprehensive analysis of all the phases of abuse in smart homes and categorize risks and needs in each phase. Technical analysis of current smart home technologies is conducted to shed light upon their limitations. We also summarize recent recommendations to combat tech-abuse in smart homes and focus on their potentials and shortcomings. Unsurprisingly, we find that many recommendations conflict with each other due to a lack of understanding of phases of abuse in smart homes. Desirable properties to design abuse-resistant smart home devices are proposed for all the phases of abuse. The research community benefits from our analysis and recommendations to move forward with a focus on filling the blind spots of existing smart home devices' safety measures and building appropriate safety measures that consider tech-abuse threats in smart homes.
翻訳日:2023-05-06 05:05:48 公開日:2020-08-15
# 独立な単一光子を持つ量子干渉計における分散キャンセル

Dispersion cancellation in a quantum interferometer with independent single photons ( http://arxiv.org/abs/2008.06611v1 )

ライセンス: Link先を確認
Dong-Gil Im, Yosep Kim, and Yoon-Ho Kim(参考訳) 適切な量子情報処理を行うための重要な技術は、独立した単一光子間の高い可視性量子干渉を得ることである。 量子干渉に影響を与える重要な要素の1つは、単一光子が分散媒質を通過するときに生じる群速度分散である。 二光子干渉に対する群速度分散の効果は、2つの独立な光子が同じパルス幅を持つ場合、理論的に実験的にキャンセルできることを示した。 この分散キャンセル効果は、複数の独立した単一光子を持つマルチパス線形干渉計に一般化することができる。 マルチパス量子干渉計は、量子通信、フォトニック量子コンピューティング、ボーソンサンプリングアプリケーションの中心にあるので、量子情報科学における幅広い応用性を見出す必要がある。

A key technique to perform a proper quantum information processing is to get a high visibility quantum interference between independent single photons. One of the crucial elements that affects the quantum interference is a group velocity dispersion that occurs when the single photons pass through a dispersive medium. We theoretically and experimentally demonstrate that an effect of group velocity dispersion on the two-photon interference can be cancelled if two independent single photons experience the same amount of pulse broadening. This dispersion cancellation effect can be generalized to a multi-path linear interferometer with multiple independent single photons. As multi-path quantum interferometers are at the heart of quantum communication, photonic quantum computing, and boson sampling applications, our work should find wide applicability in quantum information science.
翻訳日:2023-05-06 05:05:24 公開日:2020-08-15
# オンライン学習による労働スキル向上のための重要な原則--添加物製造専門コースの学習分析研究

Key principles for workforce upskilling via online learning: a learning analytics study of a professional course in additive manufacturing ( http://arxiv.org/abs/2008.06610v1 )

ライセンス: Link先を確認
Kylie Peppler, Joey Huang, Michael C. Richey, Michael Ginda, Katy B\"orner, Haden Quinlan, A. John Hart(参考訳) 教育、学習、スキル開発のためのオンラインプラットフォームを効果的に採用することは、学術機関と職場の両方にとって不可欠である。 オンライン学習の導入は、新型コロナウイルスのパンデミックによって突然加速され、教育研究や効果的なオンライン教育の実践に注意が向けられている。 オンライン学習には、学習管理プラットフォームからインタラクティブアセスメントツールまで、マルチメディアコンテンツと組み合わせて、インストラクターや組織に課題を提示するさまざまなスキルとリソースが必要です。 本研究は、先進的な製造業におけるオンライン労働力トレーニングの設計と改善に、科学と視覚的学習分析を使用できる方法に焦点を当てる。 研究者、業界の専門家、教育研究者、そしてデータ分析と可視化の専門家が協力し、添加物製造に焦点を当てたオンライントレーニングコースに登録された900人のプロフェッショナルのコーホートのパフォーマンスを研究した。 このコースはmitxproを通じて提供され、mit open learningはedxプラットフォームの専用インスタンスでホストされるプロの学習組織である。 本研究は,学習対象分析と視覚学習分析を組み合わせて,学習軌跡,エンゲージメント,パフォーマンスの関連性を検討する。 その結果,学習目的に対する評価のより直接的なマッピングや,コースの各セグメントの完成に必要な期待時間や実際の時間といった,学習者の参加感とパフォーマンスの解釈に視覚的学習分析がどのように使用されたかが示された。 この研究はまた、コースデザイナーとインストラクターがコースの課題、学習目標、および学習者のニーズや関心事によるアセスメント尺度を調整するための幅広い戦略を強調し、オンラインコースの時間学習と継続的な改善にのみ効果的な同期データ基盤を主張する。

Effective adoption of online platforms for teaching, learning, and skill development is essential to both academic institutions and workplaces. Adoption of online learning has been abruptly accelerated by COVID19 pandemic, drawing attention to research on pedagogy and practice for effective online instruction. Online learning requires a multitude of skills and resources spanning from learning management platforms to interactive assessment tools, combined with multimedia content, presenting challenges to instructors and organizations. This study focuses on ways that learning sciences and visual learning analytics can be used to design, and to improve, online workforce training in advanced manufacturing. Scholars and industry experts, educational researchers, and specialists in data analysis and visualization collaborated to study the performance of a cohort of 900 professionals enrolled in an online training course focused on additive manufacturing. The course was offered through MITxPro, MIT Open Learning is a professional learning organization which hosts in a dedicated instance of the edX platform. This study combines learning objective analysis and visual learning analytics to examine the relationships among learning trajectories, engagement, and performance. The results demonstrate how visual learning analytics was used for targeted course modification, and interpretation of learner engagement and performance, such as by more direct mapping of assessments to learning objectives, and to expected and actual time needed to complete each segment of the course. The study also emphasizes broader strategies for course designers and instructors to align course assignments, learning objectives, and assessment measures with learner needs and interests, and argues for a synchronized data infrastructure to facilitate effective just in time learning and continuous improvement of online courses.
翻訳日:2023-05-06 05:05:00 公開日:2020-08-15
# 検索エンジン広告が売上にどう影響するか:実証調査

How Search Engine Advertising Affects Sales over Time: An Empirical Investigation ( http://arxiv.org/abs/2008.06809v1 )

ライセンス: Link先を確認
Yanwu Yang, Kang Zhao, Daniel Zeng, and Bernard Jim Jansen(参考訳) インターネット上のメインストリームのマーケティングチャネルとして、検索エンジン広告(SEA)は大きなビジネス影響を与え、学術と産業の両方から多くの注目を集めている。 広告の重要な目標は売上を増やすことだ。 それにもかかわらず、これまでの研究は、海洋キャンペーンの結果と潜在的に関連のある複数の要因を研究してきたが、これらの要因が海によって生み出された実際の販売に与える影響は未検討のままである。 また、非常にダイナミックなSEAキャンペーンにおいて、そのような効果が時間とともにどのように変化するかは明らかでない。 本研究は,SEAにおける動的広告販売関係の実証的研究として,時間変化係数(TVC)モデリングフレームワーク内に広告応答モデルを構築し,米国の大手Eコマース小売店のユニークなデータセットを用いてモデルを推定する。 その結果, 広告費, 消費者行動, 広告特性が実際の販売に与える影響を明らかにするとともに, 売上に対する影響が経時的に変化することを示す。 さらに重要なのは、トランスファーは直接反応よりも売上に強い影響を及ぼし、コンバージョン率はクリックスルー率よりもはるかに重要であり、広告ポジションは売上に大きな影響を与えていないことだ。 これらの発見は、広告主がより効果的なSEAキャンペーンを立ち上げることに直接的な意味を持つ。

As a mainstream marketing channel on the Internet, Search Engine Advertising (SEA) has a huge business impact and attracts a plethora of attention from both academia and industry. One important goal of advertising is to increase sales. Nevertheless, while previous research has studied multiple factors that are potentially related to the outcome of SEA campaigns, effects of these factors on actual sales generated by SEA remain understudied. It is also unclear whether and how such effects change over time in highly dynamic SEA campaigns. As the first empirical investigation of the dynamic advertisement-sales relationship in SEA, this study builds an advertising response model within a time-varying coefficient (TVC) modeling framework, and estimates the model using a unique dataset from a large E-Commerce retailer in the United States. Results reveal the effects of the advertising expenditure, consumer behaviors and advertisement characteristics on realized sales, and demonstrate that such effects on sales do change over time in non-linear ways. More importantly, we find that carryover has a stronger effect in generating sales than direct response does, conversion rate is much more important than click-through rate, and ad position does not have significant effects on sales. These findings have direct implications for advertisers to launch more effective SEA campaigns.
翻訳日:2023-05-06 04:59:00 公開日:2020-08-15
# 非分離的および文脈的相対論を超えた関係量子絡み合い

Relational Quantum Entanglement Beyond Non-Separable and Contextual Relativism ( http://arxiv.org/abs/2008.06743v1 )

ライセンス: Link先を確認
Christian de Ronde, C\'esar Massri(参考訳) 本稿では,量子エンタングルメントの正統的定義の相対論的パースペクティブ性について,好ましい因子分解の観点から論じる。 また、バーナムらによって提唱された絡み合いの一般化定義の中で、この側面も考慮する。 所望の可観測物については [6, 7] より具体的には、正統的な絡み合いの定義によって暗示される非分離的相対論、その一般化によって暗示される文脈的相対論、そして現在専門文献で議論されているその他の深刻な問題について議論する。 本研究の第2部では, 実効的および集中的な関係の符号化として理解された, 最近提案された目的不変な絡み合いの定義に対処する[32]。 2つの定理の導出を通じて、この新しい客観的な絡み合いの定義が、分離不能な相対論と文脈的相対論の両方をいかに回避できるかを明確に示す。 これらの定理によれば、この関係性定義の中で、可観測部分集合と可観測分解の全ては、同じ(潜在的)問題状態を参照するものとして世界規模で考えることができる。 結論は、オルソドックスの定義とは異なり、この新しい目的関係の概念は、量子相関に関する現実主義的な理解への扉の開きから、相対論をバイパスすることができるということである。

In this paper we address the relativist-perspectival nature of the orthodox definition of quantum entanglement in terms of preferred factorizations. We also consider this aspect aspect within the generalized definition of entanglement proposed by Barnum et al. [6, 7] in terms of preferred observables. More specifically, we will discuss the non-separable relativism implied by the orthodox definition of entanglement, the contextual relativism implied by its generalization as well as some other serious problems presently discussed within the specialized literature. In the second part of this work, we address a recently proposed objective-invariant definition of entanglement understood as the actual and potential coding of effective and intensive relations [32]. Through the derivation of two theorems we will show explicitly how this new objective definition of entanglement is able to escape both non-separable relativism and contextual relativism. According to these theorems, within this proposed relational definition, all possible subsets of observables as well as all possible factorizations can be globally considered as making reference to the same (potential) state of affairs. The conclusion is that, unlike with the orthodox definitions, this new objective-relational notion of entanglement is able to bypass relativism right from the start opening the door to a realist understanding of quantum correlations.
翻訳日:2023-05-06 04:58:38 公開日:2020-08-15
# 位相駆動量子ウォーカのブロッホ様超振動と一方向運動

Bloch-like super-oscillations and unidirectional motion of phase driven quantum walkers ( http://arxiv.org/abs/2008.06710v1 )

ライセンス: Link先を確認
A. R. C. Buarque, M. L. Lyra and W. S. Dias(参考訳) 時間非依存相と非依存相を同時に対象とする量子ウォーカのダイナミクスについて検討する。 このようなダイナミクスは、静電場と高調波電場の重ね合わせを受ける格子内の荷電量子粒子をエミュレートする。 そこで本研究では,高調波位相 $\omega$ の周波数と正規ブロッホ様振動 $\omega_b$ の周波数の密接なチューニングにより,ブロッホ様超振動を誘発する可能性について検討する。 ウェーブパレットセントロイドの周波数スペクトルを探索することにより、正規振動と超ブロック振動が支配的な状態の区別が可能になる。 さらに,完全共振条件下では,量子ウォークコイン演算子パラメータの関数であるウェーブパック平均速度,静的・調和項の相対強度,ハーモニック相の自己位相とともに,一方向運動が成立することを示した。 連続時間類似モデルでは, 平均ドリフト速度がよく説明できることを示す。

We study the dynamics of a quantum walker simultaneously subjected to time-independent and -dependent phases. Such dynamics emulates a charged quantum particle in a lattice subjected to a superposition of static and harmonic electric fields. With proper settings, we investigate the possibility to induce Bloch-like super-oscillations, resulting from a close tuning of the frequency of the harmonic phase $\omega$ and that associated with the regular Bloch-like oscillations $\omega_B$ . By exploring the frequency spectra of the wavepacket centroid, we are able to distinguish the regimes on which regular and super-Bloch oscillations are predominant. Furthermore, we show that under exact resonant conditions $\omega=\omega_B$ unidirectional motion is established with the wavepacket average velocity being a function of the quantum walk coin operator parameter, the relative strengths of the static and harmonic terms, as well as the own phase of the harmonic phase. We show that the average drift velocity can be well described within a continuous-time analogous model.
翻訳日:2023-05-06 04:58:18 公開日:2020-08-15
# スピントロニクス量子コンピューティングアーキテクチャにおける全結合相互作用を一般化したディック状態を含むスピン固有状態の量子状態準備

Quantum state preparation of spin eigenstates including the Dicke states with generalized all-coupled interaction in a spintronic quantum computing architecture ( http://arxiv.org/abs/2008.06705v1 )

ライセンス: Link先を確認
Amritesh Sharma and Ashwin A. Tulapurkar(参考訳) 様々な量子情報処理タスクのためのリソースとして、マルチパートの絡み合いの利用が広く開発されている。 本稿では、ディッケ状態のような重要な絡み合った資源を含む部分集合を含む任意のスピン固有状態や、準備が難しい他の準ラジアント状態の作成に焦点をあてる。 これらの状態の対称性を利用して、各量子ビット間の一様対交換結合を考える。 与えられたスピン固有状態の積状態と1つの量子ビット状態から始まり、単純な時間発展を用いて別のスピン固有状態を作成することができる。 この拡張は、線形ステップで任意のディック状態を作成する決定論的アプローチを舗装する。 本稿では,対数回路深度におけるw状態決定論的準備のための先行研究に基づくコスト改善について考察する。 修正アルゴリズムでは、スピン角運動量をシステムに注入するいくつかの反復が必要であり、グローバー探索の振幅増幅に類似している。 提案手法の応用例として,強磁性貯留層に接続された非相互作用型静的スピン量子ビットのシステムを選択する。 貯水池から出現するフライングキュービットは、静的キュービットと連続して相互作用し、全てのペア間の間接的な交換相互作用を仲介する。

There has been an extensive development in the use of multi-partite entanglement as a resource for various quantum information processing tasks. In this paper we focus on preparing arbitrary spin eigenstates whose subset contain important entangled resources like Dicke states as well as some other sub-radiant states that are difficult to prepare. Leveraging on the symmetry of these states we consider uniform pairwise exchange coupling between every pair of qubits. Starting from a product state of a given spin eigenstate with a single qubit state, another spin eigenstate can be prepared using simple time evolutions. This expansion paves a deterministic approach to prepare arbitrary Dicke states in linear steps. We discuss an improvement in this cost building up on a previous work for W states deterministic preparation in logarithmic circuit depth. The modified algorithm requires several iterations of pumping spin angular momentum into the system and is akin to the amplitude amplification in Grover search. As a use case to demonstrate the proposed scheme, we choose a system of non-interacting static spin qubits connected to a ferromagnetic reservoir. The flying qubits emerging from the reservoir locally interact with static qubits successively, mediating an in-direct exchange interaction between all the pairs.
翻訳日:2023-05-06 04:57:58 公開日:2020-08-15
# PPContactTracing: 新型コロナウイルスパンデミックのためのプライバシ保護コンタクト追跡プロトコル

PPContactTracing: A Privacy-Preserving Contact Tracing Protocol for COVID-19 Pandemic ( http://arxiv.org/abs/2008.06648v1 )

ライセンス: Link先を確認
Priyanka Singh, Abhishek Singh, Gabriel Cojocaru, Praneeth Vepakomma, Ramesh Raskar(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に対抗するため、世界中の接触追跡ソリューションが提案され、実施されている。 しかし、これらのソリューションのほとんどは個人のプライバシーの権利を危険にさらし、広く採用されるのを妨げる。 我々は,世界的なパンデミックの感染拡大を効率的に追跡するためのプライバシ保全型連絡先追跡プロトコルを提案する。 これはprivate set intersection (psi)プロトコルに基づいており、個人レベルでプライバシを維持するために準同型プロパティを利用する。 プロトコルの効率を維持するために,ランドスケープ表現のための階層モデルとクエリ数に対するレート制限係数が採用されている。

Several contact tracing solutions have been proposed and implemented all around the globe to combat the spread of COVID-19 pandemic. But, most of these solutions endanger the privacy rights of the individuals and hinder their widespread adoption. We propose a privacy-preserving contact tracing protocol for the efficient tracing of the spread of the global pandemic. It is based on the private set intersection (PSI) protocol and utilizes the homomorphic properties to preserve the privacy at the individual level. A hierarchical model for the representation of landscapes and rate-limiting factor on the number of queries have been adopted to maintain the efficiency of the protocol.
翻訳日:2023-05-06 04:57:26 公開日:2020-08-15
# 本質的にギャップのない位相相

Intrinsically Gapless Topological Phases ( http://arxiv.org/abs/2008.06638v1 )

ライセンス: Link先を確認
Ryan Thorngren, Ashvin Vishwanath, Ruben Verresen(参考訳) 量子物質のトポロジーは一般にギャップ位相と関連している。 例えば、対称性保護位相(SPT)相では、バルクエネルギーギャップは境界付近のエッジモードを局在させる。 この研究では、ギャップのないだけでなく、ギャップの欠如が不可欠であるような位相相につながる新しいメカニズムを同定する。 これらの'本質的にギャップレス SPT 相' はギャップレス SPT 相を持たないため、近年発見されたギャップレス SPT 相の例とは異なる。 これらの相の重要な要素は、オンサイト対称性が低エネルギーで異常に作用することである。 本質的にギャップのないSPT相は、いくつかのユニークな特性を示す。 (i)同じ対称性を持つギャップ付きシステムでは実現不可能な保護エッジモード。 (ii)ガッピングフェーズで同様に禁止される文字列順序パラメータ、及び (iii)位相図上の制約は、位相の摂動によって得られる。 1次元イジング・ハバード連鎖である $\mathbb z_4$ symmetry によって保護される特定の実現における一般理論の予測を数値シミュレーションと有効場理論の両方を用いて検証する。 また,高次元の拡張と実験的な実現についても論じる。

Topology in quantum matter is typically associated with gapped phases. For example, in symmetry protected topological (SPT) phases, the bulk energy gap localizes edge modes near the boundary. In this work we identify a new mechanism that leads to topological phases which are not only gapless but where the absence of a gap is essential. These `intrinsically gapless SPT phases' have no gapped counterpart and are hence also distinct from recently discovered examples of gapless SPT phases. The essential ingredient of these phases is that on-site symmetries act in an anomalous fashion at low energies. Intrinsically gapless SPT phases are found to display several unique properties including (i) protected edge modes that are impossible to realize in a gapped system with the same symmetries, (ii) string order parameters that are likewise forbidden in gapped phases, and (iii) constraints on the phase diagram obtained upon perturbing the phase. We verify predictions of the general theory in a specific realization protected by $\mathbb Z_4$ symmetry, the one dimensional Ising-Hubbard chain, using both numerical simulations and effective field theory. We also discuss extensions to higher dimensions and possible experimental realizations.
翻訳日:2023-05-06 04:57:15 公開日:2020-08-15
# コードの逆ロバスト性

Adversarial Robustness for Code ( http://arxiv.org/abs/2002.04694v2 )

ライセンス: Link先を確認
Pavol Bielik and Martin Vechev(参考訳) 特に機械学習とディープラーニングは、バグの発見や修正、コード補完、デコンパイル、型推論など、コードの領域における多くのタスクにうまく対処するために最近使用されている。 しかし、コードに対するモデルの敵意的な堅牢性の問題はほとんど気付かれていない。 本研究では,この問題を次のように探求する。 一 コード(離散かつ高度に構造化された入力を有する領域)に対する敵攻撃のインスタンス化 (ii)他のドメインと同様、コードに対する神経モデルが敵の攻撃に対して脆弱であることを示し、 (iii)高精度を維持しつつロバスト性を向上させるための既存技術と新規技術を組み合わせること。

Machine learning and deep learning in particular has been recently used to successfully address many tasks in the domain of code such as finding and fixing bugs, code completion, decompilation, type inference and many others. However, the issue of adversarial robustness of models for code has gone largely unnoticed. In this work, we explore this issue by: (i) instantiating adversarial attacks for code (a domain with discrete and highly structured inputs), (ii) showing that, similar to other domains, neural models for code are vulnerable to adversarial attacks, and (iii) combining existing and novel techniques to improve robustness while preserving high accuracy.
翻訳日:2023-01-02 02:05:30 公開日:2020-08-15
# 逆ロバストモデルと標準モデルの間の一般化ギャップを拡大するデータ

More Data Can Expand the Generalization Gap Between Adversarially Robust and Standard Models ( http://arxiv.org/abs/2002.04725v3 )

ライセンス: Link先を確認
Lin Chen, Yifei Min, Mingrui Zhang, Amin Karbasi(参考訳) 実際に顕著な成功を収めたにもかかわらず、現代の機械学習モデルは、人間に知覚できない摂動をもたらす敵の攻撃の影響を受けやすいが、重大かつ潜在的に危険な予測エラーをもたらすことが判明した。 この問題に対処するために、実践者はしばしば、非摂動テストセットの一般化エラーを犠牲にして、そのような攻撃に対して頑健なモデルを学ぶために、敵対的なトレーニングを使う。 従来の知恵では、より多くのトレーニングデータにより、逆学習モデルと標準モデルの一般化誤差のギャップを縮めるべきである。 しかし、ガウスモデルとベルヌーイモデルのロバストな分類器の訓練を$\ell_\infty$攻撃で検討し、より多くのデータが実際にこのギャップを増加させる可能性があることを証明した。 さらに、我々の理論的結果は、追加データが最終的にギャップを縮めるようになるかどうかを特定できる。 最後に,この現象がより広く起こることを示す線形回帰モデルについても実験的に検証した。

Despite remarkable success in practice, modern machine learning models have been found to be susceptible to adversarial attacks that make human-imperceptible perturbations to the data, but result in serious and potentially dangerous prediction errors. To address this issue, practitioners often use adversarial training to learn models that are robust against such attacks at the cost of higher generalization error on unperturbed test sets. The conventional wisdom is that more training data should shrink the gap between the generalization error of adversarially-trained models and standard models. However, we study the training of robust classifiers for both Gaussian and Bernoulli models under $\ell_\infty$ attacks, and we prove that more data may actually increase this gap. Furthermore, our theoretical results identify if and when additional data will finally begin to shrink the gap. Lastly, we experimentally demonstrate that our results also hold for linear regression models, which may indicate that this phenomenon occurs more broadly.
翻訳日:2023-01-02 01:36:28 公開日:2020-08-15
# ウェイクリープによる記憶学習

Amortised Learning by Wake-Sleep ( http://arxiv.org/abs/2002.09737v2 )

ライセンス: Link先を確認
Li K. Wenliang, Theodore Moskovitz, Heishiro Kanagawa, Maneesh Sahani(参考訳) 観測データの構造をキャプチャするために潜在変数を使用するモデルは、現在教師なし学習アルゴリズムの心臓部にあるが、強力で柔軟な潜在変数モデルのための正確な最大類似学習は、ほとんど常に難解である。 したがって、最先端のアプローチは最大相似フレームワークを完全に放棄するか、あるいは潜伏体上の後方分布に対する様々な変分近似に依存するかのどちらかである。 ここでは、償却学習と呼ぶ別のアプローチを提案する。 待ち行列に対する近似を計算するのではなく、覚醒のモンテカルロ戦略を用いて最大値のパラメータの更新を直接推定する関数を学習する。 償却学習は、潜伏者や観測者のサンプルを生成モデルからシミュレートし、モデルを「ブラックボックス」として扱うことができる。 我々は、非ユークリッド空間上で離散化または支持される潜在性を持つものを含む、幅広い複素モデルでその効果を示す。

Models that employ latent variables to capture structure in observed data lie at the heart of many current unsupervised learning algorithms, but exact maximum-likelihood learning for powerful and flexible latent-variable models is almost always intractable. Thus, state-of-the-art approaches either abandon the maximum-likelihood framework entirely, or else rely on a variety of variational approximations to the posterior distribution over the latents. Here, we propose an alternative approach that we call amortised learning. Rather than computing an approximation to the posterior over latents, we use a wake-sleep Monte-Carlo strategy to learn a function that directly estimates the maximum-likelihood parameter updates. Amortised learning is possible whenever samples of latents and observations can be simulated from the generative model, treating the model as a "black box". We demonstrate its effectiveness on a wide range of complex models, including those with latents that are discrete or supported on non-Euclidean spaces.
翻訳日:2022-12-29 18:53:14 公開日:2020-08-15
# ニューラルネットワークは凸正規化器である:二層ネットワークのための実多項式時間凸最適化公式

Neural Networks are Convex Regularizers: Exact Polynomial-time Convex Optimization Formulations for Two-layer Networks ( http://arxiv.org/abs/2002.10553v2 )

ライセンス: Link先を確認
Mert Pilanci, Tolga Ergen(参考訳) 本研究では, トレーニングサンプル数と隠れニューロン数に変数多項式を持つ単一凸プログラムを用いて, 整列線形ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。 この理論は半無限双対性と最小ノルム正規化を用いる。 標準重み減衰で訓練されたreluネットワークは、ブロック$\ell_1$ペナルテッド凸モデルと同値である。 さらに、ある種の標準畳み込み線形ネットワークは、多項式サイズの離散フーリエ特徴空間において$\ell_1$正規化線形モデルに単純化できる半定値プログラムであることを示す。

We develop exact representations of training two-layer neural networks with rectified linear units (ReLUs) in terms of a single convex program with number of variables polynomial in the number of training samples and the number of hidden neurons. Our theory utilizes semi-infinite duality and minimum norm regularization. We show that ReLU networks trained with standard weight decay are equivalent to block $\ell_1$ penalized convex models. Moreover, we show that certain standard convolutional linear networks are equivalent semi-definite programs which can be simplified to $\ell_1$ regularized linear models in a polynomial sized discrete Fourier feature space.
翻訳日:2022-12-29 03:37:20 公開日:2020-08-15
# DROCC: ディープロバストなワンクラス分類

DROCC: Deep Robust One-Class Classification ( http://arxiv.org/abs/2002.12718v2 )

ライセンス: Link先を確認
Sachin Goyal, Aditi Raghunathan, Moksh Jain, Harsha Vardhan Simhadri and Prateek Jain(参考訳) 一級SVMやアイソレーション・フォレストのような一級問題に対する古典的なアプローチは、画像のような構造化ドメインに適用する場合、注意深く機能工学を必要とする。 state-of-the-artメソッドは、2つの主要なアプローチを通じて適切な機能を学ぶためにディープラーニングを活用することを目的としている。 予測変換に基づく最初のアプローチ(Golan & El-Yaniv, 2018; Hendrycks et al., 2019a)は、いくつかのドメインで成功したが、一般的に入手が難しい適切なドメイン固有の変換セットに依存している。 2つ目のアプローチは、学習した最終層表現(例えば、DeepSVDD (Ruff et al., 2018))における古典的な1クラス損失を最小化することである。 そこで本研究では,サイド情報や表現の崩壊にロバストを必要とせず,ほとんどの標準領域に適用可能な,より強固な1クラス分類(drocc)を提案する。 DROCCは、興味のクラスからの点がよくサンプリングされた局所線型な低次元多様体上にあるという仮定に基づいている。 実験的な評価によると、DROCCは2つの異なる1クラスの問題設定と、タブデータ、画像(CIFARとImageNet)、オーディオ、時系列など、さまざまな領域にわたる現実世界のデータセットに対して非常に効果的であり、異常検出における最先端よりも最大20%精度が向上している。 コードはhttps://github.com/microsoft/EdgeMLで入手できる。

Classical approaches for one-class problems such as one-class SVM and isolation forest require careful feature engineering when applied to structured domains like images. State-of-the-art methods aim to leverage deep learning to learn appropriate features via two main approaches. The first approach based on predicting transformations (Golan & El-Yaniv, 2018; Hendrycks et al., 2019a) while successful in some domains, crucially depends on an appropriate domain-specific set of transformations that are hard to obtain in general. The second approach of minimizing a classical one-class loss on the learned final layer representations, e.g., DeepSVDD (Ruff et al., 2018) suffers from the fundamental drawback of representation collapse. In this work, we propose Deep Robust One-Class Classification (DROCC) that is both applicable to most standard domains without requiring any side-information and robust to representation collapse. DROCC is based on the assumption that the points from the class of interest lie on a well-sampled, locally linear low dimensional manifold. Empirical evaluation demonstrates that DROCC is highly effective in two different one-class problem settings and on a range of real-world datasets across different domains: tabular data, images (CIFAR and ImageNet), audio, and time-series, offering up to 20% increase in accuracy over the state-of-the-art in anomaly detection. Code is available at https://github.com/microsoft/EdgeML.
翻訳日:2022-12-28 01:39:05 公開日:2020-08-15
# fiedler正規化:グラフスパーシティを用いたニューラルネットワークの学習

Fiedler Regularization: Learning Neural Networks with Graph Sparsity ( http://arxiv.org/abs/2003.00992v3 )

ライセンス: Link先を確認
Edric Tam and David Dunson(参考訳) ニューラルネットワークの基盤となるグラフィカル構造を包含し、尊重する、ディープラーニングのための新しい正規化アプローチを導入する。 既存の正規化手法では、ニューラルネットワークの接続構造を無視するグローバルな方法で重みをドロップ/ペナルティ化することに注力することが多い。 ニューラルネットワークの基盤となるグラフのFiedler値を正規化のツールとして用いることを提案する。 我々はスペクトルグラフ理論によるこのアプローチの理論的支援を提供する。 正規化に適合するFiedler値のいくつかの有用な性質をリストアップする。 ニューラルネットワークの実用訓練における高速計算のための近似的・変分的アプローチを提案する。 私たちはそのような近似に境界を与える。 我々は、構造的に重み付けされたl1ペナルティという形で、この枠組みの代替的かつ等価な定式化を提供する。 本研究では,Fiedler正則化と従来の正則化手法との比較実験を行った。 その結果,Fiedler正則化の有効性が示された。

We introduce a novel regularization approach for deep learning that incorporates and respects the underlying graphical structure of the neural network. Existing regularization methods often focus on dropping/penalizing weights in a global manner that ignores the connectivity structure of the neural network. We propose to use the Fiedler value of the neural network's underlying graph as a tool for regularization. We provide theoretical support for this approach via spectral graph theory. We list several useful properties of the Fiedler value that makes it suitable in regularization. We provide an approximate, variational approach for fast computation in practical training of neural networks. We provide bounds on such approximations. We provide an alternative but equivalent formulation of this framework in the form of a structurally weighted L1 penalty, thus linking our approach to sparsity induction. We performed experiments on datasets that compare Fiedler regularization with traditional regularization methods such as dropout and weight decay. Results demonstrate the efficacy of Fiedler regularization.
翻訳日:2022-12-27 04:31:32 公開日:2020-08-15
# SF-Net: テンポラルアクションローカライゼーションのための単一フレームスーパービジョン

SF-Net: Single-Frame Supervision for Temporal Action Localization ( http://arxiv.org/abs/2003.06845v6 )

ライセンス: Link先を確認
Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, Zheng Shou(参考訳) 本稿では,時間的行動ローカライゼーション(TAL)のための中間形態の監視,すなわち単一フレームの監督について検討する。 単一フレームの監視を得るために、アノテータはアクションの時間ウィンドウ内の1つのフレームのみを特定するように要求される。 これにより、アクションバウンダリのアノテートを必要とする完全な監督を得るための労力コストを大幅に削減することができる。 ビデオレベルのラベルのみをアノテートする弱い監視に比べて、単一フレームの監督は、低いアノテーションオーバーヘッドを維持しながら、追加の時間的アクション信号を導入する。 このような単一フレーム監視をフル活用するために,SF-Netと呼ばれる統一システムを提案する。 まず,各映像フレームの動作性スコアを予測することを提案する。 典型的なカテゴリスコアとともに、アクションネススコアは潜在的なアクションの発生に関する包括的な情報を提供し、推論中の時間境界の洗練を支援することができる。 次に、シングルフレームアノテーションに基づいて擬似アクションとバックグラウンドフレームをマイニングする。 我々は,各注釈付きシングルフレームをその近傍のコンテキストフレームに適応的に拡張することで,擬似行動フレームを同定し,複数のビデオにまたがるすべての注釈付きフレームから擬似背景フレームを抽出する。 接地ラベル付きフレームと共に、これらの擬似ラベル付きフレームは、さらに分類器の訓練に使用される。 THUMOS14、GTEA、BEOIDに関する広範な実験において、SF-Netはセグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から最先端の弱い教師付き手法を大幅に改善した。 特にsf-netは、リソース集約的なアノテーションを必要とする完全に監督されたものと同等の結果を達成している。 コードはhttps://github.com/flowerfan/sf-netで入手できる。

In this paper, we study an intermediate form of supervision, i.e., single-frame supervision, for temporal action localization (TAL). To obtain the single-frame supervision, the annotators are asked to identify only a single frame within the temporal window of an action. This can significantly reduce the labor cost of obtaining full supervision which requires annotating the action boundary. Compared to the weak supervision that only annotates the video-level label, the single-frame supervision introduces extra temporal action signals while maintaining low annotation overhead. To make full use of such single-frame supervision, we propose a unified system called SF-Net. First, we propose to predict an actionness score for each video frame. Along with a typical category score, the actionness score can provide comprehensive information about the occurrence of a potential action and aid the temporal boundary refinement during inference. Second, we mine pseudo action and background frames based on the single-frame annotations. We identify pseudo action frames by adaptively expanding each annotated single frame to its nearby, contextual frames and we mine pseudo background frames from all the unannotated frames across multiple videos. Together with the ground-truth labeled frames, these pseudo-labeled frames are further used for training the classifier. In extensive experiments on THUMOS14, GTEA, and BEOID, SF-Net significantly improves upon state-of-the-art weakly-supervised methods in terms of both segment localization and single-frame localization. Notably, SF-Net achieves comparable results to its fully-supervised counterpart which requires much more resource intensive annotations. The code is available at https://github.com/Flowerfan/SF-Net.
翻訳日:2022-12-23 08:46:25 公開日:2020-08-15
# 頑健かつ円滑な方針による深層強化学習

Deep Reinforcement Learning with Robust and Smooth Policy ( http://arxiv.org/abs/2003.09534v4 )

ライセンス: Link先を確認
Qianli Shen, Yan Li, Haoming Jiang, Zhaoran Wang, Tuo Zhao(参考訳) deep reinforcement learning (rl) は様々な分野で大きな成功を収めている。 しかし、ニューラルネットワークの膨大な検索スペースには大量のデータが必要であるため、現在のRLアルゴリズムはサンプリング効率が良くない。 連続状態空間を持つ多くの環境が滑らかな遷移を持つという事実に触発され、状態に関してスムーズに振る舞うスムーズなポリシーを学ぶことを提案する。 新しいフレームワーク - \textbf{S}mooth \textbf{R}egularized \textbf{R}einforcement \textbf{L}earning ($\textbf{SR}^2\textbf{L}$) を開発し、スムーズな正規化によってポリシーを訓練する。 このような正規化は探索空間を効果的に制限し、学習方針の滑らかさを強制する。 さらに,提案フレームワークは,状態空間における測定誤差に対するポリシの堅牢性も向上し,分散的にロバストな設定に自然に拡張することができる。 提案手法は, オンポジー(TRPO)とオフポジーアルゴリズム(DDPG)の両方に適用する。 広範囲な実験を通して,本手法が試料効率と堅牢性を向上させることを実証した。

Deep reinforcement learning (RL) has achieved great empirical successes in various domains. However, the large search space of neural networks requires a large amount of data, which makes the current RL algorithms not sample efficient. Motivated by the fact that many environments with continuous state space have smooth transitions, we propose to learn a smooth policy that behaves smoothly with respect to states. We develop a new framework -- \textbf{S}mooth \textbf{R}egularized \textbf{R}einforcement \textbf{L}earning ($\textbf{SR}^2\textbf{L}$), where the policy is trained with smoothness-inducing regularization. Such regularization effectively constrains the search space, and enforces smoothness in the learned policy. Moreover, our proposed framework can also improve the robustness of policy against measurement error in the state space, and can be naturally extended to distribubutionally robust setting. We apply the proposed framework to both on-policy (TRPO) and off-policy algorithm (DDPG). Through extensive experiments, we demonstrate that our method achieves improved sample efficiency and robustness.
翻訳日:2022-12-21 10:16:48 公開日:2020-08-15
# ビデオ超解像のための変形可能な3次元畳み込み

Deformable 3D Convolution for Video Super-Resolution ( http://arxiv.org/abs/2004.02803v5 )

ライセンス: Link先を確認
Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An, Yulan Guo(参考訳) ビデオシーケンス間の時空間情報はビデオスーパーレゾリューション(sr)において重要である。 しかし,空間的特徴抽出と時間的動き補償が連続的に行われるため,既存のビデオsr法では時空間情報を完全に利用することはできない。 本稿では,ビデオSRにおける空間次元と時間次元の両方から時空間情報を組み込む変形可能な3D畳み込みネットワーク(D3Dnet)を提案する。 具体的には,変形可能な畳み込みと3次元畳み込みを統合するために変形可能な3次元畳み込み(d3d)を導入する。 広汎な実験により、時空間情報を利用したD3Dの有効性が示された。 比較の結果,ネットワークは最先端sr性能を達成していることがわかった。 コードはhttps://github.com/xinyiying/d3dnet。

The spatio-temporal information among video sequences is significant for video super-resolution (SR). However, the spatio-temporal information cannot be fully used by existing video SR methods since spatial feature extraction and temporal motion compensation are usually performed sequentially. In this paper, we propose a deformable 3D convolution network (D3Dnet) to incorporate spatio-temporal information from both spatial and temporal dimensions for video SR. Specifically, we introduce deformable 3D convolution (D3D) to integrate deformable convolution with 3D convolution, obtaining both superior spatio-temporal modeling capability and motion-aware modeling flexibility. Extensive experiments have demonstrated the effectiveness of D3D in exploiting spatio-temporal information. Comparative results show that our network achieves state-of-the-art SR performance. Code is available at: https://github.com/XinyiYing/D3Dnet.
翻訳日:2022-12-16 07:14:00 公開日:2020-08-15
# vocoderに基づくサイレントビデオからの音声合成

Vocoder-Based Speech Synthesis from Silent Videos ( http://arxiv.org/abs/2004.02541v2 )

ライセンス: Link先を確認
Daniel Michelsanti, Olga Slizovskaia, Gloria Haro, Emilia G\'omez, Zheng-Hua Tan, Jesper Jensen(参考訳) 音響情報と視覚情報の両方が人間の音声知覚に影響を与える。 このため、ビデオシーケンスにおける音声の欠如は、未学習のリップリーダーに対する極めて低い音声理解性を決定する。 本稿では,深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。 生のビデオフレームから音響特徴へのマッピング関数を学習し,ボコーダ合成アルゴリズムを用いて音声を再構成する。 音声再構成性能を向上させるために,マルチタスク学習形式でのテキスト情報予測を訓練し,音声の同時再構築と認識をリアルタイムで行うことができる。 その結果,提案手法の有効性が示され,既存の映像から音声へのアプローチよりも精度が向上した。

Both acoustic and visual information influence human perception of speech. For this reason, the lack of audio in a video sequence determines an extremely low speech intelligibility for untrained lip readers. In this paper, we present a way to synthesise speech from the silent video of a talker using deep learning. The system learns a mapping function from raw video frames to acoustic features and reconstructs the speech with a vocoder synthesis algorithm. To improve speech reconstruction performance, our model is also trained to predict text information in a multi-task learning fashion and it is able to simultaneously reconstruct and recognise speech in real time. The results in terms of estimated speech quality and intelligibility show the effectiveness of our method, which exhibits an improvement over existing video-to-speech approaches.
翻訳日:2022-12-16 06:18:11 公開日:2020-08-15
# 過パラメータニューラルネットワークのためのソボレフトレーニングのグローバル収束

Global Convergence of Sobolev Training for Overparameterized Neural Networks ( http://arxiv.org/abs/2006.07928v2 )

ライセンス: Link先を確認
Jorio Cocola, Paul Hand(参考訳) ソボレフ損失は、所定の入力点のセットで対象関数の値と微分を近似するためにネットワークを訓練する際に用いられる。 近年の研究では、蒸留や合成勾配予測のような様々なタスクでの成功が実証されている。 本研究では,ランダム初期化からの勾配流を伴うソボレフ損失を学習した2層reluニューラルネットワークが,入力データの分離条件下で任意の関数値と任意の方向導関数に適合することを示す。

Sobolev loss is used when training a network to approximate the values and derivatives of a target function at a prescribed set of input points. Recent works have demonstrated its successful applications in various tasks such as distillation or synthetic gradient prediction. In this work we prove that an overparameterized two-layer relu neural network trained on the Sobolev loss with gradient flow from random initialization can fit any given function values and any given directional derivatives, under a separation condition on the input data.
翻訳日:2022-11-21 12:56:39 公開日:2020-08-15
# 視覚認識のための深部等尺学習

Deep Isometric Learning for Visual Recognition ( http://arxiv.org/abs/2006.16992v2 )

ライセンス: Link先を確認
Haozhi Qi, Chong You, Xiaolong Wang, Yi Ma, Jitendra Malik(参考訳) 初期化、正規化、スキップ接続は、非常に深い畳み込みニューラルネットワークを訓練し、最先端のパフォーマンスを得るために必要な3つのテクニックであると考えられている。 本稿では、標準画像認識ベンチマークにおいて、正規化やスキップ接続のない深いバニラ ConvNet も驚くほど優れた性能を発揮するよう訓練できることを示す。 これは、初期化とトレーニング中に畳み込みカーネルをアイソメトリックに近いように強制し、また、アイソメトリックに移行したReLUの変種を使用することによって達成される。 さらなる実験により、スキップ接続と組み合わせると、近接等尺ネットワークは(イメージネットの場合)同等の性能を達成でき、標準のresnet(cocoの場合)よりも優れていることが示される。 私たちのコードはhttps://github.com/haozhiqi/isonetで利用可能です。

Initialization, normalization, and skip connections are believed to be three indispensable techniques for training very deep convolutional neural networks and obtaining state-of-the-art performance. This paper shows that deep vanilla ConvNets without normalization nor skip connections can also be trained to achieve surprisingly good performance on standard image recognition benchmarks. This is achieved by enforcing the convolution kernels to be near isometric during initialization and training, as well as by using a variant of ReLU that is shifted towards being isometric. Further experiments show that if combined with skip connections, such near isometric networks can achieve performances on par with (for ImageNet) and better than (for COCO) the standard ResNet, even without normalization at all. Our code is available at https://github.com/HaozhiQi/ISONet.
翻訳日:2022-11-15 05:56:18 公開日:2020-08-15
# 適応的確率的ラベルクラスタを用いた事前学習型一般化自己回帰モデル

Pretrained Generalized Autoregressive Model with Adaptive Probabilistic Label Clusters for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2007.02439v2 )

ライセンス: Link先を確認
Hui Ye, Zhiyu Chen, Da-Han Wang, Brian D. Davison(参考訳) extreme multi-label text classification (xmtc) は、与えられたテキストに非常に大きなラベルセットから最も関連するラベルをタグ付けするタスクである。 本稿では aplc-xlnet と呼ばれる新しい深層学習法を提案する。 我々のアプローチは、最近リリースされた一般化自己回帰事前学習モデル(XLNet)を微調整し、入力テキストの密度の高い表現を学習する。 本稿では,非平衡ラベル分布を利用して計算時間を明示的に短縮するクラスタを形成することにより,クロスエントロピー損失を近似する適応確率的ラベルクラスタ(aplc)を提案する。 5つのベンチマークデータセットで行った実験では、4つのベンチマークデータセットで新たな最先端結果が得られたことが分かりました。 ソースコードはhttps://github.com/huiyegit/aplc_xlnetで公開しています。

Extreme multi-label text classification (XMTC) is a task for tagging a given text with the most relevant labels from an extremely large label set. We propose a novel deep learning method called APLC-XLNet. Our approach fine-tunes the recently released generalized autoregressive pretrained model (XLNet) to learn a dense representation for the input text. We propose Adaptive Probabilistic Label Clusters (APLC) to approximate the cross entropy loss by exploiting the unbalanced label distribution to form clusters that explicitly reduce the computational time. Our experiments, carried out on five benchmark datasets, show that our approach has achieved new state-of-the-art results on four benchmark datasets. Our source code is available publicly at https://github.com/huiyegit/APLC_XLNet.
翻訳日:2022-11-13 07:54:47 公開日:2020-08-15
# WOR と $p$'s: $\ell_p$-Sampling の置き換えなしのスケッチ

WOR and $p$'s: Sketches for $\ell_p$-Sampling Without Replacement ( http://arxiv.org/abs/2007.06744v3 )

ライセンス: Link先を確認
Edith Cohen, Rasmus Pagh, David P. Woodruff(参考訳) 重み付けサンプリングは、データ分析と機械学習パイプラインの基本的なツールである。 サンプルは、統計の効率的な推定やデータのスパース表現に使用される。 重量分布が歪む場合、実際にはそうであるように、非置換(WOR)サンプリングは非置換(WR)サンプリングよりもはるかに効果的である。 我々は、新しい合成可能なスケッチをwor $\ell_p$サンプリング用に設計し、その周波数のパワー$p\in[0,2]$(または符号付きデータ、更新総和)に従ってキーの重み付けサンプリングを行う。 私たちのスケッチは、サンプルサイズと直線的にしか成長しないサイズです。 我々の設計は複雑に分析されているにもかかわらずシンプルで実用的であり、CountSketchのような広く実装されたヘビーヒッタースケッチを市販している。 我々の方法は、最初に$p>1$の重要なレギュレーションでWORサンプリングを提供し、最初に$p>0$で署名された更新を処理する。

Weighted sampling is a fundamental tool in data analysis and machine learning pipelines. Samples are used for efficient estimation of statistics or as sparse representations of the data. When weight distributions are skewed, as is often the case in practice, without-replacement (WOR) sampling is much more effective than with-replacement (WR) sampling: it provides a broader representation and higher accuracy for the same number of samples. We design novel composable sketches for WOR $\ell_p$ sampling, weighted sampling of keys according to a power $p\in[0,2]$ of their frequency (or for signed data, sum of updates). Our sketches have size that grows only linearly with the sample size. Our design is simple and practical, despite intricate analysis, and based on off-the-shelf use of widely implemented heavy hitters sketches such as CountSketch. Our method is the first to provide WOR sampling in the important regime of $p>1$ and the first to handle signed updates for $p>0$.
翻訳日:2022-11-10 14:05:48 公開日:2020-08-15
# Deep PQR:アンカーアクションを用いた逆強化学習の解法

Deep PQR: Solving Inverse Reinforcement Learning using Anchor Actions ( http://arxiv.org/abs/2007.07443v2 )

ライセンス: Link先を確認
Sinong Geng, Houssam Nassif, Carlos A. Manzanares, A. Max Reppen, Ronnie Sircar(参考訳) 本稿では,エネルギーをベースとした逆強化学習のための報酬関数推定フレームワークを提案する。 提案手法は,政策,Q$関数,深層学習によるReward関数を逐次推定するので,PQRと命名する。 pqrは報酬が状態のみに依存すると仮定せず、代わりにアクションの選択に依存することを許している。 さらに、PQRは確率的状態遷移を可能にする。 これを達成するために、報酬が知られている一つのアンカーアクションの存在を仮定する。 PQR法における推定器とアルゴリズムについて述べる。 環境遷移が分かっている場合、PQR報酬推定器が真の報酬を一意に回復することを示す。 未知の遷移では、PQRの推定誤差を限定する。 最後に、PQRの性能は、合成および実世界のデータセットによって実証される。

We propose a reward function estimation framework for inverse reinforcement learning with deep energy-based policies. We name our method PQR, as it sequentially estimates the Policy, the $Q$-function, and the Reward function by deep learning. PQR does not assume that the reward solely depends on the state, instead it allows for a dependency on the choice of action. Moreover, PQR allows for stochastic state transitions. To accomplish this, we assume the existence of one anchor action whose reward is known, typically the action of doing nothing, yielding no reward. We present both estimators and algorithms for the PQR method. When the environment transition is known, we prove that the PQR reward estimator uniquely recovers the true reward. With unknown transitions, we bound the estimation error of PQR. Finally, the performance of PQR is demonstrated by synthetic and real-world datasets.
翻訳日:2022-11-10 05:17:38 公開日:2020-08-15
# メッセージパッシング最小二乗フレームワークとその回転同期への応用

Message Passing Least Squares Framework and its Application to Rotation Synchronization ( http://arxiv.org/abs/2007.13638v3 )

ライセンス: Link先を確認
Yunpeng Shi and Gilad Lerman(参考訳) 回転同期に着目しながら、高レベルの汚職や騒音下でのグループ同期を効率的に解くアルゴリズムを提案する。 まず,評価したグループ比の腐敗レベルを推定する,理論上保証されたメッセージパッシングアルゴリズムについて述べる。 次に, 重みを初期化し, 反復的に更新するグループ要素を推定する新しい再重み付け最小二乗法を提案する。 合成データと実データの両方を用いた回転同期の最先端手法よりも優れた性能を示す。

We propose an efficient algorithm for solving group synchronization under high levels of corruption and noise, while we focus on rotation synchronization. We first describe our recent theoretically guaranteed message passing algorithm that estimates the corruption levels of the measured group ratios. We then propose a novel reweighted least squares method to estimate the group elements, where the weights are initialized and iteratively updated using the estimated corruption levels. We demonstrate the superior performance of our algorithm over state-of-the-art methods for rotation synchronization using both synthetic and real data.
翻訳日:2022-11-06 08:01:20 公開日:2020-08-15
# グラフニューラルネットワークを用いた対話型オンライン質問プールにおけるピアインスパイア学習者のパフォーマンス予測

Peer-inspired Student Performance Prediction in Interactive Online Question Pools with Graph Neural Network ( http://arxiv.org/abs/2008.01613v2 )

ライセンス: Link先を確認
Haotian Li, Huan Wei, Yong Wang, Yangqiu Song, Huamin Qu(参考訳) 生徒のパフォーマンス予測はオンライン教育に不可欠である。 オンライン学習プラットフォームでは、ドロップアウト率の推定、戦略的介入の促進、適応型オンライン学習の実現など、多くのダウンストリームタスクにメリットがある。 インタラクティブなオンライン質問プールは、学生に興味深いインタラクティブな質問を与え、オンライン教育で知識を実践する。 しかし,対話型オンライン質問プールにおける学生のパフォーマンス予測に関する研究はほとんど行われていない。 オンライン学習プラットフォームにおいて,MOOCプラットフォームのような事前定義されたコースカリキュラムと正確な知識ラベルを持つ学習者のパフォーマンス予測ターゲットに関する既存の研究は,対話型オンライン質問プールにおける学生の知識進化を完全にモデル化することはできない。 本稿では,対話型オンライン質問プールにおける生徒のパフォーマンス予測にグラフニューラルネットワーク(GNN)を用いた新しい手法を提案する。 具体的には,学生と学生のインタラクションを用いた質問の関係をモデル化し,学生のインタラクション・クエストネットワークを構築するとともに,異種ネットワークに内在的に機能する新たなGNNモデルR^2GCNを提案する。 1631の質問に対して4000人以上の学生の問題解決過程において生成した104,113個のマウス軌跡からなる実世界のデータセットに対するアプローチの有効性を評価する。 実験の結果,従来の機械学習手法やgnnモデルに比べて,学生のパフォーマンス予測の精度がはるかに高いことがわかった。

Student performance prediction is critical to online education. It can benefit many downstream tasks on online learning platforms, such as estimating dropout rates, facilitating strategic intervention, and enabling adaptive online learning. Interactive online question pools provide students with interesting interactive questions to practice their knowledge in online education. However, little research has been done on student performance prediction in interactive online question pools. Existing work on student performance prediction targets at online learning platforms with predefined course curriculum and accurate knowledge labels like MOOC platforms, but they are not able to fully model knowledge evolution of students in interactive online question pools. In this paper, we propose a novel approach using Graph Neural Networks (GNNs) to achieve better student performance prediction in interactive online question pools. Specifically, we model the relationship between students and questions using student interactions to construct the student-interaction-question network and further present a new GNN model, called R^2GCN, which intrinsically works for the heterogeneous networks, to achieve generalizable student performance prediction in interactive online question pools. We evaluate the effectiveness of our approach on a real-world dataset consisting of 104,113 mouse trajectories generated in the problem-solving process of over 4000 students on 1631 questions. The experiment results show that our approach can achieve a much higher accuracy of student performance prediction than both traditional machine learning approaches and GNN models.
翻訳日:2022-11-02 23:47:58 公開日:2020-08-15
# 自動音声認識による音声感情認識のための伝達学習法

A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition ( http://arxiv.org/abs/2008.02863v2 )

ライセンス: Link先を確認
Sitong Zhou and Homayoon Beigi(参考訳) 本稿では,tdnn(time-delay neural network)アーキテクチャに基づく音声感情認識におけるトランスファー学習手法を提案する。 現在の音声に基づく感情検出研究における大きな課題は、データ不足である。 提案手法は,十分なデータが得られる自動音声認識(ASR)タスクからのデータを活用するために,転送学習手法を適用してこの問題を解決する。 本実験は,Mel-Frequency Cepstral Coefficient(MFCC)機能に加えて,i-vector(i-vector)ベースの特徴を取り入れた話者適応モデル手法の利点を示す。 トランスファー学習モデルは,asrをプリトレーニングすることなく,他の手法を大きく上回っている。 公開されているIEMOCAPデータセットで実施された実験は、12時間の音声データを提供する。 転送学習は、Ted-Lium v.2音声データセットを用いて、対応する書き起こしと207時間のオーディオを提供する。 5倍のクロスバリデーションを用いて,最先端と比較して高い精度を実現する。 音声のみを用いて、怒り、興奮、悲しみ、中立感の感情内容の精度71.7%を得る。

This paper presents a transfer learning method in speech emotion recognition based on a Time-Delay Neural Network (TDNN) architecture. A major challenge in the current speech-based emotion detection research is data scarcity. The proposed method resolves this problem by applying transfer learning techniques in order to leverage data from the automatic speech recognition (ASR) task for which ample data is available. Our experiments also show the advantage of speaker-class adaptation modeling techniques by adopting identity-vector (i-vector) based features in addition to standard Mel-Frequency Cepstral Coefficient (MFCC) features.[1] We show the transfer learning models significantly outperform the other methods without pretraining on ASR. The experiments performed on the publicly available IEMOCAP dataset which provides 12 hours of motional speech data. The transfer learning was initialized by using the Ted-Lium v.2 speech dataset providing 207 hours of audio with the corresponding transcripts. We achieve the highest significantly higher accuracy when compared to state-of-the-art, using five-fold cross validation. Using only speech, we obtain an accuracy 71.7% for anger, excitement, sadness, and neutrality emotion content.
翻訳日:2022-11-02 08:09:26 公開日:2020-08-15
# Benefit-Cost比を用いた特徴検出の意義

Implications on Feature Detection when using the Benefit-Cost Ratio ( http://arxiv.org/abs/2008.05163v2 )

ライセンス: Link先を確認
Rudolf Jagdhuber and J\"org Rahnenf\"uhrer(参考訳) 多くの実用的な機械学習アプリケーションには、予測精度を最大化することと、結果モデルのコストを最小限にすることの2つの目的がある。 個々の特徴のこれらのコストは金銭的なコストであるが、例えば評価時間など他の側面も参照できる。 特徴選択は、特徴の数を減らし、モデルの一般化能力を向上させるため、両方の目的に対処する。 機能間でコストが違う場合、機能の選択は各機能の個々の利益とコストをトレードオフする必要があります。 一般的なトレードオフ選択は、両者の比率であるBCR(benefit-cost ratio)である。 本稿では,ノイズと関連する特徴を識別する能力に特化して,この尺度を用いることの意味を分析する。 コストとデータ設定の異なる場合のシミュレーション研究を行い、関連する特徴の検出率とトレードオフ比の経験的分布を求める。 シミュレーションにより,コスト設定が検出率に与える影響を明らかにした。 大きなコスト差と小さな効果の大きさの状況では、BCRは関連する特徴を欠き、安価なノイズ特徴を好んだ。 ハイパーパラメータを制御せずとも予測性能とコストのトレードオフは、非常に安価にノイズを強調しやすくなると結論づけた。 単純な利益-コスト比は、コストを組み込むための簡単なソリューションを提供するが、リスクを認識しておくことが重要です。 コストを0に近づいたり、大きなコスト差を再スケーリングしたり、ハイパーパラメータトレードオフを使用したりすることは、この論文で明らかになった悪影響を対処する方法である。

In many practical machine learning applications, there are two objectives: one is to maximize predictive accuracy and the other is to minimize costs of the resulting model. These costs of individual features may be financial costs, but can also refer to other aspects, like for example evaluation time. Feature selection addresses both objectives, as it reduces the number of features and can improve the generalization ability of the model. If costs differ between features, the feature selection needs to trade-off the individual benefit and cost of each feature. A popular trade-off choice is the ratio of both, the BCR (benefit-cost ratio). In this paper we analyze implications of using this measure with special focus to the ability to distinguish relevant features from noise. We perform a simulation study for different cost and data settings and obtain detection rates of relevant features and empirical distributions of the trade-off ratio. Our simulation study exposed a clear impact of the cost setting on the detection rate. In situations with large cost differences and small effect sizes, the BCR missed relevant features and preferred cheap noise features. We conclude that a trade-off between predictive performance and costs without a controlling hyperparameter can easily overemphasize very cheap noise features. While the simple benefit-cost ratio offers an easy solution to incorporate costs, it is important to be aware of its risks. Avoiding costs close to 0, rescaling large cost differences, or using a hyperparameter trade-off are ways to counteract the adverse effects exposed in this paper.
翻訳日:2022-10-31 04:47:08 公開日:2020-08-15
# サイトの信頼性工学: 項目応答理論のアプリケーションのデプロイ実践と制御への応用

Site Reliability Engineering: Application of Item Response Theory to Application Deployment Practices and Controls ( http://arxiv.org/abs/2008.06717v1 )

ライセンス: Link先を確認
Kiran Mahesh ND(参考訳) 実運用環境におけるアプリケーションやソリューションの信頼性は、すべてのSREチームが重要に集中する基本的な機能のひとつです。 同時に、極端な信頼性を達成するには、新機能のデプロイの遅いペース、運用コスト、機会コストに制限されないコストが伴う。 許容可能な信頼性と製品ベロシティの微妙なバランスを打つ客観的な指標を与えるという初期の取り組みは、エラー予算とその関連するポリシーです。 アプリケーションデプロイメントバージョンを顧客や運用環境にデプロイする際の信頼性を確認するため、組織毎に、現代的なデプロイメントガイドラインやコントロールも用意されている。 本研究は,dichotomous item response theoryモデルを用いて推定したアプリケーションデプロイメントスコアと呼ばれる新しい客観的指標を提案する。 This score is used to assess the improvement trend of each application version deployed into customer facing environment, identify the improvement scope for each application deployment in each area of deployment guidelines and controls, adjust the error budget i.e. soft error budget of a interdependent application in application mesh by giving soft collective responsibility and finally defines a new metric called deployment index which helps to assess the effectiveness of these contemporary deployment guidelines and controls in upholding the agreed SLOs of the application in customer facing environments. この研究は、SREとDevOpsの分野で、新しい潜在指標(すなわち、新しい客観的指標)を開発するための新しい研究分野を開く。

Reliability of an application or solution in production environment is one of the fundamental features where every SRE team is critically focused upon. At the same time achieving extreme reliability comes with the cost which include but not limited to slow pace of new feature deployments, operations cost and opportunity cost. One such earlier effort in giving an objective metric to strike the fine balance between acceptable reliability and product velocity is error budget and its associated policy. There are also contemporary deployment guidelines and controls per organization to ascertain the reliability of an application deployment version into customer facing or production environments. This work proposes new objective metrics called Application Deployment Score estimated using dichotomous Item Response Theory model. This score is used to assess the improvement trend of each application version deployed into customer facing environment, identify the improvement scope for each application deployment in each area of deployment guidelines and controls, adjust the error budget i.e. soft error budget of a interdependent application in application mesh by giving soft collective responsibility and finally defines a new metric called deployment index which helps to assess the effectiveness of these contemporary deployment guidelines and controls in upholding the agreed SLOs of the application in customer facing environments. This study opens a new field of research in developing new underlying latent indexes (i.e. new objective metrics) in SRE and DevOps space.
翻訳日:2022-10-28 21:18:00 公開日:2020-08-15
# セキュアな変調分類のための逆フィルタ

Adversarial Filters for Secure Modulation Classification ( http://arxiv.org/abs/2008.06785v1 )

ライセンス: Link先を確認
Alex Berian, Kory Staab, Noel Teku, Gregory Ditzler, Tamal Bose, Ravi Tandon(参考訳) 変調分類 (Modulation Classification, MC) とは、無線信号の変調クラスを分類する問題である。 無線通信パイプラインでは、mcは受信信号で実行される最初の操作であり、信頼性の高い復号化に重要である。 本稿では,送信機(alice)が正規受信機(bob)のmc精度を最大化しつつ,盗聴機(eve)のmc精度を最小化しようとする,安全な変調分類の問題を考察する。 この研究の貢献は、安全なMCのための新しい対人学習技術の設計である。 特に,Alice は,Bob における MC の精度を最小化しつつ,Bob における MC の精度を最大化できるように,慎重に設計された MC フィルタを用いてセキュアな MC フィルタアルゴリズムを提案する。 本稿では,勾配上昇フィルタ(gaf)と高速勾配フィルタ(fgfm)の2つのフィルタベースアルゴリズムを提案する。 提案手法は, 従来のMLコミュニティや, 安全なMCに関する先行研究などにおいて, 付加的対向的摂動を著しく上回り, その他の望ましい性質も備えている。 特にGAFとFGFMはアルゴリズムである。 a)計算効率(bobでの高速復号を可能にする) b) 電力効率(アリスにおいて過度の送信電力を必要としない)及び c) SNR は効率が良い(つまり、Bob の低い SNR 値でもうまく機能する)。

Modulation Classification (MC) refers to the problem of classifying the modulation class of a wireless signal. In the wireless communications pipeline, MC is the first operation performed on the received signal and is critical for reliable decoding. This paper considers the problem of secure modulation classification, where a transmitter (Alice) wants to maximize MC accuracy at a legitimate receiver (Bob) while minimizing MC accuracy at an eavesdropper (Eve). The contribution of this work is to design novel adversarial learning techniques for secure MC. In particular, we present adversarial filtering based algorithms for secure MC, in which Alice uses a carefully designed adversarial filter to mask the transmitted signal, that can maximize MC accuracy at Bob while minimizing MC accuracy at Eve. We present two filtering based algorithms, namely gradient ascent filter (GAF), and a fast gradient filter method (FGFM), with varying levels of complexity. Our proposed adversarial filtering based approaches significantly outperform additive adversarial perturbations (used in the traditional ML community and other prior works on secure MC) and also have several other desirable properties. In particular, GAF and FGFM algorithms are a) computational efficient (allow fast decoding at Bob), b) power-efficient (do not require excessive transmit power at Alice); and c) SNR efficient (i.e., perform well even at low SNR values at Bob).
翻訳日:2022-10-28 21:17:42 公開日:2020-08-15
# 責任あるaiイノベーションを通じてcovid-19に取り組む - 正しい方向への5つのステップ

Tackling COVID-19 through Responsible AI Innovation: Five Steps in the Right Direction ( http://arxiv.org/abs/2008.06755v1 )

ライセンス: Link先を確認
David Leslie(参考訳) データサイエンスとAI/MLのイノベーションは、新型コロナウイルス対策のグローバルな取り組みを支援する上で、中心的な役割を果たす。 AI/ML技術の汎用性により、科学者や技術者は、驚くほど幅広いバイオメディカル、疫学、社会経済的課題に対処できる。 しかし、この幅広い科学的能力は様々な倫理的課題を提起している。 sars-cov-2に取り組む研究者が迅速かつグローバルに行動することの必要性は、イノベーションのエコシステムがプロプライエタリな保護主義、不平等、公共の信頼の欠如に悩まされている時代に、前例のないオープンリサーチと責任あるデータ共有を要求する。 さらに、デジタル接触追跡のような社会的に影響力のある介入は、監視の不安を増し、プライバシー、自律性、市民の自由に対する幅広いコミットメントに挑戦している。 データ駆動型イノベーションが社会的不平等の密着したダイナミクスを強化するのに役立つというプレパンデミックの懸念は、ウイルスが脆弱な社会グループに異なる影響と、偏見と差別的な公衆衛生結果の致命的な結果に影響を及ぼすことによって、同様に高まった。 これらの懸念に対処するために、私は責任ある研究とイノベーションを促進するために取るべき5つのステップを提供します。 これらは、オープンで説明責任があり、公平で、民主的に管理されたプロセスや製品を中心に、AI/MLの設計と発見に責任を負う実践ベースのパスを提供する。 最初から考えると、これらのステップは新型コロナウイルス(covid-19)に取り組むイノベーターの能力を高めるだけでなく、データサイエンスとai/mlコミュニティに、将来のパンデミックに対処するためのより優れた装備と、より人道的で合理的で、単なる社会を支援するのに役立つだろう。

Innovations in data science and AI/ML have a central role to play in supporting global efforts to combat COVID-19. The versatility of AI/ML technologies enables scientists and technologists to address an impressively broad range of biomedical, epidemiological, and socioeconomic challenges. This wide-reaching scientific capacity, however, also raises a diverse array of ethical challenges. The need for researchers to act quickly and globally in tackling SARS-CoV-2 demands unprecedented practices of open research and responsible data sharing at a time when innovation ecosystems are hobbled by proprietary protectionism, inequality, and a lack of public trust. Moreover, societally impactful interventions like digital contact tracing are raising fears of surveillance creep and are challenging widely held commitments to privacy, autonomy, and civil liberties. Prepandemic concerns that data-driven innovations may function to reinforce entrenched dynamics of societal inequity have likewise intensified given the disparate impact of the virus on vulnerable social groups and the life-and-death consequences of biased and discriminatory public health outcomes. To address these concerns, I offer five steps that need to be taken to encourage responsible research and innovation. These provide a practice-based path to responsible AI/ML design and discovery centered on open, accountable, equitable, and democratically governed processes and products. When taken from the start, these steps will not only enhance the capacity of innovators to tackle COVID-19 responsibly, they will, more broadly, help to better equip the data science and AI/ML community to cope with future pandemics and to support a more humane, rational, and just society.
翻訳日:2022-10-28 21:17:16 公開日:2020-08-15
# 効率的低歪み超計量埋め込みについて

On Efficient Low Distortion Ultrametric Embedding ( http://arxiv.org/abs/2008.06700v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Karthik C. S., and Guillaume Lagarde(参考訳) 教師なし学習とデータ分析の古典的な問題は、その本質的な性質を保存するデータの表現をシンプルで簡単に視覚化できることである。 データの基盤となる階層構造を保存し、その複雑さを減らし、広く使われている方法は、データの木への埋め込みを見つけることである。 このタスクの最も一般的なアルゴリズムは、古典的なリンクアルゴリズム(シングル、平均、または完全)である。 しかしながら、$\omega(\log n)$次元のデータセット上のこれらのメソッドは、$\theta(n^2)$という非常に禁止的な実行時間を示す。 本稿では,$\mathbb{r}^d$ の点のセットを入力とし,$c\ge 1$ ごとに $n^{1+\frac{\rho}{c^2}}$ (ある普遍定数 $\rho>1$) を入力して超メトリック $\delta$ を出力し,任意の 2 点 $u,v$ in $p$ に対して$\delta(u,v)$ を$c$ から$v$ までの乗算係数に設定するアルゴリズムを提案する。 ここで、最高の超測度は、$\ell_2$距離に関する最大距離歪みを最小限に抑えるウルトラメトリック $\tilde\Delta$、すなわち$\underset{u,v \in P}{\max}\ \frac{\tilde\Delta(u,v)}{\|u-v\|_2}$である。 上記の結果を補うために、一般的な複雑性理論の仮定の下で、すべての定数 $\varepsilon>0$ に対して、実行時間 $n^{2-\varepsilon}$ を持つアルゴリズムは、等尺埋め込みを許容する$\ell_\infty$-metric の入力と $\frac{3}{2}$ の歪みを生じさせるものとを区別できないことを示す。 最後に,従来の機械学習データセットに対する経験的評価を行い,アルゴリズムの出力がリンクアルゴリズムの出力に匹敵し,より高速な実行時間を実現していることを示す。

A classic problem in unsupervised learning and data analysis is to find simpler and easy-to-visualize representations of the data that preserve its essential properties. A widely-used method to preserve the underlying hierarchical structure of the data while reducing its complexity is to find an embedding of the data into a tree or an ultrametric. The most popular algorithms for this task are the classic linkage algorithms (single, average, or complete). However, these methods on a data set of $n$ points in $\Omega(\log n)$ dimensions exhibit a quite prohibitive running time of $\Theta(n^2)$. In this paper, we provide a new algorithm which takes as input a set of points $P$ in $\mathbb{R}^d$, and for every $c\ge 1$, runs in time $n^{1+\frac{\rho}{c^2}}$ (for some universal constant $\rho>1$) to output an ultrametric $\Delta$ such that for any two points $u,v$ in $P$, we have $\Delta(u,v)$ is within a multiplicative factor of $5c$ to the distance between $u$ and $v$ in the "best" ultrametric representation of $P$. Here, the best ultrametric is the ultrametric $\tilde\Delta$ that minimizes the maximum distance distortion with respect to the $\ell_2$ distance, namely that minimizes $\underset{u,v \in P}{\max}\ \frac{\tilde\Delta(u,v)}{\|u-v\|_2}$. We complement the above result by showing that under popular complexity theoretic assumptions, for every constant $\varepsilon>0$, no algorithm with running time $n^{2-\varepsilon}$ can distinguish between inputs in $\ell_\infty$-metric that admit isometric embedding and those that incur a distortion of $\frac{3}{2}$. Finally, we present empirical evaluation on classic machine learning datasets and show that the output of our algorithm is comparable to the output of the linkage algorithms while achieving a much faster running time.
翻訳日:2022-10-28 21:16:26 公開日:2020-08-15
# ディープニューラルネットワークを用いたクロスモダリティマルチアトラスセグメンテーション

Cross-Modality Multi-Atlas Segmentation Using Deep Neural Networks ( http://arxiv.org/abs/2008.08946v1 )

ライセンス: Link先を確認
Wangbin Ding, Lei Li, Xiahai Zhuang, Liqin Huang(参考訳) マルチアトラス分割(MAS)における画像登録とラベル融合は、ターゲット画像とアトラス画像の強度類似性に依存する。 しかし、ターゲット画像とアトラス画像が異なる撮像プロトコルで取得される場合、このような類似性は問題となる。 高レベルの構造情報は、ディープニューラルネットワーク(DNN)と協調する際のモダリティ画像の信頼性の高い類似度測定を提供することができる。 本稿では,画像登録とラベル融合の両方がdnnによって達成される,クロスモダリティ画像のための新たなmasフレームワークを提案する。 画像登録には,前方および後方の高密度変位場(ddfs)を共同で推定できる,一貫性のある登録ネットワークを提案する。 さらに、推定DDFの対応あいまいさを低減するために、ネットワークにおいて可逆制約を用いる。 ラベル融合では,atlasとターゲットパッチの類似度を測定するために,数ショット学習ネットワークを適用した。 さらに、ネットワークはパッチベースのラベル融合にシームレスに統合できる。 提案手法はMICCAI 2017のMM-WHSデータセット上で評価される。 その結果, フレームワークは相互モダリティ登録とセグメンテーションの両方に有効であることがわかった。

Both image registration and label fusion in the multi-atlas segmentation (MAS) rely on the intensity similarity between target and atlas images. However, such similarity can be problematic when target and atlas images are acquired using different imaging protocols. High-level structure information can provide reliable similarity measurement for cross-modality images when cooperating with deep neural networks (DNNs). This work presents a new MAS framework for cross-modality images, where both image registration and label fusion are achieved by DNNs. For image registration, we propose a consistent registration network, which can jointly estimate forward and backward dense displacement fields (DDFs). Additionally, an invertible constraint is employed in the network to reduce the correspondence ambiguity of the estimated DDFs. For label fusion, we adapt a few-shot learning network to measure the similarity of atlas and target patches. Moreover, the network can be seamlessly integrated into the patch-based label fusion. The proposed framework is evaluated on the MM-WHS dataset of MICCAI 2017. Results show that the framework is effective in both cross-modality registration and segmentation.
翻訳日:2022-10-28 21:12:31 公開日:2020-08-15
# マルチモーダル音声感情認識を改善するための「バート様」自己教師付きモデル

Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition ( http://arxiv.org/abs/2008.06682v1 )

ライセンス: Link先を確認
Shamane Siriwardhana, Andrew Reis, Rivindu Weerasekera, Suranga Nanayakkara(参考訳) 音声からのマルチモーダル感情認識は感情コンピューティングにおいて重要な分野である。 複数のデータモダリティと学習表現をラベル付きデータに限定して使用することは難しい作業である。 本稿では,マルチモーダル音声感情認識のタスクにおいて,モダリティ固有の「BERT様」事前訓練型自己監視学習(SSL)アーキテクチャを用いて,音声とテキストの両モードを表現している。 公開された3つのデータセット(IEMOCAP、CMU-MOSEI、CMU-MOSI)で実験を行うことで、共同で微調整された"BERTライク"SSLアーキテクチャが最先端(SOTA)の結果が得られることを示す。 また,音声とテキストのモダリティを融合する2つの手法を評価し,bertと同様のアーキテクチャ特性を持つsslモデルを用いた場合,単純な融合機構がより複雑なものよりも優れていることを示す。

Multimodal emotion recognition from speech is an important area in affective computing. Fusing multiple data modalities and learning representations with limited amounts of labeled data is a challenging task. In this paper, we explore the use of modality-specific "BERT-like" pretrained Self Supervised Learning (SSL) architectures to represent both speech and text modalities for the task of multimodal speech emotion recognition. By conducting experiments on three publicly available datasets (IEMOCAP, CMU-MOSEI, and CMU-MOSI), we show that jointly fine-tuning "BERT-like" SSL architectures achieve state-of-the-art (SOTA) results. We also evaluate two methods of fusing speech and text modalities and show that a simple fusion mechanism can outperform more complex ones when using SSL models that have similar architectural properties to BERT.
翻訳日:2022-10-28 21:11:51 公開日:2020-08-15
# 後方投影ピラミッドネットワークを用いた各種ヘイズシナリオのための単一画像デハジング

Single image dehazing for a variety of haze scenarios using back projected pyramid network ( http://arxiv.org/abs/2008.06713v1 )

ライセンス: Link先を確認
Ayush Singh, Ajay Bhave, Dilip K. Prasad(参考訳) 単一のhazyイメージをデヘイズする学習、特に小さなトレーニングデータセットを使用することは、非常に難しい。 本稿では, この問題に対して, 高密度のヘイズや不均一なヘイズなど, 様々な難易度の高いヘイズ条件に対して優れた性能を示す, 逆投影ピラミッドネットワーク(BPPNet)を提案する。 我々のアーキテクチャは, 複雑度の多レベル学習を取り入れつつ, unetsの反復ブロックと, 新たなピラミッド畳み込みブロックによる複数スケールの構造情報を通じて空間的文脈を維持している。 これらのブロックはジェネレータのために結合され、バックプロジェクションを通じて学習することができる。 20対のhazy画像とnon-hazy画像を用いてネットワークをオーバーフィッティングすることなくトレーニングできることを実証した。 本報告では,ntire 2018 homogeneous haze datasets for indoor and outdoor images, ntire 2019 densehaze dataset, ntire 2020 non-homogeneous haze datasetの現状について報告する。

Learning to dehaze single hazy images, especially using a small training dataset is quite challenging. We propose a novel generative adversarial network architecture for this problem, namely back projected pyramid network (BPPNet), that gives good performance for a variety of challenging haze conditions, including dense haze and inhomogeneous haze. Our architecture incorporates learning of multiple levels of complexities while retaining spatial context through iterative blocks of UNets and structural information of multiple scales through a novel pyramidal convolution block. These blocks together for the generator and are amenable to learning through back projection. We have shown that our network can be trained without over-fitting using as few as 20 image pairs of hazy and non-hazy images. We report the state of the art performances on NTIRE 2018 homogeneous haze datasets for indoor and outdoor images, NTIRE 2019 denseHaze dataset, and NTIRE 2020 non-homogeneous haze dataset.
翻訳日:2022-10-28 21:11:33 公開日:2020-08-15
# H-HRI(Healthcare Human Robot Interaction)におけるパーソナリティ : 文献レビューと簡潔な批評

Personality in Healthcare Human Robot Interaction (H-HRI): A Literature Review and Brief Critique ( http://arxiv.org/abs/2008.06723v1 )

ライセンス: Link先を確認
Connor Esterwood, Lionel P. Robert(参考訳) ロボットは医療を提供する重要な方法になりつつある。 しかし,H-HRI(Health Care Human Robot Interaction)では,人格の体系的な包括的理解が欠如している。 これを解決するために、著者らはH-HRIの個性に関する18の研究を識別するレビューを行った。 本稿では,その体系的文献レビューの結果について述べる。 本レビューから得られた方法論,成果,サンプルについて考察した。 本論文の著者らは,注目に値するいくつかのギャップを特定しつつ,本文献における発見について論じる。 本稿では,H-HRIにおける人格理解の出発点となる。

Robots are becoming an important way to deliver health care, and personality is vital to understanding their effectiveness. Despite this, there is a lack of a systematic overarching understanding of personality in health care human robot interaction (H-HRI). To address this, the authors conducted a review that identified 18 studies on personality in H-HRI. This paper presents the results of that systematic literature review. Insights are derived from this review regarding the methodologies, outcomes, and samples utilized. The authors of this review discuss findings across this literature while identifying several gaps worthy of attention. Overall, this paper is an important starting point in understanding personality in H-HRI.
翻訳日:2022-10-28 21:11:14 公開日:2020-08-15
# lpop:論理学とプログラミングの実践における挑戦と進歩

LPOP: Challenges and Advances in Logic and Practice of Programming ( http://arxiv.org/abs/2008.07901v1 )

ライセンス: Link先を確認
David S. Warren and Yanhong A. Liu(参考訳) この記事では、2018年7月18日に英国オックスフォードで開催された最初の Logic and Practice of Programming (LPOP) Workshop で、Federated Logic Conference (FLoC) 2018 とともに発表された作業について説明する。 その焦点は論理学とプログラミングの実践における挑戦と進歩である。 ワークショップはロールベースのアクセス制御(RBAC)の問題を特定する課題問題を中心に企画され、多くの参加者が選択言語で表現された命令型と宣言型を組み合わせたソリューションを提案している。

This article describes the work presented at the first Logic and Practice of Programming (LPOP) Workshop, which was held in Oxford, UK, on July 18, 2018, in conjunction with the Federated Logic Conference (FLoC) 2018. Its focus is challenges and advances in logic and practice of programming. The workshop was organized around a challenge problem that specifies issues in role-based access control (RBAC), with many participants proposing combined imperative and declarative solutions expressed in the languages of their choice.
翻訳日:2022-10-28 21:11:05 公開日:2020-08-15
# 衛星星座を観測する地球をスケジューリングするための最大独立セット法

A Maximum Independent Set Method for Scheduling Earth Observing Satellite Constellations ( http://arxiv.org/abs/2008.08446v1 )

ライセンス: Link先を確認
Duncan Eddy and Mykel J. Kochenderfer(参考訳) 地球観測衛星の運用には、複数の宇宙船の活動を調整する効率的な計画手法が必要である。 衛星タスク計画問題は、自律実行のためのミッション目標を最も満足する選択行動を必要とする。 タスクスケジューリングはヒューリスティックまたはルールベースの計画ツールによって人手によって行われることが多い。 このアプローチは、ヒューリスティックがしばしば長い地平線上の複数の車両の動作を適切に調整できないため、複数の資産に効率的にスケールしない。 さらに、問題の複雑さが要求された観測数で指数関数的にスケールし、また宇宙船の数で線形的にスケールするため、大きな星座ではこの問題の解決が困難になる。 新しい商業的な光学およびレーダーイメージングコンステレーションは、所定の応答性とスループットの目標を満たすための自動計画手法を必要とすることが期待されている。 本稿では,問題の実現不可能性に基づくグラフ表現を生成し,グラフの頂点の最大独立集合を求めることにより,衛星スケジューリング問題を解決する新しい手法を提案する。 このアプローチは、衛星のskysat星座と最大24衛星のシミュレーション星座に対して、最大1万個の要求された撮像位置のシナリオでテストされている。 性能は、現代のグラフトラバースおよび混合整数線形計画法と比較される。 実証的な結果は、ソリューション時間と、ベースラインメソッドを超えて予定されるコレクションの数の両方の改善を示している。 大きな問題に対して、最大独立セットアプローチは、75%の時間で8%以上のコレクションを持つ実行可能なスケジュールを見つけることができる。

Operating Earth observing satellites requires efficient planning methods that coordinate activities of multiple spacecraft. The satellite task planning problem entails selecting actions that best satisfy mission objectives for autonomous execution. Task scheduling is often performed by human operators assisted by heuristic or rule-based planning tools. This approach does not efficiently scale to multiple assets as heuristics frequently fail to properly coordinate actions of multiple vehicles over long horizons. Additionally, the problem becomes more difficult to solve for large constellations as the complexity of the problem scales exponentially in the number of requested observations and linearly in the number of spacecraft. It is expected that new commercial optical and radar imaging constellations will require automated planning methods to meet stated responsiveness and throughput objectives. This paper introduces a new approach for solving the satellite scheduling problem by generating an infeasibility-based graph representation of the problem and finding a maximal independent set of vertices for the graph. The approach is tested on a scenarios of up to 10,000 requested imaging locations for the Skysat constellation of optical satellites as well as simulated constellations of up to 24 satellites. Performance is compared with contemporary graph-traversal and mixed-integer linear programming approaches. Empirical results demonstrate improvements in both the solution time along with the number of scheduled collections beyond baseline methods. For large problems, the maximum independent set approach is able find a feasible schedule with 8% more collections in 75% less time.
翻訳日:2022-10-28 21:10:55 公開日:2020-08-15
# 深層ニューラルネットワークとガウス過程を用いた空力設計最適化のためのデータ効率の向上

Enhanced data efficiency using deep neural networks and Gaussian processes for aerodynamic design optimization ( http://arxiv.org/abs/2008.06731v1 )

ライセンス: Link先を確認
S. Ashwin Renganathan, Romit Maulik and, Jai Ahuja(参考訳) 随伴に基づく最適化手法は空力形状設計において、主に入力空間の次元に依存しない計算コストと、勾配に基づく最適化器で使用できる高忠実度勾配を生成する能力から魅力的である。 これは航空機の翼のような高度にパラメータ化されたジオメトリの高忠実度シミュレーションに基づく空力形状最適化に非常に適している。 しかし、随伴型解法の開発には注意深い数学的処理が必要であり、その実装には詳細なソフトウェア開発が必要である。 さらに、複数の最適化問題が解決された場合、局所最適化を回避するために複数の再起動を必要とする場合、これらは違法に高価になる可能性がある。 本研究では,予測精度の予測に妥協することなく,高価な随伴解法を代替する,サロゲートベースの機械学習フレームワークを提案する。 具体的には、モデルに依存しないモデル上での高忠実度シミュレーションモデルの評価から生成されたトレーニングデータからディープニューラルネットワーク(DNN)をトレーニングし、幾何学的形状パラメータに関する実験を設計する。 最適形状は、訓練されたDNNと組み合わされた勾配ベースのオプティマイザを用いて計算することができる。 その後、勾配のないベイズ最適化を行い、訓練されたDNNを事前平均として使用する。 後者のフレームワーク(DNN-BO)は、同じ計算コストに対して、DNNのみに基づく最適化戦略を改善する。 全体として、このフレームワークは真の最適化を非常に高い精度で予測する一方で、随伴法に比べて高忠実度関数呼び出しをはるかに少なくする。 さらに,複数の最適化問題を同一の機械学習モデルで高精度に解くことで,モデル構築に伴うオフラインコストを償却できることを示す。

Adjoint-based optimization methods are attractive for aerodynamic shape design primarily due to their computational costs being independent of the dimensionality of the input space and their ability to generate high-fidelity gradients that can then be used in a gradient-based optimizer. This makes them very well suited for high-fidelity simulation based aerodynamic shape optimization of highly parametrized geometries such as aircraft wings. However, the development of adjoint-based solvers involve careful mathematical treatment and their implementation require detailed software development. Furthermore, they can become prohibitively expensive when multiple optimization problems are being solved, each requiring multiple restarts to circumvent local optima. In this work, we propose a machine learning enabled, surrogate-based framework that replaces the expensive adjoint solver, without compromising on predicting predictive accuracy. Specifically, we first train a deep neural network (DNN) from training data generated from evaluating the high-fidelity simulation model on a model-agnostic, design of experiments on the geometry shape parameters. The optimum shape may then be computed by using a gradient-based optimizer coupled with the trained DNN. Subsequently, we also perform a gradient-free Bayesian optimization, where the trained DNN is used as the prior mean. We observe that the latter framework (DNN-BO) improves upon the DNN-only based optimization strategy for the same computational cost. Overall, this framework predicts the true optimum with very high accuracy, while requiring far fewer high-fidelity function calls compared to the adjoint-based method. Furthermore, we show that multiple optimization problems can be solved with the same machine learning model with high accuracy, to amortize the offline costs associated with constructing our models.
翻訳日:2022-10-28 21:10:34 公開日:2020-08-15
# ハイブリッドワークロードの自動ストレージ構造選択

Automatic Storage Structure Selection for hybrid Workload ( http://arxiv.org/abs/2008.06640v1 )

ライセンス: Link先を確認
Hongzhi Wang, Yan Wei and Hao Yan(参考訳) データベースシステムでは、ストレージエンジンとデータモデルの設計は、クエリ実行時のデータベースのパフォーマンスに直接影響します。 したがって、データベースのユーザは、遭遇したワークロードに応じて、ストレージエンジンとデータモデルを選択する必要がある。 しかし、ハイブリッドワークロードでは、データベースのクエリセットが動的に変化しており、その最適なストレージ構造の設計も変化している。 そこで本研究では,ハイブリッドワークロード下でデータベースの最適なストレージ構造を動的に選択するために,学習コストに基づく自動記憶構造選択システムを提案する。 本システムでは,ストレージエンジンのコストモデルを構築するための機械学習手法と,カラム指向のデータレイアウト生成アルゴリズムを提案する。 実験の結果,本システムでは,現在のワークロードに応じて,ストレージエンジンとデータモデルの組み合わせを最適に選択できることがわかった。 システムは様々なストレージエンジンと互換性があり、実用的なアプリケーションで簡単に使えるように設計されている。

In the use of database systems, the design of the storage engine and data model directly affects the performance of the database when performing queries. Therefore, the users of the database need to select the storage engine and design data model according to the workload encountered. However, in a hybrid workload, the query set of the database is dynamically changing, and the design of its optimal storage structure is also changing. Motivated by this, we propose an automatic storage structure selection system based on learning cost, which is used to dynamically select the optimal storage structure of the database under hybrid workloads. In the system, we introduce a machine learning method to build a cost model for the storage engine, and a column-oriented data layout generation algorithm. Experimental results show that the proposed system can choose the optimal combination of storage engine and data model according to the current workload, which greatly improves the performance of the default storage structure. And the system is designed to be compatible with different storage engines for easy use in practical applications.
翻訳日:2022-10-28 21:10:08 公開日:2020-08-15
# ギャップを横切る: ダイナミクスのためのゼロショットシミュレートトランスファーへのディープダイブ

Crossing The Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics ( http://arxiv.org/abs/2008.06686v1 )

ライセンス: Link先を確認
Eugene Valassakis, Zihan Ding and Edward Johns(参考訳) 複雑なダイナミクスを持つタスクのゼロショットシミュレートは、非常に困難で未解決な問題である。 近年,多くの手法が提案されているが,多くの研究が実世界において徹底的な評価を行なわず,また,成果の達成に必要な重要な工学的努力やタスク固有の微調整を過小評価している。 本稿では,シム・トゥ・リアル・トランスファーの課題を深く掘り下げ,これがなぜ難しい問題なのかを考察し,現実のタスクにまたがる多数のトランスファー手法の客観的評価を提案する。 意外なことに、シミュレーションにランダムな力を注入するだけで、シミュレータの動的パラメータをランダム化したり、リカレントネットワークアーキテクチャを使ってオンラインにポリシーを適用するような、より複雑な手法が実現できることがわかった。

Zero-shot sim-to-real transfer of tasks with complex dynamics is a highly challenging and unsolved problem. A number of solutions have been proposed in recent years, but we have found that many works do not present a thorough evaluation in the real world, or underplay the significant engineering effort and task-specific fine tuning that is required to achieve the published results. In this paper, we dive deeper into the sim-to-real transfer challenge, investigate why this is such a difficult problem, and present objective evaluations of a number of transfer methods across a range of real-world tasks. Surprisingly, we found that a method which simply injects random forces into the simulation performs just as well as more complex methods, such as those which randomise the simulator's dynamics parameters, or adapt a policy online using recurrent network architectures.
翻訳日:2022-10-28 21:09:54 公開日:2020-08-15
# 多段テキスト分類のためのラベル付き文書事前学習

Label-Wise Document Pre-Training for Multi-Label Text Classification ( http://arxiv.org/abs/2008.06695v1 )

ライセンス: Link先を確認
Han Liu, Caixia Yuan, and Xiaojie Wang(参考訳) マルチラベルテキスト分類(MLTC)の大きな課題は、ラベルの違いやラベル相関を刺激的に活用することである。 本稿では,ラベル認識情報を用いた文書表現を実現するために,ラベルワイズ事前学習法(LW-PT)を開発した。 基本的な考え方は、複数ラベルの文書は複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。 LW-PTは、ラベルワイド文書分類タスクを構築し、ラベルワイド文書エンコーダを訓練することで、この考え方を実装している。 最後に、事前訓練されたラベルワイドエンコーダを下流MLTCタスクで微調整する。 実験結果から,提案手法は従来の最先端モデルよりも有意な優位性を示し,合理的なラベル関係を見出すことができた。 コードは、他の研究者を支援するためにリリースされている。

A major challenge of multi-label text classification (MLTC) is to stimulatingly exploit possible label differences and label correlations. In this paper, we tackle this challenge by developing Label-Wise Pre-Training (LW-PT) method to get a document representation with label-aware information. The basic idea is that, a multi-label document can be represented as a combination of multiple label-wise representations, and that, correlated labels always cooccur in the same or similar documents. LW-PT implements this idea by constructing label-wise document classification tasks and trains label-wise document encoders. Finally, the pre-trained label-wise encoder is fine-tuned with the downstream MLTC task. Extensive experimental results validate that the proposed method has significant advantages over the previous state-of-the-art models and is able to discover reasonable label relationship. The code is released to facilitate other researchers.
翻訳日:2022-10-28 21:03:41 公開日:2020-08-15
# 複数データセットからの統一ラベル空間による物体検出

Object Detection with a Unified Label Space from Multiple Datasets ( http://arxiv.org/abs/2008.06614v1 )

ライセンス: Link先を確認
Xiangyun Zhao, Samuel Schulter, Gaurav Sharma, Yi-Hsuan Tsai, Manmohan Chandraker, Ying Wu(参考訳) 異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目的は、すべてのラベル空間の結合を予測できる単一のオブジェクト検出器をトレーニングすることである。 このようなオブジェクト検出の実用的メリットは明らかであり、アプリケーション関連カテゴリを選択して、任意の既存のデータセットにマージすることができる。 しかし、この場合、一貫性のないオブジェクトアノテーションのため、データセットの単純なマージは不可能である。 あるデータセットにアノテートされているが、別のデータセットにはアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。 顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景となる。 この課題に対処するために、このような部分的なアノテーションを扱うフレームワークを設計し、特定のケースに適応する擬似ラベリングアプローチを活用する。 本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。 提案する新規設定における評価には,テストセットへの完全なアノテーションが必要である。 必要なアノテーションを収集し、既存の1つのパブリックデータセットに基づいて、このタスクの新たな挑戦的な実験的なセットアップを定義します。 競合するベースラインや既存の作業の適切な適応と比較して,パフォーマンスが向上したことを示す。

Given multiple datasets with different label spaces, the goal of this work is to train a single object detector predicting over the union of all the label spaces. The practical benefits of such an object detector are obvious and significant application-relevant categories can be picked and merged form arbitrary existing datasets. However, naive merging of datasets is not possible in this case, due to inconsistent object annotations. Consider an object category like faces that is annotated in one dataset, but is not annotated in another dataset, although the object itself appears in the latter images. Some categories, like face here, would thus be considered foreground in one dataset, but background in another. To address this challenge, we design a framework which works with such partial annotations, and we exploit a pseudo labeling approach that we adapt for our specific case. We propose loss functions that carefully integrate partial but correct annotations with complementary but noisy pseudo labels. Evaluation in the proposed novel setting requires full annotation on the test set. We collect the required annotations and define a new challenging experimental setup for this task based one existing public datasets. We show improved performances compared to competitive baselines and appropriate adaptations of existing work.
翻訳日:2022-10-28 21:02:29 公開日:2020-08-15
# Graph Edit Distance Reward: シーングラフの編集を学ぶ

Graph Edit Distance Reward: Learning to Edit Scene Graph ( http://arxiv.org/abs/2008.06651v1 )

ライセンス: Link先を確認
Lichang Chen, Guosheng Lin, Shijie Wang, Qingyao Wu(参考訳) 言語ドメインと画像ドメインのギャップを埋める重要なツールであるScene Graphは、VQAのようなクロスモダリティタスクで広く採用されている。 本稿では,これまで検討されていないユーザ指示に従ってシーングラフを編集する新しい手法を提案する。 具体的には、テキストの意味としてシーングラフの編集を学習するために、ポリシー勾配とグラフマッチングアルゴリズムに基づくグラフ編集距離報酬を提案し、ニューラルネットワークのシンボリックモデルを最適化する。 テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。 さらに、CRIRは私たちによって生成された新しい合成データセットであり、近い将来に公開します。

Scene Graph, as a vital tool to bridge the gap between language domain and image domain, has been widely adopted in the cross-modality task like VQA. In this paper, we propose a new method to edit the scene graph according to the user instructions, which has never been explored. To be specific, in order to learn editing scene graphs as the semantics given by texts, we propose a Graph Edit Distance Reward, which is based on the Policy Gradient and Graph Matching algorithm, to optimize neural symbolic model. In the context of text-editing image retrieval, we validate the effectiveness of our method in CSS and CRIR dataset. Besides, CRIR is a new synthetic dataset generated by us, which we will publish it soon for future use.
翻訳日:2022-10-28 21:02:11 公開日:2020-08-15
# モバイル拡張現実における物体検出

Object Detection in the Context of Mobile Augmented Reality ( http://arxiv.org/abs/2008.06655v1 )

ライセンス: Link先を確認
Xiang Li and Yuan Tian and Fuyao Zhang and Shuxue Quan and Yi Xu(参考訳) 近年,RGB画像からのリアルタイム物体検出問題に対処するために,多数のディープニューラルネットワーク(DNN)モデルとフレームワークが開発されている。 通常の物体検出は、画像のみからの処理情報にアプローチし、環境や環境の規模に関してカメラのポーズに不自由である。 一方、モバイル拡張現実(AR)フレームワークは、シーン内のカメラのポーズを継続的に追跡することができ、視覚慣性オドメトリー(VIO)を用いて環境の正確なスケールを推定することができる。 本稿では,vioからの幾何情報と物体検出器からの意味情報を組み合わせて,モバイルデバイス上での物体検出性能を向上させる新しい手法を提案する。 提案手法は,(1)画像配向補正法,(2)スケールベースフィルタリング法,(3)オンライン意味地図の3つの構成要素を含む。 各コンポーネントは、VIOベースのARフレームワークの異なる特性を利用する。 我々は,ARCore と SSD Mobilenet モデルを Android 携帯上で実装した。 提案手法を検証するため,12部屋規模のARセッションから得られた画像列にオブジェクトを手動でラベル付けした。 その結果,汎用物体検出器の精度をデータセット上で12%向上できることがわかった。

In the past few years, numerous Deep Neural Network (DNN) models and frameworks have been developed to tackle the problem of real-time object detection from RGB images. Ordinary object detection approaches process information from the images only, and they are oblivious to the camera pose with regard to the environment and the scale of the environment. On the other hand, mobile Augmented Reality (AR) frameworks can continuously track a camera's pose within the scene and can estimate the correct scale of the environment by using Visual-Inertial Odometry (VIO). In this paper, we propose a novel approach that combines the geometric information from VIO with semantic information from object detectors to improve the performance of object detection on mobile devices. Our approach includes three components: (1) an image orientation correction method, (2) a scale-based filtering approach, and (3) an online semantic map. Each component takes advantage of the different characteristics of the VIO-based AR framework. We implemented the AR-enhanced features using ARCore and the SSD Mobilenet model on Android phones. To validate our approach, we manually labeled objects in image sequences taken from 12 room-scale AR sessions. The results show that our approach can improve on the accuracy of generic object detectors by 12% on our dataset.
翻訳日:2022-10-28 21:01:59 公開日:2020-08-15
# broadface: 顔認識のために一度に数万人を見る

BroadFace: Looking at Tens of Thousands of People at Once for Face Recognition ( http://arxiv.org/abs/2008.06674v1 )

ライセンス: Link先を確認
Yonghyun Kim, Wonpyo Park, Jongju Shin(参考訳) 顔認識のデータセットには、膨大な数のIDとインスタンスが含まれている。 しかし、サイズが小さいミニバッチは、すべてのidのごく一部しか含まないため、従来の手法ではデータセット全体の分布を反映することが困難である。 そこで本稿では,この課題を克服するために,膨大なid集合を包括的に考えるための学習プロセスであるbroadfaceを提案する。 BroadFaceでは、線形分類器は過去の繰り返しに蓄積された多数の埋め込みベクトルからアイデンティティ間の最適決定境界を学習する。 一度により多くのインスタンスを参照することで、分類器の最適性はデータセット全体に自然に増大する。 これにより、エンコーダも分類器の重み行列を参照してグローバルに最適化される。 また,トレーニング段階における参照インスタンス数を増やすための新たな補償手法を提案する。 BroadFaceは既存の多くの手法に簡単に適用でき、推論段階で余分な計算負担を伴わずに学習プロセスを加速し、精度を大幅に向上させることができる。 様々なデータセットについて広範なアブレーション実験を行い,ブロードフェイスの有効性を示すとともに,補償法の有効性を実証した。 BroadFaceは、9つのデータセットを1:1の顔認証と1:Nの顔識別タスクで大幅に改善し、画像検索にも有効である。

The datasets of face recognition contain an enormous number of identities and instances. However, conventional methods have difficulty in reflecting the entire distribution of the datasets because a mini-batch of small size contains only a small portion of all identities. To overcome this difficulty, we propose a novel method called BroadFace, which is a learning process to consider a massive set of identities, comprehensively. In BroadFace, a linear classifier learns optimal decision boundaries among identities from a large number of embedding vectors accumulated over past iterations. By referring more instances at once, the optimality of the classifier is naturally increased on the entire datasets. Thus, the encoder is also globally optimized by referring the weight matrix of the classifier. Moreover, we propose a novel compensation method to increase the number of referenced instances in the training stage. BroadFace can be easily applied on many existing methods to accelerate a learning process and obtain a significant improvement in accuracy without extra computational burden at inference stage. We perform extensive ablation studies and experiments on various datasets to show the effectiveness of BroadFace, and also empirically prove the validity of our compensation method. BroadFace achieves the state-of-the-art results with significant improvements on nine datasets in 1:1 face verification and 1:N face identification tasks, and is also effective in image retrieval.
翻訳日:2022-10-28 21:01:39 公開日:2020-08-15
# リカレントビデオオブジェクトセグメンテーションのためのカリキュラム学習

Curriculum Learning for Recurrent Video Object Segmentation ( http://arxiv.org/abs/2008.06698v1 )

ライセンス: Link先を確認
Maria Gonzalez-i-Calabuig, Carles Ventura and Xavier Gir\'o-i-Nieto(参考訳) ビデオオブジェクトのセグメンテーションは、深層ニューラルネットワークのトレーニングをより高速にするために、カリキュラム学習戦略の恩恵を受けるシーケンシャル・ツー・シーケンスタスクとして理解することができる。 本研究では、異なるスケジュールサンプリングとフレームスキップのバリエーションを調査し、繰り返しアーキテクチャの性能を大幅に改善する。 KITTI-MOTS チャレンジのカークラスで得られた結果は、意外なことに、逆スケジュールサンプリングが古典的な前方モデルよりも良い選択肢であることを示している。 また、トレーニング中のフレームのプログレッシブスキップは有益であるが、予測されたフレームではなく、地上の真相マスクでトレーニングする場合に限られる。 ソースコードとトレーニングされたモデルはhttp://imatge-upc.github.io/rvos-mots/で入手できる。

Video object segmentation can be understood as a sequence-to-sequence task that can benefit from the curriculum learning strategies for better and faster training of deep neural networks. This work explores different schedule sampling and frame skipping variations to significantly improve the performance of a recurrent architecture. Our results on the car class of the KITTI-MOTS challenge indicate that, surprisingly, an inverse schedule sampling is a better option than a classic forward one. Also, that a progressive skipping of frames during training is beneficial, but only when training with the ground truth masks instead of the predicted ones. Source code and trained models are available at http://imatge-upc.github.io/rvos-mots/.
翻訳日:2022-10-28 21:01:19 公開日:2020-08-15
# 人物識別のためのクラスタレベルの特徴アライメント

Cluster-level Feature Alignment for Person Re-identification ( http://arxiv.org/abs/2008.06810v1 )

ライセンス: Link先を確認
Qiuyu Chen, Wei Zhang, Jianping Fan(参考訳) インスタンスレベルのアライメントは、空間アライメント、潜在セマンティックアライメント、トリプルトアライメントなど、人物の再識別に広く利用される。 そこで本研究では, 局所的なミニバッチにおけるサンプル画像だけでなく, 蒸留アンカーからのデータセット全体のグローバルな特徴分布をモデルとして, データセット全体のクラスタレベルの特徴アライメントを探索する。 この目的に向けて,アンカーロスを提案し,データセットの概要から反復集約とアライメントからなるクラスタレベルの機能アライメントの多種多様な変種を調査した。 従来型トレーニングの飽和後の小さなトレーニングで,本手法が一貫した,重要なパフォーマンス向上を実現することを実証した。 理論と実験の両方の面において、提案手法はより安定し、より良い表現と整列埋め込みの一般化に向けた最適化を導くことができる。

Instance-level alignment is widely exploited for person re-identification, e.g. spatial alignment, latent semantic alignment and triplet alignment. This paper probes another feature alignment modality, namely cluster-level feature alignment across whole dataset, where the model can see not only the sampled images in local mini-batch but the global feature distribution of the whole dataset from distilled anchors. Towards this aim, we propose anchor loss and investigate many variants of cluster-level feature alignment, which consists of iterative aggregation and alignment from the overview of dataset. Our extensive experiments have demonstrated that our methods can provide consistent and significant performance improvement with small training efforts after the saturation of traditional training. In both theoretical and experimental aspects, our proposed methods can result in more stable and guided optimization towards better representation and generalization for well-aligned embedding.
翻訳日:2022-10-28 21:01:06 公開日:2020-08-15
# マルコフ決定過程における安全強化学習

Safe Reinforcement Learning in Constrained Markov Decision Processes ( http://arxiv.org/abs/2008.06626v1 )

ライセンス: Link先を確認
Akifumi Wachi and Yanan Sui(参考訳) 安全強化学習は、安全クリティカルなアプリケーションで運用するエージェントのポリシーを最適化するための有望なアプローチである。 本論文では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。 具体的には、安全と累積報酬を最適化するための段階的なアプローチを取ります。 本手法では,まず安全領域を拡大して安全制約を学習し,認証された安全領域における累積報酬を最適化する。 安全制約の満足度と累積報酬のほぼ最適性の両方を適切な正規性仮定の下で理論的に保証する。 実験では,GP-SAFETY-GYMという新しい環境において合成データを用いて,実観測データを用いて火星表面探査をシミュレーションし,SNO-MDPの有効性を実証した。

Safe reinforcement learning has been a promising approach for optimizing the policy of an agent that operates in safety-critical applications. In this paper, we propose an algorithm, SNO-MDP, that explores and optimizes Markov decision processes under unknown safety constraints. Specifically, we take a stepwise approach for optimizing safety and cumulative reward. In our method, the agent first learns safety constraints by expanding the safe region, and then optimizes the cumulative reward in the certified safe region. We provide theoretical guarantees on both the satisfaction of the safety constraint and the near-optimality of the cumulative reward under proper regularity assumptions. In our experiments, we demonstrate the effectiveness of SNO-MDP through two experiments: one uses a synthetic data in a new, openly-available environment named GP-SAFETY-GYM, and the other simulates Mars surface exploration by using real observation data.
翻訳日:2022-10-28 20:54:56 公開日:2020-08-15
# 自律ブレーキとスロットルシステム:自然主義運転のための深層強化学習アプローチ

Autonomous Braking and Throttle System: A Deep Reinforcement Learning Approach for Naturalistic Driving ( http://arxiv.org/abs/2008.06696v1 )

ライセンス: Link先を確認
Varshit S. Dubey, Ruhshad Kasad and Karan Agrawal(参考訳) 自律ブレーキとスロットル制御は、将来安全な運転システムを開発する上で鍵となる。 自動運転車は安全と快適性を確保しつつ、マルチエージェント環境を交渉する必要がある。 深層強化学習に基づく自律スロットルブレーキシステムについて述べる。 提案システムでは,各タイムステップ毎にブレーキやスロットルの適用を決定した。 スロットルとブレーキは連続した作用空間値としてモデル化される。 我々は、洗練されたブレーキとスロットルシステムの必要性、すなわち、車のようなエージェントの前に静的な障害物がある場合、停止標識がある2つのシナリオを実証する。 第2のシナリオは、2台の車両が交差点に近づいている。 ブレーキとスロットル制御のポリシーは、Deep Deterministic Policy gradientsを用いたコンピュータシミュレーションによって学習される。 この実験は、システムが衝突を避けるだけでなく、緊急時にスロットル/ブレーキの値がスムーズに変化し、速度規制、すなわちシステムが人間の運転に類似していることを示す。

Autonomous Braking and Throttle control is key in developing safe driving systems for the future. There exists a need for autonomous vehicles to negotiate a multi-agent environment while ensuring safety and comfort. A Deep Reinforcement Learning based autonomous throttle and braking system is presented. For each time step, the proposed system makes a decision to apply the brake or throttle. The throttle and brake are modelled as continuous action space values. We demonstrate 2 scenarios where there is a need for a sophisticated braking and throttle system, i.e when there is a static obstacle in front of our agent like a car, stop sign. The second scenario consists of 2 vehicles approaching an intersection. The policies for brake and throttle control are learned through computer simulation using Deep deterministic policy gradients. The experiment shows that the system not only avoids a collision, but also it ensures that there is smooth change in the values of throttle/brake as it gets out of the emergency situation and abides by the speed regulations, i.e the system resembles human driving.
翻訳日:2022-10-28 20:54:42 公開日:2020-08-15
# トップN勧告課題における双曲幾何モデルの性能

Performance of Hyperbolic Geometry Models on Top-N Recommendation Tasks ( http://arxiv.org/abs/2008.06716v1 )

ライセンス: Link先を確認
Leyla Mirvakhabova, Evgeny Frolov, Valentin Khrulkov, Ivan Oseledets, Alexander Tuzhilin(参考訳) 標準的な協調フィルタリング問題の解法として,双曲幾何学に基づく単純なオートエンコーダを提案する。 現代の多くのディープラーニング技術とは対照的に、単一の隠れレイヤだけでソリューションを構築しています。 注目すべきは、そのような最小主義的アプローチであっても、ユークリッド的アプローチよりも優れているだけでなく、現在の最先端技術に関して競争的なパフォーマンスを達成することである。 さらに,双曲モデルの品質に及ぼす空間曲率の影響についても検討し,その最適値を推定するための効率的なデータ駆動法を提案する。

We introduce a simple autoencoder based on hyperbolic geometry for solving standard collaborative filtering problem. In contrast to many modern deep learning techniques, we build our solution using only a single hidden layer. Remarkably, even with such a minimalistic approach, we not only outperform the Euclidean counterpart but also achieve a competitive performance with respect to the current state-of-the-art. We additionally explore the effects of space curvature on the quality of hyperbolic models and propose an efficient data-driven method for estimating its optimal value.
翻訳日:2022-10-28 20:54:01 公開日:2020-08-15
# 深度とエゴモーションの自己教師付き学習のためのニューラルレイサーフェス

Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion ( http://arxiv.org/abs/2008.06630v1 )

ライセンス: Link先を確認
Igor Vasiljevic, Vitor Guizilini, Rares Ambrus, Sudeep Pillai, Wolfram Burgard, Greg Shakhnarovich, Adrien Gaidon(参考訳) 自己教師型学習は、深度とエゴモーション推定の強力なツールとして登場し、ベンチマークデータセットの最先端結果につながっている。 しかし、現在の手法で共有されている1つの重要な制限は、既知のパラメトリックカメラモデル(通常は標準的なピンホール幾何学)の仮定であり、この仮定からかなり逸脱したイメージングシステム(例えば、白内障カメラや水中イメージング)に適用した場合に失敗する。 本研究は,カメラモデルの事前知識を必要とせず,正確な深度とエゴモーション推定を学習するために,自己監督が利用できることを示す。 Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、幅広いカメラを近似する画素ワイド投影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。 NRSは完全に差別化可能で、ラベルなしの生のビデオからエンドツーエンドで学習することができる。 我々は, ピンホール, 魚眼, カタディオプトリなど多種多様なカメラシステムを用いて得られた生ビデオから, 視覚計測の自己指導学習と深度推定にNRSを用いることを実証した。

Self-supervised learning has emerged as a powerful tool for depth and ego-motion estimation, leading to state-of-the-art results on benchmark datasets. However, one significant limitation shared by current methods is the assumption of a known parametric camera model -- usually the standard pinhole geometry -- leading to failure when applied to imaging systems that deviate significantly from this assumption (e.g., catadioptric cameras or underwater imaging). In this work, we show that self-supervision can be used to learn accurate depth and ego-motion estimation without prior knowledge of the camera model. Inspired by the geometric model of Grossberg and Nayar, we introduce Neural Ray Surfaces (NRS), convolutional networks that represent pixel-wise projection rays, approximating a wide range of cameras. NRS are fully differentiable and can be learned end-to-end from unlabeled raw videos. We demonstrate the use of NRS for self-supervised learning of visual odometry and depth estimation from raw videos obtained using a wide variety of camera systems, including pinhole, fisheye, and catadioptric.
翻訳日:2022-10-28 20:53:36 公開日:2020-08-15
# dehaze-glcgan: 逆行訓練による非ペア化シングルイメージデハジング

Dehaze-GLCGAN: Unpaired Single Image De-hazing via Adversarial Training ( http://arxiv.org/abs/2008.06632v1 )

ライセンス: Link先を確認
Zahra Anvari, Vassilis Athitsos(参考訳) 単一画像デヘイジングは難しい問題であり、解決にはほど遠い。 現在のソリューションでは、hazyイメージとそれに対応するhazeフリーな地上画像の両方を含むペアイメージデータセットが必要です。 しかし、現実には、照明条件やその他の要因は、ぼんやりとした画像の根拠となるような、不規則な画像の範囲を作り出すことができ、一方の地上の真理像は、その範囲を捉えることができない。 これにより、現実世界のアプリケーションにおけるペア画像データセットのスケーラビリティと実用性が制限される。 本稿では,非ペア化シングルイメージデハジングに着目し,基底真理像や物理的散乱モデルには依存しない。 本稿では,画像から画像への変換問題に対する画像デハジング問題を低減し,グローバル・ローカル・サイクル整合生成型逆ネットワーク(dehaze-glcgan)を提案する。 Dehaze-GLCGANのジェネレータネットワークは、エンコーダ・デコーダアーキテクチャと残余ブロックを組み合わせることで、ヘイズフリーシーンをよりよく復元する。 また,空間的に変化するヘイズに対処するために,グローバル局所判別器構造を用いる。 アブレーション研究を通じて,提案するネットワークの性能に異なる要因の有効性を示す。 3つのベンチマークデータセットにわたる広範な実験により、我々のネットワークは他の手法よりも少ないデータ量でトレーニングしながら、psnrとssimの点で以前の作業よりも優れています。

Single image de-hazing is a challenging problem, and it is far from solved. Most current solutions require paired image datasets that include both hazy images and their corresponding haze-free ground-truth images. However, in reality, lighting conditions and other factors can produce a range of haze-free images that can serve as ground truth for a hazy image, and a single ground truth image cannot capture that range. This limits the scalability and practicality of paired image datasets in real-world applications. In this paper, we focus on unpaired single image de-hazing and we do not rely on the ground truth image or physical scattering model. We reduce the image de-hazing problem to an image-to-image translation problem and propose a dehazing Global-Local Cycle-consistent Generative Adversarial Network (Dehaze-GLCGAN). Generator network of Dehaze-GLCGAN combines an encoder-decoder architecture with residual blocks to better recover the haze free scene. We also employ a global-local discriminator structure to deal with spatially varying haze. Through ablation study, we demonstrate the effectiveness of different factors in the performance of the proposed network. Our extensive experiments over three benchmark datasets show that our network outperforms previous work in terms of PSNR and SSIM while being trained on smaller amount of data compared to other methods.
翻訳日:2022-10-28 20:53:14 公開日:2020-08-15
# 大腸内視鏡画像におけるポリープ検出のための深部畳み込みニューラルネットワーク

A Deep Convolutional Neural Network for the Detection of Polyps in Colonoscopy Images ( http://arxiv.org/abs/2008.06721v1 )

ライセンス: Link先を確認
Tariq Rahim, Syed Ali Hassan, Soo Young Shin(参考訳) 大腸内視鏡検査における多発性ポリープ様イミテーターの外観, 質感, 色, サイズ, 存在度が多様であるため, 大腸ポリープのコンピュータによる検出は未解決の課題である。 本稿では,大腸内視鏡画像中のポリープをコンピュータで検出するディープ畳み込みニューラルネットワークモデルを提案する。 提案モデルは,完全連結層が2層ある16の畳み込み層とソフトマックス層で構成され,同一隠れ層内の異なる畳み込みカーネルを用いて,より深い特徴抽出を行うユニークな手法を実装した。 情報のより深い伝播にはMISHと修正線形単位活性化関数の2つの異なるアクティベーション関数を適用した。 さらに,共役の一般化した交叉を用い,スケール不変性,回転,形状といった問題を克服した。 光度計や幾何歪みなどのデータ拡張技術は、ポリープ検出で直面する障害を克服するために適応される。 詳細なベンチマーク結果が提供され、精度、感度、F1-スコア、F2-スコア、サイス係数が向上し、提案モデルの有効性が証明された。

Computerized detection of colonic polyps remains an unsolved issue because of the wide variation in the appearance, texture, color, size, and presence of the multiple polyp-like imitators during colonoscopy. In this paper, we propose a deep convolutional neural network based model for the computerized detection of polyps within colonoscopy images. The proposed model comprises 16 convolutional layers with 2 fully connected layers, and a Softmax layer, where we implement a unique approach using different convolutional kernels within the same hidden layer for deeper feature extraction. We applied two different activation functions, MISH and rectified linear unit activation functions for deeper propagation of information and self regularized smooth non-monotonicity. Furthermore, we used a generalized intersection of union, thus overcoming issues such as scale invariance, rotation, and shape. Data augmentation techniques such as photometric and geometric distortions are adapted to overcome the obstacles faced in polyp detection. Detailed benchmarked results are provided, showing better performance in terms of precision, sensitivity, F1- score, F2- score, and dice-coefficient, thus proving the efficacy of the proposed model.
翻訳日:2022-10-28 20:52:48 公開日:2020-08-15
# 新しい師範:モノのインターネットと深層学習を用いたCovid-19のタイムリー検出と包摂のための協調パラダイム

New Normal: Cooperative Paradigm for Covid-19 Timely Detection and Containment using Internet of Things and Deep Learning ( http://arxiv.org/abs/2008.12103v1 )

ライセンス: Link先を確認
Farooque Hassan Kumbhar, Syed Ali Hassan, Soo Young Shin(参考訳) 新型コロナウイルス(COVID-19)の感染拡大は、世界経済に影響を及ぼし、政府や保健当局に数十億ドルの損害を与えた。 本研究の目的は、ウイルスの拡散を検知するだけでなく、ビジネスや経済を再開し、社会生活を再開するのに役立つコネクテッド・スマート・パラダイムを導入することである。 私たちは、コンボリューションニューラルネットワーク(CNN)に基づくオブジェクト検出、スマートウェアラブル、コネクテッドeヘルスを利用して、現在と将来のアウトブレイクを避ける、コネクテッドモノのインターネット(IoT)ベースのパラダイムを提案しています。 まず、接続された監視カメラが連続ビデオストリームをサーバに送信し、対象間距離を検出してソーシャルディスタンシング違反を識別します。 違反は、アクティブなスマートフォンユーザーの地域ベースの監視と、その病気の現状を活性化する。 確認された患者又は高症状の者が存在する場合、システム・トラックは感染した人々を追跡し、適切な措置を講じる。 YOLO(一度だけ見える)v2とv3を用いたソーシャルディスタンス違反検出手法と,Pythonシミュレーションによる感染拡散追跡手法について検討した。

The spread of the novel coronavirus (COVID-19) has caused trillions of dollars in damages to the governments and health authorities by affecting the global economies. The purpose of this study is to introduce a connected smart paradigm that not only detects the possible spread of viruses but also helps to restart businesses/economies, and resume social life. We are proposing a connected Internet of Things ( IoT) based paradigm that makes use of object detection based on convolution neural networks (CNN), smart wearable and connected e-health to avoid current and future outbreaks. First, connected surveillance cameras feed continuous video stream to the server where we detect the inter-object distance to identify any social distancing violations. A violation activates area-based monitoring of active smartphone users and their current state of illness. In case a confirmed patient or a person with high symptoms is present, the system tracks exposed and infected people and appropriate measures are put into actions. We evaluated the proposed scheme for social distancing violation detection using YOLO (you only look once) v2 and v3, and for infection spread tracing using Python simulation.
翻訳日:2022-10-28 20:52:28 公開日:2020-08-15
# 自己エンコーダに基づく固有値問題の低次モデルと中性子拡散への応用

An autoencoder-based reduced-order model for eigenvalue problems with application to neutron diffusion ( http://arxiv.org/abs/2008.10532v1 )

ライセンス: Link先を確認
Toby Phillips, Claire E. Heaney, Paul N. Smith, Christopher C. Pain(参考訳) 本稿では,次元減少のためのオートエンコーダを用いて,固有値問題に対する新規なプロジェクションベースリダクションモデルを提案する。 還元次モデリングは、高次元系が近似される低次元空間を定義する適切な基底関数を見つけることに依存する。 適切な直交分解(POD)と特異値分解(SVD)がこの目的のためにしばしば使われ、最適線型部分空間が得られる。 オートエンコーダはPOD/SVDの非線形的な代替手段を提供し、より効率的に高忠実度モデルの結果の特徴やパターンをキャプチャすることができる。 オートエンコーダと新しいハイブリッドSVDオートエンコーダに基づく低次モデルを開発した。 これらの手法は標準的なPOD-Galerkin法と比較され、原子炉物理学の分野から得られた2つのテストケースに適用される。

Using an autoencoder for dimensionality reduction, this paper presents a novel projection-based reduced-order model for eigenvalue problems. Reduced-order modelling relies on finding suitable basis functions which define a low-dimensional space in which a high-dimensional system is approximated. Proper orthogonal decomposition (POD) and singular value decomposition (SVD) are often used for this purpose and yield an optimal linear subspace. Autoencoders provide a nonlinear alternative to POD/SVD, that may capture, more efficiently, features or patterns in the high-fidelity model results. Reduced-order models based on an autoencoder and a novel hybrid SVD-autoencoder are developed. These methods are compared with the standard POD-Galerkin approach and are applied to two test cases taken from the field of nuclear reactor physics.
翻訳日:2022-10-28 20:52:07 公開日:2020-08-15
# 任意のニューラルネットワークのための直交型SGDとネステッドアーキテクチャ

Orthogonalized SGD and Nested Architectures for Anytime Neural Networks ( http://arxiv.org/abs/2008.06635v1 )

ライセンス: Link先を確認
Chengcheng Wan, Henry Hoffmann, Shan Lu, Michael Maire(参考訳) 本稿では,ネットワークアーキテクチャのトレーニング用にカスタマイズされた新しいSGDを提案する。 これらのネットワークの効率的なアーキテクチャ設計は、内部状態の再利用に重点を置いている。 従来の分岐ネットワークだけでなく,再帰的ネストネットワークの新たなクラスも検討する。 我々の新しいオプティマイザOrthogonalized SGDはマルチタスクネットワークをトレーニングする際のタスク固有の勾配を動的に再バランスする。 anytime architecturesの文脈では、このオプティマイザは、後から出力された勾配を、以前の出力と干渉しないパラメータ部分空間に投影する。 実験により、直交sgdを用いたトレーニングが、任意の時間ネットワークの一般化精度を大幅に向上できることが示されている。

We propose a novel variant of SGD customized for training network architectures that support anytime behavior: such networks produce a series of increasingly accurate outputs over time. Efficient architectural designs for these networks focus on re-using internal state; subnetworks must produce representations relevant for both immediate prediction as well as refinement by subsequent network stages. We consider traditional branched networks as well as a new class of recursively nested networks. Our new optimizer, Orthogonalized SGD, dynamically re-balances task-specific gradients when training a multitask network. In the context of anytime architectures, this optimizer projects gradients from later outputs onto a parameter subspace that does not interfere with those from earlier outputs. Experiments demonstrate that training with Orthogonalized SGD significantly improves generalization accuracy of anytime networks.
翻訳日:2022-10-28 20:46:07 公開日:2020-08-15
# 深部生成モデルの損失圧縮率の評価

Evaluating Lossy Compression Rates of Deep Generative Models ( http://arxiv.org/abs/2008.06653v1 )

ライセンス: Link先を確認
Sicong Huang, Alireza Makhzani, Yanshuai Cao, Roger Grosse(参考訳) 深層生成モデリングの分野は驚くほど現実的な画像や音声を作り出すことに成功したが、定量的評価は依然として課題である。 ログライクリフッドは統計学や情報理論の基盤として魅力的な指標であるが、暗黙的な生成モデルの推定は困難であり、スカラー値のメトリクスはモデルの品質を不完全に表現する。 本研究では, レート歪み(rd)曲線を用いて, 深部生成モデルの評価と比較を行う。 RD曲線の推定は, 対数的推定よりも計算量的に要求されるように思われるが, 単一の対数的推定に使用されていたのとほぼ同じ計算でRD曲線全体を近似できることを示す。 mnistおよびcifar10データセットにおけるvaes,gansおよびadversarial autoencoder(aaes)の損失圧縮率を評価した。 RD曲線全体を測定することで、スカラー値のメトリクスよりも完全な図が得られます。

The field of deep generative modeling has succeeded in producing astonishingly realistic-seeming images and audio, but quantitative evaluation remains a challenge. Log-likelihood is an appealing metric due to its grounding in statistics and information theory, but it can be challenging to estimate for implicit generative models, and scalar-valued metrics give an incomplete picture of a model's quality. In this work, we propose to use rate distortion (RD) curves to evaluate and compare deep generative models. While estimating RD curves is seemingly even more computationally demanding than log-likelihood estimation, we show that we can approximate the entire RD curve using nearly the same computations as were previously used to achieve a single log-likelihood estimate. We evaluate lossy compression rates of VAEs, GANs, and adversarial autoencoders (AAEs) on the MNIST and CIFAR10 datasets. Measuring the entire RD curve gives a more complete picture than scalar-valued metrics, and we arrive at a number of insights not obtainable from log-likelihoods alone.
翻訳日:2022-10-28 20:45:55 公開日:2020-08-15
# Kernel Bellman Statistics による非政策評価

Accountable Off-Policy Evaluation With Kernel Bellman Statistics ( http://arxiv.org/abs/2008.06668v1 )

ライセンス: Link先を確認
Yihao Feng, Tongzheng Ren, Ziyang Tang, Qiang Liu(参考訳) 我々は,新しい政策の実行を必要とせず,以前の実験から収集した観測データから新しい政策の評価を行うオフ・ポリティィ・アセスメント(OPE)について考察する。 これは、高い実行コストや医療診断、レコメンデーションシステム、ロボット工学などの安全上の懸念のある分野において重要な応用を見出す。 実際には、オフポリシーデータからの限られた情報のため、ポリシー性能のためにポイント推定だけでなく、厳密な信頼区間を構築することが非常に望ましい。 本研究では, 真の状態動作値関数を高い確率でキャッチする実現可能集合上の最適化問題として, opeの密接な信頼境界を計算する問題を低減できる新しい変分フレームワークを提案する。 実現可能な集合は、最近提案されたカーネルベルマン損失(Feng et al., 2019)の統計的性質を利用して構成される。 我々は境界を計算するための効率的な計算手法を設計し、既存の推定器のポストホックな診断と修正を行うように拡張する。 実験の結果,本手法は異なる設定で密接な信頼区間を生じさせることがわかった。

We consider off-policy evaluation (OPE), which evaluates the performance of a new policy from observed data collected from previous experiments, without requiring the execution of the new policy. This finds important applications in areas with high execution cost or safety concerns, such as medical diagnosis, recommendation systems and robotics. In practice, due to the limited information from off-policy data, it is highly desirable to construct rigorous confidence intervals, not just point estimation, for the policy performance. In this work, we propose a new variational framework which reduces the problem of calculating tight confidence bounds in OPE into an optimization problem on a feasible set that catches the true state-action value function with high probability. The feasible set is constructed by leveraging statistical properties of a recently proposed kernel Bellman loss (Feng et al., 2019). We design an efficient computational approach for calculating our bounds, and extend it to perform post-hoc diagnosis and correction for existing estimators. Empirical results show that our method yields tight confidence intervals in different settings.
翻訳日:2022-10-28 20:45:36 公開日:2020-08-15
# Alpha-divergences を用いたベイズニューラルネットワークの信頼性の不確かさ

Reliable Uncertainties for Bayesian Neural Networks using Alpha-divergences ( http://arxiv.org/abs/2008.06729v1 )

ライセンス: Link先を確認
Hector J. Hortua, Luigi Malago, Riccardo Volpi(参考訳) ベイジアンニューラルネットワーク(bnns)はトレーニングの後に、通常過剰な自信に向かう傾向がある。 計算複雑性の観点からは影響の少ない効果的な校正法の開発が中心的な関心事である。 本稿では,情報幾何学からのアルファ発散に基づくBNNの校正手法を提案する。 トレーニングとキャリブレーションにおけるアルファ偏差の使い方を比較し、キャリブレーションにおける使用がアルファ選択に対するキャリブレーションの不確実性評価をより良くし、特に複雑なネットワークアーキテクチャにおいてより効率的であることを示す。 パラメータ推定と出力の不確かさの相関を推定する回帰問題におけるアルファキャリブレーションの利点を実証的に示す。

Bayesian Neural Networks (BNNs) often result uncalibrated after training, usually tending towards overconfidence. Devising effective calibration methods with low impact in terms of computational complexity is thus of central interest. In this paper we present calibration methods for BNNs based on the alpha divergences from Information Geometry. We compare the use of alpha divergence in training and in calibration, and we show how the use in calibration provides better calibrated uncertainty estimates for specific choices of alpha and is more efficient especially for complex network architectures. We empirically demonstrate the advantages of alpha calibration in regression problems involving parameter estimation and inferred correlations between output uncertainties.
翻訳日:2022-10-28 20:44:51 公開日:2020-08-15
# 反復平均化による自由な調整可能な正規化の実現

Obtaining Adjustable Regularization for Free via Iterate Averaging ( http://arxiv.org/abs/2008.06736v1 )

ライセンス: Link先を確認
Jingfeng Wu, Vladimir Braverman, Lin F. Yang(参考訳) 最適化のための規則化は、機械学習の過剰フィットを避けるための重要なテクニックである。 最良の性能を得るためには、通常、正規化パラメータをチューニングしてモデルを訓練する。 しかし、1回のトレーニングがかなりの時間を要すると、コストがかかります。 ごく最近、NeuとRosascoは、線形回帰問題に対して確率勾配降下(SGD)を実行すると、SGDを適切に反復することにより正規化解が得られることを示した。 同様の現象が他の最適化問題やアルゴリズムで実現できるかどうかは明らかでない。 本稿では,任意の凸かつ滑らかな対象関数上でSGDの繰り返しを,調整可能な正規化パラメータを持つ正規化関数に変換する平均化手法を確立する。 提案手法は,高速化および事前条件最適化手法にも利用できる。 さらに,同じ手法がニューラルネットワークを含むより一般的な最適化目標に実証的に作用することを示した。 まとめると、多くの最適化問題に対して自由な調整可能な正則化を求め、Neu と Rosasco が提起した開問題を解決する。

Regularization for optimization is a crucial technique to avoid overfitting in machine learning. In order to obtain the best performance, we usually train a model by tuning the regularization parameters. It becomes costly, however, when a single round of training takes significant amount of time. Very recently, Neu and Rosasco show that if we run stochastic gradient descent (SGD) on linear regression problems, then by averaging the SGD iterates properly, we obtain a regularized solution. It left open whether the same phenomenon can be achieved for other optimization problems and algorithms. In this paper, we establish an averaging scheme that provably converts the iterates of SGD on an arbitrary strongly convex and smooth objective function to its regularized counterpart with an adjustable regularization parameter. Our approaches can be used for accelerated and preconditioned optimization methods as well. We further show that the same methods work empirically on more general optimization objectives including neural networks. In sum, we obtain adjustable regularization for free for a large class of optimization problems and resolve an open question raised by Neu and Rosasco.
翻訳日:2022-10-28 20:44:39 公開日:2020-08-15
# 高次元の神経接核:三重降下と一般化の多スケール理論

The Neural Tangent Kernel in High Dimensions: Triple Descent and a Multi-Scale Theory of Generalization ( http://arxiv.org/abs/2008.06786v1 )

ライセンス: Link先を確認
Ben Adlam and Jeffrey Pennington(参考訳) 最新のディープラーニングモデルは、トレーニングデータに適合するために必要なパラメータをはるかに多く採用している。 従来の統計的知恵ではそのようなモデルは非常に過度に適合するべきであるが、実際にはこれらのモデルは極めてよく一般化されている。 この予期せぬ振る舞いを記述するための新たなパラダイムは、モデルのキャパシティが最初にテストエラーを減少させ、補間しきい値付近で最大値まで増加し、次に過度にパラメータ化された状態において再び減少するという、'emph{double descend}曲線である。 この現象を理論的に説明しようとする最近の取り組みは、線形回帰や非構造なランダム特徴を持つカーネル回帰といった単純な設定に焦点を合わせており、実際のニューラルネットワークの重要なニュアンスを明らかにするには粗すぎると主張している。 勾配降下に最適化された広帯域ニューラルネットワークの挙動を特徴付けるニューラルタンジェントカーネルを用いて,カーネル回帰による一般化の高精度な高次元漸近解析を行う。 実験結果から, 実験誤差は過パラメータ化状態の深い非単調な挙動を示し, パラメータ数がデータセットサイズと2次的にスケールする場合に, 追加のピークや降下を示すことができることがわかった。

Modern deep learning models employ considerably more parameters than required to fit the training data. Whereas conventional statistical wisdom suggests such models should drastically overfit, in practice these models generalize remarkably well. An emerging paradigm for describing this unexpected behavior is in terms of a \emph{double descent} curve, in which increasing a model's capacity causes its test error to first decrease, then increase to a maximum near the interpolation threshold, and then decrease again in the overparameterized regime. Recent efforts to explain this phenomenon theoretically have focused on simple settings, such as linear regression or kernel regression with unstructured random features, which we argue are too coarse to reveal important nuances of actual neural networks. We provide a precise high-dimensional asymptotic analysis of generalization under kernel regression with the Neural Tangent Kernel, which characterizes the behavior of wide neural networks optimized with gradient descent. Our results reveal that the test error has non-monotonic behavior deep in the overparameterized regime and can even exhibit additional peaks and descents when the number of parameters scales quadratically with the dataset size.
翻訳日:2022-10-28 20:44:04 公開日:2020-08-15
# 高速トランスフォーマーの発見: コンポーネント構成によるワンショットニューラルネットワークの探索

Finding Fast Transformers: One-Shot Neural Architecture Search by Component Composition ( http://arxiv.org/abs/2008.06808v1 )

ライセンス: Link先を確認
Henry Tsai, Jayden Ooi, Chun-Sung Ferng, Hyung Won Chung, Jason Riesa(参考訳) トランスフォーマーベースのモデルは、自然言語処理における多くのタスクにおいて最先端の結果を得た。 しかしながら、そのようなモデルは通常、推論時に遅く、デプロイメントが困難になる。 本稿では,モデル品質を維持しながら高速モデル探索を行う効率的なアルゴリズムを開発した。 本稿では,トランスフォーマーアーキテクチャをより小さなコンポーネントに分解する新しいアプローチについて述べるとともに,推論の最適モデルを見つけるためのサンプリングベースのワンショットアーキテクチャ探索法を提案する。 モデル検索プロセスは代替よりも効率的で、トレーニング時間にわずかなオーバーヘッドを加えるだけでよい。 提案手法をBERTベースアーキテクチャに適用することにより,従来のTPU-v2上での最先端蒸留BERTモデル上での事前学習BERTの10%から30%の高速化と70%の高速化を実現した。

Transformer-based models have achieved stateof-the-art results in many tasks in natural language processing. However, such models are usually slow at inference time, making deployment difficult. In this paper, we develop an efficient algorithm to search for fast models while maintaining model quality. We describe a novel approach to decompose the Transformer architecture into smaller components, and propose a sampling-based one-shot architecture search method to find an optimal model for inference. The model search process is more efficient than alternatives, adding only a small overhead to training time. By applying our methods to BERT-base architectures, we achieve 10% to 30% speedup for pre-trained BERT and 70% speedup on top of a previous state-of-the-art distilled BERT model on Cloud TPU-v2 with a generally acceptable drop in performance.
翻訳日:2022-10-28 20:43:41 公開日:2020-08-15
# ECGがオンラインスパース辞書と時間ピラミッドマッチングで分類を破る

ECG beats classification via online sparse dictionary and time pyramid matching ( http://arxiv.org/abs/2008.06672v1 )

ライセンス: Link先を確認
Nanyu Li, Yujuan Si, Duo Deng, Chunyu Yuan(参考訳) 近年、Bag-Of-Word(BOW)アルゴリズムは効率的な特徴を提供し、ECG分類システムの精度を高める。 しかし、BOWアルゴリズムには2つの欠点がある。 量子化エラーが大きく、再構成性能が悪い。 心臓の鼓動の時間情報を失い 様々な種類の心臓の鼓動に 紛らわしい特徴を与えるかもしれない さらに,心血管系患者の長時間モニタリングと分析にecg分類システムを用いることができ,膨大なデータを生成することができるため,より効率的な圧縮アルゴリズムが必要となる。 上記の問題を考慮すると、ウェーブレット特徴を用いてスパース辞書を構築し、量子化誤差を最小限に抑える。 提案手法の複雑さを低減し,大規模心拍数演算に適応するために,オンライン辞書学習と特徴符号アルゴリズムを組み合わせた辞書と係数の更新を行う。 係数行列はECGビートを表現するために使用され、メモリ消費を大幅に削減し、量的誤差の問題を同時に解決する。 最後に、各ECGビートの係数に一致するようにピラミッドを構築する。 そこで我々は,時間確率プーリングによるビートタイム情報を含む特徴量を求める。 時間情報を失う問題を解くことは効率的である。 実験の結果,提案手法はbowの高再構成性能の利点があり,高忠実性とメモリ消費の低減が期待できる。一方,本手法はecgbeats分類において,高い精度が得られるため,大規模なheart beatsデータ保存と分類に適していることがわかった。

Recently, the Bag-Of-Word (BOW) algorithm provides efficient features and promotes the accuracy of the ECG classification system. However, BOW algorithm has two shortcomings: (1). it has large quantization errors and poor reconstruction performance; (2). it loses heart beat's time information, and may provide confusing features for different kinds of heart beats. Furthermore, ECG classification system can be used for long time monitoring and analysis of cardiovascular patients, while a huge amount of data will be produced, so we urgently need an efficient compression algorithm. In view of the above problems, we use the wavelet feature to construct the sparse dictionary, which lower the quantization error to a minimum. In order to reduce the complexity of our algorithm and adapt to large-scale heart beats operation, we combine the Online Dictionary Learning with Feature-sign algorithm to update the dictionary and coefficients. Coefficients matrix is used to represent ECG beats, which greatly reduces the memory consumption, and solve the problem of quantitative error simultaneously. Finally, we construct the pyramid to match coefficients of each ECG beat. Thus, we obtain the features that contain the beat time information by time stochastic pooling. It is efficient to solve the problem of losing time information. The experimental results show that: on the one hand, the proposed algorithm has advantages of high reconstruction performance for BOW, this storage method is high fidelity and low memory consumption; on the other hand, our algorithm yields highest accuracy in ECG beats classification; so this method is more suitable for large-scale heart beats data storage and classification.
翻訳日:2022-10-28 20:43:26 公開日:2020-08-15
# モデルパッチ: データ拡張によるサブグループパフォーマンスギャップの閉鎖

Model Patching: Closing the Subgroup Performance Gap with Data Augmentation ( http://arxiv.org/abs/2008.06775v1 )

ライセンス: Link先を確認
Karan Goel, Albert Gu, Yixuan Li and Christopher R\'e(参考訳) 機械学習における分類器は、デプロイ時に脆弱であることが多い。 特に、クラスの特定のサブグループにおける不整合性能を持つモデル、例えば、突発性包帯の存在または欠如における皮膚がん分類の相違を示す。 これらの性能の違いを緩和するため,我々は,モデルがサブグループ差に不変であるように促す頑健性を改善するための2段階フレームワークであるmodel patchingを導入し,サブグループ間で共有されるクラス情報に焦点を当てる。 モデルパッチは、まずクラス内のサブグループ機能を示し、それらの間のセマンティックトランスフォーメーションを学び、次に、サブグループ機能を意図的に操作するデータ拡張を伴う分類器を訓練する。 CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられたサブグループ整合性正規化器を用いてサブグループ性能のバランスをとる。 3つのベンチマークデータセットにおけるcamelの有効性を実証し、最良ベースラインと比較してロバストエラーが最大33%低減することを示した。 最後に、CAMELは現実世界の皮膚がんデータセットの急激な特徴のために失敗するモデルにパッチを当てることに成功した。

Classifiers in machine learning are often brittle when deployed. Particularly concerning are models with inconsistent performance on specific subgroups of a class, e.g., exhibiting disparities in skin cancer classification in the presence or absence of a spurious bandage. To mitigate these performance differences, we introduce model patching, a two-stage framework for improving robustness that encourages the model to be invariant to subgroup differences, and focus on class information shared by subgroups. Model patching first models subgroup features within a class and learns semantic transformations between them, and then trains a classifier with data augmentations that deliberately manipulate subgroup features. We instantiate model patching with CAMEL, which (1) uses a CycleGAN to learn the intra-class, inter-subgroup augmentations, and (2) balances subgroup performance using a theoretically-motivated subgroup consistency regularizer, accompanied by a new robust objective. We demonstrate CAMEL's effectiveness on 3 benchmark datasets, with reductions in robust error of up to 33% relative to the best baseline. Lastly, CAMEL successfully patches a model that fails due to spurious features on a real-world skin cancer dataset.
翻訳日:2022-10-28 20:37:07 公開日:2020-08-15
# バッチ時間差学習におけるサンプリング誤差の低減

Reducing Sampling Error in Batch Temporal Difference Learning ( http://arxiv.org/abs/2008.06738v1 )

ライセンス: Link先を確認
Brahma Pavse, Ishan Durugkar, Josiah Hanna, Peter Stone(参考訳) 時間差学習(TD)は現代の強化学習の基盤の1つである。 本稿では、標準的TDアルゴリズムであるTD(0)を用いて、与えられたポリシーの値関数をデータのバッチから推定する。 このバッチ設定では、td(0) は、アクションに続く更新が、バッチで発生したアクションの数に応じて重み付けされるため、与えられたポリシーの下でのアクションの真の確率ではなく、不正確な値関数に収束する可能性がある。 この制限に対処するため,<textit{policy sample error corrected}-TD(0) (PSEC-TD(0)) を導入する。 PSEC-TD(0)はまず、バッチ中の各状態における動作の実験的分布を推定し、次に重要サンプリングを使用して、各動作に続く更新に対する経験的重み付けと正しい重み付けのミスマッチを補正する。 PSEC-TD(0) は固定されたデータのバッチに対して TD(0) よりもデータ効率のよい推定器であると主張する。 最後に,3つのバッチ値関数学習タスクに対して,超パラメータ感度解析を用いてPSEC-TD(0)を実験的に評価し,平均2乗誤差をTD(0)よりも低い値関数推定値を生成することを示す。

Temporal difference (TD) learning is one of the main foundations of modern reinforcement learning. This paper studies the use of TD(0), a canonical TD algorithm, to estimate the value function of a given policy from a batch of data. In this batch setting, we show that TD(0) may converge to an inaccurate value function because the update following an action is weighted according to the number of times that action occurred in the batch -- not the true probability of the action under the given policy. To address this limitation, we introduce \textit{policy sampling error corrected}-TD(0) (PSEC-TD(0)). PSEC-TD(0) first estimates the empirical distribution of actions in each state in the batch and then uses importance sampling to correct for the mismatch between the empirical weighting and the correct weighting for updates following each action. We refine the concept of a certainty-equivalence estimate and argue that PSEC-TD(0) is a more data efficient estimator than TD(0) for a fixed batch of data. Finally, we conduct an empirical evaluation of PSEC-TD(0) on three batch value function learning tasks, with a hyperparameter sensitivity analysis, and show that PSEC-TD(0) produces value function estimates with lower mean squared error than TD(0).
翻訳日:2022-10-28 20:36:33 公開日:2020-08-15
# 7t mriによる多発性硬化症患者の皮質病変の自動検出

Automated Detection of Cortical Lesions in Multiple Sclerosis Patients with 7T MRI ( http://arxiv.org/abs/2008.06780v1 )

ライセンス: Link先を確認
Francesco La Rosa, Erin S Beck, Ahmed Abdulkadir, Jean-Philippe Thiran, Daniel S Reich, Pascal Sati, Meritxell Bach Cuadra(参考訳) 多発性硬化症 (MS) 患者の皮質病変 (CL) の自動検出は, 臨床的関連性にもかかわらず, ほとんど注目されていない課題である。 小・小病変の正確な検出には特別なシーケンスと高磁場MRIが必要である。 7Tのマルチモーダル構造MRIに基づく教師付きトレーニングでは、2人の専門家が2014 CLの60人の患者から地上の真実のセグメンテーションマスクを作成した。 3つの解像度レベル(3d u-net-)を持つ簡易な3d u-netを実装した。 トレーニング中の入力チャネルをランダムに落としながら,タスクの複雑さ(脳組織分節の追加)を増大させることで,ベースラインよりも性能が向上した。 最小病変径は 0.75 {\mu}l であり, 病変側皮質病変検出率は 67% であり, 偽陽性率は 42% であった。 しかし, 偽陽性と診断された病変の393例(24%)は, 有意または定型病変と診断された。 これはclマニュアルセグメンテーションの退屈なプロセスにおいて専門家を支援するための提案手法の可能性を示している。

The automated detection of cortical lesions (CLs) in patients with multiple sclerosis (MS) is a challenging task that, despite its clinical relevance, has received very little attention. Accurate detection of the small and scarce lesions requires specialized sequences and high or ultra-high field MRI. For supervised training based on multimodal structural MRI at 7T, two experts generated ground truth segmentation masks of 60 patients with 2014 CLs. We implemented a simplified 3D U-Net with three resolution levels (3D U-Net-). By increasing the complexity of the task (adding brain tissue segmentation), while randomly dropping input channels during training, we improved the performance compared to the baseline. Considering a minimum lesion size of 0.75 {\mu}L, we achieved a lesion-wise cortical lesion detection rate of 67% and a false positive rate of 42%. However, 393 (24%) of the lesions reported as false positives were post-hoc confirmed as potential or definite lesions by an expert. This indicates the potential of the proposed method to support experts in the tedious process of CL manual segmentation.
翻訳日:2022-10-28 20:36:09 公開日:2020-08-15
# ハイパースペクトル画像復調のための深部畳み込みニューラルネットワークの進化

Evolving Deep Convolutional Neural Networks for Hyperspectral Image Denoising ( http://arxiv.org/abs/2008.06634v1 )

ライセンス: Link先を確認
Yuqiao Liu, Yanan Sun, Bing Xue, Mengjie Zhang(参考訳) ハイパースペクトル画像 (hsis) は情報の損失につながる様々なノイズ要因に影響を受けやすく、ノイズはその後のhsisオブジェクトの検出と分類タスクを制限する。 近年、学習に基づく手法は、HSIの認知において優れた強みを示している。 残念ながら、ほとんどのメソッドは、興味のあるユーザには必ずしも利用できない広範な専門知識に基づいて手動で設計されている。 本稿では,HSIを効果的に識別する最適な畳み込みニューラルネットワーク(CNN)を自動構築する新しいアルゴリズムを提案する。 特に,提案アルゴリズムはアーキテクチャとCNNの接続重みの初期化に焦点を当てている。 提案アルゴリズムの実験は、最先端の競合相手に対してよく設計され、比較され、実験結果は、異なる評価指標、視覚的評価、および計算複雑性の観点から、提案アルゴリズムの競合性能を実証している。

Hyperspectral images (HSIs) are susceptible to various noise factors leading to the loss of information, and the noise restricts the subsequent HSIs object detection and classification tasks. In recent years, learning-based methods have demonstrated their superior strengths in denoising the HSIs. Unfortunately, most of the methods are manually designed based on the extensive expertise that is not necessarily available to the users interested. In this paper, we propose a novel algorithm to automatically build an optimal Convolutional Neural Network (CNN) to effectively denoise HSIs. Particularly, the proposed algorithm focuses on the architectures and the initialization of the connection weights of the CNN. The experiments of the proposed algorithm have been well-designed and compared against the state-of-the-art peer competitors, and the experimental results demonstrate the competitive performance of the proposed algorithm in terms of the different evaluation metrics, visual assessments, and the computational complexity.
翻訳日:2022-10-28 20:35:29 公開日:2020-08-15
# 強化学習を用いたChrome Dino Run

Chrome Dino Run using Reinforcement Learning ( http://arxiv.org/abs/2008.06799v1 )

ライセンス: Link先を確認
Divyanshu Marwah, Sneha Srivastava, Anusha Gupta, Shruti Verma(参考訳) 強化学習(Reinforcement Learning)は、人類がゲームで競い合うことができ、人間よりも同等かそれ以上に優れたアルゴリズムの1つである。 本稿では,最も人気のあるモデル自由強化学習アルゴリズムと畳み込みニューラルネットワークを用いて,chrome dino runのゲームをプレイするエージェントを訓練する。 我々は、Deep Q-Learning(深層Q-Learning)と期待されているSARSA(SARSA)という2つの時相差アプローチを用いてエージェントを訓練し、最後に、時間ステップに関するアルゴリズムのエピソードと収束に関するスコアを比較した。

Reinforcement Learning is one of the most advanced set of algorithms known to mankind which can compete in games and perform at par or even better than humans. In this paper we study most popular model free reinforcement learning algorithms along with convolutional neural network to train the agent for playing the game of Chrome Dino Run. We have used two of the popular temporal difference approaches namely Deep Q-Learning, and Expected SARSA and also implemented Double DQN model to train the agent and finally compare the scores with respect to the episodes and convergence of algorithms with respect to timesteps.
翻訳日:2022-10-28 20:35:01 公開日:2020-08-15
# 安全臨界環境における強化学習のための注意的適応

Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings ( http://arxiv.org/abs/2008.06622v1 )

ライセンス: Link先を確認
Jesse Zhang, Brian Cheung, Chelsea Finn, Sergey Levine, Dinesh Jayaraman(参考訳) 都市運転のような現実世界の安全クリティカルな目標設定における強化学習(RL)は危険であり、RLエージェント、他のエージェント、環境を損なう。 この課題を克服するために,エージェントはシミュレータなどの非安全クリティカルな「ソース」環境において,障害が重いコストを負担するターゲット環境に適応する前に,まず訓練を行う"セーフティクリティカル適応"タスク設定を提案する。 多様な環境における先行経験がリスクを推定するためにエージェントに装備する直感に基づくソリューションアプローチであるCARLを提案し、それによってリスクの逆、慎重な適応を通じて相対的な安全性を実現する。 CARLはまずモデルベースのRLを用いて確率モデルを訓練し、様々なソース環境における遷移力学と破滅状態の不確実性を捉える。 そして、未知のダイナミクスを持つ新しい安全クリティカルな環境を探索する際、CARLは破滅的な状態につながる可能性のある行動を避けることを計画している。 自動車運転、カートポールバランス、ハーフチータローコモーション、ロボット物体操作の実験において、CARLは慎重な探索行動を獲得し、強力なRL適応基準よりも少ない失敗で高い報酬を得ることができた。 webサイトはhttps://sites.google.com/berkeley.edu/carl。

Reinforcement learning (RL) in real-world safety-critical target settings like urban driving is hazardous, imperiling the RL agent, other agents, and the environment. To overcome this difficulty, we propose a "safety-critical adaptation" task setting: an agent first trains in non-safety-critical "source" environments such as in a simulator, before it adapts to the target environment where failures carry heavy costs. We propose a solution approach, CARL, that builds on the intuition that prior experience in diverse environments equips an agent to estimate risk, which in turn enables relative safety through risk-averse, cautious adaptation. CARL first employs model-based RL to train a probabilistic model to capture uncertainty about transition dynamics and catastrophic states across varied source environments. Then, when exploring a new safety-critical environment with unknown dynamics, the CARL agent plans to avoid actions that could lead to catastrophic states. In experiments on car driving, cartpole balancing, half-cheetah locomotion, and robotic object manipulation, CARL successfully acquires cautious exploration behaviors, yielding higher rewards with fewer failures than strong RL adaptation baselines. Website at https://sites.google.com/berkeley.edu/carl.
翻訳日:2022-10-28 20:34:49 公開日:2020-08-15