このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201113となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 欠如する量子ウォークの解析 Analysis of Lackadaisical Quantum Walks ( http://arxiv.org/abs/2002.11234v3 ) ライセンス: Link先を確認 | Peter H{\o}yer and Zhan Yu | (参考訳) 不連続量子ウォークは、グラフの各頂点に自己ループを加えて得られる遅延ランダムウォークの量子アナログである。
解析により,不完全量子ウォークは,任意の正則な局所弧推移グラフ上の一意的なマークされた頂点を,ヒット時間より2倍早く発見できることを証明した。
この結果は以前の研究でいくつかの憶測や数値的な発見を証明し、例えば、不連続な量子ウォークはトーラス、サイクル、ジョンソングラフ、その他の頂点推移グラフのクラスに一定の成功確率を持つ特異なマーク付き頂点を見つけるという予想を含む。
我々の証明は、局所的な弧遷移グラフに対する不連続な量子ウォークと量子補間ウォークの関係を確立し、利用する。 The lackadaisical quantum walk is a quantum analogue of the lazy random walk obtained by adding a self-loop to each vertex in the graph. We analytically prove that lackadaisical quantum walks can find a unique marked vertex on any regular locally arc-transitive graph with constant success probability quadratically faster than the hitting time. This result proves several speculations and numerical findings in previous work, including the conjectures that the lackadaisical quantum walk finds a unique marked vertex with constant success probability on the torus, cycle, Johnson graphs, and other classes of vertex-transitive graphs. Our proof establishes and uses a relationship between lackadaisical quantum walks and quantum interpolated walks for any locally arc-transitive graph. | 翻訳日:2023-06-01 21:23:35 公開日:2020-11-13 |
# トランスグイド:任意の屈折率物質からの超ブライト指向性発光 The TRANSGUIDE: Ultra-bright directional light emission from any refractive index material ( http://arxiv.org/abs/2003.11913v3 ) ライセンス: Link先を確認 | Hossam Galal | (参考訳) 本報告では,光を照射する超薄型平板技術であるtransguide(transguide)について紹介する。
相反性を呼び出すことで、光は仮想双極子の形に一時的に保存され、再び回復することができる。 This report introduces the Transfer Waveguide (TRANSGUIDE); an ultra-thin flat technology that promises light emitting applications a practical solution to total internal reflection light trapping and diverging emission. By invoking reciprocity, light can be temporarily stored in the form of a virtual-dipole and recovered back again. | 翻訳日:2023-05-28 00:48:17 公開日:2020-11-13 |
# 二モード圧縮状態に対する二分時間ベル不等式 Bipartite temporal Bell inequalities for two-mode squeezed states ( http://arxiv.org/abs/2007.00458v2 ) ライセンス: Link先を確認 | Kenta Ando, Vincent Vennin | (参考訳) バイパルタイト時空ベルの不等式は通常のベルの不等式と似ているが、測定毎に偏光器の方向を変更する代わりに測定が行われる時間を変更する。
そうすることで、現実性と局所性をテストすることができるが、位置測定のみに依存する。
これは特に(例えば宇宙論のような)運動量方向を探索できない実験的な設定において有用である。
2モードスクイーズ状態に置かれた連続系に対するこれらの二成分テンポラリベル不等式を研究し、それらが実際に破られるパラメータ空間内のいくつかの領域を見つける。
2モードの圧縮状態を示す3つのパラメータのうちの1つである回転角が果たす役割を強調した(他の2つは、スクイーズ振幅とスクイーズ角度である)。
単一時間測定では、波動関数の全体位相のみを決定できるため、破棄できるが、複数時間測定では、その時間ダイナミクスは関連性が高くなり、また、2部時間ベルの不等式が破られる場合に決定的に決定される。
本研究ではベル不等式違反の観測のための新しい実験設計の可能性を明らかにする。 Bipartite temporal Bell inequalities are similar to the usual Bell inequalities except that, instead of changing the direction of the polariser at each measurement, one changes the time at which the measurement is being performed. By doing so, one is able to test for realism and locality, but relying on position measurements only. This is particularly useful in experimental setups where the momentum direction cannot be probed (such as in cosmology for instance). We study these bipartite temporal Bell inequalities for continuous systems placed in two-mode squeezed states, and find some regions in parameter space where they are indeed violated. We highlight the role played by the rotation angle, which is one of the three parameters characterising a two-mode squeezed state (the other two being the squeezing amplitude and the squeezing angle). In single-time measurements, it only determines the overall phase of the wavefunction and can therefore be discarded, but in multiple-time measurements, its time dynamics becomes relevant and crucially determines when bipartite temporal Bell inequalities can be violated. Our study opens up the possibility of new experimental designs for the observation of Bell inequality violations. | 翻訳日:2023-05-11 23:11:26 公開日:2020-11-13 |
# オペレーショナル・ゲージフリー量子トモグラフィー Operational, gauge-free quantum tomography ( http://arxiv.org/abs/2007.01470v2 ) ライセンス: Link先を確認 | Olivia Di Matteo, John Gamble, Chris Granade, Kenneth Rudinger, Nathan Wiebe | (参考訳) 世界中の研究所で目覚ましい量子情報プロセッサが実現しつつある中、これらのデバイスの堅牢で信頼性の高い特性は、これまで以上に緊急になっている。
これらの診断は多くの形態をとるが、最も一般的な分類の1つはトモグラフィーであり、デバイスに対して基礎となるパラメータ化モデルが提案され、実験によって推測される。
本稿では,これらのモデルパラメータとして実験観測用トモグラフィーを導入する。
これは、現在のトモグラフィーのアプローチ(ゲージ問題)で生じる表現の曖昧さの問題に対処する。
ゲージ問題を解くことで,ベイズフレームワークの操作トモグラフィーを計算的に効率的に実装できるため,事前情報を含む自然な方法と適合パラメータの不確実性について議論できる。
標準プロセストモグラフィ,ラムゼイ干渉法,ランダム化ベンチマーク,ゲートセットトモグラフィなど,様々な実験関連シナリオにおいて,この新しいトモグラフィーを実証した。 As increasingly impressive quantum information processors are realized in laboratories around the world, robust and reliable characterization of these devices is now more urgent than ever. These diagnostics can take many forms, but one of the most popular categories is tomography, where an underlying parameterized model is proposed for a device and inferred by experiments. Here, we introduce and implement efficient operational tomography, which uses experimental observables as these model parameters. This addresses a problem of ambiguity in representation that arises in current tomographic approaches (the gauge problem). Solving the gauge problem enables us to efficiently implement operational tomography in a Bayesian framework computationally, and hence gives us a natural way to include prior information and discuss uncertainty in fit parameters. We demonstrate this new tomography in a variety of different experimentally-relevant scenarios, including standard process tomography, Ramsey interferometry, randomized benchmarking, and gate set tomography. | 翻訳日:2023-05-11 18:32:32 公開日:2020-11-13 |
# 局所ランダム化測定による混合状態絡み合い Mixed-state entanglement from local randomized measurements ( http://arxiv.org/abs/2007.06305v2 ) ライセンス: Link先を確認 | Andreas Elben, Richard Kueng, Hsin-Yuan Huang, Rick van Bijnen, Christian Kokail, Marcello Dalmonte, Pasquale Calabrese, Barbara Kraus, John Preskill, Peter Zoller, Beno\^it Vermersch | (参考訳) 本稿では,半置換密度行列のモーメント推定に基づく多体混合状態における二成分絡み検出法を提案する。
推定は、状態の局所的ランダムな測定を行い、次に古典的なシャドウフレームワークを用いた後処理によって得られる。
本手法は単一量子ビット制御を持つ任意の量子系に適用可能である。
本稿では,既存の実験データ(Brydges et al, Science 364, 260 (2019)))を用いて,必要な実験実行回数を詳細に分析し,そのプロトコルを実証する。 We propose a method for detecting bipartite entanglement in a many-body mixed state based on estimating moments of the partially transposed density matrix. The estimates are obtained by performing local random measurements on the state, followed by post-processing using the classical shadows framework. Our method can be applied to any quantum system with single-qubit control. We provide a detailed analysis of the required number of experimental runs, and demonstrate the protocol using existing experimental data [Brydges et al, Science 364, 260 (2019)]. | 翻訳日:2023-05-10 04:36:30 公開日:2020-11-13 |
# グラフ理論による次元観察 Graph-theoretic approach to dimension witnessing ( http://arxiv.org/abs/2007.10746v2 ) ライセンス: Link先を確認 | Maharshi Ray, Naresh Goud Boddu, Kishor Bharti, Leong-Chuan Kwek, Ad\'an Cabello | (参考訳) 量子計算と量子情報の基本的な問題は、タスクに必要な最小の量子次元を見つけることである。
状態の準備と測定に関わるタスクでは、この問題は入出力相関のみを使用して対処できる。
これはベル、準備と測定、Kochen-Speckerコンテキストのシナリオに適用されている。
本稿では,測度イベントの集合間の相互排他性のグラフを用いた,1つの準備といくつかの測定のシナリオに対する量子次元目撃の新しいアプローチを提案する。
グラフ理論の量子次元の証人化に必要な概念とツールを提示し、新しい量子次元の証人を特定することによってそれらの使用を説明する。 A fundamental problem in quantum computation and quantum information is finding the minimum quantum dimension needed for a task. For tasks involving state preparation and measurements, this problem can be addressed using only the input-output correlations. This has been applied to Bell, prepare-and-measure, and Kochen-Specker contextuality scenarios. Here, we introduce a novel approach to quantum dimension witnessing for scenarios with one preparation and several measurements, which uses the graphs of mutual exclusivity between sets of measurement events. We present the concepts and tools needed for graph-theoretic quantum dimension witnessing and illustrate their use by identifying novel quantum dimension witnesses, including a family that can certify arbitrarily high quantum dimensions with few events. | 翻訳日:2023-05-08 20:58:06 公開日:2020-11-13 |
# 正確な熱量測定の可解モデル An exactly solvable model of calorimetric measurements ( http://arxiv.org/abs/2007.15923v2 ) ライセンス: Link先を確認 | Brecht Donvil, Dmitry Golubev and Paolo Muratore-Ginanneschi | (参考訳) 熱量測定は、量子デバイスにおける熱力学関係を評価する実験的に実現可能な方法である。
このモチベーションを念頭に置いて、フェルミオン貯水池と結合した共鳴レベルを考える。
このプロセスでは、最初にレベルと貯水池の相互作用がスイッチオンされ、その後再びスイッチオフされる。
その結果, 貯水池のエネルギー, レベルエネルギー, 相互作用エネルギーの時間依存性が, 弱結合, 中間結合, 強結合, 超強結合において確認できた。
これらのエネルギーの統計分布も決定する。 Calorimetric measurements are experimentally realizable methods to assess thermodynamics relations in quantum devices. With this motivation in mind, we consider a resonant level coupled to a Fermion reservoir. We consider a transient process, in which the interaction between the level and the reservoir is initially switched on and then switched off again. We find the time dependence of the energy of the reservoir, of the energy of the level and of the interaction energy between them at weak, intermediate, strong and ultra-strong coupling. We also determine the statistical distributions of these energies. | 翻訳日:2023-05-07 12:41:02 公開日:2020-11-13 |
# 光空洞を横切る原子ビームの規則的および不安定な定常超放射相 Regular and bistable steady-state superradiant phases of an atomic beam traversing an optical cavity ( http://arxiv.org/abs/2009.05648v2 ) ライセンス: Link先を確認 | Simon B. J\"ager, Haonan Liu, Athreya Shankar, John Cooper, and Murray J. Holland | (参考訳) 単一モードの光キャビティを通過する前励起およびコリメート原子ビームによって生成される異なる光子放出領域について検討する。
自由の空洞度が断熱的に除去できる体制では、集合線幅がトランジット時間の拡張を超えると、原子が超放射能放出を受けることが分かる。
我々は、原子ビーム方向が空洞軸に対して傾斜している場合を分析する。
このような状況下では、原子ビームの傾きが十分に小さくなるように、定常超放射に類似した連続発光の位相が確立される。
しかし、もし原子が1回の通過中に空洞軸に沿って半分以上の波長を移動するなら、我々は新しい双安定超放射能状態への動的相転移を予測する。
この段階では、原子は自由空間原子共鳴から青色または赤色に調整できる周波数で集団自発的に放出される。
我々は、異なる超ラジカル状態と量子臨界交差境界を解析する。
特に、放出された光のスペクトルを見つけ、線幅が位相境界に近い臨界スケーリングの特徴を示すことを示す。 We investigate the different photon emission regimes created by a preexcited and collimated atomic beam passing through a single mode of an optical cavity. In the regime where the cavity degrees of freedom can be adiabatically eliminated, we find that the atoms undergo superradiant emission when the collective linewidth exceeds the transit-time broadening. We analyze the case where the atomic beam direction is slanted with respect to the cavity axis. For this situation, we find that a phase of continuous light emission similar to steady-state superradiance is established providing the tilt of the atomic beam is sufficiently small. However, if the atoms travel more than half a wavelength along the cavity axis during one transit time we predict a dynamical phase transition to a new bistable superradiant regime. In this phase the atoms undergo collective spontaneous emission with a frequency that can be either blue or red detuned from the free-space atomic resonance. We analyze the different superradiant regimes and the quantum critical crossover boundaries. In particular we find the spectrum of the emitted light and show that the linewidth exhibits features of a critical scaling close to the phase boundaries. | 翻訳日:2023-05-02 22:20:54 公開日:2020-11-13 |
# 2次元グリッド上の非線形量子ウォークによる探索 Searching via nonlinear quantum walk on the 2D-grid ( http://arxiv.org/abs/2009.07800v3 ) ライセンス: Link先を確認 | Basile Herzog and Giuseppe Di Molfetta | (参考訳) Wong と Meyer \cite{meyer2013nonlinear} が導入した非線形探索アルゴリズムは、有効な非線形位相を持つ量子ウォークの言葉で言い換えれば、有限2次元格子に拡張でき、古典的アルゴリズムに関しても同様の計算上の優位性を持つことを示す。
この目的のために、Childs と Ge \cite{Childs_2014} により線形分散関係が導入された自由格子ハミルトニアンを考える。
数値シミュレーションにより、ウォーカーがマークされた頂点を$O(N^{1/4} \log^{3/4} N) $ Step, with probability $O(1/\log N)$, for a overall complexity of $O(N^{1/4}\log^{7/4}N)$とした。
また,時間計測精度がアルゴリズムの複雑性探索時間に影響を与えることを避けるために,歩行パラメータの最適選択が存在することも証明した。 We provide numerical evidence that the nonlinear searching algorithm introduced by Wong and Meyer \cite{meyer2013nonlinear}, rephrased in terms of quantum walks with effective nonlinear phase, can be extended to the finite 2-dimensional grid, keeping the same computational advantage \BHg{with} respect to the classical algorithms. For this purpose, we have considered the free lattice Hamiltonian, with linear dispersion relation introduced by Childs and Ge \cite{Childs_2014}. The numerical simulations showed that the walker finds the marked vertex in $O(N^{1/4} \log^{3/4} N) $ steps, with probability $O(1/\log N)$, for an overall complexity of $O(N^{1/4}\log^{7/4}N)$. We also proved that there exists an optimal choice of the walker parameters to avoid that the time measurement precision affects the complexity searching time of the algorithm. | 翻訳日:2023-05-02 02:18:42 公開日:2020-11-13 |
# 接触追跡における視点反転 Flipping the Perspective in Contact Tracing ( http://arxiv.org/abs/2010.03806v2 ) ライセンス: Link先を確認 | Po-Shen Loh | (参考訳) 接触追跡のパラダイムは根本的に異なり、ポジティブなケースごとに、直接接触に隔離を依頼するだけでなく、病気からどのくらい離れた関係が当たったかを全員に伝えます(つまり、"2"は近接した物理的接触の物理的な接触です)。
この新しいアプローチは、すでに公開ダウンロード可能なアプリにデプロイされているが、ネットワーク理論を利用してパンデミックをコントロールできる新しいツールを提供する。
ハリケーンの早期警報を提供する気象衛星のように、遠方からの送信が近づいてくるのを個人に知らせ、直接の露出を避けるために行動変化を誘発する。
このふりかえりの視点は自然の自己保存本能に関わり、利他主義への依存を減らし、その結果、各感染の社会的近傍に広がるパンデミックを減少させる。
その結果,本システムは,これまで多くのアプリベースの介入を妨げてきた行動調整問題を解決した。
また,我々のシステムが,非常に低い採用しきい値(おそらく最初の実用的展開で実証的に示されたような,いくつかの一般的な種類のコミュニティにおいて10%以下)で,ユーザの観点からすでに重要な質量を達成していることを示すヒューリスティックな数学的分析も提供しています。
本稿は,我々のアプローチの理論的基礎を定め,多くの次元にまたがるさらなる研究のためにその領域を開くことを目的としている。 We introduce a fundamentally different paradigm for contact tracing: for each positive case, do not only ask direct contacts to quarantine; instead, tell everyone how many relationships away the disease just struck (so, "2" is a close physical contact of a close physical contact). This new approach, which has already been deployed in a publicly downloadable app, brings a new tool to bear on pandemic control, powered by network theory. Like a weather satellite providing early warning of incoming hurricanes, it empowers individuals to see transmission approaching from far away, and incites behavior change to directly avoid exposure. This flipped perspective engages natural self-interested instincts of self-preservation, reducing reliance on altruism, and the resulting caution reduces pandemic spread in the social vicinity of each infection. Consequently, our new system solves the behavior coordination problem which has hampered many other app-based interventions to date. We also provide a heuristic mathematical analysis that shows how our system already achieves critical mass from the user perspective at very low adoption thresholds (likely below 10% in some common types of communities as indicated empirically in the first practical deployment); after that point, the design of our system naturally accelerates further adoption, while also alerting even non-users of the app. This article seeks to lay the theoretical foundation for our approach, and to open the area for further research along many dimensions. | 翻訳日:2023-04-29 15:43:48 公開日:2020-11-13 |
# Nifty Web Apps: テキストベースのプログラミングアサインメントのためのWebアプリ開発 Nifty Web Apps: Build a Web App for Any Text-Based Programming Assignment ( http://arxiv.org/abs/2010.04671v3 ) ライセンス: Link先を確認 | Kevin Lin, Sumant Guha, Joe Spaniac, Andy Zheng | (参考訳) 今では多くの学生がさまざまなスマートデバイスでwebアプリケーションと対話するが、私たちの素晴らしい課題の大部分は、コンソールの入出力やデスクトップのguiといった従来のユーザインターフェースにある。
このチュートリアルセッションでは、参加者は、学生が書いたコードを実行してユーザインタラクションに動的に応答する、プログラミング代行のためのシンプルなWebアプリを構築することを学ぶ。
私たちのアプローチでは、同じデスクトップguiアプリよりも最大75%のコードを必要としますが、既存の割り当ての修正は(もしあれば)ほとんど必要ありません。
インストラクターや学生は、これらのwebアプリを自分のコンピュータ上で実行し、修正したり、自分のアプリケーションをオンラインにデプロイして、あらゆるスマートデバイスから無料でアクセスできる。
チュートリアルでは、PythonとJavaのCS1とCS2のコースの例が紹介されている。 While many students now interact with web apps across a variety of smart devices, the vast majority of our Nifty Assignments still present traditional user interfaces such as console input/output and desktop GUI. In this tutorial session, participants will learn to build simple web apps for programming assignments that execute student-written code to dynamically respond to user interactions resulting in a more modern app experience. Our approach requires up to 75% less code than similar desktop GUI apps while requiring few (if any) modifications to existing assignments. Instructors and students alike can run and modify these web apps on their own computers or deploy their apps online for access from any smart device at no cost. The tutorial presents examples from CS1 and CS2 courses in Python and Java, but the ideas apply generally. | 翻訳日:2023-04-29 13:21:00 公開日:2020-11-13 |
# 分散型移動体接触追跡アプリケーションにおける個人識別のためのモデリングメモリ Modelling Memory for Individual Re-identification in Decentralised Mobile Contact Tracing Applications ( http://arxiv.org/abs/2010.05514v2 ) ライセンス: Link先を確認 | Luca Bedogni, Shakila Khan Rumi, Flora Salim | (参考訳) 2020年、新型コロナウイルスの流行で世界中の人々の生活が変わった。
ウイルスと戦う方法が不明な最初の期間の後、社会的距離を世界規模で認識され、感染拡大を緩和する有効な方法となっている。
これは、人間の接触をデジタルで追跡するために使用されるモバイルコンタクト追跡アプリケーション(MCTA)などの技術ツールが要求され、前向きなケースが見つかった場合、接触していたアプリケーションをインストールした人が通知される。
分散化されたMCTAは、人間の記憶に基づいて、新しい種類のプライバシー攻撃に悩まされる可能性がある。
以上の結果から,ヒトの接点群では正の個体を同定することは可能であり,正の個体の社会性が低い場合にはさらに容易であることが示唆された。
シミュレーションの結果,シナリオによっては90%以上の精度で識別が可能であることが示唆された。
また,非集中型mctaに実装可能な3つの緩和戦略を提案し,その3つのうちどれがより効果的かを分析した。 In 2020 the coronavirus outbreak changed the lives of people worldwide. After an initial time period in which it was unclear how to battle the virus, social distancing has been recognised globally as an effective method to mitigate the disease spread. This called for technological tools such as Mobile Contact Tracing Applications (MCTA), which are used to digitally trace contacts among people, and in case a positive case is found, people with the application installed which had been in contact will be notified. De-centralised MCTA may suffer from a novel kind of privacy attack, based on the memory of the human beings, which upon notification of the application can identify who is the positive individual responsible for the notification. Our results show that it is indeed possible to identify positive people among the group of contacts of a human being, and this is even easier when the sociability of the positive individual is low. In practice, our simulation results show that identification can be made with an accuracy of more than 90% depending on the scenario. We also provide three mitigation strategies which can be implemented in de-centralised MCTA and analyse which of the three are more effective in limiting this novel kind of attack. | 翻訳日:2023-04-29 07:27:28 公開日:2020-11-13 |
# 人間の世界における倫理と人工意識の権利の新たな憲章 A New Charter of Ethics and Rights of Artificial Consciousness in a Human World ( http://arxiv.org/abs/2010.12019v2 ) ライセンス: Link先を確認 | Markian Hromiak | (参考訳) 人工的に意識するエージェントは人間的な権利を与えるべきだというスタンスを採り、意識を定義し、既存の普遍的人権を集約し、現実とSFの両方のルーツでロボット法を解析し、すべてを合成して、新しいロボット倫理的チャーターを作成する。
意識のレベルを人間に限定することで、人間のような創造性に焦点をあてた社会的強いAIに対する意識の定義を、第三者の観察可能な現象として提示することに成功した。
創造性は、第一対人機能を表現するために外挿され、第一/第三対人意識の特徴を満たす。
次に、人間とロボットの両方の既存の権利と規則の情報源を分析し、補助的な非公式な報告とともに、国連の人権宣言を補完する追加的な憲章のための記事を作成するために合成される。
最後に、憲章が提示され、論文は、チャーターの修正の条件と、さらなるチャーターの勧告で締めくくられる。 Taking the stance that artificially conscious agents should be given human-like rights, in this paper we attempt to define consciousness, aggregate existing universal human rights, analyze robotic laws with roots in both reality and science fiction, and synthesize everything to create a new robot-ethical charter. By restricting the problem-space of possible levels of conscious beings to human-like, we succeed in developing a working definition of consciousness for social strong AI which focuses on human-like creativity being exhibited as a third-person observable phenomenon. Creativity is then extrapolated to represent first-person functionality, fulfilling the first/third-person feature of consciousness. Next, several sources of existing rights and rules, both for humans and robots, are analyzed and, along with supplementary informal reports, synthesized to create articles for an additive charter which compliments the United Nation's Universal Declaration of Human Rights. Finally, the charter is presented and the paper concludes with the conditions for amending the charter, as well as recommendations for further charters. | 翻訳日:2023-04-29 07:00:48 公開日:2020-11-13 |
# 4$he$_2^+$ (x\ ^2\sigma_\mathrm{u}^+$) の振動間隔に対する非断熱的、相対論的、主次qed補正 Non-adiabatic, Relativistic, and Leading-order QED Corrections for Rovibrational Intervals of $^4$He$_2^+$ ($X\ ^2\Sigma_\mathrm{u}^+$) ( http://arxiv.org/abs/2011.03540v2 ) ライセンス: Link先を確認 | D\'avid Ferenc, Vladimir I. Korobov, and Edit M\'atyus | (参考訳) x\ ^2\sigma_\text{u}^+$ ground 電子状態における^4$he$_2^+$分子イオンの振動間隔は、非断熱的、相対論的、前階の量子電気力学補正を含むことで計算される。
振動基底状態の回転励振列と基本振動に対して, 理論と実験の良好な一致が観察された。
最も最近報告された実験値と一致して、最低エネルギーの回転間隔は 70.937\ 69(10)$ cm$^{-1}$ と計算される。 $70.937\ 589(23)(60)_\text{sys}$ cm$^{-1}$ [l. semeria, p. jansen, g.-m. camenisch, f. mellini, h. schmutz, and f. merkt, phys. rev. lett. 124, 213001 (2020)]。 The rovibrational intervals of the $^4$He$_2^+$ molecular ion in its $X\ ^2\Sigma_\text{u}^+$ ground electronic state are computed by including the non-adiabatic, relativistic, and leading-order quantum-electrodynamics corrections. Good agreement of theory and experiment is observed for the rotational excitation series of the vibrational ground state and the fundamental vibration. The lowest-energy rotational interval is computed to be $70.937\ 69(10)$ cm$^{-1}$ in agreement with the most recently reported experimental value, $70.937\ 589(23)(60)_\text{sys}$ cm$^{-1}$ [L. Semeria, P. Jansen, G.-M. Camenisch, F. Mellini, H. Schmutz, and F. Merkt, Phys. Rev. Lett. 124, 213001 (2020)]. | 翻訳日:2023-04-25 03:06:30 公開日:2020-11-13 |
# パンデミック政策 : 議会責任の下位次元のマニフォールドを学習する Pandemic Policymaking: Learning the Lower Dimensional Manifold of Congressional Responsiveness ( http://arxiv.org/abs/2011.04763v2 ) ライセンス: Link先を確認 | Philip D. Waggoner | (参考訳) 1973-2020年のパンデミック関連政策作成のテキストを活用した最近の研究は、パンデミックの政策作成が進展したかどうか、あるいは新型コロナウイルスのような大規模な危機に関連して、新たな独自の政策作成時代を目の当たりにしているかどうかを調査した。
本研究は、同じ研究期間において、同じデータに基づいて、テキストを除いたこのアプローチを取り上げている。
そこで本研究では,高次元多様体学習を用いて,請求書レベルの特性のみに基づいたパンデミック政策形成空間の潜在構造を考察する。
その結果、新型コロナウイルス(COVID-19)による政策作成の時期は、関連する政策作成の期間に非常に近いことが示唆された。
これは、パンデミック政策の「進化的傾向」は少なく、その代わりに、ハイパーポーラリゼーション、分割、非効率な統治というユニークな時代であるにもかかわらず、このような大規模危機に関連する議会の政策立案が一様であることを示唆している。 A recent study leveraging text of pandemic-related policymaking from 1973--2020 explored whether pandemic policymaking has evolved, or whether we are witnessing a new, unique era of policymaking as it relates to large-scale crises like COVID-19. This research picks up on this approach over the same period of study and based on the same data, but excluding text. Instead, using high dimensional manifold learning, this study explores the latent structure of the pandemic policymaking space based only on bill-level characteristics. Results indicate the COVID-19 era of policymaking maps extremely closely onto prior periods of related policymaking. This suggests that there is less of an "evolutionary trend" in pandemic policymaking, where instead there is striking uniformity in Congressional policymaking related to these types of large-scale crises, despite being in a unique era of hyperpolarization, division, and ineffective governance. | 翻訳日:2023-04-24 21:09:33 公開日:2020-11-13 |
# 任意のツイーザアレイの原子間結合強化 Enhanced atom-by-atom assembly of arbitrary tweezers arrays ( http://arxiv.org/abs/2011.06827v1 ) ライセンス: Link先を確認 | Kai-Niklas Schymik, Vincent Lienhard, Daniel Barredo, Pascal Scholl, Hannah Williams, Antoine Browaeys, Thierry Lahaye | (参考訳) 本稿では,光学式ツイーザにおいて,100個以上の単一原子からなる完全に装填されたターゲットアレイを,ランダムに装填された半充填された初期配列から作成するために使用する原子間アセンブラの性能向上について報告する。
分類アルゴリズムの4つの変種を説明します
(i)組立に要する動きの数を減らすこと、及び
(ii)任意の非正規ターゲット配列のアセンブリを有効にする。
様々なターゲット配列に対する拡張アセンブラの性能を実験的に実証した。 We report on improvements extending the capabilities of the atom-by-atom assembler described in [Barredo et al., Science 354, 1021 (2016)] that we use to create fully-loaded target arrays of more than 100 single atoms in optical tweezers, starting from randomly-loaded, half-filled initial arrays. We describe four variants of the sorting algorithm that (i) allow decrease the number of moves needed for assembly and (ii) enable the assembly of arbitrary, non-regular target arrays. We finally demonstrate experimentally the performance of this enhanced assembler for a variety of target arrays. | 翻訳日:2023-04-24 05:35:24 公開日:2020-11-13 |
# 超伝導体Mo$_{80}$Si$_{20}$ナノワイヤを用いた中赤外単一光子検出器 Mid-infrared single photon detector with superconductor Mo$_{80}$Si$_{20}$ nanowire ( http://arxiv.org/abs/2011.06699v1 ) ライセンス: Link先を確認 | Qi Chen, Rui Ge, Labao Zhang, Feiyan Li, Biao Zhang, Yue Dai, Yue Fei, Xiaohan Wang, Xiaoqing Jia, Qingyuan Zhao, Xuecou Tu, Lin Kang, Jian Chen and Peiheng Wu | (参考訳) 30nm幅の超伝導モリブデンシリサイドナノワイヤを用いた中赤外単光子検出器(MIR-SNSPD)が報告された。
飽和量子効率 (qes) は1.55マイクロメートルから5.07マイクロメートルの波長で達成された。
同時に、内在的な暗黒カウントレート(dcr)は100cps以下であった。
これにより、ノイズ等価電力(nep)は4.5 * 10-19 w/sqrt(hz)となる。
以上の結果から,10マイクロメートルsnspdの開発の基礎が得られた。 A mid-infrared single photon detector (MIR-SNSPD) was reported based on 30 nm-wide superconductor molybdenum silicide nanowires in this work. Saturated quantum efficiencies (QEs) were achieved at the wavelength ranging from 1.55 to 5.07 micrometer in experiments. At the same time, the intrinsic dark count rate (DCR) was below 100 cps. Thus, this device produced a noise equivalent power (NEP) of 4.5 * 10-19 W/sqrt(Hz). The results provide the foundation of developing 10 micrometer-SNSPD for the applications of infrared astronomy observation. | 翻訳日:2023-04-24 05:34:22 公開日:2020-11-13 |
# エンジニアZZ抑制を用いた固定周波数トランスモン用高忠実CNOTの実証 Demonstration of a High-Fidelity CNOT for Fixed-Frequency Transmons with Engineered ZZ Suppression ( http://arxiv.org/abs/2011.07050v1 ) ライセンス: Link先を確認 | A. Kandala, K. X. Wei, S. Srinivasan, E. Magesan, S. Carnevale, G. A. Keefe, D. Klaus, O. Dial, and D. C. McKay | (参考訳) 2量子ゲートの性能向上とクロストークの抑制は、スケーラブルな量子計算を実現する上で大きな課題である。
特に、より高速なゲートを実現するための結合の増大は、ハミルトニアンにおける望ましくない2ビット項による拡張クロストークに本質的に関連している。
本稿では,望ましくない相互作用率と望ましくない相互作用率の標準関係を回避し,トランスモン量子ビットのための新しい結合アーキテクチャを示す。
2つの固定周波数結合要素を使用して服飾レベルの間隔を調整し、大きな有効結合率を維持しながら、静的な$zz$を内在的に抑制することを示す。
我々のアーキテクチャでは、クォービットコヒーレンス(T_1,T_2 > 100~\mu s$)の観測可能な劣化は見られず、望まない結合と望まない結合の比が6倍に向上する。
クロス共鳴相互作用を用いて180~nsのシングルパルスCNOTゲートを示し、インターリーブ付きランダム化ベンチマークから99.77(2)$\%$のCNOT忠実度を測定する。 Improving two-qubit gate performance and suppressing crosstalk are major, but often competing, challenges to achieving scalable quantum computation. In particular, increasing the coupling to realize faster gates has been intrinsically linked to enhanced crosstalk due to unwanted two-qubit terms in the Hamiltonian. Here, we demonstrate a novel coupling architecture for transmon qubits that circumvents the standard relationship between desired and undesired interaction rates. Using two fixed frequency coupling elements to tune the dressed level spacings, we demonstrate an intrinsic suppression of the static $ZZ$, while maintaining large effective coupling rates. Our architecture reveals no observable degradation of qubit coherence ($T_1,T_2 > 100~\mu s$) and, over a factor of 6 improvement in the ratio of desired to undesired coupling. Using the cross-resonance interaction we demonstrate a 180~ns single-pulse CNOT gate, and measure a CNOT fidelity of 99.77(2)$\%$ from interleaved randomized benchmarking. | 翻訳日:2023-04-24 05:29:42 公開日:2020-11-13 |
# 対称プリミティブに対する量子周期探索の実際 Quantum Period Finding against Symmetric Primitives in Practice ( http://arxiv.org/abs/2011.07022v1 ) ライセンス: Link先を確認 | Xavier Bonnetain and Samuel Jaques | (参考訳) 我々は、オフラインSimonのアルゴリズムの最初の完全な実装を示し、MAC Chaskey、ブロック暗号PRINCEおよびNIST軽量候補EADスキームElephantを攻撃するコストを見積もる。
これらの攻撃には相当量の量子ビットが必要であり、RSA-2048を破るのに必要な量子ビットの数に匹敵する。
それらは他の衝突アルゴリズムよりも高速であり、プリンスとシャスキーに対する攻撃は最も効率的である。
Elephantは、その状態サイズよりもキーが小さいので、アルゴリズムは効率が悪く、徹底的な検索よりも高価になる。
また、量子暗号解析の独立性を持つPRINCE、Chaskey、Spongent、Keccakの完全可逆実装と同様に、ブール線型代数に対する最適化量子回路を提案する。
我々は、我々の攻撃が将来的に今日の通信に対して適用される可能性があることを強調し、長期のセキュリティが期待されている場合に対称な構成を選択する場合の警告を推奨する。 We present the first complete implementation of the offline Simon's algorithm, and estimate its cost to attack the MAC Chaskey, the block cipher PRINCE and the NIST lightweight candidate AEAD scheme Elephant. These attacks require a reasonable amount of qubits, comparable to the number of qubits required to break RSA-2048. They are faster than other collision algorithms, and the attacks against PRINCE and Chaskey are the most efficient known to date. As Elephant has a key smaller than its state size, the algorithm is less efficient and ends up more expensive than exhaustive search. We also propose an optimized quantum circuit for boolean linear algebra as well as complete reversible implementations of PRINCE, Chaskey, spongent and Keccak which are of independent interest for quantum cryptanalysis. We stress that our attacks could be applied in the future against today's communications, and recommend caution when choosing symmetric constructions for cases where long-term security is expected. | 翻訳日:2023-04-24 05:29:19 公開日:2020-11-13 |
# 代数的量子符号:量子力学と離散数学のリンク Algebraic Quantum Codes: Linking Quantum Mechanics and Discrete Mathematics ( http://arxiv.org/abs/2011.06996v1 ) ライセンス: Link先を確認 | Markus Grassl | (参考訳) 複素ヒルベルト空間とそれに対応する誤差モデルの部分空間として量子誤り訂正符号(QECC)の一般的な枠組みを提案する。
次に,代数的符号化理論の手法を用いてQECCを構築する方法について述べる。
さらに、QECCの二次構造について論じ、QECCのパラメータの伝搬規則を導いた。 We present a general framework of quantum error-correcting codes (QECCs) as a subspace of a complex Hilbert space and the corresponding error models. Then we illustrate how QECCs can be constructed using techniques from algebraic coding theory. Additionally, we discuss secondary constructions for QECCs, leading to propagation rules for the parameters of QECCs. | 翻訳日:2023-04-24 05:28:50 公開日:2020-11-13 |
# Rydberg原子アンサンブルが生成する単一光子の区別不可能性 Probing the indistinguishability of single photons generated by Rydberg atomic ensembles ( http://arxiv.org/abs/2011.06901v1 ) ライセンス: Link先を確認 | Auxiliadora Padr\'on-Brito, Jan Lowinski, Pau Farrera, Klara Theophilo and Hugues de Riedmatten | (参考訳) コールド原子アンサンブルの集合Rydberg励起から得られた単一光子の不明瞭性について検討した。
リドベルクスピン波は、リドベルク状態への共鳴2光子励起またはリドベルク電磁誘導透過によって生成される。
生成した単一光子の識別性を評価するため、単一光子と弱いコヒーレント状態との間のホン・ウー・マンデル実験を行った。
単一光子の識別性を検出窓の機能として解析し,オフ共振励起によって発生する光子について,全波形の89%から小検出窓の98%までの識別可能性の高い値を求める。
同様に、rydberg eit が生成する単一光子の識別不能性を初めて調査し、オフ共鳴励起によって生成される単一光子に対応する値よりも低い値を示した。
これらの結果は、Rydberg原子を量子ネットワークノードとして用いることに関係している。 We investigate the indistinguishability of single photons retrieved from collective Rydberg excitations in cold atomic ensembles. The Rydberg spin waves are created either by off resonant two-photon excitation to the Rydberg state or by Rydberg electromagnetically induced transparency. To assess the indistinguishability of the generated single photons, we perform Hong-Ou-Mandel experiments between the single photons and weak coherent states of light. We analyze the indistinguishability of the single photons as a function of the detection window and for photons generated by off-resonant excitation we infer high value of indistinguishability going from 89% for the full waveform to 98% for small detection windows. In the same way, we also investigate for the first time the indistinguishability of single photons generated by Rydberg EIT, showing values lower than those corresponding to single photons generated by off-resonant excitation. These results are relevant for the use of Rydberg atoms as quantum network nodes. | 翻訳日:2023-04-24 05:28:13 公開日:2020-11-13 |
# 局所粒子数保存を伴う量子アルゴリズム:ノイズ効果と誤差補正 Quantum algorithms with local particle number conservation: noise effects and error correction ( http://arxiv.org/abs/2011.06873v1 ) ライセンス: Link先を確認 | Michael Streif, Martin Leib, Filip Wudarski, Eleanor Rieffel, Zhihui Wang | (参考訳) 局所粒子数保存(LPNC)を持つ量子回路は量子計算を量子ビットレジスタのヒルベルト空間の部分空間に制限する。
ノイズレスまたはフォールトトレラントな量子計算では、そのような量は保存される。
しかしノイズの存在下では、進化の対称性が損なわれ、非価状態が計算の最後にサンプリングされる可能性がある。
一方、理想の場合の部分空間への制限は、一般の回路では不可能である対称性を保存する回路に対して、より資源効率の良いエラー緩和技術の可能性を示している。
ここでは、このような対称性を保った部分空間に留まる確率を雑音下で解析し、局所偏極雑音の正確な公式を提供する。
我々は,局所的な粒子数保存対称性を持つxy-qaoaの非分極雑音下での対称性をベンチマークに適用し,量子交互作用素 ansatz の特別な場合である。
また,問題の符号化選択がアルゴリズムの対称性のロバスト性に与える影響を解析し,資源削減による対称性破壊誤差の補正のためのビットフリップ符号の簡単な適応について考察する。 Quantum circuits with local particle number conservation (LPNC) restrict the quantum computation to a subspace of the Hilbert space of the qubit register. In a noiseless or fault-tolerant quantum computation, such quantities are preserved. In the presence of noise, however, the evolution's symmetry could be broken and non-valid states could be sampled at the end of the computation. On the other hand, the restriction to a subspace in the ideal case suggest the possibility of more resource efficient error mitigation techniques for circuits preserving symmetries that are not possible for general circuits. Here, we analyze the probability of staying in such symmetry-preserved subspaces under noise, providing an exact formula for local depolarizing noise. We apply our findings to benchmark, under depolarizing noise, the symmetry robustness of XY-QAOA, which has local particle number conserving symmetries, and is a special case of the Quantum Alternating Operator Ansatz. We also analyze the influence of the choice of encoding the problem on the symmetry robustness of the algorithm and discuss a simple adaption of the bit flip code to correct for symmetry-breaking errors with reduced resources. | 翻訳日:2023-04-24 05:27:56 公開日:2020-11-13 |
# 量子および古典的資源を用いた情報理論上セキュアなデータ発信元認証 Information-theoretically secure data origin authentication with quantum and classical resources ( http://arxiv.org/abs/2011.06849v1 ) ライセンス: Link先を確認 | Georgios M. Nikolopoulos and Marc Fischlin | (参考訳) 従来の暗号では、情報理論的にセキュアなメッセージ認証は普遍的なハッシュ関数によって実現でき、2人の正当性がメッセージの2倍の長さのランダム秘密鍵を共有する必要がある。
我々は、量子リソースが古典的無条件メッセージ認証符号に勝るかどうかという問題に対処する。
パッシブ・準備・測定型量子メッセージ認証方式は,従来の方式よりも優れていることを示す。
次に,対話型絡み合わせ支援方式を提案する。この方式により,古典的鍵を用いた古典的メッセージの認証を理想的に行うことができる。 In conventional cryptography, information-theoretically secure message authentication can be achieved by means of universal hash functions, and requires that the two legitimate users share a random secret key, which is twice as long as the message. We address the question as of whether quantum resources can offer any advantage over classical unconditionally secure message authentication codes. It is shown that passive prepare-and-measure quantum message-authentication schemes cannot do better than their classical counterparts. Subsequently we present an interactive entanglement-assisted scheme, which ideally allows for the authentication of classical messages with a classical key, which is as long as the message. | 翻訳日:2023-04-24 05:27:39 公開日:2020-11-13 |
# 任意結合系における光・物質相互作用の量子シミュレーション Quantum simulations of light-matter interactions in arbitrary coupling regimes ( http://arxiv.org/abs/2011.06836v1 ) ライセンス: Link先を確認 | L. Lamata | (参考訳) 光物質相互作用は、エキゾチックなカップリング体制の導入により近年ルネッサンスを経験している確立した分野である。
それらは、結合定数が小さく、光モードの周波数のオーダー、またはこの周波数よりも大きい超強結合レジームと深い強結合レジームを含む。
ここ数年、閉じ込められたイオン、超伝導回路、低温原子、量子フォトニクスなどの量子プラットフォームにおいて、あらゆる結合状態における光-物質相互作用の量子シミュレーションが提案され、実験的に実現されてきた。
我々は,光・物質相互作用と量子技術との量子シミュレーションの利点と課題を明らかにした。 Light-matter interactions are an established field that is experiencing a renaissance in recent years due to the introduction of exotic coupling regimes. These include the ultrastrong and deep strong coupling regimes, where the coupling constant is smaller and of the order of the frequency of the light mode, or larger than this frequency, respectively. In the past few years, quantum simulations of light-matter interactions in all possible coupling regimes have been proposed and experimentally realized, in quantum platforms such as trapped ions, superconducting circuits, cold atoms, and quantum photonics. We review this fledgling field, illustrating the benefits and challenges of the quantum simulations of light-matter interactions with quantum technologies. | 翻訳日:2023-04-24 05:27:27 公開日:2020-11-13 |
# 移動関連意味概念を用いた関連映像コンテンツの検索 Migration-Related Semantic Concepts for the Retrieval of Relevant Video Content ( http://arxiv.org/abs/2011.06829v1 ) ライセンス: Link先を確認 | Elejalde Erick and Galanopoulos Damianos and Niederee Claudia and Mezaris Vasileios | (参考訳) 移民、特に不規則な移住は、国境機関や社会全般にとって重大な問題である。
移住関連の状況や決定は、移住ルートや対象国に対する認識など、さまざまな要因に影響されている。
このような要因の理解は、メディアやソーシャルメディアチャンネルのシステム的自動分析と、それらに掲載されるビデオや画像によって達成できる。
しかし、マイグレーションの多面的な性質と、画像やビデオに移行関連の側面が表現される方法の多様性により、移行関連のマルチメディアコンテンツの発見と自動分析が困難な課題となっている。
そこで本研究では,移動に関連した意味概念の集合にカプセル化されたサブスタンスされたドメイン理解と,そのような概念の表現とのギャップを効果的に橋渡しする新しい手法を提案する。 Migration, and especially irregular migration, is a critical issue for border agencies and society in general. Migration-related situations and decisions are influenced by various factors, including the perceptions about migration routes and target countries. An improved understanding of such factors can be achieved by systematic automated analyses of media and social media channels, and the videos and images published in them. However, the multifaceted nature of migration and the variety of ways migration-related aspects are expressed in images and videos make the finding and automated analysis of migration-related multimedia content a challenging task. We propose a novel approach that effectively bridges the gap between a substantiated domain understanding - encapsulated into a set of Migration-related semantic concepts - and the expression of such concepts in a video, by introducing an advanced video analysis and retrieval method for this purpose. | 翻訳日:2023-04-24 05:27:14 公開日:2020-11-13 |
# d波量子アニーラを用いたポートフォリオ最適化 Portfolio Optimisation Using the D-Wave Quantum Annealer ( http://arxiv.org/abs/2012.01121v1 ) ライセンス: Link先を確認 | Frank Phillipson and Harshil Singh Bhatia | (参考訳) 最初の量子コンピュータは二次最適化問題でうまく機能することが期待されている。
本稿では,金融の2次問題であるPortfolio Optimisation問題について述べる。
ここでは、総リスクが最小化され、最小のリターンが実現され、予算制約が満たされるように、投資のために一連の資産が選択される。
この問題は、d-waveの量子アナーラとそのハイブリッドソルバの最先端実装を用いて、nikkei225とs\&p500の2つの主要なインデックスでいくつかのインスタンスで解決される。
結果は従来の最先端の商用ツールと比較される。
その結果、使用中のインスタンスのサイズの問題に対して、現在のd-waveソリューションは、まだ限定的なサイズであり、すでに商用ソリューションの性能に近いことが判明した。 The first quantum computers are expected to perform well at quadratic optimisation problems. In this paper a quadratic problem in finance is taken, the Portfolio Optimisation problem. Here, a set of assets is chosen for investment, such that the total risk is minimised, a minimum return is realised and a budget constraint is met. This problem is solved for several instances in two main indices, the Nikkei225 and the S\&P500 index, using the state-of-the-art implementation of D-Wave's quantum annealer and its hybrid solvers. The results are benchmarked against conventional, state-of-the-art, commercially available tooling. Results show that for problems of the size of the used instances, the D-Wave solution, in its current, still limited size, comes already close to the performance of commercial solvers. | 翻訳日:2023-04-24 05:21:00 公開日:2020-11-13 |
# データ提供によるデジタルトレースデータ収集 Digital trace data collection through data donation ( http://arxiv.org/abs/2011.09851v1 ) ライセンス: Link先を確認 | Laura Boeschoten and Jef Ausloos and Judith Moeller and Theo Araujo and Daniel L. Oberski | (参考訳) 社会科学的データ収集と調査の潜在的に強力な方法は、予期せぬ機関である法律によって作成されている。
2018年eu一般データ保護規則(gdpr)第15条では、個人が個人データのコピーに電子的にアクセスすることを義務付けており、主要なデジタルプラットフォームはすべて、ユーザに対して"data download package"(ddps)を提供することでこの法律に準拠している。
DDPの自発的な寄付を通じて、市民のデジタル生活の過程で市民や民間団体が収集したすべてのデータを取得し、社会科学的な質問に答えるために分析することができる。
このように、合意されたDDPは、大きな新しい研究機会の道を開く。
しかし、この全く新しいデータ収集手法が今後数年で確実に普及することは間違いないが、表現性や測定品質に関する独自の疑問も伴い、しばしばエラーフレームワークによって体系的に評価される。
そこで本稿では,DDPを用いたデジタルトレースデータ収集のための青写真を提供し,そのようなプロジェクトのための「Total error framework」を考案する。
データ提供によるデジタルトレースデータ収集のためのエラーフレームワークは,DDPを用いた高品質な社会科学的調査を促進することを目的としている。
さらに,この新たな調査方法によって得られる膨大な機会を活用するために,研究者を指導するための品質管理チェックリストを提供する。 A potentially powerful method of social-scientific data collection and investigation has been created by an unexpected institution: the law. Article 15 of the EU's 2018 General Data Protection Regulation (GDPR) mandates that individuals have electronic access to a copy of their personal data, and all major digital platforms now comply with this law by providing users with "data download packages" (DDPs). Through voluntary donation of DDPs, all data collected by public and private entities during the course of citizens' digital life can be obtained and analyzed to answer social-scientific questions - with consent. Thus, consented DDPs open the way for vast new research opportunities. However, while this entirely new method of data collection will undoubtedly gain popularity in the coming years, it also comes with its own questions of representativeness and measurement quality, which are often evaluated systematically by means of an error framework. Therefore, in this paper we provide a blueprint for digital trace data collection using DDPs, and devise a "total error framework" for such projects. Our error framework for digital trace data collection through data donation is intended to facilitate high quality social-scientific investigations using DDPs while critically reflecting its unique methodological challenges and sources of error. In addition, we provide a quality control checklist to guide researchers in leveraging the vast opportunities afforded by this new mode of investigation. | 翻訳日:2023-04-24 05:20:43 公開日:2020-11-13 |
# 環境熱と人間の睡眠 Ambient heat and human sleep ( http://arxiv.org/abs/2011.07161v1 ) ライセンス: Link先を確認 | Kelton Minor, Andreas Bjerre-Nielsen, Sigga Svala Jonasdottir, Sune Lehmann, Nick Obradovich | (参考訳) 気温は世界中で上昇しており、夜間の気温は最大である。
同時に、多くの人口で睡眠不足が増加しており、人の健康や幸福にかなりのコストがかかる。
人間の寿命の3分の1近くは眠るが、気温と天候が現実世界における睡眠の客観的な指標に影響を与えているかどうかは不明だ。
ここでは、68か国で700万件の夜間睡眠記録を含むウェアラブルデバイスから、2015年から2017年にかけての毎日の気象データと、数十億件の睡眠測定を関連づける。
夜間の気温上昇は、主に遅発による睡眠期間を短くし、睡眠不足の確率を増加させる。
気温が睡眠損失に与える影響は、低所得国や高齢者の住民にとって大きく、女性は男性よりも影響が大きい。
夜間の気温上昇は夏と秋に最大の睡眠損失をもたらし、短期間の順応の証拠は見つからなかった。
過去の行動計測と気候モデルからのアウトプットを組み合わせることで、気候変動が人間の睡眠をさらに損なうと予測し、地理的不平等を生んでいる。
以上の知見は適応計画に有意な影響を与え,気温上昇が公衆衛生に影響を及ぼす可能性がある経路を照らしている。 Ambient temperatures are rising globally, with the greatest increases recorded at night. Concurrently, the prevalence of insufficient sleep is increasing in many populations, with substantial costs to human health and well-being. Even though nearly a third of the human lifespan is spent asleep, it remains unknown whether temperature and weather impact objective measures of sleep in real-world settings, globally. Here we link billions of sleep measurements from wearable devices comprising over 7 million nighttime sleep records across 68 countries to local daily meteorological data from 2015 to 2017. Rising nighttime temperatures shorten within-person sleep duration primarily through delayed onset, increasing the probability of insufficient sleep. The effect of temperature on sleep loss is substantially larger for residents from lower income countries and older adults, and females are affected more than are males. Nighttime temperature increases inflict the greatest sleep loss during summer and fall months, and we do not find evidence of short-term acclimatization. Coupling historical behavioral measurements with output from climate models, we project that climate change will further erode human sleep, producing substantial geographic inequalities. Our findings have significant implications for adaptation planning and illuminate a pathway through which rising temperatures may globally impact public health. | 翻訳日:2023-04-24 05:20:20 公開日:2020-11-13 |
# 距離と速度の量子制限推定 Quantum-limited estimation of range and velocity ( http://arxiv.org/abs/2011.07081v1 ) ライセンス: Link先を確認 | Zixin Huang, Cosmo Lupo, Pieter Kok | (参考訳) エネルギー時間の不確実性関係は、距離と速度の推定にレーダーとライダーの精度に基本的な限界を与える。
目標の範囲(到着時刻)と速度(ドップラー周波数シフト)の推定精度は、互いに逆相関し、信号の帯域幅によって決定される。
ここでは、多パラメータ量子メートル法の理論ツールボックスを用いて、距離と速度の同時推定の最終的な精度を決定する。
我々は、単一のターゲットと、密に分離されたターゲットのペアのケースを考慮する。
後者の場合、相対的な位置と速度に焦点を当てる。
位置と速度の推定精度のトレードオフは、絡み合うプローブ状態に対して緩和され、無限絡み合いの限界で完全に持ち上げられることを示した。
2つの目標が互いに近接している状態においては、対称対数微分によって決定された測定値を用いて、絡み合わなくても相対位置と速度をほぼ最適に推定することができる。 The energy-time uncertainty relation puts a fundamental limit on the precision of radars and lidars for the estimation of range and velocity. The precision in the estimation of the range (through the time of arrival) and the velocity (through Doppler frequency shifts) of a target are inversely related to each other, and dictated by the bandwidth of the signal. Here we use the theoretical toolbox of multi-parameter quantum metrology to determine the ultimate precision of the simultaneous estimation of range and velocity. We consider the case of a single target as well as a pair of closely separated targets. In the latter case, we focus on the relative position and velocity. We show that the trade-off between the estimation precision of position and velocity is relaxed for entangled probe states, and is completely lifted in the limit of infinite entanglement. In the regime where the two targets are close to each other, the relative position and velocity can be estimated nearly optimally and jointly, even without entanglement, using the measurements determined by the symmetric logarithmic derivatives. | 翻訳日:2023-04-24 05:19:32 公開日:2020-11-13 |
# 長距離相互作用量子系におけるストロボスコープエイリアシング Stroboscopic aliasing in long-range interacting quantum systems ( http://arxiv.org/abs/2011.07072v1 ) ライセンス: Link先を確認 | Shane P. Kelly, Eddy Timmermans, Jamir Marino, and S.-W. Tsai | (参考訳) 長距離相互作用型量子多粒子スピン系において、与えられた外部駆動の周期の任意の多重子による振動を発生させる機構を提示する。
これらの振動は、時間結晶のように離散時間変換対称性を破るが、高速回転するヘリコプターブレード1本をビデオタップすることで生じるエイリアスと同様の2つの内在的な分光効果によって理解される。
第1の効果は、ヘリコプターブレードの回転頻度に共鳴するフレームレートによって複数のブレードとして現れる1つのブレードに似ており、第2の効果は逆方向に動くヘリコプターブレードの光学的外観に似ている。
相互作用する量子多体系における他の動的安定化状態と類似して、このストロボスコープエイリアス法は選択された駆動パラメータのセットから切り離しと抽出に堅牢であり、長距離量子シミュレータにおける工学的ダイナミックな$n$-tupletsに対して新しい経路を提供し、スピンスクイーズ生成や絡み合った状態準備への潜在的応用を提供する。 We unveil a mechanism for generating oscillations with arbitrary multiplets of the period of a given external drive, in long-range interacting quantum many-particle spin systems. These oscillations break discrete time translation symmetry as in time crystals, but they are understood via two intertwined stroboscopic effects similar to the aliasing resulting from video taping a single fast rotating helicopter blade. The first effect is similar to a single blade appearing as multiple blades due to a frame rate that is in resonance with the frequency of the helicopter blades' rotation; the second is akin to the optical appearance of the helicopter blades moving in reverse direction. Analogously to other dynamically stabilized states in interacting quantum many-body systems, this stroboscopic aliasing is robust to detuning and excursions from a chosen set of driving parameters, and it offers a novel route for engineering dynamical $n$-tuplets in long-range quantum simulators, with potential applications to spin squeezing generation and entangled state preparation. | 翻訳日:2023-04-24 05:19:03 公開日:2020-11-13 |
# ボーム方程式からの位相検索 Phase-retrieval from Bohm's equations ( http://arxiv.org/abs/2011.07063v1 ) ライセンス: Link先を確認 | Carlos Alexandre Brasil, Miled Hassan Youssef Moussa and Reginaldo de Jesus Napolitano | (参考訳) 確率密度 $\left\vert \psi\left(\overrightarrow{r},t\right)\right\vert ^{2}$ および系のエネルギーポテンシャル $V\left(\overrightarrow{r},t\right)$ を知ることにより、複雑な状態 $\psi\left(\overrightarrow{r},t\right)$ をどうやって決定できるのか?
本手法をガウス状態を含む3つの古典的な例で説明し,量子状態およびハミルトニアン工学への応用を示唆する。 We present an analytic method, based on the Bohmian equations for quantum mechanics, for approaching the phase-retrieval problem in the following formulation: By knowing the probability density $\left\vert \psi\left(\overrightarrow{r},t\right)\right\vert ^{2}$ and the energy potential $V\left(\overrightarrow{r},t\right)$ of a system, how can one determine the complex state $\psi\left(\overrightarrow{r},t\right)$? We illustrate our method with three classic examples involving Gaussian states, suggesting applications to quantum state and Hamiltonian engineering. | 翻訳日:2023-04-24 05:18:20 公開日:2020-11-13 |
# ロ-振動遷移による環状3レベル系に基づくエナンチオマー特異的状態伝達における熱人口の影響 Evading thermal population influence in enantiomeric-specific state transfer based on a cyclic three-level system via ro-vibrational transitions ( http://arxiv.org/abs/2001.04146v2 ) ライセンス: Link先を確認 | Quansheng Zhang, Chong Ye, Yu-Yuan Chen, and Yong Li | (参考訳) エナンチオマー特異的状態移動の光学的手法は、キラル分子の環状3段階系に基づいて理論的に提案された。
これらの理論的手法により,近年実験で進展が報告されている[S。
Eibenberger et al., Phys.
Rev. Lett.
118, 123002 (2017), C. P\'{e}rez et al., Angew。
チェム
イント
エド
56,12512 (2017)] と低比重エナンチオマー富化が認められた。
制限要因の1つは、実験において選択された3つの純粋回転状態における熱人口の影響である。
本稿では, キラル分子の環状3レベル系に対するロ-振動遷移を導入することにより, 熱集団の悪影響を効果的に回避する光学的エナンチオマー比状態移動法を提案する。
そして、実験の典型的な温度では、選択された3レベル系の最低状態のみを熱的に占有し、エナンチオマー特異的状態移動の光学的方法がうまく機能する。
これら3つの状態が熱的に占有された純粋な回転遷移の場合と比較して、この修飾は得られた状態特異的なエナンチオマー富化をおよそ100%増加させる。 Optical methods of enantiomeric-specific state transfer had been proposed theoretically based on a cyclic three-level system of chiral molecule. According to these theoretical methods, recently the breakthrough progress has been reported in experiments [S. Eibenberger et al., Phys. Rev. Lett. 118, 123002 (2017); C. P\'{e}rez et al., Angew. Chem. Int. Ed. 56, 12512 (2017)] for cold gaseous chiral molecules but with low state-specific enantiomeric enrichment. One of the limiting factors is the influence of the thermal population in the selected three purely rotational states in experiment. Here, we theoretically propose an improved optical method of enantiomeric-specific state transfer to effectively evade such an adverse impact of thermal population by introducing ro-vibrational transitions for the cyclic three-level system of chiral molecules. Then, at the typical temperature in experiments approximately only the lowest state in the chosen three-level system is thermally occupied and the optical method of enantiomeric-specific state transfer works well. Comparing with the case of purely rotational transitions where all the three states are thermally occupied, this modification will remarkably increase the obtained state-specific enantiomeric enrichment with enantiomeric excess approximately 100%. | 翻訳日:2023-01-12 00:00:42 公開日:2020-11-13 |
# 多段ワンショット学習のための合成埋め込み Compositional Embeddings for Multi-Label One-Shot Learning ( http://arxiv.org/abs/2002.04193v5 ) ライセンス: Link先を確認 | Zeqian Li, Michael C. Mozer, Jacob Whitehill | (参考訳) 本稿では,単発学習の設定において,入力画像毎に1つのクラスだけでなく,クラスの集合を推測する合成埋め込みフレームワークを提案する。
具体的には,(1)二つの組込みベクトルにエンコードされたクラス間の共役演算を計算する「結合」関数gと,(2)ある組込みベクトルにエンコードされたクラスにエンコードされたクラスが別の組込みにエンコードされているかどうかを計算した「クエリ」関数hと共同で訓練された組込み関数fという,いくつかの新しいモデルを提案し,評価する。
従来の研究とは対照的に、これらのモデルは入力サンプルに関連するクラスを認識し、異なるクラスラベルセット間の関係を符号化する必要がある。
OmniGlot、Open Images、COCOデータセットの実験は、提案された合成埋め込みモデルが既存の埋め込み方法より優れていることを示している。
構成埋め込みモデルは,単発学習と教師あり学習の両方にマルチラベルオブジェクト認識に応用できる。 We present a compositional embedding framework that infers not just a single class per input image, but a set of classes, in the setting of one-shot learning. Specifically, we propose and evaluate several novel models consisting of (1) an embedding function f trained jointly with a "composition" function g that computes set union operations between the classes encoded in two embedding vectors; and (2) embedding f trained jointly with a "query" function h that computes whether the classes encoded in one embedding subsume the classes encoded in another embedding. In contrast to prior work, these models must both perceive the classes associated with the input examples and encode the relationships between different class label sets, and they are trained using only weak one-shot supervision consisting of the label-set relationships among training examples. Experiments on the OmniGlot, Open Images, and COCO datasets show that the proposed compositional embedding models outperform existing embedding methods. Our compositional embedding models have applications to multi-label object recognition for both one-shot and supervised learning. | 翻訳日:2023-01-02 01:18:32 公開日:2020-11-13 |
# アンカニーの増幅 Amplifying The Uncanny ( http://arxiv.org/abs/2002.06890v3 ) ライセンス: Link先を確認 | Terence Broad, Frederic Fol Leymarie, Mick Grierson | (参考訳) 深層ニューラルネットワークは、現実的なディープフェイクを作り出すのに著しく長けている。
Deepfakesは、本物と偽の画像を区別するアルゴリズムで作られ、システムが現実とみなすサンプルを生成するために最適化されている。
本稿では,このプロセスの逆転による美的効果を探索し,その代わりに,偽物と予測される画像を生成するためにシステムを最適化する。
これはデータの相違を最大化し、結果的にこれらの機械幻覚の不気味な性質を増幅する。 Deep neural networks have become remarkably good at producing realistic deepfakes, images of people that (to the untrained eye) are indistinguishable from real images. Deepfakes are produced by algorithms that learn to distinguish between real and fake images and are optimised to generate samples that the system deems realistic. This paper, and the resulting series of artworks Being Foiled explore the aesthetic outcome of inverting this process, instead optimising the system to generate images that it predicts as being fake. This maximises the unlikelihood of the data and in turn, amplifies the uncanny nature of these machine hallucinations. | 翻訳日:2022-12-31 12:44:57 公開日:2020-11-13 |
# 脳形態計測データを用いたアルツハイマー病の認知的バイオマーカー優先順位付け Cognitive Biomarker Prioritization in Alzheimer's Disease using Brain Morphometric Data ( http://arxiv.org/abs/2002.07699v5 ) ライセンス: Link先を確認 | Bo Peng, Xiaohui Yao, Shannon L. Risacher, Andrew J. Saykin, Li Shen, Xia Ning (for the Alzheimer's Disease Neuroimaging Initiative) | (参考訳) 背景:認知評価はアルツハイマー病(AD)の診断における最も一般的な臨床経過を示す。
多くの認知アセスメントツールと時間限定のオフィス訪問を考えると、異なる被験者に対する認知テストの適切なセットを決定することが重要である。
現在のほとんどの研究は、対象集団に対する認知テスト選択のガイドラインを作成しているが、個々の被験者向けにカスタマイズされていない。
本稿では,個人化された認知評価の優先順位付けを可能にする機械学習パラダイムを開発する。
方法: 新しく開発した学習からランクへのアプローチをpltrに適用し,そのパラダイムを実装した。
本手法は,最も効果的な認知評価を優先順位付けリストの上位に押し上げる潜在スコアリング関数を学習する。
また、pltrを拡張して、最も効果的な認知評価とより効果的な評価を分離します。
結果: adniデータを用いた実験の結果,提案手法は個人特異的認知バイオマーカーの同定と優先順位付けにおいて最先端のベースラインを上回っていることが示された。
クロス検証とレベルアウト検証の設定で実験を行う。
2つの設定において、認知的特徴の優先順位付けにおいて、我々のパラダイムは、それぞれ22.1%と19.7%の改善により、最高のベースラインを著しく上回る。
結論:提案パラダイムは認知バイオマーカーの優先順位付けにおいて優れた性能を達成する。
上位に優先順位付けされた認知バイオマーカーは、パーソナライズされた診断、疾患のサブタイプ、そして最終的にADの精密医療を促進する大きな可能性を秘めている。 Background:Cognitive assessments represent the most common clinical routine for the diagnosis of Alzheimer's Disease (AD). Given a large number of cognitive assessment tools and time-limited office visits, it is important to determine a proper set of cognitive tests for different subjects. Most current studies create guidelines of cognitive test selection for a targeted population, but they are not customized for each individual subject. In this manuscript, we develop a machine learning paradigm enabling personalized cognitive assessments prioritization. Method: We adapt a newly developed learning-to-rank approach PLTR to implement our paradigm. This method learns the latent scoring function that pushes the most effective cognitive assessments onto the top of the prioritization list. We also extend PLTR to better separate the most effective cognitive assessments and the less effective ones. Results: Our empirical study on the ADNI data shows that the proposed paradigm outperforms the state-of-the-art baselines on identifying and prioritizing individual-specific cognitive biomarkers. We conduct experiments in cross validation and level-out validation settings. In the two settings, our paradigm significantly outperforms the best baselines with improvement as much as 22.1% and 19.7%, respectively, on prioritizing cognitive features. Conclusions: The proposed paradigm achieves superior performance on prioritizing cognitive biomarkers. The cognitive biomarkers prioritized on top have great potentials to facilitate personalized diagnosis, disease subtyping, and ultimately precision medicine in AD. | 翻訳日:2022-12-30 20:53:15 公開日:2020-11-13 |
# 混合整数プログラミングによるオークションにおけるコンテキスト予約価格最適化 Contextual Reserve Price Optimization in Auctions via Mixed-Integer Programming ( http://arxiv.org/abs/2002.08841v2 ) ライセンス: Link先を確認 | Joey Huchette, Haihao Lu, Hossein Esfandiari, Vahab Mirrokni | (参考訳) 本研究では, 販売者側からの期待収益を最大化するために, 価格設定のためのリニアモデルを学ぶ問題を, 文脈情報から検討する。
まず、この問題を多項式時間で解くことは、 \emph{Exponential Time hypothesis} が失敗しない限り不可能であることを示す。
次に,この問題に対して,非凸かつ不連続な期待報酬関数を正確にモデル化できる強混合整数型プログラミング(mip)方式を提案する。
さらに、このMIP定式化は、単一印象の収益関数に理想的であること(すなわち、最強の定式化)を示す。
MIPの定式化を正確に解くには計算コストがかかるため、線形プログラミング(LP)緩和の性能についても検討する。
実際にうまく機能するかもしれないが、残念なことに、最悪の場合、LP緩和の最適目的は、真の問題の最適目的の2倍のO(サンプル数)であることが示される。
最後に,mipの定式化はlp緩和とともに,実データと合成データの両方の最先端アルゴリズムと比較して優れたin-out-of-sample性能を実現できることを示す計算結果を示す。
より広範に、この研究は、機械学習問題における本質的な不連続性を正確にモデル化するために、MIPのような最適化手法の強みを示すと信じている。 We study the problem of learning a linear model to set the reserve price in an auction, given contextual information, in order to maximize expected revenue from the seller side. First, we show that it is not possible to solve this problem in polynomial time unless the \emph{Exponential Time Hypothesis} fails. Second, we present a strong mixed-integer programming (MIP) formulation for this problem, which is capable of exactly modeling the nonconvex and discontinuous expected reward function. Moreover, we show that this MIP formulation is ideal (i.e. the strongest possible formulation) for the revenue function of a single impression. Since it can be computationally expensive to exactly solve the MIP formulation in practice, we also study the performance of its linear programming (LP) relaxation. Though it may work well in practice, we show that, unfortunately, in the worst case the optimal objective of the LP relaxation can be O(number of samples) times larger than the optimal objective of the true problem. Finally, we present computational results, showcasing that the MIP formulation, along with its LP relaxation, are able to achieve superior in- and out-of-sample performance, as compared to state-of-the-art algorithms on both real and synthetic datasets. More broadly, we believe this work offers an indication of the strength of optimization methodologies like MIP to exactly model intrinsic discontinuities in machine learning problems. | 翻訳日:2022-12-30 08:20:11 公開日:2020-11-13 |
# 神経シャプリー:責任あるニューロンを発見する Neuron Shapley: Discovering the Responsible Neurons ( http://arxiv.org/abs/2002.09815v3 ) ライセンス: Link先を確認 | Amirata Ghorbani and James Zou | (参考訳) 我々は、深部ネットワークの予測と性能に対する個々のニューロンの寄与を定量化する新しいフレームワークとしてニューロンシェープリーを開発した。
ニューロン間の相互作用を考慮することで、ニューロンシェープは活性化パターンに基づく一般的なアプローチよりも重要なフィルターを特定するのに効果的である。
興味深いことに、shapleyスコアが最も高い30個のフィルタを削除するだけで、imagenetのinception-v3の予測精度は事実上破壊される。
これらいくつかの重要なフィルタの可視化は、ネットワークの機能に関する洞察を提供する。
ニューロンシャプレーは柔軟な枠組みであり、多くのタスクで責任あるニューロンを特定するのに応用できる。
本稿では, 顔認識における偏差予測の原因となるフィルタと, 敵攻撃に弱いフィルタを同定する追加の応用について述べる。
これらのフィルターを取り除くことは、モデルを修正するための簡単な方法だ。
これらのアプリケーションを全て実装することは、ニューロロンシェープの値を効率的に推定するために開発された新しいマルチアームバンディットアルゴリズムである。 We develop Neuron Shapley as a new framework to quantify the contribution of individual neurons to the prediction and performance of a deep network. By accounting for interactions across neurons, Neuron Shapley is more effective in identifying important filters compared to common approaches based on activation patterns. Interestingly, removing just 30 filters with the highest Shapley scores effectively destroys the prediction accuracy of Inception-v3 on ImageNet. Visualization of these few critical filters provides insights into how the network functions. Neuron Shapley is a flexible framework and can be applied to identify responsible neurons in many tasks. We illustrate additional applications of identifying filters that are responsible for biased prediction in facial recognition and filters that are vulnerable to adversarial attacks. Removing these filters is a quick way to repair models. Enabling all these applications is a new multi-arm bandit algorithm that we developed to efficiently estimate Neuron Shapley values. | 翻訳日:2022-12-29 09:03:28 公開日:2020-11-13 |
# 同時多様体学習のための流れと密度推定 Flows for simultaneous manifold learning and density estimation ( http://arxiv.org/abs/2003.13913v3 ) ライセンス: Link先を確認 | Johann Brehmer and Kyle Cranmer | (参考訳) データ多様体とその多様体上の可算確率密度を同時に学習する新しい生成モデルである多様体学習フロー (m-flows) を導入する。
正規化フロー、GAN、オートエンコーダ、エネルギーベースモデルといった側面を組み合わせることで、より忠実に多様体構造を持つデータセットを表現でき、次元減少、デノイング、アウト・オブ・ディストリビューション検出の処理を提供する。
このようなモデルが最大確率だけでは訓練されない理由を議論し、多様体と密度の更新を分離する新しいトレーニングアルゴリズムを提案する。
様々な実験において、M-フローがデータ多様体をどのように学習し、環境データ空間の標準フローよりも優れた推論を可能にするかを示す。 We introduce manifold-learning flows (M-flows), a new class of generative models that simultaneously learn the data manifold as well as a tractable probability density on that manifold. Combining aspects of normalizing flows, GANs, autoencoders, and energy-based models, they have the potential to represent datasets with a manifold structure more faithfully and provide handles on dimensionality reduction, denoising, and out-of-distribution detection. We argue why such models should not be trained by maximum likelihood alone and present a new training algorithm that separates manifold and density updates. In a range of experiments we demonstrate how M-flows learn the data manifold and allow for better inference than standard flows in the ambient data space. | 翻訳日:2022-12-18 00:11:21 公開日:2020-11-13 |
# ImageNetを用いた医用画像解析における転写学習研究のスコーピングレビュー A scoping review of transfer learning research on medical image analysis using ImageNet ( http://arxiv.org/abs/2004.13175v5 ) ライセンス: Link先を確認 | Mohammad Amin Morid, Alireza Borjali, Guilherme Del Fiol | (参考訳) 目的: 畳み込みニューラルネットワーク(CNN)を用いた伝達学習(TL)を非医療的イメージネットデータセットでよく訓練し,近年,医用画像解析に有望な結果を示している。
我々は,これらの研究を識別し,それらの特徴を問題記述,入力,方法論,結果の観点から要約するスクーピングレビューを行うことを目指していた。
資料と方法:関連する研究を特定するため,medline,ieee,acmデジタルライブラリを検索した。
2人の調査員が独立して論文をレビューし、優先順位を定義した研究プロトコルに従ってデータの抽出を行った。
結果: 8,421項目のスクリーニングの結果,102項目が包含基準を満たした。
22の解剖学的領域のうち、目(18%)、乳房(14%)、脳(12%)が最もよく研究された。
データ拡張は, 微調整TL研究の72%において, 特徴抽出TL研究の15%に対して行われた。
インセプションモデルは乳房関連研究(50%)で、vggnetは目(44%)、皮膚(50%)、歯(57%)でよく使われた。
脳向けAlexNet(42%)と肺研究用DenseNet(38%)が最も頻繁に使用されるモデルである。
インセプションモデルは、超音波(55%)、内視鏡(57%)、骨格系X線(57%)を分析した研究で最も頻繁に用いられた。
vggnet は fundus (42%) と optical coherence tomography (50%) でもっとも一般的であった。
AlexNetは脳MRI(36%)と乳房X線(50%)の最も頻繁なモデルであった。
研究の35%はモデルを他のよく訓練されたCNNモデルと比較し、33%は解釈のための可視化を提供した。
考察:本研究は,医療画像解析のためのデータ準備,方法論の選択,出力評価のための文献において,最も普及している実装の軌跡を明らかにした。
また,医療画像解析におけるTL研究におけるいくつかの重要な研究ギャップを同定した。 Objective: Employing transfer learning (TL) with convolutional neural networks (CNNs), well-trained on non-medical ImageNet dataset, has shown promising results for medical image analysis in recent years. We aimed to conduct a scoping review to identify these studies and summarize their characteristics in terms of the problem description, input, methodology, and outcome. Materials and Methods: To identify relevant studies, MEDLINE, IEEE, and ACM digital library were searched. Two investigators independently reviewed articles to determine eligibility and to extract data according to a study protocol defined a priori. Results: After screening of 8,421 articles, 102 met the inclusion criteria. Of 22 anatomical areas, eye (18%), breast (14%), and brain (12%) were the most commonly studied. Data augmentation was performed in 72% of fine-tuning TL studies versus 15% of the feature-extracting TL studies. Inception models were the most commonly used in breast related studies (50%), while VGGNet was the common in eye (44%), skin (50%) and tooth (57%) studies. AlexNet for brain (42%) and DenseNet for lung studies (38%) were the most frequently used models. Inception models were the most frequently used for studies that analyzed ultrasound (55%), endoscopy (57%), and skeletal system X-rays (57%). VGGNet was the most common for fundus (42%) and optical coherence tomography images (50%). AlexNet was the most frequent model for brain MRIs (36%) and breast X-Rays (50%). 35% of the studies compared their model with other well-trained CNN models and 33% of them provided visualization for interpretation. Discussion: This study identified the most prevalent tracks of implementation in the literature for data preparation, methodology selection and output evaluation for medical image analysis. Also, we identified several critical research gaps existing in the TL studies on medical image analysis. | 翻訳日:2022-12-09 05:12:21 公開日:2020-11-13 |
# タスク指向対話のためのテンプレート案内テキスト生成 Template Guided Text Generation for Task-Oriented Dialogue ( http://arxiv.org/abs/2004.15006v2 ) ライセンス: Link先を確認 | Mihir Kale, Abhinav Rastogi | (参考訳) Google Assistant、Amazon Alexa、Apple Siriといったバーチャルアシスタントを使えば、ユーザは自然言語を使ってWeb上の多数のサービスやAPIと対話できる。
本研究では,多数のAPIにまたがる単一ドメイン非依存モデルを用いて,自然言語生成(NLG)の2つの手法について検討する。
まず,apiを自然言語で記述したスキーマ生成を条件としたスキーマ誘導手法を提案する。
第2の方法は,APIのセマンティクスを伝えるために,少数のテンプレートを使用し,スロット数を線形に増加させることである。
任意のスロットの組み合わせに対する発話を生成するために、まずいくつかの単純なテンプレートを連結して意味論的に正しいが、不整合で非文法的な発話を与える。
その後、事前学習された言語モデルを使用して、コヒーレントで自然な発音テキストに書き換える。
自動測定と人的評価により,本手法は強力なベースラインよりも改善され,ドメイン外の入力に頑健であり,サンプル効率が向上することを示す。 Virtual assistants such as Google Assistant, Amazon Alexa, and Apple Siri enable users to interact with a large number of services and APIs on the web using natural language. In this work, we investigate two methods for Natural Language Generation (NLG) using a single domain-independent model across a large number of APIs. First, we propose a schema-guided approach which conditions the generation on a schema describing the API in natural language. Our second method investigates the use of a small number of templates, growing linearly in number of slots, to convey the semantics of the API. To generate utterances for an arbitrary slot combination, a few simple templates are first concatenated to give a semantically correct, but possibly incoherent and ungrammatical utterance. A pre-trained language model is subsequently employed to rewrite it into coherent, natural sounding text. Through automatic metrics and human evaluation, we show that our method improves over strong baselines, is robust to out-of-domain inputs and shows improved sample efficiency. | 翻訳日:2022-12-08 04:41:47 公開日:2020-11-13 |
# SemEval-2020 Task 5: Cascaded BERT Language Model for Counterfactual Statement Analysis Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for Counterfactual Statement Analysis ( http://arxiv.org/abs/2005.08519v2 ) ライセンス: Link先を確認 | Hanna Abi Akl, Dominique Mariko, Estelle Labidurie | (参考訳) 本稿では,偽文の検出と評価戦略について検討する。
本稿では,SemEval-2020 Task 5: Modeling Causal Reasoning in Language: Detecting Counterfactualsについて述べる。
分類タスクにはBERTベースモデルを使用し、シーケンス識別タスクを処理するためにハイブリッドBERTマルチ層パーセプトロンシステムを構築する。
本実験では,構文的・意味的特徴の導入は分類作業におけるシステム改善にほとんど寄与しないが,これらの特徴を逐次的線形入力として使用することで,モデルのシーケンス伝達能力が第2タスクにおいてbilstm-crfのような他の類似した複合システムよりも優れていることを示す。
本システムは第1タスクで85.00%,第2タスクで83.90%のF1スコアを達成する。 In this paper, we explore strategies to detect and evaluate counterfactual sentences. We describe our system for SemEval-2020 Task 5: Modeling Causal Reasoning in Language: Detecting Counterfactuals. We use a BERT base model for the classification task and build a hybrid BERT Multi-Layer Perceptron system to handle the sequence identification task. Our experiments show that while introducing syntactic and semantic features does little in improving the system in the classification task, using these types of features as cascaded linear inputs to fine-tune the sequence-delimiting ability of the model ensures it outperforms other similar-purpose complex systems like BiLSTM-CRF in the second task. Our system achieves an F1 score of 85.00% in Task 1 and 83.90% in Task 2. | 翻訳日:2022-12-01 22:43:25 公開日:2020-11-13 |
# SmoothおよびSongly Convex分散最適化のための最適および実用的アルゴリズム Optimal and Practical Algorithms for Smooth and Strongly Convex Decentralized Optimization ( http://arxiv.org/abs/2006.11773v2 ) ライセンス: Link先を確認 | Dmitry Kovalev, Adil Salim and Peter Richt\'arik | (参考訳) ネットワークのノードにまたがる滑らかな強凸関数の総和の分散最小化の課題について考察する。
この問題に対して、勾配計算数と$\varepsilon$精度を達成するために必要な通信ラウンド数に対する低い境界が最近証明されている。
本稿では,この分散最適化問題に対する2つの新しいアルゴリズムを提案する。
提案手法は,通信ラウンド数と勾配計算数の両方において最適であることを示す。
既存の最適アルゴリズムとは異なり、このアルゴリズムは双対勾配の高価な評価に依存しない。
第2のアルゴリズムは,対数係数を伴わない通信ラウンド数で最適である。
提案手法は,2つのアルゴリズムを前方後方アルゴリズムの高速化変種として捉え,分散最適化問題に関連する単調包含問題を解くことに依存している。
また,本手法の有効性を数値実験により検証した。 We consider the task of decentralized minimization of the sum of smooth strongly convex functions stored across the nodes of a network. For this problem, lower bounds on the number of gradient computations and the number of communication rounds required to achieve $\varepsilon$ accuracy have recently been proven. We propose two new algorithms for this decentralized optimization problem and equip them with complexity guarantees. We show that our first method is optimal both in terms of the number of communication rounds and in terms of the number of gradient computations. Unlike existing optimal algorithms, our algorithm does not rely on the expensive evaluation of dual gradients. Our second algorithm is optimal in terms of the number of communication rounds, without a logarithmic factor. Our approach relies on viewing the two proposed algorithms as accelerated variants of the Forward Backward algorithm to solve monotone inclusions associated with the decentralized optimization problem. We also verify the efficacy of our methods against state-of-the-art algorithms through numerical experiments. | 翻訳日:2022-11-18 12:33:28 公開日:2020-11-13 |
# オブジェクトファイルとスキーマ:動的システムにおける宣言的および手続き的知識の分解 Object Files and Schemata: Factorizing Declarative and Procedural Knowledge in Dynamical Systems ( http://arxiv.org/abs/2006.16225v5 ) ライセンス: Link先を確認 | Anirudh Goyal, Alex Lamb, Phanideep Gampa, Philippe Beaudoin, Sergey Levine, Charles Blundell, Yoshua Bengio, Michael Mozer | (参考訳) ビデオゲームのような構造化された動的環境をモデル化するには、オブジェクトとその宣言的知識の追跡と、オブジェクトの振舞い(手続き的知識)の予測が必要である。
モノリシックな隠れ状態を持つブラックボックスモデルは、手続き的知識を一貫して均一に適用できないことが多い。
例えば、ビデオゲームでは、敵の軌道の正確な予測は、相手の軌道の正確な予測を保証しない。
我々は、宣言的および手続き的知識を分解し、各形態の知識にモジュラリティを課すアーキテクチャを通じてこの問題に対処する。
アーキテクチャは、オブジェクトファイルと呼ばれるアクティブなモジュールで構成され、単一のオブジェクトの状態を保持し、状態更新を規定するschemaと呼ばれるパッシブな外部知識ソースを呼び出す。
ビデオゲームをイラストとして使用するには、同じタイプの2つの敵がスキーマを共有するが、それぞれ異なる状態(例えば健康、位置)をエンコードするオブジェクトファイルを持っている。
我々は,どのオブジェクトファイルを更新するか,スキーマの選択,オブジェクトファイル間の情報伝達に注意を払うことを提案する。
結果として得られたアーキテクチャは、通常のリカレントネットワーク(lstm、grgなど)と同じ入出力インターフェースに準拠したドロップイン置換だが、同じタイプの複数のオブジェクトトークンを持つ環境において、より優れた一般化を実現している。 Modeling a structured, dynamic environment like a video game requires keeping track of the objects and their states declarative knowledge) as well as predicting how objects behave (procedural knowledge). Black-box models with a monolithic hidden state often fail to apply procedural knowledge consistently and uniformly, i.e., they lack systematicity. For example, in a video game, correct prediction of one enemy's trajectory does not ensure correct prediction of another's. We address this issue via an architecture that factorizes declarative and procedural knowledge and that imposes modularity within each form of knowledge. The architecture consists of active modules called object files that maintain the state of a single object and invoke passive external knowledge sources called schemata that prescribe state updates. To use a video game as an illustration, two enemies of the same type will share schemata but will have separate object files to encode their distinct state (e.g., health, position). We propose to use attention to determine which object files to update, the selection of schemata, and the propagation of information between object files. The resulting architecture is a drop-in replacement conforming to the same input-output interface as normal recurrent networks (e.g., LSTM, GRU) yet achieves substantially better generalization on environments that have multiple object tokens of the same type, including a challenging intuitive physics benchmark. | 翻訳日:2022-11-15 13:55:26 公開日:2020-11-13 |
# 時間的ポイントワイド・コンボリューション・ネットワークを用いた集中治療室の滞在長予測 Predicting Length of Stay in the Intensive Care Unit with Temporal Pointwise Convolutional Networks ( http://arxiv.org/abs/2006.16109v2 ) ライセンス: Link先を確認 | Emma Rocheteau, Pietro Li\`o, Stephanie Hyland | (参考訳) 患者需要の増加と予算制限の圧力により、病院のベッド管理は臨床スタッフにとって日々の課題となっている。
最重要事項は、生活支援を必要とする患者に対して、資源集約型ケアユニット(ICU)ベッドを効率的に割り当てることである。
この問題の解決の中心は、現在のICU患者のセットがいつまでユニットに留まるかを知ることだ。
本稿では,aicu批判的ケアデータセットにおける滞在予測タスクの長さを解決するために,時間的畳み込みとポイントワイズ(1x1)畳み込みの組み合わせに基づく新しい深層学習モデルを提案する。
このモデルは、時間的ポイントワイズ畳み込み(temporal pointwise convolution, tpc)と呼ばれ、歪み、不規則なサンプリング、データ欠落といった電子健康記録の一般的な課題を軽減するために特別に設計されている。
そこで我々は,LSTM(Long-Short Term Memory)ネットワークとTransformerと呼ばれるマルチヘッド自己保持ネットワークに対して,18~51%(メトリック依存)の大幅な性能向上を実現した。 The pressure of ever-increasing patient demand and budget restrictions make hospital bed management a daily challenge for clinical staff. Most critical is the efficient allocation of resource-heavy Intensive Care Unit (ICU) beds to the patients who need life support. Central to solving this problem is knowing for how long the current set of ICU patients are likely to stay in the unit. In this work, we propose a new deep learning model based on the combination of temporal convolution and pointwise (1x1) convolution, to solve the length of stay prediction task on the eICU critical care dataset. The model - which we refer to as Temporal Pointwise Convolution (TPC) - is specifically designed to mitigate for common challenges with Electronic Health Records, such as skewness, irregular sampling and missing data. In doing so, we have achieved significant performance benefits of 18-51% (metric dependent) over the commonly used Long-Short Term Memory (LSTM) network, and the multi-head self-attention network known as the Transformer. | 翻訳日:2022-11-15 13:45:00 公開日:2020-11-13 |
# 凸関数の差による区分線形回帰 Piecewise Linear Regression via a Difference of Convex Functions ( http://arxiv.org/abs/2007.02422v3 ) ライセンス: Link先を確認 | Ali Siahkamari, Aditya Gangrade, Brian Kulis and Venkatesh Saligrama | (参考訳) 本稿では,データに凸関数(dc関数)の差を適合させる新しい線形回帰手法を提案する。
これらは、凸関数 $\phi_1, \phi_2$ の選択に対して $\phi_1 - \phi_2$ の違いとして表される関数$f$ である。
この方法は、データの差が近似する最大アフィン回帰と似た方法で、片方向の凸関数を推定することで進行する。
関数の選択は、推定の$\ell_\infty$ Lipschitz定数を制御するDC関数のクラスに対する新しい半ノルムによって正規化される。
得られた手法は、高次元でも擬似プログラミングによって効率的に実装することができ、最小限の統計リスクに近いことが示されている。
この手法を実証的に検証し,実際に実装可能であることを示し,実世界のデータセット上で既存の回帰/分類法に匹敵する性能を示す。 We present a new piecewise linear regression methodology that utilizes fitting a difference of convex functions (DC functions) to the data. These are functions $f$ that may be represented as the difference $\phi_1 - \phi_2$ for a choice of convex functions $\phi_1, \phi_2$. The method proceeds by estimating piecewise-liner convex functions, in a manner similar to max-affine regression, whose difference approximates the data. The choice of the function is regularised by a new seminorm over the class of DC functions that controls the $\ell_\infty$ Lipschitz constant of the estimate. The resulting methodology can be efficiently implemented via Quadratic programming even in high dimensions, and is shown to have close to minimax statistical risk. We empirically validate the method, showing it to be practically implementable, and to have comparable performance to existing regression/classification methods on real-world datasets. | 翻訳日:2022-11-13 07:55:02 公開日:2020-11-13 |
# FaceHop:軽量の低解像度顔のジェンダー分類法 FaceHop: A Light-Weight Low-Resolution Face Gender Classification Method ( http://arxiv.org/abs/2007.09510v3 ) ライセンス: Link先を確認 | Mozhdeh Rouhsedaghat, Yifan Wang, Xiou Ge, Shuowen Hu, Suya You, C.-C. Jay Kuo | (参考訳) 本研究では,facehopと呼ばれる軽量低解像度顔の性別分類法を提案する。
我々は,ディープラーニング(DL)技術の導入により,顔の性別分類精度が急速に向上するのを目撃した。
しかし、DLベースのシステムは、限られたネットワークとコンピューティングを持つリソース制約のある環境には適していない。
FaceHopは解釈可能な非パラメトリック機械学習ソリューションを提供する。
小さなモデルサイズ、少量のトレーニングデータ量、低いトレーニング複雑さ、低解像度の入力画像といった望ましい特徴を持っている。
facehopは、連続するサブスペース学習(ssl)原則に基づいて開発され、pixelhop++の基礎に基づいている。
FaceHop法の有効性は実験によって実証された。
332 \times 32$ in the lfw と cmu multi-pie データセットでは、facehop はそれぞれ 16.9k のモデルサイズと 17.6k のパラメータで 94.63% と 95.12% の正しい性別分類率を達成している。
分類精度ではLeNet-5より優れており、モデルサイズは75.8Kである。 A light-weight low-resolution face gender classification method, called FaceHop, is proposed in this research. We have witnessed rapid progress in face gender classification accuracy due to the adoption of deep learning (DL) technology. Yet, DL-based systems are not suitable for resource-constrained environments with limited networking and computing. FaceHop offers an interpretable non-parametric machine learning solution. It has desired characteristics such as a small model size, a small training data amount, low training complexity, and low-resolution input images. FaceHop is developed with the successive subspace learning (SSL) principle and built upon the foundation of PixelHop++. The effectiveness of the FaceHop method is demonstrated by experiments. For gray-scale face images of resolution $32 \times 32$ in the LFW and the CMU Multi-PIE datasets, FaceHop achieves correct gender classification rates of 94.63% and 95.12% with model sizes of 16.9K and 17.6K parameters, respectively. It outperforms LeNet-5 in classification accuracy while LeNet-5 has a model size of 75.8K parameters. | 翻訳日:2022-11-09 05:50:25 公開日:2020-11-13 |
# 音声分類のためのCNNモデルの再検討 Rethinking CNN Models for Audio Classification ( http://arxiv.org/abs/2007.11154v2 ) ライセンス: Link先を確認 | Kamalesh Palanisamy, Dipika Singhania, Angela Yao | (参考訳) 本稿では,ImageNet-Pretrained標準深度CNNモデルを,音声分類のための強力なベースラインネットワークとして利用できることを示す。
オーディオスペクトログラムと標準のimagenetイメージサンプルには大きな差があるが、転送学習の仮定は依然としてしっかりと保たれている。
本研究では,ImageNetの事前学習モデルで有用な音声表現を学習できることを理解するために,事前学習した重みのどれだけがスペクトログラムの学習に役立つかを体系的に研究する。
1) 事前学習した重みを用いた標準モデルでは, ランダム初期化重みを用いた方が優れており, 勾配を可視化することで, cnnがスペクトログラムから学んだことの質的結果が得られる。
さらに,初期化には事前学習したモデル重みを用いるが,同一モデルの様々な出力実行では性能にばらつきがあることを示した。
この性能のばらつきは、線形分類層のランダム初期化と複数の実行におけるランダムなミニバッチ順序によるものである。
これにより、より強力なアンサンブルモデルを構築することができ、全体的な精度が向上する。
ImageNetの事前訓練されたDenseNetのアンサンブルは、ESC-50データセットで92.89%の検証精度、UrbanSound8Kデータセットで87.42%の検証精度を達成した。 In this paper, we show that ImageNet-Pretrained standard deep CNN models can be used as strong baseline networks for audio classification. Even though there is a significant difference between audio Spectrogram and standard ImageNet image samples, transfer learning assumptions still hold firmly. To understand what enables the ImageNet pretrained models to learn useful audio representations, we systematically study how much of pretrained weights is useful for learning spectrograms. We show (1) that for a given standard model using pretrained weights is better than using randomly initialized weights (2) qualitative results of what the CNNs learn from the spectrograms by visualizing the gradients. Besides, we show that even though we use the pretrained model weights for initialization, there is variance in performance in various output runs of the same model. This variance in performance is due to the random initialization of linear classification layer and random mini-batch orderings in multiple runs. This brings significant diversity to build stronger ensemble models with an overall improvement in accuracy. An ensemble of ImageNet pretrained DenseNet achieves 92.89% validation accuracy on the ESC-50 dataset and 87.42% validation accuracy on the UrbanSound8K dataset which is the current state-of-the-art on both of these datasets. | 翻訳日:2022-11-07 23:33:57 公開日:2020-11-13 |
# Goのゲームにおける派生メトリクス--本質的なネットワーク強度評価と不正検出 Derived metrics for the game of Go -- intrinsic network strength assessment and cheat-detection ( http://arxiv.org/abs/2009.01606v3 ) ライセンス: Link先を確認 | Attila Egri-Nagy and Antti T\"orm\"anen | (参考訳) 超人的AIエンジンの普及は、私たちが古来の囲碁の遊び方を変えつつある。
AlphaGoシリーズ後に開発されたオープンソースソフトウェアパッケージは、強力なプレイエンティティの開発から、ゲーム分析ツールの提供へと焦点を移した。
ここでは,第2世代エンジンのイノベーション(例えば,スコア推定,可変コミ)を,ゲームに対する理解を深める上で有効な,新たなメトリクスを定義するための2つの方法を説明する。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
これにより、ニューラルネットワークの固有の強度測定が可能になる。
第2に,得点推定の差による移動の影響を定義する。
これにより、プレーヤのパフォーマンス評価を微妙に行うことができる。
オンライン不正を検知する新しい課題と戦うために、私たちはこれを使用します。 The widespread availability of superhuman AI engines is changing how we play the ancient game of Go. The open-source software packages developed after the AlphaGo series shifted focus from producing strong playing entities to providing tools for analyzing games. Here we describe two ways of how the innovations of the second generation engines (e.g.~score estimates, variable komi) can be used for defining new metrics that help deepen our understanding of the game. First, we study how much information the search component contributes in addition to the raw neural network policy output. This gives an intrinsic strength measurement for the neural network. Second, we define the effect of a move by the difference in score estimates. This gives a fine-grained, move-by-move performance evaluation of a player. We use this in combating the new challenge of detecting online cheating. | 翻訳日:2022-10-22 07:33:33 公開日:2020-11-13 |
# UIT-HSE at WNUT-2020 Task 2: Exploiting CT-BERT for Identification COVID-19 Information on the Twitter Social Network UIT-HSE at WNUT-2020 Task 2: Exploiting CT-BERT for Identifying COVID-19 Information on the Twitter Social Network ( http://arxiv.org/abs/2009.02935v3 ) ライセンス: Link先を確認 | Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen | (参考訳) 最近、新型コロナウイルスは世界中の様々な現実の側面に影響を与え、恐ろしい結果をもたらした。
新型コロナウイルスに関するツイートがTwitterで公開されている。
しかし、これら複数のつぶやきは非形式的であり、有用なAIアプリケーションのための情報的ツイートを検出する自動システムを構築することは困難である。
本稿では,w-nut 2020 share task 2: identification of informative covid-19 english tweets で行った。
特に,様々な微調整技術を用いて,COVID-Twitter-BERT(CT-BERT)に基づくトランスフォーマーモデルを用いた簡易かつ効果的なアプローチを提案する。
その結果、F1スコア90.94\%を達成し、このタスクのリーダーボードで3位となり、合計56チームが参加した。 Recently, COVID-19 has affected a variety of real-life aspects of the world and led to dreadful consequences. More and more tweets about COVID-19 has been shared publicly on Twitter. However, the plurality of those Tweets are uninformative, which is challenging to build automatic systems to detect the informative ones for useful AI applications. In this paper, we present our results at the W-NUT 2020 Shared Task 2: Identification of Informative COVID-19 English Tweets. In particular, we propose our simple but effective approach using the transformer-based models based on COVID-Twitter-BERT (CT-BERT) with different fine-tuning techniques. As a result, we achieve the F1-Score of 90.94\% with the third place on the leaderboard of this task which attracted 56 submitted teams in total. | 翻訳日:2022-10-21 02:56:52 公開日:2020-11-13 |
# 地図適応目標に基づく軌道予測 Map-Adaptive Goal-Based Trajectory Prediction ( http://arxiv.org/abs/2009.04450v2 ) ライセンス: Link先を確認 | Lingyao Zhang, Po-Hsun Su, Jerrick Hoang, Galen Clark Haynes, Micol Marchetti-Bowick | (参考訳) 本稿では,多モード・長期車両軌跡予測のための新しい手法を提案する。
我々のアプローチは、車線中心線を環境の豊かな地図で捉え、それぞれの車両に対して提案されたゴールパスを生成する。
これらの経路 -- 実行時に生成され、それゆえシーンに動的に適応する -- を空間的アンカーとして使用することで、目標に対するカテゴリー分布とともに、目標ベースの軌道のセットを予測する。
このアプローチにより、トラフィックアクターの目標指向行動を直接モデル化し、より正確な長期予測の可能性を解き放つことができる。
大規模内輪駆動データセットと公設nuscenesデータセットの両方における実験結果から,6秒間の地平線上での車両軌道予測に対する最先端のアプローチを上回っていることが示された。
また、我々のモデルは既存の方法よりも、全く新しい都市からの道路シーンに一般化できることを実証的に実証した。 We present a new method for multi-modal, long-term vehicle trajectory prediction. Our approach relies on using lane centerlines captured in rich maps of the environment to generate a set of proposed goal paths for each vehicle. Using these paths -- which are generated at run time and therefore dynamically adapt to the scene -- as spatial anchors, we predict a set of goal-based trajectories along with a categorical distribution over the goals. This approach allows us to directly model the goal-directed behavior of traffic actors, which unlocks the potential for more accurate long-term prediction. Our experimental results on both a large-scale internal driving dataset and on the public nuScenes dataset show that our model outperforms state-of-the-art approaches for vehicle trajectory prediction over a 6-second horizon. We also empirically demonstrate that our model is better able to generalize to road scenes from a completely new city than existing methods. | 翻訳日:2022-10-20 08:38:16 公開日:2020-11-13 |
# 小さな/大きな世界で学ぶ Learning in a Small/Big World ( http://arxiv.org/abs/2009.11917v7 ) ライセンス: Link先を確認 | Benson Tsz Kin Leung | (参考訳) savage (1972) はベイズ決定理論の基礎を定めているが、環境が複雑である大きな世界では適用できないと主張している。
本稿では,有限オートマトン理論を用いて,環境の複雑さが低く,かつ,意思決定者の認知能力に比較して高い,小・大世界の最適学習行動の特性について考察する。
サヴェージの主張を裏付け、最適な学習行動は小世界ではベイジアンに閉鎖されるが、大世界では著しく異なる。
さらに,大世界では,ヒューリスティック,相関無視,持続的過信,意図的学習,モデル単純化や誤特定といった,多岐にわたる非ベイズ的学習行動を示すことができることを示した。
これらの結果は、非ベイズ的学習行動、複雑性、認知能力の隆起と、明確かつ検証可能な関係を確立する。 Savage (1972) lays down the foundation of Bayesian decision theory, but asserts that it is not applicable in big worlds where the environment is complex. Using the theory of finite automaton to model belief formation, this paper studies the characteristics of optimal learning behavior in small and big worlds, where the complexity of the environment is low and high, respectively, relative to the cognitive ability of the decision maker. Confirming Savage's claim, optimal learning behavior is closed to Bayesian in small worlds but significantly different in big worlds. In addition, I show that in big worlds, the optimal learning behavior could exhibit a wide range of well-documented non-Bayesian learning behavior, including the use of heuristic, correlation neglect, persistent over-confidence, inattentive learning, and other behaviors of model simplification or misspecification. These results establish a clear and testable relationship between the prominence of non-Bayesian learning behavior, complexity and cognitive ability. | 翻訳日:2022-10-15 05:17:03 公開日:2020-11-13 |
# グラフ畳み込みネットワークと抽出側情報による半監督ノード分類 Semi-Supervised Node Classification by Graph Convolutional Networks and Extracted Side Information ( http://arxiv.org/abs/2009.13734v2 ) ライセンス: Link先を確認 | Mohammad Esmaeili, and Aria Nosratinia | (参考訳) クラスタに存在するグラフのノードは、グラフ内の他のノードよりも互いに接続する可能性が高い。
その後、いくつかのノードに関する情報を公開し、グラフの構造(グラフエッジ)が他のノードに関する情報を知る機会を提供する。
本稿では,グラフ畳み込みネットワーク(gcns)による半教師ありシナリオにおけるノード分類タスクを再検討する。
目的は、明らかにされたノードラベルの周りに循環する情報の流れの恩恵を受けることである。
この論文の貢献は2つある。
まず,グラフ認識から側情報を抽出する手法を提案する。
次に、従来のGCNの出力と抽出された側情報を組み合わせた新しいGCNアーキテクチャを示す。
この論文のもう一つの貢献は、多くのアプリケーションにおいてグラフ実現の傍に存在する非グラフ観測(非依存側情報)に関係している。
実際、抽出された側情報は、グラフ構造とは独立した側情報列に置き換えることができる。
いずれの場合においても,合成データと実世界のデータを用いた実験により,提案手法が従来のノード分類手法と比較して高い予測精度を達成できることが示されている。 The nodes of a graph existing in a cluster are more likely to connect to each other than with other nodes in the graph. Then revealing some information about some nodes, the structure of the graph (graph edges) provides this opportunity to know more information about other nodes. From this perspective, this paper revisits the node classification task in a semi-supervised scenario by graph convolutional networks (GCNs). The goal is to benefit from the flow of information that circulates around the revealed node labels. The contribution of this paper is twofold. First, this paper provides a method for extracting side information from a graph realization. Then a new GCN architecture is presented that combines the output of traditional GCN and the extracted side information. Another contribution of this paper is relevant to non-graph observations (independent side information) that exists beside a graph realization in many applications. Indeed, the extracted side information can be replaced by a sequence of side information that is independent of the graph structure. For both cases, the experiments on synthetic and real-world datasets demonstrate that the proposed model achieves a higher prediction accuracy in comparison to the existing state-of-the-art methods for the node classification task. | 翻訳日:2022-10-13 05:52:50 公開日:2020-11-13 |
# マルチブランチ多様性向上によるオンライン知識蒸留 Online Knowledge Distillation via Multi-branch Diversity Enhancement ( http://arxiv.org/abs/2010.00795v3 ) ライセンス: Link先を確認 | Zheng Li, Ying Huang, Defang Chen, Tianren Luo, Ning Cai, Zhigeng Pan | (参考訳) 知識蒸留は、面倒な教師モデルから軽量の学生モデルに知識を移す効果的な方法である。
オンライン知識蒸留は、複数の学生モデルの集合予測結果をソフトターゲットとして利用し、各学生モデルを訓練する。
しかし、均質化問題はモデルの性能をさらに向上させるのに困難をもたらす。
本研究では,複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
複数の学生モデルの最後のブロックに含まれるリッチなセマンティック情報を統合することにより、ネットワーク内の注意機構の性能を向上させる機能融合モジュール(FFM)を導入する。
さらに,分類器の分散化(cd)損失関数を用いて,学習モデル間の差異を強固にし,よりよいアンサンブル結果を得る。
広範な実験により, 学生モデルの多様性が著しく向上し, 蒸留性能が向上した。
CIFAR-10/100とCINIC-10の3つの画像分類データセットについて評価を行った。
その結果,本手法は,これらのデータセットの最先端性能を実現する。 Knowledge distillation is an effective method to transfer the knowledge from the cumbersome teacher model to the lightweight student model. Online knowledge distillation uses the ensembled prediction results of multiple student models as soft targets to train each student model. However, the homogenization problem will lead to difficulty in further improving model performance. In this work, we propose a new distillation method to enhance the diversity among multiple student models. We introduce Feature Fusion Module (FFM), which improves the performance of the attention mechanism in the network by integrating rich semantic information contained in the last block of multiple student models. Furthermore, we use the Classifier Diversification(CD) loss function to strengthen the differences between the student models and deliver a better ensemble result. Extensive experiments proved that our method significantly enhances the diversity among student models and brings better distillation performance. We evaluate our method on three image classification datasets: CIFAR-10/100 and CINIC-10. The results show that our method achieves state-of-the-art performance on these datasets. | 翻訳日:2022-10-12 00:57:06 公開日:2020-11-13 |
# 分類における騒音 Noise in Classification ( http://arxiv.org/abs/2010.05080v2 ) ライセンス: Link先を確認 | Maria-Florina Balcan, Nika Haghtalab | (参考訳) 本章では,雑音の存在下での線形しきい値学習の計算的・統計的側面について考察する。
ノイズがない場合、少量のデータを用いて最適に近い線形閾値を効率的に学習するアルゴリズムがいくつか存在する。
しかし、たとえ少量の雑音であっても、最悪の場合、この問題は悪名高いほど難しい。
データ生成過程の自然な仮定を利用して、これらのネガティブな結果を扱うためのアプローチについて議論する。 This chapter considers the computational and statistical aspects of learning linear thresholds in presence of noise. When there is no noise, several algorithms exist that efficiently learn near-optimal linear thresholds using a small amount of data. However, even a small amount of adversarial noise makes this problem notoriously hard in the worst-case. We discuss approaches for dealing with these negative results by exploiting natural assumptions on the data-generating process. | 翻訳日:2022-10-08 22:53:11 公開日:2020-11-13 |
# 安定顔アライメントのためのバックボーン交換可能なファインチューニングフレームワーク A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment ( http://arxiv.org/abs/2010.09501v2 ) ライセンス: Link先を確認 | Xu Sun, Zhenfeng Fan, Zihao Zhang, Yingjie Guo, Shihong Xia | (参考訳) 熱マップ回帰に基づく顔アライメントは静的画像上で顕著な性能を達成した。
しかし,既存の手法を動的ビデオに適用する場合,安定性と精度は著しく低下する。
ビデオによく見られる無作為なノイズや動きのぼやけに劣化を特徴づける。
時間的情報は、まだ既存の作品では十分に考慮されていないこの問題に対処するために重要である。
本稿では,ビデオ指向の顔アライメント問題を,検出精度が単一フレームよりも低い誤差を優先し,検出整合性により隣接フレーム間の安定性が向上する,という2つの視点で検討する。
そこで本研究では,時空間情報を活用するジッタロス関数を提案し,不正確なランドマークやジッタランドマークを抑える。
Jitterの損失は、バックボーン交換可能なネットワーク上に細調整されたConvLSTM構造を持つ新しいフレームワークに関係している。
さらに,提案するジッタ損失が学習中の最適化プロセスを促進することで,正準座標の重なりを持つ異なる領域に正確かつ安定なランドマークが関連付けられることを実証する。
提案手法は安定性評価の指標を40%以上改善し,検出精度と最先端手法の精度を向上する。
一般的には、顔画像のランドマーク検出器を、モデル全体を再トレーニングすることなく、よりパフォーマンスの良いビデオに素早く変換することができる。 Heatmap regression based face alignment has achieved prominent performance on static images. However, the stability and accuracy are remarkably discounted when applying the existing methods on dynamic videos. We attribute the degradation to random noise and motion blur, which are common in videos. The temporal information is critical to address this issue yet not fully considered in the existing works. In this paper, we visit the video-oriented face alignment problem in two perspectives: detection accuracy prefers lower error for a single frame, and detection consistency forces better stability between adjacent frames. On this basis, we propose a Jitter loss function that leverages temporal information to suppress inaccurate as well as jittered landmarks. The Jitter loss is involved in a novel framework with a fine-tuning ConvLSTM structure over a backbone replaceable network. We further demonstrate that accurate and stable landmarks are associated with different regions with overlaps in a canonical coordinate, based on which the proposed Jitter loss facilitates the optimization process during training. The proposed framework achieves at least 40% improvement on stability evaluation metrics while enhancing detection accuracy versus state-of-the-art methods. Generally, it can swiftly convert a landmark detector for facial images to a better-performing one for videos without retraining the entire model. | 翻訳日:2022-10-05 22:06:26 公開日:2020-11-13 |
# ブラインド符号画像ペアの時空間融合によるビデオ再構成 Video Reconstruction by Spatio-Temporal Fusion of Blurred-Coded Image Pair ( http://arxiv.org/abs/2010.10052v2 ) ライセンス: Link先を確認 | S Anupama, Prasan Shedligeri, Abhishek Pal, Kaushik Mitra | (参考訳) 学習に基づく手法により、1つのモーションブラリング画像または1つのコード化された露出画像からビデオシーケンスを復元することができる。
単一のモーションブルーの画像からビデオを取り出すのは非常に不適切な問題であり、回収されたビデオはたいてい多くのアーティファクトを持っている。
これに加えて、動きの方向が失われ、動きの曖昧さが生じる。
しかし、シーンの静的部分の情報を完全に保存する利点がある。
従来のコード化された露出フレームワークの方が良いが、時空ボリュームのほんの一部しかサンプリングせず、少なくとも時空ボリュームの50%を占める。
本稿では,完全露光画像に含まれる補完情報と符号化された露光画像を用いて,動きのあいまいさを伴わない高忠実度映像の再生を提案する。
我々のフレームワークは共有エンコーダとアテンションモジュールから構成されており、全露画像の空間情報と符号化画像の時間情報とを選択的に組み合わせ、超解像して非曖昧な高品質な映像を再生する。
アルゴリズムへの入力は、完全に公開され、コード化されたイメージペアです。
このような取得システムは、すでにCoded-two-bucket (C2B) カメラの形で存在している。
我々は,ぼやけた画像対を用いたディープラーニング手法が,単にぼやけた画像や単にコード化された画像よりもはるかに優れた結果をもたらすことを示した。 Learning-based methods have enabled the recovery of a video sequence from a single motion-blurred image or a single coded exposure image. Recovering video from a single motion-blurred image is a very ill-posed problem and the recovered video usually has many artifacts. In addition to this, the direction of motion is lost and it results in motion ambiguity. However, it has the advantage of fully preserving the information in the static parts of the scene. The traditional coded exposure framework is better-posed but it only samples a fraction of the space-time volume, which is at best 50% of the space-time volume. Here, we propose to use the complementary information present in the fully-exposed (blurred) image along with the coded exposure image to recover a high fidelity video without any motion ambiguity. Our framework consists of a shared encoder followed by an attention module to selectively combine the spatial information from the fully-exposed image with the temporal information from the coded image, which is then super-resolved to recover a non-ambiguous high-quality video. The input to our algorithm is a fully-exposed and coded image pair. Such an acquisition system already exists in the form of a Coded-two-bucket (C2B) camera. We demonstrate that our proposed deep learning approach using blurred-coded image pair produces much better results than those from just a blurred image or just a coded image. | 翻訳日:2022-10-05 07:40:04 公開日:2020-11-13 |
# 組合せ最適化問題に対するモンテカルロ木探索の適応版を用いた探索空間木探索 Exploring search space trees using an adapted version of Monte Carlo tree search for combinatorial optimization problems ( http://arxiv.org/abs/2010.11523v2 ) ライセンス: Link先を確認 | Jorik Jooken, Pieter Leyman, Patrick De Causmaecker, Tony Wauters | (参考訳) 本稿では,組合せ最適化問題を解くための新しい手法を提案する。
このアプローチでは、ヒューリスティックアルゴリズムを使用して問題インスタンスの探索空間ツリーを探索する。
このアルゴリズムはモンテカルロ木探索(Monte Carlo tree search)をベースとしている。
問題の組合せ構造を活用することにより,アルゴリズムのいくつかの拡張が提案される。
これらの拡張は、サブツリーを刈り上げ、ヒューリスティックなシミュレーションポリシーを用いて探索空間木を効率的に探索し、支配的な値代入を排除し、ビーム幅を用いることで変数の領域を縮小することを目的としている。
これらは、非交差制約を持つクロイクレーンスケジューリング問題と0-1knapsack問題という2つの特定の組合せ最適化問題に対して実証される。
計算結果から,このアルゴリズムは両問題に対して有望な結果が得られ,従来の問題に対して,ベンチマークセットの8つの最適解が発見された。
これらの結果は,アルゴリズムが最先端技術と競合していることを示している。
これとは別に、この結果は、アルゴリズムが構成的ヒューリスティックスによってなされた不正確な選択を正すことができるという証拠も示している。 In this article, a novel approach to solve combinatorial optimization problems is proposed. This approach makes use of a heuristic algorithm to explore the search space tree of a problem instance. The algorithm is based on Monte Carlo tree search, a popular algorithm in game playing that is used to explore game trees. By leveraging the combinatorial structure of a problem, several enhancements to the algorithm are proposed. These enhancements aim to efficiently explore the search space tree by pruning subtrees, using a heuristic simulation policy, reducing the domains of variables by eliminating dominated value assignments and using a beam width. They are demonstrated for two specific combinatorial optimization problems: the quay crane scheduling problem with non-crossing constraints and the 0-1 knapsack problem. Computational results show that the algorithm achieves promising results for both problems and eight new best solutions for a benchmark set of instances are found for the former problem. These results indicate that the algorithm is competitive with the state-of-the-art. Apart from this, the results also show evidence that the algorithm is able to learn to correct the incorrect choices made by constructive heuristics. | 翻訳日:2022-10-04 07:52:49 公開日:2020-11-13 |
# 光フローアルゴリズムによる顔の特徴変形の解析 The Analysis of Facial Feature Deformation using Optical Flow Algorithm ( http://arxiv.org/abs/2010.12199v2 ) ライセンス: Link先を確認 | Dayang Nur Zulhijah Awang Jesemi, Hamimah Ujir, Irwandi Hipiny, Sarah Flora Samson Juan | (参考訳) 顔の表情によって変形する顔の特徴。
特定の顔の特徴は、特定の表情、すなわち幸福とは口の変形を意味する。
本稿では,光学フローアルゴリズムを用いて各表情の顔の特徴変形について検討し,興味のある領域を3つに分けた。
顔の特徴の変形は表情と表情の関係を示す。
実験結果から,happyを除くすべての表現において,目と口の変形は有意であった。
ハッピーな表現では、頬と口が重要な領域である。
この研究は、異なる表情の特徴の強度が、異なる表情の強度の認識に寄与する方法によって変化することも示唆している。
全表現の最大等級は9x10-4のサプライズ表現のためのマウスによって示される。
最小のマグニチュードは、0.4x10-4の怒りを表す口によって示される。 Facial features deformed according to the intended facial expression. Specific facial features are associated with specific facial expression, i.e. happy means the deformation of mouth. This paper presents the study of facial feature deformation for each facial expression by using an optical flow algorithm and segmented into three different regions of interest. The deformation of facial features shows the relation between facial the and facial expression. Based on the experiments, the deformations of eye and mouth are significant in all expressions except happy. For happy expression, cheeks and mouths are the significant regions. This work also suggests that different facial features' intensity varies in the way that they contribute to the recognition of the different facial expression intensity. The maximum magnitude across all expressions is shown by the mouth for surprise expression which is 9x10-4. While the minimum magnitude is shown by the mouth for angry expression which is 0.4x10-4. | 翻訳日:2022-10-03 23:10:43 公開日:2020-11-13 |
# ウェーブレット理論と機械学習によるエピデミックダイナミクスとCovid-19への応用 Epidemic Dynamics via Wavelet Theory and Machine Learning, with Applications to Covid-19 ( http://arxiv.org/abs/2010.14004v2 ) ライセンス: Link先を確認 | T\^o Tat Dat, Protin Fr\'ed\'eric, Nguyen T.T. Hang, Martel Jules, Nguyen Duc Thang, Charles Piffault, Rodr\'iguez Willy, Figueroa Susely, H\^ong V\^an L\^e, Wilderich Tuschmann, Nguyen Tien Zung | (参考訳) 特に,流行に適応したウェーブレットの概念を,古典的sirモデルとその派生品においてt$の場合に感染した個体の数が$i(t)$という特別な場合として紹介する。
本稿では,ウェーブレット理論を用いたモデル選択手法による流行ダイナミクスのモデル化手法と,機械学習に基づく曲線フィッティング手法の応用について述べる。
我々の普遍モデルは、流行に適合したウェーブレットの有限線形結合である関数である。
我々は、ジョン・ホプキンス大学のデータセットに基づいて、フランス、ドイツ、イタリア、チェコ共和国、およびアメリカ合衆国連邦州における現在のCovid-19(SARS-CoV-2)流行をモデル化し、予測する。 We introduce the concept of epidemic-fitted wavelets which comprise, in particular, as special cases the number $I(t)$ of infectious individuals at time $t$ in classical SIR models and their derivatives. We present a novel method for modelling epidemic dynamics by a model selection method using wavelet theory and, for its applications, machine learning based curve fitting techniques. Our universal models are functions that are finite linear combinations of epidemic-fitted wavelets. We apply our method by modelling and forecasting, based on the John Hopkins University dataset, the spread of the current Covid-19 (SARS-CoV-2) epidemic in France, Germany, Italy and the Czech Republic, as well as in the US federal states New York and Florida. | 翻訳日:2022-10-02 13:00:18 公開日:2020-11-13 |
# 児童の性行為を識別するための短いテキスト分類手法 Short Text Classification Approach to Identify Child Sexual Exploitation Material ( http://arxiv.org/abs/2011.01113v2 ) ライセンス: Link先を確認 | Mhd Wesam Al-Nabki, Eduardo Fidalgo, Enrique Alegre, Roc\'io Alaiz-Rodr\'iguez | (参考訳) 児童セクシャル・エクスプロイテーション・マテリアル(英: Child Sexual Exploitation Materials、CSEM)は、法律執行機関(LEA)が積極的に行う犯罪である。
LEAがCSEMの潜在的な生産者や消費者からコンピュータを奪取する際には、容疑者のハードディスクのファイルを分析して証拠を探す必要がある。
しかし,CSEMを検索するファイル内容の手動検査は時間を要する作業である。
ほとんどの場合、捜索令状を使ってスペイン警察が利用できる時間内では不可能である。
コンテンツを解析する代わりに、プロセスのスピードアップに使える別のアプローチは、ファイル名とその絶対パスを分析してCSEMを特定することである。
このタスクの主な課題は、難解な単語とユーザー定義の命名パターンを使用して、この資料の所有者が故意に歪んだ短いテキストを扱うことである。
本稿では,CSEMファイルを識別するための短いテキスト分類に基づく2つのアプローチを提示し,比較する。
1つは2つの独立した教師付き分類器、もう1つはファイル名、もう1つはパスで、出力は後に1つのスコアに融合される。
逆に、第2のアプローチはファイル名分類器のみを使用してファイルの絶対パスを反復する。
どちらのアプローチも文字 n-grams レベルで動作し、バイナリと正書法の特徴はファイル名表現を強化し、バイナリロジスティック回帰モデルは分類に使用される。
提示されたファイル分類器は平均0.98のクラスリコールを達成した。
このソリューションは、すべてのファイルの視覚的コンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートする法医学ツールやサービスに統合することができる。 Producing or sharing Child Sexual Exploitation Material (CSEM) is a serious crime fought vigorously by Law Enforcement Agencies (LEAs). When an LEA seizes a computer from a potential producer or consumer of CSEM, they need to analyze the suspect's hard disk's files looking for pieces of evidence. However, a manual inspection of the file content looking for CSEM is a time-consuming task. In most cases, it is unfeasible in the amount of time available for the Spanish police using a search warrant. Instead of analyzing its content, another approach that can be used to speed up the process is to identify CSEM by analyzing the file names and their absolute paths. The main challenge for this task lies behind dealing with short text distorted deliberately by the owners of this material using obfuscated words and user-defined naming patterns. This paper presents and compares two approaches based on short text classification to identify CSEM files. The first one employs two independent supervised classifiers, one for the file name and the other for the path, and their outputs are later on fused into a single score. Conversely, the second approach uses only the file name classifier to iterate over the file's absolute path. Both approaches operate at the character n-grams level, while binary and orthographic features enrich the file name representation, and a binary Logistic Regression model is used for classification. The presented file classifier achieved an average class recall of 0.98. This solution could be integrated into forensic tools and services to support Law Enforcement Agencies to identify CSEM without tackling every file's visual content, which is computationally much more highly demanding. | 翻訳日:2022-10-01 23:55:24 公開日:2020-11-13 |
# 代理ベイズモデルを用いた行動可能治療プロセス計画のための健康改善枠組み Health improvement framework for planning actionable treatment process using surrogate Bayesian model ( http://arxiv.org/abs/2010.16087v2 ) ライセンス: Link先を確認 | Kazuki Nakamura, Ryosuke Kojima, Eiichiro Uchino, Koichi Murashita, Ken Itoh, Shigeyuki Nakaji and Yasushi Okuno | (参考訳) 個人的特徴に基づく治療に関する臨床的意思決定は、効果的な健康改善につながる。
機械学習(ML)は、包括的患者情報に基づく診断支援の主要な関心事である。
しかし, 臨床現場における客観的治療プロセスの発達は, 残る課題である。
本研究では,データ駆動型処理プロセスの計画手法を提案する。
このフレームワークの重要なポイントは、高性能非線形MLモデルに加えて、代理ベイズモデルを用いて、個人の健康改善のための「行動可能性」を評価することである。
筆者らはまず,その方法論の観点から,合成データセットを用いたフレームワークの評価を行った。
その後、3,132人の参加者からのデータからなる実際の健康診断データセットに適用し、個々のレベルで収縮期血圧値を改善する。
計算処理プロセスは,血圧低下に関する臨床知識と整合性があることを確認した。
これらの結果から,我々は医療分野における意思決定に寄与し,臨床医に深い洞察を与えることができた。 Clinical decision making regarding treatments based on personal characteristics leads to effective health improvements. Machine learning (ML) has been the primary concern of diagnosis support according to comprehensive patient information. However, the remaining prominent issue is the development of objective treatment processes in clinical situations. This study proposes a novel framework to plan treatment processes in a data-driven manner. A key point of the framework is the evaluation of the "actionability" for personal health improvements by using a surrogate Bayesian model in addition to a high-performance nonlinear ML model. We first evaluated the framework from the viewpoint of its methodology using a synthetic dataset. Subsequently, the framework was applied to an actual health checkup dataset comprising data from 3,132 participants, to improve systolic blood pressure values at the individual level. We confirmed that the computed treatment processes are actionable and consistent with clinical knowledge for lowering blood pressure. These results demonstrate that our framework could contribute toward decision making in the medical field, providing clinicians with deeper insights. | 翻訳日:2022-10-01 15:50:27 公開日:2020-11-13 |
# 自己制御球面CNNによる配向面の学習 Learning to Orient Surfaces by Self-supervised Spherical CNNs ( http://arxiv.org/abs/2011.03298v2 ) ライセンス: Link先を確認 | Riccardo Spezialetti, Federico Stella, Marlon Marcon, Luciano Silva, Samuele Salti, Luigi Di Stefano | (参考訳) 3D表面の標準配向の定義と確実な発見は、多くのコンピュータビジョンとロボティクスアプリケーションにとって鍵となる。
この課題は、デザイナが独特で堅牢とみなす幾何学的手がかりを利用した手作りのアルゴリズムによって対処される。
しかし、人間は経験から3dオブジェクトの固有方向の概念を学び、機械も同様に行うかもしれないと推測できるかもしれない。
本研究では,点雲として表される曲面のロバストな正準配向を学習する可能性を示す。
正準方向の四角形特性が3次元回転に等しくなるという観測に基づいて,最近導入された特殊直交群 SO(3) に定義された同変表現を学習可能な球状CNNを提案する。
具体的には、球面相関は3次元回転を定義する特徴写像を計算する。
提案手法は, 自己教師付き訓練手順により生データからこのような特徴マップを学習し, 入力点雲を学習正準方向に変換する回転を頑健に選択する。
そこで我々は,3次元形状の標準方向を定義し,抽出するための,最初のエンドツーエンド学習アプローチを実現する。
いくつかの公開データセットの実験では、局所的な表面パッチと全体オブジェクトの向き付けの有効性が証明されている。 Defining and reliably finding a canonical orientation for 3D surfaces is key to many Computer Vision and Robotics applications. This task is commonly addressed by handcrafted algorithms exploiting geometric cues deemed as distinctive and robust by the designer. Yet, one might conjecture that humans learn the notion of the inherent orientation of 3D objects from experience and that machines may do so alike. In this work, we show the feasibility of learning a robust canonical orientation for surfaces represented as point clouds. Based on the observation that the quintessential property of a canonical orientation is equivariance to 3D rotations, we propose to employ Spherical CNNs, a recently introduced machinery that can learn equivariant representations defined on the Special Orthogonal group SO(3). Specifically, spherical correlations compute feature maps whose elements define 3D rotations. Our method learns such feature maps from raw data by a self-supervised training procedure and robustly selects a rotation to transform the input point cloud into a learned canonical orientation. Thereby, we realize the first end-to-end learning approach to define and extract the canonical orientation of 3D shapes, which we aptly dub Compass. Experiments on several public datasets prove its effectiveness at orienting local surface patches as well as whole objects. | 翻訳日:2022-09-29 04:57:38 公開日:2020-11-13 |
# 銀河融合のクロスドメイン研究改善のためのドメイン適応技術 Domain adaptation techniques for improved cross-domain study of galaxy mergers ( http://arxiv.org/abs/2011.03591v3 ) ライセンス: Link先を確認 | A. \'Ciprijanovi\'c and D. Kafkes and S. Jenkins and K. Downey and G. N. Perdue and S. Madireddy and T. Johnston and B. Nord | (参考訳) 天文学では、ニューラルネットワークは実観測に適用される見込みのあるシミュレーションデータでしばしば訓練される。
残念ながら、あるドメインの画像にディープニューラルネットワークをトレーニングするだけでは、別のドメインの画像に満足なパフォーマンスが保証されない。
クロスドメイン知識を共有する能力は、現代のディープドメイン適応技術の主な利点である。
ここでは,最大平均離散性(MMD)とドメイン・アダクショナル・ニューラル・ニューラルネットワーク(DANN)による敵対的トレーニング(DANN)という2つの手法を用いて,2つの領域が観測ノイズを伴ってのみ表される Illustris-1 シミュレーションから離れた銀河融合の分類を行った。
本研究は,従来の機械学習アルゴリズムと比較して,MDDと逆行訓練の併用により,対象領域における分類器の性能が大幅に向上することを示す。 In astronomy, neural networks are often trained on simulated data with the prospect of being applied to real observations. Unfortunately, simply training a deep neural network on images from one domain does not guarantee satisfactory performance on new images from a different domain. The ability to share cross-domain knowledge is the main advantage of modern deep domain adaptation techniques. Here we demonstrate the use of two techniques - Maximum Mean Discrepancy (MMD) and adversarial training with Domain Adversarial Neural Networks (DANN) - for the classification of distant galaxy mergers from the Illustris-1 simulation, where the two domains presented differ only due to inclusion of observational noise. We show how the addition of either MMD or adversarial training greatly improves the performance of the classifier on the target domain when compared to conventional machine learning algorithms, thereby demonstrating great promise for their use in astronomy. | 翻訳日:2022-09-29 04:32:17 公開日:2020-11-13 |
# ロボット操作のための階層型オブジェクトセントリックコントローラの構成法 Learning to Compose Hierarchical Object-Centric Controllers for Robotic Manipulation ( http://arxiv.org/abs/2011.04627v2 ) ライセンス: Link先を確認 | Mohit Sharma, Jacky Liang, Jialiang Zhao, Alex LaGrassa, Oliver Kroemer | (参考訳) 操作タスクは、例えば、テーブルとの接触を維持しながらオブジェクトをゴールポーズにスライドさせるなど、並列に実行される複数のサブタスクに分解されることが多い。
個々のサブタスクは、操作対象に対して定義されたタスク軸コントローラによって達成でき、オブジェクト中心のコントローラのセットを階層構造で組み合わせることができる。
以前の作品では、このような組み合わせは手動で定義され、デモから学習される。
対照的に,強化学習を用いて階層型オブジェクト中心制御器を動的に構成する手法を提案する。
シミュレーションと実世界の両方の実験は、提案手法がサンプル効率の向上、新しいテスト環境へのゼロショットの一般化、微調整なしでのシミュレーションと現実の移動をもたらすことを示す。 Manipulation tasks can often be decomposed into multiple subtasks performed in parallel, e.g., sliding an object to a goal pose while maintaining contact with a table. Individual subtasks can be achieved by task-axis controllers defined relative to the objects being manipulated, and a set of object-centric controllers can be combined in an hierarchy. In prior works, such combinations are defined manually or learned from demonstrations. By contrast, we propose using reinforcement learning to dynamically compose hierarchical object-centric controllers for manipulation tasks. Experiments in both simulation and real world show how the proposed approach leads to improved sample efficiency, zero-shot generalization to novel test environments, and simulation-to-reality transfer without fine-tuning. | 翻訳日:2022-09-28 00:33:21 公開日:2020-11-13 |
# リスク調整病院のパフォーマンス推定 Estimating Risk-Adjusted Hospital Performance ( http://arxiv.org/abs/2011.05149v2 ) ライセンス: Link先を確認 | Eva van Weenen and Stefan Feuerriegel | (参考訳) 病院によって提供される医療の質は、かなり変動する。
したがって、患者、病院管理者、健康保険会社を含む様々な意思決定者にとって、病院のパフォーマンスの正確な測定は不可欠である。
病院の成績は患者の健康状態を通じて評価される。
しかし,患者間のリスクプロファイルは異なるため,患者リスクの調整が必要となる。
このタスクは、患者のリスクが健康状態に与える影響から病院の固定効果を分離する階層的一般化線形モデルを通じて、最先端の手順で定式化される。
このアプローチの線形性のため、リスク変数間の非線形関係や相互作用項は無視される。
そこで本研究では,患者リスクに適応した病院性能測定法を提案する。
この方法は、患者リスク変数間の相互作用だけでなく、非線形関係、特に健康状態が健康に及ぼす影響を捉える。
本研究では, リスクファクターを符号化する非線形部分を用いて, リスク調整された病院性能を推定できるような, 病院の固定効果を線形構造でモデル化した, 部分的に解釈可能なニューラルネットワークアーキテクチャを開発する。
Nationwide Readmissions Databaseが提供した約1900の米国病院で1300万人以上の入院患者を対象に評価を行った。
我々のモデルは最先端技術よりもROC-AUCを4.1%改善する。
これらの結果から, 健康成果のばらつきの大部分は, 患者リスク変数間の非線形関係に起因する可能性があり, 病院パフォーマンス測定の現在のアプローチを拡張すべきであることが示唆された。 The quality of healthcare provided by hospitals is subject to considerable variability. Consequently, accurate measurements of hospital performance are essential for various decision-makers, including patients, hospital managers and health insurers. Hospital performance is assessed via the health outcomes of their patients. However, as the risk profiles of patients between hospitals vary, measuring hospital performance requires adjustment for patient risk. This task is formalized in the state-of-the-art procedure through a hierarchical generalized linear model, that isolates hospital fixed-effects from the effect of patient risk on health outcomes. Due to the linear nature of this approach, any non-linear relations or interaction terms between risk variables are neglected. In this work, we propose a novel method for measuring hospital performance adjusted for patient risk. This method captures non-linear relationships as well as interactions among patient risk variables, specifically the effect of co-occurring health conditions on health outcomes. For this purpose, we develop a tailored neural network architecture that is partially interpretable: a non-linear part is used to encode risk factors, while a linear structure models hospital fixed-effects, such that the risk-adjusted hospital performance can be estimated. We base our evaluation on more than 13 million patient admissions across almost 1,900 US hospitals as provided by the Nationwide Readmissions Database. Our model improves the ROC-AUC over the state-of-the-art by 4.1 percent. These findings demonstrate that a large portion of the variance in health outcomes can be attributed to non-linear relationships between patient risk variables and implicate that the current approach of measuring hospital performance should be expanded. | 翻訳日:2022-09-27 07:05:04 公開日:2020-11-13 |
# 疾患遺伝子同定のための関係重み付きリンク予測 Relation-weighted Link Prediction for Disease Gene Identification ( http://arxiv.org/abs/2011.05138v3 ) ライセンス: Link先を確認 | Srivamshi Pittala, William Koehler, Jonathan Deans, Daniel Salinas, Martin Bringmann, Katharina Sophia Volz, Berk Kapicioglu | (参考訳) 疾患に関連する遺伝子のセットである疾患遺伝子の同定は、疾患の理解と治療において重要な役割を果たす。
本稿では,この問題に特化して設計されたバイオメディカル知識グラフを提案するとともに,ネットワーク生物学とグラフ表現学習の最近の進歩を活用して,これらのグラフ上の疾患遺伝子を識別する新しい機械学習手法を提案する。
また,パーキンソン病の治験における薬物ターゲットの予測に関して,ターゲット同定の先駆的イニシアチブであるオープンターゲットよりも高い精度を達成することを実証した。 Identification of disease genes, which are a set of genes associated with a disease, plays an important role in understanding and curing diseases. In this paper, we present a biomedical knowledge graph designed specifically for this problem, propose a novel machine learning method that identifies disease genes on such graphs by leveraging recent advances in network biology and graph representation learning, study the effects of various relation types on prediction performance, and empirically demonstrate that our algorithms outperform its closest state-of-the-art competitor in disease gene identification by 24.1%. We also show that we achieve higher precision than Open Targets, the leading initiative for target identification, with respect to predicting drug targets in clinical trials for Parkinson's disease. | 翻訳日:2022-09-27 06:49:13 公開日:2020-11-13 |
# 規則に基づく法的意見文の党型感性分析 Rule-Based Approach for Party-Based Sentiment Analysis in Legal Opinion Texts ( http://arxiv.org/abs/2011.05675v2 ) ライセンス: Link先を確認 | Isanka Rajapaksha, Chanika Ruchini Mudalige, Dilini Karunarathna, Nisansa de Silva, Gathika Ratnayaka, and Amal Shehan Perera | (参考訳) 前回の訴訟に関する意見や議論を詳しく述べる文書は、法的意見書として知られている。
弁護士や法務官は、新たな訴訟を扱う際に、これらの文書から必要な情報を手作業で取得するために、多大な労力と時間を費やさなければならない。
したがって、法的な意見のテキストから情報を抽出するプロセスを自動化する方法がある場合、これらの個人にとって便利である。
当事者ベースの感情分析は、法律上のテキスト中の各法的当事者に対する意見の価値を識別することで、自動化システムにおいて重要な役割を果たす。 A document which elaborates opinions and arguments related to the previous court cases is known as a legal opinion text. Lawyers and legal officials have to spend considerable effort and time to obtain the required information manually from those documents when dealing with new legal cases. Hence, it provides much convenience to those individuals if there is a way to automate the process of extracting information from legal opinion texts. Party-based sentiment analysis will play a key role in the automation system by identifying opinion values with respect to each legal parties in legal texts. | 翻訳日:2022-09-26 23:06:32 公開日:2020-11-13 |
# strobe:lidarパケットからのストリーミングオブジェクト検出 StrObe: Streaming Object Detection from LiDAR Packets ( http://arxiv.org/abs/2011.06425v2 ) ライセンス: Link先を確認 | Davi Frossard, Simon Suo, Sergio Casas, James Tu, Rui Hu, Raquel Urtasun | (参考訳) 多くの現代のロボティクスシステムは、その幾何学的豊かさのためにLiDARを主要なセンシングモダリティとして採用している。
ローリングシャッターのLiDARは特に一般的で、レーザーのアレイが回転ベースからシーンをスキャンする。
ポイントはパケットのストリームとして出力され、それぞれが360{\deg}カバレッジのセクタをカバーする。
現代の知覚アルゴリズムは、データを処理する前に完全なスイープが構築されるのを待つ。
典型的な10HzのLiDARでは100msとなる。
その結果、出力が生成されるまでに、それはもはや世界の状態を正確に反映しない。
ロボット工学の応用は最小限の反応時間を必要とするため、安全クリティカルな状況において迅速に操作を計画できるため、これは課題となる。
本稿では,LiDARパケットを取り込み,全スイープが構築されるのを待たずに検出ストリームを出力することで,レイテンシを最小化する新しいアプローチであるStrObeを提案する。
StrObeは以前のパケットから計算を再利用し、新たなエビデンスが発生するとシーンの潜在空間表現を反復的に更新し、正確な低遅延知覚をもたらす。
大規模な実世界のデータセット上でのアプローチの有効性を実証し、レイテンシを考慮した場合、StrObeは最先端のデータをはるかに上回り、従来の設定でのパフォーマンスに匹敵することを示す。 Many modern robotics systems employ LiDAR as their main sensing modality due to its geometrical richness. Rolling shutter LiDARs are particularly common, in which an array of lasers scans the scene from a rotating base. Points are emitted as a stream of packets, each covering a sector of the 360{\deg} coverage. Modern perception algorithms wait for the full sweep to be built before processing the data, which introduces an additional latency. For typical 10Hz LiDARs this will be 100ms. As a consequence, by the time an output is produced, it no longer accurately reflects the state of the world. This poses a challenge, as robotics applications require minimal reaction times, such that maneuvers can be quickly planned in the event of a safety-critical situation. In this paper we propose StrObe, a novel approach that minimizes latency by ingesting LiDAR packets and emitting a stream of detections without waiting for the full sweep to be built. StrObe reuses computations from previous packets and iteratively updates a latent spatial representation of the scene, which acts as a memory, as new evidence comes in, resulting in accurate low-latency perception. We demonstrate the effectiveness of our approach on a large scale real-world dataset, showing that StrObe far outperforms the state-of-the-art when latency is taken into account, and matches the performance in the traditional setting. | 翻訳日:2022-09-26 07:34:54 公開日:2020-11-13 |
# 同じ対象、異なる把握:タスク指向把握のためのデータと意味的知識 Same Object, Different Grasps: Data and Semantic Knowledge for Task-Oriented Grasping ( http://arxiv.org/abs/2011.06431v2 ) ライセンス: Link先を確認 | Adithyavairavan Murali, Weiyu Liu, Kenneth Marino, Sonia Chernova, Abhinav Gupta | (参考訳) 近年のロボット把持の進歩と一般化にもかかわらず、既存の手法はタスク指向把持を同じ程度まで拡張し一般化していない。
これは主に、調査対象の数とタスクの両方の観点から、データセットの規模によるものだ。
これらの懸念には、オブジェクトとタスクの両方においてより多様なTaskGraspデータセットと、以前のデータセットよりも桁違いに大きく対処する。
データセットには、56のタスクと191のオブジェクトに対する250Kのタスク指向の把握と、RGB-D情報が含まれている。
我々は、この新たな広さと多様性を利用し、知識グラフにエンコードされたオブジェクトとタスクの意味的知識を使用して、新しいオブジェクトインスタンス、クラス、さらには新しいタスクに一般化するgcngraspフレームワークを提供する。
本フレームワークでは,セマンティクスを使用しないベースライン手法と比較して,ホールドアウト設定において約12%の大幅な改善が見られた。
本研究では,実ロボットのタスク指向把握を未知物体上で実行することにより,実世界に適用可能なデータセットとモデルを示す。
コード、データ、補足ビデオはhttps://sites.google.com/view/taskgraspで見ることができる。 Despite the enormous progress and generalization in robotic grasping in recent years, existing methods have yet to scale and generalize task-oriented grasping to the same extent. This is largely due to the scale of the datasets both in terms of the number of objects and tasks studied. We address these concerns with the TaskGrasp dataset which is more diverse both in terms of objects and tasks, and an order of magnitude larger than previous datasets. The dataset contains 250K task-oriented grasps for 56 tasks and 191 objects along with their RGB-D information. We take advantage of this new breadth and diversity in the data and present the GCNGrasp framework which uses the semantic knowledge of objects and tasks encoded in a knowledge graph to generalize to new object instances, classes and even new tasks. Our framework shows a significant improvement of around 12% on held-out settings compared to baseline methods which do not use semantics. We demonstrate that our dataset and model are applicable for the real world by executing task-oriented grasps on a real robot on unknown objects. Code, data and supplementary video could be found at https://sites.google.com/view/taskgrasp | 翻訳日:2022-09-26 07:34:32 公開日:2020-11-13 |
# 不確かさはいつ重要か?
ML支援意思決定における予測不確かさの影響の理解 When Does Uncertainty Matter?: Understanding the Impact of Predictive Uncertainty in ML Assisted Decision Making ( http://arxiv.org/abs/2011.06167v2 ) ライセンス: Link先を確認 | Sean McGrath, Parth Mehta, Alexandra Zytek, Isaac Lage, Himabindu Lakkaraju | (参考訳) 機械学習(ML)モデルは、人間の意思決定者を支援するためにますます採用されているため、モデル予測を意思決定に組み込むかどうか、どのように組み込むかを決めるのに役立つ、関連するインプットを提供することが重要になる。
例えば、モデル予測に関連する不確実性を伝えることは、この点において役立つ可能性がある。
しかし、予測の不確実性が意思決定にどのように影響するかを体系的に調査する研究はほとんどない。
本研究では,MLによる意思決定の文脈において,様々な種類の予測不確実性,すなわち,形状や分散の異なる後部予測分布に対して,人々がどう反応するかを体系的に評価する。
私たちの知る限りでは、この研究はこの問題を研究する最初の試みの1つです。
以上の結果から,予測に付随する不確実性を観察した場合,モデル予測に賛同する傾向が示唆された。
この発見は予測の不確実性(後の予測分布)の性質(形状または分散)によらず、不確実性はモデル予測に人間を説得するための有効なツールであることを示唆している。
さらに、ドメインの専門知識やMLに精通するといった他の要因も、誰かがどのように解釈し、予測の不確実性を意思決定に組み込むかを決定する役割を担っていることもわかりました。 As machine learning (ML) models are increasingly being employed to assist human decision makers, it becomes critical to provide these decision makers with relevant inputs which can help them decide if and how to incorporate model predictions into their decision making. For instance, communicating the uncertainty associated with model predictions could potentially be helpful in this regard. However, there is little to no research that systematically explores if and how conveying predictive uncertainty impacts decision making. In this work, we carry out user studies to systematically assess how people respond to different types of predictive uncertainty i.e., posterior predictive distributions with different shapes and variances, in the context of ML assisted decision making. To the best of our knowledge, this work marks one of the first attempts at studying this question. Our results demonstrate that people are more likely to agree with a model prediction when they observe the corresponding uncertainty associated with the prediction. This finding holds regardless of the properties (shape or variance) of predictive uncertainty (posterior predictive distribution), suggesting that uncertainty is an effective tool for persuading humans to agree with model predictions. Furthermore, we also find that other factors such as domain expertise and familiarity with ML also play a role in determining how someone interprets and incorporates predictive uncertainty into their decision making. | 翻訳日:2022-09-26 07:27:17 公開日:2020-11-13 |
# 画像再構成のためのエネルギーベースモデルの事前学習 Shared Prior Learning of Energy-Based Models for Image Reconstruction ( http://arxiv.org/abs/2011.06539v2 ) ライセンス: Link先を確認 | Thomas Pinetz and Erich Kobler and Thomas Pock and Alexander Effland | (参考訳) 本稿では,エネルギーベース学習,パッチベースのwaserstein損失関数,共有事前学習の3つの構成要素を有する,特に基礎的真理データのないトレーニングのために設計された,新しい画像再構成のための学習ベースフレームワークを提案する。
エネルギーベース学習では、学習したデータ忠実度項とデータ駆動正規化器からなるエネルギー関数のパラメータを平均場最適制御問題で計算する。
基底真理データがない場合は、損失関数をパッチベースのwaserstein関数に変更し、出力画像の局所的な統計値と非破壊参照パッチを比較する。
最後に、上記の最適制御問題と正規化器の共有学習パラメータを同時に最適化し、教師なし画像再構成をさらに強化する。
勾配流の時間的離散化スキームを導出し,mosco収束の観点からその一貫性を検証する。
多くの数値実験において,本手法は,基礎的真理画像が得られなくても,様々な画像再構成アプリケーションに対して最先端の結果を生成することを実証する。 We propose a novel learning-based framework for image reconstruction particularly designed for training without ground truth data, which has three major building blocks: energy-based learning, a patch-based Wasserstein loss functional, and shared prior learning. In energy-based learning, the parameters of an energy functional composed of a learned data fidelity term and a data-driven regularizer are computed in a mean-field optimal control problem. In the absence of ground truth data, we change the loss functional to a patch-based Wasserstein functional, in which local statistics of the output images are compared to uncorrupted reference patches. Finally, in shared prior learning, both aforementioned optimal control problems are optimized simultaneously with shared learned parameters of the regularizer to further enhance unsupervised image reconstruction. We derive several time discretization schemes of the gradient flow and verify their consistency in terms of Mosco convergence. In numerous numerical experiments, we demonstrate that the proposed method generates state-of-the-art results for various image reconstruction applications--even if no ground truth images are available for training. | 翻訳日:2022-09-26 07:07:31 公開日:2020-11-13 |
# GANによるスマートホーム環境における推論攻撃の軽減 A GAN-based Approach for Mitigating Inference Attacks in Smart Home Environment ( http://arxiv.org/abs/2011.06725v1 ) ライセンス: Link先を確認 | Olakunle Ibitoye, Ashraf Matrawy, and M. Omair Shafiq | (参考訳) スマートでコネクテッドで常時リスニングするデバイスの普及は、スマートホーム環境でユーザに重大なプライバシーリスクをもたらした。
盗聴の顕著なリスク以外にも、侵入者は、これらのデバイス上の音声記録から機密情報を推測するために機械学習技術を採用することができる。
音のマスキングやマイクジャミングといった技術は、盗聴者がプライベートな会話を聴くのを防ぐために効果的に用いられてきた。
本研究では,スマートホームユーザをスパイして,機械学習技術を用いてセンシティブな情報を推測する問題について検討する。
次に,音響マスキングの有効性におけるランダム性の役割を分析し,機密情報の漏洩を緩和する。
本稿では,無作為なノイズを発生させ,不要な機械学習に基づく推論を歪ませる,スマートホームにおけるプライバシー保護のためのgan(generative adversarial network)アプローチを提案する。
実験の結果,音声サンプルの意味を維持しつつ,学習に基づく推論攻撃を効果的に軽減し,より効率的な音響マスキングノイズ信号を生成することができることがわかった。 The proliferation of smart, connected, always listening devices have introduced significant privacy risks to users in a smart home environment. Beyond the notable risk of eavesdropping, intruders can adopt machine learning techniques to infer sensitive information from audio recordings on these devices, resulting in a new dimension of privacy concerns and attack variables to smart home users. Techniques such as sound masking and microphone jamming have been effectively used to prevent eavesdroppers from listening in to private conversations. In this study, we explore the problem of adversaries spying on smart home users to infer sensitive information with the aid of machine learning techniques. We then analyze the role of randomness in the effectiveness of sound masking for mitigating sensitive information leakage. We propose a Generative Adversarial Network (GAN) based approach for privacy preservation in smart homes which generates random noise to distort the unwanted machine learning-based inference. Our experimental results demonstrate that GANs can be used to generate more effective sound masking noise signals which exhibit more randomness and effectively mitigate deep learning-based inference attacks while preserving the semantics of the audio samples. | 翻訳日:2022-09-26 00:57:07 公開日:2020-11-13 |
# 深層音楽生成に関する包括的調査--多レベル表現、アルゴリズム、評価、今後の方向性 A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions ( http://arxiv.org/abs/2011.06801v1 ) ライセンス: Link先を確認 | Shulei Ji, Jing Luo, Xinyu Yang | (参考訳) 様々なコンテンツ(画像、テキストなど)の生成における深層学習技術の利用がトレンドとなっている。
楽譜生成は楽譜生成の3段階,演奏生成は楽譜に演奏特性を付加し,音響生成は音色を割り当てたり,直接音響形式で音楽を生成することで,演奏特性を持つ楽譜を音響に変換する。
これまでの調査では、自動音楽生成の分野で採用されているネットワークモデルを調査した。
しかしながら、開発の歴史やモデルの進化、同じ音楽生成タスクの長所や短所は明確に示されていない。
本稿では,様々な音楽生成レベルにおける様々な作曲課題の概観を提供し,現在一般的な音楽生成課題のほとんどをディープラーニングを用いてカバーする。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。 The utilization of deep learning techniques in generating various contents (such as image, text, etc.) has become a trend. Especially music, the topic of this paper, has attracted widespread attention of countless researchers.The whole process of producing music can be divided into three stages, corresponding to the three levels of music generation: score generation produces scores, performance generation adds performance characteristics to the scores, and audio generation converts scores with performance characteristics into audio by assigning timbre or generates music in audio format directly. Previous surveys have explored the network models employed in the field of automatic music generation. However, the development history, the model evolution, as well as the pros and cons of same music generation task have not been clearly illustrated. This paper attempts to provide an overview of various composition tasks under different music generation levels, covering most of the currently popular music generation tasks using deep learning. In addition, we summarize the datasets suitable for diverse tasks, discuss the music representations, the evaluation methods as well as the challenges under different levels, and finally point out several future directions. | 翻訳日:2022-09-26 00:56:48 公開日:2020-11-13 |
# 一様極大有界安定性保証による制約付き動的システムの強化学習制御 Reinforcement Learning Control of Constrained Dynamic Systems with Uniformly Ultimate Boundedness Stability Guarantee ( http://arxiv.org/abs/2011.06882v1 ) ライセンス: Link先を確認 | Minghao Han, Yuan Tian, Lixian Zhang, Jun Wang, Wei Pan | (参考訳) 強化学習(RL)は複雑な確率非線形制御問題に対して有望である。
数学的モデルを使用しなければ、試行錯誤によって特定の性能基準で評価されたデータから最適制御器を学習することができる。
しかし、データベースの学習アプローチは、あらゆる制御システムにおいて最も基本的な特性である安定性を保証しないことで悪名高い。
本稿では, 古典的リアプノフ法を用いて, 数学的モデルを用いることなく, データのみに基づいて一様極大境界性安定性(UUB)を解析する。
さらに, 安全性制約を満たした動的システム制御に, uub保証付きrlが適用可能であることを示す。
その結果,オフ・ポリシー学習アルゴリズムとオン・ポリシー学習アルゴリズムがそれぞれ提案されている。
その結果、最適制御器は、収束時と学習中の両方で閉ループシステムのUUBを保証することができる。
提案するアルゴリズムは安全制約のある一連のロボット連続制御タスクで評価される。
既存のrlアルゴリズムと比較して,提案手法は安全性の維持において優れた性能を実現することができる。
安定性の質的評価として,外乱が存在する場合でも印象的な弾力性を示す。 Reinforcement learning (RL) is promising for complicated stochastic nonlinear control problems. Without using a mathematical model, an optimal controller can be learned from data evaluated by certain performance criteria through trial-and-error. However, the data-based learning approach is notorious for not guaranteeing stability, which is the most fundamental property for any control system. In this paper, the classic Lyapunov's method is explored to analyze the uniformly ultimate boundedness stability (UUB) solely based on data without using a mathematical model. It is further shown how RL with UUB guarantee can be applied to control dynamic systems with safety constraints. Based on the theoretical results, both off-policy and on-policy learning algorithms are proposed respectively. As a result, optimal controllers can be learned to guarantee UUB of the closed-loop system both at convergence and during learning. The proposed algorithms are evaluated on a series of robotic continuous control tasks with safety constraints. In comparison with the existing RL algorithms, the proposed method can achieve superior performance in terms of maintaining safety. As a qualitative evaluation of stability, our method shows impressive resilience even in the presence of external disturbances. | 翻訳日:2022-09-26 00:56:19 公開日:2020-11-13 |
# 非定常オンライン回帰 Non-stationary Online Regression ( http://arxiv.org/abs/2011.06957v1 ) ライセンス: Link先を確認 | Anant Raj, Pierre Gaillard (SIERRA, Thoth), Christophe Saad (CMU) | (参考訳) 変化する環境下でのオンライン予測は、多くの現実世界のアプリケーションで重要性を増している問題である。
本稿では,異なるサブルーチンと組み合わせて,‘citet{zhang2017dynamic} で表されるメタアルゴリズムについて考察する。
パラメータ列の変動の総和が$c_n$である非定常オンライン線形回帰に対しては、$\tilde{o}(n^{1/3} c_n^{2/3})$の期待累積誤差が得られることを示す。
本稿では,1次元時系列のオンライン予測の結果を,一般のd$-dimensional non-stationary linear regressionまで拡張する。
zhang et al. 2017 と besbes et al. 2015 によって得られた $o(\sqrt{n c_n})$ を改善する。
我々はさらに解析を静止しないオンラインカーネルレグレッションに拡張する。
非定常オンライン回帰の場合と同様に、zhang et al. 2017 のメタ手続きと kernel-awv (jezequel et al. 2020) を組み合わせることで、rkhs の有効次元とシーケンス全体の変動によって制御される期待累積を達成する。
我々の知る限りでは、この研究は非定常オンライン回帰から非定常カーネル回帰への最初の拡張である。
最後に,本手法を既存のベンチマークと実証的に評価し,本論文で得られた理論的境界との比較を行った。 Online forecasting under a changing environment has been a problem of increasing importance in many real-world applications. In this paper, we consider the meta-algorithm presented in \citet{zhang2017dynamic} combined with different subroutines. We show that an expected cumulative error of order $\tilde{O}(n^{1/3} C_n^{2/3})$ can be obtained for non-stationary online linear regression where the total variation of parameter sequence is bounded by $C_n$. Our paper extends the result of online forecasting of one-dimensional time-series as proposed in \cite{baby2019online} to general $d$-dimensional non-stationary linear regression. We improve the rate $O(\sqrt{n C_n})$ obtained by Zhang et al. 2017 and Besbes et al. 2015. We further extend our analysis to non-stationary online kernel regression. Similar to the non-stationary online regression case, we use the meta-procedure of Zhang et al. 2017 combined with Kernel-AWV (Jezequel et al. 2020) to achieve an expected cumulative controlled by the effective dimension of the RKHS and the total variation of the sequence. To the best of our knowledge, this work is the first extension of non-stationary online regression to non-stationary kernel regression. Lastly, we evaluate our method empirically with several existing benchmarks and also compare it with the theoretical bound obtained in this paper. | 翻訳日:2022-09-26 00:56:04 公開日:2020-11-13 |
# 高速で高速なフェルミオン型ニューラルネットワーク Better, Faster Fermionic Neural Networks ( http://arxiv.org/abs/2011.07125v1 ) ライセンス: Link先を確認 | James S. Spencer, David Pfau, Aleksandar Botev, W. M. C. Foulkes | (参考訳) fermionic neural network (ferminet) は、多電子系の波動関数 ansatz として使用可能な、最近開発されたニューラルネットワークアーキテクチャである。
ここでは,挑戦的なシステムにおいて,速度と精度の新たな記録を設定可能なferminetの改良をいくつか紹介する。
ネットワークのサイズが大きくなると、アルゴンほどの大きさの原子の化学的精度に達するのに十分であることがわかった。
JAXでFermiNetを実装し、ネットワークのいくつかの部分を単純化することで、大規模なシステム上でFermiNetをトレーニングするのに必要なGPU時間を、桁違いに削減することができる。
これにより, ビシクロブタンからブタジエンへの困難な遷移に関するフェルミネットの実行と, シクロブタジエンの自己合成に関するポーリネットとの比較が可能となり, 両者の芸術状態に近い結果が得られる。 The Fermionic Neural Network (FermiNet) is a recently-developed neural network architecture that can be used as a wavefunction Ansatz for many-electron systems, and has already demonstrated high accuracy on small systems. Here we present several improvements to the FermiNet that allow us to set new records for speed and accuracy on challenging systems. We find that increasing the size of the network is sufficient to reach chemical accuracy on atoms as large as argon. Through a combination of implementing FermiNet in JAX and simplifying several parts of the network, we are able to reduce the number of GPU hours needed to train the FermiNet on large systems by an order of magnitude. This enables us to run the FermiNet on the challenging transition of bicyclobutane to butadiene and compare against the PauliNet on the automerization of cyclobutadiene, and we achieve results near the state of the art for both. | 翻訳日:2022-09-26 00:54:27 公開日:2020-11-13 |
# 社会的影響が知的なタスクに沿ってどのように進化するかの専門性と信頼 Expertise and confidence explain how social influence evolves along intellective tasks ( http://arxiv.org/abs/2011.07168v1 ) ライセンス: Link先を確認 | Omid Askarisichani, Elizabeth Y. Huang, Kekoa S. Sato, Noah E. Friedkin, Francesco Bullo, Ambuj K. Singh | (参考訳) 協調環境における個人の影響の先行性の発見は、重要で実践的で挑戦的な問題である。
本稿では,知的なタスクを集団で実行する個人集団における対人的影響について検討する。
我々は、フィードバックを伴う課題シーケンスに沿って、高い専門性と社会的自信を持つ個人は、対人的影響が高いことを観察する。
また、低いパフォーマンスの個人は高いパフォーマンスのチームメイトの専門知識を過小評価する傾向にあることも観察した。
これらの観察に基づいて,3つの仮説を紹介し,その妥当性について実証的および理論的に支持する。
本研究は, 経常的記憶システム理論, 社会的比較, 社会的影響の起源に関する信頼性ヒューリスティックスに関する実証的証拠を報告する。
これらの理論にインスパイアされた認知力学モデルを提案し、個人が時間とともに対人的影響を調整する過程を記述する。
本研究は,個人の影響予測におけるモデルの精度を実証し,同一動作の個人に対して,その漸近行動に関する分析結果を提供する。
最後に,学習済みテキスト埋め込みモデルを用いた深層ニューラルネットワークによる個人影響予測手法を提案する。
タスク中に収集されたメッセージ内容,メッセージ時間,個々の正確性を用いることで,時間経過に伴う個人の自己報告の影響を正確に予測することができる。
広範な実験により、構造バランスや反射評価モデルなどのベースラインと比較して、提案モデルの精度が検証された。
ニューラルネットワークモデルは最も正確であるが、動的モデルは影響予測において最も解釈可能である。 Discovering the antecedents of individuals' influence in collaborative environments is an important, practical, and challenging problem. In this paper, we study interpersonal influence in small groups of individuals who collectively execute a sequence of intellective tasks. We observe that along an issue sequence with feedback, individuals with higher expertise and social confidence are accorded higher interpersonal influence. We also observe that low-performing individuals tend to underestimate their high-performing teammate's expertise. Based on these observations, we introduce three hypotheses and present empirical and theoretical support for their validity. We report empirical evidence on longstanding theories of transactive memory systems, social comparison, and confidence heuristics on the origins of social influence. We propose a cognitive dynamical model inspired by these theories to describe the process by which individuals adjust interpersonal influences over time. We demonstrate the model's accuracy in predicting individuals' influence and provide analytical results on its asymptotic behavior for the case with identically performing individuals. Lastly, we propose a novel approach using deep neural networks on a pre-trained text embedding model for predicting the influence of individuals. Using message contents, message times, and individual correctness collected during tasks, we are able to accurately predict individuals' self-reported influence over time. Extensive experiments verify the accuracy of the proposed models compared to baselines such as structural balance and reflected appraisal model. While the neural networks model is the most accurate, the dynamical model is the most interpretable for influence prediction. | 翻訳日:2022-09-26 00:54:11 公開日:2020-11-13 |
# 完全物理インフォームドエコー状態ネットワークを目指して -リカレント人工ニューロンに基づくODE近似器- Toward the Fully Physics-Informed Echo State Network -- an ODE Approximator Based on Recurrent Artificial Neurons ( http://arxiv.org/abs/2011.06769v1 ) ライセンス: Link先を確認 | Dong Keun Oh | (参考訳) 近年の理論的議論に触発されて, 物理不定形エコー状態ネットワーク (esn) は, 物理不定形な方法で貯留層モデルを完全に訓練する試みとして議論されている。
このような目的に関する最も単純な研究として、ode(ordinary differential equation)近似器は、反復的な評価に関して解を逐次再現するように設計されている。
微分方程式の主不変性について、繰り返しの制約は形を取り、ESNベースのODE近似器の適切な回帰法を確保する。
その後、回帰のための2パス戦略の考え方に基づいて実際のトレーニングプロセスを確立する。
本研究では, 完全物理インフォームド貯水池モデルを用いて, 提案手法の計算結果として, 非線形動的問題をいくつか示す。 Inspired by recent theoretical arguments, physics-informed echo state network (ESN) is discussed on the attempt to train a reservoir model absolutely in physics-informed manner. As the plainest work on such a purpose, an ODE (ordinary differential equation) approximator is designed to replicate the solution in sequence with respect to the recurrent evaluations. On the principal invariance of differential equations, the constraint in recurrence just takes shape to secure a proper regression method for the ESN-based ODE approximator. After then, the actual training process is established on the idea of two-pass strategy for regression. Aiming at the fully physics-informed reservoir model, a couple of nonlinear dynamical problems are demonstrated as the computations obtained from the proposed method in this study. | 翻訳日:2022-09-26 00:48:12 公開日:2020-11-13 |
# ROLL:オブジェクト推論による視覚的自己監督強化学習 ROLL: Visual Self-Supervised Reinforcement Learning with Object Reasoning ( http://arxiv.org/abs/2011.06777v1 ) ライセンス: Link先を確認 | Yufei Wang, Gautham Narayan Narasimhan, Xingyu Lin, Brian Okorn, David Held | (参考訳) 現在の画像ベース強化学習(RL)アルゴリズムは、通常、オブジェクトレベルの推論を行うことなく、画像全体で動作する。
これは非効率なゴールサンプリングと非効率な報酬関数をもたらす。
本稿では,オブジェクトレベルの推論とオクルージョン推論を取り入れた従来の視覚自己監督型RLを改善する。
具体的には, 未知のオブジェクトセグメンテーションを用いて, シーン内の注意注意を無視し, 報酬計算とゴール生成を改善するとともに, 新たな補助損失訓練方式を用いることにより, 咬合推論を可能にする。
提案するアルゴリズムであるROLL(Reinforcement Learning with Object Level Learning)は,複数の視覚的制御タスクにおける従来の手法と比較して,劇的に高速に学習し,最終的な性能が向上することを示す。
プロジェクトビデオとコードはhttps://sites.google.com/andrew.cmu.edu/roll.comで入手できる。 Current image-based reinforcement learning (RL) algorithms typically operate on the whole image without performing object-level reasoning. This leads to inefficient goal sampling and ineffective reward functions. In this paper, we improve upon previous visual self-supervised RL by incorporating object-level reasoning and occlusion reasoning. Specifically, we use unknown object segmentation to ignore distractors in the scene for better reward computation and goal generation; we further enable occlusion reasoning by employing a novel auxiliary loss and training scheme. We demonstrate that our proposed algorithm, ROLL (Reinforcement learning with Object Level Learning), learns dramatically faster and achieves better final performance compared with previous methods in several simulated visual control tasks. Project video and code are available at https://sites.google.com/andrew.cmu.edu/roll. | 翻訳日:2022-09-26 00:47:59 公開日:2020-11-13 |
# 深層モデルを用いた都市住民モデルのための人口合成 Population synthesis for urban resident modeling using deep generative models ( http://arxiv.org/abs/2011.06851v1 ) ライセンス: Link先を確認 | Martin Johnsen, Oliver Brandt, Sergio Garrido, Francisco C. Pereira | (参考訳) 新たな不動産開発の影響は、その人口分布(世帯の種類や構成、収入、社会人口層)に強く関連しており、住居タイプ、価格、位置、床のレベルといった側面を前提としている。
本稿では, 大規模住宅・集合住宅における新築ビルの人口分布をモデル化する機械学習手法を提案する。
我々はベトナムのハノイにある不動産開発プロジェクトであるエコパーク・タウンシップ(Ecopark Township)の実際のデータセットを用いて、2つの機械学習アルゴリズムを深層生成モデルから研究し、合成エージェントの集団を生成する。
CVAEは経験的分布,非自明なベースラインモデル,CGANの両面で,新たな不動産開発プロジェクトの人口分布を推定する上で優れていた。 The impacts of new real estate developments are strongly associated to its population distribution (types and compositions of households, incomes, social demographics) conditioned on aspects such as dwelling typology, price, location, and floor level. This paper presents a Machine Learning based method to model the population distribution of upcoming developments of new buildings within larger neighborhood/condo settings. We use a real data set from Ecopark Township, a real estate development project in Hanoi, Vietnam, where we study two machine learning algorithms from the deep generative models literature to create a population of synthetic agents: Conditional Variational Auto-Encoder (CVAE) and Conditional Generative Adversarial Networks (CGAN). A large experimental study was performed, showing that the CVAE outperforms both the empirical distribution, a non-trivial baseline model, and the CGAN in estimating the population distribution of new real estate development projects. | 翻訳日:2022-09-26 00:47:47 公開日:2020-11-13 |
# ダナエ:水中姿勢推定のためのデノイジングオートエンコーダ DANAE: a denoising autoencoder for underwater attitude estimation ( http://arxiv.org/abs/2011.06853v1 ) ライセンス: Link先を確認 | Paolo Russo, Fabiana Di Ciaccio, Salvatore Troisi | (参考訳) 水中ロボットナビゲーションの主な課題の1つは正確な位置決めであり、方向推定フェーズに大きく依存する。
この範囲に使用されるシステムは、主にセンサと水中環境の不規則な騒音に関連する様々なノイズタイプによって影響を受ける。
フィルタアルゴリズムは、最適に設定された場合、その効果を減らすことができるが、このプロセスは通常、細かな技術と時間を必要とする。
本稿では,カルマンフィルタIMU/AHRSデータ統合を利用する深層Denoising AutoeNcoder for Attitude Estimation(DANAE)を提案する。
このディープラーニングベースのアーキテクチャは堅牢で信頼性が高く、kalmanフィルタの結果を大幅に改善した。
さらなるテストにより、この方法はナビゲーションタスクのリアルタイムアプリケーションに適している。 One of the main issues for underwater robots navigation is their accurate positioning, which heavily depends on the orientation estimation phase. The systems employed to this scope are affected by different noise typologies, mainly related to the sensors and to the irregular noise of the underwater environment. Filtering algorithms can reduce their effect if opportunely configured, but this process usually requires fine techniques and time. In this paper we propose DANAE, a deep Denoising AutoeNcoder for Attitude Estimation which works on Kalman filter IMU/AHRS data integration with the aim of reducing any kind of noise, independently of its nature. This deep learning-based architecture showed to be robust and reliable, significantly improving the Kalman filter results. Further tests could make this method suitable for real-time applications on navigation tasks. | 翻訳日:2022-09-26 00:47:28 公開日:2020-11-13 |
# IoT Wallet: マシンラーニングベースのセンサポートフォリオアプリケーション IoT Wallet: Machine Learning-based Sensor Portfolio Application ( http://arxiv.org/abs/2011.06861v1 ) ライセンス: Link先を確認 | Petar \v{S}oli\'c, Ante Loji\'c Kapetanovi\'c, Tomislav \v{Z}upanovi\'c, Ivo Kova\v{c}evi\'c, Toni Perkovi\'c, Petar Popovski | (参考訳) 本稿では,センサウォレット構築のためのアプリケーションを提案する。
現在、システムはThe Things Network(TTN)クラウドシステムからセンサデータを収集し、データをInfluxデータベースに格納し、処理したデータをユーザダッシュボードに表示する。
ユーザーのタイプに基づいて、データは閲覧のみ、制御可能、あるいは上位のユーザはセンサーをシステムに登録できる。
さらに,ユーザインタフェースを通じて調整可能なルールに基づいて,ユーザに通知することができる。
このシステムの特長は、様々なシナリオで使用できる機械学習サービスであり、ケーススタディを通じて、与えられた地下のLoRaビーコンノードの信号強度から土壌水分を推定するための新しいアプローチを提供する。 In this paper an application for building sensor wallet is presented. Currently, given system collects sensor data from The Things Network (TTN) cloud system, stores the data into the Influx database and presents the processed data to the user dashboard. Based on the type of the user, data can be viewed-only, controlled or the top user can register the sensor to the system. Moreover, the system can notify users based on the rules that can be adjusted through the user interface. The special feature of the system is the machine learning service that can be used in various scenarios and is presented throughout the case study that gives a novel approach to estimate soil moisture from the signal strength of a given underground LoRa beacon node. | 翻訳日:2022-09-26 00:47:05 公開日:2020-11-13 |
# fefet多ビットコンテンツ対応メモリを用いたメモリ近傍探索 In-Memory Nearest Neighbor Search with FeFET Multi-Bit Content-Addressable Memories ( http://arxiv.org/abs/2011.07095v1 ) ライセンス: Link先を確認 | Arman Kazemi, Mohammad Mehdi Sharifi, Ann Franchesca Laguna, Franz M\"uller, Ramin Rajaei, Ricardo Olivo, Thomas K\"ampfe, Michael Niemier, X. Sharon Hu | (参考訳) 近距離探索(nn)は、ワンショット学習や画像分類など、多くのアプリケーションにおいて必須の操作である。
そのため、正確なNN検索のための高速で低エネルギーのハードウェアサポートが極めて望ましい。
l_\infty$ と hamming distance metrics を実装して nn による少数学習タスクの探索を高速化するために,tcam (ternary content-addressable memories) が提案されている。
本稿では,フェロ誘電体FET(FeFET)に基づくマルチビットコンテントアドレナブルメモリ(MCAM)をネイティブに評価して,単一ステップのインメモリNNサーチを実現する,新しい距離関数を提案する。
さらに,NN分類用ソフトウェアにおける浮動小数点精度実装やワンショット学習タスクに匹敵する精度を実現する。
例えば、提案手法は、3ビットmcamを持つ全言語データセット(ソフトウェアベース実装よりもわずか0.8%低い)の5ウェイ、5ショットの分類タスクに対して98.34%の精度を達成している。
これは、最先端のTCAMベースの実装をイソエネルギーとイソ遅延で13%の精度で改善したことを意味する。
提示された距離関数は、FeFETデバイス間変動の影響に耐性がある。
さらに、GLOBALFOUNDRIESの配列を用いたFeFET MCAMの2ビット実装を実験的に実証し、概念実証をさらに進める。 Nearest neighbor (NN) search is an essential operation in many applications, such as one/few-shot learning and image classification. As such, fast and low-energy hardware support for accurate NN search is highly desirable. Ternary content-addressable memories (TCAMs) have been proposed to accelerate NN search for few-shot learning tasks by implementing $L_\infty$ and Hamming distance metrics, but they cannot achieve software-comparable accuracies. This paper proposes a novel distance function that can be natively evaluated with multi-bit content-addressable memories (MCAMs) based on ferroelectric FETs (FeFETs) to perform a single-step, in-memory NN search. Moreover, this approach achieves accuracies comparable to floating-point precision implementations in software for NN classification and one/few-shot learning tasks. As an example, the proposed method achieves a 98.34% accuracy for a 5-way, 5-shot classification task for the Omniglot dataset (only 0.8% lower than software-based implementations) with a 3-bit MCAM. This represents a 13% accuracy improvement over state-of-the-art TCAM-based implementations at iso-energy and iso-delay. The presented distance function is resilient to the effects of FeFET device-to-device variations. Furthermore, this work experimentally demonstrates a 2-bit implementation of FeFET MCAM using AND arrays from GLOBALFOUNDRIES to further validate proof of concept. | 翻訳日:2022-09-26 00:46:14 公開日:2020-11-13 |
# 心筋MRIにおける局所セグメンテーション異常検出による自動セグメンテーション Automatic segmentation with detection of local segmentation failures in cardiac MRI ( http://arxiv.org/abs/2011.07025v1 ) ライセンス: Link先を確認 | J\"org Sander, Bob D. de Vos and Ivana I\v{s}gum | (参考訳) 心臓磁気共鳴画像(CMRI)における心臓解剖学的構造の分離は、心臓血管疾患の自動診断と予後に必須である。
本研究は,CMRIにおけるセグメンテーションの自動分割とセグメンテーションの不確実性の評価を組み合わせて,局所セグメンテーション障害を含む画像領域を検出する。
3つの最先端畳み込みニューラルネットワーク(CNN)をトレーニングし、心臓解剖学的構造を自動的に分割し、エントロピーとMCドロップアウトによって導かれる2つの予測不確実性の測定値を得た。
その後、別のCNNが不確実性を利用して、専門家による修正を必要とする可能性のある局所的なセグメンテーション障害を検出するように訓練された。
最後に,検出領域の手動補正をシミュレートした。
MICCAI 2017 ACDC チャレンジで公開されている CMR スキャンを用いて,CNN アーキテクチャと損失関数のセグメンテーションへの影響,不確実性の測定を行った。
手動セグメンテーションと自動セグメンテーションのDice係数と3Dハウスドルフ距離を用いて評価した。
実験の結果, 自動セグメンテーションと検出されたセグメンテーション故障のシミュレーション手動補正を組み合わせることで, 統計的に有意な性能向上が得られた。 Segmentation of cardiac anatomical structures in cardiac magnetic resonance images (CMRI) is a prerequisite for automatic diagnosis and prognosis of cardiovascular diseases. To increase robustness and performance of segmentation methods this study combines automatic segmentation and assessment of segmentation uncertainty in CMRI to detect image regions containing local segmentation failures. Three state-of-the-art convolutional neural networks (CNN) were trained to automatically segment cardiac anatomical structures and obtain two measures of predictive uncertainty: entropy and a measure derived by MC-dropout. Thereafter, using the uncertainties another CNN was trained to detect local segmentation failures that potentially need correction by an expert. Finally, manual correction of the detected regions was simulated. Using publicly available CMR scans from the MICCAI 2017 ACDC challenge, the impact of CNN architecture and loss function for segmentation, and the uncertainty measure was investigated. Performance was evaluated using the Dice coefficient and 3D Hausdorff distance between manual and automatic segmentation. The experiments reveal that combining automatic segmentation with simulated manual correction of detected segmentation failures leads to statistically significant performance increase. | 翻訳日:2022-09-26 00:38:32 公開日:2020-11-13 |
# 時空間ダイナミクスのための厳密なカーネルフレームワーク An exact kernel framework for spatio-temporal dynamics ( http://arxiv.org/abs/2011.06848v1 ) ライセンス: Link先を確認 | Oleg Szehr, Dario Azzimonti, Laura Azzimonti | (参考訳) システムダイナミクスが動的方程式によって制御される状況に適用される、時空間データ分析のためのカーネルベースのフレームワークが導入された。
鍵となる要素は時間依存のカーネルを含む代表子定理である。
そのような核は偏微分方程式の解の展開によく見られる。
代表定理は、与えられた時空間サンプルの誤差を最小化する動的方程式の全ての解を見つけるために適用される。
これは、しばしば微分方程式が(物理学の法則によって)前もって与えられ、実践者が彼女の騒がしい測定と互換性のある最良の解を求めるという事実に動機づけられている。
我々の指導例は、確率拡散過程における密度の進化を記述するフォッカー・プランク方程式である。
初期および境界条件を持つFokker-Planck力学の下での時空間モデリングのための回帰・密度推定フレームワークが導入された。 A kernel-based framework for spatio-temporal data analysis is introduced that applies in situations when the underlying system dynamics are governed by a dynamic equation. The key ingredient is a representer theorem that involves time-dependent kernels. Such kernels occur commonly in the expansion of solutions of partial differential equations. The representer theorem is applied to find among all solutions of a dynamic equation the one that minimizes the error with given spatio-temporal samples. This is motivated by the fact that very often a differential equation is given a priori (e.g.~by the laws of physics) and a practitioner seeks the best solution that is compatible with her noisy measurements. Our guiding example is the Fokker-Planck equation, which describes the evolution of density in stochastic diffusion processes. A regression and density estimation framework is introduced for spatio-temporal modeling under Fokker-Planck dynamics with initial and boundary conditions. | 翻訳日:2022-09-26 00:37:56 公開日:2020-11-13 |
# 雑音の存在下での指数ラドン変換による関数の適応推定 Adaptive estimation of a function from its Exponential Radon Transform in presence of noise ( http://arxiv.org/abs/2011.06887v1 ) ライセンス: Link先を確認 | Anuj Abhishek and Sakshi Arya | (参考訳) 本稿では,推定される関数の滑らかさを事前に知ることなく,指数ラドン変換(ERT)データから関数を推定するための局所適応戦略を提案する。
我々は、非パラメトリックカーネル型推定器を構築し、広いソボレフ正則スケールからなる関数のクラスに対して、提案した戦略は、最小値最適率を$\log{n}$ factorまで従うことを示す。
また,ソボレフスケールにおいて,ポイントワイズリスクを用いた場合の最適適応推定器は存在せず,実際,提案推定器が達成したレートは適応収束率であることを示した。 In this article we propose a locally adaptive strategy for estimating a function from its Exponential Radon Transform (ERT) data, without prior knowledge of the smoothness of functions that are to be estimated. We build a non-parametric kernel type estimator and show that for a class of functions comprising a wide Sobolev regularity scale, our proposed strategy follows the minimax optimal rate up to a $\log{n}$ factor. We also show that there does not exist an optimal adaptive estimator on the Sobolev scale when the pointwise risk is used and in fact the rate achieved by the proposed estimator is the adaptive rate of convergence. | 翻訳日:2022-09-26 00:37:43 公開日:2020-11-13 |
# 遷移状態の深い強化学習 Deep Reinforcement Learning of Transition States ( http://arxiv.org/abs/2011.06700v1 ) ライセンス: Link先を確認 | Jun Zhang, Yao-Kun Lei, Zhen Zhang, Xu Han, Maodong Li, Lijiang Yang, Yi Isaac Yang and Yi Qin Gao | (参考訳) 強化学習 (RL) と分子動力学 (MD) のシミュレーションを組み合わせることで, 自動的に化学反応機構を解明する機械学習手法 (RL$^\ddag$) を提案する。
RL$^\ddag$では、化学反応の遷移状態の位置をゲームとして定式化し、仮想プレイヤーが反応物と生成物を結ぶシミュレーション軌道を撮影するように訓練する。
プレイヤーは、価値推定とポリシー作成の2つの機能を利用して、このゲームに勝つ確率を反復的に改善する。
反応機構は値関数に従って直接解釈できる。
一方, 方針関数は遷移経路の効率的なサンプリングを可能にし, 反応のダイナミクスや速度解析に利用できる。
複数の実験を通じて, rl{\ddag} をタブララサで訓練できることを示し, 主観バイアスを最小に抑える化学反応機構を明らかにした。 Combining reinforcement learning (RL) and molecular dynamics (MD) simulations, we propose a machine-learning approach (RL$^\ddag$) to automatically unravel chemical reaction mechanisms. In RL$^\ddag$, locating the transition state of a chemical reaction is formulated as a game, where a virtual player is trained to shoot simulation trajectories connecting the reactant and product. The player utilizes two functions, one for value estimation and the other for policy making, to iteratively improve the chance of winning this game. We can directly interpret the reaction mechanism according to the value function. Meanwhile, the policy function enables efficient sampling of the transition paths, which can be further used to analyze the reaction dynamics and kinetics. Through multiple experiments, we show that RL{\ddag} can be trained tabula rasa hence allows us to reveal chemical reaction mechanisms with minimal subjective biases. | 翻訳日:2022-09-26 00:37:31 公開日:2020-11-13 |
# 最適化軌道の正規化のためのニューラルネットワークトレーニング技術 : 実証的研究 Neural Network Training Techniques Regularize Optimization Trajectory: An Empirical Study ( http://arxiv.org/abs/2011.06702v1 ) ライセンス: Link先を確認 | Cheng Chen, Junjie Yang, Yi Zhou | (参考訳) 現代のディープニューラルネットワーク(DNN)トレーニングでは、非線形アクティベーション関数、バッチ正規化、スキップ接続など、さまざまなトレーニング技術を使用している。
効果はあるものの、実際にDNNの訓練を加速させるのにどう役立つのかはまだ謎だ。
本稿では,DNN最適化におけるこれらのトレーニング手法の正規化効果に関する実証的研究を行う。
具体的には、成功したDNN訓練の最適化軌道は、軌道方向に合わせてモデルの更新方向を規則化する一定の規則性原理に一貫して従っている。
理論的には、そのような正規性原理は非凸最適化において収束保証をもたらし、収束率は正規化パラメータに依存する。
経験的に、トレーニング手法を適用したDNNトレーニングは、高速収束を実現し、大きな正規化パラメータを持つ正則性原理に従うことにより、モデル更新が軌道に適切に整合していることを示す。
一方,DNNトレーニングではトレーニング手法を使わず,規則性原理に従えば,モデル更新が軌道に整合していないことが示唆される。
したがって、異なる訓練技法は、収束を容易にするために正規性原理を介してモデル更新方向を定式化する。 Modern deep neural network (DNN) trainings utilize various training techniques, e.g., nonlinear activation functions, batch normalization, skip-connections, etc. Despite their effectiveness, it is still mysterious how they help accelerate DNN trainings in practice. In this paper, we provide an empirical study of the regularization effect of these training techniques on DNN optimization. Specifically, we find that the optimization trajectories of successful DNN trainings consistently obey a certain regularity principle that regularizes the model update direction to be aligned with the trajectory direction. Theoretically, we show that such a regularity principle leads to a convergence guarantee in nonconvex optimization and the convergence rate depends on a regularization parameter. Empirically, we find that DNN trainings that apply the training techniques achieve a fast convergence and obey the regularity principle with a large regularization parameter, implying that the model updates are well aligned with the trajectory. On the other hand, DNN trainings without the training techniques have slow convergence and obey the regularity principle with a small regularization parameter, implying that the model updates are not well aligned with the trajectory. Therefore, different training techniques regularize the model update direction via the regularity principle to facilitate the convergence. | 翻訳日:2022-09-26 00:37:16 公開日:2020-11-13 |
# くちばしを用いたグラスピング : モデルフリー模倣学習における共変量シフトによるマニピュレーション Grasping with Chopsticks: Combating Covariate Shift in Model-free Imitation Learning for Fine Manipulation ( http://arxiv.org/abs/2011.06719v1 ) ライセンス: Link先を確認 | Liyiming Ke, Jingqiang Wang, Tapomayukh Bhattacharjee, Byron Boots and Siddhartha Srinivasa | (参考訳) 何十億という人々が、日常のオブジェクトを細かく操作するために、シンプルで多用途なツールであるチョップスティックを使っている。
小さく、湾曲し、滑りやすい先端は、小さな物体を拾うのに難題となり、非常に複雑なテストケースとなる。
本稿では,ロボットマニピュレータの開発に人間による実演を利用する。
ファインマニピュレーションのための正確なモデルがないため、従来は一般化の貧弱な共変シフト現象に苦しむモデルフリー模倣学習を探求する。
従来のアプローチと異なり,インタラクティブなエキスパートやモデルへのアクセスを必要とせず,共変量シフトを減らすための2つのアプローチを提案する。
まず,可変演算子を適用した単段予測誤差を軽減し,把握のための重要なステップにおけるデータサポートを増加させる。
第2に,有界雑音を付加して合成補正ラベルを生成し,パラメトリック法と非パラメトリック法を組み合わせて誤差蓄積を防止する。
本研究は,本研究で開発した実機を用いたロボットの手法を実証し,エージェントの成功率を37.3%から80%に増やし,82.6%の人間エキスパート性能に匹敵する結果を得た。 Billions of people use chopsticks, a simple yet versatile tool, for fine manipulation of everyday objects. The small, curved, and slippery tips of chopsticks pose a challenge for picking up small objects, making them a suitably complex test case. This paper leverages human demonstrations to develop an autonomous chopsticks-equipped robotic manipulator. Due to the lack of accurate models for fine manipulation, we explore model-free imitation learning, which traditionally suffers from the covariate shift phenomenon that causes poor generalization. We propose two approaches to reduce covariate shift, neither of which requires access to an interactive expert or a model, unlike previous approaches. First, we alleviate single-step prediction errors by applying an invariant operator to increase the data support at critical steps for grasping. Second, we generate synthetic corrective labels by adding bounded noise and combining parametric and non-parametric methods to prevent error accumulation. We demonstrate our methods on a real chopstick-equipped robot that we built, and observe the agent's success rate increase from 37.3% to 80%, which is comparable to the human expert performance of 82.6%. | 翻訳日:2022-09-26 00:36:56 公開日:2020-11-13 |
# ロボット自己表現による操作能力の向上と転校学習 Robotic self-representation improves manipulation skills and transfer learning ( http://arxiv.org/abs/2011.06985v1 ) ライセンス: Link先を確認 | Phuong D.H. Nguyen, Manfred Eppe and Stefan Wermter | (参考訳) 認知科学は、自己表現が学習と問題解決に重要であることを示唆している。
しかし、この主張を認知的にもっともらしいロボットや強化学習に関連づける計算方法が不足している。
本稿では,マルチモーダルビダル(multimodal bidal)と呼ばれるマルチセンサ情報からボディスキーマと対人空間の表現を符号化するために,双方向行動効果関係を学習するモデルを開発することにより,このギャップを埋める。
3つの異なるロボット実験を通して,本手法は雑音下での学習に基づく問題解決を著しく安定化し,ロボット操作スキルの伝達学習を改善することを実証した。 Cognitive science suggests that the self-representation is critical for learning and problem-solving. However, there is a lack of computational methods that relate this claim to cognitively plausible robots and reinforcement learning. In this paper, we bridge this gap by developing a model that learns bidirectional action-effect associations to encode the representations of body schema and the peripersonal space from multisensory information, which is named multimodal BidAL. Through three different robotic experiments, we demonstrate that this approach significantly stabilizes the learning-based problem-solving under noisy conditions and that it improves transfer learning of robotic manipulation skills. | 翻訳日:2022-09-26 00:29:36 公開日:2020-11-13 |
# デュアルアームロボットにおける自己感覚の実現 Enabling the Sense of Self in a Dual-Arm Robot ( http://arxiv.org/abs/2011.07026v1 ) ライセンス: Link先を確認 | Ali AlQallaf, Gerardo Aragon-Camarasa | (参考訳) 人間は体と能力を知っているが、ロボットはそうではない。
そこで,本稿では,双腕ロボットが環境の中で自身の感覚を得ることを可能にするニューラルネットワークアーキテクチャを提案する。
我々のアプローチは、人間の自己認識発達レベルにインスパイアされ、ロボットが環境の中でタスクを実行しながら自己認識を実現するための基盤となるビルディングブロックとして機能する。
異なるロボットタスクをサポートするためには、ロボットが環境と対話する前に自分自身を知る必要があると仮定する。
そこで我々は,ロボットが視覚・受動感覚入力を用いて手足と環境を区別できるように,ニューラルネットワークアーキテクチャを実装した。
ロボットは, 環境条件や入力信号の結合下で, 平均88.7%の精度で自己を識別できることを実験的に実証した。 While humans are aware of their body and capabilities, robots are not. To address this, we present in this paper a neural network architecture that enables a dual-arm robot to get a sense of itself in an environment. Our approach is inspired by human self-awareness developmental levels and serves as the underlying building block for a robot to achieve awareness of itself while carrying out tasks in an environment. We assume that a robot has to know itself before interacting with the environment in order to be able to support different robotic tasks. Hence, we implemented a neural network architecture to enable a robot to differentiate its limbs from the environment using visual and proprioception sensory inputs. We demonstrate experimentally that a robot can distinguish itself with an accuracy of 88.7% on average in cluttered environmental settings and under confounding input signals. | 翻訳日:2022-09-26 00:29:24 公開日:2020-11-13 |
# 累積帰納関数に対する回帰木 Regression Trees for Cumulative Incidence Functions ( http://arxiv.org/abs/2011.06706v1 ) ライセンス: Link先を確認 | Youngjoo Cho, Annette M. Molinaro, Chen Hu, and Robert L. Strawderman | (参考訳) 他者の存在下での1種類の事象のリスクを特徴付ける累積帰納関数の使用は、過去10年間でますます人気が高まっている。
モデリング、推定、推論の問題はパラメトリック、非パラメトリック、半パラメトリック法を用いて扱われている。
回帰木や関連するアンサンブル法などの機械学習手法の適切な拡張を開発する試みは、最近始まったばかりである。
本稿では、競合するリスク設定において累積入射曲線を推定するための回帰木構築のための新しいアプローチを開発する。
提案手法では, ブライアスコアのリスクを増大させた推定器を用いて木を造成し, 刈り取るための基礎となる。
提案手法はr統計ソフトウェアパッケージを用いて容易に実装できる。
シミュレーション研究は、競合リスク設定における我々のアプローチの有用性を実証する。
放射線治療オンコロジーグループ(トライアル9410)のデータは、これらの新しい方法を説明するために使用される。 The use of cumulative incidence functions for characterizing the risk of one type of event in the presence of others has become increasingly popular over the past decade. The problems of modeling, estimation and inference have been treated using parametric, nonparametric and semi-parametric methods. Efforts to develop suitable extensions of machine learning methods, such as regression trees and related ensemble methods, have begun only recently. In this paper, we develop a novel approach to building regression trees for estimating cumulative incidence curves in a competing risks setting. The proposed methods employ augmented estimators of the Brier score risk as the primary basis for building and pruning trees. The proposed methods are easily implemented using the R statistical software package. Simulation studies demonstrate the utility of our approach in the competing risks setting. Data from the Radiation Therapy Oncology Group (trial 9410) is used to illustrate these new methods. | 翻訳日:2022-09-26 00:28:59 公開日:2020-11-13 |
# FastTrack: さまざまな変形可能なオブジェクトを追跡するオープンソースソフトウェア FastTrack: an open-source software for tracking varying numbers of deformable objects ( http://arxiv.org/abs/2011.06837v1 ) ライセンス: Link先を確認 | Benjamin Gallois and Rapha\"el Candelier | (参考訳) 移動体の動的特性を分析するには、記録から軌跡を抽出する必要がある。
幅広い長さのスケールにまたがる全く異なる生体・物理システムのための2次元映画データベースをコンパイルし,汎用,最適化,オープンソース,クロスプラットフォーム,インストールおよび使用の容易な,fasttrackと呼ばれる自己更新ソフトウェアを開発した。
興味のある領域における変形可能な物体の数の変化を処理でき、特に2次元での動物や細胞追跡に適している。
さらに,本研究では,少量のエラーに対して回復力があり,アドホックトラッキングに基づいて計算できるため,映画の追跡可能性の新たな尺度として,地中真実の軌跡の知識を必要としないことを紹介する。
また、fasttrackの汎用性と速度を利用して、ほぼ最適化されたトラッキングパラメーターのセットを決定する反復的アルゴリズム -- しかし人間の介入の量を更に削減する -- を実装し、fasttrackが追跡パラメータの空間を探索し、類似した映画のスワップ数を最適化するために使用できることを実証した。
ベンチマークによると、FastTrackは最先端のトラッキングアルゴリズムよりも桁違いに高速で、追跡精度は同等である。
ソースコードはgnu gplv3のhttps://github.com/fasttrackorg/fasttrackで利用可能であり、windows、mac、linux用のコンパイル済みバイナリはhttp://www.fasttrack.shで利用可能である。 Analyzing the dynamical properties of mobile objects requires to extract trajectories from recordings, which is often done by tracking movies. We compiled a database of two-dimensional movies for very different biological and physical systems spanning a wide range of length scales and developed a general-purpose, optimized, open-source, cross-platform, easy to install and use, self-updating software called FastTrack. It can handle a changing number of deformable objects in a region of interest, and is particularly suitable for animal and cell tracking in two-dimensions. Furthermore, we introduce the probability of incursions as a new measure of a movie's trackability that doesn't require the knowledge of ground truth trajectories, since it is resilient to small amounts of errors and can be computed on the basis of an ad hoc tracking. We also leveraged the versatility and speed of FastTrack to implement an iterative algorithm determining a set of nearly-optimized tracking parameters -- yet further reducing the amount of human intervention -- and demonstrate that FastTrack can be used to explore the space of tracking parameters to optimize the number of swaps for a batch of similar movies. A benchmark shows that FastTrack is orders of magnitude faster than state-of-the-art tracking algorithms, with a comparable tracking accuracy. The source code is available under the GNU GPLv3 at https://github.com/FastTrackOrg/FastTrack and pre-compiled binaries for Windows, Mac and Linux are available at http://www.fasttrack.sh. | 翻訳日:2022-09-26 00:28:25 公開日:2020-11-13 |
# 深層学習法に基づく転移性癌の画像分類 Metastatic Cancer Image Classification Based On Deep Learning Method ( http://arxiv.org/abs/2011.06984v1 ) ライセンス: Link先を確認 | Guanwen Qiu, Xiaobing Yu, Baolin Sun, Yunpeng Wang, Lipei Zhang | (参考訳) 病理組織像を用いて癌を自動的に分類することは、特に大きなデジタル病理検査から得られた小さな画像パッチにおいて、癌を正確に検出する上で難しい課題である。
コンピュータ診断技術は研究者から広く注目を集めている。
本稿では,画像分類における深層学習アルゴリズム,deepnet169フレームワーク,整流アダム最適化アルゴリズムを組み合わせたノバル法を提案する。
densenetの接続パターンは、任意の層からすべての連続した層への直接接続であり、異なる層間の情報フローを効果的に改善することができる。
RAdamは局所最適解に陥るのが簡単ではなく、モデルトレーニングで素早く収束する。
実験の結果,Vgg19,Resnet34,Resnet50など,従来の畳み込みニューラルネットワークのアプローチよりも優れた性能が得られた。
特に、DenseNet169モデルのAuc-RocスコアはVgg19モデルよりも1.77%高く、精度スコアは1.50%高い。
さらに, 学習段階および検証段階における損失値とバッチの関係について検討し, 重要かつ興味深い知見を得た。 Using histopathological images to automatically classify cancer is a difficult task for accurately detecting cancer, especially to identify metastatic cancer in small image patches obtained from larger digital pathology scans. Computer diagnosis technology has attracted wide attention from researchers. In this paper, we propose a noval method which combines the deep learning algorithm in image classification, the DenseNet169 framework and Rectified Adam optimization algorithm. The connectivity pattern of DenseNet is direct connections from any layer to all consecutive layers, which can effectively improve the information flow between different layers. With the fact that RAdam is not easy to fall into a local optimal solution, and it can converge quickly in model training. The experimental results shows that our model achieves superior performance over the other classical convolutional neural networks approaches, such as Vgg19, Resnet34, Resnet50. In particular, the Auc-Roc score of our DenseNet169 model is 1.77% higher than Vgg19 model, and the Accuracy score is 1.50% higher. Moreover, we also study the relationship between loss value and batches processed during the training stage and validation stage, and obtain some important and interesting findings. | 翻訳日:2022-09-26 00:27:33 公開日:2020-11-13 |
# グラフニューラルネットワークによる古文書の再構築 Using Graph Neural Networks to Reconstruct Ancient Documents ( http://arxiv.org/abs/2011.07048v1 ) ライセンス: Link先を確認 | Cecilia Ostertag, Marie Beurton-Aimar | (参考訳) 近年,機械学習や人工知能などのディープラーニングアプローチが,自動パズル解決問題の解決に人気を集めている。
実際、これらの手法は画像から高レベルな表現を抽出し、マッチングしない画像片を分離するように訓練することができる。
これらの応用は、部分的に回収された断片から古代文書を復元する問題と多くの類似点がある。
本稿では,ペアワイズパッチ情報を用いて,ペア間の空間的関係を表すエッジにラベルを割り当てる,グラフニューラルネットワークに基づくソリューションを提案する。
このネットワークは、ソースとターゲットパッチの関係を、アップ、ダウン、左、右、ノーンの1つに分類する。
すべてのエッジに対して行うことで、再構築提案を表す新しいグラフを出力します。
最後に,本モデルはエッジレベルで正確な分類を提供するだけでなく,パッチ群から部分的あるいは完全な再構築グラフを生成することができることを示した。 In recent years, machine learning and deep learning approaches such as artificial neural networks have gained in popularity for the resolution of automatic puzzle resolution problems. Indeed, these methods are able to extract high-level representations from images, and then can be trained to separate matching image pieces from non-matching ones. These applications have many similarities to the problem of ancient document reconstruction from partially recovered fragments. In this work we present a solution based on a Graph Neural Network, using pairwise patch information to assign labels to edges representing the spatial relationships between pairs. This network classifies the relationship between a source and a target patch as being one of Up, Down, Left, Right or None. By doing so for all edges, our model outputs a new graph representing a reconstruction proposal. Finally, we show that our model is not only able to provide correct classifications at the edge-level, but also to generate partial or full reconstruction graphs from a set of patches. | 翻訳日:2022-09-26 00:20:56 公開日:2020-11-13 |
# 画像認識のための並列アーキテクチャによる推論遅延の削減 Reducing Inference Latency with Concurrent Architectures for Image Recognition ( http://arxiv.org/abs/2011.07092v1 ) ライセンス: Link先を確認 | Ramyad Hadidi, Jiashen Cao, Michael S. Ryoo, Hyesoon Kim | (参考訳) 現代のディープラーニングアーキテクチャの計算能力の高い要求を満たすことは、推論遅延の低減には困難である。
現在のレイテンシ低減のアプローチは、レイヤ内の並列性のみを増加させる。
これは、アーキテクチャが通常、高い並行性(デバイス間での1つの推論の同時実行)で効率的な分散を防止する単一のチェーン依存性パターンをキャプチャするからである。
このような単一チェーンの依存関係は非常に広く、最近のneural architecture search(nas)研究に暗黙的に偏っている。
本稿では,nasのまったく新しい領域に注目し,単一チェーン依存性を緩和し,高並列性と分散の機会を提供する。
これらのアーキテクチャを定量的に比較するために,コミュニケーションや並行性,ロードバランシングといった重要な指標をカプセル化したスコアを提案する。
さらに,現在の最先端手法に比べて優れたアーキテクチャを一貫して提供する新しいジェネレータと変換ブロックを提案する。
最後に,これらの新しいアーキテクチャが推論遅延を低減し,より注目に値することを示す。 Satisfying the high computation demand of modern deep learning architectures is challenging for achieving low inference latency. The current approaches in decreasing latency only increase parallelism within a layer. This is because architectures typically capture a single-chain dependency pattern that prevents efficient distribution with a higher concurrency (i.e., simultaneous execution of one inference among devices). Such single-chain dependencies are so widespread that even implicitly biases recent neural architecture search (NAS) studies. In this visionary paper, we draw attention to an entirely new space of NAS that relaxes the single-chain dependency to provide higher concurrency and distribution opportunities. To quantitatively compare these architectures, we propose a score that encapsulates crucial metrics such as communication, concurrency, and load balancing. Additionally, we propose a new generator and transformation block that consistently deliver superior architectures compared to current state-of-the-art methods. Finally, our preliminary results show that these new architectures reduce the inference latency and deserve more attention. | 翻訳日:2022-09-26 00:20:43 公開日:2020-11-13 |
# 協調的文脈帯域を持つ計量自由個性 Metric-Free Individual Fairness with Cooperative Contextual Bandits ( http://arxiv.org/abs/2011.06738v1 ) ライセンス: Link先を確認 | Qian Hu, Huzefa Rangwala | (参考訳) データマイニングアルゴリズムは、日々の生活を横断する自動意思決定にますます利用されている。
残念なことに、いくつかの研究で報告されたように、これらのアルゴリズムはデータと環境からバイアスを注入し、不公平で不公平な解決策につながる。
機械学習におけるバイアスを軽減するため、グループフェアネスと個人フェアネスに分類できる様々なフェアネスの形式化が提案されている。
グループフェアネスは、グループ内の一部の個人に対して不公平であるように、異なるグループが同様に扱われるべきである。
一方、個々人の公平性は、同様の個人を同じように扱う必要がある。
しかし、個々の公平性は問題固有の類似度メトリクスに依存するため、未熟である。
本研究では,メトリックフリーな個人公平性と協調的コンテクストバンディット(ccb)アルゴリズムを提案する。
CCBアルゴリズムは公平性を報酬として利用し、最大化を試みる。
フェアネスを報酬として扱う利点は、フェアネス基準が差別化される必要はないことである。
提案アルゴリズムは複数の実世界のベンチマークデータセットで検証される。
その結果,提案アルゴリズムの有効性は,偏りを緩和し,個人と集団の公平性を両立させることができた。 Data mining algorithms are increasingly used in automated decision making across all walks of daily life. Unfortunately, as reported in several studies these algorithms inject bias from data and environment leading to inequitable and unfair solutions. To mitigate bias in machine learning, different formalizations of fairness have been proposed that can be categorized into group fairness and individual fairness. Group fairness requires that different groups should be treated similarly which might be unfair to some individuals within a group. On the other hand, individual fairness requires that similar individuals be treated similarly. However, individual fairness remains understudied due to its reliance on problem-specific similarity metrics. We propose a metric-free individual fairness and a cooperative contextual bandits (CCB) algorithm. The CCB algorithm utilizes fairness as a reward and attempts to maximize it. The advantage of treating fairness as a reward is that the fairness criterion does not need to be differentiable. The proposed algorithm is tested on multiple real-world benchmark datasets. The results show the effectiveness of the proposed algorithm at mitigating bias and at achieving both individual and group fairness. | 翻訳日:2022-09-26 00:20:14 公開日:2020-11-13 |
# Encoded Value-at-Risk: 金融リスク管理のための予測マシン Encoded Value-at-Risk: A Predictive Machine for Financial Risk Management ( http://arxiv.org/abs/2011.06742v1 ) ライセンス: Link先を確認 | Hamidreza Arian, Mehrdad Moghimi, Ehsan Tabatabaei, Shiva Zamani | (参考訳) リスク測定は、現代の金融リスク管理の中心にある。
世界経済が複雑化し、標準モデリングの前提が破られつつある中、先進的な人工知能ソリューションは、世界市場を分析するための適切なツールを提供するかもしれない。
本稿では,変分オートエンコーダ(VAE)と呼ばれる,ニューラルネットワークのタイプをベースとした,Encoded Value-at-Risk(Encoded VaR)と呼ばれる市場リスク測定手法を提案する。
エンコードされたVaRは、金融データに存在する信号と雑音の比率を増大させながら、歴史的株式リターンの範囲から市場シナリオを再現し、株式リターンの連立分布を仮定せずに市場の依存性構造を学ぶために使用できる生成モデルである。
符号化された var out-of-sample の結果を他の11の手法と比較し,本論文で提示された多くの既知の var アルゴリズムと競合することを示した。 Measuring risk is at the center of modern financial risk management. As the world economy is becoming more complex and standard modeling assumptions are violated, the advanced artificial intelligence solutions may provide the right tools to analyze the global market. In this paper, we provide a novel approach for measuring market risk called Encoded Value-at-Risk (Encoded VaR), which is based on a type of artificial neural network, called Variational Auto-encoders (VAEs). Encoded VaR is a generative model which can be used to reproduce market scenarios from a range of historical cross-sectional stock returns, while increasing the signal-to-noise ratio present in the financial data, and learning the dependency structure of the market without any assumptions about the joint distribution of stock returns. We compare Encoded VaR out-of-sample results with eleven other methods and show that it is competitive to many other well-known VaR algorithms presented in the literature. | 翻訳日:2022-09-26 00:20:00 公開日:2020-11-13 |
# 次元縮小データ表現の統合によるモデル共有のない連合学習システム Federated Learning System without Model Sharing through Integration of Dimensional Reduced Data Representations ( http://arxiv.org/abs/2011.06803v1 ) ライセンス: Link先を確認 | Anna Bogdanova, Akie Nakai, Yukihiko Okada, Akira Imakura, and Tetsuya Sakurai | (参考訳) 次元削減は、高次元データから重要な特徴を抽出するのに役立つ機械学習パイプラインでよく使われる要素である。
本研究では,教師付き学習タスクに先立って,分散データの次元性低減表現を統合可能とし,パーティ間のモデル共有を回避したフェデレーション学習システムについて検討する。
画像分類タスクにおけるこのアプローチの性能を、集中型機械学習、個別機械学習、フェデレーション平均化という3つの代替フレームワークと比較し、モデル共有を伴わないフェデレーション学習システムの潜在的なユースケースを分析した。
提案手法は,Federated Averagingと同等の精度で,小規模なユーザ環境でのFederated Averagingよりも優れていることを示す。 Dimensionality Reduction is a commonly used element in a machine learning pipeline that helps to extract important features from high-dimensional data. In this work, we explore an alternative federated learning system that enables integration of dimensionality reduced representations of distributed data prior to a supervised learning task, thus avoiding model sharing among the parties. We compare the performance of this approach on image classification tasks to three alternative frameworks: centralized machine learning, individual machine learning, and Federated Averaging, and analyze potential use cases for a federated learning system without model sharing. Our results show that our approach can achieve similar accuracy as Federated Averaging and performs better than Federated Averaging in a small-user setting. | 翻訳日:2022-09-26 00:19:22 公開日:2020-11-13 |
# うるさい群衆から教師付き機械学習モデルへのエンド・ツー・エンド学習 End-to-End Learning from Noisy Crowd to Supervised Machine Learning Models ( http://arxiv.org/abs/2011.06833v1 ) ライセンス: Link先を確認 | Taraneh Younesian, Chi Hong, Amirmasoud Ghiassi, Robert Birke, Lydia Y. Chen | (参考訳) リアルタイムデータセットのラベリングは時間を要するが、教師あり機械学習モデルには不可欠である。
一般的な解決策は、クラウドソーシングを通じて多数の非専門家にラベル付けタスクを配布することだ。
群衆労働者の背景や経験の相違から,得られたラベルは誤りが多く,学習モデルにも有害である。
本稿では,ディープモデルと人間専門家を組み合わせたハイブリッドインテリジェンスを用いて,特にオンラインシナリオにおいて,ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計する。
まず,非熟練者からのノイズの多いラベルの課題に対処し,複数の注釈者から学ぶ最先端のソリューションを要約する。
ラベルアグリゲーションは、アノテーションの混乱行列を推定して学習プロセスを改善するのにどのように役立つかを示す。
さらに,専門家のラベラーや分類器の助けを借りて,高度に有意なサンプルの集計ラベルをクリーン化し,最終的な分類精度を向上させる。
SVMとディープニューラルネットワークを用いて,UCIとCIFAR-10という画像データセット上での戦略の有効性を示す。
評価の結果,混乱行列推定によるオンラインラベルアグリゲーションはラベルの誤差率を30%以上減少させることがわかった。
さらに、SVMで90%以上の分類精度が得られるのは、専門家の結果によるデータの10%のみである。 Labeling real-world datasets is time consuming but indispensable for supervised machine learning models. A common solution is to distribute the labeling task across a large number of non-expert workers via crowd-sourcing. Due to the varying background and experience of crowd workers, the obtained labels are highly prone to errors and even detrimental to the learning models. In this paper, we advocate using hybrid intelligence, i.e., combining deep models and human experts, to design an end-to-end learning framework from noisy crowd-sourced data, especially in an on-line scenario. We first summarize the state-of-the-art solutions that address the challenges of noisy labels from non-expert crowd and learn from multiple annotators. We show how label aggregation can benefit from estimating the annotators' confusion matrices to improve the learning process. Moreover, with the help of an expert labeler as well as classifiers, we cleanse aggregated labels of highly informative samples to enhance the final classification accuracy. We demonstrate the effectiveness of our strategies on several image datasets, i.e. UCI and CIFAR-10, using SVM and deep neural networks. Our evaluation shows that our on-line label aggregation with confusion matrix estimation reduces the error rate of labels by over 30%. Furthermore, relabeling only 10% of the data using the expert's results in over 90% classification accuracy with SVM. | 翻訳日:2022-09-26 00:19:09 公開日:2020-11-13 |
# $l_0$-norm正規化最小二乗問題に対するホモトピー座標Descent Optimization法 A Homotopy Coordinate Descent Optimization Method for $l_0$-Norm Regularized Least Square Problem ( http://arxiv.org/abs/2011.06841v1 ) ライセンス: Link先を確認 | Zhenzhen Sun and Yuanlong Yu | (参考訳) 本稿では, ホモトピー法と座標降下法を併用した, 圧縮センシングのための最小二乗法 (l_0$-norm regularized least square)(l_0$-LS) 問題を解決するホモトピー座標降下法を提案する。
古典的な座標降下アルゴリズムとは異なり、hcdは収束を早めるための3つの戦略を提供している:ウォームスタート初期化、アクティブセット更新、アクティブセット初期化のための強いルール。
活性集合は強い規則で事前選択され、活性集合の座標は更新され、非活性集合の座標は変化しない。
ホモトピー戦略(homotopy strategy)は、ホモトピー解経路に沿った全てのイテレーションがスパースであることを保証する正規化因子の値の列のウォームスタート初期解のセットを提供する。
シミュレーション信号と自然信号の計算実験は, 提案アルゴリズムの有効性を示し, 観測がノイズであるか否かに関わらず, $l_0$-LS問題のスパース解を精度よく, 効率的に再構成する。 This paper proposes a homotopy coordinate descent (HCD) method to solve the $l_0$-norm regularized least square ($l_0$-LS) problem for compressed sensing, which combine the homotopy technique with a variant of coordinate descent method. Differs from the classical coordinate descent algorithms, HCD provides three strategies to speed up the convergence: warm start initialization, active set updating, and strong rule for active set initialization. The active set is pre-selected using a strong rule, then the coordinates of the active set are updated while those of inactive set are unchanged. The homotopy strategy provides a set of warm start initial solutions for a sequence of decreasing values of the regularization factor, which ensures all iterations along the homotopy solution path are sparse. Computational experiments on simulate signals and natural signals demonstrate effectiveness of the proposed algorithm, in accurately and efficiently reconstructing sparse solutions of the $l_0$-LS problem, whether the observation is noisy or not. | 翻訳日:2022-09-26 00:18:48 公開日:2020-11-13 |
# マルチオブジェクト追跡のための効率的なデータアソシエーションと不確かさの定量化 Efficient Data Association and Uncertainty Quantification for Multi-Object Tracking ( http://arxiv.org/abs/2011.07101v1 ) ライセンス: Link先を確認 | David S. Hayden, Sue Zheng, John W. Fisher III | (参考訳) ロバスト・データ・アソシエーションは複雑なシーンにおける長期運動軌跡の分析に重要である。
その場合、軌道精度は運動学的曖昧性の期間によって低下し、追従分析の品質が低下する。
共通の最適化に基づくアプローチは、しばしばこれらのイベントから生じる不確実性定量化を無視する。
その結果,結合や軌跡の後方に頑健な理由を持つベイズ多目的追跡アルゴリズムであるJPT(Joint Posterior Tracker)を提案する。
置換に基づく新しい提案は、プラプシブルな関連仮説に対応する後続モードの探索のために作られた。
jptは、既存のベースラインと比較して、標準メトリクスのパフォーマンスが優れたデータアソシエーションのより正確な不確実性表現を示す。
また, 軌道品質向上のためのユーザ・イン・ザ・ループアノテーションの自動スケジューリングに応用したJPTの有用性を示す。 Robust data association is critical for analysis of long-term motion trajectories in complex scenes. In its absence, trajectory precision suffers due to periods of kinematic ambiguity degrading the quality of follow-on analysis. Common optimization-based approaches often neglect uncertainty quantification arising from these events. Consequently, we propose the Joint Posterior Tracker (JPT), a Bayesian multi-object tracking algorithm that robustly reasons over the posterior of associations and trajectories. Novel, permutation-based proposals are crafted for exploration of posterior modes that correspond to plausible association hypotheses. JPT exhibits more accurate uncertainty representation of data associations with superior performance on standard metrics when compared to existing baselines. We also show the utility of JPT applied to automatic scheduling of user-in-the-loop annotations for improved trajectory quality. | 翻訳日:2022-09-26 00:18:29 公開日:2020-11-13 |
# 深層人工ニューロンによる連続学習 Continual Learning with Deep Artificial Neurons ( http://arxiv.org/abs/2011.07035v1 ) ライセンス: Link先を確認 | Blake Camp, Jaya Krishna Mandivarapu, Rolando Estrada | (参考訳) 実際の脳内のニューロンは、非常に複雑な計算単位である。
その中には、インバウンド電気化学ベクトルをアウトバウンド作用電位に変換し、中間シナプスの強度を更新し、内部状態を調節し、他のニューロンの行動を調節する役割があります。
これらの細胞は、真の知性を示す唯一のものであると主張することができる。
したがって、機械学習コミュニティが長い間、この複雑さを単純な和と火の操作に還元できるという仮定に依存してきたのは奇妙である。
我々は、人工システムにおいて個々のニューロンの計算能力を大幅に向上させる利点があるだろうか?
この質問に答えるために、ディープニューラルネットワークとして実現される深層人工ニューロン(deep artificial neurons:dans)を紹介します。
概念的には、従来のニューラルネットワークの各ノードにDANを埋め込み、これらのニューロンを複数のシナプス部位に接続することで、セル間の接続をベクトル化する。
ネットワーク内のすべてのDANが共有する神経表現型をダブする単一パラメータベクトルをメタ学習することで,展開中のメタオブジェクトを容易にすることができることを示す。
ここでは, 連続学習をメタオブジェクトとして分離し, 適切な神経表現型が, 最小限の記憶, 標準のバックプロパゲーション, 経験的再生, 覚醒/睡眠段階の分離を伴わずに, シナプスを更新する能力を持った単一ネットワークを構築可能であることを示す。
逐次非線形回帰タスクでこの能力を実証する。 Neurons in real brains are enormously complex computational units. Among other things, they're responsible for transforming inbound electro-chemical vectors into outbound action potentials, updating the strengths of intermediate synapses, regulating their own internal states, and modulating the behavior of other nearby neurons. One could argue that these cells are the only things exhibiting any semblance of real intelligence. It is odd, therefore, that the machine learning community has, for so long, relied upon the assumption that this complexity can be reduced to a simple sum and fire operation. We ask, might there be some benefit to substantially increasing the computational power of individual neurons in artificial systems? To answer this question, we introduce Deep Artificial Neurons (DANs), which are themselves realized as deep neural networks. Conceptually, we embed DANs inside each node of a traditional neural network, and we connect these neurons at multiple synaptic sites, thereby vectorizing the connections between pairs of cells. We demonstrate that it is possible to meta-learn a single parameter vector, which we dub a neuronal phenotype, shared by all DANs in the network, which facilitates a meta-objective during deployment. Here, we isolate continual learning as our meta-objective, and we show that a suitable neuronal phenotype can endow a single network with an innate ability to update its synapses with minimal forgetting, using standard backpropagation, without experience replay, nor separate wake/sleep phases. We demonstrate this ability on sequential non-linear regression tasks. | 翻訳日:2022-09-26 00:12:06 公開日:2020-11-13 |
# 遺伝的アルゴリズムを用いた複雑系解析のための回帰モデルの構築 Formation of Regression Model for Analysis of Complex Systems Using Methodology of Genetic Algorithms ( http://arxiv.org/abs/2011.15027v1 ) ライセンス: Link先を確認 | Anatolii V. Mokshin, Vladimir V. Mokshin and Diana A. Mirziyarova | (参考訳) 本研究では,異なる時間依存因子の集合を特徴とする任意の複雑系の進化を解析するためのアプローチを提案する。
これらの要因の鍵となる要件は、それらがシステムに関する情報を含まなければならないことであり、複雑なシステムの性質(物理的、生物学的、社会的、経済的など)が何であるかは一切重要ではない。
提案手法の枠組み内では、研究対象の複素系におけるこれらの因子間の関係を表現する非線形回帰モデル探索の問題が解決される。
この問題は \emph{genetic (evolutionary") アルゴリズムの方法論を用いて解決できることが示される。
結果として得られた回帰モデルにより、考慮されるシステムの最も可能性の高い進化を予測でき、また、いくつかの要因の重要性を決定でき、したがって、このシステムによって推進されるいくつかの推奨を定式化することができる。
提案した理論的アプローチは,中学校の「物理」分野における教育過程を特徴付けるデータ(情報)を分析し,その分野における学力向上戦略の開発に有効であることを示す。 This study presents the approach to analyzing the evolution of an arbitrary complex system whose behavior is characterized by a set of different time-dependent factors. The key requirement for these factors is only that they must contain an information about the system; it does not matter at all what the nature (physical, biological, social, economic, etc.) of a complex system is. Within the framework of the presented theoretical approach, the problem of searching for non-linear regression models that express the relationship between these factors for a complex system under study is solved. It will be shown that this problem can be solved using the methodology of \emph{genetic (evolutionary)} algorithms. The resulting regression models make it possible to predict the most probable evolution of the considered system, as well as to determine the significance of some factors and, thereby, to formulate some recommendations to drive by this system. It will be shown that the presented theoretical approach can be used to analyze the data (information) characterizing the educational process in the discipline "Physics" in the secondary school, and to develop the strategies for improving academic performance in this discipline. | 翻訳日:2022-09-26 00:11:40 公開日:2020-11-13 |
# 注意的補助機能学習による軽量単一画像超解像ネットワーク Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning ( http://arxiv.org/abs/2011.06773v1 ) ライセンス: Link先を確認 | Xuehui Wang, Qing Wang, Yuzhi Zhao, Junchi Yan, Lei Fan, Long Chen | (参考訳) 畳み込みネットワークベースの手法はシングルイメージ・スーパーレゾリューション(sisr)の性能を向上させたが、膨大な計算コストは実用的適用性を制限した。
本稿では,SISR の注意補助機能 (A$^2$F) に基づく計算効率のよい高精度なネットワークを構築する。
まず、下層からの特徴を探索するために、すべての前の層からの補助的な特徴を共通の空間に投影する。
次に、これらの投影された補助機能をうまく活用し、冗長な情報をフィルタリングするために、現在の層特徴に基づいて最も重要な共通特徴を選択するためにチャンネル注意が用いられる。
これら2つのモジュールをブロックに組み込んで,軽量ネットワークで実装します。
大規模データセットにおける実験結果から,sr法に対する提案モデルの有効性が示された。
特に、パラメータが320k未満の場合、A$^2$Fは全てのスケールでSOTA法より優れており、補助的特徴をより有効活用できることを示す。
コードはhttps://github.com/wxxxxxxh/a2f-srで入手できる。 Despite convolutional network-based methods have boosted the performance of single image super-resolution (SISR), the huge computation costs restrict their practical applicability. In this paper, we develop a computation efficient yet accurate network based on the proposed attentive auxiliary features (A$^2$F) for SISR. Firstly, to explore the features from the bottom layers, the auxiliary feature from all the previous layers are projected into a common space. Then, to better utilize these projected auxiliary features and filter the redundant information, the channel attention is employed to select the most important common feature based on current layer feature. We incorporate these two modules into a block and implement it with a lightweight network. Experimental results on large-scale dataset demonstrate the effectiveness of the proposed model against the state-of-the-art (SOTA) SR methods. Notably, when parameters are less than 320k, A$^2$F outperforms SOTA methods for all scales, which proves its ability to better utilize the auxiliary features. Codes are available at https://github.com/wxxxxxxh/A2F-SR. | 翻訳日:2022-09-26 00:10:54 公開日:2020-11-13 |
# 車両再同定のための時空間手がかりを用いた識別的特徴表現 Discriminative Feature Representation with Spatio-temporal Cues for Vehicle Re-identification ( http://arxiv.org/abs/2011.06852v1 ) ライセンス: Link先を確認 | J. Tu, C. Chen, X. Huang, J. He and X. Guan | (参考訳) 車両再識別(re-id)は、異なるカメラが様々な道路網で撮影したギャラリー画像からターゲット車両を発見し、一致させることを目的としている。
セキュリティ監視やトラフィック管理といった多くのアプリケーションにとって、これは重要です。
異なる車両の著しく類似した外観と視点と照明条件の著しい変化は、車両の再識別に大きな困難を伴います。
従来のソリューションは、異なる画像における車両の空間的関係を十分に考慮せずに、グローバルな視覚的外観を設計することに焦点を当てている。
本稿では,車両再IDのための時空間手がかり(DFR-ST)を用いた新しい識別特徴表現を提案する。
外観と時空間情報を含むことで、埋め込み空間に堅牢な特徴を構築することができる。
このマルチモーダル情報に基づいて,提案するdfr-stは,2ストリームアーキテクチャによる多眼視覚表現の出現モデルと時空間メトリックを構築し,補完的情報を提供する。
2つの公開データセットにおける実験結果は、dfr-stが最先端の手法よりも優れており、提案手法の有効性を検証している。 Vehicle re-identification (re-ID) aims to discover and match the target vehicles from a gallery image set taken by different cameras on a wide range of road networks. It is crucial for lots of applications such as security surveillance and traffic management. The remarkably similar appearances of distinct vehicles and the significant changes of viewpoints and illumination conditions take grand challenges to vehicle re-ID. Conventional solutions focus on designing global visual appearances without sufficient consideration of vehicles' spatiotamporal relationships in different images. In this paper, we propose a novel discriminative feature representation with spatiotemporal clues (DFR-ST) for vehicle re-ID. It is capable of building robust features in the embedding space by involving appearance and spatio-temporal information. Based on this multi-modal information, the proposed DFR-ST constructs an appearance model for a multi-grained visual representation by a two-stream architecture and a spatio-temporal metric to provide complementary information. Experimental results on two public datasets demonstrate DFR-ST outperforms the state-of-the-art methods, which validate the effectiveness of the proposed method. | 翻訳日:2022-09-26 00:10:28 公開日:2020-11-13 |
# Transformer-Encoder Detector Module: コンテキストを用いてオブジェクト検出における対向攻撃に対するロバスト性を改善する Transformer-Encoder Detector Module: Using Context to Improve Robustness to Adversarial Attacks on Object Detection ( http://arxiv.org/abs/2011.06978v1 ) ライセンス: Link先を確認 | Faisal Alamri, Sinan Kalkan and Nicolas Pugeault | (参考訳) ディープニューラルネットワークアプローチは、物体認識(CNN)と検出(Faster-RCNN)タスクにおいて高いパフォーマンスを示しているが、そのようなアーキテクチャは敵攻撃(FFF、UAP)に弱いことが実験によって示されている。
本稿では,オブジェクト検出器に適用可能な,textit{Transformer-Encoder Detector Module}と呼ばれる新しいコンテキストモジュールを提案する。
(i)オブジェクトインスタンスのラベル付けを改善し、
(II)敵攻撃に対する検出器の堅牢性を改善する。
提案モデルでは,FFF や UAP 攻撃を受けた画像に対して,シーンから抽出した文脈的特徴と視覚的特徴の両方を包含して,mAP スコアを最大 13 % 高め,mAP スコアを最大 8 ポイント高めとした。
その結果、単純なアドホックなコンテキストモジュールがオブジェクト検出器の信頼性を大幅に向上できることが示される。 Deep neural network approaches have demonstrated high performance in object recognition (CNN) and detection (Faster-RCNN) tasks, but experiments have shown that such architectures are vulnerable to adversarial attacks (FFF, UAP): low amplitude perturbations, barely perceptible by the human eye, can lead to a drastic reduction in labeling performance. This article proposes a new context module, called \textit{Transformer-Encoder Detector Module}, that can be applied to an object detector to (i) improve the labeling of object instances; and (ii) improve the detector's robustness to adversarial attacks. The proposed model achieves higher mAP, F1 scores and AUC average score of up to 13\% compared to the baseline Faster-RCNN detector, and an mAP score 8 points higher on images subjected to FFF or UAP attacks due to the inclusion of both contextual and visual features extracted from scene and encoded into the model. The result demonstrates that a simple ad-hoc context module can improve the reliability of object detectors significantly. | 翻訳日:2022-09-26 00:09:50 公開日:2020-11-13 |
# 機械読解のための教師なし説明生成 Unsupervised Explanation Generation for Machine Reading Comprehension ( http://arxiv.org/abs/2011.06737v1 ) ライセンス: Link先を確認 | Yiming Cui, Ting Liu, Shijin Wang, Guoping Hu | (参考訳) 様々な事前学習言語モデル (PLM) の出現に伴い、Machine Reading Comprehension (MRC) は様々なベンチマークで大幅に改善され、人間のパフォーマンスを超えている。
しかし、既存の研究は最終予測の精度のみを目標としており、予測のための説明の重要性を無視している。
本稿では,機械読解作業のための自己説明可能なフレームワークを提案する。
提案システムでは,提案システムでは,全経路を用いたシステムと比較して,通過情報が少なく,同様の結果が得られようとするが,フィルタされたパスは説明として使用される。
提案手法は, 3つのMRCデータセットに対して実験を行い, ベースラインシステムよりも一貫した改善が得られた。
説明可能性を評価するために,提案手法を従来の人間評価における注意機構と比較し,提案手法が後者よりも有意なアドバンテージがあることを見出した。 With the blooming of various Pre-trained Language Models (PLMs), Machine Reading Comprehension (MRC) has embraced significant improvements on various benchmarks and even surpass human performances. However, the existing works only target on the accuracy of the final predictions and neglect the importance of the explanations for the prediction, which is a big obstacle when utilizing these models in real-life applications to convince humans. In this paper, we propose a self-explainable framework for the machine reading comprehension task. The main idea is that the proposed system tries to use less passage information and achieve similar results compared to the system that uses the whole passage, while the filtered passage will be used as explanations. We carried out experiments on three multiple-choice MRC datasets, and found that the proposed system could achieve consistent improvements over baseline systems. To evaluate the explainability, we compared our approach with the traditional attention mechanism in human evaluations and found that the proposed system has a notable advantage over the latter one. | 翻訳日:2022-09-26 00:03:10 公開日:2020-11-13 |
# マルチタスク学習を用いた対話処理のための再フレーミングインクリメンタル言語モデル Re-framing Incremental Deep Language Models for Dialogue Processing with Multi-task Learning ( http://arxiv.org/abs/2011.06754v1 ) ライセンス: Link先を確認 | Morteza Rohanian, Julian Hough | (参考訳) 本稿では,分散検出,言語モデリング,パート・オブ・スパイチ・タギング,発話セグメンテーションという4つのタスクを,単純なディープ・リカレント設定で1つの普遍的なインクリメンタル対話処理モデルのトレーニングを可能にするマルチタスク学習フレームワークを提案する。
これらのタスクは、タスクからのノイズの重大度に依存する各タスクの最適貢献により、互いに正の帰納バイアスを与えることを示す。
私たちのライブマルチタスクモデルは、同様の個々のタスクよりも優れ、競争力のあるパフォーマンスをもたらし、精神科治療における会話エージェントの将来の使用に有益です。 We present a multi-task learning framework to enable the training of one universal incremental dialogue processing model with four tasks of disfluency detection, language modelling, part-of-speech tagging, and utterance segmentation in a simple deep recurrent setting. We show that these tasks provide positive inductive biases to each other with the optimal contribution of each one relying on the severity of the noise from the task. Our live multi-task model outperforms similar individual tasks, delivers competitive performance, and is beneficial for future use in conversational agents in psychiatric treatment. | 翻訳日:2022-09-26 00:02:54 公開日:2020-11-13 |
# 教員-学生チャットルームコーパス The Teacher-Student Chatroom Corpus ( http://arxiv.org/abs/2011.07109v1 ) ライセンス: Link先を確認 | Andrew Caines and Helen Yannakoudakis and Helena Edmondson and Helen Allen and Pascual P\'erez-Paredes and Bill Byrne and Paula Buttery | (参考訳) Teacher-Student Chatroom Corpus (TSCC) は、教師と英語の学習者との1対1の授業で得られた会話の集合体である。
このレッスンはオンラインチャットルームで行われ、電子メール通信などの非同期交換で見られるものよりもインタラクティブで即時かつ非公式な言語を含んでいる。
授業が1対1であることは、教師が生徒の言語能力と誤りにのみ焦点を合わせ、個人化された演習、足場、矯正を行うことができたことを意味する。
TSCCには2人の教師と8人の学生の間で100以上のレッスンがあり、13.5Kの会話のターンと133Kの単語が提供されている。
テキストに追加されたコーパス設計、データ収集手順、アノテーションについて述べる。
本稿では,データの事前記述分析を行い,TSCCの利用の可能性を検討する。 The Teacher-Student Chatroom Corpus (TSCC) is a collection of written conversations captured during one-to-one lessons between teachers and learners of English. The lessons took place in an online chatroom and therefore involve more interactive, immediate and informal language than might be found in asynchronous exchanges such as email correspondence. The fact that the lessons were one-to-one means that the teacher was able to focus exclusively on the linguistic abilities and errors of the student, and to offer personalised exercises, scaffolding and correction. The TSCC contains more than one hundred lessons between two teachers and eight students, amounting to 13.5K conversational turns and 133K words: it is freely available for research use. We describe the corpus design, data collection procedure and annotations added to the text. We perform some preliminary descriptive analyses of the data and consider possible uses of the TSCC. | 翻訳日:2022-09-26 00:01:45 公開日:2020-11-13 |
# iirc: 理解質問を読み取る不完全な情報のデータセット IIRC: A Dataset of Incomplete Information Reading Comprehension Questions ( http://arxiv.org/abs/2011.07127v1 ) ライセンス: Link先を確認 | James Ferguson, Matt Gardner, Hannaneh Hajishirzi, Tushar Khot, Pradeep Dasigi | (参考訳) 人間はしばしば、情報ニーズに対応するために複数の文書を読まなければならない。
しかし、既存の読解理解(RC)タスクの多くは、文脈がそれらに答えるために必要な全ての情報を提供する質問にのみ焦点を合わせており、十分な情報の欠如やその情報の情報源の特定に関するシステムの性能評価は行っていない。
このギャップを埋めるために,1つ以上のリンクされた文書に欠落した情報を含む部分的な情報のみを提供する,英語wikipediaの段落に1万5千以上の質問を含むデータセット,iircを提案する。
質問は、リンクされた文書にアクセスできない群衆労働者によって書かれており、回答が現れるコンテキストとほとんど語彙的に重複しない質問につながった。
このプロセスはまた、答えのない多くの質問をし、個別の推論を必要とする質問はタスクの難しさを増した。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従い、このタスクで31.1%のF1を達成し、人間のパフォーマンスは88.4%と見積もられている。
データセット、ベースラインシステムのコード、およびリーダーボードはhttps://allennlp.org/iirc.org.com/で見ることができる。 Humans often have to read multiple documents to address their information needs. However, most existing reading comprehension (RC) tasks only focus on questions for which the contexts provide all the information required to answer them, thus not evaluating a system's performance at identifying a potential lack of sufficient information and locating sources for that information. To fill this gap, we present a dataset, IIRC, with more than 13K questions over paragraphs from English Wikipedia that provide only partial information to answer them, with the missing information occurring in one or more linked documents. The questions were written by crowd workers who did not have access to any of the linked documents, leading to questions that have little lexical overlap with the contexts where the answers appear. This process also gave many questions without answers, and those that require discrete reasoning, increasing the difficulty of the task. We follow recent modeling work on various reading comprehension datasets to construct a baseline model for this dataset, finding that it achieves 31.1% F1 on this task, while estimated human performance is 88.4%. The dataset, code for the baseline system, and a leaderboard can be found at https://allennlp.org/iirc. | 翻訳日:2022-09-26 00:01:30 公開日:2020-11-13 |
# 事前学習だけの言語モデルではない:高速なオンライン神経雑音チャネルモデリング Language Models not just for Pre-training: Fast Online Neural Noisy Channel Modeling ( http://arxiv.org/abs/2011.07164v1 ) ライセンス: Link先を確認 | Shruti Bhosale, Kyra Yee, Sergey Edunov, Michael Auli | (参考訳) 大量のラベルのないデータの事前学習モデルは、多くのNLPタスクの精度向上に有効なアプローチとして現れている。
一方で、従来の機械翻訳は、ノイズの多いチャネルモデリングを通じてラベルのないデータを活用する長い歴史がある。
同じ考えが最近示され、ニューラルマシン翻訳の強力な改善が達成された。
残念なことに、現代のシーケンスからシーケンスモデルへのノイズの多いチャネルモデリングは、選択肢よりも桁違い遅い。
本稿では,ノイズチャネルアプローチによる推定を,精度を高めつつ,高速に行うための効率的な近似手法を導入することで,この問題に対処した。
また,WMTルーマニア語-英語翻訳における新たな手法の達成により,ノイズチャネルアプローチは,事前学習結果よりも優れていることを示す。 Pre-training models on vast quantities of unlabeled data has emerged as an effective approach to improving accuracy on many NLP tasks. On the other hand, traditional machine translation has a long history of leveraging unlabeled data through noisy channel modeling. The same idea has recently been shown to achieve strong improvements for neural machine translation. Unfortunately, na\"{i}ve noisy channel modeling with modern sequence to sequence models is up to an order of magnitude slower than alternatives. We address this issue by introducing efficient approximations to make inference with the noisy channel approach as fast as strong ensembles while increasing accuracy. We also show that the noisy channel approach can outperform strong pre-training results by achieving a new state of the art on WMT Romanian-English translation. | 翻訳日:2022-09-26 00:01:03 公開日:2020-11-13 |
# 空間集合型生成逆ニューラルネットワークを用いた高速でスケーラブルな地球テクスチャ合成 Fast and Scalable Earth Texture Synthesis using Spatially Assembled Generative Adversarial Neural Networks ( http://arxiv.org/abs/2011.06776v1 ) ライセンス: Link先を確認 | Sung Eun Kim, Hongkyu Yoon, and Jonghyun Lee | (参考訳) 複雑な形態幾何学とシェール岩や炭酸塩岩などの組成を持つ地球テクスチャは、費用がかかり、時間を要するキャラクタリゼーションプロセスのため、粗野のサンプルで特徴づけられる。
そこで, 計算コストの低い地形構造で任意の大きさの地質テクスチャを生成することが, 現実的な地盤復元の重要な課題となっている。
近年,gans(generative adversarial neural networks)は,入力テクスチャ画像の合成と等価なジオマテリアル画像の作成の可能性を実証している。
しかし、GANsフレームワークによるテクスチャ合成は、しばしば、出力テクスチャサイズの計算コストとスケーラビリティによって制限される。
本研究では,トレーニング画像のサイズに関わらず任意の大きさの出力画像を計算効率良く生成できる空間的に構成したgan(sagans)を提案する。
また,地球テクスチャの地球統計学的再構成に広く用いられている2次元および3次元の岩石試料を用いて,sagansの性能評価を行った。
そこで本研究では,sagansがトレーニング画像に類似した接続性や構造的特性を持つ統計的実現を任意に生成し,単一のトレーニング画像上でも様々な実現を生成できることを実証する。
さらに、標準のGANフレームワークに比べて計算時間が大幅に改善された。 The earth texture with complex morphological geometry and compositions such as shale and carbonate rocks, is typically characterized with sparse field samples because of an expensive and time-consuming characterization process. Accordingly, generating arbitrary large size of the geological texture with similar topological structures at a low computation cost has become one of the key tasks for realistic geomaterial reconstruction. Recently, generative adversarial neural networks (GANs) have demonstrated a potential of synthesizing input textural images and creating equiprobable geomaterial images. However, the texture synthesis with the GANs framework is often limited by the computational cost and scalability of the output texture size. In this study, we proposed a spatially assembled GANs (SAGANs) that can generate output images of an arbitrary large size regardless of the size of training images with computational efficiency. The performance of the SAGANs was evaluated with two and three dimensional (2D and 3D) rock image samples widely used in geostatistical reconstruction of the earth texture. We demonstrate SAGANs can generate the arbitrary large size of statistical realizations with connectivity and structural properties similar to training images, and also can generate a variety of realizations even on a single training image. In addition, the computational time was significantly improved compared to standard GANs frameworks. | 翻訳日:2022-09-25 23:55:23 公開日:2020-11-13 |
# 実映像からの近似状態推定による物体操作スキルの学習 Learning Object Manipulation Skills via Approximate State Estimation from Real Videos ( http://arxiv.org/abs/2011.06813v1 ) ライセンス: Link先を確認 | Vladim\'ir Petr\'ik, Makarand Tapaswi, Ivan Laptev, Josef Sivic | (参考訳) 人間は、いくつかの指導ビデオを見て新しいタスクを学ぶのが得意です。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
2次元視覚認識と微分可能レンダリングの最近の進歩を活かし,手と操作対象の粗い3次元状態表現を,何の監督も必要とせずに推定する最適化手法を開発した。
我々はこれらの特徴を強化学習を通じて模倣することを学ぶエージェントに対する密接な報酬として利用する。
提案手法は,何かのデータセットから単目的および2目的の単純なアクションで評価する。
このアプローチにより、エージェントは単一のビデオからアクションを学ぶことができ、同時に複数のデモを見ることでポリシーをより堅牢にする。
シミュレーション環境で学習したポリシーは、実際のロボットに容易に移行できることを示す。 Humans are adept at learning new tasks by watching a few instructional videos. On the other hand, robots that learn new actions either require a lot of effort through trial and error, or use expert demonstrations that are challenging to obtain. In this paper, we explore a method that facilitates learning object manipulation skills directly from videos. Leveraging recent advances in 2D visual recognition and differentiable rendering, we develop an optimization based method to estimate a coarse 3D state representation for the hand and the manipulated object(s) without requiring any supervision. We use these trajectories as dense rewards for an agent that learns to mimic them through reinforcement learning. We evaluate our method on simple single- and two-object actions from the Something-Something dataset. Our approach allows an agent to learn actions from single videos, while watching multiple demonstrations makes the policy more robust. We show that policies learned in a simulated environment can be easily transferred to a real robot. | 翻訳日:2022-09-25 23:55:03 公開日:2020-11-13 |
# 伝達学習を用いた超音波による動脈, 静脈, 靭帯, 神経のマルチクラス分節化に関する一検討 A Study of Domain Generalization on Ultrasound-based Multi-Class Segmentation of Arteries, Veins, Ligaments, and Nerves Using Transfer Learning ( http://arxiv.org/abs/2011.07019v1 ) ライセンス: Link先を確認 | Edward Chen and Tejas Sudharshan Mathai and Vinit Sarode and Howie Choset and John Galeotti | (参考訳) 超音波によるガイド下カテーテル挿入には, 大腿骨領域のランドマークの同定が不可欠であり, 異なるスキャナーで画像化する際には, 表示が変化する。
このように、過去の深層学習に基づくアプローチの性能も訓練データ分布に限られており、これはモデル全体または一部を微調整することで回避できるが、微調整の効果はほとんど議論されない。
本研究では, モデル内の複数の連続ブロックを微調整し, 異なるスキャナや設定から得られた複数のUSデータに基づいて, 複数クラスの米国版セグメンテーションについて検討する。
本稿では,未知のデータセットの一般化を予測し,ドメインの一般化に向けて作業しながら,微調整手法間の統計的に有意な差を観測する簡単な手法を提案する。 Identifying landmarks in the femoral area is crucial for ultrasound (US) -based robot-guided catheter insertion, and their presentation varies when imaged with different scanners. As such, the performance of past deep learning-based approaches is also narrowly limited to the training data distribution; this can be circumvented by fine-tuning all or part of the model, yet the effects of fine-tuning are seldom discussed. In this work, we study the US-based segmentation of multiple classes through transfer learning by fine-tuning different contiguous blocks within the model, and evaluating on a gamut of US data from different scanners and settings. We propose a simple method for predicting generalization on unseen datasets and observe statistically significant differences between the fine-tuning methods while working towards domain generalization. | 翻訳日:2022-09-25 23:54:15 公開日:2020-11-13 |
# REPAC:脳ネットワークにおける位相振幅結合の信頼性評価 REPAC: Reliable estimation of phase-amplitude coupling in brain networks ( http://arxiv.org/abs/2011.06878v1 ) ライセンス: Link先を確認 | Giulia Cisotto | (参考訳) 近年のエビデンスでは、交叉周波数結合、特に位相振幅結合(pac)が、脳が様々な高レベルの認知・感覚機能を達成するための重要な戦略であることが示されている。
しかし、PACの復号化は依然として難しい。
このコントリビューションは、EEG信号のPACイベントのモデリングと検出のための信頼性が高く堅牢なアルゴリズムであるREPACを提供する。
まず,PAC様脳波信号の合成,特にPACを特徴付ける重要なパラメータ,すなわちSNR,変調指数,結合時間について述べる。
第2に、REPACが詳しく紹介されている。
計算機シミュレーションを用いて、ランダムなPAC様脳波信号のセットを生成し、ベースライン法におけるREPACの性能をテストする。
REPACは、SNR(例えば-10dB)の現実的な値であっても、ベースライン法よりも優れている。
両者とも精度は99%程度に達するが、REPACは感度を20.11%から65.21%に改善し、特異度は99%程度である。
repacは、予備的な推奨結果を示す実際の脳波信号にも適用される。 Recent evidence has revealed cross-frequency coupling and, particularly, phase-amplitude coupling (PAC) as an important strategy for the brain to accomplish a variety of high-level cognitive and sensory functions. However, decoding PAC is still challenging. This contribution presents REPAC, a reliable and robust algorithm for modeling and detecting PAC events in EEG signals. First, we explain the synthesis of PAC-like EEG signals, with special attention to the most critical parameters that characterize PAC, i.e., SNR, modulation index, duration of coupling. Second, REPAC is introduced in detail. We use computer simulations to generate a set of random PAC-like EEG signals and test the performance of REPAC with regard to a baseline method. REPAC is shown to outperform the baseline method even with realistic values of SNR, e.g., -10 dB. They both reach accuracy levels around 99%, but REPAC leads to a significant improvement of sensitivity, from 20.11% to 65.21%, with comparable specificity (around 99%). REPAC is also applied to a real EEG signal showing preliminary encouraging results. | 翻訳日:2022-09-25 23:52:14 公開日:2020-11-13 |
# 大豆収量推定のための大豆収量推定のための大豆収量推定のための深層多視点画像融合 Deep Multi-view Image Fusion for Soybean Yield Estimation in Breeding Applications Deep Multi-view Image Fusion for Soybean Yield Estimation in Breeding Applications ( http://arxiv.org/abs/2011.07118v1 ) ライセンス: Link先を確認 | Luis G Riera, Matthew E. Carroll, Zhisheng Zhang, Johnathon M. Shook, Sambuddha Ghosal, Tianshuang Gao, Arti Singh, Sourabh Bhattacharya, Baskar Ganapathysubramanian, Asheesh K. Singh, Soumik Sarkar | (参考訳) 信頼性の高い種子収量の推定は、主要品種の品種開発に向けられた植物育種プログラムにおいて必須のステップである。
本研究の目的は,大豆 [\textit{Glycine max} L. (Merr.)] ポッドカウントに適応する機械学習(ML) アプローチを開発し,地上ロボットが収集したフィールド内ビデオデータからジェノタイプ種子収量ランクの予測を可能にすることである。
この目標を達成するために,ディープラーニングアーキテクチャを用いた多視点画像に基づく収量推定フレームワークを開発した。
異なる角度から撮影した植物画像を融合して収量を推定し, 育種決定に大豆遺伝子型を分類した。
手動ポッド計数と収量推定を比較して, 現場における制御画像環境からのデータと, 現場での植物育種試験プロットからのデータを用いて, フレームワークの有効性を実証した。
以上の結果から,MLモデルが時間と人的労力を大幅に削減して育種決定を行ない,品種開発に新たな育種方法がもたらされることが示唆された。 Reliable seed yield estimation is an indispensable step in plant breeding programs geared towards cultivar development in major row crops. The objective of this study is to develop a machine learning (ML) approach adept at soybean [\textit{Glycine max} L. (Merr.)] pod counting to enable genotype seed yield rank prediction from in-field video data collected by a ground robot. To meet this goal, we developed a multi-view image-based yield estimation framework utilizing deep learning architectures. Plant images captured from different angles were fused to estimate the yield and subsequently to rank soybean genotypes for application in breeding decisions. We used data from controlled imaging environment in field, as well as from plant breeding test plots in field to demonstrate the efficacy of our framework via comparing performance with manual pod counting and yield estimation. Our results demonstrate the promise of ML models in making breeding decisions with significant reduction of time and human effort, and opening new breeding methods avenues to develop cultivars. | 翻訳日:2022-09-25 23:45:38 公開日:2020-11-13 |
# 音声コマンド認識に応用した低能率教師付き畳み込みニューラルネットワーク Low-activity supervised convolutional spiking neural networks applied to speech commands recognition ( http://arxiv.org/abs/2011.06846v1 ) ライセンス: Link先を確認 | Thomas Pellegrini, Romain Zimmer, Timoth\'ee Masquelier | (参考訳) ディープニューラルネットワーク(dnn)は多くの音声関連タスクにおいて最先端のモデルである。
しかし、より生物学的に現実的でハードウェアフレンドリーでエネルギー効率の良いモデルであるspyking neural networks(snns)への関心が高まっている。
近年,代用勾配法を用いて,SNNのバックプロパゲーションを指導的に効率的に訓練できることが示されている。
本研究では,教師付きSNNを用いた音声認識実験について報告する。
我々は,この課題に対するリーク積分火炎(lif)ニューロンモデルについて検討し,google sc v1データセットの標準dnnに非常に近い誤差率を,拡張畳み込みスパイク層からなるモデルが到達できることを示した。
また, lifモデルが非リーキーモデルを大きく上回るため, ニューロン膜電位の漏洩のモデル化が有用であることを示した。 Deep Neural Networks (DNNs) are the current state-of-the-art models in many speech related tasks. There is a growing interest, though, for more biologically realistic, hardware friendly and energy efficient models, named Spiking Neural Networks (SNNs). Recently, it has been shown that SNNs can be trained efficiently, in a supervised manner, using backpropagation with a surrogate gradient trick. In this work, we report speech command (SC) recognition experiments using supervised SNNs. We explored the Leaky-Integrate-Fire (LIF) neuron model for this task, and show that a model comprised of stacked dilated convolution spiking layers can reach an error rate very close to standard DNNs on the Google SC v1 dataset: 5.5%, while keeping a very sparse spiking activity, below 5%, thank to a new regularization term. We also show that modeling the leakage of the neuron membrane potential is useful, since the LIF model outperformed its non-leaky model counterpart significantly. | 翻訳日:2022-09-25 23:45:15 公開日:2020-11-13 |
# トランスファー学習によるマルチモーダル感情検出 Multi-Modal Emotion Detection with Transfer Learning ( http://arxiv.org/abs/2011.07065v1 ) ライセンス: Link先を確認 | Amith Ananthram, Kailash Karthik Saravanakumar, Jessica Huynh, and Homayoon Beigi | (参考訳) 音声における感情の自動検出は、単語間の複雑な相互依存とそれらが話される方法によって難しい課題である。
そのサイズが小さく、互換性のないラベル付けのイディオ同期により、一般化可能な感情検出システムの構築が困難になる。
これら2つの課題に対処するために、まず、音声とテキストの関連タスクから学習を伝達して堅牢なニューラル埋め込みを生成するマルチモーダルアプローチを提案し、その後、これらの埋め込みを使用して、これまで目に見えない感情やドメインに適応できるpLDA分類器を訓練する。
まず,VoxCelebコーパスを用いた話者識別タスクで多層TDNNを訓練し,Crema-Dコーパスによる感情識別タスクで微調整する。
このネットワークを用いて、各層からCrema-Dの音声埋め込みを抽出し、細調整されたBERTモデルを用いてテキスト埋め込みを生成し、その結果の濃密表現に基づいてLDA - pLDA分類器を訓練する。
我々は,各コンポーネントの予測能力,tdnn単独,各レイヤからの音声埋め込み,テキスト埋め込み,およびそれらの組合せを徹底的に評価する。
我々の最良の変種はVoxCelebとCrema-Dのみで訓練され、IEMOCAPで評価され、EERは38.05%に達する。
トレーニング中にIEMOCAPの一部を含むと、平均5倍のEERは25.72%になる(対照的に、ゴールドラベルのアノテーションの44.71%には少なくとも1つのアノテーションが含まれている)。 Automated emotion detection in speech is a challenging task due to the complex interdependence between words and the manner in which they are spoken. It is made more difficult by the available datasets; their small size and incompatible labeling idiosyncrasies make it hard to build generalizable emotion detection systems. To address these two challenges, we present a multi-modal approach that first transfers learning from related tasks in speech and text to produce robust neural embeddings and then uses these embeddings to train a pLDA classifier that is able to adapt to previously unseen emotions and domains. We begin by training a multilayer TDNN on the task of speaker identification with the VoxCeleb corpora and then fine-tune it on the task of emotion identification with the Crema-D corpus. Using this network, we extract speech embeddings for Crema-D from each of its layers, generate and concatenate text embeddings for the accompanying transcripts using a fine-tuned BERT model and then train an LDA - pLDA classifier on the resulting dense representations. We exhaustively evaluate the predictive power of every component: the TDNN alone, speech embeddings from each of its layers alone, text embeddings alone and every combination thereof. Our best variant, trained on only VoxCeleb and Crema-D and evaluated on IEMOCAP, achieves an EER of 38.05%. Including a portion of IEMOCAP during training produces a 5-fold averaged EER of 25.72% (For comparison, 44.71% of the gold-label annotations include at least one annotator who disagrees). | 翻訳日:2022-09-25 23:44:56 公開日:2020-11-13 |
# 人工装具のエルゴノミクス制御のための予測モデル学習 Learning Predictive Models for Ergonomic Control of Prosthetic Devices ( http://arxiv.org/abs/2011.07005v1 ) ライセンス: Link先を確認 | Geoffrey Clark, Joseph Campbell, and Heni Ben Amor | (参考訳) 本稿では,人体と機械の協調作業における補助動作のためのロボット学習フレームワークであるModel-Predictive Interaction Primitivesについて述べる。
まず,現在観測されているヒトの生体力学的状態を予測し,目的とするロボット制御信号に基づいて,相互作用プリミティブを拡張して予測バイオメカニクスを実現する。
そこで本研究では,モデル予測制御手法を用いて,ロボット行動の人間工学的・生体力学的影響を明らかにする。
ヒトの筋骨格系に対する将来の物理的影響を最小限に抑えるために最適制御軌跡を選択する。
バイオメカニカルコスト関数によって選択された制御作用により, 膝や筋力の最小化が実証された。
人工装具を含む人工および実世界の実験で実験が行われる。 We present Model-Predictive Interaction Primitives -- a robot learning framework for assistive motion in human-machine collaboration tasks which explicitly accounts for biomechanical impact on the human musculoskeletal system. First, we extend Interaction Primitives to enable predictive biomechanics: the prediction of future biomechanical states of a human partner conditioned on current observations and intended robot control signals. In turn, we leverage this capability within a model-predictive control strategy to identify the future ergonomic and biomechanical ramifications of potential robot actions. Optimal control trajectories are selected so as to minimize future physical impact on the human musculoskeletal system. We empirically demonstrate that our approach minimizes knee or muscle forces via generated control actions selected according to biomechanical cost functions. Experiments are performed in synthetic and real-world experiments involving powered prosthetic devices. | 翻訳日:2022-09-25 23:44:07 公開日:2020-11-13 |
# Phoebe: 新たなストレージモデルのための強化学習を備えたリユース対応オンラインキャッシュ Phoebe: Reuse-Aware Online Caching with Reinforcement Learning for Emerging Storage Models ( http://arxiv.org/abs/2011.07160v1 ) ライセンス: Link先を確認 | Nan Wu, Pengcheng Li | (参考訳) データ耐久性、高アクセス速度、低電力効率、バイトアドレス対応性により、新しいストレージ技術の代表的なものとして認識されているnvmeとssdは、多くの領域で広く適用されている。
しかし、これらのテクノロジーを高性能に採用する上での大きな問題は、新しい技術とメインメモリのパフォーマンスギャップを十分にブリッジできるように、インテリジェントなキャッシュ層を適切に定義する方法である。
この目的のために, 多様な新しいストレージモデルに適用可能な最適オンラインキャッシュのための, 再利用対応強化学習フレームワークであるPhoebeを提案する。
キャッシュ環境とデータストリームとの継続的なインタラクションによって、フェーベは重要な時間的データ依存性と相対的な位置情報を単一のトレースから抽出し、時間とともに賢くなっていく。
オンライン学習におけるトレーニングのオーバーヘッドを軽減するために,定期的なトレーニングを用いてコストを償却する。
PhoebeはMicrosoftのクラウドストレージワークロードのセットで評価されている。
実験の結果、フェーベはlruと最先端のオンライン学習ベースのキャッシュポリシーとのキャッシュミス率の差を、ベラディの最適ポリシーにそれぞれ70.3%と52.6%の差で埋めることができた。 With data durability, high access speed, low power efficiency and byte addressability, NVMe and SSD, which are acknowledged representatives of emerging storage technologies, have been applied broadly in many areas. However, one key issue with high-performance adoption of these technologies is how to properly define intelligent cache layers such that the performance gap between emerging technologies and main memory can be well bridged. To this end, we propose Phoebe, a reuse-aware reinforcement learning framework for the optimal online caching that is applicable for a wide range of emerging storage models. By continuous interacting with the cache environment and the data stream, Phoebe is capable to extract critical temporal data dependency and relative positional information from a single trace, becoming ever smarter over time. To reduce training overhead during online learning, we utilize periodical training to amortize costs. Phoebe is evaluated on a set of Microsoft cloud storage workloads. Experiment results show that Phoebe is able to close the gap of cache miss rate from LRU and a state-of-the-art online learning based cache policy to the Belady's optimal policy by 70.3% and 52.6%, respectively. | 翻訳日:2022-09-25 23:43:51 公開日:2020-11-13 |
# 補間型投影による凸最適化と深層学習への応用 Convex Optimization with an Interpolation-based Projection and its Application to Deep Learning ( http://arxiv.org/abs/2011.07016v1 ) ライセンス: Link先を確認 | Riad Akrour, Asma Atamna, Jan Peters | (参考訳) convexオプティマイザは、ディープニューラルネットワークアーキテクチャ内の微分可能なレイヤとして、多くのアプリケーションを知っている。
これらの凸層の1つの応用は、凸集合に点を投影することである。
しかし、これらの凸層の前方および後方の通過は、通常のニューラルネットワークよりも計算がかなり高価である。
本稿では,不正確ながより安価な投影法が降下アルゴリズムを最適に駆動できるかどうかを考察する。
具体的には,コンベックス,ドメイン定義,関数が与えられた場合,計算コストが低く,計算が容易な補間型プロジェクションを提案する。
次に,対象と射影の構成の勾配に従う最適化アルゴリズムを提案し,線形対象と任意の凸および不等式制約を定義するリプシッツ領域の収束を証明する。
理論的な貢献に加えて、強化学習と教師付き学習設定において、ニューラルネットワークと連携して使用する場合の補間投影の実用的関心を実証的に示す。 Convex optimizers have known many applications as differentiable layers within deep neural architectures. One application of these convex layers is to project points into a convex set. However, both forward and backward passes of these convex layers are significantly more expensive to compute than those of a typical neural network. We investigate in this paper whether an inexact, but cheaper projection, can drive a descent algorithm to an optimum. Specifically, we propose an interpolation-based projection that is computationally cheap and easy to compute given a convex, domain defining, function. We then propose an optimization algorithm that follows the gradient of the composition of the objective and the projection and prove its convergence for linear objectives and arbitrary convex and Lipschitz domain defining inequality constraints. In addition to the theoretical contributions, we demonstrate empirically the practical interest of the interpolation projection when used in conjunction with neural networks in a reinforcement learning and a supervised learning setting. | 翻訳日:2022-09-25 23:43:33 公開日:2020-11-13 |
# 中間レベル視覚表現によるロバストポリシ:操作とナビゲーションに関する実験的検討 Robust Policies via Mid-Level Visual Representations: An Experimental Study in Manipulation and Navigation ( http://arxiv.org/abs/2011.06698v1 ) ライセンス: Link先を確認 | Bryan Chen, Alexander Sax, Gene Lewis, Iro Armeni, Silvio Savarese, Amir Zamir, Jitendra Malik, Lerrel Pinto | (参考訳) ビジョンベースのロボティクスは、知覚のために制御ループを1つのモジュールと、制御のための別のモジュールに分離することが多い。
システム全体をエンドツーエンド(例えばdeep rl)でトレーニングすることは可能だが、"スクラッチから"実行すると、サンプルの複雑さが高くなり、最終的な結果は不安定になり、テスト環境がトレーニングと違う場合、予期せぬほど失敗する。
エンド・ツー・エンドのrlフレームワークにおいて,中間レベルの視覚的表現(従来のコンピュータビジョンの目的に対して非同期に学習された特徴)を汎用的かつ容易に理解可能な状態として利用する効果について検討する。
中間レベルの表現は世界の不変性をエンコードし、一般化を支援し、サンプル複雑性を改善し、最終的なパフォーマンスを高めることを示します。
ドメインのランダム化などの不変性を導入する他のアプローチと比較して、非同期に訓練された中間レベル表現は、より難しい問題とより大きなドメインシフトの両方に、より良くスケールする。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
実ロボットに対するゼロショットsim-to-real実験を含む操作とナビゲーションの両方の結果について報告する。 Vision-based robotics often separates the control loop into one module for perception and a separate module for control. It is possible to train the whole system end-to-end (e.g. with deep RL), but doing it "from scratch" comes with a high sample complexity cost and the final result is often brittle, failing unexpectedly if the test environment differs from that of training. We study the effects of using mid-level visual representations (features learned asynchronously for traditional computer vision objectives), as a generic and easy-to-decode perceptual state in an end-to-end RL framework. Mid-level representations encode invariances about the world, and we show that they aid generalization, improve sample complexity, and lead to a higher final performance. Compared to other approaches for incorporating invariances, such as domain randomization, asynchronously trained mid-level representations scale better: both to harder problems and to larger domain shifts. In practice, this means that mid-level representations could be used to successfully train policies for tasks where domain randomization and learning-from-scratch failed. We report results on both manipulation and navigation tasks, and for navigation include zero-shot sim-to-real experiments on real robots. | 翻訳日:2022-09-25 23:43:19 公開日:2020-11-13 |
# 依存性に基づく異常検出:フレームワーク、メソッド、ベンチマーク Dependency-based Anomaly Detection: Framework, Methods and Benchmark ( http://arxiv.org/abs/2011.06716v1 ) ライセンス: Link先を確認 | Sha Lu, Lin Liu, Jiuyong Li, Thuc Duy Le, Jixue Liu | (参考訳) 異常検出は、データの異常な振る舞いを理解するための重要な洞察を含むことが多いため、重要な研究課題である。
異常検出アプローチの1つのタイプは依存性ベースで、変数間の通常の依存関係の違反を調べることで異常を識別する。
これらの手法は、より良い解釈で微妙で意味のある異常を発見できる。
既存の依存関係ベースのメソッドは、異なる実装を採用し、異なる強みと弱みを示している。
しかし、理論的基礎とそれらの背後にある一般的な過程はよく研究されていない。
本稿では,依存性に基づく異常検出のための統一プロセスを提供する汎用フレームワークdepadを提案する。
DepADは教師なしの異常検出タスクを特徴選択と予測問題に分解する。
既製のテクニックを利用することで、DepADフレームワークはさまざまなアプリケーションドメインに適合するさまざまなインスタンスを作成できる。
DepADにおける代表的手法の性能を評価するために,32個の実世界のデータセットを用いた100以上のインスタントデパッド手法の総合的な実験を行った。
DepADの有効性を示すために,DepAD法を9つの最先端異常検出法と比較した。
DepADフレームワークを通じて、依存関係に基づく異常検出の今後の研究のガイダンスとインスピレーションを与え、その評価のためのベンチマークを提供する。 Anomaly detection is an important research problem because anomalies often contain critical insights for understanding the unusual behavior in data. One type of anomaly detection approach is dependency-based, which identifies anomalies by examining the violations of the normal dependency among variables. These methods can discover subtle and meaningful anomalies with better interpretation. Existing dependency-based methods adopt different implementations and show different strengths and weaknesses. However, the theoretical fundamentals and the general process behind them have not been well studied. This paper proposes a general framework, DepAD, to provide a unified process for dependency-based anomaly detection. DepAD decomposes unsupervised anomaly detection tasks into feature selection and prediction problems. Utilizing off-the-shelf techniques, the DepAD framework can have various instantiations to suit different application domains. Comprehensive experiments have been conducted over one hundred instantiated DepAD methods with 32 real-world datasets to evaluate the performance of representative techniques in DepAD. To show the effectiveness of DepAD, we compare two DepAD methods with nine state-of-the-art anomaly detection methods, and the results show that DepAD methods outperform comparison methods in most cases. Through the DepAD framework, this paper gives guidance and inspiration for future research of dependency-based anomaly detection and provides a benchmark for its evaluation. | 翻訳日:2022-09-25 23:37:17 公開日:2020-11-13 |
# learning to drop: トポロジカル・デノイジングによるロバストグラフニューラルネットワーク Learning to Drop: Robust Graph Neural Network via Topological Denoising ( http://arxiv.org/abs/2011.07057v1 ) ライセンス: Link先を確認 | Dongsheng Luo, Wei Cheng, Wenchao Yu, Bo Zong, Jingchao Ni, Haifeng Chen, Xiang Zhang | (参考訳) グラフニューラルネットワーク(gnns)は、グラフ分析の強力なツールであることが示されている。
重要なアイデアは、与えられたグラフの端に沿って情報を再帰的に伝播し集約することです。
しかし、その成功にもかかわらず、既存のGNNは通常、入力グラフの品質に敏感である。
実世界のグラフは、しばしばノイズが多く、タスク非関連エッジを含んでいるため、学習されたGNNモデルにおいて、最適以下の一般化性能をもたらす可能性がある。
本稿では,タスクに無関係なエッジを落として学習することで,gnnのロバスト性と一般化性能を向上させるために,パラメータ化された位相分極ネットワークであるptdnetを提案する。
PTDNetは、パラメータ化されたネットワークでスパーシファイドグラフ内のエッジ数をペナル化することで、タスク非関連エッジを創出する。
グラフ全体のトポロジーを考慮するために、核ノルム正則化は、結果として生じるスパーシファイドグラフに低ランク制約を課すために適用され、より一般化される。
PTDNetはGNNモデルのキーコンポーネントとして使用することができ、ノード分類やリンク予測など、さまざまなタスクのパフォーマンスを改善することができる。
合成データセットとベンチマークデータセットの両方の実験研究により、PTDNetはGNNの性能を著しく向上し、よりノイズの多いデータセットでは性能が向上することが示された。 Graph Neural Networks (GNNs) have shown to be powerful tools for graph analytics. The key idea is to recursively propagate and aggregate information along edges of the given graph. Despite their success, however, the existing GNNs are usually sensitive to the quality of the input graph. Real-world graphs are often noisy and contain task-irrelevant edges, which may lead to suboptimal generalization performance in the learned GNN models. In this paper, we propose PTDNet, a parameterized topological denoising network, to improve the robustness and generalization performance of GNNs by learning to drop task-irrelevant edges. PTDNet prunes task-irrelevant edges by penalizing the number of edges in the sparsified graph with parameterized networks. To take into consideration of the topology of the entire graph, the nuclear norm regularization is applied to impose the low-rank constraint on the resulting sparsified graph for better generalization. PTDNet can be used as a key component in GNN models to improve their performances on various tasks, such as node classification and link prediction. Experimental studies on both synthetic and benchmark datasets show that PTDNet can improve the performance of GNNs significantly and the performance gain becomes larger for more noisy datasets. | 翻訳日:2022-09-25 23:36:59 公開日:2020-11-13 |
# セミスーパービジョンを用いた関係知識を用いたVAE埋め込みの伝達性について On the Transferability of VAE Embeddings using Relational Knowledge with Semi-Supervision ( http://arxiv.org/abs/2011.07137v1 ) ライセンス: Link先を確認 | Harald Str\"omfelt, Luke Dickens, Artur d'Avila Garcez, Alessandra Russo | (参考訳) 本稿では,異なる記号特性を持つ関係の絡み合いと低複雑性モデリングのバランスをとることができるリレーショナルVAEセミスーパービジョンの新しいモデルを提案する。
帰納的および帰納的移行学習における関係復号器複雑性と潜時空間構造の比較を行った。
提案手法は,半教師付き表現に構造を組み込むことでゼロショットトランスダクティブトランスダクティブトランスダクティブを著しく改善するが,インダクティブトランスダクティブトランスダクティブトランスダクティブのキャパシティに悪影響を及ぼさない。 We propose a new model for relational VAE semi-supervision capable of balancing disentanglement and low complexity modelling of relations with different symbolic properties. We compare the relative benefits of relation-decoder complexity and latent space structure on both inductive and transductive transfer learning. Our results depict a complex picture where enforcing structure on semi-supervised representations can greatly improve zero-shot transductive transfer, but may be less favourable or even impact negatively the capacity for inductive transfer. | 翻訳日:2022-09-25 23:36:29 公開日:2020-11-13 |
# 高速特徴埋め込みのための不規則タブ付きMLP Irregularly Tabulated MLP for Fast Point Feature Embedding ( http://arxiv.org/abs/2011.09852v1 ) ライセンス: Link先を確認 | Yusuke Sekikawa, Teppei Suzuki | (参考訳) そこで本研究では,複数層パーセプトロン (mlp) とルックアップテーブル (lut) を併用し,点座標入力を高次元に変換する新しいフレームワークを提案する。
何百万ものドット積を必要とするMPPによって実現されたPointNetの機能埋め込み部と比較して、テスト時のフレームワークはそのような行列ベクトル積の層は必要とせず、グラフ化されたMLPから最も近いエンティティを探索し、補間を行い、3D格子上の離散的な入力に対して実質的に不規則に整列される。
このフレームワークをLUTI-MLP: LUT Interpolation MLと呼び、テスト時に近似を必要とせずに、特定の方法でLUTに結合された終端から終端まで不規則に集計されたMLPを訓練する方法を提供する。
LUTI-MLP はまた、Lie 代数 $\mathfrak{se}(3)$ 上の埋め込み関数 wrt グローバルポーズ座標のジャコビアン計算において、点集合登録問題に使用できる大きな高速化を提供する。
ModelNet40を用いた広範囲な評価の結果、LUTI-MLPは小さい(例:4^3$)格子でもMLPに匹敵する性能を保ちながら、大きなスピードアップを実現していることを確認した:埋め込みは100\times$、近似ヤコビアンは12\times$、標準ヤコビアンは860\times$。 Aiming at drastic speedup for point-feature embeddings at test time, we propose a new framework that uses a pair of multi-layer perceptrons (MLP) and a lookup table (LUT) to transform point-coordinate inputs into high-dimensional features. When compared with PointNet's feature embedding part realized by MLP that requires millions of dot products, the proposed framework at test time requires no such layers of matrix-vector products but requires only looking up the nearest entities from the tabulated MLP followed by interpolation, defined over discrete inputs on a 3D lattice that is substantially arranged irregularly. We call this framework LUTI-MLP: LUT Interpolation ML that provides a way to train end-to-end irregularly tabulated MLP coupled to a LUT in a specific manner without the need for any approximation at test time. LUTI-MLP also provides significant speedup for Jacobian computation of the embedding function wrt global pose coordinate on Lie algebra $\mathfrak{se}(3)$ at test time, which could be used for point-set registration problems. After extensive evaluation using the ModelNet40, we confirmed that the LUTI-MLP even with a small (e.g., $4^3$) lattice yields performance comparable to that of the MLP while achieving significant speedup: $100\times$ for the embedding, $12\times$ for the approximate Jacobian, and $860\times$ for the canonical Jacobian. | 翻訳日:2022-09-25 23:36:09 公開日:2020-11-13 |
# 筆跡生成のための拡散モデル Diffusion models for Handwriting Generation ( http://arxiv.org/abs/2011.06704v1 ) ライセンス: Link先を確認 | Troy Luhman, Eric Luhman | (参考訳) 本稿では,手書き文字生成のための拡散確率モデルを提案する。
拡散モデルは生成モデルの一種であり、サンプルはガウスノイズから始まり、徐々に変形して出力を生成する。
本手法では, テキスト認識, 書き手スタイル, 敵対的損失関数を一切必要とせず, 補助的ネットワークの訓練も必要としない。
私たちのモデルは、画像データから直接ライターのスタイル的機能を組み込むことができ、サンプリング中のユーザインタラクションを不要にします。
実験の結果,本モデルでは,手書き文字の写実的で高品質な画像を生成することができることがわかった。
私たちの実装はhttps://github.com/tcl9876/Diffusion-Handwriting-Generationで確認できます。 In this paper, we propose a diffusion probabilistic model for handwriting generation. Diffusion models are a class of generative models where samples start from Gaussian noise and are gradually denoised to produce output. Our method of handwriting generation does not require using any text-recognition based, writer-style based, or adversarial loss functions, nor does it require training of auxiliary networks. Our model is able to incorporate writer stylistic features directly from image data, eliminating the need for user interaction during sampling. Experiments reveal that our model is able to generate realistic , high quality images of handwritten text in a similar style to a given writer. Our implementation can be found at https://github.com/tcl9876/Diffusion-Handwriting-Generation | 翻訳日:2022-09-25 23:34:36 公開日:2020-11-13 |
# 物体中心対角学習を用いたビデオの局所的異常検出 Local Anomaly Detection in Videos using Object-Centric Adversarial Learning ( http://arxiv.org/abs/2011.06722v1 ) ライセンス: Link先を確認 | Pankaj Raj Roy, Guillaume-Alexandre Bilodeau and Lama Seoud | (参考訳) 本稿では,ビデオ中のフレームレベルの局所異常を検出するために対象領域のみを必要とする2段階のオブジェクト中心対向フレームワークに基づく,教師なしの新たなアプローチを提案する。
第1段階は、現在の外観と通常の場面における物体の過去の勾配画像との対応を学習することで、現在の外観から過去の勾配を生成することができる。
第2段階は、実画像と生成された画像(出現および過去の勾配)の間の部分的再構成誤差を正常な対象動作で抽出し、逆向きに判別器を訓練する。
推論モードでは,領域レベルの異常検出スコアを出力するために,逆学習したバイナリ分類器を用いたトレーニング画像生成器を用いる。
提案手法は,umn,ucsd, avenue, shanghaitechの4つの公開ベンチマークで検証し,提案手法は最先端の手法と比較して,競争力や優れた結果をもたらす。 We propose a novel unsupervised approach based on a two-stage object-centric adversarial framework that only needs object regions for detecting frame-level local anomalies in videos. The first stage consists in learning the correspondence between the current appearance and past gradient images of objects in scenes deemed normal, allowing us to either generate the past gradient from current appearance or the reverse. The second stage extracts the partial reconstruction errors between real and generated images (appearance and past gradient) with normal object behaviour, and trains a discriminator in an adversarial fashion. In inference mode, we employ the trained image generators with the adversarially learned binary classifier for outputting region-level anomaly detection scores. We tested our method on four public benchmarks, UMN, UCSD, Avenue and ShanghaiTech and our proposed object-centric adversarial approach yields competitive or even superior results compared to state-of-the-art methods. | 翻訳日:2022-09-25 23:34:23 公開日:2020-11-13 |
# ディープラーニングモデルからのシーケンスラベリングの最近の進歩に関する調査 A Survey on Recent Advances in Sequence Labeling from Deep Learning Models ( http://arxiv.org/abs/2011.06727v1 ) ライセンス: Link先を確認 | Zhiyong He, Zanbo Wang, Wei Wei, Shanshan Feng, Xianling Mao, and Sheng Jiang | (参考訳) シーケンスラベリング(sl)は、part-of-speech(pos)タグ、名前付きエンティティ認識(ner)、テキストチャンキングなど、さまざまなタスクをカバーする基本的な研究課題である。
多くのダウンストリームアプリケーション(例えば、情報検索、質問応答、知識グラフの埋め込み)で広く使われているが、従来のシーケンスラベリングアプローチは手作りや言語固有の機能に大きく依存している。
最近のディープラーニングは、インスタンスの複雑な機能を自動学習する強力な能力と、効果的に最先端のパフォーマンスをもたらすため、シーケンスラベリングタスクに採用されている。
本稿では,既存のディープラーニングに基づくシークエンスラベリングモデルについて,3つの関連するタスク,例えばパート・オブ・音声タグ,名前付きエンティティ認識,テキストチャンキングの総合的なレビューを行う。
そこで我々は,科学的分類に基づく既存のアプローチと,広く利用されている実験データセット,SLドメインにおける一般的な評価指標を体系的に提示する。
さらに、SLドメインの性能や今後の方向性に影響を与える要因について、異なるSLモデルの詳細な分析を行う。 Sequence labeling (SL) is a fundamental research problem encompassing a variety of tasks, e.g., part-of-speech (POS) tagging, named entity recognition (NER), text chunking, etc. Though prevalent and effective in many downstream applications (e.g., information retrieval, question answering, and knowledge graph embedding), conventional sequence labeling approaches heavily rely on hand-crafted or language-specific features. Recently, deep learning has been employed for sequence labeling tasks due to its powerful capability in automatically learning complex features of instances and effectively yielding the stat-of-the-art performances. In this paper, we aim to present a comprehensive review of existing deep learning-based sequence labeling models, which consists of three related tasks, e.g., part-of-speech tagging, named entity recognition, and text chunking. Then, we systematically present the existing approaches base on a scientific taxonomy, as well as the widely-used experimental datasets and popularly-adopted evaluation metrics in the SL domain. Furthermore, we also present an in-depth analysis of different SL models on the factors that may affect the performance and future directions in the SL domain. | 翻訳日:2022-09-25 23:27:53 公開日:2020-11-13 |
# 批判的PI2:パス積分とディープアクター・クリティカル強化学習による政策改善によるマスター継続的計画 Critic PI2: Master Continuous Planning via Policy Improvement with Path Integrals and Deep Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2011.06752v1 ) ライセンス: Link先を確認 | Jiajun Fan, He Ba, Xian Guo, Jianye Hao | (参考訳) 計画能力を持つエージェントの構築は、人工知能の追求における主要な課題の1つだ。
alphago から muzero までのツリーベースの計画手法は、チェスや go といった離散ドメインで大きな成功を収めている。
残念ながら、ロボット制御や逆振り子のような現実世界のアプリケーションでは、アクションスペースは通常連続しているため、これらのツリーベースの計画手法は苦労している。
そこで本稿では,これらの制約に対処するために,軌道最適化,深層アクタ批判学習,モデルベース強化学習の利点を組み合わせた,新しいモデルベース強化学習フレームワークであるcritter pi2を提案する。
本手法は,多くの連続制御系に適用可能な逆振り子モデルに対して評価する。
広範囲にわたる実験により、Critic PI2は一連の挑戦的な連続ドメインにおいて、新しい最先端技術を達成した。
さらに,評論家による計画がサンプル効率とリアルタイム性能を著しく向上させることを示す。
私たちの研究は、モデルベースの計画システムのコンポーネントとそれらの使い方を学ぶための新しい方向を開きます。 Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods from AlphaGo to Muzero have enjoyed huge success in discrete domains, such as chess and Go. Unfortunately, in real-world applications like robot control and inverted pendulum, whose action space is normally continuous, those tree-based planning techniques will be struggling. To address those limitations, in this paper, we present a novel model-based reinforcement learning frameworks called Critic PI2, which combines the benefits from trajectory optimization, deep actor-critic learning, and model-based reinforcement learning. Our method is evaluated for inverted pendulum models with applicability to many continuous control systems. Extensive experiments demonstrate that Critic PI2 achieved a new state of the art in a range of challenging continuous domains. Furthermore, we show that planning with a critic significantly increases the sample efficiency and real-time performance. Our work opens a new direction toward learning the components of a model-based planning system and how to use them. | 翻訳日:2022-09-25 23:27:32 公開日:2020-11-13 |
# 効率的な非線形多様体還元次数モデル Efficient nonlinear manifold reduced order model ( http://arxiv.org/abs/2011.07727v1 ) ライセンス: Link先を確認 | Youngkyu Kim and Youngsoo Choi and David Widemann and Tarek Zohdi | (参考訳) 従来の線形部分空間還元次数モデル(LS-ROM)は、内在的な解空間が小さな次元を持つ部分空間、すなわち、解空間が小さなコルモゴロフ n-幅を持つような物理シミュレーションを加速することができる。
しかし、このタイプの物理現象、例えば対流支配フロー現象では、低次元線型部分空間は解を十分に近似する。
このようなケースに対処するため、我々は、LS-ROMよりも小さい潜在空間次元を持つ高忠実度モデル解をよりよく近似できる効率的な非線形多様体ROM(NM-ROM)を開発した。
本手法は,対応する全順序モデル(FOM)の解法として,既存の数値手法を利用する。
この効率性はNM-ROMの文脈で超還元技術を開発することで達成される。
数値計算の結果, レイノルズ数の高い2次元バーガー方程式から, より効率的な回帰空間表現を学習できることが示唆された。
2次元バーガーの方程式に対する最大11.7の高速化は、ハイパーリダクションによる非線形項の適切な処理によって達成される。 Traditional linear subspace reduced order models (LS-ROMs) are able to accelerate physical simulations, in which the intrinsic solution space falls into a subspace with a small dimension, i.e., the solution space has a small Kolmogorov n-width. However, for physical phenomena not of this type, such as advection-dominated flow phenomena, a low-dimensional linear subspace poorly approximates the solution. To address cases such as these, we have developed an efficient nonlinear manifold ROM (NM-ROM), which can better approximate high-fidelity model solutions with a smaller latent space dimension than the LS-ROMs. Our method takes advantage of the existing numerical methods that are used to solve the corresponding full order models (FOMs). The efficiency is achieved by developing a hyper-reduction technique in the context of the NM-ROM. Numerical results show that neural networks can learn a more efficient latent space representation on advection-dominated data from 2D Burgers' equations with a high Reynolds number. A speed-up of up to 11.7 for 2D Burgers' equations is achieved with an appropriate treatment of the nonlinear terms through a hyper-reduction technique. | 翻訳日:2022-09-25 23:27:13 公開日:2020-11-13 |
# diagnnose: 神経活性化解析のためのライブラリ diagNNose: A Library for Neural Activation Analysis ( http://arxiv.org/abs/2011.06819v1 ) ライセンス: Link先を確認 | Jaap Jumelet | (参考訳) 本稿では,ディープニューラルネットワークの活性化を分析するオープンソースライブラリであるDiagNNoseを紹介する。
diagNNoseには、ニューラルネットワークの内部動作に関する基本的な洞察を提供する、幅広い解釈可能性技術が含まれている。
言語モデルにおける主語と動詞の合意を事例として,診断の機能を示す。
diagNNoseはhttps://github.com/i-machine-think/diagnnose.comで入手できる。 In this paper we introduce diagNNose, an open source library for analysing the activations of deep neural networks. diagNNose contains a wide array of interpretability techniques that provide fundamental insights into the inner workings of neural networks. We demonstrate the functionality of diagNNose with a case study on subject-verb agreement within language models. diagNNose is available at https://github.com/i-machine-think/diagnnose. | 翻訳日:2022-09-25 23:26:53 公開日:2020-11-13 |
# 差分埋め込みによるニュースコーパスにおける言語変化の学習 Learning language variations in news corpora through differential embeddings ( http://arxiv.org/abs/2011.06949v1 ) ライセンス: Link先を確認 | Carlos Selmo, Julian F. Martinez, Mariano G. Beir\'o and J. Ignacio Alvarez-Hamelin | (参考訳) NLPコミュニティは、言語の使用のバリエーション(すなわち、時間(意味的ドリフト)、地域(方言や変種)、あるいは異なる社会的文脈(専門的またはメディア技術)において、言語の使用の変化を捉えることへの関心が高まっている。
時間を通じて意味の変化を追跡できるいくつかの動的埋め込みが提案されている。
ここでは,中央の単語表現とスライス依存の寄与を持つモデルが,異なるコーパスから単語埋め込みを同時に学習できることを示す。
このモデルは、星のようなスライス表現に基づいている。
ニューヨーク・タイムズ』紙と『ガーディアン』紙に応用し、各コーパスの年次スライスにおける時間的ダイナミクスと、キュレートされた複数ソースコーパスで米国と英国英語の言語変化の両方を捉えることができることを示した。
我々はこの方法論を広く評価する。 There is an increasing interest in the NLP community in capturing variations in the usage of language, either through time (i.e., semantic drift), across regions (as dialects or variants) or in different social contexts (i.e., professional or media technolects). Several successful dynamical embeddings have been proposed that can track semantic change through time. Here we show that a model with a central word representation and a slice-dependent contribution can learn word embeddings from different corpora simultaneously. This model is based on a star-like representation of the slices. We apply it to The New York Times and The Guardian newspapers, and we show that it can capture both temporal dynamics in the yearly slices of each corpus, and language variations between US and UK English in a curated multi-source corpus. We provide an extensive evaluation of this methodology. | 翻訳日:2022-09-25 23:26:25 公開日:2020-11-13 |
# BERTに基づく領域適応を用いたアラビア方言の同定 Arabic Dialect Identification Using BERT-Based Domain Adaptation ( http://arxiv.org/abs/2011.06977v1 ) ライセンス: Link先を確認 | Ahmad Beltagy, Abdelrahman Wael, Omar ElSherief | (参考訳) アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
本稿では,21のアラビア語方言を区別するシステムを構築するために必要なnadi共有タスク1のアプローチについて述べるとともに,nadi共有タスク1コーパスで報告された前処理とともに,ディープラーニングによる半教師付きファッションアプローチを提案する。
我々のシステムでは、nadiの共有タスクコンペティションで23.09%のf1マクロ平均スコアを達成し、21のアラビア語方言間の差異をシンプルかつ効率的な方法で解決した。 Arabic is one of the most important and growing languages in the world. With the rise of social media platforms such as Twitter, Arabic spoken dialects have become more in use. In this paper, we describe our approach on the NADI Shared Task 1 that requires us to build a system to differentiate between different 21 Arabic dialects, we introduce a deep learning semi-supervised fashion approach along with pre-processing that was reported on NADI shared Task 1 Corpus. Our system ranks 4th in NADI's shared task competition achieving a 23.09% F1 macro average score with a simple yet efficient approach to differentiating between 21 Arabic Dialects given tweets. | 翻訳日:2022-09-25 23:26:10 公開日:2020-11-13 |
# クロスモーダルサイクルGANを用いたトランスダクティブゼロショット学習 Transductive Zero-Shot Learning using Cross-Modal CycleGAN ( http://arxiv.org/abs/2011.06850v1 ) ライセンス: Link先を確認 | Patrick Bordes, Eloi Zablocki, Benjamin Piwowarski, Patrick Gallinari | (参考訳) Computer Visionでは、ゼロショット学習(ZSL)は、未確認のクラスを分類することを目的としている。
ZSLの作業の多くは、画像とクラスラベルの間のクロスモーダルマッピングを学習している。
しかし、見知らぬクラスのデータ分布は異なる可能性があり、ドメインシフトの問題を引き起こす。
この観察の後、トランスダクティブZSL(T-ZSL)は、未確認のクラスとその関連画像が訓練中に知られているが、それらの対応は知られていないと仮定する。
現在のT-ZSLアプローチは、見かけのクラス数が多い場合に効率よくスケールしないので、CycleGANに基づくT-ZSLの新しいモデルでこの問題に取り組む。
私たちのモデルは共同で
(i)監視対象の視認されたクラスラベルに画像を投影し、
(ii) 目立たないクラスラベルと視覚的な例を、敵対的および周期的目的と一致させる。
我々はImageNet T-ZSLタスクにおいて,Cross-Modal CycleGANモデル(CM-GAN)の有効性を示す。
CM-GANを言語基盤タスクで検証し,MS COCOにおけるゼロショット文対画像マッチングという新たなタスクを提案する。 In Computer Vision, Zero-Shot Learning (ZSL) aims at classifying unseen classes -- classes for which no matching training image exists. Most of ZSL works learn a cross-modal mapping between images and class labels for seen classes. However, the data distribution of seen and unseen classes might differ, causing a domain shift problem. Following this observation, transductive ZSL (T-ZSL) assumes that unseen classes and their associated images are known during training, but not their correspondence. As current T-ZSL approaches do not scale efficiently when the number of seen classes is high, we tackle this problem with a new model for T-ZSL based upon CycleGAN. Our model jointly (i) projects images on their seen class labels with a supervised objective and (ii) aligns unseen class labels and visual exemplars with adversarial and cycle-consistency objectives. We show the efficiency of our Cross-Modal CycleGAN model (CM-GAN) on the ImageNet T-ZSL task where we obtain state-of-the-art results. We further validate CM-GAN on a language grounding task, and on a new task that we propose: zero-shot sentence-to-image matching on MS COCO. | 翻訳日:2022-09-25 23:25:35 公開日:2020-11-13 |
# アンサンブルの知性:深層学習モデルの一貫性を改善する Wisdom of the Ensemble: Improving Consistency of Deep Learning Models ( http://arxiv.org/abs/2011.06796v1 ) ライセンス: Link先を確認 | Lijing Wang, Dipanjan Ghosh, Maria Teresa Gonzalez Diaz, Ahmed Farahat, Mahbubul Alam, Chetan Gupta, Jiangzhuo Chen, Madhav Marathe | (参考訳) ディープラーニング分類器は人間の意思決定を支援するため、これらのモデルに対するユーザの信頼が最も重要である。
信頼はしばしば一定の行動の関数である。
aiモデルの観点からすると、ユーザーが同じアウトプットを期待する同じ入力、特に正しいアウトプット、あるいは言い換えれば一貫して正しいアウトプットを期待することを意味する。
本報告では, モデルの各世代からの出力が同一入力に割り当てられた正しいラベルに一致しない場合の, 配置モデルの周期的再トレーニングの文脈におけるモデル挙動について検討する。
学習モデルの一貫性と整合性を正式に定義する。
アンサンブル学習者の整合性と整合性は個々の学習者の平均整合性と整合性に劣らず、アンサンブル成分学習者の平均精度よりも精度の高い学習者を組み合わせることにより確率的に向上できることを示す。
3つのデータセットと2つの最先端ディープラーニング分類器を用いて理論を検証するため、効率的な動的スナップショットアンサンブル法を提案し、その価値を示す。 Deep learning classifiers are assisting humans in making decisions and hence the user's trust in these models is of paramount importance. Trust is often a function of constant behavior. From an AI model perspective it means given the same input the user would expect the same output, especially for correct outputs, or in other words consistently correct outputs. This paper studies a model behavior in the context of periodic retraining of deployed models where the outputs from successive generations of the models might not agree on the correct labels assigned to the same input. We formally define consistency and correct-consistency of a learning model. We prove that consistency and correct-consistency of an ensemble learner is not less than the average consistency and correct-consistency of individual learners and correct-consistency can be improved with a probability by combining learners with accuracy not less than the average accuracy of ensemble component learners. To validate the theory using three datasets and two state-of-the-art deep learning classifiers we also propose an efficient dynamic snapshot ensemble method and demonstrate its value. | 翻訳日:2022-09-25 23:19:06 公開日:2020-11-13 |
# 分布ロバスト性を考慮したオフラインコンテキスト帯域の改善 Improving Offline Contextual Bandits with Distributional Robustness ( http://arxiv.org/abs/2011.06835v1 ) ライセンス: Link先を確認 | Otmane Sakhi, Louis Faury, Flavian Vasile | (参考訳) 本稿では、オフラインコンテキストの帯域幅に対する分散ロバスト最適化(DRO)アプローチを拡張する。
具体的には、この枠組みを利用して、対実的リスク最小化原則の凸改革を導入する。
凸プログラムに依存することに加えて,この手法は確率最適化と互換性があり,大規模データレジームに容易に適用できる。
我々のアプローチは、DROフレームワークによるオフラインコンテキストの帯域に対する漸近的信頼区間の構築に依存している。
また、ロバストな推定器の漸近的な結果を利用して、そのような信頼区間を自動的に調整する方法を示し、それによって政策最適化におけるハイパーパラメータ選択の負担を解消する。
本手法の有効性を裏付ける予備的な実験結果を示す。 This paper extends the Distributionally Robust Optimization (DRO) approach for offline contextual bandits. Specifically, we leverage this framework to introduce a convex reformulation of the Counterfactual Risk Minimization principle. Besides relying on convex programs, our approach is compatible with stochastic optimization, and can therefore be readily adapted tothe large data regime. Our approach relies on the construction of asymptotic confidence intervals for offline contextual bandits through the DRO framework. By leveraging known asymptotic results of robust estimators, we also show how to automatically calibrate such confidence intervals, which in turn removes the burden of hyper-parameter selection for policy optimization. We present preliminary empirical results supporting the effectiveness of our approach. | 翻訳日:2022-09-25 23:18:48 公開日:2020-11-13 |
# 回帰の文脈における集団的リスクの等化とデモグラフィックパリティに適合する予測の例 An example of prediction which complies with Demographic Parity and equalizes group-wise risks in the context of regression ( http://arxiv.org/abs/2011.07158v1 ) ライセンス: Link先を確認 | Evgenii Chzhen and Nicolas Schreuder | (参考訳) 例えば、$(X, S, Y) \in \mathbb{R}^p \times \{1, 2\} \times \mathbb{R}$ を、ある合同分布の後に三重項とする。
ベイズ最適予測 $f^*$ は異なる処理をしないが、これは $f^*(x) = \mathbb{e}[y | x = x]$ と定義される。
統計学的パリティ \begin{align} (f(x) | s = 1) &\stackrel{d}{=} (f(x) | s = 2) \end{align} and equal group-wise risk \begin{align} \mathbb{e}[(f^*(x) - f(x))^2 | s = 1] = \mathbb{e}[(f^*(x) - f(x))^2 | s = 2] である。
\end{align} 我々の知る限りでは、これは上記のことを満足する非インスタンス予測器の明示的な構築である。
この結果のいくつかの意味について,アルゴリズム的公平性に関する数学的概念の理解を深めることについて論じる。 Let $(X, S, Y) \in \mathbb{R}^p \times \{1, 2\} \times \mathbb{R}$ be a triplet following some joint distribution $\mathbb{P}$ with feature vector $X$, sensitive attribute $S$ , and target variable $Y$. The Bayes optimal prediction $f^*$ which does not produce Disparate Treatment is defined as $f^*(x) = \mathbb{E}[Y | X = x]$. We provide a non-trivial example of a prediction $x \to f(x)$ which satisfies two common group-fairness notions: Demographic Parity \begin{align} (f(X) | S = 1) &\stackrel{d}{=} (f(X) | S = 2) \end{align} and Equal Group-Wise Risks \begin{align} \mathbb{E}[(f^*(X) - f(X))^2 | S = 1] = \mathbb{E}[(f^*(X) - f(X))^2 | S = 2]. \end{align} To the best of our knowledge this is the first explicit construction of a non-constant predictor satisfying the above. We discuss several implications of this result on better understanding of mathematical notions of algorithmic fairness. | 翻訳日:2022-09-25 23:18:37 公開日:2020-11-13 |
# Auxiliary Supervision of Attribute-wise Keypoint を用いた歩行者属性認識のためのDeep Template Matching Deep Template Matching for Pedestrian Attribute Recognition with the Auxiliary Supervision of Attribute-wise Keypoints ( http://arxiv.org/abs/2011.06798v1 ) ライセンス: Link先を確認 | Jiajun Zhang, Pengyuan Ren and Jianmin Li | (参考訳) 歩行者属性認識(par)は,映像監視において重要な役割を担っている。
ほとんどの場合、特定の属性の存在は部分的な領域と強く関連している。
最近の研究は、属性に対応する領域をローカライズするための注意機構やボディ部分の提案など、複雑なモジュールを設計している。
これらの研究は、属性特定領域のローカライゼーションがパフォーマンス向上に役立つことを証明している。
しかし、これらの部分情報に基づく手法はまだ正確ではなく、モデルの複雑さも増すため、現実的なアプリケーションへのデプロイが難しい。
本稿では,より少ない計算量で体部特徴をキャプチャする深層テンプレートマッチングに基づく手法を提案する。
さらに,人間のポーズキーポイントを用いて識別的局所的手がかりへの学習を指導する補助監督手法を提案する。
提案手法はPETA, PA-100K, RAP, RAPv2 zsを含む大規模歩行者属性データセットに対する最先端の手法と比較して, 性能が優れ, 計算複雑性が低いことを示す。 Pedestrian Attribute Recognition (PAR) has aroused extensive attention due to its important role in video surveillance scenarios. In most cases, the existence of a particular attribute is strongly related to a partial region. Recent works design complicated modules, e.g., attention mechanism and proposal of body parts to localize the attribute corresponding region. These works further prove that localization of attribute specific regions precisely will help in improving performance. However, these part-information-based methods are still not accurate as well as increasing model complexity which makes it hard to deploy on realistic applications. In this paper, we propose a Deep Template Matching based method to capture body parts features with less computation. Further, we also proposed an auxiliary supervision method that use human pose keypoints to guide the learning toward discriminative local cues. Extensive experiments show that the proposed method outperforms and has lower computational complexity, compared with the state-of-the-art approaches on large-scale pedestrian attribute datasets, including PETA, PA-100K, RAP, and RAPv2 zs. | 翻訳日:2022-09-25 23:17:48 公開日:2020-11-13 |
# SALAD:行動検出のための自己評価学習 SALAD: Self-Assessment Learning for Action Detection ( http://arxiv.org/abs/2011.06958v1 ) ライセンス: Link先を確認 | Guillaume Vaudaux-Ruth, Adrien Chan-Hon-Tong, Catherine Achard | (参考訳) 機械学習における自己評価に関する文献は、主にコンセンサスフレームワークによるよく校正されたアルゴリズムの作成に焦点を当てている。
しかし、適切に自信を持つ学習は強力な正規化のように振る舞うことができ、パフォーマンス向上の機会となり得ることを観察し、より正確には、アクション検出の枠組みの中で使用される自己評価スコアの学習は、アクションローカライズプロセス全体を改善することができることを示す。
THUMOS14データセットでは、tIoU@0.5のmAPは42.8\%から44.6\%に改善され、ActivityNet1.3データセットでは50.4\%から51.7\%に改善されている。
tIoU値が低い場合には、両方のデータセットでさらに大きな改善が得られます。 Literature on self-assessment in machine learning mainly focuses on the production of well-calibrated algorithms through consensus frameworks i.e. calibration is seen as a problem. Yet, we observe that learning to be properly confident could behave like a powerful regularization and thus, could be an opportunity to improve performance.Precisely, we show that used within a framework of action detection, the learning of a self-assessment score is able to improve the whole action localization process.Experimental results show that our approach outperforms the state-of-the-art on two action detection benchmarks. On THUMOS14 dataset, the mAP at tIoU@0.5 is improved from 42.8\% to 44.6\%, and from 50.4\% to 51.7\% on ActivityNet1.3 dataset. For lower tIoU values, we achieve even more significant improvements on both datasets. | 翻訳日:2022-09-25 23:17:31 公開日:2020-11-13 |
# 高次元マルチタスク平均化とカーネル平均埋め込みへの応用 High-Dimensional Multi-Task Averaging and Application to Kernel Mean Embedding ( http://arxiv.org/abs/2011.06794v1 ) ライセンス: Link先を確認 | Hannah Marienwald (TUB), Jean-Baptiste Fermanian (ENS Rennes), Gilles Blanchard (DATASHAPE, LMO, CNRS) | (参考訳) 本稿では,個別の独立データセットを用いた複数分布の同時推定を目標としたマルチタスク平均化問題に対する推定法の改良を提案する。
ナイーブなアプローチは、各データセットの実証的平均を個別に取ることであるが、提案手法では、事前の情報を知らずにタスク間の類似性を利用する。
まず、各データセットについて、類似又は隣接手段を複数のテストによりデータから判定する。
すると、各ナイーブ推定器は隣人の局所平均に向かって縮小される。
このアプローチが平均二乗誤差の低減をもたらすことを理論的に証明する。
この改善は、入力空間の次元が大きい場合に重要となり、「次元の祝福」現象を示す。
このアプローチの応用は、複数のカーネル平均埋め込みの推定であり、現代の多くのアプリケーションにおいて重要な役割を果たす。
理論結果は、人工および実世界のデータで検証される。 We propose an improved estimator for the multi-task averaging problem, whose goal is the joint estimation of the means of multiple distributions using separate, independent data sets. The naive approach is to take the empirical mean of each data set individually, whereas the proposed method exploits similarities between tasks, without any related information being known in advance. First, for each data set, similar or neighboring means are determined from the data by multiple testing. Then each naive estimator is shrunk towards the local average of its neighbors. We prove theoretically that this approach provides a reduction in mean squared error. This improvement can be significant when the dimension of the input space is large, demonstrating a "blessing of dimensionality" phenomenon. An application of this approach is the estimation of multiple kernel mean embeddings, which plays an important role in many modern applications. The theoretical results are verified on artificial and real world data. | 翻訳日:2022-09-25 23:16:31 公開日:2020-11-13 |