このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200325となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子モナリザ猫 Quantum Mona Lisa Cat ( http://arxiv.org/abs/2001.10184v2 ) ライセンス: Link先を確認 | Rashid Ahmad, Sumaira Nawaz | (参考訳) Schr\"{o}dinger's Cat was proposed by Erwin Schr\"{o}dinger, the infamous thought experiment in which a cat in a box was both alive and dead simultaneously illustrating a quantum phenomenon known as superposition. In 2013, Yakir Aharonov and his co-authors conceived of an experiment suggesting that a particle can be separated from its property. They called the effect a "Quantum Cheshire Cat" that has been experimentally verified in the succeeding year. The name Quantum Cheshire Cat is inspired from a fanciful character of the Cheshire Cat in "\textit{Alice's Adventures in Wonderland"} a novel written by Lewis Carroll where the grin of cat is found without a cat.
ここで重要な疑問が生まれる。
チェシャー・キャットのグラインが分離されると、グラインと猫の間にはまだ相関関係が残っていますか?
To answer the question we propose a thought experiment in which Quantum Cheshire Cat is also a Schr\"{o}dinger's Cat existing in superposition of happy(smiling) and sad(frowning) states. We name this cat as a "Quantum Mona Lisa Cat" for the reason that historically it is presumed that Mona Lisa's portrait contains both characteristics of happy(smiling) and sad(frowning) and either is observed depending upon the mood of the observer. We show that property separated from particle behave as "Quantum Mona Lisa Cat". Schr\"{o}dinger's Cat was proposed by Erwin Schr\"{o}dinger, the infamous thought experiment in which a cat in a box was both alive and dead simultaneously illustrating a quantum phenomenon known as superposition. In 2013, Yakir Aharonov and his co-authors conceived of an experiment suggesting that a particle can be separated from its property. They called the effect a "Quantum Cheshire Cat" that has been experimentally verified in the succeeding year. The name Quantum Cheshire Cat is inspired from a fanciful character of the Cheshire Cat in "\textit{Alice's Adventures in Wonderland"} a novel written by Lewis Carroll where the grin of cat is found without a cat. An important question arises here. Once the grin of the Cheshire Cat is separated, is there any correlation still left between the grin and the cat? To answer the question we propose a thought experiment in which Quantum Cheshire Cat is also a Schr\"{o}dinger's Cat existing in superposition of happy(smiling) and sad(frowning) states. We name this cat as a "Quantum Mona Lisa Cat" for the reason that historically it is presumed that Mona Lisa's portrait contains both characteristics of happy(smiling) and sad(frowning) and either is observed depending upon the mood of the observer. We show that property separated from particle behave as "Quantum Mona Lisa Cat". | 翻訳日:2023-06-05 09:13:08 公開日:2020-03-25 |
# ワークショップ報告:Brightest Light Initiative(2019年3月27-29日、ワシントンD.C.OSA本部) Workshop Report: Brightest Light Initiative (March 27-29 2019, OSA Headquarters, Washington, D.C.) ( http://arxiv.org/abs/2002.09712v2 ) ライセンス: Link先を確認 | Roger Falcone (UC Berkeley) Felicie Albert (LLNL) Farhat Beg (UC San Diego) Siegfried Glenzer (SLAC) Todd Ditmire (UT Austin) Tom Spinka (LLNL) Jonathan Zuegel (Univ. Rochester) | (参考訳) このbli(brightest light initiative)ワークショップレポートは、2019年3月27日から29日にかけてワシントンd.c.で開催されたコミュニティ主導のワークショップで、100人以上の主要な科学者による作業を可能にするための重要な研究アイデアと推奨を捉えている。
ワークショップの参加者は、高輝度レーザーによって実現される科学のための、主要な機会と現在の技術と能力のギャップについて理解を深めた。 This Brightest Light Initiative (BLI) Workshop Report captures the important research ideas and recommendations for enabling that work developed by over 100 leading scientists at a community-initiated workshop held March 27-29, 2019 in Washington, DC. Workshop attendees developed an understanding of key opportunities, as well as gaps in current technologies and capabilities, for science enabled by the highest-intensity lasers. | 翻訳日:2023-06-02 09:05:11 公開日:2020-03-25 |
# 親ガス中に浸漬した冷分子イオンの振動焼成 Vibrational quenching of cold molecular ions immersed in their parent gas ( http://arxiv.org/abs/2003.01419v2 ) ライセンス: Link先を確認 | Krzysztof Jachymski and Florian Meinert | (参考訳) ハイブリッドイオン原子系は、量子効果が一般的である低温における状態分解量子化学の研究のための優れたプラットフォームを提供する。
本研究では, 背景ガス原子との衝突による初期弱結合分子イオンの振動緩和過程を理論的に研究する。
この非弾性過程は、相互作用ポテンシャルの普遍的長距離部分によって制御され、複数の原子種に適用可能な簡易なモデルポテンシャルの使用を可能にする。
衝突後の積分布は、歪曲波ボーン近似を用いて推定できる。
非弾性衝突は分子イオンの結合エネルギーの小さな変化に主に繋がる。 Hybrid ion-atom systems provide an excellent platform for studies of state-resolved quantum chemistry at low temperatures, where quantum effects may be prevalent. Here we study theoretically the process of vibrational relaxation of an initially weakly bound molecular ion due to collisions with the background gas atoms. We show that this inelastic process is governed by the universal long-range part of the interaction potential, which allows for using simplified model potentials applicable to multiple atomic species. The product distribution after the collision can be estimated by making use of the distorted wave Born approximation. We find that the inelastic collisions lead predominantly to small changes in the binding energy of the molecular ion. | 翻訳日:2023-05-31 07:38:20 公開日:2020-03-25 |
# 周期変調量子光学系からの散乱の解析と幾何学的性質 Analytic and geometric properties of scattering from periodically modulated quantum-optical systems ( http://arxiv.org/abs/2003.10673v2 ) ライセンス: Link先を確認 | Rahul Trivedi, Alex White, Shanhui Fan and Jelena Vuckovic | (参考訳) 周期変調量子光学系からの光子の散乱について検討する。
励起数保存量子光学系に対して、系の周波数領域N-光子散乱行列の解析構造を、有効ハミルトニアンのフロケ分解に接続する。
さらに、変調周波数に対する伝送または等時間n-光子相関スペクトルに対する第1次寄与は、自然界において完全に幾何学的であり、すなわち、変調が適用される正確な性質によらず、ハミルトニアン軌道のみに依存することを示した。 We study the scattering of photons from periodically modulated quantum-optical systems. For excitation-number conserving quantum optical systems, we connect the analytic structure of the frequency-domain N-photon scattering matrix of the system to the Floquet decomposition of its effective Hamiltonian. Furthermore, it is shown that the first order contribution to the transmission or equal-time N-photon correlation spectrum with respect to the modulation frequency is completely geometric in nature i.e. it only depends on the Hamiltonian trajectory and not on the precise nature of the modulation being applied. | 翻訳日:2023-05-28 01:17:30 公開日:2020-03-25 |
# コロンビアのボゴタで、コロナウイルス関連の症状について投稿している人は? What is the people posting about symptoms related to Coronavirus in Bogota, Colombia? ( http://arxiv.org/abs/2003.11159v1 ) ライセンス: Link先を確認 | Josimar E. Chire Saire and Roberto C. Navarro | (参考訳) 世界保健機関(WHO)が作成し、経済、健康、政治など多くの分野に影響を及ぼす新型コロナウイルスの新たな変異について、ここ数カ月で警戒が高まっている。
この状況は多くの国で急速に拡大しているため、WHOはパンデミックを宣言した。
同時に、人々はソーシャルネットワークを使って自分の考え、感覚、実験を表現するので、この人々は社会的センサーであり、都市で起きていることを分析するのに役立ちます。
本研究の目的は, ボゴタに居住するコロンビア人の半径50kmの文献を, シンポトマトロジーによるテキストマイニング技術を用いて分析することである。
その結果,コビッド19の症状に関連するコロンビアの感染拡大の理解が裏付けられた。 During the last months, there is an increasing alarm about a new mutation of coronavirus, covid-19 coined by World Health Organization(WHO) with an impact in many areas: economy, health, politics and others. This situation was declared a pandemic by WHO, because of the fast expansion over many countries. At the same time, people is using Social Networks to express what they think, feel or experiment, so this people are Social Sensors and helps to analyze what is happening in their city. The objective of this paper is analyze the publications of Colombian people living in Bogota with a radius of 50 km using Text Mining techniques from symptomatology approach. The results support the understanding of the spread in Colombia related to symptoms of covid19. | 翻訳日:2023-05-27 23:01:18 公開日:2020-03-25 |
# EUの意思決定のための人工知能。
市民の入力・スループット・出力の正当性に対する影響 Artificial Intelligence for EU Decision-Making. Effects on Citizens Perceptions of Input, Throughput and Output Legitimacy ( http://arxiv.org/abs/2003.11320v1 ) ライセンス: Link先を確認 | Christopher Starke, Marco Luenich | (参考訳) 政治的正当性の欠如は、欧州連合が主要な危機を解決する能力を傷つけ、システム全体の安定性を脅かしている。
デジタルデータを政治プロセスに統合することで、EUは健全な経験的証拠に基づく意思決定をますます進めようとしている。
特に、人工知能システムは、社会的問題を特定し、潜在的な政策成果を予測し、政策プロセスを通知し、政策の有効性を評価することで、政治的正当性を高める可能性がある。
本稿では、EUの入力、スループット、出力の正当性に対する市民の認識が、3つの異なる意思決定方法の影響について検討する。
第一に、独立した人間の意思決定、HDM、第二に、独立したアルゴリズムによる意思決定、ADM、第三に、EU政治家とAIベースのシステムによるハイブリッドな意思決定。
事前登録された572人のオンライン実験の結果は、既存のeuの意思決定アレンジが依然として最も民主的な入力の正当性であると認識されていることを示唆している。
しかし、意思決定プロセス自体の正当性、および政策成果のアウトプットの正当性については、ADMと民主的に選出されたEU機関の両方が関与する、現状とハイブリッドな意思決定の間には差は見られなかった。
ADMシステムが唯一の意思決定者である場合、回答者はこれらを非合法とみなす傾向にある。
本稿は、EUの正当性とデータ駆動型政策立案におけるこれらの知見の意義について論じる。 A lack of political legitimacy undermines the ability of the European Union to resolve major crises and threatens the stability of the system as a whole. By integrating digital data into political processes, the EU seeks to base decision-making increasingly on sound empirical evidence. In particular, artificial intelligence systems have the potential to increase political legitimacy by identifying pressing societal issues, forecasting potential policy outcomes, informing the policy process, and evaluating policy effectiveness. This paper investigates how citizens perceptions of EU input, throughput, and output legitimacy are influenced by three distinct decision-making arrangements. First, independent human decision-making, HDM, Second, independent algorithmic decision-making, ADM, and, third, hybrid decision-making by EU politicians and AI-based systems together. The results of a pre-registered online experiment with 572 respondents suggest that existing EU decision-making arrangements are still perceived as the most democratic - input legitimacy. However, regarding the decision-making process itself - throughput legitimacy - and its policy outcomes - output legitimacy, no difference was observed between the status quo and hybrid decision-making involving both ADM and democratically elected EU institutions. Where ADM systems are the sole decision-maker, respondents tend to perceive these as illegitimate. The paper discusses the implications of these findings for EU legitimacy and data-driven policy-making. | 翻訳日:2023-05-27 22:58:05 公開日:2020-03-25 |
# 複素逐次成長モデルにおける共分散の基準 A Criterion for Covariance in Complex Sequential Growth Models ( http://arxiv.org/abs/2003.11311v1 ) ライセンス: Link先を確認 | Sumati Surya and Stav Zalel | (参考訳) 因果集合の古典的な逐次成長モデルは、深い量子構造におけるダイナミクスのテンプレートを提供する。
この成長のダイナミクスは本質的に時間的かつ因果的であり、新しい要素は過去を乱さずに既存の因果集合に追加される。
量子バージョンでは、事象代数上の確率測度はヒルベルト空間の値である量子測度に置き換えられる。
成長過程の時間性のため、このアプローチでは、量子測度が事象の関連するシグマ代数に拡張した場合に限り、共変可観測(または可観測)が測定可能である。
これは必ずしも保証されない。
この研究では、因果集合の複素逐次成長モデルにおける拡張(およびテンス共分散)の基準を見つける。
測度が拡張される大きなモデル群を見つけると、すべての共変可観測性は測定可能である。 The classical sequential growth model for causal sets provides a template for the dynamics in the deep quantum regime. This growth dynamics is intrinsically temporal and causal, with each new element being added to the existing causal set without disturbing its past. In the quantum version, the probability measure on the event algebra is replaced by a quantum measure, which is Hilbert space valued. Because of the temporality of the growth process, in this approach, covariant observables (or beables) are measurable only if the quantum measure extends to the associated sigma algebra of events. This is not always guaranteed. In this work we find a criterion for extension (and thence covariance) in complex sequential growth models for causal sets. We find a large family of models in which the measure extends, so that all covariant observables are measurable. | 翻訳日:2023-05-27 22:57:40 公開日:2020-03-25 |
# 遠方のマクロ力学系とスピン系の絡み合い Entanglement between Distant Macroscopic Mechanical and Spin Systems ( http://arxiv.org/abs/2003.11310v1 ) ライセンス: Link先を確認 | Rodrigo A. Thomas, Micha{\l} Parniak, Christoffer {\O}stfeldt, Chistoffer B. M{\o}ller, Christian B{\ae}rentsen, Yeghishe Tsaturyan, Albert Schliesser, J\"urgen Appel, Emil Zeuthen, Eugene S. Polzik | (参考訳) 絡み合いは多部量子系の重要な性質であり、空間的分離に関係なく物体の量子状態の分離性によって特徴づけられる。
ますますマクロ的かつ異質なシステム間の絡み合いの生成は、ハイブリッド量子ネットワーク、量子エンハンスドセンシング、量子理論の基本的限界の探索を可能にする量子科学において、進行中の取り組みである。
ハイブリッドシステムの格差と量子相関の脆弱性は、これまでマクロ的なハイブリッド絡みの発生を妨げてきた。
ここでは, 分離限界以下のアインシュタイン・ポドルスキー・ローゼン分散, $0.83 \pm 0.02<1$で観測された, マクロメカニカル発振器の運動と原子スピン発振器との絡み合った状態の発生を初めて示す。
機械発振器はミリメートルサイズの誘電体膜であり、スピン発振器は磁場中の10^9$原子のアンサンブルである。
2つの空間的に分離された系を伝播する光は、効果的な負質量参照系の役割を担う集団スピンによる絡み合いを生成し、理想的な状況下ではバックアクションフリー部分空間を提供する。
我々の研究結果は、力、加速度、重力波検出の応用と、ハイブリッド量子ネットワークにおけるテレポーテーションに基づくプロトコルによる感度の標準量子限界を超える運動の測定への道を開いた。 Entanglement is a vital property of multipartite quantum systems, characterised by the inseparability of quantum states of objects regardless of their spatial separation. Generation of entanglement between increasingly macroscopic and disparate systems is an ongoing effort in quantum science which enables hybrid quantum networks, quantum-enhanced sensing, and probing the fundamental limits of quantum theory. The disparity of hybrid systems and the vulnerability of quantum correlations have thus far hampered the generation of macroscopic hybrid entanglement. Here we demonstrate, for the first time, generation of an entangled state between the motion of a macroscopic mechanical oscillator and a collective atomic spin oscillator, as witnessed by an Einstein-Podolsky-Rosen variance below the separability limit, $0.83 \pm 0.02<1$. The mechanical oscillator is a millimeter-size dielectric membrane and the spin oscillator is an ensemble of $10^9$ atoms in a magnetic field. Light propagating through the two spatially separated systems generates entanglement due to the collective spin playing the role of an effective negative-mass reference frame and providing, under ideal circumstances, a backaction-free subspace; in the experiment, quantum backaction is suppressed by 4.6 dB. Our results pave the road towards measurement of motion beyond the standard quantum limits of sensitivity with applications in force, acceleration,and gravitational wave detection, as well as towards teleportation-based protocols in hybrid quantum networks. | 翻訳日:2023-05-27 22:57:27 公開日:2020-03-25 |
# 光子数分解検出器を用いた多重単一光子源の最適化 Optimization of multiplexed single-photon sources operated with photon-number-resolving detectors ( http://arxiv.org/abs/2003.11275v1 ) ライセンス: Link先を確認 | Ferenc Bodog, Matyas Mechler, Matyas Koniorczyk, and Peter Adam | (参考訳) 光子数を本質的に解決できる検出器は近年大きく発展しており、このような検出器が応用できるような多重化された周期的単一光子源に影響を与えることが期待されている。
我々は、光子数分解検出器を用いて、空間的および時間的に多重化された周期的な単一光子源配置を分析する。
我々は,すべての損失機構を考慮した最大単一光子確率を最適化するために,これらの配置の完全な統計記述を開発する。
このモデルは、すべての空間的および時間的多重化スキームの記述に適している。
対称空間多重化の詳細な解析により、新しいタイプの検出器を用いることによって改善につながる特定の損失パラメータの範囲が特定される。
光子数分解能は、実際に検出された光子数でヘラルド戦略を定義することができるようにシステムを最適化する追加の可能性を開く。
その結果, この最適化により, 効率性が向上するパラメータ範囲が拡大した。
さらに、この高い効率は、より少ない多重化単位、すなわちしきい値検出方式に比べてシステムサイズを小さくすることで達成できる。
また,本研究を,実験的妥当性の時間的多重化スキームにも拡張する。
最も高い単光子確率は0.907であり、光子数分解検出器を用いて二分バルク時間多重化によって達成できる。 Detectors inherently capable of resolving photon numbers have undergone a significant development recently, and this is expected to affect multiplexed periodic single-photon sources where such detectors can find their applications. We analyze various spatially and time-multiplexed periodic single-photon source arrangements with photon-number-resolving detectors, partly to identify the cases when they outperform those with threshold detectors. We develop a full statistical description of these arrangements in order to optimize such systems with respect to maximal single-photon probability, taking into account all relevant loss mechanisms. The model is suitable for the description of all spatial and time multiplexing schemes. Our detailed analysis of symmetric spatial multiplexing identifies a particular range of loss parameters in which the use of the new type of detectors leads to an improvement. Photon number resolution opens an additional possibility for optimizing the system in that the heralding strategy can be defined in terms of actual detected photon numbers. Our results show that this kind of optimization opens an additional parameter range of improved efficiency. Moreover, this higher efficiency can be achieved by using less multiplexed units, i.e., smaller system size as compared to threshold-detector schemes. We also extend our investigation to certain time-multiplexed schemes of actual experimental relevance. We find that the highest single-photon probability is 0.907 that can be achieved by binary bulk time multiplexers using photon-number-resolving detectors. | 翻訳日:2023-05-27 22:57:01 公開日:2020-03-25 |
# 超伝導量子回路を用いた有限時間量子等温過程のシミュレーション Simulating finite-time quantum isothermal processes with generic superconducting quantum circuit ( http://arxiv.org/abs/2003.11269v1 ) ライセンス: Link先を確認 | Jin-Fu Chen, Ying Li, Hui Dong | (参考訳) 有限時間等温過程は量子熱力学において基本であるが、制御パラメータの変化と熱浴との相互作用の組み合わせは複雑である。
このような複雑さは、関連する量の伝統的な熱力学測定の直接的な適用を妨げる。
本稿では, 熱交換過程における処理の分離と熱交換を分離し, その過程を断続的に断熱・等温プロセスに分解する方法を提案する。
分割制御スキームは、量子熱力学を実験的に研究するための新しいプラットフォームを提供するジェネリック量子コンピュータ上で、プロセス全体をシミュレートすることができる。
ibmqx2でシミュレーションを実装し、有限時間等温過程における余分な作業のスケーリングの$\mathrm{\mathcal{c}/\tau}$を示す。 The finite-time isothermal process is fundamental in quantum thermodynamics yet complicated with combination of changing control parameters and the interaction with the thermal bath. Such complexity prevents the direct application of the traditional thermodynamics measurement of the relevant quantities. In this paper, we provide a discrete-step method to separate the work done and the heat exchange in the isothermal process by decomposing the process into piecewise adiabatic and isochoric processes. The piecewise control scheme makes it possible to simulate the whole process on a generic quantum computer, which provides a new platform to experimentally study quantum thermodynamics. We implement the simulation on ibmqx2 to show the $\mathrm{\mathcal{C}/\tau}$ scaling of the extra work in the finite-time isothermal process. | 翻訳日:2023-05-27 22:56:38 公開日:2020-03-25 |
# ツインフィールド量子デジタル署名 Twin-field quantum digital signatures ( http://arxiv.org/abs/2003.11262v1 ) ライセンス: Link先を確認 | Chun-Hui Zhang, Yu-Teng Fan, Chun-Mei Zhang, Guang-Can Guo, and Qin Wang | (参考訳) デジタル署名は情報セキュリティ、特にID認証において重要な技術である。
古典的対応と比較すると、量子デジタルシグネチャ(QDS)はより高度なセキュリティ、すなわち情報理論のセキュリティを提供する。
現在、その性能は鍵生成プロトコル(bb84や測定デバイス非依存プロトコルなど)によって制限されており、チャネル容量の面では基本的に制限されている。
幸いにも、最近提案されたツインフィールド量子鍵分布はこの限界を克服することができる。
本稿では,twin-field qdsプロトコルと対応するセキュリティ解析について述べる。
分散段階では、特定の鍵生成プロトコルである送信または送信しないツインフィールドプロトコルが採用され、完全なパラメータ最適化手法が実装されている。
数値シミュレーションの結果,本プロトコルは他のプロトコルと比較してセキュリティと実用性に優れることがわかった。
したがって、新しいプロトコルはQDSの現実的応用への道を開く。 Digital signature is a key technique in information security, especially for identity authentications. Compared with classical correspondence, quantum digital signatures (QDSs) provide a considerably higher level of security, i.e., information-theoretic security. At present, its performance is limited by key generation protocols (e.g., BB84 or measurement-device-independent protocols), which are fundamentally limited in terms of channel capacity. Fortunately, the recently proposed twin-field quantum key distribution can overcome this limit. This paper presents a twin-field QDS protocol and details a corresponding security analysis. In its distribution stage, a specific key generation protocol, the sending-or-not-sending twin-field protocol, has been adopted and full parameter optimization method has been implemented. Numerical simulation results show that the new protocol exhibits outstanding security and practicality compared with all other existing protocols. Therefore, the new protocol paves the way toward real-world applications of QDSs | 翻訳日:2023-05-27 22:56:22 公開日:2020-03-25 |
# 異なる幾何学構造を持つKostant-Souriau量子化マップのオートチューニング Tautological Tuning of the Kostant-Souriau Quantization Map with Differential Geometric Structures ( http://arxiv.org/abs/2003.11480v1 ) ライセンス: Link先を確認 | Tom McClain | (参考訳) 数学物理学者は何十年もの間、正準量子化のアドホック過程を置き換えるための座標独立量子化法を模索してきた。
この研究は幾何量子化と変形量子化という2つの異なる研究プログラムにまとめられている。
どちらのプログラムも多くの成功を主張できるが、数学的な複雑さと経験的モデルとしての実用的失敗の両方から、より実験的に考えられた量子物理学コミュニティでは主流に受け入れられていない。
本稿では,タウトロジー調整量子化と呼ばれる座標独立量子化の代替手法を提案する。
このアプローチではシンプレクティック幾何学とリーマン幾何学の微分幾何学的構造のみを使用し、特にタウトロジー的な1形式とベクトル場(名前の由来)を用いる。
物理的に重要な関数に焦点を絞って、タウトロジー的に調整された量子化は従来の幾何学的量子化や変形量子化よりも正準量子化のアドホックなアプローチにかなり近づいた。
標準微分幾何学構造に焦点が当てられていることから、タウトロジー的に調整された量子化は、共変ハミルトニアン場理論に適用するための伝統的な幾何学的あるいは変形的量子化よりも良い候補であり、したがって古典場の幾何学的量子化への道を開くかもしれない。 For decades, mathematical physicists have searched for a coordinate independent quantization procedure to replace the ad hoc process of canonical quantization. This effort has largely coalesced into two distinct research programs: geometric quantization and deformation quantization. Though both of these programs can claim numerous successes, neither has found mainstream acceptance within the more experimentally minded quantum physics community, owing both to their mathematical complexities and their practical failures as empirical models. This paper introduces an alternative approach to coordinate-independent quantization called tautologically tuned quantization. This approach uses only differential geometric structures from symplectic and Riemannian geometry, especially the tautological one form and vector field (hence the name). In its focus on physically important functions, tautologically tuned quantization hews much more closely to the ad hoc approach of canonical quantization than either traditional geometric quantization or deformation quantization and thereby avoid some of the mathematical challenges faced by those methods. Given its focus on standard differential geometric structures, tautologically tuned quantization is also a better candidate than either traditional geometric or deformation quantization for application to covariant Hamiltonian field theories, and therefore may pave the way for the geometric quantization of classical fields. | 翻訳日:2023-05-27 22:49:22 公開日:2020-03-25 |
# 双安定2次元エキシトン・ポーラリトン超流動における平行暗ソリトン対 Parallel dark soliton pair in a bistable 2D exciton-polariton superfluid ( http://arxiv.org/abs/2003.11408v1 ) ライセンス: Link先を確認 | Giovanni Lerario, Sergei V. Koniakhin, Anne Ma\^itre, Dmitry Solnyshkov, Alessandro Zilio, Quentin Glorieux, Guillaume Malpuech, Elisabeth Giacobino, Simon Pigeon, Alberto Bramati | (参考訳) 渦反渦やダークソリトンのような集団励起は、巨視的量子状態の最も興味深い効果の一つである。
しかし、2Dダークソリトンは不安定であり、ヘビ不安定により渦に崩壊する。
励起子-偏光子マイクロキャビティの光学的不安定性を利用して, 均質レーザビームで共振支持された偏光子流の障害物を誘発して, 一対のダークソリトンが形成されることを示した。
ソリートンが灰色で空間的に分離している純粋に散逸的な場合とは異なり、この2つのソリトンは完全に暗く、特定の分離距離で迅速に整列し、流れが双安定状態にある限り平行に伝播する。
注目すべきことに、この状態を用いることで、共鳴ポンプ系で生じる位相固定を回避し、偏光子崩壊を回避できる。
我々の研究は、光の駆動散逸性量子流体で形成される相密度欠陥の新しいクラスを研究するための、非常に広い視点を開いている。 Collective excitations, such as vortex-antivortex and dark solitons, are among the most fascinating effects of macroscopic quantum states. However, 2D dark solitons are unstable and collapse into vortices due to snake instabilities. Making use of the optical bistability in exciton-polariton microcavities, we demonstrate that a pair of dark solitons can be formed in the wake of an obstacle in a polariton flow resonantly supported by a homogeneous laser beam. Unlike the purely dissipative case where the solitons are grey and spatially separate, here the two solitons are fully dark, rapidly align at a specific separation distance and propagate parallel as long as the flow is in the bistable regime. Remarkably, the use of this regime allows to avoid the phase fixing arising in resonant pumping regime and to circumvent the polariton decay. Our work opens very wide perspectives of studying new classes of phase-density defects which can form in driven-dissipative quantum fluids of light. | 翻訳日:2023-05-27 22:47:14 公開日:2020-03-25 |
# 自然発生時間反転システムにおけるエントロピー生成 Entropy Production in Systems with Spontaneously Broken Time-Reversal ( http://arxiv.org/abs/2003.11341v1 ) ライセンス: Link先を確認 | Mihail Mintchev and Paul Sorba | (参考訳) 本研究では,非平衡量子系における散逸のないエントロピー生成について検討する。
総エネルギーと粒子数を保存し、2つの熱貯水池と接触するシステムを解析する。
点状相互作用に着目し,エントロピー生成作用素によって引き起こされる確率分布を導出する。
すべてのモーメントがゼロ周波数限界で正であることを示す。
この分析はフェルミ統計とボース統計の両方をカバーする。 We study the entropy production in non-equilibrium quantum systems without dissipation, which is generated exclusively by the spontaneous breaking of time-reversal invariance. Systems which preserve the total energy and particle number and are in contact with two heat reservoirs are analysed. Focussing on point-like interactions, we derive the probability distribution induced by the entropy production operator. We show that all its moments are positive in the zero frequency limit. The analysis covers both Fermi and Bose statistics. | 翻訳日:2023-05-27 22:46:55 公開日:2020-03-25 |
# 目覚しいコンピュータセキュリティセミナーに向けて Towards an Insightful Computer Security Seminar ( http://arxiv.org/abs/2003.11340v1 ) ライセンス: Link先を確認 | Kashyap Thimmaraju, Julian Fietkau and Fatemeh Ganji | (参考訳) 本稿では,大学院コンピュータセキュリティセミナーコースの設計と評価における経験について述べる。
特に、私たちのセミナーは2つの目標を念頭に設計されています。
まず, 大学院生に科学文献の読解・読解・提示の仕方を教えることで, 批判的思考を育む。
第2に、ieee symposium on security and privacy (oakland sp)、usenix security, network and distributed system security symposium (ndss)、acm conference on computer and communications security (ccs)を含む4つのセキュリティおよびプライバシカンファレンスのうちの1つからの手続きをレビューして、コンピュータセキュリティおよびプライバシ研究の最先端について学ぶ。
コースには各生徒が参加する
一 最新の会議から特定の技術セッションを選択すること。
二 選定された会期から三件の書類の審査及び提示
三 セッションから選択した論文間の関係を分析すること。
コースを評価するために,学生の選択の背後にある動機と意思決定を理解し,コースの質を評価し,改善するために,一連の質問をデザインした。
もっとも人気のある3つのトピックは、プライバシ、webセキュリティ、認証です。
二 学生の33%が、論文の題名に基づいてそのセッションを選択し、かつ、
三 励まし環境を提供するときは、学生が楽しんで議論をする。 In this paper we describe our experience in designing and evaluating our graduate level computer security seminar course. In particular, our seminar is designed with two goals in mind. First, to instil critical thinking by teaching graduate students how to read, review and present scientific literature. Second, to learn about the state-of-the-art in computer security and privacy research by reviewing proceedings from one of the top four security and privacy conferences including IEEE Symposium on Security and Privacy (Oakland SP), USENIX Security, Network and Distributed System Security Symposium (NDSS) and ACM Conference on Computer and Communications Security (CCS). The course entails each student to i) choose a specific technical session from the most recent conference, ii) review and present three papers from the chosen session and iii) analyze the relationship between the chosen papers from the session. To evaluate the course, we designed a set of questions to understand the motivation and decisions behind the students' choices as well as to evaluate and improve the quality of the course. Our key insights from the evaluation are the following: The three most popular topics of interest were Privacy, Web Security and Authentication, ii) 33% of the students chose the sessions based on the title of papers and iii) when providing an encouraging environment, students enjoy and engage in discussions. | 翻訳日:2023-05-27 22:46:47 公開日:2020-03-25 |
# アバター作業:アバターロボット「OriHime-D」を用いた障害者のためのテレワークとその検証 Avatar Work: Telework for Disabled People Unable to Go Outside by Using Avatar Robots "OriHime-D" and Its Verification ( http://arxiv.org/abs/2003.12569v1 ) ライセンス: Link先を確認 | Kazuaki Takeuchi, Yoichi Yamazaki, and Kentaro Yoshifuji | (参考訳) 本研究では,障害のある人が,寝たきりでも自由心が持てば何でもできる包括的な社会を実現するために,カスタマサービスなどの身体活動に携わることを可能にするテレワーク「アバターワーク」を提案する。
アバターワークでは、障害のある人は、提案されたロボット「おりひめd」をマウスで操作したり、自分の障害に応じて視線入力をしたりすることで、リモートで身体作業を行うことができる。
アバターワークのソーシャル実装イニシアチブとして、2週間の限定アバターロボットカフェを開設し、OriHime-Dを用いて障害者によるリモート雇用の評価を行った。
障害のある10名による結果として,提案するアバター作業は,障害のある人のメンタルフルフィルメントにつながり,適応可能な作業負荷で設計できることを確認した。
また, 実験カフェの作業内容は, 社会参加を求める多様な障害者に適していることを確認した。
本研究は、生活と生涯の作業を通してのフルフィルメントに寄与し、同時に、雇用不足問題への解決策となる。 In this study, we propose a telework "avatar work" that enables people with disabilities to engage in physical works such as customer service in order to realize an inclusive society, where we can do anything if we have free mind, even though we are bedridden. In avatar work, disabled people can remotely engage in physical work by operating a proposed robot "OriHime-D" with a mouse or gaze input depending on their own disabilities. As a social implementation initiative of avatar work, we have opened a two-week limited avatar robot cafe and have evaluated remote employment by people with disabilities using OriHime-D. As the results by 10 people with disabilities, we have confirmed that the proposed avatar work leads to mental fulfillment for people with disparities, and can be designed with adaptable workload. In addition, we have confirmed that the work content of the experimental cafe is appropriate for people with a variety of disabilities seeking social participation. This study contributes to fulfillment all through life and lifetime working, and at the same time leads to a solution to the employment shortage problem. | 翻訳日:2023-05-27 22:38:48 公開日:2020-03-25 |
# バイオサイバーセキュリティの新興領域と関連する考察 On the Emerging Area of Biocybersecurity and Relevant Considerations ( http://arxiv.org/abs/2003.12132v1 ) ライセンス: Link先を確認 | Xavier-Lewis Palmer, Lucas Potter, and Saltuk Karahan | (参考訳) バイオサイバーセキュリティは21世紀の新しい空間であり、バイオテクノロジーとコンピューティングの分野における私たちのイノベーションを満たしている。
この領域では、グループは資産管理と保護を適切に保証する製品や政策の開発に努力するので、多くの考慮と要求が開かれている。
ここでは、簡易かつ簡潔な探索を行い、その後、衝突に関する表面的な議論を行う。
これらの影響はエンドユーザ、倫理的および法的考慮、国際手続、ビジネス、および制限に関するものである。
今後, バイオサイバシセキュリティ政策の展開と実施に資することが期待されている。
注意:この記事は2020年度情報通信会議(FICC)の論文に掲載される。 Biocybersecurity is a novel space for the 21st century that meets our innovations in biotechnology and computing head on. Within this space, many considerations are open for and demand consideration as groups endeavor to develop products and policies that adequately ensure asset management and protection. Herein, simplified and brief exploration is given followed by some surface discussion of impacts. These impacts concern the end user, ethical and legal considerations, international proceedings, business, and limitations. It is hoped that this will be helpful in future considerations towards biocybersecurity policy developments and implementations. Notice: This article has been queued for publication in the Proceedings of the 2020 Future of Information and Communication Conference (FICC) | 翻訳日:2023-05-27 22:38:26 公開日:2020-03-25 |
# 量子暗号における削除チャネルにおける情報理論パズルから除去可能性へ From Information Theory Puzzles in Deletion Channels to Deniability in Quantum Cryptography ( http://arxiv.org/abs/2003.11663v1 ) ライセンス: Link先を確認 | Arash Atashpendar | (参考訳) 既知長$n$の一様ランダム入力を有するメモリレス削除チャネルによって生成された出力から、チャネル入力における後続分布を得る。
この分布のシャノンエントロピーと均一事前のシャノンエントロピーの違いは、長さ$m$の出力によって伝達されるチャネル入力に関する情報量を測定する。
実験データに基づいて、後部のエントロピーは定数文字列$\texttt{000}\ldots$, $\texttt{111}\ldots$, $\texttt{0101}\ldots$, $\texttt{1010}\ldots$によって最小化され、交互文字列$\texttt{0101}\ldots$, $\texttt{1010}\ldots$によって最大化される。
二進数 (sub/super) 列を含む関連する組合せ定理を提案し、クラスタリング手法を用いて単一および二重削除に対する最小エントロピー予想を証明する。
次に,Frajolet, Szpankowski, Vall\'ee の解析組合せ法が,関数の生成に依存して,固定出力長と$n\rightarrow\infty$ の場合にどのように適用できるかを示すことによって,単語統計学の結果を用いて,漸近的極限における最小化予想を証明した。
次に、量子鍵交換(qke)におけるデニラビリティの概念を再検討する。
我々は,コーサー・デニイブルQKEの概念を導入し,定式化する。
次に,シーカレット通信とデニビリティの接続を確立し,よりシンプルで確実なQKE構築手法であるDC-QKEを提案する。
本稿では,量子情報理論における基本的概念に対するデニラビリティを関連づけ,情報理論的なデニラビリティを達成するためのエンタングルメント蒸留に基づくジェネリックアプローチを提案し,さらに無条件に安全な量子ビットのコミットメントとデニラビリティの関係など,他の密接に関連する結果の分析を行った。
最後に,完全準同型暗号に基づく,効率的な強制耐性と量子セキュアな投票方式を提案する。 From the output produced by a memoryless deletion channel with a uniformly random input of known length $n$, one obtains a posterior distribution on the channel input. The difference between the Shannon entropy of this distribution and that of the uniform prior measures the amount of information about the channel input which is conveyed by the output of length $m$. We first conjecture on the basis of experimental data that the entropy of the posterior is minimized by the constant strings $\texttt{000}\ldots$, $\texttt{111}\ldots$ and maximized by the alternating strings $\texttt{0101}\ldots$, $\texttt{1010}\ldots$. We present related combinatorial theorems involving binary (sub/super)-sequences and prove the minimal entropy conjecture for single and double deletions using clustering techniques. We then prove the minimization conjecture in the asymptotic limit using results from hidden word statistics by showing how the analytic-combinatorial methods of Flajolet, Szpankowski and Vall\'ee, relying on generating functions, can be applied to resolve the case of fixed output length and $n\rightarrow\infty$. Next, we revisit the notion of deniability in quantum key exchange (QKE). We introduce and formalize the notion of coercer-deniable QKE. We then establish a connection between covert communication and deniability to propose DC-QKE, a simple and provably secure construction for coercer-deniable QKE. We relate deniability to fundamental concepts in quantum information theory and suggest a generic approach based on entanglement distillation for achieving information-theoretic deniability, followed by an analysis of other closely related results such as the relation between the impossibility of unconditionally secure quantum bit commitment and deniability. Finally, we present an efficient coercion-resistant and quantum-secure voting scheme, based on fully homomorphic encryption. | 翻訳日:2023-05-27 22:38:15 公開日:2020-03-25 |
# 非線形状態における光学系を持つ量子力学 Quantum metrology with optomechanical systems in the nonlinear regime ( http://arxiv.org/abs/2003.11656v1 ) ライセンス: Link先を確認 | Sofia Qvarfort | (参考訳) この論文は非線形空洞光学系の数学的記述と応用に焦点を当てている。
第1部は、時間依存的な機械的変位と単一モードのスクイーズ項を付加した標準非線形光学ハミルトンの力学の解法に関するものである。
この解は、システムの時間進化を生成するリー代数の同定に基づいており、これは実函数の連結常微分方程式の有限集合を考えることに問題を還元する。
第二部は、拡張光学的ハミルトンの解を非ガウス性の研究に適用する。
我々は、ハミルトニアンにおけるパラメータの関数として光力学状態の非ガウス性特性を計算し、非ガウス性、非線形結合の強さ、単モード機械スクイーズ項の強度の相互作用について検討する。
非線形結合の強さと形式は非ガウス性に強く影響し、スクイーズ項との関係は非常に複雑である。
第3部は非線形光学系を量子センサーとして用いることである。
拡張光機械的ハミルトニアンを与えられた量子フィッシャー情報の一般表現を導出し、非線形光-物質結合の強さ、時間変調された機械的変位の強さ、および共振で変調される単モード機械スクイージングパラメータの強度の3つの具体例を通してその適用性を示す。
論文の最後の章では、光学力学系による一定の重力加速度の推定について考察する。
その結果、光学力学系は原則として強力な量子センサーとして使用できることが示唆された。 This thesis focuses on the mathematical description and application of nonlinear cavity optomechanical systems. The first part is concerned with solving the dynamics of the standard nonlinear optomechanical Hamiltonian with an additional time-dependent mechanical displacement and single-mode squeezing term. The solution is based on identifying a Lie algebra that generates the time-evolution of the system, which reduces the problem to considering a finite set of coupled ordinary differential equations of real functions. The second part applies the solutions of the extended optomechanical Hamiltonian to the study of non-Gaussianity. We compute the non-Gaussian character of an optomechanical state as a function of the parameters in the Hamiltonian, and investigate the interplay between the non-Gaussianity, the strength of the nonlinear coupling and the strength of the single-mode mechanical squeezing term. We find that the strength and form of the nonlinear coupling strongly impacts the non-Gaussianity, and that its relationship with the squeezing term is highly complex. The third part concerns the use of nonlinear optomechanical systems as quantum sensors. We derive a general expression of the quantum Fisher information given the extended optomechanical Hamiltonian and demonstrate its applicability through three concrete examples: estimating the strength of a nonlinear light--matter coupling, the strength of a time-modulated mechanical displacement, and the strength of a single-mode mechanical squeezing parameter, all of which are modulated at resonance. In the last Chapter of the thesis, we consider the estimation of a constant gravitational acceleration with an optomechanical system. Our results suggest that optomechanical systems could, in principle, be used as powerful quantum sensors. | 翻訳日:2023-05-27 22:37:28 公開日:2020-03-25 |
# 再構成可能なノイズロバスト量子ネットワークの量子状態判別 Quantum State Discrimination on Reconfigurable Noise-Robust Quantum Networks ( http://arxiv.org/abs/2003.11586v1 ) ライセンス: Link先を確認 | Nicola Dalla Pozza, Filippo Caruso | (参考訳) 量子情報処理における根本的な問題は、システムの量子状態のセット間の識別である。
本稿では,この問題を,量子確率ウォークによって定義されるグラフによって記述されたオープン量子システム上で解決する。
特に、グラフの構造はニューラルネットワークの構造を模倣し、量子状態は入力ノード上で符号化された符号化を識別し、出力ノード上で得られた識別を識別する。
ネットワークのパラメータを最適化し、正しい識別の確率を最大化する。
数値シミュレーションにより、過渡時間後に正しい決定の確率が理論最適量子限界に近づくことが示された。
これらの結果は小さなグラフに対して解析的に確認される。
最後に、異なる量子状態の集合に対するネットワークの堅牢性と再構成性を分析し、このアーキテクチャが我々のプロトコルの実験的な実現と、ディープラーニングの新たな量子一般化の道を開くことができることを示す。 A fundamental problem in Quantum Information Processing is the discrimination amongst a set of quantum states of a system. In this paper, we address this problem on an open quantum system described by a graph, whose evolution is defined by a Quantum Stochastic Walk. In particular, the structure of the graph mimics those of neural networks, with the quantum states to discriminate encoded on input nodes and with the discrimination obtained on the output nodes. We optimize the parameters of the network to obtain the highest probability of correct discrimination. Numerical simulations show that after a transient time the probability of correct decision approaches the theoretical optimal quantum limit. These results are confirmed analytically for small graphs. Finally, we analyze the robustness and reconfigurability of the network for different set of quantum states, and show that this architecture can pave the way to experimental realizations of our protocol as well as novel quantum generalizations of deep learning. | 翻訳日:2023-05-27 22:36:47 公開日:2020-03-25 |
# 2+1)d対称性エンリッチ位相状態における絶対異常と完全 (3+1)d構成 Absolute anomalies in (2+1)D symmetry-enriched topological states and exact (3+1)D constructions ( http://arxiv.org/abs/2003.11553v1 ) ライセンス: Link先を確認 | Daniel Bulmash and Maissam Barkeshli | (参考訳) 2+1)D のトポロジカル秩序相における対称性の分数化のパターンは異常であり、純粋な (2+1)D で実現される障害を持つことを意味する。
本稿では, ボソンの対称性リッチトポロジカル状態(SET)を完全一般性で計算する方法を示す。
我々は、大域対称性群$G$に対する任意のユニタリモジュラーテンソル圏(UMTC)および対称性分数化クラスが与えられたとき、$G$対称性保護位相(SPT)状態の状態和の観点から3+1D位相不変経路積分を定義することができることを示した。
この系に対して、正確に解けるハミルトニアンを示し、(2+1)D$G$対称表面終端を明示的に示し、与えられたUMTCと対称分数化クラスによって記述された任意のエノン励起をホストする。
一般に異常インジケータの計算に使用できる具体的アルゴリズムを提案する。
本手法は,anyon-permuting および anti-unitary symmetries を含む一般対称性群に適用できる。
異常計算の一般的な方法を提供するだけでなく、明示的な構成により、任意のUMTCに対するすべての対称性分数化クラスが、3+1D SPT状態の表面で実現可能であることを示す。
副産物として、この構成はまた、対称性の分数化を定義する代数的データが、完全に解決可能なモデルの文脈でどのように生じるかを明確に示す方法を提供する。
ユニタリ方向保存対称性の場合、この結果は、これまで一般の方法が提示されていない$g$-crossed braided tensor categoryの理論で生じる$\mathcal{h}^4(g, u(1))$の障害を計算する方法であると見なすこともできる。 Certain patterns of symmetry fractionalization in (2+1)D topologically ordered phases of matter can be anomalous, which means that they possess an obstruction to being realized in purely (2+1)D. In this paper we demonstrate how to compute the anomaly for symmetry-enriched topological (SET) states of bosons in complete generality. We demonstrate how, given any unitary modular tensor category (UMTC) and symmetry fractionalization class for a global symmetry group $G$, one can define a (3+1)D topologically invariant path integral in terms of a state sum for a $G$ symmetry-protected topological (SPT) state. We present an exactly solvable Hamiltonian for the system and demonstrate explicitly a (2+1)D $G$ symmetric surface termination that hosts deconfined anyon excitations described by the given UMTC and symmetry fractionalization class. We present concrete algorithms that can be used to compute anomaly indicators in general. Our approach applies to general symmetry groups, including anyon-permuting and anti-unitary symmetries. In addition to providing a general way to compute the anomaly, our result also shows, by explicit construction, that every symmetry fractionalization class for any UMTC can be realized at the surface of a (3+1)D SPT state. As a byproduct, this construction also provides a way of explicitly seeing how the algebraic data that defines symmetry fractionalization in general arises in the context of exactly solvable models. In the case of unitary orientation-preserving symmetries, our results can also be viewed as providing a method to compute the $\mathcal{H}^4(G, U(1))$ obstruction that arises in the theory of $G$-crossed braided tensor categories, for which no general method has been presented to date. | 翻訳日:2023-05-27 22:36:00 公開日:2020-03-25 |
# PPDM:リアルタイムヒューマンオブジェクトインタラクション検出のための並列点検出とマッチング PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection ( http://arxiv.org/abs/1912.12898v3 ) ライセンス: Link先を確認 | Yue Liao, Si Liu, Fei Wang, Yanjie Chen, Chen Qian, Jiashi Feng | (参考訳) 我々は,Human-Object Interaction (HOI) を1つのTitan XP GPU上で37fpsでHICO-DETデータセット上の既存手法より優れる一段階検出法を提案する。
これは初めてのリアルタイムHOI検出方法である。
従来のHOI検出方法は、人-対象の提案生成と提案分類の2段階からなる。
その有効性と効率性は、シーケンシャルかつ独立したアーキテクチャによって制限される。
本稿では,Parallel Point Detection and Matching (PPDM) HOI 検出フレームワークを提案する。
PPDMでは、HOIは点三重項<人間点,相互作用点,オブジェクト点>として定義される。
人間とオブジェクトポイントは検出ボックスの中心であり、相互作用ポイントは人間とオブジェクトポイントの中間点である。
PPDMは2つの並列分岐、すなわち点検出分岐と点マッチング分岐を含む。
点検出分岐は3点を予測する。
同時に、点マッチング分岐は、相互作用点から対応する人間および対象点への2つの変位を予測する。
同じ相互作用点に由来するヒューマンポイントとオブジェクトポイントは一致するペアと見なされる。
我々の新しい並列アーキテクチャでは、相互作用ポイントは暗黙的に人間と物体の検出のコンテキストと規則化を提供する。
分離された検出ボックスはHOI三重項の抑制の意味を形成できないため、HOI検出の精度が向上する。
さらに、人間とオブジェクト検出ボックスのマッチングは、限られた数のフィルタされた候補インタラクションポイントでのみ適用され、計算コストが大幅に削減される。
さらに、既存のデータセットを補完するものとして、HOI-Aという新しいアプリケーション指向データベースを構築しました。
ソースコードとデータセットは、HOI検出の開発を容易にするために公開されます。 We propose a single-stage Human-Object Interaction (HOI) detection method that has outperformed all existing methods on HICO-DET dataset at 37 fps on a single Titan XP GPU. It is the first real-time HOI detection method. Conventional HOI detection methods are composed of two stages, i.e., human-object proposals generation, and proposals classification. Their effectiveness and efficiency are limited by the sequential and separate architecture. In this paper, we propose a Parallel Point Detection and Matching (PPDM) HOI detection framework. In PPDM, an HOI is defined as a point triplet < human point, interaction point, object point>. Human and object points are the center of the detection boxes, and the interaction point is the midpoint of the human and object points. PPDM contains two parallel branches, namely point detection branch and point matching branch. The point detection branch predicts three points. Simultaneously, the point matching branch predicts two displacements from the interaction point to its corresponding human and object points. The human point and the object point originated from the same interaction point are considered as matched pairs. In our novel parallel architecture, the interaction points implicitly provide context and regularization for human and object detection. The isolated detection boxes are unlikely to form meaning HOI triplets are suppressed, which increases the precision of HOI detection. Moreover, the matching between human and object detection boxes is only applied around limited numbers of filtered candidate interaction points, which saves much computational cost. Additionally, we build a new application-oriented database named HOI-A, which severs as a good supplement to the existing datasets. The source code and the dataset will be made publicly available to facilitate the development of HOI detection. | 翻訳日:2023-01-17 02:42:52 公開日:2020-03-25 |
# PaRoT:ロバストなディープニューラルネットワークトレーニングのための実践的フレームワーク PaRoT: A Practical Framework for Robust Deep Neural Network Training ( http://arxiv.org/abs/2001.02152v3 ) ライセンス: Link先を確認 | Edward Ayers, Francisco Eiras, Majd Hawasly, Iain Whiteside | (参考訳) ディープニューラルネットワーク(DNN)は、自律走行車(AV)のような安全クリティカルなシステムにおいて重要な応用を見出している。
ブラックボックスの性質による保証のためのユニークな課題の増大により、DNNはこの種のシステムに対する規制の受け入れに根本的な問題を引き起こす。
入力の小さな変更に対する過度な感受性を最小限に抑えるための、堅牢なトレーニング — が、この課題に対処する有望なテクニックとして登場した。
しかしながら、既存の堅牢なトレーニングツールは、既存のコードベースやモデルの使用や適用には不都合である。
本稿では,TensorFlowプラットフォーム上で開発された新しいフレームワークPaRoTを紹介する。
我々のフレームワークは、モデルを書き換えることなく、任意のDNN上で堅牢なトレーニングを実行できる。
当社のフレームワークのパフォーマンスは先行技術に匹敵するものであることを実証し、市販のトレーニング済みモデルでの使いやすさと実世界の産業アプリケーションにおけるテスト能力、すなわちトラフィック光検出ネットワークを実証した。 Deep Neural Networks (DNNs) are finding important applications in safety-critical systems such as Autonomous Vehicles (AVs), where perceiving the environment correctly and robustly is necessary for safe operation. Raising unique challenges for assurance due to their black-box nature, DNNs pose a fundamental problem for regulatory acceptance of these types of systems. Robust training --- training to minimize excessive sensitivity to small changes in input --- has emerged as one promising technique to address this challenge. However, existing robust training tools are inconvenient to use or apply to existing codebases and models: they typically only support a small subset of model elements and require users to extensively rewrite the training code. In this paper we introduce a novel framework, PaRoT, developed on the popular TensorFlow platform, that greatly reduces the barrier to entry. Our framework enables robust training to be performed on arbitrary DNNs without any rewrites to the model. We demonstrate that our framework's performance is comparable to prior art, and exemplify its ease of use on off-the-shelf, trained models and its testing capabilities on a real-world industrial application: a traffic light detection network. | 翻訳日:2023-01-13 20:16:06 公開日:2020-03-25 |
# CONSAC:条件付きサンプルコンセンサスによるロバストなマルチモデルフィッティング CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus ( http://arxiv.org/abs/2001.02643v3 ) ライセンス: Link先を確認 | Florian Kluger, Eric Brachmann, Hanno Ackermann, Carsten Rother, Michael Ying Yang, Bodo Rosenhahn | (参考訳) 同一形状の複数のパラメトリックモデルをノイズ測定に適合させる頑健な推定器を提案する。
応用例としては、人工のシーンで複数の失点を見つけること、建築画像に平面を合わせること、同じシーケンス内で複数の剛性運動を推定することなどがある。
複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。
予め検出されたモデルに条件付けされたニューラルネットワークは、RANSAC推定器をすべての測定の異なるサブセットに誘導し、モデルインスタンスを次々と見つける。
我々は, 自己監督だけでなく, 教師も行う手法を訓練する。
探索戦略の教師付き学習のために,消失点推定のための新しいデータセットを提案する。
このデータセットを利用することで、提案アルゴリズムは他の頑健な推定アルゴリズムや指定された消滅点推定アルゴリズムよりも優れている。
探索の自己教師付き学習では,提案アルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。 We present a robust estimator for fitting multiple parametric models of the same form to noisy measurements. Applications include finding multiple vanishing points in man-made scenes, fitting planes to architectural imagery, or estimating multiple rigid motions within the same sequence. In contrast to previous works, which resorted to hand-crafted search strategies for multiple model detection, we learn the search strategy from data. A neural network conditioned on previously detected models guides a RANSAC estimator to different subsets of all measurements, thereby finding model instances one after another. We train our method supervised as well as self-supervised. For supervised training of the search strategy, we contribute a new dataset for vanishing point estimation. Leveraging this dataset, the proposed algorithm is superior with respect to other robust estimators as well as to designated vanishing point estimation algorithms. For self-supervised learning of the search, we evaluate the proposed algorithm on multi-homography estimation and demonstrate an accuracy that is superior to state-of-the-art methods. | 翻訳日:2023-01-13 12:40:15 公開日:2020-03-25 |
# TEAM:Taylorの拡張に基づく逆例生成手法 TEAM: An Taylor Expansion-Based Method for Generating Adversarial Examples ( http://arxiv.org/abs/2001.08389v2 ) ライセンス: Link先を確認 | Ya-guan Qian, Xi-Ming Zhang, Wassim Swaileh, Li Wei, Bin Wang, Jian-Hai Chen, Wu-Jie Zhou, and Jing-Sheng Lei | (参考訳) Although Deep Neural Networks(DNNs) have achieved successful applications in many fields, they are vulnerable to adversarial examples.Adversarial training is one of the most effective methods to improve the robustness of DNNs, and it is generally considered as solving a saddle point problem that minimizes risk and maximizes perturbation.Therefore, powerful adversarial examples can effectively replicate the situation of perturbation maximization to solve the saddle point problem.The method proposed in this paper approximates the output of DNNs in the input neighborhood by using the Taylor expansion, and then optimizes it by using the Lagrange multiplier method to generate adversarial examples.
敵の訓練に使用すれば、DNNを効果的に正規化し、モデルの欠陥を改善することができる。 Although Deep Neural Networks(DNNs) have achieved successful applications in many fields, they are vulnerable to adversarial examples.Adversarial training is one of the most effective methods to improve the robustness of DNNs, and it is generally considered as solving a saddle point problem that minimizes risk and maximizes perturbation.Therefore, powerful adversarial examples can effectively replicate the situation of perturbation maximization to solve the saddle point problem.The method proposed in this paper approximates the output of DNNs in the input neighborhood by using the Taylor expansion, and then optimizes it by using the Lagrange multiplier method to generate adversarial examples. If it is used for adversarial training, the DNNs can be effectively regularized and the defects of the model can be improved. | 翻訳日:2023-01-07 10:10:40 公開日:2020-03-25 |
# 深部神経ファジィリカレントアテンションモデルを用いたヒューマンアクション性能 Human Action Performance using Deep Neuro-Fuzzy Recurrent Attention Model ( http://arxiv.org/abs/2001.10953v3 ) ライセンス: Link先を確認 | Nihar Bendre, Nima Ebadi, John J Prevost and Paul Rad | (参考訳) 多くのコンピュータビジョン出版物は、実行された行動の強度よりも、人間の行動認識と分類の区別に焦点を当てている。
人間の行動のパフォーマンスを決定する強度をインデクシングすることは、ビデオ入力に存在する不確実性と情報不足のために難しい課題である。
この不確実性に対処するために,本論文ではファジィ論理ルールとニューラルネットワークを用いた行動認識モデルを組み合わせて,人間の行動の強度を強烈あるいは軽度に評価する。
提案手法では,ファジィ論理モデルの重み生成に時空間LSTMを用い,作用強度のインデクシングが可能であることを示す実験を行った。
動作強度の異なる人間の行動のビデオに適用することにより、統合モデルを解析し、我々の強度インデックス生成データセットにおいて89.16%の精度を達成できた。
統合モデルは、人間の行動の強度指数を効果的に推定する神経ファジィ推論モジュールの能力を示す。 A great number of computer vision publications have focused on distinguishing between human action recognition and classification rather than the intensity of actions performed. Indexing the intensity which determines the performance of human actions is a challenging task due to the uncertainty and information deficiency that exists in the video inputs. To remedy this uncertainty, in this paper we coupled fuzzy logic rules with the neural-based action recognition model to rate the intensity of a human action as intense or mild. In our approach, we used a Spatio-Temporal LSTM to generate the weights of the fuzzy-logic model, and then demonstrate through experiments that indexing of the action intensity is possible. We analyzed the integrated model by applying it to videos of human actions with different action intensities and were able to achieve an accuracy of 89.16% on our intensity indexing generated dataset. The integrated model demonstrates the ability of a neuro-fuzzy inference module to effectively estimate the intensity index of human actions. | 翻訳日:2023-01-05 21:22:17 公開日:2020-03-25 |
# アルキメデス選択関数:不正確意思決定のための公理的基礎 Archimedean Choice Functions: an Axiomatic Foundation for Imprecise Decision Making ( http://arxiv.org/abs/2002.05196v3 ) ライセンス: Link先を確認 | Jasper De Bock | (参考訳) 不確実性が確率測定によってモデル化される場合、通常、最も期待されるユーティリティでオプションを選択することで決定される。
代わりに不正確な確率モデルが用いられる場合、この決定規則はいくつかの方法で一般化することができる。
ここでは、E-許容可能性と最大性という確率測度の集合に適用する2つのそのような一般化に焦点を当てる。
どちらも、意思決定の非常に一般的な数学的枠組みである、いわゆる選択関数の特別な例と見なすことができる。
これら2つの決定規則のそれぞれについて,この規則を一意に特徴付ける選択関数に関する必要十分条件の組を提供することにより,確率の組による不正確な意思決定の公理的基盤を提供する。
アーキメデスの選択函数に対するコヒーレントな下界の項による表現定理は、両方の結果に基づいている。 If uncertainty is modelled by a probability measure, decisions are typically made by choosing the option with the highest expected utility. If an imprecise probability model is used instead, this decision rule can be generalised in several ways. We here focus on two such generalisations that apply to sets of probability measures: E-admissibility and maximality. Both of them can be regarded as special instances of so-called choice functions, a very general mathematical framework for decision making. For each of these two decision rules, we provide a set of necessary and sufficient conditions on choice functions that uniquely characterises this rule, thereby providing an axiomatic foundation for imprecise decision making with sets of probabilities. A representation theorem for Archimedean choice functions in terms of coherent lower previsions lies at the basis of both results. | 翻訳日:2023-01-01 20:15:40 公開日:2020-03-25 |
# edgeworth展開によるgaussian differential privacyのシャープコンポジション境界 Sharp Composition Bounds for Gaussian Differential Privacy via Edgeworth Expansion ( http://arxiv.org/abs/2003.04493v2 ) ライセンス: Link先を確認 | Qinqing Zheng, Jinshuo Dong, Qi Long, Weijie J. Su | (参考訳) センシティブな情報を含むデータセットは、多くのアルゴリズムによって順次分析される。
これは、全体的なプライバシバウンドが構成下でどのように低下するかに関する、ディファレンシャルプライバシの基本的な疑問を提起する。
本稿では,最近提案されているf-differential privacyの枠組みにおけるedgeworth拡張を用いた,分析的かつ鋭いプライバシ境界のファミリーについて紹介する。
中央極限定理を用いた既存の合成定理とは対照的に、構成下の新たなプライバシー境界は、エッジワース展開の洗練された近似精度を活用し、密性を向上させる。
我々のアプローチは実装が容易で、様々な構成に対して計算効率が良い。
これらの新しい境界の優位性は漸近的誤差解析と、プライベートディープニューラルネットワークのトレーニングに使用されるノイズの確率的勾配降下の全体的なプライバシー保証を定量化する応用によって確認される。 Datasets containing sensitive information are often sequentially analyzed by many algorithms. This raises a fundamental question in differential privacy regarding how the overall privacy bound degrades under composition. To address this question, we introduce a family of analytical and sharp privacy bounds under composition using the Edgeworth expansion in the framework of the recently proposed f-differential privacy. In contrast to the existing composition theorems using the central limit theorem, our new privacy bounds under composition gain improved tightness by leveraging the refined approximation accuracy of the Edgeworth expansion. Our approach is easy to implement and computationally efficient for any number of compositions. The superiority of these new bounds is confirmed by an asymptotic error analysis and an application to quantifying the overall privacy guarantees of noisy stochastic gradient descent used in training private deep neural networks. | 翻訳日:2022-12-24 20:25:59 公開日:2020-03-25 |
# Cascade EF-GAN: 局所焦点による顔表情のプログレッシブな編集 Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses ( http://arxiv.org/abs/2003.05905v2 ) ライセンス: Link先を確認 | Rongliang Wu, Gongjie Zhang, Shijian Lu, Tao Chen | (参考訳) 最近のGAN(Generative Adversarial Nets)の進歩は表情編集に顕著な改善をもたらした。
しかし、現在の手法は、表現集約的な領域でアーティファクトやぼやけを発生させる傾向にあり、しばしば望ましくない重複したアーティファクトを導入する一方で、激怒から笑いへの変換のような大きなガップ表現変換を扱う。
これらの制約に対処するために,局所表現に焦点を当てたプログレッシブ表情編集を行う新しいネットワークであるCascade Expression Focal GAN(Cascade EF-GAN)を提案する。
局所焦点の導入により、Cascade EF-GANは、目、鼻、口の周りのアイデンティティに関連する特徴や詳細をよりよく保存し、生成した顔画像内のアーティファクトやぼやけを低減できる。
さらに,大域的な表情変換を複数の小領域に分割することで,重なり合うアーティファクトの抑制と,大域的な表現変換を処理しながらよりリアルな編集を実現する,革新的なカスケード変換戦略を考案した。
2つの顔表情データセットに関する広範囲な実験により,提案するカスケードef-ganは,表情編集において優れた性能を発揮することが示された。 Recent advances in Generative Adversarial Nets (GANs) have shown remarkable improvements for facial expression editing. However, current methods are still prone to generate artifacts and blurs around expression-intensive regions, and often introduce undesired overlapping artifacts while handling large-gap expression transformations such as transformation from furious to laughing. To address these limitations, we propose Cascade Expression Focal GAN (Cascade EF-GAN), a novel network that performs progressive facial expression editing with local expression focuses. The introduction of the local focus enables the Cascade EF-GAN to better preserve identity-related features and details around eyes, noses and mouths, which further helps reduce artifacts and blurs within the generated facial images. In addition, an innovative cascade transformation strategy is designed by dividing a large facial expression transformation into multiple small ones in cascade, which helps suppress overlapping artifacts and produce more realistic editing while dealing with large-gap expression transformations. Extensive experiments over two publicly available facial expression datasets show that our proposed Cascade EF-GAN achieves superior performance for facial expression editing. | 翻訳日:2022-12-24 15:17:57 公開日:2020-03-25 |
# データセット記述:電動機の背後にある物理を同定する -- 電気的挙動のデータ駆動学習(その2) Data Set Description: Identifying the Physics Behind an Electric Motor -- Data-Driven Learning of the Electrical Behavior (Part II) ( http://arxiv.org/abs/2003.06268v3 ) ライセンス: Link先を確認 | S\"oren Hanke, Oliver Wallscheid and Joachim B\"ocker | (参考訳) 測定データから3相永久磁石同期モータ(PMSM)と2レベルIGBTインバータの数学モデル抽出のための異なる手法を評価するためにデータセットを記録した。
ドライブの動作範囲は、およそ4000万の多次元サンプルで構成されている。
この文書は、公開データセット \cite{Dataset} の使用方法と、導入例を使ってモデルを抽出する方法を説明している。
これらの例は既知の常微分方程式、最小二乗法、あるいは(深い)機械学習法に基づいている。
抽出したモデルは、ドライブのモデル予測制御(MPC)環境におけるシステム状態の予測に使用される。
モデル偏差の場合、MPCを用いた性能はその潜在能力より劣る。
これは、名目駆動パラメータのみに基づいており、限られた操作領域でのみ有効である最先端のホワイトボックスモデルの場合である。
さらに、多くの寄生効果(例えば摂食インバータから)は、通常ホワイトボックスモデルではカバーされない。
高い制御性能を達成するためには、全ての動作点における運動挙動を十分にカバーするモデルを用いる必要がある。 A data set was recorded to evaluate different methods for extracting mathematical models for a three-phase permanent magnet synchronous motor (PMSM) and a two-level IGBT inverter from measurement data. It consists of approximately 40 million multidimensional samples from a defined operating range of the drive. This document describes how to use the published data set \cite{Dataset} and how to extract models using introductory examples. The examples are based on known ordinary differential equations, the least squares method or on (deep) machine learning methods. The extracted models are used for the prediction of system states in a model predictive control (MPC) environment of the drive. In case of model deviations, the performance utilizing MPC remains below its potential. This is the case for state-of-the-art white-box models that are based only on nominal drive parameters and are valid in only limited operation regions. Moreover, many parasitic effects (e.g. from the feeding inverter) are normally not covered in white-box models. In order to achieve a high control performance, it is necessary to use models that cover the motor behavior in all operating points sufficiently well. | 翻訳日:2022-12-24 02:24:13 公開日:2020-03-25 |
# データセット記述:電動機の背後にある物理を同定する -- 電気的挙動のデータ駆動学習(その1) Data Set Description: Identifying the Physics Behind an Electric Motor -- Data-Driven Learning of the Electrical Behavior (Part I) ( http://arxiv.org/abs/2003.07273v3 ) ライセンス: Link先を確認 | S\"oren Hanke, Oliver Wallscheid and Joachim B\"ocker | (参考訳) 電気自動車の最も重要な2つの側面は、その効率性または達成可能な範囲である。
高い効率と長距離を実現するためには、運転列車の過度な寸法を避けることが不可欠である。
そのため、運転列車は可能な限り軽量に保たなければならないと同時に、可能な限り有効活用される必要がある。
これは、駆動系統の動的挙動がコントローラによって正確に知られている場合にのみ達成できる。
制御器の課題は、電動機の電流を制御することにより、車の車輪における所望のトルクを達成することである。
機械学習モデリング技術では、計測データから振る舞いを記述する正確なモデルを抽出し、コントローラで使用することができる。
異なるモデリング手法の比較のために, 約4000万データポイントからなるデータセットを, 電気駆動列車のテストベンチで記録した。
データセットは、データサイエンティストのオンラインコミュニティであるKaggleで公開されている。 Two of the most important aspects of electric vehicles are their efficiency or achievable range. In order to achieve high efficiency and thus a long range, it is essential to avoid over-dimensioning the drive train. Therefore, the drive train has to be kept as lightweight as possible while at the same time being utilized to the best possible extent. This can only be achieved if the dynamic behavior of the drive train is accurately known by the controller. The task of the controller is to achieve a desired torque at the wheels of the car by controlling the currents of the electric motor. With machine learning modeling techniques, accurate models describing the behavior can be extracted from measurement data and then used by the controller. For the comparison of the different modeling approaches, a data set consisting of about 40 million data points was recorded at a test bench for electric drive trains. The data set is published on Kaggle, an online community of data scientists. | 翻訳日:2022-12-23 04:07:13 公開日:2020-03-25 |
# 未知領域におけるメタ顔認識の学習 Learning Meta Face Recognition in Unseen Domains ( http://arxiv.org/abs/2003.07733v2 ) ライセンス: Link先を確認 | Jianzhu Guo, Xiangyu Zhu, Chenxu Zhao, Dong Cao, Zhen Lei and Stan Z. Li | (参考訳) 顔認識システムは通常、実世界のアプリケーションでは見当たらないドメインに直面し、その一般化が不十分なため不満足な性能を示す。
例えば、Webfaceデータのよく訓練されたモデルは、監視シナリオにおけるID対スポットタスクに対処できない。
本稿では,新しい未確認領域をモデル更新なしで直接処理できる一般化モデルを学習することを目的とする。
そこで本研究では,メタラーニングによる新しい顔認識手法であるmeta face recognition(mfr)を提案する。
MFRは、合成されたソースドメインだけでなく、合成されたターゲットドメイン上でも効果的な表現を学習する必要があるメタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
具体的には、ドメインレベルのサンプリング戦略を用いてドメインシフトバッチを構築し、マルチドメイン分布を最適化することにより、ソース/ターゲットドメイン上のバックプロパゲート勾配/メタ勾配を得る。
勾配とメタ勾配をさらに組み合わせてモデルを更新し、一般化を改善する。
さらに,一般化顔認識評価のための2つのベンチマークを提案する。
ベンチマーク実験では,いくつかのベースラインや他の最先端手法と比較して,手法の一般化が検証された。
提案されたベンチマークはhttps://github.com/cleardusk/MFRで公開される。 Face recognition systems are usually faced with unseen domains in real-world applications and show unsatisfactory performance due to their poor generalization. For example, a well-trained model on webface data cannot deal with the ID vs. Spot task in surveillance scenario. In this paper, we aim to learn a generalized model that can directly handle new unseen domains without any model updating. To this end, we propose a novel face recognition method via meta-learning named Meta Face Recognition (MFR). MFR synthesizes the source/target domain shift with a meta-optimization objective, which requires the model to learn effective representations not only on synthesized source domains but also on synthesized target domains. Specifically, we build domain-shift batches through a domain-level sampling strategy and get back-propagated gradients/meta-gradients on synthesized source/target domains by optimizing multi-domain distributions. The gradients and meta-gradients are further combined to update the model to improve generalization. Besides, we propose two benchmarks for generalized face recognition evaluation. Experiments on our benchmarks validate the generalization of our method compared to several baselines and other state-of-the-arts. The proposed benchmarks will be available at https://github.com/cleardusk/MFR. | 翻訳日:2022-12-22 21:30:24 公開日:2020-03-25 |
# 癌生存予測における不確かさ推定 Uncertainty Estimation in Cancer Survival Prediction ( http://arxiv.org/abs/2003.08573v2 ) ライセンス: Link先を確認 | Hrushikesh Loya, Pranav Poduval, Deepak Anand, Neeraj Kumar, and Amit Sethi | (参考訳) 生存モデルは、がん治療プロトコルの開発など、様々な分野で使用されている。
精度の高い生存予測を実現するための統計モデルや機械学習モデルが数多く提案されているが、各予測に関連づけられた不確実性推定を得るためにはほとんど注目されていない。
現在人気のあるモデルは、トレーニングサンプルと似ていないテストケースや、予測が間違っていても高い信頼性を示すという点で、不透明で信頼できない。
本稿では,より正確な生存予測を与えるだけでなく,生存不確実性をより正確に評価するベイズモデルを提案する。
提案手法は,不確実性推定のための変分推論と,非線形・時変リスクモデル推定のためのニューラルマルチタスクロジスティック回帰と,高次元データを扱う前にさらにスパーシティを誘導する新たな組み合わせである。 Survival models are used in various fields, such as the development of cancer treatment protocols. Although many statistical and machine learning models have been proposed to achieve accurate survival predictions, little attention has been paid to obtain well-calibrated uncertainty estimates associated with each prediction. The currently popular models are opaque and untrustworthy in that they often express high confidence even on those test cases that are not similar to the training samples, and even when their predictions are wrong. We propose a Bayesian framework for survival models that not only gives more accurate survival predictions but also quantifies the survival uncertainty better. Our approach is a novel combination of variational inference for uncertainty estimation, neural multi-task logistic regression for estimating nonlinear and time-varying risk models, and an additional sparsity-inducing prior to work with high dimensional data. | 翻訳日:2022-12-22 03:58:08 公開日:2020-03-25 |
# fedner:federated learningによるプライバシ保護医療エンティティ認識 FedNER: Privacy-preserving Medical Named Entity Recognition with Federated Learning ( http://arxiv.org/abs/2003.09288v2 ) ライセンス: Link先を確認 | Suyu Ge, Fangzhao Wu, Chuhan Wu, Tao Qi, Yongfeng Huang, and Xing Xie | (参考訳) medical named entity recognition (ner) は知的医療に広く応用されている。
十分なラベル付きデータは、正確なNERモデルのトレーニングに不可欠である。
しかし、単一の医療プラットフォームにおけるラベル付きデータは、通常制限されている。
ラベル付きデータセットは多くの異なる医療プラットフォームに存在するかもしれないが、医療データは極めてプライバシーに敏感であるため、直接共有することはできない。
本稿では,異なるプラットフォームでラベル付きデータを活用し,医療用nerモデルのトレーニングを強化し,異なるプラットフォーム間で生データを交換する必要性を解消した,連合学習に基づくプライバシ保全型医療用ner手法を提案する。
異なるプラットフォームにおけるラベル付きデータは、通常、エンティティタイプとアノテーションの基準にいくつかの違いがあるため、同じモデルを共有するために異なるプラットフォームを制約するのではなく、それぞれのプラットフォームで医療NERモデルを共有モジュールとプライベートモジュールに分解する。
プライベートモジュールは各プラットフォームのローカルデータの特徴をキャプチャするために使用され、ローカルラベル付きデータを使用して更新される。
共有モジュールは、共有NER知識をキャプチャするために、さまざまな医療プラットフォームで学習される。
異なるプラットフォームからのローカル勾配は、グローバル共有モジュールを更新するために集約され、各プラットフォームにローカル共有モジュールを更新するためにさらに配信される。
3つの公開データセットの実験により,本手法の有効性が検証された。 Medical named entity recognition (NER) has wide applications in intelligent healthcare. Sufficient labeled data is critical for training accurate medical NER model. However, the labeled data in a single medical platform is usually limited. Although labeled datasets may exist in many different medical platforms, they cannot be directly shared since medical data is highly privacy-sensitive. In this paper, we propose a privacy-preserving medical NER method based on federated learning, which can leverage the labeled data in different platforms to boost the training of medical NER model and remove the need of exchanging raw data among different platforms. Since the labeled data in different platforms usually has some differences in entity type and annotation criteria, instead of constraining different platforms to share the same model, we decompose the medical NER model in each platform into a shared module and a private module. The private module is used to capture the characteristics of the local data in each platform, and is updated using local labeled data. The shared module is learned across different medical platform to capture the shared NER knowledge. Its local gradients from different platforms are aggregated to update the global shared module, which is further delivered to each platform to update their local shared modules. Experiments on three publicly available datasets validate the effectiveness of our method. | 翻訳日:2022-12-21 22:35:00 公開日:2020-03-25 |
# 瞬時精度:未編集ビデオにおけるオンライン行動認識問題のための新しい指標 The Instantaneous Accuracy: a Novel Metric for the Problem of Online Human Behaviour Recognition in Untrimmed Videos ( http://arxiv.org/abs/2003.09970v2 ) ライセンス: Link先を確認 | Marcos Baptista Rios, Roberto J. L\'opez-Sastre, Fabian Caba Heilbron, Jan van Gemert, Francisco Javier Acevedo-Rodr\'iguez, and Saturnino Maldonado-Basc\'on | (参考訳) オンライン行動検出(Online Action Detection, OAD)と呼ばれる未トリミングビデオにおけるオンライン人間行動認識の問題を再考する必要がある。
評価メトリクスが明確かつ十分に確立されている従来のオフラインアクション検出アプローチとは異なり、oad設定では、使用すべき評価プロトコルに関するコンセンサスや作業がほとんどありません。
本稿では,従来の(オフライン)メトリクスの制限の多くを解消する,新しいオンラインメトリックであるInstantaneous Accuracy(IA$)を紹介する。
本研究は,TVSeriesデータセット上で,様々なベースライン手法の性能と技術状況を比較し,徹底的な実験評価を行う。
本研究は,従来の評価プロトコルの問題点を検証し,人の行動理解のオンラインシナリオにIAベースのプロトコルの方が適切であることを示唆する。
利用可能なメトリックのコード https://github.com/gramuah/ia The problem of Online Human Behaviour Recognition in untrimmed videos, aka Online Action Detection (OAD), needs to be revisited. Unlike traditional offline action detection approaches, where the evaluation metrics are clear and well established, in the OAD setting we find few works and no consensus on the evaluation protocols to be used. In this paper we introduce a novel online metric, the Instantaneous Accuracy ($IA$), that exhibits an \emph{online} nature, solving most of the limitations of the previous (offline) metrics. We conduct a thorough experimental evaluation on TVSeries dataset, comparing the performance of various baseline methods to the state of the art. Our results confirm the problems of previous evaluation protocols, and suggest that an IA-based protocol is more adequate to the online scenario for human behaviour understanding. Code of the metric available https://github.com/gramuah/ia | 翻訳日:2022-12-21 05:42:06 公開日:2020-03-25 |
# PyMatting: アルファマッティングのためのPythonライブラリ PyMatting: A Python Library for Alpha Matting ( http://arxiv.org/abs/2003.12382v1 ) ライセンス: Link先を確認 | Thomas Germer, Tobias Uelwer, Stefan Conrad, Stefan Harmeling | (参考訳) 多くの画像編集タスクの重要なステップは、特定のオブジェクトを画像から抽出して、映画のシーンに配置したり、別の背景に組み立てたりすることである。
alpha matting氏は、粗いスケッチのみを与えられた画像の背景から前景のオブジェクトを分離する問題を説明している。
我々はPython用のPyMattingパッケージを紹介し、アルファマッチング問題を解決するために様々なアプローチを実装している。
我々のツールボックスは、アルファマットを与えられた画像の前景を抽出することもできる。
この実装は計算効率が高く、使いやすくすることを目指している。
PyMattingのソースコードはhttps://github.com/pymatting/pymatting.comでオープンソースライセンスで公開されている。 An important step of many image editing tasks is to extract specific objects from an image in order to place them in a scene of a movie or compose them onto another background. Alpha matting describes the problem of separating the objects in the foreground from the background of an image given only a rough sketch. We introduce the PyMatting package for Python which implements various approaches to solve the alpha matting problem. Our toolbox is also able to extract the foreground of an image given the alpha matte. The implementation aims to be computationally efficient and easy to use. The source code of PyMatting is available under an open-source license at https://github.com/pymatting/pymatting. | 翻訳日:2022-12-20 03:49:34 公開日:2020-03-25 |
# 地理探索のためのセッションベーストピックの提案 Session-based Suggestion of Topics for Geographic Exploratory Search ( http://arxiv.org/abs/2003.11314v1 ) ライセンス: Link先を確認 | Noemi Mauro, Liliana Ardissono | (参考訳) 探索的情報検索は、効果的な検索クエリの定式化においてユーザーに挑戦することができる。
さらに、地理情報システムによって管理されるような複雑な情報空間は、人々を混乱させ、関連するデータを見つけるのが難しくなる。
これらの問題に対処するため、我々はセッションベースの提案モデルを開発し、ユーザの以前のクエリを考慮に入れ、概念を"あなたも興味を持つ"関数として提案した。
本モデルは,対話型検索における提案を漸進的に生成することに適用できる。
クエリ拡張や、一般的には、データカテゴリの複雑な空間の探索にユーザを導くために使用することができる。
提案手法は,検索セッションにおける概念の検索頻度を記述する概念共起グラフに基づいている。
オントロジなドメイン表現から始めて、主要な検索エンジンのクエリログを分析してグラフを生成しました。
さらに,グラフ上のコミュニティ検出を通じて,ログのセッションに頻繁に共起するオントロジー概念のクラスターを同定した。
評価の結果,精度は良好であった。 Exploratory information search can challenge users in the formulation of efficacious search queries. Moreover, complex information spaces, such as those managed by Geographical Information Systems, can disorient people, making it difficult to find relevant data. In order to address these issues, we developed a session-based suggestion model that proposes concepts as a "you might also be interested in" function, by taking the user's previous queries into account. Our model can be applied to incrementally generate suggestions in interactive search. It can be used for query expansion, and in general to guide users in the exploration of possibly complex spaces of data categories. Our model is based on a concept co-occurrence graph that describes how frequently concepts are searched together in search sessions. Starting from an ontological domain representation, we generated the graph by analyzing the query log of a major search engine. Moreover, we identified clusters of ontology concepts which frequently co-occur in the sessions of the log via community detection on the graph. The evaluation of our model provided satisfactory accuracy results. | 翻訳日:2022-12-20 03:49:07 公開日:2020-03-25 |
# 多面的信頼に基づく協調フィルタリング Multi-faceted Trust-based Collaborative Filtering ( http://arxiv.org/abs/2003.11445v1 ) ライセンス: Link先を確認 | Noemi Mauro, Liliana Ardissono and Zhongli Filippo Hu | (参考訳) 多くのコラボレーティブレコメンデータシステムは、社会的相関理論を利用して提案性能を改善する。
しかし、ユーザ間の明示的な関係に注目し、レビュアーの品質を公に認識するなど、ユーザの世界的な評価を決定するのに役立つ他の種類の情報を除外する。
これらの追加的なフィードバックがTop-Nレコメンデーションを改善するのかどうか、いつなのかを理解することに興味があります。
そこで本稿では,ソーシャルリンクに代表される地域信頼と,ソーシャルネットワークが提供するさまざまなグローバル信頼証拠を統合するための多面的信頼モデルを提案する。
本研究の目的は,様々なケーススタディに適用できるように,データの一般的なクラスを特定することである。
次に,評価類似性,社会的信頼,評価予測のための多面的評価の融合を支援するu2ucf(user-to-user collaborative filtering)の変種に適用して,モデルをテストする。
yelp oneはユーザ間の一般的な友人関係を公開するが、ユーザプロファイルの承認を含むさまざまなタイプの信頼フィードバックを提供する。
LibraryThingデータセットは、より少ないタイプのフィードバックを提供するが、コンテンツ共有を目的としたより選択的な友人関係を提供する。
実験の結果、Yelpのデータセットでは、私たちのモデルは、評価類似性と社会的関係のみを使用する、U2UCFと最先端の信頼ベースの推奨者の両方より優れています。
LibraryThingのデータセットでは、社会的関係と評価の類似性の組み合わせが最良の結果をもたらす。
私たちが学んだ教訓は、複数面の信頼がレコメンデーションに有用な情報である、ということです。
しかし、アプリケーションドメインでそれを使用する前に、レコメンデーションパフォーマンスに対する実際の影響を評価するために、利用可能な信頼証拠の種類と量を分析する必要があります。 Many collaborative recommender systems leverage social correlation theories to improve suggestion performance. However, they focus on explicit relations between users and they leave out other types of information that can contribute to determine users' global reputation; e.g., public recognition of reviewers' quality. We are interested in understanding if and when these additional types of feedback improve Top-N recommendation. For this purpose, we propose a multi-faceted trust model to integrate local trust, represented by social links, with various types of global trust evidence provided by social networks. We aim at identifying general classes of data in order to make our model applicable to different case studies. Then, we test the model by applying it to a variant of User-to-User Collaborative filtering (U2UCF) which supports the fusion of rating similarity, local trust derived from social relations, and multi-faceted reputation for rating prediction. We test our model on two datasets: the Yelp one publishes generic friend relations between users but provides different types of trust feedback, including user profile endorsements. The LibraryThing dataset offers fewer types of feedback but it provides more selective friend relations aimed at content sharing. The results of our experiments show that, on the Yelp dataset, our model outperforms both U2UCF and state-of-the-art trust-based recommenders that only use rating similarity and social relations. Differently, in the LibraryThing dataset, the combination of social relations and rating similarity achieves the best results. The lesson we learn is that multi-faceted trust can be a valuable type of information for recommendation. However, before using it in an application domain, an analysis of the type and amount of available trust evidence has to be done to assess its real impact on recommendation performance. | 翻訳日:2022-12-20 03:48:52 公開日:2020-03-25 |
# trec 2019 fair ranking trackの概要 Overview of the TREC 2019 Fair Ranking Track ( http://arxiv.org/abs/2003.11650v1 ) ライセンス: Link先を確認 | Asia J. Biega, Fernando Diaz, Michael D. Ekstrand, Sebastian Kohlmeier | (参考訳) TREC Fair Rankingトラックの目標は、古典的な関連性の概念に加えて、異なるコンテンツプロバイダに対する公正性の観点から検索システムを評価するためのベンチマークを開発することであった。
ベンチマークの一部として、評価プロトコルで標準化された公正度メトリクスを定義し、公正ランキング問題のデータセットをリリースしました。
2019年のタスクは、質問を受けた学術論文の要約を再評価することに焦点を当てた。
その目的は、システム提出時に未知の複数のグループの関連著者を公平に表現することであった。
このようにして、様々なグループ定義で堅牢な性能を持つシステムの開発を強調した。
参加者にはsemantic scholarからクエリーログデータ(クエリ、ドキュメント、関連)が提供された。
本稿では,タスク定義やデータ記述,アノテーションプロセス,提案システムの性能比較などのトラックの概要について述べる。 The goal of the TREC Fair Ranking track was to develop a benchmark for evaluating retrieval systems in terms of fairness to different content providers in addition to classic notions of relevance. As part of the benchmark, we defined standardized fairness metrics with evaluation protocols and released a dataset for the fair ranking problem. The 2019 task focused on reranking academic paper abstracts given a query. The objective was to fairly represent relevant authors from several groups that were unknown at the system submission time. Thus, the track emphasized the development of systems which have robust performance across a variety of group definitions. Participants were provided with querylog data (queries, documents, and relevance) from Semantic Scholar. This paper presents an overview of the track, including the task definition, descriptions of the data and the annotation process, as well as a comparison of the performance of submitted systems. | 翻訳日:2022-12-20 03:48:21 公開日:2020-03-25 |
# 統合知覚解析のためのディープグルーピングモデル Deep Grouping Model for Unified Perceptual Parsing ( http://arxiv.org/abs/2003.11647v1 ) ライセンス: Link先を確認 | Zhiheng Li, Wenxuan Bao, Jiayang Zheng, Chenliang Xu | (参考訳) 知覚に基づくグループ化プロセスは、人間と機械の視覚システムが異種視覚概念を認識するのに役立つ階層的および構成的イメージ表現を生成する。
古典的な階層的スーパーピクセルセグメンテーションや画像解析の作業に例がある。
しかし、現代のcnnベースのイメージセグメンテーションネットワークでは、グリッド型cnn特徴マップと不規則型知覚型グループ化階層との固有の非互換性など、多くの課題から、グループ化プロセスは見過ごされている。
これらの課題を克服し、我々は2種類の表現を密に結合し、機能交換のためのボトムアップとトップダウンプロセスを定義するディープグルーピングモデル(DGM)を提案する。
統一知覚解析タスクのための最近のbroden+データセット上でモデルを評価する際、他の文脈に基づくセグメンテーションモデルに比べて計算オーバーヘッドが小さく、最先端の結果が得られる。
さらに、DGMは現代のCNN法よりも解釈性が高い。 The perceptual-based grouping process produces a hierarchical and compositional image representation that helps both human and machine vision systems recognize heterogeneous visual concepts. Examples can be found in the classical hierarchical superpixel segmentation or image parsing works. However, the grouping process is largely overlooked in modern CNN-based image segmentation networks due to many challenges, including the inherent incompatibility between the grid-shaped CNN feature map and the irregular-shaped perceptual grouping hierarchy. Overcoming these challenges, we propose a deep grouping model (DGM) that tightly marries the two types of representations and defines a bottom-up and a top-down process for feature exchanging. When evaluating the model on the recent Broden+ dataset for the unified perceptual parsing task, it achieves state-of-the-art results while having a small computational overhead compared to other contextual-based segmentation models. Furthermore, the DGM has better interpretability compared with modern CNN methods. | 翻訳日:2022-12-20 03:43:04 公開日:2020-03-25 |
# DeepStrip: 高解像度境界リファインメント DeepStrip: High Resolution Boundary Refinement ( http://arxiv.org/abs/2003.11670v1 ) ライセンス: Link先を確認 | Peng Zhou, Brian Price, Scott Cohen, Gregg Wilensky and Larry S. Davis | (参考訳) 本稿では,低解像度マスクを施した高解像度画像における境界の精細化を目標とする。
記憶効率と計算効率の面では,興味領域をストリップ画像に変換し,ストリップ領域における境界予測を計算することを提案する。
対象境界を検出するために,2つの予測層を持つフレームワークを提案する。
まず、すべてのポテンシャル境界は初期予測として予測され、次に選択層を使用して対象境界を選択し、結果を円滑にする。
正確な予測を促進するために、ストリップ領域の境界距離を測定する損失を導入する。
さらに,ネットワークに対する整合性とC0連続性正規化を適用し,誤報の低減を図る。
公開および新たに作成された高解像度データセットの両方に関する大規模な実験は、我々のアプローチを強く検証する。 In this paper, we target refining the boundaries in high resolution images given low resolution masks. For memory and computation efficiency, we propose to convert the regions of interest into strip images and compute a boundary prediction in the strip domain. To detect the target boundary, we present a framework with two prediction layers. First, all potential boundaries are predicted as an initial prediction and then a selection layer is used to pick the target boundary and smooth the result. To encourage accurate prediction, a loss which measures the boundary distance in the strip domain is introduced. In addition, we enforce a matching consistency and C0 continuity regularization to the network to reduce false alarms. Extensive experiments on both public and a newly created high resolution dataset strongly validate our approach. | 翻訳日:2022-12-20 03:42:46 公開日:2020-03-25 |
# 脳にインスパイアされたAIによる計画 Planning with Brain-inspired AI ( http://arxiv.org/abs/2003.12353v1 ) ライセンス: Link先を確認 | Naoya Arakawa | (参考訳) 本稿では,一般知能論における流体知能の典型的な機能と見なされる認知機能としての計画の工学モデルと神経科学モデルについて概説する。
既存の計画モデルを、脳にインスパイアされたAIや人工知能(AGI)の計画機能を実現するためのリファレンスとして提示することを目指している。
また、タスクやアーキテクチャの観点から脳に触発されたAIの研究と開発のためのテーマも提案している。 This article surveys engineering and neuroscientific models of planning as a cognitive function, which is regarded as a typical function of fluid intelligence in the discussion of general intelligence. It aims to present existing planning models as references for realizing the planning function in brain-inspired AI or artificial general intelligence (AGI). It also proposes themes for the research and development of brain-inspired AI from the viewpoint of tasks and architecture. | 翻訳日:2022-12-20 03:42:25 公開日:2020-03-25 |
# サイド情報を用いた近似メッセージパッシングの厳密な状態進化解析 Rigorous State Evolution Analysis for Approximate Message Passing with Side Information ( http://arxiv.org/abs/2003.11964v1 ) ライセンス: Link先を確認 | Hangjin Liu and Cynthia Rush and Dror Baron | (参考訳) 多くの研究領域で共通の目標は、ノイズの線形測定から未知の信号xを再構成することである。
近似メッセージパッシング(AMP)は、そのような高次元回帰タスクを効率的に解くために使用できる低複雑さアルゴリズムのクラスである。
多くの場合、リコンストラクション中にサイド情報(si)が利用可能である。
このため、サイド情報付き近似メッセージパッシング(amp-si)と呼ばれるampにsiを組み込む新しいアルゴリズムフレームワークが最近導入された。
本研究では,信号とSIペア間の統計的依存関係と測定行列のエントリが独立かつ同一分布である場合,AMP-SIに対して厳密な性能保証を提供する。
AMP-SI性能は状態進化と呼ばれるスカラー反復によって確実に追跡される。
さらに、SEがAMP-SI平均二乗誤差を正確に予測できることを実証的に示す数値例を示す。 A common goal in many research areas is to reconstruct an unknown signal x from noisy linear measurements. Approximate message passing (AMP) is a class of low-complexity algorithms that can be used for efficiently solving such high-dimensional regression tasks. Often, it is the case that side information (SI) is available during reconstruction. For this reason, a novel algorithmic framework that incorporates SI into AMP, referred to as approximate message passing with side information (AMP-SI), has been recently introduced. In this work, we provide rigorous performance guarantees for AMP-SI when there are statistical dependencies between the signal and SI pairs and the entries of the measurement matrix are independent and identically distributed Gaussian. The AMP-SI performance is shown to be provably tracked by a scalar iteration referred to as state evolution. Moreover, we provide numerical examples that demonstrate empirically that the SE can predict the AMP-SI mean square error accurately. | 翻訳日:2022-12-20 03:42:17 公開日:2020-03-25 |
# 航空画像を用いた自律走行車両のLIDAR位置推定 Aerial Imagery based LIDAR Localization for Autonomous Vehicles ( http://arxiv.org/abs/2003.11192v1 ) ライセンス: Link先を確認 | Ankit Vora, Siddharth Agarwal, Gaurav Pandey and James McBride | (参考訳) 本稿では,都市環境における自律走行車に対する航空画像マップとLIDARに基づく地上反射率を用いた局所化手法を提案する。
LIDAR反射率を用いた従来のローカライゼーション手法は、マッピング車両から生成された高定義反射率写像に依存する。
このような以前の地図を維持するのに必要なコストと労力は、高額の地図車両を必要とするため、一般的に非常に高い。
本研究では,複雑な高精細度地図の作成・維持の必要性を解消し,衛星画像を用いたローカライズを行うローカライズ手法を提案する。
提案手法はミシガン州アンアーバーのテストトラックから収集された実世界データセットでテストされている。
本研究は、航空画像に基づく地図が、都市環境における自律走行車のための最先端のLIDARマップと同様のリアルタイムなローカライゼーション性能を低コストで提供することを結論付けている。 This paper presents a localization technique using aerial imagery maps and LIDAR based ground reflectivity for autonomous vehicles in urban environments. Traditional localization techniques using LIDAR reflectivity rely on high definition reflectivity maps generated from a mapping vehicle. The cost and effort required to maintain such prior maps are generally very high because it requires a fleet of expensive mapping vehicles. In this work we propose a localization technique where the vehicle localizes using aerial/satellite imagery, eradicating the need to develop and maintain complex high-definition maps. The proposed technique has been tested on a real world dataset collected from a test track in Ann Arbor, Michigan. This research concludes that aerial imagery based maps provides real-time localization performance similar to state-of-the-art LIDAR based maps for autonomous vehicles in urban environments at reduced costs. | 翻訳日:2022-12-20 03:41:44 公開日:2020-03-25 |
# ディープビデオ圧縮を考慮したコンテンツ適応とエラー伝搬 Content Adaptive and Error Propagation Aware Deep Video Compression ( http://arxiv.org/abs/2003.11282v1 ) ライセンス: Link先を確認 | Guo Lu, Chunlei Cai, Xiaoyun Zhang, Li Chen, Wanli Ouyang, Dong Xu, Zhiyong Gao | (参考訳) 近年,学習に基づくビデオ圧縮手法が注目されている。
しかし, 先行研究は, 予測符号化における再構成誤りの蓄積による誤り伝播に悩まされている。
一方、従来の学習ベースのビデオコーデックは、異なる映像コンテンツにも適応しない。
これら2つの問題に対処するために,コンテンツ適応型およびエラー伝搬型ビデオ圧縮システムを提案する。
具体的には,1フレームではなく,複数フレームの圧縮性能を考慮した共同学習手法を提案する。
学習した長期時間情報に基づいて,再構成されたフレームの誤り伝播を効果的に軽減する。
さらに重要なことは、従来の圧縮システムで手作りのコーディングモードを使う代わりに、オンラインエンコーダ更新スキームをシステム内に設計することです。
提案手法は, 速度歪み基準に従ってエンコーダのパラメータを更新するが, 推論段階でデコーダは変化しない。
したがって、エンコーダは異なるビデオコンテンツに適応し、トレーニングとテストデータセット間の領域ギャップを小さくすることで圧縮性能を向上させる。
本手法は, モデルサイズを増大させることなく, 復号速度を低下させることなく, ベンチマークデータセット上で, 最先端の学習ベースビデオコーデックより優れる。 Recently, learning based video compression methods attract increasing attention. However, the previous works suffer from error propagation due to the accumulation of reconstructed error in inter predictive coding. Meanwhile, the previous learning based video codecs are also not adaptive to different video contents. To address these two problems, we propose a content adaptive and error propagation aware video compression system. Specifically, our method employs a joint training strategy by considering the compression performance of multiple consecutive frames instead of a single frame. Based on the learned long-term temporal information, our approach effectively alleviates error propagation in reconstructed frames. More importantly, instead of using the hand-crafted coding modes in the traditional compression systems, we design an online encoder updating scheme in our system. The proposed approach updates the parameters for encoder according to the rate-distortion criterion but keeps the decoder unchanged in the inference stage. Therefore, the encoder is adaptive to different video contents and achieves better compression performance by reducing the domain gap between the training and testing datasets. Our method is simple yet effective and outperforms the state-of-the-art learning based video codecs on benchmark datasets without increasing the model size or decreasing the decoding speed. | 翻訳日:2022-12-20 03:40:56 公開日:2020-03-25 |
# 関節物体検出と視点推定のための円筒畳み込みネットワーク Cylindrical Convolutional Networks for Joint Object Detection and Viewpoint Estimation ( http://arxiv.org/abs/2003.11303v1 ) ライセンス: Link先を確認 | Sunghun Joung, Seungryong Kim, Hanjae Kim, Minsu Kim, Ig-Jae Kim, Junghyun Cho, Kwanghoon Sohn | (参考訳) 深層畳み込みニューラルネットワーク内の空間不変性をエンコードする既存の手法は、モデル2d変換フィールドのみである。
これは、2次元空間のオブジェクトが3次元空間の投影であるという事実を考慮せず、オブジェクトの視点の変化を厳しくする能力に制限がある。
この制限を克服するために,3次元空間で定義された畳み込み核の円柱表現を利用する学習可能なモジュールであるシリンダ畳み込みネットワーク(ccns)を導入する。
ccnはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点でオブジェクトカテゴリスコアを予測する。
ビュー特有の特徴により,提案する正弦波ソフトアルグマックスモジュールを用いて,客観的なカテゴリーと視点を同時に決定する。
本実験は,複合物体検出と視点推定における円柱畳み込みネットワークの有効性を示す。 Existing techniques to encode spatial invariance within deep convolutional neural networks only model 2D transformation fields. This does not account for the fact that objects in a 2D space are a projection of 3D ones, and thus they have limited ability to severe object viewpoint changes. To overcome this limitation, we introduce a learnable module, cylindrical convolutional networks (CCNs), that exploit cylindrical representation of a convolutional kernel defined in the 3D space. CCNs extract a view-specific feature through a view-specific convolutional kernel to predict object category scores at each viewpoint. With the view-specific feature, we simultaneously determine objective category and viewpoints using the proposed sinusoidal soft-argmax module. Our experiments demonstrate the effectiveness of the cylindrical convolutional networks on joint object detection and viewpoint estimation. | 翻訳日:2022-12-20 03:35:02 公開日:2020-03-25 |
# 顔認識におけるデータ不確かさ学習 Data Uncertainty Learning in Face Recognition ( http://arxiv.org/abs/2003.11339v1 ) ライセンス: Link先を確認 | Jie Chang, Zhonghao Lan, Changmao Cheng, Yichen Wei | (参考訳) ノイズの多い画像ではデータの不確かさのモデル化が重要であるが、顔認識のために検討されることはほとんどない。
先駆的な研究であるPFEは、各顔画像埋め込みをガウス分布としてモデル化することで不確実性を考える。
それはとても効果的です。
しかし、既存のモデルから固定された特徴(ガウスの値)を使う。
差分のみを推定し、アドホックでコストのかかる計量に依存する。
したがって、簡単には使用できない。
不確実性が機能学習にどのように影響するかは不明だ。
本研究は,その特徴(平均)と不確実性(分散)を初めて同時に学習するように,顔認識にデータ不確実性学習を適用する。
2つの学習方法が提案されている。
既存の決定論的手法や、制約のないシナリオに対するPFEよりも使いやすく、パフォーマンスも優れている。
また,不確実性推定を組み込むことが,ノイズサンプルの悪影響を低減し,機能学習に影響を及ぼすことを示唆する。 Modeling data uncertainty is important for noisy images, but seldom explored for face recognition. The pioneer work, PFE, considers uncertainty by modeling each face image embedding as a Gaussian distribution. It is quite effective. However, it uses fixed feature (mean of the Gaussian) from an existing model. It only estimates the variance and relies on an ad-hoc and costly metric. Thus, it is not easy to use. It is unclear how uncertainty affects feature learning. This work applies data uncertainty learning to face recognition, such that the feature (mean) and uncertainty (variance) are learnt simultaneously, for the first time. Two learning methods are proposed. They are easy to use and outperform existing deterministic methods as well as PFE on challenging unconstrained scenarios. We also provide insightful analysis on how incorporating uncertainty estimation helps reducing the adverse effects of noisy samples and affects the feature learning. | 翻訳日:2022-12-20 03:34:23 公開日:2020-03-25 |
# 知識蒸留によるオートオージメントの異常回避 Circumventing Outliers of AutoAugment with Knowledge Distillation ( http://arxiv.org/abs/2003.11342v1 ) ライセンス: Link先を確認 | Longhui Wei, An Xiao, Lingxi Xie, Xin Chen, Xiaopeng Zhang, Qi Tian | (参考訳) AutoAugmentは多くの視覚タスクの精度を向上させる強力なアルゴリズムであるが、演算子空間だけでなくハイパーパラメータにも敏感であり、不適切な設定はネットワーク最適化を退避させる可能性がある。
本論文は,作業機構を深く掘り下げ,自己紹介がトレーニング画像から識別情報の一部を取り除き,接地ラベルを主張することがもはや最善の選択肢ではないことを明らかにした。
教師モデルの出力に言及した知識蒸留を用いて,ネットワークトレーニングの指導を行う。
標準画像分類ベンチマークにおいて実験を行い、データ拡張のノイズ抑制と安定化訓練におけるアプローチの有効性を実証した。
知識蒸留とAutoAugmentの協力により、ImageNetの新たな最先端の分類を85.8%の精度で主張する。 AutoAugment has been a powerful algorithm that improves the accuracy of many vision tasks, yet it is sensitive to the operator space as well as hyper-parameters, and an improper setting may degenerate network optimization. This paper delves deep into the working mechanism, and reveals that AutoAugment may remove part of discriminative information from the training image and so insisting on the ground-truth label is no longer the best option. To relieve the inaccuracy of supervision, we make use of knowledge distillation that refers to the output of a teacher model to guide network training. Experiments are performed in standard image classification benchmarks, and demonstrate the effectiveness of our approach in suppressing noise of data augmentation and stabilizing training. Upon the cooperation of knowledge distillation and AutoAugment, we claim the new state-of-the-art on ImageNet classification with a top-1 accuracy of 85.8%. | 翻訳日:2022-12-20 03:34:10 公開日:2020-03-25 |
# 深い直線線からの魚眼歪みの変形 Fisheye Distortion Rectification from Deep Straight Lines ( http://arxiv.org/abs/2003.11386v1 ) ライセンス: Link先を確認 | Zhu-Cun Xue, Nan Xue, Gui-Song Xia | (参考訳) 本稿では,3次元空間における直線が画像平面上でも直線的であるという古典的な観察に基づいて,魚眼の歪み補正の問題に対処する新しい線認識整流ネットワーク(LaRecNet)を提案する。
提案するLaRecNetは,(1)魚眼画像から歪んだ直線を学習し,(2)学習した熱マップと画像の外観から歪みパラメータを推定し,(3)提案した識別可能な補正層を介して入力画像の修正を行う3つの逐次モジュールを含む。
提案モデルをより良く訓練し,評価するために,歪みパラメータを含む合成ラインリッチ魚眼(SLF)データセットと,魚眼画像の歪曲した直線を含む。
提案手法は,幾何歪みパラメータを同時に校正し,魚眼画像の修正を可能にする。
大規模実験により, 幾何的精度と画像品質の両面から, 本モデルが最先端性能を達成できることが実証された。
特に、LaRecNetによって修正された画像は、SLFデータセット上で平均0.33ピクセルの投影誤差を達成し、基底構造と比較して最高ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)を生成する。 This paper presents a novel line-aware rectification network (LaRecNet) to address the problem of fisheye distortion rectification based on the classical observation that straight lines in 3D space should be still straight in image planes. Specifically, the proposed LaRecNet contains three sequential modules to (1) learn the distorted straight lines from fisheye images; (2) estimate the distortion parameters from the learned heatmaps and the image appearance; and (3) rectify the input images via a proposed differentiable rectification layer. To better train and evaluate the proposed model, we create a synthetic line-rich fisheye (SLF) dataset that contains the distortion parameters and well-annotated distorted straight lines of fisheye images. The proposed method enables us to simultaneously calibrate the geometric distortion parameters and rectify fisheye images. Extensive experiments demonstrate that our model achieves state-of-the-art performance in terms of both geometric accuracy and image quality on several evaluation metrics. In particular, the images rectified by LaRecNet achieve an average reprojection error of 0.33 pixels on the SLF dataset and produce the highest peak signal-to-noise ratio (PSNR) and structure similarity index (SSIM) compared with the groundtruth. | 翻訳日:2022-12-20 03:33:56 公開日:2020-03-25 |
# 実対2重畳み込みによるバイナリニューラルネットワークのトレーニング Training Binary Neural Networks with Real-to-Binary Convolutions ( http://arxiv.org/abs/2003.11535v1 ) ライセンス: Link先を確認 | Brais Martinez and Jing Yang and Adrian Bulat and Georgios Tzimiropoulos | (参考訳) 本稿では,完全精度の2進ネットワークを数ポイント($\sim 3-5 \%$)以内でトレーニングする方法を示す。
まず,最近提案された進歩を組み合わせて最適化手順を慎重に調整することにより,最先端の精度をすでに達成している強固なベースラインを構築する方法を示す。
第二に、バイナリの出力とそれに対応する実値の畳み込みとの差を最小限に抑えることによって、さらなる有意な精度向上が得られることを示す。
この概念は,(1)二項畳み込みと実数値畳み込みの出力で計算された空間的注意マップを一致させ,(2)二項畳み込みの直後に再スケーリングするために,二項畳み込み前の推論中に利用可能な実数値活性化を用いてデータ駆動的に実現する,という相補的な方法によって実現される。
最後に、これらの改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1の精度で、ResNet-18アーキテクチャを使用する場合、CIFAR-100では3%未満、ImageNetでは5%以上のトップ1の精度で、実際の評価対象とのギャップを小さくする。
コードはhttps://github.com/brais-martinez/real2binary。 This paper shows how to train binary networks to within a few percent points ($\sim 3-5 \%$) of the full precision counterpart. We first show how to build a strong baseline, which already achieves state-of-the-art accuracy, by combining recently proposed advances and carefully adjusting the optimization procedure. Secondly, we show that by attempting to minimize the discrepancy between the output of the binary and the corresponding real-valued convolution, additional significant accuracy gains can be obtained. We materialize this idea in two complementary ways: (1) with a loss function, during training, by matching the spatial attention maps computed at the output of the binary and real-valued convolutions, and (2) in a data-driven manner, by using the real-valued activations, available during inference prior to the binarization process, for re-scaling the activations right after the binary convolution. Finally, we show that, when putting all of our improvements together, the proposed model beats the current state of the art by more than 5% top-1 accuracy on ImageNet and reduces the gap to its real-valued counterpart to less than 3% and 5% top-1 accuracy on CIFAR-100 and ImageNet respectively when using a ResNet-18 architecture. Code available at https://github.com/brais-martinez/real2binary. | 翻訳日:2022-12-20 03:33:18 公開日:2020-03-25 |
# HP2IFS:分割反復関数系を用いた頭部電位推定 HP2IFS: Head Pose estimation exploiting Partitioned Iterated Function Systems ( http://arxiv.org/abs/2003.11536v1 ) ライセンス: Link先を確認 | Carmen Bisogni, Michele Nappi, Chiara Pero and Stefano Ricciardi | (参考訳) 2d画像から実際の頭部方向を推定することは、その3自由度に関してよく知られた問題であり、頭部姿勢の知識を含む多くのアプリケーションにとって非常に重要である。
その結果、このトピックはニューラルネットワークを利用する多くの方法やアルゴリズムによって取り組まれている。
実際、機械学習手法は正確な頭部回転値を達成するが、十分な訓練段階が必要であり、その目的のためには、多数の正と負の例がある。
本稿では,フラクタル符号化理論と,特に分割反復関数系を用いて入力ヘッド画像からフラクタルコードを抽出し,この表現をハミング距離で参照モデルのフラクタル符号と比較する。
BIWI と AFLW2000 の両データベースで実施された実験によると,提案した PIFS ベースのヘッドポーズ推定手法は,Yaw/pitch/roll 角の正確な値を提供する。 Estimating the actual head orientation from 2D images, with regard to its three degrees of freedom, is a well known problem that is highly significant for a large number of applications involving head pose knowledge. Consequently, this topic has been tackled by a plethora of methods and algorithms the most part of which exploits neural networks. Machine learning methods, indeed, achieve accurate head rotation values yet require an adequate training stage and, to that aim, a relevant number of positive and negative examples. In this paper we take a different approach to this topic by using fractal coding theory and particularly Partitioned Iterated Function Systems to extract the fractal code from the input head image and to compare this representation to the fractal code of a reference model through Hamming distance. According to experiments conducted on both the BIWI and the AFLW2000 databases, the proposed PIFS based head pose estimation method provides accurate yaw/pitch/roll angular values, with a performance approaching that of state of the art of machine-learning based algorithms and exceeding most of non-training based approaches. | 翻訳日:2022-12-20 03:32:38 公開日:2020-03-25 |
# BrainScaleSニューロモルフィックハードウェアシステムの検証と設計法 Verification and Design Methods for the BrainScaleS Neuromorphic Hardware System ( http://arxiv.org/abs/2003.11455v1 ) ライセンス: Link先を確認 | Andreas Gr\"ubl, Sebastian Billaudelle, Benjamin Cramer, Vitali Karasenko, Johannes Schemmel | (参考訳) 本稿では,BrainScaleS-2 65nm ASICの設計のための検証と実装手法を提案する。
第2世代のBrainScaleSチップは、完全なアナログニューロモルフィック回路と2つの汎用マイクロプロセッサ(PPU)と、オンチップ学習と可塑性のためのSIMD拡張を備えた混合信号デバイスである。
高パラメータ化可能なアナログニューロンとシナプス回路の自動解析と事前調整、およびディジタル論理とソフトウェアスタックのハードウェア・ソフトウェア共同開発のためのシミュレーション手法を提案する。
ニューロモルフィック回路とPPU間の高並列デジタルデータバスの高速動作には、インターフェースでのデジタル信号タイミングを閉じるためのカスタム手法が必要である。
標準のデジタル物理実装設計フローへの新しい拡張を強調する。
512ニューロンと130Kシナプスを含む第1次BrainScaleS-2 ASICの早期成績を示し,これらの手法の応用を実証した。
アプリケーションの例は、BrainScaleS-2ハイブリッドプラスチックアーキテクチャの全機能を示している。 This paper presents verification and implementation methods that have been developed for the design of the BrainScaleS-2 65nm ASICs. The 2nd generation BrainScaleS chips are mixed-signal devices with tight coupling between full-custom analog neuromorphic circuits and two general purpose microprocessors (PPU) with SIMD extension for on-chip learning and plasticity. Simulation methods for automated analysis and pre-tapeout calibration of the highly parameterizable analog neuron and synapse circuits and for hardware-software co-development of the digital logic and software stack are presented. Accelerated operation of neuromorphic circuits and highly-parallel digital data buses between the full-custom neuromorphic part and the PPU require custom methodologies to close the digital signal timing at the interfaces. Novel extensions to the standard digital physical implementation design flow are highlighted. We present early results from the first full-size BrainScaleS-2 ASIC containing 512 neurons and 130K synapses, demonstrating the successful application of these methods. An application example illustrates the full functionality of the BrainScaleS-2 hybrid plasticity architecture. | 翻訳日:2022-12-20 03:25:10 公開日:2020-03-25 |
# Holopix50k:大口径ステレオ画像データセット Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset ( http://arxiv.org/abs/2003.11172v1 ) ライセンス: Link先を確認 | Yiwen Hua, Puneet Kohli, Pritish Uplavikar, Anand Ravi, Saravana Gunaseelan, Jason Orozco, and Edward Li | (参考訳) デュアルカメラ携帯電話の普及に伴い、コンピュータビジョンにおけるステレオ情報の利用がますます重要になっている。
現在の最先端の手法は、学習に基づくアルゴリズムを使用し、トレーニングサンプルの量と品質が結果に大きく影響する。
既存のステレオ画像データセットはサイズも主題も限られている。
したがって、そのようなデータセットで訓練されたアルゴリズムは、モバイル写真で遭遇するシナリオにうまく当てはまらない。
holopix50kは,holopixのモバイルソーシャルプラットフォーム利用者がコントリビュートした49,368枚のステレオ画像データセットである。
本研究では,データ収集プロセスについて記述し,そのデータを他のステレオデータセットと統計的に比較する。
実験では,このデータセットを用いることで,ステレオ超解像や自己教師付き単眼深度推定などのタスクの結果が大幅に向上することを示す。
最後に,新しい作品やユースケースにモチベーションを与えるためのデータセットの実用的応用について紹介する。
holopix50kデータセットはhttp://github.com/leiainc/holopix50kで利用可能 With the mass-market adoption of dual-camera mobile phones, leveraging stereo information in computer vision has become increasingly important. Current state-of-the-art methods utilize learning-based algorithms, where the amount and quality of training samples heavily influence results. Existing stereo image datasets are limited either in size or subject variety. Hence, algorithms trained on such datasets do not generalize well to scenarios encountered in mobile photography. We present Holopix50k, a novel in-the-wild stereo image dataset, comprising 49,368 image pairs contributed by users of the Holopix mobile social platform. In this work, we describe our data collection process and statistically compare our dataset to other popular stereo datasets. We experimentally show that using our dataset significantly improves results for tasks such as stereo super-resolution and self-supervised monocular depth estimation. Finally, we showcase practical applications of our dataset to motivate novel works and use cases. The Holopix50k dataset is available at http://github.com/leiainc/holopix50k | 翻訳日:2022-12-20 03:24:35 公開日:2020-03-25 |
# 大規模ランドマーク検索のための2段階判別再ランキング Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval ( http://arxiv.org/abs/2003.11211v1 ) ライセンス: Link先を確認 | Shuhei Yokoo, Kohei Ozaki, Edgar Simo-Serra, and Satoshi Iizuka | (参考訳) 本稿では,2段階の識別的再ランク付けによってデータセットの多様性に対処する,大規模ランドマーク画像検索のための効率的なパイプラインを提案する。
本手法は,コサインソフトマックス損失を訓練した畳み込みニューラルネットワークを用いて,特徴空間に画像を埋め込む手法である。
内部の画像からランドマークの外観の画像を取得するなどの極端な視点の変化を含む画像のばらつきのため、視覚的類似性のみに基づくアプローチでは、これは非常に困難である。
提案手法では,検索結果のラベルの類似性に基づくソートをソフト投票による$k$-nearest 近傍探索で行い,挿入ステップでは,画像類似性によって検索されなかったデータセットのサンプルを追加する。
このアプローチにより、取得した画像の視覚的多様性の低さを克服できる。
詳細な実験結果から、提案手法は、Google Landmarks Datasetsに挑戦する既存のアプローチよりも大幅に優れていることが示された。
私たちの方法では、Google Landmark Retrieval 2019チャレンジで1位、KaggleでのGoogle Landmark Recognition 2019チャレンジで3位を獲得しました。
我々のコードはここで公開されている。 \url{https://github.com/lyakaap/Landmark2019-1st-and-3rd-Place-Solution} We propose an efficient pipeline for large-scale landmark image retrieval that addresses the diversity of the dataset through two-stage discriminative re-ranking. Our approach is based on embedding the images in a feature-space using a convolutional neural network trained with a cosine softmax loss. Due to the variance of the images, which include extreme viewpoint changes such as having to retrieve images of the exterior of a landmark from images of the interior, this is very challenging for approaches based exclusively on visual similarity. Our proposed re-ranking approach improves the results in two steps: in the sort-step, $k$-nearest neighbor search with soft-voting to sort the retrieved results based on their label similarity to the query images, and in the insert-step, we add additional samples from the dataset that were not retrieved by image-similarity. This approach allows overcoming the low visual diversity in retrieved images. In-depth experimental results show that the proposed approach significantly outperforms existing approaches on the challenging Google Landmarks Datasets. Using our methods, we achieved 1st place in the Google Landmark Retrieval 2019 challenge and 3rd place in the Google Landmark Recognition 2019 challenge on Kaggle. Our code is publicly available here: \url{https://github.com/lyakaap/Landmark2019-1st-and-3rd-Place-Solution} | 翻訳日:2022-12-20 03:24:19 公開日:2020-03-25 |
# グローバルな共分散ポーリングによるCNNのメリット - 最適化の視点から What Deep CNNs Benefit from Global Covariance Pooling: An Optimization Perspective ( http://arxiv.org/abs/2003.11241v1 ) ライセンス: Link先を確認 | Qilong Wang, Li Zhang, Banggu Wu, Dongwei Ren, Peihua Li, Wangmeng Zuo, Qinghua Hu | (参考訳) 近年の研究では、グローバル共分散プーリング(GCP)が、視覚的分類タスクにおける深層畳み込みニューラルネットワーク(CNN)の性能を向上させる能力を持っていることが示されている。
かなりの進歩にもかかわらず、深層cnnにおけるgcpの有効性の理由は十分に研究されていない。
本稿では,最適化の観点から,GCPの深いCNNのメリットを理解するための試みを行う。
具体的には、最適化損失のリプシッツ性と勾配の予測性の観点から、深いcnnに対するgcpの影響を調べ、gcpが最適化のランドスケープをよりスムーズにし、勾配をより予測できることを示す。
さらに、深層cnnの2次最適化とgcpの関係についても論じる。
More importantly, above findings can account for several merits of covariance pooling for training deep CNNs that have not been recognized previously or fully explored, including significant acceleration of network convergence (i.e., the networks trained with GCP can support rapid decay of learning rates, achieving favorable performance while significantly reducing number of training epochs), stronger robustness to distorted examples generated by image corruptions and perturbations, and good generalization ability to different vision tasks, e.g., object detection and instance segmentation.
多様なタスクに対して様々な深部CNNモデルを用いて広範な実験を行い,その結果を強く支持する。 Recent works have demonstrated that global covariance pooling (GCP) has the ability to improve performance of deep convolutional neural networks (CNNs) on visual classification task. Despite considerable advance, the reasons on effectiveness of GCP on deep CNNs have not been well studied. In this paper, we make an attempt to understand what deep CNNs benefit from GCP in a viewpoint of optimization. Specifically, we explore the effect of GCP on deep CNNs in terms of the Lipschitzness of optimization loss and the predictiveness of gradients, and show that GCP can make the optimization landscape more smooth and the gradients more predictive. Furthermore, we discuss the connection between GCP and second-order optimization for deep CNNs. More importantly, above findings can account for several merits of covariance pooling for training deep CNNs that have not been recognized previously or fully explored, including significant acceleration of network convergence (i.e., the networks trained with GCP can support rapid decay of learning rates, achieving favorable performance while significantly reducing number of training epochs), stronger robustness to distorted examples generated by image corruptions and perturbations, and good generalization ability to different vision tasks, e.g., object detection and instance segmentation. We conduct extensive experiments using various deep CNN models on diversified tasks, and the results provide strong support to our findings. | 翻訳日:2022-12-20 03:23:34 公開日:2020-03-25 |
# scatter: 選択的コンテキスト注目シーンテキスト認識器 SCATTER: Selective Context Attentional Scene Text Recognizer ( http://arxiv.org/abs/2003.11288v1 ) ライセンス: Link先を確認 | Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor and R. Manmatha | (参考訳) Scene Text Recognition (STR)は、複雑な画像背景に対してテキストを認識するタスクであり、研究の活発な領域である。
現在の最先端技術(SOTA)手法は、任意の形で書かれたテキストを認識するのに依然として苦労している。
本稿では,Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを提案する。
SCATTERは、トレーニング中に中間的な監視を伴う積み重ねブロックアーキテクチャを使用し、ディープBiLSTMエンコーダのトレーニングに成功し、コンテキスト依存のエンコーディングを改善する。
復号化は2ステップ1Dアテンション機構を用いて行う。
最初の注意ステップは、CNNバックボーンからの視覚的特徴と、BiLSTM層によって計算されたコンテキスト的特徴を再重み付けする。
第2の注意ステップは、以前の論文と同様、特徴をシーケンスとして扱い、シーケンス内の関係に従う。
実験により,提案手法が不規則テキスト認識ベンチマークのsoma性能を平均3.7\%上回った。 Scene Text Recognition (STR), the task of recognizing text against complex image backgrounds, is an active area of research. Current state-of-the-art (SOTA) methods still struggle to recognize text written in arbitrary shapes. In this paper, we introduce a novel architecture for STR, named Selective Context ATtentional Text Recognizer (SCATTER). SCATTER utilizes a stacked block architecture with intermediate supervision during training, that paves the way to successfully train a deep BiLSTM encoder, thus improving the encoding of contextual dependencies. Decoding is done using a two-step 1D attention mechanism. The first attention step re-weights visual features from a CNN backbone together with contextual features computed by a BiLSTM layer. The second attention step, similar to previous papers, treats the features as a sequence and attends to the intra-sequence relationships. Experiments show that the proposed approach surpasses SOTA performance on irregular text recognition benchmarks by 3.7\% on average. | 翻訳日:2022-12-20 03:23:15 公開日:2020-03-25 |
# サーベイサンプリングにおける設計非バイアス統計学習 Design-unbiased statistical learning in survey sampling ( http://arxiv.org/abs/2003.11423v1 ) ライセンス: Link先を確認 | Luis Sanguiao Sande and Li-Chun Zhang | (参考訳) サーベイサンプリングでは,設計一貫性のあるモデル支援推定が標準的手法となっている。
しかし、これまでは一般的な理論が欠如しており、より強力な補助モデルに繋がる現代の機械学習技術を取り入れることができる。
本稿では,線形あるいは非線形予測モデルの助けを借りて,Rio-Blackwell法をサブサンプリングし,正確に設計不偏性推定を行う統計的学習理論を提案する。
我々のアプローチは、統計科学の古典的アイデアと、急速に成長する機械学習の分野を活用する。
豊富な補助情報を提供しれば, 個別レベルでの補助モデルの潜在的な誤特定に対して頑健な与えられた対象集団に対する正当な推定を確保しつつ, 標準線形モデル支援手法よりも相当な効率向上が得られる。 Design-consistent model-assisted estimation has become the standard practice in survey sampling. However, a general theory is lacking so far, which allows one to incorporate modern machine-learning techniques that can lead to potentially much more powerful assisting models. We propose a subsampling Rao-Blackwell method, and develop a statistical learning theory for exactly design-unbiased estimation with the help of linear or non-linear prediction models. Our approach makes use of classic ideas from Statistical Science as well as the rapidly growing field of Machine Learning. Provided rich auxiliary information, it can yield considerable efficiency gains over standard linear model-assisted methods, while ensuring valid estimation for the given target population, which is robust against potential mis-specifications of the assisting model at the individual level. | 翻訳日:2022-12-20 03:16:20 公開日:2020-03-25 |
# イメージセマンティクスセグメンテーションに基づく新しい多重maxプール統合モジュールとクロスマルチスケールデコンボリューションネットワーク A New Multiple Max-pooling Integration Module and Cross Multiscale Deconvolution Network Based on Image Semantic Segmentation ( http://arxiv.org/abs/2003.11213v1 ) ライセンス: Link先を確認 | Hongfeng You, Shengwei Tian, Long Yu, Xiang Ma, Yan Xing and Ning Xin | (参考訳) 画像の深い特徴を保持し、エンドツーエンドセグメンテーションモデルのスパーシティ問題を解決するため、医療用画像画素セグメンテーションのための新しい深層畳み込みネットワークモデルmc-netを提案する。
このネットワークモデルのコアは、エンコーダネットワーク、複数の最大プール統合モジュール、クロスマルチスケールデコンボリューションデコーダネットワーク、ピクセルレベルの分類層という4つの部分で構成されている。
エンコーダのネットワーク構造では、従来の単一チャネル畳み込みではなく、マルチスケール畳み込みを使用する。
多重maxプール統合モジュールは、まずエンコーダネットワークの各サブモジュールの出力機能を統合し、カーネルサイズ1.1の畳み込みによるパラメータ数を削減する。
同時に、各最大プーリング層(各層のプーリングサイズが異なる)は、各畳み込み後にスプライシングされ、各サブモジュールの特徴写像の変換不変性を達成する。
デコーダネットワークにおける各サブモジュールのマルチスケールの畳み込みは、エンコーダネットワークにおける対応するマルチスケールの畳み込みによって生成された特徴マップと相互に融合する。
上記の特徴写像処理手法を用いることで、最大プール層生成行列後の疎度問題を解消し、分類の堅牢性を高める。
提案モデルと,セマンティクスセグメンテーション (fcns), decovnet, pspnet, u-net, sgenet, およびhyperdensenet, ms-dual, espnetv2, denseasppなどの最先端セグメンテーションネットワークと, 1つのバイナリkaggle 2018 data science bowlデータセットと2つのマルチクラスデータセットを用いて比較し,実験結果を得た。 To better retain the deep features of an image and solve the sparsity problem of the end-to-end segmentation model, we propose a new deep convolutional network model for medical image pixel segmentation, called MC-Net. The core of this network model consists of four parts, namely, an encoder network, a multiple max-pooling integration module, a cross multiscale deconvolution decoder network and a pixel-level classification layer. In the network structure of the encoder, we use multiscale convolution instead of the traditional single-channel convolution. The multiple max-pooling integration module first integrates the output features of each submodule of the encoder network and reduces the number of parameters by convolution using a kernel size of 1. At the same time, each max-pooling layer (the pooling size of each layer is different) is spliced after each convolution to achieve the translation invariance of the feature maps of each submodule. We use the output feature maps from the multiple max-pooling integration module as the input of the decoder network; the multiscale convolution of each submodule in the decoder network is cross-fused with the feature maps generated by the corresponding multiscale convolution in the encoder network. Using the above feature map processing methods solves the sparsity problem after the max-pooling layer-generating matrix and enhances the robustness of the classification. We compare our proposed model with the well-known Fully Convolutional Networks for Semantic Segmentation (FCNs), DecovNet, PSPNet, U-net, SgeNet and other state-of-the-art segmentation networks such as HyperDenseNet, MS-Dual, Espnetv2, Denseaspp using one binary Kaggle 2018 data science bowl dataset and two multiclass dataset and obtain encouraging experimental results. | 翻訳日:2022-12-20 03:15:09 公開日:2020-03-25 |
# 新型コロナウイルスの画像データ収集 COVID-19 Image Data Collection ( http://arxiv.org/abs/2003.11597v1 ) ライセンス: Link先を確認 | Joseph Paul Cohen and Paul Morrison and Lan Dao | (参考訳) 本稿では,最初のcovid-19オープンイメージデータ収集について述べる。
ウェブサイトや出版物から医用画像を集め、現在123個の正面X線を撮影している。 This paper describes the initial COVID-19 open image data collection. It was created by assembling medical images from websites and publications and currently contains 123 frontal view X-rays. | 翻訳日:2022-12-20 03:14:31 公開日:2020-03-25 |
# Covid-19:畳み込みニューラルネットワークを用いたトランスファーラーニングを用いたX線画像の自動検出 Covid-19: Automatic detection from X-Ray images utilizing Transfer Learning with Convolutional Neural Networks ( http://arxiv.org/abs/2003.11617v1 ) ライセンス: Link先を確認 | Ioannis D. Apostolopoulos, Tzani Bessiana | (参考訳) 本研究では,コモン肺炎,コビッド19,正常症例のX線画像のデータセットを用いて,コロナウイルスの自動検出を行った。
本研究の目的は,近年の医用画像分類において提案されている畳み込みニューラルネットワークアーキテクチャの性能を評価することである。
具体的には、転校学習という手順が採用された。
転送学習では、小さな医療画像データセットにおける様々な異常の検出が達成可能な目標であり、しばしば顕著な結果をもたらす。
この実験で使用されるデータセットは、1427のx線画像のコレクションである。
Covid-19が確認された224枚、コモン肺炎が確認された700枚、正常な状態の504枚を含む。
データは、公開医療リポジトリで利用可能なX線画像から収集された。
転送学習では、Covid-19の検出において全体の97.82%の精度が達成されている。 In this study, a dataset of X-Ray images from patients with common pneumonia, Covid-19, and normal incidents was utilized for the automatic detection of the Coronavirus. The aim of the study is to evaluate the performance of state-of-the-art Convolutional Neural Network architectures proposed over recent years for medical image classification. Specifically, the procedure called transfer learning was adopted. With transfer learning, the detection of various abnormalities in small medical image datasets is an achievable target, often yielding remarkable results. The dataset utilized in this experiment is a collection of 1427 X-Ray images. 224 images with confirmed Covid-19, 700 images with confirmed common pneumonia, and 504 images of normal conditions are included. The data was collected from the available X-Ray images on public medical repositories. With transfer learning, an overall accuracy of 97.82% in the detection of Covid-19 is achieved. | 翻訳日:2022-12-20 03:14:27 公開日:2020-03-25 |
# 情報ベースアテンション畳み込みニューラルネットワークによる多段階心電図分類 Multi-Lead ECG Classification via an Information-Based Attention Convolutional Neural Network ( http://arxiv.org/abs/2003.12009v1 ) ライセンス: Link先を確認 | Hao Tung, Chao Zheng, Xinsheng Mao, and Dahong Qian | (参考訳) 目的: チャネルワイドアテンション機構に基づく新しい構造について述べる。
提案構造を組み込んだマルチリード心電図(ecg)を入力として受け入れる効率的な分類モデルを構築した。
方法: 1次元畳み込みニューラルネットワーク(CNN)は広範に分類されたタスクに有効であることが証明され、ターゲットを分類しながら特徴の自動抽出が可能となった。
本研究では、残差接続を実装し、トレーニングプロセス中に入力特徴マップ内の異なるチャネルに含まれる情報から重みを学習できる構造を設計する。
5つのECGクラスのうちの2つの分類タスクにおいて、特定のモデルセグメントのパフォーマンスを監視するために平均平方偏差という指標を導入する。
MIT-BIH不整脈データベースのデータを使用し、一連の制御実験を行う。
結果: ニューラルネットワーク分類器への入力としてECG信号の両リードを使用すると,異なるアプリケーションシナリオで単一チャネル入力を使用することで,より優れた分類結果が得られる。
チャネルワイドアテンション構造に埋め込まれたモデルは、通常のResnetモデルよりも感度と精度のスコアが良い。
提案モデルは,心室異所性ビート(VEB)分類における最先端モデルの大部分を上回り,上室異所性ビート(SVEB)の競合スコアを得る。
結論: 入力としてより多くのリードECG信号を採用すると、入力特徴マップの次元が増大し、ネットワークモデルの性能と一般化が向上する。
意義: エンド・ツー・エンドの特徴とマルチリード心疾患の診断における拡張可能な内在性のため, 本モデルはホルターやウェアラブルデバイス用ECG波形のリアルタイム心電図追跡に利用することができる。 Objective: A novel structure based on channel-wise attention mechanism is presented in this paper. Embedding with the proposed structure, an efficient classification model that accepts multi-lead electrocardiogram (ECG) as input is constructed. Methods: One-dimensional convolutional neural networks (CNN) have proven to be effective in pervasive classification tasks, enabling the automatic extraction of features while classifying targets. We implement the Residual connection and design a structure which can learn the weights from the information contained in different channels in the input feature map during the training process. An indicator named mean square deviation is introduced to monitor the performance of a particular model segment in the classification task on the two out of the five ECG classes. The data in the MIT-BIH arrhythmia database is used and a series of control experiments is conducted. Results: Utilizing both leads of the ECG signals as input to the neural network classifier can achieve better classification results than those from using single channel inputs in different application scenarios. Models embedded with the channel-wise attention structure always achieve better scores on sensitivity and precision than the plain Resnet models. The proposed model exceeds the performance of most of the state-of-the-art models in ventricular ectopic beats (VEB) classification, and achieves competitive scores for supraventricular ectopic beats (SVEB). Conclusion: Adopting more lead ECG signals as input can increase the dimensions of the input feature maps, helping to improve both the performance and generalization of the network model. Significance: Due to its end-to-end characteristics, and the extensible intrinsic for multi-lead heart diseases diagnosing, the proposed model can be used for the real-time ECG tracking of ECG waveforms for Holter or wearable devices. | 翻訳日:2022-12-20 03:14:17 公開日:2020-03-25 |
# ニューロモルフィックセンサーを用いた学習型感覚運動制御:超次元能動知覚に向けて [科学ロボティクスVol.]
4号(2019年)1-10 Commentaries on "Learning Sensorimotor Control with Neuromorphic Sensors: Toward Hyperdimensional Active Perception" [Science Robotics Vol. 4 Issue 30 (2019) 1-10 ( http://arxiv.org/abs/2003.11458v1 ) ライセンス: Link先を確認 | Denis Kleyko and Ross W. Gayler and Evgeny Osipov | (参考訳) この対応は、Mitrokhinらによる最近のScience Roboticsの記事に報告された研究結果に関するコメントである。
[1].
このコメントの主な目標は、この記事で触れられたいくつかの問題を拡張することである。
我々の経験では、超次元コンピューティングは他の計算方法とは大きく異なり、実用上有用な理解に達する前にその概念をかなり露出させることができる。
したがって、その地域の概観を[1]の初読者に提示するために、その注釈書には、その記事の調査結果と、その領域に存在するより大きな文献とを結びつけるとともに、簡単な歴史的概観が含まれている。 This correspondence comments on the findings reported in a recent Science Robotics article by Mitrokhin et al. [1]. The main goal of this commentary is to expand on some of the issues touched on in that article. Our experience is that hyperdimensional computing is very different from other approaches to computation and that it can take considerable exposure to its concepts before attaining practically useful understanding. Therefore, in order to provide an overview of the area to the first time reader of [1], the commentary includes a brief historic overview as well as connects the findings of the article to a larger body of literature existing in the area. | 翻訳日:2022-12-20 03:07:35 公開日:2020-03-25 |
# newton zero-finding frameworkによるpcaとsvdの結合学習ルールの導出 Derivation of Coupled PCA and SVD Learning Rules from a Newton Zero-Finding Framework ( http://arxiv.org/abs/2003.11456v1 ) ライセンス: Link先を確認 | Ralf M\"oller | (参考訳) PCA(主成分分析)とSVD(特異値分解)の複合学習ルールでは、固有ベクトルまたは特異ベクトルの推定値の更新は固有値または特異値の推定値に影響される。
この同時更新は、更新方程式がほぼ同じ速度で全方向から収束するため、速度安定性の問題を軽減する。
ニュートン最適化による情報基準から結合学習規則を導出する方法が知られている。
しかし、これらの情報基準は設計され、説明的価値を提供しず、ベクトル推定にユークリッド制約を課すだけでよい。
ここでは、Newton 0-findingフレームワークから、PCAとSVDを結合した学習ルールを体系的に導き出す方法について述べる。
導出は目的関数から始まり、その極限の方程式をベクトル推定の任意の制約と組み合わせ、ニュートンの零点法を用いて得られるベクトル零点方程式を解く。
この枠組みを実証するために、ベクトル推定の定数ユークリッド長または定数和でPCAおよびSVD学習規則を導出する。 In coupled learning rules for PCA (principal component analysis) and SVD (singular value decomposition), the update of the estimates of eigenvectors or singular vectors is influenced by the estimates of eigenvalues or singular values, respectively. This coupled update mitigates the speed-stability problem since the update equations converge from all directions with approximately the same speed. A method to derive coupled learning rules from information criteria by Newton optimization is known. However, these information criteria have to be designed, offer no explanatory value, and can only impose Euclidean constraints on the vector estimates. Here we describe an alternative approach where coupled PCA and SVD learning rules can systematically be derived from a Newton zero-finding framework. The derivation starts from an objective function, combines the equations for its extrema with arbitrary constraints on the vector estimates, and solves the resulting vector zero-point equation using Newton's zero-finding method. To demonstrate the framework, we derive PCA and SVD learning rules with constant Euclidean length or constant sum of the vector estimates. | 翻訳日:2022-12-20 03:07:21 公開日:2020-03-25 |
# リコメンダシステムのための知識グラフの深層学習:サーベイ Deep Learning on Knowledge Graph for Recommender System: A Survey ( http://arxiv.org/abs/2004.00387v1 ) ライセンス: Link先を確認 | Yang Gao, Yi-Fan Li, Yu Lin, Hang Gao, Latifur Khan | (参考訳) 最近の研究の進歩は、レコメンデーションシステム(rs)を改善するための価値のある外部知識を提供するための知識グラフ(kg)の有効性を実証している。
知識グラフは、2つのオブジェクトと1つまたは複数の関連属性を接続する高次関係を符号化することができる。
新たなグラフニューラルネットワーク(GNN)の助けを借りて、オブジェクトの特徴と関係性の両方をKGから抽出することが可能である。
本稿では,GNNに基づく知識認識型ディープレコメンデータシステムに関する総合的な調査を行う。
具体的には,そのコアコンポーネント,すなわちグラフ埋め込みモジュールに注目した最先端フレームワークと,スケーラビリティやコールドスタートといった実用的なレコメンデーション問題に対処する方法について論じる。
さらに,広く使用されているベンチマークデータセットや評価メトリクス,オープンソースコードなども要約する。
最後に,この急速に成長する分野における調査の結論と今後の研究方向性を提案する。 Recent advances in research have demonstrated the effectiveness of knowledge graphs (KG) in providing valuable external knowledge to improve recommendation systems (RS). A knowledge graph is capable of encoding high-order relations that connect two objects with one or multiple related attributes. With the help of the emerging Graph Neural Networks (GNN), it is possible to extract both object characteristics and relations from KG, which is an essential factor for successful recommendations. In this paper, we provide a comprehensive survey of the GNN-based knowledge-aware deep recommender systems. Specifically, we discuss the state-of-the-art frameworks with a focus on their core component, i.e., the graph embedding module, and how they address practical recommendation issues such as scalability, cold-start and so on. We further summarize the commonly-used benchmark datasets, evaluation metrics as well as open-source codes. Finally, we conclude the survey and propose potential research directions in this rapidly growing field. | 翻訳日:2022-12-20 03:06:13 公開日:2020-03-25 |
# 一般化正準相関解析:部分空間断面積法 Generalized Canonical Correlation Analysis: A Subspace Intersection Approach ( http://arxiv.org/abs/2003.11205v1 ) ライセンス: Link先を確認 | Mikael S{\o}rensen, Charilaos I. Kanatsoulis, and Nicholas D. Sidiropoulos | (参考訳) Generalized Canonical correlation Analysis (GCCA)は、データマイニング、機械学習、人工知能に多くの応用を見出す重要なツールである。
同じエンティティの集合の複数の特徴表現(ビュー)に強く相関する'共通'ランダム変数を見つけることを目的としている。
CCAとより少ない範囲のGCAは、統計学的およびアルゴリズム的な観点から研究されているが、線型代数の観点からはあまり研究されていない。
本稿では,その本質を自然に捉えた(双)線形生成モデルに基づくGCCAの新しい代数的視点を提供する。
線型代数的な観点から、GCCAは部分空間交叉に接しており、異なるビューの共通部分空間が特定可能な条件が提供される。
大規模GCCAタスクを処理するためにスケールアップする部分空間交叉に基づく新しいGCCAアルゴリズムを提案する。
提案手法の有効性を示すために合成と実データ実験が提供されている。 Generalized Canonical Correlation Analysis (GCCA) is an important tool that finds numerous applications in data mining, machine learning, and artificial intelligence. It aims at finding `common' random variables that are strongly correlated across multiple feature representations (views) of the same set of entities. CCA and to a lesser extent GCCA have been studied from the statistical and algorithmic points of view, but not as much from the standpoint of linear algebra. This paper offers a fresh algebraic perspective of GCCA based on a (bi-)linear generative model that naturally captures its essence. It is shown that from a linear algebra point of view, GCCA is tantamount to subspace intersection; and conditions under which the common subspace of the different views is identifiable are provided. A novel GCCA algorithm is proposed based on subspace intersection, which scales up to handle large GCCA tasks. Synthetic as well as real data experiments are provided to showcase the effectiveness of the proposed approach. | 翻訳日:2022-12-20 03:05:40 公開日:2020-03-25 |
# 繰り返しニューラルネットワークを用いた多変量水質パラメータ予測モデル A multivariate water quality parameter prediction model using recurrent neural network ( http://arxiv.org/abs/2003.11492v1 ) ライセンス: Link先を確認 | Dhruti Dheda and Ling Cheng | (参考訳) 水資源の世界的な劣化は、特に人類の生存にとって大きな関心事である。
既存の水資源の効率的なモニタリングと管理は、最適な水質を達成および維持するために必要である。
水資源の品質の予測は、可能問題領域のタイムリーな識別に役立つため、水管理の効率が向上する。
本研究では,recurrent neural network (rnn),long short-term memory (lstm),および過去の水質データを用いて,水質パラメータに基づく水質予測モデルを開発することを目的とした。
整流線形単位(relu)活性化関数と根平均二乗伝播(rmsprop)オプティマイザーを用いて,多変量単一および複数ステップlstmモデルを開発した。
単一ステップモデルは 0.01 mg/l の誤差を達成し、複数ステップモデルは 0.227 mg/l の根平均二乗誤差 (rmse) を達成した。 The global degradation of water resources is a matter of great concern, especially for the survival of humanity. The effective monitoring and management of existing water resources is necessary to achieve and maintain optimal water quality. The prediction of the quality of water resources will aid in the timely identification of possible problem areas and thus increase the efficiency of water management. The purpose of this research is to develop a water quality prediction model based on water quality parameters through the application of a specialised recurrent neural network (RNN), Long Short-Term Memory (LSTM) and the use of historical water quality data over several years. Both multivariate single and multiple step LSTM models were developed, using a Rectified Linear Unit (ReLU) activation function and a Root Mean Square Propagation (RMSprop) optimiser was developed. The single step model attained an error of 0.01 mg/L, whilst the multiple step model achieved a Root Mean Squared Error (RMSE) of 0.227 mg/L. | 翻訳日:2022-12-20 02:57:58 公開日:2020-03-25 |
# 勾配を持つニューラルネットワークの類似性 Similarity of Neural Networks with Gradients ( http://arxiv.org/abs/2003.11498v1 ) ライセンス: Link先を確認 | Shuai Tang, Wesley J. Maddox, Charlie Dickens, Tom Diethe, Andreas Damianou | (参考訳) 学習ニューラルネットワークの比較に適した類似度指数は、高非線形関数の振る舞いを理解する上で重要な役割を担い、さらなる理論的解析と経験的研究に関する洞察を与えることができる。
まず、学習したモデルから抽象化された表現を定義し、そこで、特徴ベクトルと勾配ベクトルの両方(これは以前の作業では無視されていた)をニューラルネットワークの表現設計に活用することを提案する。
次に,所望の不変性を与える使用済みの類似性指標を定義し,様々なデータセットを効率的に比較するためのスケッチ技術を用いて,選択した類似性を評価する。
実験により,提案手法は,異なるデータセットとデータセットで定義されたタスクで独立に学習されるニューラルネットワークの類似性を計算するための最先端の手法であることを示す。 A suitable similarity index for comparing learnt neural networks plays an important role in understanding the behaviour of the highly-nonlinear functions, and can provide insights on further theoretical analysis and empirical studies. We define two key steps when comparing models: firstly, the representation abstracted from the learnt model, where we propose to leverage both feature vectors and gradient ones (which are largely ignored in prior work) into designing the representation of a neural network. Secondly, we define the employed similarity index which gives desired invariance properties, and we facilitate the chosen ones with sketching techniques for comparing various datasets efficiently. Empirically, we show that the proposed approach provides a state-of-the-art method for computing similarity of neural networks that are trained independently on different datasets and the tasks defined by the datasets. | 翻訳日:2022-12-20 02:57:41 公開日:2020-03-25 |
# データ選択型volterra nlmsアルゴリズムのロバスト性解析 Robustness Analysis of the Data-Selective Volterra NLMS Algorithm ( http://arxiv.org/abs/2003.11514v1 ) ライセンス: Link先を確認 | Javad Sharafi and Abbas Maarefparvar | (参考訳) 近年,データ選択適応型ボルテラフィルタが提案されているが,これまでは数値シミュレーションではなく,その挙動に関する理論的解析は行われていない。
そこで本研究では,データ選択型volterra正規化最小平均二乗法(ds-vnlms)のロバスト性(l2安定性)を解析する。
まず,このアルゴリズムの局所的ロバスト性を任意の繰り返しで検討し,係数ベクトルの誤差/誤差のグローバル境界を提案する。
また、DS-VNLMSアルゴリズムは、更新されたイテレーションの大部分のパラメータ推定を改善することを実証する。
さらに,ノイズ境界が分かっていれば,DS-VNLMSを推定値が劣化しないように設定できることを示す。
シミュレーション結果から,ds-vnlmsアルゴリズムは,パラメータがどう適用されたかに関わらず,雑音に対して頑健であることを示す。 Recently, the data-selective adaptive Volterra filters have been proposed; however, up to now, there are not any theoretical analyses on its behavior rather than numerical simulations. Therefore, in this paper, we analyze the robustness (in the sense of l2-stability) of the data-selective Volterra normalized least-mean-square (DS-VNLMS) algorithm. First, we study the local robustness of this algorithm at any iteration, then we propose a global bound for the error/discrepancy in the coefficient vector. Also, we demonstrate that the DS-VNLMS algorithm improves the parameter estimation for the majority of the iterations that an update is implemented. Moreover, we prove that if the noise bound is known, we can set the DS-VNLMS so that it never degrades the estimate. The simulation results corroborate the validity of the executed analysis and demonstrate that the DS-VNLMS algorithm is robust against noise, no matter how its parameters are adopted. | 翻訳日:2022-12-20 02:57:27 公開日:2020-03-25 |
# 多層関係ネットワークによるRavenの進行行列の解法 Solving Raven's Progressive Matrices with Multi-Layer Relation Networks ( http://arxiv.org/abs/2003.11608v1 ) ライセンス: Link先を確認 | Marius Jahrens and Thomas Martinetz | (参考訳) Raven's Progressive Matricesは、もともと人間の認知能力をテストするために設計されたベンチマークである。
最近では、機械学習システムにおけるリレーショナル推論のテストに適応している。
この目的のために、いわゆるProcedurally Generated Matricesデータセットが設定され、これは今のところ最も難しいリレーショナル推論ベンチマークの1つである。
本稿では,このベンチマークをディープニューラルネットワークが解くことができることを示し,ワイルドリレーションネットワークと多層リレーショナルネットワークを組み合わせることで,従来の62.6パーセントよりも98.0パーセントの精度を達成し,後期融合アーキテクチャ用に設計されたエンコーディング方式であるマグニチュードエンコーディングを導入する。 Raven's Progressive Matrices are a benchmark originally designed to test the cognitive abilities of humans. It has recently been adapted to test relational reasoning in machine learning systems. For this purpose the so-called Procedurally Generated Matrices dataset was set up, which is so far one of the most difficult relational reasoning benchmarks. Here we show that deep neural networks are capable of solving this benchmark, reaching an accuracy of 98.0 percent over the previous state-of-the-art of 62.6 percent by combining Wild Relation Networks with Multi-Layer Relation Networks and introducing Magnitude Encoding, an encoding scheme designed for late fusion architectures. | 翻訳日:2022-12-20 02:57:10 公開日:2020-03-25 |
# RelatIF: 相対的影響による説明的訓練例の特定 RelatIF: Identifying Explanatory Training Examples via Relative Influence ( http://arxiv.org/abs/2003.11630v1 ) ライセンス: Link先を確認 | Elnaz Barshan, Marc-Etienne Brunet, Gintare Karolina Dziugaite | (参考訳) 本研究では,機械学習モデルの予測を"説明"することを希望する,関連するトレーニング例を特定するための影響関数の利用に焦点を当てる。
影響関数の欠点の1つは、最も「知的な」と見なされる訓練例は、しばしば外見や誤認であり、説明のための選択肢が乏しいことである。
この欠点に対処するために、我々はグローバルとローカルの影響力の役割を分離する。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
RelatIFは、説明例がモデルに対するその世界的影響に対する予測に与える局所的な影響を考察している。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。 In this work, we focus on the use of influence functions to identify relevant training examples that one might hope "explain" the predictions of a machine learning model. One shortcoming of influence functions is that the training examples deemed most "influential" are often outliers or mislabelled, making them poor choices for explanation. In order to address this shortcoming, we separate the role of global versus local influence. We introduce RelatIF, a new class of criteria for choosing relevant training examples by way of an optimization objective that places a constraint on global influence. RelatIF considers the local influence that an explanatory example has on a prediction relative to its global effects on the model. In empirical evaluations, we find that the examples returned by RelatIF are more intuitive when compared to those found using influence functions. | 翻訳日:2022-12-20 02:56:53 公開日:2020-03-25 |
# マルチクラスおよびマルチラベルサポートベクターマシンのための統一フレームワーク A Unified Framework for Multiclass and Multilabel Support Vector Machines ( http://arxiv.org/abs/2003.11197v1 ) ライセンス: Link先を確認 | Hoda Shajari, Anand Rangarajan | (参考訳) マルチクラスおよびマルチラベルサポートベクターマシン(SVM)のための新しい統合型定式化を提案する。
元のバイナリSVMをオールインワンのマルチクラスSVMに拡張するいくつかのアプローチが提案されている。
しかし、統一マルチラベルSVMへの直接拡張は広く研究されていない。
統一されたフレームワーク内でのマルチクラスおよびマルチラベルの分類問題に対処するために,SVMの簡単な拡張を提案する。
本フレームワークは, 従来のソフトマージンSVMフレームワークから, 直接反対構造で逸脱する。
我々の定式化において、クラス固有の重みベクトル(正規ベクトル)は、原点に対してマージンを最大化し、この原点に近づきすぎるとパターンをペナル化することによって学習される。
結果として、各重みベクトルは、対応するクラスに属するパターンを最もよく表現するように、この起源に関して向きと大きさを選択する。
クラス間の対置は、重みベクトルの対の内積の最小化によって定式化される。
また、標準再生カーネルヒルベルト空間(RKHS)を介して非線形分離性に対処する枠組みを拡張した。
原点と密接に関連しているバイアスは、原点空間とヒルベルト空間の両方において適切に扱う必要がある。
制約を定式化(基盤となる幾何学をよりよく反映するならば)に取り入れ、分類器の性能を向上させる柔軟性があります。
この目的のために、RKHSの起源のような特質や技術に対処する。
その結果、マルチクラス分類問題とマルチラベル分類問題の両方に対する競合的分類器が示される。 We propose a novel integrated formulation for multiclass and multilabel support vector machines (SVMs). A number of approaches have been proposed to extend the original binary SVM to an all-in-one multiclass SVM. However, its direct extension to a unified multilabel SVM has not been widely investigated. We propose a straightforward extension to the SVM to cope with multiclass and multilabel classification problems within a unified framework. Our framework deviates from the conventional soft margin SVM framework with its direct oppositional structure. In our formulation, class-specific weight vectors (normal vectors) are learned by maximizing their margin with respect to an origin and penalizing patterns when they get too close to this origin. As a result, each weight vector chooses an orientation and a magnitude with respect to this origin in such a way that it best represents the patterns belonging to its corresponding class. Opposition between classes is introduced into the formulation via the minimization of pairwise inner products of weight vectors. We also extend our framework to cope with nonlinear separability via standard reproducing kernel Hilbert spaces (RKHS). Biases which are closely related to the origin need to be treated properly in both the original feature space and Hilbert space. We have the flexibility to incorporate constraints into the formulation (if they better reflect the underlying geometry) and improve the performance of the classifier. To this end, specifics and technicalities such as the origin in RKHS are addressed. Results demonstrates a competitive classifier for both multiclass and multilabel classification problems. | 翻訳日:2022-12-20 02:49:36 公開日:2020-03-25 |
# 高次元データ分類のためのブースティングリッジ回帰 Boosting Ridge Regression for High Dimensional Data Classification ( http://arxiv.org/abs/2003.11283v1 ) ライセンス: Link先を確認 | Jakramate Bootkrajang | (参考訳) リッジ回帰は分類問題に適用できるよく確立された回帰推定器である。
説得力のある理由の1つは、リッジ回帰が閉形式解を放出し、トレーニングフェーズが容易であるという事実である。
しかし、高次元問題の場合、正規化共分散行列の反転を伴う閉形式解は計算にかなり費用がかかる。
このような演算の高い計算要求は、リッジ回帰のアンサンブルを構築することの難しさも引き起こす。
本稿では、各回帰器がランダムに投影された部分空間で訓練されるリッジ回帰器のアンサンブルを学習することを検討する。
サブスペースレグレッサーは後に適応ブースティング手法によって結合される。
5つの高次元分類問題に基づく実験は、学習時間の観点から提案手法の有効性を実証し、場合によっては予測性能が向上することを示した。 Ridge regression is a well established regression estimator which can conveniently be adapted for classification problems. One compelling reason is probably the fact that ridge regression emits a closed-form solution thereby facilitating the training phase. However in the case of high-dimensional problems, the closed-form solution which involves inverting the regularised covariance matrix is rather expensive to compute. The high computational demand of such operation also renders difficulty in constructing ensemble of ridge regressions. In this paper, we consider learning an ensemble of ridge regressors where each regressor is trained in its own randomly projected subspace. Subspace regressors are later combined via adaptive boosting methodology. Experiments based on five high-dimensional classification problems demonstrated the effectiveness of the proposed method in terms of learning time and in some cases improved predictive performance can be observed. | 翻訳日:2022-12-20 02:48:12 公開日:2020-03-25 |
# 視線生成モデルを用いた識別的視聴者識別 Discriminative Viewer Identification using Generative Models of Eye Gaze ( http://arxiv.org/abs/2003.11399v1 ) ライセンス: Link先を確認 | Silvia Makowski, Lena A. J\"ager, Lisa Schwetlick, Hans Trukenbrod, Ralf Engbert, Tobias Scheffer | (参考訳) 任意の画像の視聴者を目視に基づいて識別する問題について検討する。
心理学的研究は、眼球運動の生成確率モデルを生み出した。
この背景知識を識別的に訓練された分類モデルで活用するために,fisher kernelを異なる視線生成モデルから導出する。
実験により,分類器の性能は基礎となる生成モデルに強く依存していることがわかった。
FisherカーネルでSVMを使用すると、基礎となる生成モデルよりも分類性能が向上する。 We study the problem of identifying viewers of arbitrary images based on their eye gaze. Psychological research has derived generative stochastic models of eye movements. In order to exploit this background knowledge within a discriminatively trained classification model, we derive Fisher kernels from different generative models of eye gaze. Experimentally, we find that the performance of the classifier strongly depends on the underlying generative model. Using an SVM with Fisher kernel improves the classification performance over the underlying generative model. | 翻訳日:2022-12-20 02:47:19 公開日:2020-03-25 |
# インターバルニューラルネットワーク:不確かさスコア Interval Neural Networks: Uncertainty Scores ( http://arxiv.org/abs/2003.11566v1 ) ライセンス: Link先を確認 | Luis Oala, Cosmas Hei{\ss}, Jan Macdonald, Maximilian M\"arz, Wojciech Samek and Gitta Kutyniok | (参考訳) 本研究では,データ駆動型区間伝搬ネットワークを用いて,事前学習したディープニューラルネットワーク(dnn)の出力における不確実性スコアを生成する高速非ベイズ法を提案する。
このインターバルニューラルネットワーク(inn)は、インターバル値パラメータを持ち、インターバル演算を用いて入力を伝搬する。
INNは、地上の真実を包含する、賢明な下限と上限を生成する。
これらの境界の有効性を理論的に正当化する。
さらに、その不斉不確かさスコアは、ガウスベースの対称分散推定が提供できる以上の追加の方向情報を提供する。
提案手法では,データ中のノイズを,生成した間隔で適切に捉えることができる。
画像再構成タスクにおける数値実験では,2つの最先端不確実性定量化手法と比較して,予測誤差の代用としてINNの実用性を示す。
要約すると、IDNは、解釈が容易で、情報を加え、改善されたエラープロキシとして機能するDNNに対して、高速で理論上正当化された不確実性スコアを生成します。 We propose a fast, non-Bayesian method for producing uncertainty scores in the output of pre-trained deep neural networks (DNNs) using a data-driven interval propagating network. This interval neural network (INN) has interval valued parameters and propagates its input using interval arithmetic. The INN produces sensible lower and upper bounds encompassing the ground truth. We provide theoretical justification for the validity of these bounds. Furthermore, its asymmetric uncertainty scores offer additional, directional information beyond what Gaussian-based, symmetric variance estimation can provide. We find that noise in the data is adequately captured by the intervals produced with our method. In numerical experiments on an image reconstruction task, we demonstrate the practical utility of INNs as a proxy for the prediction error in comparison to two state-of-the-art uncertainty quantification methods. In summary, INNs produce fast, theoretically justified uncertainty scores for DNNs that are easy to interpret, come with added information and pose as improved error proxies - features that may prove useful in advancing the usability of DNNs especially in sensitive applications such as health care. | 翻訳日:2022-12-20 02:41:20 公開日:2020-03-25 |
# iTAML: タスク非依存型メタラーニングアプローチ iTAML: An Incremental Task-Agnostic Meta-learning Approach ( http://arxiv.org/abs/2003.11652v1 ) ライセンス: Link先を確認 | Jathushan Rajasegaran, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Mubarak Shah | (参考訳) 人間は経験が進むにつれて新しい知識を継続的に学ぶことができる。
対照的に、ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
本稿では,この問題を,古いタスクや新しいタスクに特有でない一般化パラメータのセットを学習することで回避できると仮定する。
そこで本研究では,すべてのタスク間の均衡を維持するための新しいメタラーニング手法を提案する。
これは破滅的な忘れ物を避ける新しいメタ更新規則によって保証される。
従来のメタ学習技術と比較して、我々のアプローチはタスクに依存しない。
データ連続体を提示すると、我々のモデルはタスクを自動的に識別し、1回の更新で迅速に適応する。
クラスインクリメンタルな設定で5つのデータセットに対して広範な実験を行い、アートメソッドの状態を大幅に改善しました(例えば、10のインクリメンタルタスクを備えたCIFAR100の21.3%向上など)。
具体的には、インクリメンタル学習の難しいケースを一般的に証明する大規模なデータセットでは、ImageNetとMS-Celebのデータセットでそれぞれ19.1%と7.4%の絶対的なゲインを提供する。 Humans can continuously learn new knowledge as their experience grows. In contrast, previous learning in deep neural networks can quickly fade out when they are trained on a new task. In this paper, we hypothesize this problem can be avoided by learning a set of generalized parameters, that are neither specific to old nor new tasks. In this pursuit, we introduce a novel meta-learning approach that seeks to maintain an equilibrium between all the encountered tasks. This is ensured by a new meta-update rule which avoids catastrophic forgetting. In comparison to previous meta-learning techniques, our approach is task-agnostic. When presented with a continuum of data, our model automatically identifies the task and quickly adapts to it with just a single update. We perform extensive experiments on five datasets in a class-incremental setting, leading to significant improvements over the state of the art methods (e.g., a 21.3% boost on CIFAR100 with 10 incremental tasks). Specifically, on large-scale datasets that generally prove difficult cases for incremental learning, our approach delivers absolute gains as high as 19.1% and 7.4% on ImageNet and MS-Celeb datasets, respectively. | 翻訳日:2022-12-20 02:41:03 公開日:2020-03-25 |
# GreedyNAS: Greedy Supernetで高速ワンショットNASを目指す GreedyNAS: Towards Fast One-Shot NAS with Greedy Supernet ( http://arxiv.org/abs/2003.11236v1 ) ライセンス: Link先を確認 | Shan You, Tao Huang, Mingmin Yang, Fei Wang, Chen Qian, Changshui Zhang | (参考訳) スーパーネットのトレーニングは、異なるアーキテクチャ(パス)の基本的なパフォーマンス推定器として機能するため、ワンショットのニューラルアーキテクチャサーチ(NAS)手法で重要である。
現在の方法は、スーパーネットがすべての経路に対して合理的なランキングを与えるべきだという仮定を主に持っている。
したがって、全ての経路を等しく扱い、経路を訓練するのに多くの労力を要す。
しかし、1つのスーパーネットがそのような巨大な検索空間(例:7^{21}$)で正確に評価することは厳しい。
本稿では,全ての経路を網羅する代わりに,検証データのサロゲート部分を用いて同定した,潜在的に良いものの評価にもっと集中するように促すことにより,スーパーネットの負担を軽減する。
具体的には, 訓練中, 拒否を伴うマルチパスサンプリング戦略を提案し, 弱経路を厳格にフィルタリングする。
トレーニングの効率は、トレーニングスペースがあらゆる経路から潜在的に良質なものへと著しく縮小されているため、向上する。
さらに,経験的候補パスプールを導入することで,探索と搾取の方針をさらに取り入れる。
提案手法であるGreedyNASは追跡が容易であり,ImageNetデータセットを用いた実験結果から,検索空間やFLOP,遅延レベルではTop-1の精度が向上するが,スーパーネットトレーニングコストは$$60\%に留まることがわかった。
より大きなスペースを探索することで、GreedyNASは新たな最先端アーキテクチャも取得できます。 Training a supernet matters for one-shot neural architecture search (NAS) methods since it serves as a basic performance estimator for different architectures (paths). Current methods mainly hold the assumption that a supernet should give a reasonable ranking over all paths. They thus treat all paths equally, and spare much effort to train paths. However, it is harsh for a single supernet to evaluate accurately on such a huge-scale search space (e.g., $7^{21}$). In this paper, instead of covering all paths, we ease the burden of supernet by encouraging it to focus more on evaluation of those potentially-good ones, which are identified using a surrogate portion of validation data. Concretely, during training, we propose a multi-path sampling strategy with rejection, and greedily filter the weak paths. The training efficiency is thus boosted since the training space has been greedily shrunk from all paths to those potentially-good ones. Moreover, we further adopt an exploration and exploitation policy by introducing an empirical candidate path pool. Our proposed method GreedyNAS is easy-to-follow, and experimental results on ImageNet dataset indicate that it can achieve better Top-1 accuracy under same search space and FLOPs or latency level, but with only $\sim$60\% of supernet training cost. By searching on a larger space, our GreedyNAS can also obtain new state-of-the-art architectures. | 翻訳日:2022-12-20 02:40:23 公開日:2020-03-25 |
# ESSOP: ディープラーニングのための効率的でスケーラブルな確率的外部製品アーキテクチャ ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for Deep Learning ( http://arxiv.org/abs/2003.11256v1 ) ライセンス: Link先を確認 | Vinay Joshi, Geethan Karunaratne, Manuel Le Gallo, Irem Boybat, Christophe Piveteau, Abu Sebastian, Bipin Rajendran and Evangelos Eleftheriou | (参考訳) ディープニューラルネットワーク(DNN)は、さまざまな認知タスクにおいて人間のレベル精度を上回っているが、DNNトレーニングにおいて重要なメモリ/時間要件を犠牲にしている。
これにより、リアルタイム学習を必要とするアプリケーションに制限されたエネルギーとメモリへのデプロイメントが制限される。
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、DNNのトレーニングに関連する2つの最も高価な演算である。
ハードウェアにおけるMVM計算の効率を改善するための戦略は、トレーニング精度に最小限の影響を伴って実証されている。
しかしながら、vvop計算は前述の戦略であっても、比較的探索の難しいボトルネックである。
確率計算(SC)は、VVOP計算の効率を改善するために提案されているが、活性化関数が有界な比較的浅いネットワークでは、活性化勾配の浮動小数点(FP)スケーリングが提案されている。
本稿では,SCパラダイムに基づく,効率的かつスケーラブルな外装製品アーキテクチャであるESSOPを提案する。
本稿では,多くの最先端ネットワークで要求される非有界活性化関数(ReLUなど)を持つDNNの重み更新計算を一般化する効率的な手法を提案する。
我々のアーキテクチャは、乱数を再利用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
CIFAR-10データセット上で,33の畳み込み層と完全連結層を持つResNet-32ネットワークをESSOPでトレーニングし,ベースラインに匹敵する精度を実現する。
14nm技術ノードでのESSOPのハードウェア設計は、高パイプラインのFP16乗算器の設計と比較して、ESSOPのエネルギー効率は82.2%、面積効率は93.7%向上したことを示している。 Deep neural networks (DNNs) have surpassed human-level accuracy in a variety of cognitive tasks but at the cost of significant memory/time requirements in DNN training. This limits their deployment in energy and memory limited applications that require real-time learning. Matrix-vector multiplications (MVM) and vector-vector outer product (VVOP) are the two most expensive operations associated with the training of DNNs. Strategies to improve the efficiency of MVM computation in hardware have been demonstrated with minimal impact on training accuracy. However, the VVOP computation remains a relatively less explored bottleneck even with the aforementioned strategies. Stochastic computing (SC) has been proposed to improve the efficiency of VVOP computation but on relatively shallow networks with bounded activation functions and floating-point (FP) scaling of activation gradients. In this paper, we propose ESSOP, an efficient and scalable stochastic outer product architecture based on the SC paradigm. We introduce efficient techniques to generalize SC for weight update computation in DNNs with the unbounded activation functions (e.g., ReLU), required by many state-of-the-art networks. Our architecture reduces the computational cost by re-using random numbers and replacing certain FP multiplication operations by bit shift scaling. We show that the ResNet-32 network with 33 convolution layers and a fully-connected layer can be trained with ESSOP on the CIFAR-10 dataset to achieve baseline comparable accuracy. Hardware design of ESSOP at 14nm technology node shows that, compared to a highly pipelined FP16 multiplier design, ESSOP is 82.2% and 93.7% better in energy and area efficiency respectively for outer product computation. | 翻訳日:2022-12-20 02:39:56 公開日:2020-03-25 |
# 可算的対物:実例による深層学習分類器の検証 Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples ( http://arxiv.org/abs/2003.11323v1 ) ライセンス: Link先を確認 | Alejandro Barredo-Arrieta and Javier Del Ser | (参考訳) 過去10年間、多くのアプリケーションでディープラーニングモデルが急増し、未熟なレベルの予測パフォーマンスを達成した。
残念なことに、Deep Learningモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を呈している。
特定のアプリケーションシナリオでは、異なるドメインのオーディエンスを対象として、さまざまなアプローチを使用して対処する問題である、ディープラーニングモデルが動作する境界を評価することの重要性を強調している。
しかしながら、アプリケーションの焦点が専門家でないユーザに向けられているため、人間がシステムやプロセスに精通しているように、その人がモデルを信頼する手段を提供することが義務付けられます。
これは、深層学習モデルの逆解析を行うという、この研究のための角石である。
提案フレームワークは,コンピュータプログラムを使わずに人間が生成できる可能性など,その可能性を保証することで,反事実的な例を構成する。
したがって、この作業は、あるモデル内で制約されている使用可能なバウンダリの貴重な監査演習と見なされなければならないため、実際のアプリケーションで使用されるモデルの能力と落とし穴をより深く理解することができる。
この目的のために、生成的敵ネットワーク(gan)と多目的ヒューリスティックス(multi-objective heuristics)を用いて、監査モデルの混乱と生成された反事実の強度と可能性とを効率的に取引する。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにする。 The last decade has witnessed the proliferation of Deep Learning models in many applications, achieving unrivaled levels of predictive performance. Unfortunately, the black-box nature of Deep Learning models has posed unanswered questions about what they learn from data. Certain application scenarios have highlighted the importance of assessing the bounds under which Deep Learning models operate, a problem addressed by using assorted approaches aimed at audiences from different domains. However, as the focus of the application is placed more on non-expert users, it results mandatory to provide the means for him/her to trust the model, just like a human gets familiar with a system or process: by understanding the hypothetical circumstances under which it fails. This is indeed the angular stone for this research work: to undertake an adversarial analysis of a Deep Learning model. The proposed framework constructs counterfactual examples by ensuring their plausibility, e.g. there is a reasonable probability that a human could generate them without resorting to a computer program. Therefore, this work must be regarded as valuable auditing exercise of the usable bounds a certain model is constrained within, thereby allowing for a much greater understanding of the capabilities and pitfalls of a model used in a real application. To this end, a Generative Adversarial Network (GAN) and multi-objective heuristics are used to furnish a plausible attack to the audited model, efficiently trading between the confusion of this model, the intensity and plausibility of the generated counterfactual. Its utility is showcased within a human face classification task, unveiling the enormous potential of the proposed framework. | 翻訳日:2022-12-20 02:39:22 公開日:2020-03-25 |
# R-FORCE:ランダムリカレントニューラルネットワークのためのロバスト学習 R-FORCE: Robust Learning for Random Recurrent Neural Networks ( http://arxiv.org/abs/2003.11660v1 ) ライセンス: Link先を確認 | Yang Zheng, Eli Shlizerman | (参考訳) ランダムリカレントニューラルネットワーク(RRNN)は、シーケンシャルデータから特徴をモデル化し抽出する最も単純なリカレントネットワークである。
RRNNは勾配差に基づく最適化の訓練で勾配問題を減らし、解き放つことができることが知られている。
rrnnの堅牢性を高めるために,代替訓練手法が提案されている。
特に、フォースラーニングのアプローチは、rrnnのトレーニングに代わる再帰的最小二乗法を提案し、ネットワークが入力を導くことなく動的パターンを生成することを任務とするターゲットラーニングの課題にも適用できることを示した。
FORCEトレーニングは、目標学習の解決が可能であることを示唆するが、それは特定のネットワークダイナミクス(エッジ・オブ・カオス)の状況においてのみ有効であるように見える。
これにより、RRNN接続の初期化がFORCE学習の堅牢性を保証することができるかを検討する。
我々は、ネットワークジャコビアンのスペクトルを安定領域に制限する4つの生成原理を推論することで、そのような分布を生成することができる。
この初期化とForce学習はロバストFORCE(R-FORCE)という堅牢なトレーニング手法を提供する。
ネットワーク構成の広い範囲において,様々な対象関数におけるr-force性能を検証し,代替手法との比較を行った。
実験の結果,R-FORCEはより広範囲のRRNNに対して,より安定かつ正確な目標学習を促進することが示唆された。
このような安定性は、身体運動中の人体関節の時系列をモデル化する上で、多次元シーケンスのモデリングにおいて極めて重要である。 Random Recurrent Neural Networks (RRNN) are the simplest recurrent networks to model and extract features from sequential data. The simplicity however comes with a price; RRNN are known to be susceptible to diminishing/exploding gradient problem when trained with gradient-descent based optimization. To enhance robustness of RRNN, alternative training approaches have been proposed. Specifically, FORCE learning approach proposed a recursive least squares alternative to train RRNN and was shown to be applicable even for the challenging task of target-learning, where the network is tasked with generating dynamic patterns with no guiding input. While FORCE training indicates that solving target-learning is possible, it appears to be effective only in a specific regime of network dynamics (edge-of-chaos). We thereby investigate whether initialization of RRNN connectivity according to a tailored distribution can guarantee robust FORCE learning. We are able to generate such distribution by inference of four generating principles constraining the spectrum of the network Jacobian to remain in stability region. This initialization along with FORCE learning provides a robust training method, i.e., Robust-FORCE (R-FORCE). We validate R-FORCE performance on various target functions for a wide range of network configurations and compare with alternative methods. Our experiments indicate that R-FORCE facilitates significantly more stable and accurate target-learning for a wide class of RRNN. Such stability becomes critical in modeling multi-dimensional sequences as we demonstrate on modeling time-series of human body joints during physical movements. | 翻訳日:2022-12-20 02:38:55 公開日:2020-03-25 |
# 文書要約のための構文と動的選択符号化の学習 Learning Syntactic and Dynamic Selective Encoding for Document Summarization ( http://arxiv.org/abs/2003.11173v1 ) ライセンス: Link先を確認 | Haiyang Xu, Yahao He, Kun Han, Junwen Chen and Xiangang Li | (参考訳) テキスト要約は、ソーステキストの主要情報からなる見出しまたは短い要約を生成することを目的としている。
近年の研究では、シーケンス・ツー・シーケンス・フレームワークを使用して、入力をニューラルネットワークでエンコードし、抽象的な要約を生成する。
しかし、ほとんどの研究はエンコーダにセマンティックな単語の埋め込みを与えるが、テキストの構文情報は無視する。
さらに,従来の研究では,エンコーダからデコーダへの情報フローを制御するための選択ゲートが提案されていたが,復号時には静的であり,デコーダの状態に基づいて情報を識別することはできない。
本稿では,文書要約のためのニューラルアーキテクチャを提案する。
提案手法では,まず,文書から意味的情報と構文的情報の両方を学習するために,木を解析するような構文情報をエンコードシーケンスに組み込んで,より正確な要約を行う。
提案モデルはcnn/dailyメール要約データセット上で評価されており,提案手法がベースラインアプローチよりも優れていることを示す実験結果が得られた。 Text summarization aims to generate a headline or a short summary consisting of the major information of the source text. Recent studies employ the sequence-to-sequence framework to encode the input with a neural network and generate abstractive summary. However, most studies feed the encoder with the semantic word embedding but ignore the syntactic information of the text. Further, although previous studies proposed the selective gate to control the information flow from the encoder to the decoder, it is static during the decoding and cannot differentiate the information based on the decoder states. In this paper, we propose a novel neural architecture for document summarization. Our approach has the following contributions: first, we incorporate syntactic information such as constituency parsing trees into the encoding sequence to learn both the semantic and syntactic information from the document, resulting in more accurate summary; second, we propose a dynamic gate network to select the salient information based on the context of the decoder state, which is essential to document summarization. The proposed model has been evaluated on CNN/Daily Mail summarization datasets and the experimental results show that the proposed approach outperforms baseline approaches. | 翻訳日:2022-12-20 02:38:30 公開日:2020-03-25 |
# 多クラス分類のためのadversarial multi-binary neural network Adversarial Multi-Binary Neural Network for Multi-class Classification ( http://arxiv.org/abs/2003.11184v1 ) ライセンス: Link先を確認 | Haiyang Xu, Junwen Chen, Kun Han, Xiangang Li | (参考訳) マルチクラステキスト分類は、機械学習と自然言語処理における重要な問題の1つである。
新興ニューラルネットワークは、マルチ出力ソフトマックス層を用いてこの問題に対処し、実質的な進歩を達成するが、クラス間の相関を明示的に学ばない。
本稿では,マルチクラス分類器と複数のバイナリ分類器を組み合わせることで,マルチクラス分類に対応するマルチタスクフレームワークを提案する。
さらに,クラス固有の特徴とクラス非依存の特徴を区別するために,敵対的訓練を用いる。
このモデルは優れた特徴表現の恩恵を受ける。
本稿では,2つの大規模テキスト分類タスクについて実験を行い,提案手法がベースラインアプローチより優れていることを示す。 Multi-class text classification is one of the key problems in machine learning and natural language processing. Emerging neural networks deal with the problem using a multi-output softmax layer and achieve substantial progress, but they do not explicitly learn the correlation among classes. In this paper, we use a multi-task framework to address multi-class classification, where a multi-class classifier and multiple binary classifiers are trained together. Moreover, we employ adversarial training to distinguish the class-specific features and the class-agnostic features. The model benefits from better feature representation. We conduct experiments on two large-scale multi-class text classification tasks and demonstrate that the proposed architecture outperforms baseline approaches. | 翻訳日:2022-12-20 02:38:12 公開日:2020-03-25 |
# Fiber: 強化学習と人口ベース手法のための効率的な開発と分散トレーニングのためのプラットフォーム Fiber: A Platform for Efficient Development and Distributed Training for Reinforcement Learning and Population-Based Methods ( http://arxiv.org/abs/2003.11164v1 ) ライセンス: Link先を確認 | Jiale Zhi, Rui Wang, Jeff Clune, Kenneth O. Stanley | (参考訳) 機械学習の最近の進歩は、計算量の増加によって一貫して実現されている。
特に強化学習(rl)と人口ベースの手法は、基盤となる分散コンピューティングフレームワークの効率性と柔軟性に特有の課題をもたらす。
これらの課題には、シミュレーションとの頻繁なインタラクション、動的スケーリングの必要性、導入コストが低いユーザインターフェースの必要性、異なるバックエンド間の一貫性などが含まれる。
本稿では、RLおよび人口ベース手法のためのスケーラブルな分散コンピューティングフレームワークであるFiberを導入することにより、研究用および実用用両方の開発効率と柔軟性を維持しながら、これらの課題に対処する。
Fiberは大規模並列計算のアクセシビリティを、専門的な計算専門知識を必要とせずに、より複雑なRLや集団ベースのアプローチのユーザに拡大することを目的としている。 Recent advances in machine learning are consistently enabled by increasing amounts of computation. Reinforcement learning (RL) and population-based methods in particular pose unique challenges for efficiency and flexibility to the underlying distributed computing frameworks. These challenges include frequent interaction with simulations, the need for dynamic scaling, and the need for a user interface with low adoption cost and consistency across different backends. In this paper we address these challenges while still retaining development efficiency and flexibility for both research and practical applications by introducing Fiber, a scalable distributed computing framework for RL and population-based methods. Fiber aims to significantly expand the accessibility of large-scale parallel computation to users of otherwise complicated RL and population-based approaches without the need to for specialized computational expertise. | 翻訳日:2022-12-20 02:38:00 公開日:2020-03-25 |
# マルチモーダル知識グラフを用いたエンドツーエンドエンティティ分類 End-to-End Entity Classification on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2003.12383v1 ) ライセンス: Link先を確認 | W.X. Wilcke (1), P. Bloem (1), V. de Boer (1), R.H. van t Veer (2), F.A.H. van Harmelen (1) ((1) Department of Computer Science Vrije Universiteit Amsterdam The Netherlands, (2) Geodan Amsterdam The Netherlands) | (参考訳) 知識グラフにおけるエンドツーエンドのマルチモーダル学習は、ほとんど適用されていない。
代わりに、メッセージパッシングネットワークのようなほとんどのエンドツーエンドモデルは、グラフの構造に符号化された関係情報からのみ学習する: 生値またはリテラルは、完全に省略されるか、それらの値から取り除かれ、通常のノードとして扱われる。
いずれの場合も、学習方法によって悪用された可能性のある潜在的な関連情報が失われます。
これを避けるためには、リテラルと非リテラルを別々のケースとして扱う必要がある。
数字、テキスト、画像、ジオメトリなど、それぞれのモダリティも別々に扱う必要があります。
本稿では,グラフ構造からエンドツーエンドを学習するだけでなく,多モーダルノードの機能セットから多モーダルメッセージパッシングネットワークを提案する。
本モデルでは,画像やジオメトリを含む5種類のモードに属するノードの特徴の埋め込みを,リレーショナル情報とともに共同表現空間に投影する専用(神経)エンコーダを用いて自然に学習する。
我々は,ノード分類タスクにおけるモデルを示し,各モダリティが全体の性能に与える影響を評価する。
私たちの結果は、複数のモダリティからの情報を含めることで、モデル全体のパフォーマンスを向上させることができるという仮説を支持します。 End-to-end multimodal learning on knowledge graphs has been left largely unaddressed. Instead, most end-to-end models such as message passing networks learn solely from the relational information encoded in graphs' structure: raw values, or literals, are either omitted completely or are stripped from their values and treated as regular nodes. In either case we lose potentially relevant information which could have otherwise been exploited by our learning methods. To avoid this, we must treat literals and non-literals as separate cases. We must also address each modality separately and accordingly: numbers, texts, images, geometries, et cetera. We propose a multimodal message passing network which not only learns end-to-end from the structure of graphs, but also from their possibly divers set of multimodal node features. Our model uses dedicated (neural) encoders to naturally learn embeddings for node features belonging to five different types of modalities, including images and geometries, which are projected into a joint representation space together with their relational information. We demonstrate our model on a node classification task, and evaluate the effect that each modality has on the overall performance. Our result supports our hypothesis that including information from multiple modalities can help our models obtain a better overall performance. | 翻訳日:2022-12-20 02:32:00 公開日:2020-03-25 |
# VIOLIN:ビデオとランゲージ推論のための大規模データセット VIOLIN: A Large-Scale Dataset for Video-and-Language Inference ( http://arxiv.org/abs/2003.11618v1 ) ライセンス: Link先を確認 | Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu, Yiming Yang, Jingjing Liu | (参考訳) ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
字幕を前提として並べたビデオクリップと、ビデオコンテンツに基づく自然言語仮説を組み合わせると、モデルは、その仮説が与えられたビデオクリップに含まれているかどうかを推測する必要がある。
15887本のビデオクリップから95,322本のビデオハイポテーゼペアで構成され、582時間に及ぶビデオにまたがる。
これらのビデオクリップには、多様な時間的ダイナミクス、イベントシフト、および2つのソースから収集された人々のインタラクションを含むリッチコンテンツが含まれている。
(i)人気テレビ番組、
(ii)youtubeチャンネルの動画クリップ。
新たなマルチモーダル推論タスクに対処するためには,表面レベルのグラウンド(ビデオ内のオブジェクトや文字の識別など)から,詳細なコモンセンス推論(ビデオ内のイベントの因果関係を推論するなど)に至るまで,高度な推論スキルを持つ必要がある。
本研究は,データセットの詳細な分析と,多くの強力なベースラインに対する広範な評価を行い,この新たなタスクの課題に関する貴重な洞察を提供する。 We introduce a new task, Video-and-Language Inference, for joint multimodal understanding of video and text. Given a video clip with aligned subtitles as premise, paired with a natural language hypothesis based on the video content, a model needs to infer whether the hypothesis is entailed or contradicted by the given video clip. A new large-scale dataset, named Violin (VIdeO-and-Language INference), is introduced for this task, which consists of 95,322 video-hypothesis pairs from 15,887 video clips, spanning over 582 hours of video. These video clips contain rich content with diverse temporal dynamics, event shifts, and people interactions, collected from two sources: (i) popular TV shows, and (ii) movie clips from YouTube channels. In order to address our new multimodal inference task, a model is required to possess sophisticated reasoning skills, from surface-level grounding (e.g., identifying objects and characters in the video) to in-depth commonsense reasoning (e.g., inferring causal relations of events in the video). We present a detailed analysis of the dataset and an extensive evaluation over many strong baselines, providing valuable insights on the challenges of this new task. | 翻訳日:2022-12-20 02:31:37 公開日:2020-03-25 |
# 教師なしファジィeix:内部外ファジィクラスタリングの進化 Unsupervised Fuzzy eIX: Evolving Internal-eXternal Fuzzy Clustering ( http://arxiv.org/abs/2003.12381v1 ) ライセンス: Link先を確認 | Charles Aguiar, Daniel Leite | (参考訳) 時変分類器、すなわち進化する分類器は、情報が決して終わらないオンラインデータストリームとして利用できるシナリオにおいて重要な役割を果たす。
本稿では,内部外ファジィクラスタリング法(fuzzy eix)と呼ばれる数値データの教師なし学習法を提案する。
二重境界ファジィ顆粒の概念を開発し,その意味を詳述する。
1型および2型ファジィ推論システムはファジィeIX顆粒の投影から得ることができる。
ファジィeIX分類器内のバランス情報粒度を原理として,より高レベルなモデル理解性を実現する。
内部および外部の顆粒は、分類器のグローバルな粒度構造が自律的に進化すると同時に、数値データストリームから更新される。
双対ガウスの回転と呼ばれる合成非定常問題は、分類器の挙動を示している。
ファジィeix分類器は、オフラインで訓練された分類器が精度を劇的に低下させるシナリオにおいて、その精度に追随する可能性がある。 Time-varying classifiers, namely, evolving classifiers, play an important role in a scenario in which information is available as a never-ending online data stream. We present a new unsupervised learning method for numerical data called evolving Internal-eXternal Fuzzy clustering method (Fuzzy eIX). We develop the notion of double-boundary fuzzy granules and elaborate on its implications. Type 1 and type 2 fuzzy inference systems can be obtained from the projection of Fuzzy eIX granules. We perform the principle of the balanced information granularity within Fuzzy eIX classifiers to achieve a higher level of model understandability. Internal and external granules are updated from a numerical data stream at the same time that the global granular structure of the classifier is autonomously evolved. A synthetic nonstationary problem called Rotation of Twin Gaussians shows the behavior of the classifier. The Fuzzy eIX classifier could keep up with its accuracy in a scenario in which offline-trained classifiers would clearly have their accuracy drastically dropped. | 翻訳日:2022-12-20 02:30:11 公開日:2020-03-25 |
# すべてのドメインが等しく複雑ではない:適応型マルチドメイン学習 Not all domains are equally complex: Adaptive Multi-Domain Learning ( http://arxiv.org/abs/2003.11504v1 ) ライセンス: Link先を確認 | Ali Senhaji, Jenni Raitoharju, Moncef Gabbouj and Alexandros Iosifidis | (参考訳) ディープラーニングアプローチは高度に専門的であり、異なるタスクのために別々のモデルをトレーニングする必要がある。
マルチドメイン学習(multi-domain learning)とは、複数の異なるタスクを学習する方法である。
マルチドメイン学習における最も一般的なアプローチは、ドメインに依存しないモデルを作ることであり、そのパラメータはすべてのドメインで共有され、新しいドメインごとに少数の余分なドメイン固有のパラメータを学習する。
しかし、異なるドメインは異なるレベルの難易度を持つ: 拡張バージョンのドメイン非依存モデルを用いて全てのドメインのモデルをパラメータ化することは、特にタスクの解決を容易にするために、不要に非効率なソリューションをもたらす。
深層ニューラルネットワークを用いた多分野学習のための適応パラメータ化手法を提案する。
提案手法は,パラメータ数を削減しつつ,元の手法と同等に動作し,効率的なマルチドメイン学習ソリューションを実現する。 Deep learning approaches are highly specialized and require training separate models for different tasks. Multi-domain learning looks at ways to learn a multitude of different tasks, each coming from a different domain, at once. The most common approach in multi-domain learning is to form a domain agnostic model, the parameters of which are shared among all domains, and learn a small number of extra domain-specific parameters for each individual new domain. However, different domains come with different levels of difficulty; parameterizing the models of all domains using an augmented version of the domain agnostic model leads to unnecessarily inefficient solutions, especially for easy to solve tasks. We propose an adaptive parameterization approach to deep neural networks for multi-domain learning. The proposed approach performs on par with the original approach while reducing by far the number of parameters, leading to efficient multi-domain learning solutions. | 翻訳日:2022-12-20 02:29:35 公開日:2020-03-25 |