このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200818となっている論文です。

PDF登録状況(公開日: 20200818)

TitleAuthorsAbstract論文公表日・翻訳日
# 一次元トポロジカルバンド絶縁体における多臨界性

Multicriticality in a one-dimensional topological band insulator ( http://arxiv.org/abs/2001.10079v3 )

ライセンス: Link先を確認
Mariana Malard, David Brandao, Paulo Eduardo de Brito, Henrik Johannesson(参考訳) 量子相転移理論(英語版)(qpts)の中心的な理論は、熱力学的極限における基底状態エネルギーの非解析性はqptを意味する。 ここでは、この主張に異議を唱える調査結果を報告する。 ケーススタディとして、スピン軌道結合電子を持つ1次元バンド絶縁体の位相図を取り、臨界面を交差させて分離した自明な位相的ガッピング位相をサポートする。 交差は、基底状態エネルギーが非解析的になり、バンドギャップが閉じると同時に位相遷移が起こらない多臨界線を定義する。

A central tenet in the theory of quantum phase transitions (QPTs) is that a nonanalyticity in the ground-state energy in the thermodynamic limit implies a QPT. Here we report on a finding that challenges this assertion. As a case study we take a phase diagram of a one-dimensional band insulator with spin-orbit coupled electrons, supporting trivial and topological gapped phases separated by intersecting critical surfaces. The intersections define multicritical lines across which the ground-state energy becomes nonanalytical, concurrent with a closing of the band gap, but with no phase transition taking place.
翻訳日:2023-06-05 11:32:02 公開日:2020-08-18
# 荷電量子電池におけるパッシブ状態の構造とその意味

Structure of passive states and its implication in charging quantum batteries ( http://arxiv.org/abs/2003.01470v2 )

ライセンス: Link先を確認
Mir Alimuddin, Tamal Guha and Preeti Parashar(参考訳) 本稿では,受動状態に対する幾何学的状態空間のキャラクタリゼーションに加えて,量子電池の充電能力を識別するための操作的アプローチを提案する。 熱状態とは異なり、受動的状態の構造的不安定性は自然数$n$の存在を保証し、その状態の$n+1$-copiesは量子電池を充電でき、$n$-copiesは充電できない。 この現象は、フリーステートが$n$-copiesで電池を充電できない、$n$-copyのリソース理論のアプローチで表すことができる。 ここでは、1つのコピーシナリオを明示的に示しました。 また, 帯電能力に基づく受動状態の一般順序付けは不可能であり, 巨視的実体 (viz. energy and entropy) でさえ正確な順序付けができないことを示した。 興味深いことに、いくつかのパッシブ状態において、メジャー化基準は充電と放電能力に十分な順序を与える。 しかし、(充電が可能な)一連の熱状態の充電能力は、その温度に直接比例する。

In this article, in addition to the characterization of geometrical state spaces for the passive states, an operational approach has been introduced to distinguish them on their charging capabilities of a quantum battery. Unlike the thermal states, the structural instability of passive states assures the existence of a natural number $n$, for which $n+1$-copies of the state can charge a quantum battery while $n$-copies cannot. This phenomenon can be presented in a $n$-copy resource-theoretic approach, for which the free states are unable to charge the battery in $n$-copies. Here we have exhibited the single copy scenario explicitly. We also show that general ordering of the passive states on the basis of their charging capabilities is not possible and even the macroscopic entities (viz. energy and entropy) are unable to order them precisely. Interestingly, for some of the passive states, the majorization criterion gives sufficient order to the charging and discharging capabilities. However, the charging capacity for the set of thermal states (for which charging is possible), is directly proportional to their temperature.
翻訳日:2023-05-31 07:39:17 公開日:2020-08-18
# 集団絡み合い試験による絡み合い交換の実験的診断

Experimental diagnostics of entanglement swapping by a collective entanglement test ( http://arxiv.org/abs/2005.13292v2 )

ライセンス: Link先を確認
Vojt\v{e}ch Tr\'avn\'i\v{c}ek, Karol Bartkiewicz, Anton\'in \v{C}ernoch, and Karel Lemr(参考訳) 本報告では,集合的絡み合い証人による絡み合い交換プロトコルの実験的診断について報告する。 提案手法は, 量子状態, 量子通信チャネル, 不完全ベル状態投射において発生する障害を検出するのに適している。 具体的には, 脱分極, 位相減衰, 振幅減衰, 不完全なベル状態測定などの障害を, 4つの確率を観測し, 集団絡み合いを推定することにより識別できることを実証する。 エンタングルメント・スワッピングは、量子リピータ、量子リレー、デバイス非依存の量子通信、あるいはエンタングルメント支援の誤り訂正の鍵となる手順であるため、我々のアプローチでは、他の診断方法よりも少ない測定値を必要とするため、より高速かつ実用的な品質関連問題の解決に役立つ。

The paper reports on experimental diagnostics of entanglement swapping protocol by means of collective entanglement witness. Our approach is suitable to detect disturbances occurring in the preparation of quantum states, quantum communication channel and imperfect Bell-state projection. More specifically we demonstrate that our method can distinguish disturbances such as depolarization, phase-damping, amplitude-damping and imperfect Bell-state measurement by observing four probabilities and estimating collective entanglement witness. Since entanglement swapping is a key procedure for quantum repeaters, quantum relays, device-independent quantum communications or entanglement assisted error correction, this can aid in faster and practical resolution of quality-of-transmission related problems as our approach requires less measurements then other means of diagnostics.
翻訳日:2023-05-18 05:12:16 公開日:2020-08-18
# ブリルアン光散乱に基づくマグノンレーザー

Magnon laser based on Brillouin light scattering ( http://arxiv.org/abs/2008.06628v2 )

ライセンス: Link先を確認
Zeng-Xing Liu and Hao Xiong(参考訳) マグノンの類似したレーザー作用は関心の対象となり、非線形マグノンスピントロニクスの研究に不可欠である。 強磁性絶縁体球におけるブリルアン光散乱に基づくマグノンレーザーの挙動を実証し,光ささやきギャラリーモードとマグノン共鳴をサポートした。 我々は、励起マグノンが伝統的にストークス波の役割を担い、ブリルアン散乱過程においてコヒーレントに増幅され、マグノンレーザーを可能にすることを示す。 また、入力光力で指数関数的に増加する刺激励起マグノン数は、外部磁場を調整して操作することができる。 磁気光学相互作用の洞察を提供するだけでなく、マグノンレーザー作用の研究は、スピン波励起を扱う新しい技術の開発に役立ち、マグノニクス以外の科学分野にも影響を及ぼす可能性がある。 潜在的な応用は、コヒーレントマグノン源の調製からオンチップ機能磁気装置の運用まで様々である。

An analogous laser action of magnons would be a subject of interest and is crucial for the study of nonlinear magnons spintronics. Here, we demonstrate the magnon laser behavior based on Brillouin light scattering in a ferrimagnetic insulator sphere which supports optical whispering gallery modes and magnon resonances. We show that the excited magnon plays what has traditionally been the role of the Stokes wave and is coherently amplified during the Brillouin scattering process, making magnon laser possible. Furthermore, the stimulating excited magnon number increasing exponentially with the input light power can be manipulated by adjusting the external magnetic field. In addition to providing insight into magneto-optical interaction, the study of magnon laser action will help to develop novel technologies for handling spin-wave excitations and could affect scientific fields beyond magnonics. Potential applications range from preparing coherent magnon sources to operating onchip functional magnetic devices.
翻訳日:2023-05-06 05:06:01 公開日:2020-08-18
# 縮退光パラメトリック発振による2128nmにおけるコヒーレント光の発生

Highly-efficient generation of coherent light at 2128 nm via degenerate optical-parametric oscillation ( http://arxiv.org/abs/2008.07193v2 )

ライセンス: Link先を確認
Christian Darsow-Fromm, Maik Schr\"oder, Julian Gurs, Roman Schnabel, Sebastian Steinlechner(参考訳) 新しい試験質量材料とともに低温の運転は、重力波検出器の熱雑音による感度制限を減らすことを約束する。 現在議論されている最も先進的な材料は、アモルファスシリコンを基材とする結晶シリコンである。 しかし、レーザー吸収を避けるために約2$\mathrm\mu$mの波長を必要とする。 ここでは、1064nmの非平面リングオシレータ(NPRO)からの光を変換する退化光パラメトリック発振器(DOPO)に基づく2128nmの光源を提案する。 ppktp(周期的にポーリングされたチタニルリン酸カリウム、内部効率は94 %)のポンプパワーで$(88.3\,\pm\,1.4)\,\%$ の外部変換効率を達成し、その有効非線形性$(4.75\,\pm\,0.18)\,\mathrm{pm/v}$を推定した。 提案手法により, 既設及び既設のレーザ源からの光は, 優れた安定性を維持しつつ, 2$\mathrm\mu$m 状態に効率よく変換することができる。

Cryogenic operation in conjunction with new test-mass materials promises to reduce the sensitivity limitations from thermal noise in gravitational-wave detectors. The currently most advanced materials under discussion are crystalline silicon as a substrate with amorphous silicon-based coatings. They require, however, operational wavelengths around 2 $\mathrm\mu$m to avoid laser absorption. Here, we present a light source at 2128 nm based on a degenerate optical parametric oscillator (DOPO) to convert light from a 1064 nm non-planar ring-oscillator (NPRO). We achieve an external conversion efficiency of $(88.3\,\pm\,1.4)\,\%$ at a pump power of 52 mW in PPKTP (periodically-poled potassium titanyl phosphate, internal efficiency was 94 %), from which we infer an effective non-linearity of $(4.75\,\pm\,0.18)\,\mathrm{pm/V}$. With our approach, light from the established and existing laser sources can be efficiently converted to the 2 $\mathrm\mu$m regime, while retaining the excellent stability properties.
翻訳日:2023-05-06 01:07:46 公開日:2020-08-18
# パキスタンバーチャル大学における授業推薦システムの実装

Implementation of Course Recommender System for Virtual University of Pakistan ( http://arxiv.org/abs/2008.07867v1 )

ライセンス: Link先を確認
Aleem Akhtar(参考訳) パキスタンで働く大学は、様々なレベルの総合的な学位プログラムを提供している。 パキスタンの仮想大学は、近代的な情報とコミュニケーション技術に基づく国内初の大学である。 様々な専攻で教育を受けており、様々な研究分野がある。 それぞれのプログラムで複数のコースが提供され、ある程度の一般的な要件を満たしている。 学生の最終スコア(CGPA)を決定する上で,能力や関心に合わせたコースの選択が重要な要因となる。 この目的のために,Virtual University で提供されるコースに特化して設計された Web ベースのコースレコメンデーションシステムを開発した。 ユーザベースのコラボレーティブフィルタリングとレーティング予測アプローチは、期待されるマークとグレードの計算に使用される。 システムは現在利用可能な470のコースに対してテストされ、2600人の学生のデータをシミュレーションする。 実験の結果, 目標コースにおける学生の平均点と類似点の平均値には, 学生の平均点が何らかの依存関係にあることがわかった。 実装システムの精度は平均絶対誤差を用いて100個の観測を行った。 MAE値は許容範囲であることが判明した。

Universities working in Pakistan are offering a comprehensive set of degree programs for different levels. Virtual University of Pakistan is country's first institution completely based on modern information and communication technologies. It offers education in many different majors and various areas of study are available. Multiple courses are offered in each program that satisfy several general requirements of degree. Selection of courses that align with competency and interest can become an important factor in determining final score (CGPA) of student. For this purpose, a web-based course recommender system specifically designed for courses offered at Virtual University is developed. User-based collaborative filtering and rating-prediction approach is used for calculation of expected marks and grades. System is tested against 470 currently available courses and simulated data of 2600 students. Test results showed that expected marks are somehow dependent on student's average marks in already studied courses and average marks of similar students in target course. Accuracy of implemented system is measured using Mean Absolute Error for 100 observations. MAE value came out to be in acceptable range.
翻訳日:2023-05-05 22:56:27 公開日:2020-08-18
# パイロットトーン位相補償に基づく局所発振器を用いた高速ガウス変調連続可変量子鍵分布

High-speed Gaussian modulated continuous-variable quantum key distribution with a local local oscillator based on pilot-tone-assisted phase compensation ( http://arxiv.org/abs/2008.07824v1 )

ライセンス: Link先を確認
Heng Wang, Yaodi Pi, Wei Huang, Yang Li, Yun Shao, Jie Yang, Jinlu Liu, Chenlin Zhang, Yichen Zhang, and Bingjie Xu(参考訳) 局所発振器(LLO)を用いた高速ガウス変調連続可変量子鍵分布(CVQKD)をパイロットトーン支援位相補償に基づいて実験的に実証した。 提案手法では, 量子信号とパイロット音の分離伝送とヘテロダイン検出に周波数多重化と偏波多重化手法を用い, 強いパイロット音から弱い量子信号へのクロストークを保証し, 量子信号の低ノイズ検出とパイロット音の高飽和制限の異なる検出要求を保証した。 さらに, ホモダイン検出に基づく従来のCVQKDと比較して, 提案したLLO-CVQKDスキームは, 余分なランダムベース選択を必要とせずに, ヘテロダイン検出を同時に行うことができる。 また、2つの独立レーザーの相対位相と量子チャネル乱れによって生じる遅いドリフト位相ノイズによる高速ドリフト位相ノイズを含む位相ノイズを実時間で補償することにより、無症状状態の7.04Mbps、有限サイズブロック10^7の1.85Mbpsの達成可能な鍵レートに対して25km光ファイバーチャネルによる低レベルの余剰ノイズが得られる。

A high-speed Gaussian modulated continuous-variable quantum key distribution (CVQKD) with a local local oscillator (LLO) is experimentally demonstrated based on pilot-tone-assisted phase compensation. In the proposed scheme, the frequency-multiplexing and polarization-multiplexing techniques are used for the separate transmission and heterodyne detection between quantum signal and pilot tone, guaranteeing no crosstalk from strong pilot tone to weak quantum signal and different detection requirements of low-noise for quantum signal and high-saturation limitation for pilot tone. Moreover, compared with the conventional CVQKD based on homodyne detection, the proposed LLO-CVQKD scheme can measure X and P quadrature simultaneously using heterodyne detection without need of extra random basis selection. Besides, the phase noise, which contains the fast-drift phase noise due to the relative phase of two independent lasers and the slow-drift phase noise introduced by quantum channel disturbance, has been compensated experimentally in real time, so that a low level of excess noise with a 25km optical fiber channel is obtained for the achievable secure key rate of 7.04 Mbps in the asymptotic regime and 1.85 Mbps under the finite-size block of 10^7.
翻訳日:2023-05-05 22:56:15 公開日:2020-08-18
# 局所弾性対称性を持つ量子力学と重力の非相対論的理論

A non-relativistic theory of quantum mechanics and gravity with local modulus symmetry ( http://arxiv.org/abs/2008.07749v1 )

ライセンス: Link先を確認
Tao Zhou(参考訳) 量子論と一般相対性理論の類似性に触発されて、各理論が2つの普遍定数と局所対称性を包含する、という2つの仮定に基づいて、量子力学と重力の非相対論的理論を構築することに着手した。 局所モジュラス対称性を分解することは、波動関数の複素共役を同じ位相だが異なる新しいスカラー関数に置き換えることや、共変微分上に構築された粒子運動量演算子と、重力の脱出速度として識別される純粋に虚数な速度場との接続など、多くの変化をもたらす。 3つの量子計量関数は重力によってもたらされる量子状態の運動学的変化を表すために定義される。 修正等価原理により、脱走速度場と量子計量関数を関連付けることができる。 局所モジュラス変換と共変する運動方程式と場方程式が構成される。 これらの方程式の新たな特徴は、ダークエネルギー、宇宙の質量差、およびマクロな物体の量子状態の減少を考慮に入れた潜在的なメカニズムを提供する。

Inspired by the similarities between quantum field theory and general relativity, in that each theory encompasses two universal constants and a local symmetry, we set out to construct a non-relativistic theory of quantum mechanics and gravity based upon two assumptions: quantum system remains invariant to local modulus transformation, and physical laws reduce to those of conventional quantum mechanics in small enough region, i.e. a modified version of the equivalence principle. Imposing local modulus symmetry brings a number of changes, including the replacement of the complex conjugate of the wave function by a new scalar function with the same phase but different modulus, and particle momentum operator built on covariant derivative, with a connection of purely imaginary velocity field that is identified as the gravitational escape velocity. Three quantum metric functions are defined to signify the kinematic change of quantum state brought by gravity. The modified equivalence principle enables us to relate the escape velocity field with the quantum metric functions. Equation of motion and field equation that are covariant to local modulus transformation are constructed. New features in these equations offer potential mechanisms to account for the dark energy, the mass discrepancies in the universe, and the quantum state reduction of macroscopic objects.
翻訳日:2023-05-05 22:55:32 公開日:2020-08-18
# エンタープライズアーキテクチャの実践とメリットに関する理論構築研究

A Theory Building Study of Enterprise Architecture Practices and Benefits ( http://arxiv.org/abs/2008.08112v1 )

ライセンス: Link先を確認
Ralph Foorthuis, Marlies van Steenbergen, Sjaak Brinkkemper, Wiel Bruls(参考訳) エンタープライズアーキテクチャ(EA)が個々のプロジェクトと組織全体にもたらすメリットについて、学者や実践者がさまざまな主張をしている。 同時に、EAがどのようにこれらの利益をもたらすかについての説明的理論が欠如しています。 さらに、eaのプラクティスやメリットは、経験的調査によって、特にそのトピックに関する定量的な研究は、ほとんど行われていない。 そこで本研究では,理論構築調査(n=293)の統計的結果を示す。 結果として得られるPLSモデルは、現在の暗黙的かつ断片化された理論の合成であり、EAの実践と中間的利益が組織とプロジェクトの両方に利益をもたらすのにどのように役立つかを示している。 このモデルは、EAとEAのプラクティスが直接的に利益をもたらすのではなく、中間的な結果を通して運営されていることを示している。 さらに、この研究は、これらの結果に大きな影響を与えるEAの実践を特定し、最も重要なのはコンプライアンス評価、EAの管理伝播、および異なる種類の知識交換である。 結果はまた、プロジェクトはeaから利益を得る上で重要な役割を担っているが、一般に組織全体よりも利益が少ないことも示している。

Academics and practitioners have made various claims regarding the benefits that Enterprise Architecture (EA) delivers for both individual projects and the organization as a whole. At the same time, there is a lack of explanatory theory regarding how EA delivers these benefits. Moreover, EA practices and benefits have not been extensively investigated by empirical research, with especially quantitative studies on the topic being few and far between. This paper therefore presents the statistical findings of a theory-building survey study (n=293). The resulting PLS model is a synthesis of current implicit and fragmented theory, and shows how EA practices and intermediate benefits jointly work to help the organization reap benefits for both the organization and its projects. The model shows that EA and EA practices do not deliver benefits directly, but operate through intermediate results, most notably compliance with EA and architectural insight. Furthermore, the research identifies the EA practices that have a major impact on these results, the most important being compliance assessments, management propagation of EA, and different types of knowledge exchange. The results also demonstrate that projects play an important role in obtaining benefits from EA, but that they generally benefit less than the organization as a whole.
翻訳日:2023-05-05 22:48:34 公開日:2020-08-18
# 光と時間結晶の散逸相転移の対応

Correspondence between dissipative phase transitions of light and time crystals ( http://arxiv.org/abs/2008.08075v1 )

ライセンス: Link先を確認
Fabrizio Minganti, Ievgen I. Arkhipov, Adam Miranowicz, Franco Nori(参考訳) 非線形性も散逸から生じる非コヒーレントに駆動され散逸する非線形光学発振器によって発生する時間結晶の出現を予測する。 本研究では, キャビティ周波数で回転するフレームに2次散逸相転移が生じ, 実験室フレームに境界(散逸)時間結晶が出現することを示す。 この2つの現象を、リンドブラドマスター方程式と関連付けられたリウヴィリアン超作用素とその対称性を用いて関連付ける。 これらの結果は、熱力学的極限における第二次散逸相転移と散逸時間結晶の出現を結びつけ、それらはリウビリアンスペクトルの観点で同じ現象として解釈できるが、異なるフレームでのみ解釈できる。

We predict the emergence of a time crystal generated by an incoherently driven and dissipative nonlinear optical oscillator, where the nonlinearity also comes from dissipation. We show that a second-order dissipative phase transition of light occurs in the frame rotating at the cavity frequency, while a boundary (dissipative) time crystal emerges in the laboratory frame. We relate these two phenomena by using the Liouvillian superoperator associated with the Lindblad master equation and its symmetries. These results connect the emergence of a second-order dissipative phase transition and a dissipative time crystal in the thermodynamic limit, allowing to interpret them as the same phenomenon in terms of the Liouvillian spectrum, but just in different frames.
翻訳日:2023-05-05 22:48:02 公開日:2020-08-18
# もう1つの量子アセンブリ言語(jaqal)

Just another quantum assembly language (Jaqal) ( http://arxiv.org/abs/2008.08042v1 )

ライセンス: Link先を確認
Benjamin C. A. Morrison, Andrew J. Landahl, Daniel S. Lobser, Kenneth M. Rudinger, Antonio E. Russo, Jay W. Van Der Wall, Peter Maunz(参考訳) quantum scientific computing open user testbed (qscout) は、サンディア国立研究所でエネルギー省のoffice of scienceとそのadvanced scientific computing (ascr)プログラムのために実現された、閉じ込められたイオン量子コンピュータテストベッドである。 ここでは、量子アセンブリ言語として、QSCOUTで実行されるプログラムを指定するために発明したプログラミング言語であるJaqalについて説明する。 ゲート名とそのパルスシーケンス定義を外部ファイルにオフロードするため、mutlipleハードウェアターゲットをサポートすることができる。 我々は、jaqal言語の能力、設計における我々のアプローチ、そして、その作成の理由について説明する。 QSCOUT、Jaqal、またはJaqalPaqについて詳しく知るには、Jaqalで開発したメタプログラミングPythonパッケージであるhttps://qscout.sandia.gov, https://gitlab.com/jaqalをご覧ください。

The Quantum Scientific Computing Open User Testbed (QSCOUT) is a trapped-ion quantum computer testbed realized at Sandia National Laboratories on behalf of the Department of Energy's Office of Science and its Advanced Scientific Computing (ASCR) program. Here we describe Jaqal, for Just another quantum assembly language, the programming language we invented to specify programs executed on QSCOUT. Jaqal is useful beyond QSCOUT---it can support mutliple hardware targets because it offloads gate names and their pulse-sequence definitions to external files. We describe the capabilities of the Jaqal language, our approach in designing it, and the reasons for its creation. To learn more about QSCOUT, Jaqal, or JaqalPaq, the metaprogramming Python package we developed for Jaqal, please visit https://qscout.sandia.gov, https://gitlab.com/jaqal, or send an e-mail to qscout@sandia.gov.
翻訳日:2023-05-05 22:47:28 公開日:2020-08-18
# 異方性相互作用に対するマルチチャネル量子欠陥理論

Multichannel quantum-defect theory for anisotropic interactions ( http://arxiv.org/abs/2008.08018v1 )

ライセンス: Link先を確認
Bo Gao(参考訳) 異方性長距離ポテンシャルに対するマルチチャネル量子欠陥理論(MQDT)の一般化について述べる。 この理論は全てのタイプの原子と分子の相互作用の処理を統一し、分子を含む複雑な相互作用を含む体系的に扱うことができる相互作用の集合を大きく拡大する。 ある例では、この理論は周期表に基づく原子相互作用の分類を定性的ではなく定量的にするための方法論を提供し、表を分子クラスを含むように一般化する。 有効ポテンシャルの概念を通じて、この理論は化学のための新しい量子理論のクラスと、少数の原子または複数の分子からなる広範囲の量子システムの基礎を確立する。

We present a general formulation of multichannel quantum-defect theory (MQDT) for anisotropic long-range potentials. The theory unifies the treatment of atomic and molecular interactions of all types, and greatly expands the set of interactions that can be treated and understood systematically, including complex interactions involving molecules. In one exemplary manifestation, the theory provides a methodology to make the classification of atomic interactions based on the Periodic Table quantitative, instead of qualitative, and to generalize the Table to include molecular classes. Through the concept of effective potential, the theory further establishes a foundation for new classes of quantum theories for chemistry and for a broad range of quantum systems made of either a few or many atoms and/or molecules.
翻訳日:2023-05-05 22:46:44 公開日:2020-08-18
# Penerapan Metode SVMベースの機械学習 Untuk Menganalisa Pengguna Data Trafik Internet (Studi Kasus Jaringan Internet Wlan Mahasiswa Bina Darma)

Penerapan Metode SVM-Based Machine Learning Untuk Menganalisa Pengguna Data Trafik Internet (Studi Kasus Jaringan Internet Wlan Mahasiswa Bina Darma) ( http://arxiv.org/abs/2008.12099v1 )

ライセンス: Link先を確認
Muhammad Surahman, Leon Andretti Abdillah, Ferdiansyah(参考訳) インターネットの利用は、キャンパスのパフォーマンスと活動をサポートする重要な要件である。 インターネット利用を制御するためには,インターネット利用の分布を知る必要がある。 多くの機械学習アルゴリズムとWEKAソフトウェアを利用することで、キャンパス内のWi-Fiホットスポットからデータを観察して取得することで研究を行う。 SVM を用いた分類法は,Support Vector Machine (SVM) が所有する分類法を利用する。 本研究は,インターネット利用に関するデータを分類することを目的としており,この分類から特定の時刻に広くアクセスされるデスティネーションネットワーク,プロトコル,帯域幅を把握できる。 インターネットトラフィックデータはWiresharkソフトウェアを介して取得される。 インターネットトラフィックのデータ処理やデータ処理はWEKAによって処理される。 結果は以下のとおりでした。 1) I 133,196ユーザ,週II 304,042ユーザ,2) Destination Network 24,150とプロトコル37,321,3) 対処されるネットワークは172.21.206.143(週I)と172.21.172.234(週II)で、TCPでよく使用されるプロトコルと4) SVMは、宛先ネットワークやプロトコルに従ってネットワークトラフィックの分類を作成するための、ネットワークパケットパターンを分類するための優れたデータマイニング方法である。

Internet usage is an important requirement that supports the performance and activities on campus. To control internet usage, it is necessary to know the distribution of internet usage. By utilizing a number of machine learning algorithms and WEKA software, the research is carried out by observation and taking data from wifi hotspots on campus. The classification method using SVM-Based utilizes the classification method owned by Support Vector Machine (SVM). This study aims to classify data on internet usage so that from this classification can be known destination network, protocol, and bandwidth that are widely accessed at certain times. Internet traffic data is retrieved through Wireshark software. Whereas data processing and data processing of internet traffic is processed by WEKA. The results showed: 1) UBD internet usage in the week I 133,196 users, week II 304,042 users,2) Use of Destination Network 24,150 and Use of Protocol 37,321,3) Destination networks that are often addressed are 172.21.206.143 (the week I) and 172.21.172.234 (week II), protocols that are often used by TCP, and4) SVM method is a good data mining method for classifying network packet patterns so as to produce network traffic classification according to destination network and protocol.
翻訳日:2023-05-05 22:39:23 公開日:2020-08-18
# Rの再現可能データ解析のための最適条件の作成

Creating optimal conditions for reproducible data analysis in R with 'fertile' ( http://arxiv.org/abs/2008.12098v1 )

ライセンス: Link先を確認
Audrey M. Bertin, Benjamin S. Baumer(参考訳) 科学知識の進歩は、データ駆動型研究が再現可能であることの保証にますます依存し、同じデータを持つ2人が同じ結果を得る。 しかし、再現性の必要性は明らかであるが、その広範にわたる実施を妨げる重要な行動的・技術的課題があり、出版研究における再現性を構成する基準に関する明確なコンセンサスはない。 我々は、主にRStudio統合開発環境を通じて、Rでデータサイエンスプロジェクトを実施しながら、プログラマが犯す一連のよくあるミスに焦点を当てたRパッケージであるFerateを提示する。 fertileは2つのモードで動作します。(そもそも再現可能性のミスが起こらないように)プログレッシブに、そして(潜在的な問題のために書かれたコードを解析する)retroactiveです。 さらに、fertileは、ミスがなぜ問題なのか、どのように修正するかをユーザーに教えるように設計されている。

The advancement of scientific knowledge increasingly depends on ensuring that data-driven research is reproducible: that two people with the same data obtain the same results. However, while the necessity of reproducibility is clear, there are significant behavioral and technical challenges that impede its widespread implementation, and no clear consensus on standards of what constitutes reproducibility in published research. We present fertile, an R package that focuses on a series of common mistakes programmers make while conducting data science projects in R, primarily through the RStudio integrated development environment. fertile operates in two modes: proactively (to prevent reproducibility mistakes from happening in the first place), and retroactively (analyzing code that is already written for potential problems). Furthermore, fertile is designed to educate users on why their mistakes are problematic and how to fix them.
翻訳日:2023-05-05 22:38:51 公開日:2020-08-18
# オーストラリアの国勢調査データによる大規模人工人口の構築

Building a large synthetic population from Australian census data ( http://arxiv.org/abs/2008.11660v1 )

ライセンス: Link先を確認
Bhagya N. Wickramasinghe, Dhirendra Singh and Lin Padgham(参考訳) 本研究は,オーストラリアの国勢調査データから,メルボルン大都市圏に適用した人工人口の創出に向けた研究である。 個体群から分離した標本に依存しない個体群合成にサンプルフリーアプローチを用いる。 本アルゴリズムの入力は,所望の個人レベルおよび世帯レベルの属性の国勢調査による共同マージン分布であり,アウトプットは,世帯内の独特な個体の完全な合成人口を含むコンマ分離値(.csv)ファイルの集合であり,年齢,性別,関係状態,世帯種別,サイズは国勢調査データに一致している。 現代のコンピュータで3分以内に180万世帯の450万人からなるメルボルンにおける合成人口を作成できるアルゴリズムは効率的である。 アルゴリズムのコードはGitHubにホストされている。

We present work on creating a synthetic population from census data for Australia, applied to the greater Melbourne region. We use a sample-free approach to population synthesis that does not rely on a disaggregate sample from the original population. The inputs for our algorithm are joint marginal distributions from census of desired person-level and household-level attributes, and outputs are a set of comma-separated-value (.csv) files containing the full synthetic population of unique individuals in households; with age, gender, relationship status, household type, and size, matched to census data. Our algorithm is efficient in that it can create the synthetic population for Melbourne comprising 4.5 million persons in 1.8 million households within three minutes on a modern computer. Code for the algorithm is hosted on GitHub.
翻訳日:2023-05-05 22:38:35 公開日:2020-08-18
# 対称な厳密に凸ポテンシャルを持つschr\"odinger方程式に対するvirial-ans\"atze

Virial-ans\"atze for the Schr\"odinger Equation with a symmetric strictly convex potential ( http://arxiv.org/abs/2008.08179v1 )

ライセンス: Link先を確認
S. P. Flego(参考訳) 対称な厳密な凸ポテンシャルを考えると、局所関係は実対数凹函数を構築できるようなヴィリアル定理から推測される。 これを重み関数として使用し、ビリアルの定理をまだ検証できるような方法で、関連するschr\"odinger方程式の固有関数に対するパラメータフリーな ans\"atze が構築される。 この過程を説明するために、この手法は、正確な固有関数につながる調和振動子と、Schr\odinger方程式への新しいアプローチのためのパラダイムテスト場であるクォートアンハーモニック振動子に対して、うまくテストされる。

Considering symmetric strictly convex potentials, a local relationship is inferred from the virial theorem, based on which a real log-concave function can be constructed. Using this as a weight function and in such a way that the virial theorem can still be verified, parameter-free ans\"atze for the eigenfunctions of the associated Schr\"odinger equation are built. To illustrate the process, the technique is successfully tested against the harmonic oscillator, in which it leads to the exact eigenfunctions, and against the quartic anharmonic oscillator, which is considered the paradigmatic testing ground for new approaches to the Schr\"odinger equation.
翻訳日:2023-05-05 22:37:45 公開日:2020-08-18
# 量子コンピュータ上の微小温度および有限温度ab慣性分子動力学シミュレーション

Microcanonical and finite temperature ab initio molecular dynamics simulations on quantum computers ( http://arxiv.org/abs/2008.08144v1 )

ライセンス: Link先を確認
Igor O. Sokolov, Panagiotis Kl. Barkoutsos, Lukas Moeller, Philippe Suchsland, Guglielmo Mazzola, Ivano Tavernelli(参考訳) Ab initio molecular dynamics (AIMD) は、分子および凝縮物質系の特性を予測する強力なツールである。 この手順の品質は正確な電子構造計算に基づいている。 量子プロセッサの開発は、分子系の正確な地盤と励起状態エネルギーの効率的な評価に大きな可能性を示し、分子動力学シミュレーションのための新しい道を開いた。 本稿では,aimdで使用される正確な原子間力の計算における変分量子アルゴリズムの利用について述べる。 特に、エネルギーと力の期待値の測定に関連する統計的ノイズの緩和と、ハードウェアノイズ源(特にゲート不均一性、クビットデコヒーレンス、リードアウトエラー)の緩和のためのスキームを提供する。 ポテンシャルエネルギーの計算における誤差は比較的大きいが,提案アルゴリズムはマイクロカノニカル(コンスタントエネルギー)アンサンブルにおいて信頼性の高いMDトラジェクトリを提供できることを示す。 さらに, 量子計測プロセスから生じる固有雑音を利用して, 正準方程式, すなわち温度, 力学のシミュレーションのためのランゲヴィン力学アルゴリズムを提案する。 両方のアルゴリズム(マイクロカノニカルとカノニカル)は、H2やH3+のような単純な分子系のシミュレーションに適用される。 最後に,IBM 量子コンピュータ ibmq_athens を用いて得られた H2 の動的解析結果についても述べる。

Ab initio molecular dynamics (AIMD) is a powerful tool to predict properties of molecular and condensed matter systems. The quality of this procedure is based on accurate electronic structure calculations. The development of quantum processors has shown great potential for the efficient evaluation of accurate ground and excited state energies of molecular systems, opening up new avenues for molecular dynamics simulations. In this work we address the use of variational quantum algorithms for the calculation of accurate atomic forces to be used in AIMD. In particular, we provide solutions for the alleviation of the statistical noise associated to the measurements of the expectation values of energies and forces, as well as schemes for the mitigation of the hardware noise sources (in particular, gate infidelities, qubit decoherence and readout errors). Despite the relative large error in the calculation of the potential energy, our results show that the proposed algorithms can provide reliable MD trajectories in the microcanonical (constant energy) ensemble. Further, exploiting the intrinsic noise arising from the quantum measurement process, we also propose a Langevin dynamics algorithm for the simulation of canonical, i.e., constant temperature, dynamics. Both algorithms (microcanonical and canonical) are applied to the simulation of simple molecular systems such as H2 and H3+. Finally, we also provide results for the dynamics of H2 obtained with IBM quantum computer ibmq_athens.
翻訳日:2023-05-05 22:36:38 公開日:2020-08-18
# 簡易コンビネーションを用いた水文時系列予測:ビッグデータテストと河川流量予測可能性の1年間の検証

Hydrological time series forecasting using simple combinations: Big data testing and investigations on one-year ahead river flow predictability ( http://arxiv.org/abs/2001.00811v2 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis(参考訳) 都市と農業の水道管理、水力発電、洪水保護と管理、干ばつ軽減と緩和、河川流域の計画と管理に有用な水文予測が不可欠である。 本研究では,水文時系列予測のための簡易かつ柔軟な方法論を提示し,評価する。 この方法論は (a)少なくとも2つの個別予測方法、及び b) 予測の中央値の組合せ この評価は、約600の駅から90年の平均河川流量時系列からなるビッグデータを用いて行われる。 北米とヨーロッパの大部分をカバーし、これらのステーションは様々な気候と捕食特性を表現し、ベンチマークを総合的に支援することができる。 導入した手法の5つの個別予測方法と26の変種を時系列毎に適用する。 アプリケーションは、ワンステップの予測モードで行われる。 個々のメソッドは、最後の観測ベンチマーク、単純な指数的滑らか化、複雑な指数的平滑化、自動回帰的分数化平均(ARFIMA)とFacebookのProphetであり、26の変種は、前述の5つのメソッドの可能なすべての組み合わせ(2つ、3つ、4つ、5つ)で定義される。 新しい手法は、特に2つ以上の個別予測手法をフレームワーク内で組み合わせた場合、長期的には良好に機能すると見なされる。 さらに, 体系的枠組みにおける多様な水文予測手法のケースインフォームド統合の可能性について, アルゴリズムによる検討と考察を行った。 関連する調査は, 代表的な予測性能指標の値と選択された河川流量統計値との解釈可能な関係を見出すことを目的とした線形回帰分析を含む。

Delivering useful hydrological forecasts is critical for urban and agricultural water management, hydropower generation, flood protection and management, drought mitigation and alleviation, and river basin planning and management, among others. In this work, we present and appraise a new simple and flexible methodology for hydrological time series forecasting. This methodology relies on (a) at least two individual forecasting methods and (b) the median combiner of forecasts. The appraisal is made by using a big dataset consisted of 90-year-long mean annual river flow time series from approximately 600 stations. Covering large parts of North America and Europe, these stations represent various climate and catchment characteristics, and thus can collectively support benchmarking. Five individual forecasting methods and 26 variants of the introduced methodology are applied to each time series. The application is made in one-step ahead forecasting mode. The individual methods are the last-observation benchmark, simple exponential smoothing, complex exponential smoothing, automatic autoregressive fractionally integrated moving average (ARFIMA) and Facebook's Prophet, while the 26 variants are defined by all the possible combinations (per two, three, four or five) of the five afore-mentioned methods. The new methodology is identified as well-performing in the long run, especially when more than two individual forecasting methods are combined within its framework. Moreover, the possibility of case-informed integrations of diverse hydrological forecasting methods within systematic frameworks is algorithmically investigated and discussed. The related investigations encompass linear regression analyses, which aim at finding interpretable relationships between the values of a representative forecasting performance metric and the values of selected river flow statistics...
翻訳日:2023-01-16 04:15:01 公開日:2020-08-18
# 物理に先行しないリアルタイム計算イメージングのための2段階学習型ディープラーニングフレームワーク

A Two-step-training Deep Learning Framework for Real-time Computational Imaging without Physics Priors ( http://arxiv.org/abs/2001.03493v3 )

ライセンス: Link先を確認
Ruibo Shang, Kevin Hoffer-Hawlik, Geoffrey P. Luke(参考訳) 深層学習(DL)は多くのアプリケーションで計算画像の強力なツールである。 一般的な戦略は、最適化された画像を達成するためにニューラルネットワークの入力として予備画像を再構成することである。 通常、予備画像は、画像モデルの事前知識とともに取得される。 しかし、1つの顕著な課題は、実際の撮像モデルが仮定されたモデルから逸脱する程度である。 モデルミスマッチは予備画像の品質を低下させ、dl予測に影響を与える。 もう一つの大きな課題は、ほとんどのイメージング逆問題には問題があり、ネットワークは過パラメータ化されているため、DLネットワークは画像モデルに直接関連しないデータから特徴を抽出する柔軟性を持っていることである。 これらの課題を解決するために,物理に先行しないリアルタイム計算画像の2段階学習用DL(TST-DL)フレームワークを提案する。 まず、単一の完全連結層(fcl)がモデルを直接学習するように訓練される。 次に、このFCLを未学習のU-Netアーキテクチャに固定結合して第2ステップのトレーニングを行い、出力画像の忠実性を改善する。 第一に、モデルが直接学習されるため、画像モデルの正確な表現に依存しない。 第2に,リアルタイムイメージングを実現する。 第3に、TST-DLネットワークを所望の方向に訓練し、第1ステップがモデル学習に制約されているため予測を改善し、第2ステップは最適な正規化器学習により結果を改善する。 第4に、このアプローチはあらゆるサイズとデータ次元に対応します。 この枠組みを線形単画素カメライメージングモデルを用いて実証する。 結果は、他のdlフレームワークやモデルベースの反復最適化アプローチと比較される。 我々はこの概念をさらに非線形モデルに拡張し、画像デオートコリレーションを適用した。

Deep learning (DL) is a powerful tool in computational imaging for many applications. A common strategy is to reconstruct a preliminary image as the input of a neural network to achieve an optimized image. Usually, the preliminary image is acquired with the prior knowledge of the imaging model. One outstanding challenge, however, is the degree to which the actual imaging model deviates from the assumed model. Model mismatches degrade the quality of the preliminary image and therefore affect the DL predictions. Another main challenge is that since most imaging inverse problems are ill-posed and the networks are over-parameterized, DL networks have flexibility to extract features from the data that are not directly related to the imaging model. To solve these challenges, a two-step-training DL (TST-DL) framework is proposed for real-time computational imaging without physics priors. First, a single fully-connected layer (FCL) is trained to directly learn the model. Then, this FCL is fixed and concatenated with an un-trained U-Net architecture for a second-step training to improve the output image fidelity, resulting in four main advantages. First, it does not rely on an accurate representation of the imaging model since the model is directly learned. Second, real-time imaging can be achieved. Third, the TST-DL network is trained in the desired direction and the predictions are improved since the first step is constrained to learn the model and the second step improves the result by learning the optimal regularizer. Fourth, the approach accommodates any size and dimensionality of data. We demonstrate this framework using a linear single-pixel camera imaging model. The results are quantitatively compared with those from other DL frameworks and model-based iterative optimization approaches. We further extend this concept to nonlinear models in the application of image de-autocorrelation.
翻訳日:2023-01-12 23:40:01 公開日:2020-08-18
# TVR:ビデオ字幕モーメント検索のための大規模データセット

TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval ( http://arxiv.org/abs/2001.09099v2 )

ライセンス: Link先を確認
Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal(参考訳) 本稿では,新しいマルチモーダル検索データセットRetrieval(TVR)を紹介する。 TVRはビデオとそれに関連する字幕(対話)のテキストの両方を理解する必要がある。 データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kのビデオで収集された109Kのクエリが含まれている。 クエリには、それぞれがビデオやサブタイトルに関連があるか、あるいはその両方に関連があるかを示すクエリタイプがラベル付けされており、データセットとその上に構築されたメソッドの詳細な分析を可能にする。 収集したデータの品質を保証するために厳格な資格と注釈後の検証テストが適用される。 さらに,マルチモーダルモーメント検索タスクのためのベースラインと新しいクロスモーダルモーメント定位(xml)ネットワークを提案する。 提案したXMLモデルは、新しいConvolutional Start-End検出器(ConvSE)を備えた後期融合設計を使用し、ベースラインをはるかに上回り、効率が良く、将来の作業の出発点となる。 また,TVRの各アノテートモーメントについて,262Kキャプションを付加した新しいマルチモーダルキャプションデータセット,TVC (TV Show Caption) を作成した。 どちらのデータセットも公開されている。 TVR: https://tvr.cs.unc.edu, TVC: https://tvr.cs.unc.edu/tvc.html

We introduce TV show Retrieval (TVR), a new multimodal retrieval dataset. TVR requires systems to understand both videos and their associated subtitle (dialogue) texts, making it more realistic. The dataset contains 109K queries collected on 21.8K videos from 6 TV shows of diverse genres, where each query is associated with a tight temporal window. The queries are also labeled with query types that indicate whether each of them is more related to video or subtitle or both, allowing for in-depth analysis of the dataset and the methods that built on top of it. Strict qualification and post-annotation verification tests are applied to ensure the quality of the collected data. Further, we present several baselines and a novel Cross-modal Moment Localization (XML ) network for multimodal moment retrieval tasks. The proposed XML model uses a late fusion design with a novel Convolutional Start-End detector (ConvSE), surpassing baselines by a large margin and with better efficiency, providing a strong starting point for future work. We have also collected additional descriptions for each annotated moment in TVR to form a new multimodal captioning dataset with 262K captions, named TV show Caption (TVC). Both datasets are publicly available. TVR: https://tvr.cs.unc.edu, TVC: https://tvr.cs.unc.edu/tvc.html.
翻訳日:2023-01-07 04:59:21 公開日:2020-08-18
# 学習地図を用いた自由エネルギー推定

Targeted free energy estimation via learned mappings ( http://arxiv.org/abs/2002.04913v2 )

ライセンス: Link先を確認
Peter Wirnsberger, Andrew J. Ballard, George Papamakarios, Stuart Abercrombie, S\'ebastien Racani\`ere, Alexander Pritzel, Danilo Jimenez Rezende and Charles Blundell(参考訳) 自由エネルギー摂動(FEP)は60年以上前にZwanzigによって自由エネルギーの差を推定する方法として提案され、それ以来、これを統合的なビルディングブロックとして使用する膨大な関連手法に影響を与えた。 しかし、FEPはサンプリングに基づく重要な推定器であり、分布間の十分な重複の必要性という厳しい限界に悩まされている。 目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、構成空間における高次元マッピングを用いて、基礎となる分布の重複を増大させる。 その可能性にもかかわらず、この手法は、トラクタブルマッピングを定式化することの難しさから、限られた注目を集めているだけである。 ここでは、重なりを増すように最適化されたニューラルネットワークとしてマッピングをパラメータ化する機械学習問題として、ターゲットFEPを挙げた。 我々は,原子論的シミュレーションでよく発生する置換対称性と周期対称性を考慮し,全周期解法でその手法をテストする新しいモデル構築法を開発した。 本手法は, ベースラインと比較した場合, 余分なデータを必要とすることなく, 自由エネルギー推定値にかなりのばらつきを生じさせることを示した。

Free energy perturbation (FEP) was proposed by Zwanzig more than six decades ago as a method to estimate free energy differences, and has since inspired a huge body of related methods that use it as an integral building block. Being an importance sampling based estimator, however, FEP suffers from a severe limitation: the requirement of sufficient overlap between distributions. One strategy to mitigate this problem, called Targeted Free Energy Perturbation, uses a high-dimensional mapping in configuration space to increase overlap of the underlying distributions. Despite its potential, this method has attracted only limited attention due to the formidable challenge of formulating a tractable mapping. Here, we cast Targeted FEP as a machine learning problem in which the mapping is parameterized as a neural network that is optimized so as to increase overlap. We develop a new model architecture that respects permutational and periodic symmetries often encountered in atomistic simulations and test our method on a fully-periodic solvation system. We demonstrate that our method leads to a substantial variance reduction in free energy estimates when compared against baselines, without requiring any additional data.
翻訳日:2023-01-01 20:31:16 公開日:2020-08-18
# 個人知識ベース人口のためのデータ拡張

Data Augmentation for Personal Knowledge Base Population ( http://arxiv.org/abs/2002.10943v2 )

ライセンス: Link先を確認
Lingraj S Vannur, Balaji Ganesan, Lokesh Nagalapatti, Hima Patel, MN Thippeswamy(参考訳) コールドスタート知識ベース人口(KBP)は、構造化されていない文書から知識ベースを投入する問題である。 人工ニューラルネットワークは、KBPの一部であるさまざまなタスクに大きな改善をもたらしたが、エンドツーエンドシステムの全体的なF1は非常に低いままである。 この問題は、個人の知識ベースにおいてより深刻であり、データ保護、公平性、プライバシーに関して追加の課題がある。 本研究では,ルールベースのアノテータとグラフニューラルネットワークを用いてリンク予測の欠如を予測し,TACREDデータセットからより完全で公平で多様な知識ベースを抽出するシステムを提案する。

Cold start knowledge base population (KBP) is the problem of populating a knowledge base from unstructured documents. While artificial neural networks have led to significant improvements in the different tasks that are part of KBP, the overall F1 of the end-to-end system remains quite low. This problem is more acute in personal knowledge bases, which present additional challenges with regard to data protection, fairness and privacy. In this work, we present a system that uses rule based annotators and a graph neural network for missing link prediction, to populate a more complete, fair and diverse knowledge base from the TACRED dataset.
翻訳日:2022-12-29 09:09:40 公開日:2020-08-18
# ベイズ学習規則を用いた二元ニューラルネットワークの訓練

Training Binary Neural Networks using the Bayesian Learning Rule ( http://arxiv.org/abs/2002.10778v4 )

ライセンス: Link先を確認
Xiangming Meng and Roman Bachmann and Mohammad Emtiyaz Khan(参考訳) 二分重のニューラルネットワークは計算効率が良く、ハードウェアに優しいが、そのトレーニングは離散的な最適化問題を伴うため難しい。 驚くべきことに、問題の離散的な性質を無視し、ストレートスルー推定器のような勾配ベースの方法を使うことは、実際にはうまく機能します。 このようなメソッドを正当化する原則的なアプローチはあるか? 本稿では,ベイズ学習規則を用いたアプローチを提案する。 このルールは、二進重みのベルヌーイ分布を推定するために適用されると、以前のアプローチによるアルゴリズムの選択の一部を正当化するアルゴリズムが生じる。 このアルゴリズムは、最先端の性能を得るだけでなく、連続学習における不確実性を推定し、破滅的な忘れを回避できる。 私たちの研究は、既存のアプローチを正当化し拡張するバイナリニューラルネットワークをトレーニングするための原則化されたアプローチを提供します。

Neural networks with binary weights are computation-efficient and hardware-friendly, but their training is challenging because it involves a discrete optimization problem. Surprisingly, ignoring the discrete nature of the problem and using gradient-based methods, such as the Straight-Through Estimator, still works well in practice. This raises the question: are there principled approaches which justify such methods? In this paper, we propose such an approach using the Bayesian learning rule. The rule, when applied to estimate a Bernoulli distribution over the binary weights, results in an algorithm which justifies some of the algorithmic choices made by the previous approaches. The algorithm not only obtains state-of-the-art performance, but also enables uncertainty estimation for continual learning to avoid catastrophic forgetting. Our work provides a principled approach for training binary neural networks which justifies and extends existing approaches.
翻訳日:2022-12-28 20:53:40 公開日:2020-08-18
# アクティブランジュバンモデルによる群集流れの理解

Understanding Crowd Flow Movements Using Active-Langevin Model ( http://arxiv.org/abs/2003.05626v3 )

ライセンス: Link先を確認
Shreetam Behera, Debi Prosad Dogra, Malay Kumar Bandyopadhyay, and Partha Pratim Roy(参考訳) 群衆の流れは、群衆の基本的な集団行動を記述する。 これらの動きの背後にあるダイナミクスを理解することは、群衆の様々な異常を識別するのに役立ちます。 しかし,これらのフローを記述する群集モデルの開発は難しい課題である。 本稿では,高密度群集の運動を記述するための物理モデルを提案する。 群集モデルは、流体中の活性コロイド粒子と運動点が類似していると考えられる活性ランゲヴィン方程式に基づいている。 このモデルは、密集した群れ内の線形と非線形の運動の流れを分割するコンピュータビジョン技術によってさらに拡張されている。 アクティブランジュバン方程式に基づく群衆セグメンテーションの評価は、一般公開された群衆ビデオや我々のビデオで行われている。 提案手法は,従来の最先端手法と比較して,より少ない光流誤差と精度で流れを分割できる。

Crowd flow describes the elementary group behavior of crowds. Understanding the dynamics behind these movements can help to identify various abnormalities in crowds. However, developing a crowd model describing these flows is a challenging task. In this paper, a physics-based model is proposed to describe the movements in dense crowds. The crowd model is based on active Langevin equation where the motion points are assumed to be similar to active colloidal particles in fluids. The model is further augmented with computer-vision techniques to segment both linear and non-linear motion flows in a dense crowd. The evaluation of the active Langevin equation-based crowd segmentation has been done on publicly available crowd videos and on our own videos. The proposed method is able to segment the flow with lesser optical flow error and better accuracy in comparison to existing state-of-the-art methods.
翻訳日:2022-12-24 14:58:23 公開日:2020-08-18
# STEm-Seg:ビデオにおけるインスタンス分割のための時空間埋め込み

STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos ( http://arxiv.org/abs/2003.08429v3 )

ライセンス: Link先を確認
Ali Athar, Sabarinath Mahadevan, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e, Bastian Leibe(参考訳) ビデオのセグメンテーションのような既存の方法は、トラッキング・バイ・プローブ・パラダイムに従って、映像のシーケンスとしてビデオクリップをモデル化する多段パイプラインを含む。 複数のネットワークが個々のフレーム内のオブジェクトを検出し、時間とともに検出を関連付けるために使用される。 したがって、これらの手法はしばしばエンドツーエンドのトレーニングが可能であり、特定のタスクに高度に調整される。 本稿では,ビデオにおけるインスタンスセグメンテーションを含む様々なタスクに適した,異なるアプローチを提案する。 特に,ビデオクリップを1つの3次元空間空間体積としてモデル化し,1つのステージにまたがる空間と時間にまたがるインスタンスをセグメンテーションし追跡する新しいアプローチを提案する。 Ourproblemの定式化は、ビデオクリップ全体に対して特定の対象物に属するピクセルをクラスタリングするように訓練された時空間的エミディングのアイデアを中心に行われる。 この目的のために紹介する (i)時空間の特徴表現を強化する新しい混合関数、及び (ii) 時間的文脈についてRerea-sonが可能な単一段階のプロポーザルフリーネットワーク。 我々のネットワークは学習時相埋め込みとクラスタリングに必要なパラメータをエンドツーエンドに訓練し、推論を簡素化する。 本手法は,複数のデータセットとタスクにまたがって最先端の結果を得る。 コードとモデルはhttps://github.com/sabarim/stem-segで入手できる。

Existing methods for instance segmentation in videos typi-cally involve multi-stage pipelines that follow the tracking-by-detectionparadigm and model a video clip as a sequence of images. Multiple net-works are used to detect objects in individual frames, and then associatethese detections over time. Hence, these methods are often non-end-to-end trainable and highly tailored to specific tasks. In this paper, we pro-pose a different approach that is well-suited to a variety of tasks involvinginstance segmentation in videos. In particular, we model a video clip asa single 3D spatio-temporal volume, and propose a novel approach thatsegments and tracks instances across space and time in a single stage. Ourproblem formulation is centered around the idea of spatio-temporal em-beddings which are trained to cluster pixels belonging to a specific objectinstance over an entire video clip. To this end, we introduce (i) novel mix-ing functions that enhance the feature representation of spatio-temporalembeddings, and (ii) a single-stage, proposal-free network that can rea-son about temporal context. Our network is trained end-to-end to learnspatio-temporal embeddings as well as parameters required to clusterthese embeddings, thus simplifying inference. Our method achieves state-of-the-art results across multiple datasets and tasks. Code and modelsare available at https://github.com/sabarim/STEm-Seg.
翻訳日:2022-12-22 09:58:32 公開日:2020-08-18
# 深部マルコフ時空間分解

Deep Markov Spatio-Temporal Factorization ( http://arxiv.org/abs/2003.09779v2 )

ライセンス: Link先を確認
Amirreza Farnoosh, Behnaz Rezaei, Eli Zachary Sennesh, Zulqarnain Khan, Jennifer Dy, Ajay Satpute, J Benjamin Hutchinson, Jan-Willem van de Meent, Sarah Ostadabbas(参考訳) 我々は,時空間データの動的解析のための生成モデルであるdeep markov spatio-temporal factorization (dmstf)を提案する。 他の因子分析法と同様に、DMSTFは時間依存重みと空間依存因子の間の積による高次元データを近似する。 これらの重みと因子は、確率的変分推論を用いて推定される低次元の潜伏点の項で表される。 DMSTFの革新は、非線型多モード時間ダイナミクスを特徴付けることができ、多次元時系列予測を行うことができる離散潜在子で拡張可能なディープマルコフの項で重みをパラメータ化することである。 DMSTFは空間因子やそれらの機能形式を生成的にパラメータ化して高次元の空間的ラテントを学習する。 低レベル潜在表現における双方向リカレントネットワークを用いて対応する変動分布をパラメータ化する。 これにより、時系列クラスタリングや制御信号の存在下での因子分析を行うために拡張可能な、階層的な深層生成因子分析モデルの柔軟なファミリーが得られる。 シミュレーションおよび実世界のデータを含む実験では、DMSTFは未確認データの予測性能において関連手法よりも優れており、データ中の有意義なクラスタを明らかにし、潜在的に非線形な時間遷移を伴う様々な領域で予測を行う。

We introduce deep Markov spatio-temporal factorization (DMSTF), a generative model for dynamical analysis of spatio-temporal data. Like other factor analysis methods, DMSTF approximates high dimensional data by a product between time dependent weights and spatially dependent factors. These weights and factors are in turn represented in terms of lower dimensional latents inferred using stochastic variational inference. The innovation in DMSTF is that we parameterize weights in terms of a deep Markovian prior extendable with a discrete latent, which is able to characterize nonlinear multimodal temporal dynamics, and perform multidimensional time series forecasting. DMSTF learns a low dimensional spatial latent to generatively parameterize spatial factors or their functional forms in order to accommodate high spatial dimensionality. We parameterize the corresponding variational distribution using a bidirectional recurrent network in the low-level latent representations. This results in a flexible family of hierarchical deep generative factor analysis models that can be extended to perform time series clustering or perform factor analysis in the presence of a control signal. Our experiments, which include simulated and real-world data, demonstrate that DMSTF outperforms related methodologies in terms of predictive performance for unseen data, reveals meaningful clusters in the data, and performs forecasting in a variety of domains with potentially nonlinear temporal transitions.
翻訳日:2022-12-21 05:16:47 公開日:2020-08-18
# UnrealText:非現実の世界からリアルなシーンのテキストイメージを合成する

UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World ( http://arxiv.org/abs/2003.10608v6 )

ライセンス: Link先を確認
Shangbang Long, Cong Yao(参考訳) 合成データはシーンテキストの検出と認識モデルを訓練するための重要なツールである。 一方,合成語画像は,テキスト認識訓練における実画像の代替として有効であることが証明されている。 しかし一方で、シーンテキスト検出装置は依然として大量の手作業による実世界の画像に依存しており、これは高価である。 本稿では,3Dグラフィックスエンジンを用いてリアルな画像をレンダリングする,効率的な画像合成手法UnrealTextを紹介する。 3d合成エンジンはシーンとテキスト全体をレンダリングすることでリアルな外観を提供し、通常のメッシュやオブジェクトメッシュといった正確なシーン情報にアクセスして、より優れたテキスト領域の提案を可能にする。 総合的な実験により,シーンテキストの検出と認識の両面での有効性が検証された。 また,多言語シーンテキストの検出と認識に関する今後の研究のための多言語バージョンも作成する。 さらに,シーンテキスト認識データセットをケースセンシティブな方法で再注釈し,より包括的な評価のために句読点を含める。 コードと生成されたデータセットは、https://github.com/jyouhou/unrealtext/。

Synthetic data has been a critical tool for training scene text detection and recognition models. On the one hand, synthetic word images have proven to be a successful substitute for real images in training scene text recognizers. On the other hand, however, scene text detectors still heavily rely on a large amount of manually annotated real-world images, which are expensive. In this paper, we introduce UnrealText, an efficient image synthesis method that renders realistic images via a 3D graphics engine. 3D synthetic engine provides realistic appearance by rendering scene and text as a whole, and allows for better text region proposals with access to precise scene information, e.g. normal and even object meshes. The comprehensive experiments verify its effectiveness on both scene text detection and recognition. We also generate a multilingual version for future research into multilingual scene text detection and recognition. Additionally, we re-annotate scene text recognition datasets in a case-sensitive way and include punctuation marks for more comprehensive evaluations. The code and the generated datasets are released at: https://github.com/Jyouhou/UnrealText/ .
翻訳日:2022-12-20 09:08:40 公開日:2020-08-18
# 補助的な自己エンコーディング損失を伴う各種ソースの分離

Separating Varying Numbers of Sources with Auxiliary Autoencoding Loss ( http://arxiv.org/abs/2003.12326v2 )

ライセンス: Link先を確認
Yi Luo, Nima Mesgarani(参考訳) 最近の多くのソース分離システムは、一定の数のソースを混合から分離するように設計されている。 ソースアクティベーションパターンが未知の場合、これらのシステムは出力数を調整するか、有効な出力から無効な出力を識別する必要がある。 反復的分離法は, アウトプット数を柔軟に決定できるため, コミュニティにおいて注目されているが, 1) 典型的には, 反復の停止時間を決定するための長期情報に依存しているため, 因果的環境での運用が困難である; (2) 推定されたソース数と実際の数とが異なる場合に, フォールトトレランス機構が欠如している。 本稿では,2つの問題を緩和するために,簡易なトレーニング手法A2PITを提案する。 A2PITは、一定数の出力を仮定し、補助的なオートエンコード損失を使用して、無効な出力を入力混合物のコピーに強制し、推論フェーズ中に完全に教師なしの方法で無効な出力を検出する。 実験の結果,A2PITは様々な話者間の分離性能を向上し,混合話者数を効果的に検出できることがわかった。

Many recent source separation systems are designed to separate a fixed number of sources out of a mixture. In the cases where the source activation patterns are unknown, such systems have to either adjust the number of outputs or to identify invalid outputs from the valid ones. Iterative separation methods have gain much attention in the community as they can flexibly decide the number of outputs, however (1) they typically rely on long-term information to determine the stopping time for the iterations, which makes them hard to operate in a causal setting; (2) they lack a "fault tolerance" mechanism when the estimated number of sources is different from the actual number. In this paper, we propose a simple training method, the auxiliary autoencoding permutation invariant training (A2PIT), to alleviate the two issues. A2PIT assumes a fixed number of outputs and uses auxiliary autoencoding loss to force the invalid outputs to be the copies of the input mixture, and detects invalid outputs in a fully unsupervised way during inference phase. Experiment results show that A2PIT is able to improve the separation performance across various numbers of speakers and effectively detect the number of speakers in a mixture.
翻訳日:2022-12-19 05:39:07 公開日:2020-08-18
# taplab - 圧縮領域知識を用いたセマンティックビデオセグメンテーションのための高速フレームワーク

TapLab: A Fast Framework for Semantic Video Segmentation Tapping into Compressed-Domain Knowledge ( http://arxiv.org/abs/2003.13260v3 )

ライセンス: Link先を確認
Junyi Feng, Songyuan Li, Xi Li, Fei Wu, Qi Tian, Ming-Hsuan Yang, and Haibin Ling(参考訳) リアルタイムセマンティックビデオセグメンテーションは、推論速度の厳格な要件のために難しい課題である。 最近のアプローチは主に、高効率のモデルサイズ削減に多大な努力を払っている。 本稿では,圧縮映像に含まれる知識を用いて,この問題を異なる視点から再考する。 我々は、圧縮されたドメインからリソースを取り込み、TapLabと呼ばれるシンプルで効果的なフレームワークを提案する。 具体的には,アクセラレーションのための運動ベクトルを用いた高速な特徴変形モジュールを設計する。 動きベクトルによる雑音を低減するため,残差を用いた残差誘導補正モジュールと残差誘導フレーム選択モジュールを設計した。 TapLabは最先端の高速セマンティックイメージセグメンテーションモデルの冗長な計算を大幅に削減し,3倍から10倍の高速化を実現している。 実験の結果、taplabは1024x2048ビデオの1つのgpuカードで、cityscapesデータセット上で70.6%のmiouを達成した。 高速版は160FPS以上の速度にまで達する。 コードは近々https://github.com/Sixkplus/TapLab.comで公開される。

Real-time semantic video segmentation is a challenging task due to the strict requirements of inference speed. Recent approaches mainly devote great efforts to reducing the model size for high efficiency. In this paper, we rethink this problem from a different viewpoint: using knowledge contained in compressed videos. We propose a simple and effective framework, dubbed TapLab, to tap into resources from the compressed domain. Specifically, we design a fast feature warping module using motion vectors for acceleration. To reduce the noise introduced by motion vectors, we design a residual-guided correction module and a residual-guided frame selection module using residuals. TapLab significantly reduces redundant computations of the state-of-the-art fast semantic image segmentation models, running 3 to 10 times faster with controllable accuracy degradation. The experimental results show that TapLab achieves 70.6% mIoU on the Cityscapes dataset at 99.8 FPS with a single GPU card for the 1024x2048 videos. A high-speed version even reaches the speed of 160+ FPS. Codes will be available soon at https://github.com/Sixkplus/TapLab.
翻訳日:2022-12-18 07:55:51 公開日:2020-08-18
# シーングラフ生成における新規合成のためのグラフ密度認識損失

Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation ( http://arxiv.org/abs/2005.08230v2 )

ライセンス: Link先を確認
Boris Knyazev, Harm de Vries, C\u{a}t\u{a}lina Cangea, Graham W. Taylor, Aaron Courville, Eugene Belilovsky(参考訳) シーングラフ生成(SGG)は、入力画像のグラフ構造記述をオブジェクトの形式で予測することを目的としている。 このタスクは、視覚と言語のインターフェイスの進歩に益々役に立ちつつある。 ここでは、新しい(ゼロショット)または稀な(2ショット)オブジェクトとリレーションシップの合成をうまく行うことが重要だが、難しい。 本稿では,そのような一般化を制限する2つの重要な問題を明らかにする。 まず,本課題における標準損失は意図せずシーングラフ密度の関数であることを示す。 このことは、訓練中に大きなスパースグラフにおいて個々のエッジを無視することにつながるが、これらには一般化に重要な様々な少数ショット例が含まれている。 第二に、関係の頻度は、最も頻繁な関係を予測するブラインドモデルが良いパフォーマンスを達成するように、このタスクに強いバイアスをもたらす。 その結果、いくつかの最先端モデルは、このバイアスを利用して結果を改善する。 我々は,このようなモデルがレアな構成に一般化する能力に最も苦しむ可能性を示し,視覚ゲノムデータセットとより最近の改良版であるgqaの2つの異なるモデルを評価した。 これらの問題に対処するために、密度正規化エッジロスを導入し、特定の一般化指標を2倍以上に改善する。 この方向の他の作業と比較すると、拡張にはほんの数行のコードしか必要とせず、計算コストも加えません。 また,既存の測定値,特に0/fewショットを用いたモデルを正確に評価することの難しさを強調し,新しい重み付き測定値を導入する。

Scene graph generation (SGG) aims to predict graph-structured descriptions of input images, in the form of objects and relationships between them. This task is becoming increasingly useful for progress at the interface of vision and language. Here, it is important - yet challenging - to perform well on novel (zero-shot) or rare (few-shot) compositions of objects and relationships. In this paper, we identify two key issues that limit such generalization. Firstly, we show that the standard loss used in this task is unintentionally a function of scene graph density. This leads to the neglect of individual edges in large sparse graphs during training, even though these contain diverse few-shot examples that are important for generalization. Secondly, the frequency of relationships can create a strong bias in this task, such that a blind model predicting the most frequent relationship achieves good performance. Consequently, some state-of-the-art models exploit this bias to improve results. We show that such models can suffer the most in their ability to generalize to rare compositions, evaluating two different models on the Visual Genome dataset and its more recent, improved version, GQA. To address these issues, we introduce a density-normalized edge loss, which provides more than a two-fold improvement in certain generalization metrics. Compared to other works in this direction, our enhancements require only a few lines of code and no added computational cost. We also highlight the difficulty of accurately evaluating models using existing metrics, especially on zero/few shots, and introduce a novel weighted metric.
翻訳日:2022-12-02 05:16:13 公開日:2020-08-18
# ライトオーディオ・ビジュアル音声強調

Lite Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2005.11769v3 )

ライセンス: Link先を確認
Shang-Yi Chuang, Yu Tsao, Chen-Chou Lo and Hsin-Min Wang(参考訳) 従来の研究では、視覚情報を音声強調(SE)システムに組み込むことの有効性が確認されている。 音声-視覚的SE(AVSE)システムを実装する際には,視覚的入力を組み込むために追加の処理コストがかかり,顔画像や唇画像の使用がプライバシー上の問題を引き起こす可能性がある。 本研究では,これらの問題に対処するLite AVSE(LAVSE)システムを提案する。 このシステムは2つのビジュアルデータ圧縮技術を含み、トレーニングモデルから視覚特徴抽出ネットワークを取り除き、オンライン計算効率が向上する。 実験結果から,提案するLAVSEシステムは,類似のモデルパラメータを持つ音声のみのSEシステムよりも優れた性能が得られることが示された。 さらに,視覚データ圧縮における2つの手法の有効性を実験的に検証した。

Previous studies have confirmed the effectiveness of incorporating visual information into speech enhancement (SE) systems. Despite improved denoising performance, two problems may be encountered when implementing an audio-visual SE (AVSE) system: (1) additional processing costs are incurred to incorporate visual input and (2) the use of face or lip images may cause privacy problems. In this study, we propose a Lite AVSE (LAVSE) system to address these problems. The system includes two visual data compression techniques and removes the visual feature extraction network from the training model, yielding better online computation efficiency. Our experimental results indicate that the proposed LAVSE system can provide notably better performance than an audio-only SE system with a similar number of model parameters. In addition, the experimental results confirm the effectiveness of the two techniques for visual data compression.
翻訳日:2022-11-29 14:01:13 公開日:2020-08-18
# InfiniteWalk: 非線形なラプラシアン埋め込みとしてのディープネットワーク埋め込み

InfiniteWalk: Deep Network Embeddings as Laplacian Embeddings with a Nonlinearity ( http://arxiv.org/abs/2006.00094v2 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya and Cameron Musco(参考訳) 単語埋め込み学習のためのスキップグラムモデル (Mikolov et al. 2013) は広く普及しており、DeepWalk (Perozzi et al. 2014) はネットワークからノード表現を学ぶためのモデルを拡張している。 Qiu et al. (2018)の最近の研究は、DeepWalkの目的に対してクローズドフォームの表現を提供し、小さなデータセットのサンプリングの必要性を回避し、精度を向上させる。 これらの方法では、単語やノードが共起と見なされる「ウィンドウサイズ」 t がキーハイパーパラメータである。 我々は、T が無限に進むときの極限における目的について研究し、Qiu et al の表現を単純化することができる。 この制限目的がグラフラプラシアンの擬逆の単純な変換を分解し、ディープウォルクをスペクトルグラフ埋め込みにおける広範な先行研究にリンクすることを証明する。 さらに,この擬似逆変換に単純な非線形エントリワイズ変換を適用することで,多段分類におけるdeepwalkや他のスキップグラム法と競合する有限t目標と埋め込みのよい近似を回復することを示す。 驚くべきことに、ラプラシアン擬逆の単純な二進しきい値でもしばしば競合関係にあり、最近の手法の核となる進歩は古典的なスペクトル埋め込みアプローチの上の非線形性であることを示唆している。

The skip-gram model for learning word embeddings (Mikolov et al. 2013) has been widely popular, and DeepWalk (Perozzi et al. 2014), among other methods, has extended the model to learning node representations from networks. Recent work of Qiu et al. (2018) provides a closed-form expression for the DeepWalk objective, obviating the need for sampling for small datasets and improving accuracy. In these methods, the "window size" T within which words or nodes are considered to co-occur is a key hyperparameter. We study the objective in the limit as T goes to infinity, which allows us to simplify the expression of Qiu et al. We prove that this limiting objective corresponds to factoring a simple transformation of the pseudoinverse of the graph Laplacian, linking DeepWalk to extensive prior work in spectral graph embeddings. Further, we show that by a applying a simple nonlinear entrywise transformation to this pseudoinverse, we recover a good approximation of the finite-T objective and embeddings that are competitive with those from DeepWalk and other skip-gram methods in multi-label classification. Surprisingly, we find that even simple binary thresholding of the Laplacian pseudoinverse is often competitive, suggesting that the core advancement of recent methods is a nonlinearity on top of the classical spectral embedding approach.
翻訳日:2022-11-26 23:13:58 公開日:2020-08-18
# 潜伏変数存在下での因果効果を考慮したベイズネットワーク構造学習

Bayesian network structure learning with causal effects in the presence of latent variables ( http://arxiv.org/abs/2005.14381v2 )

ライセンス: Link先を確認
Kiattikun Chobtham, Anthony C. Constantinou(参考訳) 潜伏変数は因果関係と誤解される可能性のある急激な関係をもたらす可能性がある。 ベイズネットワーク (BNs) では、この課題は因果不全下での学習として知られている。 因果的不足を仮定する構造学習アルゴリズムは、二方向辺が結合を表し、有向辺が直接的または祖先的関係を表すbnの祖先グラフを再構成する傾向がある。 本稿では,cFCIの制約ベース部分とヒルクライミングスコアベース学習を組み合わせた,CCHMと呼ばれるハイブリッド構造学習アルゴリズムについて述べる。 スコアベースのプロセスはパール s do-calculus を組み込んで因果効果を測り、そうでなければ無向的なエッジを向き付け、BN は多変量ガウス分布に従う線形構造方程式モデルであると仮定する。 ランダム化されたネットワークとよく知られたネットワークをベースとした実験により、CCHMは真の祖先グラフの再構築の観点から最先端の改善を図っている。

Latent variables may lead to spurious relationships that can be misinterpreted as causal relationships. In Bayesian Networks (BNs), this challenge is known as learning under causal insufficiency. Structure learning algorithms that assume causal insufficiency tend to reconstruct the ancestral graph of a BN, where bi-directed edges represent confounding and directed edges represent direct or ancestral relationships. This paper describes a hybrid structure learning algorithm, called CCHM, which combines the constraint-based part of cFCI with hill-climbing score-based learning. The score-based process incorporates Pearl s do-calculus to measure causal effects and orientate edges that would otherwise remain undirected, under the assumption the BN is a linear Structure Equation Model where data follow a multivariate Gaussian distribution. Experiments based on both randomised and well-known networks show that CCHM improves the state-of-the-art in terms of reconstructing the true ancestral graph.
翻訳日:2022-11-26 22:38:13 公開日:2020-08-18
# 深部差分部分空間再構成による正確な顔リグ近似

Accurate Face Rig Approximation with Deep Differential Subspace Reconstruction ( http://arxiv.org/abs/2006.01746v2 )

ライセンス: Link先を確認
Steven L. Song, Weiqi Shi, Michael Reed(参考訳) フィルム品質のアニメーションに適したキャラクタ変形用リグには,幅広い要件を満たさなければならない。 芸術的な自由を許し、デザイン意図を正確に反映するためには、高度にスタイリングされた変形を生成できなければならない。 顔の変形は、アニメーション制御と追加の精度要件に対する非線形性のために特に困難であり、しばしば他の文字に一般化できない非常に複雑な顔のリグをもたらす。 この一般化の欠如は、単純な構造の変形を符号化する近似法の必要性を生じさせる。 差分座標における局所化形状情報とメッシュ再構成のための部分空間を別々に学習することにより,これらの問題に対処するrig近似法を提案する。 微分座標を用いると、結果として生じる変形面の誤差のスムーズな分布が得られ、学習された部分空間は再構成における低周波誤差を低減する制約を与える。 本手法は, 顔と身体の変形を高い忠実度で再現でき, 様々な生産キャラクタで示すように, うまく配置されたアニメーションの例のセットを必要としない。

To be suitable for film-quality animation, rigs for character deformation must fulfill a broad set of requirements. They must be able to create highly stylized deformation, allow a wide variety of controls to permit artistic freedom, and accurately reflect the design intent. Facial deformation is especially challenging due to its nonlinearity with respect to the animation controls and its additional precision requirements, which often leads to highly complex face rigs that are not generalizable to other characters. This lack of generality creates a need for approximation methods that encode the deformation in simpler structures. We propose a rig approximation method that addresses these issues by learning localized shape information in differential coordinates and, separately, a subspace for mesh reconstruction. The use of differential coordinates produces a smooth distribution of errors in the resulting deformed surface, while the learned subspace provides constraints that reduce the low frequency error in the reconstruction. Our method can reconstruct both face and body deformations with high fidelity and does not require a set of well-posed animation examples, as we demonstrate with a variety of production characters.
翻訳日:2022-11-26 01:13:54 公開日:2020-08-18
# ORCAS: 検索分析のための1800万のクリッククエリドキュメントペア

ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search ( http://arxiv.org/abs/2006.05324v2 )

ライセンス: Link先を確認
Nick Craswell, Daniel Campos, Bhaskar Mitra, Emine Yilmaz and Bodo Billerbeck(参考訳) Web検索エンジンのユーザは、クェリやクリックを通じて情報ニーズを明らかにし、クリックログを情報検索に有用な資産にする。 しかし、クリックログは、個人的または商業的に機密性の高い情報の開示が多すぎるため、学術利用のために公開されていない。 本稿では,tracディープラーニングトラック文書コーパスに関連するクリックデータリリースについて述べる。 k匿名性要件を含む集約とフィルタリングの結果、TREC DL URLの140万が、1800万の接続と1000万の異なるクエリを持つことがわかった。 これらのクエリとtrecドキュメントへの接続のデータセットは、クエリマイニングとランキングに関する以前の論文で使用されているプロプライエタリなデータセットと同じ大きさです。 クリックデータを使用してtrec dlトレーニングデータを強化する予備実験を行い、比較によって28倍のクエリ、49倍の接続と4.4倍のurlを提供する。 本稿では,データセットの生成過程,特徴,ランキングにおける使用について記述し,他の潜在的な用途を提案する。

Users of Web search engines reveal their information needs through queries and clicks, making click logs a useful asset for information retrieval. However, click logs have not been publicly released for academic use, because they can be too revealing of personally or commercially sensitive information. This paper describes a click data release related to the TREC Deep Learning Track document corpus. After aggregation and filtering, including a k-anonymity requirement, we find 1.4 million of the TREC DL URLs have 18 million connections to 10 million distinct queries. Our dataset of these queries and connections to TREC documents is of similar size to proprietary datasets used in previous papers on query mining and ranking. We perform some preliminary experiments using the click data to augment the TREC DL training data, offering by comparison: 28x more queries, with 49x more connections to 4.4x more URLs in the corpus. We present a description of the dataset's generation process, characteristics, use in ranking and suggest other potential uses.
翻訳日:2022-11-23 15:48:27 公開日:2020-08-18
# MVLidarNet:複数ビューを用いた自律走行のためのリアルタイムマルチクラスシーン理解

MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous Driving Using Multiple Views ( http://arxiv.org/abs/2006.05518v2 )

ライセンス: Link先を確認
Ke Chen, Ryan Oldja, Nikolai Smolyanskiy, Stan Birchfield, Alexander Popov, David Wehr, Ibrahim Eden, Joachim Pehserl(参考訳) 自律運転には、物体の検出や分類、ドリブル空間の決定といった行動可能な情報の推論が必要である。 そこで本研究では,マルチクラス物体検出のための2段階深層ニューラルネットワークであるmulti-view lidarnet (mvlidarnet) と,単一lidar point cloudの複数ビューを用いたdivable space segmentationを提案する。 第1ステージは、シーンをセマンティックに分割するために、視点ビューに投影されたポイントクラウドを処理する。 次に、第2段階は(第1段階のセマンティックラベルと共に)鳥の眼球に投影された点雲を処理し、物体を検出し分類する。 どちらのステージもエンコーダ-デコーダアーキテクチャを使っている。 我々は,1台のLiDARスキャンを入力として,一度に100台以上の車両や歩行者による挑戦シーンにおいて,多視点,多段階,多段階,多段階のアプローチによってオブジェクトを検出・分類できることを示す。 このシステムは、自動運転車用に設計された組込みgpu上で150fpsで効率的に動作し、時間とともにアイデンティティを維持するポストプロセッシングステップを含む。 我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。

Autonomous driving requires the inference of actionable information such as detecting and classifying objects, and determining the drivable space. To this end, we present Multi-View LidarNet (MVLidarNet), a two-stage deep neural network for multi-class object detection and drivable space segmentation using multiple views of a single LiDAR point cloud. The first stage processes the point cloud projected onto a perspective view in order to semantically segment the scene. The second stage then processes the point cloud (along with semantic labels from the first stage) projected onto a bird's eye view, to detect and classify objects. Both stages use an encoder-decoder architecture. We show that our multi-view, multi-stage, multi-class approach is able to detect and classify objects while simultaneously determining the drivable space using a single LiDAR scan as input, in challenging scenes with more than one hundred vehicles and pedestrians at a time. The system operates efficiently at 150 fps on an embedded GPU designed for a self-driving car, including a postprocessing step to maintain identities over time. We show results on both KITTI and a much larger internal dataset, thus demonstrating the method's ability to scale by an order of magnitude.
翻訳日:2022-11-23 15:28:46 公開日:2020-08-18
# 分子グラフニューラルネットワークのためのWeisfeiler-Lehman埋め込み

Weisfeiler-Lehman Embedding for Molecular Graph Neural Networks ( http://arxiv.org/abs/2006.06909v2 )

ライセンス: Link先を確認
Katsuhiko Ishiguro and Kenta Oono and Kohei Hayashi(参考訳) グラフニューラルネットワーク(GNN)は分子の化学的性質を予測するのに最適である。 しかし、他のディープネットワークと比較して、GNNの現在の性能は「深さの計算」によって制限されている。 Wesfeiler-Lehman (WL) 埋め込みを用いて, 分子の化学的性質を規定する局所的な原子パターンを捉えた原子表現を拡張した。 表現可能性の観点から、wl埋め込みはrelu gnnの最初の2層 -- 正規埋め込みと隠れgnn層 -- をより小さなウェイトノルムに置き換えることができることを示した。 次に、WL埋め込みは、複数のGNNアーキテクチャと複数の分子グラフデータセットに対する経験的性能を一貫して改善することを示した。

A graph neural network (GNN) is a good choice for predicting the chemical properties of molecules. Compared with other deep networks, however, the current performance of a GNN is limited owing to the "curse of depth." Inspired by long-established feature engineering in the field of chemistry, we expanded an atom representation using Weisfeiler-Lehman (WL) embedding, which is designed to capture local atomic patterns dominating the chemical properties of a molecule. In terms of representability, we show WL embedding can replace the first two layers of ReLU GNN -- a normal embedding and a hidden GNN layer -- with a smaller weight norm. We then demonstrate that WL embedding consistently improves the empirical performance over multiple GNN architectures and several molecular graph datasets.
翻訳日:2022-11-22 02:32:22 公開日:2020-08-18
# 非凸min-max最適化:応用,課題,最近の理論進歩

Non-convex Min-Max Optimization: Applications, Challenges, and Recent Theoretical Advances ( http://arxiv.org/abs/2006.08141v2 )

ライセンス: Link先を確認
Meisam Razaviyayn, Tianjian Huang, Songtao Lu, Maher Nouiehed, Maziar Sanjabi, Mingyi Hong(参考訳) min-max最適化問題(min-max optimization problem)は、ゼロサムゲームにおいても研究される古典的な最適化問題である。 目的関数のクラスが与えられた場合、目標は引数の値を見つけ出すことであり、与えられたクラスで最悪の場合であっても、目的関数の値が小さいことにつながる。 ミニマックス最適化問題は最近、フェアビームフォーミング、GAN(generative adversarial Network)のトレーニング、堅牢な機械学習など、幅広い信号処理やデータ処理アプリケーションで非常に人気がある。 本稿では, 最小化問題と最大化問題を非凸・非凹化問題とすることができる, min-max問題の重要なサブクラスに対する最近の進歩を概観する。 特に、まず、このようなmin-max問題の重要性を示すアプリケーションをいくつか提示する。次に、重要な理論的課題を議論し、非凸min-max問題に取り組むための最近の理論およびアルゴリズムの進歩を選択的にレビューする。 最後に、オープンな質問と今後の研究方向性を指摘します。

The min-max optimization problem, also known as the saddle point problem, is a classical optimization problem which is also studied in the context of zero-sum games. Given a class of objective functions, the goal is to find a value for the argument which leads to a small objective value even for the worst case function in the given class. Min-max optimization problems have recently become very popular in a wide range of signal and data processing applications such as fair beamforming, training generative adversarial networks (GANs), and robust machine learning, to just name a few. The overarching goal of this article is to provide a survey of recent advances for an important subclass of min-max problem, where the minimization and maximization problems can be non-convex and/or non-concave. In particular, we will first present a number of applications to showcase the importance of such min-max problems; then we discuss key theoretical challenges, and provide a selective review of some exciting recent theoretical and algorithmic advances in tackling non-convex min-max problems. Finally, we will point out open questions and future research directions.
翻訳日:2022-11-21 03:41:27 公開日:2020-08-18
# 二次活性化関数を持つ浅層ニューラルネットワークの最適化と一般化

Optimization and Generalization of Shallow Neural Networks with Quadratic Activation Functions ( http://arxiv.org/abs/2006.15459v3 )

ライセンス: Link先を確認
Stefano Sarao Mannelli, Eric Vanden-Eijnden, and Lenka Zdeborov\'a(参考訳) 層幅$m$が入力次元$d$よりも大きいオーバーパラメトリケート状態下での2次活性化関数を持つ一隠れ層ニューラルネットワークの最適化のダイナミクスと一般化特性について検討した。 教師が生徒と同じ構造を持つ教師が、より幅の小さい$m^*\le m$ の隠れた層を持つような教師・生徒のシナリオを考える。 本稿では,データサンプル数$n$と教師ネットワーク幅$m^*$の影響について述べる。 特に、経験的損失にスパーラスなミニマがないことの確率が、n$、$d$、$m^*$に依存するかどうかを判断し、ニューラルネットワークが原則として教師を回復できる条件を確立する。 また、同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差、すなわち、実際に回復できることを示す。 最後に,多数の試料の限界における勾配降下の時間収束率を特徴付ける。 これらの結果は数値実験によって確認される。

We study the dynamics of optimization and the generalization properties of one-hidden layer neural networks with quadratic activation function in the over-parametrized regime where the layer width $m$ is larger than the input dimension $d$. We consider a teacher-student scenario where the teacher has the same structure as the student with a hidden layer of smaller width $m^*\le m$. We describe how the empirical loss landscape is affected by the number $n$ of data samples and the width $m^*$ of the teacher network. In particular we determine how the probability that there be no spurious minima on the empirical loss depends on $n$, $d$, and $m^*$, thereby establishing conditions under which the neural network can in principle recover the teacher. We also show that under the same conditions gradient descent dynamics on the empirical loss converges and leads to small generalization error, i.e. it enables recovery in practice. Finally we characterize the time-convergence rate of gradient descent in the limit of a large number of samples. These results are confirmed by numerical experiments.
翻訳日:2022-11-16 07:33:14 公開日:2020-08-18
# 自律海洋サンプリングのためのベクトル値ガウスランダムフィールドの学習的探索セット

Learning excursion sets of vector-valued Gaussian random fields for autonomous ocean sampling ( http://arxiv.org/abs/2007.03722v2 )

ライセンス: Link先を確認
Trygve Olav Fossum, C\'edric Travelletti, Jo Eidsvik, David Ginsbourger, Kanna Rajan(参考訳) 海洋科学と海洋資源管理において,海洋学的サンプリングの改善と最適化が重要な課題である。 水柱の理解過程の限られた資源に直面し、統計と自律システムの組み合わせは実験的な設計の新しい機会を提供する。 本研究では,複数の応答の所定のしきい値以上を同時に超越した領域を特徴付けるための効率的な空間サンプリング法を開発し,温度・塩分濃度測定に基づく海洋現象のマッピングに焦点をあてる。 具体的には,ベクトル値ガウス確率場の帰納法の不確実性に基づく設計基準を定め,そのような枠組みにおいて期待される統合ベルヌーイ分散還元に対する扱い可能な表現を導出する。 我々は,この基準を曖昧な場所でのサンプリング作業の優先順位付けに活用し,探索をより効果的にする方法を実証する。 河川プルームの境界をマッピングした研究の一環として, 想定したアプローチの特性をシミュレーションにより解析し, 次いで自律型水中車両によるフィールド展開の結果と比較した。 その結果,統計的手法とロボットプラットフォームを組み合わせることで,データ駆動型環境サンプリングを効果的に実施できる可能性が示唆された。

Improving and optimizing oceanographic sampling is a crucial task for marine science and maritime resource management. Faced with limited resources in understanding processes in the water-column, the combination of statistics and autonomous systems provide new opportunities for experimental design. In this work we develop efficient spatial sampling methods for characterizing regions defined by simultaneous exceedances above prescribed thresholds of several responses, with an application focus on mapping coastal ocean phenomena based on temperature and salinity measurements. Specifically, we define a design criterion based on uncertainty in the excursions of vector-valued Gaussian random fields, and derive tractable expressions for the expected integrated Bernoulli variance reduction in such a framework. We demonstrate how this criterion can be used to prioritize sampling efforts at locations that are ambiguous, making exploration more effective. We use simulations to study and compare properties of the considered approaches, followed by results from field deployments with an autonomous underwater vehicle as part of a study mapping the boundary of a river plume. The results demonstrate the potential of combining statistical methods and robotic platforms to effectively inform and execute data-driven environmental sampling.
翻訳日:2022-11-12 19:23:49 公開日:2020-08-18
# 健康ベースのインド政府の政策ツイートを探索するテキスト分類の強化

An Enhanced Text Classification to Explore Health based Indian Government Policy Tweets ( http://arxiv.org/abs/2007.06511v2 )

ライセンス: Link先を確認
Aarzoo Dhiman and Durga Toshniwal(参考訳) 政府による政策作成と計画の世代は、市民の社会的、経済的、個人的発展を保護し、促進する手段の1つである。 政府によるこれらのスキームの有効性の評価は、公共の認識、経験、見解の深い知識を含まない事実や数字の観点でのみ統計情報を提供する。 本研究では,様々な保健制度のtwitterデータを分類するための改良されたテキスト分類フレームワークを提案する。 提案するフレームワークは,言語表現モデル(LRモデル)BERT,ELMO,USEを利用する。 しかし,これらのLRモデルはアノテートデータが少ないため,リアルタイム適用性が低い。 そこで本研究では,ラベル付きデータのサイズを増大させることでテキスト分類タスクの性能を向上させる,新しいGloVe単語埋め込みとクラス固有の感情に基づくテキスト拡張アプローチ(Mod-EDA)を提案する。 さらに、訓練されたモデルは、中所得層や低所得層などの異なるコミュニティにおけるこれらの政策に対する市民の関与のレベルを特定するために活用される。

Government-sponsored policy-making and scheme generations is one of the means of protecting and promoting the social, economic, and personal development of the citizens. The evaluation of effectiveness of these schemes done by government only provide the statistical information in terms of facts and figures which do not include the in-depth knowledge of public perceptions, experiences and views on the topic. In this research work, we propose an improved text classification framework that classifies the Twitter data of different health-based government schemes. The proposed framework leverages the language representation models (LR models) BERT, ELMO, and USE. However, these LR models have less real-time applicability due to the scarcity of the ample annotated data. To handle this, we propose a novel GloVe word embeddings and class-specific sentiments based text augmentation approach (named Mod-EDA) which boosts the performance of text classification task by increasing the size of labeled data. Furthermore, the trained model is leveraged to identify the level of engagement of citizens towards these policies in different communities such as middle-income and low-income groups.
翻訳日:2022-11-10 22:47:48 公開日:2020-08-18
# デカップリングボディとエッジスーパービジョンによるセマンティックセグメンテーションの改善

Improving Semantic Segmentation via Decoupled Body and Edge Supervision ( http://arxiv.org/abs/2007.10035v2 )

ライセンス: Link先を確認
Xiangtai Li, Xia Li, Li Zhang, Guangliang Cheng, Jianping Shi, Zhouchen Lin, Shaohua Tan, Yunhai Tong(参考訳) 既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。 本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。 我々の洞察では、セグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクト \textit{body} と \textit{edge} をモデル化する必要がある。 そこで我々はまず,フロー場を学習し,物体の一部をより一貫性のあるものにすることで,画像特徴をワープする。 異なる部分(体またはエッジ)画素を明示的にサンプリングすることにより、得られたボディ特徴と残留エッジ特徴をさらに分離した監督下で最適化する。 様々なベースラインやバックボーンネットワークを備えた提案フレームワークが,オブジェクト内部一貫性とオブジェクト境界の改善に繋がることを示す。 道路シーンのセグメンテーションベンチマークである \textit{cityscapes}, \textit{camvid}, \textit{kiiti}, \textit{kiiti}, \textit{bdd} の4つの主要な4つの主要なベンチマークに関する広範な実験は、提案手法が推論の効率を高く保ちながら新しい状態を確立することを示している。 特に,Cityscape では 83.7 mIoU \% の細かな注釈付きデータしか得られない。 コードとモデルは、さらなる研究を促進するために利用可能である(\url{https://github.com/lxtGH/DecoupleSegNets})。

Existing semantic segmentation approaches either aim to improve the object's inner consistency by modeling the global context, or refine objects detail along their boundaries by multi-scale feature fusion. In this paper, a new paradigm for semantic segmentation is proposed. Our insight is that appealing performance of semantic segmentation requires \textit{explicitly} modeling the object \textit{body} and \textit{edge}, which correspond to the high and low frequency of the image. To do so, we first warp the image feature by learning a flow field to make the object part more consistent. The resulting body feature and the residual edge feature are further optimized under decoupled supervision by explicitly sampling different parts (body or edge) pixels. We show that the proposed framework with various baselines or backbone networks leads to better object inner consistency and object boundaries. Extensive experiments on four major road scene semantic segmentation benchmarks including \textit{Cityscapes}, \textit{CamVid}, \textit{KIITI} and \textit{BDD} show that our proposed approach establishes new state of the art while retaining high efficiency in inference. In particular, we achieve 83.7 mIoU \% on Cityscape with only fine-annotated data. Code and models are made available to foster any further research (\url{https://github.com/lxtGH/DecoupleSegNets}).
翻訳日:2022-11-08 13:58:10 公開日:2020-08-18
# フィードフォワードニューラルネットワークの線形判別初期化

Linear discriminant initialization for feed-forward neural networks ( http://arxiv.org/abs/2007.12782v2 )

ライセンス: Link先を確認
Marissa Masden, Dev Sinha(参考訳) ニューラルネットワークの基礎となる基本形状から情報を得て,各クラスを最も識別する線形判別器を用いて,ニューラルネットワークの第1層の重みを初期化する。 このように初期化されたネットワークは、同じレベルのトレーニングに到達するためのトレーニングステップを減らし、漸近的にトレーニングデータに対して高い精度を持つ。

Informed by the basic geometry underlying feed forward neural networks, we initialize the weights of the first layer of a neural network using the linear discriminants which best distinguish individual classes. Networks initialized in this way take fewer training steps to reach the same level of training, and asymptotically have higher accuracy on training data.
翻訳日:2022-11-07 06:31:48 公開日:2020-08-18
# レコメンダシステムにおける長期社会福祉の最適化:制約付きマッチングアプローチ

Optimizing Long-term Social Welfare in Recommender Systems: A Constrained Matching Approach ( http://arxiv.org/abs/2008.00104v2 )

ライセンス: Link先を確認
Martin Mladenov, Elliot Creager, Omer Ben-Porat, Kevin Swersky, Richard Zemel, Craig Boutilier(参考訳) ほとんどのレコメンデーターシステム(RS)の研究は、ユーザーのユーティリティは他のエージェント(例えば他のユーザー、コンテンツプロバイダ)のユーティリティとは独立して最大化できると仮定している。 現実的な設定では、これはしばしば真実ではない - RSエコシステムのダイナミクスは、すべてのエージェントの長期的なユーティリティを結合する。 本研究では,特定のレベルのユーザエンゲージメントを受けない限り,コンテンツプロバイダが存続できないような設定について検討する。 誘導力学系における平衡選択の1つとして、この設定における推奨問題を定式化し、最適制約マッチング問題として解けることを示す。 我々のモデルは、十分に多様な実現可能な提供者によって支えられる最大限の社会福祉と平衡に達することを保証します。 シンプルでスタイリングされた動的RSモデルであっても、推奨に対する標準的なミオピックアプローチ – ユーザとベストなプロバイダとを常に一致させる – は、パフォーマンスが悪くなります。 我々は,マッチング問題を解決するためのスケーラブルな手法をいくつも開発し,ユーザの後悔や公平性といった様々な概念とのつながりも生み出すとともに,これらの結果が実用的意味でより公平であると主張する。

Most recommender systems (RS) research assumes that a user's utility can be maximized independently of the utility of the other agents (e.g., other users, content providers). In realistic settings, this is often not true---the dynamics of an RS ecosystem couple the long-term utility of all agents. In this work, we explore settings in which content providers cannot remain viable unless they receive a certain level of user engagement. We formulate the recommendation problem in this setting as one of equilibrium selection in the induced dynamical system, and show that it can be solved as an optimal constrained matching problem. Our model ensures the system reaches an equilibrium with maximal social welfare supported by a sufficiently diverse set of viable providers. We demonstrate that even in a simple, stylized dynamical RS model, the standard myopic approach to recommendation---always matching a user to the best provider---performs poorly. We develop several scalable techniques to solve the matching problem, and also draw connections to various notions of user regret and fairness, arguing that these outcomes are fairer in a utilitarian sense.
翻訳日:2022-11-04 05:46:46 公開日:2020-08-18
# アクタアクションビデオ分類 csc 249/449 spring 2020 レポート

Actor-Action Video Classification CSC 249/449 Spring 2020 Challenge Report ( http://arxiv.org/abs/2008.00141v2 )

ライセンス: Link先を確認
Jing Shi, Zhiheng Li, Haitian Zheng, Yihang Xu, Tianyou Xiao, Weitao Tan, Xiaoning Guo, Sizhe Li, Bin Yang, Zhexin Xu, Ruitao Lin, Zhongkai Shangguan, Yue Zhao, Jingwen Wang, Rohan Sharma, Surya Iyer, Ajinkya Deshmukh, Raunak Mahalik, Srishti Singh, Jayant G Rohra, Yipeng Zhang, Tongyu Yang, Xuan Wen, Ethan Fahnestock, Bryce Ikeda, Ian Lawson, Alan Finkelstein, Kehao Guo, Richard Magnotti, Andrew Sexton, Jeet Ketan Thaker, Yiyang Su, Chenliang Xu(参考訳) この技術レポートは、ロチェスター大学のCSC 249/449 Machine Visionコース(2020年春)の最終プロジェクトとして開催されているActor-Actionビデオ分類チャレンジの提出とコンパイルを要約する。

This technical report summarizes submissions and compiles from Actor-Action video classification challenge held as a final project in CSC 249/449 Machine Vision course (Spring 2020) at University of Rochester
翻訳日:2022-11-04 00:47:05 公開日:2020-08-18
# 無監督深層モードスペクトルハッシュ

Unsupervised Deep Cross-modality Spectral Hashing ( http://arxiv.org/abs/2008.00223v3 )

ライセンス: Link先を確認
Tuan Hoang and Thanh-Toan Do and Tam V. Nguyen and Ngai-Man Cheung(参考訳) 本稿では,バイナリハッシュコードの教師なし学習問題に対処し,効率的なクロスモーダル検索を実現するための新しい枠組みである,ディープクロスモーダリティスペクトルハッシュ(dcsh)を提案する。 このフレームワークは、最適化を(1)バイナリ最適化と(2)ハッシュ関数学習に分離する2段階のハッシュアプローチである。 まず,単一モダリティ表現と二元交叉モダリティ表現を同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。 前者は各様相の局所構造をよく保存できるが、後者はすべての様相から隠れたパターンを明らかにする。 第2のステップでは、情報入力(画像と単語の埋め込み)から第1のステップから得られたバイナリコードへのマッピング関数を学習するために、画像に強力なCNNを活用し、CNNに基づく深層アーキテクチャを提案する。 3つの標準ベンチマークデータセットの定量的評価は、提案手法が他の最先端手法よりも一貫して優れていることを示している。

This paper presents a novel framework, namely Deep Cross-modality Spectral Hashing (DCSH), to tackle the unsupervised learning problem of binary hash codes for efficient cross-modal retrieval. The framework is a two-step hashing approach which decouples the optimization into (1) binary optimization and (2) hashing function learning. In the first step, we propose a novel spectral embedding-based algorithm to simultaneously learn single-modality and binary cross-modality representations. While the former is capable of well preserving the local structure of each modality, the latter reveals the hidden patterns from all modalities. In the second step, to learn mapping functions from informative data inputs (images and word embeddings) to binary codes obtained from the first step, we leverage the powerful CNN for images and propose a CNN-based deep architecture to learn text modality. Quantitative evaluations on three standard benchmark datasets demonstrate that the proposed DCSH method consistently outperforms other state-of-the-art methods.
翻訳日:2022-11-04 00:45:40 公開日:2020-08-18
# コイル感度のない深層並列MRI再構成ネットワーク

Deep Parallel MRI Reconstruction Network Without Coil Sensitivities ( http://arxiv.org/abs/2008.01410v3 )

ライセンス: Link先を確認
Wanyu Bian, Yunmei Chen, Xiaojing Ye(参考訳) 並列MRI(pMRI)における高速画像再構成のための頑健な近位勾配スキームをデータからトレーニングした正規化関数にマッピングすることにより,新しいディープニューラルネットワークアーキテクチャを提案する。 提案するネットワークは,不完全なpMRIデータからのマルチコイル画像と均一なコントラストとを適応的に組み合わせることを学び,非線形エンコーダに渡されて画像のスパース特徴を効率的に抽出する。 既存の深層画像再構成ネットワークと異なり,感度マップの知識は不要であり,正確な推定は困難であり,実世界のpmriアプリケーションでは画像再構成の大きなボトルネックとなっている。 実験の結果,様々なpMRI画像データセットにおいて,本手法が期待できる性能を示した。

We propose a novel deep neural network architecture by mapping the robust proximal gradient scheme for fast image reconstruction in parallel MRI (pMRI) with regularization function trained from data. The proposed network learns to adaptively combine the multi-coil images from incomplete pMRI data into a single image with homogeneous contrast, which is then passed to a nonlinear encoder to efficiently extract sparse features of the image. Unlike most of existing deep image reconstruction networks, our network does not require knowledge of sensitivity maps, which can be difficult to estimate accurately, and have been a major bottleneck of image reconstruction in real-world pMRI applications. The experimental results demonstrate the promising performance of our method on a variety of pMRI imaging data sets.
翻訳日:2022-11-03 00:59:28 公開日:2020-08-18
# ecgおよびアクチグラフィセンサを用いた疲労評価

Fatigue Assessment using ECG and Actigraphy Sensors ( http://arxiv.org/abs/2008.02871v2 )

ライセンス: Link先を確認
Yang Bai, Yu Guan, Wan-Fai Ng(参考訳) 疲労は作業効率の低下と健康関連qolの鍵となる要因の1つであり、疲労評価手法のほとんどは自己報告に基づいており、リコールバイアスなど多くの要因に苦しむ可能性がある。 そこで本研究では,ウェアラブルセンシングと機械学習技術を用いた客観的疲労評価システムを開発した。 自由生活環境の被験者からecg/actigraphyデータを収集した。 解釈可能なソリューションとディープラーニングソリューションが導入される前に、前処理と特徴工学の手法が適用された。 具体的には, システムの意思決定過程をよりよく理解するために, 相関が低く, 高い情報的特徴を選択できる特徴選択手法を提案する。 ディープ・ラーニング・ソリューションでは,最先端の自己着脱モデルを用いて,疲労評価のための一貫性自己着脱(csa)機構を考案した。 広範な実験が行われ、非常に有望な結果が得られた。

Fatigue is one of the key factors in the loss of work efficiency and health-related quality of life, and most fatigue assessment methods were based on self-reporting, which may suffer from many factors such as recall bias. To address this issue, we developed an automated system using wearable sensing and machine learning techniques for objective fatigue assessment. ECG/Actigraphy data were collected from subjects in free-living environments. Preprocessing and feature engineering methods were applied, before interpretable solution and deep learning solution were introduced. Specifically, for interpretable solution, we proposed a feature selection approach which can select less correlated and high informative features for better understanding system's decision-making process. For deep learning solution, we used state-of-the-art self-attention model, based on which we further proposed a consistency self-attention (CSA) mechanism for fatigue assessment. Extensive experiments were conducted, and very promising results were achieved.
翻訳日:2022-11-02 06:26:30 公開日:2020-08-18
# オープンエンドテキスト生成評価のための学習指標Perception Score

Perception Score, A Learned Metric for Open-ended Text Generation Evaluation ( http://arxiv.org/abs/2008.03082v2 )

ライセンス: Link先を確認
Jing Gu, Qingyang Wu, Zhou Yu(参考訳) オープンエンド自然言語生成タスクの自動評価は依然として課題である。 BLEUのような既存の指標は人間の判断と相関が低い。 本稿では,新しい,強力な学習ベース評価尺度を提案する。 本手法は,単語重複などの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を計測し,一律に得点する。 また,評価結果の不確実性の量も示す。 不確かさを結びつけることで、知覚スコアは生成システムのより正確な評価を与える。 Perception Scoreは2つの条件生成タスクと2つの条件生成タスクに対して、最先端の結果を提供する。

Automatic evaluation for open-ended natural language generation tasks remains a challenge. Existing metrics such as BLEU show a low correlation with human judgment. We propose a novel and powerful learning-based evaluation metric: Perception Score. The method measures the overall quality of the generation and scores holistically instead of only focusing on one evaluation criteria, such as word overlapping. Moreover, it also shows the amount of uncertainty about its evaluation result. By connecting the uncertainty, Perception Score gives a more accurate evaluation for the generation system. Perception Score provides state-of-the-art results on two conditional generation tasks and two unconditional generation tasks.
翻訳日:2022-11-02 00:36:22 公開日:2020-08-18
# 製品に対するマトリックス濃度の不等式

A matrix concentration inequality for products ( http://arxiv.org/abs/2008.05104v2 )

ライセンス: Link先を確認
Sina Baghal(参考訳) ランダム行列積 \begin{equation}\label{eq:Zn} Z_n = \left(I_d-\alpha X_n-1}\right)\cdots \left(I_d-\alpha X_1\right), \end{equation} ここで $\left\{X_k \right\}_{k=1}^{+\infty}$ は、共通期待値 $\mathbb{E}\left[X_k\right]=\Sigma$ の有界独立な正半定行列の列である。 これらの仮定の下では、小さな正の$\alpha$に対して、$Z_n$は濃度不等式 \begin{equation}\label{eq:CTbound} \mathbb{P}\left(\left\Vert Z_n-\mathbb{E}\left[Z_n\right]\right\Vert \geq t\right) \leq 2d^2\cdot\exp\left(\frac{-t^2}{\alpha \sigma^2} \right) \quad \text{for all } t\geq 0, \end{equation} を満たす。

We present a non-asymptotic concentration inequality for the random matrix product \begin{equation}\label{eq:Zn} Z_n = \left(I_d-\alpha X_n\right)\left(I_d-\alpha X_{n-1}\right)\cdots \left(I_d-\alpha X_1\right), \end{equation} where $\left\{X_k \right\}_{k=1}^{+\infty}$ is a sequence of bounded independent random positive semidefinite matrices with common expectation $\mathbb{E}\left[X_k\right]=\Sigma$. Under these assumptions, we show that, for small enough positive $\alpha$, $Z_n$ satisfies the concentration inequality \begin{equation}\label{eq:CTbound} \mathbb{P}\left(\left\Vert Z_n-\mathbb{E}\left[Z_n\right]\right\Vert \geq t\right) \leq 2d^2\cdot\exp\left(\frac{-t^2}{\alpha \sigma^2} \right) \quad \text{for all } t\geq 0, \end{equation} where $\sigma^2$ denotes a variance parameter.
翻訳日:2022-10-31 05:51:30 公開日:2020-08-18
# 形状生成のための勾配場学習

Learning Gradient Fields for Shape Generation ( http://arxiv.org/abs/2008.06520v2 )

ライセンス: Link先を確認
Ruojin Cai, Guandao Yang, Hadar Averbuch-Elor, Zekun Hao, Serge Belongie, Noah Snavely, and Bharath Hariharan(参考訳) 本研究では,点雲データから形状を生成する新しい手法を提案する。 点雲は、その形状の表面に密度が集中している3D点の分布からサンプルと見なすことができる。 したがって、点雲の生成はランダムにサンプリングされた点を高密度領域に移動させる。 非正規化確率密度で確率勾配を上昇させて点雲を生成し、サンプル点を高類似領域へ移動させる。 本モデルは,ログ密度場の勾配を直接予測し,スコアベース生成モデルに適応した単純な目的で学習することができる。 提案手法は,ポイントクラウドの自動符号化および生成のための最先端性能を実現するとともに,高品質な暗黙曲面の抽出を可能にする。 コードはhttps://github.com/RuojinCai/ShapeGFで入手できる。

In this work, we propose a novel technique to generate shapes from point cloud data. A point cloud can be viewed as samples from a distribution of 3D points whose density is concentrated near the surface of the shape. Point cloud generation thus amounts to moving randomly sampled points to high-density areas. We generate point clouds by performing stochastic gradient ascent on an unnormalized probability density, thereby moving sampled points toward the high-likelihood regions. Our model directly predicts the gradient of the log density field and can be trained with a simple objective adapted from score-based generative models. We show that our method can reach state-of-the-art performance for point cloud auto-encoding and generation, while also allowing for extraction of a high-quality implicit surface. Code is available at https://github.com/RuojinCai/ShapeGF.
翻訳日:2022-10-30 17:02:55 公開日:2020-08-18
# デバッグRLのためのインタラクティブ可視化

Interactive Visualization for Debugging RL ( http://arxiv.org/abs/2008.07331v2 )

ライセンス: Link先を確認
Shuby Deshpande, Benjamin Eysenbach, Jeff Schneider(参考訳) 教師付き学習のための可視化ツールは、ユーザーがモデルの成功と失敗を解釈し、内省し、直観的に得ることができる。 強化学習実践者は、同じ質問の多くを問うが、既存のツールは、教師付き学習体制で一般的に見られる課題に対処するため、RL設定には適用されない。 本研究では,RLアルゴリズムのデバッグと解釈を行うインタラクティブな可視化ツールの設計と実装を行う。 本システムでは,(1)教師付き学習用ツールが対話的でないこと,(2)デバッグRLポリシーがエージェントと異なる状態表現を使用していること,(3)デバッグRLポリシーをより理解しやすいものにするために設計されたフレームワークなど,従来のツールから欠落した多くの機能に対処する。 このシステムの使い方を例示するワークフローと、将来の拡張のアイデアを提供します。

Visualization tools for supervised learning allow users to interpret, introspect, and gain an intuition for the successes and failures of their models. While reinforcement learning practitioners ask many of the same questions, existing tools are not applicable to the RL setting as these tools address challenges typically found in the supervised learning regime. In this work, we design and implement an interactive visualization tool for debugging and interpreting RL algorithms. Our system addresses many features missing from previous tools such as (1) tools for supervised learning often are not interactive; (2) while debugging RL policies researchers use state representations that are different from those seen by the agent; (3) a framework designed to make the debugging RL policies more conducive. We provide an example workflow of how this system could be used, along with ideas for future extensions.
翻訳日:2022-10-30 16:35:24 公開日:2020-08-18
# ディープ検索クエリインテント理解

Deep Search Query Intent Understanding ( http://arxiv.org/abs/2008.06759v2 )

ライセンス: Link先を確認
Xiaowei Liu, Weiwei Guo, Huiji Gao, Bo Long(参考訳) 検索の背後にあるユーザのクエリ意図を理解することは、現代の検索エンジンの成功に不可欠である。 クエリ意図の正確な予測は、より関連するカテゴリの結果をレンダリングすることで、検索エンジンがユーザのニーズに合うようにします。 本稿では,検索の異なる段階でクエリ意図をモデル化するための総合的な学習フレームワークの提供を目的とする。 私たちはデザインに重点を置いています 1) 文字レベルモデルを用いたタイプアヘッド検索におけるオンザフライ検索におけるユーザの意図の予測 2) 完全クエリに対する単語レベルの意図予測モデル。 クエリテキスト理解のための様々なディープラーニングコンポーネントが実験されている。 オフライン評価とオンラインa/bテスト実験により,提案手法が検索意図の理解に有効であること,オンライン検索システムのスケールアップに有効であることが示された。

Understanding a user's query intent behind a search is critical for modern search engine success. Accurate query intent prediction allows the search engine to better serve the user's need by rendering results from more relevant categories. This paper aims to provide a comprehensive learning framework for modeling query intent under different stages of a search. We focus on the design for 1) predicting users' intents as they type in queries on-the-fly in typeahead search using character-level models; and 2) accurate word-level intent prediction models for complete queries. Various deep learning components for query text understanding are experimented. Offline evaluation and online A/B test experiments show that the proposed methods are effective in understanding query intent and efficient to scale for online search systems.
翻訳日:2022-10-28 20:35:14 公開日:2020-08-18
# RevPHiSeg:医療画像セグメンテーションにおける不確実性定量化のためのメモリ効率の良いニューラルネットワーク

RevPHiSeg: A Memory-Efficient Neural Network for Uncertainty Quantification in Medical Image Segmentation ( http://arxiv.org/abs/2008.06999v2 )

ライセンス: Link先を確認
Marc Gantenbein and Ertunc Erdil and Ender Konukoglu(参考訳) 解剖学的構造と病理の特異性から, セグメンテーションの定量化は画像解析において重要な課題となっている。 近年,ニューラルネットワークに基づく不確実性定量化手法が様々な問題に適用されている。 既存の技術の主な制限の1つは、トレーニング中の高いメモリ要求であり、アプリケーションはより小さな視野(FOV)やより浅いアーキテクチャの使用に制限される。 本稿では,セグメント化の不確実性の定量化のために,可逆ブロックを用いてメモリ効率の高いニューラルネットワークアーキテクチャを構築する方法を検討する。 リバーシブルアーキテクチャは、各レイヤのアクティベーションを格納するのではなく、バックプロパゲーション中の次のレイヤの出力からのアクティベーションを正確に計算することで、メモリ節約を実現する。 医療画像のセグメンテーションにおける不確かさを定量化するために,最近提案されたphisegと呼ばれるアーキテクチャに可逆ブロックを組み込む。 可逆アーキテクチャであるRevPHiSegは、GPU上のセグメンテーションの不確実性をメモリに制限し、より大きなFOVを処理するためのトレーニングニューラルネットワークを可能にする。 LIDC-IDRIデータセットと社内前立腺データセットを用いて実験を行い,PHiSegとの比較を行った。 その結果、revephiseg は phiseg と比較してメモリ消費が30%削減され、セグメンテーション精度もほぼ同じであることが判明した。

Quantifying segmentation uncertainty has become an important issue in medical image analysis due to the inherent ambiguity of anatomical structures and its pathologies. Recently, neural network-based uncertainty quantification methods have been successfully applied to various problems. One of the main limitations of the existing techniques is the high memory requirement during training; which limits their application to processing smaller field-of-views (FOVs) and/or using shallower architectures. In this paper, we investigate the effect of using reversible blocks for building memory-efficient neural network architectures for quantification of segmentation uncertainty. The reversible architecture achieves memory saving by exactly computing the activations from the outputs of the subsequent layers during backpropagation instead of storing the activations for each layer. We incorporate the reversible blocks into a recently proposed architecture called PHiSeg that is developed for uncertainty quantification in medical image segmentation. The reversible architecture, RevPHiSeg, allows training neural networks for quantifying segmentation uncertainty on GPUs with limited memory and processing larger FOVs. We perform experiments on the LIDC-IDRI dataset and an in-house prostate dataset, and present comparisons with PHiSeg. The results demonstrate that RevPHiSeg consumes ~30% less memory compared to PHiSeg while achieving very similar segmentation accuracy.
翻訳日:2022-10-28 12:09:19 公開日:2020-08-18
# 胎児超音波検診における先天性心疾患の自動検出

Automated Detection of Congenital Heart Disease in Fetal Ultrasound Screening ( http://arxiv.org/abs/2008.06966v2 )

ライセンス: Link先を確認
Jeremy Tan, Anselm Au, Qingjie Meng, Sandy FinesilverSmith, John Simpson, Daniel Rueckert, Reza Razavi, Thomas Day, David Lloyd, Bernhard Kainz(参考訳) 超音波による出生前スクリーニングは、選択された心疾患の新生児死亡率を有意に低下させる。 しかしながら、ヒトの専門知識の必要性は、スクリーニングケースの多さと相まって、現実的に達成可能な検出率を制限する。 本稿では,胎児超音波における先天性心疾患(CHD)の検出を支援する深層学習技術の可能性について論じる。 自動データキュレーションと分類のためのパイプラインを提案する。 トレーニングと推論の両面において,補助的視点分類タスクを応用し,関連する心臓構造に対して特徴をバイアスする。 このバイアスは健康クラスとCHDクラスでそれぞれ0.72と0.77から0.87と0.85にF1スコアを改善するのに役立つ。

Prenatal screening with ultrasound can lower neonatal mortality significantly for selected cardiac abnormalities. However, the need for human expertise, coupled with the high volume of screening cases, limits the practically achievable detection rates. In this paper we discuss the potential for deep learning techniques to aid in the detection of congenital heart disease (CHD) in fetal ultrasound. We propose a pipeline for automated data curation and classification. During both training and inference, we exploit an auxiliary view classification task to bias features toward relevant cardiac structures. This bias helps to improve in F1-scores from 0.72 and 0.77 to 0.87 and 0.85 for healthy and CHD classes respectively.
翻訳日:2022-10-28 11:57:56 公開日:2020-08-18
# 顔画像からの異方性表現の学習

Learning Disentangled Expression Representations from Facial Images ( http://arxiv.org/abs/2008.07001v2 )

ライセンス: Link先を確認
Marah Halawa, Manuel W\"ollhaf, Eduardo Vellasques, Urko S\'anchez Sanz, and Olaf Hellwich(参考訳) 顔画像には様々な変化要因があり、特に非制約の非制約のケースでは顕著である。 このような画像を含むほとんどのタスク、例えばビデオストリームからの表現認識では、十分なラベル付きデータを持つことは禁止的に高価である。 このような問題に取り組む一般的な戦略の1つは、逆学習を用いて観測データのばらつきの異なる要因について、絡み合った表現を学ぶことである。 本稿では,顔画像の非交叉表現を学習するために,対向損失の定式化を用いる。 使用済みモデルは、追加データを用いることなく、単一タスクデータセットの学習を容易にし、AffectNetdatasetで60.53%の精度で表現認識の最先端を改善する。

Face images are subject to many different factors of variation, especially in unconstrained in-the-wild scenarios. For most tasks involving such images, e.g. expression recognition from video streams, having enough labeled data is prohibitively expensive. One common strategy to tackle such a problem is to learn disentangled representations for the different factors of variation of the observed data using adversarial learning. In this paper, we use a formulation of the adversarial loss to learn disentangled representations for face images. The used model facilitates learning on single-task datasets and improves the state-of-the-art in expression recognition with an accuracy of60.53%on the AffectNetdataset, without using any additional data.
翻訳日:2022-10-28 09:15:00 公開日:2020-08-18
# 逆並行トレーニング:ディープニューラルネットワークのロバスト性と精度トレードオフの最適化

Adversarial Concurrent Training: Optimizing Robustness and Accuracy Trade-off of Deep Neural Networks ( http://arxiv.org/abs/2008.07015v2 )

ライセンス: Link先を確認
Elahe Arani, Fahad Sarfraz and Bahram Zonooz(参考訳) 対人訓練は、モデルの対人ロバスト性を改善する効果的な手法であることが証明されている。 しかし、正確性と堅牢性のためにモデルを最適化することには、固有のトレードオフがあるようだ。 そこで本研究では,ミニマックスゲームにおいて,自然モデルと連動してロバストなモデルを訓練する協調学習フレームワークにおいて,敵対的学習を用いる逆並行学習(act)を提案する。 ACTは、タスク固有の決定境界を使用して2つのモデルに特徴空間の整合を奨励し、入力空間をより広く探索する。 さらに、自然なモデルは正規化子として機能し、ロバストモデルが学ぶべき機能に事前を強制する。 モデルの振る舞いを解析した結果,ACT はモデル複雑性の低いロバストモデル,学習表現の高次情報圧縮,フラットなミニマへの収束を示す高次エントロピー解に導かれることが示された。 提案手法の有効性を,異なるデータセットとネットワークアーキテクチャで示す。 ImageNetでは、ACTは68.20%の標準精度と44.29%のロバストネスの精度を実現し、標準対向訓練法の65.70%の標準精度と42.36%のロバストネスを改善した。

Adversarial training has been proven to be an effective technique for improving the adversarial robustness of models. However, there seems to be an inherent trade-off between optimizing the model for accuracy and robustness. To this end, we propose Adversarial Concurrent Training (ACT), which employs adversarial training in a collaborative learning framework whereby we train a robust model in conjunction with a natural model in a minimax game. ACT encourages the two models to align their feature space by using the task-specific decision boundaries and explore the input space more broadly. Furthermore, the natural model acts as a regularizer, enforcing priors on features that the robust model should learn. Our analyses on the behavior of the models show that ACT leads to a robust model with lower model complexity, higher information compression in the learned representations, and high posterior entropy solutions indicative of convergence to a flatter minima. We demonstrate the effectiveness of the proposed approach across different datasets and network architectures. On ImageNet, ACT achieves 68.20% standard accuracy and 44.29% robustness accuracy under a 100-iteration untargeted attack, improving upon the standard adversarial training method's 65.70% standard accuracy and 42.36% robustness.
翻訳日:2022-10-28 09:06:38 公開日:2020-08-18
# HunFlair: 最先端のバイオメディカル名前付きエンティティ認識のための使いやすいツール

HunFlair: An Easy-to-Use Tool for State-of-the-Art Biomedical Named Entity Recognition ( http://arxiv.org/abs/2008.07347v2 )

ライセンス: Link先を確認
Leon Weber, Mario S\"anger, Jannes M\"unchmeyer, Maryam Habibi, Ulf Leser, Alan Akbik(参考訳) まとめ: 名前付きエンティティ認識(NER)は、生体情報抽出パイプラインにおける重要なステップである。 nerのツールは使いやすく、複数のエンティティタイプをカバーし、高精度で、テキストのジャンルやスタイルの変化に対して堅牢であるべきです。 この目的のために、広く使われているNLPフレームワークFrairに統合された複数のエンティティタイプをカバーするNERタグであるHunFlairを提案する。 HunFlairは、他の最先端のスタンドアロンNERツールよりもパフォーマンスが良く、次のベストツールでは平均7.26ppで、単一のコマンドでインストールでき、4行のコードでしか適用できない。 可利用性: hunflairは、mitライセンス下のflairフレームワークを通じて無料で利用可能である。 https://github.com/flairnlp/flair であり、主要なオペレーティングシステムすべてと互換性がある。 連絡先:{weberple,saengema,alan.akbik}@informatik.hu-berlin.de

Summary: Named Entity Recognition (NER) is an important step in biomedical information extraction pipelines. Tools for NER should be easy to use, cover multiple entity types, highly accurate, and robust towards variations in text genre and style. To this end, we propose HunFlair, an NER tagger covering multiple entity types integrated into the widely used NLP framework Flair. HunFlair outperforms other state-of-the-art standalone NER tools with an average gain of 7.26 pp over the next best tool, can be installed with a single command and is applied with only four lines of code. Availability: HunFlair is freely available through the Flair framework under an MIT license: https://github.com/flairNLP/flair and is compatible with all major operating systems. Contact:{weberple,saengema,alan.akbik}@informatik.hu-berlin.de
翻訳日:2022-10-28 03:43:04 公開日:2020-08-18
# ネストロジットモデルにおける学習構造

Learning Structure in Nested Logit Models ( http://arxiv.org/abs/2008.08048v1 )

ライセンス: Link先を確認
Youssef M. Aboutaleb, Moshe Ben-Akiva, Patrick Jaillet(参考訳) 本稿では,ネストロジット構造探索のための新しいデータ駆動手法を提案する。 ネストロジットモデルでは、ネスト構造の仕様を通じて、異なる選択肢のユーティリティ仕様のエラー項間の正の相関を個別選択シナリオでモデル化することができる。 現在のネストロジットモデル推定プラクティスでは、モデラーによるネスト構造の初期仕様が必要である。 この方法では、合理的な実用的最大化と整合するネスト付きロジットモデルのすべての可能な仕様を最適化します。 本研究では,データから最適ネスティング構造の学習問題を混合整数非線形プログラミング(minlp)最適化問題として定式化し,線形外方近似アルゴリズムの変種を用いて解く。 本稿では,問題の木構造を活用し,整数最適化の最近の進歩を活かし,提案する最適化問題に実用性をもたらす。 我々は,モンテカルロ実験において,合成データから真のネスト構造を正確に復元するアルゴリズムの能力を実証した。 マサチューセッツ州における交通モードの選好調査を用いた実証図では, 異なる移動モード選択の観測されていない影響の間の相関関係を表す最適なネスト木を得るために, アルゴリズムを用いている。 Juliaで書かれたカスタマイズ可能でオープンソースのコードベースとして実装しています。

This paper introduces a new data-driven methodology for nested logit structure discovery. Nested logit models allow the modeling of positive correlations between the error terms of the utility specifications of the different alternatives in a discrete choice scenario through the specification of a nesting structure. Current nested logit model estimation practices require an a priori specification of a nesting structure by the modeler. In this we work we optimize over all possible specifications of the nested logit model that are consistent with rational utility maximization. We formulate the problem of learning an optimal nesting structure from the data as a mixed integer nonlinear programming (MINLP) optimization problem and solve it using a variant of the linear outer approximation algorithm. We exploit the tree structure of the problem and utilize the latest advances in integer optimization to bring practical tractability to the optimization problem we introduce. We demonstrate the ability of our algorithm to correctly recover the true nesting structure from synthetic data in a Monte Carlo experiment. In an empirical illustration using a stated preference survey on modes of transportation in the U.S. state of Massachusetts, we use our algorithm to obtain an optimal nesting tree representing the correlations between the unobserved effects of the different travel mode choices. We provide our implementation as a customizable and open-source code base written in the Julia programming language.
翻訳日:2022-10-27 22:33:05 公開日:2020-08-18
# ディープニューラルネットワークのデータ分散トレーニングのためのベンチマークネットワークファブリック

Benchmarking network fabrics for data distributed training of deep neural networks ( http://arxiv.org/abs/2008.08057v1 )

ライセンス: Link先を確認
Siddharth Samsi, Andrew Prout, Michael Jones, Andrew Kirby, Bill Arcand, Bill Bergeron, David Bestor, Chansup Byun, Vijay Gadepally, Michael Houle, Matthew Hubbell, Anna Klein, Peter Michaleas, Lauren Milechin, Julie Mullen, Antonio Rosa, Charles Yee, Albert Reuther, Jeremy Kepner(参考訳) 人工知能/機械学習アプリケーションは、大量のラベル付きデータで複雑なモデルのトレーニングを必要とする。 深層モデルのトレーニングに対する大きな計算要件は、より高速なトレーニングのための新しい方法の開発を必要とした。 このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。 このアプローチは、一般的なマシンラーニングフレームワークの多くで実装とサポートが簡単です。 データ並列アプローチは、すべてのノード間の通信勾配にMPIを利用する。 本稿では,異なる物理ハードウェア相互接続とネットワーク関連ソフトウェアプリミティブを用いたデータ分散型ディープラーニングの効果について検討する。 我々は、GPUDirectとNCCLがイーサネットとOmniPathファブリックに与える影響を比較した。 その結果、共有HPCシステムにおけるイーサネットベースのネットワークの利用は、一般的に使われているディープニューラルネットワークアーキテクチャや計算流体力学のような従来のHPCアプリケーションのトレーニング時間に大きく影響しないことがわかった。

Artificial Intelligence/Machine Learning applications require the training of complex models on large amounts of labelled data. The large computational requirements for training deep models have necessitated the development of new methods for faster training. One such approach is the data parallel approach, where the training data is distributed across multiple compute nodes. This approach is simple to implement and supported by most of the commonly used machine learning frameworks. The data parallel approach leverages MPI for communicating gradients across all nodes. In this paper, we examine the effects of using different physical hardware interconnects and network-related software primitives for enabling data distributed deep learning. We compare the effect of using GPUDirect and NCCL on Ethernet and OmniPath fabrics. Our results show that using Ethernet-based networking in shared HPC systems does not have a significant effect on the training times for commonly used deep neural network architectures or traditional HPC applications such as Computational Fluid Dynamics.
翻訳日:2022-10-27 22:32:47 公開日:2020-08-18
# 物理インフォームド・機械学習による新型コロナウイルスのパンデミック--社会的距離と8カ国の短期予測の整合性

Physics-informed machine learning for the COVID-19 pandemic: Adherence to social distancing and short-term predictions for eight countries ( http://arxiv.org/abs/2008.08162v1 )

ライセンス: Link先を確認
G. D. Barmparis and G. P. Tsironis(参考訳) 2020年上半期の新型コロナウイルス(COVID-19)の感染拡大は、ほとんどの国が社会的な距離を測ることで、より大きく、より少ない範囲に拡大した。 本研究では,地域レベルでの感染データと,社会的距離の分散効果を示す1つの数字を直接リンクする。 標準のsirモデルは拡散のダイナミクスを合理的に記述しており、それゆえ社会的距離の側面は、外部から課される時間に依存した感染率によってモデル化できると仮定する。 我々は指数的アンサッツを用いてSIRモデルを分析し、時間非依存感染率の正確な解を見つけ、感染集団の機能として時間依存感染率の簡単な一階微分方程式を導出する。 8カ国の感染の「第1波」からの感染数データと物理インフォームド機械学習を用いて、特定の感染の原因となる社会的距離の線形依存性の度合いを抽出した。 2つの極端にあるのはギリシャであり、一方が崩壊の最も高い斜面であり、もう一方がアメリカであり、もう一方が事実上平らな「デカイ」である。 斜面の階層構造は、各国におけるパンデミックの封じ込めの有効性と相容れない。 最後に、分析期間終了後にデータを用いてネットワークをトレーニングし、実際の感染値に非常に近いと思われる感染症の現在の段階を1週間にわたって予測する。

The spread of COVID-19 during the initial phase of the first half of 2020 was curtailed to a larger or lesser extent through measures of social distancing imposed by most countries. In this work, we link directly, through machine learning techniques, infection data at a country level to a single number that signifies social distancing effectiveness. We assume that the standard SIR model gives a reasonable description of the dynamics of spreading, and thus the social distancing aspect can be modeled through time-dependent infection rates that are imposed externally. We use an exponential ansatz to analyze the SIR model, find an exact solution for the time-independent infection rate, and derive a simple first-order differential equation for the time-dependent infection rate as a function of the infected population. Using infected number data from the "first wave" of the infection from eight countries, and through physics-informed machine learning, we extract the degree of linear dependence in social distancing that led to the specific infections. We find that in the two extremes are Greece, with the highest decay slope on one side, and the US on the other with a practically flat "decay". The hierarchy of slopes is compatible with the effectiveness of the pandemic containment in each country. Finally, we train our network with data after the end of the analyzed period, and we make week-long predictions for the current phase of the infection that appear to be very close to the actual infection values.
翻訳日:2022-10-27 22:31:51 公開日:2020-08-18
# 自己補正非時間的自己回帰モデルによる音楽生成

Generating Music with a Self-Correcting Non-Chronological Autoregressive Model ( http://arxiv.org/abs/2008.08927v1 )

ライセンス: Link先を確認
Wayne Chi, Prachi Kumar, Suri Yaddanapudi, Rahul Suresh, Umut Isik(参考訳) 自己修正型非時間的自己回帰モデルを用いて音楽を生成する新しい手法について述べる。 我々は、音楽を編集イベントのシーケンスとして表現し、それぞれが、そのモデルが以前に生成したメモの追加または削除を表す。 推論中、直接祖先サンプリングを用いて1回に1回の編集イベントを生成する。 このアプローチでは、不正確なサンプルノートなどの以前のミスを修正し、自己回帰モデルが抱える可能性のあるエラーの蓄積を防ぐことができる。 もうひとつのメリットは、人間とAIのコラボレーション構成における、より細かなノートバイノートコントロールだ。 定量的指標と人的調査の結果から,無秩序なnadeおよびgibbsサンプリング手法よりも優れた結果が得られた。

We describe a novel approach for generating music using a self-correcting, non-chronological, autoregressive model. We represent music as a sequence of edit events, each of which denotes either the addition or removal of a note---even a note previously generated by the model. During inference, we generate one edit event at a time using direct ancestral sampling. Our approach allows the model to fix previous mistakes such as incorrectly sampled notes and prevent accumulation of errors which autoregressive models are prone to have. Another benefit is a finer, note-by-note control during human and AI collaborative composition. We show through quantitative metrics and human survey evaluation that our approach generates better results than orderless NADE and Gibbs sampling approaches.
翻訳日:2022-10-27 22:31:09 公開日:2020-08-18
# 2段階一般化ブロック直交マッチング追従法(tsgbomp)アルゴリズム

A Two Stage Generalized Block Orthogonal Matching Pursuit (TSGBOMP) Algorithm ( http://arxiv.org/abs/2008.08031v1 )

ライセンス: Link先を確認
Samrat Mukhopadhyay, and Mrityunjoy Chakraborty(参考訳) いくつかの投射から未知のスパース信号を回収することが圧縮センシングの重要な目的である。 通常はスパースでないがブロック単位でスパースする信号に遭遇することが多い。 BOMPのような既存のブロックスパース回復アルゴリズムは、一様ブロックサイズと既知のブロック境界を仮定するが、多くのアプリケーションではあまり実用的ではない。 本稿では,この問題に対処し,第1段が粗いブロック位置識別段階であり,第2段が第1段で選択されたウィンドウ内の非ゼロクラスタの細かい位置決めを行う2段階の手順を提案する。 提案アルゴリズムの詳細な収束解析は、まず、与えられた一般化ブロックスパース信号のいわゆる擬似ブロックインターリーブブロック RIP を定義し、次に対応する RIC に上限を与える。 複素ベクトルの解析や行列のエントリも拡張し、拡張は非自明で特別な注意が必要であることが分かりました。 さらに,実ガウスセンシング行列エントリを仮定すると,導出回復境界が満たされる確率が下限となる。 下限は、導出境界が高い確率で満たされるようなパラメータの集合が存在することを示唆する。 シミュレーションの結果,BOMPと比較して提案アルゴリズムの性能は有意に向上した。

Recovery of an unknown sparse signal from a few of its projections is the key objective of compressed sensing. Often one comes across signals that are not ordinarily sparse but are sparse blockwise. Existing block sparse recovery algorithms like BOMP make the assumption of uniform block size and known block boundaries, which are, however, not very practical in many applications. This paper addresses this problem and proposes a two step procedure, where the first stage is a coarse block location identification stage while the second stage carries out finer localization of a non-zero cluster within the window selected in the first stage. A detailed convergence analysis of the proposed algorithm is carried out by first defining the so-called pseudoblock-interleaved block RIP of the given generalized block sparse signal and then imposing upper bounds on the corresponding RIC. We also extend the analysis for complex vector as well as matrix entries where it turns out that the extension is non-trivial and requires special care. Furthermore, assuming real Gaussian sensing matrix entries, we find a lower bound on the probability that the derived recovery bounds are satisfied. The lower bound suggests that there are sets of parameters such that the derived bound is satisfied with high probability. Simulation results confirm significantly improved performance of the proposed algorithm as compared to BOMP.
翻訳日:2022-10-27 22:30:59 公開日:2020-08-18
# Internet-of-UAVによる深層学習目標追跡のためのエッジコンピューティングのオフロード最適化

Offloading Optimization in Edge Computing for Deep Learning Enabled Target Tracking by Internet-of-UAVs ( http://arxiv.org/abs/2008.08001v1 )

ライセンス: Link先を確認
Bo Yang, Xuelin Cao, Chau Yuen, Lijun Qian(参考訳) 無人航空機(UAV)は標的追跡などの情報提供に広く利用されている。 現場実験では,事前訓練された畳み込みニューラルネットワーク(cnn)をuavに配置し,撮影されたビデオフレームから目標(車両)を特定し,uavの追跡を継続する。 しかし、このような視覚目標追跡は、所望の高推論精度と厳密な遅延要求のため、多くの計算資源を必要とする。 これにより,UAVの計算資源とエネルギー予算の制限により,このタイプのディープラーニング(DL)タスクを移動エッジコンピューティング(MEC)サーバにオフロードすることを検討するとともに,推論精度の向上を図ることができる。 具体的には、UAVが事前訓練されたCNNモデルの下位層に埋め込まれた新しい階層型DLタスク分散フレームワークを提案し、一方、豊富な計算資源を持つMECサーバはCNNモデルの上位層を処理する。 dlモデルに入力されたデータ(例えばビデオフレーム)の品質と推論エラーを考慮しつつ、uavの通信と演算によって引き起こされる追跡遅延とエネルギー消費を含む重み付けコストを最小化するための最適化問題を定式化する。 分析結果が得られ,提案フレームワークにおける重み付けコストと推論誤差率とのトレードオフを理解するための知見が得られた。 数値計算の結果,提案手法の有効性が示された。

The empowering unmanned aerial vehicles (UAVs) have been extensively used in providing intelligence such as target tracking. In our field experiments, a pre-trained convolutional neural network (CNN) is deployed at the UAV to identify a target (a vehicle) from the captured video frames and enable the UAV to keep tracking. However, this kind of visual target tracking demands a lot of computational resources due to the desired high inference accuracy and stringent delay requirement. This motivates us to consider offloading this type of deep learning (DL) tasks to a mobile edge computing (MEC) server due to limited computational resource and energy budget of the UAV, and further improve the inference accuracy. Specifically, we propose a novel hierarchical DL tasks distribution framework, where the UAV is embedded with lower layers of the pre-trained CNN model, while the MEC server with rich computing resources will handle the higher layers of the CNN model. An optimization problem is formulated to minimize the weighted-sum cost including the tracking delay and energy consumption introduced by communication and computing of the UAVs, while taking into account the quality of data (e.g., video frames) input to the DL model and the inference errors. Analytical results are obtained and insights are provided to understand the tradeoff between the weighted-sum cost and inference error rate in the proposed framework. Numerical results demonstrate the effectiveness of the proposed offloading framework.
翻訳日:2022-10-27 22:26:31 公開日:2020-08-18
# ab3dmot: 3次元マルチオブジェクト追跡のためのベースラインと新しい評価指標

AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics ( http://arxiv.org/abs/2008.08063v1 )

ライセンス: Link先を確認
Xinshuo Weng, Jianren Wang, David Held, Kris Kitani(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、自律運転のようなアプリケーションに不可欠である。 最近の研究は、計算コストやシステムの複雑さに注意を向けない、正確なシステムの開発に焦点を当てている。 対照的に,本研究では,高性能な実時間3次元MOTシステムを提案する。 このシステムはまず,LiDAR点雲から3次元検出を行う。 次に、3Dカルマンフィルタとハンガリーのアルゴリズムの簡単な組み合わせを用いて状態推定とデータアソシエーションを行う。 さらに,3次元MOT法を公平に比較するために,KITTIなどの3次元MOTデータセットが2次元空間で評価され,標準化された3次元MOT評価ツールが欠落している。 3次元mot法を包括的に評価するための3つの新しい指標とともに,新たな3次元mot評価ツールを提案する。 提案手法は,KITTI上での3D MOT性能を向上し,KITTIデータセット上では207.4ドルのFPSで動作し,現代の3D MOTシステムの中で最速の速度を実現する。 私たちのコードはhttp://www.xinshuoweng.com/projects/AB3DMOTで公開されています。

3D multi-object tracking (MOT) is essential to applications such as autonomous driving. Recent work focuses on developing accurate systems giving less attention to computational cost and system complexity. In contrast, this work proposes a simple real-time 3D MOT system with strong performance. Our system first obtains 3D detections from a LiDAR point cloud. Then, a straightforward combination of a 3D Kalman filter and the Hungarian algorithm is used for state estimation and data association. Additionally, 3D MOT datasets such as KITTI evaluate MOT methods in 2D space and standardized 3D MOT evaluation tools are missing for a fair comparison of 3D MOT methods. We propose a new 3D MOT evaluation tool along with three new metrics to comprehensively evaluate 3D MOT methods. We show that, our proposed method achieves strong 3D MOT performance on KITTI and runs at a rate of $207.4$ FPS on the KITTI dataset, achieving the fastest speed among modern 3D MOT systems. Our code is publicly available at http://www.xinshuoweng.com/projects/AB3DMOT.
翻訳日:2022-10-27 22:26:06 公開日:2020-08-18
# ディープスピーカー認識システムにおける逆攻撃と防御戦略

Adversarial Attack and Defense Strategies for Deep Speaker Recognition Systems ( http://arxiv.org/abs/2008.07685v1 )

ライセンス: Link先を確認
Arindam Jati, Chin-Cheng Hsu, Monisankha Pal, Raghuveer Peri, Wael AbdAlmageed, Shrikanth Narayanan(参考訳) 悪意のある攻撃の存在を含むロバストな話者認識は、特に個人の音声コマンドと対話し、多様で繊細なタスクを実行するいくつかのスマートスピーカーや個人エージェントの増殖によって、ますます重要で不可欠なものになりつつある。 敵の攻撃(adversarial attack)は、最近復活したドメインで、ディープニューラルネットワークベースの分類器を壊すのに効果的であることが示されている。 この領域における大きな進歩はコンピュータビジョン領域で行われているが、話者認識における進歩はまだ限られている。 本論文は, 深い話者認識システムに対して, 強防御法を対策として使用し, この問題を包括的に理解するためにいくつかのアブレーション研究を報告した。 実験により,話者認識システムは敵対的攻撃に対して脆弱であり,最も強力な攻撃はシステムの精度を94%から0%に低下させることを示した。 また, 本研究は, 採用した防衛手法の性能を詳細に比較し, プロジェクテッド・グラディエント・ディフレッシュ(PGD)に基づく敵の訓練が, われわれの設定において最良の防衛方法であることを示した。 本稿では, 話者認識システムの対角的堅牢性をさらに研究することに関心のある研究コミュニティにとって, 基礎となるものを提供することを期待する。

Robust speaker recognition, including in the presence of malicious attacks, is becoming increasingly important and essential, especially due to the proliferation of several smart speakers and personal agents that interact with an individual's voice commands to perform diverse, and even sensitive tasks. Adversarial attack is a recently revived domain which is shown to be effective in breaking deep neural network-based classifiers, specifically, by forcing them to change their posterior distribution by only perturbing the input samples by a very small amount. Although, significant progress in this realm has been made in the computer vision domain, advances within speaker recognition is still limited. The present expository paper considers several state-of-the-art adversarial attacks to a deep speaker recognition system, employing strong defense methods as countermeasures, and reporting on several ablation studies to obtain a comprehensive understanding of the problem. The experiments show that the speaker recognition systems are vulnerable to adversarial attacks, and the strongest attacks can reduce the accuracy of the system from 94% to even 0%. The study also compares the performances of the employed defense methods in detail, and finds adversarial training based on Projected Gradient Descent (PGD) to be the best defense method in our setting. We hope that the experiments presented in this paper provide baselines that can be useful for the research community interested in further studying adversarial robustness of speaker recognition systems.
翻訳日:2022-10-27 22:25:48 公開日:2020-08-18
# リアルタイムロボットを用いたcovid-19感染リスク評価支援システム

A Real-time Robot-based Auxiliary System for Risk Evaluation of COVID-19 Infection ( http://arxiv.org/abs/2008.07695v1 )

ライセンス: Link先を確認
Wenqi Wei, Jianzong Wang, Jiteng Ma, Ning Cheng, Jing Xiao(参考訳) 本稿では,covid-19感染症のリスク評価のためのリアルタイムロボットによる補助システムを提案する。 リアルタイム音声認識、温度測定、キーワード検出、コーグ検出、その他の機能を組み合わせて、ライブオーディオを実行可能な構造化データに変換し、COVID-19感染リスク評価機能を実現する。 そこで本研究では,新型コロナウイルス感染症の診断と分類のためのエンド・ツー・エンド手法を提案する。 これは、人間のロボットからの実際の会話データに基づいており、音声信号を処理してcoughを検出し、検出すれば分類する。 我々のモデルの構造は、リアルタイムアプリケーションに実装するために簡潔に維持されている。 さらに、この補助診断システム全体をロボットに組み込んで、新型コロナウイルス検査をサポートするために、コミュニティ、病院、スーパーマーケットに配置します。 このシステムはビジネスルールエンジン内でさらに活用することができ、リアルタイムの監視および支援アプリケーションの基盤として機能する。 本モデルでは,顧客の健康状態の効率的な生成とカスタマイズを可能にする,事前訓練された堅牢なトレーニング環境を採用している。

In this paper, we propose a real-time robot-based auxiliary system for risk evaluation of COVID-19 infection. It combines real-time speech recognition, temperature measurement, keyword detection, cough detection and other functions in order to convert live audio into actionable structured data to achieve the COVID-19 infection risk assessment function. In order to better evaluate the COVID-19 infection, we propose an end-to-end method for cough detection and classification for our proposed system. It is based on real conversation data from human-robot, which processes speech signals to detect cough and classifies it if detected. The structure of our model are maintained concise to be implemented for real-time applications. And we further embed this entire auxiliary diagnostic system in the robot and it is placed in the communities, hospitals and supermarkets to support COVID-19 testing. The system can be further leveraged within a business rules engine, thus serving as a foundation for real-time supervision and assistance applications. Our model utilizes a pretrained, robust training environment that allows for efficient creation and customization of customer-specific health states.
翻訳日:2022-10-27 22:25:20 公開日:2020-08-18
# メンタルヘルスにおけるMLシステムの使用可能なセキュリティ:フレームワーク

Usable Security for ML Systems in Mental Health: A Framework ( http://arxiv.org/abs/2008.07738v1 )

ライセンス: Link先を確認
Helen Jiang, Erwen Senge(参考訳) メンタルヘルスにおける機械学習(ML)システムの適用と要求は増加しているが、セキュリティメソッドと要件をこれらのMLシステム内に構築し、エンドユーザが使用可能なMLシステムを維持するという、ユニークな課題に関する議論や合意はほとんどない。 セキュリティとユーザビリティのいずれにおいても考慮の欠如は、メンタルヘルスアプリケーションにおけるmlシステムの大規模ユーザ採用とアクティブな使用を妨げているため、この利用可能なセキュリティに関する疑問は非常に重要である。 本稿では,4つの柱からなる枠組みと,セキュリティ関連設計,実装,メンタルヘルスのためのMLシステムの展開を体系的にガイドし,評価するために使用できる,望ましい特性のセットを紹介する。 我々は、異なるドメインからスレッドをまとめ、既存の見解を取り入れ、新しい原則と要件を提案し、基準と期待が確立された明確なフレームワークを構築することを目的としており、メンタルヘルスにおけるこれらのMLシステムのエンドユーザにセキュリティメカニズムを使用できるようにする。 この枠組みとともに、メンタルヘルスアプリケーションにおけるMLシステムにおけるさまざまなセキュリティケースとプロファイルを検査し、評価するいくつかの具体的なシナリオを提示する。

While the applications and demands of Machine learning (ML) systems in mental health are growing, there is little discussion nor consensus regarding a uniquely challenging aspect: building security methods and requirements into these ML systems, and keep the ML system usable for end-users. This question of usable security is very important, because the lack of consideration in either security or usability would hinder large-scale user adoption and active usage of ML systems in mental health applications. In this short paper, we introduce a framework of four pillars, and a set of desired properties which can be used to systematically guide and evaluate security-related designs, implementations, and deployments of ML systems for mental health. We aim to weave together threads from different domains, incorporate existing views, and propose new principles and requirements, in an effort to lay out a clear framework where criteria and expectations are established, and are used to make security mechanisms usable for end-users of those ML systems in mental health. Together with this framework, we present several concrete scenarios where different usable security cases and profiles in ML-systems in mental health applications are examined and evaluated.
翻訳日:2022-10-27 22:25:04 公開日:2020-08-18
# マルコフ決定過程の枠組みに関する関係解析

A Relation Analysis of Markov Decision Process Frameworks ( http://arxiv.org/abs/2008.07820v1 )

ライセンス: Link先を確認
Tien Mai and Patrick Jaillet(参考訳) 機械学習におけるマルコフ決定過程 (MDP) のフレームワーク間の関係について検討し, 標準的なMDP, エントロピー, 一般正規化MDP, 確率的MDPなど, 報酬関数が確率的であり, 所定の分布に従うという仮定に基づいて検討した。 エントロピー正則化 MDP は確率的 MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。 さらに,報奨関数の分布が曖昧であることを前提として,分布確率的MDPフレームワークを提案する。 さらに,分布確率的 MDP は正規化された MDP と同値であり,常に同じ最適ポリシーを導出することを示す。 また,確率/正規化MDPと制約MDPとの接続も提供する。 我々の研究は、いくつかの重要なMDPフレームワークについて統一的な視点を与え、確率的な報酬と逆転のレンズを通して(エントロピー/一般)正規化されたMDPフレームワークを解釈する新たな方法をもたらすだろう。 近年の強化学習における正規化MDPの人気を踏まえ、我々の研究はそのようなアルゴリズムの仕組みがどのように機能するかの新しい理解をもたらし、新しいものを開発するためのアイデアを提案する。

We study the relation between different Markov Decision Process (MDP) frameworks in the machine learning and econometrics literatures, including the standard MDP, the entropy and general regularized MDP, and stochastic MDP, where the latter is based on the assumption that the reward function is stochastic and follows a given distribution. We show that the entropy-regularized MDP is equivalent to a stochastic MDP model, and is strictly subsumed by the general regularized MDP. Moreover, we propose a distributional stochastic MDP framework by assuming that the distribution of the reward function is ambiguous. We further show that the distributional stochastic MDP is equivalent to the regularized MDP, in the sense that they always yield the same optimal policies. We also provide a connection between stochastic/regularized MDP and constrained MDP. Our work gives a unified view on several important MDP frameworks, which would lead new ways to interpret the (entropy/general) regularized MDP frameworks through the lens of stochastic rewards and vice-versa. Given the recent popularity of regularized MDP in (deep) reinforcement learning, our work brings new understandings of how such algorithmic schemes work and suggest ideas to develop new ones.
翻訳日:2022-10-27 22:24:45 公開日:2020-08-18
# エッジにおけるユビキタス分散深層強化学習:離散行動空間におけるビザンチンエージェントの解析

Ubiquitous Distributed Deep Reinforcement Learning at the Edge: Analyzing Byzantine Agents in Discrete Action Spaces ( http://arxiv.org/abs/2008.07863v1 )

ライセンス: Link先を確認
Wenshuai Zhao, Jorge Pe\~na Queralta, Li Qingqing, Tomi Westerlund(参考訳) 次世代モバイルネットワークにおけるエッジコンピューティングの統合は、無数のサイバー物理システムに低レイテンシと高帯域幅のユビキタス接続をもたらす。 これは、コラボレーション機械学習が重要な役割を果たす可能性を秘めている様々なタイプの自律システムにおいて、エッジに埋め込まれている知性をさらに高めます。 本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。 シミュレーションと現実のギャップが橋渡しされるため、誤動作やエラーの確率を考慮する必要がある。 離散的な行動が協調学習にどのように影響するかを示す。 特に,与えられた確率で間違った行動を行うエージェントのごく一部を持つことの効果を分析した。 本研究は,協調学習プロセスを通じて共通の作業方針に向けて収束するシステムの能力について,各政策更新に集約すべきエージェントからの経験の数と,誤動作を経験するエージェントの誤った行動のごく一部に基づいて検討する。 本実験は,分散アクションスペースのためのatariテストベッドと,分散マルチエージェントトレーニングのためのa2c(actor-critic)を用いたシミュレーション環境で実施する。

The integration of edge computing in next-generation mobile networks is bringing low-latency and high-bandwidth ubiquitous connectivity to a myriad of cyber-physical systems. This will further boost the increasing intelligence that is being embedded at the edge in various types of autonomous systems, where collaborative machine learning has the potential to play a significant role. This paper discusses some of the challenges in multi-agent distributed deep reinforcement learning that can occur in the presence of byzantine or malfunctioning agents. As the simulation-to-reality gap gets bridged, the probability of malfunctions or errors must be taken into account. We show how wrong discrete actions can significantly affect the collaborative learning effort. In particular, we analyze the effect of having a fraction of agents that might perform the wrong action with a given probability. We study the ability of the system to converge towards a common working policy through the collaborative learning process based on the number of experiences from each of the agents to be aggregated for each policy update, together with the fraction of wrong actions from agents experiencing malfunctions. Our experiments are carried out in a simulation environment using the Atari testbed for the discrete action spaces, and advantage actor-critic (A2C) for the distributed multi-agent training.
翻訳日:2022-10-27 22:24:22 公開日:2020-08-18
# 頂点近傍からの品質保証による大規模準斜晶の採掘

Mining Large Quasi-cliques with Quality Guarantees from Vertex Neighborhoods ( http://arxiv.org/abs/2008.07996v1 )

ライセンス: Link先を確認
Aritra Konar, and Nicholas D. Sidiropoulos(参考訳) 高密度部分グラフのマイニングは、グラフマイニングタスクのスペクトル全体にわたって重要なプリミティブである。 本研究では,実世界のグラフ,すなわち重み付き次数分布と大規模クラスタリング係数の2つの繰り返し特性が,エッジ密度の高いかなり大きな頂点近傍の存在を正式に証明する。 この観察は、頂点近傍をスキャンし、各頂点のクラスタリング係数を計算し、そのようなサブグラフを出力するという、非常に単純なアプローチを示唆している。 このような方法の実装には、グラフマイニングにおいてよく研究されている問題であるグラフの三角形を数える必要がある。 頂点近傍には非自明な大きさの極大クランクが含まれており、最良近傍の密度はしばしば、サブグラフ密度を最大化する専用のアルゴリズムによって生成されるサブグラフと比較される。 小さいクラスタリング係数を持つグラフに対して、小さな頂点近傍は局所探索法を用いてより大きな斜めと近傾斜に洗練できることを示した。 以上の結果から,実世界のグラフから非自明な大きさの非自明なクレークや準クレークをマイニングすることは難しい問題ではなく,これらの経験的成功をよりよく説明するためのさらなる作業の動機となる。

Mining dense subgraphs is an important primitive across a spectrum of graph-mining tasks. In this work, we formally establish that two recurring characteristics of real-world graphs, namely heavy-tailed degree distributions and large clustering coefficients, imply the existence of substantially large vertex neighborhoods with high edge-density. This observation suggests a very simple approach for extracting large quasi-cliques: simply scan the vertex neighborhoods, compute the clustering coefficient of each vertex, and output the best such subgraph. The implementation of such a method requires counting the triangles in a graph, which is a well-studied problem in graph mining. When empirically tested across a number of real-world graphs, this approach reveals a surprise: vertex neighborhoods include maximal cliques of non-trivial sizes, and the density of the best neighborhood often compares favorably to subgraphs produced by dedicated algorithms for maximizing subgraph density. For graphs with small clustering coefficients, we demonstrate that small vertex neighborhoods can be refined using a local-search method to ``grow'' larger cliques and near-cliques. Our results indicate that contrary to worst-case theoretical results, mining cliques and quasi-cliques of non-trivial sizes from real-world graphs is often not a difficult problem, and provides motivation for further work geared towards a better explanation of these empirical successes.
翻訳日:2022-10-27 22:24:02 公開日:2020-08-18
# 日頭電気価格予測におけるニューラルネットワーク:1対複数出力

Neural networks in day-ahead electricity price forecasting: Single vs. multiple outputs ( http://arxiv.org/abs/2008.08006v1 )

ライセンス: Link先を確認
Grzegorz Marcjasz, Jesus Lago, Rafa{\l} Weron(参考訳) 最近の人工知能と機械学習の分野の進歩は、電力価格予測を含む文学における彼らの人気を著しく高めた。 この手法は、決定木からランダムな森、さまざまな人工ニューラルネットワークモデル、ハイブリッドアプローチまで、非常に広い範囲をカバーする。 電力価格予測において、ニューラルネットワークは、よくテストされた線形回帰モデルに非線形に対応するため、最も人気のある機械学習手法である。 しかし、それらのアプリケーションは単純ではなく、複数の実装要素を考慮する必要がある。 そのような要因の1つはネットワークの構造である。 本稿では,ディープニューラルネットワークを用いた場合の最も一般的な2つの構造の包括的比較を行った。1つは1日の時間毎に個別に焦点を合わせ,もう1つは毎日のオークション構造と価格のモデルベクトルを反映したものである。 その結果、5つの異なる電力交換所のデータで確認された後者の使用の精度は著しく向上した。

Recent advancements in the fields of artificial intelligence and machine learning methods resulted in a significant increase of their popularity in the literature, including electricity price forecasting. Said methods cover a very broad spectrum, from decision trees, through random forests to various artificial neural network models and hybrid approaches. In electricity price forecasting, neural networks are the most popular machine learning method as they provide a non-linear counterpart for well-tested linear regression models. Their application, however, is not straightforward, with multiple implementation factors to consider. One of such factors is the network's structure. This paper provides a comprehensive comparison of two most common structures when using the deep neural networks -- one that focuses on each hour of the day separately, and one that reflects the daily auction structure and models vectors of the prices. The results show a significant accuracy advantage of using the latter, confirmed on data from five distinct power exchanges.
翻訳日:2022-10-27 22:23:18 公開日:2020-08-18
# DeepcodeとModulo-SKは異なる設定のために設計されている

Deepcode and Modulo-SK are Designed for Different Settings ( http://arxiv.org/abs/2008.07997v1 )

ライセンス: Link先を確認
Hyeji Kim, Yihan Jiang, Sreeram Kannan, Sewoong Oh, Pramod Viswanath(参考訳) 我々は「Modulo-SKスキームはDeepcode [2]より優れている」と主張した[1]に応答する。 この2つのスキームは完全に異なる設定で設計され、評価されています。 DeepCodeは、(潜在的に遅れた)未コーディングの出力フィードバックでAWGNチャネルの設計と評価を行う。 モデュロSKは、コード化されたフィードバックとユニット遅延でAWGNチャネル上で評価される。 [1] は、任意の情報ビットやイテレーションに対して数値的に安定な Schalkwijk と Kailath (SK) [3] の実装も主張した。 しかし、その実装は我々のものよりもわずかに改善されているものの、正確性に関する根本的な問題も抱えているのである。 最後に、フィードバックがうるさいときのパラメータ化の自然な選択よりも、DeepcodeがSKの最適化性能を支配していることを示す。

We respond to [1] which claimed that "Modulo-SK scheme outperforms Deepcode [2]". We demonstrate that this statement is not true: the two schemes are designed and evaluated for entirely different settings. DeepCode is designed and evaluated for the AWGN channel with (potentially delayed) uncoded output feedback. Modulo-SK is evaluated on the AWGN channel with coded feedback and unit delay. [1] also claimed an implementation of Schalkwijk and Kailath (SK) [3] which was numerically stable for any number of information bits and iterations. However, we observe that while their implementation does marginally improve over ours, it also suffers from a fundamental issue with precision. Finally, we show that Deepcode dominates the optimized performance of SK, over a natural choice of parameterizations when the feedback is noisy.
翻訳日:2022-10-27 22:17:04 公開日:2020-08-18
# CinC-GANによるWhisper-to-Normal音声変換のためのF0予測

CinC-GAN for Effective F0 prediction for Whisper-to-Normal Speech Conversion ( http://arxiv.org/abs/2008.07788v1 )

ライセンス: Link先を確認
Maitreya Patel, Mirali Purohit, Jui Shah, and Hemant A. Patil(参考訳) 近年,GAN(Generative Adversarial Networks)に基づく手法は,Voice ConversionとWHiSPer-to-normal SPeeCH(WHSP2SPCH)変換において顕著な性能を示した。 WHSP2SPCH変換の重要な課題の1つは、基本周波数(F0)の予測である。 近年,WHSP2SPCH変換のための最新の手法であるCycleGANを提案する。 CycleGAN に基づく手法では,Mel Cepstral Coefficients (MCC) マッピングと F0 予測の2つのモデルを用いており,F0 は MCC マッピングの事前学習モデルに強く依存している。 これにより予測されたF0の非線形ノイズが増大する。 このノイズを抑制するため、CinC-GAN(Cycle-in-Cycle GAN)を提案する。 MCCマッピングの精度を損なうことなくF0予測の有効性を高めるように設計されている。 提案手法を非平行設定で評価し,話者別,性別別,課題別に分析した。 CinC-GANはCycleGANよりも有意に優れていた。 さらに,未知話者に対するCycleGANとCinC-GANを分析し,CinC-GANの明確な優位性を示した。

Recently, Generative Adversarial Networks (GAN)-based methods have shown remarkable performance for the Voice Conversion and WHiSPer-to-normal SPeeCH (WHSP2SPCH) conversion. One of the key challenges in WHSP2SPCH conversion is the prediction of fundamental frequency (F0). Recently, authors have proposed state-of-the-art method Cycle-Consistent Generative Adversarial Networks (CycleGAN) for WHSP2SPCH conversion. The CycleGAN-based method uses two different models, one for Mel Cepstral Coefficients (MCC) mapping, and another for F0 prediction, where F0 is highly dependent on the pre-trained model of MCC mapping. This leads to additional non-linear noise in predicted F0. To suppress this noise, we propose Cycle-in-Cycle GAN (i.e., CinC-GAN). It is specially designed to increase the effectiveness in F0 prediction without losing the accuracy of MCC mapping. We evaluated the proposed method on a non-parallel setting and analyzed on speaker-specific, and gender-specific tasks. The objective and subjective tests show that CinC-GAN significantly outperforms the CycleGAN. In addition, we analyze the CycleGAN and CinC-GAN for unseen speakers and the results show the clear superiority of CinC-GAN.
翻訳日:2022-10-27 22:16:48 公開日:2020-08-18
# 関係データボーグは学習しています

The Relational Data Borg is Learning ( http://arxiv.org/abs/2008.07864v1 )

ライセンス: Link先を確認
Dan Olteanu(参考訳) 本稿では,リレーショナルデータに対する機械学習のアプローチをデータベース問題として概説する。 これは2つの観察によって正当化される。 まず、学習課題への入力は、通常、関係データに対する特徴抽出クエリの結果である。 第二に、学習タスクはグループ別集約の計算を必要とする。 このアプローチは、リッジ線形回帰、因子化機械、サポートベクターマシン、決定木、主成分分析、k-平均、データ行列上の線形代数など、多くの教師あり、教師なしの学習タスクで既に研究されている。 この作業の主なメッセージは、基盤となるデータの知識を活用するテクニックのツールボックスによって、機械学習のランタイムパフォーマンスが劇的に向上する、ということだ。 これには、関係データ処理の代数的、組合せ的、統計的構造に関する理論的開発と、コード専門化、低レベル計算共有、並列化に関するシステム開発が含まれる。 これらのテクニックは、学習時間の複雑さと定数要因の両方を下げることを目的としている。 この研究は、RelationalAI、特にMahmoud Abo Khamis、Moham Aref、Hung Ngo、XuanLong Nguyen、特にFDB研究プロジェクト、特にAhmet Kara、Milos Nikolic、Maximilian Schleich、Amir Shaikhha、Jakub Zavodny、Haozhe Zhangの同僚との広範なコラボレーションの結果である。 著者は、また、この論文で使用される数字と例について、FDBプロジェクトのメンバーに感謝します。 著者は業界 – Amazon Web Services, Google, Infor, LogicBlox, Microsoft Azure, RelationalAI, そして資金提供機関 EPSRC と ERC からのサポートに感謝している。 このプロジェクトはeuのhorizon 2020 research and innovation programから助成金第682588号の下で資金提供を受けている。

This paper overviews an approach that addresses machine learning over relational data as a database problem. This is justified by two observations. First, the input to the learning task is commonly the result of a feature extraction query over the relational data. Second, the learning task requires the computation of group-by aggregates. This approach has been already investigated for a number of supervised and unsupervised learning tasks, including: ridge linear regression, factorisation machines, support vector machines, decision trees, principal component analysis, and k-means; and also for linear algebra over data matrices. The main message of this work is that the runtime performance of machine learning can be dramatically boosted by a toolbox of techniques that exploit the knowledge of the underlying data. This includes theoretical development on the algebraic, combinatorial, and statistical structure of relational data processing and systems development on code specialisation, low-level computation sharing, and parallelisation. These techniques aim at lowering both the complexity and the constant factors of the learning time. This work is the outcome of extensive collaboration of the author with colleagues from RelationalAI, in particular Mahmoud Abo Khamis, Molham Aref, Hung Ngo, and XuanLong Nguyen, and from the FDB research project, in particular Ahmet Kara, Milos Nikolic, Maximilian Schleich, Amir Shaikhha, Jakub Zavodny, and Haozhe Zhang. The author would also like to thank the members of the FDB project for the figures and examples used in this paper. The author is grateful for support from industry: Amazon Web Services, Google, Infor, LogicBlox, Microsoft Azure, RelationalAI; and from the funding agencies EPSRC and ERC. This project has received funding from the European Union's Horizon 2020 research and innovation programme under grant agreement No 682588.
翻訳日:2022-10-27 22:16:27 公開日:2020-08-18
# S^3-Rec:相互情報の最大化によるシーケンス推薦のための自己教師付き学習

S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization ( http://arxiv.org/abs/2008.07873v1 )

ライセンス: Link先を確認
Kun Zhou, Hui Wang, Wayne Xin Zhao, Yutao Zhu, Sirui Wang, Fuzheng Zhang, Zhongyuan Wang and Ji-Rong Wen(参考訳) 近年,深層学習による逐次的な推奨が進んでいる。 既存のニューラルネットワークシーケンシャルレコメンデーションモデルは通常、モデルパラメータやデータ表現を学ぶためにアイテム予測損失に依存する。 しかし、この損失でトレーニングされたモデルは、データスパーシティの問題に苦しむ傾向があります。 最終性能を過度に強調するため、コンテキストデータとシーケンスデータとの関連や融合は十分に捉えられず、シーケンシャルなレコメンデーションに利用されてきた。 この問題に対処するため,本論文では,自己追跡型ニューラルネットワークに基づく逐次推薦のための自己教師あり学習のモデルであるs^3-recを提案する。 提案手法の主な考え方は,本質的なデータ相関を利用して自己超越信号を導出し,事前学習手法を用いてデータ表現を強化し,シーケンシャルレコメンデーションを改善することである。 本研究では, 相互情報最大化(mim)の原理を用いて属性, 項目, サブシーケンス, シーケンス間の相関を学習するために, 4つの補助的自己教師付き目標を考案する。 MIMは、異なるタイプのデータ間の相関を特徴付ける統一的な方法を提供する。 6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。 さらに, 自己教師あり学習法を他の推薦モデルにも拡張し, その性能も向上した。

Recently, significant progress has been made in sequential recommendation with deep learning. Existing neural sequential recommendation models usually rely on the item prediction loss to learn model parameters or data representations. However, the model trained with this loss is prone to suffer from data sparsity problem. Since it overemphasizes the final performance, the association or fusion between context data and sequence data has not been well captured and utilized for sequential recommendation. To tackle this problem, we propose the model S^3-Rec, which stands for Self-Supervised learning for Sequential Recommendation, based on the self-attentive neural architecture. The main idea of our approach is to utilize the intrinsic data correlation to derive self-supervision signals and enhance the data representations via pre-training methods for improving sequential recommendation. For our task, we devise four auxiliary self-supervised objectives to learn the correlations among attribute, item, subsequence, and sequence by utilizing the mutual information maximization (MIM) principle. MIM provides a unified way to characterize the correlation between different types of data, which is particularly suitable in our scenario. Extensive experiments conducted on six real-world datasets demonstrate the superiority of our proposed method over existing state-of-the-art methods, especially when only limited training data is available. Besides, we extend our self-supervised learning method to other recommendation models, which also improve their performance.
翻訳日:2022-10-27 22:15:50 公開日:2020-08-18
# アフリカのイノベーションパフォーマンスのモデリング、可視化、分析

Modeling, Visualization, and Analysis of African Innovation Performance ( http://arxiv.org/abs/2008.07882v1 )

ライセンス: Link先を確認
Muhammad Omer, Moayad El-Amin, Ammar Nasr and Rami Ahmed(参考訳) 本稿では,イノベーション・パフォーマンスの概念と出現について論じるとともに,アフリカン・イノベーション・パフォーマンスに重点を置いたグローバル・イノベーション・インデクスのデータを活用した定量化の方法について述べる。 我々は、イノベーションのパフォーマンスをモデリングするために機械学習を使用する既存の文献を概説し、シンプルな機械学習技術を用いて、stack-overflow developers surveyの洞察を用いて、グローバルイノベーションインデックスから"モバイルアプリ作成指標"を分析、予測する。 また、Global Innovation IndexからもInnovation Output Sub-Indexを予測するモデルを構築し、比較しています。

In this paper we discuss the concepts and emergence of Innovation Performance, and how to quantify it, primarily working with data from the Global Innovation Index, with emphasis on the African Innovation Performance. We briefly overview existing literature on using machine learning for modeling innovation performance, and use simple machine learning techniques, to analyze and predict the "Mobile App Creation Indicator" from the Global Innovation Index, by using insights from the stack-overflow developers survey. Also, we build and compare models to predict the Innovation Output Sub-index, also from the Global Innovation Index.
翻訳日:2022-10-27 22:15:26 公開日:2020-08-18
# ニューラルネットワークによるピーン形成パターンの効率的な計画

Efficient planning of peen-forming patterns via artificial neural networks ( http://arxiv.org/abs/2008.08049v1 )

ライセンス: Link先を確認
Wassime Siguerdidjane, Farbod Khameneifar, Fr\'ed\'erick P. Gosselin(参考訳) ショットピーン形成プロセスのロバストな自動化は、処理イテレーション毎に適切な処理パターンをリアルタイムで見つける必要があるクローズドループフィードバックを要求する。 本研究では,有限要素シミュレーションによって生成されたデータから,与えられた対象形状(入力)と最適なピーニングパターン(出力)を関連付ける非線形関数を学習するニューラルネットワーク(nn)に基づいて,ピーン形成パターンを求める手法を提案する。 訓練されたnnは、マイクロ秒の基底真理に対する平均バイナリ精度98.8\%のパターンを生成する。

Robust automation of the shot peen forming process demands a closed-loop feedback in which a suitable treatment pattern needs to be found in real-time for each treatment iteration. In this work, we present a method for finding the peen-forming patterns, based on a neural network (NN), which learns the nonlinear function that relates a given target shape (input) to its optimal peening pattern (output), from data generated by finite element simulations. The trained NN yields patterns with an average binary accuracy of 98.8\% with respect to the ground truth in microseconds.
翻訳日:2022-10-27 22:15:13 公開日:2020-08-18
# 自動混合精度トレーニングによるエンコーダデコーダネットワークの計算・時間・エネルギー特性評価

Compute, Time and Energy Characterization of Encoder-Decoder Networks with Automatic Mixed Precision Training ( http://arxiv.org/abs/2008.08062v1 )

ライセンス: Link先を確認
Siddharth Samsi, Michael Jones, Mark M. Veillette(参考訳) ディープニューラルネットワークは多くの様々な分野で大きな成功を収めている。 これらのネットワークのトレーニングには、かなりの時間、計算、エネルギーを要する可能性がある。 データセットが大きくなり、モデルがより複雑になるにつれて、モデルアーキテクチャの探索は禁止される。 本稿では,短期間の気象予報(降水ノーキャスト)の予測問題に対して,unetベースの深層ニューラルネットワークを訓練する計算量,エネルギー,時間コストについて検討する。 データ分散と混合精度トレーニングの組み合わせを活用することで,この問題の設計空間を探究する。 また、適切な最適化が使用されると、パフォーマンスが良くなる大きなモデルは、潜在的にインクリメンタルなコストがかかることも示します。 モデル性能を犠牲にすることなく、混合精度トレーニングを活用し、トレーニング時間を大幅に改善できることを示す。 さらに、ネットワークのトレーニング可能なパラメータ数を1549%増加させると、4つのエンコーディング層を持つunetのエネルギー使用率が63.22%減少するという結果が得られた。

Deep neural networks have shown great success in many diverse fields. The training of these networks can take significant amounts of time, compute and energy. As datasets get larger and models become more complex, the exploration of model architectures becomes prohibitive. In this paper we examine the compute, energy and time costs of training a UNet based deep neural network for the problem of predicting short term weather forecasts (called precipitation Nowcasting). By leveraging a combination of data distributed and mixed-precision training, we explore the design space for this problem. We also show that larger models with better performance come at a potentially incremental cost if appropriate optimizations are used. We show that it is possible to achieve a significant improvement in training time by leveraging mixed-precision training without sacrificing model performance. Additionally, we find that a 1549% increase in the number of trainable parameters for a network comes at a relatively smaller 63.22% increase in energy usage for a UNet with 4 encoding layers.
翻訳日:2022-10-27 22:15:03 公開日:2020-08-18
# HTTPS上の検索キーワードを大規模にフィンガープリントする

Fingerprinting Search Keywords over HTTPS at Scale ( http://arxiv.org/abs/2008.08161v1 )

ライセンス: Link先を確認
Junhua Yan, Hasan Faik Alan and Jasleen Kaur(参考訳) 人気検索エンジン上でユーザーが発行する検索キーワードの指紋認証は、ユーザーのプライバシーにとって重大な脅威である。 この脅威はネットワークトラフィック分析の文献に驚くほどほとんど注目されていない。 本研究では,HTTPSトラフィックのキーワードフィンガープリントの問題を考える。クライアントプラットフォームの多様性,検索エンジンの選択,機能セット,分類フレームワークなど,いくつかの要因の影響について検討する。 我々は3ヶ月で400万近い検索クエリーを収集し,クローズドワールドとオープンワールドの両方の評価を行う。 我々の分析は、現代のHTTPSトラフィックにおけるキーワードフィンガープリントの脅威に関するいくつかの洞察を明らかにしている。

The possibility of fingerprinting the search keywords issued by a user on popular web search engines is a significant threat to user privacy. This threat has received surprisingly little attention in the network traffic analysis literature. In this work, we consider the problem of keyword fingerprinting of HTTPS traffic -- we study the impact of several factors, including client platform diversity, choice of search engine, feature sets as well as classification frameworks. We conduct both closed-world and open-world evaluations using nearly 4 million search queries collected over a period of three months. Our analysis reveals several insights into the threat of keyword fingerprinting in modern HTTPS traffic.
翻訳日:2022-10-27 22:14:46 公開日:2020-08-18
# アルツハイマー病検出のための畳み込みニューラルネットワーク訓練パラメータの比較と可視化への影響

Comparison of Convolutional neural network training parameters for detecting Alzheimers disease and effect on visualization ( http://arxiv.org/abs/2008.07981v1 )

ライセンス: Link先を確認
Arjun Haridas Pallath, Martin Dyrba(参考訳) 畳み込みニューラルネットワーク(CNN)は画像データのパターンを検出する強力なツールとなっている。 脳MRIデータを用いた疾患検出の領域において有望な結果が報告されている。 これまでのMRIデータに対するCNNモデルから得られた精度にもかかわらず、この精度を駆動する特徴や画像領域に関する情報はほとんど得られず、適切な手法が欠けているか、適用が難しい。 近年,ツールボックス iNNvestigate が利用可能となり,深層学習可視化のための様々な手法が実装されている。 現在、可視化アルゴリズムの比較は、これらのアルゴリズムの実用的有用性と能力の概要を提供するために大きな需要がある。 したがってこの論文には2つの目標がある。 1.cnnハイパーパラメータがモデルの精度に及ぼす影響を体系的に評価する。 2) 音質(ランダムさ/焦点,音質)について様々な可視化手法を比較する。

Convolutional neural networks (CNN) have become a powerful tool for detecting patterns in image data. Recent papers report promising results in the domain of disease detection using brain MRI data. Despite the high accuracy obtained from CNN models for MRI data so far, almost no papers provided information on the features or image regions driving this accuracy as adequate methods were missing or challenging to apply. Recently, the toolbox iNNvestigate has become available, implementing various state of the art methods for deep learning visualizations. Currently, there is a great demand for a comparison of visualization algorithms to provide an overview of the practical usefulness and capability of these algorithms. Therefore, this thesis has two goals: 1. To systematically evaluate the influence of CNN hyper-parameters on model accuracy. 2. To compare various visualization methods with respect to the quality (i.e. randomness/focus, soundness).
翻訳日:2022-10-27 22:14:14 公開日:2020-08-18
# クロスビュー・プロジェクション・コンシステンシーを用いたCOVID-19プロジェクト用コンタクトエリア検出器

Contact Area Detector using Cross View Projection Consistency for COVID-19 Projects ( http://arxiv.org/abs/2008.07712v1 )

ライセンス: Link先を確認
Pan Zhang, Wilfredo Torres Calderon, Bokyung Lee, Alex Tessier, Jacky Bibliowicz, Liviu Calin, Michael Lee(参考訳) 新型コロナウイルス(covid-19)の感染状況を理解する上で、人々が日常生活で触れる物体や表面のどの部分がどう見えるかを判断する能力は有用だ。 視覚データ、画像、ビデオを用いて被写体や表面に触れたかどうかを判断することが難しい。 コンピュータビジョン3D再構成は、プロジェクトオブジェクトと人体を2D画像領域から3Dにアプローチし、直接3D空間交叉を行う。 しかし、このソリューションはプロジェクションエラーのため、アプリケーションの精度要件を満たさない。 もうひとつの標準的なアプローチは、収集された視覚データからタッチアクションを推論するニューラルネットワークのトレーニングだ。 この戦略では、スケールや視点の変化を一般化するために、大量のトレーニングデータが必要である。 この問題に対する別のアプローチは、人が定義されたオブジェクトに触れたかどうかを特定することである。 本研究では,この問題に対する解決策が単純であることを示す。 具体的には,物体と静的表面との接触は,物体を2つの異なる視点で静的表面に投影し,それらの2次元交叉を解析することによって識別可能であることを示す。 オブジェクトは、投影された点が互いに近接しているときに表面と接触する。 深層ネットワークからの3Dシーンの再構築や移動学習を行う代わりに、2つのカメラビューの表面から表面空間へのマッピングが唯一の要件である。 平面空間に対して、この写像はホモグラフィ変換である。 この単純な方法は現実の応用に容易に適応できる。 本稿では,会議室のオフィスデスクからの新型コロナウイルス感染パターンを接触情報を用いて調査するため,オフィス利用者検出に本手法を適用した。

The ability to determine what parts of objects and surfaces people touch as they go about their daily lives would be useful in understanding how the COVID-19 virus spreads. To determine whether a person has touched an object or surface using visual data, images, or videos, is a hard problem. Computer vision 3D reconstruction approaches project objects and the human body from the 2D image domain to 3D and perform 3D space intersection directly. However, this solution would not meet the accuracy requirement in applications due to projection error. Another standard approach is to train a neural network to infer touch actions from the collected visual data. This strategy would require significant amounts of training data to generalize over scale and viewpoint variations. A different approach to this problem is to identify whether a person has touched a defined object. In this work, we show that the solution to this problem can be straightforward. Specifically, we show that the contact between an object and a static surface can be identified by projecting the object onto the static surface through two different viewpoints and analyzing their 2D intersection. The object contacts the surface when the projected points are close to each other; we call this cross view projection consistency. Instead of doing 3D scene reconstruction or transfer learning from deep networks, a mapping from the surface in the two camera views to the surface space is the only requirement. For planar space, this mapping is the Homography transformation. This simple method can be easily adapted to real-life applications. In this paper, we apply our method to do office occupancy detection for studying the COVID-19 transmission pattern from an office desk in a meeting room using the contact information.
翻訳日:2022-10-27 22:08:36 公開日:2020-08-18
# UDC 2020におけるアンダーディプレイカメラの画像復元への挑戦:方法と結果

UDC 2020 Challenge on Image Restoration of Under-Display Camera: Methods and Results ( http://arxiv.org/abs/2008.07742v1 )

ライセンス: Link先を確認
Yuqian Zhou, Michael Kwan, Kyle Tolentino, Neil Emerton, Sehoon Lim, Tim Large, Lijiang Fu, Zhihong Pan, Baopu Li, Qirui Yang, Yihao Liu, Jigang Tang, Tao Ku, Shibin Ma, Bingnan Hu, Jiarong Wang, Densen Puthussery, Hrishikesh P S, Melvin Kuriakose, Jiji C V, Varun Sundar, Sumanth Hegde, Divya Kothandaraman, Kaushik Mitra, Akashdeep Jassal, Nisarg A. Shah, Sabari Nathan, Nagat Abdalla Esiad Rahel, Dafan Chen, Shichao Nie, Shuting Yin, Chengconghui Ma, Haoran Wang, Tongtong Zhao, Shanshan Zhao, Joshua Rego, Huaijin Chen, Shuai Li, Zhenhua Hu, Kin Wai Lau, Lai-Man Po, Dahai Yu, Yasar Abbas Ur Rehman, Yiqun Li, Lianping Xing(参考訳) 本報告は,ECCV 2020のRLQワークショップと共同で,最初のUnder-Display Camera (UDC)画像復元チャレンジの報告である。 この挑戦は、新しく収集されたアンダーディスプレイカメラのデータベースに基づいている。 チャレンジトラックは4k Transparent OLED(T-OLED)とPentile OLED(P-OLED)の2種類のディスプレイに対応している。 約150チームがチャレンジを登録し、8チームと9チームが各トラックのテストフェーズに結果を提出した。 論文の結果は、アンダーディスクカメラ修復の最先端の復元性能である。 データセットとペーパーはhttps://yzhouas.github.io/projects/UDC/udc.htmlで入手できる。

This paper is the report of the first Under-Display Camera (UDC) image restoration challenge in conjunction with the RLQ workshop at ECCV 2020. The challenge is based on a newly-collected database of Under-Display Camera. The challenge tracks correspond to two types of display: a 4k Transparent OLED (T-OLED) and a phone Pentile OLED (P-OLED). Along with about 150 teams registered the challenge, eight and nine teams submitted the results during the testing phase for each track. The results in the paper are state-of-the-art restoration performance of Under-Display Camera Restoration. Datasets and paper are available at https://yzhouas.github.io/projects/UDC/udc.html.
翻訳日:2022-10-27 22:08:09 公開日:2020-08-18
# 正常,梗塞,浮腫領域の完全自動深層学習に基づく複数の心臓MRI画像からのセグメンテーション

Fully automated deep learning based segmentation of normal, infarcted and edema regions from multiple cardiac MRI sequences ( http://arxiv.org/abs/2008.07770v1 )

ライセンス: Link先を確認
Xiaoran Zhang and Michelle Noga and Kumaradevan Punithakumar(参考訳) 心筋梗塞および他の心筋疾患の患者には, 心筋の特徴が不可欠であり, 心臓磁気共鳴(CMR)配列を用いて評価されることが多い。 本研究では,左室(左室)血液プール,右室(右室)血液プール,LV正常心筋,LV心筋浮腫(ME)およびLV心筋傷(MS)を含む,心疾患セグメント化のための深部畳み込みニューラルネットワーク(CNN)を用いた完全自動アプローチを提案する。 ネットワークへの入力は3つのCMR配列、すなわち、後期ガドリニウム増強(LGE)、T2、バランスの取れた定常自由前駆(bSSFP)から構成される。 提案手法は,STACOMとともにMICCAI 2020が主催するMyoPSチャレンジのデータを利用した。 CNNモデルのトレーニングセットは25のケースから取得した画像で構成され、金の標準ラベルは訓練されたレーダによって提供され、放射線技師によって検証される。 提案手法では,データ拡張モジュール,リニアエンコーダ,デコーダモジュール,ネットワークモジュールを導入して,トレーニングサンプル数を増加させ,lv meとmsの予測精度を向上させる。提案手法は,テストセット20例を含むチャレンジオーガナイザによって評価され,平均サイススコア46.8\%$,lv me+ms55.7\%$である。

Myocardial characterization is essential for patients with myocardial infarction and other myocardial diseases, and the assessment is often performed using cardiac magnetic resonance (CMR) sequences. In this study, we propose a fully automated approach using deep convolutional neural networks (CNN) for cardiac pathology segmentation, including left ventricular (LV) blood pool, right ventricular blood pool, LV normal myocardium, LV myocardial edema (ME) and LV myocardial scars (MS). The input to the network consists of three CMR sequences, namely, late gadolinium enhancement (LGE), T2 and balanced steady state free precession (bSSFP). The proposed approach utilized the data provided by the MyoPS challenge hosted by MICCAI 2020 in conjunction with STACOM. The training set for the CNN model consists of images acquired from 25 cases, and the gold standard labels are provided by trained raters and validated by radiologists. The proposed approach introduces a data augmentation module, linear encoder and decoder module and a network module to increase the number of training samples and improve the prediction accuracy for LV ME and MS. The proposed approach is evaluated by the challenge organizers with a test set including 20 cases and achieves a mean dice score of $46.8\%$ for LV MS and $55.7\%$ for LV ME+MS
翻訳日:2022-10-27 22:07:59 公開日:2020-08-18
# アクションアウトカム予測のための微細ピッチング動作認識におけるConvGRU

ConvGRU in Fine-grained Pitching Action Recognition for Action Outcome Prediction ( http://arxiv.org/abs/2008.07819v1 )

ライセンス: Link先を確認
Tianqi Ma, Lin Zhang, Xiumin Diao, Ou Ma(参考訳) 行動結果の予測は、人間との共同作業を行うロボットにとって新たな課題である。 近年、ビデオのアクション認識が著しく進歩し、ビデオデータからのきめ細かいアクション認識が新たな関心事となる。 きめ細かい行動認識は、より特定の粒度のアクションの微妙な違いを検知し、人間とロボットの相互作用、インテリジェントな交通管理、スポーツトレーニング、ヘルスケアなど多くの分野において重要である。 アクションの微妙な違いに異なる結果が密接に関連していることを考えると、きめ細かいアクション認識はアクション結果予測の実用的な方法である。 本稿では,細粒度動作認識タスクにおけるconvolutional gate recurrent unit (convgru) 法の性能について検討する。 人間の行動のRGB画像のシーケンスに基づいて、提案手法は79.17%の精度を実現した。 また、異なるネットワーク実装を比較し、異なる画像サンプリング方法、異なる融合方法、事前学習などの影響を示した。 最後に,行動結果予測や細粒度行動認識タスクにおけるconvgruの利点と限界について考察した。

Prediction of the action outcome is a new challenge for a robot collaboratively working with humans. With the impressive progress in video action recognition in recent years, fine-grained action recognition from video data turns into a new concern. Fine-grained action recognition detects subtle differences of actions in more specific granularity and is significant in many fields such as human-robot interaction, intelligent traffic management, sports training, health caring. Considering that the different outcomes are closely connected to the subtle differences in actions, fine-grained action recognition is a practical method for action outcome prediction. In this paper, we explore the performance of convolutional gate recurrent unit (ConvGRU) method on a fine-grained action recognition tasks: predicting outcomes of ball-pitching. Based on sequences of RGB images of human actions, the proposed approach achieved the performance of 79.17% accuracy, which exceeds the current state-of-the-art result. We also compared different network implementations and showed the influence of different image sampling methods, different fusion methods and pre-training, etc. Finally, we discussed the advantages and limitations of ConvGRU in such action outcome prediction and fine-grained action recognition tasks.
翻訳日:2022-10-27 22:07:29 公開日:2020-08-18
# Grading Loss: Vertebral Fracture 検出のためのフラクチャーグレードベースのMetric Loss

Grading Loss: A Fracture Grade-based Metric Loss for Vertebral Fracture Detection ( http://arxiv.org/abs/2008.07831v1 )

ライセンス: Link先を確認
Malek Husseini, Anjany Sekuboyina, Maximilian Loeffler, Fernando Navarro, Bjoern H. Menze, Jan S. Kirschke(参考訳) 骨粗動性脊椎骨折は全身の健康に深刻な影響を及ぼすが、診断は困難である。 これらの骨折は、Genantのグレーティングスケールを用いて測定された様々なレベルの重大度に現れる。 不十分なアノテートデータセット、重度のデータ不均衡、骨折と健常な脊椎の外観の微妙な差異により、ナイーブな分類アプローチは識別能力の低下をもたらす。 そこで本研究では,骨折検出に有効な潜伏表現の学習を目的とした,自動脊椎骨折検出のための表現学習型アプローチを提案する。 最先端のメトリック損失に基づいて,genantの破壊格付けスキームを尊重する学習表現に対する新しい格付け損失を提案する。 公に入手可能な脊椎データセットにおいて、提案損失関数は破壊検出f1スコア81.5%を達成し、ナイーブ分類基準より10%上昇する。

Osteoporotic vertebral fractures have a severe impact on patients' overall well-being but are severely under-diagnosed. These fractures present themselves at various levels of severity measured using the Genant's grading scale. Insufficient annotated datasets, severe data-imbalance, and minor difference in appearances between fractured and healthy vertebrae make naive classification approaches result in poor discriminatory performance. Addressing this, we propose a representation learning-inspired approach for automated vertebral fracture detection, aimed at learning latent representations efficient for fracture detection. Building on state-of-art metric losses, we present a novel Grading Loss for learning representations that respect Genant's fracture grading scheme. On a publicly available spine dataset, the proposed loss function achieves a fracture detection F1 score of 81.5%, a 10% increase over a naive classification baseline.
翻訳日:2022-10-27 22:07:07 公開日:2020-08-18
# MaskedFace-Net -- COVID-19の文脈で、正しくも正しくもマスクされた顔画像のデータセット

MaskedFace-Net -- A Dataset of Correctly/Incorrectly Masked Face Images in the Context of COVID-19 ( http://arxiv.org/abs/2008.08016v1 )

ライセンス: Link先を確認
Adnane Cabani, Karim Hammoudi, Halim Benhabiles and Mahmoud Melkemi(参考訳) マスクの着用は、新型コロナウイルスの感染拡大を制限する解決策として現れる。 この文脈では, 顔が規制区域で隠蔽されていることを確認するために, 効率的な認識システムが期待されている。 このタスクを行うためには,マスクを着用している人やマスクを着用していない人を検出するために,深層学習モデルの訓練にマスク付き顔の大規模なデータセットが必要である。 マスクされた顔の大規模なデータセットが文献に載っている。 しかし現時点では、検出された顔が正しく着用されているかどうかを確認できるマスクされた顔画像の大規模なデータセットは存在しない。 実際、多くの人々は悪い習慣、悪い行動、個人(例えば子供、老人)の脆弱性のためにマスクを正しく着用していません。 これらの理由から、マスク着用キャンペーンのいくつかは、この問題と実践の良さを人々に認識させようとしている。 この意味では, 正面型顔検出データセット (cmfd) と誤面型顔検出データセット (imfd) と, 世界面型顔検出データセット (maskedface-net) の組み合わせの3種類のマスク型顔検出データセットを提案する。 現実的なマスク付き顔データセットを2倍の目的で提案する。 一 顔がマスクされているか、マスクしていないかを検出すること。 二 マスクを正しく着用し、又は不正に着用した顔(空港のポータル又は群衆など)を検出すること。 我々の知る限りでは、マスク付き顔の大規模なデータセットは、マスク着用の分析を許可するための分類の粒度を提供していない。 さらに, この研究は, マスク・ツー・フェイス・デフォルマブル・モデルを用いて, マスク・ツー・フェイスの他のマスク画像の生成を可能にする。 マスクされた顔画像(137,016画像)のデータセットは、https://github.com/cabani/maskedface-netで利用可能です。

The wearing of the face masks appears as a solution for limiting the spread of COVID-19. In this context, efficient recognition systems are expected for checking that people faces are masked in regulated areas. To perform this task, a large dataset of masked faces is necessary for training deep learning models towards detecting people wearing masks and those not wearing masks. Some large datasets of masked faces are available in the literature. However, at the moment, there are no available large dataset of masked face images that permits to check if detected masked faces are correctly worn or not. Indeed, many people are not correctly wearing their masks due to bad practices, bad behaviors or vulnerability of individuals (e.g., children, old people). For these reasons, several mask wearing campaigns intend to sensitize people about this problem and good practices. In this sense, this work proposes three types of masked face detection dataset; namely, the Correctly Masked Face Dataset (CMFD), the Incorrectly Masked Face Dataset (IMFD) and their combination for the global masked face detection (MaskedFace-Net). Realistic masked face datasets are proposed with a twofold objective: i) to detect people having their faces masked or not masked, ii) to detect faces having their masks correctly worn or incorrectly worn (e.g.; at airport portals or in crowds). To the best of our knowledge, no large dataset of masked faces provides such a granularity of classification towards permitting mask wearing analysis. Moreover, this work globally presents the applied mask-to-face deformable model for permitting the generation of other masked face images, notably with specific masks. Our datasets of masked face images (137,016 images) are available at https://github.com/cabani/MaskedFace-Net.
翻訳日:2022-10-27 22:06:51 公開日:2020-08-18
# 変圧器を用いた横舞踊運動生成学習

Learning to Generate Diverse Dance Motions with Transformer ( http://arxiv.org/abs/2008.08171v1 )

ライセンス: Link先を確認
Jiaman Li, Yihang Yin, Hang Chu, Yi Zhou, Tingwu Wang, Sanja Fidler, Hao Li(参考訳) パンデミックが続く中、ミュージシャンのデジタルパフォーマンスを使った仮想コンサートやライブイベントが、大規模なマルチプレイヤーオンラインワールドで注目を集めている。 しかし、よく振付されたダンスの動きはアニメートにとって非常に複雑であり、高価で退屈な制作プロセスを伴う。 複雑なモーションキャプチャシステムの使用に加えて、アニメーター、ダンサー、振付師の協力を要するのが一般的である。 そこで我々は,入力された楽曲列から複雑かつ多種多様なダンスシーケンスを生成するダンスモーション合成システムを提案する。 モーションキャプチャーデータはダンスの動きやスタイルの範囲に限られているため、YouTubeビデオから生成される大規模なダンスモーションデータセットを導入する。 また、高い柔軟性で動き列を生成できる新しい2ストリームモーショントランスフォーマ生成モデルを提案する。 また,合成ダンスモーションの品質評価指標を新たに導入し,このシステムが最先端の手法より優れていることを示す。 本システムは,仮想コンサートに適した高品質なアニメーションを提供し,プロのアニメーションパイプラインのリファレンスとしても使用できる。 最も重要なことは、巨大なオンラインビデオがダンスモーションモデルのトレーニングに有効であることである。

With the ongoing pandemic, virtual concerts and live events using digitized performances of musicians are getting traction on massive multiplayer online worlds. However, well choreographed dance movements are extremely complex to animate and would involve an expensive and tedious production process. In addition to the use of complex motion capture systems, it typically requires a collaborative effort between animators, dancers, and choreographers. We introduce a complete system for dance motion synthesis, which can generate complex and highly diverse dance sequences given an input music sequence. As motion capture data is limited for the range of dance motions and styles, we introduce a massive dance motion data set that is created from YouTube videos. We also present a novel two-stream motion transformer generative model, which can generate motion sequences with high flexibility. We also introduce new evaluation metrics for the quality of synthesized dance motions, and demonstrate that our system can outperform state-of-the-art methods. Our system provides high-quality animations suitable for large crowds for virtual concerts and can also be used as reference for professional animation pipelines. Most importantly, we show that vast online videos can be effective in training dance motion models.
翻訳日:2022-10-27 22:06:20 公開日:2020-08-18
# 不確実性を考慮した自己監督型3Dデータアソシエーション

Uncertainty-aware Self-supervised 3D Data Association ( http://arxiv.org/abs/2008.08173v1 )

ライセンス: Link先を確認
Jianren Wang, Siddharth Ancha, Yi-Ting Chen, David Held(参考訳) 3dオブジェクトトラッカーは通常、高価で収集に時間がかかる大量の注釈付きデータのトレーニングを必要とする。 代わりに、3dオブジェクトトラッカの自己教師付きメトリックラーニングによる膨大なラベルなしデータセットの活用を提案する。 非ラベルデータに対する大規模なアノテーションは、フレーム間の自動オブジェクト検出とアソシエーションによって安価に得られる。 3d追跡に有効なポイントクラウド埋め込みを学ぶために,これらの自己教師付きアノテーションを原則的に利用できることを示す。 ラベル付きデータを必要とせずに、より堅牢な埋め込みを学習するために、自己教師付きトラッキングの不確実性を推定し、組み込む。 フレーム間でオブジェクトを区別するために埋め込みを設計し、不確実性を認識した自己教師付きトレーニングを使って学習します。 最後に,有効かつ正確な3次元追跡に向けて,フレーム間で正確なデータアソシエーションを行う能力を示す。 プロジェクトビデオとコードはhttps://jianrenw.github.io/Self-Supervised-3D-Data-Associationにある。

3D object trackers usually require training on large amounts of annotated data that is expensive and time-consuming to collect. Instead, we propose leveraging vast unlabeled datasets by self-supervised metric learning of 3D object trackers, with a focus on data association. Large scale annotations for unlabeled data are cheaply obtained by automatic object detection and association across frames. We show how these self-supervised annotations can be used in a principled manner to learn point-cloud embeddings that are effective for 3D tracking. We estimate and incorporate uncertainty in self-supervised tracking to learn more robust embeddings, without needing any labeled data. We design embeddings to differentiate objects across frames, and learn them using uncertainty-aware self-supervised training. Finally, we demonstrate their ability to perform accurate data association across frames, towards effective and accurate 3D tracking. Project videos and code are at https://jianrenw.github.io/Self-Supervised-3D-Data-Association.
翻訳日:2022-10-27 22:06:03 公開日:2020-08-18
# 条件付きアウトフィットレコメンデーションのための学習タプル適合性

Learning Tuple Compatibility for Conditional OutfitRecommendation ( http://arxiv.org/abs/2008.08189v1 )

ライセンス: Link先を確認
Xuewen Yang, Dongliang Xie, Xin Wang, Jiangbo Yuan, Wanying Ding, Pengyun Yan(参考訳) アウトフィット・レコメンデーションには、「靴と学校用バッグのどちらがジーンズとセーターに合うのか?」といった、難しい服装互換性の問題の答えが求められている。 従来の類似検索よりも複雑であり、視覚美学だけでなく、内在的なきめ細やかなファッションアイテムの性質も考慮する必要がある。 既存のアプローチでは、シーケンシャルモデルやアイテム間のペアワイズ距離の学習を通じて問題を解決している。 しかし、そのほとんどはファッション適合性の定義において粗いカテゴリ情報のみを考慮し、実用的な用途でしばしば望まれる細かなカテゴリ情報を無視している。 ファッションの互換性をよりよく定義し、異なるニーズを柔軟に満たすために、複数のタプル(各アイテムとカテゴリペアからなる)間の互換性を学習する新しい問題を提案し、顧客からのカテゴリ選択に従ってファッションアイテムを推薦する。 私たちの貢献には 1)細粒度と粗度の両方のカテゴリ情報をレコメンデーションに統合し,ファッションタプル間の互換性を学習するMCAN(Mixed Category Attention Net)を設計する。 MCANは必要に応じて、多種多様な制御可能なレコメンデーションを明示的にかつ効果的に生成できる。 2)東欧文化に倣い,レコメンデーションシステムの一般化を検証できる新しいデータセットIQONのコントリビューションを行う。 リファレンスデータセットポリボアとデータセット iqon に関する広範な実験により,本手法が最先端の推奨手法を大幅に上回ることを示した。

Outfit recommendation requires the answers of some challenging outfit compatibility questions such as 'Which pair of boots and school bag go well with my jeans and sweater?'. It is more complicated than conventional similarity search, and needs to consider not only visual aesthetics but also the intrinsic fine-grained and multi-category nature of fashion items. Some existing approaches solve the problem through sequential models or learning pair-wise distances between items. However, most of them only consider coarse category information in defining fashion compatibility while neglecting the fine-grained category information often desired in practical applications. To better define the fashion compatibility and more flexibly meet different needs, we propose a novel problem of learning compatibility among multiple tuples (each consisting of an item and category pair), and recommending fashion items following the category choices from customers. Our contributions include: 1) Designing a Mixed Category Attention Net (MCAN) which integrates both fine-grained and coarse category information into recommendation and learns the compatibility among fashion tuples. MCAN can explicitly and effectively generate diverse and controllable recommendations based on need. 2) Contributing a new dataset IQON, which follows eastern culture and can be used to test the generalization of recommendation systems. Our extensive experiments on a reference dataset Polyvore and our dataset IQON demonstrate that our method significantly outperforms state-of-the-art recommendation methods.
翻訳日:2022-10-27 21:59:45 公開日:2020-08-18
# PC-Uネット:CTデータから心壁を3次元的に再構築・分離する学習

PC-U Net: Learning to Jointly Reconstruct and Segment the Cardiac Walls in 3D from CT Data ( http://arxiv.org/abs/2008.08194v1 )

ライセンス: Link先を確認
Meng Ye, Qiaoying Huang, Dong Yang, Pengxiang Wu, Jingru Yi, Leon Axel, Dimitris Metaxas(参考訳) 心臓左室(lv)心筋壁(myo)の3次元容積形状は、心疾患の診断と侵襲的手順のナビゲーションに重要な情報を提供する。 多くの心臓画像分割法は、形状分割とモデリングの前提条件として関心領域の検出に依存している。 セグメンテーション結果により、セグメンテーションされた心容積の3次元表面メッシュと対応する点雲を再構成してさらなる解析を行うことができる。 最先端の手法(例えばU-Net)は、精度で心臓画像のセグメンテーションにおいて優れた性能を達成しているが、これらのセグメンテーションの結果は画像のアーティファクトやノイズに悩まされ、不正確な形状モデリング結果をもたらす。 本稿では,2次元ctスライスのボリュームから直接lvmyo壁の点雲を再構成し,予測した3次元点雲からセグメンテーションマスクを生成するpc-uネットを提案する。 広範な実験結果から, ポイントクラウドに先立つ形状を組み込むことにより, ダイスの係数とハウスドルフ距離の点で, 最先端のu-netよりもセグメンテーションマスクの方が精度が向上し, 提案するpc-uネットのジョイントラーニングフレームワークは, lvmyo壁の3次元形状とセグメンテーションを同時に得ることができるため, 自動心画像解析タスクに有用であることがわかった。

The 3D volumetric shape of the heart's left ventricle (LV) myocardium (MYO) wall provides important information for diagnosis of cardiac disease and invasive procedure navigation. Many cardiac image segmentation methods have relied on detection of region-of-interest as a pre-requisite for shape segmentation and modeling. With segmentation results, a 3D surface mesh and a corresponding point cloud of the segmented cardiac volume can be reconstructed for further analyses. Although state-of-the-art methods (e.g., U-Net) have achieved decent performance on cardiac image segmentation in terms of accuracy, these segmentation results can still suffer from imaging artifacts and noise, which will lead to inaccurate shape modeling results. In this paper, we propose a PC-U net that jointly reconstructs the point cloud of the LV MYO wall directly from volumes of 2D CT slices and generates its segmentation masks from the predicted 3D point cloud. Extensive experimental results show that by incorporating a shape prior from the point cloud, the segmentation masks are more accurate than the state-of-the-art U-Net results in terms of Dice's coefficient and Hausdorff distance.The proposed joint learning framework of our PC-U net is beneficial for automatic cardiac image analysis tasks because it can obtain simultaneously the 3D shape and segmentation of the LV MYO walls.
翻訳日:2022-10-27 21:59:17 公開日:2020-08-18
# 新型コロナウイルス関連研究の科学的エビデンス・エクスプローラー

COVID-SEE: Scientific Evidence Explorer for COVID-19 Related Research ( http://arxiv.org/abs/2008.07880v1 )

ライセンス: Link先を確認
Karin Verspoor, Simon \v{S}uster, Yulia Otmakhova, Shevon Mendis, Zenan Zhai, Biaoyan Fang, Jey Han Lau, Timothy Baldwin, Antonio Jimeno Yepes, David Martinez(参考訳) 本稿では,情報探索の概念に基づく医療文献発見システムであるCOVID-SEEについて紹介する。出版物の情報を構造化・整理するためのテキスト分析と自然言語処理手法を基盤として,コレクションの探索を支援する視覚的概要を提供して検索を強化する。 医療専門家や研究者が文献のエビデンスを探索し、関連する情報の検索性を改善するために、新型コロナウイルスの文献よりもこのシステムを開発した。 COVID-SEEはhttp://covid-see.com.comで入手できる。

We present COVID-SEE, a system for medical literature discovery based on the concept of information exploration, which builds on several distinct text analysis and natural language processing methods to structure and organise information in publications, and augments search by providing a visual overview supporting exploration of a collection to identify key articles of interest. We developed this system over COVID-19 literature to help medical professionals and researchers explore the literature evidence, and improve findability of relevant information. COVID-SEE is available at http://covid-see.com.
翻訳日:2022-10-27 21:58:52 公開日:2020-08-18
# 信頼と医療ai: 私たちが直面する課題とその克服に必要な専門知識

Trust and Medical AI: The challenges we face and the expertise needed to overcome them ( http://arxiv.org/abs/2008.07734v1 )

ライセンス: Link先を確認
Thomas P. Quinn, Manisha Senadeera, Stephan Jacobs, Simon Coghlan, and Vuong Le(参考訳) 人工知能(AI)は医療分野でますます大きな関心を集めている。 しかし、医療AIの失敗は臨床結果と患者体験の両方に深刻な影響を及ぼす可能性がある。 これらの結果がAIに対する一般の信頼を損なう可能性があるため、医療機関に対する信頼を損なう可能性がある。 この記事には2つの貢献がある。 まず、医療aiにおける概念、技術、ヒューマニスティックな課題について説明する。 第2に,医療ai技術の開発,検証,運用を専門とする新たな専門家グループの教育と認定に係わるソリューションを提案する。 これらのグループは、我々の医療機関への信頼を維持することが求められます。

Artificial intelligence (AI) is increasingly of tremendous interest in the medical field. However, failures of medical AI could have serious consequences for both clinical outcomes and the patient experience. These consequences could erode public trust in AI, which could in turn undermine trust in our healthcare institutions. This article makes two contributions. First, it describes the major conceptual, technical, and humanistic challenges in medical AI. Second, it proposes a solution that hinges on the education and accreditation of new expert groups who specialize in the development, verification, and operation of medical AI technologies. These groups will be required to maintain trust in our healthcare institutions.
翻訳日:2022-10-27 21:58:12 公開日:2020-08-18
# チューリングテストと法の実践--aiの法的推論における自律的レベルの役割

Turing Test and the Practice of Law: The Role of Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.07743v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) AI(Artificial Intelligence)は、AILR(Legal Reasoning)自律能力の強化を図る中で、法律や法的なタスクにますます適用されている。 一般的には、AILRが自律的な能力を達成したことをどのように知るか、という問題だ。 aiの分野は、aiの開始以来、研究者の間で絶え間なく議論されてきた人工知能(agi:artificial general intelligence)の達成を評価する方法について、同様の四分の一で取り上げてきた。 本稿では、aiの法的推論の自律的レベルにおいて、この有名なaiフルフィルメントの金本位制がどのように堅牢に適用できるかを記述し、aiilrの領域での使用のためにカスタマイズされたチューリングテストの変種を提案する。

Artificial Intelligence (AI) is increasingly being applied to law and a myriad of legal tasks amid attempts to bolster AI Legal Reasoning (AILR) autonomous capabilities. A major question that has generally been unaddressed involves how we will know when AILR has achieved autonomous capacities. The field of AI has grappled with similar quandaries over how to assess the attainment of Artificial General Intelligence (AGI), a persistently discussed issue among scholars since the inception of AI, with the Turing Test communally being considered as the bellwether for ascertaining such matters. This paper proposes a variant of the Turing Test that is customized for specific use in the AILR realm, including depicting how this famous gold standard of AI fulfillment can be robustly applied across the autonomous levels of AI Legal Reasoning.
翻訳日:2022-10-27 21:58:03 公開日:2020-08-18
# 協調文書作成における段階認識ライティング支援の特徴化

Characterizing Stage-Aware Writing Assistance in Collaborative Document Authoring ( http://arxiv.org/abs/2008.08165v1 )

ライセンス: Link先を確認
Bahareh Sarrafzadeh, Sujay Kumar Jauhar, Michael Gamon, Edward Lank, and Ryen White(参考訳) 文章作成は、意図の精神モデルから始まる複雑な非線形プロセスであり、アイデアの概要を通じて、紙上の言葉(およびその後の洗練)へと進む。 文章の理解に関する過去の研究にもかかわらず、Webスケールの消費者とエンタープライズの協調的なデジタル執筆環境は、文書の進化の段階を理解するインテリジェントなシステムから大きな恩恵を受けていない。 本稿では,文書作成の時間的段階を考察する3つの研究について述べる。 本稿は,大手IT企業の情報労働者を対象に,執筆の習慣や好みについて調査し,著者が文書を執筆しながら,概念的にいくつかの異なる段階に進むことを結論とした。 また、文書作成の段階と文書の寿命との関係についても、定性的に検討する。 我々は,この質的知見を,数百万以上の文書にまたがるポピュラーなデジタルライティングプラットフォームの縦断的ユーザインタラクションログの分析で補う。 最後に、インテリジェントなデジタルライティングアシスタントの実現に向けた第一歩として、文書の時間段階を予測するためのユーザインタラクションログデータの有用性について予備的な調査を行う。 この結果は,記述段階に合わせたツールの利点をサポートし,これらの段階に関連する主要なタスクを特定し,匿名の対話ログからステージを予測可能であることを示す。 これらの結果は、よりカスタマイズされたデジタルライティング支援の利点と実現可能性を主張している。

Writing is a complex non-linear process that begins with a mental model of intent, and progresses through an outline of ideas, to words on paper (and their subsequent refinement). Despite past research in understanding writing, Web-scale consumer and enterprise collaborative digital writing environments are yet to greatly benefit from intelligent systems that understand the stages of document evolution, providing opportune assistance based on authors' situated actions and context. In this paper, we present three studies that explore temporal stages of document authoring. We first survey information workers at a large technology company about their writing habits and preferences, concluding that writers do in fact conceptually progress through several distinct phases while authoring documents. We also explore, qualitatively, how writing stages are linked to document lifespan. We supplement these qualitative findings with an analysis of the longitudinal user interaction logs of a popular digital writing platform over several million documents. Finally, as a first step towards facilitating an intelligent digital writing assistant, we conduct a preliminary investigation into the utility of user interaction log data for predicting the temporal stage of a document. Our results support the benefit of tools tailored to writing stages, identify primary tasks associated with these stages, and show that it is possible to predict stages from anonymous interaction logs. Together, these results argue for the benefit and feasibility of more tailored digital writing assistance.
翻訳日:2022-10-27 21:57:30 公開日:2020-08-18
# Addestramento con Dataset Sbilanciati

Addestramento con Dataset Sbilanciati ( http://arxiv.org/abs/2008.09209v1 )

ライセンス: Link先を確認
Massimiliano Morrelli(参考訳) 英語だ 以下の文書は、データセットのバランスとトレーニングされたモデルを得るためのいくつかの有用な方法を比較する目的を追求している。 トレーニングに使用されるデータセットは、Webチャネルで発生した単純なフレーズや会話からの抽出など、短文と中文で構成されている。 モデルのトレーニングは、apache sparkフレームワークによって利用可能になった構造の助けを借りて行われる。このモデルは、後にmassimiliano morrelli氏らによる"new frontier of textual classification: big data and distributed calculation"で説明されているように、分散環境を使って文章を分類できるソリューションの実装に有用かもしれない。 イタリア人。 Il seguente documento persegue l'obiettivo di mettere a confronto alcuni metodi utili a bilanciare un dataset e ottenere un modello addestrato。 Il dataset utilizzato per l'addestramento \`e composto da frasi di lunghezza breve e media, come frasi semplici o estratte da conversazioni avvenute su canali web。 l'addestramento dei modelli avverr\`a con l'ausilio delle strutture messe a disposizione dal framework apache spark, i modelli successivamente potranno essere utili a un resulte implementazione di una soluzione in grado di classificare frasi sfruttando l'ambiente distribuito, come descritto in "nuova frontiera della classificazione testuale: big data e calcolo distribuito" di massimiliano morrelli et al. (英語)

English. The following document pursues the objective of comparing some useful methods to balance a dataset and obtain a trained model. The dataset used for training is made up of short and medium length sentences, such as simple phrases or extracts from conversations that took place on web channels. The training of the models will take place with the help of the structures made available by the Apache Spark framework, the models may subsequently be useful for a possible implementation of a solution capable of classifying sentences using the distributed environment, as described in "New frontier of textual classification: Big data and distributed calculation" by Massimiliano Morrelli et al. Italiano. Il seguente documento persegue l'obiettivo di mettere a confronto alcuni metodi utili a bilanciare un dataset e ottenere un modello addestrato. Il dataset utilizzato per l'addestramento \`e composto da frasi di lunghezza breve e media, come frasi semplici o estratte da conversazioni avvenute su canali web. L'addestramento dei modelli avverr\`a con l'ausilio delle strutture messe a disposizione dal framework Apache Spark, i modelli successivamente potranno essere utili a un eventuale implementazione di una soluzione in grado di classificare frasi sfruttando l'ambiente distribuito, come descritto in "Nuova frontiera della classificazione testuale: Big data e calcolo distribuito" di Massimiliano Morrelli et al.
翻訳日:2022-10-27 21:57:08 公開日:2020-08-18
# 眼球運動分類のための階層型HMM

Hierarchical HMM for Eye Movement Classification ( http://arxiv.org/abs/2008.07961v1 )

ライセンス: Link先を確認
Ye Zhu, Yan Yan, and Oleg Komogortsev(参考訳) 本研究では,眼球運動の3次分類の問題に取り組み,眼球位置データから固定,サケード,円滑な追跡を分離することを目的とした。 これらの異なる眼球運動の効率的な分類は、眼球追跡データの解析と利用に役立つ。 眼球運動を予め定義されたしきい値によって検出する既存の方法と異なり, 固定, サケード, スムーズな追跡を検出する階層型隠れマルコフモデル(HMM)統計アルゴリズムを提案する。 提案アルゴリズムは、記録された生眼追跡データから階層的な分類戦略を用いて、毎回1種類の眼球運動を分離する。 提案手法の有効性とロバスト性は, 最先端手法と比較して, 競争力や性能の向上によって実証された。

In this work, we tackle the problem of ternary eye movement classification, which aims to separate fixations, saccades and smooth pursuits from the raw eye positional data. The efficient classification of these different types of eye movements helps to better analyze and utilize the eye tracking data. Different from the existing methods that detect eye movement by several pre-defined threshold values, we propose a hierarchical Hidden Markov Model (HMM) statistical algorithm for detecting fixations, saccades and smooth pursuits. The proposed algorithm leverages different features from the recorded raw eye tracking data with a hierarchical classification strategy, separating one type of eye movement each time. Experimental results demonstrate the effectiveness and robustness of the proposed method by achieving competitive or better performance compared to the state-of-the-art methods.
翻訳日:2022-10-27 21:49:31 公開日:2020-08-18
# 視覚言語課題におけるセマンティクスギャップ低減のための言語学的注意

Linguistically-aware Attention for Reducing the Semantic-Gap in Vision-Language Tasks ( http://arxiv.org/abs/2008.08012v1 )

ライセンス: Link先を確認
Gouthaman KV, Athira Nambiar, Kancheti Sai Srinivas, Anurag Mittal(参考訳) 注意モデルは視覚・テキスト相関を行うために視覚言語(V-L)タスクで広く利用されている。 人間は視覚世界に対する強い言語的理解とそのような相関を行う。 しかしながら、V-Lタスクにおける最高のパフォーマンスアテンションモデルでさえ、そのような高いレベルの言語理解を欠いているため、モダリティ間のセマンティックギャップが生じる。 本稿では,ジェネリックオブジェクト検出器から得られたオブジェクト属性と事前学習された言語モデルを利用して,このセマンティックギャップを低減できる注意機構,LAT(Lingguistically-Aware Attention)を提案する。 LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。 3つのV-Lタスク(カウント-VQA,VQA,画像キャプション)にLATの有効性を適用し,実演する。 カウント-VQAでは、直感的なカウントを予測し、5つのデータセットで最先端の結果を得るために、新しいカウント特化VQAモデルを提案する。 VQA と Captioning では,様々なベースラインに適応し,その性能を継続的に改善することにより,LAT の汎用性と有効性を示す。

Attention models are widely used in Vision-language (V-L) tasks to perform the visual-textual correlation. Humans perform such a correlation with a strong linguistic understanding of the visual world. However, even the best performing attention model in V-L tasks lacks such a high-level linguistic understanding, thus creating a semantic gap between the modalities. In this paper, we propose an attention mechanism - Linguistically-aware Attention (LAT) - that leverages object attributes obtained from generic object detectors along with pre-trained language models to reduce this semantic gap. LAT represents visual and textual modalities in a common linguistically-rich space, thus providing linguistic awareness to the attention process. We apply and demonstrate the effectiveness of LAT in three V-L tasks: Counting-VQA, VQA, and Image captioning. In Counting-VQA, we propose a novel counting-specific VQA model to predict an intuitive count and achieve state-of-the-art results on five datasets. In VQA and Captioning, we show the generic nature and effectiveness of LAT by adapting it into various baselines and consistently improving their performance.
翻訳日:2022-10-27 21:49:15 公開日:2020-08-18
# 畳み込みニューラルネットワークを用いた多言語ナンバープレート検出

Multilanguage Number Plate Detection using Convolutional Neural Networks ( http://arxiv.org/abs/2008.08023v1 )

ライセンス: Link先を確認
Jatin Gupta and Vandana Saini and Kamaldeep Garg(参考訳) 物体検出は最近の技術研究の一般的な分野である。 近年、深い学習性能が研究者を惹きつけ、多くのアプリケーションで使用している。 数値プレート(NP)の検出と分類は数十年にわたって分析されてきたが、現在では自動車が状態から別の状態へ容易に移動しているため、より正確で、状態、言語、デザインに依存しないアプローチが必要である。 本稿では,NPを検知し,国家,言語,レイアウトを理解するための新しい戦略を提案する。 NP検出にはResNet属性抽出心を用いたYOLOv2センサが提案され,NPの分類には新たな畳み込みニューラルネットワークアーキテクチャが提案されている。 検出器の平均精度は99.57%、国、言語、レイアウトの分類精度は99.33%である。 その結果、これまでの研究よりも優れており、国際的なNP検出と認識に向けて地域を前進させることができる。

Object Detection is a popular field of research for recent technologies. In recent years, profound learning performance attracts the researchers to use it in many applications. Number plate (NP) detection and classification is analyzed over decades however, it needs approaches which are more precise and state, language and design independent since cars are now moving from state to another easily. In this paperwe suggest a new strategy to detect NP and comprehend the nation, language and layout of NPs. YOLOv2 sensor with ResNet attribute extractor heart is proposed for NP detection and a brand new convolutional neural network architecture is suggested to classify NPs. The detector achieves average precision of 99.57% and country, language and layout classification precision of 99.33%. The results outperforms the majority of the previous works and can move the area forward toward international NP detection and recognition.
翻訳日:2022-10-27 21:48:55 公開日:2020-08-18
# ニューラル解析-合成によるカテゴリーレベルのオブジェクトポーズ推定

Category Level Object Pose Estimation via Neural Analysis-by-Synthesis ( http://arxiv.org/abs/2008.08145v1 )

ライセンス: Link先を確認
Xu Chen, Zijian Dong, Jie Song, Andreas Geiger, Otmar Hilliges(参考訳) 多くのオブジェクトポーズ推定アルゴリズムは、個々のオブジェクトインスタンスの明示的な表現を必要とする分析-合成フレームワークに依存している。 本稿では,物体のカテゴリ全体の外観,形状,ポーズを暗黙的に表現できるパラメトリック・ニューラル画像合成モジュールとグラデーションベースのフィッティング手順を組み合わせることで,オブジェクトインスタンスごとの明示的なCADモデルの必要性を解消する。 画像合成ネットワークは、ポーズ設定空間を効率よく分散して、モデルキャパシティを使用して、形状と局所的な外観(テクスチャ)の変動を一緒に捉えるように設計されている。 推測時には、合成画像は外観に基づく損失を介してターゲットと比較され、エラー信号はネットワークを介して入力パラメータに逆伝搬される。 ネットワークパラメータを固定し, 物体の姿勢, 形状, 外観を協調的に反復的に最適化することを可能にし, 2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。 深度測定を施すと、スケールのあいまいさを克服し、フル6DOFのポーズを正確に再現することができる。

Many object pose estimation algorithms rely on the analysis-by-synthesis framework which requires explicit representations of individual object instances. In this paper we combine a gradient-based fitting procedure with a parametric neural image synthesis module that is capable of implicitly representing the appearance, shape and pose of entire object categories, thus rendering the need for explicit CAD models per object instance unnecessary. The image synthesis network is designed to efficiently span the pose configuration space so that model capacity can be used to capture the shape and local appearance (i.e., texture) variations jointly. At inference time the synthesized images are compared to the target via an appearance based loss and the error signal is backpropagated through the network to the input parameters. Keeping the network parameters fixed, this allows for iterative optimization of the object pose, shape and appearance in a joint manner and we experimentally show that the method can recover orientation of objects with high accuracy from 2D images alone. When provided with depth measurements, to overcome scale ambiguities, the method can accurately recover the full 6DOF pose successfully.
翻訳日:2022-10-27 21:47:42 公開日:2020-08-18
# retargetable ar:3dシーングラフに基づく室内シーンにおけるコンテキスト対応拡張現実

Retargetable AR: Context-aware Augmented Reality in Indoor Scenes based on 3D Scene Graph ( http://arxiv.org/abs/2008.07817v1 )

ライセンス: Link先を確認
Tomu Tahara, Takashi Seno, Gaku Narita, Tomoya Ishikawa(参考訳) 本稿では,様々な実環境に設定されたシーンコンテキストを認識し,仮想空間と現実空間の自然な相互作用を実現するAR体験を提供する新しいARフレームワークであるRetargetable ARを提案する。 この目的のために,3次元空間内のオブジェクト間の関係を座標変換ではなく,シーンコンテキストで特徴付ける。 ARコンテンツによって想定されるコンテキストと、AR経験者が抽象グラフ表現、すなわちシーングラフとして表現される実環境によって形成されるコンテキストと。 rgb-dストリームから,シーンの幾何学的および意味的情報を統合したボリュームマップを生成する。 さらに,意味マップを用いて,向きづけられた境界ボックスとしてシーンオブジェクトを抽象化し,それらの向きを推定する。 このようなシーン表現により、我々のフレームワークは、実際のAR環境のコンテキストを特徴付ける3Dシーングラフをオンライン形式で構築する。 構築されたグラフとARコンテンツコンテキストを示すARシーングラフとの対応は、仮想世界と現実世界の自然な相互作用を促進する意味的に登録されたコンテンツアレンジメントを提供する。 本研究では,オブジェクト指向境界ボックス推定の性能評価,構築した3次元シーングラフに基づくARコンテンツアレンジメントの主観評価,およびオンラインARデモを通じて,プロトタイプシステム上で広範囲に評価を行った。 これらの評価の結果,本フレームワークの有効性が示され,様々な実シーンでコンテキスト認識AR体験を提供できることを示した。

In this paper, we present Retargetable AR, a novel AR framework that yields an AR experience that is aware of scene contexts set in various real environments, achieving natural interaction between the virtual and real worlds. To this end, we characterize scene contexts with relationships among objects in 3D space, not with coordinates transformations. A context assumed by an AR content and a context formed by a real environment where users experience AR are represented as abstract graph representations, i.e. scene graphs. From RGB-D streams, our framework generates a volumetric map in which geometric and semantic information of a scene are integrated. Moreover, using the semantic map, we abstract scene objects as oriented bounding boxes and estimate their orientations. With such a scene representation, our framework constructs, in an online fashion, a 3D scene graph characterizing the context of a real environment for AR. The correspondence between the constructed graph and an AR scene graph denoting the context of AR content provides a semantically registered content arrangement, which facilitates natural interaction between the virtual and real worlds. We performed extensive evaluations on our prototype system through quantitative evaluation of the performance of the oriented bounding box estimation, subjective evaluation of the AR content arrangement based on constructed 3D scene graphs, and an online AR demonstration. The results of these evaluations showed the effectiveness of our framework, demonstrating that it can provide a context-aware AR experience in a variety of real scenes.
翻訳日:2022-10-27 21:40:52 公開日:2020-08-18
# 高効率オーバーカメラトラップ画像を用いた大規模マルチラベル画像認識

Mastering Large Scale Multi-label Image Recognition with high efficiency overCamera trap images ( http://arxiv.org/abs/2008.07828v1 )

ライセンス: Link先を確認
Miroslav Valan and Luk\'a\v{s} Picek(参考訳) カメラトラップは生物多様性を動機づける研究において重要であるが、これらのデータセットに注釈を付けながら大量の画像を扱うことは退屈で時間のかかる作業である。 このプロセスをスピードアップするために、機械学習アプローチは妥当な資産です。 本稿では,「白菜マデータ-セレンゲティ野生生物識別課題」の勝利に基づく,容易でアクセス性が高く,軽量,高速で効率的なアプローチを提案する。 本システムは97%の精度を達成し,人間レベルの性能を上回った。 比較的大きなデータセットを考慮に入れれば,各イメージを1度だけ,あるいはほとんど拡張することなく見ることが効果的であることを示す。 このようなシンプルで効果的なベースラインを利用することで、大規模なトレーニングセット(6.7Mイメージと6TB)にもかかわらず、1つのGPU(1080Ti)を特徴とする非常に限られたハードウェア上で、オーバーフィットを回避することができました。

Camera traps are crucial in biodiversity motivated studies, however dealing with large number of images while annotating these data sets is a tedious and time consuming task. To speed up this process, Machine Learning approaches are a reasonable asset. In this article we are proposing an easy, accessible, light-weight, fast and efficient approach based on our winning submission to the "Hakuna Ma-data - Serengeti Wildlife Identification challenge". Our system achieved an Accuracy of 97% and outperformed the human level performance. We show that, given relatively large data sets, it is effective to look at each image only once with little or no augmentation. By utilizing such a simple, yet effective baseline we were able to avoid over-fitting without extensive regularization techniques and to train a top scoring system on a very limited hardware featuring single GPU (1080Ti) despite the large training set (6.7M images and 6TB).
翻訳日:2022-10-27 21:40:28 公開日:2020-08-18
# RGBプリエントによる深度補完

Depth Completion with RGB Prior ( http://arxiv.org/abs/2008.07861v1 )

ライセンス: Link先を確認
Yuri Feldman, Yoel Shapiro and Dotan Di Castro(参考訳) 奥行きカメラはロボット工学における顕著な認識システムであり、特に自然の非構造環境で動作する。 しかし、工業的応用は通常、厳密な照明条件下で反射オブジェクトを伴い、多くの反射や偏向を誘発し、頑丈さの喪失と精度の低下につながる深度カメラにとって困難なシナリオである。 そこで本研究では,rgbd画像の深度チャネルを補正する深層モデルを開発し,深度情報を必要な精度に復元することを目的とした。 モデルをトレーニングするために、私たちは新しい産業データセットを作成しました。 データはローエンド深度カメラで収集され, 地中真相深度は多視点融合により生成された。

Depth cameras are a prominent perception system for robotics, especially when operating in natural unstructured environments. Industrial applications, however, typically involve reflective objects under harsh lighting conditions, a challenging scenario for depth cameras, as it induces numerous reflections and deflections, leading to loss of robustness and deteriorated accuracy. Here, we developed a deep model to correct the depth channel in RGBD images, aiming to restore the depth information to the required accuracy. To train the model, we created a novel industrial dataset that we now present to the public. The data was collected with low-end depth cameras and the ground truth depth was generated by multi-view fusion.
翻訳日:2022-10-27 21:40:11 公開日:2020-08-18
# モーションセグメンテーションのための自己教師付きスパース

Self-supervised Sparse to Dense Motion Segmentation ( http://arxiv.org/abs/2008.07872v1 )

ライセンス: Link先を確認
Amirhossein Kardoost, Kalun Ho, Peter Ochs, Margret Keuper(参考訳) ビデオの観察可能な動きは、シーンに対して動くオブジェクトの定義を引き起こす可能性がある。 このような移動物体のセグメンテーションのタスクは、モーションセグメンテーションと呼ばれ、通常、長いスパースポイント軌跡のモーション情報を集約するか、あるいは大量のトレーニングデータに依存するフレームごとの密度のセグメンテーションを直接生成することによって取り組まれる。 本稿では,単一のビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。 従来,大規模なサロゲートデータセットを事前学習し,高密度な動き情報を画素単位のセグメンテーションに欠かせないキューとして利用してきたが,本モデルでは事前学習は必要とせず,単一のフレーム上でテスト時に動作させる。 スパース入力やノイズ入力から高品質の高密度セグメントを生成するために、シーケンス固有の方法でトレーニングすることができる。 本手法は,fbms59とdavis16の動作セグメンテーションデータセット上で評価する。

Observable motion in videos can give rise to the definition of objects moving with respect to the scene. The task of segmenting such moving objects is referred to as motion segmentation and is usually tackled either by aggregating motion information in long, sparse point trajectories, or by directly producing per frame dense segmentations relying on large amounts of training data. In this paper, we propose a self supervised method to learn the densification of sparse motion segmentations from single video frames. While previous approaches towards motion segmentation build upon pre-training on large surrogate datasets and use dense motion information as an essential cue for the pixelwise segmentation, our model does not require pre-training and operates at test time on single frames. It can be trained in a sequence specific way to produce high quality dense segmentations from sparse and noisy input. We evaluate our method on the well-known motion segmentation datasets FBMS59 and DAVIS16.
翻訳日:2022-10-27 21:39:57 公開日:2020-08-18
# 人物識別のための意味的注意ネットワークを用いた人物画像生成

Person image generation with semantic attention network for person re-identification ( http://arxiv.org/abs/2008.07884v1 )

ライセンス: Link先を確認
Meichen Liu, Kejun Wang, Juihang Ji and Shuzhi Sam Ge(参考訳) ポース変動は、ネットワークが堅牢な人物再識別(Re-ID)モデルを学ぶのを防ぐ重要な要因の1つである。 この問題に対処するために,セマンティックアテンションネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。 ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。 ポーズ誘導画像生成における前景と背景をシームレスに縫い合わせるためには,バイナリセグメンテーションマスクの導入と意味解析が重要である。 他の方法と比較すると、ネットワークはより優れた体型を特徴付け、同時に衣服属性を保持することができる。 我々の合成画像は、元の画像に関する外観と形状の整合性を向上させることができる。 実験の結果,Market-1501とDeepFashionの定量的および定性的な結果と競合することがわかった。 さらに,人物再同定(re-id)システムを用いて,ポーズ伝達者に基づく拡張データを訓練することにより,広範囲な評価を行う。 実験の結果,このアプローチは人物再識別精度を著しく向上できることがわかった。

Pose variation is one of the key factors which prevents the network from learning a robust person re-identification (Re-ID) model. To address this issue, we propose a novel person pose-guided image generation method, which is called the semantic attention network. The network consists of several semantic attention blocks, where each block attends to preserve and update the pose code and the clothing textures. The introduction of the binary segmentation mask and the semantic parsing is important for seamlessly stitching foreground and background in the pose-guided image generation. Compared with other methods, our network can characterize better body shape and keep clothing attributes, simultaneously. Our synthesized image can obtain better appearance and shape consistency related to the original image. Experimental results show that our approach is competitive with respect to both quantitative and qualitative results on Market-1501 and DeepFashion. Furthermore, we conduct extensive evaluations by using person re-identification (Re-ID) systems trained with the pose-transferred person based augmented data. The experiment shows that our approach can significantly enhance the person Re-ID accuracy.
翻訳日:2022-10-27 21:39:38 公開日:2020-08-18
# 機能製品は効率的なネットワークを生み出す

Feature Products Yield Efficient Networks ( http://arxiv.org/abs/2008.07930v1 )

ライセンス: Link先を確認
Philipp Gr\"uning, Thomas Martinetz, Erhardt Barth(参考訳) 生体視覚の原理に触発された新しいビルディングブロックに基づく新しいディープネットワークアーキテクチャとして、FP-netを紹介した。 各入力特徴マップに対して、いわゆるfpブロックは2つの異なるフィルタを学習し、その出力は乗算される。 このようなFPブロックは、皮質領域V1、特にV2でよく見られるエンドストップニューロンのモデルにインスパイアされている。 畳み込みニューラルネットワークは、通常の畳み込みブロックをFPブロックに置換することにより、パラメータ効率の良いFPネットに変換することができる。 このようにして、最先端ネットワークに基づく新しいFP-netを作成し、Cifar-10とImageNetの課題に基づいて評価する。 FPブロックを用いることで、一般化能力を低下させることなくパラメータ数を著しく削減できることを示す。 これまでのところ、より効率的なネットワークを見つけるためにヒューリスティックスや検索アルゴリズムが使われてきたが、新しいバイオインスパイアされた設計原理に基づいて、より効率的なネットワークを得ることができることは注目すべきである。

We introduce Feature-Product networks (FP-nets) as a novel deep-network architecture based on a new building block inspired by principles of biological vision. For each input feature map, a so-called FP-block learns two different filters, the outputs of which are then multiplied. Such FP-blocks are inspired by models of end-stopped neurons, which are common in cortical areas V1 and especially in V2. Convolutional neural networks can be transformed into parameter-efficient FP-nets by substituting conventional blocks of regular convolutions with FP-blocks. In this way, we create several novel FP-nets based on state-of-the-art networks and evaluate them on the Cifar-10 and ImageNet challenges. We show that the use of FP-blocks reduces the number of parameters significantly without decreasing generalization capability. Since so far heuristics and search algorithms have been used to find more efficient networks, it seems remarkable that we can obtain even more efficient networks based on a novel bio-inspired design principle.
翻訳日:2022-10-27 21:39:07 公開日:2020-08-18
# NASE:ニューラルネットワークによるリンク予測のための知識グラフ埋め込み学習

NASE: Learning Knowledge Graph Embedding for Link Prediction via Neural Architecture Search ( http://arxiv.org/abs/2008.07723v1 )

ライセンス: Link先を確認
Xiaoyu Kou, Bingfeng Luo, Huang Hu and Yan Zhang(参考訳) リンク予測は、知識グラフ(KG)内のエンティティ間の欠落した接続を予測するタスクである。 リンク予測タスクには様々なモデル形式が提案されているが、そのほとんどは、よく知られたデータセットのいくつかの既知の関係パターンに基づいて設計されている。 実世界のkgsの多様性と複雑さのため、すべてのデータセットに適合するモデルを設計するのは本質的に困難である。 この問題に対処するため、以前の作業では、Automated Machine Learning(AutoML)を使用して、特定のデータセットに最適なモデルを探していた。 しかし、それらの探索空間は双線型モデル族に限られている。 本稿では,リンク予測タスクのための新しいニューラルネットワーク探索(NAS)フレームワークを提案する。 まず、入力三重項の埋め込みは表現探索モジュールによって洗練される。 次に、予測スコアをスコア関数検索モジュール内で検索する。 このフレームワークはより汎用的な検索空間を備えており、いくつかの主流モデルファミリを活用できるため、パフォーマンスが向上する可能性がある。 我々は,グラデーションに基づく検索戦略を用いて,アーキテクチャを効率的に最適化できるように,検索空間を連続的に緩和する。 いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性が示された。

Link prediction is the task of predicting missing connections between entities in the knowledge graph (KG). While various forms of models are proposed for the link prediction task, most of them are designed based on a few known relation patterns in several well-known datasets. Due to the diversity and complexity nature of the real-world KGs, it is inherently difficult to design a model that fits all datasets well. To address this issue, previous work has tried to use Automated Machine Learning (AutoML) to search for the best model for a given dataset. However, their search space is limited only to bilinear model families. In this paper, we propose a novel Neural Architecture Search (NAS) framework for the link prediction task. First, the embeddings of the input triplet are refined by the Representation Search Module. Then, the prediction score is searched within the Score Function Search Module. This framework entails a more general search space, which enables us to take advantage of several mainstream model families, and thus it can potentially achieve better performance. We relax the search space to be continuous so that the architecture can be optimized efficiently using gradient-based search strategies. Experimental results on several benchmark datasets demonstrate the effectiveness of our method compared with several state-of-the-art approaches.
翻訳日:2022-10-27 21:32:03 公開日:2020-08-18
# 深層学習を用いた中波長赤外画像の多重ビュー生成と分類

Multiple View Generation and Classification of Mid-wave Infrared Images using Deep Learning ( http://arxiv.org/abs/2008.07714v1 )

ライセンス: Link先を確認
Maliha Arif, Abhijit Mahalanobis(参考訳) 非線形特徴部分空間における赤外画像に対する未知の任意の視点を生成する新しい研究を提案する。 現在の方法は合成画像を使用し、しばしばぼやけや歪んだ出力をもたらす。 逆のアプローチでは、自然画像のセマンティック情報を理解し、それをカプセル化し、予測された未知のビューが良い3D表現を持つようにします。 さらに、非線形特徴部分空間を探索し、我々のネットワークはユークリッド部分空間ではなくリーマン部分空間で動くと結論付ける。 新しい画像中のピクセルの位置を予測する幾何学的変換を学習するのではなく、多様体を学習する。 この目的のために,t-sne可視化を用いてネットワークの詳細な解析を行い,生成画像の分類を低ショット学習タスクとして行う。

We propose a novel study of generating unseen arbitrary viewpoints for infrared imagery in the non-linear feature subspace . Current methods use synthetic images and often result in blurry and distorted outputs. Our approach on the contrary understands the semantic information in natural images and encapsulates it such that our predicted unseen views possess good 3D representations. We further explore the non-linear feature subspace and conclude that our network does not operate in the Euclidean subspace but rather in the Riemannian subspace. It does not learn the geometric transformation for predicting the position of the pixel in the new image but rather learns the manifold. To this end, we use t-SNE visualisations to conduct a detailed analysis of our network and perform classification of generated images as a low-shot learning task.
翻訳日:2022-10-27 21:30:31 公開日:2020-08-18
# Pix2Surf:画像から物体のパラメトリック3次元表面モデルを学ぶ

Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images ( http://arxiv.org/abs/2008.07760v1 )

ライセンス: Link先を確認
Jiahui Lei, Srinath Sridhar, Paul Guerrero, Minhyuk Sung, Niloy Mitra, Leonidas J. Guibas(参考訳) 1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。 複数のビューから形状復元を学ぶ以前の研究では、ポイントクラウドやボクセルのような離散表現を使っているが、連続的な表面生成のアプローチはマルチビューの一貫性を欠いている。 これらの問題に対処するために、ビュー間で一貫した高品質なパラメトリックな3D表面を生成するニューラルネットワークを設計する。 さらに、生成された3d面は、正確な画像画素を3d表面点対応に保存し、テクスチャ情報を持ち上げ、形状や外観を豊かに再現することができる。 本手法は,共通対象カテゴリの形状の公開データセット上で教師あり,訓練を行う。 定量的な結果から,本手法は先行研究よりも有意に優れており,質的評価の結果から高い品質の復元が得られた。

We investigate the problem of learning to generate 3D parametric surface representations for novel object instances, as seen from one or more views. Previous work on learning shape reconstruction from multiple views uses discrete representations such as point clouds or voxels, while continuous surface generation approaches lack multi-view consistency. We address these issues by designing neural networks capable of generating high-quality parametric 3D surfaces which are also consistent between views. Furthermore, the generated 3D surfaces preserve accurate image pixel to 3D surface point correspondences, allowing us to lift texture information to reconstruct shapes with rich geometry and appearance. Our method is supervised and trained on a public dataset of shapes from common object categories. Quantitative results indicate that our method significantly outperforms previous work, while qualitative results demonstrate the high quality of our reconstructions.
翻訳日:2022-10-27 21:29:35 公開日:2020-08-18
# 医療用IoTシステムにおける心室不整脈検出のためのパーソナライズドディープラーニング

Personalized Deep Learning for Ventricular Arrhythmias Detection on Medical IoT Systems ( http://arxiv.org/abs/2008.08060v1 )

ライセンス: Link先を確認
Zhenge Jia, Zhepeng Wang, Feng Hong, Lichuan Ping, Yiyu Shi, Jingtong Hu(参考訳) 生命を脅かす心室不整脈(va)は突然の心臓死(scd)の主要な原因であり、アメリカにおける最も重要な自然死の原因である。 植込み型除細動器(ICD)は、SCDのリスクが高い患者に予防治療として移植された小型の装置である。 ICDは心内リズムを継続的に監視し、生命を脅かすVAを検出する際にショックを与える。 従来の方法では、検出されたリズムの基準を設定することでVAを検出する。 しかし、これらの方法は不適切なショックレートに陥り、icd受信者ごとに基準パラメータを最適化するために定期的なフォローアップが必要となる。 そこで本研究では,医療用iotシステムにおける機械学習に基づくva検出のためのパーソナライズドコンピューティングフレームワークを提案する。 このシステムは、心内および表面リズムモニターと、データアップロード、診断、CNNモデルのパーソナライズのためのクラウドプラットフォームで構成される。 心内および表面リズムモニターの両方でリアルタイムに推定を行う。 検出精度を向上させるために,協調推論を提案すれば,モニターが協調的にvaを検出することができる。 また,不ラベルで限定されたリズムデータ問題に取り組むために,計算フレームワークに基づく各患者に対するcnnパーソナライゼーションを導入する。 従来の検出アルゴリズムと比較して,提案手法はVAリズム検出と6.6%の不適切な衝撃率の低減に比較して精度が向上し,平均推定遅延は71msに抑えられた。

Life-threatening ventricular arrhythmias (VA) are the leading cause of sudden cardiac death (SCD), which is the most significant cause of natural death in the US. The implantable cardioverter defibrillator (ICD) is a small device implanted to patients under high risk of SCD as a preventive treatment. The ICD continuously monitors the intracardiac rhythm and delivers shock when detecting the life-threatening VA. Traditional methods detect VA by setting criteria on the detected rhythm. However, those methods suffer from a high inappropriate shock rate and require a regular follow-up to optimize criteria parameters for each ICD recipient. To ameliorate the challenges, we propose the personalized computing framework for deep learning based VA detection on medical IoT systems. The system consists of intracardiac and surface rhythm monitors, and the cloud platform for data uploading, diagnosis, and CNN model personalization. We equip the system with real-time inference on both intracardiac and surface rhythm monitors. To improve the detection accuracy, we enable the monitors to detect VA collaboratively by proposing the cooperative inference. We also introduce the CNN personalization for each patient based on the computing framework to tackle the unlabeled and limited rhythm data problem. When compared with the traditional detection algorithm, the proposed method achieves comparable accuracy on VA rhythm detection and 6.6% reduction in inappropriate shock rate, while the average inference latency is kept at 71ms.
翻訳日:2022-10-27 21:24:26 公開日:2020-08-18
# jaccard類似度推定のための微分プライベートスケッチ

Differentially Private Sketches for Jaccard Similarity Estimation ( http://arxiv.org/abs/2008.08134v1 )

ライセンス: Link先を確認
Martin Aum\"uller and Anders Bourgeat and Jana Schmurr(参考訳) 本稿では,これらのベクトル間のJaccard類似性を効率的に推定できるように,ユーザベクトルを解放する2つの局所微分プライベートアルゴリズムについて述べる。 基本的なビルディングブロックは、よく知られたMinHashメソッドである。 プライバシユーティリティのトレードオフを実現するため、MinHashはGeneralized Randomized ResponseとLaplace Mechanismの2つのバリエーションを使用して2つの方法で拡張される。 理論解析は絶対誤差の境界を提供し、実験は合成データと実世界のデータに対するユーティリティ・プライバシーのトレードオフを示す。 論文は関連する仕事に関する批判的な議論で終わる。

This paper describes two locally-differential private algorithms for releasing user vectors such that the Jaccard similarity between these vectors can be efficiently estimated. The basic building block is the well known MinHash method. To achieve a privacy-utility trade-off, MinHash is extended in two ways using variants of Generalized Randomized Response and the Laplace Mechanism. A theoretical analysis provides bounds on the absolute error and experiments show the utility-privacy trade-off on synthetic and real-world data. The paper ends with a critical discussion of related work.
翻訳日:2022-10-27 21:23:51 公開日:2020-08-18
# 可搬性統計モデルを用いたスケーラブルコンビネートベイズ最適化

Scalable Combinatorial Bayesian Optimization with Tractable Statistical models ( http://arxiv.org/abs/2008.08177v1 )

ライセンス: Link先を確認
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa(参考訳) 我々は、組合せ空間(例えば集合、列、木、グラフ)上で高価なブラックボックス関数を最適化する問題を研究する。 BOCS (Baptista and Poloczek, 2018) は、半定値プログラミングに基づく獲得関数最適化 (AFO) を実行し、評価のための次の構造を選択する。 残念ながら、BOCSは多数のバイナリ変数やカテゴリ変数に対して低スケールである。 二次二次プログラムを解くためのサブモジュラリラクゼーション(ito and fujimaki, 2016)の最近の進歩に基づき、bocsモデルにおけるafo問題解決のスケーラビリティと精度の向上を目標としたパラメトリズドサブモジュラリラクゼーション(psr)と呼ばれるアプローチについて検討する。 PSRアプローチは2つの重要なアイデアに依存している。 まず、AFO問題をいくつかの未知パラメータを持つ部分モジュラ緩和として再構成し、最小グラフカットアルゴリズムを用いて効率的に解ける。 第二に、真の目的に近似した未知のパラメータを推定する最適化問題を構築する。 多様なベンチマーク問題に対する実験は、BOCSモデルに対するPSRの大幅な改善を示している。 ソースコードはhttps://github.com/aryandeshwal/submodular_relaxation_bocsで入手できる。

We study the problem of optimizing expensive blackbox functions over combinatorial spaces (e.g., sets, sequences, trees, and graphs). BOCS (Baptista and Poloczek, 2018) is a state-of-the-art Bayesian optimization method for tractable statistical models, which performs semi-definite programming based acquisition function optimization (AFO) to select the next structure for evaluation. Unfortunately, BOCS scales poorly for large number of binary and/or categorical variables. Based on recent advances in submodular relaxation (Ito and Fujimaki, 2016) for solving Binary Quadratic Programs, we study an approach referred as Parametrized Submodular Relaxation (PSR) towards the goal of improving the scalability and accuracy of solving AFO problems for BOCS model. PSR approach relies on two key ideas. First, reformulation of AFO problem as submodular relaxation with some unknown parameters, which can be solved efficiently using minimum graph cut algorithms. Second, construction of an optimization problem to estimate the unknown parameters with close approximation to the true objective. Experiments on diverse benchmark problems show significant improvements with PSR for BOCS model. The source code is available at https://github.com/aryandeshwal/Submodular_Relaxation_BOCS .
翻訳日:2022-10-27 21:23:42 公開日:2020-08-18
# popmag:pop musicの伴奏世代

PopMAG: Pop Music Accompaniment Generation ( http://arxiv.org/abs/2008.07703v1 )

ライセンス: Link先を確認
Yi Ren, Jinzheng He, Xu Tan, Tao Qin, Zhou Zhao, Tie-Yan Liu(参考訳) ポップ音楽では、伴奏は通常、ドラム、ベース、弦楽、ギターといった複数の楽器(曲)で演奏され、メロディと一緒に並べることでより表現力があり、伝染性のある曲を作ることができる。 以前の作品では、複数のトラックを別々に生成し、異なるトラックからの音符は互いに明示的に依存せず、調和モデリングを損なう。 調和性を改善するため,本論文では,単一シーケンスでの同時マルチトラック生成を可能にするMUlti-track MIDI表現(MuMIDI)を提案し,異なるトラックからの音符の依存性を明示的にモデル化する。 これはハーモニーを大幅に改善するが、残念ながらシーケンス長を大きくし、長期的な音楽モデリングの新しい課題をもたらす。 さらに、この問題に対処する2つの新しいテクニックを紹介します。 1) 複数のステップではなく音符の複数の属性(例えば、ピッチ、持続時間、速度)を1ステップでモデル化し、MuMIDIシーケンスの長さを短縮する。 2)音楽の長期依存を捉えるため,メモリとして長期コンテキストを導入する。 当社ではpop music accompaniment generation を popmag と呼んでいる。 複数のデータセット(lmd、freemidi、cpmd、中国のポップソングのプライベートデータセット)でpopmagを主観的および客観的な指標で評価した。 その結果,複数トラック調和モデルと長期コンテキストモデリングにおけるPopMAGの有効性が示された。 特に、PopMAGは、LMD、FreeMidi、CPMDの楽曲と比較すると42\%/38\%/40\%の得票率を獲得し、主観的および客観的な指標から、他の最先端の音楽伴奏生成モデルやマルチトラックMIDI表現よりも大きく優れている。

In pop music, accompaniments are usually played by multiple instruments (tracks) such as drum, bass, string and guitar, and can make a song more expressive and contagious by arranging together with its melody. Previous works usually generate multiple tracks separately and the music notes from different tracks not explicitly depend on each other, which hurts the harmony modeling. To improve harmony, in this paper, we propose a novel MUlti-track MIDI representation (MuMIDI), which enables simultaneous multi-track generation in a single sequence and explicitly models the dependency of the notes from different tracks. While this greatly improves harmony, unfortunately, it enlarges the sequence length and brings the new challenge of long-term music modeling. We further introduce two new techniques to address this challenge: 1) We model multiple note attributes (e.g., pitch, duration, velocity) of a musical note in one step instead of multiple steps, which can shorten the length of a MuMIDI sequence. 2) We introduce extra long-context as memory to capture long-term dependency in music. We call our system for pop music accompaniment generation as PopMAG. We evaluate PopMAG on multiple datasets (LMD, FreeMidi and CPMD, a private dataset of Chinese pop songs) with both subjective and objective metrics. The results demonstrate the effectiveness of PopMAG for multi-track harmony modeling and long-term context modeling. Specifically, PopMAG wins 42\%/38\%/40\% votes when comparing with ground truth musical pieces on LMD, FreeMidi and CPMD datasets respectively and largely outperforms other state-of-the-art music accompaniment generation models and multi-track MIDI representations in terms of subjective and objective metrics.
翻訳日:2022-10-27 21:23:18 公開日:2020-08-18
# one-pixel signature:バックドア検出のためのcnnモデルの特徴付け

One-pixel Signature: Characterizing CNN Models for Backdoor Detection ( http://arxiv.org/abs/2008.07711v1 )

ライセンス: Link先を確認
Shanjiaoyang Huang, Weiqi Peng, Zhiwei Jia, Zhuowen Tu(参考訳) コンボリューションニューラルネットワーク(CNN)のバックドア検出問題に対して,1ピクセルシグネチャと呼ばれる新しい表現を提案する。 我々のタスクは、CNNモデルが未知のTrojanトリガで悪意を持って挿入されたかどうかを検知・分類することである。 ここで、各CNNモデルは、クラス予測に対する最大の変更の結果である逆値であるピクセル・バイ・ピクセルを生成することによって生成されるシグネチャに関連付けられている。 1ピクセルのシグネチャは、cnnアーキテクチャの設計選択や、どのようにトレーニングされたかに依存しない。 ネットワークパラメータにアクセスすることなく、ブラックボックスCNNモデルで効率的に計算できる。 提案した1ピクセルのシグネチャは,既存のバックドアCNN検出/分類手法に比べて(絶対検出精度が約30%向上した)。 1ピクセルシグネチャは、バックドア検出を超えてcnnモデルを特徴付けるために使用できる一般的な表現である。

We tackle the convolution neural networks (CNNs) backdoor detection problem by proposing a new representation called one-pixel signature. Our task is to detect/classify if a CNN model has been maliciously inserted with an unknown Trojan trigger or not. Here, each CNN model is associated with a signature that is created by generating, pixel-by-pixel, an adversarial value that is the result of the largest change to the class prediction. The one-pixel signature is agnostic to the design choice of CNN architectures, and how they were trained. It can be computed efficiently for a black-box CNN model without accessing the network parameters. Our proposed one-pixel signature demonstrates a substantial improvement (by around 30% in the absolute detection accuracy) over the existing competing methods for backdoored CNN detection/classification. One-pixel signature is a general representation that can be used to characterize CNN models beyond backdoor detection.
翻訳日:2022-10-27 21:22:44 公開日:2020-08-18
# domain generalizer: 医療画像におけるドメイン一般化のための数発メタラーニングフレームワーク

Domain Generalizer: A Few-shot Meta Learning Framework for Domain Generalization in Medical Imaging ( http://arxiv.org/abs/2008.07724v1 )

ライセンス: Link先を確認
Pulkit Khandelwal and Paul Yushkevich(参考訳) ディープラーニングモデルは、ソース(トレーニング)ドメインの集合に類似した分布を持つターゲット(テスト)データドメインでテストした場合、最もパフォーマンスが良い。 しかし、モデル一般化は、ターゲットドメインとソースドメインの間に基盤となる統計に大きな違いがある場合に妨げられる。 本研究では,モデル非依存なメタラーニングフレームワークに基づく領域一般化法を生体イメージングに適用する。 ドメインに依存しない特徴表現を学習し、未知のテスト分布に対するモデルの一般化を改善する。 この方法は、基礎となるモデルアーキテクチャに依存しないため、任意のイメージングタスクに使用できる。 本研究はCT(Computed tomography)を用いて,3つのデータセットの健常例と病理症例にまたがってアプローチを検証する。 次に,unseenドメインのごく少数の例を使って一般化モデルをトレーニングし,そのモデルを新たな未認識データ分布に迅速に適応する,限定的な学習を行う。 以上の結果から, この手法は, 異なる医療センター, 画像取得プロトコル, 解剖学, 特定のスキャン領域, 様々な画像モダリティにまたがる健康集団, 疾病集団のモデルの普及に寄与する可能性が示唆された。

Deep learning models perform best when tested on target (test) data domains whose distribution is similar to the set of source (train) domains. However, model generalization can be hindered when there is significant difference in the underlying statistics between the target and source domains. In this work, we adapt a domain generalization method based on a model-agnostic meta-learning framework to biomedical imaging. The method learns a domain-agnostic feature representation to improve generalization of models to the unseen test distribution. The method can be used for any imaging task, as it does not depend on the underlying model architecture. We validate the approach through a computed tomography (CT) vertebrae segmentation task across healthy and pathological cases on three datasets. Next, we employ few-shot learning, i.e. training the generalized model using very few examples from the unseen domain, to quickly adapt the model to new unseen data distribution. Our results suggest that the method could help generalize models across different medical centers, image acquisition protocols, anatomies, different regions in a given scan, healthy and diseased populations across varied imaging modalities.
翻訳日:2022-10-27 21:22:28 公開日:2020-08-18
# ディフォモーフィックテンプレート推定による自己教師付きデノジング:光コヒーレンストモグラフィへの応用

Self-supervised Denoising via Diffeomorphic Template Estimation: Application to Optical Coherence Tomography ( http://arxiv.org/abs/2008.08024v1 )

ライセンス: Link先を確認
Guillaume Gisbert, Neel Dey, Hiroshi Ishikawa, Joel Schuman, James Fishbaugh, Guido Gerig(参考訳) 光コヒーレンス断層撮影(oct)は眼科の研究と臨床の両方で広く行われている。 しかし、OCT画像はノイズによって強く劣化し、解釈が制限される。 現在のオクター・デノイザーはノイズ分布の仮定を活用し、繰り返し獲得の平均化を通じて深い教師付きデノイザーを訓練するためのターゲットを生成する。 しかし、近年の自己教師ありの進歩により、クリーンな目標を根拠とすることなく繰り返し取得のみを使用して、深層雑音ネットワークの訓練が可能となり、教師付き学習の負担が軽減された。 自己監督法では明らかな利点があるが,眼球運動が不随意であることから,OCTは同一被験者のシーケンシャルスキャンにおいても強い構造変化を示すため,使用は禁止されている。 さらに、繰り返しの直接非線形アライメントは、画像間のノイズの相関を誘導する。 本稿では,移動復調繰り返し獲得における自己教師型デノナイジングを,雑音の再現性を実証的に登録することなく利用できる,共同微分型テンプレート推定・デノナイジングフレームワークを提案する。 OCT画像のノイズ化には質的,定量的な改善が見られ,マルチ露光に適応可能な画像モダリティには汎用性がある。

Optical Coherence Tomography (OCT) is pervasive in both the research and clinical practice of Ophthalmology. However, OCT images are strongly corrupted by noise, limiting their interpretation. Current OCT denoisers leverage assumptions on noise distributions or generate targets for training deep supervised denoisers via averaging of repeat acquisitions. However, recent self-supervised advances allow the training of deep denoising networks using only repeat acquisitions without clean targets as ground truth, reducing the burden of supervised learning. Despite the clear advantages of self-supervised methods, their use is precluded as OCT shows strong structural deformations even between sequential scans of the same subject due to involuntary eye motion. Further, direct nonlinear alignment of repeats induces correlation of the noise between images. In this paper, we propose a joint diffeomorphic template estimation and denoising framework which enables the use of self-supervised denoising for motion deformed repeat acquisitions, without empirically registering their noise realizations. Strong qualitative and quantitative improvements are achieved in denoising OCT images, with generic utility in any imaging modality amenable to multiple exposures.
翻訳日:2022-10-27 21:21:55 公開日:2020-08-18
# DeepLiDARFlow: 単眼カメラとスパースLiDARを用いたシーンフロー推定のためのディープラーニングアーキテクチャ

DeepLiDARFlow: A Deep Learning Architecture For Scene Flow Estimation Using Monocular Camera and Sparse LiDAR ( http://arxiv.org/abs/2008.08136v1 )

ライセンス: Link先を確認
Rishav, Ramy Battrawy, Ren\'e Schuster, Oliver Wasenm\"uller and Didier Stricker(参考訳) シーンフローは、シーンの動きと幾何学の密集した3次元再構成である。 ほとんどの最先端の手法では、ステレオ画像を入力としてフルシーン再構築に使っている。 これらの手法はRGB画像の品質に大きく依存しており、反射物体や影、不調な光環境などの領域では性能が悪い。 LiDAR測定は上記の条件に対してはるかに感度が低いが、LiDARの特徴は、その粗い性質のため、一般には整合性に不適である。 したがって、LiDARとRGBの両方を使用することで、相互改善によって各センサの個々の欠点を克服し、マッチングプロセスを改善する堅牢な特徴を得ることができる。 本稿では,高レベルなrgbとlidar機能を複数のスケールで融合して,濃密なシーンフローを予測する,新しいディープラーニングアーキテクチャであるdeeplidarflowを提案する。 画像のみとLiDARのみのメソッドが不正確である臨界領域では、パフォーマンスがはるかに向上する。 我々は,確立されたデータセットKITTIとFlyingThings3Dを用いてDeepLiDARFlowを検証する。 私たちの論文のコードはhttps://github.com/dfki-av/deeplidarflowで閲覧できます。

Scene flow is the dense 3D reconstruction of motion and geometry of a scene. Most state-of-the-art methods use a pair of stereo images as input for full scene reconstruction. These methods depend a lot on the quality of the RGB images and perform poorly in regions with reflective objects, shadows, ill-conditioned light environment and so on. LiDAR measurements are much less sensitive to the aforementioned conditions but LiDAR features are in general unsuitable for matching tasks due to their sparse nature. Hence, using both LiDAR and RGB can potentially overcome the individual disadvantages of each sensor by mutual improvement and yield robust features which can improve the matching process. In this paper, we present DeepLiDARFlow, a novel deep learning architecture which fuses high level RGB and LiDAR features at multiple scales in a monocular setup to predict dense scene flow. Its performance is much better in the critical regions where image-only and LiDAR-only methods are inaccurate. We verify our DeepLiDARFlow using the established data sets KITTI and FlyingThings3D and we show strong robustness compared to several state-of-the-art methods which used other input modalities. The code of our paper is available at https://github.com/dfki-av/DeepLiDARFlow.
翻訳日:2022-10-27 21:21:33 公開日:2020-08-18
# ロボットサッカーにおける強化学習と即時学習の枠組み

A Framework for Studying Reinforcement Learning and Sim-to-Real in Robot Soccer ( http://arxiv.org/abs/2008.12624v1 )

ライセンス: Link先を確認
Hansenclever F. Bassani, Renie A. Delgado, Jos\'e Nilton de O. Lima Junior, Heitor R. Medeiros, Pedro H. M. Braga, Mateus G. Machado, Lucas H. C. Santos and Alain Tapp(参考訳) 本稿では,ロボットサッカーにおけるReinforcement Learning (RL)とsim-to-realを研究するためのオープンフレームワークであるVSSS-RLを紹介し,IEEE Very Small Size Soccer (VSSS) リーグに着目した。 サッカーエージェントの完全な行動を制御するために,連続的あるいは離散的な制御ポリシーを訓練できるシミュレーション環境と,得られたポリシーを実際のロボットに適用するためのドメイン適応に基づくsim-to-real手法を提案する。 本研究の結果から,手作り制御政策の実施が困難な行動の幅広いレパートリーを学習したことが示唆された。 vsss-rlでは、2019年のラテン・アメリカン・ロボティクス・コンペティション(larc)で、人間設計のポリシーを破ることができ、21チーム中4位を獲得し、このコンペティションで最初に強化学習(rl)を適用した。 環境仕様とハードウェア仕様の両方がオープンソースで公開されており、その結果の再現性とさらなる研究を可能にする。

This article introduces an open framework, called VSSS-RL, for studying Reinforcement Learning (RL) and sim-to-real in robot soccer, focusing on the IEEE Very Small Size Soccer (VSSS) league. We propose a simulated environment in which continuous or discrete control policies can be trained to control the complete behavior of soccer agents and a sim-to-real method based on domain adaptation to adapt the obtained policies to real robots. Our results show that the trained policies learned a broad repertoire of behaviors that are difficult to implement with handcrafted control policies. With VSSS-RL, we were able to beat human-designed policies in the 2019 Latin American Robotics Competition (LARC), achieving 4th place out of 21 teams, being the first to apply Reinforcement Learning (RL) successfully in this competition. Both environment and hardware specifications are available open-source to allow reproducibility of our results and further studies.
翻訳日:2022-10-27 21:14:47 公開日:2020-08-18
# 交互マニフォールド近位勾配継続法によるロバスト低ランク行列補完

Robust Low-rank Matrix Completion via an Alternating Manifold Proximal Gradient Continuation Method ( http://arxiv.org/abs/2008.07740v1 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma, Lifeng Lai(参考訳) ロバストな低ランク行列補完(rmc)、あるいは部分的に観測されたデータを用いたロバスト主成分分析は、コンピュータビジョン、信号処理、機械学習アプリケーションのために広く研究されてきた。 この問題は、部分的に観測された行列を低ランク行列とスパース行列の重ね合わせに分解することを目的としている。 RMCに取り組むために広く用いられるアプローチは、低ランク行列の核ノルム(低ランク性を促進するために)とスパース行列のl1ノルム(空間性を促進するために)を最小化する凸定式化を考えることである。 本稿では、低ランク行列完備化とリーマン最適化に関する最近の研究に動機付けられ、この問題をグラスマン多様体上の非滑らかリーマン最適化問題として定式化する。 この新たな定式化は、低ランク行列が2つのより小さな行列の乗算に分解されるため、スケーラブルである。 そこで我々は,新しい定式化を解くために,交互多様体近位勾配継続法(AManPGC)を提案する。 提案アルゴリズムの収束速度を厳密に解析する。 監視ビデオからの背景抽出における合成データと実データの両方に関する数値的な結果が報告され, 既存のいくつかの手法に対する新たな定式化とアルゴリズムの利点が示された。

Robust low-rank matrix completion (RMC), or robust principal component analysis with partially observed data, has been studied extensively for computer vision, signal processing and machine learning applications. This problem aims to decompose a partially observed matrix into the superposition of a low-rank matrix and a sparse matrix, where the sparse matrix captures the grossly corrupted entries of the matrix. A widely used approach to tackle RMC is to consider a convex formulation, which minimizes the nuclear norm of the low-rank matrix (to promote low-rankness) and the l1 norm of the sparse matrix (to promote sparsity). In this paper, motivated by some recent works on low-rank matrix completion and Riemannian optimization, we formulate this problem as a nonsmooth Riemannian optimization problem over Grassmann manifold. This new formulation is scalable because the low-rank matrix is factorized to the multiplication of two much smaller matrices. We then propose an alternating manifold proximal gradient continuation (AManPGC) method to solve the proposed new formulation. The convergence rate of the proposed algorithm is rigorously analyzed. Numerical results on both synthetic data and real data on background extraction from surveillance videos are reported to demonstrate the advantages of the proposed new formulation and algorithm over several popular existing approaches.
翻訳日:2022-10-27 21:14:21 公開日:2020-08-18
# 微分可能なランダム変換による効率的なプライベート機械学習

Efficient Private Machine Learning by Differentiable Random Transformations ( http://arxiv.org/abs/2008.07758v1 )

ライセンス: Link先を確認
Fei Zheng(参考訳) 近年、プライバシー保護の要求が高まり、多くのプライバシー保護機械学習システムが提案されている。 しかし、そのほとんどは、ホモモルフィック暗号化とセキュアなマルチパーティ計算(MPC)手法の重いコストによる訓練の遅さと推論速度のため、本番環境に投入できない。 これを回避するために、機械学習タスクにおける大量のデータに適したプライバシー定義を提案しました。 それに基づいて、線形変換やランダム置換のようなランダム変換がプライバシーを保護できることを示した。 ランダム変換と算術共有を融合して、高効率で低計算コストのプライベート機械学習のためのフレームワークを設計しました。

With the increasing demands for privacy protection, many privacy-preserving machine learning systems were proposed in recent years. However, most of them cannot be put into production due to their slow training and inference speed caused by the heavy cost of homomorphic encryption and secure multiparty computation(MPC) methods. To circumvent this, I proposed a privacy definition which is suitable for large amount of data in machine learning tasks. Based on that, I showed that random transformations like linear transformation and random permutation can well protect privacy. Merging random transformations and arithmetic sharing together, I designed a framework for private machine learning with high efficiency and low computation cost.
翻訳日:2022-10-27 21:13:44 公開日:2020-08-18
# 共有mf: プライバシー保護型レコメンデーションシステム

Shared MF: A privacy-preserving recommendation system ( http://arxiv.org/abs/2008.07759v1 )

ライセンス: Link先を確認
Senci Ying(参考訳) マトリックス分解はレコメンデーションシステムにおいて最もよく使われる技術の一つである。 電子商取引やオンラインビデオなどにおけるレコメンデーションシステムの普及に伴い、分散レコメンデーションシステムは広く普及し、マルチソースデータのプライバシー問題はますます重要になっている。 本稿では,連合学習技術に基づき,共有行列因子化手法sharedmfを提案する。 まず、分散レコメンデーションシステムを構築し、その後、ローカルデータのプライバシを保護するためにシークレット共有技術を使用する。 実験の結果,既存の準同型暗号法と比較して,プライバシの開示なく実行速度が速くなり,大量のデータを用いたレコメンデーションシナリオへの適応性が向上した。

Matrix factorization is one of the most commonly used technologies in recommendation system. With the promotion of recommendation system in e-commerce shopping, online video and other aspects, distributed recommendation system has been widely promoted, and the privacy problem of multi-source data becomes more and more important. Based on Federated learning technology, this paper proposes a shared matrix factorization scheme called SharedMF. Firstly, a distributed recommendation system is built, and then secret sharing technology is used to protect the privacy of local data. Experimental results show that compared with the existing homomorphic encryption methods, our method can have faster execution speed without privacy disclosure, and can better adapt to recommendation scenarios with large amount of data.
翻訳日:2022-10-27 21:13:33 公開日:2020-08-18
# 協調型多ロボット深部強化学習におけるシム・トゥ・リアルギャップの閉鎖に向けて

Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep Reinforcement Learning ( http://arxiv.org/abs/2008.07875v1 )

ライセンス: Link先を確認
Wenshuai Zhao, Jorge Pe\~na Queralta, Li Qingqing, Tomi Westerlund(参考訳) 深層強化学習の現在の研究方向は、シミュレーションと現実のギャップを埋めること、分散マルチエージェント強化学習における経験のサンプル効率の向上、分散学習における敵エージェントに対する堅牢な手法の開発などである。 本研究では,異なるロボットの操作が必ずしも均質ではない分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実へのギャップをいかに橋渡しできるかを分析することに関心を寄せる。 これらのバリエーションは、ミスマッチの感知、機械関節のキャリブレーションの固有の誤り、または精度の単純な違いによって起こりうる。 実験結果はシミュレーションベースであるが,ppo(proximal policy optimization)を用いた分散強化学習におけるセンサ,キャリブレーション,精度ミスマッチの効果について紹介する。 異なる種類の摂動とそれらの摂動を経験するエージェントの数の両方が協調学習にどのように影響するかについて議論する。 シミュレーションはBullet物理エンジンのKukaアームモデルを用いて行われる。 これは、私たちの知る限りでは、複数のロボットがセンサーやアクチュエーターがエラーを誘発する異なる環境に暴露される可能性があるという、マルチロボットシステムにおけるPPOの限界を探求する最初の研究である。 本研究の結末により,マルチロボットシステムにおける実世界ペルタバンスの存在下での強固な強化学習を実現するための手法の設計と開発に関する今後の取り組みの出発点を定式化した。

Current research directions in deep reinforcement learning include bridging the simulation-reality gap, improving sample efficiency of experiences in distributed multi-agent reinforcement learning, together with the development of robust methods against adversarial agents in distributed learning, among many others. In this work, we are particularly interested in analyzing how multi-agent reinforcement learning can bridge the gap to reality in distributed multi-robot systems where the operation of the different robots is not necessarily homogeneous. These variations can happen due to sensing mismatches, inherent errors in terms of calibration of the mechanical joints, or simple differences in accuracy. While our results are simulation-based, we introduce the effect of sensing, calibration, and accuracy mismatches in distributed reinforcement learning with proximal policy optimization (PPO). We discuss on how both the different types of perturbances and how the number of agents experiencing those perturbances affect the collaborative learning effort. The simulations are carried out using a Kuka arm model in the Bullet physics engine. This is, to the best of our knowledge, the first work exploring the limitations of PPO in multi-robot systems when considering that different robots might be exposed to different environments where their sensors or actuators have induced errors. With the conclusions of this work, we set the initial point for future work on designing and developing methods to achieve robust reinforcement learning on the presence of real-world perturbances that might differ within a multi-robot system.
翻訳日:2022-10-27 21:13:21 公開日:2020-08-18
# 自動符号化レコメンダの構造学習

Learning the Structure of Auto-Encoding Recommenders ( http://arxiv.org/abs/2008.07956v1 )

ライセンス: Link先を確認
Farhan Khawar, Leonard Kin Man Poon, Nevin Lianwen Zhang(参考訳) autoencoder recommendersは、非線形項目関係を効果的にモデル化できるため、レコメンデーションタスクにおける最先端のパフォーマンスを示している。 しかし、既存のオートエンコーダは、完全に接続されたニューラルネットワーク層を使用し、構造学習を採用しない。 これは非効率なトレーニングにつながる可能性がある。特にコラボレーティブフィルタリングでよく見られるようにデータが不足している場合だ。 上記の結果は、一般化能力の低下と性能の低下をもたらす。 本稿では,協調フィルタリング領域に存在する固有項目群を利用して,オートエンコーダの推薦者に対する構造学習を提案する。 一般にアイテムの性質から、特定のアイテムは他のアイテムよりも互いに関連していることが分かる。 そこで本研究では,まず関連項目のグループを学習し,その情報を用いて自動符号化ニューラルネットワークの接続構造を決定する手法を提案する。 その結果、ネットワークは疎結合となる。 このスパース構造は、ネットワークトレーニングをガイドする前者と見なすことができる。 実験により,提案する構造学習により,完全接続ネットワークよりもはるかに小さいスペクトルノルムと一般化誤差で,オートエンコーダが局所最適に収束できることを実証する。 結果として生じるスパースネットワークは、同じ数のパラメータとフロップが使用されている場合でも、複数のベンチマークデータセットで \textsc{mult-vae/mult-dae} のような最先端のメソッドを大幅に上回っている。 また、コールドスタート性能も向上している。

Autoencoder recommenders have recently shown state-of-the-art performance in the recommendation task due to their ability to model non-linear item relationships effectively. However, existing autoencoder recommenders use fully-connected neural network layers and do not employ structure learning. This can lead to inefficient training, especially when the data is sparse as commonly found in collaborative filtering. The aforementioned results in lower generalization ability and reduced performance. In this paper, we introduce structure learning for autoencoder recommenders by taking advantage of the inherent item groups present in the collaborative filtering domain. Due to the nature of items in general, we know that certain items are more related to each other than to other items. Based on this, we propose a method that first learns groups of related items and then uses this information to determine the connectivity structure of an auto-encoding neural network. This results in a network that is sparsely connected. This sparse structure can be viewed as a prior that guides the network training. Empirically we demonstrate that the proposed structure learning enables the autoencoder to converge to a local optimum with a much smaller spectral norm and generalization error bound than the fully-connected network. The resultant sparse network considerably outperforms the state-of-the-art methods like \textsc{Mult-vae/Mult-dae} on multiple benchmarked datasets even when the same number of parameters and flops are used. It also has a better cold-start performance.
翻訳日:2022-10-27 21:12:34 公開日:2020-08-18
# 微分プライベートクラスタリング:密接な近似比

Differentially Private Clustering: Tight Approximation Ratios ( http://arxiv.org/abs/2008.08007v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) 差分プライベートクラスタリングの課題について検討する。 Euclidean DensestBall, 1-Cluster, k-means, k-medianなど,いくつかの基本的なクラスタリング問題に対して,任意の非プライベートアルゴリズムで得られるものと同じ近似比を本質的に達成する,効率的な微分プライベートアルゴリズムを提供する。 これにより、ある大きな定数近似係数のみを達成する既存の効率的なアルゴリズムが改善される。 この結果から,サンプルおよびアグリゲートプライバシフレームワークのための改良アルゴリズムも示唆された。 さらに、我々の1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得られることを示す。

We study the task of differentially private clustering. For several basic clustering problems, including Euclidean DensestBall, 1-Cluster, k-means, and k-median, we give efficient differentially private algorithms that achieve essentially the same approximation ratios as those that can be obtained by any non-private algorithm, while incurring only small additive errors. This improves upon existing efficient algorithms that only achieve some large constant approximation factors. Our results also imply an improved algorithm for the Sample and Aggregate privacy framework. Furthermore, we show that one of the tools used in our 1-Cluster algorithm can be employed to get a faster quantum algorithm for ClosestPair in a moderate number of dimensions.
翻訳日:2022-10-27 21:12:09 公開日:2020-08-18
# 密層相互蒸留による知識伝達

Knowledge Transfer via Dense Cross-Layer Mutual-Distillation ( http://arxiv.org/abs/2008.07816v1 )

ライセンス: Link先を確認
Anbang Yao, Dawei Sun(参考訳) 知識蒸留(kd)ベースの方法は、予め訓練された高容量教員ネットワークにより、低容量学生ネットワークを訓練する片道知識伝達(kt)方式を採用する。 近年,deep mutual learning (dml) が2方向kt戦略を提示し,教師ネットワークの改善にも学生ネットワークが有効であることを示した。 本稿では,教師と学生のネットワークをゼロから協調的に訓練する改良された双方向KT法であるDense Cross-layer Mutual-distillation (DCM)を提案する。 知識表現学習を増強するため、教師と生徒のネットワークの隠れた層によく設計された補助分類器を追加する。 KT性能を高めるために,分類器を付加した層間での高密度双方向KD演算を導入する。 トレーニング後、すべての補助分類器は破棄され、最終モデルに追加のパラメータは導入されない。 提案手法は様々なKTタスクでテストし,関連する手法よりも優れていることを示す。 コードはhttps://github.com/sundw2014/DCMで入手できる。

Knowledge Distillation (KD) based methods adopt the one-way Knowledge Transfer (KT) scheme in which training a lower-capacity student network is guided by a pre-trained high-capacity teacher network. Recently, Deep Mutual Learning (DML) presented a two-way KT strategy, showing that the student network can be also helpful to improve the teacher network. In this paper, we propose Dense Cross-layer Mutual-distillation (DCM), an improved two-way KT method in which the teacher and student networks are trained collaboratively from scratch. To augment knowledge representation learning, well-designed auxiliary classifiers are added to certain hidden layers of both teacher and student networks. To boost KT performance, we introduce dense bidirectional KD operations between the layers appended with classifiers. After training, all auxiliary classifiers are discarded, and thus there are no extra parameters introduced to final models. We test our method on a variety of KT tasks, showing its superiorities over related methods. Code is available at https://github.com/sundw2014/DCM
翻訳日:2022-10-27 21:05:06 公開日:2020-08-18
# バイアス低減モデルを用いた無注:シーングラフ生成

Tackling the Unannotated: Scene Graph Generation with Bias-Reduced Models ( http://arxiv.org/abs/2008.07832v1 )

ライセンス: Link先を確認
Tzu-Jui Julius Wang, Selen Pehlivan, Jorma Laaksonen(参考訳) 画像中の視覚的実体とその相互作用をキャプチャするシーングラフの予測は、シーン全体を理解するための重要なステップと考えられている。 最近のシーングラフ生成(sgg)モデルは、視覚エンティティ間の最も頻繁な関係を捉える能力を示している。 しかし、最先端の結果はまだ満足できない。例えば、モデルが全体のリコールR@100で31%を獲得できるのに対して、クラスのリコールmR@100はVisual Genome(VG)で8%程度しか得られない。 RとmRの結果の相違は、高いRを追求する点から、高いmRに焦点を移すことを促す。我々は、観察された相違点がVGのアノテーションバイアスとスパースアノテーションの両方に由来すると推測する。 そこで本研究では,自己学習型知識を活用した新しいSGG学習手法を提案する。 これは2つの関係分類器を含み、1つはバイアスの少ない設定を提供し、もう1つはベースとなる。 提案手法は既存のSGGモデルの多くに適用可能であり,実装が容易である。 我々は、mR(+6.6%と+20.4%)とR(-2.4%と0.3%)を標準のSGGタスクで比較した。

Predicting a scene graph that captures visual entities and their interactions in an image has been considered a crucial step towards full scene comprehension. Recent scene graph generation (SGG) models have shown their capability of capturing the most frequent relations among visual entities. However, the state-of-the-art results are still far from satisfactory, e.g. models can obtain 31% in overall recall R@100, whereas the likewise important mean class-wise recall mR@100 is only around 8% on Visual Genome (VG). The discrepancy between R and mR results urges to shift the focus from pursuing a high R to a high mR with a still competitive R. We suspect that the observed discrepancy stems from both the annotation bias and sparse annotations in VG, in which many visual entity pairs are either not annotated at all or only with a single relation when multiple ones could be valid. To address this particular issue, we propose a novel SGG training scheme that capitalizes on self-learned knowledge. It involves two relation classifiers, one offering a less biased setting for the other to base on. The proposed scheme can be applied to most of the existing SGG models and is straightforward to implement. We observe significant relative improvements in mR (between +6.6% and +20.4%) and competitive or better R (between -2.4% and 0.3%) across all standard SGG tasks.
翻訳日:2022-10-27 21:04:47 公開日:2020-08-18
# ベンガル手書きデジタル認識のためのNumtaDBの画像前処理

Image Pre-processing on NumtaDB for Bengali Handwritten Digit Recognition ( http://arxiv.org/abs/2008.07853v1 )

ライセンス: Link先を確認
Ovi Paul(参考訳) NumtaDBは、ベンガル最大の手書き桁のデータセットコレクションである。 これは85,000以上の画像を含む多様なデータセットである。 しかし、この多様性は、このデータセットを扱うのを非常に困難にします。 本稿の目的は,任意の機械学習モデルにおいて精度の高い事前処理画像のベンチマークを見つけることである。 理由は、ベンガルの数字認識のための事前処理されたデータは、MNISTの英語数字と同じように動作できないからだ。

NumtaDB is by far the largest data-set collection for handwritten digits in Bengali. This is a diverse dataset containing more than 85000 images. But this diversity also makes this dataset very difficult to work with. The goal of this paper is to find the benchmark for pre-processed images which gives good accuracy on any machine learning models. The reason being, there are no available pre-processed data for Bengali digit recognition to work with like the English digits for MNIST.
翻訳日:2022-10-27 21:04:18 公開日:2020-08-18
# 物体検出改善のための強化学習

Reinforcement Learning for Improving Object Detection ( http://arxiv.org/abs/2008.08005v1 )

ライセンス: Link先を確認
Siddharth Nayak and Balaraman Ravindran(参考訳) トレーニングされたオブジェクト検出ニューラルネットワークの性能は、画像の品質に大きく依存します。 一般的に、画像はニューラルネットワークに入力する前に前処理され、画像データセットに関するドメイン知識が前処理テクニックの選択に使用される。 本稿では,事前学習したネットワークのオブジェクト検出性能を向上させるために,特定の事前処理量を選択するObjectRLというアルゴリズムを提案する。 objectrlの主な動機は、人間の目によく見える画像が、事前に訓練された物体検出器が物体を検出するのに最適なものとは限らないことである。

The performance of a trained object detection neural network depends a lot on the image quality. Generally, images are pre-processed before feeding them into the neural network and domain knowledge about the image dataset is used to choose the pre-processing techniques. In this paper, we introduce an algorithm called ObjectRL to choose the amount of a particular pre-processing to be applied to improve the object detection performances of pre-trained networks. The main motivation for ObjectRL is that an image which looks good to a human eye may not necessarily be the optimal one for a pre-trained object detector to detect objects.
翻訳日:2022-10-27 21:03:50 公開日:2020-08-18
# 限定データと雑音データを用いたロバスト手書き認識

Robust Handwriting Recognition with Limited and Noisy Data ( http://arxiv.org/abs/2008.08148v1 )

ライセンス: Link先を確認
Hai Pham, Amrith Setlur, Saket Dingliwal, Tzu-Hsiang Lin, Barnabas Poczos, Kang Huang, Zhuo Li, Jae Lim, Collin McCormack, Tam Vu(参考訳) コンピュータビジョンにおけるディープラーニングの出現にもかかわらず、一般的な手書き認識問題は解決には程遠い。 既存のアプローチのほとんどは、明確なテキストと慎重に分割されたラベルを持つ手書きデータセットに焦点を当てている。 本稿では,保守ログから手書き文字を学習することに集中する。 問題を単語分割と単語認識の2つの段階に分け,データ拡張技術を用いて両方の段階を訓練する。 シーンテキスト検出および単語認識のための一般的なベースラインとの比較により,本システムは誤り率を低くし,難易度の高い文書を扱うのに適していることが示された。

Despite the advent of deep learning in computer vision, the general handwriting recognition problem is far from solved. Most existing approaches focus on handwriting datasets that have clearly written text and carefully segmented labels. In this paper, we instead focus on learning handwritten characters from maintenance logs, a constrained setting where data is very limited and noisy. We break the problem into two consecutive stages of word segmentation and word recognition respectively and utilize data augmentation techniques to train both stages. Extensive comparisons with popular baselines for scene-text detection and word recognition show that our system achieves a lower error rate and is more suited to handle noisy and difficult documents
翻訳日:2022-10-27 21:03:42 公開日:2020-08-18
# リレーショナルリフレクションエンティティアライメント

Relational Reflection Entity Alignment ( http://arxiv.org/abs/2008.07962v1 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Huimin Xu, Yuanbin Wu, Man Lan(参考訳) エンティティアライメントは、異なる知識グラフ(KG)から同等のエンティティペアを識別することを目的としている。 近年、GNNがエンティティアライメントに導入されたことにより、最近のモデルのアーキテクチャはますます複雑になっている。 これらの方法では、(1)gnnの標準線型変換はうまく機能していない。 2)リンク予測タスク用に設計された多くの高度なkg埋め込みモデルは、エンティティアライメントが不十分である。 本稿では、既存のエンティティアライメント手法を、上記の現象をうまく説明できるだけでなく、理想的な変換操作のための2つの重要な基準を導出する、シェープビルダーとアライメントという統一フレームワークに抽象化する。 さらに,新しいGNNに基づくリレーショナルリフレクション・エンティティアライメント(RREA)を提案する。 RREAはリレーショナル・リフレクション・トランスフォーメーション(Relational Reflection Transformation)を利用して、より効率的な方法で各エンティティに対する関係特異的な埋め込みを得る。 実世界のデータセットにおける実験結果は、hit@1で5.8%-10.9%を超える最先端の手法を大幅に上回っていることを示している。

Entity alignment aims to identify equivalent entity pairs from different Knowledge Graphs (KGs), which is essential in integrating multi-source KGs. Recently, with the introduction of GNNs into entity alignment, the architectures of recent models have become more and more complicated. We even find two counter-intuitive phenomena within these methods: (1) The standard linear transformation in GNNs is not working well. (2) Many advanced KG embedding models designed for link prediction task perform poorly in entity alignment. In this paper, we abstract existing entity alignment methods into a unified framework, Shape-Builder & Alignment, which not only successfully explains the above phenomena but also derives two key criteria for an ideal transformation operation. Furthermore, we propose a novel GNNs-based method, Relational Reflection Entity Alignment (RREA). RREA leverages Relational Reflection Transformation to obtain relation specific embeddings for each entity in a more efficient way. The experimental results on real-world datasets show that our model significantly outperforms the state-of-the-art methods, exceeding by 5.8%-10.9% on Hits@1.
翻訳日:2022-10-27 21:03:18 公開日:2020-08-18
# 偽トリガー除去のための補完言語モデルと並列Bi-LRNN

Complementary Language Model and Parallel Bi-LRNN for False Trigger Mitigation ( http://arxiv.org/abs/2008.08113v1 )

ライセンス: Link先を確認
Rishika Agarwal, Xiaochuan Niu, Pranay Dighe, Srikanth Vishnubhotla, Sameer Badaskar, Devang Naik(参考訳) 音声アシスタントの誤ったトリガーは、意図しないアシスタントの呼び出しであり、ユーザー体験を損なうだけでなく、プライバシーを侵害する可能性がある。 false trigger mitigation (ftm) は、偽のトリガイベントを検出し、ユーザに適切に応答するプロセスである。 本稿では,ドメイン外データソースから学習した特別な言語モデルを用いた並列ASR復号処理を導入することで,FTM問題に対する新しい解を提案する。 このような言語モデルは、アシスタントタスクに最適化された既存の言語モデルを補完するものだ。 相補的な言語モデルによって生成された格子から訓練された双方向格子RNN(Bi-LRNN)分類器は、現在のBi-LRNNモデルと比較して、正しい呼び出しの0.4\%の偽トリガ(FT)レートを固定レートで38.34\%の相対的に減少させる。 さらに,両言語モデルからのデコード格子に基づく並列Bi-LRNNモデルを訓練し,様々な実装方法を検討することを提案する。 結果として得られたモデルは、偽トリガーレートを10.8\%$に下げる。

False triggers in voice assistants are unintended invocations of the assistant, which not only degrade the user experience but may also compromise privacy. False trigger mitigation (FTM) is a process to detect the false trigger events and respond appropriately to the user. In this paper, we propose a novel solution to the FTM problem by introducing a parallel ASR decoding process with a special language model trained from "out-of-domain" data sources. Such language model is complementary to the existing language model optimized for the assistant task. A bidirectional lattice RNN (Bi-LRNN) classifier trained from the lattices generated by the complementary language model shows a $38.34\%$ relative reduction of the false trigger (FT) rate at the fixed rate of $0.4\%$ false suppression (FS) of correct invocations, compared to the current Bi-LRNN model. In addition, we propose to train a parallel Bi-LRNN model based on the decoding lattices from both language models, and examine various ways of implementation. The resulting model leads to further reduction in the false trigger rate by $10.8\%$.
翻訳日:2022-10-27 21:02:57 公開日:2020-08-18
# 形式的にロバストな時系列距離測定

A Formally Robust Time Series Distance Metric ( http://arxiv.org/abs/2008.07865v1 )

ライセンス: Link先を確認
Maximilian Toller, Bernhard C. Geiger, Roman Kern(参考訳) 距離に基づく分類は時系列データにおいて最も競争力のある分類手法である。 距離に基づく分類の最も重要な要素は、選択された距離関数である。 過去の研究では、実世界の時系列データの特定の側面に特化した様々な異なる距離の計測や測定方法が提案されているが、これまで検討されていない重要な側面がある。 本研究では、任意の「悪い」汚染に対して頑健で、最悪の計算複雑性が$\mathcal{O}(n\log n)$である新しい距離計量を提案する。 我々は,提案手法がロバストである理由を形式的に議論し,k-ネアレスト近傍の時系列分類に適用すると,その基準が競合的分類精度をもたらすことを実証的に評価した。

Distance-based classification is among the most competitive classification methods for time series data. The most critical component of distance-based classification is the selected distance function. Past research has proposed various different distance metrics or measures dedicated to particular aspects of real-world time series data, yet there is an important aspect that has not been considered so far: Robustness against arbitrary data contamination. In this work, we propose a novel distance metric that is robust against arbitrarily "bad" contamination and has a worst-case computational complexity of $\mathcal{O}(n\log n)$. We formally argue why our proposed metric is robust, and demonstrate in an empirical evaluation that the metric yields competitive classification accuracy when applied in k-Nearest Neighbor time series classification.
翻訳日:2022-10-27 20:56:42 公開日:2020-08-18
# NBA選手の多モード軌道予測

Multi-Modal Trajectory Prediction of NBA Players ( http://arxiv.org/abs/2008.07870v1 )

ライセンス: Link先を確認
Sandro Hauri, Nemanja Djuric, Vladan Radosavljevic, Slobodan Vucetic(参考訳) ナショナル・バスケットボール・アソシエーション (NBA) の選手は、ゲーム中の全ての時点において複雑な意思決定問題を解決する、非常にモチベーションが高く熟練した専門家である。 プレイヤーの意思決定の仕方を理解するためのステップとして、ゲーム中の動きの軌跡に焦点を当てる。 本稿では,プレイヤーのマルチモーダル動作をキャプチャし,複数のトラジェクタを考慮し,最も有利なものを選択する手法を提案する。 本手法は,複数の軌道とその確率を予測するLSTMアーキテクチャ上に構築され,最適軌道を更新するマルチモーダル損失関数によって訓練される。 NBA追跡データ大きめの実験により,提案手法が最先端の手法より優れていることが示された。 さらに,このアプローチがより現実的なトラジェクタを生成し,個々のプレイヤーのプレイスタイルを学習できることを示す。

National Basketball Association (NBA) players are highly motivated and skilled experts that solve complex decision making problems at every time point during a game. As a step towards understanding how players make their decisions, we focus on their movement trajectories during games. We propose a method that captures the multi-modal behavior of players, where they might consider multiple trajectories and select the most advantageous one. The method is built on an LSTM-based architecture predicting multiple trajectories and their probabilities, trained by a multi-modal loss function that updates the best trajectories. Experiments on large, fine-grained NBA tracking data show that the proposed method outperforms the state-of-the-art. In addition, the results indicate that the approach generates more realistic trajectories and that it can learn individual playing styles of specific players.
翻訳日:2022-10-27 20:56:28 公開日:2020-08-18
# 異種顧客からの分散学習のための適応蒸留

Adaptive Distillation for Decentralized Learning from Heterogeneous Clients ( http://arxiv.org/abs/2008.07948v1 )

ライセンス: Link先を確認
Jiaxin Ma and Ryo Yonetani and Zahid Iqbal(参考訳) 本稿では、クライアントグループに対して、データリソースで事前学習したローカルモデルを共有することで、高性能なグローバルモデルを実現するための分散学習の問題に対処する。 特に、クライアントモデルアーキテクチャとデータ分散の両方が多様であるため、フェデレートラーニングやネットワーク共蒸留といった従来のアプローチを採用するのは簡単ではありません。 そこで本研究では,Adaptive Distillation (DLAD) を用いた分散学習法を提案する。 クライアントモデルのコレクションと多数のラベルなし蒸留サンプルが与えられたとき、提案されたdlad 1) クライアントモデルの出力を集約し, 所定の蒸留試料に対する信頼性の高い出力を適応的に強調する。 2) 集約された出力を模倣するためにグローバルモデルを訓練する。 提案手法の有効性を示す複数の公開データセット(mnist, cifar-10, cinic-10)の広範な実験評価を行った。

This paper addresses the problem of decentralized learning to achieve a high-performance global model by asking a group of clients to share local models pre-trained with their own data resources. We are particularly interested in a specific case where both the client model architectures and data distributions are diverse, which makes it nontrivial to adopt conventional approaches such as Federated Learning and network co-distillation. To this end, we propose a new decentralized learning method called Decentralized Learning via Adaptive Distillation (DLAD). Given a collection of client models and a large number of unlabeled distillation samples, the proposed DLAD 1) aggregates the outputs of the client models while adaptively emphasizing those with higher confidence in given distillation samples and 2) trains the global model to imitate the aggregated outputs. Our extensive experimental evaluation on multiple public datasets (MNIST, CIFAR-10, and CINIC-10) demonstrates the effectiveness of the proposed method.
翻訳日:2022-10-27 20:55:51 公開日:2020-08-18
# バッチ正規化のないディープニューラルネットワークのトレーニング

Training Deep Neural Networks Without Batch Normalization ( http://arxiv.org/abs/2008.07970v1 )

ライセンス: Link先を確認
Divya Gaur, Joachim Folz, and Andreas Dengel(参考訳) ニューラルネットワークのトレーニングは最適化の問題であり、勾配降下を通じて適切なパラメータセットを見つけることは難しい課題である。 トレーニング期間中にこのプロセスを支援するために、数多くの技術が開発されている。 最も重要で広く使われている方法の1つは正規化である。 一般に、ニューロンが平均と単位分散で分布する入力を受け取ることは好ましいので、最初の層の前にデータセットに関する統計を使って正規化します。 しかし、この特性はネットワーク内の中間活性化に対して保証できない。 この特性をネットワーク内で強制するために広く使われる方法はバッチ正規化である。 ネットワーク内の共変量シフトと戦うために開発された。 実証的には機能することが知られているが、その効果と実際に使用する際の潜在的な欠点についての理論的理解が欠如している。 本研究は,重み正規化,勾配クリッピング,ドロップアウトなどの他の手法と比較しながら,バッチ正規化を詳細に研究する。 この研究の主な目的は、トレーニングプロセスの適応によってバッチ正規化が除去された場合、ネットワークを効果的にトレーニングできるかどうかを決定することである。

Training neural networks is an optimization problem, and finding a decent set of parameters through gradient descent can be a difficult task. A host of techniques has been developed to aid this process before and during the training phase. One of the most important and widely used class of method is normalization. It is generally favorable for neurons to receive inputs that are distributed with zero mean and unit variance, so we use statistics about dataset to normalize them before the first layer. However, this property cannot be guaranteed for the intermediate activations inside the network. A widely used method to enforce this property inside the network is batch normalization. It was developed to combat covariate shift inside networks. Empirically it is known to work, but there is a lack of theoretical understanding about its effectiveness and potential drawbacks it might have when used in practice. This work studies batch normalization in detail, while comparing it with other methods such as weight normalization, gradient clipping and dropout. The main purpose of this work is to determine if it is possible to train networks effectively when batch normalization is removed through adaption of the training process.
翻訳日:2022-10-27 20:55:38 公開日:2020-08-18
# 不確実性推定のためのモーメント多重化

Moment Multicalibration for Uncertainty Estimation ( http://arxiv.org/abs/2008.08037v1 )

ライセンス: Link先を確認
Christopher Jung, Changhwa Lee, Mallesh M. Pai, Aaron Roth, Rakesh Vohra(参考訳) H\'ebert-Johnson et al から "multicalibration" という概念を実現する方法を示す。 [2018] 手段だけでなく,分散やその他の高次モーメントにも役立ちます。 非公式に言えば、データポイントを与えられた回帰関数は、ラベルの期待値だけでなく、ラベル分布のより高いモーメントでも、その予測値が、人口全体の平均値だけでなく、膨大な数の細かな部分群の平均値でも真の分布量と一致するような点予測をすることができる。 これは、様々なサブグループの予測の不確かさを推定し、サブグループ間の特徴の予測力における不公平な原因を診断するための原則的な方法をもたらす。 応用として、モーメント推定は、モーメント多重校正が得られた全ての(十分大きい)サブグループに対して、同時に有効であるような限界予測間隔を導出するために利用できることを示す。

We show how to achieve the notion of "multicalibration" from H\'ebert-Johnson et al. [2018] not just for means, but also for variances and other higher moments. Informally, it means that we can find regression functions which, given a data point, can make point predictions not just for the expectation of its label, but for higher moments of its label distribution as well-and those predictions match the true distribution quantities when averaged not just over the population as a whole, but also when averaged over an enormous number of finely defined subgroups. It yields a principled way to estimate the uncertainty of predictions on many different subgroups-and to diagnose potential sources of unfairness in the predictive power of features across subgroups. As an application, we show that our moment estimates can be used to derive marginal prediction intervals that are simultaneously valid as averaged over all of the (sufficiently large) subgroups for which moment multicalibration has been obtained.
翻訳日:2022-10-27 20:54:57 公開日:2020-08-18
# 高速近似ベイズ文脈冷間開始学習(FAB-COST)

Fast Approximate Bayesian Contextual Cold Start Learning (FAB-COST) ( http://arxiv.org/abs/2008.08038v1 )

ライセンス: Link先を確認
Jack R. McKenzie, Peter A. Appleby, Thomas House, Neil Walton(参考訳) コールドスタートは、レコメンデーションシステムで起こりうる非常に難しい問題であり、ユーザやアイテムの推論に不十分な情報がある場合に発生する。 この課題に対処するために、アルゴリズムの複雑さと計算コストの両方を制御しながら、ロジスティックな文脈的包帯における従来のラプラス近似と比較して精度を向上させるために、文脈的包帯アルゴリズム(Fast Approximate Bayesian Contextual Cold Start Learning Algorithm (FAB-COST))を提案する。 この目的のためにfab-costは2つのモーメントプロジェクション変分法(ep)と、データ量の増加に伴って遅くなる期待伝播(ep)と、データサイズで計算コストの成長が遅いが、許容される精度を得るためにより多くのデータを必要とする仮定密度フィルタリング(adf)を組み合わせた。 データセットが大きくなるとEPからAFFに切り替えることで、補完的な強みを活用できる。 FAB-COSTの実証的正当性を示し、シミュレーションデータに対する他のアプローチと比較した。 autotrader.co.ukによる670,000ドル以上のインプレッションを含む実データに対するラプラス近似に対するベンチマークでは、fab-costは、ある時点でユーザクリックの16\%以上の増加を示している。 これらの結果に基づいて,FAB-COSTは,様々な状況下での冷間開始レコメンデーションシステムに魅力的なアプローチである可能性が示唆された。

Cold-start is a notoriously difficult problem which can occur in recommendation systems, and arises when there is insufficient information to draw inferences for users or items. To address this challenge, a contextual bandit algorithm -- the Fast Approximate Bayesian Contextual Cold Start Learning algorithm (FAB-COST) -- is proposed, which is designed to provide improved accuracy compared to the traditionally used Laplace approximation in the logistic contextual bandit, while controlling both algorithmic complexity and computational cost. To this end, FAB-COST uses a combination of two moment projection variational methods: Expectation Propagation (EP), which performs well at the cold start, but becomes slow as the amount of data increases; and Assumed Density Filtering (ADF), which has slower growth of computational cost with data size but requires more data to obtain an acceptable level of accuracy. By switching from EP to ADF when the dataset becomes large, it is able to exploit their complementary strengths. The empirical justification for FAB-COST is presented, and systematically compared to other approaches on simulated data. In a benchmark against the Laplace approximation on real data consisting of over $670,000$ impressions from autotrader.co.uk, FAB-COST demonstrates at one point increase of over $16\%$ in user clicks. On the basis of these results, it is argued that FAB-COST is likely to be an attractive approach to cold-start recommendation systems in a variety of contexts.
翻訳日:2022-10-27 20:54:41 公開日:2020-08-18
# 非カノニカルなハミルトニアンモンテカルロ

Non-Canonical Hamiltonian Monte Carlo ( http://arxiv.org/abs/2008.08191v1 )

ライセンス: Link先を確認
James A. Brofos and Roy R. Lederman(参考訳) ハミルトンのモンテカルロは典型的には正準シンプレクティック構造の仮定に基づいている。 正準構造のために設計された数値積分器は、非カノニカルダイナミクスによって生成される運動とは相容れない。 これらの非カノニカルダイナミクスは、物理学やシンプレクティック幾何学の例に動機付けられ、アルゴリズムのパフォーマンスを改善するために日常的に使用されるプリコンディショニングのような技術に対応している。 実際、最近、非カノニカル構造である磁気ハミルトニアンモンテカルロの特別なケースが、有利なサンプリング特性をもたらすことが実証された。 非正準シンプレクティック構造を用いたハミルトン・モンテカルロの枠組みを提案する。 実験結果は,非カノニカル構造を持つハミルトンモンテカルロのサンプリング効果を示す。 私たちの貢献を要約します (i)シンプレクティックジオムトリーの基礎から非標準的HMCを開発する。 (II)細かなバランスを満たす暗黙の統合を用いたHMC手順を構築する。 (iii) 明示的な手法を用いてサンプリングを高速化することを提案する。 (4) ランダムに生成する2つの非正準構造, 磁気運動量と結合磁石構造, 暗黙的, 明示的な積分について検討した。

Hamiltonian Monte Carlo is typically based on the assumption of an underlying canonical symplectic structure. Numerical integrators designed for the canonical structure are incompatible with motion generated by non-canonical dynamics. These non-canonical dynamics, motivated by examples in physics and symplectic geometry, correspond to techniques such as preconditioning which are routinely used to improve algorithmic performance. Indeed, recently, a special case of non-canonical structure, magnetic Hamiltonian Monte Carlo, was demonstrated to provide advantageous sampling properties. We present a framework for Hamiltonian Monte Carlo using non-canonical symplectic structures. Our experimental results demonstrate sampling advantages associated to Hamiltonian Monte Carlo with non-canonical structure. To summarize our contributions: (i) we develop non-canonical HMC from foundations in symplectic geomtry; (ii) we construct an HMC procedure using implicit integration that satisfies the detailed balance; (iii) we propose to accelerate the sampling using an {\em approximate} explicit methodology; (iv) we study two novel, randomly-generated non-canonical structures: magnetic momentum and the coupled magnet structure, with implicit and explicit integration.
翻訳日:2022-10-27 20:53:54 公開日:2020-08-18
# クレジットカード残高リスク検出のための階層型ユーザ意図抽出ネットワーク

A Hierarchical User Intention-Habit Extract Network for Credit Loan Overdue Risk Detection ( http://arxiv.org/abs/2008.07796v1 )

ライセンス: Link先を確認
Hao Guo, Xintao Ren, Rongrong Wang, Zhun Cai, Kai Shuang and Yue Sun(参考訳) モバイルバンキングアプリでは、個人向けローン商品が増えている。 利用の容易さのために、アプリケーションプロセスは常にシンプルである。つまり、ローンの申請時にユーザが記入するよう要求されるアプリケーション情報はほとんどなく、ユーザのクレジットプロファイルを構築するのに役立たない。 したがって、単純な適用プロセスは過度なリスク検出に大きな課題をもたらし、過度な過度な利率によって銀行に経済的な損失をもたらすことになる。 本稿では,モバイルバンキングアプリケーションにおけるユーザの行動情報を活用したhuihen(hierarchical user intent-habit extract network)というモデルを提案する。 ユーザの行動の多様性から,行動シーケンスを時間間隔に応じてセッションに分割し,フィールドアウェア法を用いて行動の場内情報を抽出する。 そこで本稿では,ユーザの短期的意図と長期的習慣を捉えるために,時間的認識型GRUとユーザ情報型GRUで構成される階層型ネットワークを提案する。 提案モデルは、元のオンラインアプリケーションプロセスの複雑さを増すことなく、精度を向上させることができる。 実験結果はHUIHENの優位性を示し、HUIHENがすべてのデータセットで他の最先端モデルよりも優れていることを示す。

More personal consumer loan products are emerging in mobile banking APP. For ease of use, application process is always simple, which means that few application information is requested for user to fill when applying for a loan, which is not conducive to construct users' credit profile. Thus, the simple application process brings huge challenges to the overdue risk detection, as higher overdue rate will result in greater economic losses to the bank. In this paper, we propose a model named HUIHEN (Hierarchical User Intention-Habit Extract Network) that leverages the users' behavior information in mobile banking APP. Due to the diversity of users' behaviors, we divide behavior sequences into sessions according to the time interval, and use the field-aware method to extract the intra-field information of behaviors. Then, we propose a hierarchical network composed of time-aware GRU and user-item-aware GRU to capture users' short-term intentions and users' long-term habits, which can be regarded as a supplement to user profile. The proposed model can improve the accuracy without increasing the complexity of the original online application process. Experimental results demonstrate the superiority of HUIHEN and show that HUIHEN outperforms other state-of-art models on all datasets.
翻訳日:2022-10-27 20:47:39 公開日:2020-08-18
# 正半定値支援ベクトル回帰メトリック学習

Positive semidefinite support vector regression metric learning ( http://arxiv.org/abs/2008.07739v1 )

ライセンス: Link先を確認
Lifeng Gu(参考訳) 既存のメトリック学習法は、サンプルペア間の類似点や類似点に依存する類似点や距離尺度の学習に焦点を当てている。 しかし、サンプルのペアは、例えばマルチラベル学習、ラベル分布学習など、現実世界の多くのアプリケーションにおいて、単に類似または異種と特定できない。 この目的のために,これらのシナリオにおける距離学習問題を扱うために,関係アライメントメトリック学習(RAML)フレームワークを提案する。 しかし、RAMLフレームワークは最適化にSVRソルバを使用する。 距離学習に必要となる正の半定義距離メトリックを学習することはできない。 本稿では,その弱点を克服する2つのmethdを提案する。 さらに, 単一ラベル分類, マルチラベル分類, ラベル分布学習などの実験を行い, 新たな手法がramlフレームワークに好適な性能をもたらすことを示す。

Most existing metric learning methods focus on learning a similarity or distance measure relying on similar and dissimilar relations between sample pairs. However, pairs of samples cannot be simply identified as similar or dissimilar in many real-world applications, e.g., multi-label learning, label distribution learning. To this end, relation alignment metric learning (RAML) framework is proposed to handle the metric learning problem in those scenarios. But RAML framework uses SVR solvers for optimization. It can't learn positive semidefinite distance metric which is necessary in metric learning. In this paper, we propose two methds to overcame the weakness. Further, We carry out several experiments on the single-label classification, multi-label classification, label distribution learning to demonstrate the new methods achieves favorable performance against RAML framework.
翻訳日:2022-10-27 20:45:50 公開日:2020-08-18
# 機械学習による小売商品の将来販売予測

Predicting Future Sales of Retail Products using Machine Learning ( http://arxiv.org/abs/2008.07779v1 )

ライセンス: Link先を確認
Devendra Swami, Alay Dilipbhai Shah, Subhrajeet K B Ray(参考訳) 現在および過去のデータに基づいて将来の予測を行う技術は、常に様々な実生活問題に直接適用される領域であった。 我々は同様の問題を本論文で議論している。 問題の声明はkaggleによって提供されており、kaggleプラットフォームでの競争も継続している。 このプロジェクトでは,ロシア最大のソフトウェア企業である1c companyが提供する,日毎の販売データからなる,困難な時系列データセットの開発に取り組んでいます。 その目的は、過去のデータに基づいて、来月の各製品とストアの総売上を予測することだ。 来月の予測を行うために,我々は学習タスクを行うためのネットワークアーキテクチャであるextreme gradient boosting (xgboost) とlong short term memory (lstm) を展開した。 実際の目標値と予測された目標値の間のルート平均二乗誤差(rmse)を使用して、パフォーマンスを評価し、デプロイされたアルゴリズムの比較を行う。 XGBoostはこのデータセットよりもLSTMよりも優れていることが判明した。

Techniques for making future predictions based upon the present and past data, has always been an area with direct application to various real life problems. We are discussing a similar problem in this paper. The problem statement is provided by Kaggle, which also serves as an ongoing competition on the Kaggle platform. In this project, we worked with a challenging time-series dataset consisting of daily sales data, kindly provided by one of the largest Russian software firms - 1C Company. The objective is to predict the total sales for every product and store in the next month given the past data. In order to perform forecasting for next month, we have deployed eXtreme Gradient Boosting (XGBoost) and Long Short Term Memory (LSTM) based network architecture to perform learning task. Root mean squared error (RMSE) between the actual and predicted target values is used to evaluate the performance, and make comparisons between the deployed algorithms. It has been found that XGBoost fared better than LSTM over this dataset which can be attributed to its relatively higher sparsity.
翻訳日:2022-10-27 20:45:37 公開日:2020-08-18
# AssembleNet++: 注意接続によるモダリティ表現の組み立て

AssembleNet++: Assembling Modality Representations via Attention Connections ( http://arxiv.org/abs/2008.08072v1 )

ライセンス: Link先を確認
Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova(参考訳) 私たちは、強力なビデオモデルのファミリーを作ります。 (i)意味的対象情報と生の外観・動きの特徴の相互作用を学習する、及び (ii)ネットワークの各畳み込みブロックにおける機能の重要性をよりよく知るために注意を配置する。 ピアアテンションと呼ばれる新しいネットワークコンポーネントを導入し、別のブロックや入力モダリティを使って動的にアテンションウェイトを学習する。 事前トレーニングなしでも、当社のモデルは、通常のパブリックアクティビティ認識データセットを連続ビデオで上回り、新しい最先端技術を確立しました。 また、対象のモダリティとピアアテンションの使用によるニューラルネットワークの発見が、既存の異なるアーキテクチャに適用可能であることを確認し、パフォーマンスを改善した。 当社のモデルを明示的にAssembleNet++と名付けます。 コードは以下の通り。 https://sites.google.com/corp/view/assemblenet/

We create a family of powerful video models which are able to: (i) learn interactions between semantic object information and raw appearance and motion features, and (ii) deploy attention in order to better learn the importance of features at each convolutional block of the network. A new network component named peer-attention is introduced, which dynamically learns the attention weights using another block or input modality. Even without pre-training, our models outperform the previous work on standard public activity recognition datasets with continuous videos, establishing new state-of-the-art. We also confirm that our findings of having neural connections from the object modality and the use of peer-attention is generally applicable for different existing architectures, improving their performances. We name our model explicitly as AssembleNet++. The code will be available at: https://sites.google.com/corp/view/assemblenet/
翻訳日:2022-10-27 20:38:52 公開日:2020-08-18
# ニューラルオープンドメイン・ダイアログシステムは対話履歴における音声認識誤差に頑健か? 実証的研究

Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical Study ( http://arxiv.org/abs/2008.07683v1 )

ライセンス: Link先を確認
Karthik Gopalakrishnan, Behnam Hedayatnia, Longshaokan Wang, Yang Liu, Dilek Hakkani-Tur(参考訳) 大規模なエンドツーエンドのオープンドメインチャットボットは、ますます人気が高まっている。 しかし、このようなチャットボットの構築に関する研究は、ユーザ入力が本質的に書かれており、これらのチャットボットが自動音声認識(ASR)モデルとシームレスに統合され、音声モダリティに役立てられるかどうかは不明である。 我々は,NeurIPS ConvAI2チャレンジから得られた,GPT(Generative Pre-trained Transformer)に基づくニューラルオープン・ドメイン・ダイアログシステムであるTransferTransfoに対する,ダイアログ履歴における様々な種類の合成および実ASR仮説の効果を実証的に研究することによって,この重要な問題に注意を払うことを目的とする。 文書データにトレーニングされたtransfertransfoは、推論中にダイアログ履歴に導入された仮説に非常に敏感である。 基礎的緩和戦略として,訓練中の対話履歴に合成asr仮説を導入し,限界的改善を観察し,エンドツーエンドのオープンドメインチャットボットを完全な音声ロバストにするためのさらなる研究の必要性を実証する。 私たちの知る限りでは、最先端のニューラルネットワークオープンドメインダイアログシステムにおける合成および実際のasr仮説の効果を評価する最初の研究であり、オープンドメインダイアログにおける評価基準としての音声ロバスト性を促進することを願っている。

Large end-to-end neural open-domain chatbots are becoming increasingly popular. However, research on building such chatbots has typically assumed that the user input is written in nature and it is not clear whether these chatbots would seamlessly integrate with automatic speech recognition (ASR) models to serve the speech modality. We aim to bring attention to this important question by empirically studying the effects of various types of synthetic and actual ASR hypotheses in the dialog history on TransferTransfo, a state-of-the-art Generative Pre-trained Transformer (GPT) based neural open-domain dialog system from the NeurIPS ConvAI2 challenge. We observe that TransferTransfo trained on written data is very sensitive to such hypotheses introduced to the dialog history during inference time. As a baseline mitigation strategy, we introduce synthetic ASR hypotheses to the dialog history during training and observe marginal improvements, demonstrating the need for further research into techniques to make end-to-end open-domain chatbots fully speech-robust. To the best of our knowledge, this is the first study to evaluate the effects of synthetic and actual ASR hypotheses on a state-of-the-art neural open-domain dialog system and we hope it promotes speech-robustness as an evaluation criterion in open-domain dialog.
翻訳日:2022-10-27 20:38:38 公開日:2020-08-18
# 自然言語推論による質問のランク付け

Ranking Clarification Questions via Natural Language Inference ( http://arxiv.org/abs/2008.07688v1 )

ライセンス: Link先を確認
Vaibhav Kumar and Vikas Raunak and Jamie Callan(参考訳) 自然言語クエリが与えられた場合、質問を明確にする機械は、実用的な自然言語処理システムにおいて非常に有用である。 このようなインタラクションは、クエリのマシン理解を改善するための情報ギャップを埋めるのに役立つ。 明確化質問をランク付けするタスクについては、特定のポスト(stackexchangeのようなqaフォーラム上で)の欠落したエントリに関する明確化質問が、自然言語推論(nli)の特別なケースであると考えることができるかどうかを仮定する。 この仮説を,nli とマルチnli データセットに微調整された siamese bert モデルからの表現をモデルに組み込むことで検証し,stackexchange データセットの2つの評価セットの最先端ベースラインに対して,当社のベストパフォーマンスモデルがそれぞれ 40 % と 60 % (precision@1 の指標上で) の相対的パフォーマンス向上を達成できることを実証した。

Given a natural language query, teaching machines to ask clarifying questions is of immense utility in practical natural language processing systems. Such interactions could help in filling information gaps for better machine comprehension of the query. For the task of ranking clarification questions, we hypothesize that determining whether a clarification question pertains to a missing entry in a given post (on QA forums such as StackExchange) could be considered as a special case of Natural Language Inference (NLI), where both the post and the most relevant clarification question point to a shared latent piece of information or context. We validate this hypothesis by incorporating representations from a Siamese BERT model fine-tuned on NLI and Multi-NLI datasets into our models and demonstrate that our best performing model obtains a relative performance improvement of 40 percent and 60 percent respectively (on the key metric of Precision@1), over the state-of-the-art baseline(s) on the two evaluation sets of the StackExchange dataset, thereby, significantly surpassing the state-of-the-art.
翻訳日:2022-10-27 20:37:54 公開日:2020-08-18
# ベイジアンネットワークを用いた深層学習者からデータ適応学習者を選択する

Selecting Data Adaptive Learner from Multiple Deep Learners using Bayesian Networks ( http://arxiv.org/abs/2008.07709v1 )

ライセンス: Link先を確認
Shusuke Kobayashi, Susumu Shirayama(参考訳) 複数の深層学習者とベイズネットワークを用いた時系列予測手法を提案する。 本研究では,入力説明変数は,学習者と関連づけられたベイズネットワークノードである。 トレーニングデータをk-meansクラスタリングで分割し、クラスタに応じて複数のディープラーニングをトレーニングする。 ベイズネットワークは、どの深層学習者が時系列を予測するかを決定するために使用される。 しきい値を決定し,しきい値と同等以上の確率で学習者を選択することで,より堅牢な予測が可能となる。 提案手法は金融時系列データに適用され,日経225指数の予測結果が示された。

A method to predict time-series using multiple deep learners and a Bayesian network is proposed. In this study, the input explanatory variables are Bayesian network nodes that are associated with learners. Training data are divided using K-means clustering, and multiple deep learners are trained depending on the cluster. A Bayesian network is used to determine which deep learner is in charge of predicting a time-series. We determine a threshold value and select learners with a posterior probability equal to or greater than the threshold value, which could facilitate more robust prediction. The proposed method is applied to financial time-series data, and the predicted results for the Nikkei 225 index are demonstrated.
翻訳日:2022-10-27 20:37:27 公開日:2020-08-18
# 平均および割引報酬を用いた多目的強化学習における公平な政策の学習

Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards ( http://arxiv.org/abs/2008.07773v1 )

ライセンス: Link先を確認
Umer Siddique, Paul Weng, Matthieu Zimmer(参考訳) 自律システムの運用は、一般に複数のユーザに影響を与えるため、その設計が公平性を考慮していることが重要である。 標準(深度)強化学習(RL)とは対照的に,ユーザを公平に扱う政策を学ぶことの問題点を考察する。 本稿では、我々が形式的に定義する公平性の概念を符号化する目的関数を最適化した、この新しいrl問題を定式化する。 そこで本研究では,割引報酬の事例と平均報酬の事例を理論的に考察する。 この分析において、特に、標準的なRL設定における新しい結果が導出され、これは独立な関心事であり、割引された報酬に最適な政策の報酬の最適平均値に関して近似誤差に縛られた小説が述べられている。 割引報酬による学習は概ね容易であるため、割引報酬に対する公正な政策を学ぶことで平均報酬に対する公正な政策の発見をさらに正当化する。 そこで本稿では,古典的深部RLアルゴリズムを最適化問題に適応させる方法について述べるとともに,そのアプローチを3つの領域で広範な実験により検証する。

As the operations of autonomous systems generally affect simultaneously several users, it is crucial that their designs account for fairness considerations. In contrast to standard (deep) reinforcement learning (RL), we investigate the problem of learning a policy that treats its users equitably. In this paper, we formulate this novel RL problem, in which an objective function, which encodes a notion of fairness that we formally define, is optimized. For this problem, we provide a theoretical discussion where we examine the case of discounted rewards and that of average rewards. During this analysis, we notably derive a new result in the standard RL setting, which is of independent interest: it states a novel bound on the approximation error with respect to the optimal average reward of that of a policy optimal for the discounted reward. Since learning with discounted rewards is generally easier, this discussion further justifies finding a fair policy for the average reward by learning a fair policy for the discounted reward. Thus, we describe how several classic deep RL algorithms can be adapted to our fair optimization problem, and we validate our approach with extensive experiments in three different domains.
翻訳日:2022-10-27 20:36:02 公開日:2020-08-18