このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200723となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 局所と非局所のマスター方程式の相互作用:完全と近似のダイナミクス The interplay between local and non-local master equations: exact and approximated dynamics ( http://arxiv.org/abs/2001.11948v2 ) ライセンス: Link先を確認 | Nina Megier, Andrea Smirne and Bassano Vacchini | (参考訳) マスター方程式は、オープン量子系の進化を記述するのに有用なツールである。
力学の数学的特徴と物理的起源を特徴付けるために、同じ系に対して異なる種類のマスター方程式を考えることがしばしば有用である。
ここでは、時間局所と積分微分記述の正確な関係を導出し、可換力学のクラスに焦点を当てる。
ダンピングベイズ形式を用いることで、時間関数とラプラス変換のみを扱うことにより、あるマスター方程式から別のマスター方程式と逆転への一般的な手順を考案することができる。
さらに、時間局所および積分微分マスター方程式のリンドブラディアン形式を分析し、リンドブラディアン作用素の異なる集合の出現を説明する。
さらに,詳細な積分微分方程式を時間内の粗粒化によって時間局所に変換するレッドフィールド様近似についても検討した。
結果のマスター方程式の構造を正確な力学と関連づけるだけでなく、近似がマルコビアン性に与える影響について研究する。
特に, 期待に反して, 時間の粗粒化が記憶効果をもたらす可能性があり, ダイナミクスの可分性に違反することを示した。 Master equations are a useful tool to describe the evolution of open quantum systems. In order to characterize the mathematical features and the physical origin of the dynamics, it is often useful to consider different kinds of master equations for the same system. Here, we derive an exact connection between the time-local and the integro-differential descriptions, focusing on the class of commutative dynamics. The use of the damping-basis formalism allows us to devise a general procedure to go from one master equation to the other and vice-versa, by working with functions of time and their Laplace transforms only. We further analyze the Lindbladian form of the time-local and the integro-differential master equations, where we account for the appearance of different sets of Lindbladian operators. In addition, we investigate a Redfield-like approximation, that transforms the exact integro-differential equation into a time-local one by means of a coarse graining in time. Besides relating the structure of the resulting master equation to those associated with the exact dynamics, we study the effects of the approximation on Markovianity. In particular, we show that, against expectation, the coarse graining in time can possibly introduce memory effects, leading to a violation of a divisibility property of the dynamics. | 翻訳日:2023-06-05 02:40:27 公開日:2020-07-23 |
# 完全な境界と自由な絡み合いの列島。
II年 Archipelagos of Total Bound and Free Entanglement. II ( http://arxiv.org/abs/2002.04084v2 ) ライセンス: Link先を確認 | Paul B. Slater | (参考訳) 先述のプレプリント (i) では、特定の3パラメータ qubit-ququart (2 \times 4$) と 2-ququart (4 \times 4$) の分析結果が報告された。
それらの中で、我々はLi と Qiao が与える絡み合いの制約に頼っていた。
しかしながら、我々のさらなる研究は、すべての主要な未成年(この文脈では分離可能な構成要素)が非負であるという正の半定義性のために、よく知られた必要十分条件を使用することを決定的に示している。
そうすることで、いくつかの質的に異なる新しい結果が生まれ、ある意味では自然界においてより単純になる。
例えば、$\frac{2}{3} \left(\sqrt{2}-1\right) \approx 0.276142$, $\frac{1}{4} \left(3-2 \log ^2(2)-\log (4)\right) \approx 0.1632$, $\frac{1}{2}-\frac{2}{3 \pi ^2} \approx 0.432453$, $\frac{1}{6}$の有界絡合確率は、制約の様々な実装について報告される。
また、Li-Qiaoの3パラメータフレームワークを2パラメータのフレームワークに採用しています。 In the indicated preceding preprint (I), we reported the results of, in particular interest here, certain three-parameter qubit-ququart ($2 \times 4$) and two-ququart ($4 \times 4$) analyses. In them, we relied upon entanglement constraints given by Li and Qiao. However, further studies of ours conclusively show--using the well-known necessary and sufficient conditions for positive-semidefiniteness that all leading minors (of separable components, in this context) be nonnegative--that certain of the constraints given are flawed and need to be replaced (by weaker ones). Doing so, leads to a new set of results, somewhat qualitatively different and, in certain respects, simpler in nature. For example, bound-entanglement probabilities of $\frac{2}{3} \left(\sqrt{2}-1\right) \approx 0.276142$, $\frac{1}{4} \left(3-2 \log ^2(2)-\log (4)\right) \approx 0.1632$, $\frac{1}{2}-\frac{2}{3 \pi ^2} \approx 0.432453$ and $\frac{1}{6}$, are reported for various implementations of constraints. We also adopt the Li-Qiao three-parameter framework to a two-parameter one, with interesting visual results. | 翻訳日:2023-06-04 01:35:36 公開日:2020-07-23 |
# 現実か非現実かが問題だ Real or Not Real that is the question ( http://arxiv.org/abs/2005.08719v2 ) ライセンス: Link先を確認 | Reinhold A. Bertlmann | (参考訳) 量子力学における現実についてジョン・ベルと議論した。
科学者にとって自然な立場だったベルの現実のビジョンを読者に紹介したいと思います。
ベルは「量子ジャンプ」に対する強い嫌悪感を持ち、量子力学の言葉で明快であると主張したが、彼の「禁止すべき言葉」は真剣さとウィット(両者の典型的なベルの特性)が伝説となった。
ベル型実験と自然がどう反応したかを要約し、ベルの仕事による物理量、実数、非局所性の概念について論じる。
次に、私は、Brukner と Zeilinger の業績に焦点を当てた情報理論のアプローチである、量子状態の意味について、まったく異なる見解を説明します。
最後に、現実の議論を「仮想性」の概念と、場の量子論における仮想粒子の意味とより広く、対比したいと思います。
私自身の考えのいくつかで、哲学的な記事よりも歴史的記事として構成された論文を締めくくります。 My discussions with John Bell about reality in quantum mechanics are recollected. I would like to introduce the reader to Bell's vision of reality which was for him a natural position for a scientist. Bell had a strong aversion against "quantum jumps" and insisted to be clear in phrasing quantum mechanics, his "words to be forbidden" proclaimed with seriousness and wit -- both typical Bell characteristics -- became legendary. I will summarize the Bell-type experiments and what Nature responded, and discuss the implications for the physical quantities considered, the real entities and the nonlocality concept due to Bell's work. Subsequently, I also explain a quite different view of the meaning of a quantum state, this is the information theoretic approach, focussing on the work of Brukner and Zeilinger. Finally, I would like to broaden and contrast the reality discussion with the concept of "virtuality", with the meaning of virtual particle occurring in quantum field theory. With some of my own thoughts I will conclude the paper which is composed more as a historical article than as a philosophical one. | 翻訳日:2023-05-19 11:12:13 公開日:2020-07-23 |
# 量子ドット励起子に結合した光機械式半導体共振器の周期変調による量子及び絡み合いダイナミクスのコヒーレント制御 Coherent control of quantum and entanglement dynamics via periodic modulations in optomechanical semi-conductor resonator coupled to quantum-dot excitons ( http://arxiv.org/abs/2006.11490v2 ) ライセンス: Link先を確認 | Vijay Bhatt, Pradip K. Jha, Aranya B. Bhattacherjee, Souri Banerjee | (参考訳) 入力レーザ強度と量子ドット(QD)共鳴の同時変調がQDに埋め込まれた光学的半導体共振器における平均場ダイナミクス, ゆらぎエネルギー伝達, 絡みに及ぼす影響を系統的に検討する。
変調とハイブリッドシステムは,所望の平均場値を達成するために設計され,変動エネルギー移動と様々な自由度間の絡み合いを制御できることを示す。
QD周波数だけを変調することで、非常に高い絡み合いを実現することができる。
2つの変調間の相互作用は、QDまたはポンプレーザーの強度を変調することによってのみ生じる絡み合いをもたらす。
低定常から大きな動的絡み合いへの遷移は、変調器をスイッチすると起こる。
本研究は、最適制御戦略の新たな可能性を開き、量子通信プラットフォームにおけるデータ信号転送と記憶に使用できる。 We systematically study the influence of simultaneously modulating the input laser intensity and quantum dot (QD) resonance frequecy on the mean-field dynamics, fluctuation energy transfer and entanglement in a optomechanical semi-conductor resonator embedded with a QD. We show that the modulation and the hybrid system can be engineered to attain the desired mean-field values, control the fluctuation energy transfer and the entanglement between the various degrees of freedom. A remarkably high degree of entanglement can be achieved by modulating only the QD frequency. The interplay between the two modulations leads to an entanglement which lies between that generated solely by modulating either the QD or the pump laser intensity. A transition from low stationary to large dynamical entanglement occurs as we switch on the modulation. This study opens up new possibilities for optimal control strategies and can be used for data signal transfer and storage in quantum communication platforms. | 翻訳日:2023-05-13 07:25:46 公開日:2020-07-23 |
# エルミート系と非エルミート系の違いの尺度としての相対エントロピー Relative Entropy as a Measure of Difference Between Hermitian and Non-Hermitian Systems ( http://arxiv.org/abs/2006.13845v2 ) ライセンス: Link先を確認 | Kabgyun Jeong, Kyu-Won Park, Jaewan Kim | (参考訳) 楕円光学マイクロキャビティにおけるエルミート系と非エルミート系の固有モードの差を定量化するための尺度として相対エントロピーを用いる。
その結果,集合ラムシフトの範囲における相対エントロピーの平均値は大きいが,自己エネルギー範囲では小さいことがわかった。
さらに、非エルミート系の弱い相互作用と強い相互作用は相対エントロピーの点でかなり異なる挙動を示し、楕円型マイクロキャビティにおける固有モードの明らかな交換を示す。 We employ the relative entropy as a measure to quantify the difference of eigenmodes between Hermitian and non-Hermitian systems in elliptic optical microcavities. We have found that the average value of the relative entropy in the range of the collective Lamb shift is large, while that in the range of self-energy is small. Furthermore, the weak and strong interactions in the non-Hermitian system exhibit rather different behaviors in term of the relative entropy, and thus it displays an obvious exchange of eigenmodes in the elliptic microcavity. | 翻訳日:2023-05-12 22:26:40 公開日:2020-07-23 |
# サイドチャンネルに対する実用的量子鍵分布確保 Practical Quantum Key Distribution Secure Against Side-Channels ( http://arxiv.org/abs/2007.03364v2 ) ライセンス: Link先を確認 | \'Alvaro Navarrete, Margarida Pereira, Marcos Curty and Kiyoshi Tamaki | (参考訳) qkd(quantum key distribution)では、実際のデバイスがセキュリティ証明に必要な仮定を満たしていないため、理論と実践の間に大きなギャップがある。
本稿では,コヒーレント光伝送に基づく簡易かつ実用的な測定デバイス非依存(mdi)qkd方式プロトコルを導入することで,送信側のデバイス不完全および/またはサイドチャネルに対するセキュリティを実証する。
1つのパラメータしか持たない、より単純な実験的なセットアップとソース特性の他に、プロトコルの性能は、複数のサイドチャネルの影響を無視した他のMDI-QKDプロトコルと同等であることを示す。 There is a big gap between theory and practice in quantum key distribution (QKD) because real devices do not satisfy the assumptions required by the security proofs. Here, we close this gap by introducing a simple and practical measurement-device-independent (MDI) QKD type of protocol, based on the transmission of coherent light, for which we prove its security against any possible device imperfection and/or side-channel at the transmitters' side. Besides using a much simpler experimental set-up and source characterization with only one single parameter, we show that the performance of the protocol is comparable to other MDI-QKD type of protocols which disregard the effect of several side-channels. | 翻訳日:2023-05-11 01:59:49 公開日:2020-07-23 |
# エルビウムエミッタとグラフェンの強い近接場相互作用の高速電気変調 Fast electrical modulation of strong near-field interactions between erbium emitters and graphene ( http://arxiv.org/abs/2007.11274v2 ) ライセンス: Link先を確認 | Daniel Cano, Alban Ferrier, Karuppasamy Soundarapandian, Antoine Reserbat-Plantey, Marion Scarafagio, Alexandre Tallaire, Antoine Seyeux, Philippe Marcus, Hugues de Riedmatten, Philippe Goldner, Frank H. L. Koppens, and Klaas-Jan Tielrooij | (参考訳) 単一光子エミッタの量子光学特性とナノフォトニックおよびプラズモニックシステムで利用可能な強い近接場相互作用を組み合わせることは、量子操作とメトロロジー機能を作成する強力な方法である。
エミッタ-環境相互作用をアクティブかつ動的に調節する能力は、この点において特に興味深い。
熱、機械、光学変調が実証されているが、電気変調は依然として顕著な課題である。
ここでは、グラフェンのフェルミエネルギーをその場で調整することにより、エルビウムエミッタとグラフェンのナノ層間の近接場相互作用の高速全電変調を実現する。
放射光の25%に対して1000倍以上の減衰速度で強い相互作用を示し、放射光の減衰(100Hz)よりも300kHzの周波数でこれらの相互作用を電気的に調節した。
これは、集積量子技術のための可能なプラットフォームを構成し、集合プラズモン放出または制御波形による光子放出による量子エンタングルメント生成への経路を開く。 Combining the quantum optical properties of single-photon emitters with the strong near-field interactions available in nanophotonic and plasmonic systems is a powerful way of creating quantum manipulation and metrological functionalities. The ability to actively and dynamically modulate emitter-environment interactions is of particular interest in this regard. While thermal, mechanical and optical modulation have been demonstrated, electrical modulation has remained an outstanding challenge. Here we realize fast, all-electrical modulation of the near-field interactions between a nanolayer of erbium emitters and graphene, by in-situ tuning the Fermi energy of graphene. We demonstrate strong interactions with a >1,000-fold increased decay rate for 25% of the emitters, and electrically modulate these interactions with frequencies up to 300 kHz - orders of magnitude faster than the emitters radiative decay (100 Hz). This constitutes an enabling platform for integrated quantum technologies, opening routes to quantum entanglement generation by collective plasmon emission or photon emission with controlled waveform. | 翻訳日:2023-05-08 18:37:31 公開日:2020-07-23 |
# ベル非局所性の測定-依存コスト--因果モデルとレトロコーサルモデル Measurement-dependence cost for Bell nonlocality: causal vs retrocausal models ( http://arxiv.org/abs/2007.11903v1 ) ライセンス: Link先を確認 | Michael J. W. Hall, Cyril Branciard | (参考訳) ベル非局所性に基づくデバイス独立プロトコル、例えば量子鍵分布やランダムネス生成は、相手が測定結果について事前の知識を持っていないことを保証しなければならない。
測定の選択は、測定結果に影響を与える他の基本的な変数とは無関係である。
逆に、緩やかな測定独立はベル非局所性の完全な「因果」シミュレーションを可能にする。
我々は,chsh(vistor-horne-shimony-holt)シナリオにおいて,基礎となる変数と測定設定の相互情報によって測定される最も効率的なシミュレーションを構築し,最大量子違反は$\sim 0.080$bitの相互情報を必要とすることを見出した。
このシミュレーションを実装するために構築された任意の物理デバイスは、敵がCHSH不等式に違反したデバイス独立プロトコルによって生成される暗号鍵または'ランダム'番号を完全に知ることができる。
また、CHSHシナリオの以前のモデルでは、最大量子違反をシミュレートするために$\sim 0.046$bitsしか必要とせず、将来の測定設定が元の変数に影響を与えるような最も効率的な「再帰的」シミュレーションに対応していることを示す。
これは、前者のモデルの非物理的極限と見なすか、あるいはそのより高効率な観点からの逆因性の議論と見なすことができる。
因果モデルと遡及モデルは、超決定論的、片側的、ジグザグ因果モデルと同様に、最大に絡み合った2量子状態についても議論されている。 Device independent protocols based on Bell nonlocality, such as quantum key distribution and randomness generation, must ensure no adversary can have prior knowledge of the measurement outcomes. This requires a measurement independence assumption: that the choice of measurement is uncorrelated with any other underlying variables that influence the measurement outcomes. Conversely, relaxing measurement independence allows for a fully `causal' simulation of Bell nonlocality. We construct the most efficient such simulation, as measured by the mutual information between the underlying variables and the measurement settings, for the Clauser-Horne-Shimony-Holt (CHSH) scenario, and find that the maximal quantum violation requires a mutual information of just $\sim 0.080$ bits. Any physical device built to implement this simulation allows an adversary to have full knowledge of a cryptographic key or `random' numbers generated by a device independent protocol based on violation of the CHSH inequality. We also show that a previous model for the CHSH scenario, requiring only $\sim 0.046$ bits to simulate the maximal quantum violation, corresponds to the most efficient `retrocausal' simulation, in which future measurement settings necessarily influence earlier source variables. This may be viewed either as an unphysical limitation of the prior model, or as an argument for retrocausality on the grounds of its greater efficiency. Causal and retrocausal models are also discussed for maximally entangled two-qubit states, as well as superdeterministic, one-sided and zigzag causal models. | 翻訳日:2023-05-08 11:09:58 公開日:2020-07-23 |
# 初期ミクロカノニカルおよびエネルギー固有状態に対する仕事とジャジンスキーの関係の確率分布の剛性 Stiffness of Probability Distributions of Work and Jarzynski Relation for Initial Microcanonical and Energy Eigenstates ( http://arxiv.org/abs/2007.11829v1 ) ライセンス: Link先を確認 | Lars Knipschild, Andreas Engel, Jochen Gemmer | (参考訳) 我々は、時間依存ハミルトニアン(英語版)によって駆動される閉量子系(入浴するかもしれない)を考える。
出発点として、いくつかのエネルギーでマイクロカノニカルな状態に初期化されたシステムでは、結果の確率密度(ワーク-PDF)はこれらの特定の初期エネルギーに大きく依存していると仮定する。
この「剛性」の仮定は、エネルギー固有状態の指数関数的に増加する密度の仮定とともに、上記のマイクロカノニカル初期状態に対するヤジンスキー関係(JR)の妥当性に十分であるが必要ではないことを解析的に示す。
これは、マイクロ可逆性がなくても成り立つ。
ミクロカノニカルな初期状態における剛性とjrの関係を調べるために,剛性から非剛性に調整可能なランダム行列を含む系の数値解析を行う。
以上の例では,jrは剛性の有無で満たしており,その欠如が破られ,剛性とjrとの密接な関係が示唆されている。
注目すべきは、大規模システムの限界において、純粋な初期エネルギー固有状態であっても、JRが満たされていること。
これは古典的なシステムでは類似しないので、真の量子現象と考える。 We consider closed quantum systems (into which baths may be integrated) that are driven, i.e., subject to time-dependent Hamiltonians. As a starting point we assume that, for systems initialized in microcanonical states at some energies, the resulting probability densities of work (work-PDFs) are largely independent of these specific initial energies. We show analytically that this assumption of "stiffness", together with the assumption of an exponentially growing density of energy eigenstates, is sufficient but not necessary for the validity of the Jarzynski relation (JR) for the above microcanonical initial states. This holds, even in the absence of microreversibility. To scrutinize the connection between stiffness and the JR for microcanonical initial states, we perform numerical analysis on systems comprising random matrices which may be tuned from stiff to nonstiff. In these examples we find the JR fulfilled in the presence of stiffness, and violated in its absence, which indicates a very close connection between stiffness and the JR. Remarkably, in the limit of large systems, we find the JR fulfilled, even for pure initial energy eigenstates. As this has no analogue in classical systems, we consider it a genuine quantum phenomenon. | 翻訳日:2023-05-08 11:08:53 公開日:2020-07-23 |
# 検索エンジンクエリーを用いたイングランドにおけるcovid-19感染者の地域的異常の早期表示 Providing early indication of regional anomalies in COVID19 case counts in England using search engine queries ( http://arxiv.org/abs/2007.11821v1 ) ライセンス: Link先を確認 | Elad Yom-Tov, Vasileios Lampos, Ingemar J. Cox, Michael Edelstein | (参考訳) COVID19は2020年1月末にイギリスで初めて報告され、6月中旬までに15万件以上が報告された。
インフルエンザのような病気と同様に、covid-19に苦しむ人は、医療システム(またはその代わり)にアクセスする前に症状を問い合わせることができると仮定する。
そこで,イングランドの利用者からBingの検索を解析し,関連する症状検索の予期せぬ増加が国内の特定の地域で起きている事例を特定した。
分析の結果,"fever" と "cough" の検索は,今後のケースカウントと最も相関があり,先行するケースカウントは16~17日であった。
探索パターンの予期せぬ増加は,1週間以内に2.5倍以上に増加し,0.64のエリアアンダーカーブ(AUC)に達した。
同様の死亡率の上昇は、3週間のリードタイムで約0.61のAUCで予測された。
以上の結果から,英国公衆衛生局は,covid-19対策の立案や,他の病原体の地域的異常の検出に活用可能な指標を提示した。 COVID19 was first reported in England at the end of January 2020, and by mid-June over 150,000 cases were reported. We assume that, similarly to influenza-like illnesses, people who suffer from COVID19 may query for their symptoms prior to accessing the medical system (or in lieu of it). Therefore, we analyzed searches to Bing from users in England, identifying cases where unexpected rises in relevant symptom searches occurred at specific areas of the country. Our analysis shows that searches for "fever" and "cough" were the most correlated with future case counts, with searches preceding case counts by 16-17 days. Unexpected rises in search patterns were predictive of future case counts multiplying by 2.5 or more within a week, reaching an Area Under Curve (AUC) of 0.64. Similar rises in mortality were predicted with an AUC of approximately 0.61 at a lead time of 3 weeks. Thus, our metric provided Public Health England with an indication which could be used to plan the response to COVID19 and could possibly be utilized to detect regional anomalies of other pathogens. | 翻訳日:2023-05-08 11:08:31 公開日:2020-07-23 |
# Shakin' All Over:ランダウアーの原理を揺らぎを無視せずに証明する Shakin' All Over: Proving Landauer's Principle without neglect of fluctuations ( http://arxiv.org/abs/2007.11748v1 ) ライセンス: Link先を確認 | Wayne C. Myrvold | (参考訳) ランダウアーの原理は、大まかに言えば、論理的に不可逆な操作の実装に関連するエントロピーコストが存在するという原理である。
計算の熱力学に関する文献では広く受け入れられているが、哲学文学においてかなりの論争の対象となっている。
原理の証明の合理性と、それが真実であるならばその関連性の両方が疑問視されている。
特に、マイクロスケールのゆらぎは、常にランダウアー境界を大きく超える散逸を伴っていると論じられている。
本稿では、ランダウアーの原理を統計力学で扱い、変動の無視にも熱力学的可逆過程の可利用性にも依存しないという証明を与える。
さらに、マイクロスケールの変動は熱力学的可逆性を望んだほどに近似する障害ではないと論じられている。 Landauer's principle is, roughly, the principle that there is an entropic cost associated with implementation of logically irreversible operations. Though widely accepted in the literature on the thermodynamics of computation, it has been the subject of considerable dispute in the philosophical literature. Both the cogency of proofs of the principle and its relevance, should it be true, have been questioned. In particular, it has been argued that microscale fluctuations entail dissipation that always greatly exceeds the Landauer bound. In this article Landauer's principle is treated within statistical mechanics, and a proof is given that neither relies on neglect of fluctuations nor assumes the availability of thermodynamically reversible processes. In addition, it is argued that microscale fluctuations are no obstacle to approximating thermodynamic reversibility as closely as one would like | 翻訳日:2023-05-08 11:08:10 公開日:2020-07-23 |
# ARC 3.0: 原子物理学計算のための拡張Pythonツールボックス ARC 3.0: An expanded Python toolbox for atomic physics calculations ( http://arxiv.org/abs/2007.12016v1 ) ライセンス: Link先を確認 | Elizabeth J. Robertson, Nikola \v{S}ibali\'c, Robert M. Potvliege, Matthew P. A. Jones | (参考訳) ARC 3.0は、データとアルゴリズムを組み合わせたモジュール形式のオブジェクト指向Pythonライブラリで、アルカリ原子と二価原子の様々な性質の計算を可能にする。
ARCライブラリの初期バージョン [N] 上に構築する。
v{s}ibali\'c et al, comput である。
Phys
共産。
アルカリ原子のリドベルク状態に焦点を当てた220, 319 (2017)] では、この大きなアップグレードが二価原子のサポートを導入している。
また、光学格子内の超低温原子をモデル化し、原子価電子波動関数や動的偏光度を計算する新しい方法も追加している。
このような計算は、多体物理学の量子シミュレーション、(マイクロ波やthzメトロロジーを含む)直流および交流場の原子ベースのセンシング、量子ゲートプロトコルの開発など、様々な分野に応用できる。
ARC 3.0には、多くの例を含む広範なドキュメントが付属している。
そのモジュラー構造は原子ベースの量子技術における幅広い問題への応用を促進する。 ARC 3.0 is a modular, object-oriented Python library combining data and algorithms to enable the calculation of a range of properties of alkali and divalent atoms. Building on the initial version of the ARC library [N. \v{S}ibali\'c et al, Comput. Phys. Commun. 220, 319 (2017)], which focused on Rydberg states of alkali atoms, this major upgrade introduces support for divalent atoms. It also adds new methods for working with atom-surface interactions, for modelling ultracold atoms in optical lattices and for calculating valence electron wave functions and dynamic polarisabilities. Such calculations have applications in a variety of fields, e.g., in the quantum simulation of many-body physics, in atom-based sensing of DC and AC fields (including in microwave and THz metrology) and in the development of quantum gate protocols. ARC 3.0 comes with an extensive documentation including numerous examples. Its modular structure facilitates its application to a wide range of problems in atom-based quantum technologies. | 翻訳日:2023-05-08 10:59:54 公開日:2020-07-23 |
# 空洞型自然パラメトリックダウンコンバージョンにおける時間光子相関の一般的および完全記述 General and complete description of temporal photon correlations in cavity-enhanced spontaneous parametric down-conversion ( http://arxiv.org/abs/2007.11970v1 ) ライセンス: Link先を確認 | Chris M\"uller, Andreas Ahlrichs, Oliver Benson | (参考訳) 共有光子源は、光量子技術応用において最もよく用いられる光源である。
スペクトル特性の正確な予測と時間的相関は, 常に精度の上昇と共に要求される。
これは本態的に確率的な光子対生成過程に関連して,特に重要である。
本稿では,連続波励起キャビティエンハンスド自然パラメトリックダウンコンバージョンによって発生する光子の信号・アイドラー,信号信号・信号・アイドラーの時間的相関の完全な理論的記述を示す。
この理論は、時間分解能の高い単一光子検出器を用いて実験的に確認した測定値を良好に予測する。
これにより、多光子相関関数を詳細に解き、解析することができる。 Heralded single photon sources are the most commonly used sources for optical quantum technology applications. There is strong demand for accurate prediction of their spectral features and temporal correlations with ever increasing precision. This is particularly important in connection with the intrinsically stochastic photon-pair generation process in heralded sources. Here we present a complete theoretical description of the temporal correlation of a signal-idler, signal-signal and signal-signal-idler coincidences of photons generated by continuous wave pumped cavity-enhanced spontaneous parametric down-conversion. The theory excellently predicts the measurements, which has been experimentally confirmed in our setup utilizing single photon detectors with high temporal resolution. This enables us to resolve and analyze the multi-photon correlation functions in great detail. | 翻訳日:2023-05-08 10:59:07 公開日:2020-07-23 |
# 非対称ライドバーグ相互作用によるスフェロイド構造に基づくマルチキュービットトッフォリゲート Spheroidal-structure-based multi-qubit Toffoli gate via asymmetric Rydberg interaction ( http://arxiv.org/abs/2007.11938v1 ) ライセンス: Link先を確認 | Dongmin Yu, Weiping Zhang, Jin-ming Liu, Shilei Su and Jing Qian | (参考訳) 本稿では,非対称なrydbergブロックを通した,エキゾチックなマルチキュービット toffoli ゲートプロトコルを提案する。
球状構造の利点は、球内の全ての制御ターゲット原子対の間の強い遮断エネルギーを十分に保存することにある。
3種類の異なる$(2+1)$-$qubit$ゲートユニットの最適化に基づき、最適な$(6+1)$-$qubit$設定のゲート忠実度は、主に減衰誤差によって寄与する$0.9841$に達する。
さらに、より多くの制御原子を持つ拡張についても論じる。
本研究は,特殊な高次元アレイにおけるスケーラブルな中性原子量子計算に光を当てるかもしれない。 We propose an exotic multi-qubit Toffoli gate protocol via asymmetric Rydberg blockade, benefiting from the use of a spheroidal configuration to optimize the gate performance. The merit of a spheroidal structure lies in a well preservation of strong blocked energies between all control-target atom pairs within the sphere, which can persistently keep the blockade error at a low level. On the basis of optimization for three different types of $(2+1)$-$qubit$ gate units to minimize the antiblockade error, the gate fidelity of an optimal $(6+1)$-$qubit$ configuration can attain as high as $0.9841$ mainly contributed by the decay error. And the extension with much more control atoms is also discussed. Our findings may shed light on scalable neutral-atom quantum computation in special high-dimensional arrays. | 翻訳日:2023-05-08 10:58:21 公開日:2020-07-23 |
# 適応的消費水準価格体系に基づく動的住宅負荷スケジューリング Dynamic residential load scheduling based on an adaptive consumption level pricing scheme ( http://arxiv.org/abs/2007.11932v1 ) ライセンス: Link先を確認 | Haider Tarish Haider, Ong Hang See, W. Elmenreich | (参考訳) 電力需要と利用可能な供給資源のバランスを図るスマートグリッドに対する需要応答(dr)が注目されている。
電力需要の増大は、住宅の負荷スケジューリングシステムにおいて、価格変化や緊急時の需要のシフトや削減によってエネルギー消費を改善する新たな機会を与えている。
本稿では,aclp(adaptive consumption level)価格体系に基づいて,家電機器の最適スケジューリングのための動的住宅負荷スケジューリングシステム(drls)を提案する。
提案する負荷スケジューリングシステムでは,省エネ化を実現するため,提案したDR料金体系の可利用消費許諾(CA)内でのエネルギー消費の管理が促進される。
シミュレーションの結果,提案するdrlsシステムの利用は,エネルギー費を削減し,電力事業者は総負荷のピーク負荷を低減し,顧客にとって有益であることがわかった。
ケーススタディでは, ACLPSに基づく住宅負荷スケジューリングシステムにより, 顧客はエネルギー料金を最大53%削減し, ピーク負荷を最大35%削減できる。 Demand response (DR) for smart grids, which intends to balance the required power demand with the available supply resources, has been gaining widespread attention. The growing demand for electricity has presented new opportunities for residential load scheduling systems to improve energy consumption by shifting or curtailing the demand required with respect to price change or emergency cases. In this paper, a dynamic residential load scheduling system (DRLS) is proposed for optimal scheduling of household appliances on the basis of an adaptive consumption level (CL) pricing scheme (ACLPS). The proposed load scheduling system encourages customers to manage their energy consumption within the allowable consumption allowance (CA) of the proposed DR pricing scheme to achieve lower energy bills. Simulation results show that employing the proposed DRLS system benefits the customers by reducing their energy bill and the utility companies by decreasing the peak load of the aggregated load demand. For a given case study, the proposed residential load scheduling system based on ACLPS allows customers to reduce their energy bills by up to 53% and to decrease the peak load by up to 35%. | 翻訳日:2023-05-08 10:58:06 公開日:2020-07-23 |
# 有界電子$g$因子に対する2ループ仮想光散乱補正 Two-loop virtual light-by-light scattering corrections to the bound-electron $g$ factor ( http://arxiv.org/abs/2007.12244v1 ) ライセンス: Link先を確認 | V. Debierre, B. Sikora, H. Cakir, N. S. Oreshkina, V. A. Yerokhin, C. H. Keitel, Z. Harman | (参考訳) 水素様イオンの$g$因子に対する2ループQED補正の臨界セットを核結合場に展開することなく計算する。
これらの補正は、結合場によって服を着た量子真空による外部磁場の分極によるものである。
自己エネルギー-磁気ループ図で得られた結果は、結合強度パラメータ $Z\alpha$, with $Z$ the atomic number and $\alpha$ the fine-structure constant の摂動膨張によって導かれる現在の最先端結果と比較される。
合意は、$Z\rightarrow0$ limitにある。
しかし、非常に軽いイオンであっても、摂動結果は対応する補正の大きさを$g$因子に近似することができない。
この研究で考慮された全ての図から得られる$g$因子の完全な補正は、高荷電イオンを持つ基礎物理学の実験実験に非常に関係している。 A critical set of two-loop QED corrections to the $g$ factor of hydrogenlike ions is calculated without expansion in the nuclear binding field. These corrections are due to the polarization of the external magnetic field by the quantum vacuum, which is dressed by the binding field. The result obtained for the self-energy--magnetic-loop diagrams is compared with the current state-of-the-art result, derived through a perturbative expansion in the binding strength parameter $Z\alpha$, with $Z$ the atomic number and $\alpha$ the fine-structure constant. Agreement is found in the $Z\rightarrow0$ limit. However, even for very light ions, the perturbative result fails to approximate the magnitude of the corresponding correction to the $g$ factor. The total correction to the $g$ factor coming from all diagrams considered in this work is found to be highly relevant for upcoming experimental tests of fundamental physics with highly charged ions. | 翻訳日:2023-05-08 10:51:35 公開日:2020-07-23 |
# 量子 Go マシン Quantum Go Machine ( http://arxiv.org/abs/2007.12186v1 ) ライセンス: Link先を確認 | Lu-Feng Qiao, Jun Gao, Zhi-Qiang Jiao, Zhe-Yong Zhang, Zhu Cao, Ruo-Jing Ren, Chao-Ni Zhang, Cheng-Qiu Hu, Xiao-Yun Xu, Hao Tang, Zhi-Hao Ma, Xian-Min Jin | (参考訳) goは長年、人工知能のテストベッドと見なされてきた。
重畳や波動関数の崩壊などの量子的特徴を導入することにより、偏光度に絡み合った相関光子対を用いて、Goの量子バージョンを実験的に示す。
生成された状態のヒルベルト空間の総次元は、2人のプレイヤーが順番に石を時系列に配置するにつれて指数関数的に増加する。
現在、非決定論的かつ不完全な情報ゲームは、より解決が難しいため、量子物理学における固有のランダム性は、古典的手法には存在しない非決定論的特性をもたらすことを興奮的に見出す。
コヒーレンスや絡み合いのようないくつかの量子資源は、量子石の状態を表すために符号化することもできる。
量子リソースの調整は、単一のゲームの平均不完全情報(古典的な囲碁は完璧な情報ゲームである)を変える可能性がある。
量子状態の異なるクラスから得られる時系列データの予測不能性を示すことにより,その非決定論的特徴をさらに検証する。
最後に、量子Goと、人工知能で広く研究されているいくつかの典型的なゲームを比較することで、量子Goは単一のポイントよりも幅広いゲーム困難をカバーすることができる。
本研究は,量子的特徴と資源を生かして,量子的難易度を持つ新しいゲームを発明するパラダイムを確立し,古典的および量子的機械学習の両方に新しいアルゴリズムをテストするための多用途なプラットフォームを提供する。 Go has long been considered as a testbed for artificial intelligence. By introducing certain quantum features, such as superposition and collapse of wavefunction, we experimentally demonstrate a quantum version of Go by using correlated photon pairs entangled in polarization degree of freedom. The total dimension of Hilbert space of the generated states grows exponentially as two players take turns to place the stones in time series. As nondeterministic and imperfect information games are more difficult to solve using nowadays technology, we excitedly find that the inherent randomness in quantum physics can bring the game nondeterministic trait, which does not exist in the classical counterpart. Some quantum resources, like coherence or entanglement, can also be encoded to represent the state of quantum stones. Adjusting the quantum resource may vary the average imperfect information (as comparison classical Go is a perfect information game) of a single game. We further verify its non-deterministic feature by showing the unpredictability of the time series data obtained from different classes of quantum state. Finally, by comparing quantum Go with a few typical games that are widely studied in artificial intelligence, we find that quantum Go can cover a wide range of game difficulties rather than a single point. Our results establish a paradigm of inventing new games with quantum-enabled difficulties by harnessing inherent quantum features and resources, and provide a versatile platform for the test of new algorithms to both classical and quantum machine learning. | 翻訳日:2023-05-08 10:50:20 公開日:2020-07-23 |
# [Rpではない]「ポインケアドデカヘドラル空間パラメータ推定」の再現性 [not Rp] Reproducibility of 'Poincare dodecahedral space parameter estimates' ( http://arxiv.org/abs/2008.07380v1 ) ライセンス: Link先を確認 | Boudewijn F. Roukema | (参考訳) 科学的研究論文とは何か
(i)公開、オンライン観察データファイル及び
(二)10年後の同一著者による再現が容易な再生のためのライセンスフリーソフトウェアの提供。
本論文は2008年に発表された宇宙トポロジ観測論文を再現し,両基準を満たす試みである。
(i)および
(ii)
複製ステップは、フリーライセンスのgitリポジトリパッケージ"0807.4260"で正式に定義され、現在の論文で定性的に定義されている。
ソフトウェアの中心にあるfortran 77のコードをアップグレードし、cのフロントエンドとインターフェースし、g77でコンパイルする作業は、現在のgfortranコンパイラの内容では、短期間で正当化するには大きすぎるリスクがあることが判明した。
この意味では、RBG08の結果は、両者とも再現可能であるようには見えない。
(i)データ可用性及び
(ii)ソフトウェアの無料ライセンスと一般公開。
RBG08のArXivアイデンティティコード(arXiv:0807.4260)に従って、この不完全な複製のステップを再現するソフトウェアとスクリプトを新しいgitリポジトリである0807.4260に結合する。 Is a scientific research paper based on (i) public, online observational data files and (ii) providing free-licensed software for reproducing its results easy to reproduce by the same author a decade later? This paper attempts to reproduce a cosmic topology observational paper published in 2008 and satisfying both criteria (i) and (ii). The reproduction steps are defined formally in a free-licensed git repository package "0807.4260" and qualitatively in the current paper. It was found that the effort in upgrading the Fortran 77 code at the heart of the software, interfaced with a C front end, and originally compiled with g77, in the content of the contemporary gfortran compiler, risked being too great to be justified on any short time scale. In this sense, the results of RBG08 are not as reproducible as they appeared to be, despite both (i) data availability and (ii) free-licensing and public availability of the software. The software and a script to reproduce the steps of this incomplete reproduction are combined in a new git repository named 0807.4260, following the ArXiv identity code (arXiv:0807.4260) of RBG08. | 翻訳日:2023-05-08 10:39:41 公開日:2020-07-23 |
# IoTサービスのきめ細かい衝突検出 Fine-grained Conflict Detection of IoT Services ( http://arxiv.org/abs/2007.12487v1 ) ライセンス: Link先を確認 | Dipankar Chaki, Athman Bouguettaya | (参考訳) マルチレジデントスマートホームにおけるIoTサービス間の競合を検出する新しいフレームワークを提案する。
iotサービスの機能的および非機能的特性を考慮したきめ細かい競合モデルを提案する。
提案するコンフリクトモデルはエントロピーの概念と情報理論から得られる情報を用いて設計されている。
時間的近接に基づく新しいアルゴリズムを用いてコンフリクトを検出する。
実世界のデータセットにおける実験結果は,提案手法の有効性を示す。 We propose a novel framework to detect conflicts among IoT services in a multi-resident smart home. A fine-grained conflict model is proposed considering the functional and non-functional properties of IoT services. The proposed conflict model is designed using the concept of entropy and information gain from information theory. We use a novel algorithm based on temporal proximity to detect conflicts. Experimental results on real-world datasets show the efficiency of the proposed approach. | 翻訳日:2023-05-08 10:39:19 公開日:2020-07-23 |
# 反応性分子のフェルミ温度以下への双極子蒸発 Dipolar evaporation of reactive molecules to below the Fermi temperature ( http://arxiv.org/abs/2007.12277v1 ) ライセンス: Link先を確認 | Giacomo Valtolina, Kyle Matsuda, William G. Tobias, Jun-Ru Li, Luigi De Marco and Jun Ye | (参考訳) 分子は物質の構成要素であり、その制御は新しい量子位相の研究の鍵であり、リッチな自由度を使って情報をエンコードし、強い相互作用を正確に調整できる。
しかし、分子衝突における非弾性損失は、低エントロピー分子系の工学を著しく妨げている。
これまでのところ、分子の量子縮退ガスは2つの高縮退原子ガスの結合によって生成されている。
ここでは、外部電場と光学格子の閉じ込めを用いて、スピン分極したカリウム-ルビジウム(krb)極性分子の二次元(2d)フェルミガスを作成し、弾性的、波長可変二極性相互作用が非弾性過程に支配される。
トラップ内の分子間の直接熱化は、効率的な双極子蒸発冷却をもたらし、相空間密度が急速に増加する。
量子縮退の開始時には、フェルミ統計が分子ガスの熱力学に与える影響を観察した。
これらの結果は、二極性分子ガスの量子縮退を達成する一般的な戦略を示し、強く相互作用する多体相を探索する。 Molecules are the building blocks of matter and their control is key to the investigation of new quantum phases, where rich degrees of freedom can be used to encode information and strong interactions can be precisely tuned. Inelastic losses in molecular collisions, however, have greatly hampered the engineering of low-entropy molecular systems. So far, the only quantum degenerate gas of molecules has been created via association of two highly degenerate atomic gases. Here, we use an external electric field along with optical lattice confinement to create a two-dimensional (2D) Fermi gas of spin-polarized potassium-rubidium (KRb) polar molecules, where elastic, tunable dipolar interactions dominate over all inelastic processes. Direct thermalization among the molecules in the trap leads to efficient dipolar evaporative cooling, yielding a rapid increase in phase-space density. At the onset of quantum degeneracy, we observe the effects of Fermi statistics on the thermodynamics of the molecular gas. These results demonstrate a general strategy for achieving quantum degeneracy in dipolar molecular gases to explore strongly interacting many-body phases. | 翻訳日:2023-05-08 10:39:13 公開日:2020-07-23 |
# 任意損失とモデルのための多成分・非ラベル学習 Multi-Complementary and Unlabeled Learning for Arbitrary Losses and Models ( http://arxiv.org/abs/2001.04243v3 ) ライセンス: Link先を確認 | Yuzhou Cao, Shuqi Liu and Yitian Xu | (参考訳) 補足ラベル学習と呼ばれる弱教師付き学習フレームワークが最近提案されており、各サンプルには、サンプルが属さないクラスのひとつを表す単一の補足ラベルが備えられている。
しかし,既存の補完ラベル学習手法では,複数の補完ラベルを持つ非ラベル付きサンプルやサンプルから学習することができない。
本稿では,これらの制約を解消するために,任意のラベルとラベルなしサンプルを持つサンプルから,任意の損失関数とモデルに対して,分類リスクの偏りのない推定を可能にする,新しい多相学習フレームワークを提案する。
まず,複数の相補ラベルを有する試料からの分類リスクの偏りのない推定器を提示し,リスク定式化にラベルなしサンプルを組み込むことにより,推定器をさらに改良する。
推定誤差境界は,提案手法が最適パラメトリック収束率にあることを示す。
最後に,線形モデルと深部モデルの両方で実験を行い,本手法の有効性を示した。 A weakly-supervised learning framework named as complementary-label learning has been proposed recently, where each sample is equipped with a single complementary label that denotes one of the classes the sample does not belong to. However, the existing complementary-label learning methods cannot learn from the easily accessible unlabeled samples and samples with multiple complementary labels, which are more informative. In this paper, to remove these limitations, we propose the novel multi-complementary and unlabeled learning framework that allows unbiased estimation of classification risk from samples with any number of complementary labels and unlabeled samples, for arbitrary loss functions and models. We first give an unbiased estimator of the classification risk from samples with multiple complementary labels, and then further improve the estimator by incorporating unlabeled samples into the risk formulation. The estimation error bounds show that the proposed methods are in the optimal parametric convergence rate. Finally, the experiments on both linear and deep models show the effectiveness of our methods. | 翻訳日:2023-01-11 22:39:14 公開日:2020-07-23 |
# 雑音量子コンピュータにおける時間情報処理 Temporal Information Processing on Noisy Quantum Computers ( http://arxiv.org/abs/2001.09498v2 ) ライセンス: Link先を確認 | Jiayin Chen and Hendra I. Nurdin and Naoki Yamamoto | (参考訳) 機械学習と量子コンピューティングの組み合わせは、これまで不可能だった問題に対処するための有望なアプローチとして登場した。
リザーバコンピューティングは、非線形力学系を時間的情報処理、すなわち入力シーケンスの処理に利用し、出力シーケンスを生成する効率的な学習パラダイムである。
本稿では,複雑な散逸量子力学を利用した量子貯留層計算を提案する。
我々の量子貯水池のクラスは普遍的であり、任意の非線形フェージングメモリマップは、このクラスからの量子貯水池によって任意の入力に対して任意にかつ一様に近似することができる。
現在のノイズゲートモデル量子コンピュータに固有の量子ゲートを用いて容易に実装できる普遍クラスのサブクラスを記述する。
遠隔アクセスされたクラウドベースの超伝導量子コンピュータの原理実証実験は、小さくノイズの多い量子貯水池が高次非線形時間的タスクに取り組むことができることを示した。
我々の理論的および実験的結果は、ニューラルネットワーク、音声認識、自然言語処理など、静的な分類や回帰タスクを超越した、より広範な応用のための、量子誤り訂正を伴わない、短期ゲートモデル量子コンピュータの魅力的な時間的処理の道を開くものである。 The combination of machine learning and quantum computing has emerged as a promising approach for addressing previously untenable problems. Reservoir computing is an efficient learning paradigm that utilizes nonlinear dynamical systems for temporal information processing, i.e., processing of input sequences to produce output sequences. Here we propose quantum reservoir computing that harnesses complex dissipative quantum dynamics. Our class of quantum reservoirs is universal, in that any nonlinear fading memory map can be approximated arbitrarily closely and uniformly over all inputs by a quantum reservoir from this class. We describe a subclass of the universal class that is readily implementable using quantum gates native to current noisy gate-model quantum computers. Proof-of-principle experiments on remotely accessed cloud-based superconducting quantum computers demonstrate that small and noisy quantum reservoirs can tackle high-order nonlinear temporal tasks. Our theoretical and experimental results pave the path for attractive temporal processing applications of near-term gate-model quantum computers of increasing fidelity but without quantum error correction, signifying the potential of these devices for wider applications including neural modeling, speech recognition and natural language processing, going beyond static classification and regression tasks. | 翻訳日:2023-01-06 19:42:59 公開日:2020-07-23 |
# ファクチュアル・レグレットの最小化に優れた架空のプレイ Fictitious Play Outperforms Counterfactual Regret Minimization ( http://arxiv.org/abs/2001.11165v5 ) ライセンス: Link先を確認 | Sam Ganzfried | (参考訳) マルチプレイヤーゲームにおけるナッシュ均衡を近似して,架空の遊びと反事実的後悔の最小化という2つのアルゴリズムの性能を比較する。
近年のマルチプレイヤーポーカーにおける反実的後悔の最小化の成功と、その優位性の予想にもかかわらず、架空のプレイは様々なゲームクラスやサイズに対してナッシュ平衡近似を改善することが示されている。 We compare the performance of two popular algorithms, fictitious play and counterfactual regret minimization, in approximating Nash equilibrium in multiplayer games. Despite recent success of counterfactual regret minimization in multiplayer poker and conjectures of its superiority, we show that fictitious play leads to improved Nash equilibrium approximation over a variety of game classes and sizes. | 翻訳日:2023-01-05 12:39:45 公開日:2020-07-23 |
# 全形状・大きさのランダム化平滑化 Randomized Smoothing of All Shapes and Sizes ( http://arxiv.org/abs/2002.08118v5 ) ライセンス: Link先を確認 | Greg Yang, Tony Duan, J. Edward Hu, Hadi Salman, Ilya Razenshteyn, Jerry Li | (参考訳) ランダムな平滑化は現在の最先端の防御であり、$\ell_2$敵攻撃に対する証明可能な堅牢性を持つ。
多くの研究は、$\ell_1$ や $\ell_\infty$ のような他のメトリクスに対する新しいランダム化スムーシングスキームを考案しているが、そのような新しい保証を導き出すためにはかなりの努力が必要であった。
ランダム化平滑化に関する一般的な理論を見つけることはできますか?
本稿では,ランダム化平滑化スキームを考案・分析するための新しい枠組みを提案し,その有効性を検証する。
1) 任意の "nice" ノルムに対する最適平滑化分布がノルムの *wulff 結晶* によって与えられるレベル集合を持つこと, (2) 任意の平滑化分布に対して有理的にロバストな半径を導出するための2つの新規かつ相補的な方法,(3) バナッハ空間共型の理論による現在のランダム化平滑化手法への根本的な限界を示すこと,の理論的貢献である。
1)と(2)を組み合わせることで、標準データセットに対して$\ell_1$の認証精度が大幅に向上する。
一方,ランダムな入力摂動下でのラベル統計だけでは,$\ell_p$-norm $\Omega(\min(1, d^{\frac{1}{p} - \frac{1}{2}}))$の摂動に対して,ランダムな平滑化は,入力次元$d$が大きければ,非自明な精度を達成できないことを示す。
github.com/tonyduan/rs4aでコードを提供します。 Randomized smoothing is the current state-of-the-art defense with provable robustness against $\ell_2$ adversarial attacks. Many works have devised new randomized smoothing schemes for other metrics, such as $\ell_1$ or $\ell_\infty$; however, substantial effort was needed to derive such new guarantees. This begs the question: can we find a general theory for randomized smoothing? We propose a novel framework for devising and analyzing randomized smoothing schemes, and validate its effectiveness in practice. Our theoretical contributions are: (1) we show that for an appropriate notion of "optimal", the optimal smoothing distributions for any "nice" norms have level sets given by the norm's *Wulff Crystal*; (2) we propose two novel and complementary methods for deriving provably robust radii for any smoothing distribution; and, (3) we show fundamental limits to current randomized smoothing techniques via the theory of *Banach space cotypes*. By combining (1) and (2), we significantly improve the state-of-the-art certified accuracy in $\ell_1$ on standard datasets. Meanwhile, we show using (3) that with only label statistics under random input perturbations, randomized smoothing cannot achieve nontrivial certified accuracy against perturbations of $\ell_p$-norm $\Omega(\min(1, d^{\frac{1}{p} - \frac{1}{2}}))$, when the input dimension $d$ is large. We provide code in github.com/tonyduan/rs4a. | 翻訳日:2022-12-30 12:43:22 公開日:2020-07-23 |
# 衝突の学習: 適応型安全批判シナリオ生成手法 Learning to Collide: An Adaptive Safety-Critical Scenarios Generating Method ( http://arxiv.org/abs/2003.01197v3 ) ライセンス: Link先を確認 | Wenhao Ding, Baiming Chen, Minjun Xu, Ding Zhao | (参考訳) 自動運転アルゴリズムが現実世界に適用されると、ロングテールとレアなイベント問題が重要になる。
そこで本研究では,特定のタスクアルゴリズムを評価するための安全クリティカルシナリオを作成するための生成フレームワークを提案する。
まず,トラヒックシナリオを自己回帰的なビルディングブロックで表現し,これらのブロックの結合分布からサンプリングすることで多様なシナリオを生成する。
次に,生成モデルをエージェント(あるいはジェネレータ)として訓練し,与えられた運転アルゴリズムのリスク分散パラメータについて検討する。
我々は、タスクアルゴリズムを、リスクのあるシナリオが発生したときにエージェントに報酬を返す環境(または判別器)とみなす。
シミュレーション実験により,提案手法はグリッド探索や人体設計よりも安全クリティカルなシナリオを効率的に生成することを示した。
この方法のもう1つの利点はルートとパラメータへの適応性である。 Long-tail and rare event problems become crucial when autonomous driving algorithms are applied in the real world. For the purpose of evaluating systems in challenging settings, we propose a generative framework to create safety-critical scenarios for evaluating specific task algorithms. We first represent the traffic scenarios with a series of autoregressive building blocks and generate diverse scenarios by sampling from the joint distribution of these blocks. We then train the generative model as an agent (or a generator) to investigate the risky distribution parameters for a given driving algorithm being evaluated. We regard the task algorithm as an environment (or a discriminator) that returns a reward to the agent when a risky scenario is generated. Through the experiments conducted on several scenarios in the simulation, we demonstrate that the proposed framework generates safety-critical scenarios more efficiently than grid search or human design methods. Another advantage of this method is its adaptiveness to the routes and parameters. | 翻訳日:2022-12-27 05:59:51 公開日:2020-07-23 |
# BATS:バイナリArchitcTure Search BATS: Binary ArchitecTure Search ( http://arxiv.org/abs/2003.01711v2 ) ライセンス: Link先を確認 | Adrian Bulat and Brais Martinez and Georgios Tzimiropoulos | (参考訳) 本稿では,バイナリニューラルネットワークと実際のニューラルネットワークとの精度ギャップを,ニューラルネットワーク検索(nas)によって劇的に低減するフレームワークであるbinary architecture search(bats)を提案する。
NASをバイナリドメインに直接適用すると、非常に悪い結果が得られます。
これを緩和するために、我々は初めて、nasをバイナリドメインにうまく適用するための3つの重要な要素について記述します。
具体的には,(1)新しいバイナリ指向探索空間の導入と設計,(2)検索されたトポロジの制御と安定化のための新しいメカニズムの提案,(3)コンバージェンスと検索時間の短縮につながるバイナリネットワークの新しい探索戦略の提案と検証を行う。
実験の結果,提案手法の有効性と二元空間における直接探索の必要性が示された。
さらに, (4) cifar10, cifar100およびimagenetデータセット上に, バイナリニューラルネットワークのための最新技術を設定する。
コードはhttps://github.com/1adrianb/binary-nasで利用可能になる。 This paper proposes Binary ArchitecTure Search (BATS), a framework that drastically reduces the accuracy gap between binary neural networks and their real-valued counterparts by means of Neural Architecture Search (NAS). We show that directly applying NAS to the binary domain provides very poor results. To alleviate this, we describe, to our knowledge, for the first time, the 3 key ingredients for successfully applying NAS to the binary domain. Specifically, we (1) introduce and design a novel binary-oriented search space, (2) propose a new mechanism for controlling and stabilising the resulting searched topologies, (3) propose and validate a series of new search strategies for binary networks that lead to faster convergence and lower search times. Experimental results demonstrate the effectiveness of the proposed approach and the necessity of searching in the binary space directly. Moreover, (4) we set a new state-of-the-art for binary neural networks on CIFAR10, CIFAR100 and ImageNet datasets. Code will be made available https://github.com/1adrianb/binary-nas | 翻訳日:2022-12-26 22:16:14 公開日:2020-07-23 |
# 高速ダイバージェンスに基づくMAV着陸のための進化型ニューロモルフィック制御 Evolved Neuromorphic Control for High Speed Divergence-based Landings of MAVs ( http://arxiv.org/abs/2003.03118v3 ) ライセンス: Link先を確認 | J. J. Hagenaars, F. Paredes-Vall\'es, S. M. Boht\'e, G. C. H. E. de Croon | (参考訳) 空飛ぶ昆虫は、散らばった環境で視覚に基づくナビゲーションが可能で、高速かつアジャイルな操作によって障害物を確実に回避し、視覚刺激の処理において非常に効率的である。
一方、自律型マイクロエア車両は生物学的な性能よりもはるかに遅れており、エネルギー消費がはるかに高い性能を示している。
これを踏まえて、我々は、飛んでいる昆虫をその処理能力で模倣し、現実世界でのこのアプローチの効率性を示したいと考えています。
この手紙は、下向きのカメラからの光流のばらつきを利用してマイクロエア車両の着陸を制御するための、スパイクニューラルネットワークの進化を通じて実現している。
その結果得られたニューロモルフィックコントローラは,高度に抽象化されたシミュレーションから実世界へロバストに移動し,ネットワークスパイクレートを最小に保ちながら高速かつ安全なランディングを行う。
さらに, 発散に基づく着地問題の解決に要する資源について考察し, 1つのスパイクニューロンだけで高分解能制御を学習可能であることを示す。
私たちの知る限りでは、この研究は現実世界の飛行ロボットの制御ループにスパイクするニューラルネットワークを統合する最初のものである。
実験のビデオはhttps://bit.ly/neuro-controller で見ることができる。 Flying insects are capable of vision-based navigation in cluttered environments, reliably avoiding obstacles through fast and agile maneuvers, while being very efficient in the processing of visual stimuli. Meanwhile, autonomous micro air vehicles still lag far behind their biological counterparts, displaying inferior performance at a much higher energy consumption. In light of this, we want to mimic flying insects in terms of their processing capabilities, and consequently show the efficiency of this approach in the real world. This letter does so through evolving spiking neural networks for controlling landings of micro air vehicles using optical flow divergence from a downward-looking camera. We demonstrate that the resulting neuromorphic controllers transfer robustly from a highly abstracted simulation to the real world, performing fast and safe landings while keeping network spike rate minimal. Furthermore, we provide insight into the resources required for successfully solving the problem of divergence-based landing, showing that high-resolution control can be learned with only a single spiking neuron. To the best of our knowledge, this work is the first to integrate spiking neural networks in the control loop of a real-world flying robot. Videos of the experiments can be found at https://bit.ly/neuro-controller . | 翻訳日:2022-12-26 01:19:32 公開日:2020-07-23 |
# 超解像・解像ネットワーク改善のための確率周波数マスキング Stochastic Frequency Masking to Improve Super-Resolution and Denoising Networks ( http://arxiv.org/abs/2003.07119v3 ) ライセンス: Link先を確認 | Majed El Helou, Ruofan Zhou, Sabine S\"usstrunk | (参考訳) スーパーレゾリューションとデノイジングは不適切だが基本的な画像復元作業である。
ブラインド設定では、劣化カーネルやノイズレベルは未知である。
これにより、特に学習に基づく手法では、トレーニング中に見られる劣化に過剰に適合する傾向があるため、復元はさらに困難になる。
超解像における劣化カーネルオーバーフィッティングの周波数領域における解析を行い、超解像と復調の両方に広がる条件付き学習視点を導入する。
定式化に基づいて,トレーニングに使用される画像の確率周波数マスキングを提案し,ネットワークの正規化とオーバーフィッティング問題に対処する。
本手法は, 異なる合成カーネル, 実超解像, ブラインドガウスデノナイジング, 実像デノナイジングによるブラインド超解像における最先端の手法を改善する。 Super-resolution and denoising are ill-posed yet fundamental image restoration tasks. In blind settings, the degradation kernel or the noise level are unknown. This makes restoration even more challenging, notably for learning-based methods, as they tend to overfit to the degradation seen during training. We present an analysis, in the frequency domain, of degradation-kernel overfitting in super-resolution and introduce a conditional learning perspective that extends to both super-resolution and denoising. Building on our formulation, we propose a stochastic frequency masking of images used in training to regularize the networks and address the overfitting problem. Our technique improves state-of-the-art methods on blind super-resolution with different synthetic kernels, real super-resolution, blind Gaussian denoising, and real-image denoising. | 翻訳日:2022-12-23 04:01:42 公開日:2020-07-23 |
# 前地上統合による協調的ビデオオブジェクトセグメンテーション Collaborative Video Object Segmentation by Foreground-Background Integration ( http://arxiv.org/abs/2003.08333v2 ) ライセンス: Link先を確認 | Zongxin Yang, Yunchao Wei, Yi Yang | (参考訳) 本稿では,半教師付き映像オブジェクトセグメンテーションに挑戦するために,組込み学習の原理を検討する。
前景オブジェクトからの画素を用いた埋め込み学習のみを探求する従来の実践とは異なり、背景は等しく扱うべきであると考え、前景背景統合(CFBI)アプローチによる協調的ビデオオブジェクトセグメンテーションを提案する。
我々のCFBIは、ターゲット前景オブジェクトとその対応する背景からの機能を暗黙的に強制し、それに応じてセグメンテーション結果を促進する。
我々のCFBIは、前景と背景の両方から特徴を埋め込むことで、参照と予測シーケンスの一致処理をピクセルレベルとインスタンスレベルの両方から実行し、CFBIをさまざまなオブジェクトスケールに対して堅牢にします。
DAVIS 2016、DAVIS 2017、YouTube-VOSの3つの人気のあるベンチマークで広範な実験を行っている。
我々のCFBIは89.4%、81.9%、81.4%のパフォーマンスを達成し、他の最先端手法よりも優れています。
コード:https://github.com/z-x-yang/CFBI This paper investigates the principles of embedding learning to tackle the challenging semi-supervised video object segmentation. Different from previous practices that only explore the embedding learning using pixels from foreground object (s), we consider background should be equally treated and thus propose Collaborative video object segmentation by Foreground-Background Integration (CFBI) approach. Our CFBI implicitly imposes the feature embedding from the target foreground object and its corresponding background to be contrastive, promoting the segmentation results accordingly. With the feature embedding from both foreground and background, our CFBI performs the matching process between the reference and the predicted sequence from both pixel and instance levels, making the CFBI be robust to various object scales. We conduct extensive experiments on three popular benchmarks, i.e., DAVIS 2016, DAVIS 2017, and YouTube-VOS. Our CFBI achieves the performance (J$F) of 89.4%, 81.9%, and 81.4%, respectively, outperforming all the other state-of-the-art methods. Code: https://github.com/z-x-yang/CFBI. | 翻訳日:2022-12-22 12:50:17 公開日:2020-07-23 |
# ディープスパイクニューラルネットワークの固有逆ロバスト性:離散入力エンコーディングと非線形アクティベーションの影響 Inherent Adversarial Robustness of Deep Spiking Neural Networks: Effects of Discrete Input Encoding and Non-Linear Activations ( http://arxiv.org/abs/2003.10399v2 ) ライセンス: Link先を確認 | Saima Sharmin, Nitin Rathi, Priyadarshini Panda and Kaushik Roy | (参考訳) 最近、信頼できるニューラルネットワークの探求において、敵対的攻撃に対する本質的な堅牢性の候補としてスパイキングニューラルネットワーク(SNN)を提案する。
本研究では,特にブラックボックス攻撃シナリオにおいて,勾配に基づく攻撃下でのsnsの競合精度が,ディープvggおよびresnetアーキテクチャ上のcifarデータセットに対する非スパイク攻撃よりも高いことを実証する。
この頑健さをsnsの2つの基本的な特性に分類し,その効果を分析した。
まず,Poissonエンコーダが導入した入力離散化により,時間ステップの削減による対向ロバスト性が向上することを示す。
第2に,リーク積分火炎(lif)ニューロンのリーク率を増加させることで,敵の精度を定量化する。
以上の結果より, LIFニューロンで訓練したSNNと, IF(Integrate-Fire)ニューロンで訓練したSNNの方が, より堅牢であることがわかった。
また,snnからの攻撃手法を提案することで,時間領域における勾配に基づく逆入力生成のボトルネックを克服する。 In the recent quest for trustworthy neural networks, we present Spiking Neural Network (SNN) as a potential candidate for inherent robustness against adversarial attacks. In this work, we demonstrate that adversarial accuracy of SNNs under gradient-based attacks is higher than their non-spiking counterparts for CIFAR datasets on deep VGG and ResNet architectures, particularly in blackbox attack scenario. We attribute this robustness to two fundamental characteristics of SNNs and analyze their effects. First, we exhibit that input discretization introduced by the Poisson encoder improves adversarial robustness with reduced number of timesteps. Second, we quantify the amount of adversarial accuracy with increased leak rate in Leaky-Integrate-Fire (LIF) neurons. Our results suggest that SNNs trained with LIF neurons and smaller number of timesteps are more robust than the ones with IF (Integrate-Fire) neurons and larger number of timesteps. Also we overcome the bottleneck of creating gradient-based adversarial inputs in temporal domain by proposing a technique for crafting attacks from SNN | 翻訳日:2022-12-20 23:21:37 公開日:2020-07-23 |
# ProxyNCA++: Proxy近傍コンポーネント分析の再検討と再活性化 ProxyNCA++: Revisiting and Revitalizing Proxy Neighborhood Component Analysis ( http://arxiv.org/abs/2004.01113v2 ) ライセンス: Link先を確認 | Eu Wern Teh, Terrance DeVries, Graham W. Taylor | (参考訳) 画像間の効果的な類似度尺度を学習することが課題である距離距離学習(dml)の問題を考える。
ProxyNCAを再検討し、いくつかの拡張を加えます。
低温スケーリングはパフォーマンスクリティカルなコンポーネントであり、その理由を説明しています。
さらに、Global Average Poolingと比較して、Global Max Poolingが一般的に有効であることも分かりました。
さらに,提案する高速移動プロキシは,小さな勾配問題にも対処し,このコンポーネントは低温スケーリングやグローバルマックスプーリングと相乗効果がある。
proxynca++と呼ばれる拡張モデルにより、4つの異なるゼロショット検索データセットにおけるrecall@1の平均値が22.9ポイント向上した。
さらに, CUB200, Cars196, Sop, InShopの各データセットに対して, Recall@1スコア72.2, 90.1, 81.4, 90.9をそれぞれ達成した。 We consider the problem of distance metric learning (DML), where the task is to learn an effective similarity measure between images. We revisit ProxyNCA and incorporate several enhancements. We find that low temperature scaling is a performance-critical component and explain why it works. Besides, we also discover that Global Max Pooling works better in general when compared to Global Average Pooling. Additionally, our proposed fast moving proxies also addresses small gradient issue of proxies, and this component synergizes well with low temperature scaling and Global Max Pooling. Our enhanced model, called ProxyNCA++, achieves a 22.9 percentage point average improvement of Recall@1 across four different zero-shot retrieval datasets compared to the original ProxyNCA algorithm. Furthermore, we achieve state-of-the-art results on the CUB200, Cars196, Sop, and InShop datasets, achieving Recall@1 scores of 72.2, 90.1, 81.4, and 90.9, respectively. | 翻訳日:2022-12-17 12:57:12 公開日:2020-07-23 |
# $\ell_1$-regularized Optimizationに対するorthant Based Proximal Stochastic Gradient Method Orthant Based Proximal Stochastic Gradient Method for $\ell_1$-Regularized Optimization ( http://arxiv.org/abs/2004.03639v2 ) ライセンス: Link先を確認 | Tianyi Chen, Tianyu Ding, Bo Ji, Guanyi Wang, Jing Tian, Yixin Shi, Sheng Yi, Xiao Tu, Zhihui Zhu | (参考訳) スパーシリティを誘発する正規化問題は、特徴選択からモデル圧縮まで、機械学習アプリケーションではユビキタスである。
本稿では,確率的手法であるorthant Based Proximal Stochastic Gradient Method (OBProx-SG)を提案する。
OBProx-SG法は2つのステップを含む。
i) 解の支持被覆を予測するための近位確率勾配ステップ,及び
(ii)顔投射を介して空間レベルを積極的に高めるためのオーサントステップ。
Prox-SG, RDA や Prox-SVRG のような最先端の手法と比較して、OBProx-SG は大域最適解(凸シナリオ)や定常点(凸でないシナリオ)に収束するだけでなく、解の空間性も著しく促進する。
特に、多数の凸問題において、OBProx-SGは、空間探索と目的値の観点から、既存の手法を総合的に上回ります。
さらに、MobileNetV1やResNet18のような非凸ディープニューラルネットワークの実験では、一般化精度を犠牲にすることなく、はるかに高い空間の解を達成することにより、その優位性を示す。 Sparsity-inducing regularization problems are ubiquitous in machine learning applications, ranging from feature selection to model compression. In this paper, we present a novel stochastic method -- Orthant Based Proximal Stochastic Gradient Method (OBProx-SG) -- to solve perhaps the most popular instance, i.e., the l1-regularized problem. The OBProx-SG method contains two steps: (i) a proximal stochastic gradient step to predict a support cover of the solution; and (ii) an orthant step to aggressively enhance the sparsity level via orthant face projection. Compared to the state-of-the-art methods, e.g., Prox-SG, RDA and Prox-SVRG, the OBProx-SG not only converges to the global optimal solutions (in convex scenario) or the stationary points (in non-convex scenario), but also promotes the sparsity of the solutions substantially. Particularly, on a large number of convex problems, OBProx-SG outperforms the existing methods comprehensively in the aspect of sparsity exploration and objective values. Moreover, the experiments on non-convex deep neural networks, e.g., MobileNetV1 and ResNet18, further demonstrate its superiority by achieving the solutions of much higher sparsity without sacrificing generalization accuracy. | 翻訳日:2022-12-15 23:20:55 公開日:2020-07-23 |
# ディープハッシュに基づく検索のためのターゲット攻撃 Targeted Attack for Deep Hashing based Retrieval ( http://arxiv.org/abs/2004.07955v3 ) ライセンス: Link先を確認 | Jiawang Bai, Bin Chen, Yiming Li, Dongxian Wu, Weiwei Guo, Shu-tao Xia, En-hui Yang | (参考訳) ディープハッシュに基づく検索法は大規模画像検索やビデオ検索に広く採用されている。
しかし、そのセキュリティに関する調査はほとんどない。
本稿では,ディープ・ハッシュ・ターゲット・アタック(DHTA)と呼ばれる新たな手法を提案する。
具体的には、まずターゲット攻撃をポイントツーセット最適化(point-to-set optimization)として定式化し、敵の例のハッシュコードと対象ラベルのあるオブジェクトの集合の平均距離を最小化する。
そして,対象ラベルを持つオブジェクトのハッシュコードの集合の代表としてアンカーコードを得るための新しいコンポーネント投票方式を設計し,その最適性保証も理論的に導出する。
性能と知覚性のバランスをとるため,摂動に対する$\ell^\infty$制限の下で,対向例のハッシュコードとアンカーコードとのハミング距離を最小化することを提案する。
広汎な実験により、DHTAは深いハッシュに基づく画像検索とビデオ検索の両方を攻撃するのに有効であることが示された。 The deep hashing based retrieval method is widely adopted in large-scale image and video retrieval. However, there is little investigation on its security. In this paper, we propose a novel method, dubbed deep hashing targeted attack (DHTA), to study the targeted attack on such retrieval. Specifically, we first formulate the targeted attack as a point-to-set optimization, which minimizes the average distance between the hash code of an adversarial example and those of a set of objects with the target label. Then we design a novel component-voting scheme to obtain an anchor code as the representative of the set of hash codes of objects with the target label, whose optimality guarantee is also theoretically derived. To balance the performance and perceptibility, we propose to minimize the Hamming distance between the hash code of the adversarial example and the anchor code under the $\ell^\infty$ restriction on the perturbation. Extensive experiments verify that DHTA is effective in attacking both deep hashing based image retrieval and video retrieval. | 翻訳日:2022-12-13 03:21:52 公開日:2020-07-23 |
# 位相適応深部グラフ学習によるランドマーク構造検出 Structured Landmark Detection via Topology-Adapting Deep Graph Learning ( http://arxiv.org/abs/2004.08190v6 ) ライセンス: Link先を確認 | Weijian Li, Yuhang Lu, Kang Zheng, Haofu Liao, Chihung Lin, Jiebo Luo, Chi-Tung Cheng, Jing Xiao, Le Lu, Chang-Fu Kuo, and Shun Miao | (参考訳) 画像ランドマーク検出は、事前定義されたfiducial pointの場所を自動的に識別することを目的としている。
近年の成功にもかかわらず、解剖学的ランドマーク間の暗黙的あるいは明示的な関係を捉える高次構造モデリングは十分に活用されていない。
本研究では,解剖学的顔と医学的(手,骨盤など)のランドマーク検出のための新しいトポロジ適応深部グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
適応グラフトポロジーは、2つのグラフ畳み込みネットワーク(GCN)でエンドツーエンドに学習されるタスク固有の構造を自然に探索し、着地する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ(パブリック)、ハンド、ペルヴィス)で大規模な実験が行われた。
従来の最先端手法と比較した定量的な結果から,ロバスト性と精度の両面で優れた性能を示した。
学習したグラフトポロジの質的な視覚化は、ランドマークの背後に物理的に妥当な接続性を示す。 Image landmark detection aims to automatically identify the locations of predefined fiducial points. Despite recent success in this field, higher-ordered structural modeling to capture implicit or explicit relationships among anatomical landmarks has not been adequately exploited. In this work, we present a new topology-adapting deep graph learning approach for accurate anatomical facial and medical (e.g., hand, pelvis) landmark detection. The proposed method constructs graph signals leveraging both local image features and global shape features. The adaptive graph topology naturally explores and lands on task-specific structures which are learned end-to-end with two Graph Convolutional Networks (GCNs). Extensive experiments are conducted on three public facial image datasets (WFLW, 300W, and COFW-68) as well as three real-world X-ray medical datasets (Cephalometric (public), Hand and Pelvis). Quantitative results comparing with the previous state-of-the-art approaches across all studied datasets indicating the superior performance in both robustness and accuracy. Qualitative visualizations of the learned graph topologies demonstrate a physically plausible connectivity laying behind the landmarks. | 翻訳日:2022-12-12 13:25:18 公開日:2020-07-23 |
# PointTriNet: 3次元点集合の三角測量を学習 PointTriNet: Learned Triangulation of 3D Point Sets ( http://arxiv.org/abs/2005.02138v2 ) ライセンス: Link先を確認 | Nicholas Sharp, Maks Ovsjanikov | (参考訳) この研究は、幾何学的深層学習における新しい課題である、3次元空間内の点の集合間で三角測量を生成することを考える。
PointTriNetは3D学習パイプラインのレイヤとしてポイントセット三角測量を可能にする,微分可能かつスケーラブルなアプローチである。
この方法は2つのニューラルネットワークを反復的に適用する: 分類ネットワークは三角測量に候補三角形が現れるかどうかを予測し、提案ネットワークは追加候補を提案する。
両方のネットワークは、新しい三角関係入力エンコーディングを使用して、近傍の点と三角形の上にポイントネットとして構成されている。
これらの学習問題は局所幾何学的データに基づいて行われるため,本手法は効率的かつスケーラブルであり,形状カテゴリを一般化する。
我々のネットワークは、点雲として表される形状の集合から教師なしの方法で訓練されている。
本稿では,古典的なメッシュ処理,外乱に対する堅牢性,およびエンドツーエンド学習システムにおけるコンポーネントとしてのこのアプローチの有効性を示す。 This work considers a new task in geometric deep learning: generating a triangulation among a set of points in 3D space. We present PointTriNet, a differentiable and scalable approach enabling point set triangulation as a layer in 3D learning pipelines. The method iteratively applies two neural networks: a classification network predicts whether a candidate triangle should appear in the triangulation, while a proposal network suggests additional candidates. Both networks are structured as PointNets over nearby points and triangles, using a novel triangle-relative input encoding. Since these learning problems operate on local geometric data, our method is efficient and scalable, and generalizes to unseen shape categories. Our networks are trained in an unsupervised manner from a collection of shapes represented as point clouds. We demonstrate the effectiveness of this approach for classical meshing tasks, robustness to outliers, and as a component in end-to-end learning systems. | 翻訳日:2022-12-11 23:46:06 公開日:2020-07-23 |
# 透明な形状の神経3d再構築 Through the Looking Glass: Neural 3D Reconstruction of Transparent Shapes ( http://arxiv.org/abs/2004.10904v2 ) ライセンス: Link先を確認 | Zhengqin Li, Yu-Ying Yeh, Manmohan Chandraker | (参考訳) 少数の制約のない自然画像を用いて透明物体の3次元形状を復元することは不適切な問題である。
屈折と反射によって引き起こされる複雑な光路は、従来のマルチビューステレオとディープマルチビューステレオの両方がこの課題を解決するのを妨げている。
携帯電話カメラで取得したいくつかの画像を用いて,任意の環境マップを用いて,透明物体の3次元形状を復元する物理ネットワークを提案する。
我々の新しいコントリビューションには、局所的な計算による複雑な光輸送のモデル化を可能にする正規表現、屈折と反射をモデル化するレンダリング層、透明な形状の正規化のために特別に設計されたコストボリューム、3Dポイントクラウド再構成のための予測正規に基づく特徴マッピングが含まれる。
合成データセットを描画し、異なるビューにわたる屈折光輸送を学習するようモデルに促す。
5-12個の自然画像を用いて, 複雑な透明形状に対する高品質な3次元形状の復元に成功した。
コードとデータは公開されています。 Recovering the 3D shape of transparent objects using a small number of unconstrained natural images is an ill-posed problem. Complex light paths induced by refraction and reflection have prevented both traditional and deep multiview stereo from solving this challenge. We propose a physically-based network to recover 3D shape of transparent objects using a few images acquired with a mobile phone camera, under a known but arbitrary environment map. Our novel contributions include a normal representation that enables the network to model complex light transport through local computation, a rendering layer that models refractions and reflections, a cost volume specifically designed for normal refinement of transparent shapes and a feature mapping based on predicted normals for 3D point cloud reconstruction. We render a synthetic dataset to encourage the model to learn refractive light transport across different views. Our experiments show successful recovery of high-quality 3D geometry for complex transparent shapes using as few as 5-12 natural images. Code and data are publicly released. | 翻訳日:2022-12-10 18:40:05 公開日:2020-07-23 |
# エネルギー収穫パワーデバイスのための非一様圧縮マルチエクイットニューラルネットワークによる間欠的推論 Intermittent Inference with Nonuniformly Compressed Multi-Exit Neural Network for Energy Harvesting Powered Devices ( http://arxiv.org/abs/2004.11293v2 ) ライセンス: Link先を確認 | Yawen Wu, Zhepeng Wang, Zhenge Jia, Yiyu Shi, Jingtong Hu | (参考訳) 本研究の目的は、EH駆動デバイスに軽量DNNをデプロイすることで、EH(Energy-harvesting)駆動デバイスに対して永続的でイベント駆動のセンシングおよび決定機能を実現することである。
しかし、収穫エネルギーは通常弱く予測不可能であり、軽量のDNNでも1つの推論を終わらせるために複数のサイクルを要している。
1つの推論のためにエネルギーを蓄積し、その精度を最適化するために、複数のエグジットニューラルネットワークをeh駆動マイクロコントローラ(mcu)に圧縮し、実行中にエグジットを選択するためのパワートレース認識およびエグジット誘導ネットワーク圧縮アルゴリズムを開発した。
実験の結果,最先端技術と比較して精度とレイテンシが優れていた。 This work aims to enable persistent, event-driven sensing and decision capabilities for energy-harvesting (EH)-powered devices by deploying lightweight DNNs onto EH-powered devices. However, harvested energy is usually weak and unpredictable and even lightweight DNNs take multiple power cycles to finish one inference. To eliminate the indefinite long wait to accumulate energy for one inference and to optimize the accuracy, we developed a power trace-aware and exit-guided network compression algorithm to compress and deploy multi-exit neural networks to EH-powered microcontrollers (MCUs) and select exits during execution according to available energy. The experimental results show superior accuracy and latency compared with state-of-the-art techniques. | 翻訳日:2022-12-10 09:10:34 公開日:2020-07-23 |
# DPDist : Deep Point Cloud Distance を用いた点雲の比較 DPDist : Comparing Point Clouds Using Deep Point Cloud Distance ( http://arxiv.org/abs/2004.11784v2 ) ライセンス: Link先を確認 | Dahlia Urbach, Yizhak Ben-Shabat, Michael Lindenbaum | (参考訳) ポイントクラウド比較のための新しいディープラーニング手法を提案する。
我々のアプローチは、Deep Point Cloud Distance (DPDist)と呼ばれ、1つのクラウド内の点と、他のクラウドがサンプリングされる推定表面との間の距離を測定する。
3次元修正フィッシャーベクトル表現を用いて局所的かつ効率的に表面を推定する。
局所表現は表面の複雑さを減らし、効率的で効果的な学習を可能にし、オブジェクトカテゴリ間でうまく一般化する。
提案した距離は、類似のオブジェクト比較や登録などの課題においてテストし、チャンファー距離、地球移動器距離などの一般的な距離よりも大幅に改善されていることを示す。 We introduce a new deep learning method for point cloud comparison. Our approach, named Deep Point Cloud Distance (DPDist), measures the distance between the points in one cloud and the estimated surface from which the other point cloud is sampled. The surface is estimated locally and efficiently using the 3D modified Fisher vector representation. The local representation reduces the complexity of the surface, enabling efficient and effective learning, which generalizes well between object categories. We test the proposed distance in challenging tasks, such as similar object comparison and registration, and show that it provides significant improvements over commonly used distances such as Chamfer distance, Earth mover's distance, and others. | 翻訳日:2022-12-10 03:50:57 公開日:2020-07-23 |
# 胸部X線レポートの構造情報の公開, 説明, 開示について Show, Describe and Conclude: On Exploiting the Structure Information of Chest X-Ray Reports ( http://arxiv.org/abs/2004.12274v2 ) ライセンス: Link先を確認 | Baoyu Jing, Zeya Wang, Eric Xing | (参考訳) 胸部X線像(CXR)は臨床検診や診断に一般的に用いられる。
これらの画像に対するレポートの自動書き込みは、記述的所見と決定的な印象を要約するために、放射線科医の作業負荷を大幅に軽減することができる。
レポートのセクション内とセクション間の複雑な構造は、自動レポート生成にとって大きな課題となる。
具体的には、印象部は、発見部に対する診断の要約であり、正常性の出現は、異常部のそれぞれの部分を支配する。
既存の研究は、この基本的な構造情報を探索し考慮することが滅多にない。
そこで本研究では,CXRイメージングレポートを生成するために,レポートセクション間の構造情報を利用する新しいフレームワークを提案する。
まず,発見と印象の関係を明示的にモデル化する二段階戦略を提案する。
第2に,異常と正規性の間の不均衡分布を暗黙的にキャプチャする新しい協調型マルチエージェントシステムを設計する。
CXRレポートデータセットの2つの実験結果から,本手法が各種評価指標を用いて最先端の性能を達成することを示す。
その結果,提案手法は構造情報の統合により,高品質な医療報告を作成できることがわかった。 Chest X-Ray (CXR) images are commonly used for clinical screening and diagnosis. Automatically writing reports for these images can considerably lighten the workload of radiologists for summarizing descriptive findings and conclusive impressions. The complex structures between and within sections of the reports pose a great challenge to the automatic report generation. Specifically, the section Impression is a diagnostic summarization over the section Findings; and the appearance of normality dominates each section over that of abnormality. Existing studies rarely explore and consider this fundamental structure information. In this work, we propose a novel framework that exploits the structure information between and within report sections for generating CXR imaging reports. First, we propose a two-stage strategy that explicitly models the relationship between Findings and Impression. Second, we design a novel cooperative multi-agent system that implicitly captures the imbalanced distribution between abnormality and normality. Experiments on two CXR report datasets show that our method achieves state-of-the-art performance in terms of various evaluation metrics. Our results expose that the proposed approach is able to generate high-quality medical reports through integrating the structure information. | 翻訳日:2022-12-09 13:09:25 公開日:2020-07-23 |
# AutoMLシステムのロバスト性テスト Testing the Robustness of AutoML Systems ( http://arxiv.org/abs/2005.02649v2 ) ライセンス: Link先を確認 | Tuomas Halvari, Jukka K. Nurminen, Tommi Mikkonen | (参考訳) 自動機械学習(AutoML)システムは、タスクとデータを自動的に一致させる機械学習(ML)パイプラインを見つけることを目的としている。
3つのAutoMLシステム、TPOT、H2O、AutoKerasで生成された機械学習パイプラインの堅牢性について検討する。
特に、汚いデータによる精度への影響について検討し、汚いトレーニングデータの使用がより堅牢なソリューションの創出にどう役立つかを考察する。
さらに,発生したパイプラインの構造の違いについても解析する。 Automated machine learning (AutoML) systems aim at finding the best machine learning (ML) pipeline that automatically matches the task and data at hand. We investigate the robustness of machine learning pipelines generated with three AutoML systems, TPOT, H2O, and AutoKeras. In particular, we study the influence of dirty data on accuracy, and consider how using dirty training data may help create more robust solutions. Furthermore, we also analyze how the structure of the generated pipelines differs in different cases. | 翻訳日:2022-12-06 05:07:48 公開日:2020-07-23 |
# ユーザプロファイルを増強したレコメンダシステムへの攻撃 Attacking Recommender Systems with Augmented User Profiles ( http://arxiv.org/abs/2005.08164v2 ) ライセンス: Link先を確認 | Chen Lin, Si Chen, Hui Li, Yanghua Xiao, Lianyun Li, Qian Yang | (参考訳) レコメンデーションシステム(rs)は多くのオンラインサービスの重要な部分となっている。
顧客を購買へと導く上で重要な役割を担っているため、不正な当事者が利益のためにrsを振り回すという自然な動機がある。
本稿では,敵が多数のユーザプロファイルを注入し,対象項目の促進や復号を行う,従属的で利益率の高い攻撃であるシリング攻撃について検討する。
従来のシリング攻撃モデルは単純なヒューリスティックに基づいており、簡単に検出したり、rsの特別な設計なしで直接逆攻撃法を採用することができる。
また,本論文では,深層学習に基づくrsに対する攻撃効果に関する研究が欠落しており,実際のrsに対するシリング攻撃の効果は疑わしい。
本稿では,新たな拡張シリング攻撃フレームワーク(aush)を提案する。
AUSHは特定のユーザーグループをターゲットにして、予算や複雑な攻撃目標に応じてRSに対する攻撃を調整できる。
AUSH の攻撃影響は古典的・近代的な深層学習に基づく RS を含む幅広い RS において顕著であり,最先端の攻撃検出モデルでは検出不可能であることを示す。 Recommendation Systems (RS) have become an essential part of many online services. Due to its pivotal role in guiding customers towards purchasing, there is a natural motivation for unscrupulous parties to spoof RS for profits. In this paper, we study the shilling attack: a subsistent and profitable attack where an adversarial party injects a number of user profiles to promote or demote a target item. Conventional shilling attack models are based on simple heuristics that can be easily detected, or directly adopt adversarial attack methods without a special design for RS. Moreover, the study on the attack impact on deep learning based RS is missing in the literature, making the effects of shilling attack against real RS doubtful. We present a novel Augmented Shilling Attack framework (AUSH) and implement it with the idea of Generative Adversarial Network. AUSH is capable of tailoring attacks against RS according to budget and complex attack goals, such as targeting a specific user group. We experimentally show that the attack impact of AUSH is noticeable on a wide range of RS including both classic and modern deep learning based RS, while it is virtually undetectable by the state-of-the-art attack detection model. | 翻訳日:2022-12-02 06:05:48 公開日:2020-07-23 |
# C-MI-GAN : MinMax定式化による条件付き相互情報の推定 C-MI-GAN : Estimation of Conditional Mutual Information using MinMax formulation ( http://arxiv.org/abs/2005.08226v2 ) ライセンス: Link先を確認 | Arnab Kumar Mondal, Arnab Bhattacharya, Sudipto Mukherjee, Prathosh AP, Sreeram Kannan, Himanshu Asnani | (参考訳) 相互情報などの情報理論量の推定とその条件付き変種は、その多面的応用により近年関心を集めている。
これらの量に対する新しいニューラル推定器は、高次元の古典的な$k$NNベースの推定器の深刻な欠点を克服した。
本研究では,その定式化をミニマックス最適化問題として利用して,条件付き相互情報(CMI)の推定に着目する。
このような定式化は、生成的敵ネットワークと同様の合同訓練手順につながる。
提案した推定器は,変数間の線形および非線形関係からなる様々なシミュレーションデータセットに対する既存手法よりも優れた推定値を提供する。
CMI推定の応用として、実データ上での条件付き独立テスト(CI)のための推定器をデプロイし、最先端のCIテスタよりも優れた結果を得る。 Estimation of information theoretic quantities such as mutual information and its conditional variant has drawn interest in recent times owing to their multifaceted applications. Newly proposed neural estimators for these quantities have overcome severe drawbacks of classical $k$NN-based estimators in high dimensions. In this work, we focus on conditional mutual information (CMI) estimation by utilizing its formulation as a minmax optimization problem. Such a formulation leads to a joint training procedure similar to that of generative adversarial networks. We find that our proposed estimator provides better estimates than the existing approaches on a variety of simulated data sets comprising linear and non-linear relations between variables. As an application of CMI estimation, we deploy our estimator for conditional independence (CI) testing on real data and obtain better results than state-of-the-art CI testers. | 翻訳日:2022-12-02 05:26:24 公開日:2020-07-23 |
# 相関解析によるganの潜在空間の解釈と制御可能な概念操作 Interpreting the Latent Space of GANs via Correlation Analysis for Controllable Concept Manipulation ( http://arxiv.org/abs/2006.10132v2 ) ライセンス: Link先を確認 | Ziqiang Li, Rentuo Tao, Hongjing Niu, Bin Li | (参考訳) 画像生成、インペインティング、超解像、薬物発見など多くの分野でgan(generative adversarial nets)がうまく適用されており、現在までにganの内部プロセスは理解されていない。
本稿では,GANの内在的メカニズムを深く理解するために,生成画像中の潜伏変数と対応する意味内容との相関を解析して,GANの潜伏空間を解釈する手法を提案する。
特徴視覚化によるモデル分割に焦点を当てた従来の手法とは異なり、この研究の重点は潜在空間の変数、すなわち潜在変数が生成した結果の定量的解析にどのように影響するかに置かれる。
重みが固定された事前学習されたGANモデルにより、潜伏変数を介在させて、生成された画像のセマンティック内容に対する影響を分析する。
特定のコンテンツ生成のために潜在変数のセットを導出することができ、制御可能なセマンティックコンテンツ操作を実現する。
提案手法は,Fashion-MNIST と UT Zappos50K のデータセット上で検証され,その有効性を示す。 Generative adversarial nets (GANs) have been successfully applied in many fields like image generation, inpainting, super-resolution and drug discovery, etc., by now, the inner process of GANs is far from been understood. To get deeper insight of the intrinsic mechanism of GANs, in this paper, a method for interpreting the latent space of GANs by analyzing the correlation between latent variables and the corresponding semantic contents in generated images is proposed. Unlike previous methods that focus on dissecting models via feature visualization, the emphasis of this work is put on the variables in latent space, i.e. how the latent variables affect the quantitative analysis of generated results. Given a pretrained GAN model with weights fixed, the latent variables are intervened to analyze their effect on the semantic content in generated images. A set of controlling latent variables can be derived for specific content generation, and the controllable semantic content manipulation be achieved. The proposed method is testified on the datasets Fashion-MNIST and UT Zappos50K, experiment results show its effectiveness. | 翻訳日:2022-11-30 03:19:58 公開日:2020-07-23 |
# h3dnet:ハイブリッド幾何プリミティブを用いた3次元物体検出 H3DNet: 3D Object Detection Using Hybrid Geometric Primitives ( http://arxiv.org/abs/2006.05682v3 ) ライセンス: Link先を確認 | Zaiwei Zhang, Bo Sun, Haitao Yang, Qixing Huang | (参考訳) 我々は,無色の3D点雲を入力とし,オブジェクト指向オブジェクト境界ボックス(BB)とその意味ラベルの集合を出力するH3DNetを紹介する。
H3DNetの批判的アイデアは、BBセンター、BBフェイスセンター、BBエッジセンターといった幾何学的原始体のハイブリッドセットを予測することである。
オブジェクトと幾何学的プリミティブ間の距離関数を定義することにより、予測された幾何学的プリミティブをオブジェクト提案に変換する方法を示す。
この距離関数はオブジェクトの提案の連続的な最適化を可能にし、その局所最小値は高い忠実度オブジェクトの提案を提供する。
h3dnetはマッチングと精細化モジュールを使用して、検出されたオブジェクトにオブジェクトの提案を分類し、検出されたオブジェクトの幾何学的パラメータを微調整する。
幾何プリミティブのハイブリッドセットは、単一のタイプの幾何プリミティブを使用するよりも、オブジェクト検出のためのより正確な信号を提供するだけでなく、結果の3dレイアウトに対する過剰な制約も提供する。
したがって、h3dnetは予測幾何学的プリミティブの異常を許容することができる。
本モデルでは,ScanNetとSUN RGB-Dの2つの大規模データセットに対して,最先端の3D検出結果を実現する。 We introduce H3DNet, which takes a colorless 3D point cloud as input and outputs a collection of oriented object bounding boxes (or BB) and their semantic labels. The critical idea of H3DNet is to predict a hybrid set of geometric primitives, i.e., BB centers, BB face centers, and BB edge centers. We show how to convert the predicted geometric primitives into object proposals by defining a distance function between an object and the geometric primitives. This distance function enables continuous optimization of object proposals, and its local minimums provide high-fidelity object proposals. H3DNet then utilizes a matching and refinement module to classify object proposals into detected objects and fine-tune the geometric parameters of the detected objects. The hybrid set of geometric primitives not only provides more accurate signals for object detection than using a single type of geometric primitives, but it also provides an overcomplete set of constraints on the resulting 3D layout. Therefore, H3DNet can tolerate outliers in predicted geometric primitives. Our model achieves state-of-the-art 3D detection results on two large datasets with real 3D scans, ScanNet and SUN RGB-D. | 翻訳日:2022-11-23 05:52:20 公開日:2020-07-23 |
# 連続時間におけるグループフェアオンラインアロケーション Group-Fair Online Allocation in Continuous Time ( http://arxiv.org/abs/2006.06852v2 ) ライセンス: Link先を確認 | Semih Cayci, Swati Gupta, Atilla Eryilmaz | (参考訳) 離散時間オンライン学習の理論は、不確実性の下でのシーケンシャルな意思決定を含む多くの問題にうまく適用されてきた。
しかし、オンラインフリーランシングプラットフォームでの契約採用やクラウドコンピューティングシステムにおけるサーバ割り当てを含む多くのアプリケーションにおいて、各アクションの結果はランダムかつアクション依存時間後にのみ観察される。
さらに、一定の倫理的・経済的懸念の結果として、監督官は各タスクの完了に期限を課し、合計時間予算$b$の配分において、異なるグループ間で公平さを要求できる。
これらのアプリケーションに対処するために,公平性を考慮した連続時間オンライン学習問題を考察し,連続時間ユーティリティ最大化に基づく新しい枠組みを提案する。
この定式化は, 報酬最大化, 最大ミニフェア, 比例公平配分ルールを, 異なるグループ間で特別に再現することを示す。
動作間の合計時間を最適に公平に割り当て(ユーティリティ関数で定義されるように)、時間効率を最大化するために期限を課す最適オフラインポリシーを特徴付ける。
統計的知識が存在しない場合,時間平均の2値上昇最適化に基づく新しいオンライン学習アルゴリズムを提案し,$\tilde{o}(b^{-1/2})$ regretbound を達成することを証明した。 The theory of discrete-time online learning has been successfully applied in many problems that involve sequential decision-making under uncertainty. However, in many applications including contractual hiring in online freelancing platforms and server allocation in cloud computing systems, the outcome of each action is observed only after a random and action-dependent time. Furthermore, as a consequence of certain ethical and economic concerns, the controller may impose deadlines on the completion of each task, and require fairness across different groups in the allocation of total time budget $B$. In order to address these applications, we consider continuous-time online learning problem with fairness considerations, and present a novel framework based on continuous-time utility maximization. We show that this formulation recovers reward-maximizing, max-min fair and proportionally fair allocation rules across different groups as special cases. We characterize the optimal offline policy, which allocates the total time between different actions in an optimally fair way (as defined by the utility function), and impose deadlines to maximize time-efficiency. In the absence of any statistical knowledge, we propose a novel online learning algorithm based on dual ascent optimization for time averages, and prove that it achieves $\tilde{O}(B^{-1/2})$ regret bound. | 翻訳日:2022-11-22 12:47:58 公開日:2020-07-23 |
# クラブ:相互情報の対比的対数比の上界 CLUB: A Contrastive Log-ratio Upper Bound of Mutual Information ( http://arxiv.org/abs/2006.12013v6 ) ライセンス: Link先を確認 | Pengyu Cheng, Weituo Hao, Shuyang Dai, Jiachang Liu, Zhe Gan, Lawrence Carin | (参考訳) 相互情報(MI)の最小化は、様々な機械学習タスクにおいて大きな関心を集めている。
しかし、高次元空間におけるMIの推定と最小化は、特に分布形式ではなくサンプルのみがアクセス可能である場合、難しい問題である。
先行研究は主にmi下限近似に焦点をあてており、mi最小化問題には適用できない。
本稿では,相互情報のコントラスト的対数比上界(club)を提案する。
我々はclubの特性とその変分近似に関する理論的解析を行う。
この上界に基づいて,mi最小化トレーニングスキームを導入し,負のサンプリング戦略でさらに高速化する。
ガウス分布のシミュレーション研究は、CLUBの信頼性推定能力を示している。
ドメイン適応と情報ボトルネックを含む実世界のmi最小化実験は,提案手法の有効性を示す。
コードはhttps://github.com/Linear95/CLUBにある。 Mutual information (MI) minimization has gained considerable interests in various machine learning tasks. However, estimating and minimizing MI in high-dimensional spaces remains a challenging problem, especially when only samples, rather than distribution forms, are accessible. Previous works mainly focus on MI lower bound approximation, which is not applicable to MI minimization problems. In this paper, we propose a novel Contrastive Log-ratio Upper Bound (CLUB) of mutual information. We provide a theoretical analysis of the properties of CLUB and its variational approximation. Based on this upper bound, we introduce a MI minimization training scheme and further accelerate it with a negative sampling strategy. Simulation studies on Gaussian distributions show the reliable estimation ability of CLUB. Real-world MI minimization experiments, including domain adaptation and information bottleneck, demonstrate the effectiveness of the proposed method. The code is at https://github.com/Linear95/CLUB. | 翻訳日:2022-11-18 04:44:37 公開日:2020-07-23 |
# SemEval-2020 Task 9 における IIT Gandhinagar: 候補文生成と選択を用いたコード混合知覚分類 IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment Classification Using Candidate Sentence Generation and Selection ( http://arxiv.org/abs/2006.14465v3 ) ライセンス: Link先を確認 | Vivek Srivastava, Mayank Singh | (参考訳) コードミキシングは、テキストや音声と同じ発話で複数の言語を使用する現象である。
ソーシャルメディアサイトやオンラインゲーム,製品レビューなど,さまざまなプラットフォーム上で頻繁に使用されるコミュニケーションパターンである。
単言語文の感性分析はよく研究された課題である。
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,bi-lstmに基づくニューラル分類器上での候補文生成と選択に基づくアプローチを提案し,hinglish符号混合テキストを肯定的,否定的,中立的3つの感情クラスに分類する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
その結果、ユーモア検出や意図分類など、テキストデータにおけるコード混合の様々なニュアンスを理解する機会が得られた。 Code-mixing is the phenomenon of using multiple languages in the same utterance of a text or speech. It is a frequently used pattern of communication on various platforms such as social media sites, online gaming, product reviews, etc. Sentiment analysis of the monolingual text is a well-studied task. Code-mixing adds to the challenge of analyzing the sentiment of the text due to the non-standard writing style. We present a candidate sentence generation and selection based approach on top of the Bi-LSTM based neural classifier to classify the Hinglish code-mixed text into one of the three sentiment classes positive, negative, or neutral. The proposed approach shows an improvement in the system performance as compared to the Bi-LSTM based neural classifier. The results present an opportunity to understand various other nuances of code-mixing in the textual data, such as humor-detection, intent classification, etc. | 翻訳日:2022-11-17 04:07:09 公開日:2020-07-23 |
# Anatomy-Aware Siamese Network:X線画像における正確な骨盤骨折検出のためのセマンティック非対称性の爆発 Anatomy-Aware Siamese Network: Exploiting Semantic Asymmetry for Accurate Pelvic Fracture Detection in X-ray Images ( http://arxiv.org/abs/2007.01464v3 ) ライセンス: Link先を確認 | Haomin Chen, Yirui Wang, Kang Zheng, Weijian Li, Chi-Tung Cheng, Adam P. Harrison, Jing Xiao, Gregory D. Hager, Le Lu, Chien-Hung Liao, Shun Miao | (参考訳) 医学的画像から微妙な異常を曖昧にするために, 正常な所見として両側対称解剖を強制する視覚的な手がかりが臨床で広く用いられている。
これまで,CAD法でこの手法を効果的にエミュレートする研究は不十分であった。
本研究では, 外傷性pxrにおける骨盤前方骨折検出の複雑なcadシナリオにおいて, セマンティクス解剖学的対称性や非対称性解析を活用し, セマンティクス学的(骨折と呼ばれる)と非病理学的(ポーズなど)の非対称性を両立させる。
視覚的に微妙だが病理学的に重要な骨折部位は経験豊富な臨床医でも見逃す可能性がある。
空間変換器層で強化されたシームズネットワーク上に構築された新しいフラクチャー検出フレームワークを提案し,対称画像の特徴を均等に解析する。
画像の特徴は左右対称解剖をエンコードするために空間的にフォーマットされる。
シームズネットワークの新たなコントラスト的特徴学習コンポーネントは、根底にあるセマンティックな非対称性(骨盤骨折の発生による)に対応するより健全な深部画像特徴を最適化するように設計されている。
提案法は, 特発性患者(過去最大の研究)の2,359 PXRに対して広範囲に評価され, ROC曲線スコア0.9771以下の領域を報告している。
これは最先端の骨折検出方法の中でも最高であり、臨床症状の改善がある。 Visual cues of enforcing bilaterally symmetric anatomies as normal findings are widely used in clinical practice to disambiguate subtle abnormalities from medical images. So far, inadequate research attention has been received on effectively emulating this practice in CAD methods. In this work, we exploit semantic anatomical symmetry or asymmetry analysis in a complex CAD scenario, i.e., anterior pelvic fracture detection in trauma PXRs, where semantically pathological (refer to as fracture) and non-pathological (e.g., pose) asymmetries both occur. Visually subtle yet pathologically critical fracture sites can be missed even by experienced clinicians, when limited diagnosis time is permitted in emergency care. We propose a novel fracture detection framework that builds upon a Siamese network enhanced with a spatial transformer layer to holistically analyze symmetric image features. Image features are spatially formatted to encode bilaterally symmetric anatomies. A new contrastive feature learning component in our Siamese network is designed to optimize the deep image features being more salient corresponding to the underlying semantic asymmetries (caused by pelvic fracture occurrences). Our proposed method have been extensively evaluated on 2,359 PXRs from unique patients (the largest study to-date), and report an area under ROC curve score of 0.9771. This is the highest among state-of-the-art fracture detection methods, with improved clinical indications. | 翻訳日:2022-11-14 05:28:27 公開日:2020-07-23 |
# 深い潜伏モデルを用いた確率ポアソン強度の推定 Estimating Stochastic Poisson Intensities Using Deep Latent Models ( http://arxiv.org/abs/2007.06037v4 ) ライセンス: Link先を確認 | Ruixin Wang, Prateek Jaiwal and Harsha Honnappa | (参考訳) 二重確率ポアソン過程の確率強度を推定する手法を提案する。
トラフィックトレースの統計的および理論的分析は、これらのプロセスが一連のサービスシステムに到達した高密度トラフィックの適切なモデルであることを示している。
トラヒックモデルを駆動する潜在確率的強度過程の統計的推定は、かなり複雑な非線形フィルタリング問題を伴う。
非線形フィルタ問題を解くために,確率的強度過程によって引き起こされる経路測度を近似するために,ディープニューラルネットワークを用いた新しいシミュレーション手法を開発した。
本手法は,インスタンス内推定と,無限サーバキューのサンプル外性能予測タスクの両方において極めて正確であることを示す。 We present methodology for estimating the stochastic intensity of a doubly stochastic Poisson process. Statistical and theoretical analyses of traffic traces show that these processes are appropriate models of high intensity traffic arriving at an array of service systems. The statistical estimation of the underlying latent stochastic intensity process driving the traffic model involves a rather complicated nonlinear filtering problem. We develop a novel simulation methodology, using deep neural networks to approximate the path measures induced by the stochastic intensity process, for solving this nonlinear filtering problem. Our simulation studies demonstrate that the method is quite accurate on both in-sample estimation and on an out-of-sample performance prediction task for an infinite server queue. | 翻訳日:2022-11-11 05:19:44 公開日:2020-07-23 |
# アンサンブル分解モデルに基づくアマゾン熱帯雨林火災の短期予測 Short-term forecasting of Amazon rainforest fires based on ensemble decomposition model ( http://arxiv.org/abs/2007.07979v2 ) ライセンス: Link先を確認 | Ramon Gomes da Silva, Matheus Henrique Dal Molin Ribeiro, Viviana Cocco Mariani and Leandro dos Santos Coelho | (参考訳) 正確な予測は意思決定者にとって重要である。
最近、アマゾンの熱帯雨林は、気候問題と公衆衛生問題の両方にかかわる、火災数の記録的な水準に達している。
所望の予測精度を得ることは困難かつ困難になる。
本稿では,ブラジルにおけるアマゾン熱帯雨林火災の時間的パターンを探索するために,ロースに基づく季節・トレンド分解と短期負荷予測アルゴリズムを組み合わせた新しい異種分解・アンサンブルモデルを開発した。
その結果,提案した分解アンサンブルモデルを用いて,性能評価により精度の高い予測を行うことができた。
Diebold-Mariano統計テストでは、提案されたモデルは他の比較モデルよりも優れているが、統計的にその1つに等しい。 Accurate forecasting is important for decision-makers. Recently, the Amazon rainforest is reaching record levels of the number of fires, a situation that concerns both climate and public health problems. Obtaining the desired forecasting accuracy becomes difficult and challenging. In this paper were developed a novel heterogeneous decomposition-ensemble model by using Seasonal and Trend decomposition based on Loess in combination with algorithms for short-term load forecasting multi-month-ahead, to explore temporal patterns of Amazon rainforest fires in Brazil. The results demonstrate the proposed decomposition-ensemble models can provide more accurate forecasting evaluated by performance measures. Diebold-Mariano statistical test showed the proposed models are better than other compared models, but it is statistically equal to one of them. | 翻訳日:2022-11-10 04:59:49 公開日:2020-07-23 |
# 局所特徴記述子のオンライン不変選択 Online Invariance Selection for Local Feature Descriptors ( http://arxiv.org/abs/2007.08988v3 ) ライセンス: Link先を確認 | R\'emi Pautrat, Viktor Larsson, Martin R. Oswald and Marc Pollefeys | (参考訳) 不変であるか不変でないかは、この研究で定式化された局所記述子に関する質問である。
現在の特徴記述子の制限は、一般化と識別力の間のトレードオフである。
この制限を克服するために,局所記述子における不変性の解消と,文脈を考慮した最も適切な不変性のオンライン選択を提案する。
本フレームワークは, 画像の局所的な変化を符号化した複数の局所記述子とメタ記述子との連成学習から構成される。
画像間のメタディスクリプタの類似性は、ローカルディスクリプタと一致するときに正しい不変性を選択するために使用される。
提案手法はLISRD (Local Invariance Selection at Runtime for Descriptors) と名付けられ, 画像の悪質な変化に適応すると同時に, 不分散が不要な場合には識別性を維持する。
提案手法は,昼夜照明による課題データセットや視点変化の評価において,現在のディスクリプタの性能を向上し,いくつかのマッチングタスクにおいて最先端のディスクリプタよりも優れることを示す。 To be invariant, or not to be invariant: that is the question formulated in this work about local descriptors. A limitation of current feature descriptors is the trade-off between generalization and discriminative power: more invariance means less informative descriptors. We propose to overcome this limitation with a disentanglement of invariance in local descriptors and with an online selection of the most appropriate invariance given the context. Our framework consists in a joint learning of multiple local descriptors with different levels of invariance and of meta descriptors encoding the regional variations of an image. The similarity of these meta descriptors across images is used to select the right invariance when matching the local descriptors. Our approach, named Local Invariance Selection at Runtime for Descriptors (LISRD), enables descriptors to adapt to adverse changes in images, while remaining discriminative when invariance is not required. We demonstrate that our method can boost the performance of current descriptors and outperforms state-of-the-art descriptors in several matching tasks, when evaluated on challenging datasets with day-night illumination as well as viewpoint changes. | 翻訳日:2022-11-09 14:14:38 公開日:2020-07-23 |
# 生成型adversarial networkを用いた衣料デザイン Garment Design with Generative Adversarial Networks ( http://arxiv.org/abs/2007.10947v2 ) ライセンス: Link先を確認 | Chenxi Yuan, Mohsen Moghaddam | (参考訳) デザイナーが特定の精神セットに固執する傾向と、その初期のアイデアへの激しい感情的な投資は、しばしば、デザイン思考とイデオレーションの過程において革新する能力を妨げる。
特にファッション業界では、顧客のニーズの多様化、国際競争の激化、市場投入までの時間短縮(すなわち「ファストファッション」)が、デザイナーにとってこの課題をさらに悪化させる。
近年の深層生成モデルの発展は、設計概念の自動生成や編集を通じて、設計者の認知的障害を克服する新たな可能性を生み出している。
本稿では,設計概念の属性レベル自動編集のための生成型逆ネットワーク(gan)の機能について検討する。
具体的には、属性GAN(AttGAN)は、人間の顔の属性編集に成功している生成モデルであり、衣服の視覚的属性の自動編集に利用され、大規模なファッションデータセットでテストされる。
実験は、設計概念の属性レベルでの編集のためのganの仮説的な可能性をサポートし、今後の作業で取り組むべきいくつかの重要な制限と研究課題を強調する。 The designers' tendency to adhere to a specific mental set and heavy emotional investment in their initial ideas often hinder their ability to innovate during the design thinking and ideation process. In the fashion industry, in particular, the growing diversity of customers' needs, the intense global competition, and the shrinking time-to-market (a.k.a., "fast fashion") further exacerbate this challenge for designers. Recent advances in deep generative models have created new possibilities to overcome the cognitive obstacles of designers through automated generation and/or editing of design concepts. This paper explores the capabilities of generative adversarial networks (GAN) for automated attribute-level editing of design concepts. Specifically, attribute GAN (AttGAN)---a generative model proven successful for attribute editing of human faces---is utilized for automated editing of the visual attributes of garments and tested on a large fashion dataset. The experiments support the hypothesized potentials of GAN for attribute-level editing of design concepts, and underscore several key limitations and research questions to be addressed in future work. | 翻訳日:2022-11-08 04:20:15 公開日:2020-07-23 |
# クラウド化モバイルネットワーク性能コンテナの特性と同定 Characterization and Identification of Cloudified Mobile Network Performance Bottlenecks ( http://arxiv.org/abs/2007.11472v2 ) ライセンス: Link先を確認 | G. Patounas, X. Foukas, A. Elmokashfi, M. K. Marina | (参考訳) この研究は、5Gモバイルネットワークが経験できるパフォーマンスボトルネックの範囲を実験的に調査する最初の試みである。
この目的のために,我々は,クラウド化モバイルネットワークの重要な側面をキャプチャするプロトタイプテストベッドによって得られた幅広い測定値を活用する。
ネットワークの異なる場所とシステムアーキテクチャのレイヤにまたがるボトルネックを正確にかつ効率的に識別するために、メトリクスと多くのアプローチの関連性を検討する。
本研究は,マルチレイヤアーキテクチャにおけるこのタスクの複雑さを検証し,ネットワーク層や関数間のメトリクスをインテリジェントに融合する新しいモニタリング手法の必要性を強調した。
特に,分散分析はボトルネック識別精度と帰納的計算・通信オーバーヘッドの両方において合理的に機能することがわかった。 This study is a first attempt to experimentally explore the range of performance bottlenecks that 5G mobile networks can experience. To this end, we leverage a wide range of measurements obtained with a prototype testbed that captures the key aspects of a cloudified mobile network. We investigate the relevance of the metrics and a number of approaches to accurately and efficiently identify bottlenecks across the different locations of the network and layers of the system architecture. Our findings validate the complexity of this task in the multi-layered architecture and highlight the need for novel monitoring approaches that intelligently fuse metrics across network layers and functions. In particular, we find that distributed analytics performs reasonably well both in terms of bottleneck identification accuracy and incurred computational and communication overhead. | 翻訳日:2022-11-07 23:22:05 公開日:2020-07-23 |
# 株価とニュースに基づく株価予測のための新しいアンサンブル深層学習モデル A Novel Ensemble Deep Learning Model for Stock Prediction Based on Stock Prices and News ( http://arxiv.org/abs/2007.12620v1 ) ライセンス: Link先を確認 | Yang Li and Yi Pan | (参考訳) 近年,機械学習や深層学習が,財務テキストデータ,数値データ,グラフィカルデータなど,金融データ分析の一般的な手法になりつつある。
本稿では,複数のテキストデータソースから有用な情報を抽出するための感情分析と,将来のストック運動を予測するためのブレンディングアンサンブル深層学習モデルを提案する。
ブレンディングアンサンブルモデルは2つのレベルを含む。
第1レベルには、2つのリカレントニューラルネットワーク(RNN)、1つのLong-Short Term Memory Network(LSTM)、1つのGated Recurrent Units Network(GRU)、続いて第2レベルモデルとして完全に接続されたニューラルネットワークが含まれる。
RNN、LSTM、GRUモデルは、入力データ内の時系列イベントを効果的にキャプチャすることができ、完全に接続されたニューラルネットワークを使用して、複数の個々の予測結果をアンサンブルして予測精度をさらに向上する。
この研究の目的は、私たちのデザイン哲学を説明し、ディープラーニング技術が将来の株価動向をより効果的に予測し、投資家が従来の方法よりも適切な投資判断を行うのを支援することができることを示すことである。 In recent years, machine learning and deep learning have become popular methods for financial data analysis, including financial textual data, numerical data, and graphical data. This paper proposes to use sentiment analysis to extract useful information from multiple textual data sources and a blending ensemble deep learning model to predict future stock movement. The blending ensemble model contains two levels. The first level contains two Recurrent Neural Networks (RNNs), one Long-Short Term Memory network (LSTM) and one Gated Recurrent Units network (GRU), followed by a fully connected neural network as the second level model. The RNNs, LSTM, and GRU models can effectively capture the time-series events in the input data, and the fully connected neural network is used to ensemble several individual prediction results to further improve the prediction accuracy. The purpose of this work is to explain our design philosophy and show that ensemble deep learning technologies can truly predict future stock price trends more effectively and can better assist investors in making the right investment decision than other traditional methods. | 翻訳日:2022-11-07 13:25:33 公開日:2020-07-23 |
# サイクル前修正が不十分なMIMO-OFDMシステムのディープラーニングに基づく等化器 Deep Learning Based Equalizer for MIMO-OFDM Systems with Insufficient Cyclic Prefix ( http://arxiv.org/abs/2007.11757v1 ) ライセンス: Link先を確認 | Yan Sun, Chao Wang, Huan Cai, Chunming Zhao, Yiqun Wu, Yan Chen | (参考訳) 本稿では,周期的プレフィックス(CP)が不十分な多重入力多重出力(MIMO)直交周波数分割多重化(OFDM)システムの等化設計について検討する。
特に、CP長を超えるマルチパス遅延が広がるとき、信号検出性能は、キャリア間干渉(ICI)とシンボル間干渉(ISI)によって著しく損なわれる。
この問題に対処するために,最大確率検出を近似する深層学習に基づく等化器を提案する。
隣接するサブキャリア間の依存性に着想を得て,計算効率の高いジョイント検出手法を開発した。
提案する等化器を用いて、反復受信機も構築し、測定されたマルチパスチャネル上でのシミュレーションにより検出性能を評価する。
その結果,提案する受信機は従来の2つのベースライン方式に比べて大幅に性能が向上することが判明した。 In this paper, we study the equalization design for multiple-input multiple-output (MIMO) orthogonal frequency division multiplexing (OFDM) systems with insufficient cyclic prefix (CP). In particular, the signal detection performance is severely impaired by inter-carrier interference (ICI) and inter-symbol interference (ISI) when the multipath delay spread exceeding the length of CP. To tackle this problem, a deep learning-based equalizer is proposed for approximating the maximum likelihood detection. Inspired by the dependency between the adjacent subcarriers, a computationally efficient joint detection scheme is developed. Employing the proposed equalizer, an iterative receiver is also constructed and the detection performance is evaluated through simulations over measured multipath channels. Our results reveal that the proposed receiver can achieve significant performance improvement compared to two traditional baseline schemes. | 翻訳日:2022-11-07 13:24:56 公開日:2020-07-23 |
# wifiを利用したcovid-19回復のためのクラウドモニタリングとワークスペース計画 WiFi-based Crowd Monitoring and Workspace Planning for COVID-19 Recovery ( http://arxiv.org/abs/2007.12250v1 ) ライセンス: Link先を確認 | Mu Mu | (参考訳) 新型コロナウイルス(COVID-19)パンデミックの回復には、注意深い計画と監視が必要だ。
IoT(Internet-of-Things)は、多くの地域や社会で新型コロナウイルスのパンデミックと戦うための重要なツールとして広く考えられている。
特に、IoTソリューションによってキャプチャされた異種データは、ポリシー作成とコミュニティイベントへの迅速な応答を通知することができる。
この記事では、ソフトウェア定義ネットワーク(SDN)によるWiFiアクセスポイントを24/7センサーとして使用して、物理空間の使用を監視し、分析する、新しいIoTクラウド監視ソリューションを紹介します。
プロトタイプと群衆の行動モデルは、大学キャンパスで5億以上の記録を用いて開発されている。
機関レベルでの情報決定を支援することに加えて、個々のビジターが施設へのアクセスを計画したりスケジュールしたりすることができる。 The recovery phase of the COVID-19 pandemic requires careful planning and monitoring while people gradually return to work. Internet-of-Things (IoT) is widely regarded as a crucial tool to help combating COVID-19 pandemic in many areas and societies. In particular, the heterogeneous data captured by IoT solutions can inform policy making and quick responses to community events. This article introduces a novel IoT crowd monitoring solution which uses software defined networks (SDN) assisted WiFi access points as 24/7 sensors to monitor and analyze the use of physical space. Prototypes and crowd behavior models are developed using over 500 million records captured on a university campus. Besides supporting informed decision at institution level, the results can be used by individual visitors to plan or schedule their access to facilities. | 翻訳日:2022-11-07 13:24:02 公開日:2020-07-23 |
# 信頼性の高い自律性のための能力向上 Improving Competence for Reliable Autonomy ( http://arxiv.org/abs/2007.11740v1 ) ライセンス: Link先を確認 | Connor Basich (University of Massachusetts Amherst), Justin Svegliato (University of Massachusetts Amherst), Kyle Hollins Wray (Alliance Innovation Lab Silicon Valley), Stefan J. Witwicki (Alliance Innovation Lab Silicon Valley), Shlomo Zilberstein (University of Massachuetts Amherst) | (参考訳) 実世界の非構造化ドメインの複雑さを考えると、自律システムが遭遇する可能性のあるすべてのシナリオを処理するために必要なすべての機能を含むモデルを設計することは不可能または不可能であることが多い。
このような領域で自律的なシステムが信頼性を持つためには、オンラインでの能力向上が期待できる。
本稿では,システムの展開過程において,システムの能力を向上させる手法を提案する。
具体的には,自身の能力(任意の状況で使用する最適な自律性の範囲)をモデル化する能力認識システムとして知られる,半自律的なシステムのクラスに注目し,人間の権威とのインタラクションを通じて受信したフィードバックから,この能力について学ぶ。
提案手法は,システムの初期モデルから欠落している重要な状態特徴を識別するために,フィードバックを活用し,その状態表現に組み込む。
その結果、人間の関与を予測するエージェントが生まれ、能力と信頼性が向上し、結果として全体的なパフォーマンスが向上します。 Given the complexity of real-world, unstructured domains, it is often impossible or impractical to design models that include every feature needed to handle all possible scenarios that an autonomous system may encounter. For an autonomous system to be reliable in such domains, it should have the ability to improve its competence online. In this paper, we propose a method for improving the competence of a system over the course of its deployment. We specifically focus on a class of semi-autonomous systems known as competence-aware systems that model their own competence -- the optimal extent of autonomy to use in any given situation -- and learn this competence over time from feedback received through interactions with a human authority. Our method exploits such feedback to identify important state features missing from the system's initial model, and incorporates them into its state representation. The result is an agent that better predicts human involvement, leading to improvements in its competence and reliability, and as a result, its overall performance. | 翻訳日:2022-11-07 13:16:34 公開日:2020-07-23 |
# jadescriptにおける自律ロボットプログラミングの探索実験 Exploratory Experiments on Programming Autonomous Robots in Jadescript ( http://arxiv.org/abs/2007.11741v1 ) ライセンス: Link先を確認 | Eleonora Iotti, Giuseppe Petrosino, Stefania Monica, Federico Bergenti | (参考訳) 本稿では,エージェント指向プログラミング言語を用いた自律ロボットのプログラミングの可能性を検証する探索実験について述べる。
多様なタイプのセンサによる環境の適切な知覚と、効果的なアクチュエータによる外部イベントへのタイムリーな反応は、ロボットに十分な自律性を提供するのに不可欠である。
エージェント指向プログラミングパラダイムは、イベントの処理やアクチュエータのコマンドに言語レベルの抽象化を提供するため、この点に関係している。
本稿では,最近のエージェント指向プログラミング言語であるjadescriptと,イベント処理に特化した新機能について述べる。
単純なケーススタディアプリケーションに関する探索実験を行い,提案手法の有効性を示し,自律ロボットのプログラムにおける言語の使用例を示す。 This paper describes exploratory experiments to validate the possibility of programming autonomous robots using an agent-oriented programming language. Proper perception of the environment, by means of various types of sensors, and timely reaction to external events, by means of effective actuators, are essential to provide robots with a sufficient level of autonomy. The agent-oriented programming paradigm is relevant with this respect because it offers language-level abstractions to process events and to command actuators. A recent agent-oriented programming language called Jadescript is presented in this paper together with its new features specifically designed to handle events. Exploratory experiments on a simple case-study application are presented to show the validity of the proposed approach and to exemplify the use of the language to program autonomous robots. | 翻訳日:2022-11-07 13:16:17 公開日:2020-07-23 |
# 適応性と検証可能なBDI推論 Adaptable and Verifiable BDI Reasoning ( http://arxiv.org/abs/2007.11743v1 ) ライセンス: Link先を確認 | Peter Stringer (University of Liverpool), Rafael C. Cardoso (University of Liverpool), Xiaowei Huang (University of Liverpool), Louise A. Dennis (University of Liverpool) | (参考訳) 長期的な自律性は、期待通りに機能しないため、自律システムが適応する必要がある。
これを実現するには、まずシステムにそのような変化を検知させる必要がある。
本稿では、動的環境の変化に適応可能なBDI自律エージェントのシステムアーキテクチャについて述べ、必要な研究の概要を述べる。
具体的には, エージェントが維持する自己モデルと, 持続的行動の理論, およびbdiシステムにおける新しい行動記述の学習について述べる。 Long-term autonomy requires autonomous systems to adapt as their capabilities no longer perform as expected. To achieve this, a system must first be capable of detecting such changes. In this position paper, we describe a system architecture for BDI autonomous agents capable of adapting to changes in a dynamic environment and outline the required research. Specifically, we describe an agent-maintained self-model with accompanying theories of durative actions and learning new action descriptions in BDI systems. | 翻訳日:2022-11-07 13:16:06 公開日:2020-07-23 |
# 計算創造性の社会的・倫理的関連性 The societal and ethical relevance of computational creativity ( http://arxiv.org/abs/2007.11973v1 ) ライセンス: Link先を確認 | Michele Loi, Eleonora Vigan\`o, Lonneke van der Plas | (参考訳) 本稿では,個人や社会における創造的システムの価値に関する哲学的考察を行う。
私たちは創造性を、自然進化や起業家精神といった自然、存在、社会的創造的なプロセスを含む、非常に広い哲学的用語で特徴づけ、この方法で理解された創造性が、長期的に人間の幸福を前進させるのに役立つ理由を説明します。
そして、現在の主流のaiが反創造的になりがちである理由を説明する。つまり、創造性を伴う計算システムは増加傾向にあるが、人間の努力においてこの種のaiを使用するための道徳的コストが存在することを意味する。
結論として、倫理は創造性を誘発するAIに対してよりホスピタブルである、という議論があり、これはAI倫理において推奨される他の価値、例えば説明可能性や正確性とのトレードオフでもある。 In this paper, we provide a philosophical account of the value of creative systems for individuals and society. We characterize creativity in very broad philosophical terms, encompassing natural, existential, and social creative processes, such as natural evolution and entrepreneurship, and explain why creativity understood in this way is instrumental for advancing human well-being in the long term. We then explain why current mainstream AI tends to be anti-creative, which means that there are moral costs of employing this type of AI in human endeavors, although computational systems that involve creativity are on the rise. In conclusion, there is an argument for ethics to be more hospitable to creativity-enabling AI, which can also be in a trade-off with other values promoted in AI ethics, such as its explainability and accuracy. | 翻訳日:2022-11-07 13:15:58 公開日:2020-07-23 |
# BDIを用いたキャンパスメール配信に向けて Toward Campus Mail Delivery Using BDI ( http://arxiv.org/abs/2007.16089v1 ) ライセンス: Link先を確認 | Chidiebere Onyedinma (University of Ottawa), Patrick Gavigan (Carleton University), Babak Esfandiari (Carleton University) | (参考訳) Belief-Desire-Intention (BDI)アーキテクチャで開発された自律システムは通常、シミュレーション環境で実装される。
本プロジェクトでは, カールトン大学のトンネルシステムにおいて, 実世界における構内メール配信のためのBDIエージェントの構築を試みた。
理想的には、ロボットはモバイルアプリケーション経由で配達注文を受け取り、駅で郵便を受け取り、目的地の駅までトンネルをナビゲートし、受信者に通知する必要がある。
我々は,ロボット・オペレーティング・システム(ROS)をBDI推論システムと結びつけ,必要なユースケースのサブセットを実現する。
ROSは低レベルのセンシングとアクティベーションを処理し、BDI推論システムは高レベルの推論と意思決定を処理する。
感覚データをオーケストレーションし、ROSから推論システムに認識として送信する。
これらの知覚は意図され、アクション文字列がROSに送信され、実行すべき動作に必要なアクチュエータの解釈と駆動が行われる。
本稿では,ハードウェアとソフトウェアの統合のループを閉じ,システム全体に必要なユースケースのサブセットを実装した現在の実装について述べる。 Autonomous systems developed with the Belief-Desire-Intention (BDI) architecture are usually mostly implemented in simulated environments. In this project we sought to build a BDI agent for use in the real world for campus mail delivery in the tunnel system at Carleton University. Ideally, the robot should receive a delivery order via a mobile application, pick up the mail at a station, navigate the tunnels to the destination station, and notify the recipient. We linked the Robot Operating System (ROS) with a BDI reasoning system to achieve a subset of the required use cases. ROS handles the low-level sensing and actuation, while the BDI reasoning system handles the high-level reasoning and decision making. Sensory data is orchestrated and sent from ROS to the reasoning system as perceptions. These perceptions are then deliberated upon, and an action string is sent back to ROS for interpretation and driving of the necessary actuator for the action to be performed. In this paper we present our current implementation, which closes the loop on the hardware-software integration, and implements a subset of the use cases required for the full system. | 翻訳日:2022-11-07 13:15:22 公開日:2020-07-23 |
# 深部動的因子モデル Deep Dynamic Factor Models ( http://arxiv.org/abs/2007.11887v1 ) ライセンス: Link先を確認 | Paolo Andreini, Cosimo Izzo and Giovanni Ricco | (参考訳) 本稿では,Deep Dynamic Factor Model (D2FM)と呼ばれる新しいディープ・ニューラルネット・フレームワークを提案する。
従来の動的因子モデル(DFM)と類似しているが、これらのモデルとは異なるが、ニューラルネットの深い構造による因子と観測物の間の非線形性を実現する。
しかし、設計上、モデルの潜在状態は依然として標準因子モデルとして解釈できる。
米国における経済状況の予測と予測への実証的応用として、高次元混合周波数と非同期に発行される時系列データを扱う上で、この枠組みが持つ可能性を示す。
米国のデータによる完全リアルタイムのアウト・オブ・サンプル・エクササイズでは、D2FMは最先端のDFMの性能よりも改善されている。 We propose a novel deep neural net framework - that we refer to as Deep Dynamic Factor Model (D2FM) -, to encode the information available, from hundreds of macroeconomic and financial time-series into a handful of unobserved latent states. While similar in spirit to traditional dynamic factor models (DFMs), differently from those, this new class of models allows for nonlinearities between factors and observables due to the deep neural net structure. However, by design, the latent states of the model can still be interpreted as in a standard factor model. In an empirical application to the forecast and nowcast of economic conditions in the US, we show the potential of this framework in dealing with high dimensional, mixed frequencies and asynchronously published time series data. In a fully real-time out-of-sample exercise with US data, the D2FM improves over the performances of a state-of-the-art DFM. | 翻訳日:2022-11-07 13:14:55 公開日:2020-07-23 |
# 空域におけるフェデレーション学習:UAVスワーミングによる空中空気質センシングフレームワーク Federated Learning in the Sky: Aerial-Ground Air Quality Sensing Framework with UAV Swarms ( http://arxiv.org/abs/2007.12004v1 ) ライセンス: Link先を確認 | Yi Liu, Jiangtian Nie, Xuandi Li, Syed Hassan Ahmed, Wei Yang Bryan Lim, Chunyan Miao | (参考訳) 空気質が人間の健康に大きく影響するため、空気質指数(AQI)を正確にタイムリーに予測することがますます重要になっている。
そこで本研究では, 粒度3次元空気質モニタリングと予測のための, 新たなフェデレート学習による地上空気質検知フレームワークを提案する。
具体的には、このフレームワークは軽量なDense-MobileNetモデルを利用して、無人航空機(UAV)が撮影したヘイズ画像からエネルギー効率の高いエンドツーエンド学習を実現し、AQIスケールの分布を予測する。
さらに、フェデレートラーニングフレームワークは、様々な組織や機関が、プライバシーを損なうことなく、AQIを監視するための十分に訓練されたグローバルモデルを学ぶことができるだけでなく、UAVSwarmsモニタリングの範囲を広げる。
地中センシングシステムでは, グラフ畳み込みニューラルネットワークを用いたLong Short-Term Memory (GC-LSTM) モデルを提案し, 高精度, リアルタイム, 将来的なAQI推論を実現する。
GC-LSTMモデルは、地上監視局のトポロジ的構造を利用して、歴史的観測データの時空間的相関を捉え、地上センシングシステムによる正確なAQI推定を支援する。
実世界のデータセットに関する広範囲なケーススタディを通じて,提案手法が生データのプライバシを損なうことなく,正確でエネルギー効率の良いaqiセンシングを実現することを示す。 Due to air quality significantly affects human health, it is becoming increasingly important to accurately and timely predict the Air Quality Index (AQI). To this end, this paper proposes a new federated learning-based aerial-ground air quality sensing framework for fine-grained 3D air quality monitoring and forecasting. Specifically, in the air, this framework leverages a light-weight Dense-MobileNet model to achieve energy-efficient end-to-end learning from haze features of haze images taken by Unmanned Aerial Vehicles (UAVs) for predicting AQI scale distribution. Furthermore, the Federated Learning Framework not only allows various organizations or institutions to collaboratively learn a well-trained global model to monitor AQI without compromising privacy, but also expands the scope of UAV swarms monitoring. For ground sensing systems, we propose a Graph Convolutional neural network-based Long Short-Term Memory (GC-LSTM) model to achieve accurate, real-time and future AQI inference. The GC-LSTM model utilizes the topological structure of the ground monitoring station to capture the spatio-temporal correlation of historical observation data, which helps the aerial-ground sensing system to achieve accurate AQI inference. Through extensive case studies on a real-world dataset, numerical results show that the proposed framework can achieve accurate and energy-efficient AQI sensing without compromising the privacy of raw data. | 翻訳日:2022-11-07 13:14:15 公開日:2020-07-23 |
# ガイド付きディープデコーダ:教師なしイメージペア融合 Guided Deep Decoder: Unsupervised Image Pair Fusion ( http://arxiv.org/abs/2007.11766v1 ) ライセンス: Link先を確認 | Tatsumi Uezato, Danfeng Hong, Naoto Yokoya, Wei He | (参考訳) 情報(例えば、ハイパースペクトルやRGB画像融合やパンシャーピング)にトレードオフがある入力画像と誘導画像の融合は、一つの一般的な問題として解釈できる。
しかし、以前の研究では、タスク固有の手工芸を前に適用し、統一的なアプローチでは問題に対処しなかった。
そこで本研究では,この制限に対処するために,一般的なプリエントとしてディープデコーダネットワークを提案する。
提案ネットワークは,誘導画像のマルチスケール特徴を利用するエンコーダデコーダネットワークと,出力画像を生成するディープデコーダネットワークとから構成される。
2つのネットワークは機能改善ユニットによって接続され、誘導画像のマルチスケール特徴をディープデコーダネットワークに埋め込む。
提案したネットワークでは、トレーニングデータなしでネットワークパラメータを教師なしで最適化することができる。
その結果,提案ネットワークは様々な画像融合問題において最先端の性能を実現することができた。 The fusion of input and guidance images that have a tradeoff in their information (e.g., hyperspectral and RGB image fusion or pansharpening) can be interpreted as one general problem. However, previous studies applied a task-specific handcrafted prior and did not address the problems with a unified approach. To address this limitation, in this study, we propose a guided deep decoder network as a general prior. The proposed network is composed of an encoder-decoder network that exploits multi-scale features of a guidance image and a deep decoder network that generates an output image. The two networks are connected by feature refinement units to embed the multi-scale features of the guidance image into the deep decoder network. The proposed network allows the network parameters to be optimized in an unsupervised way without training data. Our results show that the proposed network can achieve state-of-the-art performance in various image fusion problems. | 翻訳日:2022-11-07 13:07:31 公開日:2020-07-23 |
# ディジタル表面モデルに基づく照度不変ハイパースペクトル像のアンミキシング Illumination invariant hyperspectral image unmixing based on a digital surface model ( http://arxiv.org/abs/2007.11770v1 ) ライセンス: Link先を確認 | Tatsumi Uezato, Naoto Yokoya, Wei He | (参考訳) 可変入射照度によるスペクトル変動に対処するために多くのスペクトル非混合モデルが開発されているが、スペクトル変動のメカニズムはまだ不明である。
本稿では,照明不変スペクトルアンミックス (IISU) という未混合モデルを提案する。
iisuは、ラミアンスハイパースペクトルデータとライダーから派生したデジタル表面モデル(dsm)を用いて、無混合フレームワークにおける可変照度と影を物理的に説明しようとした。
入射角、空因子、LiDARから派生したDSMから得られる太陽からの可視性は、放射率の観点からの未混合過程における終端変動の明示的な説明を支持する。
提案手法は簡単な最適化手法により効率的に解いた。
未混合の結果、他の最先端の未混合モデルは特にシェードされたピクセルではうまく動作しなかった。
一方,提案モデルでは,既存モデルよりも精度の高い輝度と影補償反射率を推定した。 Although many spectral unmixing models have been developed to address spectral variability caused by variable incident illuminations, the mechanism of the spectral variability is still unclear. This paper proposes an unmixing model, named illumination invariant spectral unmixing (IISU). IISU makes the first attempt to use the radiance hyperspectral data and a LiDAR-derived digital surface model (DSM) in order to physically explain variable illuminations and shadows in the unmixing framework. Incident angles, sky factors, visibility from the sun derived from the LiDAR-derived DSM support the explicit explanation of endmember variability in the unmixing process from radiance perspective. The proposed model was efficiently solved by a straightforward optimization procedure. The unmixing results showed that the other state-of-the-art unmixing models did not work well especially in the shaded pixels. On the other hand, the proposed model estimated more accurate abundances and shadow compensated reflectance than the existing models. | 翻訳日:2022-11-07 13:07:13 公開日:2020-07-23 |
# 圧縮性特徴のエンドツーエンド学習 End-to-end Learning of Compressible Features ( http://arxiv.org/abs/2007.11797v1 ) ライセンス: Link先を確認 | Saurabh Singh, Sami Abu-El-Haija, Nick Johnston, Johannes Ball\'e, Abhinav Shrivastava, George Toderici | (参考訳) 事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の強力な特徴発生器であり、様々なタスクで非常によく機能することが示されている。
残念なことに、生成された機能は高次元で保存に費用がかかる。
従来のエントロピーベースのロスレス圧縮法は所望の圧縮レベルを得られないためほとんど役に立たないが、エネルギー圧縮(pca、量子化とエントロピー符号化)に基づく汎用目的のロスレス圧縮法はタスク固有の目的に調整されないため、準最適である。
そこで本稿では,圧縮性に最適化された学習手法と,特徴を学習するタスク目標を提案する。
本手法のプラグイン特性は, 目標目標と直接的に統合し, 圧縮性に対するトレードオフを生じさせる。
我々は,複数のベンチマークで結果を示し,本手法が1桁の圧縮性を有する特徴を生み出すとともに,精度の一貫した改善につながる正規化効果を有することを示す。 Pre-trained convolutional neural networks (CNNs) are powerful off-the-shelf feature generators and have been shown to perform very well on a variety of tasks. Unfortunately, the generated features are high dimensional and expensive to store: potentially hundreds of thousands of floats per example when processing videos. Traditional entropy based lossless compression methods are of little help as they do not yield desired level of compression, while general purpose lossy compression methods based on energy compaction (e.g. PCA followed by quantization and entropy coding) are sub-optimal, as they are not tuned to task specific objective. We propose a learned method that jointly optimizes for compressibility along with the task objective for learning the features. The plug-in nature of our method makes it straight-forward to integrate with any target objective and trade-off against compressibility. We present results on multiple benchmarks and demonstrate that our method produces features that are an order of magnitude more compressible, while having a regularization effect that leads to a consistent improvement in accuracy. | 翻訳日:2022-11-07 13:07:00 公開日:2020-07-23 |
# 逆・正則化損失を用いた衛星画像における建築境界の規則化 Regularization of Building Boundaries in Satellite Images using Adversarial and Regularized Losses ( http://arxiv.org/abs/2007.11840v1 ) ライセンス: Link先を確認 | Stefano Zorzi, Friedrich Fraundorfer | (参考訳) 本稿では,逆損失と正規化損失の組み合わせを訓練した完全畳み込みニューラルネットワークを用いて,衛星画像の境界精細化と正規化を行う手法を提案する。
純粋なMask R-CNNモデルと比較して、全体的なアルゴリズムは精度と完全性の観点から同等のパフォーマンスを達成することができる。
しかし、不規則なフットプリントを生成するMask R-CNNとは異なり、我々のフレームワークは、多くのアプリケーションで有用な、規則化された視覚的な境界を生成する。 In this paper we present a method for building boundary refinement and regularization in satellite images using a fully convolutional neural network trained with a combination of adversarial and regularized losses. Compared to a pure Mask R-CNN model, the overall algorithm can achieve equivalent performance in terms of accuracy and completeness. However, unlike Mask R-CNN that produces irregular footprints, our framework generates regularized and visually pleasing building boundaries which are beneficial in many applications. | 翻訳日:2022-11-07 13:06:26 公開日:2020-07-23 |
# ワンビューセットアップにおけるボール検出のためのリアルタイムCNNベースセグメンテーションアーキテクチャ Real-time CNN-based Segmentation Architecture for Ball Detection in a Single View Setup ( http://arxiv.org/abs/2007.11876v1 ) ライセンス: Link先を確認 | Gabriel Van Zandycke, Christophe De Vleeschouwer | (参考訳) 本稿では,ボールが選手と頻繁に対話する場合において,背景に対してあまり対照的でない場合において,球を単一視点から検出する作業について考察する。
効率的なcnnアーキテクチャによって解決された分節化タスクとして問題を定式化する新しい手法を提案する。
ボールのダイナミクスを利用するために、ネットワークは連続した画像のペアで供給される。
我々の推論モデルは時間的解析によって引き起こされる遅延なしにリアルタイムに実行することができる。
また,テスト時のデータ拡張により検出精度が大幅に向上することを示す。
追加のコントリビューションとして、この作業がベースとなるデータセットを公開します。 This paper considers the task of detecting the ball from a single viewpoint in the challenging but common case where the ball interacts frequently with players while being poorly contrasted with respect to the background. We propose a novel approach by formulating the problem as a segmentation task solved by an efficient CNN architecture. To take advantage of the ball dynamics, the network is fed with a pair of consecutive images. Our inference model can run in real time without the delay induced by a temporal analysis. We also show that test-time data augmentation allows for a significant increase the detection accuracy. As an additional contribution, we publicly release the dataset on which this work is based. | 翻訳日:2022-11-07 13:06:19 公開日:2020-07-23 |
# Polylidar3D -- 3次元データからの高速ポリゴン抽出 Polylidar3D -- Fast Polygon Extraction from 3D Data ( http://arxiv.org/abs/2007.12065v1 ) ライセンス: Link先を確認 | Jeremy Castagno, Ella Atkins | (参考訳) 3dポイントの雲が捉えた平坦な表面は、しばしばローカライゼーション、マッピング、モデリングに使用される。
デンスポイントクラウド処理は高い計算量とメモリコストを持ち、ポリゴンのような平面の低次元表現が望ましい。
我々は,非凸ポリゴン抽出アルゴリズムであるPolylidar3Dを提案する。これは,入力されていない3次元点群(LiDARデータなど),整理された点群(レンジ画像など),あるいはユーザが提供するメッシュである。
非凸多角形は、障害物や穴を表す内部の切り欠きのある環境における平坦な表面を表す。
polylidar3dフロントエンドは、入力データを半端三角形メッシュに変換する。
この表現は、後続のバックエンド処理のための共通のレベルの入力データ抽象化を提供する。
polylidar3dバックエンドは、メッシュ平滑化、支配面正規推定、平面セグメント抽出、最後にポリゴン抽出の4つのコアアルゴリズムで構成されている。
Polylidar3Dは非常に高速で、CPUマルチスレッドとGPUアクセラレーションが利用可能である。
本研究では,屋根上マッピング用空中ライダーポイントクラウド,路面検出用自動運転ライダーポイントクラウド,室内床壁検出用rgbdカメラなどの実世界のデータセットを用いて,ポリライダー3dの汎用性と速度を実証する。
また、polylidar3d を挑戦的な平面セグメンテーションベンチマークデータセット上で評価する。
結果は一貫して優れた速度と精度を示す。 Flat surfaces captured by 3D point clouds are often used for localization, mapping, and modeling. Dense point cloud processing has high computation and memory costs making low-dimensional representations of flat surfaces such as polygons desirable. We present Polylidar3D, a non-convex polygon extraction algorithm which takes as input unorganized 3D point clouds (e.g., LiDAR data), organized point clouds (e.g., range images), or user-provided meshes. Non-convex polygons represent flat surfaces in an environment with interior cutouts representing obstacles or holes. The Polylidar3D front-end transforms input data into a half-edge triangular mesh. This representation provides a common level of input data abstraction for subsequent back-end processing. The Polylidar3D back-end is composed of four core algorithms: mesh smoothing, dominant plane normal estimation, planar segment extraction, and finally polygon extraction. Polylidar3D is shown to be quite fast, making use of CPU multi-threading and GPU acceleration when available. We demonstrate Polylidar3D's versatility and speed with real-world datasets including aerial LiDAR point clouds for rooftop mapping, autonomous driving LiDAR point clouds for road surface detection, and RGBD cameras for indoor floor/wall detection. We also evaluate Polylidar3D on a challenging planar segmentation benchmark dataset. Results consistently show excellent speed and accuracy. | 翻訳日:2022-11-07 13:06:08 公開日:2020-07-23 |
# 超解像のための周波数領域に基づく知覚損失 Frequency Domain-based Perceptual Loss for Super Resolution ( http://arxiv.org/abs/2007.12296v1 ) ライセンス: Link先を確認 | Shane D. Sims | (参考訳) 本稿では、単一画像超解像(SR)の損失関数である周波数領域知覚損失(FDPL)を紹介する。
ピクセル(空間)領域で計算されるsrモデルのトレーニングに用いられる以前の損失関数とは異なり、fdplは周波数領域で計算される。
周波数領域で働くことで、人間の知覚に最も関係した周波数を優先順位付けするマッピングを学ぶよう、与えられたモデルに促すことができます。
FDPLの目標は、Pak Signal to Noise Ratio (PSNR) を最大化することではなく、FDPLの減少とPSNRの増加との間には相関があることを見出した。
FDPLでモデルをトレーニングすると、Set5イメージデータセットで測定されたピクセル損失(30.59)でトレーニングされたのと同じモデルと比較して、平均PSRN(30.94)が上がる。
また,本手法は知覚損失関数の目標であるより高い質的結果が得られることを示す。
しかし,PSNRが若干高くなるか,FDPLの知覚特性が向上しているかは明らかになっていない。 We introduce Frequency Domain Perceptual Loss (FDPL), a loss function for single image super resolution (SR). Unlike previous loss functions used to train SR models, which are all calculated in the pixel (spatial) domain, FDPL is computed in the frequency domain. By working in the frequency domain we can encourage a given model to learn a mapping that prioritizes those frequencies most related to human perception. While the goal of FDPL is not to maximize the Peak Signal to Noise Ratio (PSNR), we found that there is a correlation between decreasing FDPL and increasing PSNR. Training a model with FDPL results in a higher average PSRN (30.94), compared to the same model trained with pixel loss (30.59), as measured on the Set5 image dataset. We also show that our method achieves higher qualitative results, which is the goal of a perceptual loss function. However, it is not clear that the improved perceptual quality is due to the slightly higher PSNR or the perceptual nature of FDPL. | 翻訳日:2022-11-07 13:05:27 公開日:2020-07-23 |
# ILSVRCモデルに基づくアンサンブルアーキテクチャによるパーキンソン病検出 Parkinson's Disease Detection with Ensemble Architectures based on ILSVRC Models ( http://arxiv.org/abs/2007.12496v1 ) ライセンス: Link先を確認 | Tahjid Ashfaque Mostafa, Irene Cheng | (参考訳) 本研究では,脳の磁気共鳴(mr)t1画像を用いて,最も一般的な神経変性・運動障害の一つであるパーキンソン病(pd)を同定する。
本稿では,ImageNet Large Scale Visual Recognition Challenge (ILSVRC) で勝利した畳み込みニューラルネットワークモデルを組み合わせた3つのアンサンブルアーキテクチャを提案する。
提案するアーキテクチャはすべて,mr画像からpdを検出する既存の手法を上回り,最大95%の精度を実現している。
また,imagenetデータセット上で事前トレーニングしたモデルを用いてアンサンブルアーキテクチャを構築すると,事前トレーニングを行わないモデルと比較して検出性能が著しく向上することが分かった。
我々の発見は、トレーニングデータがない、あるいは不十分な場合には有望な方向を示す。 In this work, we explore various neural network architectures using Magnetic Resonance (MR) T1 images of the brain to identify Parkinson's Disease (PD), which is one of the most common neurodegenerative and movement disorders. We propose three ensemble architectures combining some winning Convolutional Neural Network models of ImageNet Large Scale Visual Recognition Challenge (ILSVRC). All of our proposed architectures outperform existing approaches to detect PD from MR images, achieving upto 95\% detection accuracy. We also find that when we construct our ensemble architecture using models pretrained on the ImageNet dataset unrelated to PD, the detection performance is significantly better compared to models without any prior training. Our finding suggests a promising direction when no or insufficient training data is available. | 翻訳日:2022-11-07 13:05:09 公開日:2020-07-23 |
# 雑音検出のためのバックプロパゲーションの交替による雑音対応エンコーダデコーダの学習 Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection ( http://arxiv.org/abs/2007.12211v1 ) ライセンス: Link先を確認 | Jing Zhang, Jianwen Xie, Nick Barnes | (参考訳) 本稿では,教師なし特徴量に基づく手法により雑音ラベルを生成できる,ノイズ検出型エンコーダ・デコーダフレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから成り、(1)入力画像をクリーンなサリエンシーマップにマッピングするサリエンシー予測器、(2)ガウスの潜在ベクターからノイズを生成する潜在変数モデルであるノイズ生成器である。
ノイズラベルを表すモデル全体は、2つのサブモデルの合計である。
モデルのトレーニングの目的は、両方のサブモデルのパラメータを推定し、各ノイズラベルの対応する潜在ベクトルを同時に推測することである。
本研究では,(1)勾配上昇による2つのサブモデルのパラメータ推定のための学習バックプロパゲーション,(2)ランジュバンダイナミクスによる学習例の潜在ベクトル推定のための推論バックプロパゲーション,の2つのステップを交互に用いて,モデルのトレーニングを提案する。
ネットワークが収束して自明な解になるのを防ぐため、エッジ対応の滑らかさ損失を利用して、隠れたサリエンシマップを対応する画像と類似した構造を持つように調整する。
いくつかのベンチマークデータセットにおける実験結果は,提案モデルの有効性を示している。 In this paper, we propose a noise-aware encoder-decoder framework to disentangle a clean saliency predictor from noisy training examples, where the noisy labels are generated by unsupervised handcrafted feature-based methods. The proposed model consists of two sub-models parameterized by neural networks: (1) a saliency predictor that maps input images to clean saliency maps, and (2) a noise generator, which is a latent variable model that produces noises from Gaussian latent vectors. The whole model that represents noisy labels is a sum of the two sub-models. The goal of training the model is to estimate the parameters of both sub-models, and simultaneously infer the corresponding latent vector of each noisy label. We propose to train the model by using an alternating back-propagation (ABP) algorithm, which alternates the following two steps: (1) learning back-propagation for estimating the parameters of two sub-models by gradient ascent, and (2) inferential back-propagation for inferring the latent vectors of training noisy examples by Langevin Dynamics. To prevent the network from converging to trivial solutions, we utilize an edge-aware smoothness loss to regularize hidden saliency maps to have similar structures as their corresponding images. Experimental results on several benchmark datasets indicate the effectiveness of the proposed model. | 翻訳日:2022-11-07 12:58:59 公開日:2020-07-23 |
# 危機時の人道支援のためのソーシャルメディアメッセージのクラスタリング Clustering of Social Media Messages for Humanitarian Aid Response during Crisis ( http://arxiv.org/abs/2007.11756v1 ) ライセンス: Link先を確認 | Swati Padhee (1), Tanay Kumar Saha (2), Joel Tetreault (2), and Alejandro Jaimes (2) ((1) Wright State University, Dayton, OH, (2) Dataminr Inc., New York, NY) | (参考訳) ソーシャルメディアは、危機時のニーズをコミュニケーションし、表現するための重要なツールとして急速に成長してきた。
危機管理のためのソーシャルメディアデータ分析における以前の作業は、主に、実行可能(または、情報に富んだ)危機関連メッセージの自動識別に重点を置いてきた。
本稿では,近年の深層学習と自然言語処理の進歩が,情報化の課題に対する先行的アプローチを上回っており,研究や展開に現場で採用するよう促していることを示す。
また,これらの手法を2つのサブタスクに拡張し,Deep Learning法も有効であることを示す。 Social media has quickly grown into an essential tool for people to communicate and express their needs during crisis events. Prior work in analyzing social media data for crisis management has focused primarily on automatically identifying actionable (or, informative) crisis-related messages. In this work, we show that recent advances in Deep Learning and Natural Language Processing outperform prior approaches for the task of classifying informativeness and encourage the field to adopt them for their research or even deployment. We also extend these methods to two sub-tasks of informativeness and find that the Deep Learning methods are effective here as well. | 翻訳日:2022-11-07 12:57:55 公開日:2020-07-23 |
# プログラム合成による実証から半教師付き学習:検査ロボットのケーススタディ Semi-supervised Learning From Demonstration Through Program Synthesis: An Inspection Robot Case Study ( http://arxiv.org/abs/2007.12500v1 ) ライセンス: Link先を確認 | Sim\'on C. Smith (The University of Edinburgh), Subramanian Ramamoorthy (The University of Edinburgh) | (参考訳) 半教師付き学習は教師なし学習の手法を利用してラベルに明記されていない情報を抽出することで教師なし機械学習の性能を向上させる。
ロボットが人間の操作者から検査戦略を学習できるシステムの設計を通じて,実演から解釈可能かつ検証可能なモデルを学習できるハイブリッド半教師付きシステムを提案する。
本システムは、逐次重要サンプリングを用いて没入型デモンストレーションから学習することで、コントローラプログラムを誘導する。
これらのビジュアルサーボコントローラは比例ゲインによってパラメトリされ、環境中のロボットの位置を観察することで視覚的に検証可能である。
クラスタリングと効率的な粒子サイズフィルタリングにより、システムは状態空間における目標を発見できる。
これらの目標は、振る舞いモデルのエンドツーエンド学習のためのオリジナルのデモンストレーションのラベル付けに使用される。
行動モデルは自律的モデル予測制御に使われ、説明のために精査される。
有意義な対象を識別するために因果的感度分析を実施し,反事実的条件付き説明を生成する。
これらの機能は、意思決定の解釈と失敗の原因の発見を可能にする。
提案システムは, サンプリング前の属性にレペラを組み込むことにより, プログラム合成への従来のアプローチを拡張した。
我々は、無人地上車両が特定の順序で環境の異なる領域を検査しなければならない検査シナリオからハイブリッドシステムの学習に成功した。
このシステムは、新しい検査行動を生成するために合成できるデモの解釈可能なコンピュータプログラムを誘導する。
重要なことに、ロボットは、その自律的な振る舞いの説明を提示しながら、環境の見えない構成で合成プログラムをうまく実行します。 Semi-supervised learning improves the performance of supervised machine learning by leveraging methods from unsupervised learning to extract information not explicitly available in the labels. Through the design of a system that enables a robot to learn inspection strategies from a human operator, we present a hybrid semi-supervised system capable of learning interpretable and verifiable models from demonstrations. The system induces a controller program by learning from immersive demonstrations using sequential importance sampling. These visual servo controllers are parametrised by proportional gains and are visually verifiable through observation of the position of the robot in the environment. Clustering and effective particle size filtering allows the system to discover goals in the state space. These goals are used to label the original demonstration for end-to-end learning of behavioural models. The behavioural models are used for autonomous model predictive control and scrutinised for explanations. We implement causal sensitivity analysis to identify salient objects and generate counterfactual conditional explanations. These features enable decision making interpretation and post hoc discovery of the causes of a failure. The proposed system expands on previous approaches to program synthesis by incorporating repellers in the attribution prior of the sampling process. We successfully learn the hybrid system from an inspection scenario where an unmanned ground vehicle has to inspect, in a specific order, different areas of the environment. The system induces an interpretable computer program of the demonstration that can be synthesised to produce novel inspection behaviours. Importantly, the robot successfully runs the synthesised program on an unseen configuration of the environment while presenting explanations of its autonomous behaviour. | 翻訳日:2022-11-07 12:57:18 公開日:2020-07-23 |
# 商業ビルにおける超短期電力予測のための非侵入負荷モニタリング手法 A Non-Intrusive Load Monitoring Approach for Very Short Term Power Predictions in Commercial Buildings ( http://arxiv.org/abs/2007.11819v1 ) ライセンス: Link先を確認 | Karoline Brucke, Stefan Arens, Jan-Simon Telle, Thomas Steens, Benedikt Hanke, Karsten von Maydell, Carsten Agert | (参考訳) 本稿では,3相のアクティブアグリゲーションパワー測定から,非教師なしのデバイスプロファイルを抽出するアルゴリズムを提案する。
抽出したデバイスプロファイルを粒子群最適化を用いた集約電力測定の分散に適用する。
最後に,分散データを用いた短期電力予測のための新しい手法を提案する。
この目的のために、すべてのデバイスに対する状態変化予測を人工知能ニューラルネットワークにより実行し、その後、状態変化とデバイスプロファイルに関する電力を再構成して電力予測に変換する。
天気予報は15分です。
提案手法を実証するために, マルチテナント商業ビルの3相反応性, アクティブアグリゲーションパワー測定を行った。
データの粒度は 1 s である。
本研究では、集計電力データから52個のデバイスプロファイルを抽出する。
この分解は、測定された電力の正確な再構成を示し、エネルギー誤差は約1%である。
測定された電力データに適用した間接電力予測法は、2つの持続予測と、電力領域で24時間稼働する電力予測のために設計された人工ニューラルネットワークより優れる。 This paper presents a new algorithm to extract device profiles fully unsupervised from three phases reactive and active aggregate power measurements. The extracted device profiles are applied for the disaggregation of the aggregate power measurements using particle swarm optimization. Finally, this paper provides a new approach for short term power predictions using the disaggregation data. For this purpose, a state changes forecast for every device is carried out by an artificial neural network and converted into a power prediction afterwards by reconstructing the power regarding the state changes and the device profiles. The forecast horizon is 15 minutes. To demonstrate the developed approaches, three phase reactive and active aggregate power measurements of a multi-tenant commercial building are used. The granularity of data is 1 s. In this work, 52 device profiles are extracted from the aggregate power data. The disaggregation shows a very accurate reconstruction of the measured power with a percentage energy error of approximately 1 %. The developed indirect power prediction method applied to the measured power data outperforms two persistence forecasts and an artificial neural network, which is designed for 24h-day-ahead power predictions working in the power domain. | 翻訳日:2022-11-07 12:56:57 公開日:2020-07-23 |
# 自然言語処理を用いたソーシャルメディアコメントに基づくCOVID-19パンデミックからの健康・心理・社会問題 Health, Psychosocial, and Social issues emanating from COVID-19 pandemic based on Social Media Comments using Natural Language Processing ( http://arxiv.org/abs/2007.12144v1 ) ライセンス: Link先を確認 | Oladapo Oyebode, Chinenye Ndulue, Ashfaq Adib, Dinesh Mulchandani, Banuchitra Suruliraj, Fidelia Anulika Orji, Christine Chambers, Sandra Meier, and Rita Orji | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の健康危機を引き起こし、多くの人の生活に影響を与えている。
ワクチンや抗ウイルス薬がなければ、新型コロナウイルスの感染拡大を抑制するため、身体的距離調整などの行動変化や政策イニシアティブがいくつか実施されている。
ソーシャルメディアのデータは、世界中の政府や医療機関がパンデミックをどう扱っているかに関する一般の認識や、地理的な場所に関わらず人々に病気が与える影響を、世界的なパンデミックの広がりを阻害または促進する様々な要因に沿って明らかにすることができる。
本稿は、新型コロナウイルスのパンデミックが世界規模でソーシャルメディアデータを利用した人々に与える影響を調査することを目的とする。
ソーシャルメディアデータを用いた新型コロナウイルスのパンデミックに関する世論,経験,問題を理解するために,自然言語処理(NLP)とテーマ分析を適用した。
まず、Twitter、Facebook、YouTube、および3つのオンラインディスカッションフォーラムから4700万件以上のCOVID-19関連コメントを集めました。
第2に,nlp技術を適用し,自動テーマ抽出のためのデータのクリーニングと準備を行うデータ前処理を行う。
第3に,コンテキスト対応のnlpアプローチを用いて,100万以上のランダム選択コメントから意味のあるキーフレーズやテーマを抽出するとともに,各テーマに対する感情スコアを算出し,レキシコンベースの手法を用いてスコアに基づいて感情極性を割り当てる。
第4に,関連するテーマをより広いテーマに分類する。
これまでに34の否定的なテーマが浮上し、そのうち15のテーマは健康に関する問題、精神社会的問題、そして公衆の観点からのCOVID-19パンデミックに関連する社会問題である。
また,結果から陽性テーマが20件出現した。
最後に、ポジティブなテーマや研究に根ざした他の改善思想に基づいて、ネガティブな問題に対処するための介入を推奨する。 The COVID-19 pandemic has caused a global health crisis that affects many aspects of human lives. In the absence of vaccines and antivirals, several behavioural change and policy initiatives, such as physical distancing, have been implemented to control the spread of the coronavirus. Social media data can reveal public perceptions toward how governments and health agencies across the globe are handling the pandemic, as well as the impact of the disease on people regardless of their geographic locations in line with various factors that hinder or facilitate the efforts to control the spread of the pandemic globally. This paper aims to investigate the impact of the COVID-19 pandemic on people globally using social media data. We apply natural language processing (NLP) and thematic analysis to understand public opinions, experiences, and issues with respect to the COVID-19 pandemic using social media data. First, we collect over 47 million COVID-19-related comments from Twitter, Facebook, YouTube, and three online discussion forums. Second, we perform data preprocessing which involves applying NLP techniques to clean and prepare the data for automated theme extraction. Third, we apply context-aware NLP approach to extract meaningful keyphrases or themes from over 1 million randomly selected comments, as well as compute sentiment scores for each theme and assign sentiment polarity based on the scores using lexicon-based technique. Fourth, we categorize related themes into broader themes. A total of 34 negative themes emerged, out of which 15 are health-related issues, psychosocial issues, and social issues related to the COVID-19 pandemic from the public perspective. In addition, 20 positive themes emerged from our results. Finally, we recommend interventions that can help address the negative issues based on the positive themes and other remedial ideas rooted in research. | 翻訳日:2022-11-07 12:56:39 公開日:2020-07-23 |
# ランダムフラクタルを考慮した自動き裂検出のための評価基準の検討 A Study on Evaluation Standard for Automatic Crack Detection Regard the Random Fractal ( http://arxiv.org/abs/2007.12082v1 ) ライセンス: Link先を確認 | Hongyu Li, Jihe Wang, Yu Zhang, Zirui Wang, and Tiejun Wang | (参考訳) 妥当な評価基準は効果的なディープラーニングモデルの構築の基盤となる。
しかし,深層学習に基づく自動き裂検出器は,広く用いられている平均平均精度(map)基準によって明らかに過小評価されていることがわかった。
本稿では,評価基準について検討する。
き裂のランダムなフラクタルは, フラクタルの特徴に対して, mAP計算における厳密なボックスマッチングが不合理であるため, mAP標準を無効にする。
その結果, き裂検出の過小評価を補正するために, CovEval というフラクタル利用評価基準を提案する。
covevalでは、ボックスマッチングをカバーするという考え方に基づいた、異なるマッチングプロセスがこの問題に採用されている。
詳細はカバーエリアレート(CAr)をカバーオーバーラップとして設計し、マルチマッチ戦略を用いてmAPにおける1対1のマッチング制限を解放する。
ひび割れ検知器を評価するために、拡張リコール(XR)、拡張精度(XP)、拡張Fスコア(Fext)を定義する。
オブジェクト検出にいくつかの一般的なフレームワークを使用した実験では、CovEvalによると、モデルの方がクラック検出のスコアがはるかに高い。
さらに,より高速なR-CNNフレームワークを用いて,CovEval標準に基づくクラック検出を最適化するケーススタディを提案する。
最適モデルのリコール(XR)は、95.8の工業レベルを達成するため、適切な評価基準により、オブジェクト検出の手法は、自動工業検査の大きな可能性を秘めている。 A reasonable evaluation standard underlies construction of effective deep learning models. However, we find in experiments that the automatic crack detectors based on deep learning are obviously underestimated by the widely used mean Average Precision (mAP) standard. This paper presents a study on the evaluation standard. It is clarified that the random fractal of crack disables the mAP standard, because the strict box matching in mAP calculation is unreasonable for the fractal feature. As a solution, a fractal-available evaluation standard named CovEval is proposed to correct the underestimation in crack detection. In CovEval, a different matching process based on the idea of covering box matching is adopted for this issue. In detail, Cover Area rate (CAr) is designed as a covering overlap, and a multi-match strategy is employed to release the one-to-one matching restriction in mAP. Extended Recall (XR), Extended Precision (XP) and Extended F-score (Fext) are defined for scoring the crack detectors. In experiments using several common frameworks for object detection, models get much higher scores in crack detection according to CovEval, which matches better with the visual performance. Moreover, based on faster R-CNN framework, we present a case study to optimize a crack detector based on CovEval standard. Recall (XR) of our best model achieves an industrial-level at 95.8, which implies that with reasonable standard for evaluation, the methods for object detection are with great potential for automatic industrial inspection. | 翻訳日:2022-11-07 12:50:07 公開日:2020-07-23 |
# 画素対閉塞関係図(P2ORM):定式化・推論・応用 Pixel-Pair Occlusion Relationship Map(P2ORM): Formulation, Inference & Application ( http://arxiv.org/abs/2007.12088v1 ) ライセンス: Link先を確認 | Xuchong Qiu and Yang Xiao and Chaohui Wang and Renaud Marlet | (参考訳) 我々は2次元画像における幾何学的閉塞に関する概念を定式化し(つまり意味を無視する)、画素対閉塞関係による閉塞境界と閉塞方向の統一的な定式化を提案する。
前者は大規模に正確なオクルージョンデータセットを生成する方法を提供し,後者は,タスク非依存の画素レベルのオクルージョン関係を単一画像から推定する新しい手法を提案する。
各種データセットの実験により,本手法が既存の手法よりも優れていることが示された。
さらに,提案手法の有効性を示すために,最先端の単眼深度推定法の性能を一貫して向上させる新しい深度マップ改良法を提案する。
私たちのコードとデータはhttp://imagine.enpc.fr/~qiux/P2ORM/で利用可能です。 We formalize concepts around geometric occlusion in 2D images (i.e., ignoring semantics), and propose a novel unified formulation of both occlusion boundaries and occlusion orientations via a pixel-pair occlusion relation. The former provides a way to generate large-scale accurate occlusion datasets while, based on the latter, we propose a novel method for task-independent pixel-level occlusion relationship estimation from single images. Experiments on a variety of datasets demonstrate that our method outperforms existing ones on this task. To further illustrate the value of our formulation, we also propose a new depth map refinement method that consistently improve the performance of state-of-the-art monocular depth estimation methods. Our code and data are available at http://imagine.enpc.fr/~qiux/P2ORM/. | 翻訳日:2022-11-07 12:49:44 公開日:2020-07-23 |
# Few-Shotオブジェクト検出のためのボトムアップとトップダウン注意の活用 Leveraging Bottom-Up and Top-Down Attention for Few-Shot Object Detection ( http://arxiv.org/abs/2007.12104v1 ) ライセンス: Link先を確認 | Xianyu Chen, Ming Jiang, Qi Zhao | (参考訳) ほとんど撮影されていないオブジェクト検出は、注釈付きの例がほとんどないオブジェクトの検出を目的としている。
近年,物体検出やその他の視覚タスクにおける自己学習型トップダウン注意機構の有効性が示されている。
しかし、トップダウンの注意は、少数ショット検出器の性能向上にはあまり効果がない。
訓練データ不足のため、オブジェクト検出器は、数発の例で注意マップを効果的に生成できない。
被写体検出装置の性能と解釈性を向上させるため,トップダウンとボトムアップの両方の利点を生かした注意型被写体検出ネットワーク(attfdnet)を提案する。
タスクに依存しないので、ボトムアップの注意は、自然に有能なオブジェクトを検出し、ローカライズするのに役立つ。
さらに、2つの新しい損失項とハイブリッドな複数ショット学習戦略を導入することで、複数ショットオブジェクト検出における特定の課題に対処する。
実験結果と可視化は,2種類の注意の相補的な性質と,その役割を示すものである。
コードはhttps://github.com/chenxy99/AttFDNetで入手できる。 Few-shot object detection aims at detecting objects with few annotated examples, which remains a challenging research problem yet to be explored. Recent studies have shown the effectiveness of self-learned top-down attention mechanisms in object detection and other vision tasks. The top-down attention, however, is less effective at improving the performance of few-shot detectors. Due to the insufficient training data, object detectors cannot effectively generate attention maps for few-shot examples. To improve the performance and interpretability of few-shot object detectors, we propose an attentive few-shot object detection network (AttFDNet) that takes the advantages of both top-down and bottom-up attention. Being task-agnostic, the bottom-up attention serves as a prior that helps detect and localize naturally salient objects. We further address specific challenges in few-shot object detection by introducing two novel loss terms and a hybrid few-shot learning strategy. Experimental results and visualization demonstrate the complementary nature of the two types of attention and their roles in few-shot object detection. Codes are available at https://github.com/chenxy99/AttFDNet. | 翻訳日:2022-11-07 12:49:06 公開日:2020-07-23 |
# curvelane-nas:レーンセンシティブなアーキテクチャ検索と適応点ブレンディングの統合 CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point Blending ( http://arxiv.org/abs/2007.12147v1 ) ライセンス: Link先を確認 | Hang Xu, Shaoju Wang, Xinyue Cai, Wei Zhang, Xiaodan Liang, Zhenguo Li | (参考訳) 従来の車線検出よりも現実的な課題となるカーブ車線検出問題に対処し,最新の補助・自律運転システムの実現を図る。
現在の手書き車線検出法は、長距離のコンテキスト情報と詳細な曲線軌跡の両方をモデル化できないため、特に遠隔部の曲線線を捉えるには不十分である。
本稿では,長距離コヒーレント情報と精度の高い短距離曲線情報の両方を自動的に捕捉し,ポイントブレンドによる曲線レーン予測におけるアーキテクチャ探索と後処理を統一した,新しいレーン感応型アーキテクチャ探索フレームワークであるcurvelane-nasを提案する。
3つの検索モジュールで構成される。
a) マルチレベル階層機能のための局所的及びグローバル的コンテキストのより優れた融合を見つけるための機能融合検索モジュール
b) 優れたセマンティクスとレイテンシを備えた効率的な機能抽出装置を探索するための、弾力性のあるバックボーン検索モジュール
c)マルチスケールヘッド予測を結合するマルチレベル後処理改良戦略を探索する適応点ブレンディングモジュール。
統一された枠組みは、NASと適応点ブレンディングの相互誘導による車線感度予測を保証する。
さらに私たちは,最も難しい曲線レーンに対処するために,curvelanesという,より挑戦的なベンチマークをリリースする努力もしています。
新しいデータセットはgithub.com/xbjxh/CurveLanesでダウンロード可能である(この提出は、すでに匿名化されている)。
新しいCurveLanesでの実験では、SOTAレーン検出法は性能低下に悩まされ、我々のモデルは80% F1スコアに達している。
CULaneのような従来のレーンベンチマークの広範な実験は、CULane上での新しいSOTA 74.8% F1スコアを達成するなど、CurveLane-NASの優位性を示す。 We address the curve lane detection problem which poses more realistic challenges than conventional lane detection for better facilitating modern assisted/autonomous driving systems. Current hand-designed lane detection methods are not robust enough to capture the curve lanes especially the remote parts due to the lack of modeling both long-range contextual information and detailed curve trajectory. In this paper, we propose a novel lane-sensitive architecture search framework named CurveLane-NAS to automatically capture both long-ranged coherent and accurate short-range curve information while unifying both architecture search and post-processing on curve lane predictions via point blending. It consists of three search modules: a) a feature fusion search module to find a better fusion of the local and global context for multi-level hierarchy features; b) an elastic backbone search module to explore an efficient feature extractor with good semantics and latency; c) an adaptive point blending module to search a multi-level post-processing refinement strategy to combine multi-scale head prediction. The unified framework ensures lane-sensitive predictions by the mutual guidance between NAS and adaptive point blending. Furthermore, we also steer forward to release a more challenging benchmark named CurveLanes for addressing the most difficult curve lanes. It consists of 150K images with 680K labels.The new dataset can be downloaded at github.com/xbjxh/CurveLanes (already anonymized for this submission). Experiments on the new CurveLanes show that the SOTA lane detection methods suffer substantial performance drop while our model can still reach an 80+% F1-score. Extensive experiments on traditional lane benchmarks such as CULane also demonstrate the superiority of our CurveLane-NAS, e.g. achieving a new SOTA 74.8% F1-score on CULane. | 翻訳日:2022-11-07 12:47:17 公開日:2020-07-23 |
# 画像誘導セマンティック分類によるゼロショット認識 Zero-Shot Recognition through Image-Guided Semantic Classification ( http://arxiv.org/abs/2007.11814v1 ) ライセンス: Link先を確認 | Mei-Chen Yeh and Fang Li | (参考訳) ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
組込みベースのほとんどの手法は、画像分類器(視覚表現)とそのクラスプロトタイプ(意味表現)の対応性を学ぶことを目的としている。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
入力画像が与えられた場合、igsc(image-guided semantic classification)メソッドはラベル分類器を作成し、ラベルが入力画像に属するかどうかを判断するためにすべてのラベル埋め込みに適用する。
したがって、セマンティック分類器は画像適応型であり、推論中に生成される。
IGSCは概念的には単純であり、分類のために既存のディープアーキテクチャをわずかに拡張することで実現可能であるが、標準ベンチマーク上での最先端の埋め込みベースの一般化ZSLアプローチよりも効果的で優れている。 We present a new embedding-based framework for zero-shot learning (ZSL). Most embedding-based methods aim to learn the correspondence between an image classifier (visual representation) and its class prototype (semantic representation) for each class. Motivated by the binary relevance method for multi-label classification, we propose to inversely learn the mapping between an image and a semantic classifier. Given an input image, the proposed Image-Guided Semantic Classification (IGSC) method creates a label classifier, being applied to all label embeddings to determine whether a label belongs to the input image. Therefore, semantic classifiers are image-adaptive and are generated during inference. IGSC is conceptually simple and can be realized by a slight enhancement of an existing deep architecture for classification; yet it is effective and outperforms state-of-the-art embedding-based generalized ZSL approaches on standard benchmarks. | 翻訳日:2022-11-07 12:41:18 公開日:2020-07-23 |
# 野生動物における全身人間のポーズ推定 Whole-Body Human Pose Estimation in the Wild ( http://arxiv.org/abs/2007.11858v1 ) ライセンス: Link先を確認 | Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo | (参考訳) 本研究では、顔、手、体、足など、人体全体に密集したランドマークを局在させることを目的とした2次元人体ポーズ推定の課題について検討する。
既存のデータセットには全体アノテーションがないため、以前の方法では、データセットバイアスと大きなモデルの複雑さに苦しむ、人間の顔、手、体の異なるデータセットで独立して訓練された異なるディープモデルを組み立てなければなりません。
この空白を埋めるために,COCOデータセットを全身アノテーションで拡張するCOCO-WholeBodyを導入する。
私たちの知る限りでは、顔に68個、手に42個、足に23個の密集したランドマークを含む、人体全体に手書きの注釈を付けた最初のベンチマークです。
zoomnetと呼ばれる単一ネットワークモデルは、人体の階層構造を考慮に入れ、同一人物の異なる身体部位のスケール変化を解決するために考案された。
ZoomNetは、提案されているCOCO-WholeBodyデータセットで既存のメソッドを大幅に上回ることができる。
広範な実験により、cocowholebodyは、全身ポーズ推定のためにスクラッチからディープラーニングをトレーニングするだけでなく、顔のランドマーク検出や手指キーポイント推定など、多くのタスクで強力な事前トレーニングデータセットとして機能することが示された。
データセットはhttps://github.com/jin-s13/COCO-WholeBodyで公開されている。 This paper investigates the task of 2D human whole-body pose estimation, which aims to localize dense landmarks on the entire human body including face, hands, body, and feet. As existing datasets do not have whole-body annotations, previous methods have to assemble different deep models trained independently on different datasets of the human face, hand, and body, struggling with dataset biases and large model complexity. To fill in this blank, we introduce COCO-WholeBody which extends COCO dataset with whole-body annotations. To our best knowledge, it is the first benchmark that has manual annotations on the entire human body, including 133 dense landmarks with 68 on the face, 42 on hands and 23 on the body and feet. A single-network model, named ZoomNet, is devised to take into account the hierarchical structure of the full human body to solve the scale variation of different body parts of the same person. ZoomNet is able to significantly outperform existing methods on the proposed COCO-WholeBody dataset. Extensive experiments show that COCO-WholeBody not only can be used to train deep models from scratch for whole-body pose estimation but also can serve as a powerful pre-training dataset for many different tasks such as facial landmark detection and hand keypoint estimation. The dataset is publicly available at https://github.com/jin-s13/COCO-WholeBody. | 翻訳日:2022-11-07 12:40:29 公開日:2020-07-23 |
# 多人数ポーズ推定のための微分可能階層グラフグルーピング Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation ( http://arxiv.org/abs/2007.11864v1 ) ライセンス: Link先を確認 | Sheng Jin, Wentao Liu, Enze Xie, Wenhai Wang, Chen Qian, Wanli Ouyang, Ping Luo | (参考訳) 多人数のポーズ推定は、複数の人の身体的キーポイントを同時にローカライズするため、難しい。
以前のメソッドは、トップダウンとボトムアップの2つのストリームに分割される。
トップダウンメソッドは人間の検出後にキーポイントをローカライズし、ボトムアップメソッドはキーポイントを直接ローカライズし、それらを異なる人向けにクラスタ/グループ化する。
しかし、既存のボトムアップ手法では、キーポイントグループ化は通常キーポイント検出とは独立して解決され、エンドツーエンドのトレーニングができず、準最適性能を有する。
本稿では,人間の部分グループ化の新しい視点を調査し,それをグラフクラスタリングタスクとして再構成する。
特に,ボトムアップ型多人数ポーズ推定タスクにおいて,グラフグループ化を学習するための新しい微分可能階層グラフグループ(HGG)手法を提案する。
さらに、HGGはメインストリームのボトムアップメソッドに簡単に埋め込まれる。
多層グラフニューラルネットワークモデルでは、人間のキーポイント候補をグラフノードやクラスタキーポイントとして扱う。
HGGのモジュールはキーポイント検出ネットワークでエンドツーエンドにトレーニングすることができ、階層的な方法でグループ化プロセスを監視できる。
クラスタリングの識別を改善するために,エッジ判別器とマクロノード判別器のセットを追加する。
cocoおよびochumanデータセットの広範な実験により,提案手法がボトムアップポーズ推定法の性能を向上できることが示されている。 Multi-person pose estimation is challenging because it localizes body keypoints for multiple persons simultaneously. Previous methods can be divided into two streams, i.e. top-down and bottom-up methods. The top-down methods localize keypoints after human detection, while the bottom-up methods localize keypoints directly and then cluster/group them for different persons, which are generally more efficient than top-down methods. However, in existing bottom-up methods, the keypoint grouping is usually solved independently from keypoint detection, making them not end-to-end trainable and have sub-optimal performance. In this paper, we investigate a new perspective of human part grouping and reformulate it as a graph clustering task. Especially, we propose a novel differentiable Hierarchical Graph Grouping (HGG) method to learn the graph grouping in bottom-up multi-person pose estimation task. Moreover, HGG is easily embedded into main-stream bottom-up methods. It takes human keypoint candidates as graph nodes and clusters keypoints in a multi-layer graph neural network model. The modules of HGG can be trained end-to-end with the keypoint detection network and is able to supervise the grouping process in a hierarchical manner. To improve the discrimination of the clustering, we add a set of edge discriminators and macro-node discriminators. Extensive experiments on both COCO and OCHuman datasets demonstrate that the proposed method improves the performance of bottom-up pose estimation methods. | 翻訳日:2022-11-07 12:40:03 公開日:2020-07-23 |
# ライダーポイント雲からの弱教師付き3次元物体検出 Weakly Supervised 3D Object Detection from Lidar Point Cloud ( http://arxiv.org/abs/2007.11901v1 ) ライセンス: Link先を確認 | Qinghao Meng, Wenguan Wang, Tianfei Zhou, Jianbing Shen, Luc Van Gool and Dengxin Dai | (参考訳) 高品質な3Dオブジェクト検出器をトレーニングするために、ポイントクラウドデータに手動でラベルをつけるのはむずかしい。
この研究は、3dオブジェクト検出のための弱い教師付きアプローチを提案し、いくつかの正確にラベル付けされたオブジェクトインスタンスに関連付けられた、弱い注釈付きシーンの小さなセットのみを必要とする。
これは2段階のアーキテクチャ設計によって実現される。
Stage-1は、弱い監督下で円筒形のオブジェクト提案を生成することを学び、すなわち、鳥の視点でオブジェクトの水平中心だけがクリックアノテートされる。
Stage-2は、いくつかのよくラベルされたオブジェクトインスタンスを使用して、キュービドと信頼スコアを得るために、円筒形の提案を洗練することを学ぶ。
提案手法は,500の弱い注釈付きシーンと534の正確なラベル付き車両インスタンスを用いて,現在のトップリード型全監視検出器の性能を85~95%向上させる(総計で3,712点,正確に注釈付きシーンは15,654点)。
さらに重要なことは、ネットワークアーキテクチャを精巧に設計することで、トレーニングされたモデルは3Dオブジェクトアノテータとして適用することができ、自動およびアクティブな動作モードの両方を可能にします。
私たちのモデルで生成されたアノテーションは、元のパフォーマンスの94%(手動でラベル付けされたデータの下で)で3Dオブジェクト検出器をトレーニングするのに使用できます。
我々の実験はまた、より多くのトレーニングデータから、我々のモデルがパフォーマンスを高める可能性を示しています。
以上の設計により,アノテーションの負担を軽減した3次元物体検出の新たな機会がもたらされる。 It is laborious to manually label point cloud data for training high-quality 3D object detectors. This work proposes a weakly supervised approach for 3D object detection, only requiring a small set of weakly annotated scenes, associated with a few precisely labeled object instances. This is achieved by a two-stage architecture design. Stage-1 learns to generate cylindrical object proposals under weak supervision, i.e., only the horizontal centers of objects are click-annotated on bird's view scenes. Stage-2 learns to refine the cylindrical proposals to get cuboids and confidence scores, using a few well-labeled object instances. Using only 500 weakly annotated scenes and 534 precisely labeled vehicle instances, our method achieves 85-95% the performance of current top-leading, fully supervised detectors (which require 3, 712 exhaustively and precisely annotated scenes with 15, 654 instances). More importantly, with our elaborately designed network architecture, our trained model can be applied as a 3D object annotator, allowing both automatic and active working modes. The annotations generated by our model can be used to train 3D object detectors with over 94% of their original performance (under manually labeled data). Our experiments also show our model's potential in boosting performance given more training data. Above designs make our approach highly practical and introduce new opportunities for learning 3D object detection with reduced annotation burden. | 翻訳日:2022-11-07 12:39:12 公開日:2020-07-23 |
# CAD-Deform:CADモデルの3Dスキャンへの変形可能なフィッティング CAD-Deform: Deformable Fitting of CAD Models to 3D Scans ( http://arxiv.org/abs/2007.11965v1 ) ライセンス: Link先を確認 | Vladislav Ishimtsev, Alexey Bokhovkin, Alexey Artemov, Savva Ignatyev, Matthias Niessner, Denis Zorin, Evgeny Burnaev | (参考訳) 形状の検索とアライメントは、3DスキャンをモバイルやAR/VRゲームシナリオなどのコンテンツ作成に使用できる軽量CAD表現に変換するための有望な道である。
残念なことにCADモデル検索は、標準的な3D形状のコレクション(ShapeNetなど)でモデルが利用できることで制限される。
本研究では,より正確なcad-to-scan適合度を得る手法であるcad-deformを導入することで,この欠点を解決する。
我々の重要な貢献は、滑らかな変形とシャープな特徴の保存を取り入れた新しい非剛性変形モデルであり、同時にCADモデルから3Dスキャンに非常に密な適合を実現し、手作りCADオブジェクトのクリーンで高品質な表面特性を維持する。
その結果,本手法は,合成cad環境に存在する重要な幾何学的特徴を保ちつつ,より正確な実環境のデジタルレプリカを実現することが可能となった。 Shape retrieval and alignment are a promising avenue towards turning 3D scans into lightweight CAD representations that can be used for content creation such as mobile or AR/VR gaming scenarios. Unfortunately, CAD model retrieval is limited by the availability of models in standard 3D shape collections (e.g., ShapeNet). In this work, we address this shortcoming by introducing CAD-Deform, a method which obtains more accurate CAD-to-scan fits by non-rigidly deforming retrieved CAD models. Our key contribution is a new non-rigid deformation model incorporating smooth transformations and preservation of sharp features, that simultaneously achieves very tight fits from CAD models to the 3D scan and maintains the clean, high-quality surface properties of hand-modeled CAD objects. A series of thorough experiments demonstrate that our method achieves significantly tighter scan-to-CAD fits, allowing a more accurate digital replica of the scanned real-world environment while preserving important geometric features present in synthetic CAD environments. | 翻訳日:2022-11-07 12:38:37 公開日:2020-07-23 |
# 系統的事故シミュレーションによる自動運転のための拡張トランスファー学習 Enhanced Transfer Learning for Autonomous Driving with Systematic Accident Simulation ( http://arxiv.org/abs/2007.12148v1 ) ライセンス: Link先を確認 | Shivam Akhauri, Laura Zheng, Ming Lin | (参考訳) シミュレーションデータは、車両事故などのエッジケースをカバーするために、現実世界の運転データを拡張するために利用することができる。
エッジケースの取り扱いの重要性は、自動車事故の処理において高い社会コストと、人間のドライバーに対する潜在的な危険性に見ることができる。
すべてのエッジケースの幅広い範囲をカバーするため、最も一般的な事故シナリオをシステムでパラメータ化し、シミュレートします。
このデータを自律運転モデルに適用することにより,シミュレーションデータセット上での転送学習は,ランダム初期化法と比較して,よりよい一般化と衝突回避をもたらすことが示された。
その結果,シミュレーションデータに基づくモデルからの情報は実世界データに基づくモデルと推定され,実世界モデルにおけるシミュレーションデータの影響や異常運転シナリオの処理の進展が示唆された。 Simulation data can be utilized to extend real-world driving data in order to cover edge cases, such as vehicle accidents. The importance of handling edge cases can be observed in the high societal costs in handling car accidents, as well as potential dangers to human drivers. In order to cover a wide and diverse range of all edge cases, we systemically parameterize and simulate the most common accident scenarios. By applying this data to autonomous driving models, we show that transfer learning on simulated data sets provide better generalization and collision avoidance, as compared to random initialization methods. Our results illustrate that information from a model trained on simulated data can be inferred to a model trained on real-world data, indicating the potential influence of simulation data in real world models and advancements in handling of anomalous driving scenarios. | 翻訳日:2022-11-07 12:31:47 公開日:2020-07-23 |
# ai4d --アフリカの言語データセットチャレンジ AI4D -- African Language Dataset Challenge ( http://arxiv.org/abs/2007.11865v1 ) ライセンス: Link先を確認 | Kathleen Siminyu, Sackey Freshia, Jade Abbott, Vukosi Marivate | (参考訳) 言語と音声の技術が進歩するにつれて、データ、スペルチェッカー、スピーチタガーの一部といったアフリカの言語のための基本的なデジタルリソースの欠如は、これらの言語と他の言語とのデジタル分割が増加し続けることを意味する。
ai4d - african language dataset challenge(ai4d - african language dataset challenge)は、アフリカの言語データセットの作成、組織化、発見を競争的課題を通じて奨励する取り組みである。
特に,タスク固有の教師付き機械学習モデルのトレーニングに使用できるアノテーション付きデータセットの提出を推奨した。 As language and speech technologies become more advanced, the lack of fundamental digital resources for African languages, such as data, spell checkers and Part of Speech taggers, means that the digital divide between these languages and others keeps growing. This work details the organisation of the AI4D - African Language Dataset Challenge, an effort to incentivize the creation, organization and discovery of African language datasets through a competitive challenge. We particularly encouraged the submission of annotated datasets which can be used for training task-specific supervised machine learning models. | 翻訳日:2022-11-07 12:31:33 公開日:2020-07-23 |
# Recurrent and Convolutional Neural Networksを用いたギリシャ語のディープラーニングに基づくエンドツーエンドメタファ検出 Deep Learning based, end-to-end metaphor detection in Greek language with Recurrent and Convolutional Neural Networks ( http://arxiv.org/abs/2007.11949v1 ) ライセンス: Link先を確認 | Konstantinos Perifanos, Eirini Florou, Dionysis Goutsos | (参考訳) 本稿では,ギリシャ語におけるメタファ検出のための,エンドツーエンドのDeep Learningベースモデルを多数提示し,ベンチマークする。
畳み込みニューラルネットワークと繰り返しニューラルネットワークと表現学習を組み合わせることで,ギリシャ語のメタファ検出問題に耐えられる。
提示されたモデルは極めて精度の高いスコアを達成し、既に0.12の精度を達成していた以前の結果を大幅に改善した。
また,本研究では,特別な前処理や特徴工学,言語知識は使用されていない。
提案手法は、畳み込みニューラルネットワーク(CNN)と双方向長短記憶ネットワーク(LSTM)を用いて、0.92とFスコア0.92の精度を実現する。
比較可能な0.91の精度と0.91のFスコアは、双方向 Gated Recurrent Units (GRU) と Convolutional Recurrent Neural Nets (CRNN) で達成される。
モデルは、トレーニングタプル、文、ラベルに基づいてのみ訓練され、評価される。
その結果は、限られたラベル付きリソースに基づいて訓練されたメタファ検出モデルのアートコレクションであり、他の言語や同様のタスクに拡張することができる。 This paper presents and benchmarks a number of end-to-end Deep Learning based models for metaphor detection in Greek. We combine Convolutional Neural Networks and Recurrent Neural Networks with representation learning to bear on the metaphor detection problem for the Greek language. The models presented achieve exceptional accuracy scores, significantly improving the previous state of the art results, which had already achieved accuracy 0.82. Furthermore, no special preprocessing, feature engineering or linguistic knowledge is used in this work. The methods presented achieve accuracy of 0.92 and F-score 0.92 with Convolutional Neural Networks (CNNs) and bidirectional Long Short Term Memory networks (LSTMs). Comparable results of 0.91 accuracy and 0.91 F-score are also achieved with bidirectional Gated Recurrent Units (GRUs) and Convolutional Recurrent Neural Nets (CRNNs). The models are trained and evaluated only on the basis of the training tuples, the sentences and their labels. The outcome is a state of the art collection of metaphor detection models, trained on limited labelled resources, which can be extended to other languages and similar tasks. | 翻訳日:2022-11-07 12:31:22 公開日:2020-07-23 |
# 単語埋め込み:安定性と意味変化 Word Embeddings: Stability and Semantic Change ( http://arxiv.org/abs/2007.16006v1 ) ライセンス: Link先を確認 | Lucas Rettenmeier | (参考訳) 単語埋め込みは自然言語処理(nlp)内の一連の技術によって計算され、大きなテキストコーパスから言語内の単語の連続的なベクトル表現を生成する。
ほとんどの埋め込みテクニックのトレーニングプロセスの確率的性質は、驚くほど強い不安定性、すなわち同じテクニックを同じデータに2回適用することで、まったく異なる結果を生み出す可能性がある。
本研究では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性に関する実験的検討を行った。
実験結果に基づいて,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
最後に,複数の実行時間にわたって修正平均を計算することで,不安定性を最小化し,意味変化の検出と定量化,すなわち時間経過に伴う単語の意味と使用の変化を測定するという言語問題に適用する手法を提案する。 Word embeddings are computed by a class of techniques within natural language processing (NLP), that create continuous vector representations of words in a language from a large text corpus. The stochastic nature of the training process of most embedding techniques can lead to surprisingly strong instability, i.e. subsequently applying the same technique to the same data twice, can produce entirely different results. In this work, we present an experimental study on the instability of the training process of three of the most influential embedding techniques of the last decade: word2vec, GloVe and fastText. Based on the experimental results, we propose a statistical model to describe the instability of embedding techniques and introduce a novel metric to measure the instability of the representation of an individual word. Finally, we propose a method to minimize the instability - by computing a modified average over multiple runs - and apply it to a specific linguistic problem: The detection and quantification of semantic change, i.e. measuring changes in the meaning and usage of words over time. | 翻訳日:2022-11-07 12:30:39 公開日:2020-07-23 |
# シーングラフ分解による包括的画像キャプション Comprehensive Image Captioning via Scene Graph Decomposition ( http://arxiv.org/abs/2007.11731v1 ) ライセンス: Link先を確認 | Yiwu Zhong, Liwei Wang, Jianshu Chen, Dong Yu, Yin Li | (参考訳) 本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題を解決する。
提案手法のコアとなるのは,シーングラフをサブグラフの集合に分解し,各サブグラフが入力画像の意味的成分をキャプチャすることである。
重要部分グラフを選択し,選択した各サブグラフを1つのターゲット文に復号する深層モデルの設計を行う。
サブグラフを使用することで、我々のモデルは画像の様々な構成要素に参画することができる。
そこで本手法では,精度,多様性,根拠,制御可能なキャプションを同時に記述する。
包括的キャプションモデルの利点を実証するための広範な実験を行った。
提案手法は, キャプションの多様性, 接地性, 制御性に関する新たな最先端結果を確立し, キャプション品質の最新の手法と比較する。
プロジェクトのWebサイトはhttp://pages.cs.wisc.edu/~yiwuzhong/Sub-GC.htmlにある。 We address the challenging problem of image captioning by revisiting the representation of image scene graph. At the core of our method lies the decomposition of a scene graph into a set of sub-graphs, with each sub-graph capturing a semantic component of the input image. We design a deep model to select important sub-graphs, and to decode each selected sub-graph into a single target sentence. By using sub-graphs, our model is able to attend to different components of the image. Our method thus accounts for accurate, diverse, grounded and controllable captioning at the same time. We present extensive experiments to demonstrate the benefits of our comprehensive captioning model. Our method establishes new state-of-the-art results in caption diversity, grounding, and controllability, and compares favourably to latest methods in caption quality. Our project website can be found at http://pages.cs.wisc.edu/~yiwuzhong/Sub-GC.html. | 翻訳日:2022-11-07 12:30:25 公開日:2020-07-23 |
# シーンレイアウトのエンドツーエンド最適化 End-to-End Optimization of Scene Layout ( http://arxiv.org/abs/2007.11744v1 ) ライセンス: Link先を確認 | Andrew Luo, Zhoutong Zhang, Jiajun Wu, Joshua B. Tenenbaum | (参考訳) シーングラフに条件付きシーンレイアウト合成のためのエンドツーエンド変動生成モデルを提案する。
非条件のシーンレイアウト生成とは異なり、シーングラフは抽象的だが一般的な表現であり、シーングラフに含まれる関係を満たす多様なシーンレイアウトの合成を導く。
これにより合成プロセスのより柔軟な制御が可能となり、文章から抽出されたシーンレイアウトや単一のカラー画像から推測される様々な入力形式が可能になる。
条件付きレイアウトシンセサイザーを用いて、入力例の同じ構造を共有する様々なレイアウトを生成することができる。
この条件付き生成設計に加えて、シーンの2次元プロジェクションのみを用いてレイアウトの洗練を可能にする可変レンダリングモジュールも統合する。
深さとセマンティクスマップが与えられると、微分可能なレンダリングモジュールは、合成されたレイアウトを最適化して、分析・合成の方法で入力に適合させることができる。
実験により,条件付きシーン合成の精度と多様性が向上し,様々な入力形態からの例題に基づくシーン生成が可能となった。 We propose an end-to-end variational generative model for scene layout synthesis conditioned on scene graphs. Unlike unconditional scene layout generation, we use scene graphs as an abstract but general representation to guide the synthesis of diverse scene layouts that satisfy relationships included in the scene graph. This gives rise to more flexible control over the synthesis process, allowing various forms of inputs such as scene layouts extracted from sentences or inferred from a single color image. Using our conditional layout synthesizer, we can generate various layouts that share the same structure of the input example. In addition to this conditional generation design, we also integrate a differentiable rendering module that enables layout refinement using only 2D projections of the scene. Given a depth and a semantics map, the differentiable rendering module enables optimizing over the synthesized layout to fit the given input in an analysis-by-synthesis fashion. Experiments suggest that our model achieves higher accuracy and diversity in conditional scene synthesis and allows exemplar-based scene generation from various input forms. | 翻訳日:2022-11-07 12:30:10 公開日:2020-07-23 |
# 協調学習による高精度rgb-dサルエント物体検出 Accurate RGB-D Salient Object Detection via Collaborative Learning ( http://arxiv.org/abs/2007.11782v1 ) ライセンス: Link先を確認 | Wei Ji, Jingjing Li, Miao Zhang, Yongri Piao, Huchuan Lu | (参考訳) 深度画像に埋め込まれた空間的手がかりから、最近のRGB-D塩分濃度検出の進歩は、いくつかの課題シナリオにおいて印象的な能力を示している。
しかし、まだ2つの制限がある。
一方、fcnsのプールとアップサンプリング操作はオブジェクト境界のぼやけを引き起こす可能性がある。
一方、深度の特徴を抽出するために追加の深度ネットワークを用いると、高い計算とストレージコストにつながる可能性がある。
テスト中の深度入力への依存は、現在のRGB-Dモデルの実用的応用を制限する。
本稿では,エッジ,深さ,塩分をより効率的に活用し,この問題を効果的に解決する新しい協調学習フレームワークを提案する。
明示的に抽出されたエッジ情報は、サルエント領域とオブジェクト境界をより強調するために、サルエンシーと併用される。
深度学習と塩分学習は、相互に相応しい方法で高レベルの特徴学習プロセスに統合される。
この戦略により、ネットワークは、余分な深度ネットワークと深度入力を使って推論することができない。
この目的のために、私たちのモデルはより軽量で、より速く、より汎用的になります。
7つのベンチマークデータセットの実験結果は、その優れたパフォーマンスを示している。 Benefiting from the spatial cues embedded in depth images, recent progress on RGB-D saliency detection shows impressive ability on some challenge scenarios. However, there are still two limitations. One hand is that the pooling and upsampling operations in FCNs might cause blur object boundaries. On the other hand, using an additional depth-network to extract depth features might lead to high computation and storage cost. The reliance on depth inputs during testing also limits the practical applications of current RGB-D models. In this paper, we propose a novel collaborative learning framework where edge, depth and saliency are leveraged in a more efficient way, which solves those problems tactfully. The explicitly extracted edge information goes together with saliency to give more emphasis to the salient regions and object boundaries. Depth and saliency learning is innovatively integrated into the high-level feature learning process in a mutual-benefit manner. This strategy enables the network to be free of using extra depth networks and depth inputs to make inference. To this end, it makes our model more lightweight, faster and more versatile. Experiment results on seven benchmark datasets show its superior performance. | 翻訳日:2022-11-07 12:29:32 公開日:2020-07-23 |
# MuCAN:ビデオスーパーリゾリューションのためのマルチ対応アグリゲーションネットワーク MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution ( http://arxiv.org/abs/2007.11803v1 ) ライセンス: Link先を確認 | Wenbo Li, Xin Tao, Taian Guo, Lu Qi, Jiangbo Lu, and Jiaya Jia | (参考訳) ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
この過程において、フレーム間およびフレーム内は、時間的および空間的情報を利用するための重要な情報源である。
しかしながら、既存のVSRメソッドにはいくつかの制限がある。
第一に、光流はしばしば時間対応を確立するために用いられる。
しかし、フロー推定自体がエラーを起こし、回復結果に影響を及ぼす。
第二に、自然画像に類似したパターンがVSRタスクに利用されることは滅多にない。
そこで本研究では,フレーム間の類似のパッチを利用する時間的マルチ対応アグリゲーション戦略と,スケール間の画像の自己相似性を探索する大規模非局所対応アグリゲーションスキームを提案する。
これら2つの新しいモジュールに基づいて、VSRのための効果的なマルチ対応集約ネットワーク(MuCAN)を構築する。
提案手法は,複数のベンチマークデータセットの最先端結果を実現する。
大規模な実験は我々の方法の有効性を正当化する。 Video super-resolution (VSR) aims to utilize multiple low-resolution frames to generate a high-resolution prediction for each frame. In this process, inter- and intra-frames are the key sources for exploiting temporal and spatial information. However, there are a couple of limitations for existing VSR methods. First, optical flow is often used to establish temporal correspondence. But flow estimation itself is error-prone and affects recovery results. Second, similar patterns existing in natural images are rarely exploited for the VSR task. Motivated by these findings, we propose a temporal multi-correspondence aggregation strategy to leverage similar patches across frames, and a cross-scale nonlocal-correspondence aggregation scheme to explore self-similarity of images across scales. Based on these two new modules, we build an effective multi-correspondence aggregation network (MuCAN) for VSR. Our method achieves state-of-the-art results on multiple benchmark datasets. Extensive experiments justify the effectiveness of our method. | 翻訳日:2022-11-07 12:29:14 公開日:2020-07-23 |
# 磁気ナビゲーション問題のための信号強調 Signal Enhancement for Magnetic Navigation Challenge Problem ( http://arxiv.org/abs/2007.12158v1 ) ライセンス: Link先を確認 | Albert R. Gnadt, Joseph Belarge, Aaron Canciani, Lauren Conger, Joseph Curro, Alan Edelman, Peter Morales, Michael F. O'Keeffe, Jonathan Taylor, Christopher Rackauckas | (参考訳) 地球の磁場を航法に利用することで、他の航法システムの代替手段として有望であることが示されている。
磁気ナビゲーションシステムは、磁力計を用いて自身の磁場データを収集し、磁気異常マップを用いて現在の位置を決定する。
磁気ナビゲーションの最大の課題は、ナビゲーションシステム上の磁力計からの磁場データが、地球だけでなく、搭載されている車両からの磁場も含む場合である。
センサからの全磁場のマグニチュードを読み取ると、航行に不可欠な地球磁気異常磁場のマグニチュードを分離することは困難である。
この課題の目的は、地球と航空機の磁気信号を分離して、磁気ナビゲーションを行うクリーンな信号を導出することである。
データセットのベースラインテストでは、機械学習(ML)を用いて全磁場から地球磁場を抽出できることが示されている。
課題は、訓練されたニューラルネットワークを使用して、全磁場から航空機の磁場を取り除くことである。
これらの課題は、磁気ナビゲーションの物理と統合されたMLアルゴリズムを使用して、データセットから航空機の磁場を取り除く効果的なニューラルネットワークを構築する機会を提供する。 Harnessing the magnetic field of the earth for navigation has shown promise as a viable alternative to other navigation systems. A magnetic navigation system collects its own magnetic field data using a magnetometer and uses magnetic anomaly maps to determine the current location. The greatest challenge with magnetic navigation arises when the magnetic field data from the magnetometer on the navigation system encompass the magnetic field from not just the earth, but also from the vehicle on which it is mounted. It is difficult to separate the earth magnetic anomaly field magnitude, which is crucial for navigation, from the total magnetic field magnitude reading from the sensor. The purpose of this challenge problem is to decouple the earth and aircraft magnetic signals in order to derive a clean signal from which to perform magnetic navigation. Baseline testing on the dataset shows that the earth magnetic field can be extracted from the total magnetic field using machine learning (ML). The challenge is to remove the aircraft magnetic field from the total magnetic field using a trained neural network. These challenges offer an opportunity to construct an effective neural network for removing the aircraft magnetic field from the dataset, using an ML algorithm integrated with physics of magnetic navigation. | 翻訳日:2022-11-07 12:23:11 公開日:2020-07-23 |
# 臨床レコメンデータシステム:ニューラルネットワークアンサンブルによる医療専門性診断選択の予測 Clinical Recommender System: Predicting Medical Specialty Diagnostic Choices with Neural Network Ensembles ( http://arxiv.org/abs/2007.12161v1 ) ライセンス: Link先を確認 | Morteza Noshad, Ivana Jankovic, Jonathan H. Chen | (参考訳) 臨床専門知識や施設などの重要な医療資源に対する需要が高まり、人工知能(AI)に基づく意思決定支援システムの出現が動機となっている。
専門紹介会における臨床ワークアップ予測の問題に対処する。
手作業による臨床チェックリストの代替として,Electronic Health Record (EHR) から抽出された最新の臨床記録に基づいて,必要な診断手順のセットを推奨するデータ駆動モデルを提案する。
これにより、医療システムは患者の初期医療専門の診断作業にタイムリーにアクセスできるようになる可能性がある。
提案手法は, フィードフォワードニューラルネットワークのアンサンブルに基づき, 従来の臨床チェックリストに比べて精度が大幅に向上した。 The growing demand for key healthcare resources such as clinical expertise and facilities has motivated the emergence of artificial intelligence (AI) based decision support systems. We address the problem of predicting clinical workups for specialty referrals. As an alternative for manually-created clinical checklists, we propose a data-driven model that recommends the necessary set of diagnostic procedures based on the patients' most recent clinical record extracted from the Electronic Health Record (EHR). This has the potential to enable health systems expand timely access to initial medical specialty diagnostic workups for patients. The proposed approach is based on an ensemble of feed-forward neural networks and achieves significantly higher accuracy compared to the conventional clinical checklists. | 翻訳日:2022-11-07 12:22:53 公開日:2020-07-23 |
# 音楽の単語埋め込み: 聞き取りコンテキストと音楽のギャップを埋める Musical Word Embedding: Bridging the Gap between Listening Contexts and Music ( http://arxiv.org/abs/2008.01190v1 ) ライセンス: Link先を確認 | Seungheon Doh, Jongpil Lee, Tae Hong Park, Juhan Nam | (参考訳) Mikolovらによって開拓された単語埋め込みは自然言語処理(NLP)研究における単語表現の基本的な技法であり、音楽情報検索タスクでも人気がある。
しかし、単語埋め込みのためのテキストデータの種類によって、語彙のサイズと音楽的関係の程度は大きく異なる。
本研究では,(1)一般的なテキストデータと音楽特化データの組み合わせを用いて,単語の分散表現を訓練し,(2)聴取コンテキストと楽曲の関連付け方の観点からシステムの評価を行う。 Word embedding pioneered by Mikolov et al. is a staple technique for word representations in natural language processing (NLP) research which has also found popularity in music information retrieval tasks. Depending on the type of text data for word embedding, however, vocabulary size and the degree of musical pertinence can significantly vary. In this work, we (1) train the distributed representation of words using combinations of both general text data and music-specific data and (2) evaluate the system in terms of how they associate listening contexts with musical compositions. | 翻訳日:2022-11-07 12:22:09 公開日:2020-07-23 |
# 歴史を振り返る:人間の動きの予測は動きの注意を通す History Repeats Itself: Human Motion Prediction via Motion Attention ( http://arxiv.org/abs/2007.11755v1 ) ライセンス: Link先を確認 | Wei Mao, Miaomiao Liu, Mathieu Salzmann | (参考訳) 人間の動作予測は、過去の動きによって将来の人間のポーズを予測することを目的としている。
繰り返しまたはフィードフォワードニューラルネットワークに基づいても、既存の方法は、複雑なスポーツ行動や料理活動であっても、人間の動きが自分自身を繰り返す傾向があるという観察をモデル化できない。
本稿では,この観測を明示的に活用した注目型フィードフォワードネットワークを提案する。
特に、ポーズ類似性によるフレームワイドアテンションをモデル化する代わりに、現在の動きコンテキストと過去の動きサブシーケンスとの類似性を捉えるために、動き注意を抽出することを提案する。
関連した過去の動きを集約し、グラフ畳み込みネットワークで結果を処理することにより、長期履歴からの動作パターンを効果的に活用し、将来のポーズを予測する。
人間3.6m, amass, 3dpwの実験は, 周期的および非周期的行動に対する我々のアプローチの利点を証明した。
注意モデルのおかげで、3つのデータセットすべてに最先端の結果が得られます。
私たちのコードはhttps://github.com/wei-mao-2019/hisrepitselfで利用可能です。 Human motion prediction aims to forecast future human poses given a past motion. Whether based on recurrent or feed-forward neural networks, existing methods fail to model the observation that human motion tends to repeat itself, even for complex sports actions and cooking activities. Here, we introduce an attention-based feed-forward network that explicitly leverages this observation. In particular, instead of modeling frame-wise attention via pose similarity, we propose to extract motion attention to capture the similarity between the current motion context and the historical motion sub-sequences. Aggregating the relevant past motions and processing the result with a graph convolutional network allows us to effectively exploit motion patterns from the long-term history to predict the future poses. Our experiments on Human3.6M, AMASS and 3DPW evidence the benefits of our approach for both periodical and non-periodical actions. Thanks to our attention model, it yields state-of-the-art results on all three datasets. Our code is available at https://github.com/wei-mao-2019/HisRepItself. | 翻訳日:2022-11-07 12:21:58 公開日:2020-07-23 |
# 神経画像データの空間的均質性を利用したcnn用個別フィルタ層の検討 Harnessing spatial homogeneity of neuroimaging data: patch individual filter layers for CNNs ( http://arxiv.org/abs/2007.11899v1 ) ライセンス: Link先を確認 | Fabian Eitel, Jan Philipp Albrecht, Martin Weygandt, Friedemann Paul, Kerstin Ritter | (参考訳) 磁気共鳴画像(MRI)から得られる神経画像データは、(1)脳の均一な構造と(2)リニアおよび非線形変換を用いた標準テンプレートへの空間的正規化のための追加の取り組みにより、可逆的に均一である。
対照的に畳み込みニューラルネットワーク(CNN)は、画像内の異なる位置に畳み込みフィルタをスライドさせることにより、自然画像のような非常に異質なデータのために特別に設計されている。
本稿では、ニューラルネットワークにおける階層的抽象化の考え方と、ニューロイメージングデータの空間的均一性に関する先行概念を組み合わせた、新しいCNNアーキテクチャを提案する。
重みを共有せずに個々の画像領域(パッチ)でフィルタを学習することにより、PIF層は抽象的特徴をより早く、より少ないサンプルで学習することができる。
本研究は,英国バイオバンクデータによる性分類,ADNIデータによるアルツハイマー病検出,民間病院データによる多発性硬化症検出の3つの課題とデータセットについて,PIF層を徹底的に評価した。
PIF層を用いたCNNは,特に低サンプルサイズ設定において高い精度を示し,収束のためのトレーニングエポックスを少なくすることを示した。
私たちの知る限りでは、これはcnnの学習に先立って脳mriを導入する最初の研究です。 Neuroimaging data, e.g. obtained from magnetic resonance imaging (MRI), is comparably homogeneous due to (1) the uniform structure of the brain and (2) additional efforts to spatially normalize the data to a standard template using linear and non-linear transformations. Convolutional neural networks (CNNs), in contrast, have been specifically designed for highly heterogeneous data, such as natural images, by sliding convolutional filters over different positions in an image. Here, we suggest a new CNN architecture that combines the idea of hierarchical abstraction in neural networks with a prior on the spatial homogeneity of neuroimaging data: Whereas early layers are trained globally using standard convolutional layers, we introduce for higher, more abstract layers patch individual filters (PIF). By learning filters in individual image regions (patches) without sharing weights, PIF layers can learn abstract features faster and with fewer samples. We thoroughly evaluated PIF layers for three different tasks and data sets, namely sex classification on UK Biobank data, Alzheimer's disease detection on ADNI data and multiple sclerosis detection on private hospital data. We demonstrate that CNNs using PIF layers result in higher accuracies, especially in low sample size settings, and need fewer training epochs for convergence. To the best of our knowledge, this is the first study which introduces a prior on brain MRI for CNN learning. | 翻訳日:2022-11-07 12:21:42 公開日:2020-07-23 |
# Sound2Sight: 音とコンテキストから視覚ダイナミクスを生成する Sound2Sight: Generating Visual Dynamics from Sound and Context ( http://arxiv.org/abs/2007.12130v1 ) ライセンス: Link先を確認 | Anoop Cherian, Moitreya Chatterjee, Narendra Ahuja | (参考訳) モダリティ間の学習関係は、特に推論中にモダリティが欠落している場合、堅牢なマルチモーダル推論において重要である。
本稿では,この課題を,例えば咬合推論において重要な課題である視聴覚合成の文脈で検討する。
特に私たちの目標は、将来のビデオフレームと、オーディオといくつかの過去のフレームを前提としたモーションダイナミクスを生成することです。
この問題に対処するため,我々は,オーディオと過去のフレームの組込みを前提としたフレーム毎の確率的事前学習を訓練した,深い変動フレームワークであるsound2sightを提案する。
この埋め込みはマルチヘッドアテンションベースのオーディオ・ビジュアルトランスフォーマエンコーダを通じて学習される。
次に学習された事前をサンプリングし、さらにビデオ予測モジュールを条件付けして将来のフレームを生成する。
確率的事前は、提供された音声と過去の文脈と整合した複数の可算な未来をサンプルすることができる。
さらに,生成したフレームの品質とコヒーレンスを向上させるため,合成された映像クリップと実際の映像クリップを区別するマルチモーダル判別器を提案する。
提案手法である vis-\'a-vis を2つの新しいデータセット viz 上で実験的に評価した。
(i)サプライズ障害物を用いたマルチモーダル確率移動MNIST
(ii)Youtube Paintings、および既存のAudio-Set Drumsデータセット。
大規模な実験により、Sound2Sightは生成したビデオの質において、アートの状態を著しく上回り、同時に多様なビデオコンテンツを生み出していることがわかった。 Learning associations across modalities is critical for robust multimodal reasoning, especially when a modality may be missing during inference. In this paper, we study this problem in the context of audio-conditioned visual synthesis -- a task that is important, for example, in occlusion reasoning. Specifically, our goal is to generate future video frames and their motion dynamics conditioned on audio and a few past frames. To tackle this problem, we present Sound2Sight, a deep variational framework, that is trained to learn a per frame stochastic prior conditioned on a joint embedding of audio and past frames. This embedding is learned via a multi-head attention-based audio-visual transformer encoder. The learned prior is then sampled to further condition a video forecasting module to generate future frames. The stochastic prior allows the model to sample multiple plausible futures that are consistent with the provided audio and the past context. Moreover, to improve the quality and coherence of the generated frames, we propose a multimodal discriminator that differentiates between a synthesized and a real audio-visual clip. We empirically evaluate our approach, vis-\'a-vis closely-related prior methods, on two new datasets viz. (i) Multimodal Stochastic Moving MNIST with a Surprise Obstacle, (ii) Youtube Paintings; as well as on the existing Audio-Set Drums dataset. Our extensive experiments demonstrate that Sound2Sight significantly outperforms the state of the art in the generated video quality, while also producing diverse video content. | 翻訳日:2022-11-07 12:20:25 公開日:2020-07-23 |
# 対人ロバストネスの階層的検証 Hierarchical Verification for Adversarial Robustness ( http://arxiv.org/abs/2007.11826v1 ) ライセンス: Link先を確認 | Cong Han Lim, Raquel Urtasun, Ersin Yumer | (参考訳) 直交線形アクティベーション(ReLU)を用いたディープフィードフォワードネットワークの層次幾何学的構造を利用した,正確な点次$\ell_p$ロバスト性検証のための新しいフレームワークを提案する。
ネットワークの活性化領域は入力空間を分割し、所望半径内の全ての活性化領域をチェックすることにより、点周辺の$\ell_p$ロバスト性を検証することができる。
GeoCertアルゴリズム(Jordan et al., NeurIPS 2019)はこの分割を一般的な多面体複合体として扱い、次にどの領域をチェックするかを検出する。
対照的に、LayerCertフレームワークはReLUネットワークの層によって誘導される \emph{nested hyperplane arrangement} 構造を考慮し、階層的に領域を探索する。
アルゴリズムパラメータの特定の条件下では、LayerCertはGeoCertと比較して解決すべき凸プログラムの数とサイズを確実に削減する。
さらに layercert フレームワークにより,凸緩和に基づく下限ルーチンの組み込みが可能となり,さらに性能が向上する。
実験の結果、LayerCertは解決された凸プログラムの数と最先端のランニング時間の両方を大幅に削減できることがわかった。 We introduce a new framework for the exact point-wise $\ell_p$ robustness verification problem that exploits the layer-wise geometric structure of deep feed-forward networks with rectified linear activations (ReLU networks). The activation regions of the network partition the input space, and one can verify the $\ell_p$ robustness around a point by checking all the activation regions within the desired radius. The GeoCert algorithm (Jordan et al., NeurIPS 2019) treats this partition as a generic polyhedral complex in order to detect which region to check next. In contrast, our LayerCert framework considers the \emph{nested hyperplane arrangement} structure induced by the layers of the ReLU network and explores regions in a hierarchical manner. We show that, under certain conditions on the algorithm parameters, LayerCert provably reduces the number and size of the convex programs that one needs to solve compared to GeoCert. Furthermore, our LayerCert framework allows the incorporation of lower bounding routines based on convex relaxations to further improve performance. Experimental results demonstrate that LayerCert can significantly reduce both the number of convex programs solved and the running time over the state-of-the-art. | 翻訳日:2022-11-07 12:14:38 公開日:2020-07-23 |
# 重要度サンプリングによるRAMの分割関数の効率的な評価 Efficient Evaluation of the Partition Function of RBMs with Annealed Importance Sampling ( http://arxiv.org/abs/2007.11926v1 ) ライセンス: Link先を確認 | Ferran Mazzanti and Enrique Romero | (参考訳) Restricted Boltzmann Machines (RBMs) に基づく確率モデルは、分割関数 Z の評価から要求される正規化ボルツマン因子の評価を意味する。
これは、rbmsのほとんどの一般的な学習アルゴリズムを考えるとさらに悪化し、データの経験分布のログ様相の勾配の正確な評価には、各イテレーションにおけるzの計算が含まれる。
Annealed Importance Smpling(AIS)メソッドは、システムのパーティション関数を確率的に推定するツールを提供する。
これまで、機械学習コンテキストにおけるaisアルゴリズムの標準的な使用は、多数のモンテカルロステップを使用して行われてきた。
本研究では,AISアルゴリズムの初期化として適切な開始確率分布を用いる場合,これは不要であることを示す。
我々は,小・大の両問題におけるAISの性能を解析し,どちらの場合も計算コストが少なく,良好なZ推定が得られることを示した。 Probabilistic models based on Restricted Boltzmann Machines (RBMs) imply the evaluation of normalized Boltzmann factors, which in turn require from the evaluation of the partition function Z. The exact evaluation of Z, though, becomes a forbiddingly expensive task as the system size increases. This even worsens when one considers most usual learning algorithms for RBMs, where the exact evaluation of the gradient of the log-likelihood of the empirical distribution of the data includes the computation of Z at each iteration. The Annealed Importance Sampling (AIS) method provides a tool to stochastically estimate the partition function of the system. So far, the standard use of the AIS algorithm in the Machine Learning context has been done using a large number of Monte Carlo steps. In this work we show that this may not be required if a proper starting probability distribution is employed as the initialization of the AIS algorithm. We analyze the performance of AIS in both small- and large-sized problems, and show that in both cases a good estimation of Z can be obtained with little computational cost. | 翻訳日:2022-11-07 12:13:32 公開日:2020-07-23 |
# ader: セッションベースレコメンデーションのための継続的学習に向けた適応蒸留exemplarリプレイ ADER: Adaptively Distilled Exemplar Replay Towards Continual Learning for Session-based Recommendation ( http://arxiv.org/abs/2007.12000v1 ) ライセンス: Link先を確認 | Fei Mi, Xiaoyu Lin, and Boi Faltings | (参考訳) セッションベースのレコメンデーションは最近、プライバシーの懸念が高まり、注目を集めている。
最近のニューラルセッションベースのレコメンデータの成功にもかかわらず、それらは通常、静的データセットを使用してオフラインで開発される。
しかし、リコメンデーションは、新しい、時代遅れのアイテムやユーザーを考慮に入れ、現実のアプリケーションで"継続的な学習"を必要とする。
この場合、リコメンデータは更新サイクル毎に新しいデータとともに継続的に定期的に更新され、更新されたモデルは次のモデル更新の前にユーザアクティビティのレコメンデーションを提供する必要がある。
神経モデルによる継続的学習の最大の課題は破滅的な忘れ方であり、継続的に訓練されたモデルは、これまで学んだユーザの好みパターンを忘れてしまう。
この課題に対処するため,従来のトレーニングサンプル(例題)を適応蒸留損失のある現行モデルに定期的に再生することで,ADER(Adaptively Distilled Exemplar Replay)と呼ばれる手法を提案する。
実験は、2つの広く使われているデータセットを使用して、最先端のSASRecモデルに基づいて、ADERをいくつかのよく知られた連続学習技術でベンチマークする。
ADERが他のベースラインを一貫して上回り、更新サイクル毎にすべての履歴データを使用してメソッドを上回ります。
この結果から、ADERは、より現実的でスケーラブルなセッションベースのレコメンデータを構築するために、破滅的な忘れる問題を緩和する、有望なソリューションであることが明らかになった。 Session-based recommendation has received growing attention recently due to the increasing privacy concern. Despite the recent success of neural session-based recommenders, they are typically developed in an offline manner using a static dataset. However, recommendation requires continual adaptation to take into account new and obsolete items and users, and requires "continual learning" in real-life applications. In this case, the recommender is updated continually and periodically with new data that arrives in each update cycle, and the updated model needs to provide recommendations for user activities before the next model update. A major challenge for continual learning with neural models is catastrophic forgetting, in which a continually trained model forgets user preference patterns it has learned before. To deal with this challenge, we propose a method called Adaptively Distilled Exemplar Replay (ADER) by periodically replaying previous training samples (i.e., exemplars) to the current model with an adaptive distillation loss. Experiments are conducted based on the state-of-the-art SASRec model using two widely used datasets to benchmark ADER with several well-known continual learning techniques. We empirically demonstrate that ADER consistently outperforms other baselines, and it even outperforms the method using all historical data at every update cycle. This result reveals that ADER is a promising solution to mitigate the catastrophic forgetting issue towards building more realistic and scalable session-based recommenders. | 翻訳日:2022-11-07 12:12:31 公開日:2020-07-23 |
# Grale: グラフ学習のためのネットワーク設計 Grale: Designing Networks for Graph Learning ( http://arxiv.org/abs/2007.12002v1 ) ライセンス: Link先を確認 | Jonathan Halcrow, Alexandru Mo\c{s}oi, Sam Ruth, Bryan Perozzi | (参考訳) 半教師付き学習に適したグラフをどうやって見つけるのか?
現実世界のアプリケーションでは、どのエッジを計算に使うかを選択することは、どんなグラフ学習プロセスでも最初のステップです。
興味深いことに、ノード間のエッジとして選択できる多くの類似性があり、エッジの選択は下流の半教師あり学習システムの性能に大きな影響を与える。
しかし、グラフ設計の重要性にもかかわらず、ほとんどの文献はグラフが静的であると仮定している。
本稿では,数十億のノードを有するグラフのグラフ設計問題に対処するために開発したスケーラブルな手法であるgraleを提案する。
graleは(潜在的に弱い)類似性の異なる尺度を組み合わせることで動作し、ノード間で高いタスク固有のホモフィリーを示すグラフを作成する。
Graleは大規模なデータセット上で動作するように設計されている。
Googleでは、数千億のノードを持つデータセットや、数十兆の潜在的なエッジを含む、20以上の異なる産業環境にGraleをデプロイしています。
局所性に敏感なハッシュ技術を使用することで、スコア付けが必要なペアの数を大幅に削減し、タスク固有のモデルを学び、必要に応じて必要となる日や週ではなく、関連する隣接グラフを数時間で構築することが可能になります。
我々は,何億ものアイテムを持つyoutube上の乱用分類問題に対するgraleの適用を事例研究を通して検討する。
このアプリケーションでは、ハードコードされたルールとコンテンツ分類器の上に多数の悪意あるアクターを検知し、それらのアプローチだけで全体のリコールを89%増加させる。 How can we find the right graph for semi-supervised learning? In real world applications, the choice of which edges to use for computation is the first step in any graph learning process. Interestingly, there are often many types of similarity available to choose as the edges between nodes, and the choice of edges can drastically affect the performance of downstream semi-supervised learning systems. However, despite the importance of graph design, most of the literature assumes that the graph is static. In this work, we present Grale, a scalable method we have developed to address the problem of graph design for graphs with billions of nodes. Grale operates by fusing together different measures of(potentially weak) similarity to create a graph which exhibits high task-specific homophily between its nodes. Grale is designed for running on large datasets. We have deployed Grale in more than 20 different industrial settings at Google, including datasets which have tens of billions of nodes, and hundreds of trillions of potential edges to score. By employing locality sensitive hashing techniques,we greatly reduce the number of pairs that need to be scored, allowing us to learn a task specific model and build the associated nearest neighbor graph for such datasets in hours, rather than the days or even weeks that might be required otherwise. We illustrate this through a case study where we examine the application of Grale to an abuse classification problem on YouTube with hundreds of million of items. In this application, we find that Grale detects a large number of malicious actors on top of hard-coded rules and content classifiers, increasing the total recall by 89% over those approaches alone. | 翻訳日:2022-11-07 12:12:06 公開日:2020-07-23 |
# kth-次不変グラフネットワークの表現力 The expressive power of kth-order invariant graph networks ( http://arxiv.org/abs/2007.12035v1 ) ライセンス: Link先を確認 | Floris Geerts | (参考訳) グラフニューラルネットワークの表現力は、グラフを識別する能力によって一般的に測定される。
多くの形式主義では、k-次元ワイスフェイラー・リーマングラフ同型テストがヤードスティックとして用いられる。
本稿では,kth-order invariant (linear) graph network (k-IGNs) の表現力について考察する。
k-IGN は k-WL をシミュレートするのに十分表現可能であることが知られている。
これは、k-WLで区別できる任意の2つのグラフに対して、これらのグラフを区別する k-IGN を見つけることができることを意味する。
問題は、k-IGNがk-WLよりも多くのグラフを区別できるかどうかである。
これは k=2 に対して最近偽であることが示されている。
ここで、この結果を任意の k に一般化する。
言い換えれば、k-IGN は k-WL によって表現力で有界である。
これは、k-IGN と k-WL がグラフの区別において等しく強力であることを意味する。 The expressive power of graph neural network formalisms is commonly measured by their ability to distinguish graphs. For many formalisms, the k-dimensional Weisfeiler-Leman (k-WL) graph isomorphism test is used as a yardstick. In this paper we consider the expressive power of kth-order invariant (linear) graph networks (k-IGNs). It is known that k-IGNs are expressive enough to simulate k-WL. This means that for any two graphs that can be distinguished by k-WL, one can find a k-IGN which also distinguishes those graphs. The question remains whether k-IGNs can distinguish more graphs than k-WL. This was recently shown to be false for k=2. Here, we generalise this result to arbitrary k. In other words, we show that k-IGNs are bounded in expressive power by k-WL. This implies that k-IGNs and k-WL are equally powerful in distinguishing graphs. | 翻訳日:2022-11-07 12:11:41 公開日:2020-07-23 |
# 効率的な剰余数系に基づくウィノグラード畳み込み Efficient Residue Number System Based Winograd Convolution ( http://arxiv.org/abs/2007.12216v1 ) ライセンス: Link先を確認 | Zhi-Gang Liu and Matthew Mattina | (参考訳) 以前の研究では、ウィノグラードアルゴリズムは浮動小数点に表される重みとアクティベーションを持つ畳み込みニューラルネットワーク(cnn)の計算複雑性を低減できることが示されている。
しかし、このスキームを低精度量子化(例えばINT8)ネットワークの推測に適用することは困難である。
我々の研究はWinogradアルゴリズムをResidue Number System (RNS)に拡張した。
ネットワークの予測精度を低下させることなく、ウィノグラード変換および低コスト(8ビット演算など)演算を用いて、フィルタおよびアクティベーションパッチの大変形タイル(例えば10×10〜16×16)上で、最小複雑さ畳み込みを精度良く計算する。
演算複雑性の低減は7.03倍、性能改善は3 x 3 と 5 x 5 のフィルタでそれぞれ 2.30x から 4.69x になる。 Prior research has shown that Winograd algorithm can reduce the computational complexity of convolutional neural networks (CNN) with weights and activations represented in floating point. However it is difficult to apply the scheme to the inference of low-precision quantized (e.g. INT8) networks. Our work extends the Winograd algorithm to Residue Number System (RNS). The minimal complexity convolution is computed precisely over large transformation tile (e.g. 10 x 10 to 16 x 16) of filters and activation patches using the Winograd transformation and low cost (e.g. 8-bit) arithmetic without degrading the prediction accuracy of the networks during inference. The arithmetic complexity reduction is up to 7.03x while the performance improvement is up to 2.30x to 4.69x for 3 x 3 and 5 x 5 filters respectively. | 翻訳日:2022-11-07 12:04:30 公開日:2020-07-23 |
# 行動モデリングのための評価メトリクス Evaluation metrics for behaviour modeling ( http://arxiv.org/abs/2007.12298v1 ) ライセンス: Link先を確認 | Daniel Jiwoong Im, Iljung Kwak, Kristin Branson | (参考訳) 大規模データセットの構造を教師なしで発見することの主な困難は、定量的評価基準の欠如である。
本研究では,模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案する。
一般的に使用されるモデルログの類似性と比較すると、これらの基準は行動の時間的関係を長くし、行動が本質的に予測不能な性質を持つ場合に関連し、モデルによって生成される行動の全体分布のバイアスを強調する。
ポイントワイドメトリクスは、真の過去の情報が与えられたモデル予測軌跡と比較する。
分布測定は、オープンループの挙動をシミュレートするモデルの統計を比較し、実験生物学者が動物の行動に対する操作の効果を評価する方法に着想を得ている。
提案する指標は,行動に関する生物学者の直観と一致し,モデルを評価し,バイアスを理解し,新たな研究の方向性を提案する。 A primary difficulty with unsupervised discovery of structure in large data sets is a lack of quantitative evaluation criteria. In this work, we propose and investigate several metrics for evaluating and comparing generative models of behavior learned using imitation learning. Compared to the commonly-used model log-likelihood, these criteria look at longer temporal relationships in behavior, are relevant if behavior has some properties that are inherently unpredictable, and highlight biases in the overall distribution of behaviors produced by the model. Pointwise metrics compare real to model-predicted trajectories given true past information. Distribution metrics compare statistics of the model simulating behavior in open loop, and are inspired by how experimental biologists evaluate the effects of manipulations on animal behavior. We show that the proposed metrics correspond with biologists' intuitions about behavior, and allow us to evaluate models, understand their biases, and enable us to propose new research directions. | 翻訳日:2022-11-07 12:04:03 公開日:2020-07-23 |
# リンク発見と予測のためのBernoulli自己回帰フレームワークについて On a Bernoulli Autoregression Framework for Link Discovery and Prediction ( http://arxiv.org/abs/2007.11811v1 ) ライセンス: Link先を確認 | Xiaohan Yan, Avleen S. Bijral | (参考訳) 本稿では,自動回帰プロセスのベルヌーイ一般化に基づくバイナリシーケンスの動的予測フレームワークを提案する。
提案手法は,一連の時間依存ネットワークにおいて,標準リンク予測問題の変種に容易に対応できる。
本稿では,この動的ネットワークリンク予測・推薦タスクに着目し,より大規模な補助ネットワークを介し付加情報を利用する新たな問題を提案する。
利用可能なデータに存在しないリンクの発見を可能にするため、モデル推定フレームワークでは、従来のリンク予測とこの発見タスクとのトレードオフを示す正規化項を導入する。
既存の作業とは対照的に、確率勾配に基づく推定手法は非常に効率的で、数百万ノードのネットワークにスケールできる。
実際の製品利用による時間依存ネットワークと、Redditによる時間依存感情系列のデータセットの両方について、広範な実験結果を示す。 We present a dynamic prediction framework for binary sequences that is based on a Bernoulli generalization of the auto-regressive process. Our approach lends itself easily to variants of the standard link prediction problem for a sequence of time dependent networks. Focusing on this dynamic network link prediction/recommendation task, we propose a novel problem that exploits additional information via a much larger sequence of auxiliary networks and has important real-world relevance. To allow discovery of links that do not exist in the available data, our model estimation framework introduces a regularization term that presents a trade-off between the conventional link prediction and this discovery task. In contrast to existing work our stochastic gradient based estimation approach is highly efficient and can scale to networks with millions of nodes. We show extensive empirical results on both actual product-usage based time dependent networks and also present results on a Reddit based data set of time dependent sentiment sequences. | 翻訳日:2022-11-07 12:02:19 公開日:2020-07-23 |
# オートエンコーダを用いた旅行コンパニオンの発見 Discovering Traveling Companions using Autoencoders ( http://arxiv.org/abs/2007.11735v1 ) ライセンス: Link先を確認 | Xiaochang Li, Bei Chen, Xuesong Lu | (参考訳) モバイルデバイスの普及により、現在の衛星、携帯電話基地局、無線アクセスポイントといった位置追跡システムは、移動物体の膨大な位置情報を連続的に生成している。
移動中の物体、すなわち移動中の仲間をその軌道から発見する能力は、インテリジェントな輸送システムやロケーションベースのサービスといった多くのアプリケーションから求められている。
既存のアルゴリズムは、旅行仲間の特定のパターンを定義するパターンマイニング法や、類似の軌跡の類似表現を学習する表現学習法に基づいている。
前者は対方向の点マッチング問題に苦しめられ、後者はしばしば軌道間の時間的近接を無視する。
本研究では,自動エンコーダ,すなわちATTN-MEANを用いて,旅行相手の発見のための汎用的な深層表現学習モデルを提案する。
ATTN-MEANは、空間情報と時間情報をそれぞれスキップグラム、位置符号化技術を用いて入力埋め込みに注入する。
さらに,本モデルでは,Solt-Tile-Recursiveアルゴリズム,平均演算,グローバルアテンション機構を活用して,近隣からの学習を促す。
エンコーダから表現を得た後、DBSCANを実行して、表現をクラスタ化し、旅行仲間を見つける。
同じクラスタ内の対応する軌道は、旅行仲間と見なされる。
実験結果から,ATTN-MEANは旅行仲間を見つける上で,最先端のアルゴリズムよりも優れていたことが示唆された。 With the wide adoption of mobile devices, today's location tracking systems such as satellites, cellular base stations and wireless access points are continuously producing tremendous amounts of location data of moving objects. The ability to discover moving objects that travel together, i.e., traveling companions, from their trajectories is desired by many applications such as intelligent transportation systems and location-based services. Existing algorithms are either based on pattern mining methods that define a particular pattern of traveling companions or based on representation learning methods that learn similar representations for similar trajectories. The former methods suffer from the pairwise point-matching problem and the latter often ignore the temporal proximity between trajectories. In this work, we propose a generic deep representation learning model using autoencoders, namely, ATTN-MEAN, for the discovery of traveling companions. ATTN-MEAN collectively injects spatial and temporal information into its input embeddings using skip-gram, positional encoding techniques, respectively. Besides, our model further encourages trajectories to learn from their neighbours by leveraging the Sort-Tile-Recursive algorithm, mean operation and global attention mechanism. After obtaining the representations from the encoders, we run DBSCAN to cluster the representations to find travelling companion. The corresponding trajectories in the same cluster are considered as traveling companions. Experimental results suggest that ATTN-MEAN performs better than the state-of-the-art algorithms on finding traveling companions. | 翻訳日:2022-11-07 11:55:52 公開日:2020-07-23 |
# METEOR:マルチモーダルデータストリームからの記憶と時間効率の学習 METEOR: Learning Memory and Time Efficient Representations from Multi-modal Data Streams ( http://arxiv.org/abs/2007.11847v1 ) ライセンス: Link先を確認 | Amila Silva, Shanika Karunasekera, Christopher Leckie, Ling Luo | (参考訳) 多くの学習タスクにはマルチモーダルデータストリームが含まれており、異なるモードからの連続データがオブジェクトに関する包括的な記述を伝達する。
この文脈における大きな課題は、複雑な環境でマルチモーダル情報を効率的に解釈する方法である。
これはマルチモーダルデータストリームから教師なし表現を学ぶための多くの研究を動機付けている。
これらの研究は、異なるモダリティ(例えば、テキスト、ユーザ、Twitterメッセージの位置)で下位レベルのセマンティックユニットの埋め込みを共同で学習することで、高レベルのコンテキスト情報(例えば、Twitterメッセージ)を理解することを目的としている。
しかし、これらの手法は各低レベルのセマンティックユニットを連続的な埋め込みベクトルと直接関連付け、高いメモリ要求をもたらす。
したがって、そのようなモデルを低メモリデバイス(モバイルデバイスなど)にデプロイし、継続的に学習することが問題となる。
To address this problem, we present METEOR, a novel MEmory and Time Efficient Online Representation learning technique, which: (1) learns compact representations for multi-modal data by sharing parameters within semantically meaningful groups and preserves the domain-agnostic semantics; (2) can be accelerated using parallel processes to accommodate different stream rates while capturing the temporal changes of the units; and (3) can be easily extended to capture implicit/explicit external knowledge related to multi-modal data streams.
我々は,2種類のマルチモーダルデータストリーム(ソーシャルメディアストリームとショッピングトランザクションストリーム)を用いてMETEORを評価し,異なるドメインに適応できることを実証する。
その結果,METEORは従来のメモリ集約型埋め込みと比較してメモリ使用量を約80%削減し,表現の質を保っていることがわかった。 Many learning tasks involve multi-modal data streams, where continuous data from different modes convey a comprehensive description about objects. A major challenge in this context is how to efficiently interpret multi-modal information in complex environments. This has motivated numerous studies on learning unsupervised representations from multi-modal data streams. These studies aim to understand higher-level contextual information (e.g., a Twitter message) by jointly learning embeddings for the lower-level semantic units in different modalities (e.g., text, user, and location of a Twitter message). However, these methods directly associate each low-level semantic unit with a continuous embedding vector, which results in high memory requirements. Hence, deploying and continuously learning such models in low-memory devices (e.g., mobile devices) becomes a problem. To address this problem, we present METEOR, a novel MEmory and Time Efficient Online Representation learning technique, which: (1) learns compact representations for multi-modal data by sharing parameters within semantically meaningful groups and preserves the domain-agnostic semantics; (2) can be accelerated using parallel processes to accommodate different stream rates while capturing the temporal changes of the units; and (3) can be easily extended to capture implicit/explicit external knowledge related to multi-modal data streams. We evaluate METEOR using two types of multi-modal data streams (i.e., social media streams and shopping transaction streams) to demonstrate its ability to adapt to different domains. Our results show that METEOR preserves the quality of the representations while reducing memory usage by around 80% compared to the conventional memory-intensive embeddings. | 翻訳日:2022-11-07 11:55:04 公開日:2020-07-23 |
# Reinforcement Learning を用いた自己モニタリング型I型糖尿病患者の健康診断 Challenging common bolus advisor for self-monitoring type-I diabetes patients using Reinforcement Learning ( http://arxiv.org/abs/2007.11880v1 ) ライセンス: Link先を確認 | Fr\'ed\'eric Log\'e (CMAP), Erwan Le Pennec (XPOP, CMAP), Habiboulaye Amadou-Boubacar | (参考訳) 自己モニタリングを行う糖尿病患者は、食事の直前にインスリンの摂取量を決定する必要がある。
標準 bolus advisor が存在するが、いかなる意味でも最適であることが証明されていない。
我々は,コバチェフらが開発したFDA認可シミュレータT1DMでシミュレーションしたデータに強化学習技術を適用し,糖-インスリン相互作用をモデル化した。
その結果, 至適のボルス則は標準のボルス・アドバイザとはかなり異なり, 続くと低血糖のエピソードを回避できることがわかった。 Patients with diabetes who are self-monitoring have to decide right before each meal how much insulin they should take. A standard bolus advisor exists, but has never actually been proven to be optimal in any sense. We challenged this rule applying Reinforcement Learning techniques on data simulated with T1DM, an FDA-approved simulator developed by Kovatchev et al. modeling the gluco-insulin interaction. Results show that the optimal bolus rule is fairly different from the standard bolus advisor, and if followed can actually avoid hypoglycemia episodes. | 翻訳日:2022-11-07 11:54:14 公開日:2020-07-23 |
# 大規模クラスタリングのためのスケーラブル初期化手法 Scalable Initialization Methods for Large-Scale Clustering ( http://arxiv.org/abs/2007.11937v1 ) ライセンス: Link先を確認 | Joonas H\"am\"al\"ainen, Tommi K\"arkk\"ainen, Tuomo Rossi | (参考訳) そこで本研究では,K平均クラスタリングの2つの新しい初期化手法を提案する。
どちらの提案も初期化戦略の K-means|| 型に対して分割・対数アプローチを適用することに基づいている。
2つ目の提案では、ランダム射影法によって生成される複数の低次元部分空間を初期化に利用する。
提案手法はスケーラビリティが高く,並列動作が可能なため,大規模問題の初期化に適している。
実験では,提案手法と K-means++ および K-means|| 法との比較を行った。
後者については、新しい高次元クラスタリングデータ生成アルゴリズムが提供される。
実験の結果,提案手法は最先端技術と比較できることがわかった。
また、現在最も人気のあるK-means++初期化は、非常に高次元の場合においてランダムに振る舞う。 In this work, two new initialization methods for K-means clustering are proposed. Both proposals are based on applying a divide-and-conquer approach for the K-means|| type of an initialization strategy. The second proposal also utilizes multiple lower-dimensional subspaces produced by the random projection method for the initialization. The proposed methods are scalable and can be run in parallel, which make them suitable for initializing large-scale problems. In the experiments, comparison of the proposed methods to the K-means++ and K-means|| methods is conducted using an extensive set of reference and synthetic large-scale datasets. Concerning the latter, a novel high-dimensional clustering data generation algorithm is given. The experiments show that the proposed methods compare favorably to the state-of-the-art. We also observe that the currently most popular K-means++ initialization behaves like the random one in the very high-dimensional cases. | 翻訳日:2022-11-07 11:54:03 公開日:2020-07-23 |
# Banditフィードバックによるオンラインブースティング Online Boosting with Bandit Feedback ( http://arxiv.org/abs/2007.11975v1 ) ライセンス: Link先を確認 | Nataly Brukhim and Elad Hazan | (参考訳) 我々は,学習者に限られた情報しか提供できない場合,回帰タスクのオンラインブースティングの問題を考える。
雑音の多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、確率勾配を持つ新しいプロジェクションフリーオンライン凸最適化アルゴリズムの2つの意味を持つ効率的な後悔最小化法を提案する。 We consider the problem of online boosting for regression tasks, when only limited information is available to the learner. We give an efficient regret minimization method that has two implications: an online boosting algorithm with noisy multi-point bandit feedback, and a new projection-free online convex optimization algorithm with stochastic gradient, that improves state-of-the-art guarantees in terms of efficiency. | 翻訳日:2022-11-07 11:53:50 公開日:2020-07-23 |
# SBAT:スパース境界対応変圧器によるビデオキャプション SBAT: Video Captioning with Sparse Boundary-Aware Transformer ( http://arxiv.org/abs/2007.11888v1 ) ライセンス: Link先を確認 | Tao Jin, Siyu Huang, Ming Chen, Yingming Li, Zhongfei Zhang | (参考訳) 本稿では,映像キャプションに変換器構造を効果的に適用する問題に焦点をあてる。
バニラ変換器は機械翻訳などの一様言語生成タスクに対して提案される。
しかし、ビデオキャプションはマルチモーダル学習の問題であり、ビデオ機能は異なる時間ステップ間でかなり冗長である。
これらの懸念に基づき,映像表現の冗長性を低減するために,sparse boundary-aware transformer (sbat) と呼ばれる新しい手法を提案する。
SBATは、マルチヘッドからのスコアに境界対応プーリング操作を採用し、異なるシナリオから多様な特徴を選択する。
また、sbatは、スパース操作によってもたらされるローカル情報損失を補償するローカル相関スキームを含む。
さらに、SBATに基づいて、マルチモーダル相互作用を促進するための整列型クロスモーダル符号化方式を提案する。
2つのベンチマークデータセットの実験結果は、sbatがほとんどのメトリクスで最先端のメソッドよりも優れていることを示している。 In this paper, we focus on the problem of applying the transformer structure to video captioning effectively. The vanilla transformer is proposed for uni-modal language generation task such as machine translation. However, video captioning is a multimodal learning problem, and the video features have much redundancy between different time steps. Based on these concerns, we propose a novel method called sparse boundary-aware transformer (SBAT) to reduce the redundancy in video representation. SBAT employs boundary-aware pooling operation for scores from multihead attention and selects diverse features from different scenarios. Also, SBAT includes a local correlation scheme to compensate for the local information loss brought by sparse operation. Based on SBAT, we further propose an aligned cross-modal encoding scheme to boost the multimodal interaction. Experimental results on two benchmark datasets show that SBAT outperforms the state-of-the-art methods under most of the metrics. | 翻訳日:2022-11-07 11:46:43 公開日:2020-07-23 |
# シーン整合動作予測のための暗黙的潜在変数モデル Implicit Latent Variable Model for Scene-Consistent Motion Forecasting ( http://arxiv.org/abs/2007.12036v1 ) ライセンス: Link先を確認 | Sergio Casas, Cole Gulino, Simon Suo, Katie Luo, Renjie Liao, Raquel Urtasun | (参考訳) 安全な操縦を計画するには、自律車両はその環境を正確に認識し、交通参加者間の相互作用を理解する必要がある。
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
特に, 暗黙的潜在変数モデルを用いて, 将来の軌道上のジョイント分布を特徴付けることを提案する。
シーンをインタラクショングラフとしてモデル化し,強力なグラフニューラルネットワークを用いて,シーンの分散潜在表現を学習する。
決定論的デコーダと組み合わせて、交通参加者間で一貫した軌道サンプルを取得し、動き予測と相互作用理解の最先端結果を達成する。
最後に、我々の動き予測がより安全で快適な動き計画をもたらすことを示す。 In order to plan a safe maneuver an autonomous vehicle must accurately perceive its environment, and understand the interactions among traffic participants. In this paper, we aim to learn scene-consistent motion forecasts of complex urban traffic directly from sensor data. In particular, we propose to characterize the joint distribution over future trajectories via an implicit latent variable model. We model the scene as an interaction graph and employ powerful graph neural networks to learn a distributed latent representation of the scene. Coupled with a deterministic decoder, we obtain trajectory samples that are consistent across traffic participants, achieving state-of-the-art results in motion forecasting and interaction understanding. Last but not least, we demonstrate that our motion forecasts result in safer and more comfortable motion planning. | 翻訳日:2022-11-07 11:46:05 公開日:2020-07-23 |
# BERTを用いた対話システムのための製品タイトル生成 Product Title Generation for Conversational Systems using BERT ( http://arxiv.org/abs/2007.11768v1 ) ライセンス: Link先を確認 | Mansi Ranjit Mane, Shashank Kedia, Aditya Mantha, Stephen Guo, Kannan Achan | (参考訳) 最近の音声技術の進歩とAmazon AlexaやGoogle Homeのようなスマートデバイスの導入により、音声を介してアプリケーションと対話するユーザが増えています。
電子商取引会社は通常、簡潔さが必要な場合、人造またはアルゴリズムによって生成された短い製品タイトルをWebページに表示するが、これらのタイトルは自然言語とは異なる。
例えば、"lucky charms gluten free break-fast cereal, 20.5 oz a box lucky charms gluten free" はウェブページで表示することができるが、"20.5オンスの運のチャームの箱gluten free cereal" は会話システム上で理解しやすい。
ユーザに対して画像や詳細な製品情報を提示できるディスプレイデバイスと比較して,音声アシスタントと対話する際には,製品の短いタイトルが必要である。
本稿では,入力 web タイトルから短い自然言語タイトルを生成するための bert を用いたシーケンシャル・ツー・シーケンス手法を提案する。
実世界の産業データセットとモデルアウトプットの人的評価に関する広範な実験により、BERTの要約が同等のベースラインモデルより優れていることを示した。 Through recent advancements in speech technology and introduction of smart devices, such as Amazon Alexa and Google Home, increasing number of users are interacting with applications through voice. E-commerce companies typically display short product titles on their webpages, either human-curated or algorithmically generated, when brevity is required, but these titles are dissimilar from natural spoken language. For example, "Lucky Charms Gluten Free Break-fast Cereal, 20.5 oz a box Lucky Charms Gluten Free" is acceptable to display on a webpage, but "a 20.5 ounce box of lucky charms gluten free cereal" is easier to comprehend over a conversational system. As compared to display devices, where images and detailed product information can be presented to users, short titles for products are necessary when interfacing with voice assistants. We propose a sequence-to-sequence approach using BERT to generate short, natural, spoken language titles from input web titles. Our extensive experiments on a real-world industry dataset and human evaluation of model outputs, demonstrate that BERT summarization outperforms comparable baseline models. | 翻訳日:2022-11-07 11:44:53 公開日:2020-07-23 |
# リアルタイムLVCSRにおけるニューラルネットワークモデルに基づく高速ネットワーク探索へのGPGPUの適用 Applying GPGPU to Recurrent Neural Network Language Model based Fast Network Search in the Real-Time LVCSR ( http://arxiv.org/abs/2007.11794v1 ) ライセンス: Link先を確認 | Kyungmin Lee, Chiyoun Park, Ilhwan Kim, Namhoon Kim, Jaewon Lee | (参考訳) リカレントニューラルネットワーク言語モデル(RNNLM)は、その優れた性能のために音声認識の様々な分野で使われ始めている。
しかし、RNNLMの計算複雑性は、リアルタイム大語彙連続音声認識(LVCSR)にRNNLMを適用する上でハードルとなっている。
復号処理におけるRNNLMに基づくネットワーク探索の高速化のために,GPGPU(General Purpose Graphic Processing Units)を適用した。
本稿では,RNNLMに基づくグラフトラバーサルにGPGPUを適用する新しい手法を提案する。
我々は、CPU上の冗長な計算とGPGPUとCPU間の転送量を削減することで、目標を達成した。
提案手法はwsjコーパスと社内データの両方で評価した。
提案手法は, 単語誤り率(wer)をn-gramモデルに比べて10%低く保ちながら, 様々な状況下でリアルタイム速度を実現することを示す。 Recurrent Neural Network Language Models (RNNLMs) have started to be used in various fields of speech recognition due to their outstanding performance. However, the high computational complexity of RNNLMs has been a hurdle in applying the RNNLM to a real-time Large Vocabulary Continuous Speech Recognition (LVCSR). In order to accelerate the speed of RNNLM-based network searches during decoding, we apply the General Purpose Graphic Processing Units (GPGPUs). This paper proposes a novel method of applying GPGPUs to RNNLM-based graph traversals. We have achieved our goal by reducing redundant computations on CPUs and amount of transfer between GPGPUs and CPUs. The proposed approach was evaluated on both WSJ corpus and in-house data. Experiments shows that the proposed approach achieves the real-time speed in various circumstances while maintaining the Word Error Rate (WER) to be relatively 10% lower than that of n-gram models. | 翻訳日:2022-11-07 11:44:33 公開日:2020-07-23 |
# adma:ニューラルネットワークのための柔軟な損失関数 Adma: A Flexible Loss Function for Neural Networks ( http://arxiv.org/abs/2007.12499v1 ) ライセンス: Link先を確認 | Aditya Shrivastava | (参考訳) ANN(Artificial Neural Networks)への関心が高まり、その構造が大幅に改善された。
この作業では、現在利用可能な損失関数が静的なプラグインではなく、デフォルトでは柔軟であるべきだという考えが浮かび上がっています。
フレキシブル損失関数は、高い収束率につながるニューラルネットワークのより洞察力のあるナビゲータとなり、最適な精度に素早く到達することができる。
柔軟性の度合いを決定するための洞察は、ANNの複雑さ、データ分散、ハイパーパラメータの選択などから得られる。
この結果、ニューラルネットワークのフレキシブルな損失関数が導入された。
この関数は、他の損失関数の多くの特性がサブセットに過ぎず、関数の柔軟性パラメータが変化すれば、損失曲線と、一般的な静的損失関数の学習挙動をエミュレートできる、基本的なユニークな性質の範囲を特徴付けることが示される。
損失関数を用いて行った広範な実験は、選択したデータセットに対して最先端のパフォーマンスを提供できることを示す。
したがって、柔軟性そのものと、その上に構築された機能というアイデアは、ディープラーニング研究の新しい興味深い章を開く可能性を秘めている。 Highly increased interest in Artificial Neural Networks (ANNs) have resulted in impressively wide-ranging improvements in its structure. In this work, we come up with the idea that instead of static plugins that the currently available loss functions are, they should by default be flexible in nature. A flexible loss function can be a more insightful navigator for neural networks leading to higher convergence rates and therefore reaching the optimum accuracy more quickly. The insights to help decide the degree of flexibility can be derived from the complexity of ANNs, the data distribution, selection of hyper-parameters and so on. In the wake of this, we introduce a novel flexible loss function for neural networks. The function is shown to characterize a range of fundamentally unique properties from which, much of the properties of other loss functions are only a subset and varying the flexibility parameter in the function allows it to emulate the loss curves and the learning behavior of prevalent static loss functions. The extensive experimentation performed with the loss function demonstrates that it is able to give state-of-the-art performance on selected data sets. Thus, in all the idea of flexibility itself and the proposed function built upon it carry the potential to open to a new interesting chapter in deep learning research. | 翻訳日:2022-11-07 11:38:23 公開日:2020-07-23 |
# ビジュアル説明は役に立つか?
model-in-the-loop 予測のケーススタディ Are Visual Explanations Useful? A Case Study in Model-in-the-Loop Prediction ( http://arxiv.org/abs/2007.12248v1 ) ライセンス: Link先を確認 | Eric Chu, Deb Roy, Jacob Andreas | (参考訳) モデル・イン・ザ・ループ回帰タスクにおいて,(1)モデル予測の良好な説明が人間の精度を向上させる程度を計測し,(2)モデルに対する人間の信頼を低下させるようなランダム化制御試験を提案する。
本研究では,人間と学習モデルが個々に有能であるが,熟練度が高く,かつ不一致が多い画像ベース年齢予測タスクにおける視覚的なサリエンシーに基づく説明について検討する。
実験設計では, モデル品質と説明品質を分離し, 様々な品質レベルの説明を含む治療を比較することができる。
モデル予測の提示は人間の精度を向上させる。
しかし、様々な種類の視覚的説明は、人間の正確さやモデルの信頼を著しく変えることができず、説明が正確なモデル、不正確なもの、あるいは入力画像からランダムに、無関係に生成されるかどうかに関わらずである。
これらの知見は,下流意思決定タスクにおける説明のさらなる評価,ユーザへの説明提示のための設計ベースツールの改善,説明生成のためのより良いアプローチの必要性を示唆する。 We present a randomized controlled trial for a model-in-the-loop regression task, with the goal of measuring the extent to which (1) good explanations of model predictions increase human accuracy, and (2) faulty explanations decrease human trust in the model. We study explanations based on visual saliency in an image-based age prediction task for which humans and learned models are individually capable but not highly proficient and frequently disagree. Our experimental design separates model quality from explanation quality, and makes it possible to compare treatments involving a variety of explanations of varying levels of quality. We find that presenting model predictions improves human accuracy. However, visual explanations of various kinds fail to significantly alter human accuracy or trust in the model - regardless of whether explanations characterize an accurate model, an inaccurate one, or are generated randomly and independently of the input image. These findings suggest the need for greater evaluation of explanations in downstream decision making tasks, better design-based tools for presenting explanations to users, and better approaches for generating explanations. | 翻訳日:2022-11-07 11:37:41 公開日:2020-07-23 |
# HCMS at SemEval-2020 Task 9: An Neural Approach to Sentiment Analysis for Code-Mixed Texts HCMS at SemEval-2020 Task 9: A Neural Approach to Sentiment Analysis for Code-Mixed Texts ( http://arxiv.org/abs/2007.12076v1 ) ライセンス: Link先を確認 | Aditya Srivastava, V. Harsha Vardhan | (参考訳) コードミキシング言語に関わる問題は、リソースの不足と高度なトランスファー学習を行うための材料不足によって悩まされることが多い。
本稿では,コード混合テキストの感情分類を含むセンティミックスヒンズー英語課題への提案について述べるとともに,f1スコア67.1%を用いて,単純な畳み込みと注意力によって合理的な結果が得られることを示す。 Problems involving code-mixed language are often plagued by a lack of resources and an absence of materials to perform sophisticated transfer learning with. In this paper we describe our submission to the Sentimix Hindi-English task involving sentiment classification of code-mixed texts, and with an F1 score of 67.1%, we demonstrate that simple convolution and attention may well produce reasonable results. | 翻訳日:2022-11-07 11:37:22 公開日:2020-07-23 |
# CNN木を用いた画像分類に応用したディープネットワークアンサンブル学習 Deep Network Ensemble Learning applied to Image Classification using CNN Trees ( http://arxiv.org/abs/2008.00829v1 ) ライセンス: Link先を確認 | Abdul Mueed Hafiz and Ghulam Mohiuddin Bhat | (参考訳) 従来の機械学習アプローチは、複雑なデータを扱う場合、十分に機能しない可能性がある。
この文脈では、データマイニングの重要性が進化し、効率的な知識発見とマイニングの枠組みを構築する。
アンサンブル学習は、データの融合、モデリング、マイニングを統一モデルに統合することを目的としている。
しかし、従来のアンサンブル学習法は複雑であり、最適化やチューニングの問題がある。
本稿では,複数の深層ネットワークを用いた簡便でシーケンシャルで効率的なアンサンブル学習手法を提案する。
アンサンブルで使われるディープネットワークはresnet50である。
このモデルは二分決定/分類木からインスピレーションを得ている。
提案手法は,イメージネットおよびナチュラルイメージデータセット上の単一マルチクラスResNet50を用いた単一分類器アプローチである。
私たちのアプローチは、imagenetデータセットのすべての実験でベースラインを上回るものです。
コードはhttps://github.com/mueedhafiz1982/cnntreeensemble.gitで入手できる。 Traditional machine learning approaches may fail to perform satisfactorily when dealing with complex data. In this context, the importance of data mining evolves w.r.t. building an efficient knowledge discovery and mining framework. Ensemble learning is aimed at integration of fusion, modeling and mining of data into a unified model. However, traditional ensemble learning methods are complex and have optimization or tuning problems. In this paper, we propose a simple, sequential, efficient, ensemble learning approach using multiple deep networks. The deep network used in the ensembles is ResNet50. The model draws inspiration from binary decision/classification trees. The proposed approach is compared against the baseline viz. the single classifier approach i.e. using a single multiclass ResNet50 on the ImageNet and Natural Images datasets. Our approach outperforms the baseline on all experiments on the ImageNet dataset. Code is available in https://github.com/mueedhafiz1982/CNNTreeEnsemble.git | 翻訳日:2022-11-07 11:36:24 公開日:2020-07-23 |
# メタ・アナロジカル・コントラスト学習によるビジュアル推論 Few-shot Visual Reasoning with Meta-analogical Contrastive Learning ( http://arxiv.org/abs/2007.12020v1 ) ライセンス: Link先を確認 | Youngsung Kim, Jinwoo Shin, Eunho Yang, Sung Ju Hwang | (参考訳) 人間は少数のサンプルを観察することで論理的推論を必要とする視覚パズルを解くことができるが、同じタスクで同様のパフォーマンスを得るためには、最先端の深い推論モデルのために大量のデータをトレーニングする必要がある。
本研究では,2つの集合間の構造的・関係的類似性を識別するユニークな人間的能力である類似推論を用いて,このような数ショット(または低ショット)の視覚的推論問題を解くことを提案する。
具体的には、同じタイプの視覚的推論問題を含むトレーニングとテストセットについて、両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
我々は、トレーニングとテストサンプルの関係に影響を与えないという仮定のもと、同じ問題のクエリをわずかに修正したこのプロセスを繰り返し適用する。
これにより、単一のサンプルであっても、2つのサンプル間の関係的な類似性を効果的に学習することができる。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
さらに,異なる属性を持つ同じタスクに対して類似のコントラスト学習モデルをメタラーニングし,未知の属性を持つ同じ視覚的推論問題に一般化することを示す。 While humans can solve a visual puzzle that requires logical reasoning by observing only few samples, it would require training over large amount of data for state-of-the-art deep reasoning models to obtain similar performance on the same task. In this work, we propose to solve such a few-shot (or low-shot) visual reasoning problem, by resorting to analogical reasoning, which is a unique human ability to identify structural or relational similarity between two sets. Specifically, given training and test sets that contain the same type of visual reasoning problems, we extract the structural relationships between elements in both domains, and enforce them to be as similar as possible with analogical learning. We repeatedly apply this process with slightly modified queries of the same problem under the assumption that it does not affect the relationship between a training and a test sample. This allows to learn the relational similarity between the two samples in an effective manner even with a single pair of samples. We validate our method on RAVEN dataset, on which it outperforms state-of-the-art method, with larger gains when the training data is scarce. We further meta-learn our analogical contrastive learning model over the same tasks with diverse attributes, and show that it generalizes to the same visual reasoning problem with unseen attributes. | 翻訳日:2022-11-07 11:35:43 公開日:2020-07-23 |