このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220225となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ギャップ比統計による量子多体系の探索対称性 Probing symmetries of quantum many-body systems through gap ratio statistics ( http://arxiv.org/abs/2008.11173v2 ) ライセンス: Link先を確認 | Olivier Giraud, Nicolas Mac\'e, Eric Vernier, Fabien Alet | (参考訳) 連続エネルギー準位間のギャップ比の統計は、多体物理学の文脈において、ランダム行列とポアソン統計のガウスアンアンサンブルによってそれぞれ記述されるカオス系と可積分系を区別するために広く用いられる道具である。
本研究では、ギャップ比分布p(r)の研究を離散対称性が存在する場合まで拡張する。
これは重要なことであり、ある状況では、対称性がそもそも分かっていない場合を除いて、モデルを対称性セクターに分割するのは非常に非現実的または不可能である。
ガウスアンサンブルにおける代名詞の既知の式から、いくつかの独立したブロックからなるランダム行列の解析代名詞を導出する。
我々は、大きなランダム行列からのシミュレーションに対して計算式をチェックし、優れた一致を示す。
次に、量子時計モデルや正弦鎖から周期的に駆動されるスピンシステムまで、多体物理学の幅広い応用を提示する。
これらのモデル全てにおいて、スペクトルギャップ比の研究を通して(時には隠れた)対称性の存在を診断することができ、このアプローチは独立対称性部分空間の数と大きさを特徴づける効率的な方法を提供する。
文献における既存の結果に対する分析の妥当性と実用性について論じ,今後の応用と拡張の可能性について述べる。 The statistics of gap ratios between consecutive energy levels is a widely used tool, in particular in the context of many-body physics, to distinguish between chaotic and integrable systems, described respectively by Gaussian ensembles of random matrices and Poisson statistics. In this work we extend the study of the gap ratio distribution P(r) to the case where discrete symmetries are present. This is important, since in certain situations it may be very impractical, or impossible, to split the model into symmetry sectors, let alone in cases where the symmetry is not known in the first place. Starting from the known expressions for surmises in the Gaussian ensembles, we derive analytical surmises for random matrices comprised of several independent blocks. We check our formulae against simulations from large random matrices, showing excellent agreement. We then present a large set of applications in many-body physics, ranging from quantum clock models and anyonic chains to periodically-driven spin systems. In all these models the existence of a (sometimes hidden) symmetry can be diagnosed through the study of the spectral gap ratios, and our approach furnishes an efficient way to characterize the number and size of independent symmetry subspaces. We finally discuss the relevance of our analysis for existing results in the literature, as well as its practical usefulness, and point out possible future applications and extensions. | 翻訳日:2023-05-04 23:53:39 公開日:2022-02-25 |
# 超対称性量子力学における一般時間外相関器 Generalised out-of-time-order correlator in supersymmetric quantum mechanics ( http://arxiv.org/abs/2010.07089v3 ) ライセンス: Link先を確認 | Rathindra Nath Das, Sourav Dutta, Archana Maji | (参考訳) 本稿では,超対称量子力学系におけるカオスの存在について考察する。
テンソル積とパートナーハミルトニアン形式の両方を用いた,susy量子力学系のための4点外時間コリレータ(otoc)の形式を提案する。
我々は、SUSY 1D高調波発振器の4点OTOCを計算し、OTOCが1D高調波発振器システムと正確に等しいことを発見した。
超対称系の固有状態表現を用いて、一般化された高次アウトオブタイムコリケータの定義を拡張する。
高次のOTOCは、文献で使われる通常の4点相関器よりもより敏感なカオス測定である。
両形式を用いたsusy量子力学における一般化された2n点otocのコンパクト形式を提案する。
最後に、SUSY 1D高調波発振器のための一般化された2N点OTOCを計算し、その等価性を示す。 In this article we study the presence of chaos in supersymmetric (SUSY) quantum mechanical systems. We present a form of 4-point out-of-time-order correlator (OTOC) for SUSY quantum mechanical systems using both Tensor Product and Partner Hamiltonian formalisms. We calculate the 4-point OTOC for SUSY 1D harmonic oscillator and find that the OTOC is precisely equal to that of the 1D bosonic harmonic oscillator system. Using the eigenstate representation of supersymmetric systems, we extend the definition for generalised higher-order out-of-time-order correlators. The higher-order OTOC is a more sensitive measure of chaos than the usual 4-point correlator used in the literature. We present a compact form of the generalised 2N-point OTOC in SUSY quantum mechanics using both formalisms. Finally, we calculate the generalised 2N-point OTOC for SUSY 1D harmonic oscillator and show their equivalence. | 翻訳日:2023-04-29 04:46:24 公開日:2022-02-25 |
# 干渉計における閉鎖位相の幾何学的視点 A Geometric View of Closure Phases in Interferometry ( http://arxiv.org/abs/2012.05254v4 ) ライセンス: Link先を確認 | Nithyanandan Thyagarajan, Christopher L. Carilli | (参考訳) 閉相は、$\ge 3$-element 干渉計アレイにおける相関の閉ループ積の位相である。
元素ベースの相分解に対する不均一性は、高精度位相校正を必要とする干渉計測への応用に有用である。
しかし、その理解は主に数学的であり、開口面(画像平面のフーリエ双対)に限定されている。
ここでは、幾何学的洞察の基礎を定めます。
本稿では, 配列要素の閉三重項によって形成される主三角形の保存特性(形状, 配向, 大きさ, SOS)に, 閉包相と, 要素による汚損, 翻訳への不変性が複雑に関係していることを示し, これを「SOS保存原理」と呼ぶ。
光干渉法で典型的なように、要素ベースの振幅校正が不要な場合、位相非平衡相関から形成される3要素干渉像は、シフトの可能な場合を除いて、ソースオブジェクトのモルフォロジーの真で非破壊的な表現である。
このsos保存原理に基づき、3要素干渉画像から直接閉位相を測定する2つの幾何学的手法を提案する(開口面ビューを必要とせず)。
(i)閉包相は、三角形の高さのいずれかから直接測定可能であり、
(ii)二乗閉相は、アパーチャ及び画像平面における配列要素のトライアドによって囲まれた領域の積に比例する。
我々は、この幾何学的理解を、Very Large ArrayとEvent Horizon Telescopeのデータを用いて、幅広いインターフェロメトリ条件にわたって検証する。
この幾何学的洞察は、光学干渉法のような他の干渉計測応用に潜在的に有用である。
これらの幾何学的関係は、n$-要素干渉計で一般化される。 Closure phase is the phase of a closed-loop product of correlations in a $\ge 3$-element interferometer array. Its invariance to element-based phase corruption makes it invaluable for interferometric applications that otherwise require high-accuracy phase calibration. However, its understanding has remained mainly mathematical and limited to the aperture plane (Fourier dual of image plane). Here, we lay the foundations for a geometrical insight. we show that closure phase and its invariance to element-based corruption and to translation are intricately related to the conserved properties (shape, orientation, and size, or SOS) of the principal triangle enclosed by the three fringes formed by a closed triad of array elements, which is referred herein as the "SOS conservation principle". When element-based amplitude calibration is not needed, as is typical in optical interferometry, the 3-element interference image formed from phase-uncalibrated correlations is a true and uncorrupted representation of the source object's morphology, except for a possible shift. Based on this SOS conservation principle, we present two geometric methods to measure the closure phase directly from a 3-element interference image (without requiring an aperture-plane view): (i) the closure phase is directly measurable from any one of the triangle's heights, and (ii) the squared closure phase is proportional to the product of the areas enclosed by the triad of array elements and the principal triangle in the aperture and image planes, respectively. We validate this geometric understanding across a wide range range of interferometric conditions using data from the Very Large Array and the Event Horizon Telescope. This geometric insight can be potentially valuable to other interferometric applications such as optical interferometry. These geometric relationships are generalised for an $N$-element interferometer. | 翻訳日:2023-04-21 07:58:18 公開日:2022-02-25 |
# U(1)$-対称スピンハミルトニアン状態塔からのロバストスピンスクイーズ Robust spin squeezing from the tower of states of $U(1)$-symmetric spin Hamiltonians ( http://arxiv.org/abs/2103.07354v2 ) ライセンス: Link先を確認 | Tommaso Comparin, Fabio Mezzacapo, Tommaso Roscilde | (参考訳) スピンスクイージング(スピンスクイージング、spin squeezing)は、量子メトロロジーの中心的資源であり、初期分解スピン状態の非線形な絡み合い進化を通じて生成することができる。
ここでは、ロバストな(すなわち永続的な)スキーズ力学は、軸対称を持つ$S=1/2$スピンハミルトニアンの非常に大きなクラスによって、低層ハミルトニアン固有状態(いわゆるアンダーソンの状態塔)の特異構造の存在によって生成されることを示す。
このような状態は、量子系における自発対称性の破れの出現と根本的に関係しており、十分に高い接続性を持つモデルでは、平面ローター(ディック状態)の固有状態にパラメトリックに近づき、全角運動量の不均一に大きな値を持つ。
我々の中心となる洞察は、コヒーレントなスピン状態から始まり、アンダーソンの状態の塔を特徴とする一般のu(1)$-symmetric hamiltonianは、スキュージングダイナミクスのパラダイム的一軸運動(あるいは平面回転)モデルによって支配されるものと短時間で同じスクイージング進化を生み出すということである。
平面ロータモデルの完全なスケズング進化は、距離$r$ as $r^{-\alpha}$$$\alpha < 5d/3$ in $d$ dimensions で崩壊する相互作用のために再現されるように見える。
我々の結果は量子力学と量子距離論を結びつけ、様々な量子シミュレーションプラットフォームで現在実装されている様々なハミルトン力学のスクイーズパワーを明らかにした。 Spin squeezing - a central resource for quantum metrology - can be generated via the non-linear, entangling evolution of an initially factorized spin state. Here we show that robust (i.e. persistent) squeezing dynamics is generated by a very large class of $S=1/2$ spin Hamiltonians with axial symmetry, in relationship with the existence of a peculiar structure of the low-lying Hamiltonian eigenstates - the so-called Anderson's tower of states. Such states are fundamentally related to the appearance of spontaneous symmetry breaking in quantum systems; and, for models with sufficiently high connectivity, they are parametrically close to the eigenstates of a planar rotor (Dicke states), in that they feature an anomalously large value of the total angular momentum. Our central insight is that, starting from a coherent spin state, a generic $U(1)$-symmetric Hamiltonian featuring the Anderson's tower of states generates the same squeezing evolution at short times as the one governed by the paradigmatic one-axis-twisting (or planar-rotor) model of squeezing dynamics. The full squeezing evolution of the planar-rotor model is seemingly reproduced for interactions decaying with distance $r$ as $r^{-\alpha}$ when $\alpha < 5d/3$ in $d$ dimensions. Our results connect quantum simulation with quantum metrology by unveiling the squeezing power of a large variety of Hamiltonian dynamics that are currently implemented by different quantum simulation platforms. | 翻訳日:2023-04-08 08:42:41 公開日:2022-02-25 |
# 2つのディラックスピノルに対する候補エンタングルメント不変量 Candidate entanglement invariants for two Dirac spinors ( http://arxiv.org/abs/2103.07784v2 ) ライセンス: Link先を確認 | Markus Johansson | (参考訳) 2つの空間的な分離ディラック粒子を考え、局所固有直交ローレンツ群のスピノル表現の下で5つの不変量を構成する。
構築されたローレンツ不変量はすべて、積状態に対してゼロである。
固定粒子モーメントを持つ任意の部分空間上で一元的に作用する局所ユニタリ進化の下でのローレンツ不変量の挙動について研究する。
すべてのローレンツ不変量は、進化が局所零質量ディラックハミルトニアンによって生成されるとき、そのような部分空間上の不変絶対値を持つ。
そのうちのいくつかは、非ゼロ質量の場合も含む。
したがって、2つのディラック粒子のスピノル絡みを0または任意の質量で記述する可能性があると考えられている。
さらに,ウーターのコンカレンスとの関係を調査し,Foldy-Wouthuysen 画像における表現について述べる。 We consider two spacelike separated Dirac particles and construct five invariants under the spinor representations of the local proper orthochronous Lorentz groups. All of the constructed Lorentz invariants are identically zero for product states. The behaviour of the Lorentz invariants under local unitary evolutions that act unitarily on any subspace with fixed particle momenta is studied. All of the Lorentz invariants have invariant absolute values on such subspaces if the evolutions are generated by local zero-mass Dirac Hamiltonians. Some of them also for the case of nonzero-mass. Therefore, they are considered potential candidates for describing spinor entanglement of two Dirac particles, with either zero or arbitrary mass. Furthermore, their relations to the Wootters concurrence is investigated and their representations in the Foldy-Wouthuysen picture is given. | 翻訳日:2023-04-08 06:21:30 公開日:2022-02-25 |
# 連続petzリカバリマップによる逆リンドブラッドダイナミクス Reversing Lindblad Dynamics via Continuous Petz Recovery Map ( http://arxiv.org/abs/2104.03360v3 ) ライセンス: Link先を確認 | Hyukjoon Kwon, Rick Mukherjee, M. S. Kim | (参考訳) 量子技術開発における重要な問題は、量子状態がノイズに非常に敏感であることである。
本稿では,Lindbladマスター方程式によって記述される雑音に対して量子システムを正確に制御するために,逆ダイナミクスを導入するプロトコルを提案する。
この逆ダイナミクスは、petzリカバリマップを連続時間に構築することで得られる。
逆ダイナミクスに対するハミルトン作用素とジャンプ作用素の正確な形式を提供することで、ノイズ量子力学の制御においてペッツ写像の準最適回復を利用する可能性を探る。
時間依存散逸技術は単一量子軌道の完全回復を可能にするが、符号化された量子情報をデコヒーレンスから保護するための時間非依存回復プロトコルも設計する。
提案プロトコルは, 量子力学の雑音のみを効率よく抑制し, 量子系の効果的なユニタリ進化を実現する。 An important issue in developing quantum technology is that quantum states are so sensitive to noise. We propose a protocol that introduces reverse dynamics, in order to precisely control quantum systems against noise described by the Lindblad master equation. The reverse dynamics can be obtained by constructing the Petz recovery map in continuous time. By providing the exact form of the Hamiltonian and jump operators for the reverse dynamics, we explore the potential of utilizing the near-optimal recovery of the Petz map in controlling noisy quantum dynamics. While time-dependent dissipation engineering enables us to fully recover a single quantum trajectory, we also design a time-independent recovery protocol to protect encoded quantum information against decoherence. Our protocol can efficiently suppress only the noise part of dynamics thereby providing an effective unitary evolution of the quantum system. | 翻訳日:2023-04-05 02:10:19 公開日:2022-02-25 |
# 連続可変絡み付き古典秘密を共有する:構成可能なセキュリティとネットワーク符号化の利点 Sharing classical secrets with continuous-variable entanglement: Composable security and network coding advantage ( http://arxiv.org/abs/2104.10659v2 ) ライセンス: Link先を確認 | Nathan Walk and Jens Eisert | (参考訳) シークレットシェアリングはマルチパーティ暗号プリミティブであり、機密性(安全でなければならない)と重要(失われたり破壊したりしてはならない)の両方のデータを暗号化する部分的不信任者のネットワークに適用することができる。
古典的な秘密を共有するとき(量子状態とは対照的に)、二部量子鍵分布(QKD)を利用するプロトコルと多部量子鍵の絡み合いを利用するプロトコルを区別することができる。
後者のクラスはいわゆる参加者攻撃に弱いことが知られており、近年は進展しているものの、QKDセキュリティのゴールドスタンダードとなった構成可能で有限サイズの体制において、その性能を定量化する分析は行われていない。
これと、マルチパートの絡み合いの配布が一般的に難しいという事実を考えると、 マルチパートの絡み合いベースのスキームを追求するメリットはあるか?
本稿では,連続変数グラフ状態に基づく秘密共有プロトコルのクラスを肯定する形で,この疑問に答える。
我々は,構成可能なフレームワークのセキュリティを確立し,ネットワークトポロジ,特に損失チャネルのボトルネックネットワークを同定し,マルチパーティイト方式が漸近的および有限サイズ設定において対応するQKD法より優れるような,今日の実験の範囲内でパラメータ構造を示す。
最後に、多成分スキームが任意のqkdベースのプロトコルよりも優れる実験パラメータを確立する。
これは、量子通信におけるポイント・ツー・ポイントのプロトコルよりも真の利点を達成する、マルチパートの絡み合ったリソースの最初の具体的な例の1つであり、そのようなリソースの有用性を評価するための厳密で運用上のベンチマークを表している。 Secret sharing is a multi-party cryptographic primitive that can be applied to a network of partially distrustful parties for encrypting data that is both sensitive (it must remain secure) and important (it must not be lost or destroyed). When sharing classical secrets (as opposed to quantum states), one can distinguish between protocols that leverage bi-partite quantum key distribution (QKD) and those that exploit multi-partite entanglement. The latter class are known to be vulnerable to so-called participant attacks and, while progress has been made recently, there is currently no analysis that quantifies their performance in the composable, finite-size regime which has become the gold standard for QKD security. Given this - and the fact that distributing multi-partite entanglement is typically challenging - one might well ask: Is there any virtue in pursuing multi-partite entanglement based schemes? Here, we answer this question in the affirmative for a class of secret sharing protocols based on continuous variable graph states. We establish security in a composable framework and identify a network topology, specifically a bottleneck network of lossy channels, and parameter regimes within the reach of present day experiments for which a multi-partite scheme outperforms the corresponding QKD based method in the asymptotic and finite-size setting. Finally, we establish experimental parameters where the multi-partite schemes outperform any possible QKD based protocol. This one of the first concrete compelling examples of multi-partite entangled resources achieving a genuine advantage over point-to-point protocols for quantum communication and represents a rigorous, operational benchmark to assess the usefulness of such resources. | 翻訳日:2023-04-03 00:23:38 公開日:2022-02-25 |
# ブラジルにおける「眠る巨人」活動モデルの解析 Analyzing the "Sleeping Giants" Activism Model in Brazil ( http://arxiv.org/abs/2105.07523v3 ) ライセンス: Link先を確認 | B\'arbara Gomes Ribeiro, Manoel Horta Ribeiro, Virg\'ilio Almeida, Wagner Meira Jr | (参考訳) 2020年、新型コロナウイルスのパンデミックと政治情勢の偏りの中で、スリーピングジャイアンツのオンライン活動家運動はブラジルで勢いを増した。
その根拠は単純で、この種のコンテンツを制作するソースの広告収入を損なうことで誤報の拡散を抑えることだった。
海外版同様、Sleeping Giants Brasil(SGB)もTwitterを使ってターゲットのメディアから広告を削除するようメディアに呼びかけていた。
本研究は,2020年5月から9月にかけてSGBが実施した3つの活動の定量的評価を行った。
そのために、TwitterとGoogle Trendsのデジタルトレース、ポルトガル語で訓練された毒性と感情分類器、およびSGBのツイートの注釈付きコーパスを使用します。
主な所見は3倍であった。
まず、SGBの企業への要求は(192社のターゲット企業のうち83.85パーセントが肯定的な反応を示した)大きく成功しており、ユーザーのプレッシャーは企業の反応速度に相関していることがわかった。
第2に、sgbのキャンペーン(google trendsとtwitterのエンゲージメントによって測定された)の6ヶ月間で、オンラインの注目度と、ターゲットメディアへのユーザーのエンゲージメントに大きな変化はなかった。
第3に,SGBの要求に応えない企業であっても,企業とのユーザインタラクションは過渡的にのみ変化した。
全体として、われわれの結果はインターネットアクティビズムの微妙な肖像を描いている。
一方、SGBは特定のメディアをボイコットすることに成功しており、広告収入を損なう可能性があることを示唆している。
一方で、活動家運動は、これらのメディアが受け取ったオンラインの注意や、彼らの要求に好意的に反応しなかった企業のオンラインイメージに影響を与えなかったとも示唆している。 In 2020, amidst the COVID pandemic and a polarized political climate, the Sleeping Giants online activist movement gained traction in Brazil. Its rationale was simple: to curb the spread of misinformation by harming the advertising revenue of sources that produce this type of content. Like its international counterparts, Sleeping Giants Brasil (SGB) campaigned against media outlets using Twitter to ask companies to remove ads from the targeted outlets. This work presents a thorough quantitative characterization of this activism model, analyzing the three campaigns carried out by SGB between May and September 2020. To do so, we use digital traces from both Twitter and Google Trends, toxicity and sentiment classifiers trained for the Portuguese language, and an annotated corpus of SGB's tweets. Our key findings were threefold. First, we found that SGB's requests to companies were largely successful (with 83.85\% of all 192 targeted companies responding positively) and that user pressure was correlated to the speed of companies' responses. Second, there were no significant changes in the online attention and the user engagement going towards the targeted media outlets in the six months that followed SGB's campaign (as measured by Google Trends and Twitter engagement). Third, we observed that user interactions with companies changed only transiently, even if the companies did not respond to SGB's request. Overall, our results paint a nuanced portrait of internet activism. On the one hand, they suggest that SGB was successful in getting companies to boycott specific media outlets, which may have harmed their advertisement revenue stream. On the other hand, they also suggest that the activist movement did not impact the online attention these media outlets received nor the online image of companies that did not respond positively to their requests. | 翻訳日:2023-03-31 00:08:19 公開日:2022-02-25 |
# 多重ディラックスピノルに対するポテンシャル絡み合い不変量としてのローレンツ不変多項式 Low degree Lorentz invariant polynomials as potential entanglement invariants for multiple Dirac spinors ( http://arxiv.org/abs/2105.07503v3 ) ライセンス: Link先を確認 | Markus Johansson | (参考訳) 複数の空間的分離されたディラック粒子の系を考察し、局所固有直交ローレンツ群のスピノル表現の下で多項式不変量を構築する方法について述べる。
この方法は、2つのディラック粒子の場合 [arXiv:2103.07784] で用いられる方法の一般化である。
この方法によって構成されるすべての多項式は、積状態に対してゼロである。
固定粒子モーメントによって定義される任意の部分空間上で一元的に作用する局所ユニタリ進化の下での多項式の挙動を述べる。
設計により、すべての多項式は、進化がゼロ質量ディラック・ハミルトニアンによって局所的に生成されるとき、この種類の部分空間上の不変絶対値を持つ。
構成によっては、多項式は非零質量や付加結合に対しても不変絶対値を持つ。
これらの性質のため、多項式はゼロまたは任意の質量を持つ複数のディラック粒子のスピノル絡みを記述する潜在的候補と考えられる。
次数 2 と 4 の多項式は、3 と 4 つのディラックスピノルの場合に導かれる。
3つのスピノルに対して、非零次数 2 の多項式は見つからないが、次数 4 の線型独立多項式67 が特定される。
4つのスピノル16に対して、次数2の線型独立多項式と、より大きい数から選択された次数4の26多項式が構成される。
これらの多項式と3と4つの非相対論的スピン-$\frac{1}{2}$粒子の多項式スピンエンタングルメント不変量との関係について述べる。 A system of multiple spacelike separated Dirac particles is considered and a method for constructing polynomial invariants under the spinor representations of the local proper orthochronous Lorentz groups is described. The method is a generalization of the method used in [arXiv:2103.07784] for the case of two Dirac particles. All polynomials constructed by this method are identically zero for product states. The behaviour of the polynomials under local unitary evolution that acts unitarily on any subspace defined by fixed particle momenta is described. By design all of the polynomials have invariant absolute values on this kind of subspaces if the evolution is locally generated by zero-mass Dirac Hamiltonians. Depending on construction some polynomials have invariant absolute values also for the case of nonzero-mass or additional couplings. Because of these properties the polynomials are considered potential candidates for describing the spinor entanglement of multiple Dirac particles, with either zero or arbitrary mass. Polynomials of degree 2 and 4 are derived for the cases of three and four Dirac spinors. For three spinors no non-zero degree 2 polynomials are found but 67 linearly independent polynomials of degree 4 are identified. For four spinors 16 linearly independent polynomials of degree 2 are constructed as well as 26 polynomials of degree 4 selected from a much larger number. The relations of these polynomials to the polynomial spin entanglement invariants of three and four non-relativistic spin-$\frac{1}{2}$ particles are described. | 翻訳日:2023-03-31 00:07:47 公開日:2022-02-25 |
# 部分消去情報を用いた損失チャネルへの応用による量子符号の最適化 Optimizing quantum codes with an application to the loss channel with partial erasure information ( http://arxiv.org/abs/2105.13233v3 ) ライセンス: Link先を確認 | Benjamin Desef, Martin B. Plenio | (参考訳) 量子エラー訂正符号(Quantum error correcting codes, QECCs)は、量子システムが不完全なデバイス、環境、障害チャネルなどによってエラーを被るときに選択する手段である。
現在までに、多数のコード群が知られているが、特定のタスクに対して新しいコードや最適なコードを見つけるための普遍的なアプローチは存在しない。
特に一度見つかれば、QECCは典型的に非常に多様な文脈で使われ、エラーに対するレジリエンスは1つのメリット、すなわちコードの距離で捉えられる。
これは、ある既知のエラーやコードが使用される特定のアプリケーションを考えると、可能な限り最も効率的な保護をもたらすとは限らない。
本稿では、量子通信において重要な役割を果たす損失チャネル、特に長距離における量子鍵分布について検討する。
本研究では, 損失粒子の復号化に向け, 決定的にも確率的にも, 損失粒子の復号化に特化して符号化を最適化できる数値ツールを開発し, その性能を実証する。
これにより、この特定の環境での絡み合った状態の分布に理想的な新しい符号に到達でき、また、量子ビットの符号化や非決定論的補正が既知のQECCよりも有利であることを示すことができる。
ここでは損失の場合に焦点をあてるが、システム内のエラーが既知の線形写像によって特徴づけられる場合はいつでも適用できる。 Quantum error correcting codes (QECCs) are the means of choice whenever quantum systems suffer errors, e.g., due to imperfect devices, environments, or faulty channels. By now, a plethora of families of codes is known, but there is no universal approach to finding new or optimal codes for a certain task and subject to specific experimental constraints. In particular, once found, a QECC is typically used in very diverse contexts, while its resilience against errors is captured in a single figure of merit, the distance of the code. This does not necessarily give rise to the most efficient protection possible given a certain known error or a particular application for which the code is employed. In this paper, we investigate the loss channel, which plays a key role in quantum communication, and in particular in quantum key distribution over long distances. We develop a numerical set of tools that allows to optimize an encoding specifically for recovering lost particles both deterministically and probabilistically, where some knowledge about what was lost is available, and demonstrate its capabilities. This allows us to arrive at new codes ideal for the distribution of entangled states in this particular setting, and also to investigate if encoding in qudits or allowing for non-deterministic correction proves advantageous compared to known QECCs. While we here focus on the case of losses, our methodology is applicable whenever the errors in a system can be characterized by a known linear map. | 翻訳日:2023-03-29 07:15:43 公開日:2022-02-25 |
# パンデミックに直面するプライバシとユーティリティを最大化するためのケースレポーティングポリシーの動的調整 Dynamically Adjusting Case Reporting Policy to Maximize Privacy and Utility in the Face of a Pandemic ( http://arxiv.org/abs/2106.14649v2 ) ライセンス: Link先を確認 | J. Thomas Brown, Chao Yan, Weiyi Xia, Zhijun Yin, Zhiyu Wan, Aris Gkoulalas-Divanis, Murat Kantarcioglu, Bradley A. Malin | (参考訳) パンデミックの間、公衆衛生研究と公衆の状況認識を支援するためには、伝染病の監視データを継続的に広める必要がある。
1996年健康保険可搬性会計法(HIPAA)や近年の州レベルでの規制は、特定されていない個人レベルのデータの共有を許可している。
すなわち、それらは非効率であり、ふりかえりの開示リスクアセスメントに依存しており、感染率や人口人口の経時的変化に対応していない。
本稿では,個人レベルの監視データのほぼリアルタイム共有に対して,非識別を動的に適応する枠組みを提案する。
このフレームワークは、任意の地理的レベルで適用可能なシミュレーションメカニズムを利用して、幅広い一般化ポリシーの下でデータを共有する再識別リスクを予測する。
見積は、グループサイズ未満のレコード(pk11)の比率を0.1以下に保つために、毎週、予測的なポリシー選択を通知する。
毎週始めにポリシーを修正することで、タイムリーなデータセットのアップデートが容易になり、詳細な日付情報の共有がサポートされる。
我々は、2020年8月から2021年10月まで、ジョンズ・ホプキンス大学と疾病対策センターのケースデータを用いて、PK維持におけるフレームワークの有効性を実証している。
1しきい値0.01。
米国の全郡でcovid-19郡レベルのケースデータを共有する場合、フレームワークのアプローチは毎日のデータリリースの96.2%の閾値を満たし、現在の非識別技術に基づくポリシーは32.3%の閾値を満たしている。
データ公開ポリシーを定期的に適用することは、プライバシーを維持しつつ、タイムリーな更新と疫学的に重要な特徴の共有を通じて公衆衛生ユーティリティを強化する。 Supporting public health research and the public's situational awareness during a pandemic requires continuous dissemination of infectious disease surveillance data. Legislation, such as the Health Insurance Portability and Accountability Act of 1996 (HIPAA) and recent state-level regulations, permits sharing de-identified person-level data; however, current de-identification approaches are limited. namely, they are inefficient, relying on retrospective disclosure risk assessments, and do not flex with changes in infection rates or population demographics over time. In this paper, we introduce a framework to dynamically adapt de-identification for near-real time sharing of person-level surveillance data. The framework leverages a simulation mechanism, capable of application at any geographic level, to forecast the re-identification risk of sharing the data under a wide range of generalization policies. The estimates inform weekly, prospective policy selection to maintain the proportion of records corresponding to a group size less than 11 (PK11) at or below 0.1. Fixing the policy at the start of each week facilitates timely dataset updates and supports sharing granular date information. We use August 2020 through October 2021 case data from Johns Hopkins University and the Centers for Disease Control and Prevention to demonstrate the framework's effectiveness in maintaining the PK!1 threshold of 0.01. When sharing COVID-19 county-level case data across all US counties, the framework's approach meets the threshold for 96.2% of daily data releases, while a policy based on current de-identification techniques meets the threshold for 32.3%. Periodically adapting the data publication policies preserves privacy while enhancing public health utility through timely updates and sharing epidemiologically critical features. | 翻訳日:2023-03-25 22:56:56 公開日:2022-02-25 |
# 量子力学の実時間測定における限界を押し上げる Pushing the limits in real-time measurements of quantum dynamics ( http://arxiv.org/abs/2106.12502v2 ) ライセンス: Link先を確認 | Eric Kleinherbers, Philipp Stegmann, Annika Kurzmann, Martin Geller, Axel Lorke, and J\"urgen K\"onig | (参考訳) 量子系の時間分解研究はその核における量子力学を理解する鍵である。
ランダム電信信号として知られる特定の離散値の間を切り替えるときの個々の量子数のリアルタイム測定は、最大の物理的洞察をもたらすことが期待されている。
しかし、信号は時間分解能の制限や測定装置からのノイズといった系統的な誤差と、データ量の制限による統計的誤差の両方に悩まされる。
本稿では,因子累積量に基づく評価手法により,そのような誤差の影響を桁違いに低減できることを示す。
誤差レジリエンスは、検出エラーの一般的な理論と、自己組立量子ドットによる単一電子トンネルの実験データによって支持される。
このように、因子的累積は、物理学、化学、工学、生命科学における幅広い種類の実験を表すランダムな電信データの解析の限界を押し進める。 Time-resolved studies of quantum systems are the key to understand quantum dynamics at its core. The real-time measurement of individual quantum numbers as they switch between certain discrete values, well known as random telegraph signal, is expected to yield maximal physical insight. However, the signal suffers from both systematic errors, such as a limited time resolution and noise from the measurement apparatus, as well as statistical errors due to a limited amount of data. Here we demonstrate that an evaluation scheme based on factorial cumulants can reduce the influence of such errors by orders of magnitude. The error resilience is supported by a general theory for the detection errors as well as experimental data of single-electron tunnelling through a self-assembled quantum dot. Thus, factorial cumulants push the limits in the analysis of random telegraph data which represent a wide class of experiments in physics, chemistry, engineering and life sciences. | 翻訳日:2023-03-25 18:19:41 公開日:2022-02-25 |
# 近接量子制限分解能を持つ任意非干渉音源分布のイメージング Imaging arbitrary incoherent source distributions with near quantum-limited resolution ( http://arxiv.org/abs/2106.13332v2 ) ライセンス: Link先を確認 | Erik F. Matlin and Lucas J. Zipp | (参考訳) 任意の分布を持つ非コヒーレント源の近接量子制限遠視野イメージング分解能を得る方法を示す。
本手法では, 音源分布の事前知識を仮定せず, 空間像化モードの形状と音源分布の推定の両方を反復的に更新する空間モードデ多重化による画像化への適応的アプローチを用いる。
最適撮像モードは、すべての直交撮像モードの可能な集合の多様体上の推定されたクラム・ラーオ境界を最小化することによって決定される。
モンテカルロシミュレーションにより,多様体最適化空間モードデマルチプレックス計測は,ソース再構成の精度において,標準イメージング手法を一貫して上回っており,量子クレーア・ラオ境界によって設定される絶対量子限界の2倍の範囲内にあることを確認した。
ここで提示される適応的なフレームワークは、空間モードイメージング技術により、任意の分散ソースの量子制限画像解決に近づいた一貫したアプローチを可能にする。 We demonstrate an approach to obtaining near quantum-limited far-field imaging resolution of incoherent sources with arbitrary distributions. Our method assumes no prior knowledge of the source distribution, but rather uses an adaptive approach to imaging via spatial mode demultiplexing that iteratively updates both the form of the spatial imaging modes and the estimate of the source distribution. The optimal imaging modes are determined by minimizing the estimated Cram\'er-Rao bound over the manifold of all possible sets of orthogonal imaging modes. We have observed through Monte Carlo simulations that the manifold-optimized spatial mode demultiplexing measurement consistently outperforms standard imaging techniques in the accuracy of source reconstructions and comes within a factor of 2 of the absolute quantum limit as set by the quantum Cram\'er-Rao bound. The adaptive framework presented here allows for a consistent approach to achieving near quantum-limited imaging resolution of arbitrarily distributed sources through spatial mode imaging techniques. | 翻訳日:2023-03-25 16:01:13 公開日:2022-02-25 |
# マルチタイムプロパゲータと一貫性条件 The multi-time propagators and the consistency condition ( http://arxiv.org/abs/2107.06873v2 ) ライセンス: Link先を確認 | Siwaporn Sungted and Sikarin Yoo-Kong | (参考訳) 量子力学のファインマン像を通してn$の時間変数を持つ波動関数の時間発展が導かれる。
しかし、これらの進化が両立することは、n$ラグランジアンが、ウィルソン線で表現できる一貫性条件または可積分条件と呼ばれるある関係を満たしている場合に限る。
この一貫性条件は相互作用が存在する場合に違反する。
この一貫性条件の結果として、波動関数の進化は、時間変数の空間上の「パス非依存」特性と呼ばれる重要な特徴をもたらす。
これは従属変数の空間だけでなく、独立変数の空間上でも可能なすべての経路を考える必要があることを示唆する。
幾何学の観点からは、この整合性条件はゼロ曲率条件と見なすことができ、多重時間進化は時間変数の平坦な空間上での平行移動として扱うことができる。 The time evolution of a wave function with $N$ time variables through the Feynman picture of quantum mechanics is derived. However, these evolutions will be compatible if and only if the $N$ Lagrangians satisfy a certain relation called the consistency condition or integrability condition which could be expressed in terms of the Wilson line. This consistency condition violates if there presents the interaction. As a consequence of this consistency condition, the evolution of the wave function gives rise to a key feature called the "path-independent" property on the space of time variables. This would suggest that one must consider all possible paths not only on the space of dependent variables but also on the space of independent variables. In the view of the geometry, this consistency condition can be considered as a zero curvature condition and the multi-time evolution can be treated as a compatible parallel transport on flat space of time variables. | 翻訳日:2023-03-24 07:33:57 公開日:2022-02-25 |
# ダイヤモンド中の量子欠陥を用いたサブ秒時間磁場顕微鏡 Sub-second Temporal Magnetic Field Microscopy Using Quantum Defects in Diamond ( http://arxiv.org/abs/2107.12232v2 ) ライセンス: Link先を確認 | Madhur Parashar, Anuj Bathla, Dasika Shishir, Alok Gokhale, Sharba Bandyopadhyay, and Kasturi Saha | (参考訳) 広視野磁場顕微鏡は、ダイヤモンド中の窒素空孔欠陥中心の光検出磁気共鳴(ODMR)スペクトルの変化を観測することによって実現されている。
しかし、これらの広視野ダイヤモンドnv磁力計は1つの磁場像を得るのにほんの数分から数分間の取得が必要であり、このテクニックを現在の形状で一時的に静的にする。
この制限により、動的に変化するマイクロスケールの磁場過程の新たなイメージングにダイヤモンドNV磁力計が適用できなくなる。
そこで本研究では,NVフォトルミネッセンス(PL)のロックイン検出と,ロックインカメラの複数画素を同時に行うことにより,磁場画像フレームレートを著しく向上できることを示す。
NV中心の周波数変調PLと高速カメラフレームの復調を数キロヘルツの周波数で同期するための詳細なプロトコルが実験的に実証されている。
この実験技術は、50フレームから200フレーム/秒(fps)の範囲の撮像フレーム速度を持つ平面マイクロコイルのサブ秒間変化マイクロスケール電流の磁場イメージングを可能にする。
本研究は, 周波数変調NV ODMRの広視野ロックイン検出により, 動的磁場顕微鏡が実現可能であることを示す。 Wide field-of-view magnetic field microscopy has been realised by probing shifts in optically detected magnetic resonance (ODMR) spectrum of Nitrogen Vacancy (NV) defect centers in diamond. However, these widefield diamond NV magnetometers require few to several minutes of acquisition to get a single magnetic field image, rendering the technique temporally static in it's current form. This limitation prevents application of diamond NV magnetometers to novel imaging of dynamically varying microscale magnetic field processes. Here, we show that the magnetic field imaging frame rate can be significantly enhanced by performing lock-in detection of NV photo-luminescence (PL), simultaneously over multiple pixels of a lock-in camera. A detailed protocol for synchronization of frequency modulated PL of NV centers with fast camera frame demodulation, at few kilohertz frequencies, has been experimentally demonstrated. This experimental technique allows magnetic field imaging of sub-second varying microscale currents in planar microcoils with imaging frame rates in the range of 50 to 200 frames per second (fps). Our work demonstrates that widefield per-pixel lock-in detection of frequency modulated NV ODMR enables dynamic magnetic field microscopy. | 翻訳日:2023-03-20 21:30:28 公開日:2022-02-25 |
# 貯蔵原子コヒーレンスの光子と単一量子間の量子干渉 Quantum Interference between Photons and Single Quanta of Stored Atomic Coherence ( http://arxiv.org/abs/2109.11148v2 ) ライセンス: Link先を確認 | Xingchang Wang, Jianmin Wang, Zhiqiang Ren, Rong Wen, Chang-Ling Zou, Georgios A. Siviloglou, and J. F. Chen | (参考訳) 遠隔の独立ノード上で量子ネットワークを構築するのに必須であり、香港・ウー・マンデル干渉計の偶然のディップを観察することで、光子の区別不可能さが広く研究されている。
しかし、区別不能は同一タイプのボソンに限らない。
ここでは初めて、原子光ビームスプリッター界面で、空飛ぶ光子と保存原子コヒーレンス(magnon)の1つの量子量子の量子干渉を観察した。
この界面のHermiticityが光子とマグノンの間の量子干渉のタイプを決定することを実証する。
その結果、ボソンを特徴付ける群れの挙動が観察されるだけでなく、フェルミオンのような反膨れも観察される。
実証されたマグノン-光子量子インタフェースのハイブリッド性は、多用途な量子メモリプラットフォームに適用でき、ボソンサンプリングで発生するものとは根本的に異なる光子分布をもたらすことができる。 Essential for building quantum networks over remote independent nodes, the indistinguishability of photons has been extensively studied by observing the coincidence dip in the Hong-Ou-Mandel interferometer. However, indistinguishability is not limited to the same type of bosons. For the first time, we hereby observe quantum interference between flying photons and a single quantum of stored atomic coherence (magnon) in an atom-light beam splitter interface. We demonstrate that the Hermiticity of this interface determines the type of quantum interference between photons and magnons. Consequently, not only the bunching behavior that characterizes bosons is observed, but counterintuitively, fermionlike antibunching as well. The hybrid nature of the demonstrated magnon-photon quantum interface can be applied to versatile quantum memory platforms, and can lead to fundamentally different photon distributions from those occurring in boson sampling. | 翻訳日:2023-03-13 23:18:51 公開日:2022-02-25 |
# 強い浴のカップリングにおける定常状態:反応座標と摂動膨張 Steady state in strong bath coupling: reaction coordinate versus perturbative expansion ( http://arxiv.org/abs/2110.03169v4 ) ライセンス: Link先を確認 | Camille L Latune | (参考訳) 量子情報のいくつかの分野と関連する技術応用において強結合の重要性が高まっていることに動機づけられ、強結合で(ほぼ)定常状態を得るのに現在使われている2つの戦略を分析し比較する。
第1の戦略は摂動展開に基づいており、第2の戦略は反応座標写像を用いる。
広く使われているスピンボソンモデルに着目し、期待と期待どおり、これらの2つの戦略の予測がいくつかのパラメータ領域に一致することを示す。
これにより両者の関連性が確認され、強化される。
さらに、それぞれの有効範囲を正確に知ることも重要である。
その見地からすると、異なる制限のおかげで、私たちは1つを使ってもう1つをベンチマークします。
両戦略の極めて単純な妥当性基準を導入し,検証に成功し,妥当性範囲の問題に対する回答を得た。 Motivated by the growing importance of strong system-bath coupling in several branches of quantum information and related technological applications, we analyze and compare two strategies currently used to obtain (approximately) steady states in strong coupling. The first strategy is based on perturbative expansions while the second one uses reaction coordinate mapping. Focusing on the widely used spin-boson model, we show that, as expected and hoped, the predictions of these two strategies coincide for some parameter regions. This confirms and strengthens the relevance of both techniques. Beyond that, it is also crucial to know precisely their respective range of validity. In that perspective, thanks to their different limitations, we use one to benchmark the other. We introduce and successfully test some very simple validity criteria for both strategies, bringing some answers to the question of the validity range. | 翻訳日:2023-03-12 06:08:32 公開日:2022-02-25 |
# 浅層光格子クロックにおけるFloquet Engineering Hz-Level Rabi Spectra Floquet engineering Hz-Level Rabi Spectra in Shallow Optical Lattice Clock ( http://arxiv.org/abs/2110.07169v2 ) ライセンス: Link先を確認 | Mo-Juan Yin, Tao Wang, Xiao-Tong Lu, Ting Li, Jing-Jing Xia, Xue-Feng Zhang and Hong Chang | (参考訳) 超高精度の量子計測は通常、よく定義された量子状態を持つ超安定環境で合成された原子を必要とする。
したがって、光学格子時計システムでは、深い格子ポテンシャルは超低温原子を捕捉するために用いられる。
しかし、ラマン散乱と高次光シフトによって引き起こされるデコヒーレンスは、原子時計が浅い光学格子で実現されると著しく減少する。
一方、そのような格子では、異なる場所間のトンネルが、ラビスペクトルのさらなる強調と強拡大を引き起こす可能性がある。
ここでの実験では、周期的に浅い$^{87}$srの光学格子時計を駆動する。
直感的には、システムの揺らぎは広いスペクトル線を5.4Hzの鋭いピークに変形させることができる。
理論と実験を慎重に比較することにより、Rabi周波数とBloch帯域を同時に、独立に調整できることを実証する。
我々の研究は、外空間に浅い光学格子時計を構築するなど、量子力学の異なるアイデアを提供するだけでなく、工学的なエキゾチックなスピン軌道結合による物質の新しい位相の量子シミュレーションの道を開く。 Quantum metrology with ultra-high precision usually requires atoms prepared in an ultra-stable environment with well-defined quantum states. Thus, in optical lattice clock systems deep lattice potentials are used to trap ultra-cold atoms. However, decoherence, induced by Raman scattering and higher order light shifts, can significantly be reduced if atomic clocks are realized in shallow optical lattices. On the other hand, in such lattices, tunneling among different sites can cause additional dephasing and strongly broadening of the Rabi spectrum. Here, in our experiment, we periodically drive a shallow $^{87}$Sr optical lattice clock. Counter intuitively, shaking the system can deform the wide broad spectral line into a sharp peak with 5.4Hz line-width. With careful comparison between the theory and experiment, we demonstrate that the Rabi frequency and the Bloch bands can be tuned, simultaneously and independently. Our work not only provides a different idea for quantum metrology, such as building shallow optical lattice clock in outer space, but also paves the way for quantum simulation of new phases of matter by engineering exotic spin orbit couplings. | 翻訳日:2023-03-11 12:28:02 公開日:2022-02-25 |
# 量子ゆらぎ・粒子・絡み--量子測定問題の解に向けた議論 Quantum fluctuations, particles and entanglement: a discussion towards the solution of the quantum measurement problems ( http://arxiv.org/abs/2111.14723v2 ) ライセンス: Link先を確認 | Kenichi Konishi | (参考訳) 量子計測問題は、新しい視点から再検討される。
この研究の主なアイデアの1つは、我々の世界の基本的な実体は様々な種類の粒子、初等または複合体であるということである。
それぞれの初等過程、従ってその中心における各測定過程は時空、点のような事象である。
もう1つの重要なアイデアは、マイクロシステム$\psi$が実験装置と接触すると、$\psi$の分解が急速に失敗し、絡み合った混合状態が現れることである。
異なる測定結果のためのマイクロシステム-アパラトゥス結合系の波動関数は、時空サポートの重複を欠く。
これは各測定の余波が「波動関数崩壊」という和の1つの項であることを意味する。
対角密度行列 ( |c_1|^2, \ldots, |c_n|^2, \ldots )$ は、波動関数 $|\psi\rangle = \sum_n c_n | n \rangle$ に符号化された情報が、実験装置や環境との絡み合いによって、相対周波数 ${\cal P}_n = |c_n|^2$ に書き起こされることを示す。
これらの結果は、ボルンの規則に基づく標準的な解釈の論理的ギャップを埋め、より自然な解釈に置き換えるための新しい重要なステップを表している。
量子揺らぎの客観的な現実を受け入れ、いかなる実験にもよらず、人間の存在とは独立に、基礎的かつ完全な自然理論において、それぞれの実験の結果は必ずしも予測可能であるべきであるという考えを捨てる。
schr\"odinger cat conundrum"や"epr paradox"といった有名なパズルは、簡単にレビューされている。 The quantum measurement problems are revisited from a new perspective. One of the main ideas of this work is that the basic entities of our world are various types of particles, elementary or composite. It follows that each elementary process, hence each measurement process at its core, is a spacetime, pointlike, event. Another key idea is that, when a microsystem $\psi$ gets into contact with the experimental device, factorization of $\psi$ rapidly fails and entangled mixed states appear. The wave functions for the microsystem-apparatus coupled systems for different measurement outcomes then lack overlapping spacetime support. It means that the aftermath of each measurement is a single term in the sum: a "wave-function collapse". Our discussion leading to a diagonal density matrix, $\rho= {\rm diag} ( |c_1|^2, \ldots, |c_n|^2, \ldots )$ shows how the information encoded in the wave function $|\psi\rangle = \sum_n c_n | n \rangle$ gets transcribed, via entanglement with the experimental device and environment, into the relative frequencies ${\cal P}_n = |c_n|^2$ for various experimental results $F=f_n$. These results represent new, significant steps towards filling in the logical gaps in the standard interpretation based on Born's rule, and replacing it with a more natural one. Accepting objective reality of quantum fluctuations, independent of any experiments, and independently of human presence, one renounces the idea that in a fundamental, complete theory of Nature the result of each single experiment must necessarily be predictable. A few well-known puzzles such as the Schr\"odinger cat conundrum and the EPR paradox are briefly reviewed: they can all be naturally explained away. | 翻訳日:2023-03-06 09:23:41 公開日:2022-02-25 |
# 古典的および量子的ハードウェア間の計算を分割し、変分量子固有解法を大規模システムに拡張する Expanding variational quantum eigensolvers to larger systems by dividing the calculations between classical and quantum hardware ( http://arxiv.org/abs/2112.05063v2 ) ライセンス: Link先を確認 | John P. T. Stenger, Daniel Gunlycke, C. Stephen Hellberg | (参考訳) 本稿では,量子コンピュータ上の多粒子ハミルトニアンの固有値問題に対して,古典プロセッサと量子プロセッサのワークロードを分割して効率的に解くハイブリッド古典/量子アルゴリズムを提案する。
このアルゴリズムは量子評価の増加を犠牲にして、必要な量子ビット数を削減する。
本稿では, ハバード模型の方法を示し, スピンのz成分の保存により, スピンアップとスピンダウンの構成を古典ハードウェアと量子ハードウェア上でそれぞれ計算できることを示す。
他の対称性も同様に利用することができる。 We present a hybrid classical/quantum algorithm for efficiently solving the eigenvalue problem of many-particle Hamiltonians on quantum computers with limited resources by splitting the workload between classical and quantum processors. This algorithm reduces the needed number of qubits at the expense of an increased number of quantum evaluations. We demonstrate the method for the Hubbard model and show how the conservation of the z-component of the total spin allows the spin-up and spin-down configurations to be computed on classical and quantum hardware, respectively. Other symmetries can be exploited in a similar manner. | 翻訳日:2023-03-05 00:59:05 公開日:2022-02-25 |
# ナノダイアモンド系光ファイバー量子プローブによる磁場と生体センシング Nanodiamonds based optical-fiber quantum probe for magnetic field and biological sensing ( http://arxiv.org/abs/2202.11859v2 ) ライセンス: Link先を確認 | Yaofei Chen, Qianyu Lin, Hongda Cheng, Yingying Ye, Gui-Shi Liu, Lei Chen, Yunhan Luo, Zhe Chen | (参考訳) ユニークな電子スピン特性のため、ダイヤモンドにホストされる窒素空洞(NV)センターは、様々な物理パラメータや生物種のための強力な量子センサーとして登場した。
本研究は, コーンファイバー先端の表面に, ナノダイアモンドNVを化学修飾して構成した小型光ファイバー量子プローブを開発した。
連続波光検出磁気共鳴法とロックイン増幅法に基づいて, 化学修飾過程におけるナノダイヤモンドの分散濃度と修飾時間を変化させることで, プローブのセンシング性能を向上できることがわかった。
一対の磁束集束器と組み合わせることで、プローブの磁場検出感度は0.57 nT/Hz1/2 @ 1Hzに著しく向上し、ナノダイアモンドNVに基づく新しい繊維磁束計の記録となった。
Gd3+をデモとして、常磁性種検出におけるプローブの能力も実験的に実証された。
我々の研究は、高積分、ミニチュアサイズ、マルチファンクション、高感度などを特徴とする量子プローブとしてnvセンターを開発するための新しいアプローチを提供する。 Owing to the unique electronic spin properties, the nitrogen-vacancy (NV) centers hosted in diamond have emerged as a powerful quantum sensor for various physical parameters and biological species. In this work, a miniature optical-fiber quantum probe, configured by chemically-modifying nanodiamonds NV centers on the surface of a cone fiber tip, is developed. Based on continue-wave optically detected magnetic resonance method and lock-in amplifying technique, it is found that the sensing performance of the probe can be engineered by varying the nanodiamonds dispersion concentration and modification duration in the chemical modification process. Combined with a pair of magnetic flux concentrators, the magnetic field detection sensitivity of the probe is significantly enhanced to 0.57 nT/Hz1/2 @ 1Hz, a new record among the fiber magnetometers based on nanodiamonds NV. Taking Gd3+ as the demo, the capability of the probe in paramagnetic species detection is also demonstrated experimentally. Our work provides a new approach to develop NV center as quantum probe featuring high integration, miniature size, multifunction, and high sensitivity, etc. | 翻訳日:2023-02-24 01:51:00 公開日:2022-02-25 |
# 非エルミート系に対する量子ジャンプの効果 Effect of quantum jumps on non-Hermitian system ( http://arxiv.org/abs/2202.12591v1 ) ライセンス: Link先を確認 | Xiangyu Niu, Jianning Li, S. L. Wu, X. X. Yi | (参考訳) 非エルミート系の実現可能性の一つは、マスター方程式の量子ジャンプ項を省略した開量子系に基づいている。
これは、量子ジャンプの効果が無視できる短時間でのよい近似である。
本稿では,量子ジャンプを摂動として扱うことにより,非エルミート系に対する量子ジャンプの効果を検討する。
この目的のために、我々はまず、開量子システムのダイナミクスを記述するマスター方程式に基づいて効果的なハミルトニアンを導出し、次に量子ジャンプにおいてシステムの状態を1次および2次まで拡張する。
最後に、この理論を散逸二レベル系と散逸フェルミオン超流動系に適用する。
量子ジャンプが2レベル系のダイナミクスとフェルミイオン超流動の非平衡相転移に及ぼす影響を実証・考察した。 One among the possible realizations of non-Hermitian systems is based on open quantum systems by omitting quantum jump terms in the master equation. This is a good approximation at short time when the effect of quantum jumps are ignorable. In this paper, by treating the quantum jumps as a perturbation, we examine the effect of the quantum jumps on the non-Hermitian system. For this purpose, we first derive an effective Hamiltonian on the basis of the master equation to describe the dynamics of open quantum systems, then expand the system state up to the first and second order in the quantum jumps. Finally, we apply our theory to a dissipative two-level system and dissipative fermionic superfluids. The effect of quantum jump on the dynamics of the two-level system and the nonequilibrium phase transition of the fermionic superfluids is demonstrated and discussed. | 翻訳日:2023-02-23 23:44:53 公開日:2022-02-25 |
# 密度符号化とテレポーテーションの量子コスト Quantum cost of dense coding and teleportation ( http://arxiv.org/abs/2202.12544v1 ) ライセンス: Link先を確認 | Xinyu Qiu and Lin Chen | (参考訳) 量子コストは、実用的な観点から量子プロトコルの品質を評価する重要な要素である。
また,d次元高密度符号化プロトコルの量子コストは,従来のメッセージを送信する場合(0,0)はd+3に,他のメッセージを送信する場合はd+4に等しいことを示す。
次元で線形に成長しているように見えるので、実装には意味がある。
対照的に、高次元テレポーテーションプロトコルの量子コストは、二次元の場合のコストの最大値である13に等しい。
応用として,4つの典型的なノイズシナリオの観点から,高密度符号化プロトコルの量子コストと忠実度の関係を確立する。 The quantum cost is a key ingredient to evaluate the quality of quantum protocols from a practical viewpoint. We show that the quantum cost of d-dimensional dense coding protocol is equal to d+3 when transmitting the classical message (0,0), and that is equal to d+4 when transmitting other classical message. It appears linear growth with the dimension and thus makes sense for implementation. In contrast, the quantum cost of high-dimensional teleportation protocols is equal to 13, which is the maximum value of the cost for the two-dimensional case. As an application, we establish the relation between the quantum cost and fidelity of dense coding protocols in terms of four typical noise scenario. | 翻訳日:2023-02-23 23:44:32 公開日:2022-02-25 |
# 古典的放射線・放射反応と量子放射・散逸 Quantum Radiation and Dissipation in Relation to Classical Radiation and Radiation Reaction ( http://arxiv.org/abs/2202.12490v1 ) ライセンス: Link先を確認 | Jen-Tsung Hsiang and Bei-Lok Hu | (参考訳) この研究は、原子-磁場相互作用による放射現象の研究を継続し、我々の初期の量子放射の研究を、調和振動子によってモデル化された静止原子の内部自由度から古典放射の放射能まで延長した。
原子が最初にコヒーレント状態の量子スカラー場と相互作用すると仮定することにより、原子の内部力学の確率成分が磁場の真空変動から生じることを示し、反応によって内部力学における量子散逸が生じる量子放射の放出をもたらす。
また, 決定論的平均場が内部古典平均成分を駆動して古典放射を放出し, 古典放射反応を受ける方法を示す。
両成分は統計的に異なっており、完全に分離されている。
磁場の真空変動の影響は、古典的な放射反応ではなく、量子放射反応の影響と一致していることが明らかにされている。
常に同値である原子の内部動力学の量子成分とは対照的に、古典的成分の緩和動力学は、平均場の後期の挙動に大きく依存する。
場のコヒーレント状態を定義するパラメータの値がユニティよりもはるかに大きい場合、平均場が周期的のままであれば、原子の内部ダイナミクスは古典的かつ周期的に現れる。
平均場が時間とともに減少すると、原子の内部動力学の古典成分は沈降するが、量子成分は従って動的に平衡する。
これはまた、静止原子からの量子放射が観測されず、遠くにあるプローブが古典的な放射のみを見る理由を説明する。
そこで本研究では,量子場の真空揺らぎから古典的放射・放射反応まで,連続した景観を描く。 This work continues the investigation of radiation phenomena from atom-field interactions, extending our earlier study of quantum radiation from a stationary atom's internal degree of freedom, modeled by a harmonic oscillator, to the emittance of classical radiation. By assuming that the atom interacts with a quantum scalar field initially in a coherent state, we show how a stochastic component of the internal dynamics of the atom arises from the vacuum fluctuations of the field, resulting in the emittance of quantum radiation, whose reaction induces quantum dissipation in the internal dynamics. We also show how the deterministic mean field drives the internal classical mean component to emit classical radiation and receive classical radiation reaction. Both components are statistically distinct and fully decoupled. It is clearly seen that the effects of the vacuum fluctuations of the field are matched with those of quantum radiation reaction, not with classical radiation reaction, as the folklore goes. In contrast to the quantum component of the atom's internal dynamics, which always equilibrates, the relaxation dynamics of the classical component largely depends on the late-time behavior of the mean field. For the values of the parameters defining the coherent state of the field much greater than unity, if the mean field remains periodic, then the internal dynamics of the atom will appear classical and periodic. If the mean field diminishes with time, then the classical component of the atom's internal dynamics subsides but the quantum component will abide and dynamically equilibrate. This also explains why quantum radiation from a stationary atom is not observed, and a probe located far away only sees classical radiation. Our analysis therefore paints a continuum landscape starting from vacuum fluctuations in the quantum field to classical radiation and radiation reaction. | 翻訳日:2023-02-23 23:43:56 公開日:2022-02-25 |
# 3体カシミール効果のスイッチングと増幅 Switching and amplifying three-body Casimir effects ( http://arxiv.org/abs/2202.12484v1 ) ライセンス: Link先を確認 | Zhujing Xu, Peng Ju, Xingyu Gao, Kunhong Shen, Zubin Jacob, Tongcang Li | (参考訳) 3つの相互作用する物体のダイナミクスは、ニュートン重力物理学(しばしば3体問題と呼ばれる)において広く研究されており、核、エフィモフ状態、フラストレーションスピン系を含む多くの量子系にとって重要である。
しかし、量子真空ゆらぎ(仮想光子)を介して相互作用する3つの巨視的物体のダイナミクスはまだ未開拓のフロンティアである。
本稿では,3つの孤立した巨視的物体間のカシミール相互作用を初めて観察した。
本稿では,カシミールトランジスタの基礎となるオプティカル・メカニカル・カシミール相互作用を利用した3つの端末切替可能なアーキテクチャを提案する。
2つの物体間のカシミール力のパラダイムを超えて、我々のカシミールトランジスタは3体仮想光子相互作用を制御するための重要な開発であり、カシミール効果によるセンシングと情報処理に潜在的応用をもたらす。 The dynamics of three interacting objects has been investigated extensively in Newtonian gravitational physics (often termed the three-body problem), and is important for many quantum systems, including nuclei, Efimov states, and frustrated spin systems. However, the dynamics of three macroscopic objects interacting through quantum vacuum fluctuations (virtual photons) is still an unexplored frontier. Here, we report the first observation of Casimir interactions between three isolated macroscopic objects. We propose and demonstrate a three terminal switchable architecture exploiting opto-mechanical Casimir interactions that can lay the foundations of a Casimir transistor. Beyond the paradigm of Casimir forces between two objects in different geometries, our Casimir transistor represents an important development for control of three-body virtual photon interactions and will have potential applications in sensing and information processing with the Casimir effect. | 翻訳日:2023-02-23 23:43:26 公開日:2022-02-25 |
# 量子物理学におけるいくつかの基本現象におけるローレンツ不変性違反(liv) Lorentz invariance violation (LIV) in some basic phenomena in quantum physics ( http://arxiv.org/abs/2202.12688v1 ) ライセンス: Link先を確認 | Z. Shafeei and S. A. Alavi | (参考訳) ローレンツ対称性は一般相対性理論と素粒子物理学の標準モデルの基礎の1つである。
原子物理学におけるいくつかの基本的な現象におけるローレンツ対称性の違反について研究する。
グリーン関数とソース4電流を用いて、電磁ポテンシャルの4-ベクトルの微分方程式を解き、一部の研究者により修正クーロンポテンシャルを得る。
改良されたクーロンポテンシャルを用いて、水素原子とヘリウム原子のスペクトルのlivによる補正を見つける。
また、スターク、ゼーマン、スピン軌道効果におけるLIVの影響を調査し、LIV係数の上限を求める。 Lorentz symmetry is one of the cornerstone of both general relativity and the standard model of particle physics. We study the violation of Lorentz symmetry in some basic phenomena in atomic physics. Using the Green's function, and the source 4-current, the differential equation of 4-vector of electromagnetic potential is solved and the modified coulomb potential is obtained by some researchers. Using modified Coulomb potential, we find the corrections due to LIV on the spectrum of Hydrogen and Helium atoms. We also investigate the consequences of LIV on Stark, Zeeman and Spin orbit effects and obtain some upper bounds for the LIV coefficients. | 翻訳日:2023-02-23 23:36:51 公開日:2022-02-25 |
# 生物のシナプスから知能ロボットへ From Biological Synapses to Intelligent Robots ( http://arxiv.org/abs/2202.12660v1 ) ライセンス: Link先を確認 | Birgitta Dresp-Langley | (参考訳) 本論では,知的ロボット制御・センシング技術のモデルとして,生物学的にインスパイアされた学習を考察する。
ヘビアンシナプス学習は、無脊椎動物と脊椎動物の高可塑性生物学的ニューラルネットワークの例に基づくように、機械学習とインテリジェンスのための機能的関連モデルとして議論されている。
教師なしの適応学習と制御の可能性、機能的複雑性の生成、そして自己組織化に基づく制御アーキテクチャが前進する。
興奮的および抑制的神経機構に基づく事前知識のない学習は、生存またはタスクに関連する表現が強化または抑制される過程を説明する。
教師なし生物学習の基本メカニズムはシナプス可塑性を駆動し、複雑度が異なる生体脳の行動成功に適応する。
ここで収集された洞察は、インテリジェントロボットとセンサーシステムの選択ソリューションとして、hebbianモデルに向かっている。
キーワード:ヘビアン学習、シナプス可塑性、ニューラルネットワーク、自己組織化、脳、強化、感覚処理、ロボット制御 This review explores biologically inspired learning as a model for intelligent robot control and sensing technology on the basis of specific examples. Hebbian synaptic learning is discussed as a functionally relevant model for machine learning and intelligence, as explained on the basis of examples from the highly plastic biological neural networks of invertebrates and vertebrates. Its potential for adaptive learning and control without supervision, the generation of functional complexity, and control architectures based on self organization is brought forward. Learning without prior knowledge based on excitatory and inhibitory neural mechanisms accounts for the process through which survival or task relevant representations are either reinforced or suppressed. The basic mechanisms of unsupervised biological learning drive synaptic plasticity and adaptation for behavioral success in living brains with different levels of complexity. The insights collected here point toward the Hebbian model as a choice solution for intelligent robotics and sensor systems. Keywords: Hebbian learning, synaptic plasticity, neural networks, self organization, brain, reinforcement, sensory processing, robot control | 翻訳日:2023-02-23 23:36:40 公開日:2022-02-25 |
# 確率的リセットを受ける非相互作用量子系における創発的量子相関と集団挙動 Emergent quantum correlations and collective behavior in non-interacting quantum systems subject to stochastic resetting ( http://arxiv.org/abs/2202.12655v1 ) ライセンス: Link先を確認 | Matteo Magoni, Federico Carollo, Gabriele Perfetto, Igor Lesanovsky | (参考訳) 確率的再設定の存在下でのコヒーレントラビ振動を受ける非相互作用スピン系のダイナミクスについて検討する。
リセットは一般に、発散動力学と非平衡定常状態の両方において、長距離量子と古典的相関を誘導する。
さらに、条件リセットプロトコル(前回の計測結果に依存する状態へ再活性化される場合)の場合、スピン系は、熱力学的極限において、非平衡相転移で起こる現象を想起させるような集団的振る舞いを特徴付けることができることを示す。
議論されたリセットプロトコルは量子シミュレータや量子デバイスで実装でき、磁化のようなマクロ観測可能なものを高速に測定し読み出すことができる。
我々の手法はコヒーレント相互作用の制御を必要としないため、量子相関や集合的非平衡状態の単純で堅牢な生成への道のりを浮き彫りにし、量子強化メトロジーやセンシングに応用する可能性がある。 We investigate the dynamics of a non-interacting spin system, undergoing coherent Rabi oscillations, in the presence of stochastic resetting. We show that resetting generally induces long-range quantum and classical correlations both in the emergent dissipative dynamics and in the non-equilibrium stationary state. Moreover, for the case of conditional reset protocols -- where the system is reinitialized to a state dependent on the outcome of a preceding measurement -- we show that, in the thermodynamic limit, the spin system can feature collective behavior which results in a phenomenology reminiscent of that occurring in non-equilibrium phase transitions. The discussed reset protocols can be implemented on quantum simulators and quantum devices that permit fast measurement and readout of macroscopic observables, such as the magnetisation. Our approach does not require the control of coherent interactions and may therefore highlight a route towards a simple and robust creation of quantum correlations and collective non-equilibrium states, with potential applications in quantum enhanced metrology and sensing. | 翻訳日:2023-02-23 23:36:14 公開日:2022-02-25 |
# 量子鍵分布のための高効率室温分子単一光子源 Efficient room-temperature molecular single-photon sources for quantum key distribution ( http://arxiv.org/abs/2202.12635v1 ) ライセンス: Link先を確認 | Ghulam Murtaza, Maja Colautti, Michael Hilke, Pietro Lombardi, Francesco Saverio Cataliotti, Alessandro Zavatta, Davide Bacco and Costanza Toninelli | (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、情報理論の安全な方法で複数のユーザ間で暗号鍵の分散を可能にし、量子物理学を利用する。
現在のQKDシステムは、主に減衰レーザーパルスに基づいているが、決定論的単一光子源は、秘密鍵レート(SKR)と多光子事象の無視可能な確率によるセキュリティの観点から、具体的な利点を与えることができる。
本稿では、室温で動作し、785nmで発光する分子ベースの単一光子源を利用した概念QKDシステムを紹介し、実証する。
推定0.5MbpsのSKRで、我々の解は量子通信プロトコルのための室温単一光子源の道を開く。 Quantum Key Distribution (QKD) allows the distribution of cryptographic keys between multiple users in an information-theoretic secure way, exploiting quantum physics. While current QKD systems are mainly based on attenuated laser pulses, deterministic single-photon sources could give concrete advantages in terms of secret key rate (SKR) and security owing to the negligible probability of multi-photon events. Here, we introduce and demonstrate a proof-of-concept QKD system exploiting a molecule-based single-photon source operating at room temperature and emitting at 785nm. With an estimated SKR of 0.5 Mbps, our solution paves the way for room-temperature single-photon sources for quantum communication protocols. | 翻訳日:2023-02-23 23:35:35 公開日:2022-02-25 |
# 量子相関の交換と3キュービット・サーテム間の非局所情報 Exchanging quantum correlations and non-local information between three qubit-syatem ( http://arxiv.org/abs/2202.12627v1 ) ライセンス: Link先を確認 | F. Ebrahiam and N. Metwally | (参考訳) 3つの量子ビット間の量子相関と非局所情報の交換は、ジアロシンスキー・モリヤ(DM)を介して直接または間接的に行われる。
初期状態設定と相互作用強度は、交換現象の制御パラメータを表す。
異なるパーティションにエンコードされた非ローカル情報は、初期値を超えない。
その結果,DM相互作用による絡み合いの発生能力は,ダイポール相互作用に現れるものよりも大きいことがわかった。
3つの量子ビット間の量子相関を最大化する可能性は、相互作用の強さを高め、大きな初期量子相関から始めるにつれて増加する。
長寿命の量子相関は双極子相互作用の強度を制御することによって達成できる。 The possibility of exchanging the quantum correlations and the non-local information between three qubits interact directly or indirectly via Dzyaloshinskii-Moriya (DM)is discussed. The initial state settings and the interaction strength represent control parameters on the exchanging phenomena. The non-local information that encoded on the different partitions doesn't exceed the initial one. It is shown that, the ability of DM interaction to generate entanglement is larger than that displayed for the dipole interaction. The possibility of maximizing the quantum correlations between the three qubits increases as one increase the strength of interaction and starting with large initial quantum correlations. The long-lived quantum correlations could be achieved by controlling the strength of the dipole interaction. | 翻訳日:2023-02-23 23:35:22 公開日:2022-02-25 |
# グラフェン量子ドットにおける質量反転電子散乱 Electron scattering of mass-inverted in graphene quantum dots ( http://arxiv.org/abs/2202.12877v1 ) ライセンス: Link先を確認 | Fatima Belokda, Ahmed Jellal, El Houssine Atmani | (参考訳) 円グラフェン量子ドットのディラック電子の質量反転による静電ポテンシャルの散乱について検討した。
得られたエネルギースペクトルの解は、2つの領域の界面における散乱係数を決定するために用いられる。
大論において漸近解を用いて反射電流密度の半径成分と散乱効率を明示的に決定する。
量子ドット内の他のものに加えて、外部の質量項の存在は電子の散乱に大きな影響を与えることが判明した。
特に、散乱係数の非零二乗モジュラーはエネルギーゼロで見つかる。 We study the scattering of Dirac electrons of circular graphene quantum dot with mass-inverted subject to electrostatic potential. The obtained solutions of the energy spectrum are used to determine the scattering coefficients at the interface of the two regions. Using the asymptotic solutions at large arguments, we explicitly determine the radial component of reflected current density and the scattering efficiency. It is found that the presence of a mass term outside in addition to another one inside the quantum dot strongly affects the scattering of electrons. In particular, a non-null square modulus of the scattering coefficient is found at zero energy. | 翻訳日:2023-02-23 23:26:02 公開日:2022-02-25 |
# 磁気光学回転:単一プローブ原子磁気センサの高精度近似解析解 Magneto-optical rotation: Accurate approximated analytical solutions for single probe atomic magnetometers ( http://arxiv.org/abs/2202.12781v1 ) ライセンス: Link先を確認 | Lu Deng and Claire Deng | (参考訳) 解析解が存在しない単プローブ4状態原子磁気センサの近似解析解を報告する。
この近似解析解は、MATLAB上の第4次ルンゲ・クッタ微分方程式解法を用いて得られる数値解と比較した場合、広いプローブパワーとデチューニング範囲で優れた精度を示す。
理論的な枠組みと結果は、分析的な解が近似されてさえいない1プローブの3状態原子磁気センサにも広く適用されている。 We report an approximated analytical solution for a single-probe four-state atomic magnetometer where no analytical solution exists. This approximated analytical solution demonstrates excellent accuracy in broad probe power and detuning ranges when compared with the numerical solution obtained using a 4th order Runge-Kutta differential equation solver on MATLAB. The theoretical framework and results also encompass widely applied single-probe three-state atomic magnetometers for which no analytical solution, even approximated, is available to date in small detuning regions. | 翻訳日:2023-02-23 23:25:40 公開日:2022-02-25 |
# 不純物を有するボースガスに対する正規化ゼロランジハミルトニアン Regularized Zero-Range Hamiltonian for a Bose Gas with an Impurity ( http://arxiv.org/abs/2202.12765v1 ) ライセンス: Link先を確認 | Daniele Ferretti and Alessandro Teta | (参考訳) 不純物、すなわち異なる粒子と相互作用するN個の同一ボソン系のハミルトニアンを次元3のゼロレンジ力によって研究する。
標準的なアプローチに従って、下から非有界なter-Martirosyan Skornyakov Hamiltonianが得られることはよく知られている。
このような不安定な問題を避けるために,短距離で作用する3体力を導入する。
この力の効果は、2つの粒子、すなわち不純物とボソンの間のゼロレンジ相互作用の強さをゼロにすることである。
このような正規化相互作用で定義されるハミルトニアンは自己随伴であり、三体力の強さが十分大きいとき、下から有界である。
証明の方法は、対応する二次形式を慎重に分析することに基づいている。 We study the Hamiltonian for a system of N identical bosons interacting with an impurity, i.e., a different particle, via zero-range forces in dimension three. It is well known that, following the standard approach, one obtains the Ter-Martirosyan Skornyakov Hamiltonian which is unbounded from below. In order to avoid such instability problem, we introduce a three-body force acting at short distances. The effect of this force is to reduce to zero the strength of the zero-range interaction between two particles, i.e., the impurity and a boson, when another boson approaches the common position of the first two particles. We show that the Hamiltonian defined with such regularized interaction is self-adjoint and bounded from below if the strength of the three-body force is sufficiently large. The method of the proof is based on a careful analysis of the corresponding quadratic form. | 翻訳日:2023-02-23 23:25:30 公開日:2022-02-25 |
# トランモン回路で検出された量子ドットジョセフソン接合のシングルレット遷移 Singlet-doublet transitions of a quantum dot Josephson junction detected in a transmon circuit ( http://arxiv.org/abs/2202.12754v1 ) ライセンス: Link先を確認 | Arno Bargerbos, Marta Pita-Vidal, Rok \v{Z}itko, Jes\'us \'Avila, Lukas J. Splitthoff, Lukas Gr\"unhaupt, Jaap J. Wesdorp, Christian K. Andersen, Yu Liu, Leo P. Kouwenhoven, Ram\'on Aguado, Angela Kou, Bernard van Heck | (参考訳) InAs/Alナノワイヤのゲート定義量子ドットによりジョセフソン効果を制御するハイブリッド超伝導体-半導体トランスモンデバイスを実現する。
トランスモン遷移スペクトルのマイクロ波分光により、量子ドットの基底状態パリティを、ゲート電圧、外部磁束、ナノワイヤに平行に印加された磁場の関数として探索することができる。
測定されたパリティ相図は、超伝導鉛を持つ単一不純物アンダーソンモデルによって予測されたものと一致する。
回路の連続的な時間モニタリングを通じて、位相境界を越えて量子ドットジョセフソン接合の準粒子ダイナミクスを更に解決する。
この結果は半導体ベースの$0-\pi$ qubitsとAndreev qubitsの実現を促進する。 We realize a hybrid superconductor-semiconductor transmon device in which the Josephson effect is controlled by a gate-defined quantum dot in an InAs/Al nanowire. Microwave spectroscopy of the transmon's transition spectrum allows us to probe the ground state parity of the quantum dot as a function of gate voltages, external magnetic flux, and magnetic field applied parallel to the nanowire. The measured parity phase diagram is in agreement with that predicted by a single-impurity Anderson model with superconducting leads. Through continuous time monitoring of the circuit we furthermore resolve the quasiparticle dynamics of the quantum dot Josephson junction across the phase boundaries. Our results can facilitate the realization of semiconductor-based $0-\pi$ qubits and Andreev qubits. | 翻訳日:2023-02-23 23:25:14 公開日:2022-02-25 |
# 深層理解に基づくマルチドキュメント機械読解 Deep Understanding based Multi-Document Machine Reading Comprehension ( http://arxiv.org/abs/2204.03494v1 ) ライセンス: Link先を確認 | Feiliang Ren, Yongkang Liu, Bochao Li, Zhibo Wang, Yu Guo, Shilei Liu, Huimin Wu, Jiaqi Wang, Chunchao Liu, Bingchao Wang | (参考訳) 既存の多文書機械読解モデルのほとんどは、主に入力された質問と文書間の相互作用を理解することに焦点を当てているが、2種類の理解を無視する。
第1に、入力質問と文書における単語の意味的意味を相互の視点から理解すること。
第二に、文書内および文書間の観点から正しい回答に対する支援の手がかりを理解すること。
これらの2つの重要な理解を無視して、モデルが正しい答えを導き出すのに役立つ重要な情報を監督する。
この難易度を克服するために,マルチドキュメント機械読解のための深い理解に基づくモデルを提案する。
単語の意味の正確な意味、入力された質問と文書間の相互作用、そして正しい回答のための支援手段を理解するために設計された3つの深い理解モジュールがある。
我々は,TriviaQA WebとDuReaderという2つの大規模ベンチマークデータセットを用いて,我々のモデルを評価する。
広範な実験により,両データセットの最新の結果が得られた。 Most existing multi-document machine reading comprehension models mainly focus on understanding the interactions between the input question and documents, but ignore following two kinds of understandings. First, to understand the semantic meaning of words in the input question and documents from the perspective of each other. Second, to understand the supporting cues for a correct answer from the perspective of intra-document and inter-documents. Ignoring these two kinds of important understandings would make the models oversee some important information that may be helpful for inding correct answers. To overcome this deiciency, we propose a deep understanding based model for multi-document machine reading comprehension. It has three cascaded deep understanding modules which are designed to understand the accurate semantic meaning of words, the interactions between the input question and documents, and the supporting cues for the correct answer. We evaluate our model on two large scale benchmark datasets, namely TriviaQA Web and DuReader. Extensive experiments show that our model achieves state-of-the-art results on both datasets. | 翻訳日:2023-02-23 23:18:51 公開日:2022-02-25 |
# カシミール効果とローレンツ不変性違反 Casimir effect and Lorentz invariance violation ( http://arxiv.org/abs/2203.01812v1 ) ライセンス: Link先を確認 | S. A. Alavi | (参考訳) カシミール効果は、1948年にh. b casimirによって発見された真空量子揺らぎの存在の最も直接的な現れの一つである。
一方、ローレンツ不変性は特殊相対性理論における主かつ基本的な概念の一つであり、物理学の法則はローレンツ変換の下で不変である。
本研究では,livがカシミール効果(フォース)に対して与えた補正を計算する。
これは自然界でLIVをテストするための直接プローブを与えることができる。 The Casimir effect is one of the most direct manifestations of the existence of the vacuum quantum fluctuations, discovered by H. B Casimir in 1948. On the other hand, Lorentz invariance is one of the main and basic concepts in special relativity, which states that, the laws of physics are invariant under Lorentz transformation. In this work, we calculate the corrections imposed by LIV on Casimir effect (force). This may provide a direct probe to test LIV in nature. | 翻訳日:2023-02-23 23:18:37 公開日:2022-02-25 |
# トリマーSu-Schrieffer-Heegerモデルにおけるバルクエッジ対応 Bulk-edge correspondence in the trimer Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2202.13789v1 ) ライセンス: Link先を確認 | Adamantios Anastasiadis, Georgios Styliaris, Rajesh Chaunsali, Georgios Theocharis, Fotios K. Diakonos | (参考訳) トリマーSu-Schrieffer-Heeger (SSH3) モデルの注目すべき特徴は、局所化されたエッジ状態をサポートすることである。
ザックの位相はミラー対称連鎖の場合も量子化されるが、この対称性が存在しない場合には整数値を取ることができず、一般の場合では十分に定義されたバルク不変量の役割を果たせないことが知られている。
バルクエッジ対応を確立する試みは、グリーン関数や合成次元への拡張を通じてなされている。
ここでは、鏡対称性の欠如や非共役鎖に対しても有効であるような、以前に導入されたサブラチテンザック相を利用するSSH3の簡単な代替法を提案する。
定義されたバルク量は整数値を取り、ゲージ不変であり、基準と対象のハミルトン状態の間のエッジ状態の数の違いと解釈できる。
我々の導出は、さらに有限開鎖の正確な補正を予測し、直線的に一般化し、このモデルに存在するキラルな対称性を呼び出す。 A remarkable feature of the trimer Su-Schrieffer-Heeger (SSH3) model is that it supports localized edge states. Although Zak's phase remains quantized for the case of a mirror-symmetric chain, it is known that it fails to take integer values in the absence of this symmetry and thus it cannot play the role of a well-defined bulk invariant in the general case. Attempts to establish a bulk-edge correspondence have been made via Green's functions or through extensions to a synthetic dimension. Here we propose a simple alternative for SSH3, utilizing the previously introduced sublattice Zak's phase, which also remains valid in the absence of mirror symmetry and for non-commensurate chains. The defined bulk quantity takes integer values, is gauge invariant, and can be interpreted as the difference of the number of edge states between a reference and a target Hamiltonian. Our derivation further predicts the exact corrections for finite open chains, is straightforwadly generalizable, and invokes a chiral-like symmetry present in this model. | 翻訳日:2023-02-23 23:18:17 公開日:2022-02-25 |
# 高次元量子計測のシミュラビリティ Simulability of high-dimensional quantum measurements ( http://arxiv.org/abs/2202.12980v1 ) ライセンス: Link先を確認 | Marie Ioannou, Pavel Sekatski, S\'ebastien Designolle, Benjamin D.M. Jones, Roope Uola, Nicolas Brunner | (参考訳) 与えられた高次元測定値の集合 $\mathcal{M}$ に対する量子情報の圧縮について検討する。
ここでは、$\mathcal{M}$と任意の量子状態$\rho$から得られた統計値が、最初は$\rho$を低次元空間に圧縮し、次にいくつかの量子測定によって正確に回収されることを要求する。
完全な量子圧縮が可能であり、例えば古典的な情報のみを残すことは、集合 $\mathcal{M}$ が合同測定可能である場合に限る。
したがって、我々のシミュラビリティの概念は、次元の点で測定の不整合性の定量化と見なすことができる。
これらの概念を定義した後、相互に偏りのない基底を含む例を示し、シミュレーションモデルを構築するための半定型プログラミングに基づく手法を開発する。
次に,白色雑音や損失を受けるすべての射影計測に対する最適シミュレーションモデルを解析的に構築する。
最後に、量子チャネルと量子相関の文脈で導入された他の概念と、我々のアプローチがどのように結びつくかについて議論する。 We investigate the compression of quantum information with respect to a given set $\mathcal{M}$ of high-dimensional measurements. This leads to a notion of simulability, where we demand that the statistics obtained from $\mathcal{M}$ and an arbitrary quantum state $\rho$ are recovered exactly by first compressing $\rho$ into a lower dimensional space, followed by some quantum measurements. A full quantum compression is possible, i.e., leaving only classical information, if and only if the set $\mathcal{M}$ is jointly measurable. Our notion of simulability can thus be seen as a quantification of measurement incompatibility in terms of dimension. After defining these concepts, we provide an illustrative examples involving mutually unbiased basis, and develop a method based on semi-definite programming for constructing simulation models. In turn we analytically construct optimal simulation models for all projective measurements subjected to white noise or losses. Finally, we discuss how our approach connects with other concepts introduced in the context of quantum channels and quantum correlations. | 翻訳日:2023-02-23 23:17:40 公開日:2022-02-25 |
# ハイパーキューブ量子探索:多項式時間における成功確率の厳密計算 Hypercube Quantum Search: Exact Computation of the Probability of Success in Polynomial Time ( http://arxiv.org/abs/2202.12973v1 ) ライセンス: Link先を確認 | Hugo Pillin, Gilles Burel, Paul Baird, El-Houssa\"in Baghious and Roland Gautier | (参考訳) 量子アルゴリズムの新しい領域では、グローバーの量子探索は間違いなく最も重要なものの一つである。
比較的単純で、有用なタスクを実行し、さらに重要なのは、最適な方法でそれを行うことです。
しかし、場の量子ウォークの成功により、様々な種類のウォークで量子検索の変種を研究するのが論理的である。
本稿では,ハイパーキューブレイアウト上の量子探索の詳細な研究を行う。
まず,適切な固有空間に制限された初等歩行演算子の解析により,問題の大きさと線形に成長するヒルベルトワークスペースの小さな部分空間において,探索アルゴリズムの作用成分が生じることを示す。
その後、この特性を利用して多項式時間における量子探索の成功確率の正確な進化を予測する。 In the emerging domain of quantum algorithms, the Grover's quantum search is certainly one of the most significant. It is relatively simple, performs a useful task and more importantly, does it in an optimal way. However, due to the success of quantum walks in the field, it is logical to study quantum search variants over several kind of walks. In this paper, we propose an in-depth study of the quantum search over a hypercube layout. First, through the analysis of elementary walk operators restricted to suitable eigenspaces, we show that the acting component of the search algorithm takes place in a small subspace of the Hilbert workspace that grows linearly with the problem size. Subsequently, we exploit this property to predict the exact evolution of the probability of success of the quantum search in polynomial time. | 翻訳日:2023-02-23 23:17:22 公開日:2022-02-25 |
# 量子永続ホモロジー Quantum Persistent Homology ( http://arxiv.org/abs/2202.12965v1 ) ライセンス: Link先を確認 | Bernardo Ameneyro, Vasileios Maroulas, George Siopsis | (参考訳) 永続ホモロジー(persistence homology)は、データの形状に関する有用な情報をまとめる強力な数学的ツールであり、永続的な位相的特徴を検出でき、分解性を調整することができる。
しかし、そのような位相的特徴の計算は、しばしば基礎となるデータのサブサンプリングを必要とするかなり正当なタスクである。
そこで我々は,様々なスケールにわたるデータの位相的特徴を追跡する持続的ベッチ数の効率的な量子計算法を開発した。
このアプローチでは,2乗が永続的組合せラプラシアンを産出する永続的ディラック作用素を用い,その基礎となる永続的ベッチ数を用いてデータの永続的特徴を捉える。
また、このアルゴリズムをpoint cloudのデータでテストします。 Persistent homology is a powerful mathematical tool that summarizes useful information about the shape of data allowing one to detect persistent topological features while one adjusts the resolution. However, the computation of such topological features is often a rather formidable task necessitating the subsampling the underlying data. To remedy this, we develop an efficient quantum computation of persistent Betti numbers, which track topological features of data across different scales. Our approach employs a persistent Dirac operator whose square yields the persistent combinatorial Laplacian, and in turn the underlying persistent Betti numbers which capture the persistent features of data. We also test our algorithm on point cloud data. | 翻訳日:2023-02-23 23:17:09 公開日:2022-02-25 |
# 遺伝的アルゴリズムを用いたモダリティを横断するニューラルアーキテクチャ探索の高速化 Accelerating Neural Architecture Exploration Across Modalities Using Genetic Algorithms ( http://arxiv.org/abs/2202.12934v1 ) ライセンス: Link先を確認 | Daniel Cummings, Sharath Nittur Sridhar, Anthony Sarah, Maciej Szankin | (参考訳) neural architecture search(nas)は、コンピュータビジョンや自然言語処理などの領域におけるタスクに最適なディープニューラルネットワークアーキテクチャの発見を自動化する研究であり、機械学習研究コミュニティで急速に成長している。
NASの最近の進歩は数多くあるが、探索をより効率的にすることで発見されたアーキテクチャを検証する際に生じる計算コストの削減に依然として大きな焦点が当てられている。
進化的アルゴリズム、特に遺伝的アルゴリズムはNASでの使用の歴史を持ち、アーキテクチャの目的空間を探索する非常に効率的な方法として、他の最適化アプローチよりも人気を得続けている。
nasの研究のほとんどがコンピュータビジョンのタスクに集中しており、最近になって自然言語処理の分野が急速に拡大するなど、他のモダリティも深く研究されている。
本研究では, 遺伝的アルゴリズムを, 反復サイクルにおいて, 学習された目標予測器と組み合わせることで, 多目的アーキテクチャ探索を, 機械翻訳と画像分類の両方のモダリティで行うことができることを示す。 Neural architecture search (NAS), the study of automating the discovery of optimal deep neural network architectures for tasks in domains such as computer vision and natural language processing, has seen rapid growth in the machine learning research community. While there have been many recent advancements in NAS, there is still a significant focus on reducing the computational cost incurred when validating discovered architectures by making search more efficient. Evolutionary algorithms, specifically genetic algorithms, have a history of usage in NAS and continue to gain popularity versus other optimization approaches as a highly efficient way to explore the architecture objective space. Most NAS research efforts have centered around computer vision tasks and only recently have other modalities, such as the rapidly growing field of natural language processing, been investigated in depth. In this work, we show how genetic algorithms can be paired with lightly trained objective predictors in an iterative cycle to accelerate multi-objective architectural exploration in a way that works in the modalities of both machine translation and image classification. | 翻訳日:2023-02-23 23:16:56 公開日:2022-02-25 |
# 確率的シミュレーションによる異なる投票規則の下での地方選挙の公正性の探索 Exploring Fairness in District-based Multi-party Elections under different Voting Rules using Stochastic Simulations ( http://arxiv.org/abs/2203.03720v1 ) ライセンス: Link先を確認 | Adway Mitra | (参考訳) 多くの民主社会では、地域を地理的に区分し、その地区に居住する選挙人の選好に基づき、各地区の代表が選出される地区ベースの選挙を使用している。
これらの代表は政党に属し、行政権限は選挙で選ばれる地区代表の過半数を占める党によって獲得される。
ほとんどのシステムでは、各選挙人は1人の候補者の選好を表現できるが、候補/政党の完全または部分的なランキングを持つこともある。
これは、多くの選挙人が選挙結果に満足していない状況に繋がる可能性を示し、民主主義では望ましくない。
結果は特定の政党の支持者や他者に対して偏りがあるかもしれない。
機械学習アルゴリズムの公平性に関する現在の文献に触発され、政治的選択によらず、選挙人の満足度を定量化するための公平性尺度を定めている。
また、投票規則や順位集計といった概念を用いて、選挙プロセスの煩雑さや不透明さをなくすことなく、有権者の詳細な選好を表現できるようにする。
次に,モンテカルロシミュレーションを用いて,上記の公平性尺度を用いてこれらの政策を評価する。
このようなシミュレーションは選挙シミュレーションのための確率モデルを用いて行われ、選挙人のコミュニティのアイデンティティと、その居住環境や政治的嗜好に影響を与える役割を考慮に入れている。
このモデルは、インドにおける実際の複数政党選挙をシミュレートできることを示す。
広範なシミュレーションにより、有権者が2つの選好を提供することで、選挙結果の点で異なる政党の支持者間の格差が減少することがわかった。 Many democratic societies use district-based elections, where the region under consideration is geographically divided into districts and a representative is chosen for each district based on the preferences of the electors who reside there. These representatives belong to political parties, and the executive powers are acquired by that party which has a majority of the elected district representatives. In most systems, each elector can express preference for one candidate, though they may have a complete or partial ranking of the candidates/parties. We show that this can lead to situations where many electors are dissatisfied with the election results, which is not desirable in a democracy. The results may be biased towards the supporters of a particular party, and against others. Inspired by current literature on fairness of Machine Learning algorithms, we define measures of fairness to quantify the satisfaction of electors, irrespective of their political choices. We also consider alternative election policies using concepts of voting rules and rank aggregation, to enable voters to express their detailed preferences without making the electoral process cumbersome or opaque. We then evaluate these policies using the aforementioned fairness measures with the help of Monte Carlo simulations. Such simulations are obtained using a proposed stochastic model for election simulation, that takes into account community identities of electors and its role in influencing their residence and political preferences. We show that this model can simulate actual multi-party elections in India. Through extensive simulations, we find that allowing voters to provide 2 preferences reduces the disparity between supporters of different parties in terms of the election result. | 翻訳日:2023-02-19 15:28:02 公開日:2022-02-25 |
# 母親と父親は、異なるオーディエンスに育児について話し合うのか?
ステレオタイプとオーディエンス効果 : トピックモデリングを用いたr/daddit, r/mommit, r/parentingの分析 How Do Mothers and Fathers Talk About Parenting to Different Audiences?: Stereotypes and Audience Effects: An Analysis of r/Daddit, r/Mommit, and r/Parenting Using Topic Modelling ( http://arxiv.org/abs/2202.12962v1 ) ライセンス: Link先を確認 | Melody Sepahpour-Fard and Michael Quayle | (参考訳) 公共生活における男女平等に向けた大きな進歩はあったが、家庭、特に育児に関して深刻な不平等が残っている。
本研究は,redditにおける子育てに関する議論を分析し,オーディエンス効果と性ステレオタイプについて検討する。
異なるオーディエンスと対話する際の個人言語における話題の変化を研究する新しい手法を提案する。
2020年に投稿されたコメントは、父親(r/Daddit)、母親(r/Mommit)、そしてすべての親(r/Parenting)の3人から集められた。
r/Parenting、r/Daddit、r/Parenting、r/Mommitを投稿したユーザーは、それぞれ父親または母親と同一視され、性別比較が可能であった。
r/Parentingに対するユーザのコメントは、LDAトピックモデリングを用いたr/Dadditやr/Mommitのシングルジェンダーオーディエンスと比較された。
その結果,親の間で最も議論されているトピックは教育と家族のアドバイスであり,主に混合ジェンダーのサブレディットで論じられている。
子どもの基本的なニーズ(睡眠、食事、医療)に関して、母親は観客に関係なくより心配しているように思われた。
対照的に、父中心のサブredditでは、出生や妊娠のアナウンスや体調などの話題が父親たちによって議論された。
概して、母親は一般的に育児の実際的な側面を心配しているのに対し、父親はより文脈的な懸念を表明している。
これらの結果は、Reddit上で両親が表現する懸念は、文脈に敏感であるが、性別のステレオタイプとも一致していることを示し、育児における性別と不平等な分業を反映している可能性がある。 While major strides have been made towards gender equality in public life, serious inequality remains in the domestic sphere, especially around parenting. The present study analyses discussions about parenting on Reddit to explore audience effects and gender stereotypes. It suggests a novel method to study topical variation in individuals' language when interacting with different audiences. Comments posted in 2020 were collected from three parenting subreddits, described as being for fathers (r/Daddit), mothers (r/Mommit), and all parents (r/Parenting). Users posting on r/Parenting and r/Daddit or on r/Parenting and r/Mommit were assumed to identify as fathers or mothers, respectively, allowing gender comparison. Users' comments on r/Parenting (to a mixed-gender audience) were compared with their comments to single-gender audiences on r/Daddit or r/Mommit using LDA topic modelling. Results showed that the most discussed topic among parents is about education and family advice, a topic mainly discussed in the mixed-gender subreddit and more by fathers than mothers. Regarding the basic needs of children (sleep, food, and medical care), mothers seemed to be more concerned regardless of the audience. In contrast, topics such as birth and pregnancy announcements and physical appearance were more discussed by fathers in the father-centric subreddit. Overall, findings seem to show that mothers are generally more concerned about the practical sides of parenting while fathers' expressed concerns are more contextual: with other fathers, there seems to be a desire to show their fatherhood and be recognized for it while they discuss education with mothers. These results demonstrate that concerns expressed by parents on Reddit are context-sensitive but also consistent with gender stereotypes, potentially reflecting a persistent gendered and unequal division of labour in parenting. | 翻訳日:2023-02-19 15:15:31 公開日:2022-02-25 |
# 都市労働ネットワークの動的レジリエンス The Dynamic Resilience of Urban Labour Networks ( http://arxiv.org/abs/2202.12856v1 ) ライセンス: Link先を確認 | Xiangnan Feng, Alex Rutherford | (参考訳) 都市労働市場の理解と予測、さらにはコントロールは、労働者や政策立案者にとっても大きな課題である。
都市は経済成長と繁栄の効果的な原動力であり、労働市場における複雑なダイナミクスを育て、彼らが支援する労働市場はかなりの多様性を示している。
これは、労働市場を最適化して労働者の利益を享受し、経済成長を促進し、技術的変化の影響を管理する政策立案者にとっての課題である。
これまでの多くの研究は、規模の関数として都市の経済特性を研究し、都市経済の自動化への露出を調査してきたが、しばしば静的な観点から見てきた。
本研究では,都市業務ネットワークの構造を考察し,その拡散特性を明らかにする。
より具体的には、有益なまたは有害な特性の拡散を促進する上で最も重要な職業を特定する。
これらの特性は都市規模によって大きく異なる。 Understanding and potentially predicting or even controlling urban labour markets represents a great challenge for workers and policy makers alike. Cities are effective engines of economic growth and prosperity and incubate complex dynamics within their labour market, and the labour markets they support demonstrate considerable diversity. This presents a challenge to policy makers who would like to optimise labour markets to benefit workers, promote economic growth and manage the impact of technological change. While much previous work has studied the economic characteristics of cities as a function of size and examined the exposure of urban economies to automation, this has often been from a static perspective. In this work we examine the structure of city job networks to uncover the diffusive properties. More specifically, we identify the occupations which are most important in promoting the diffusion of beneficial or deleterious properties. We find that these properties vary considerably with city size. | 翻訳日:2023-02-19 15:14:52 公開日:2022-02-25 |
# 「サイバーセキュリティはダークアート」--社会学者としてのCISO 'Cyber security is a dark art': The CISO as soothsayer ( http://arxiv.org/abs/2202.12755v1 ) ライセンス: Link先を確認 | Joseph Da Silva and Rikke Bjerg Jensen | (参考訳) 商用組織は、データ漏洩やシステム侵害の脅威が増大し続けており、サイバーセキュリティ機能を重要視している。
多くの組織は、このような機能をリードするためにCISO(Chief Information Security Officer)を雇用している。
我々は、2019年10月から2020年7月にかけて、15人のCISOと6人の上級組織リーダーとの詳細な半構造化インタビューを行い、CISOの目的とサイバーセキュリティ機能について広範な調査を行った。
本稿では,組織におけるcisoの役割を解釈的に分析するために,オントロジ・セキュリティとアイデンティティ・ワークの社会学的概念に関連する幅広いセキュリティ奨学金を用いた。
研究結果によると、サイバーセキュリティはCISOを神秘的で未知の、そして恐れのないものの通訳として位置づけるエキスパートシステムである。
サイバーセキュリティの恐れる性質が、組織が存在論的脅威と見なすのにどのように寄与するかを示し、その脅威への対応が組織の全体的なアイデンティティに寄与することを示している。
さらに,サイバーセキュリティが信念システムとどのように類似しているか,cisoの役割の1つが現代の上級管理職に似ており,この役割は不安定であり,同時に組織内の疎外に繋がるものであることを示す。
また,本研究は,「サイバーソフィストリー」と呼ぶ自己維持行動のモチベーションである保護者からのCISOアイデンティティも強調した。
我々は、組織とCISOの両方に一連の影響を概説して結論付けます。 Commercial organisations continue to face a growing and evolving threat of data breaches and system compromises, making their cyber-security function critically important. Many organisations employ a Chief Information Security Officer (CISO) to lead such a function. We conducted in-depth, semi-structured interviews with 15 CISOs and six senior organisational leaders, between October 2019 and July 2020, as part of a wider exploration into the purpose of CISOs and cyber-security functions. In this paper, we employ broader security scholarship related to ontological security and sociological notions of identity work to provide an interpretative analysis of the CISO role in organisations. Research findings reveal that cyber security is an expert system that positions the CISO as an interpreter of something that is mystical, unknown and fearful to the uninitiated. They show how the fearful nature of cyber security contributes to it being considered an ontological threat by the organisation, while responding to that threat contributes to the organisation's overall identity. We further show how cyber security is analogous to a belief system and how one of the roles of the CISO is akin to that of a modern-day soothsayer for senior management; that this role is precarious and, at the same time, superior, leading to alienation within the organisation. Our study also highlights that the CISO identity of protector-from-threat, linked to the precarious position, motivates self-serving actions that we term `cyber sophistry'. We conclude by outlining a series of implications for both organisations and CISOs. | 翻訳日:2023-02-19 15:14:25 公開日:2022-02-25 |
# サンプリング理論に基づく有限ニューラルネットワークの関数空間解析 A function space analysis of finite neural networks with insights from sampling theory ( http://arxiv.org/abs/2004.06989v2 ) ライセンス: Link先を確認 | Raja Giryes | (参考訳) この研究は、サンプリング理論を用いてニューラルネットワークで表される関数空間を分析することを提案する。
まず、ニューラルネットワークのトレーニングにおいて一般的な有限入力領域の仮定の下で、非拡張活性化関数を持つ多層ネットワークによって生成される関数空間は滑らかであることを示す。
これは、無限幅ReLUネットワークの場合の結果を示す以前の研究よりも拡張される。
そして、入力が帯域制限の仮定の下で、単変量ニューラルネットワークに対して新しいエラー境界を提供する。
前者の利点を示す決定論的均一性とランダムサンプリングの両方を解析した。 This work suggests using sampling theory to analyze the function space represented by neural networks. First, it shows, under the assumption of a finite input domain, which is the common case in training neural networks, that the function space generated by multi-layer networks with non-expansive activation functions is smooth. This extends over previous works that show results for the case of infinite width ReLU networks. Then, under the assumption that the input is band-limited, we provide novel error bounds for univariate neural networks. We analyze both deterministic uniform and random sampling showing the advantage of the former. | 翻訳日:2022-12-13 03:21:34 公開日:2022-02-25 |
# プログラム正規化によるロバストかつ正確なオーサシップ属性 Robust and Accurate Authorship Attribution via Program Normalization ( http://arxiv.org/abs/2007.00772v3 ) ライセンス: Link先を確認 | Yizhen Wang, Mohannad Alhanahnah, Ke Wang, Mihai Christodorescu, Somesh Jha | (参考訳) ソースコード帰属アプローチは、ディープラーニングの急速な進歩により、驚くほどの精度を達成した。
しかし、近年の研究は敵の攻撃に対する脆弱性を明らかにしている。
特に、他の作者の偽作を作ろうとする敵や、原作者を偽装しようとする敵に騙されやすい。
これらの問題に対処するために、このセキュリティ課題を一般的な脅威モデルである$\textit{relational adversary}$に定式化し、任意の数のセマンティクス保存変換を任意の問題空間の入力に適用できるようにする。
我々の理論的研究は、ロバストネスの条件と深さにおけるロバストネスと精度のトレードオフを示している。
これらの洞察に動機づけられた新しい学習フレームワークである$\textit{normalize-and-predict}$ (\textit{n&p}$) を提案する。
我々は,最先端攻撃手法に対する最新の著作者属性アプローチ2つを擁護するために,$\textit{n&p}$を広範囲に評価する。
評価の結果、$\textit{n&p}$はバニラモデルよりも70%精度が向上することが示された。
さらに重要なことに、$\textit{n&p}$は、40倍以上の速度で実行しながら、敵のトレーニングよりも45%高い堅牢な精度に向上する。 Source code attribution approaches have achieved remarkable accuracy thanks to the rapid advances in deep learning. However, recent studies shed light on their vulnerability to adversarial attacks. In particular, they can be easily deceived by adversaries who attempt to either create a forgery of another author or to mask the original author. To address these emerging issues, we formulate this security challenge into a general threat model, the $\textit{relational adversary}$, that allows an arbitrary number of the semantics-preserving transformations to be applied to an input in any problem space. Our theoretical investigation shows the conditions for robustness and the trade-off between robustness and accuracy in depth. Motivated by these insights, we present a novel learning framework, $\textit{normalize-and-predict}$ ($\textit{N&P}$), that in theory guarantees the robustness of any authorship-attribution approach. We conduct an extensive evaluation of $\textit{N&P}$ in defending two of the latest authorship-attribution approaches against state-of-the-art attack methods. Our evaluation demonstrates that $\textit{N&P}$ improves the accuracy on adversarial inputs by as much as 70% over the vanilla models. More importantly, $\textit{N&P}$ also increases robust accuracy to 45% higher than adversarial training while running over 40 times faster. | 翻訳日:2022-11-14 22:55:20 公開日:2022-02-25 |
# 回帰による検出:中央スムージングによる認定対象検出 Detection as Regression: Certified Object Detection by Median Smoothing ( http://arxiv.org/abs/2007.03730v4 ) ライセンス: Link先を確認 | Ping-yeh Chiang, Michael J. Curry, Ahmed Abdelkader, Aounon Kumar, John Dickerson, Tom Goldstein | (参考訳) 敵の攻撃に対する物体検知器の脆弱性にもかかわらず、現在知られている防御はごくわずかである。
逆行訓練は画像分類器の実証的堅牢性を向上させることができるが、物体検出への直接的拡張は非常に高価である。
この研究は、ランダム化平滑化による認定分類の最近の進歩に動機づけられている。
まず,対象検出から回帰問題への削減について述べる。
次に,標準平均平滑化が失敗した場合の認定回帰を可能にするために,独立利害関係の中央値平滑化を提案する。
我々は、$\ell_2$-bounded攻撃に対する、最初のモデル非依存、トレーニングフリー、および証明されたオブジェクト検出防御を得る。
論文のすべての実験のコードは http://github.com/Ping-C/CertifiedObjectDetection で公開されている。 Despite the vulnerability of object detectors to adversarial attacks, very few defenses are known to date. While adversarial training can improve the empirical robustness of image classifiers, a direct extension to object detection is very expensive. This work is motivated by recent progress on certified classification by randomized smoothing. We start by presenting a reduction from object detection to a regression problem. Then, to enable certified regression, where standard mean smoothing fails, we propose median smoothing, which is of independent interest. We obtain the first model-agnostic, training-free, and certified defense for object detection against $\ell_2$-bounded attacks. The code for all experiments in the paper is available at http://github.com/Ping-C/CertifiedObjectDetection . | 翻訳日:2022-11-12 19:32:20 公開日:2022-02-25 |
# 映画映像におけるロバスト文字ラベル:データ資源と自己監督的特徴適応 Robust Character Labeling in Movie Videos: Data Resources and Self-supervised Feature Adaptation ( http://arxiv.org/abs/2008.11289v2 ) ライセンス: Link先を確認 | Krishna Somandepalli, Rajat Hebbar, Shrikanth Narayanan | (参考訳) ロバストな顔クラスタリングは、メディアにおける視覚的キャラクタの表現を計算的に理解するための重要なステップである。
外観の変化と大規模ラベル付きデータのサポート不足のため、長文コンテンツのための顔クラスタリングは困難である。
この論文では、ドメイン固有のトレーニングやベンチマークデータセットの欠如、webイメージで学習された顔埋め込みを長文コンテンツ、特に映画に適応させるという、この問題の2つの重要な側面に焦点を当てています。
まず、1組のフェイストラックが同一または異なるキャラクターに属するかどうかについて、240本のハリウッド映画から収集された169,000以上のフェイストラックのデータセットを示す。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
次に,トリプレットロスとマルチビュー相関に基づく顔埋め込みをハードサンプルに適用する手法について検討する。
実験結果から,弱いラベル付きデータによる特徴適応の有用性が示された。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
下流のフェース検証とクラスタリングタスクのパフォーマンスは、このドメインにおける最先端の結果と同等である。
また,既存のベンチマークを強化するために開発されたSAIL-Movie Character Benchmark corpusを提案する。
人種的に多様な俳優で構成され、その後のエラー分析のために顔品質のラベルを提供する。
この研究で開発された大規模データセットが,ビデオの自動文字ラベリングをさらに前進させることを願っている。
すべてのリソースはhttps://sail.usc.edu/~ccmi/multifaceで無料で利用できる。 Robust face clustering is a vital step in enabling computational understanding of visual character portrayal in media. Face clustering for long-form content is challenging because of variations in appearance and lack of supporting large-scale labeled data. Our work in this paper focuses on two key aspects of this problem: the lack of domain-specific training or benchmark datasets, and adapting face embeddings learned on web images to long-form content, specifically movies. First, we present a dataset of over 169,000 face tracks curated from 240 Hollywood movies with weak labels on whether a pair of face tracks belong to the same or a different character. We propose an offline algorithm based on nearest-neighbor search in the embedding space to mine hard-examples from these tracks. We then investigate triplet-loss and multiview correlation-based methods for adapting face embeddings to hard-examples. Our experimental results highlight the usefulness of weakly labeled data for domain-specific feature adaptation. Overall, we find that multiview correlation-based adaptation yields more discriminative and robust face embeddings. Its performance on downstream face verification and clustering tasks is comparable to that of the state-of-the-art results in this domain. We also present the SAIL-Movie Character Benchmark corpus developed to augment existing benchmarks. It consists of racially diverse actors and provides face-quality labels for subsequent error analysis. We hope that the large-scale datasets developed in this work can further advance automatic character labeling in videos. All resources are available freely at https://sail.usc.edu/~ccmi/multiface. | 翻訳日:2022-10-25 04:28:36 公開日:2022-02-25 |
# 協調型人間-ロボットインタラクションにおけるロボット個性のモデル化 Affect-Driven Modelling of Robot Personality for Collaborative Human-Robot Interactions ( http://arxiv.org/abs/2010.07221v2 ) ライセンス: Link先を確認 | Nikhil Churamani and Pablo Barros and Hatice Gunes and Stefan Wermter | (参考訳) 協調的な相互作用は、人間の感情行動のダイナミクスに適応するために社会ロボットを必要とする。
しかし、ロボットの感情行動生成に対する現在のアプローチは、観察された人間の表情と静的ロボット動作の1対1マッピングを生成するために、瞬間的な知覚に焦点を当てている。
本稿では,ソーシャルロボットにおけるパーソナリティ駆動行動生成のための新しい枠組みを提案する。
フレームワークは、
(i)表情と発話を評価し、ロボットに内在する情緒表現を形成するハイブリッドニューラルモデル
(II)自己組織型ニューラルモデルを用いて忍耐力や情緒運動といったロボットの性格特性を組み込むAffective Core
(iii)ロボットの感情評価を用いてインタラクション動作を学習する強化学習モデル。
評価のために,nicoロボットが最後通しゲームにおいて提案者として機能するユーザスタディ(n = 31)を行う。
ロボットのパーソナリティが交渉戦略に及ぼす影響は、患者ロボットの持続性が高く、不活性で経験の浅いロボットがその寛大さと利他的行動に影響を及ぼすのに対して、被験者が目撃する。 Collaborative interactions require social robots to adapt to the dynamics of human affective behaviour. Yet, current approaches for affective behaviour generation in robots focus on instantaneous perception to generate a one-to-one mapping between observed human expressions and static robot actions. In this paper, we propose a novel framework for personality-driven behaviour generation in social robots. The framework consists of (i) a hybrid neural model for evaluating facial expressions and speech, forming intrinsic affective representations in the robot, (ii) an Affective Core, that employs self-organising neural models to embed robot personality traits like patience and emotional actuation, and (iii) a Reinforcement Learning model that uses the robot's affective appraisal to learn interaction behaviour. For evaluation, we conduct a user study (n = 31) where the NICO robot acts as a proposer in the Ultimatum Game. The effect of robot personality on its negotiation strategy is witnessed by participants, who rank a patient robot with high emotional actuation higher on persistence, while an inert and impatient robot higher on its generosity and altruistic behaviour. | 翻訳日:2022-10-07 14:04:34 公開日:2022-02-25 |
# 目標認識表現による正確な知識伝達に向けて Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement ( http://arxiv.org/abs/2010.08532v2 ) ライセンス: Link先を確認 | Xingjian Li, Di Hu, Xuhong Li, Haoyi Xiong, Zhi Ye, Zhipeng Wang, Chengzhong Xu, Dejing Dou | (参考訳) 大規模データセットで事前トレーニングされた微調整深層ニューラルネットワークは、限られた量のトレーニングサンプルを与えられた最も実用的な移行学習パラダイムの1つである。
重みまたは特徴を通して、出発点を基準(spar)として用いることにより、より一般化し、正規化として転校学習に成功している。
しかし、ソースとターゲットタスク間のドメインの相違により、簡単な知識保存の方法において、負の転送のリスクは明らかである。
本稿では,対象タスクに対する関連知識を元のソースモデルから切り離し,ターゲットモデルの微調整時に正規化子として使用する,TRED(Target-Awareness Representation Disentanglement)の概念を導入する,新しい伝達学習アルゴリズムを提案する。
具体的には,最大平均離散度(Max-MMD)の最大化と相互情報(Min-MI)の最小化という2つの代替手法を設計する。
様々な実世界のデータセットを用いた実験により,本手法は平均で2%以上の微調整を安定的に改善することを示した。
TREDはまた、L2-SP、AT、DELTA、BSSといった関連する最先端の伝達学習レギュレータよりも優れている。 Fine-tuning deep neural networks pre-trained on large scale datasets is one of the most practical transfer learning paradigm given limited quantity of training samples. To obtain better generalization, using the starting point as the reference (SPAR), either through weights or features, has been successfully applied to transfer learning as a regularizer. However, due to the domain discrepancy between the source and target task, there exists obvious risk of negative transfer in a straightforward manner of knowledge preserving. In this paper, we propose a novel transfer learning algorithm, introducing the idea of Target-awareness REpresentation Disentanglement (TRED), where the relevant knowledge with respect to the target task is disentangled from the original source model and used as a regularizer during fine-tuning the target model. Specifically, we design two alternative methods, maximizing the Maximum Mean Discrepancy (Max-MMD) and minimizing the mutual information (Min-MI), for the representation disentanglement. Experiments on various real world datasets show that our method stably improves the standard fine-tuning by more than 2% in average. TRED also outperforms related state-of-the-art transfer learning regularizers such as L2-SP, AT, DELTA, and BSS. | 翻訳日:2022-10-06 20:22:22 公開日:2022-02-25 |
# 実世界のロボット強化学習における対物予測のオフライン学習 Offline Learning of Counterfactual Predictions for Real-World Robotic Reinforcement Learning ( http://arxiv.org/abs/2011.05857v2 ) ライセンス: Link先を確認 | Jun Jin, Daniel Graves, Cameron Haigh, Jun Luo and Martin Jagersand | (参考訳) 本稿では,ロボット操作作業における実世界強化学習(RL)について考察する。
本研究の目的は,マルチモーダルセンサス観測(ビジョンと力)をマニピュレータの関節速度に実用的な考慮のもとマッピングする政策を訓練することである。
本稿では,オフラインサンプルを用いて,視覚入力から偽の予測を行う一般値関数(gvfs)のセットを学習することを提案する。
オンライン政策学習におけるオフライン学習の反事実予測と力強いフィードバックを組み合わせることで,端末(成功/失敗)報酬のみを与えられる効果的な強化学習が可能になることを示す。
学習した反事実予測は、サンプル効率を向上し、オンライン探索を接触豊富な状態へと導く補助的な報酬信号を提供するコンパクトで情報的な表現を形成すると論じる。
シミュレーションと実環境設定の様々な実験を行った。
実際のロボットトレーニングの記録はhttps://sites.google.com/view/realrl.comで見ることができる。 We consider real-world reinforcement learning (RL) of robotic manipulation tasks that involve both visuomotor skills and contact-rich skills. We aim to train a policy that maps multimodal sensory observations (vision and force) to a manipulator's joint velocities under practical considerations. We propose to use offline samples to learn a set of general value functions (GVFs) that make counterfactual predictions from the visual inputs. We show that combining the offline learned counterfactual predictions with force feedbacks in online policy learning allows efficient reinforcement learning given only a terminal (success/failure) reward. We argue that the learned counterfactual predictions form a compact and informative representation that enables sample efficiency and provides auxiliary reward signals that guide online explorations towards contact-rich states. Various experiments in simulation and real-world settings were performed for evaluation. Recordings of the real-world robot training can be found via https://sites.google.com/view/realrl. | 翻訳日:2022-09-27 00:44:40 公開日:2022-02-25 |
# Patch-VQ:ビデオの品質問題 Patch-VQ: 'Patching Up' the Video Quality Problem ( http://arxiv.org/abs/2011.13544v2 ) ライセンス: Link先を確認 | Zhenqiang Ying (1), Maniratnam Mandal (1), Deepti Ghadiyaram (2), Alan Bovik (1) ((1) University of Texas at Austin, (2) Facebook AI) | (参考訳) No-Reference (NR) Perceptual Video Quality Assessment (VQA)は、ソーシャルメディアおよびストリーミングメディアアプリケーションにおいて複雑で未解決で重要な問題である。
数十億の共有された、しばしば不完全な、ユーザ生成コンテンツ(UGC)の処理を監視し、ガイドするために、効率的で正確なビデオ品質予測器が必要である。
残念なことに、現在のNRモデルは実際のUGCビデオデータの予測能力に制限がある。
この問題を解決するために,本研究では,実世界39,000の歪曲映像と117,000の時空局所化ビデオパッチ(v-patches)と5.5mの人間知覚品質アノテーションを含む,最大(今のところ)主観的映像品質データセットを作成した。
これを用いて、2つのユニークなNR-VQAモデルを作成しました。
(a)グローバルビデオ品質の予測を学習し,3つのUGCデータセット上で最先端のパフォーマンスを実現する,地域間地域ベースのNR VQAアーキテクチャ(PVQ)
(b)空間と時間における知覚的歪みの局所化と可視化を支援する、初めての時空映像品質マッピングエンジン(pvq mapper)。
レビュープロセスの直後に、新しいデータベースと予測モデルを利用可能にします。 No-reference (NR) perceptual video quality assessment (VQA) is a complex, unsolved, and important problem to social and streaming media applications. Efficient and accurate video quality predictors are needed to monitor and guide the processing of billions of shared, often imperfect, user-generated content (UGC). Unfortunately, current NR models are limited in their prediction capabilities on real-world, "in-the-wild" UGC video data. To advance progress on this problem, we created the largest (by far) subjective video quality dataset, containing 39, 000 realworld distorted videos and 117, 000 space-time localized video patches ('v-patches'), and 5.5M human perceptual quality annotations. Using this, we created two unique NR-VQA models: (a) a local-to-global region-based NR VQA architecture (called PVQ) that learns to predict global video quality and achieves state-of-the-art performance on 3 UGC datasets, and (b) a first-of-a-kind space-time video quality mapping engine (called PVQ Mapper) that helps localize and visualize perceptual distortions in space and time. We will make the new database and prediction models available immediately following the review process. | 翻訳日:2022-09-20 02:14:25 公開日:2022-02-25 |
# (参考訳) コンテンツ間スケール測定のための最大相違スケーリング法の改善 Improving Maximum Likelihood Difference Scaling method to measure inter content scale ( http://arxiv.org/abs/2203.13186v1 ) ライセンス: CC BY 4.0 | Pastor Andr\'eas, Luk\'a\v{s} Krasula, Xiaoqing Zhu, Zhi Li, Patrick Le Callet | (参考訳) 最も主観的な研究の目標は、一連の刺激を知覚尺度に配置することである。
これは、例えば単刺激法や二重刺激法、または間接的にランク付けまたはペア比較によって直接行われる。
これらの手法はすべて、刺激の知覚的大きさを尺度で推定する。
しかし、MLDS (Maximum Likelihood Difference Scaling) のような手順では、知覚距離を考慮すれば、識別力、観察者の認知負荷、必要な試行回数といった面でメリットが得られることが示されている。
MLDS法の欠点の1つは、異なるソースコンテンツから生成された刺激に対して得られる知覚尺度が一般的には比較にならないことである。
本稿では,結果のコンテンツ間比較性を保証するmlds法の拡張を提案し,特にオブザーバエラーが存在する場合に有用性を示す。 The goal of most subjective studies is to place a set of stimuli on a perceptual scale. This is mostly done directly by rating, e.g. using single or double stimulus methodologies, or indirectly by ranking or pairwise comparison. All these methods estimate the perceptual magnitudes of the stimuli on a scale. However, procedures such as Maximum Likelihood Difference Scaling (MLDS) have shown that considering perceptual distances can bring benefits in terms of discriminatory power, observers' cognitive load, and the number of trials required. One of the disadvantages of the MLDS method is that the perceptual scales obtained for stimuli created from different source content are generally not comparable. In this paper, we propose an extension of the MLDS method that ensures inter-content comparability of the results and shows its usefulness especially in the presence of observer errors. | 翻訳日:2022-04-03 20:39:19 公開日:2022-02-25 |
# 複数層パーセプトロンニューラルネットワークによる悪意のあるフィッシングurlの検出性能向上 Multi-Layer Perceptron Neural Network for Improving Detection Performance of Malicious Phishing URLs Without Affecting Other Attack Types Classification ( http://arxiv.org/abs/2203.00774v1 ) ライセンス: Link先を確認 | Pow Chang | (参考訳) ここでの仮説は、マルチレイヤー・パーセプトロン(mlp)のようなニューラルネットワークアルゴリズムは、悪意のあるフィッシングurlと半構造化されたフィッシングurlを区別する精度が高いというものである。
ロジスティック回帰や多項ナイーブベイズのような古典的機械学習アルゴリズムと比較すると、古典的アルゴリズムは複雑な機能工学を実行するために大量のコーパスデータトレーニングと機械学習専門家のドメイン知識に大きく依存している。
mlpは、非線形分離可能なマルチクラス分類を実行し、コーパス特徴訓練よりも焦点を絞ることができた。
さらに、バックプロパゲーションの重み調整は、フィッシングを他の攻撃タイプと区別する上で、どの機能がより重要であるかを知ることができる。 The hypothesis here states that neural network algorithms such as Multi-layer Perceptron (MLP) have higher accuracy in differentiating malicious and semi-structured phishing URLs. Compared to classical machine learning algorithms such as Logistic Regression and Multinomial Naive Bayes, the classical algorithms rely heavily on substantial corpus data training and machine learning experts' domain knowledge to perform complex feature engineering. MLP could perform non-linear separable multi-classes classification and focus less on corpus feature training. In addition, backpropagation weight adjustment could learn which features are more important in differentiating phishing from other attack types. | 翻訳日:2022-03-06 12:46:45 公開日:2022-02-25 |
# (参考訳) Peppa Pigで英語を学ぶ Learning English with Peppa Pig ( http://arxiv.org/abs/2202.12917v1 ) ライセンス: CC BY-SA 4.0 | Mitja Nikolaus and Afra Alishahi and Grzegorz Chrupa{\l}a | (参考訳) 知覚の接地を通じて言語習得を計算的にシミュレートしようとする試みは長い伝統があるが、ここ数年で勢いを増している。
現在のニューラルアプローチは、音声と視覚のモダリティの関係を利用して、共同ベクトル空間における音声と視覚データの表現を学ぶ。
生態学的妥当性の観点から、主要な未解決の問題は訓練データであり、典型的には画像やビデオからなり、描写されたものを音声で表現する。
このような設定は、音声と視覚世界の非現実的に強い相関を保証する。
現実の世界では、言語と視覚の結合は緩やかであり、しばしば音声信号の非意味的側面との相関という形で結合している。
本研究は,児童漫画peppa pigに基づくデータセットを用いて,自然主義的な接地シナリオをシミュレーションするための第一歩である。
文字間の自然対話からなるデータの一部に単純なバイモーダルアーキテクチャを訓練し,記述的ナレーションを含むセグメントを評価する。
この訓練データに弱く整合した信号があるにもかかわらず、我々のモデルは音声言語の視覚的意味論の学習に成功している。 Attempts to computationally simulate the acquisition of spoken language via grounding in perception have a long tradition but have gained momentum in the past few years. Current neural approaches exploit associations between the spoken and visual modality and learn to represent speech and visual data in a joint vector space. A major unresolved issue from the point of ecological validity is the training data, typically consisting of images or videos paired with spoken descriptions of what is depicted. Such a setup guarantees an unrealistically strong correlation between speech and the visual world. In the real world the coupling between the linguistic and the visual is loose, and often contains confounds in the form of correlations with non-semantic aspects of the speech signal. The current study is a first step towards simulating a naturalistic grounding scenario by using a dataset based on the children's cartoon Peppa Pig. We train a simple bi-modal architecture on the portion of the data consisting of naturalistic dialog between characters, and evaluate on segments containing descriptive narrations. Despite the weak and confounded signal in this training data our model succeeds at learning aspects of the visual semantics of spoken language. | 翻訳日:2022-03-05 15:18:35 公開日:2022-02-25 |
# (参考訳) マルチグラフ特徴を用いた精神状態分類 Mental State Classification Using Multi-graph Features ( http://arxiv.org/abs/2203.00516v1 ) ライセンス: CC BY 4.0 | Guodong Chen and Hayden S. Helm and Kate Lytvynets and Weiwei Yang and Carey E. Priebe | (参考訳) ストレスや認知負荷などの高レベル精神状態に関連する下流推定タスクのための受動多チャンネル脳波(eeg)装置から特徴を抽出する問題を考える。
提案手法は,近年開発されたマルチグラフツールを利用して,複数のセンサ間の統計依存構造(相関など)が示唆する時系列グラフに適用する。
提案手法の有効性を3つの分類実験の文脈における従来のバンドパワーベース特徴と比較し,2つの特徴集合が相補的な予測情報を提供することを示した。
提案する特徴を用いた場合,特定のチャネルとチャネルのペアの分類の重要性は神経科学的に妥当であることが示唆された。 We consider the problem of extracting features from passive, multi-channel electroencephalogram (EEG) devices for downstream inference tasks related to high-level mental states such as stress and cognitive load. Our proposed method leverages recently developed multi-graph tools and applies them to the time series of graphs implied by the statistical dependence structure (e.g., correlation) amongst the multiple sensors. We compare the effectiveness of the proposed features to traditional band power-based features in the context of three classification experiments and find that the two feature sets offer complementary predictive information. We conclude by showing that the importance of particular channels and pairs of channels for classification when using the proposed features is neuroscientifically valid. | 翻訳日:2022-03-05 15:02:40 公開日:2022-02-25 |
# (参考訳) 電波干渉法における画像再構成アルゴリズム:手作りから学習デノイザーへ Image reconstruction algorithms in radio interferometry: from handcrafted to learned denoisers ( http://arxiv.org/abs/2202.12959v1 ) ライセンス: CC BY 4.0 | Matthieu Terris, Arwa Dabbech, Chao Tang, Yves Wiaux | (参考訳) 本稿では,ラジオ干渉計測のための新しい反復画像再構成アルゴリズムを,プラグ・アンド・プレイ法にインスパイアされた凸最適化と深層学習のインタフェースで紹介する。
このアプローチは、深層ニューラルネットワーク(dnn)をデノイザーとしてトレーニングし、最適化アルゴリズムの手作りの近位正規化演算子に置き換えることで、事前の画像モデルを学習する。
airi(無線干渉イメージングの正規化のためのai)フレームワークは、拡散と微弱な放射を伴う複雑な強度構造を撮像するために、最適化の堅牢性と解釈可能性、ネットワークの学習能力とスピードを継承する。
私たちのアプローチは3つのステップに依存します。
まず、光強度画像から教師付きトレーニングを行うための低ダイナミックレンジデータベースを設計する。
次に,データの信号対雑音比から推定した雑音レベルにおいて,出力画像の肯定性を保証する基本アーキテクチャを持つdnnデノイザーを訓練する。
我々は、$\ell_2$または$\ell_1$のトレーニング損失を使用し、アルゴリズム収束を保証する非拡張項で拡張し、指数化によるオンザフライデータベースダイナミックレンジ拡張を含む。
第3に,学習したデノイザーをフォワードバックワード最適化アルゴリズムに挿入することで,グラデーション・d・データ忠実度ステップでデノイジングステップを交代する単純な反復構造を実現する。
結果の AIRI-$\ell_2$ と AIRI-$\ell_1$ は CLEAN と SARA ファミリーの最適化アルゴリズムに対して検証された。
シミュレーションの結果,これらのAIRIインカーネーションは,SARAと非拘束の後方向きバージョンであるuSARAと画像品質の競争に優れており,大きな加速を提供することがわかった。
CLEANは高速だが、再現性は低い。 We introduce a new class of iterative image reconstruction algorithms for radio interferometry, at the interface of convex optimization and deep learning, inspired by plug-and-play methods. The approach consists in learning a prior image model by training a deep neural network (DNN) as a denoiser, and substituting it for the handcrafted proximal regularization operator of an optimization algorithm. The proposed AIRI ("AI for Regularization in Radio-Interferometric Imaging") framework, for imaging complex intensity structure with diffuse and faint emission, inherits the robustness and interpretability of optimization, and the learning power and speed of networks. Our approach relies on three steps. Firstly, we design a low dynamic range database for supervised training from optical intensity images. Secondly, we train a DNN denoiser with basic architecture ensuring positivity of the output image, at a noise level inferred from the signal-to-noise ratio of the data. We use either $\ell_2$ or $\ell_1$ training losses, enhanced with a nonexpansiveness term ensuring algorithm convergence, and including on-the-fly database dynamic range enhancement via exponentiation. Thirdly, we plug the learned denoiser into the forward-backward optimization algorithm, resulting in a simple iterative structure alternating a denoising step with a gradient-descent data-fidelity step. The resulting AIRI-$\ell_2$ and AIRI-$\ell_1$ were validated against CLEAN and optimization algorithms of the SARA family, propelled by the "average sparsity" proximal regularization operator. Simulation results show that these first AIRI incarnations are competitive in imaging quality with SARA and its unconstrained forward-backward-based version uSARA, while providing significant acceleration. CLEAN remains faster but offers lower reconstruction quality. | 翻訳日:2022-03-04 12:50:25 公開日:2022-02-25 |
# (参考訳) ラベル差分プライバシーはラベル推論攻撃を防ぐか? Does Label Differential Privacy Prevent Label Inference Attacks? ( http://arxiv.org/abs/2202.12968v1 ) ライセンス: CC BY 4.0 | Ruihan Wu, Jin Peng Zhou, Kilian Q. Weinberger and Chuan Guo | (参考訳) ラベル微分プライバシ(LDP)は、パブリック機能と機密性の高いプライベートラベルを持つデータセット上で、プライベートMLモデルをトレーニングするための一般的なフレームワークである。
厳格なプライバシー保証にもかかわらず、実際には、LDPはラベル推論攻撃(LIAs)を防いでいないことが観察されている。
本研究では,この現象はパラドックス的ではなく,LDPはベイズ分類器を用いたトレーニングラベルの予測と比較して,LAAの利点を限定するに過ぎないと論じる。
ldp $\epsilon=0$ この利点はゼロであるため、最適な攻撃はベイズ分類器に従って予測し、トレーニングラベルとは独立である。
最後に,本研究の結果が,合成データと実世界データの両方に対するシミュレーション攻撃の挙動を密接に捉えていることを示す。 Label differential privacy (LDP) is a popular framework for training private ML models on datasets with public features and sensitive private labels. Despite its rigorous privacy guarantee, it has been observed that in practice LDP does not preclude label inference attacks (LIAs): Models trained with LDP can be evaluated on the public training features to recover, with high accuracy, the very private labels that it was designed to protect. In this work, we argue that this phenomenon is not paradoxical and that LDP merely limits the advantage of an LIA adversary compared to predicting training labels using the Bayes classifier. At LDP $\epsilon=0$ this advantage is zero, hence the optimal attack is to predict according to the Bayes classifier and is independent of the training labels. Finally, we empirically demonstrate that our result closely captures the behavior of simulated attacks on both synthetic and real world datasets. | 翻訳日:2022-03-04 11:55:35 公開日:2022-02-25 |
# (参考訳) ソフトロボットマニピュレーションのための物理不定形シミュレーションモデル:誘電体エラストマーアクチュエータを用いたケーススタディ Learning physics-informed simulation models for soft robotic manipulation: A case study with dielectric elastomer actuators ( http://arxiv.org/abs/2202.12977v1 ) ライセンス: CC BY 4.0 | Manu Lahariya and Craig Innes and Chris Develder and Subramanian Ramamoorthy | (参考訳) 柔らかいアクチュエータは、緩やかな握りや器用な動きといったロボット作業に対して安全かつ適応的なアプローチを提供する。
しかし、このようなシステムを制御するための正確なモデルを作成することは、変形可能な物質の複雑な物理のために難しい。
高精度有限要素法(FEM)モデルは閉ループ利用における計算複雑性を不規則に表現する。
微分可能なシミュレータの使用は魅力的な代替手段であるが、柔らかいアクチュエータや変形可能な材料への適用性は未調査のままである。
本稿では,両者の利点を組み合わせた枠組みを提案する。
我々は,物質特性ニューラルネットワークと操作タスクの残りの部分の解析力学モデルからなる微分可能なモデルを学習する。
この物理変形モデルはfemから生成されたデータを用いて訓練され、閉ループ制御や推論に使用できる。
誘電体エラストマーアクチュエータ(DEA)コイン推進作業の枠組みを評価する。
シミュレーション,制御,推論のための物理変形モデルを評価するために,femによるdeaコインプルをシミュレートし,設計実験を行った。
我々のモデルはFEMと比較して5%以下のシミュレーション誤差を達成し、モデルフリーアクター批判ポリシー、ヒューリスティックポリシー、PDコントローラを上回るMPCコントローラの基盤として利用する。 Soft actuators offer a safe and adaptable approach to robotic tasks like gentle grasping and dexterous movement. Creating accurate models to control such systems, however, is challenging due to the complex physics of deformable materials. Accurate Finite Element Method (FEM) models incur prohibitive computational complexity for closed-loop use. Using a differentiable simulator is an attractive alternative, but their applicability to soft actuators and deformable materials remains under-explored. This paper presents a framework that combines the advantages of both. We learn a differentiable model consisting of a material properties neural network and an analytical dynamics model of the remainder of the manipulation task. This physics-informed model is trained using data generated from FEM and can be used for closed-loop control and inference. We evaluate our framework on a dielectric elastomer actuator (DEA) coin-pulling task. We simulate DEA coin pulling in FEM, and design experiments to evaluate the physics-informed model for simulation, control, and inference. Our model attains < 5% simulation error compared to FEM, and we use it as the basis for an MPC controller that outperforms (i.e., requires fewer iterations to converge) a model-free actor-critic policy, a heuristic policy, and a PD controller. | 翻訳日:2022-03-04 11:35:03 公開日:2022-02-25 |
# (参考訳) OCR-IDL: 業界文書ライブラリデータセットのためのOCRアノテーション OCR-IDL: OCR Annotations for Industry Document Library Dataset ( http://arxiv.org/abs/2202.12985v1 ) ライセンス: CC BY 4.0 | Ali Furkan Biten, Rub\`en Tito, Lluis Gomez, Ernest Valveny, Dimosthenis Karatzas | (参考訳) 事前トレーニングはドキュメントインテリジェンスタスクで成功し、ドキュメントの不足が後になって、下流タスクで微調整されるようにモデルの事前トレーニングに使用される。
事前学習アプローチの問題点の1つは、異なるOCRエンジンによる事前学習データの一貫性のない使用が、モデル間の相容れない結果をもたらすことである。
言い換えれば、データ量と異なるocrエンジンの多様な使用から、あるいは提案されたモデルからパフォーマンスの向上がもたらされるかどうかは明らかではない。
この問題を解決するために,商用OCRエンジンを用いたIDL文書に対するOCRアノテーションを,オープンソースOCRモデルよりも優れた性能で公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
OCR-IDLがドキュメントインテリジェンスに関する今後の研究の出発点になることを願っています。
私たちのデータとそのアノテーションによる収集プロセスはすべて、https://github.com/furkanbiten/idl_dataにあります。 Pretraining has proven successful in Document Intelligence tasks where deluge of documents are used to pretrain the models only later to be finetuned on downstream tasks. One of the problems of the pretraining approaches is the inconsistent usage of pretraining data with different OCR engines leading to incomparable results between models. In other words, it is not obvious whether the performance gain is coming from diverse usage of amount of data and distinct OCR engines or from the proposed models. To remedy the problem, we make public the OCR annotations for IDL documents using commercial OCR engine given their superior performance over open source OCR models. The contributed dataset (OCR-IDL) has an estimated monetary value over 20K US$. It is our hope that OCR-IDL can be a starting point for future works on Document Intelligence. All of our data and its collection process with the annotations can be found in https://github.com/furkanbiten/idl_data. | 翻訳日:2022-03-04 11:18:51 公開日:2022-02-25 |
# (参考訳) se-Shweshweインスパイアされたファッションジェネレーション se-Shweshwe Inspired Fashion Generation ( http://arxiv.org/abs/2203.00435v1 ) ライセンス: CC BY 4.0 | Lindiwe Brigitte Malobola, Negar Rostamzadeh, Shakir Mohamed | (参考訳) ファッションは私たちが世界に自らを示す方法の1つです。
それは私たちの個人的な決定と、人々が自分自身を区別し、表現する方法の1つを反映している。
本稿では,ファッションデザインのプロセスに焦点をあて,現在の西洋ファッションへのフォーカスを超えて,ファッションのためのコンピュータビジョンを拡大する。
本稿では,南アフリカのセシュウェシュウェウェ織物ファッションの歴史,セシュウェシュウェウェデータセットの収集,手頃なファッションデザインのためのスケッチ・ツー・デザイン画像生成の応用について論じる。
ファッションへの応用は、少量のデータによるトレーニングの技術的な問題と、公平性を超えたコンピュータビジョン、特にファッションデータセットの作成と採用に関する倫理的考察、そしてコンピュータビジョンが文化的な表現をサポートし、アルゴリズムによる文化的な評価を避けるための重要な問題の両方を提起する。 Fashion is one of the ways in which we show ourselves to the world. It is a reflection of our personal decisions and one of the ways in which people distinguish and represent themselves. In this paper, we focus on the fashion design process and expand computer vision for fashion beyond its current focus on western fashion. We discuss the history of Southern African se-Shweshwe fabric fashion, the collection of a se-Shweshwe dataset, and the application of sketch-to-design image generation for affordable fashion-design. The application to fashion raises both technical questions of training with small amounts of data, and also important questions for computer vision beyond fairness, in particular ethical considerations on creating and employing fashion datasets, and how computer vision supports cultural representation and might avoid algorithmic cultural appropriation. | 翻訳日:2022-03-04 11:06:51 公開日:2022-02-25 |
# メカニカル問題の高速マルチスケールモデリングのためのディープニューラル演算子との相互作用有限要素 Interfacing Finite Elements with Deep Neural Operators for Fast Multiscale Modeling of Mechanics Problems ( http://arxiv.org/abs/2203.00003v1 ) ライセンス: Link先を確認 | Minglang Yin and Enrui Zhang and Yue Yu and George Em Karniadakis | (参考訳) マルチスケールモデリングは、異なる解像度または不均一な記述を持つモデルを結合してシステムの応答を予測する、大きく異なるサイズの特徴を持つ多物理系を研究するための効果的なアプローチである。
低忠実度(粗い)の解法は、均質な特徴を持つドメインをシミュレートするが、高価な高忠実度(細い)モデルは、離散化を改良した顕微鏡的特徴を記述し、特に時間依存の問題において、全体的なコストを禁ずる。
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。
DeepONetは、きめ細かい解法から取得したデータを使ってオフラインでトレーニングされている。
そして、結合ステージに新しい境界/初期条件を持つマルチスケールシステムを予測する標準的なpdeソルバと結合する。
提案フレームワークは,DeepONet推論コストが無視可能であるため,マルチスケールシミュレーションの計算コストを大幅に削減し,複数のインタフェース条件と結合スキームの組み込みを容易にする。
本研究では, 時間依存問題に対する結合アルゴリズムを開発し, 粒子系(smoothed particle hydrodynamics, sph)の一軸張力問題に対して, 連続体モデル(finite element method, fem)と, 粒子系(smoothed particle hydrodynamics, sph)のニューラル演算子表現との結合を実証する。
このアプローチをユニークなものにしているのは、十分に訓練された過パラメータのdeeponetが、うまく一般化し、無視できるコストで予測することができることだ。 Multiscale modeling is an effective approach for investigating multiphysics systems with largely disparate size features, where models with different resolutions or heterogeneous descriptions are coupled together for predicting the system's response. The solver with lower fidelity (coarse) is responsible for simulating domains with homogeneous features, whereas the expensive high-fidelity (fine) model describes microscopic features with refined discretization, often making the overall cost prohibitively high, especially for time-dependent problems. In this work, we explore the idea of multiscale modeling with machine learning and employ DeepONet, a neural operator, as an efficient surrogate of the expensive solver. DeepONet is trained offline using data acquired from the fine solver for learning the underlying and possibly unknown fine-scale dynamics. It is then coupled with standard PDE solvers for predicting the multiscale systems with new boundary/initial conditions in the coupling stage. The proposed framework significantly reduces the computational cost of multiscale simulations since the DeepONet inference cost is negligible, facilitating readily the incorporation of a plurality of interface conditions and coupling schemes. We present various benchmarks to assess accuracy and speedup, and in particular we develop a coupling algorithm for a time-dependent problem, and we also demonstrate coupling of a continuum model (finite element methods, FEM) with a neural operator representation of a particle system (Smoothed Particle Hydrodynamics, SPH) for a uniaxial tension problem with hyperelastic material. What makes this approach unique is that a well-trained over-parametrized DeepONet can generalize well and make predictions at a negligible cost. | 翻訳日:2022-03-02 15:46:36 公開日:2022-02-25 |
# ラマン分光法と深層学習によるグラフェンの電荷密度と誘電環境の同定 Identifying charge density and dielectric environment of graphene using Raman spectroscopy and deep learning ( http://arxiv.org/abs/2203.00431v1 ) ライセンス: Link先を確認 | Zhuofa Chen, Yousif Khaireddin, Anna K. Swan | (参考訳) ひずみ、電荷密度、誘電体環境などのグラフェンの性質に対する環境の影響はラマン分光法によって評価できる。
これらの環境相互作用は、重なり合う方法でスペクトルに影響するため、決定が容易ではない。
背景減算やピークフィッティングなどのデータプリプロセッシングは通常使用される。
さらに、収集された分光データは、異なる実験装置や環境によって異なる。
このような変異、アーティファクト、環境の違いは、正確なスペクトル分析において課題となる。
本研究では,このような変動の影響を克服し,異なる電荷密度と誘電体環境に応じてグラフェンラマンスペクトルを分類する深層学習モデルを開発した。
我々は,電荷密度や誘電体環境の異なるスペクトルを分類するディープラーニングモデルと機械学習アルゴリズムの2つのアプローチを検討した。
これら2つの手法は高い信号対雑音データに対して同様の成功率を示す。
しかし、ディープラーニングモデルはノイズに対する感度が低い。
すべてのモデルの精度と一般化を改善するために、加算ノイズとピークシフトによるデータ拡張を用いる。
畳み込みニューラルネットワーク(CNN)モデルを用いて,99%の精度でスペクトル分類を行った。
CNNモデルは、電荷ドーピングレベルが異なるグラフェンのラマンスペクトルを分類することができ、さらに、SiO$_2$上のグラフェンとシラン化グラフェンとのスペクトルの微妙な変化も得る。
本手法は,グラフェンドーピングレベルと誘電体環境の高速かつ信頼性の高い推定を可能にする。
提案モデルでは, グラフェンの特性評価のために, 効率的な分析ツールを実現する方法を示す。 The impact of the environment on graphene's properties such as strain, charge density, and dielectric environment can be evaluated by Raman spectroscopy. These environmental interactions are not trivial to determine, since they affect the spectra in overlapping ways. Data preprocessing such as background subtraction and peak fitting is typically used. Moreover, collected spectroscopic data vary due to different experimental setups and environments. Such variations, artifacts, and environmental differences pose a challenge in accurate spectral analysis. In this work, we developed a deep learning model to overcome the effects of such variations and classify graphene Raman spectra according to different charge densities and dielectric environments. We consider two approaches: deep learning models and machine learning algorithms to classify spectra with slightly different charge density or dielectric environment. These two approaches show similar success rates for high Signal-to-Noise data. However, deep learning models are less sensitive to noise. To improve the accuracy and generalization of all models, we use data augmentation through additive noise and peak shifting. We demonstrated the spectra classification with 99% accuracy using a convolutional neural net (CNN) model. The CNN model is able to classify Raman spectra of graphene with different charge doping levels and even subtle variation in the spectra between graphene on SiO$_2$ and graphene on silanized SiO$_2$. Our approach has the potential for fast and reliable estimation of graphene doping levels and dielectric environments. The proposed model paves the way for achieving efficient analytical tools to evaluate the properties of graphene. | 翻訳日:2022-03-02 15:41:06 公開日:2022-02-25 |
# 非均質拡散のブロブ法とマルチエージェント制御とサンプリングへの応用 A blob method method for inhomogeneous diffusion with applications to multi-agent control and sampling ( http://arxiv.org/abs/2202.12927v1 ) ライセンス: Link先を確認 | Katy Craig, Karthik Elamvazhuthi, Matt Haberland, Olga Turanova | (参考訳) 線形拡散方程式の古典的確率的粒子法に対する反点として、重み付き多孔質媒質方程式(WPME)の決定論的粒子法を開発し、その収束性を有界時間間隔で証明する。
これは、非重み付き多孔質媒質方程式に対するブロブ法に関する関連する研究を一般化する。
数値解析の観点からは, メッシュフリーであり, 基礎となるpdeの勾配流構造を保ち, 任意の次元に収束し, シミュレーションにおける正しい漸近的挙動を捉えている。
本稿では,WPMEの長期的挙動を量子化における関連する問題の観点から捉えた。
Fokker-Planck 方程式が確率測度 $\bar{\rho}$ を確率的ランゲヴィン力学(英語版)に従って経験測度を進化させ、その経験測度が $\bar{\rho}$ へと流れるようにすることで、我々の粒子法は WMPE を近似する決定論的粒子力学に従って $\bar{\rho}$ を定量化する方法を提供する。
このようにして本手法は,マルチエージェントカバレッジアルゴリズムやサンプリング確率測度に自然に応用できる。
本手法の具体例は,放射基底関数活性化関数のための2層ニューラルネットワークをトレーニングする平均場動力学に対応する。
この観点から、収束結果は、過度にパラメトリケートされた状態において、ラジアル基底関数の分散が 0 になるにつれて、連続極限は WPME によって与えられることを示している。
これは、一様データ分布の場合に考慮された以前の結果をより一般的な不均質な設定に一般化する。
その結果,エネルギー景観の凸性が連続体限界に現れる対象関数とデータ分布の条件を同定した。 As a counterpoint to classical stochastic particle methods for linear diffusion equations, we develop a deterministic particle method for the weighted porous medium equation (WPME) and prove its convergence on bounded time intervals. This generalizes related work on blob methods for unweighted porous medium equations. From a numerical analysis perspective, our method has several advantages: it is meshfree, preserves the gradient flow structure of the underlying PDE, converges in arbitrary dimension, and captures the correct asymptotic behavior in simulations. That our method succeeds in capturing the long time behavior of WPME is significant from the perspective of related problems in quantization. Just as the Fokker-Planck equation provides a way to quantize a probability measure $\bar{\rho}$ by evolving an empirical measure according to stochastic Langevin dynamics so that the empirical measure flows toward $\bar{\rho}$, our particle method provides a way to quantize $\bar{\rho}$ according to deterministic particle dynamics approximating WMPE. In this way, our method has natural applications to multi-agent coverage algorithms and sampling probability measures. A specific case of our method corresponds exactly to the mean-field dynamics of training a two-layer neural network for a radial basis function activation function. From this perspective, our convergence result shows that, in the over parametrized regime and as the variance of the radial basis functions goes to zero, the continuum limit is given by WPME. This generalizes previous results, which considered the case of a uniform data distribution, to the more general inhomogeneous setting. As a consequence of our convergence result, we identify conditions on the target function and data distribution for which convexity of the energy landscape emerges in the continuum limit. | 翻訳日:2022-03-01 18:20:55 公開日:2022-02-25 |
# 球面高調波展開の近似最適再構成 Near Optimal Reconstruction of Spherical Harmonic Expansions ( http://arxiv.org/abs/2202.12995v1 ) ライセンス: Link先を確認 | Amir Zandieh, Insu Han, Haim Avron | (参考訳) 本稿では,D次元単位球面$\mathbb{S}^{d-1}$上で定義される関数の球面調和展開を,関数評価の近似数を用いて頑健に回復するアルゴリズムを提案する。
任意の$f \in L^2(\mathbb{S}^{d-1})$に対して、その次数-$q$球高調波展開に必要な$f$の評価数は、対数係数の少なくとも$q$の球高調波空間の次元と等しいことを示す。
さらに,一様サンプリング点上の関数を$\mathbb{s}^{d-1}$ で評価することによって,f$ の次数-$q$ 拡大を回収する単純かつ効率的なアルゴリズムを開発した。
本アルゴリズムは, 球面調和とゲゲンバウアー多項式の接続に基づいて, スコアサンプリング手法を利用する。
高速球面調和変換の以前の結果とは異なり、提案アルゴリズムは任意の次元のサンプルのほぼ最適な数を用いて効率的に動作する。
さらに,数値例によるアルゴリズムの実証的性能について述べる。 We propose an algorithm for robust recovery of the spherical harmonic expansion of functions defined on the d-dimensional unit sphere $\mathbb{S}^{d-1}$ using a near-optimal number of function evaluations. We show that for any $f \in L^2(\mathbb{S}^{d-1})$, the number of evaluations of $f$ needed to recover its degree-$q$ spherical harmonic expansion equals the dimension of the space of spherical harmonics of degree at most $q$ up to a logarithmic factor. Moreover, we develop a simple yet efficient algorithm to recover degree-$q$ expansion of $f$ by only evaluating the function on uniformly sampled points on $\mathbb{S}^{d-1}$. Our algorithm is based on the connections between spherical harmonics and Gegenbauer polynomials and leverage score sampling methods. Unlike the prior results on fast spherical harmonic transform, our proposed algorithm works efficiently using a nearly optimal number of samples in any dimension d. We further illustrate the empirical performance of our algorithm on numerical examples. | 翻訳日:2022-03-01 18:20:20 公開日:2022-02-25 |
# ciscNet - シングルブランチセルインスタンスのセグメンテーションと分類ネットワーク ciscNet -- A Single-Branch Cell Instance Segmentation and Classification Network ( http://arxiv.org/abs/2202.13960v1 ) ライセンス: Link先を確認 | Moritz B\"ohland, Oliver Neumann, Marcel P. Schilling, Markus Reischl, Ralf Mikut, Katharina L\"offler, Tim Scherr | (参考訳) 細胞核のセグメンテーションと分類は、病理学者の意思決定を助けるために必要である。
Colon Nuclei Identification and Counting Challenge 2022 (CoNIC Challenge 2022) は、病理画像の分類法と分類法の開発を支援している。
本稿では,細胞核の分別,分別,計数を行うためのcoNIC Challenge 2022法について述べるとともに,予備評価結果を報告する。
私たちのコードはhttps://git.scc.kit.edu/ciscnet/ciscnet-conic-2022で利用可能です。 Automated cell nucleus segmentation and classification are required to assist pathologists in their decision making. The Colon Nuclei Identification and Counting Challenge 2022 (CoNIC Challenge 2022) supports the development and comparability of segmentation and classification methods for histopathological images. In this contribution, we describe our CoNIC Challenge 2022 method ciscNet to segment, classify and count cell nuclei, and report preliminary evaluation results. Our code is available at https://git.scc.kit.edu/ciscnet/ciscnet-conic-2022. | 翻訳日:2022-03-01 17:27:40 公開日:2022-02-25 |
# プロジェクティブランキングに基づくGNN侵入攻撃 Projective Ranking-based GNN Evasion Attacks ( http://arxiv.org/abs/2202.12993v1 ) ライセンス: Link先を確認 | He Zhang, Xingliang Yuan, Chuan Zhou, Shirui Pan | (参考訳) グラフニューラルネットワーク(gnns)は、グラフ関連タスクのための有望な学習方法を提供する。
しかし、GNNは敵の攻撃の危険にさらされている。
1) 現在のgradargmaxは摂動の「長期的な」利点を無視している。
特定の状況では、ゼログレードと無効な利益の見積もりに直面します。
2) 強化学習に基づく攻撃手法では, 攻撃予算が変化しても, 学習した攻撃戦略は伝達できない可能性がある。
この目的のために,まず摂動空間を定式化し,評価枠組みと射影ランキング法を提案する。
我々は、強力な攻撃戦略を学び、動的予算設定の下で敵のサンプルを生成するために可能な限り適応することを目指している。
本手法では, 相互情報に基づいて, 効果的な攻撃戦略のための各摂動の攻撃効果をランク付けし, 評価する。
戦略を投影することにより,攻撃予算が変更された場合,新たな攻撃戦略を学習するコストを劇的に削減する。
GradArgmax と RL-S2V との比較評価の結果,本手法は高い攻撃性能と効果的な転送性を有することが示された。
また,本手法の可視化により,対向サンプルの生成における様々な攻撃パターンが明らかになった。 Graph neural networks (GNNs) offer promising learning methods for graph-related tasks. However, GNNs are at risk of adversarial attacks. Two primary limitations of the current evasion attack methods are highlighted: (1) The current GradArgmax ignores the "long-term" benefit of the perturbation. It is faced with zero-gradient and invalid benefit estimates in certain situations. (2) In the reinforcement learning-based attack methods, the learned attack strategies might not be transferable when the attack budget changes. To this end, we first formulate the perturbation space and propose an evaluation framework and the projective ranking method. We aim to learn a powerful attack strategy then adapt it as little as possible to generate adversarial samples under dynamic budget settings. In our method, based on mutual information, we rank and assess the attack benefits of each perturbation for an effective attack strategy. By projecting the strategy, our method dramatically minimizes the cost of learning a new attack strategy when the attack budget changes. In the comparative assessment with GradArgmax and RL-S2V, the results show our method owns high attack performance and effective transferability. The visualization of our method also reveals various attack patterns in the generation of adversarial samples. | 翻訳日:2022-03-01 17:24:15 公開日:2022-02-25 |
# カルラシミュレーターにおける自走エージェントの攻撃と欠陥注入 -経験報告- Attacks and Faults Injection in Self-Driving Agents on the Carla Simulator -- Experience Report ( http://arxiv.org/abs/2202.12991v1 ) ライセンス: Link先を確認 | Niccol\`o Piazzesi, Massimo Hong, Andrea Ceccarelli | (参考訳) 機械学習アプリケーションは、ほとんどの運転タスクで実現可能な技術であるため、自動運転の基礎として認識されている。
しかし、訓練されたエージェントを自動車システムに組み込むことで、新たな攻撃や障害に晒され、ドライビングタスクの安全性が脅かされる可能性がある。
本稿では,運転シミュレータで動作する自動運転エージェントにおいて,敵攻撃やソフトウェア障害の注入に関する実験的キャンペーンを報告する。
訓練されたエージェントに注入された敵の攻撃や障害は誤った判断を招き、安全性を著しく損なう可能性がある。
本稿は,オープンソースのsimula-torとツールに基づいた,実現可能かつ容易に再現可能なアプローチを示し,その結果から保護策と広範なテストキャンペーンの両方の必要性を明確に示唆する。 Machine Learning applications are acknowledged at the foundation of autonomous driving, because they are the enabling technology for most driving tasks. However, the inclusion of trained agents in automotive systems exposes the vehicle to novel attacks and faults, that can result in safety threats to the driv-ing tasks. In this paper we report our experimental campaign on the injection of adversarial attacks and software faults in a self-driving agent running in a driving simulator. We show that adversarial attacks and faults injected in the trained agent can lead to erroneous decisions and severely jeopardize safety. The paper shows a feasible and easily-reproducible approach based on open source simula-tor and tools, and the results clearly motivate the need of both protective measures and extensive testing campaigns. | 翻訳日:2022-03-01 17:19:37 公開日:2022-02-25 |
# vecchia近似を用いたスケーラブルガウス過程回帰と変数選択 Scalable Gaussian-process regression and variable selection using Vecchia approximations ( http://arxiv.org/abs/2202.12981v1 ) ライセンス: Link先を確認 | Jian Cao, Joseph Guinness, Marc G. Genton, Matthias Katzfuss | (参考訳) ガウス過程(英: Gaussian process、GP)は、不確実性を自然に定量化する回帰に対するフレキシブルで非パラメトリックなアプローチである。
多くのアプリケーションでは、応答数と共変量の両方が大きく、その応答に関連する共変量を選択することが目的である。
本研究では,Vecchia GP近似に基づくペナル化GPログ類似度を最適化し,精度行列の余分なコレスキー係数を示す空間統計量から順序付き条件近似を行う,新しい拡張性アルゴリズム VGPR を提案する。
我々は, 正則化経路を強いペナライゼーションから弱いペナライゼーションへトラバースし, 対数類似度の勾配に基づく候補共変数を逐次追加し, 新たな二次制約付き座標降下アルゴリズムを用いて無関係な共変量を選択する。
偏りのない勾配推定器を提供するVecchiaベースのミニバッチサブサンプリングを提案する。
結果として得られる手順は、数百万の応答と数千の共変量に対してスケーラブルである。
理論的解析と数値的研究は、既存の手法と比較してスケーラビリティと精度が向上したことを示している。 Gaussian process (GP) regression is a flexible, nonparametric approach to regression that naturally quantifies uncertainty. In many applications, the number of responses and covariates are both large, and a goal is to select covariates that are related to the response. For this setting, we propose a novel, scalable algorithm, coined VGPR, which optimizes a penalized GP log-likelihood based on the Vecchia GP approximation, an ordered conditional approximation from spatial statistics that implies a sparse Cholesky factor of the precision matrix. We traverse the regularization path from strong to weak penalization, sequentially adding candidate covariates based on the gradient of the log-likelihood and deselecting irrelevant covariates via a new quadratic constrained coordinate descent algorithm. We propose Vecchia-based mini-batch subsampling, which provides unbiased gradient estimators. The resulting procedure is scalable to millions of responses and thousands of covariates. Theoretical analysis and numerical studies demonstrate the improved scalability and accuracy relative to existing methods. | 翻訳日:2022-03-01 17:14:32 公開日:2022-02-25 |
# 欠落データの存在下でのフレキシブルな変数選択 Flexible variable selection in the presence of missing data ( http://arxiv.org/abs/2202.12989v1 ) ライセンス: Link先を確認 | B. D. Williamson and Y. Huang | (参考訳) 多くのアプリケーションにおいて、応答を予測する上で望ましいレベルのパフォーマンスを達成する複数の候補から、同種の機能セット、またはパネルを特定することが関心がある。
このタスクは、サンプリング設計やその他のランダムなメカニズムから生じるデータの欠如によって、しばしば複雑になる。
欠落したデータ文脈における変数選択に関する最近の研究は、有限次元統計モデル(例えば、一般化またはペナル化線形モデル)に依存している。
このモデルが不特定化されている場合、選択された変数は必ずしも科学的に関連づけられず、サブ最適分類性能を持つパネルとなる可能性がある。
この制限に対処するために、複数の非パラメトリック変数選択アルゴリズムと複数のインプットを組み合わせることで、非ランダムデータの存在下でフレキシブルなパネルを開発する。
提案手法は,一般的な誤り率の制御を行うアルゴリズムに基づく戦略を概説する。
シミュレーションにより,提案手法の動作特性は良好であり,既存のペナル化回帰手法と比較して高い分類性能を有するパネルが得られた。
最後に, 検体数が少ないため, 複雑なバイオマーカーの欠如が生じた症例において, 膵嚢胞を異なる悪性度で分離するためのバイオマーカーパネルの開発を行った。 In many applications, it is of interest to identify a parsimonious set of features, or panel, from multiple candidates that achieves a desired level of performance in predicting a response. This task is often complicated in practice by missing data arising from the sampling design or other random mechanisms. Most recent work on variable selection in missing data contexts relies in some part on a finite-dimensional statistical model (e.g., a generalized or penalized linear model). In cases where this model is misspecified, the selected variables may not all be truly scientifically relevant and can result in panels with suboptimal classification performance. To address this limitation, we propose several nonparametric variable selection algorithms combined with multiple imputation to develop flexible panels in the presence of missing-at-random data. We outline strategies based on the proposed algorithms that achieve control of commonly used error rates. Through simulations, we show that our proposals have good operating characteristics and result in panels with higher classification performance compared to several existing penalized regression approaches. Finally, we use the proposed methods to develop biomarker panels for separating pancreatic cysts with differing malignancy potential in a setting where complicated missingness in the biomarkers arose due to limited specimen volumes. | 翻訳日:2022-03-01 17:12:46 公開日:2022-02-25 |
# face-swap deepfakeビデオのモデル帰属 Model Attribution of Face-swap Deepfake Videos ( http://arxiv.org/abs/2202.12951v1 ) ライセンス: Link先を確認 | Shan Jia, Xin Li, Siwei Lyu | (参考訳) aiが生成したフェイススワップビデオは、一般的にはdeepfakesと呼ばれ、強力な偽装攻撃として広く注目を集めている。
既存のDeepfakesの研究は、主に、本物と偽のビデオを区別するためのバイナリ検出に焦点を当てている。
しかし、偽ビデオの特定の生成モデルを決定することも重要である。
本稿では,Deepfakeビデオのモデル属性問題を研究することにより,このギャップを埋める。
まず,複数のAutoencoderモデルに基づくDFDM(DeepFakes from Different Models)を用いた新しいデータセットを提案する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、同じ入力に基づいて合計6450のDeepfakeビデオを生成する。
次に、Deepfakesモデル属性を多クラス分類タスクとして、新しいデータセットにおけるDeepfakes間の差異を探索するための空間的および時間的注意に基づく手法を提案する。
実験により,既存のDeepfakes検出手法のほとんどはDeepfakesモデル帰属に失敗し,提案手法は高品質なDFDMデータセット上で70%以上の精度を達成した。 AI-created face-swap videos, commonly known as Deepfakes, have attracted wide attention as powerful impersonation attacks. Existing research on Deepfakes mostly focuses on binary detection to distinguish between real and fake videos. However, it is also important to determine the specific generation model for a fake video, which can help attribute it to the source for forensic investigation. In this paper, we fill this gap by studying the model attribution problem of Deepfake videos. We first introduce a new dataset with DeepFakes from Different Models (DFDM) based on several Autoencoder models. Specifically, five generation models with variations in encoder, decoder, intermediate layer, input resolution, and compression ratio have been used to generate a total of 6,450 Deepfake videos based on the same input. Then we take Deepfakes model attribution as a multiclass classification task and propose a spatial and temporal attention based method to explore the differences among Deepfakes in the new dataset. Experimental evaluation shows that most existing Deepfakes detection methods failed in Deepfakes model attribution, while the proposed method achieved over 70% accuracy on the high-quality DFDM dataset. | 翻訳日:2022-03-01 17:11:29 公開日:2022-02-25 |
# 適応型ビデオストリーミング品質評価に関する簡単な調査 A Brief Survey on Adaptive Video Streaming Quality Assessment ( http://arxiv.org/abs/2202.12987v1 ) ライセンス: Link先を確認 | Wei Zhou, Xiongkuo Min, Hong Li, Qiuping Jiang | (参考訳) qoe(quality of experience) 適応型ビデオストリーミングの評価は、高度なネットワーク管理システムにおいて重要な役割を担っている。
HTTP(DASH)上の動的適応ストリーミングスキームでは特に困難であり、追加の再生問題を含む複雑な特徴が増している。
本稿では,適応型ビデオストリーミング品質評価の概要について述べる。
関連研究のレビューでは,対象QoE評価モデルの様々なバリエーションを,適応型ビデオストリーミングのための機械学習技術を用いて分析・比較する。
性能分析を通じて,qos駆動型qoeアプローチと信号忠実度測定の両方よりもハイブリッドモデルの方が優れた性能を示す。
さらに、機械学習ベースのモデルは、同じ設定で機械学習を使わずに、モデルをわずかに上回る。
また,既存のビデオストリーミングqoe評価モデルでは性能が制限されているため,実用的な通信システムでは適用が困難である。
そこで,本研究では,従来の映像品質予測における深層学習特徴表現の成功を活かし,市販の深層畳み込みニューラルネットワーク(dcnn)を用いて,ストリーミング映像の時空間特性を考慮した知覚的品質評価を行う。
実験は、適応型ビデオストリーミング品質評価のための特別に設計されたディープラーニングフレームワークの将来の開発に光を当てる、その優位性を実証する。
この調査は、適応型ビデオストリーミングのQoE評価のガイドラインとして役立つと考えている。 Quality of experience (QoE) assessment for adaptive video streaming plays a significant role in advanced network management systems. It is especially challenging in case of dynamic adaptive streaming schemes over HTTP (DASH) which has increasingly complex characteristics including additional playback issues. In this paper, we provide a brief overview of adaptive video streaming quality assessment. Upon our review of related works, we analyze and compare different variations of objective QoE assessment models with or without using machine learning techniques for adaptive video streaming. Through the performance analysis, we observe that hybrid models perform better than both quality-of-service (QoS) driven QoE approaches and signal fidelity measurement. Moreover, the machine learning-based model slightly outperforms the model without using machine learning for the same setting. In addition, we find that existing video streaming QoE assessment models still have limited performance, which makes it difficult to be applied in practical communication systems. Therefore, based on the success of deep learned feature representations for traditional video quality prediction, we also apply the off-the-shelf deep convolutional neural network (DCNN) to evaluate the perceptual quality of streaming videos, where the spatio-temporal properties of streaming videos are taken into consideration. Experiments demonstrate its superiority, which sheds light on the future development of specifically designed deep learning frameworks for adaptive video streaming quality assessment. We believe this survey can serve as a guideline for QoE assessment of adaptive video streaming. | 翻訳日:2022-03-01 17:11:09 公開日:2022-02-25 |
# 自然照度下における複雑景観のSVBRDF推定のための多視点勾配整合性 Multi-view Gradient Consistency for SVBRDF Estimation of Complex Scenes under Natural Illumination ( http://arxiv.org/abs/2202.13017v1 ) ライセンス: Link先を確認 | Alen Joy and Charalambos Poullis | (参考訳) 本稿では,自然照明下で観測される複雑なシーンの表面反射率の空間的変化を推定する手法を提案する。
従来の方法とは対照的に, 制御された照明条件下でのシーンに限らず, 任意の照明条件下での複雑な屋内・屋外のシーンを処理できる。
エンド・ツー・エンドのプロセスでは、シーンの形状のモデルと、任意の視点から様々な自然照明条件下でシーンの表面をキャプチャする複数の画像を使用する。
我々は,最小二乗等角写像を利用して,シーンに現れる複数の不整合オブジェクトを扱う微分可能な経路トレーサを開発した。
我々は2段階の最適化プロセスに従い、画像再構成損失を最大30~50%改善する多視点勾配整合性損失を導入し、他の最先端技術と比較して拡散スペクトルBRDFの歪みを更に改善することができる。
本研究では,野生の画像から実世界の屋内・屋外のシーンを再現し,推定反射特性を用いて実画像と整合したリアルなレンダリングを実現できることを示す。
実験により, 複雑な形状を持つ任意の屋外シーンに対して, 現実的な結果が得られた。
ソースコードは、https://gitlab.com/alen.joy/multi-view-gradient-consistency-for-svbrdf-estimation-of-complex-scenes- under-natural-illuminationで公開されている。 This paper presents a process for estimating the spatially varying surface reflectance of complex scenes observed under natural illumination. In contrast to previous methods, our process is not limited to scenes viewed under controlled lighting conditions but can handle complex indoor and outdoor scenes viewed under arbitrary illumination conditions. An end-to-end process uses a model of the scene's geometry and several images capturing the scene's surfaces from arbitrary viewpoints and under various natural illumination conditions. We develop a differentiable path tracer that leverages least-square conformal mapping for handling multiple disjoint objects appearing in the scene. We follow a two-step optimization process and introduce a multi-view gradient consistency loss which results in up to 30-50% improvement in the image reconstruction loss and can further achieve better disentanglement of the diffuse and specular BRDFs compared to other state-of-the-art. We demonstrate the process in real-world indoor and outdoor scenes from images in the wild and show that we can produce realistic renders consistent with actual images using the estimated reflectance properties. Experiments show that our technique produces realistic results for arbitrary outdoor scenes with complex geometry. The source code is publicly available at: https://gitlab.com/alen.joy/multi-view-gradient-consistency-for-svbrdf-estimation-of-complex-scenes- under-natural-illumination | 翻訳日:2022-03-01 17:10:48 公開日:2022-02-25 |
# ディープニューラルネットワーク最適化を高速化するハードウェア・アウェアシステム A Hardware-Aware System for Accelerating Deep Neural Network Optimization ( http://arxiv.org/abs/2202.12954v1 ) ライセンス: Link先を確認 | Anthony Sarah, Daniel Cummings, Sharath Nittur Sridhar, Sairam Sundaresan, Maciej Szankin, Tristan Webb, J. Pablo Munoz | (参考訳) ハードウェアに依存しない「スーパーネットワーク」から特別なハードウェア対応構成(サブネットワーク)を抽出するニューラルネットワークサーチ(NAS)の最近の進歩は、ますます人気が高まっている。
第1段階、すなわちスーパーネットワークの訓練に多大な努力が払われているが、派生的な高性能サブネットワークの探索はいまだに未調査である。
例えば、最近のネットワークモーフィズム技術では、スーパーネットワークを一度訓練し、必要に応じてハードウェア固有のネットワークを抽出することができる。
これらの手法はサブネットワーク探索からスーパーネットワークトレーニングを分離し、異なるハードウェアプラットフォームへの特殊化の計算負荷を低減する。
本稿では,様々な性能指標とハードウェア構成に最適化された事前学習スーパーネットワークから,サブネットワークを自動的にかつ効率的に検出する総合システムを提案する。
新しい探索戦術とアルゴリズムを予測器のインテリジェントな利用と組み合わせることで、与えられたスーパーネットワークから最適なサブネットワークを見つけるのに必要な時間を大幅に削減する。
さらに,本手法では,対象のタスクを優先的に改良する必要がなく,任意のスーパーネットワークとのインタフェースが可能である。
複数のドメインにおける既存の最先端のスーパーネットワークトレーニング手法とシームレスに動作することを示す。
さらに,新たな探索手法と進化アルゴリズムを組み合わせることで,対象空間のパレート・フロントの多様性を維持しつつ,resnet50,mobilenetv3,transformerの検索プロセスを高速化し,最先端ベイズ最適化の弱さアプローチよりも8倍高速に検索結果を示す。 Recent advances in Neural Architecture Search (NAS) which extract specialized hardware-aware configurations (a.k.a. "sub-networks") from a hardware-agnostic "super-network" have become increasingly popular. While considerable effort has been employed towards improving the first stage, namely, the training of the super-network, the search for derivative high-performing sub-networks is still largely under-explored. For example, some recent network morphism techniques allow a super-network to be trained once and then have hardware-specific networks extracted from it as needed. These methods decouple the super-network training from the sub-network search and thus decrease the computational burden of specializing to different hardware platforms. We propose a comprehensive system that automatically and efficiently finds sub-networks from a pre-trained super-network that are optimized to different performance metrics and hardware configurations. By combining novel search tactics and algorithms with intelligent use of predictors, we significantly decrease the time needed to find optimal sub-networks from a given super-network. Further, our approach does not require the super-network to be refined for the target task a priori, thus allowing it to interface with any super-network. We demonstrate through extensive experiments that our system works seamlessly with existing state-of-the-art super-network training methods in multiple domains. Moreover, we show how novel search tactics paired with evolutionary algorithms can accelerate the search process for ResNet50, MobileNetV3 and Transformer while maintaining objective space Pareto front diversity and demonstrate an 8x faster search result than the state-of-the-art Bayesian optimization WeakNAS approach. | 翻訳日:2022-03-01 16:49:51 公開日:2022-02-25 |
# 方針提示モンテカルロ木探索による非定常環境における意思決定 Decision Making in Non-Stationary Environments with Policy-Augmented Monte Carlo Tree Search ( http://arxiv.org/abs/2202.13003v1 ) ライセンス: Link先を確認 | Geoffrey Pettet, Ayan Mukhopadhyay, Abhishek Dubey | (参考訳) 不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
DMU問題に対する一般的なアプローチである強化学習(RL)は、オフラインで環境モデルと対話することでポリシーを学ぶ。
残念なことに、もし環境が変化すれば、政策は不安定になり、準最適行動を取ることができ、更新された環境に対するポリシーの再学習には時間と計算の労力がかかる。
別の方法として、モンテカルロ木探索(mcts)のようなオンライン計画手法があり、決定時に計算を行う。
現在の環境を考えると、MCTSは将来的な行動軌跡を決定するために高忠実度モデルを使用する計画である。
これらのモデルは、環境変化を検出してすぐに意思決定に組み込むとすぐに更新できる。
しかし、MCTSの収束は大きな状態作用空間を持つ領域では遅くなる。
本稿では,rlの強みと計画の強みを融合し,弱みを緩和する新たなハイブリッド意思決定手法を提案する。
提案手法はPA-MCTS(Policy Augmented MCTS)と呼ばれ,ポリシーのアクチン値推定値をMCTSに統合し,その推定値を用いて検索に好まれる行動軌跡を抽出する。
我々は,PA-MCTSが標準MCTSよりも早く収束する一方で,非定常環境に直面した場合の政策よりも優れた意思決定を行うという仮説を立てる。
PA-MCTSと純粋なMCTSと古典的なCartPole環境に適用したRLエージェントを比較し,本仮説を検証した。
その結果,pc-mctsは,いくつかの環境変化下で,個別の政策よりも高い累積報酬を得られることが判明した。 Decision-making under uncertainty (DMU) is present in many important problems. An open challenge is DMU in non-stationary environments, where the dynamics of the environment can change over time. Reinforcement Learning (RL), a popular approach for DMU problems, learns a policy by interacting with a model of the environment offline. Unfortunately, if the environment changes the policy can become stale and take sub-optimal actions, and relearning the policy for the updated environment takes time and computational effort. An alternative is online planning approaches such as Monte Carlo Tree Search (MCTS), which perform their computation at decision time. Given the current environment, MCTS plans using high-fidelity models to determine promising action trajectories. These models can be updated as soon as environmental changes are detected to immediately incorporate them into decision making. However, MCTS's convergence can be slow for domains with large state-action spaces. In this paper, we present a novel hybrid decision-making approach that combines the strengths of RL and planning while mitigating their weaknesses. Our approach, called Policy Augmented MCTS (PA-MCTS), integrates a policy's actin-value estimates into MCTS, using the estimates to seed the action trajectories favored by the search. We hypothesize that PA-MCTS will converge more quickly than standard MCTS while making better decisions than the policy can make on its own when faced with nonstationary environments. We test our hypothesis by comparing PA-MCTS with pure MCTS and an RL agent applied to the classical CartPole environment. We find that PC-MCTS can achieve higher cumulative rewards than the policy in isolation under several environmental shifts while converging in significantly fewer iterations than pure MCTS. | 翻訳日:2022-03-01 16:49:21 公開日:2022-02-25 |
# Gumebel-Softmaxによる有効サブネットの抽出 Extracting Effective Subnetworks with Gumebel-Softmax ( http://arxiv.org/abs/2202.12986v1 ) ライセンス: Link先を確認 | Robin Dupont, Mohammed Amine Alaoui, Hichem Sahbi, Alice Lebois | (参考訳) 大規模でパフォーマンスの高いニューラルネットワークは、しばしば過度にパラメータ化され、プルーニングによってサイズと複雑さが大幅に削減される。
プルーニング(pruning)は、ネットワーク内の余分な重みまたは不要な重みのグループを取り除くためのメソッドのグループである。
これらの技術は、組み込みアプリケーションやモバイルアプリケーションで特に重要な軽量ネットワークの作成を可能にする。
本稿では,より大規模な未学習者から有効なサブネットを抽出できる代替プルーニング法を提案する。
提案手法は確率的であり,Gumbel Softmaxを用いてサンプル化した様々なトポロジを探索することによりサブネットを抽出する。
後者は、サンプルトポロジにおける重みの関連性を測定する確率分布の訓練にも用いられる。
結果として生じるサブネットワークは、トレーニング時間を短縮し、パフォーマンスを改善する、非常に効率的な再スケーリングメカニズムを使用してさらに強化される。
CIFAR10で行った大規模な実験は,我々のサブネットワーク抽出法が関連する作業に対して優れていることを示す。 Large and performant neural networks are often overparameterized and can be drastically reduced in size and complexity thanks to pruning. Pruning is a group of methods, which seeks to remove redundant or unnecessary weights or groups of weights in a network. These techniques allow the creation of lightweight networks, which are particularly critical in embedded or mobile applications. In this paper, we devise an alternative pruning method that allows extracting effective subnetworks from larger untrained ones. Our method is stochastic and extracts subnetworks by exploring different topologies which are sampled using Gumbel Softmax. The latter is also used to train probability distributions which measure the relevance of weights in the sampled topologies. The resulting subnetworks are further enhanced using a highly efficient rescaling mechanism that reduces training time and improves performances. Extensive experiments conducted on CIFAR10 show the outperformance of our subnetwork extraction method against the related work. | 翻訳日:2022-03-01 16:45:45 公開日:2022-02-25 |
# 光フローを用いた動作情報を用いた弱修正インスタンス分割 Weakly Supervised Instance Segmentation using Motion Information via Optical Flow ( http://arxiv.org/abs/2202.13006v1 ) ライセンス: Link先を確認 | Jun Ikeda and Junichiro Mori | (参考訳) モデルトレーニングに必要なピクセルレベルのマスクのアノテーションコストを低減し,教師付きインスタンスセグメンテーションが普及している。
静的画像から得られた外観情報を用いた弱教師付きインスタンスセグメンテーションの検出とセグメントオブジェクトに対する最近のアプローチ
しかし、非差別的な外観を持つ物体を識別することは困難である。
本研究では,画像からの動き情報を用いてこの問題に対処する。
画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。
さらに,セグメンテーションを監督するために,出現情報と動作情報の両方を考慮した新しいペアワイズ損失を提案する。
我々は,YouTube-VIS 2019ベンチマークデータセットについて広範な評価を行った。
その結果,提案手法は最先端手法の平均精度を3.1向上させることができた。 Weakly supervised instance segmentation has gained popularity because it reduces high annotation cost of pixel-level masks required for model training. Recent approaches for weakly supervised instance segmentation detect and segment objects using appearance information obtained from a static image. However, it poses the challenge of identifying objects with a non-discriminatory appearance. In this study, we address this problem by using motion information from image sequences. We propose a two-stream encoder that leverages appearance and motion features extracted from images and optical flows. Additionally, we propose a novel pairwise loss that considers both appearance and motion information to supervise segmentation. We conducted extensive evaluations on the YouTube-VIS 2019 benchmark dataset. Our results demonstrate that the proposed method improves the Average Precision of the state-of-the-art method by 3.1. | 翻訳日:2022-03-01 16:45:31 公開日:2022-02-25 |
# HCIL: 長期漁業視覚モニタリングのための階層型クラスインクリメンタルラーニング HCIL: Hierarchical Class Incremental Learning for Longline Fishing Visual Monitoring ( http://arxiv.org/abs/2202.13018v1 ) ライセンス: Link先を確認 | Jie Mei, Suzanne Romain, Craig Rose, Kelsey Magrane, Jenq-Neng Hwang | (参考訳) 長期魚釣りの電子的監視の目標は、規制順守または漁獲計数のため、カメラに基づいて漁船の漁獲活動を視覚的に監視することである。
従来の階層分類法では,漁獲過程において魚が過度な変形と自己閉塞状態にある長期漁獲物の効率的な魚種同定が示されている。
階層的な分類は、異なる階層レベルで信頼度スコアを提供することで、ヒューマンレビューの労力を軽減するが、そのパフォーマンスは、クラスインクリメンタル学習(cil)シナリオの下で劇的に低下する。
cilシステムは、データストリームから、時間とともにより多くのクラスについて学ぶことが可能でなければなりません。つまり、少数のクラスのトレーニングデータのみを最初に存在し、新しいクラスを段階的に追加する必要があります。
本稿では,CILシナリオ下での最先端階層分類法を大幅に改善する階層型クラスインクリメンタルラーニング(HCIL)モデルを提案する。 The goal of electronic monitoring of longline fishing is to visually monitor the fish catching activities on fishing vessels based on cameras, either for regulatory compliance or catch counting. The previous hierarchical classification method demonstrates efficient fish species identification of catches from longline fishing, where fishes are under severe deformation and self-occlusion during the catching process. Although the hierarchical classification mitigates the laborious efforts of human reviews by providing confidence scores in different hierarchical levels, its performance drops dramatically under the class incremental learning (CIL) scenario. A CIL system should be able to learn about more and more classes over time from a stream of data, i.e., only the training data for a small number of classes have to be present at the beginning and new classes can be added progressively. In this work, we introduce a Hierarchical Class Incremental Learning (HCIL) model, which significantly improves the state-of-the-art hierarchical classification methods under the CIL scenario. | 翻訳日:2022-03-01 16:45:18 公開日:2022-02-25 |
# 制約満足度問題への高次確率グラフモデルの適用に関する漸進的推論 Incremental Inference on Higher-Order Probabilistic Graphical Models Applied to Constraint Satisfaction Problems ( http://arxiv.org/abs/2202.12916v1 ) ライセンス: Link先を確認 | Simon Streicher | (参考訳) 確率的グラフィカルモデル(PGM)は複雑な確率的関係を解決するためのツールである。
しかし、主に準最適PGM構造が用いられる。
この論文はPGM文学に3つの貢献をしている。
1つ目は、Sudokusのようなグラフ彩色問題における因子グラフとクラスタグラフの比較である。
2つ目は、地図学における現実的な問題である土地被覆分類促進へのクラスターグラフの適用である。
3つ目は、制約満足度問題に対するPGMの定式化と、従来のPGMでは複雑すぎる問題を解決するためにPurge-and-mergeと呼ばれるアルゴリズムである。 Probabilistic graphical models (PGMs) are tools for solving complex probabilistic relationships. However, suboptimal PGM structures are primarily used in practice. This dissertation presents three contributions to the PGM literature. The first is a comparison between factor graphs and cluster graphs on graph colouring problems such as Sudokus - indicating a significant advantage for preferring cluster graphs. The second is an application of cluster graphs to a practical problem in cartography: land cover classification boosting. The third is a PGMs formulation for constraint satisfaction problems and an algorithm called purge-and-merge to solve such problems too complex for traditional PGMs. | 翻訳日:2022-03-01 16:32:06 公開日:2022-02-25 |
# 政策依存型最適化応答を用いたオフポリティ評価 Off-Policy Evaluation with Policy-Dependent Optimization Response ( http://arxiv.org/abs/2202.12958v1 ) ライセンス: Link先を確認 | Wenshuo Guo, Michael I. Jordan, Angela Zhou | (参考訳) 因果推論と意思決定のための機械学習の交点が急速に拡大しているが、デフォルトの決定基準は、人口全体にわたる個々の因果結果の \textit{average} のままである。
実際には、さまざまな運用上の制限により、意思決定者のユーティリティが、下流の意思決定問題(マッチング、代入、ネットワークフロー、予測リスクの最小化など)の \textit{average} として実現されることが保証される。
本研究では, 目的関数係数に確率性を導入する因果的結果について, \textit{policy-dependent} 線形最適化応答を用いて, オフポリシー評価のための新しいフレームワークを開発した。
このフレームワークでは、意思決定者のユーティリティはポリシー依存の最適化に依存しており、ポリシー評価の場合でさえ、 \textit{optimization} バイアスの根本的な挑戦をもたらす。
摂動法による政策依存推定のための非バイアス推定器を構築する。
また、この摂動法に適合するように調整された一連のプラグイン回帰推定器の漸近変動特性についても論じる。
最後に、不偏ポリシー評価を達成することで、政策最適化が可能となり、因果的介入を最適化するための一般的なアルゴリズムを提供する。
我々は数値シミュレーションで理論結果を裏付ける。 The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with a \textit{policy-dependent} linear optimization response: causal outcomes introduce stochasticity in objective function coefficients. In this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method. We also discuss the asymptotic variance properties for a set of plug-in regression estimators adjusted to be compatible with that perturbation method. Lastly, attaining unbiased policy evaluation allows for policy optimization, and we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations. | 翻訳日:2022-03-01 16:31:55 公開日:2022-02-25 |
# 画像における自己監督学習の洗練:リニアメトリックを超えて Refining Self-Supervised Learning in Imaging: Beyond Linear Metric ( http://arxiv.org/abs/2202.12921v1 ) ライセンス: Link先を確認 | Bo Jiang, Hamid Krim, Tianfu Wu, Derya Cansever | (参考訳) 本稿では,jaccard類似度メトリクスを指標として,自己教師付きコントラスト学習の喪失における非線形特徴を効果的に引き出すための新しい統計的視点を提案する。
特に,提案手法は,いわゆる潜在表現から学習した2つの適応射影間の依存測度として解釈できる。
これは、相関情報を考慮した従来のコントラスト学習モデルにおけるコサイン類似性尺度とは対照的である。
我々の知る限りでは、この事実上非線形に融合した情報は、Jaccardの類似性に埋め込まれており、将来有望な結果を伴う自己超越学習に新しいものである。
提案手法は、3つの画像データセット上の2つの最先端の自己教師付きコントラスト学習手法と比較される。
現在のML問題に適用可能であるだけでなく、パフォーマンスやトレーニングの効率も向上しています。 We introduce in this paper a new statistical perspective, exploiting the Jaccard similarity metric, as a measure-based metric to effectively invoke non-linear features in the loss of self-supervised contrastive learning. Specifically, our proposed metric may be interpreted as a dependence measure between two adapted projections learned from the so-called latent representations. This is in contrast to the cosine similarity measure in the conventional contrastive learning model, which accounts for correlation information. To the best of our knowledge, this effectively non-linearly fused information embedded in the Jaccard similarity, is novel to self-supervision learning with promising results. The proposed approach is compared to two state-of-the-art self-supervised contrastive learning methods on three image datasets. We not only demonstrate its amenable applicability in current ML problems, but also its improved performance and training efficiency. | 翻訳日:2022-03-01 15:44:06 公開日:2022-02-25 |
# FSGANv2: 顔スワッピングと再現の改善 FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment ( http://arxiv.org/abs/2202.12972v1 ) ライセンス: Link先を確認 | Yuval Nirkin, Yosi Keller, Tal Hassner | (参考訳) 顔交換と再現のためにFSGAN(Face Swapping GAN)を提案する。
従来とは違って,顔のトレーニングを必要とせず,顔のペアに適用可能な対象非依存スワップ方式を提案する。
本研究では,1つの画像や映像列に適用可能な重要なポーズや表現のバリエーションを調整できる,新しい反復的ディープラーニングに基づく顔再現手法を提案する。
映像系列に対しては,再現性,デラウナイ三角測量,および偏心座標に基づく連続的な顔の補間を導入する。
蓄積された顔領域は、フェース補完ネットワークによって処理される。
最後に,顔ブレンディングネットワークを用いて,肌の色や照明条件を保ちながら,両顔のシームレスなブレンドを行う。
このネットワークは、ポアソン最適化と知覚損失を組み合わせた新しいポアソン混合損失を使用する。
本手法を既存の最先端システムと比較し, 質的, 定量的に両立することを示す。
本研究は,本研究のカンファレンス版で提案されているfsgan法の拡張と追加実験と結果について述べる。 We present Face Swapping GAN (FSGAN) for face swapping and reenactment. Unlike previous work, we offer a subject agnostic swapping scheme that can be applied to pairs of faces without requiring training on those faces. We derive a novel iterative deep learning--based approach for face reenactment which adjusts significant pose and expression variations that can be applied to a single image or a video sequence. For video sequences, we introduce a continuous interpolation of the face views based on reenactment, Delaunay Triangulation, and barycentric coordinates. Occluded face regions are handled by a face completion network. Finally, we use a face blending network for seamless blending of the two faces while preserving the target skin color and lighting conditions. This network uses a novel Poisson blending loss combining Poisson optimization with a perceptual loss. We compare our approach to existing state-of-the-art systems and show our results to be both qualitatively and quantitatively superior. This work describes extensions of the FSGAN method, proposed in an earlier conference version of our work, as well as additional experiments and results. | 翻訳日:2022-03-01 15:43:52 公開日:2022-02-25 |
# OptGAN: 条件付きテキスト間GANの潜時空間の最適化と解釈 OptGAN: Optimizing and Interpreting the Latent Space of the Conditional Text-to-Image GANs ( http://arxiv.org/abs/2202.12929v1 ) ライセンス: Link先を確認 | Zhenxing Zhang and Lambert Schomaker | (参考訳) テキストから画像への生成は、テキスト記述に基づくフォトリアリスティックな画像を自動的に生成することを目的としている。
これは、アート作成、データ拡張、フォト編集などの分野に応用できる可能性がある。
この課題に多くの努力が注がれているが、信じられない自然の場面を生み出すことは特に困難である。
テキスト・画像合成の現実的な応用を促進するため、以下の3つの課題に焦点をあてる。
1) 生成したサンプルが信頼性,現実性,あるいは自然であることを保証するには,どうすればよいのか?
2) 合成画像の編集に発電機の潜在空間をどのように活用するか?
3)テキスト・画像生成フレームワークの説明可能性を改善するには?
本研究では,厳格な基準に従って,成功例と失敗例からなる2つの新しいデータセット( good & bad bird と face データセット)を構築した。
良質な遅延符号を生成する確率を高めて高画質な画像を効果的に効率よく取得するために、生成した画像に専用グッド/バッド分類器を用いる。
事前訓練されたフロントエンドに基づいており、提案されているGood & Badデータセットに基づいて微調整されている。
そこで,本稿では,生成器の事前学習した重み値の独立成分分析を行うことにより,条件付きテキスト・イメージGANアーキテクチャの潜時空間における意味的理解可能な方向を同定するアルゴリズムを提案する。
さらに,編集画像の背景表示を改善するために背景フラット化損失(bfl)を開発する。
次に,キーワード対間の線形補間解析を導入する。
これは同様に三角形の「言語的」補間に拡張され、言語埋め込みの中でテキスト-画像合成モデルが何を学んだのかを深く観察する。
私たちのデータセットはhttps://zenodo.org/record/6283798#で利用可能です。
YhkN_ujMI2w。 Text-to-image generation intends to automatically produce a photo-realistic image, conditioned on a textual description. It can be potentially employed in the field of art creation, data augmentation, photo-editing, etc. Although many efforts have been dedicated to this task, it remains particularly challenging to generate believable, natural scenes. To facilitate the real-world applications of text-to-image synthesis, we focus on studying the following three issues: 1) How to ensure that generated samples are believable, realistic or natural? 2) How to exploit the latent space of the generator to edit a synthesized image? 3) How to improve the explainability of a text-to-image generation framework? In this work, we constructed two novel data sets (i.e., the Good & Bad bird and face data sets) consisting of successful as well as unsuccessful generated samples, according to strict criteria. To effectively and efficiently acquire high-quality images by increasing the probability of generating Good latent codes, we use a dedicated Good/Bad classifier for generated images. It is based on a pre-trained front end and fine-tuned on the basis of the proposed Good & Bad data set. After that, we present a novel algorithm which identifies semantically-understandable directions in the latent space of a conditional text-to-image GAN architecture by performing independent component analysis on the pre-trained weight values of the generator. Furthermore, we develop a background-flattening loss (BFL), to improve the background appearance in the edited image. Subsequently, we introduce linear interpolation analysis between pairs of keywords. This is extended into a similar triangular `linguistic' interpolation in order to take a deep look into what a text-to-image synthesis model has learned within the linguistic embeddings. Our data set is available at https://zenodo.org/record/6283798#.YhkN_ujMI2w. | 翻訳日:2022-03-01 14:52:59 公開日:2022-02-25 |
# ANTLER: ベイズ的非線形テンソル学習と非構造化・可変点クラウドデータのモデリング ANTLER: Bayesian Nonlinear Tensor Learning and Modeler for Unstructured, Varying-Size Point Cloud Data ( http://arxiv.org/abs/2202.13788v1 ) ライセンス: Link先を確認 | Michael Biehler, Hao Yan, Jianjun Shi | (参考訳) 様々な大きさの非構造点雲は、レーザー三角測量や光検出・追跡(LiDAR)を通じて、様々な環境で取得される。
非構造化点雲に基づくスカラー応答の予測は、様々なアプリケーションで発生する一般的な問題である。
現在の文献は、ポイントクラウドデータを分析するために構造化サブサンプリングや特徴抽出など、いくつかの前処理ステップに依存している。
これらの手法は量子化アーティファクトにつながり、回帰応答と前処理中の点雲の関係を考慮しない。
そこで本研究では,非構造化・可変点クラウドデータとスカラーあるいは多変量応答の関係をモデル化する汎用的・包括的非線形テンソル学習モデル(ANTLER)を提案する。
提案するアントラーは, 非線形テンソル次元の低減と3次元点クラウド入力とスカラーあるいは多変量応答を持つ非線形回帰モデルを同時に最適化する。
ANTLERは複雑なデータ表現、高次元性、および3Dポイントクラウドデータの一貫性のないサイズを考慮できる。 Unstructured point clouds with varying sizes are increasingly acquired in a variety of environments through laser triangulation or Light Detection and Ranging (LiDAR). Predicting a scalar response based on unstructured point clouds is a common problem that arises in a wide variety of applications. The current literature relies on several pre-processing steps such as structured subsampling and feature extraction to analyze the point cloud data. Those techniques lead to quantization artifacts and do not consider the relationship between the regression response and the point cloud during pre-processing. Therefore, we propose a general and holistic "Bayesian Nonlinear Tensor Learning and Modeler" (ANTLER) to model the relationship of unstructured, varying-size point cloud data with a scalar or multivariate response. The proposed ANTLER simultaneously optimizes a nonlinear tensor dimensionality reduction and a nonlinear regression model with a 3D point cloud input and a scalar or multivariate response. ANTLER has the ability to consider the complex data representation, high-dimensionality,and inconsistent size of the 3D point cloud data. | 翻訳日:2022-03-01 14:49:36 公開日:2022-02-25 |
# ネットワークトランスを用いた自己監視・解釈可能な異常検出 Self-Supervised and Interpretable Anomaly Detection using Network Transformers ( http://arxiv.org/abs/2202.12997v1 ) ライセンス: Link先を確認 | Daniel L. Marino, Chathurika S. Wickramasinghe, Craig Rieger, Milos Manic | (参考訳) コンピュータネットワークにおけるトラフィックの監視は、サイバー攻撃に対する重要なインフラストラクチャを守るための重要なアプローチの1つだ。
機械学習(ML)とディープニューラルネットワーク(DNN)は、コンピュータネットワーク内の異常を識別するツールとして過去に提案されている。
これらの異常を検出することは攻撃の兆候を与えるが、異常を検出するだけでは、ユーザが異常を理解するのに十分な情報ではない。
オフザシェルフMLモデルのブラックボックスの性質は、障害/攻撃源を分離し、補正措置をとるために基本となる重要な情報を抽出することを防ぐ。
本稿では,通信ネットワークのグラフ構造を組み込んだ異常検出用DNNモデルであるNetwork Transformer(NeT)について述べる。
提案されたアプローチには次のような利点がある。
1) コンピュータネットワークのグラフ構造を組み込むことによる解釈性の向上
2) 異なるレベルの粒度の分析を可能にする階層的な特徴セットを提供する。
3)ラベル付きデータを必要としない自己指導型トレーニング。
提案手法は,産業制御システム(ICS)における異常検出成功の評価により検証された。
提案手法は,サイバーネットワークの動作解析のためのデータ駆動階層的アプローチを提供し,異常,影響を受けるデバイス,異常を引き起こす特定の接続を同定することに成功した。 Monitoring traffic in computer networks is one of the core approaches for defending critical infrastructure against cyber attacks. Machine Learning (ML) and Deep Neural Networks (DNNs) have been proposed in the past as a tool to identify anomalies in computer networks. Although detecting these anomalies provides an indication of an attack, just detecting an anomaly is not enough information for a user to understand the anomaly. The black-box nature of off-the-shelf ML models prevents extracting important information that is fundamental to isolate the source of the fault/attack and take corrective measures. In this paper, we introduce the Network Transformer (NeT), a DNN model for anomaly detection that incorporates the graph structure of the communication network in order to improve interpretability. The presented approach has the following advantages: 1) enhanced interpretability by incorporating the graph structure of computer networks; 2) provides a hierarchical set of features that enables analysis at different levels of granularity; 3) self-supervised training that does not require labeled data. The presented approach was tested by evaluating the successful detection of anomalies in an Industrial Control System (ICS). The presented approach successfully identified anomalies, the devices affected, and the specific connections causing the anomalies, providing a data-driven hierarchical approach to analyze the behavior of a cyber network. | 翻訳日:2022-03-01 14:49:02 公開日:2022-02-25 |
# 医療応用のための統合型マルチモーダル人工知能フレームワーク Integrated multimodal artificial intelligence framework for healthcare applications ( http://arxiv.org/abs/2202.12998v1 ) ライセンス: Link先を確認 | Luis R. Soenksen, Yu Ma, Cynthia Zeng, Leonard D.J. Boussioux, Kimberly Villalobos Carballo, Liangyuan Na, Holly M. Wiberg, Michael L. Li, Ignacio Fuentes, Dimitris Bertsimas | (参考訳) 人工知能(AI)システムは今後数十年にわたって医療を改善することを約束している。
具体的には、複数のデータソースと入力モダリティを活用するAIシステムは、より正確な結果を提供するための実行可能な方法になり、幅広いアプリケーションにわたってパイプラインをデプロイできるようになります。
本研究では,マルチモーダル入力を利用するAIシステムの生成とテストを容易にするために,統合されたHolistic AI in Medicine(HAIM)フレームワークを提案し,評価する。
このアプローチでは、一般化可能なデータ前処理と機械学習モデリングステージを使用し、医療環境における研究やデプロイメントに容易に適応できる。
我々は,7,279個のユニークな入院患者と6,485人の患者を含むマルチモーダル臨床データベース(n=34,537例),4種類のデータモダリティ(表,時系列,テキスト,画像など),11種類のユニークなデータソースと12の予測タスクを含む,14,324個の独立したモデルを訓練し,特徴付けすることで,haimフレームワークを評価した。
このフレームワークは、様々な医療実演(6~33%)で類似の単一ソースアプローチを上回る、一貫して堅牢にモデルを作成できることを示し、胸部病理診断10例と、長期生存と48時間の死亡予測を行った。
また,shapley値を用いて各モダリティとデータソースの寄与度を定量化し,データ型の重要性の多様性と,さまざまな医療関連タスクにまたがるマルチモーダル入力の必要性を示す。
当社のHolistic AI in Medicine(HAIM)フレームワークの一般化可能な特性と柔軟性は、臨床および手術医療設定における将来のマルチモーダル予測システムにとって有望な経路を提供する可能性がある。 Artificial intelligence (AI) systems hold great promise to improve healthcare over the next decades. Specifically, AI systems leveraging multiple data sources and input modalities are poised to become a viable method to deliver more accurate results and deployable pipelines across a wide range of applications. In this work, we propose and evaluate a unified Holistic AI in Medicine (HAIM) framework to facilitate the generation and testing of AI systems that leverage multimodal inputs. Our approach uses generalizable data pre-processing and machine learning modeling stages that can be readily adapted for research and deployment in healthcare environments. We evaluate our HAIM framework by training and characterizing 14,324 independent models based on MIMIC-IV-MM, a multimodal clinical database (N=34,537 samples) containing 7,279 unique hospitalizations and 6,485 patients, spanning all possible input combinations of 4 data modalities (i.e., tabular, time-series, text and images), 11 unique data sources and 12 predictive tasks. We show that this framework can consistently and robustly produce models that outperform similar single-source approaches across various healthcare demonstrations (by 6-33%), including 10 distinct chest pathology diagnoses, along with length-of-stay and 48-hour mortality predictions. We also quantify the contribution of each modality and data source using Shapley values, which demonstrates the heterogeneity in data type importance and the necessity of multimodal inputs across different healthcare-relevant tasks. The generalizable properties and flexibility of our Holistic AI in Medicine (HAIM) framework could offer a promising pathway for future multimodal predictive systems in clinical and operational healthcare settings. | 翻訳日:2022-03-01 14:48:44 公開日:2022-02-25 |
# CAKE: マルチビュー知識グラフ補完のためのスケーラブルなCommonsense-Awareフレームワーク CAKE: A Scalable Commonsense-Aware Framework For Multi-View Knowledge Graph Completion ( http://arxiv.org/abs/2202.13785v1 ) ライセンス: Link先を確認 | Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu | (参考訳) 知識グラフは、必然的に不完全である間に、多数の実数三重を格納する。
これまでの知識グラフ補完(KGC)モデルは、ファクトビューデータにのみ依存するエンティティ間の欠落を予測し、貴重なコモンセンス知識を無視した。
従来の知識グラフ埋め込み(KGE)技術は、不正なネガティブサンプリングとファクトビューリンク予測の不確実性に悩まされ、KGCの性能が制限された。
上記の課題に対処するため、我々は、現実の三重項から実体概念を自動抽出する、新しくスケーラブルなCommonsense-Aware Knowledge Embedding (CAKE)フレームワークを提案する。
生成したコモンセンスは、高品質なネガティブサンプリング(NS)と共同コモンセンスとファクトビューリンク予測の両方を容易にする効果的な自己スーパービジョンを増強する。
KGC タスクにおける実験結果から,我々のフレームワークを組み立てることによって,元の KGE モデルの性能が向上し,提案する Commonsense-Aware NS モジュールが他の NS 技術よりも優れていることが示された。
さらに,提案するフレームワークは,様々なKGEモデルに容易に適応でき,予測結果を説明できる。 Knowledge graphs store a large number of factual triples while they are still incomplete, inevitably. The previous knowledge graph completion (KGC) models predict missing links between entities merely relying on fact-view data, ignoring the valuable commonsense knowledge. The previous knowledge graph embedding (KGE) techniques suffer from invalid negative sampling and the uncertainty of fact-view link prediction, limiting KGC's performance. To address the above challenges, we propose a novel and scalable Commonsense-Aware Knowledge Embedding (CAKE) framework to automatically extract commonsense from factual triples with entity concepts. The generated commonsense augments effective self-supervision to facilitate both high-quality negative sampling (NS) and joint commonsense and fact-view link prediction. Experimental results on the KGC task demonstrate that assembling our framework could enhance the performance of the original KGE models, and the proposed commonsense-aware NS module is superior to other NS techniques. Besides, our proposed framework could be easily adaptive to various KGE models and explain the predicted results. | 翻訳日:2022-03-01 14:26:40 公開日:2022-02-25 |
# 構造的潜在常微分方程式による動作可能ダイナミクスのキャプチャ Capturing Actionable Dynamics with Structured Latent Ordinary Differential Equations ( http://arxiv.org/abs/2202.12932v1 ) ライセンス: Link先を確認 | Paidamoyo Chapfuwa, Sherri Rose, Lawrence Carin, Edward Meeds, Ricardo Henao | (参考訳) ニューラル常微分方程式(ODE)のようなブラックボックスモデルを用いた力学系のエンドツーエンド学習は、力学の数学的モデルを記述することなく、データから力学を学習するための柔軟なフレームワークを提供する。
残念ながら、この柔軟性は、ODEがユビキタスに使用される動的システムを理解するコストが伴う。
さらに、処理などの様々な条件(入力)で実験データを収集したり、サブ人口の一部など何らかの方法でグループ化したりする。
これらのシステム入力がシステム出力に与える影響を理解することは、動的システムの有意義なモデルを持つことに不可欠である。
そこで我々は,その潜在表現におけるシステム入力の変動を明示的に捉えた構造的潜在odeモデルを提案する。
静的な潜在変数仕様に基づいて,システムへの入力毎に変動の(独立な)確率的要因を学習し,潜在空間におけるシステム入力の効果を分離する。
このアプローチは、新しい入力の組み合わせ(あるいは摂動)のための時系列データの生成を制御することによって、アクション可能なモデリングを提供する。
さらに,不確実性を定量化するための柔軟な手法を提案する。
生体データセットに挑戦する実験結果は、観測データの制御された生成における競合ベースラインよりも一貫した改善と、生物学的に有意義なシステム入力の予測を示す。 End-to-end learning of dynamical systems with black-box models, such as neural ordinary differential equations (ODEs), provides a flexible framework for learning dynamics from data without prescribing a mathematical model for the dynamics. Unfortunately, this flexibility comes at the cost of understanding the dynamical system, for which ODEs are used ubiquitously. Further, experimental data are collected under various conditions (inputs), such as treatments, or grouped in some way, such as part of sub-populations. Understanding the effects of these system inputs on system outputs is crucial to have any meaningful model of a dynamical system. To that end, we propose a structured latent ODE model that explicitly captures system input variations within its latent representation. Building on a static latent variable specification, our model learns (independent) stochastic factors of variation for each input to the system, thus separating the effects of the system inputs in the latent space. This approach provides actionable modeling through the controlled generation of time-series data for novel input combinations (or perturbations). Additionally, we propose a flexible approach for quantifying uncertainties, leveraging a quantile regression formulation. Experimental results on challenging biological datasets show consistent improvements over competitive baselines in the controlled generation of observational data and prediction of biologically meaningful system inputs. | 翻訳日:2022-03-01 14:18:07 公開日:2022-02-25 |
# 確率的変分推論を伴う一般化ガウス過程潜在変数モデル(GPLVM) Generalised Gaussian Process Latent Variable Models (GPLVM) with Stochastic Variational Inference ( http://arxiv.org/abs/2202.12979v1 ) ライセンス: Link先を確認 | Vidhi Lalchand, Aditya Ravuri, Neil D. Lawrence | (参考訳) ガウス過程潜在変数モデル(英: Gaussian process latent variable model, GPLVM)は、古典ガウス過程を教師なし学習コンテキストに拡張する、次元還元に対する柔軟で非線形なアプローチである。
gplvm titsias and lawrence, 2010] のベイズ的インカーネーションは変分的枠組み(英語版)を用いており、後方の潜伏変数は十分に整備された変分族(英語版)によって近似される。
しかし、下限の非リファクタリング能力は本当にスケーラブルな推論を妨げます。
本研究では,ミニバッチ訓練によるベイズ型gplvmモデルの二重確率的定式化について検討する。
このフレームワークが、異なる潜在変数の定式化とどのように互換性を持つかを示し、モデルの組を比較する実験を行う。
さらに,欠落したデータの存在下でのトレーニングを行い,高忠実度再構築を実現する方法を示す。
我々は,高次元データ例に対して標準sparse gplvmをベンチマークすることにより,モデルの性能を実証する。 Gaussian process latent variable models (GPLVM) are a flexible and non-linear approach to dimensionality reduction, extending classical Gaussian processes to an unsupervised learning context. The Bayesian incarnation of the GPLVM Titsias and Lawrence, 2010] uses a variational framework, where the posterior over latent variables is approximated by a well-behaved variational family, a factorized Gaussian yielding a tractable lower bound. However, the non-factories ability of the lower bound prevents truly scalable inference. In this work, we study the doubly stochastic formulation of the Bayesian GPLVM model amenable with minibatch training. We show how this framework is compatible with different latent variable formulations and perform experiments to compare a suite of models. Further, we demonstrate how we can train in the presence of massively missing data and obtain high-fidelity reconstructions. We demonstrate the model's performance by benchmarking against the canonical sparse GPLVM for high-dimensional data examples. | 翻訳日:2022-03-01 14:17:46 公開日:2022-02-25 |
# 小群最適腕を用いた非定常バンディットとメタラーニング Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms ( http://arxiv.org/abs/2202.13001v1 ) ライセンス: Link先を確認 | MohammadJavad Azizi, Thang Duong, Yasin Abbasi-Yadkori, Andr\'as Gy\"orgy, Claire Vernade, Mohammad Ghavamzadeh | (参考訳) 学習者がk$-armed確率的バンディットタスクのシーケンスに直面する逐次的決定問題について検討する。
タスクは敵が設計することもあるが、敵は各タスクの最適なアームをM$アームより小さい(不明)サブセットで選択することを制約される。
タスク境界は既知のもの(ビジット・メタラーニング・セッティング)、未知のもの(ビジット・メタラーニング・セッティング)、およびタスク数$N$、ラウンド数$T$が知られている(メタラーニング・セッティングではN$が未知のもの)。
我々は,帯域幅の極大化を減らしたアルゴリズムを設計し,非定常帯域幅問題のために設計された標準アルゴリズムを用いて得られる$\tilde{O}(\sqrt{KNT})$の単純なベースラインよりも,両方の設定における後悔が小さいことを示す。
固定タスク長$\tau$のバンドイットメタ学習問題に対して、アルゴリズムの後悔は$\tilde{O}(N\sqrt{M \tau}+N^{2/3})$と有界であることを示す。
各タスクにおける最適なアームの識別可能性に関する追加の仮定の下で、$\tilde{o}(n\sqrt{m \tau}+n^{1/2})$ regret を改良したバンドイットメタラーニングアルゴリズムを示す。 We study a sequential decision problem where the learner faces a sequence of $K$-armed stochastic bandit tasks. The tasks may be designed by an adversary, but the adversary is constrained to choose the optimal arm of each task in a smaller (but unknown) subset of $M$ arms. The task boundaries might be known (the bandit meta-learning setting), or unknown (the non-stationary bandit setting), and the number of tasks $N$ as well as the total number of rounds $T$ are known ($N$ could be unknown in the meta-learning setting). We design an algorithm based on a reduction to bandit submodular maximization, and show that its regret in both settings is smaller than the simple baseline of $\tilde{O}(\sqrt{KNT})$ that can be obtained by using standard algorithms designed for non-stationary bandit problems. For the bandit meta-learning problem with fixed task length $\tau$, we show that the regret of the algorithm is bounded as $\tilde{O}(N\sqrt{M \tau}+N^{2/3})$. Under additional assumptions on the identifiability of the optimal arms in each task, we show a bandit meta-learning algorithm with an improved $\tilde{O}(N\sqrt{M \tau}+N^{1/2})$ regret. | 翻訳日:2022-03-01 14:17:26 公開日:2022-02-25 |
# スペクトルグラフ表現学習のための符号・基底不変ネットワーク Sign and Basis Invariant Networks for Spectral Graph Representation Learning ( http://arxiv.org/abs/2202.13013v1 ) ライセンス: Link先を確認 | Derek Lim, Joshua Robinson, Lingxiao Zhao, Tess Smidt, Suvrit Sra, Haggai Maron, Stefanie Jegelka | (参考訳) 多くの機械学習タスクは、データから派生した固有ベクトルを処理する。
グラフやその他の幾何学的対象に関する有用な構造情報をキャプチャするラプラシア固有ベクトルが特に有用である。
しかし、固有ベクトルを計算すると曖昧さが生じる: 各固有ベクトル $v$ に対して、フリップされた$-v$ も固有ベクトルである。
より一般に、高次元固有空間は基底固有ベクトルの無限個の選択を含む。
これらの曖昧さは固有ベクトルと固有空間を一貫した方法で処理することを困難にしている。
In this work we introduce SignNet and BasisNet -- new neural architectures that are invariant to all requisite symmetries and hence process collections of eigenspaces in a principled manner. Our networks are universal, i.e., they can approximate any continuous function of eigenvectors with the proper invariances. They are also theoretically strong for graph representation learning -- they can approximate any spectral graph convolution, can compute spectral invariants that go beyond message passing neural networks, and can provably simulate previously proposed graph positional encodings.
スペクトルグラフフィルタとグラフ位置符号化の学習におけるネットワークの強みを示す実験を行った。 Many machine learning tasks involve processing eigenvectors derived from data. Especially valuable are Laplacian eigenvectors, which capture useful structural information about graphs and other geometric objects. However, ambiguities arise when computing eigenvectors: for each eigenvector $v$, the sign flipped $-v$ is also an eigenvector. More generally, higher dimensional eigenspaces contain infinitely many choices of basis eigenvectors. These ambiguities make it a challenge to process eigenvectors and eigenspaces in a consistent way. In this work we introduce SignNet and BasisNet -- new neural architectures that are invariant to all requisite symmetries and hence process collections of eigenspaces in a principled manner. Our networks are universal, i.e., they can approximate any continuous function of eigenvectors with the proper invariances. They are also theoretically strong for graph representation learning -- they can approximate any spectral graph convolution, can compute spectral invariants that go beyond message passing neural networks, and can provably simulate previously proposed graph positional encodings. Experiments show the strength of our networks for learning spectral graph filters and learning graph positional encodings. | 翻訳日:2022-03-01 14:16:56 公開日:2022-02-25 |
# sticky mittensによる探究: オプションテンプレートによるエキスパート介入による強化学習 Exploring with Sticky Mittens: Reinforcement Learning with Expert Interventions via Option Templates ( http://arxiv.org/abs/2202.12967v1 ) ライセンス: Link先を確認 | Souradeep Dutta, Kaustubh Sridhar, Osbert Bastani, Edgar Dobriban, James Weimer, Insup Lee, Julia Parish-Morris | (参考訳) 少ない報酬と長い地平線を持つ環境は、現在の強化学習アルゴリズムに重大な課題をもたらす。
人間が困難なコントロールタスクを学習できる重要な特徴は、低レベルのコントロールアクションをマスターする前に、タスクの高レベルの構造を理解するための専門家の介入をしばしば受けられることである。
本稿では,長期強化学習課題の解決に専門家の介入を活用する枠組みを提案する。
我々は、強化学習を用いてトレーニング可能な潜在的オプションを符号化する仕様であるオプションテンプレートを検討する。
エージェントが実装を学ぶ前にオプションテンプレートを実行できるように、専門家の介入を定式化する。
これにより、学習に高価なリソースを投入する前に、オプションを使用できるようになる。
本研究では,3つの強化学習問題に対するアプローチを評価した結果,最先端のアプローチを桁違いに上回る結果となった。
Project website at https://sites.google.com/view/stickymittens Environments with sparse rewards and long horizons pose a significant challenge for current reinforcement learning algorithms. A key feature enabling humans to learn challenging control tasks is that they often receive expert intervention that enables them to understand the high-level structure of the task before mastering low-level control actions. We propose a framework for leveraging expert intervention to solve long-horizon reinforcement learning tasks. We consider option templates, which are specifications encoding a potential option that can be trained using reinforcement learning. We formulate expert intervention as allowing the agent to execute option templates before learning an implementation. This enables them to use an option, before committing costly resources to learning it. We evaluate our approach on three challenging reinforcement learning problems, showing that it outperforms state of-the-art approaches by an order of magnitude. Project website at https://sites.google.com/view/stickymittens | 翻訳日:2022-03-01 13:32:25 公開日:2022-02-25 |
# 大規模会議における論文とレビュアーのマッチング Matching Papers and Reviewers at Large Conferences ( http://arxiv.org/abs/2202.12273v2 ) ライセンス: Link先を確認 | Kevin Leyton-Brown and Mausam and Yatin Nandwani and Hedayat Zarkoob and Chris Cameron and Neil Newman and Dinesh Raghu | (参考訳) 本稿では,第35回AAAI AI Conference on Artificial Intelligence (AAAI 2021) に展開され,AAAI 2022 や ICML 2022 など他のカンファレンスにも採用されている,新たなレビュアーペーパーマッチング手法について検討する。
本手法は,(1)問題のあるマッチングを識別し,レビュア紙スコアを生成するための入力データの収集と処理,(2)優れたレビュア紙マッチングを見つけるための最適化問題の定式化と解決,(3)拒絶される可能性のある論文から決定境界に近い論文へリソースを移行させる新たな2段階レビュープロセスの導入,の3つの要素を有する。
本稿では,AAAI の以前の (2020) イテレーションで使用されるマッチングアルゴリズムとの比較を含む,実データに対する広範なポストホック解析に基づくこれらのイノベーションの評価を行い,これを追加の数値実験で補足する。 This paper studies a novel reviewer-paper matching approach that was recently deployed in the 35th AAAI Conference on Artificial Intelligence (AAAI 2021), and has since been adopted by other conferences including AAAI 2022 and ICML 2022. This approach has three main elements: (1) collecting and processing input data to identify problematic matches and generate reviewer-paper scores; (2) formulating and solving an optimization problem to find good reviewer-paper matchings; and (3) the introduction of a novel, two-phase reviewing process that shifted reviewing resources away from papers likely to be rejected and towards papers closer to the decision boundary. This paper also describes an evaluation of these innovations based on an extensive post-hoc analysis on real data -- including a comparison with the matching algorithm used in AAAI's previous (2020) iteration -- and supplements this with additional numerical experimentation. | 翻訳日:2022-03-01 10:14:28 公開日:2022-02-25 |
# (参考訳) ディープニューラルネットワークを用いた時系列データの長期欠落値計算 Long-Term Missing Value Imputation for Time Series Data Using Deep Neural Networks ( http://arxiv.org/abs/2202.12441v1 ) ライセンス: CC BY 4.0 | Jangho Park, Juliane Muller, Bhavna Arora, Boris Faybishenko, Gilberto Pastorello, Charuleka Varadharajan, Reetik Sahu, Deborah Agarwal | (参考訳) 本稿では,多変量時系列データ中の変数の欠落値を推定するために,ディープラーニングモデル,特にMultiLayer Perceptron(MLP)を用いたアプローチを提案する。
我々は、ランダムに欠落した個々の観察よりも、長い連続的なギャップ(例えば、日々の観察の欠如など)を埋めることに注力する。
提案アルゴリズムは,最適MLPモデルアーキテクチャを決定する自動手法を用いて,与えられた時系列に対して最適な予測性能を実現する。
我々は, 地下水位, 土壌水分量, 時間毎の生態系交換など, 時系列特性の異なる3つの環境データセットにおいて, 様々な長さ(3ヶ月から3年)の隙間を埋めて実験を行った。
本研究は,r-based time series gap fill method imputets と mtsdi を用いて得られたgap-filled valueの精度を比較検討した。
その結果,大きなギャップを埋めるためにMLPを用いることで,特にデータを非線形に振る舞う場合,より良い結果が得られることがわかった。
したがって,このアプローチでは,長期的環境モニタリング観測に共通する1つの変数に大きなギャップを持つデータセットの利用が可能となる。 We present an approach that uses a deep learning model, in particular, a MultiLayer Perceptron (MLP), for estimating the missing values of a variable in multivariate time series data. We focus on filling a long continuous gap (e.g., multiple months of missing daily observations) rather than on individual randomly missing observations. Our proposed gap filling algorithm uses an automated method for determining the optimal MLP model architecture, thus allowing for optimal prediction performance for the given time series. We tested our approach by filling gaps of various lengths (three months to three years) in three environmental datasets with different time series characteristics, namely daily groundwater levels, daily soil moisture, and hourly Net Ecosystem Exchange. We compared the accuracy of the gap-filled values obtained with our approach to the widely-used R-based time series gap filling methods ImputeTS and mtsdi. The results indicate that using an MLP for filling a large gap leads to better results, especially when the data behave nonlinearly. Thus, our approach enables the use of datasets that have a large gap in one variable, which is common in many long-term environmental monitoring observations. | 翻訳日:2022-03-01 00:22:34 公開日:2022-02-25 |
# (参考訳) ニューラルネットワークのための人間中心概念説明 Human-Centered Concept Explanations for Neural Networks ( http://arxiv.org/abs/2202.12451v1 ) ライセンス: CC BY 4.0 | Chih-Kuan Yeh, Been Kim, Pradeep Ravikumar | (参考訳) 深いニューラルネットワークのような複雑な機械学習モデルを理解することは、様々なアプリケーションにおいて不可欠である。
多くの説明はモデルの観点からおり、なぜモデルが正しい抽象レベルで予測をしているのかを必ずしも効果的に伝えるわけではない。
例えば、画像内の個々のピクセルに重みを与えると、その画像のどの部分がモデルにとって重要であるかしか表現できないが、人間は概念に基づく思考による予測を説明する説明を好むかもしれない。
本稿では,概念に基づく説明の新たな領域について概説する。
まず、神経活性化の適切な空間におけるベクトルを用いた概念を特徴付ける概念活性化ベクトル(CAV)のクラスを含む概念説明を導入し、有用な概念の異なる性質、概念ベクトルの有用性を測定するアプローチについて議論する。
次に、概念を自動的に抽出するアプローチと、それらの注意事項に対処するアプローチについて論じる。
最後に,合成設定や実世界アプリケーションにおける概念に基づく説明の有用性を示すケーススタディについて考察する。 Understanding complex machine learning models such as deep neural networks with explanations is crucial in various applications. Many explanations stem from the model perspective, and may not necessarily effectively communicate why the model is making its predictions at the right level of abstraction. For example, providing importance weights to individual pixels in an image can only express which parts of that particular image are important to the model, but humans may prefer an explanation which explains the prediction by concept-based thinking. In this work, we review the emerging area of concept based explanations. We start by introducing concept explanations including the class of Concept Activation Vectors (CAV) which characterize concepts using vectors in appropriate spaces of neural activations, and discuss different properties of useful concepts, and approaches to measure the usefulness of concept vectors. We then discuss approaches to automatically extract concepts, and approaches to address some of their caveats. Finally, we discuss some case studies that showcase the utility of such concept-based explanations in synthetic settings and real world applications. | 翻訳日:2022-03-01 00:02:57 公開日:2022-02-25 |
# (参考訳) APEACH: 群衆生成ヘイトスピーチ評価データセットの分析による音声表現の攻撃 APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets ( http://arxiv.org/abs/2202.12459v1 ) ライセンス: CC BY-SA 4.0 | Kichang Yang, Wonjun Jang, Won Ik Cho | (参考訳) オンラインコミュニティにおける有害あるいは有害な表現の検出は、ユーザの精神的危害を防止するための主要な関心事の1つとなっている。
これにより、様々なドメインの大規模ヘイトスピーチ検出データセットが開発され、主に群衆労働者によるラベル付きウェブクローリングされたテキスト上に構築された。
しかし、英語以外の言語では、ヘイトスピーチ検出のデータ駆動型研究が欠如しているため、研究者は小規模コーパスのみに頼る必要がある。
これは、plmがしばしば事前学習コーパスの領域を評価セットと共有し、その結果、検出性能が過剰に表現されるため、bertのような事前学習済み言語モデル(plm)の評価を誤解することがある。
また、データセットが単一のドメインテキストで構築されている場合、ペジョラティブ式の範囲は制限される可能性がある。
韓国のヘイトスピーチ検出における上記の問題を緩和するために,未特定ユーザによるヘイトスピーチの収集を可能にするAPEACHを提案する。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,テキスト領域とトピックに関するヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
我々は,公開plmを用いたアノテーションに基づく有毒ニュースコメントデータセットの先行研究と比較した。
我々のデータセットは、評価セットとPLMの事前学習コーパス間の語彙的重複に敏感でないことを確認し、モデル性能の予期せぬ過小評価を緩和するのに役立つことを示す。
我々は,韓国の一般ドメインヘイトスピーチ検出を容易にするために,データセットをオンラインで公開する。 Detecting toxic or pejorative expressions in online communities has become one of the main concerns for preventing the users' mental harm. This led to the development of large-scale hate speech detection datasets of various domains, which are mainly built upon web-crawled texts with labels by crowd workers. However, for languages other than English, researchers might have to rely on only a small-sized corpus due to the lack of data-driven research of hate speech detection. This sometimes misleads the evaluation of prevalently used pretrained language models (PLMs) such as BERT, given that PLMs often share the domain of pretraining corpus with the evaluation set, resulting in over-representation of the detection performance. Also, the scope of pejorative expressions might be restricted if the dataset is built on a single domain text. To alleviate the above problems in Korean hate speech detection, we propose APEACH,a method that allows the collection of hate speech generated by unspecified users. By controlling the crowd-generation of hate speech and adding only a minimum post-labeling, we create a corpus that enables the generalizable and fair evaluation of hate speech detection regarding text domain and topic. We Compare our outcome with prior work on an annotation-based toxic news comment dataset using publicly available PLMs. We check that our dataset is less sensitive to the lexical overlap between the evaluation set and pretraining corpus of PLMs, showing that it helps mitigate the unexpected under/over-representation of model performance. We distribute our dataset publicly online to further facilitate the general-domain hate speech detection in Korean. | 翻訳日:2022-02-28 23:43:37 公開日:2022-02-25 |
# (参考訳) LinkedIn Ad Marketplaceにおけるバイディングエージェント設計 Bidding Agent Design in the LinkedIn Ad Marketplace ( http://arxiv.org/abs/2202.12472v1 ) ライセンス: CC BY 4.0 | Yuan Gao, Kaiyu Yang, Yuanlong Chen, Min Liu, Noureddine El Karoui | (参考訳) 動的オンラインマーケットプレースにおける自動入札エージェントの設計のための汎用最適化フレームワークを構築した。
購入者の利益のためにのみ最適化され、販売者によって課されるオークションメカニズムに依存しない。
結果として、このフレームワークは、例えば、複数のプラットフォームにまたがる広告のグループを、それぞれ独自のオークションフォーマットで共同で最適化することができる。
このフレームワークから派生した入札戦略は、広告ユニットとプラットフォーム間の予算配分の最適性を自動的に保証する。
予算納付スケジュール、投資のリターン、保証結果などの一般的な制約は、入札公式の追加パラメータに直接変換される。
このフレームワークに基づいたLinkedInの広告マーケットプレースで、デプロイされた入札システムの実践的な学習を共有します。 We establish a general optimization framework for the design of automated bidding agent in dynamic online marketplaces. It optimizes solely for the buyer's interest and is agnostic to the auction mechanism imposed by the seller. As a result, the framework allows, for instance, the joint optimization of a group of ads across multiple platforms each running its own auction format. Bidding strategy derived from this framework automatically guarantees the optimality of budget allocation across ad units and platforms. Common constraints such as budget delivery schedule, return on investments and guaranteed results, directly translates to additional parameters in the bidding formula. We share practical learnings of the deployed bidding system in the LinkedIn ad marketplace based on this framework. | 翻訳日:2022-02-28 23:30:32 公開日:2022-02-25 |
# (参考訳) 自己遠絡を用いた構造認識型教師なしTagged-to-Cine MRI合成 Structure-aware Unsupervised Tagged-to-Cine MRI Synthesis with Self Disentanglement ( http://arxiv.org/abs/2202.12474v1 ) ライセンス: CC BY 4.0 | Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El Fakhri, Jonghye Woo | (参考訳) cycle reconstruction regularized adversarial training(サイクリングガン、ディスコガン、デュアルガンなど)は、非ペアトレーニングデータを用いた画像スタイル転送に広く使われている。
しかし、最近のいくつかの研究は局所的な歪みが頻繁であり、構造的整合性は保証できないことを示した。
この問題をターゲットにして、事前の作業は通常、タスク固有の追加のセグメンテーションや一貫性のある機能抽出ステップに依存する。
本研究の目的は、入力と合成画像との間の構造的アライメントを明示的に強制することにより、一般的なアドオン構造特徴抽出器を学習することである。
具体的には, 基礎となる解剖学的構造と画像モダリティの不一致を解消するために, 入力出力画像パッチの自己学習方式を提案する。
トランスレータと構造エンコーダは、交互トレーニングプロトコルに従って更新される。
また、非対称対角ゲームにより、画像モダリティに関する情報w.r.t.を排除できる。
1,768名,416名,および1,560名の被験者非依存スライスを,それぞれ健常者20名からトレーニング,検証,試験を行い,競合法よりも優れた性能を示した。 Cycle reconstruction regularized adversarial training -- e.g., CycleGAN, DiscoGAN, and DualGAN -- has been widely used for image style transfer with unpaired training data. Several recent works, however, have shown that local distortions are frequent, and structural consistency cannot be guaranteed. Targeting this issue, prior works usually relied on additional segmentation or consistent feature extraction steps that are task-specific. To counter this, this work aims to learn a general add-on structural feature extractor, by explicitly enforcing the structural alignment between an input and its synthesized image. Specifically, we propose a novel input-output image patches self-training scheme to achieve a disentanglement of underlying anatomical structures and imaging modalities. The translator and structure encoder are updated, following an alternating training protocol. In addition, the information w.r.t. imaging modality can be eliminated with an asymmetric adversarial game. We train, validate, and test our network on 1,768, 416, and 1,560 unpaired subject-independent slices of tagged and cine magnetic resonance imaging from a total of twenty healthy subjects, respectively, demonstrating superior performance over competing methods. | 翻訳日:2022-02-28 23:20:15 公開日:2022-02-25 |
# (参考訳) 過去から学ぶ:知識蒸留を組み込んだ経験 Learn From the Past: Experience Ensemble Knowledge Distillation ( http://arxiv.org/abs/2202.12488v1 ) ライセンス: CC BY 4.0 | Chaofei Wang, Shaowei Zhang, Shiji Song, Gao Huang | (参考訳) 従来の知識蒸留は,事前学習した教員ネットワークの「暗黒知識」を学生ネットワークに転送し,教師の経験と呼ぶ教師の訓練過程における知識を無視する。
しかし、現実的な教育シナリオでは、学習経験は、しばしば学習結果よりも重要である。
本研究では,教師の知識伝達経験を統合した新しい知識蒸留法であるexperience ensemble knowledge distillation (eekd)を提案する。
教師モデルの学習過程から適度な数の中間モデルを保存するとともに,これらの中間モデルの知識をアンサンブル手法で統合する。
自己アテンションモジュールは、知識伝達の過程で異なる中間モデルに重みを適応的に割り当てるために使用される。
中間モデルの品質,重み,および数に対するEEKD構築の3つの原則について検討する。
意外な結論として、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らない。
CIFAR-100とImageNetの実験結果は、EEKDが主流の知識蒸留法より優れ、最先端技術を実現していることを示している。
特にEEKDは、トレーニングコストの削減という前提で、標準のアンサンブル蒸留を超越している。 Traditional knowledge distillation transfers "dark knowledge" of a pre-trained teacher network to a student network, and ignores the knowledge in the training process of the teacher, which we call teacher's experience. However, in realistic educational scenarios, learning experience is often more important than learning results. In this work, we propose a novel knowledge distillation method by integrating the teacher's experience for knowledge transfer, named experience ensemble knowledge distillation (EEKD). We save a moderate number of intermediate models from the training process of the teacher model uniformly, and then integrate the knowledge of these intermediate models by ensemble technique. A self-attention module is used to adaptively assign weights to different intermediate models in the process of knowledge transfer. Three principles of constructing EEKD on the quality, weights and number of intermediate models are explored. A surprising conclusion is found that strong ensemble teachers do not necessarily produce strong students. The experimental results on CIFAR-100 and ImageNet show that EEKD outperforms the mainstream knowledge distillation methods and achieves the state-of-the-art. In particular, EEKD even surpasses the standard ensemble distillation on the premise of saving training cost. | 翻訳日:2022-02-28 23:10:22 公開日:2022-02-25 |
# (参考訳) テクスチャ画像分類のためのモノニックウェーブレット散乱ネットワーク Monogenic Wavelet Scattering Network for Texture Image Classification ( http://arxiv.org/abs/2202.12491v1 ) ライセンス: CC BY 4.0 | Wai Ho Chak and Naoki Saito | (参考訳) 本発明の散乱変換ネットワーク(STN)は、事前定義された畳み込みフィルタと少数の層を除いて、一般的な畳み込みニューラルネットワークと類似した構造を持ち、小さな変形に対して入力信号の堅牢な表現を生成することができる。
標準STNにおける2次元モードウェーブレットフィルタの置き換えにより, モノジェネティックウェーブレットフィルタと非線形率, 平均演算子のカスケードによる2次元テクスチャ画像分類のための新しいモノジェネリックウェーブレット散乱ネットワーク(MWSN)を提案する。
我々のMWSNは,PCAによりさらに圧縮され,分類器に入力される,解釈可能な係数で有用な階層的・方向的特徴を抽出することができる。
CUReTテクスチャ画像データベースを用いて,標準STNよりもMWSNの方が優れた性能を示す。
この性能改善は1次元分析から2次元単原性への自然な拡張によって説明できる。 The scattering transform network (STN), which has a similar structure as that of a popular convolutional neural network except its use of predefined convolution filters and a small number of layers, can generates a robust representation of an input signal relative to small deformations. We propose a novel Monogenic Wavelet Scattering Network (MWSN) for 2D texture image classification through a cascade of monogenic wavelet filtering with nonlinear modulus and averaging operators by replacing the 2D Morlet wavelet filtering in the standard STN. Our MWSN can extract useful hierarchical and directional features with interpretable coefficients, which can be further compressed by PCA and fed into a classifier. Using the CUReT texture image database, we demonstrate the superior performance of our MWSN over the standard STN. This performance improvement can be explained by the natural extension of 1D analyticity to 2D monogenicity. | 翻訳日:2022-02-28 22:57:55 公開日:2022-02-25 |
# (参考訳) PromDA: 低リソースのNLUタスクのためのpromptベースのデータ拡張 PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks ( http://arxiv.org/abs/2202.12499v1 ) ライセンス: CC BY 4.0 | Yufei Wang, Can Xu, Qingfeng Sun, Huang Hu, Chongyang Tao, Xiubo Geng, Daxin Jiang | (参考訳) 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
フリーズプレトレーニング言語モデル(PLM)において,小型ソフト・プロンプト(訓練可能なベクトルの集合)のみを訓練するPrompt-based D}ata Augmentation Model(PromDA)を提案する。
これにより、ラベルのないドメイン内のデータを収集する作業が回避され、生成された合成データの質が維持される。
さらに、PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
4つのベンチマーク実験により、PromDAが生成した合成データによりNLUモデルの性能が向上し、非ラベル付きドメインデータを用いた最先端の半教師付きモデルなど、いくつかの競争ベースラインモデルを上回る結果が得られた。
promdaの合成データは、ラベルなしのドメイン内データも補完する。
NLUモデルは、トレーニング用に組み合わせることでさらに改善することができる。 This paper focuses on the Data Augmentation for low-resource Natural Language Understanding (NLU) tasks. We propose Prompt-based D}ata Augmentation model (PromDA) which only trains small-scale Soft Prompt (i.e., a set of trainable vectors) in the frozen Pre-trained Language Models (PLMs). This avoids human effort in collecting unlabeled in-domain data and maintains the quality of generated synthetic data. In addition, PromDA generates synthetic data via two different views and filters out the low-quality data using NLU models. Experiments on four benchmarks show that synthetic data produced by PromDA successfully boost up the performance of NLU models which consistently outperform several competitive baseline models, including a state-of-the-art semi-supervised model using unlabeled in-domain data. The synthetic data from PromDA are also complementary with unlabeled in-domain data. The NLU models can be further improved when they are combined for training. | 翻訳日:2022-02-28 22:47:44 公開日:2022-02-25 |
# (参考訳) 逆設定におけるデータセット透かしの有効性について On the Effectiveness of Dataset Watermarking in Adversarial Settings ( http://arxiv.org/abs/2202.12506v1 ) ライセンス: CC BY 4.0 | Buse Gul Atli Tekgul, N. Asokan | (参考訳) データ駆動の世界では、データセットは重要な経済的価値を構成する。
データの収集とキュレーションに時間と費用を費やしているデータセットオーナは、データセットが許可されていない方法で使用されていないことを保証するインセンティブを与えられる。
このような誤用が発生した場合、データセット所有者は、問題のデータセットの所有権を示すための技術的なメカニズムを必要とする。
データセットのウォーターマーキングは、オーナシップのデモのための1つのアプローチを提供する。
本稿では,機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,最近提案された放射能データである放射能データについて検討する。
原論文では、放射性データはホワイトボックスの設定に有効であると報告されている。
これは多くのクラスを持つ大規模データセットに当てはまるが、クラス数が低い(\leq 30)$またはクラス毎のサンプル数が低い(\leq 500)$であるようなデータセットでは有効ではない。
また,ホワイトボックス検証がそうでなくても,ブラックボックス検証手法は,本論文で使用するすべてのデータセットに対して有効であることを示す。
この結果から,ホワイトボックス検証の信頼性は,検証プロセス中に直接透かしサンプルを用いることで向上できることを示した。
また,放射能データのロバスト性を評価する必要性についても強調する。
データセットの透かしと比較すると、MLモデル透かしは近年広く研究されている。
しかし、ほとんどのモデル透かし技術はモデル抽出によって打ち破ることができる。
放射能データは,モデル抽出攻撃を効果的に生き残り,モデル抽出に対して頑健なmlモデルオーナシップ検証に使用できる可能性が示唆された。 In a data-driven world, datasets constitute a significant economic value. Dataset owners who spend time and money to collect and curate the data are incentivized to ensure that their datasets are not used in ways that they did not authorize. When such misuse occurs, dataset owners need technical mechanisms for demonstrating their ownership of the dataset in question. Dataset watermarking provides one approach for ownership demonstration which can, in turn, deter unauthorized use. In this paper, we investigate a recently proposed data provenance method, radioactive data, to assess if it can be used to demonstrate ownership of (image) datasets used to train machine learning (ML) models. The original paper reported that radioactive data is effective in white-box settings. We show that while this is true for large datasets with many classes, it is not as effective for datasets where the number of classes is low $(\leq 30)$ or the number of samples per class is low $(\leq 500)$. We also show that, counter-intuitively, the black-box verification technique is effective for all datasets used in this paper, even when white-box verification is not. Given this observation, we show that the confidence in white-box verification can be improved by using watermarked samples directly during the verification process. We also highlight the need to assess the robustness of radioactive data if it were to be used for ownership demonstration since it is an adversarial setting unlike provenance identification. Compared to dataset watermarking, ML model watermarking has been explored more extensively in recent literature. However, most of the model watermarking techniques can be defeated via model extraction. We show that radioactive data can effectively survive model extraction attacks, which raises the possibility that it can be used for ML model ownership verification robust against model extraction. | 翻訳日:2022-02-28 22:26:50 公開日:2022-02-25 |
# (参考訳) RRL:畳み込みニューラルネットワークにおける領域回転層 RRL:Regional Rotation Layer in Convolutional Neural Networks ( http://arxiv.org/abs/2202.12509v1 ) ライセンス: CC BY 4.0 | Zongbo Hao, Tao Zhang, Mingwang Chen, Kaixu Zhou | (参考訳) 近年、畳み込みニューラルネットワーク(CNN)は画像分類や物体検出において非常によく機能しているが、最も先進的なモデルでさえ回転不変性は限られている。
既知の解決策は、トレーニングデータの強化と、回転同変特徴をグローバルに融合させることによる回転不変性の増加である。
これらの方法はトレーニングのワークロードを増やすか、モデルパラメータの数を増やす。
そこで本稿では,既存のネットワークに挿入可能であり,cnnの特徴抽出層に回転不変性を直接組み込むモジュールを提案する。
このモジュールは学習可能なパラメータを持たず、モデルの複雑さを増すことはない。
同時に、アップライトデータをトレーニングすることでのみ、ローテーションされたテストセットで良好に動作させることができる。
これらの利点は、直立したサンプルを得るのが難しい、あるいは目標が方向性を持たない、生物医学や天文学といった分野に適している。
LeNet-5、ResNet-18、micro-yolov3でモジュールを評価すると、素晴らしい結果が得られます。 Convolutional Neural Networks (CNNs) perform very well in image classification and object detection in recent years, but even the most advanced models have limited rotation invariance. Known solutions include the enhancement of training data and the increase of rotation invariance by globally merging the rotation equivariant features. These methods either increase the workload of training or increase the number of model parameters. To address this problem, this paper proposes a module that can be inserted into the existing networks, and directly incorporates the rotation invariance into the feature extraction layers of the CNNs. This module does not have learnable parameters and will not increase the complexity of the model. At the same time, only by training the upright data, it can perform well on the rotated testing set. These advantages will be suitable for fields such as biomedicine and astronomy where it is difficult to obtain upright samples or the target has no directionality. Evaluate our module with LeNet-5, ResNet-18 and tiny-yolov3, we get impressive results. | 翻訳日:2022-02-28 22:13:00 公開日:2022-02-25 |
# (参考訳) ランダム林におけるMUCによる特徴重要度測定と逆解析 MUC-driven Feature Importance Measurement and Adversarial Analysis for Random Forest ( http://arxiv.org/abs/2202.12512v1 ) ライセンス: CC BY 4.0 | Shucen Ma and Jianqi Shi and Yanhong Huang and Shengchao Qin and Zhe Hou | (参考訳) セキュリティクリティカルな分野における機械学習(ML)の広範な採用は、このアプローチの説明可能性を必要とする。
しかし、ランダムフォレスト(RF)のようなMLモデルの理解に関する研究は、まだ幼児期にある。
本研究では,形式的手法と論理的推論を利用して,RFの予測を説明する新しいモデル固有手法を開発する。
提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。
いくつかのデータセットにおける実験結果は、我々の特徴の重要度測定の質を示している。
また, 逆解析が最先端手法より優れていることを示す。
さらに,本手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。 The broad adoption of Machine Learning (ML) in security-critical fields demands the explainability of the approach. However, the research on understanding ML models, such as Random Forest (RF), is still in its infant stage. In this work, we leverage formal methods and logical reasoning to develop a novel model-specific method for explaining the prediction of RF. Our approach is centered around Minimal Unsatisfiable Cores (MUC) and provides a comprehensive solution for feature importance, covering local and global aspects, and adversarial sample analysis. Experimental results on several datasets illustrate the high quality of our feature importance measurement. We also demonstrate that our adversarial analysis outperforms the state-of-the-art method. Moreover, our method can produce a user-centered report, which helps provide recommendations in real-life applications. | 翻訳日:2022-02-28 22:01:19 公開日:2022-02-25 |
# (参考訳) TeachAugment:教師の知識を用いたデータ拡張最適化 TeachAugment: Data Augmentation Optimization Using Teacher Knowledge ( http://arxiv.org/abs/2202.12513v1 ) ライセンス: CC BY 4.0 | Teppei Suzuki | (参考訳) データ拡張を目的とした画像変換機能の最適化に関する研究が盛んに行われている。
特に,タスク損失を最大化する探索拡張戦略である逆データ拡張戦略では,多くのタスクに対するモデル一般化が大幅に改善されている。
しかし,既存の手法では,画像特徴を除去する過度に強い変形を避けるために,パラメータチューニングを慎重に行う必要がある。
本稿では,教師モデルを活用することで,注意深いチューニングを必要とせず,情報変換画像をモデルに生成できるTeachAugmentという逆戦略に基づくデータ拡張最適化手法を提案する。
具体的には、拡張された画像がターゲットモデルに逆行し、教師モデルに認識できるように拡張を検索する。
また,検索空間設計を単純化し,勾配法によるデータ拡張の更新を可能にするニューラルネットワークを用いたデータ拡張を提案する。
画像分類,セマンティクスセグメンテーション,教師なし表現学習タスクにおいて,teachaugmentは既存の手法よりも優れていることを示す。 Optimization of image transformation functions for the purpose of data augmentation has been intensively studied. In particular, adversarial data augmentation strategies, which search augmentation maximizing task loss, show significant improvement in the model generalization for many tasks. However, the existing methods require careful parameter tuning to avoid excessively strong deformations that take away image features critical for acquiring generalization. In this paper, we propose a data augmentation optimization method based on the adversarial strategy called TeachAugment, which can produce informative transformed images to the model without requiring careful tuning by leveraging a teacher model. Specifically, the augmentation is searched so that augmented images are adversarial for the target model and recognizable for the teacher model. We also propose data augmentation using neural networks, which simplifies the search space design and allows for updating of the data augmentation using the gradient method. We show that TeachAugment outperforms existing methods in experiments of image classification, semantic segmentation, and unsupervised representation learning tasks. | 翻訳日:2022-02-28 21:46:26 公開日:2022-02-25 |
# (参考訳) アンサンブルに基づく畳み込みニューラルネットワークに基づく新しい手指検出・認識システム A Novel Hand Gesture Detection and Recognition system based on ensemble-based Convolutional Neural Network ( http://arxiv.org/abs/2202.12519v1 ) ライセンス: CC BY 4.0 | Abir Sen, Tapas Kumar Mishra, Ratnakar Dash | (参考訳) 近年,ハンドジェスチャ認識がヒューマンマシンインタラクションの代替手段となっている。
3Dゲーム技術、手話解釈、VR(バーチャルリアリティ)環境、ロボット工学など、幅広い応用分野をカバーしている。
しかし、手の部分の検出はコンピュータビジョンやパターン認識のコミュニティでは難しい課題となっている。
convolutional neural network(cnn)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっているが、cnnアーキテクチャは、予測中の高い分散、問題オーバーフィット、予測エラーなどの問題に苦しめられている。
本稿では,これらの問題を克服するために,CNNに基づくアプローチのアンサンブルについて述べる。
まず、二分しきい値に基づく背景分離法を用いてジェスチャー部分を検出する。
その後、輪郭部を抽出し、手領域を分割する。
その後、画像は3つの個別のCNNモデルに変換され、並列にトレーニングされる。
最後に、CNNモデルの出力スコアを平均化し、最終的な予測のための最適なアンサンブルモデルを構築する。
提案システムを検証するために、赤外線画像と1つの自己構築データセットを含む2つの公開データセット(Dataset-1とDataset-2)が使用されている。
実験結果は,既存の最先端手法と比較し,提案手法が既存手法よりも優れていることを示した。 Nowadays, hand gesture recognition has become an alternative for human-machine interaction. It has covered a large area of applications like 3D game technology, sign language interpreting, VR (virtual reality) environment, and robotics. But detection of the hand portion has become a challenging task in computer vision and pattern recognition communities. Deep learning algorithm like convolutional neural network (CNN) architecture has become a very popular choice for classification tasks, but CNN architectures suffer from some problems like high variance during prediction, overfitting problem and also prediction errors. To overcome these problems, an ensemble of CNN-based approaches is presented in this paper. Firstly, the gesture portion is detected by using the background separation method based on binary thresholding. After that, the contour portion is extracted, and the hand region is segmented. Then, the images have been resized and fed into three individual CNN models to train them in parallel. In the last part, the output scores of CNN models are averaged to construct an optimal ensemble model for the final prediction. Two publicly available datasets (labeled as Dataset-1 and Dataset-2) containing infrared images and one self-constructed dataset have been used to validate the proposed system. Experimental results are compared with the existing state-of-the-art approaches, and it is observed that our proposed ensemble model outperforms other existing proposed methods. | 翻訳日:2022-02-28 21:24:35 公開日:2022-02-25 |
# (参考訳) 無拘束頭部ポーズ推定のための6次元回転表現 6D Rotation Representation For Unconstrained Head Pose Estimation ( http://arxiv.org/abs/2202.12555v1 ) ライセンス: CC BY 4.0 | Thorsten Hempel and Ahmed A. Abdelrahman and Ayoub Al-Hamadi | (参考訳) 本稿では,制約のないエンドツーエンドの頭部ポーズ推定手法を提案する。
そこで本研究では,本研究の真理データに対する回転行列形式を導入し,効率的かつロバストな直接回帰のための連続6次元回転行列表現を提案する。
この方法では, 姿勢予測を狭角に制限し, 良好な結果を得るという従来のアプローチとは対照的に, 完全な回転の出現を学習できる。
さらに,SO(3)多様体の幾何に関して,我々のネットワークをペナルティ化する測地線距離に基づく損失を提案する。
aflw2000とbiwiデータセットの公開実験により,提案手法は他の最先端手法よりも最大20\%高い性能を示した。
トレーニングとテストのコードを、トレーニング済みのモデルとともにオープンソースにしています。 In this paper, we present a method for unconstrained end-to-end head pose estimation. We address the problem of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This way, our method can learn the full rotation appearance which is contrary to previous approaches that restrict the pose prediction to a narrow-angle for satisfactory results. In addition, we propose a geodesic distance-based loss to penalize our network with respect to the SO(3) manifold geometry. Experiments on the public AFLW2000 and BIWI datasets demonstrate that our proposed method significantly outperforms other state-of-the-art methods by up to 20\%. We open-source our training and testing code along with our pre-trained models: https://github.com/thohemp/6DRepNet. | 翻訳日:2022-02-28 21:11:32 公開日:2022-02-25 |
# (参考訳) 複雑でハイブリッドなaiソリューションを構築する Composing Complex and Hybrid AI Solutions ( http://arxiv.org/abs/2202.12566v1 ) ライセンス: CC BY 4.0 | Peter Sch\"uller, Jo\~ao Paolo Costeira, James Crowley, Jasmin Grosinger, F\'elix Ingrand, Uwe K\"ockemann, Alessandro Saffiotti, Martin Welss | (参考訳) コンピュータ科学のいくつかの分野における進歩は、例えばコンピュータビジョンのOpenCVやロボット工学のROSといった、快適で効率的な実験方法、明確なインターフェース、交換可能なコンポーネントによって実現されてきた。
一般的なAIアプリケーションで上記の機能を実現するためのAcumosシステムの拡張について述べる。
もともとAcumosは、主に機械学習コンポーネントの線形パイプラインを作成するために、通信目的で開発された。
拡張には、gRPC/Protobufインターフェースによるより汎用的なコンポーネントのサポート、制御ループ、サブコンポーネントトポロジ、イベントベースの通信を含むグラフィカルに組み立てられたソリューションの自動オーケストレーション、ユーザインターフェースと共有ストレージ領域を含むソリューションの組み立てに関する規定が含まれています。
デプロイ可能なソリューションとそのインターフェースの例を提供する。
フレームワークはhttp://aiexp.ai4europe.eu/でデプロイされ、ソースコードはオープンソースのeclipseプロジェクトとして管理される。 Progress in several areas of computer science has been enabled by comfortable and efficient means of experimentation, clear interfaces, and interchangable components, for example using OpenCV for computer vision or ROS for robotics. We describe an extension of the Acumos system towards enabling the above features for general AI applications. Originally, Acumos was created for telecommunication purposes, mainly for creating linear pipelines of machine learning components. Our extensions include support for more generic components with gRPC/Protobuf interfaces, automatic orchestration of graphically assembled solutions including control loops, sub-component topologies, and event-based communication,and provisions for assembling solutions which contain user interfaces and shared storage areas. We provide examples of deployable solutions and their interfaces. The framework is deployed at http://aiexp.ai4europe.eu/ and its source code is managed as an open source Eclipse project. | 翻訳日:2022-02-28 21:03:27 公開日:2022-02-25 |
# (参考訳) マルチインスタンスバッグから因果表現を学ぶ Towards Learning Causal Representations from Multi-Instance Bags ( http://arxiv.org/abs/2202.12570v1 ) ライセンス: CC BY 4.0 | Weijia Zhang, Xuanhui Zhang, Hanwen Deng, Min-Ling Zhang | (参考訳) 人間は、グループレベルのラベルを使って例のグループから興味のある対象を容易に特定できるが、既存の機械学習アルゴリズムのほとんどは、個別にラベル付けされた例からのみ学習することができる。
マルチインスタンス学習(MIL、Multi-Instance Learning)は、インスタンスのグループとして表されるオブジェクトを扱う弱い教師付き学習の一種であり、理論上はグループレベルの監視からインスタンスラベルを予測することができる。
残念ながら、既存のほとんどのMILアルゴリズムはグループラベル予測の性能向上に重点を置いており、正確にインスタンスラベルを予測できない。
本研究では,関心対象に対する因果関係として解釈可能な意味論的意味表現を学習するTargetedMILアルゴリズムを提案する。
推論された表現を利用することで、targetmilはグループレベルラベルからのインスタンスラベル予測に優れている。
各種データセットの質的および定量的評価はTargetedMILの有効性を示す。 Although humans can easily identify the object of interest from groups of examples using group-level labels, most of the existing machine learning algorithms can only learn from individually labeled examples. Multi-instance learning (MIL) is a type of weakly supervised learning that deals with objects represented as groups of instances, and is theoretically capable of predicting instance labels from group-level supervision. Unfortunately, most existing MIL algorithms focus on improving the performances of group label predictions and cannot be used to accurately predict instance labels. In this work, we propose the TargetedMIL algorithm, which learns semantically meaningful representations that can be interpreted as causal to the object of interest. Utilizing the inferred representations, TargetedMIL excels at instance label predictions from group-level labels. Qualitative and quantitative evaluations on various datasets demonstrate the effectiveness of TargetedMIL. | 翻訳日:2022-02-28 20:47:45 公開日:2022-02-25 |
# (参考訳) 自動音声認識のための多言語モデルの検討 A Survey of Multilingual Models for Automatic Speech Recognition ( http://arxiv.org/abs/2202.12576v1 ) ライセンス: CC BY 4.0 | Hemant Yadav, Sunayana Sitaram | (参考訳) 自動音声認識(asr)システムはいくつかの言語で人間ライクな性能を達成しているが、ほとんどの言語は、これらのモデルを訓練するための大きな音声データセットがないため、利用可能なシステムを持っていない。
低リソース言語は、転送学習または同じ多言語モデルで共同で訓練されることにより、高リソース言語の恩恵を受ける可能性がある。
言語間移動の問題は、ASRにおいてよく研究されているが、近年の自己監督学習の進歩は、低リソース言語の性能向上の道筋をたどる多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
本稿では,言語間移動を念頭に構築された多言語ASRモデルにおける技術の現状を調査する。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示し、オープンな質問を議論し、今後の作業に推奨する。 Although Automatic Speech Recognition (ASR) systems have achieved human-like performance for a few languages, the majority of the world's languages do not have usable systems due to the lack of large speech datasets to train these models. Cross-lingual transfer is an attractive solution to this problem, because low-resource languages can potentially benefit from higher-resource languages either through transfer learning, or being jointly trained in the same multilingual model. The problem of cross-lingual transfer has been well studied in ASR, however, recent advances in Self Supervised Learning are opening up avenues for unlabeled speech data to be used in multilingual ASR models, which can pave the way for improved performance on low-resource languages. In this paper, we survey the state of the art in multilingual ASR models that are built with cross-lingual transfer in mind. We present best practices for building multilingual models from research across diverse languages and techniques, discuss open questions and provide recommendations for future work. | 翻訳日:2022-02-28 20:34:56 公開日:2022-02-25 |
# (参考訳) 電力コスト最小化のための消費予測に基づく大学活動の進化スケジューリング Evolutionary scheduling of university activities based on consumption forecasts to minimise electricity costs ( http://arxiv.org/abs/2202.12595v1 ) ライセンス: CC BY 4.0 | Julian Ruddick, Evgenii Genov, Luis Ramirez Camargo, Thierry Coosemans, Maarten Messagie | (参考訳) 本稿では,大学キャンパスの電力コスト削減を目標とする予測・最適化問題の解法を提案する。
提案手法は,多次元時系列予測と大規模最適化の新しいアプローチを組み合わせたものである。
グラデーションブースティングはモナシュ大学のキャンパスで2020年11月に発生と消費の両方の時系列を予測するために適用される。
消費予測には、トレンドをモデル化し分散を安定化するためにログ変換を用いる。
適用すると、モデル入力に季節性やトレンド機能が追加される。
得られた予測は、大学活動のスケジュール最適化とバッテリ使用のベース負荷として使用される。
最適化の目的は、電力価格とピーク電力関税の両方が、クラス活動とバッテリー使用の負荷によって変化することによる電力コストの最小化と、任意の活動のスケジューリングを行わないことのペナルティを目標とする。
クラス活動のスケジュールは共分散行列適応進化戦略と遺伝的アルゴリズムを用いて進化の最適化によって得られる。
このスケジュールは、各アクティビティの可能な時間を1回ずつテストすることで、ローカル検索を通じて改善される。
バッテリースケジュールは混合整数プログラミング問題として定式化され、Gurobiソルバによって解決される。
IEEEコンペティションで提示された他の6つのメソッドに対して,いずれも混合整数プログラミングとGurobiソルバを使用して,アクティビティとバッテリ使用の両方をスケジュールする2番目のコストを求める。 This paper presents a solution to a predict then optimise problem which goal is to reduce the electricity cost of a university campus. The proposed methodology combines a multi-dimensional time series forecast and a novel approach to large-scale optimization. Gradient-boosting method is applied to forecast both generation and consumption time-series of the Monash university campus for the month of November 2020. For the consumption forecasts we employ log transformation to model trend and stabilize variance. Additional seasonality and trend features are added to the model inputs when applicable. The forecasts obtained are used as the base load for the schedule optimisation of university activities and battery usage. The goal of the optimisation is to minimize the electricity cost consisting of the price of electricity and the peak electricity tariff both altered by the load from class activities and battery use as well as the penalty of not scheduling some optional activities. The schedule of the class activities is obtained through evolutionary optimisation using the covariance matrix adaptation evolution strategy and the genetic algorithm. This schedule is then improved through local search by testing possible times for each activity one-by-one. The battery schedule is formulated as a mixed-integer programming problem and solved by the Gurobi solver. This method obtains the second lowest cost when evaluated against 6 other methods presented at an IEEE competition that all used mixed-integer programming and the Gurobi solver to schedule both the activities and the battery use. | 翻訳日:2022-02-28 20:18:37 公開日:2022-02-25 |
# (参考訳) neorlネットワークに向けて : 沈み込みグラフの出現 Towards neoRL networks; the emergence of purposive graphs ( http://arxiv.org/abs/2202.12622v1 ) ライセンス: CC BY 4.0 | Per R. Leikanger | (参考訳) neorl framework for purposive aiは、異なる状態に対する操作的欲求を表現する一般値関数(gvf)を用いて、エミュレートされた認知マップによる潜在学習を実装している。
エージェントの報酬期待は、考慮された空間における学習予測として表現され、ネオRLエージェントは、学習されたマップから報酬仮説に従ってパーポーブな振る舞いを抽出することができる。
ニューロRL加群を入力として、状態作用Q値を出力として、ネットワーク内のノードとして検討し、ユークリッド的意味を持つ作用集合は、状態作用ベクトルの解釈を欲求のユークリッド的射影として意味する。
エージェント内のneorlノードからの自律的な欲求は、より深いneorl行動グラフを可能にする。
実験により、自律的欲望が支配するneorlネットワークの効果が確認され、提案ネットワークの4つの原則が検証された。
ニューラルネットワークが支配するNeoRLエージェントは、学習中にユークリッド空間をリアルタイムでナビゲートし、初期の心理学からインスピレーションを得て、現代AIがいかに利益を得るかを実証する。 The neoRL framework for purposive AI implements latent learning by emulated cognitive maps, with general value functions (GVF) expressing operant desires toward separate states. The agent's expectancy of reward, expressed as learned projections in the considered space, allows the neoRL agent to extract purposive behavior from the learned map according to the reward hypothesis. We explore this allegory further, considering neoRL modules as nodes in a network with desire as input and state-action Q-value as output; we see that action sets with Euclidean significance imply an interpretation of state-action vectors as Euclidean projections of desire. Autonomous desire from neoRL nodes within the agent allows for deeper neoRL behavioral graphs. Experiments confirm the effect of neoRL networks governed by autonomous desire, verifying the four principles for purposive networks. A neoRL agent governed by purposive networks can navigate Euclidean spaces in real-time while learning, exemplifying how modern AI still can profit from inspiration from early psychology. | 翻訳日:2022-02-28 20:08:58 公開日:2022-02-25 |
# (参考訳) MRガイド下手術における4次元肝MRIの検討 Predicting 4D Liver MRI for MR-guided Interventions ( http://arxiv.org/abs/2202.12628v1 ) ライセンス: CC BY 4.0 | Gino Gulamhussene, Anneke Meyer, Marko Rak, Oleksii Bashkanov, Jazan Omari, Maciej Pech, Christian Hansen | (参考訳) 臓器の動きは、画像誘導の介入において未解決の課題となる。
この問題を解決するために、時間分解型体積磁気共鳴イメージング(4D MRI)の研究分野が発展してきた。
しかし、現在の手法は時間的・空間的解像度の不足や長い取得時間があるため、ほとんどの介入設定には適さない。
本研究では,MRガイド下手術に対する視野が大きいリアルタイム高分解能4次元MRIのための新しいアプローチを提案する。
この目的のために、我々は畳み込みニューラルネットワーク(CNN)を訓練し、被験者のライブ2DナビゲータMRIから肝臓の呼吸状態を正確に予測する3D肝MRIを予測した。
本手法は2つの方法で使用可能である: まず, 実時間に近い4次元mriを高品質・高分解能で再構成できる(同方性1.8mmボクセルサイズ0.6s/ボリュームの209x128x128マトリックスサイズ)。
第2に, 時間分解能が0.2s/ボリューム以下の回顧的4次元再構成に使用し, 放射線治療に使用できる。
平均目標登録誤差 (TRE) は1.19$\pm$0.74mmであり, ボクセルサイズ以下である。
この結果と最先端の4D MRI再構成との比較を行った。
視覚的評価は同等の品質を示す。
取得時間を2分に短縮した小さなトレーニングサイズでは,有望な結果が得られ,24分で高品質な結果が得られることを示す。
提案手法は従来手法と容易に組み合わせることができるため,品質損失を抑えつつ,取得時間を短縮することができる。
エンド・ツー・エンドのディープラーニングは4次元mri再構成に非常に有望である。 Organ motion poses an unresolved challenge in image-guided interventions. In the pursuit of solving this problem, the research field of time-resolved volumetric magnetic resonance imaging (4D MRI) has evolved. However, current techniques are unsuitable for most interventional settings because they lack sufficient temporal and/or spatial resolution or have long acquisition times. In this work, we propose a novel approach for real-time, high-resolution 4D MRI with large fields of view for MR-guided interventions. To this end, we trained a convolutional neural network (CNN) end-to-end to predict a 3D liver MRI that correctly predicts the liver's respiratory state from a live 2D navigator MRI of a subject. Our method can be used in two ways: First, it can reconstruct near real-time 4D MRI with high quality and high resolution (209x128x128 matrix size with isotropic 1.8mm voxel size and 0.6s/volume) given a dynamic interventional 2D navigator slice for guidance during an intervention. Second, it can be used for retrospective 4D reconstruction with a temporal resolution of below 0.2s/volume for motion analysis and use in radiation therapy. We report a mean target registration error (TRE) of 1.19 $\pm$0.74mm, which is below voxel size. We compare our results with a state-of-the-art retrospective 4D MRI reconstruction. Visual evaluation shows comparable quality. We show that small training sizes with short acquisition times down to 2min can already achieve promising results and 24min are sufficient for high quality results. Because our method can be readily combined with earlier methods, acquisition time can be further decreased while also limiting quality loss. We show that an end-to-end, deep learning formulation is highly promising for 4D MRI reconstruction. | 翻訳日:2022-02-28 20:02:17 公開日:2022-02-25 |
# (参考訳) オートエンコーダは異常検出にボトルネックが必要か? Do autoencoders need a bottleneck for anomaly detection? ( http://arxiv.org/abs/2202.12637v1 ) ライセンス: CC BY 4.0 | Bang Xiang Yong, Alexandra Brintrup | (参考訳) 教師なしニューラルネットワークの一種であるディープオートエンコーダ(aes)を設計する一般的な考え方は、アイデンティティ関数の学習を妨げるにはボトルネックが必要である、というものだ。
アイデンティティ関数を学習すると、異常検出にAEは役に立たない。
本研究では,この制限された信念に挑戦し,非ボトルネック型AEの価値について検討する。
ボトルネックは、(1)潜在層を過小評価する、(2)スキップ接続を導入する、の2つの方法で取り除くことができる。
しかし、その方法の1つについて、限られた研究が報告されている。
ボトルネック除去スキーム,aesタイプ,データセットのさまざまな組み合わせについて,今回初めて広範囲にわたる実験を行った。
さらに、無限大のAEを非ボトルネック型AEの極端な例として提案する。
ベースラインに対するそれらの改善は、前述したようにアイデンティティ関数の学習は自明ではないことを意味する。
さらに, CIFAR (inliers) 対 SVHN (anomalies) の一般的なタスクにおいて, 非ブートネック型アーキテクチャ (Highest AUROC=0.857) はボトルネック付きアーキテクチャ (Highest AUROC=0.696) よりも優れており, 異常検出のための非ブートネック型AEの開発の可能性に光を当てている。 A common belief in designing deep autoencoders (AEs), a type of unsupervised neural network, is that a bottleneck is required to prevent learning the identity function. Learning the identity function renders the AEs useless for anomaly detection. In this work, we challenge this limiting belief and investigate the value of non-bottlenecked AEs. The bottleneck can be removed in two ways: (1) overparameterising the latent layer, and (2) introducing skip connections. However, limited works have reported on the use of one of the ways. For the first time, we carry out extensive experiments covering various combinations of bottleneck removal schemes, types of AEs and datasets. In addition, we propose the infinitely-wide AEs as an extreme example of non-bottlenecked AEs. Their improvement over the baseline implies learning the identity function is not trivial as previously assumed. Moreover, we find that non-bottlenecked architectures (highest AUROC=0.857) can outperform their bottlenecked counterparts (highest AUROC=0.696) on the popular task of CIFAR (inliers) vs SVHN (anomalies), among other tasks, shedding light on the potential of developing non-bottlenecked AEs for improving anomaly detection. | 翻訳日:2022-02-28 19:46:47 公開日:2022-02-25 |
# (参考訳) 不確実な定量化を伴うベイズオートエンコーダ:信頼に値する異常検出に向けて Bayesian autoencoders with uncertainty quantification: Towards trustworthy anomaly detection ( http://arxiv.org/abs/2202.12653v1 ) ライセンス: CC BY 4.0 | Bang Xiang Yong, Alexandra Brintrup | (参考訳) 教師なし異常検出のための深いオートエンコーダ(aes)の研究が数多く行われているが、aesは依然として予測の不確実性を表現する手段を欠いている。
そこで本研究では, ベイズオートエンコーダ (BAEs) の定式化を応用して, てんかんおよびアレータリック不確実性を含む全異常不確かさを定量化する。
不確実性の品質を評価するために,不確実性の高い予測を拒絶する追加オプションとして異常を分類するタスクを検討する。
さらに,精度回帰曲線を用いて,重み付き平均精度を性能指標として提案する。
ベンチマークデータセットと実際の2つのデータセットにおけるbaeと全異常不確実性の有効性を実証し,1つは条件モニタリング,もう1つは品質検査を行った。 Despite numerous studies of deep autoencoders (AEs) for unsupervised anomaly detection, AEs still lack a way to express uncertainty in their predictions, crucial for ensuring safe and trustworthy machine learning systems in high-stake applications. Therefore, in this work, the formulation of Bayesian autoencoders (BAEs) is adopted to quantify the total anomaly uncertainty, comprising epistemic and aleatoric uncertainties. To evaluate the quality of uncertainty, we consider the task of classifying anomalies with the additional option of rejecting predictions of high uncertainty. In addition, we use the accuracy-rejection curve and propose the weighted average accuracy as a performance metric. Our experiments demonstrate the effectiveness of the BAE and total anomaly uncertainty on a set of benchmark datasets and two real datasets for manufacturing: one for condition monitoring, the other for quality inspection. | 翻訳日:2022-02-28 19:37:54 公開日:2022-02-25 |
# (参考訳) PLSSVM: (multi-)GPGPUアクセラレーション付きLast Squaresサポートベクトルマシン PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine ( http://arxiv.org/abs/2202.12674v1 ) ライセンス: CC BY 4.0 | Alexander Van Craen and Marcel Breyer and Dirk Pfl\"uger | (参考訳) 機械学習アルゴリズムは、膨大なデータセットに効率的に対処できなければならない。
したがって、あらゆる現代的なシステムにうまくスケールし、ベンダーに依存しないアクセラレーターの計算能力を活用できなければならない。
教師あり学習の分野では、SVM(Support Vector Machines)が広く使われている。
しかし、LIBSVMやThunderSVMのような近代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
したがって、高い並列GPUには適していない。
さらに、異なるベンダーのcpuとgpuをサポートするパフォーマンスポータブル実装には気付いていません。
両問題を解決するためにPLSSVMライブラリを開発した。
まず、SVMを最小二乗問題として定式化する。
SVMを訓練すると、高度に並列なアルゴリズムが知られている線形方程式のシステムを解く。
PLSSVMは、異なる交換可能なバックエンド(OpenMP、CUDA、OpenCL、SYCL)を使用し、NVIDIA、AMD、Intelといった様々なベンダーから複数のGPU上でモダンなハードウェアをサポートする。
PLSSVMは、LIBSVMのドロップイン代替として使用できる。
我々は、libsvmと比較して最大10cpu、thundersvmと比較して最大14gpuの速度アップを観察した。
実装は、最大256CPUスレッドで74.7の並列スピードアップを持つマルチコアCPUと、4GPUで3.71の並列スピードアップを持つ複数のGPUにスケールする。
コード、ユーティリティスクリプト、ドキュメントはgithubで入手できる。 Machine learning algorithms must be able to efficiently cope with massive data sets. Therefore, they have to scale well on any modern system and be able to exploit the computing power of accelerators independent of their vendor. In the field of supervised learning, Support Vector Machines (SVMs) are widely used. However, even modern and optimized implementations such as LIBSVM or ThunderSVM do not scale well for large non-trivial dense data sets on cutting-edge hardware: Most SVM implementations are based on Sequential Minimal Optimization, an optimized though inherent sequential algorithm. Hence, they are not well-suited for highly parallel GPUs. Furthermore, we are not aware of a performance portable implementation that supports CPUs and GPUs from different vendors. We have developed the PLSSVM library to solve both issues. First, we resort to the formulation of the SVM as a least squares problem. Training an SVM then boils down to solving a system of linear equations for which highly parallel algorithms are known. Second, we provide a hardware independent yet efficient implementation: PLSSVM uses different interchangeable backends--OpenMP, CUDA, OpenCL, SYCL--supporting modern hardware from various vendors like NVIDIA, AMD, or Intel on multiple GPUs. PLSSVM can be used as a drop-in replacement for LIBSVM. We observe a speedup on CPUs of up to 10 compared to LIBSVM and on GPUs of up to 14 compared to ThunderSVM. Our implementation scales on many-core CPUs with a parallel speedup of 74.7 on up to 256 CPU threads and on multiple GPUs with a parallel speedup of 3.71 on four GPUs. The code, utility scripts, and the documentation are available on GitHub: https://github.com/SC-SGS/PLSSVM. | 翻訳日:2022-02-28 19:36:49 公開日:2022-02-25 |
# (参考訳) 自動車用超音波センサを用いた深層学習による到着方向推定 A deep learning approach for direction of arrival estimation using automotive-grade ultrasonic sensors ( http://arxiv.org/abs/2202.12684v1 ) ライセンス: CC BY 4.0 | Mohamed Shawki Elamir, Heinrich Gotzig, Raoul Zoellner, Patrick Maeder | (参考訳) 本稿では,自動駐車などの運転支援システムに使用される自動車用超音波センサを用いた到着方向推定のための深層学習手法を提案する。
提案手法の性能評価のベンチマークとして, 到着推定アルゴリズムの工法決定論的方向性の研究と実装を行った。
提案アルゴリズムの既存アルゴリズムに対する性能解析は,シミュレーションデータと,自動車用超音波センサを用いた計測キャンペーンのデータを用いて行う。
いずれの結果も,実環境からの騒音や測定結果の誤差といった現実的条件下での提案手法の優位性を明確に示している。
提案手法は,三角測量やエイリアス処理の高精度解法など,既存のアルゴリズムの既知の制限を克服する方法も示している。 In this paper, a deep learning approach is presented for direction of arrival estimation using automotive-grade ultrasonic sensors which are used for driving assistance systems such as automatic parking. A study and implementation of the state of the art deterministic direction of arrival estimation algorithms is used as a benchmark for the performance of the proposed approach. Analysis of the performance of the proposed algorithms against the existing algorithms is carried out over simulation data as well as data from a measurement campaign done using automotive-grade ultrasonic sensors. Both sets of results clearly show the superiority of the proposed approach under realistic conditions such as noise from the environment as well as eventual errors in measurements. It is demonstrated as well how the proposed approach can overcome some of the known limitations of the existing algorithms such as precision dilution of triangulation and aliasing. | 翻訳日:2022-02-28 19:18:21 公開日:2022-02-25 |
# (参考訳) 補助課題を用いた手書き文字認識の改良 Improving Amharic Handwritten Word Recognition Using Auxiliary Task ( http://arxiv.org/abs/2202.12687v1 ) ライセンス: CC BY 4.0 | Mesay Samuel Gondere, Lars Schmidt-Thieme, Durga Prasad Sharma, Abiot Sinamo Boltena | (参考訳) アマリ語はエチオピア連邦民主共和国の公用語の一つである。
エチオピック文字(Ethiopic script)を用いる言語の一つで、ゲエズ(Gee'z)から派生したもので、現在は典礼語となっている。
アムハラ語はエチオピアで最も広く使われている文学言語の一つである。
アムハーリック光学文字認識(ocr)や、特にアムハーリック手書き文字認識には、非常に限定された革新的でカスタマイズされた研究がある。
本研究では,アムハラ語手書き文字認識について検討する。
畳み込みニューラルネットワークやコネクショナリズム時間分類(CTC)の損失とともに、畳み込みニューラルネットワークを含む最先端のディープラーニング技術を用いて、エンドツーエンドの認識を実現した。
さらに,Amharicアルファベットの行順類似性から補助課題を用いて損失関数を補完する革新的な手法が試験され,ベースライン法よりも顕著な認識改善が示された。
このような発見は、イノベーティブな問題特化ソリューションを促進すると同時に、問題特化ドメインから生じる一般化したソリューションへの洞察を開放する。 Amharic is one of the official languages of the Federal Democratic Republic of Ethiopia. It is one of the languages that use an Ethiopic script which is derived from Gee'z, ancient and currently a liturgical language. Amharic is also one of the most widely used literature-rich languages of Ethiopia. There are very limited innovative and customized research works in Amharic optical character recognition (OCR) in general and Amharic handwritten text recognition in particular. In this study, Amharic handwritten word recognition will be investigated. State-of-the-art deep learning techniques including convolutional neural networks together with recurrent neural networks and connectionist temporal classification (CTC) loss were used to make the recognition in an end-to-end fashion. More importantly, an innovative way of complementing the loss function using the auxiliary task from the row-wise similarities of the Amharic alphabet was tested to show a significant recognition improvement over a baseline method. Such findings will promote innovative problem-specific solutions as well as will open insight to a generalized solution that emerges from problem-specific domains. | 翻訳日:2022-02-28 19:08:37 公開日:2022-02-25 |
# (参考訳) 解釈可能な異常検出のための統計とディープラーニングに基づくハイブリッドモデル Statistics and Deep Learning-based Hybrid Model for Interpretable Anomaly Detection ( http://arxiv.org/abs/2202.12720v1 ) ライセンス: CC BY-SA 4.0 | Thabang Mathonsi and Terence L van Zyl | (参考訳) ハイブリッド手法は、予測タスクと予測タスクの両方において純粋統計的および純粋深層学習法を上回り、それらの予測(予測間隔)に関連する不確実性を定量化することが示されている。
例として、多変量統計予測モデルとリカレントニューラルネットワークの変種であるLong Short-Term MemoryのハイブリッドであるMultivarate Exponential Smoothing Long Short-Term Memory (MES-LSTM)がある。
また、(i$)が正確な予測を生成し、(ii$)が関連する予測の不確かさを十分に定量化できるモデルが、異常検出タスクに適したモデルにうまく適応できることも示されている。
多変量データと新しいアプリケーションドメインのユビキタス化に伴い、近年、多くの異常検出手法が提案されている。
提案手法は主に深層学習技術に重点を置いており, チューンに計算集約的なパラメータセット (i$) のような課題に悩まされる傾向にある。
(ii)$ 使われないテクニックをレンダリングする偽陽性が多すぎる、$
(三)実生活においてあまり普及しない訓練のためにラベル付きデータセットを必要とすること、(四)深層学習法において主にブラックボックスの性質によって阻害される異常発生の根本原因を理解すること。
本稿では,これらの課題を克服する解釈可能な異常検出モデルであるMES-LSTMの拡張について述べる。
アプリケーション領域としての再生可能エネルギー生成に焦点を当て、提案手法は最先端技術に対してベンチマークされる。
以上の結果から,mes-lstm異常検出装置は,異常検出タスクのベンチマークと少なくとも競合しており,スプリアス効果から学ぶことが少なく,根本原因の発見や説明に信頼性が高いことが示唆された。 Hybrid methods have been shown to outperform pure statistical and pure deep learning methods at both forecasting tasks, and at quantifying the uncertainty associated with those forecasts (prediction intervals). One example is Multivariate Exponential Smoothing Long Short-Term Memory (MES-LSTM), a hybrid between a multivariate statistical forecasting model and a Recurrent Neural Network variant, Long Short-Term Memory. It has also been shown that a model that ($i$) produces accurate forecasts and ($ii$) is able to quantify the associated predictive uncertainty satisfactorily, can be successfully adapted to a model suitable for anomaly detection tasks. With the increasing ubiquity of multivariate data and new application domains, there have been numerous anomaly detection methods proposed in recent years. The proposed methods have largely focused on deep learning techniques, which are prone to suffer from challenges such as ($i$) large sets of parameters that may be computationally intensive to tune, $(ii)$ returning too many false positives rendering the techniques impractical for use, $(iii)$ requiring labeled datasets for training which are often not prevalent in real life, and ($iv$) understanding of the root causes of anomaly occurrences inhibited by the predominantly black-box nature of deep learning methods. In this article, an extension of MES-LSTM is presented, an interpretable anomaly detection model that overcomes these challenges. With a focus on renewable energy generation as an application domain, the proposed approach is benchmarked against the state-of-the-art. The findings are that MES-LSTM anomaly detector is at least competitive to the benchmarks at anomaly detection tasks, and less prone to learning from spurious effects than the benchmarks, thus making it more reliable at root cause discovery and explanation. | 翻訳日:2022-02-28 19:00:52 公開日:2022-02-25 |
# (参考訳) 事前学習ネットワークを用いた教師なし視覚検査のためのデータリファインメント Data refinement for fully unsupervised visual inspection using pre-trained networks ( http://arxiv.org/abs/2202.12759v1 ) ライセンス: CC BY 4.0 | Antoine Cordier, Benjamin Missaoui, and Pierre Gutierrez | (参考訳) 近年,視覚検査の分野では異常検出が大きな進歩を遂げている。
より具体的には、ディーププレトレーニングニューラルネットワークによって抽出された特徴に対する古典的な外れ値検出技術の使用が、mvtec anomaly detection (mvtec ad)データセット上で顕著なパフォーマンスをもたらすことが示されている。
しかしながら、他の多くの異常検出戦略と同様に、これらの事前訓練された方法は、すべてのトレーニングデータが正常であると仮定する。
結果として、それらは完全に監視されていないと見なすことはできない。
私たちの知識には、完全に教師なしの設定でこれらの事前訓練された方法を研究する作業はありません。
本研究は,まず,汚染されたトレーニングセット(欠陥サンプルを含む)を用いて,事前学習した手法の完全教師なしコンテキストに対する堅牢性を評価し,CutPasteなどの手法と比較して,これらの手法が汚染に対してより堅牢であることを示す。
次に,一クラス分類のための簡易な改良戦略であるsrocを提案する。
SROCは、トレーニングセットから汚染された画像の大部分を取り除き、失われたAUCの一部を復元することを可能にする。
さらに、私たちの単純なヒューリスティックが既存の文献と競合し、さらに複雑な戦略を上回ります。 Anomaly detection has recently seen great progress in the field of visual inspection. More specifically, the use of classical outlier detection techniques on features extracted by deep pre-trained neural networks have been shown to deliver remarkable performances on the MVTec Anomaly Detection (MVTec AD) dataset. However, like most other anomaly detection strategies, these pre-trained methods assume all training data to be normal. As a consequence, they cannot be considered as fully unsupervised. There exists to our knowledge no work studying these pre-trained methods under fully unsupervised setting. In this work, we first assess the robustness of these pre-trained methods to fully unsupervised context, using polluted training sets (i.e. containing defective samples), and show that these methods are more robust to pollution compared to methods such as CutPaste. We then propose SROC, a Simple Refinement strategy for One Class classification. SROC enables to remove most of the polluted images from the training set, and to recover some of the lost AUC. We further show that our simple heuristic competes with, and even outperforms much more complex strategies from the existing literature. | 翻訳日:2022-02-28 18:38:54 公開日:2022-02-25 |
# (参考訳) モデル比較と校正評価 : 機械学習とアクチュアリカル・プラクティスにおける一貫性のあるスコア機能のためのユーザガイド Model Comparison and Calibration Assessment: User Guide for Consistent Scoring Functions in Machine Learning and Actuarial Practice ( http://arxiv.org/abs/2202.12780v1 ) ライセンス: CC BY 4.0 | Tobias Fissler, Christian Lorentzen, Michael Mayer | (参考訳) actuaryとデータサイエンティストの主なタスクの1つは、クレームサイズや保険のクレーム数といった特定の現象に対する優れた予測モデルを構築することである。
これらのモデルは与えられた特徴情報を理想的に活用し、予測の精度を高める。
このユーザガイドは、あるモデルのキャリブレーションや妥当性を評価し、他方で異なるモデルを比較しランク付けするための統計的手法を再検討し、明確化する。
その際、予測対象を予め指定し、この目標に合わせてモデル比較において得点関数を選択することの重要性を強調する。
採点機能の実用的選択のためのガイダンスが提供される。
応用における科学と日常の実践のギャップを埋めようとして、主に既存の成果の教育的な提示とベストプラクティスに焦点を当てている。
結果は、労働者の報酬と顧客の混乱に関する2つの実データケーススタディに伴って説明される。 One of the main tasks of actuaries and data scientists is to build good predictive models for certain phenomena such as the claim size or the number of claims in insurance. These models ideally exploit given feature information to enhance the accuracy of prediction. This user guide revisits and clarifies statistical techniques to assess the calibration or adequacy of a model on the one hand, and to compare and rank different models on the other hand. In doing so, it emphasises the importance of specifying the prediction target at hand a priori and of choosing the scoring function in model comparison in line with this target. Guidance for the practical choice of the scoring function is provided. Striving to bridge the gap between science and daily practice in application, it focuses mainly on the pedagogical presentation of existing results and of best practice. The results are accompanied and illustrated by two real data case studies on workers' compensation and customer churn. | 翻訳日:2022-02-28 18:19:57 公開日:2022-02-25 |
# (参考訳) 物体検出とセグメンテーションのための信頼度校正 Confidence Calibration for Object Detection and Segmentation ( http://arxiv.org/abs/2202.12785v1 ) ライセンス: CC BY 4.0 | Fabian K\"uppers, Anselm Haselhoff, Jan Kronenberger, Jonas Schneider | (参考訳) ニューラルネットワークから得られる信頼度推定の校正は、特に自動運転や医療画像診断のような安全クリティカルな応用において重要である。
しかし, 分類問題では信頼性校正の課題が検討されているが, 対象検出やセグメンテーション問題に対するin-ves\-tiga\-tionはいまだに欠落している。
そこで本章では,物体検出およびセグメント化モデルに対する信頼性校正の検討に焦点をあてる。
本稿では,オブジェクト検出とセグメンテーションのタスクによく知られたキャリブレーション手法を拡張した多変量信頼度校正の概念を紹介する。
これにより、バウンディングボックス/ピクセル位置、形状情報などの追加機能も認識できる拡張された信頼度校正が可能になる。
さらに、予測校正誤差(ECE)を拡張して、オブジェクト検出とセグメンテーションモデルのmis-ca\-li\-bra-tionを測定する。
我々は,ms coco のネットワークアーキテクチャと都市景観について検討し,導入されたキャリブレーションの定義から,特にオブジェクト検出やインスタンスセグメンテーションモデルが本質的に誤調整されていることを示す。
提案手法を用いてキャリブレーションの改善を行い,セグメンテーションマスクの品質にも有意な影響を与えることができた。 Calibrated confidence estimates obtained from neural networks are crucial, particularly for safety-critical applications such as autonomous driving or medical image diagnosis. However, although the task of confidence calibration has been investigated on classification problems, thorough in\-ves\-tiga\-tions on object detection and segmentation problems are still missing. Therefore, we focus on the investigation of confidence calibration for object detection and segmentation models in this chapter. We introduce the concept of multivariate confidence calibration that is an extension of well-known calibration methods to the task of object detection and segmentation. This allows for an extended confidence calibration that is also aware of additional features such as bounding box/pixel position, shape information, etc. Furthermore, we extend the expected calibration error (ECE) to measure mis\-ca\-li\-bra\-tion of object detection and segmentation models. We examine several network architectures on MS COCO as well as on Cityscapes and show that especially object detection as well as instance segmentation models are intrinsically miscalibrated given the introduced definition of calibration. Using our proposed calibration methods, we have been able to improve calibration so that it also has a positive impact on the quality of segmentation masks as well. | 翻訳日:2022-02-28 18:18:21 公開日:2022-02-25 |
# (参考訳) 運転・事故防止のための都市シーンにおける事故センシング Sensing accident-prone features in urban scenes for proactive driving and accident prevention ( http://arxiv.org/abs/2202.12788v1 ) ライセンス: CC BY 4.0 | Sumit Mishra, Praveen Kumar Rajendran, Luiz Felipe Vecchietti, and Dongsoo Har | (参考訳) 都市部では、道路沿いや道路上の視覚情報がドライバーを邪魔し、交通標識の欠落やその他の事故が発生しやすい。
そこで本研究では,ダッシュカムで得られたリアルタイム画像に基づいて,ドライバに対して事故発生時の特徴を視覚的に通知する手法を提案する。
この目的のために、事故データセットによって識別された事故ホットスポット(密集した事故発生)に関するGoogleストリートビューイメージを使用して、深層畳み込みニューラルネットワーク(CNN)のファミリーをトレーニングする。
訓練されたcnnは、事故を起こしやすい特徴を検出し、与えられた都市シーンを事故ホットスポットと非ホットスポットに分類することができる。
事故ホットスポットが与えられた場合、訓練されたcnnは、90%の精度で事故ホットスポットに分類することができる。
CNNの家族による事故原因の特徴を検出する能力は,CNNの判断の原因となる特定の事故原因の特徴と画素レベルのオブジェクト分類を検査するために使用される4つの異なるクラスアクティベーションマップ(CAM)法の比較研究によって分析される。
CAM手法の出力は画像処理パイプラインで処理され、視覚的通知システムの助けを借りて運転者に説明可能な事故原因の特徴のみを抽出する。
事故傾向の特徴の有効性を証明するため,アブレーション研究を行う。
画像サンプルの総面積の7.7%の事故発生確率のアブレーションは、特定の領域を非ホットスポットに分類する確率を最大13.7%増加させる。 In urban cities, visual information along and on roadways is likely to distract drivers and leads to missing traffic signs and other accident-prone features. As a solution to avoid accidents due to missing these visual cues, this paper proposes a visual notification of accident-prone features to drivers, based on real-time images obtained via dashcam. For this purpose, Google Street View images around accident hotspots (areas of dense accident occurrence) identified by accident dataset are used to train a family of deep convolutional neural networks (CNNs). Trained CNNs are able to detect accident-prone features and classify a given urban scene into an accident hotspot and a non-hotspot (area of sparse accident occurrence). For given accident hotspot, the trained CNNs can classify it into an accident hotspot with the accuracy up to 90%. The capability of detecting accident-prone features by the family of CNNs is analyzed by a comparative study of four different class activation map (CAM) methods, which are used to inspect specific accident-prone features causing the decision of CNNs, and pixel-level object class classification. The outputs of CAM methods are processed by an image processing pipeline to extract only the accident-prone features that are explainable to drivers with the help of visual notification system. To prove the efficacy of accident-prone features, an ablation study is conducted. Ablation of accident-prone features taking 7.7%, on average, of total area in each image sample causes up to 13.7% more chance of given area to be classified as a non-hotspot. | 翻訳日:2022-02-28 17:54:30 公開日:2022-02-25 |
# (参考訳) k中間とk平均のコアセットに対する最適下界に向けて Towards Optimal Lower Bounds for k-median and k-means Coresets ( http://arxiv.org/abs/2202.12793v1 ) ライセンス: CC BY 4.0 | Vincent Cohen-Addad, Kasper Green Larsen, David Saulpic, Chris Schwiegelshohn | (参考訳) 計量空間内の点の集合が与えられたとき、$(k,z)$-clustering 問題は、中心と呼ばれる一連の $k$ の点を見つけることから成り、すべてのデータ点から最も近い中心までの距離の合計は最小化される。
特殊な例としては、有名なk-メディア問題(z = 1$)やk-means問題(z = 2$)がある。
k$-median と $k$-means 問題は現代のデータ分析の中心であり、大量のデータアプリケーションによってコアセットの概念が生まれている: 入力点集合の小さな(重み付けされた)サブセットは、問題の解のコストを乗法的な $(1 \pm \varepsilon)$ factor まで保ち、その結果、問題への入力を大規模から小規模に削減する。
本稿では,様々な距離空間におけるコア集合の下限の改良について述べる。
n$ポイントと2倍の定数$d$を持つ2倍のメトリクスからなる有限メトリクスでは、$(k,z)$クラスタリングのための任意のコアセットは、それぞれ$\omega(k \varepsilon^{-2} \log n)$と$\omega(k \varepsilon^{-2} d)$ポイントでなければならない。
両方の境界は、ポリログ因子までの以前の上限と一致する。
ユークリッド空間において、任意の coreset for $(k,z)$ clustering は少なくとも $\omega(k\varepsilon^{-2})$ points でなければならない。
これらの下界を、少なくとも$\tilde{O}(k\varepsilon^{-2}\cdot \min(\varepsilon^{-z},k))$点からなるコアセット構成で補う。 Given a set of points in a metric space, the $(k,z)$-clustering problem consists of finding a set of $k$ points called centers, such that the sum of distances raised to the power of $z$ of every data point to its closest center is minimized. Special cases include the famous k-median problem ($z = 1$) and k-means problem ($z = 2$). The $k$-median and $k$-means problems are at the heart of modern data analysis and massive data applications have given raise to the notion of coreset: a small (weighted) subset of the input point set preserving the cost of any solution to the problem up to a multiplicative $(1 \pm \varepsilon)$ factor, hence reducing from large to small scale the input to the problem. In this paper, we present improved lower bounds for coresets in various metric spaces. In finite metrics consisting of $n$ points and doubling metrics with doubling constant $D$, we show that any coreset for $(k,z)$ clustering must consist of at least $\Omega(k \varepsilon^{-2} \log n)$ and $\Omega(k \varepsilon^{-2} D)$ points, respectively. Both bounds match previous upper bounds up to polylog factors. In Euclidean spaces, we show that any coreset for $(k,z)$ clustering must consists of at least $\Omega(k\varepsilon^{-2})$ points. We complement these lower bounds with a coreset construction consisting of at most $\tilde{O}(k\varepsilon^{-2}\cdot \min(\varepsilon^{-z},k))$ points. | 翻訳日:2022-02-28 17:32:04 公開日:2022-02-25 |
# (参考訳) 共分散行列を持たない高次元スパースベイズ学習 High-Dimensional Sparse Bayesian Learning without Covariance Matrices ( http://arxiv.org/abs/2202.12808v1 ) ライセンス: CC BY 4.0 | Alexander Lin, Andrew H. Song, Berkin Bilgic, Demba Ba | (参考訳) スパースベイズ学習(SBL)はスパース符号問題に取り組むための強力なフレームワークである。
しかし、SBLの最も一般的な推論アルゴリズムは、大きな共分散行列を保存・計算する必要があるため、高次元設定では高すぎる。
本稿では,複数の線形系を並列に解くことで,共分散行列の明示的な構成を回避する新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションでは、計算時間とメモリ、特に高速な行列-ベクトル乗算が可能な構造化辞書において、既存の手法よりもよくスケールする。 Sparse Bayesian learning (SBL) is a powerful framework for tackling the sparse coding problem. However, the most popular inference algorithms for SBL become too expensive for high-dimensional settings, due to the need to store and compute a large covariance matrix. We introduce a new inference scheme that avoids explicit construction of the covariance matrix by solving multiple linear systems in parallel to obtain the posterior moments for SBL. Our approach couples a little-known diagonal estimation result from numerical linear algebra with the conjugate gradient algorithm. On several simulations, our method scales better than existing approaches in computation time and memory, especially for structured dictionaries capable of fast matrix-vector multiplication. | 翻訳日:2022-02-28 17:30:36 公開日:2022-02-25 |
# (参考訳) 多言語機械翻訳の現実 The Reality of Multi-Lingual Machine Translation ( http://arxiv.org/abs/2202.12814v1 ) ライセンス: CC BY 4.0 | Tom Kocmi and Dominik Mach\'a\v{c}ek and Ond\v{r}ej Bojar | (参考訳) 本書"the reality of multi-lingual machine translation"では,機械翻訳システムにおける2つ以上の言語の使用のメリットと周辺について論じる。
シーケンシャル・ツー・シーケンス処理とマルチタスク学習の特定のタスクにフォーカスしながら、本書は自然言語処理の領域を少し超えている。
機械翻訳は、人間のスキルと学習能力を、多くの人々がマッチし、超えようとするベンチマークとして捉える、ディープラーニングアプリケーションの典型例です。
多言語翻訳で観察される成果のいくつかは、知識の言語間移動が想定されるよりも単純な効果による可能性がある。
第一部では、本書は、多言語性、深層ニューラルネットワークの汎用性、特にこの学習の複雑化に対するシーケンス・ツー・シーケンスタスクの動機を導いてくれるだろう。
我々は、ニューラルネットワークが示す成果のあまりに楽観的で不当な説明に対する警告で、一般的な部分を締めくくった。
第2部では,多言語モデルを完全に検討し,追加言語を活用したより分かりやすいアプローチのひとつとして,転校学習を特に慎重に検討する。
大規模モデルを含む近年の多言語技術について調査し,多くの言語に対するシステム展開の実践的側面について論じる。
この結論は、機械理解のオープンな問題を強調し、大規模なモデルを構築するための2つの倫理的側面、すなわち研究の傾きと生態的痕跡を思い出させる。 Our book "The Reality of Multi-Lingual Machine Translation" discusses the benefits and perils of using more than two languages in machine translation systems. While focused on the particular task of sequence-to-sequence processing and multi-task learning, the book targets somewhat beyond the area of natural language processing. Machine translation is for us a prime example of deep learning applications where human skills and learning capabilities are taken as a benchmark that many try to match and surpass. We document that some of the gains observed in multi-lingual translation may result from simpler effects than the assumed cross-lingual transfer of knowledge. In the first, rather general part, the book will lead you through the motivation for multi-linguality, the versatility of deep neural networks especially in sequence-to-sequence tasks to complications of this learning. We conclude the general part with warnings against too optimistic and unjustified explanations of the gains that neural networks demonstrate. In the second part, we fully delve into multi-lingual models, with a particularly careful examination of transfer learning as one of the more straightforward approaches utilizing additional languages. The recent multi-lingual techniques, including massive models, are surveyed and practical aspects of deploying systems for many languages are discussed. The conclusion highlights the open problem of machine understanding and reminds of two ethical aspects of building large-scale models: the inclusivity of research and its ecological trace. | 翻訳日:2022-02-28 17:20:24 公開日:2022-02-25 |
# (参考訳) ディープラーニングによる品質検査のための合成学習データによる一般化の改善 Improving generalization with synthetic training data for deep learning based quality inspection ( http://arxiv.org/abs/2202.12818v1 ) ライセンス: CC BY 4.0 | Antoine Cordier, Pierre Gutierrez, and Victoire Plessis | (参考訳) コンピュータビジョン技術による品質検査の自動化は、しばしばデータ要求のタスクです。
具体的には、教師付きディープラーニングはトレーニングのために大量の注釈付きイメージを必要とする。
実際にこのようなデータの収集とアノテートはコストと労力だけでなく、特定の欠陥クラスで使用可能なインスタンスはごくわずかであるという事実から、非効率である。
ビデオフレームで処理することで、これらのインスタンスの数を増やすことができる場合、大きなデメリットがある。
結果として、そのような制約の下で訓練されたモデルは、実際に取得システム(カメラ、ライト)、部品、欠陥面の変化によって引き起こされる入力分布の変化に非常に敏感であることが期待される。
本研究では,ランダムに生成された合成学習画像を用いることで,領域の不安定な問題に対処し,学習したモデルが文脈変化に対してより堅牢になることを示す。
これらの質問に答えるために、合成データ生成パイプラインとディープラーニングの方法論の両方を詳述する。 Automating quality inspection with computer vision techniques is often a very data-demanding task. Specifically, supervised deep learning requires a large amount of annotated images for training. In practice, collecting and annotating such data is not only costly and laborious, but also inefficient, given the fact that only a few instances may be available for certain defect classes. If working with video frames can increase the number of these instances, it has a major disadvantage: the resulting images will be highly correlated with one another. As a consequence, models trained under such constraints are expected to be very sensitive to input distribution changes, which may be caused in practice by changes in the acquisition system (cameras, lights), in the parts or in the defects aspect. In this work, we demonstrate the use of randomly generated synthetic training images can help tackle domain instability issues, making the trained models more robust to contextual changes. We detail both our synthetic data generation pipeline and our deep learning methodology for answering these questions. | 翻訳日:2022-02-28 17:18:52 公開日:2022-02-25 |
# (参考訳) ジェニブ!
ラブライブでリズムアクションを 生成! Gen\'eLive! Generating Rhythm Actions in Love Live! ( http://arxiv.org/abs/2202.12823v1 ) ライセンス: CC BY 4.0 | Atsushi Takada, Daichi Yamazaki, Likun Liu, Yudai Yoshida, Nyamkhuu Ganbat, Takayuki Shimotomai, Taiga Yamamoto, Daisuke Sakurai, Naoki Hamada | (参考訳) リズムアクションゲーム(英: rhythm action game)は、音楽セッション中にプレイヤーが正しいタイミングでコマンドを発するように挑戦する音楽ベースのビデオゲームである。
タイミングはチャートに表示されるが、これはノートと呼ばれる視覚的なシンボルで、画面を飛んでいる。
KLabは「Love Live!」シリーズのタイトルを含むリズムアクションゲームを運営しており、アジアなどでヒットとなった。
この作業の前に、同社は手動でチャートを作成し、コストのかかるビジネス運用につながった。
本稿は,KLabがグラフの合成に深層生成モデルを適用した方法を示し,チャート作成プロセスが改善し,事業コストが半減したことを示す。
既存の生成モデルは、容易な困難モードのために品質の悪いチャートを生成しました。
我々は、リズムアクションに特化したマルチスケーリングモデルを通じて、ビートを考慮し、この課題を克服する方法を報告する。
私たちのモデルはgen\'elive!と名付けられ、klabのプロダクションデータセットとオープンデータセットを使って評価されます。 A rhythm action game is a music-based video game in which the player is challenged to issue commands at the right timings during a music session. The timings are rendered in the chart, which consists of visual symbols, called notes, flying through the screen. KLab Inc., a Japan-based video game developer, has operated rhythm action games including a title for the "Love Live!" franchise, which became a hit across Asia and beyond. Before this work, the company generated the charts manually, which resulted in a costly business operation. This paper presents how KLab applied a deep generative model for synthesizing charts, and shows how it has improved the chart production process, reducing the business cost by half. Existing generative models generated poor quality charts for easier difficulty modes. We report how we overcame this challenge through a multi-scaling model dedicated to rhythm actions, by considering beats among other things. Our model, named Gen\'eLive!, is evaluated using production datasets at KLab as well as open datasets. | 翻訳日:2022-02-28 17:01:42 公開日:2022-02-25 |
# (参考訳) デモの役割を再考する: インコンテキスト学習が機能する理由 Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? ( http://arxiv.org/abs/2202.12837v1 ) ライセンス: CC BY 4.0 | Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, Luke Zettlemoyer | (参考訳) 大規模言語モデル(LM)は、いくつかの入力ラベルペア(デモ)を条件付けし、新しい入力を予測することによって、推論だけで新しいタスクを実行することができる。
しかし、モデルがどのように学習し、デモのどの側面がタスクのパフォーマンスに寄与するかについては、ほとんど理解されていない。
本稿では,実演におけるラベルをランダムに置き換えることによって,GPT-3を含む12種類のモデルが一貫してパフォーマンスを損なうことを示す。
その代わり、デモンストレーションの他の側面は、(1)ラベル空間、(2)入力テキストの分布、(3)シーケンスの全体的なフォーマットのいくつかの例を提供するという事実を含む、エンドタスクのパフォーマンスの鍵となる。
分析によって、コンテキスト内学習の仕組みと理由を理解する新しい方法が提供され、推論のみを通じて、大規模言語モデルからどの程度学ぶことができるのか、という新たな疑問が提起される。 Large language models (LMs) are able to in-context learn -- perform a new task via inference alone by conditioning on a few input-label pairs (demonstrations) and making predictions for new inputs. However, there has been little understanding of how the model learns and which aspects of the demonstrations contribute to end task performance. In this paper, we show that ground truth demonstrations are in fact not required -- randomly replacing labels in the demonstrations barely hurts performance, consistently over 12 different models including GPT-3. Instead, we find that other aspects of the demonstrations are the key drivers of end task performance, including the fact that they provide a few examples of (1) the label space, (2) the distribution of the input text, and (3) the overall format of the sequence. Together, our analysis provides a new way of understanding how and why in-context learning works, while opening up new questions about how much can be learned from large language models through inference alone. | 翻訳日:2022-02-28 16:46:53 公開日:2022-02-25 |
# (参考訳) RELMOBNET: MOBILENETV3を用いた相対カメラポース推定のためのロバストな2段階のエンドツーエンドトレーニングアプローチ RELMOBNET: A Robust Two-Stage End-To-End Training Approach For MOBILENETV3 Based Relative Camera Pose Estimation ( http://arxiv.org/abs/2202.12838v1 ) ライセンス: CC BY 4.0 | Praveen Kumar Rajendran, Sumit Mishra, Luiz Felipe Vecchietti, Dongsoo Har | (参考訳) 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を果たす。
そこで本稿では,カメラパラメータに依存しないエンド・ツー・エンドの相対カメラポーズ回帰のためのmobilenetv3-largeに基づくシャムネットワークを提案する。
提案ネットワークは,同じシーンの異なる場所で撮影された画像のペアを用いて,単位四元数における3次元翻訳ベクトルと回転ベクトルを推定する。
モデルの汎用性を高めるために、4つのシーンのデータを組み合わせて1つのユニバーサルモデルを訓練し、相対的なポーズを推定する。
さらに、トランスレーションと回転損失の重み付けによる超パラメータの独立性は使用しない。
その代わりに、新しい2段階のトレーニング手順を使って、より速い収束で暗黙的にバランスを学ぶ。
本研究では, 異なるシーンからなるcambridge landmarksデータセットと, rpnet や rcpnet など既存の cnn ベースの回帰手法との比較を行った。
以上の結果から,rcpnetと比較した場合,提案モデルは,キングス・カレッジ,オールド・ホスピタル,ケンブリッジ・ランドマーク・データセットのセント・メアリー教会シーンにおいて,それぞれ16.11%,28.88%,52.27%の比率変化により,翻訳ベクトルの推定を改善することが示唆された。 Relative camera pose estimation plays a pivotal role in dealing with 3D reconstruction and visual localization. To address this, we propose a Siamese network based on MobileNetV3-Large for an end-to-end relative camera pose regression independent of camera parameters. The proposed network uses pair of images taken at different locations in the same scene to estimate the 3D translation vector and rotation vector in unit quaternion. To increase the generality of the model, rather than training it for a single scene, data for four scenes are combined to train a single universal model to estimate the relative pose. Further for independency of hyperparameter weighing between translation and rotation loss is not used. Instead we use the novel two-stage training procedure to learn the balance implicitly with faster convergence. We compare the results obtained with the Cambridge Landmarks dataset, comprising of different scenes, with existing CNN-based regression methods as baselines, e.g., RPNet and RCPNet. The findings indicate that, when compared to RCPNet, proposed model improves the estimation of the translation vector by a percentage change of 16.11%, 28.88%, 52.27% on the Kings College, Old Hospital, St Marys Church scenes from Cambridge Landmarks dataset, respectively. | 翻訳日:2022-02-28 16:25:38 公開日:2022-02-25 |
# 制約満足度問題に対する残差に基づくメッセージパッシングアルゴリズム A residual-based message passing algorithm for constraint satisfaction problems ( http://arxiv.org/abs/2202.12468v1 ) ライセンス: Link先を確認 | Chun-Yan Zhao, Yan-Rong Fu, and Jin-Hua Zhao | (参考訳) メッセージパッシングアルゴリズムは、複雑なシステムの相互接続変数間のよく複雑な相互作用を捕捉し、繰り返しメッセージの固定点から情報を抽出し、最適化、推論、学習問題においてハードな計算タスクに取り組むための強力なツールキットを提供する。
制約満足度問題(csps)の文脈では、制御パラメータ(制約密度など)がチューニングされると、複数のしきい値現象が発生し、解空間における基本構造遷移を示唆する。
これらの遷移点に関する解を見つけることは、メッセージパッシングアルゴリズムが収束から遠く離れた大きなメッセージ変動に苦しむアルゴリズム設計において非常に難しい。
ここでは、メッセージパッシングアルゴリズムに残差ベースの更新ステップを導入し、更新プロセスにおいて、連続的なステップ間で大きく変化するメッセージに高い優先度が与えられるようにする。
拡張領域を持つランダムなCSPの典型的なプロトタイプであるRBの具体例について、本アルゴリズムはメッセージ更新の収束を改善し、計算コストの低い満足度しきい値付近の解を見つける際の成功確率を高めることを示す。
メッセージパッシングアルゴリズムに対する我々のアプローチは、基底状態の解を見つけ、ハード最適化問題の解空間の詳細な構造を理解するアルゴリズムの開発において、そのパワーを探求する上で価値がある。 Message passing algorithms, whose iterative nature captures well complicated interactions among interconnected variables in complex systems and extracts information from the fixed point of iterated messages, provide a powerful toolkit in tackling hard computational tasks in optimization, inference, and learning problems. In the context of constraint satisfaction problems (CSPs), when a control parameter (such as constraint density) is tuned, multiple threshold phenomena emerge, signaling fundamental structural transitions in their solution space. Finding solutions around these transition points is exceedingly challenging for algorithm design, where message passing algorithms suffer from a large message fluctuation far from convergence. Here we introduce a residual-based updating step into message passing algorithms, in which messages varying large between consecutive steps are given high priority in the updating process. For the specific example of model RB, a typical prototype of random CSPs with growing domains, we show that our algorithm improves the convergence of message updating and increases the success probability in finding solutions around the satisfiability threshold with a low computational cost. Our approach to message passing algorithms should be of value for exploring their power in developing algorithms to find ground-state solutions and understand the detailed structure of solution space of hard optimization problems. | 翻訳日:2022-02-28 16:17:46 公開日:2022-02-25 |
# 転写, 音声, ビデオによる政治的ディープフェイクの人為的検出 Human Detection of Political Deepfakes across Transcripts, Audio, and Video ( http://arxiv.org/abs/2202.12883v1 ) ライセンス: Link先を確認 | Matthew Groh, Aruna Sankaranarayanan, Rosalind Picard | (参考訳) 超現実的な視覚効果の技術の最近の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。
しかし、音声・視覚情報がどのように人々の政治的誤報への認識に影響を及ぼすかに関する実証的研究はほとんどない。
コミュニケーション研究の分野における従来の知恵は、ストーリーの同じバージョンがテキストではなくビデオとして提示される場合、人々はよりフェイクニュースに陥りやすいと予測している。
しかし、音声と視覚の操作は、一部の人が思いつくであろう歪みを残していることが多い。
本稿では,61,792の真偽判定を行う5,727人の参加者によるランダムな実験に基づいて,コミュニケーションのモダリティが実際の政治的発言を作文から識別する能力に与える影響を評価する。
テキスト,音声,ビデオのモーダリティの順列を用いて,ランダムに出現するように割り当てられた政治演説の音声ビットを示す。
参加者はサイレントビデオよりも音声によるビデオの方が正確であり、サイレントビデオではテキストの書き起こしよりも正確である。
同様に、参加者は発言する内容(音声内容そのもの)よりも、発言する内容(音声・視覚的手がかり)にもっと依存している。
しかし、政治家の信念に対する大衆の認識に合わない政治的スピーチは、参加者の視覚的手がかりへの依存を減らす。
特に、反射的推論は、参加者が視覚情報を考える程度を緩やかにする:認知的反射テストにおける低パフォーマンスは、視覚的手がかりに対する過度な信頼と、その発言に対する過度な信頼と関連している。 Recent advances in technology for hyper-realistic visual effects provoke the concern that deepfake videos of political speeches will soon be visually indistinguishable from authentic video recordings. Yet there exists little empirical research on how audio-visual information influences people's susceptibility to fall for political misinformation. The conventional wisdom in the field of communication research predicts that people will fall for fake news more often when the same version of a story is presented as a video as opposed to text. However, audio-visual manipulations often leave distortions that some but not all people may pick up on. Here, we evaluate how communication modalities influence people's ability to discern real political speeches from fabrications based on a randomized experiment with 5,727 participants who provide 61,792 truth discernment judgments. We show participants soundbites from political speeches that are randomly assigned to appear using permutations of text, audio, and video modalities. We find that communication modalities mediate discernment accuracy: participants are more accurate on video with audio than silent video, and more accurate on silent video than text transcripts. Likewise, we find participants rely more on how something is said (the audio-visual cues) rather than what is said (the speech content itself). However, political speeches that do not match public perceptions of politicians' beliefs reduce participants' reliance on visual cues. In particular, we find that reflective reasoning moderates the degree to which participants consider visual information: low performance on the Cognitive Reflection Test is associated with an underreliance on visual cues and an overreliance on what is said. | 翻訳日:2022-02-28 16:17:23 公開日:2022-02-25 |
# 教師付き機械学習による観測科学の因果発見 Causal discovery for observational sciences using supervised machine learning ( http://arxiv.org/abs/2202.12813v1 ) ライセンス: Link先を確認 | Anne Helby Petersen, Joseph Ramsey, Claus Thorn Ekstr{\o}m and Peter Spirtes | (参考訳) 因果推論は因果効果を推定するが、データが実験的に収集されない限り、統計的分析は予め特定された因果モデルに依存する必要がある。
因果発見アルゴリズムは、データからそのような因果モデルを構築するための実証的な方法である。
いくつかの漸近的に正しい方法がすでに存在するが、通常はより小さなサンプルに苦しむ。
さらに、ほとんどの手法は、常に現実的なデータ生成機構の現実的な表現であるとは限らない非常にスパースな因果モデルに焦点を当てている。
最後に、手法によって提案される因果関係はしばしば成り立つが、因果関係の非関連性に関する主張は誤り率が高い。
この非保存的エラートレードオフは観測科学にとって理想的ではなく、結果のモデルは因果推論に直接使われる: 因果関係の欠如が多い因果モデルには、あまりにも強い仮定が伴い、偏りのある効果推定に繋がる可能性がある。
本研究では,これら3つの欠点を解決する新しい因果的発見法を提案する。
SLdiscoは教師付き機械学習を使用して、観測データから因果モデルの等価クラスへのマッピングを取得する。
ガウスデータに基づく大規模シミュレーション研究においてsldiscoを評価し,モデルサイズとサンプルサイズについて検討した。
SLdiscoは従来よりも保守的で, 情報量が少なく, サンプルサイズに敏感であることがわかった。
さらに,実際の疫学データ応用も提供する。
また、sldiscoはサンプルサイズに対して感度が低く、そのため小さなデータセットで利用可能な情報をよりよく活用しているように思われる。 Causal inference can estimate causal effects, but unless data are collected experimentally, statistical analyses must rely on pre-specified causal models. Causal discovery algorithms are empirical methods for constructing such causal models from data. Several asymptotically correct methods already exist, but they generally struggle on smaller samples. Moreover, most methods focus on very sparse causal models, which may not always be a realistic representation of real-life data generating mechanisms. Finally, while causal relationships suggested by the methods often hold true, their claims about causal non-relatedness have high error rates. This non-conservative error tradeoff is not ideal for observational sciences, where the resulting model is directly used to inform causal inference: A causal model with many missing causal relations entails too strong assumptions and may lead to biased effect estimates. We propose a new causal discovery method that addresses these three shortcomings: Supervised learning discovery (SLdisco). SLdisco uses supervised machine learning to obtain a mapping from observational data to equivalence classes of causal models. We evaluate SLdisco in a large simulation study based on Gaussian data and we consider several choices of model size and sample size. We find that SLdisco is more conservative, only moderately less informative and less sensitive towards sample size than existing procedures. We furthermore provide a real epidemiological data application. We use random subsampling to investigate real data performance on small samples and again find that SLdisco is less sensitive towards sample size and hence seems to better utilize the information available in small datasets. | 翻訳日:2022-02-28 16:16:56 公開日:2022-02-25 |
# 長期移動健康データに対する探索的隠れマルコフ因子モデル : 逆性外傷性神経精神科領域への応用 Exploratory Hidden Markov Factor Models for Longitudinal Mobile Health Data: Application to Adverse Posttraumatic Neuropsychiatric Sequelae ( http://arxiv.org/abs/2202.12819v1 ) ライセンス: Link先を確認 | Lin Ge, Xinming An, Donglin Zeng, Samuel McLean, Ronald Kessler, and Rui Song | (参考訳) 外傷後神経精神科後遺症(apns)は、外傷後、退役軍人や数百万人のアメリカ人に共通し、トラウマの生存者や社会に多大な負担をもたらす。
APNSの症状の診断と治療の課題について多くの研究がなされている。
しかし、従来の手段の主観的な性質によって進歩は制限されている。
本研究は,AURORA(Advancing Understanding of RecOvery afteR traumA)研究から収集したモバイル端末データに動機づけられた。
離散時間および連続時間探索的隠れマルコフ因子モデルを開発し、規則的または不規則な測定値を持つ個人の動的心理的条件をモデル化する。
提案モデルは従来の隠れマルコフモデルを拡張し,高次元データと隠れマルコフ状態間の特徴に基づく不均質な遷移確率を可能にする。
最大推定値を求めるため,初期化戦略(SEMIS)を用いた安定化期待最大化アルゴリズムを開発した。
パラメータ推定とモデル選択の性能を評価するために合成データを用いたシミュレーション研究を行った。
最後に、AURORAデータに対する適用を行い、既存の文献と整合した心拍変動、活動、APNSの関係をキャプチャする。 Adverse posttraumatic neuropsychiatric sequelae (APNS) are common among veterans and millions of Americans after traumatic events and cause tremendous burdens for trauma survivors and society. Many studies have been conducted to investigate the challenges in diagnosing and treating APNS symptoms. However, progress has been limited by the subjective nature of traditional measures. This study is motivated by the objective mobile device data collected from the Advancing Understanding of RecOvery afteR traumA (AURORA) study. We develop both discrete-time and continuous-time exploratory hidden Markov factor models to model the dynamic psychological conditions of individuals with either regular or irregular measurements. The proposed models extend the conventional hidden Markov models to allow high-dimensional data and feature-based nonhomogeneous transition probability between hidden psychological states. To find the maximum likelihood estimates, we develop a Stabilized Expectation-Maximization algorithm with Initialization Strategies (SEMIS). Simulation studies with synthetic data are carried out to assess the performance of parameter estimation and model selection. Finally, an application to the AURORA data is conducted, which captures the relationships between heart rate variability, activity, and APNS consistent with existing literature. | 翻訳日:2022-02-28 16:16:31 公開日:2022-02-25 |
# 肺結節診断のための確実なデータを用いた忠実学習 Faithful learning with sure data for lung nodule diagnosis ( http://arxiv.org/abs/2202.12515v1 ) ライセンス: Link先を確認 | Hanxiao Zhang, Liang Chen, Xiao Gu, Minghui Zhang, Yulei Qin, Feng Yao, Zhexin Wang, Yun Gu, Guang-Zhong Yang | (参考訳) 深層学習の最近の進歩は、ctに基づく肺結節分類にその価値が証明されている。
現在の技術は本質的にブラックボックスシステムであり、臨床で2つの汎用性の問題に苦しんでいる。
第一に、良性悪性腫瘍の識別は、結節レベルでの病理診断なしで、人間の観察者によってしばしば評価される。
我々はこれらのデータを「不確実データ」と呼んだ。
第2に、分類器は、学習中にパッチレベルラベルを用いた安定した学習と堅牢な予測のために、必ずしも信頼できる結節特徴を取得しない。
本研究では,病理学的に確認されたラベルを用いた確実なデータセットを構築し,結節の分類を容易にするための協調学習フレームワークを提案する。
損失関数は,ノード分割マップに規制された解釈可能性制約を導入することで,信頼性の高い特徴を学習するように設計されている。
さらに,機械と専門家双方の理解を反映したモデル推論結果に基づいて,同種の歴史的結節検索と解釈可能な診断のための新しい結節解析手法を提案する。
以上の結果から, 肺がん予測のための忠実なモデル推論と併用し, 精度向上に有効であることが示唆された。
肺結節分類における深層学習法における不確実性データの効果をさらに明らかにした。 Recent evolution in deep learning has proven its value for CT-based lung nodule classification. Most current techniques are intrinsically black-box systems, suffering from two generalizability issues in clinical practice. First, benign-malignant discrimination is often assessed by human observers without pathologic diagnoses at the nodule level. We termed these data as "unsure data". Second, a classifier does not necessarily acquire reliable nodule features for stable learning and robust prediction with patch-level labels during learning. In this study, we construct a sure dataset with pathologically-confirmed labels and propose a collaborative learning framework to facilitate sure nodule classification by integrating unsure data knowledge through nodule segmentation and malignancy score regression. A loss function is designed to learn reliable features by introducing interpretability constraints regulated with nodule segmentation maps. Furthermore, based on model inference results that reflect the understanding from both machine and experts, we explore a new nodule analysis method for similar historical nodule retrieval and interpretable diagnosis. Detailed experimental results demonstrate that our approach is beneficial for achieving improved performance coupled with faithful model reasoning for lung cancer prediction. Extensive cross-evaluation results further illustrate the effect of unsure data for deep-learning-based methods in lung nodule classification. | 翻訳日:2022-02-28 16:14:37 公開日:2022-02-25 |
# ロバストな曲線オブジェクトセグメンテーションのための局所強度次数変換 Local Intensity Order Transformation for Robust Curvilinear Object Segmentation ( http://arxiv.org/abs/2202.12587v1 ) ライセンス: Link先を確認 | Tianyi Shi, Nicolas Boutry, Yongchao Xu, Thierry G\'eraud | (参考訳) 曲線構造のセグメンテーションは,血管疾患早期発見のための網膜血管セグメンテーションや道路条件評価および維持のための舗装クラックセグメンテーションなど,多くの応用において重要である。
現在、ディープラーニングベースの手法はこれらのタスクで素晴らしいパフォーマンスを実現している。
しかし、その多くは強力な深層アーキテクチャを見つけることに集中しているが、より強固な表現のために固有の曲率構造の特徴(例えば、曲率構造は文脈よりも暗くなっている)を捉えることを無視している。
その結果、パフォーマンスは通常、クロスデータセットに多くを依存します。
本稿では,新しい局所強度秩序変換(LIOT)を導入することにより,一般化性の向上を目指す。
具体的には、4つの方向(水平方向と垂直方向)と各画素とその近傍画素間の強度オーダーに基づいて、グレースケール画像をコントラスト不変4チャンネル画像に変換する。
これにより、コントラスト変化に頑健なまま、曲率構造の本質的な特性を保存できる表現が得られる。
3つの網膜血管セグメンテーションデータセットのクロスデータセット評価は、LIOTがいくつかの最先端手法の一般化性を改善することを示した。
さらに, 網膜血管分節と舗装クラック分節の相互データセットによる評価により, LIOTは外見のギャップが大きいカービリナール構造の特性を維持できることが示された。
提案手法の実装はhttps://github.com/TY-Shi/LIOTで公開されている。 Segmentation of curvilinear structures is important in many applications, such as retinal blood vessel segmentation for early detection of vessel diseases and pavement crack segmentation for road condition evaluation and maintenance. Currently, deep learning-based methods have achieved impressive performance on these tasks. Yet, most of them mainly focus on finding powerful deep architectures but ignore capturing the inherent curvilinear structure feature (e.g., the curvilinear structure is darker than the context) for a more robust representation. In consequence, the performance usually drops a lot on cross-datasets, which poses great challenges in practice. In this paper, we aim to improve the generalizability by introducing a novel local intensity order transformation (LIOT). Specifically, we transfer a gray-scale image into a contrast-invariant four-channel image based on the intensity order between each pixel and its nearby pixels along with the four (horizontal and vertical) directions. This results in a representation that preserves the inherent characteristic of the curvilinear structure while being robust to contrast changes. Cross-dataset evaluation on three retinal blood vessel segmentation datasets demonstrates that LIOT improves the generalizability of some state-of-the-art methods. Additionally, the cross-dataset evaluation between retinal blood vessel segmentation and pavement crack segmentation shows that LIOT is able to preserve the inherent characteristic of curvilinear structure with large appearance gaps. An implementation of the proposed method is available at https://github.com/TY-Shi/LIOT. | 翻訳日:2022-02-28 16:14:15 公開日:2022-02-25 |
# 画像エッジ検出のためのヘテロ連想メモリとしての振動ニューラルネットワーク Oscillatory Neural Network as Hetero-Associative Memory for Image Edge Detection ( http://arxiv.org/abs/2202.12541v1 ) ライセンス: Link先を確認 | Madeleine Abernot (SmartIES, LIRMM), Thierry Gil (LIRMM), Aida Todri-Sanial (SmartIES, LIRMM) | (参考訳) カメラなどのエッジデバイスで処理されるデータ量の増加は、エッジでの人工知能(AI)統合を動機付けている。
特徴抽出やエッジ検出などのエッジで実行される典型的な画像処理方法は、エネルギー、計算、メモリ空腹アルゴリズムである畳み込みフィルタを使用する。
しかしエッジデバイスやカメラは、計算リソース、帯域幅、電力が少なく、データをクラウドに送信するプライバシーの制約により制限されている。
したがって、エッジで画像データを処理する必要がある。
長年にわたり、このニーズは、エッジでニューロモルフィックコンピューティングを実装することに多くの関心を喚起してきた。
ニューロモルフィックシステムは、エネルギー効率の高い計算を実現するために生物学的神経機能をエミュレートすることを目的としている。
近年,発振性ニューラルネットワーク (onn) は,脳振動をエミュレートして自己連想記憶型アプリケーションを行う,新しい脳にインスパイアされた計算手法を提案する。
画像のエッジ検出を高速化し,消費電力を削減するため,ONNによる詳細な調査を行う。
画像エッジ検出のためのヘテロ連想メモリ(HAM)として,ONNを用いた新しい画像処理手法を提案する。
我々はまず、Matlabエミュレータを使い、次に完全なデジタルNN設計を用いて、ONN-HAMソリューションをシミュレートする。
また,黒と白とグレーの2乗評価マップ,28×28 MNISTの画像,さらに白と白の512×512の標準テスト画像で結果を示す。
我々は、SobelやCannyといった標準的なエッジ検出フィルタと比較する。
最後に、全ディジタル設計シミュレーション結果を用いて、タイミングと資源特性を報告し、リアルタイム画像処理への適用性を評価する。
我々のデジタルNN-HAMソリューションは、リアルタイムカメラの制約を考慮し、120×120ピクセル(166MHz)の画像を処理できる。
この研究は、ONNを画像処理アプリケーションのためのヘテロ連想メモリとして探求した最初のものである。 The increasing amount of data to be processed on edge devices, such as cameras, has motivated Artificial Intelligence (AI) integration at the edge. Typical image processing methods performed at the edge, such as feature extraction or edge detection, use convolutional filters that are energy, computation, and memory hungry algorithms. But edge devices and cameras have scarce computational resources, bandwidth, and power and are limited due to privacy constraints to send data over to the cloud. Thus, there is a need to process image data at the edge. Over the years, this need has incited a lot of interest in implementing neuromorphic computing at the edge. Neuromorphic systems aim to emulate the biological neural functions to achieve energy-efficient computing. Recently, Oscillatory Neural Networks (ONN) present a novel brain-inspired computing approach by emulating brain oscillations to perform autoassociative memory types of applications. To speed up image edge detection and reduce its power consumption, we perform an in-depth investigation with ONNs. We propose a novel image processing method by using ONNs as a hetero-associative memory (HAM) for image edge detection. We simulate our ONN-HAM solution using first, a Matlab emulator, and then a fully digital ONN design. We show results on gray scale square evaluation maps, also on black and white and gray scale 28x28 MNIST images and finally on black and white 512x512 standard test images. We compare our solution with standard edge detection filters such as Sobel and Canny. Finally, using the fully digital design simulation results, we report on timing and resource characteristics, and evaluate its feasibility for real-time image processing applications. Our digital ONN-HAM solution can process images with up to 120x120 pixels (166 MHz system frequency) respecting real-time camera constraints. This work is the first to explore ONNs as hetero-associative memory for image processing applications. | 翻訳日:2022-02-28 16:13:44 公開日:2022-02-25 |
# 知的空間, 空気, 地上ネットワークによる都市間接続ギャップの橋渡し Bridging the Urban-Rural Connectivity Gap through Intelligent Space, Air, and Ground Networks ( http://arxiv.org/abs/2202.12683v1 ) ライセンス: Link先を確認 | Fares Fourati, Saeed Hamood Alsamhi, and Mohamed-Slim Alouini | (参考訳) 農村部におけるコネクティビティは,コミュニケーションネットワークの主要な課題の一つである。
この課題を克服するためには、さまざまな状況に対する様々なソリューションが必要である。
したがって、現在のネットワークパラダイムの最適化は必須です。
都市部に比べ、インフラの高コストと都市部における携帯電話の低収入は、通信事業者にとって特に魅力がない。
したがって、空間、空気、地上ネットワークはすべて、農村部における接続性を達成するために最適化されるべきである。
本稿では,農村における接続性に関する最新の研究と,地上ネットワークのソリューションについて議論し,非地上ネットワークの潜在的メリットについて考察する。
さらに,空間,空気,地上ネットワークを改善するための人工知能(ai)技術を概観し,農村部における接続性を改善した。
AIはインテリジェントなコミュニケーションを可能にし、地域接続のための空間、空気、地上ネットワークを統合することができる。
農村部におけるコネクティビティの課題を議論し,最新のプロジェクトと研究と,aiを用いたネットワークのエンパワーメントを強調する。
最後に,農村社会への接続性に影響を及ぼす可能性について論じる。 Connectivity in rural areas is one of the main challenges of communication networks. To overcome this challenge, a variety of solutions for different situations are required. Optimizing the current networking paradigms is therefore mandatory. The high costs of infrastructure and the low revenue of cell sites in rural areas compared with urban areas are especially unattractive for telecommunication operators. Therefore, space, air, and ground networks should all be optimized for achieving connectivity in rural areas. We highlight the latest works on rural connectivity, discuss the solutions for terrestrial networks, and study the potential benefits of nonterrestrial networks. Furthermore, we present an overview of artificial intelligence (AI) techniques for improving space, air, and ground networks, hence improving connectivity in rural areas. AI enables intelligent communications and can integrate space, air, and ground networks for rural connectivity. We discuss the rural connectivity challenges and highlight the latest projects and research and the empowerment of networks using AI. Finally, we discuss the potential positive impacts of providing connectivity to rural communities. | 翻訳日:2022-02-28 16:13:12 公開日:2022-02-25 |
# 個別処理効果推定のためのアンサンブル法 Ensemble Method for Estimating Individualized Treatment Effects ( http://arxiv.org/abs/2202.12445v1 ) ライセンス: Link先を確認 | Kevin Wu Han and Han Wu | (参考訳) 多くの医学・ビジネス応用において、研究者はランダム化実験のデータを用いて個別化された治療効果を推定することに興味を持っている。
例えば医療分野では、医師は臨床試験や技術企業から治療効果を学び、研究者はa/bテスト実験からそれを学ぶ。
この課題に対して、数十の機械学習モデルが提案されているが、地道処理効果が観測不可能であるため、どのモデルが問題に最適かを決定することは困難である。
競合するモデルの1つであるtextit{select} にメソッドを提案する最近の論文とは対照的に,モデルの多種多様なライブラリからの推定値を求めるアルゴリズムを提案する。
我々は、43のベンチマークデータセットのモデル選択と比較し、ほぼ毎回、ensemblingが勝つことを発見した。
理論的には、我々のアンサンブルモデルが、たとえ候補モデルの数がサンプルサイズで増大しても、検討中の最良のモデルと同じくらい(漸近的に)正確であることを証明している。 In many medical and business applications, researchers are interested in estimating individualized treatment effects using data from a randomized experiment. For example in medical applications, doctors learn the treatment effects from clinical trials and in technology companies, researchers learn them from A/B testing experiments. Although dozens of machine learning models have been proposed for this task, it is challenging to determine which model will be best for the problem at hand because ground-truth treatment effects are unobservable. In contrast to several recent papers proposing methods to \textit{select} one of these competing models, we propose an algorithm for \textit{aggregating} the estimates from a diverse library of models. We compare ensembling to model selection on 43 benchmark datasets, and find that ensembling wins almost every time. Theoretically, we prove that our ensemble model is (asymptotically) at least as accurate as the best model under consideration, even if the number of candidate models is allowed to grow with the sample size. | 翻訳日:2022-02-28 16:10:46 公開日:2022-02-25 |
# 時間空間逆検出に基づく心電図表現の学習 Learning ECG Representations based on Manipulated Temporal-Spatial Reverse Detection ( http://arxiv.org/abs/2202.12458v1 ) ライセンス: Link先を確認 | Wenrui Zhang, Shijia Geng, Shenda Hong | (参考訳) 心電図(ECG)からの学習表現は、多くの下流機械学習ベースのECG分析タスクの基本的なステップとなる。
しかし、学習プロセスは常に高品質なラベル付きデータの欠如によって制限される。
データ不足に対処する既存の手法は、下流のタスクに対して満足のいく表現を提供できないか、情報表現を学ぶために類似した異なるペアを構築するのに多くの努力を必要とする。
本稿では,ecg表現を学ぶための単純かつ効果的なアプローチを提案する。
ECGの時間的・空間的特性にインスパイアされ、元の信号を水平・垂直・水平・垂直に反転させる。
学習は、元の信号を含む4種類の信号を分類することで行われる。
提案する時間空間逆検出法(t-s)の有効性を検証するために,心電図の最も一般的な課題の一つである心房細動(af)を下流課題で検出する。
その結果,本手法で学習したECG表現は,下流タスクにおいて顕著な性能を示すことがわかった。
さらに,表現的特徴空間を探索し,ECG信号のどの部分が表現に寄与するかを調べた結果,時間的逆はECG表現を学習するための空間的逆よりも有効であると結論付けた。 Learning representations from electrocardiogram (ECG) serves as a fundamental step for many downstream machine learning-based ECG analysis tasks. However, the learning process is always restricted by lack of high-quality labeled data in reality. Existing methods addressing data deficiency either cannot provide satisfied representations for downstream tasks or require too much effort to construct similar and dissimilar pairs to learn informative representations. In this paper, we propose a straightforward but effective approach to learn ECG representations. Inspired by the temporal and spatial characteristics of ECG, we flip the original signals horizontally, vertically, and both horizontally and vertically. The learning is then done by classifying the four types of signals including the original one. To verify the effectiveness of the proposed temporal-spatial (T-S) reverse detection method, we conduct a downstream task to detect atrial fibrillation (AF) which is one of the most common ECG tasks. The results show that the ECG representations learned with our method lead to remarkable performances on the downstream task. In addition, after exploring the representational feature space and investigating which parts of the ECG signal contribute to the representations, we conclude that the temporal reverse is more effective than the spatial reverse for learning ECG representations. | 翻訳日:2022-02-28 16:10:28 公開日:2022-02-25 |
# GAME-ON: フェイクニュース検出のためのグラフ注意ネットワークに基づくマルチモーダルフュージョン GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection ( http://arxiv.org/abs/2202.12478v1 ) ライセンス: Link先を確認 | Mudit Dhawan, Shakshi Sharma, Aditya Kadam, Rajesh Sharma and Ponnurangam Kumaraguru | (参考訳) 現代のソーシャルメディアは、大きくて影響力を増している。
これらのプラットフォームに広がるフェイクニュースは、私たちの生活に破壊的かつ有害な影響を与えます。
さらに、マルチメディアコンテンツはテキストデータよりも投稿の可視性を向上させるため、しばしば偽コンテンツ作成にマルチメディアが使われていることが観察されている。
従来のマルチモーダルベースの多くの研究は、偽コンテンツの識別における異質なモダリティのモデリングの問題に対処しようと試みている。
しかし,これらの研究は,(1)後段のモデルにおけるモーダル性に対する単純な連結演算子の利用によるモーダル間関係の非効率な符号化,(2)小さいが複雑な実生活マルチモーダルデータセット上でパラメータの不均等な数で非常に深いニューラルネットワークを訓練することにより,オーバーフィッティングの可能性が高まる。
これらの制限に対処するために、私たちは、さまざまなモダリティ内および相互間の粒度の相互作用を可能にし、マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習する、グラフニューラルネットワークベースのエンドツーエンドトレーニング可能なフレームワークであるgame-onを提案する。
評価にはtwitterとweiboという2つのフェイクニュースデータセットを使っています。
当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。 Social media in present times has a significant and growing influence. Fake news being spread on these platforms have a disruptive and damaging impact on our lives. Furthermore, as multimedia content improves the visibility of posts more than text data, it has been observed that often multimedia is being used for creating fake content. A plethora of previous multimodal-based work has tried to address the problem of modeling heterogeneous modalities in identifying fake content. However, these works have the following limitations: (1) inefficient encoding of inter-modal relations by utilizing a simple concatenation operator on the modalities at a later stage in a model, which might result in information loss; (2) training very deep neural networks with a disproportionate number of parameters on small but complex real-life multimodal datasets result in higher chances of overfitting. To address these limitations, we propose GAME-ON, a Graph Neural Network based end-to-end trainable framework that allows granular interactions within and across different modalities to learn more robust data representations for multimodal fake news detection. We use two publicly available fake news datasets, Twitter and Weibo, for evaluations. Our model outperforms on Twitter by an average of 11% and keeps competitive performance on Weibo, within a 2.6% margin, while using 65% fewer parameters than the best comparable state-of-the-art baseline. | 翻訳日:2022-02-28 16:10:07 公開日:2022-02-25 |
# 深層強化学習のための適応型tソフトアップデート Consolidated Adaptive T-soft Update for Deep Reinforcement Learning ( http://arxiv.org/abs/2202.12504v1 ) ライセンス: Link先を確認 | Taisuke Kobayashi | (参考訳) 深部強化学習(DRL)の需要は徐々に増加し、ロボットが複雑なタスクを実行できるようになり、DRLは不安定であることが知られている。
学習を安定させる技術として、メインネットワークにゆっくりと漸近的に一致するターゲットネットワークを用いて、安定した擬似教師付き信号を生成する。
近年,ターゲットネットワークのノイズロスト更新ルールとしてT-softが提案され,DRLの性能向上に寄与している。
しかし、T-Soft更新のノイズロバスト性は、タスクごとに調整すべきハイパーパラメータによって規定され、単純化された実装によって劣化する。
本研究では,最近開発された AdaTerm の更新ルールを利用して,適応型 T-soft (AT-soft) 更新を開発する。
また、ターゲットネットワークをターゲットネットワークに戻すための新たな統合により、ターゲットネットワークがメインネットワークと漸近的に一致しないという懸念が軽減される。
いわゆる統合AT-soft(CAT-soft)更新は数値シミュレーションにより検証される。 Demand for deep reinforcement learning (DRL) is gradually increased to enable robots to perform complex tasks, while DRL is known to be unstable. As a technique to stabilize its learning, a target network that slowly and asymptotically matches a main network is widely employed to generate stable pseudo-supervised signals. Recently, T-soft update has been proposed as a noise-robust update rule for the target network and has contributed to improving the DRL performance. However, the noise robustness of T-soft update is specified by a hyperparameter, which should be tuned for each task, and is deteriorated by a simplified implementation. This study develops adaptive T-soft (AT-soft) update by utilizing the update rule in AdaTerm, which has been developed recently. In addition, the concern that the target network does not asymptotically match the main network is mitigated by a new consolidation for bringing the main network back to the target network. This so-called consolidated AT-soft (CAT-soft) update is verified through numerical simulations. | 翻訳日:2022-02-28 16:09:39 公開日:2022-02-25 |
# ハリケーン避難時のネットワーク全体の動的交通予測のための深層学習手法 A Deep Learning Approach for Network-wide Dynamic Traffic Prediction during Hurricane Evacuation ( http://arxiv.org/abs/2202.12505v1 ) ライセンス: Link先を確認 | Rezaur Rahman and Samiul Hasan | (参考訳) 積極的避難交通管理は,高時空間分解能のリアルタイムモニタリングと交通流予測に大きく依存する。
しかし,予想されるハリケーン経路の急激な変化と世帯避難行動による不確実性のため,避難交通予測は困難である。
さらに、時空間の交通流パターンをモデル化するには、長い期間にわたって広範なデータを必要とするが、避難は通常2日から5日間続く。
本稿では,ネットワーク規模での避難交通量予測のための新しいデータ駆動手法を提案する。
ハリケーン避難のネットワーク力学を学習するための動的グラフ畳み込みLSTM(DGCN-LSTM)モデルを開発した。
まず,非避難期間トラフィックデータに対するモデルをトレーニングし,RMSE値226.84で、非避難期間トラフィックを予測するための既存のディープラーニングモデルより優れていることを示す。
しかし,避難期間にモデルを適用すると,RMSE値は1440.99に増加した。
非避難期間から避難期間への情報(ネットワークのダイナミクス)の転送を制御するため,避難区域からの距離,上陸までの時間,その他の地域レベルの特徴など,避難交通需要に関連する付加的な特徴を備えた移動学習アプローチを採用することで,この問題を克服する。
最終移行学習DGCN-LSTMモデルは避難交通流を予測する(RMSE=399.69)。
実装されたモデルは、より長い予測水平線(6時間)で避難トラフィックを予測するために適用することができる。
交通機関が適切な交通管理戦略を発動し、交通回避の遅れを軽減できるよう支援する。 Proactive evacuation traffic management largely depends on real-time monitoring and prediction of traffic flow at a high spatiotemporal resolution. However, evacuation traffic prediction is challenging due to the uncertainties caused by sudden changes in projected hurricane paths and consequently household evacuation behavior. Moreover, modeling spatiotemporal traffic flow patterns requires extensive data over a longer time period, whereas evacuations typically last for 2 to 5 days. In this paper, we present a novel data-driven approach for predicting evacuation traffic at a network scale. We develop a dynamic graph convolution LSTM (DGCN-LSTM) model to learn the network dynamics of hurricane evacuation. We first train the model for non-evacuation period traffic data showing that the model outperforms existing deep learning models for predicting non-evacuation period traffic with an RMSE value of 226.84. However, when we apply the model for evacuation period, the RMSE value increased to 1440.99. We overcome this issue by adopting a transfer learning approach with additional features related to evacuation traffic demand such as distance from the evacuation zone, time to landfall, and other zonal level features to control the transfer of information (network dynamics) from non-evacuation periods to evacuation periods. The final transfer learned DGCN-LSTM model performs well to predict evacuation traffic flow (RMSE=399.69). The implemented model can be applied to predict evacuation traffic over a longer forecasting horizon (6 hour). It will assist transportation agencies to activate appropriate traffic management strategies to reduce delays for evacuating traffic. | 翻訳日:2022-02-28 16:09:23 公開日:2022-02-25 |
# ドメイン適応:コヒーレント光学系におけるニューラルネットワーク等化器のキーエンバーサ Domain Adaptation: the Key Enabler of Neural Network Equalizers in Coherent Optical Systems ( http://arxiv.org/abs/2202.12689v1 ) ライセンス: Link先を確認 | Pedro J. Freire, Bernhard Spinnler, Daniel Abode, Jaroslaw E. Prilepsky, Abdallah A. I. Ali, Nelson Costa, Wolfgang Schairer, Antonio Napoli, Andrew D. Ellis, Sergei K. Turitsyn | (参考訳) 合成データを用いて,実伝送用ニューラルネットワークベースの等化器の校正のための領域適応とランダム化手法を提案する。
このアプローチは最大99\%のトレーニングプロセス削減を実現し、3つの実験的なセットアップで実証した。 We introduce the domain adaptation and randomization approach for calibrating neural network-based equalizers for real transmissions, using synthetic data. The approach renders up to 99\% training process reduction, which we demonstrate in three experimental setups. | 翻訳日:2022-02-28 16:09:00 公開日:2022-02-25 |
# 比較的滑らかな凸コスト関数に対するオンラインミラー降下の動的後悔 Dynamic Regret of Online Mirror Descent for Relatively Smooth Convex Cost Functions ( http://arxiv.org/abs/2202.12843v1 ) ライセンス: Link先を確認 | Nima Eshraghi and Ben Liang | (参考訳) 動的環境におけるオンライン凸最適化アルゴリズムの性能は、時間変動コンパレータのシーケンスに対して決定者のパフォーマンスを測定する動的後悔の観点から表されることが多い。
動的後悔の分析において、先行研究はしばしばコスト関数のリプシッツ連続性や一様滑らかさを仮定する。
しかし、実際にはこれらの条件を満たさない重要なコスト関数が多数存在する。
このような場合、事前解析は適用できず、最適化性能を保証できない。
このレターでは、リプシッツ連続性も均一な滑らか性も存在しない場合でも、動的後悔の束縛が可能であることを示す。
コスト関数に対するより穏やかな要求であるユーザ定義正規化関数に対して、相対的滑らかさの概念を採用する。
まず, 相対的な滑らかさの下では, 動的後悔は経路長と機能的変動に基づいて上限を持つことを示す。
次に、相対的に強い凸性の付加条件により、動的後悔は経路長と勾配変化によって境界付けられることを示す。
これらの残念な境界は、異なるアプリケーションドメインで発生する様々なオンライン最適化問題に対して、パフォーマンスを保証する。
最後に,コスト関数が比較的滑らかな正規化関数を採用する利点を示す数値実験を行う。 The performance of online convex optimization algorithms in a dynamic environment is often expressed in terms of the dynamic regret, which measures the decision maker's performance against a sequence of time-varying comparators. In the analysis of the dynamic regret, prior works often assume Lipschitz continuity or uniform smoothness of the cost functions. However, there are many important cost functions in practice that do not satisfy these conditions. In such cases, prior analyses are not applicable and fail to guarantee the optimization performance. In this letter, we show that it is possible to bound the dynamic regret, even when neither Lipschitz continuity nor uniform smoothness is present. We adopt the notion of relative smoothness with respect to some user-defined regularization function, which is a much milder requirement on the cost functions. We first show that under relative smoothness, the dynamic regret has an upper bound based on the path length and functional variation. We then show that with an additional condition of relatively strong convexity, the dynamic regret can be bounded by the path length and gradient variation. These regret bounds provide performance guarantees to a wide variety of online optimization problems that arise in different application domains. Finally, we present numerical experiments that demonstrate the advantage of adopting a regularization function under which the cost functions are relatively smooth. | 翻訳日:2022-02-28 16:07:13 公開日:2022-02-25 |
# AutoFR: 広告ブロックのための自動フィルタルール生成 AutoFR: Automated Filter Rule Generation for Adblocking ( http://arxiv.org/abs/2202.12872v1 ) ライセンス: Link先を確認 | Hieu Le, Salma Elmalaki, Athina Markopoulou, and Zubair Shafiq | (参考訳) adblockingはフィルタリストに依存しており、手動でキュレートされ、リスト作成者の小さなコミュニティによって維持される。
この手動プロセスは手間がかかり、多くのサイトや時間とともにうまくスケールしない。
本稿では,ルール生成と評価のプロセスを完全に自動化する強化学習フレームワークであるAutoFRを紹介する。
ブロック広告と破損回避のトレードオフを制御しながら,マルチアームバンディットに基づくフィルタルールを生成するアルゴリズムを設計する。
我々は、効率と有効性の観点から、何千ものサイトでAutoFRの実装をテストする。
AutoFRは効率的で、サイトのフィルタルールを生成するのに数分しかかからない。
autofrも有効で、広告の86%をブロックできるフィルタルールを生成する。
autofrが生成するフィルタルールは、新規および未発見のサイトにうまく一般化する。
我々は,自動フィルタルール生成において,広告ブロックコミュニティを支援するためにAutoFRを構想する。 Adblocking relies on filter lists, which are manually curated and maintained by a small community of filter list authors. This manual process is laborious and does not scale well to a large number of sites and over time. We introduce AutoFR, a reinforcement learning framework to fully automate the process of filter rule creation and evaluation. We design an algorithm based on multi-arm bandits to generate filter rules while controlling the trade-off between blocking ads and avoiding breakage. We test our implementation of AutoFR on thousands of sites in terms of efficiency and effectiveness. AutoFR is efficient: it takes only a few minutes to generate filter rules for a site. AutoFR is also effective: it generates filter rules that can block 86% of the ads, as compared to 87% by EasyList while achieving comparable visual breakage. The filter rules generated by AutoFR generalize well to new and unseen sites. We envision AutoFR to assist the adblocking community in automated filter rule generation at scale. | 翻訳日:2022-02-28 16:06:54 公開日:2022-02-25 |
# LF-VIO:負の平面を持つ大視野カメラのための視覚慣性オドメトリーフレームワーク LF-VIO: A Visual-Inertial-Odometry Framework for Large Field-of-View Cameras with Negative Plane ( http://arxiv.org/abs/2202.12613v1 ) ライセンス: Link先を確認 | Ze Wang, Kailun Yang, Hao Shi, Kaiwei Wang | (参考訳) 視覚慣性計測は自律走行とロボット工学の分野で広く注目を集めている。
視野の大きさ (FoV) は視覚オドメトリー (VO) や視覚慣性オドメトリー (VIO) において重要な役割を担っている。
しかし、カメラのフィールドが負の半平面に達すると、画像特徴点を表すために[u,v,1]^Tを単に使うことはできない。
この問題に対処するために、非常に大きなFoVを持つカメラのためのリアルタイムVIOフレームワークLF-VIOを提案する。
単位長の3次元ベクトルを利用して特徴点を表現し、この課題を克服するために一連のアルゴリズムを設計する。
そこで本稿では,パノラマ視覚オドメトリーデータセットの不足に対処するために,パノラマ環状レンズ(pal)システムを用いて収集したパノラマ視覚オドメトリデータセットと,360x(40-120)度の全フォブとimuセンサを提案する。
PALVIOベンチマークとFoVの360x(0-93.5)度での公開魚眼カメラデータセットの両方で、総合的な実験によりLF-VIOが検証された。
LF-VIOは最先端のビジュアル慣性オードメトリー法より優れている。
私たちのデータセットとコードはhttps://github.com/flysoaryun/LF-VIOで公開されています。 Visual-inertial-odometry has attracted extensive attention in the field of autonomous driving and robotics. The size of Field of View (FoV) plays an important role in Visual-Odometry (VO) and Visual-Inertial-Odometry (VIO), as a large FoV enables to perceive a wide range of surrounding scene elements and features. However, when the field of the camera reaches the negative half plane, one cannot simply use [u,v,1]^T to represent the image feature points anymore. To tackle this issue, we propose LF-VIO, a real-time VIO framework for cameras with extremely large FoV. We leverage a three-dimensional vector with unit length to represent feature points, and design a series of algorithms to overcome this challenge. To address the scarcity of panoramic visual odometry datasets with ground-truth location and pose, we present the PALVIO dataset, collected with a Panoramic Annular Lens (PAL) system with an entire FoV of 360x(40-120) degrees and an IMU sensor. With a comprehensive variety of experiments, the proposed LF-VIO is verified on both the established PALVIO benchmark and a public fisheye camera dataset with a FoV of 360x(0-93.5) degrees. LF-VIO outperforms state-of-the-art visual-inertial-odometry methods. Our dataset and code are made publicly available at https://github.com/flysoaryun/LF-VIO | 翻訳日:2022-02-28 16:06:42 公開日:2022-02-25 |
# インスタンス構成GANを用いたfMRIパターンからの知覚画像の再構成と意味脳探索 Reconstruction of Perceived Images from fMRI Patterns and Semantic Brain Exploration using Instance-Conditioned GANs ( http://arxiv.org/abs/2202.12692v1 ) ライセンス: Link先を確認 | Furkan Ozcelik, Bhavin Choksi, Milad Mozafari, Leila Reddy, Rufin VanRullen | (参考訳) fmri信号から知覚された自然画像の再構成は、神経デコード研究の最も興味深いトピックの1つである。
以前の研究では、低レベルの画像の特徴または意味/高レベルの側面の再構築に成功したが、どちらもまれである。
そこで本研究では, インスタンス定義型GAN(IC-GAN)モデルを用いて, fMRIパターンからの画像を, 正確なセマンティック属性と保存低レベル詳細の両方で再構成した。
IC-GANモデルは、自己教師付き学習モデル(SwAV ResNet-50)を介して対象画像から抽出された119ディムノイズベクトルと2048ディムインスタンス特徴ベクトルを入力とし、これらの特徴はIC-GAN画像生成の条件付けとして機能し、ノイズベクトルはサンプル間の可変性を導入する。
我々はリッジ回帰モデルを訓練し,対応するfmriパターンからの刺激のインスタンス特徴,ノイズベクトル,高密度ベクター(ic-gan生成器の第1高密度層の出力)を予測する。
IC-GANジェネレータを用いて,これらのfMRI予測変数に基づいて新しいテスト画像の再構成を行った。
生成した画像は、元のテスト画像のセマンティックな属性を捉えながら、低レベルの画像の詳細に比較的忠実なまま、最先端の結果を示した。
最後に、学習された回帰モデルとIC-GANジェネレータを用いて、人間の脳の各領域を最大限に駆動する意味的特徴を体系的に探索し視覚化する。 Reconstructing perceived natural images from fMRI signals is one of the most engaging topics of neural decoding research. Prior studies had success in reconstructing either the low-level image features or the semantic/high-level aspects, but rarely both. In this study, we utilized an Instance-Conditioned GAN (IC-GAN) model to reconstruct images from fMRI patterns with both accurate semantic attributes and preserved low-level details. The IC-GAN model takes as input a 119-dim noise vector and a 2048-dim instance feature vector extracted from a target image via a self-supervised learning model (SwAV ResNet-50); these instance features act as a conditioning for IC-GAN image generation, while the noise vector introduces variability between samples. We trained ridge regression models to predict instance features, noise vectors, and dense vectors (the output of the first dense layer of the IC-GAN generator) of stimuli from corresponding fMRI patterns. Then, we used the IC-GAN generator to reconstruct novel test images based on these fMRI-predicted variables. The generated images presented state-of-the-art results in terms of capturing the semantic attributes of the original test images while remaining relatively faithful to low-level image details. Finally, we use the learned regression model and the IC-GAN generator to systematically explore and visualize the semantic features that maximally drive each of several regions-of-interest in the human brain. | 翻訳日:2022-02-28 16:06:14 公開日:2022-02-25 |
# プログラミング言語処理のための多視点グラフ表現:アルゴリズム検出の検討 Multi-View Graph Representation for Programming Language Processing: An Investigation into Algorithm Detection ( http://arxiv.org/abs/2202.12481v1 ) ライセンス: Link先を確認 | Ting Long, Yutong Xie, Xianyu Chen, Weinan Zhang, Qinxiang Cao, Yong Yu | (参考訳) プログラムのソースコードを自動抽出したベクトルに変換するプログラム表現は、プログラミング言語処理(PLP)の根本的な問題である。
最近の研究は、ソースコード構造に基づいたニューラルネットワークによるプログラムの表現を試みる。
しかし、このような手法はしばしば構文に焦点を合わせ、プログラムの単一の視点のみを考慮し、モデルの表現力を制限する。
本稿では,マルチビューグラフ(MVG)プログラム表現法を提案する。
mvgはコードのセマンティクスにもっと注意を払って、複数のビューとしてデータフローとコントロールフローの両方を同時に含む。
これらのビューはグラフニューラルネットワーク(GNN)によって合成され、さまざまな側面をカバーする包括的なプログラム表現を得る。
PLPの重要かつ挑戦的なサブフィールドであるアルゴリズム検出の文脈において,提案したMVGアプローチを徹底的に評価した。
具体的には、公開データセットpoj-104を使用し、新しい挑戦的なデータセットalg-109を構築してメソッドをテストする。
実験では、mvgは以前の手法を大幅に上回り、我々のモデルがソースコードを表現する強力な能力を示している。 Program representation, which aims at converting program source code into vectors with automatically extracted features, is a fundamental problem in programming language processing (PLP). Recent work tries to represent programs with neural networks based on source code structures. However, such methods often focus on the syntax and consider only one single perspective of programs, limiting the representation power of models. This paper proposes a multi-view graph (MVG) program representation method. MVG pays more attention to code semantics and simultaneously includes both data flow and control flow as multiple views. These views are then combined and processed by a graph neural network (GNN) to obtain a comprehensive program representation that covers various aspects. We thoroughly evaluate our proposed MVG approach in the context of algorithm detection, an important and challenging subfield of PLP. Specifically, we use a public dataset POJ-104 and also construct a new challenging dataset ALG-109 to test our method. In experiments, MVG outperforms previous methods significantly, demonstrating our model's strong capability of representing source code. | 翻訳日:2022-02-28 16:05:33 公開日:2022-02-25 |
# 機械学習による多面格子の洗練戦略と仮想要素法および多面不連続ガレルキン法への応用 Machine Learning based refinement strategies for polyhedral grids with applications to Virtual Element and polyhedral Discontinuous Galerkin methods ( http://arxiv.org/abs/2202.12654v1 ) ライセンス: Link先を確認 | P. F. Anotnietti, F. Dassi, E. Manuzzi | (参考訳) 本稿では,多面体グリッドの細分化を扱うための機械学習手法に基づく2つの新しい戦略を提案する。
1つはk平均クラスタリングアルゴリズムを用いて、精製されるポリヘドロンの点を分割する。
この戦略はよく知られた遠心性ボロノイ音節の変種である。
2つ目は、畳み込みニューラルネットワークを使用して、要素の「形」を分類し、「アドホック」精製基準を定義する。
この戦略は、オンライン計算コストの低いk平均戦略を含む既存の洗練戦略を強化するために使用できる。
本稿では,任意の形状の多面体要素をサポートする有限要素法であるVirtual Element Method(VEM)とPolygonal Discontinuous Galerkin(PolyDG)の2つのファミリを考慮したアルゴリズムを提案する。
これらの戦略が下層グリッドの構造と品質を保ち、全体的な計算コストとメッシュの複雑さを低減できることを実証する。 We propose two new strategies based on Machine Learning techniques to handle polyhedral grid refinement, to be possibly employed within an adaptive framework. The first one employs the k-means clustering algorithm to partition the points of the polyhedron to be refined. This strategy is a variation of the well known Centroidal Voronoi Tessellation. The second one employs Convolutional Neural Networks to classify the "shape" of an element so that "ad-hoc" refinement criteria can be defined. This strategy can be used to enhance existing refinement strategies, including the k-means strategy, at a low online computational cost. We test the proposed algorithms considering two families of finite element methods that support arbitrarily shaped polyhedral elements, namely the Virtual Element Method (VEM) and the Polygonal Discontinuous Galerkin (PolyDG) method. We demonstrate that these strategies do preserve the structure and the quality of the underlaying grids, reducing the overall computational cost and mesh complexity. | 翻訳日:2022-02-28 16:04:12 公開日:2022-02-25 |
# シミュレーション多面体供給チェーンにおけるモデルベースモデルとモデルフリーコストの低減 Behaviorally Grounded Model-Based and Model Free Cost Reduction in a Simulated Multi-Echelon Supply Chain ( http://arxiv.org/abs/2202.12786v1 ) ライセンス: Link先を確認 | James Paine | (参考訳) 注文信号の増幅と位相シフトは、一般にブルホイップと呼ばれ、現実世界の在庫管理システム、在庫、そして安全ストックビルの不要な資本予約の両方に過度な負担を負う。
bullwhipは、在庫管理における残響的な結果に関する古典的な、しかし永続的な問題である。
ブルウィップの研究は、この現象に対する行動の影響を一貫して強調し、介入を提案する行動順序モデルを活用している。
しかし、最近のモデルフリーアプローチも成功している。
本研究では,モデルフリーな2重深層qネットワーク強化学習手法と並行して,振る舞いに基づくモデルベースアプローチを用いてブルホイップを緩和するアルゴリズム的アプローチを開発した。
モデルベースおよびモデルフリーアプローチの性能を直接比較した上で,このモデルフリーアーキテクチャのマルチエキロンサプライチェーンに対する不完全な情報共有と情報遅延に対する有用性について検討する。
そこで本研究では,事前行動操作管理文献の文脈におけるモデルベースアプローチの探求から得られた知見と,行動的接地型サプライチェーン管理問題へのアプローチにおけるモデルベースおよびモデルフリーアプローチの相補的性質を強調した。 Amplification and phase shift in ordering signals, commonly referred to as bullwhip, are responsible for both excessive strain on real world inventory management systems, stock outs, and unnecessary capital reservation though safety stock building. Bullwhip is a classic, yet persisting, problem with reverberating consequences in inventory management. Research on bullwhip has consistently emphasized behavioral influences for this phenomenon and leveraged behavioral ordering models to suggest interventions. However more recent model-free approaches have also seen success. In this work, the author develops algorithmic approaches towards mitigating bullwhip using both behaviorally grounded model-based approaches alongside a model-free dual deep Q-network reinforcement learning approach. In addition to exploring the utility of this specific model-free architecture to multi-echelon supply chains with imperfect information sharing and information delays, the author directly compares the performance of these model-based and model-free approaches. In doing so, this work highlights both the insights gained from exploring model-based approaches in the context of prior behavioral operations management literature and emphasizes the complementary nature of model-based and model-free approaches in approaching behaviorally grounded supply chain management problems. | 翻訳日:2022-02-28 16:03:38 公開日:2022-02-25 |
# (参考訳) 勾配降下学習にはニューラルネットワークとターゲットの初期アライメントが必要である An initial alignment between neural network and target is needed for gradient descent to learn ( http://arxiv.org/abs/2202.12846v1 ) ライセンス: CC BY 4.0 | Emmanuel Abbe, Elisabetta Cornacchia, Jan H\k{a}z{\l}a, Christopher Marquis | (参考訳) 本稿では,初期化時のニューラルネットワークと目標関数との「初期アライメント」(inal)の概念を紹介する。
ネットワークと対象関数が顕著な慣性を持たない場合、正規化i.i.d.初期化を持つ完全連結ネットワーク上の雑音勾配降下は多項式時間では学習されないことが証明される。
したがって、アーキテクチャ設計にはターゲットに関するある程度の知識(inalによって測定される)が必要である。
また、[AS20]で提起されたオープンな問題に対する回答も提供します。
結果は,INAL以外の対象関数の明示的な知識を必要とせずに,対称ニューラルネットワーク上での降下アルゴリズムの下位バウンドを導出することに基づく。 This paper introduces the notion of "Initial Alignment" (INAL) between a neural network at initialization and a target function. It is proved that if a network and target function do not have a noticeable INAL, then noisy gradient descent on a fully connected network with normalized i.i.d. initialization will not learn in polynomial time. Thus a certain amount of knowledge about the target (measured by the INAL) is needed in the architecture design. This also provides an answer to an open problem posed in [AS20]. The results are based on deriving lower-bounds for descent algorithms on symmetric neural networks without explicit knowledge of the target function beyond its INAL. | 翻訳日:2022-02-28 16:01:42 公開日:2022-02-25 |
# 教師なしバックグラウンドサブトラクションアルゴリズムを組み合わせることで達成可能な性能の探索 An exploration of the performances achievable by combining unsupervised background subtraction algorithms ( http://arxiv.org/abs/2202.12563v1 ) ライセンス: Link先を確認 | S\'ebastien Pi\'erard and Marc Braham and Marc Van Droogenbroeck | (参考訳) 背景サブトラクション(bgs)は、ビデオ中の動き検出を行うための一般的な選択である。
毎年何百ものBGSアルゴリズムがリリースされているが、それらを組み合わせて動きを検出することは、ほとんど探索されていない。
組み合わせ戦略によって、この膨大な量の利用可能なBGSアルゴリズムを活用でき、パフォーマンス改善のための大きなスペースを提供できることがわかった。
本稿では、ROC空間とF1スコアの両面において、26個の教師なしBGSアルゴリズムの出力を組み合わせた6つの戦略で達成可能な性能のセットをCDnet 2014データセット上で検討する。
選択された戦略は、決定論と非決定論の両方、投票と学習を含む、大きな戦略のパネルの代表である。
本実験では,IUTIS-5とCNN-SFCを比較し,各アルゴリズムの性能と,それらの組み合わせによって達成可能な最高の性能との間に重要なギャップがあることを6つの結論として報告した。 Background subtraction (BGS) is a common choice for performing motion detection in video. Hundreds of BGS algorithms are released every year, but combining them to detect motion remains largely unexplored. We found that combination strategies allow to capitalize on this massive amount of available BGS algorithms, and offer significant space for performance improvement. In this paper, we explore sets of performances achievable by 6 strategies combining, pixelwise, the outputs of 26 unsupervised BGS algorithms, on the CDnet 2014 dataset, both in the ROC space and in terms of the F1 score. The chosen strategies are representative for a large panel of strategies, including both deterministic and non-deterministic ones, voting and learning. In our experiments, we compare our results with the state-of-the-art combinations IUTIS-5 and CNN-SFC, and report six conclusions, among which the existence of an important gap between the performances of the individual algorithms and the best performances achievable by combining them. | 翻訳日:2022-02-28 15:25:38 公開日:2022-02-25 |
# 空間構造的多様性推論によるポイントクラウド意味セグメンテーションのためのアクティブラーニング Active Learning for Point Cloud Semantic Segmentation via Spatial-Structural Diversity Reasoning ( http://arxiv.org/abs/2202.12588v1 ) ライセンス: Link先を確認 | Feifei Shao, Yawei Luo, Ping Liu, Jie Chen, Yi Yang, Yulei Lu, Jun Xiao | (参考訳) 高価なアノテーションコストは、ポイントクラウドセマンティックセグメンテーション技術の開発における主要な制約として知られている。
本稿では,この問題に取り組むための新しいアクティブラーニングベース手法を提案する。
SSDR-ALと呼ばれる本手法では,従来の点群をスーパーポイントに分類し,ラベル取得において最も情報に富む代表的点を選択する。
スーパーポイントの空間的および構造的多様性を考慮したグラフ推論ネットワークを用いて選択機構を実現する。
SSDR-ALをより現実的なシナリオで展開するために,従来の支配的なラベル付け手法がスーパーポイントで導入した「ノイズアノテーション」問題に対処するために,ノイズ認識反復ラベル方式を設計する。
2点クラウドベンチマークでの大規模な実験は、セマンティックセグメンテーションタスクにおけるSSDR-ALの有効性を示す。
特に、SSDR-ALはラベル付きセットが小さい場合、S3DISとSemantic3Dのデータセット上での完全な教師付き学習のパフォーマンスを達成するのに、SSDR-ALは5.7\%と1.9\%のアノテーションコストしか必要としない。 The expensive annotation cost is notoriously known as a main constraint for the development of the point cloud semantic segmentation technique. In this paper, we propose a novel active learning-based method to tackle this problem. Dubbed SSDR-AL, our method groups the original point clouds into superpoints and selects the most informative and representative ones for label acquisition. We achieve the selection mechanism via a graph reasoning network that considers both the spatial and structural diversity of the superpoints. To deploy SSDR-AL in a more practical scenario, we design a noise aware iterative labeling scheme to confront the "noisy annotation" problem introduced by previous dominant labeling methods in superpoints. Extensive experiments on two point cloud benchmarks demonstrate the effectiveness of SSDR-AL in the semantic segmentation task. Particularly, SSDR-AL significantly outperforms the baseline method when the labeled sets are small, where SSDR-AL requires only $5.7\%$ and $1.9\%$ annotation costs to achieve the performance of $90\%$ fully supervised learning on S3DIS and Semantic3D datasets, respectively. | 翻訳日:2022-02-28 15:25:22 公開日:2022-02-25 |
# 視覚常識推論のための共同解答と説明 Joint Answering and Explanation for Visual Commonsense Reasoning ( http://arxiv.org/abs/2202.12626v1 ) ライセンス: Link先を確認 | Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan Kankanhalli | (参考訳) Visual Commonsense Reasoning (VCR)はVisual Question Answering (VQA)の難解な拡張のひとつと見なされ、よりハイレベルなビジュアル理解を目指す。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
長年にわたって、VCRに対処する様々な手法がベンチマークデータセットのパフォーマンスを向上してきた。
これらの方法が重要であるにもかかわらず、2つのプロセスを別々に扱い、VCRを2つの無関係なVQAインスタンスに分解する。
その結果、質問応答と合理的推論の間の重要な関係が中断され、既存の努力が視覚的推論に忠実でない。
この問題を実証的に研究するために,言語ショートカットと一般化能力の両方の観点から詳細な調査を行い,この治療の落とし穴を検証する。
そこで本論文では,質問応答と推論プロセスの合理化を両立させるために,プラグアンドプレイ方式の知識蒸留拡張フレームワークを提案する。
重要な貢献は、プロセスの接続を行うブリッジとして機能する新しいブランチの導入である。
我々のフレームワークはモデルに依存しないので、既存の一般的なベースラインに適用し、ベンチマークデータセット上での有効性を検証する。
実験結果に詳述したように,本フレームワークを組み込んだ場合,これらのベースラインは一貫した,重要な性能向上を実現し,プロセス結合の実現可能性,提案フレームワークの優位性を実証する。 Visual Commonsense Reasoning (VCR), deemed as one challenging extension of the Visual Question Answering (VQA), endeavors to pursue a more high-level visual comprehension. It is composed of two indispensable processes: question answering over a given image and rationale inference for answer explanation. Over the years, a variety of methods tackling VCR have advanced the performance on the benchmark dataset. Despite significant as these methods are, they often treat the two processes in a separate manner and hence decompose the VCR into two irrelevant VQA instances. As a result, the pivotal connection between question answering and rationale inference is interrupted, rendering existing efforts less faithful on visual reasoning. To empirically study this issue, we perform some in-depth explorations in terms of both language shortcuts and generalization capability to verify the pitfalls of this treatment. Based on our findings, in this paper, we present a plug-and-play knowledge distillation enhanced framework to couple the question answering and rationale inference processes. The key contribution is the introduction of a novel branch, which serves as the bridge to conduct processes connecting. Given that our framework is model-agnostic, we apply it to the existing popular baselines and validate its effectiveness on the benchmark dataset. As detailed in the experimental results, when equipped with our framework, these baselines achieve consistent and significant performance improvements, demonstrating the viability of processes coupling, as well as the superiority of the proposed framework. | 翻訳日:2022-02-28 15:24:59 公開日:2022-02-25 |
# モダリティバイアス認識と低減について On Modality Bias Recognition and Reduction ( http://arxiv.org/abs/2202.12690v1 ) ライセンス: Link先を確認 | Yangyang Guo, Liqiang Nie, Harry Cheng, Zhiyong Cheng, Mohan Kankanhalli, Alberto Del Bimbo | (参考訳) マルチモーダルデータにおける各モダリティを寄与させることは、多目的マルチモーダルモデルを学ぶ上で極めて重要である。
しかし、既存の手法はモデルトレーニングの間、しばしば1つまたは少数のモダリティによって支配され、結果として準最適性能をもたらす。
本稿では,この問題をモダリティバイアスと呼び,マルチモーダル分類を体系的かつ包括的に研究しようとする。
いくつかの経験的分析を踏み込んだ結果、このモジュラリティがインスタンスラベルと突発的な相関を持つため、一つのモジュラリティがモデル予測にもっと影響を与えていることが判明した。
主にモダリティバイアス問題の評価を容易にするために,色付き数字認識タスクと映像行動認識タスクの2つのデータセットを,OoD(Out-of-Distribution)プロトコルに従って構築する。
視覚的質問応答タスクにおけるベンチマークと協調することにより,oodデータセットにおける既存手法の性能低下を実証的に正当化し,モダリティバイアス学習を正当化する証拠となる。
さらに,この問題を解決するために,各ラベルの特徴空間をトレーニングセット統計に基づいて適応的に学習するプラグアンドプレイ損失関数法を提案する。
その後,本手法を8つのベースラインに適用し,本手法の有効性を検証した。
上記の3つの課題に関する4つのデータセットの結果から,本手法はベースラインと比較して顕著な性能向上を実現し,モダリティバイアス問題を低減した。 Making each modality in multi-modal data contribute is of vital importance to learning a versatile multi-modal model. Existing methods, however, are often dominated by one or few of modalities during model training, resulting in sub-optimal performance. In this paper, we refer to this problem as modality bias and attempt to study it in the context of multi-modal classification systematically and comprehensively. After stepping into several empirical analysis, we recognize that one modality affects the model prediction more just because this modality has a spurious correlation with instance labels. In order to primarily facilitate the evaluation on the modality bias problem, we construct two datasets respectively for the colored digit recognition and video action recognition tasks in line with the Out-of-Distribution (OoD) protocol. Collaborating with the benchmarks in the visual question answering task, we empirically justify the performance degradation of the existing methods on these OoD datasets, which serves as evidence to justify the modality bias learning. In addition, to overcome this problem, we propose a plug-and-play loss function method, whereby the feature space for each label is adaptively learned according to the training set statistics. Thereafter, we apply this method on eight baselines in total to test its effectiveness. From the results on four datasets regarding the above three tasks, our method yields remarkable performance improvements compared with the baselines, demonstrating its superiority on reducing the modality bias problem. | 翻訳日:2022-02-28 15:24:34 公開日:2022-02-25 |
# ニューラルフュージョン:人間と物体の相互作用によるニューラルボリュームレンダリング NeuralFusion: Neural Volumetric Rendering under Human-object Interactions ( http://arxiv.org/abs/2202.12825v1 ) ライセンス: Link先を確認 | Yuheng Jiang, Suyi Jiang, Guoxing Sun, Zhuo Su, Kaiwen Guo, Minye Wu, Jingyi Yu, Lan Xu | (参考訳) 没入型VR/AR体験には, 人間の活動の4次元再構築とレンダリングが不可欠である。
近年の進歩は、細かなマルチビューRGBカメラから入力画像の細部まで詳細な形状やテクスチャの再現には至っていない。
本稿では,人間の活動の高品質な形状とフォトリアリスティックなテクスチャを任意の視点で生成する,リアルタイムのニューラルネットワークによるパフォーマンスキャプチャとレンダリングシステムであるneuralhumanfvvを提案する。
本研究では,リアルタイム暗黙的幾何推論のための階層的サンプリング戦略と,高分解能(1kなど)とフォトリアリスティックなテクスチャを新たに生成するニューラルブレンディング方式を提案する。
さらに、我々はニューラルノーマルブレンディングを採用し、幾何学の詳細を高め、ニューラルジオメトリーとテクスチャレンダリングをマルチタスク学習フレームワークに定式化する。
広範な実験により,高品質な幾何学とフォトリアリスティックな自由視点再構成を実現するためのアプローチの有効性が実証された。 4D reconstruction and rendering of human activities is critical for immersive VR/AR experience. Recent advances still fail to recover fine geometry and texture results with the level of detail present in the input images from sparse multi-view RGB cameras. In this paper, we propose NeuralHumanFVV, a real-time neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of human activities in arbitrary novel views. We propose a neural geometry generation scheme with a hierarchical sampling strategy for real-time implicit geometry inference, as well as a novel neural blending scheme to generate high resolution (e.g., 1k) and photo-realistic texture results in the novel views. Furthermore, we adopt neural normal blending to enhance geometry details and formulate our neural geometry and texture rendering into a multi-task learning framework. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and photo-realistic free view-point reconstruction for challenging human performances. | 翻訳日:2022-02-28 15:24:08 公開日:2022-02-25 |
# Asyncval: トレーニング中にDense Retrieverチェックポイントを同期検証するためのツールキット Asyncval: A Toolkit for Asynchronously Validating Dense Retriever Checkpoints during Training ( http://arxiv.org/abs/2202.12510v1 ) ライセンス: Link先を確認 | Shengyao Zhuang and Guido Zuccon | (参考訳) モデルチェックポイント検証のプロセスは、モデルのハイパーパラメータを学習しながらトレーニングデータの保持部に実行されたモデルチェックポイントのパフォーマンスを評価し、モデルの過度な適合を回避し、トレーニングを中止するためにモデルが収束した時期を決定するために使用される。
ディープラーニングチェックポイントを検証するためのシンプルで効率的な戦略は、トレーニング中に実行する検証ループの追加である。
しかし、高密度レトリバー(DR)チェックポイントの検証はそれほど簡単ではなく、バリデーションループの追加は効率的ではない。
これは、DRチェックポイントの性能を正確に評価するためには、チェックポイントの実際の検索操作を行う前に、現在のチェックポイントを使用してドキュメントコーパス全体をベクトルにエンコードする必要があるためである。
このコーパス符号化プロセスは、文書コーパスに数百万のドキュメント(MS MARCOは8.8m、自然質問は21m)が含まれている場合、非常に時間がかかる。
したがって、トレーニング中にバリデーションループを使用すると、トレーニング時間が大幅に増加する。
この問題に対処するため,本稿では,トレーニング中のDRチェックポイントを効率的に検証するPythonベースのツールキットであるAsyncvalを提案する。
drチェックポイントを検証するためのトレーニングループを一時停止する代わりに、asyncvalはトレーニングループからバリデーションループを分離し、別のgpuを使用して新しいdrチェックポイントを自動的に検証する。
Asyncvalはまた、DRチェックポイントを検証するためのさまざまなコーパスサブセットサンプリング戦略を実装している。
我々は,これらの手法が検証時間および検証忠実性に与える影響について検討する。
asyncvalは、オープンソースプロジェクトとして、 \url{https://github.com/ielab/asyncval}で利用可能である。 The process of model checkpoint validation refers to the evaluation of the performance of a model checkpoint executed on a held-out portion of the training data while learning the hyperparameters of the model, and is used to avoid over-fitting and determine when the model has converged so as to stop training. A simple and efficient strategy to validate deep learning checkpoints is the addition of validation loops to execute during training. However, the validation of dense retrievers (DR) checkpoints is not as trivial -- and the addition of validation loops is not efficient. This is because, in order to accurately evaluate the performance of a DR checkpoint, the whole document corpus needs to be encoded into vectors using the current checkpoint before any actual retrieval operation for checkpoint validation can be performed. This corpus encoding process can be very time-consuming if the document corpus contains millions of documents (e.g., 8.8m for MS MARCO and 21m for Natural Questions). Thus, a naive use of validation loops during training will significantly increase training time. To address this issue, in this demo paper, we propose Asyncval: a Python-based toolkit for efficiently validating DR checkpoints during training. Instead of pausing the training loop for validating DR checkpoints, Asyncval decouples the validation loop from the training loop, uses another GPU to automatically validate new DR checkpoints and thus permits to perform validation asynchronously from training. Asyncval also implements a range of different corpus subset sampling strategies for validating DR checkpoints; these strategies allow to further speed up the validation process. We provide an investigation of these methods in terms of their impact on validation time and validation fidelity. Asyncval is made available as an open-source project at \url{https://github.com/ielab/asyncval}. | 翻訳日:2022-02-28 15:23:43 公開日:2022-02-25 |
# 深層監視によるグラフニューラルネットワークのオーバースムーシングへの取り組み Addressing Over-Smoothing in Graph Neural Networks via Deep Supervision ( http://arxiv.org/abs/2202.12508v1 ) ライセンス: Link先を確認 | Pantelis Elinas, Edwin V. Bonilla | (参考訳) グラフニューラルネットワーク(GNN)を用いた有用なノードとグラフ表現の学習は難しい課題である。
ディープGNNは、層数が増加するにつれてノード表現がほとんど区別不能になり、下流タスクのモデル性能が著しく低下する、過度なスムーシングに悩まされることが知られている。
この問題に対処するために,全層で学習した表現をトレーニングに使用する深層監視により強化した深層監視型GNN(DSGNN)を提案する。
DSGNNは過度なスムース化に耐性があり、ノードやグラフプロパティの予測問題における競合ベンチマークよりも優れていることを示す。 Learning useful node and graph representations with graph neural networks (GNNs) is a challenging task. It is known that deep GNNs suffer from over-smoothing where, as the number of layers increases, node representations become nearly indistinguishable and model performance on the downstream task degrades significantly. To address this problem, we propose deeply-supervised GNNs (DSGNNs), i.e., GNNs enhanced with deep supervision where representations learned at all layers are used for training. We show empirically that DSGNNs are resilient to over-smoothing and can outperform competitive benchmarks on node and graph property prediction problems. | 翻訳日:2022-02-28 15:22:13 公開日:2022-02-25 |
# 対照的表現学習を用いたラマンスペクトルマッチング Raman Spectrum Matching with Contrastive Representation Learning ( http://arxiv.org/abs/2202.12549v1 ) ライセンス: Link先を確認 | Bo Li, Mikkel N. Schmidt, Tommy S. Alstr{\o}m | (参考訳) ラマン分光法(英: raman spectroscopy)は、化学同定によく用いられる効果的で低コストな非侵入的手法である。
典型的なアプローチは、注意深い前処理を必要とする参照データベースや、各クラスからかなり多くのトレーニング観察を必要とする教師付き機械学習に一致した観測に基づいている。
コントラスト表現学習に基づくラマンスペクトルマッチングのための新しい機械学習手法を提案する。
3つのデータセットについて,我々のアプローチが予測精度の最先端技術と大幅に改善あるいは同等であることを示すとともに,特定の頻繁なカバレッジを持つ共形予測セットの計算方法を示す。
提案手法は,既存のラマンスペクトルマッチング手法の代替として,コントラスト表現学習が有望であると考えている。 Raman spectroscopy is an effective, low-cost, non-intrusive technique often used for chemical identification. Typical approaches are based on matching observations to a reference database, which requires careful preprocessing, or supervised machine learning, which requires a fairly large number of training observations from each class. We propose a new machine learning technique for Raman spectrum matching, based on contrastive representation learning, that requires no preprocessing and works with as little as a single reference spectrum from each class. On three datasets we demonstrate that our approach significantly improves or is on par with the state of the art in prediction accuracy, and we show how to compute conformal prediction sets with specified frequentist coverage. Based on our findings, we believe contrastive representation learning is a promising alternative to existing methods for Raman spectrum matching. | 翻訳日:2022-02-28 15:21:57 公開日:2022-02-25 |
# forexを清算する学習: 適応型トップk回帰による最適停止 Learning to Liquidate Forex: Optimal Stopping via Adaptive Top-K Regression ( http://arxiv.org/abs/2202.12578v1 ) ライセンス: Link先を確認 | Diksha Garg, Pankaj Malhotra, Anil Bhatia, Sanjay Bhat, Lovekesh Vig, Gautam Shroff | (参考訳) 我々は、外国通貨(FC)で収益を上げ、国内通貨(HC)で経費を負担する企業の財務を代表して行動する取引業者を学習することを検討する。
エージェントの目標は、トレーディングエピソードの各時間ステップにfcを保持または販売することを決定したことにより、トレーディングエピソードの終了時に期待されるhcを最大化することである。
我々はこれを最適化問題として捉え,教師付き学習から模倣学習,強化学習まで幅広いアプローチを検討する。
単純なヒューリスティックなベースラインの改善に苦慮するアプローチがほとんどである。
標準ソリューションを非効率にする問題の2つの重要な側面を特定します。
一 将来のFXレートの予測は、良い決定を導くのに極めて効果的であるが、FXレートの予測は困難であり、誤算は取引業者のパフォーマンスを低下させる傾向にある。
二 FXレートの本質的な非定常的性質は、決定権の固定化を極めて非効率にする。
これらの問題に対処するため、我々は、すべての将来のFXレートを予測するのではなく、トップKのFXレートを予測することを学習し、予測に対するホールド・ヴァース・セルの決定(例えば、将来のFXレートが現在のFXレートよりも高い場合など)をベースとする新しい教師付き学習手法を提案する。
さらに、教師付き学習手法における仮定に課題をもたらすFXレートデータの非定常性を扱うために、近年の歴史的エピソードに基づいて意思決定閾値を適応的に学習することを提案する。
広範な経験的評価を通じて,本手法は単純なヒューリスティックなベースラインを一貫して改善できる唯一のアプローチであることを示す。
さらなる実験は、トレーディングエージェントの性能が低下するにつれて、最先端統計および深層学習に基づく予測手法の非効率性を示す。 We consider learning a trading agent acting on behalf of the treasury of a firm earning revenue in a foreign currency (FC) and incurring expenses in the home currency (HC). The goal of the agent is to maximize the expected HC at the end of the trading episode by deciding to hold or sell the FC at each time step in the trading episode. We pose this as an optimization problem, and consider a broad spectrum of approaches with the learning component ranging from supervised to imitation to reinforcement learning. We observe that most of the approaches considered struggle to improve upon simple heuristic baselines. We identify two key aspects of the problem that render standard solutions ineffective - i) while good forecasts of future FX rates can be highly effective in guiding good decisions, forecasting FX rates is difficult, and erroneous estimates tend to degrade the performance of trading agents instead of improving it, ii) the inherent non-stationary nature of FX rates renders a fixed decision-threshold highly ineffective. To address these problems, we propose a novel supervised learning approach that learns to forecast the top-K future FX rates instead of forecasting all the future FX rates, and bases the hold-versus-sell decision on the forecasts (e.g. hold if future FX rate is higher than current FX rate, sell otherwise). Furthermore, to handle the non-stationarity in the FX rates data which poses challenges to the i.i.d. assumption in supervised learning methods, we propose to adaptively learn decision-thresholds based on recent historical episodes. Through extensive empirical evaluation, we show that our approach is the only approach which is able to consistently improve upon a simple heuristic baseline. Further experiments show the inefficacy of state-of-the-art statistical and deep-learning-based forecasting methods as they degrade the performance of the trading agent. | 翻訳日:2022-02-28 15:21:44 公開日:2022-02-25 |
# 交通予測のための時空間グラフ構造学習 Spatio-Temporal Latent Graph Structure Learning for Traffic Forecasting ( http://arxiv.org/abs/2202.12586v1 ) ライセンス: Link先を確認 | Jiabin Tang, Tang Qian, Shijing Liu, Shengdong Du, Jie Hu, Tianrui Li | (参考訳) インテリジェント交通システム(ITS)の基盤である正確な交通予測は、スマートシティや都市コンピューティングの繁栄により、近年ではそれほど重要ではない。
近年,グラフニューラルネットワークは従来の手法よりも優れています。
しかしながら、最も一般的なGNNベースのモデルは、事前に定義されたグラフ構造を与えられた状態でうまく機能する。
グラフ構造を定義する既存の手法は,空間的依存にのみ焦点をあて,時間的相関を無視する。
さらに、トレーニングの進行中に適用される静的事前定義されたグラフの隣接性のセマンティクスは常に不完全であり、モデルが微調整される可能性のある潜在トポロジを見渡せる。
これらの課題に対処するため、我々は新しいトラフィック予測フレームワーク、-Spatio-Temporal Latent Graph Structure Learning Network (ST-LGSL)を提案した。
より具体的には、多層パーセプトロンに基づくグラフ生成器と、空間的および時間的ダイナミクスを考慮したデータ全体から潜在グラフトポロジ情報を学習するk-nearest近傍を用いた。
さらに,MLP-kNNの初期化により,KNNの接地確率行列と類似度測定値に基づいて,ST-LGSLは地理的およびノード類似性に着目したトポロジを集約する。
さらに、生成されたグラフは、Diffusion Graph ConvolutionsとGated Temporal Convolutions Networksを組み合わせた時空間予測モジュールの入力として機能する。
実世界の2つのベンチマークデータセットの実験結果は、ST-LGSLが様々な種類の最先端ベースラインより優れていることを示している。 Accurate traffic forecasting, the foundation of intelligent transportation systems (ITS), has never been more significant than nowadays due to the prosperity of the smart cities and urban computing. Recently, Graph Neural Network truly outperforms the traditional methods. Nevertheless, the most conventional GNN based model works well while given a pre-defined graph structure. And the existing methods of defining the graph structures focus purely on spatial dependencies and ignored the temporal correlation. Besides, the semantics of the static pre-defined graph adjacency applied during the whole training progress is always incomplete, thus overlooking the latent topologies that may fine-tune the model. To tackle these challenges, we proposed a new traffic forecasting framework--Spatio-Temporal Latent Graph Structure Learning networks (ST-LGSL). More specifically, the model employed a graph generator based on Multilayer perceptron and K-Nearest Neighbor, which learns the latent graph topological information from the entire data considering both spatial and temporal dynamics. Furthermore, with the initialization of MLP-kNN based on ground-truth adjacency matrix and similarity metric in kNN, ST-LGSL aggregates the topologies focusing on geography and node similarity. Additionally, the generated graphs act as the input of spatio-temporal prediction module combined with the Diffusion Graph Convolutions and Gated Temporal Convolutions Networks. Experimental results on two benchmarking datasets in real world demonstrate that ST-LGSL outperforms various types of state-of-art baselines. | 翻訳日:2022-02-28 15:21:12 公開日:2022-02-25 |
# (参考訳) 深層強化学習を用いた3人のmahjong aiの構築 Building a 3-Player Mahjong AI using Deep Reinforcement Learning ( http://arxiv.org/abs/2202.12847v1 ) ライセンス: CC BY 4.0 | Xiangyu Zhao, Sean B. Holden | (参考訳) Mahjongは、19世紀後半に中国で開発された、人気のマルチプレイヤーの不完全な情報ゲームだ。
三間(さんま)は、日本の理一大乗の3人組の変種であり、タイルが少ないなど独特の特徴を持ち、より攻撃的な演奏スタイルである。
したがって、これは挑戦的であり、それ自体は大きな研究関心を持っているが、まだ調査されていない。
本稿では,深層強化学習を用いたサンマのためのAIであるMeowjongを紹介する。
我々は,sanmaゲームにおける可観測情報をエンコードするための情報的かつコンパクトな2次元データ構造を定義する。
我々は,サンマの5つの行動のための5つの畳み込みニューラルネットワーク(CNN)を事前訓練し,モンテカルロ政策勾配法による自己再生強化学習を通じて,主要な行動モデル,すなわち捨てモデルを強化する。
meowjongのモデルは、教師付き学習を通じて4人のmahjongのaisに匹敵するテスト能力を達成し、強化学習から大幅に強化される。
Sanmaで最初のAIである私たちは、Meowjongがこのゲームの最先端技術であると主張している。 Mahjong is a popular multi-player imperfect-information game developed in China in the late 19th-century, with some very challenging features for AI research. Sanma, being a 3-player variant of the Japanese Riichi Mahjong, possesses unique characteristics including fewer tiles and, consequently, a more aggressive playing style. It is thus challenging and of great research interest in its own right, but has not yet been explored. In this paper, we present Meowjong, an AI for Sanma using deep reinforcement learning. We define an informative and compact 2-dimensional data structure for encoding the observable information in a Sanma game. We pre-train 5 convolutional neural networks (CNNs) for Sanma's 5 actions -- discard, Pon, Kan, Kita and Riichi, and enhance the major action's model, namely the discard model, via self-play reinforcement learning using the Monte Carlo policy gradient method. Meowjong's models achieve test accuracies comparable with AIs for 4-player Mahjong through supervised learning, and gain a significant further enhancement from reinforcement learning. Being the first ever AI in Sanma, we claim that Meowjong stands as a state-of-the-art in this game. | 翻訳日:2022-02-28 15:18:20 公開日:2022-02-25 |
# 生体エラー訂正符号によるフォールトトレラントニューラルネットワークの生成 Biological error correction codes generate fault-tolerant neural networks ( http://arxiv.org/abs/2202.12887v1 ) ライセンス: Link先を確認 | Alexander Zlokapa, Andrew K. Tan, John M. Martyn, Max Tegmark, Isaac L. Chuang | (参考訳) フォールトトレラントな計算が可能であるかどうかは、ディープラーニングにおいてオープンな問題である。
哺乳類の皮質では、格子符号として知られるアナログ誤り訂正符号が神経スパイクノイズから状態を保護するために観測されているが、情報処理におけるそれらの役割は不明である。
本稿では,これらの生物学的コードを用いて,各ニューロンの障害が鋭い閾値以下にある場合,普遍的障害耐性ニューラルネットワークが達成可能であることを示す。
欠陥からフォールトトレラントなニューラルネットワークへの鋭い相転移の発見は、人工知能と神経科学におけるノイズの多いアナログシステムを理解する道を開く。 It has been an open question in deep learning if fault-tolerant computation is possible: can arbitrarily reliable computation be achieved using only unreliable neurons? In the mammalian cortex, analog error correction codes known as grid codes have been observed to protect states against neural spiking noise, but their role in information processing is unclear. Here, we use these biological codes to show that a universal fault-tolerant neural network can be achieved if the faultiness of each neuron lies below a sharp threshold, which we find coincides in order of magnitude with noise observed in biological neurons. The discovery of a sharp phase transition from faulty to fault-tolerant neural computation opens a path towards understanding noisy analog systems in artificial intelligence and neuroscience. | 翻訳日:2022-02-28 15:05:32 公開日:2022-02-25 |
# マルチモーダルデータを用いた頭頸部腫瘍の予後に関するアンサンブルアプローチ An Ensemble Approach for Patient Prognosis of Head and Neck Tumor Using Multimodal Data ( http://arxiv.org/abs/2202.12537v1 ) ライセンス: Link先を確認 | Numan Saeed, Roba Al Majzoub, Ikboljon Sobirov, and Mohammad Yaqub | (参考訳) 腫瘍の正確な予後は、医師が適切な治療コースを提供するのに役立つため、多くの人の命を救える。
従来の機械学習アルゴリズムは、過去数十年間、予測モデルの作成に非常に有用だった。
最近のディープラーニングアルゴリズムは、さまざまな医療問題に対する診断と予後のソリューションを開発する際に、大幅に改善している。
しかし、これらのソリューションのほとんどは画像データか臨床データにのみ依存している。
人口統計学や患者医学史などの患者表表データと画像データとを併用して、予後の課題を解決するマルチモーダルな手法が近年注目され始めており、より正確な解決策が生み出される可能性がある。
深層学習モデルのトレーニングに臨床および画像データを使用する場合の主な課題は、これらの情報源からの情報を組み合わせる方法を決定することである。
頭部・頸部腫瘍の予後をCTおよびPETデータを用いて予測するために,深層マルチタスクロジスティック回帰(MTLR),コックス比重ハザード(CoxPH),CNNモデルを組み込んだマルチモーダルネットワークを提案する。
CTとPETスキャンの特徴を融合し、患者の電子健康記録と組み合わせて予測を行う。
提案モデルはそれぞれ224名と101名を対象に訓練および試験を行った。
実験の結果,提案したアンサンブル解はHECKTORテストセットのC-インデックス0.72を達成し,HECKTORチャレンジの予後タスクの第一位を救った。
PyTorch に基づく完全な実装は \url{https://github.com/numanai/BioMedIA-Hecktor2021} で利用可能である。 Accurate prognosis of a tumor can help doctors provide a proper course of treatment and, therefore, save the lives of many. Traditional machine learning algorithms have been eminently useful in crafting prognostic models in the last few decades. Recently, deep learning algorithms have shown significant improvement when developing diagnosis and prognosis solutions to different healthcare problems. However, most of these solutions rely solely on either imaging or clinical data. Utilizing patient tabular data such as demographics and patient medical history alongside imaging data in a multimodal approach to solve a prognosis task has started to gain more interest recently and has the potential to create more accurate solutions. The main issue when using clinical and imaging data to train a deep learning model is to decide on how to combine the information from these sources. We propose a multimodal network that ensembles deep multi-task logistic regression (MTLR), Cox proportional hazard (CoxPH) and CNN models to predict prognostic outcomes for patients with head and neck tumors using patients' clinical and imaging (CT and PET) data. Features from CT and PET scans are fused and then combined with patients' electronic health records for the prediction. The proposed model is trained and tested on 224 and 101 patient records respectively. Experimental results show that our proposed ensemble solution achieves a C-index of 0.72 on The HECKTOR test set that saved us the first place in prognosis task of the HECKTOR challenge. The full implementation based on PyTorch is available on \url{https://github.com/numanai/BioMedIA-Hecktor2021}. | 翻訳日:2022-02-28 15:05:17 公開日:2022-02-25 |
# 安全・リアルタイムシステムに向けて:3次元物体検出のためのステレオ対画像とLiDAR Towards Safe, Real-Time Systems: Stereo vs Images and LiDAR for 3D Object Detection ( http://arxiv.org/abs/2202.12773v1 ) ライセンス: Link先を確認 | Matthew Levine | (参考訳) オブジェクト検出器が急速に改善するにつれて、画像のみのネットワークは3Dおよびマルチモーダルのフレームワーク、特にLiDARを組み込んだものを含むように拡張された。
しかし、コスト、物流、そしていくつかの安全上の考慮から、ステレオは魅力的な代替手段になり得る。
物体検出器における単分子入力やLiDARの代替としてステレオの有効性を理解するために,従来の異方性アルゴリズムを用いたマルチモーダル学習はパラメータ数を増やすことなく画像ベースの学習を向上でき,ステレオエラーによる学習は,LiDARに類似した3Dローカライゼーション力を付与できることを示した。
さらに、画像のみの方法に関してもキャリブレーションの利点がある。
私たちは公開データセットkittiでベンチマークを行い、その結果、現在そのセットのメトリクスの計算に使われている小さなが一般的なアルゴリズムミスをいくつか明らかにし、効率的で確実に正しい代替案を提供します。 As object detectors rapidly improve, attention has expanded past image-only networks to include a range of 3D and multimodal frameworks, especially ones that incorporate LiDAR. However, due to cost, logistics, and even some safety considerations, stereo can be an appealing alternative. Towards understanding the efficacy of stereo as a replacement for monocular input or LiDAR in object detectors, we show that multimodal learning with traditional disparity algorithms can improve image-based results without increasing the number of parameters, and that learning over stereo error can impart similar 3D localization power to LiDAR in certain contexts. Furthermore, doing so also has calibration benefits with respect to image-only methods. We benchmark on the public dataset KITTI, and in doing so, reveal a few small but common algorithmic mistakes currently used in computing metrics on that set, and offer efficient, provably correct alternatives. | 翻訳日:2022-02-28 15:03:54 公開日:2022-02-25 |
# 深層ニューラルネットワークによる高用量死亡率の細粒度監視 Deep neural networks for fine-grained surveillance of overdose mortality ( http://arxiv.org/abs/2202.12448v1 ) ライセンス: Link先を確認 | Patrick J. Ward, April M. Young, Svetla Slavova, Madison Liford, Lara Daniels, Ripley Lucas, Ramakanth Kavuluru | (参考訳) 薬物過剰死の監視は、死因を特定するための死亡証明書に依存している。
薬物や薬物のクラスは国際疾病分類(ICD-10)によって特定され、死亡証明書に記載されている。
しかし、ICD-10符号は必ずしも薬物識別において高いレベルの特異性を提供するとは限らない。
死亡証明書上の物質のよりきめ細かい識別を実現するには、医療認定者によって完成した自由テキストの死因を解析する必要がある。
フリーテキストの死亡証明書を分析する現在の方法は、特定の物質を特定するためのルックアップテーブルのみに依存しており、頻繁な更新と維持が必要である。
死亡証明書上の薬物の識別を改善するため、深層学習による名義認識モデルが開発され、F1スコアは99.13%に達した。
このモデルでは、現在の監視表に存在しない新しい薬物のミススペルや新しい物質を特定し、薬物過剰死の監視を強化することができる。 Surveillance of drug overdose deaths relies on death certificates for identification of the substances that caused death. Drugs and drug classes can be identified through the International Classification of Diseases, 10th Revision (ICD-10) codes present on death certificates. However, ICD-10 codes do not always provide high levels of specificity in drug identification. To achieve more fine-grained identification of substances on a death certificate, the free-text cause of death section, completed by the medical certifier, must be analyzed. Current methods for analyzing free-text death certificates rely solely on look-up tables for identifying specific substances, which must be frequently updated and maintained. To improve identification of drugs on death certificates, a deep learning named-entity recognition model was developed, which achieved an F1-score of 99.13%. This model can identify new drug misspellings and novel substances that are not present on current surveillance look-up tables, enhancing the surveillance of drug overdose deaths. | 翻訳日:2022-02-28 15:02:01 公開日:2022-02-25 |
# ニューラルマシン翻訳における性伝達のスクリーニング Screening Gender Transfer in Neural Machine Translation ( http://arxiv.org/abs/2202.12568v1 ) ライセンス: Link先を確認 | Guillaume Wisniewski, Lichao Zhu, Nicolas Ballier, Fran\c{c}ois Yvon | (参考訳) 本稿では,最先端機械翻訳システムにおける情報フローの同定を目的とし,フランス語から英語への翻訳におけるジェンダーの移動を例に挙げる。
制御された例を用いて、MTシステムにおける内部表現の介入だけでなく、探索手法も考慮し、エンコーダ・デコーダアーキテクチャにおけるジェンダー情報の循環について検討する。
以上の結果から,エンコーダとデコーダによって構築されたすべてのトークン表現に性別情報を見出すことができ,男女移動には複数の経路が存在するという結論に至った。 This paper aims at identifying the information flow in state-of-the-art machine translation systems, taking as example the transfer of gender when translating from French into English. Using a controlled set of examples, we experiment several ways to investigate how gender information circulates in a encoder-decoder architecture considering both probing techniques as well as interventions on the internal representations used in the MT system. Our results show that gender information can be found in all token representations built by the encoder and the decoder and lead us to conclude that there are multiple pathways for gender transfer. | 翻訳日:2022-02-28 15:01:47 公開日:2022-02-25 |
# ウィキペディアの改訂史から自然に起こる訂正とパラフレーズのマイニング Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History ( http://arxiv.org/abs/2202.12575v1 ) ライセンス: Link先を確認 | Aur\'elien Max and Guillaume Wisniewski | (参考訳) 自然に発生する言語現象の例は、訓練とテキストによる自動処理の評価の両方に重要である。
大量に入手可能な場合には、言語研究のための興味深い資料も示される。
本稿では、ウィコパコ(wikipedia correction and paraphrase corpus)と呼ばれるwikipediaのリビジョン履歴から構築された新しいリソースについて紹介する。
このようなリソースを構築する主な動機について論じ、どのように構築されたかを説明し、初期のアプリケーションをフランス語で紹介する。 Naturally-occurring instances of linguistic phenomena are important both for training and for evaluating automatic processes on text. When available in large quantities, they also prove interesting material for linguistic studies. In this article, we present a new resource built from Wikipedia's revision history, called WiCoPaCo (Wikipedia Correction and Paraphrase Corpus), which contains numerous editings by human contributors, including various corrections and rewritings. We discuss the main motivations for building such a resource, describe how it was built and present initial applications on French. | 翻訳日:2022-02-28 15:01:36 公開日:2022-02-25 |
# JParaCrawl v3.0: 大規模な日英パラレルコーパス JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus ( http://arxiv.org/abs/2202.12607v1 ) ライセンス: Link先を確認 | Makoto Morishita, Chousa Katsuki, Jun Suzuki, Masaaki Nagata | (参考訳) 現在の機械翻訳モデルは、主に並列コーパスで訓練されており、その翻訳精度はコーパスの品質と量に大きく依存している。
いくつかの言語ペアには何十億もの並列文があるが、公に利用可能な並列コーパスがないため、ほとんどの言語ペアを効果的に扱うのは困難である。
本稿では,英語-ドイツ語のような資源豊富な言語と比較して,限られた資源しか利用できない言語対である英語-日本語の並列コーパスを作成する。
JParaCrawl v3.0という新しいウェブベースの英語-日本語並列コーパスを導入した。
新しいコーパスには2100万以上のユニークな並列文ペアが含まれており、これは以前のjparacrawl v2.0コーパスの2倍以上である。
実験により,新しいコーパスが様々な領域の機械翻訳モデルの精度をいかに向上させるかを実証的に示す。
jparacrawl v3.0コーパスは最終的に研究目的でオンラインで公開されている。 Most current machine translation models are mainly trained with parallel corpora, and their translation accuracy largely depends on the quality and quantity of the corpora. Although there are billions of parallel sentences for a few language pairs, effectively dealing with most language pairs is difficult due to a lack of publicly available parallel corpora. This paper creates a large parallel corpus for English-Japanese, a language pair for which only limited resources are available, compared to such resource-rich languages as English-German. It introduces a new web-based English-Japanese parallel corpus named JParaCrawl v3.0. Our new corpus contains more than 21 million unique parallel sentence pairs, which is more than twice as many as the previous JParaCrawl v2.0 corpus. Through experiments, we empirically show how our new corpus boosts the accuracy of machine translation models on various domains. The JParaCrawl v3.0 corpus will eventually be publicly available online for research purposes. | 翻訳日:2022-02-28 15:01:26 公開日:2022-02-25 |
# 探索データの要求について On the data requirements of probing ( http://arxiv.org/abs/2202.12801v1 ) ライセンス: Link先を確認 | Zining Zhu, Jixuan Wang, Bai Li, Frank Rudzicz | (参考訳) 大規模で強力なニューラルネットワークモデルが開発されるにつれて、研究者はそれらを探索する診断ツールの開発にますます関心を寄せている。
様々な大きさのデータセットを用いて「観測 X はモデル Y で見つかる」という形式の結論を持つ多くの論文がある。
より大きな探索データセットにより信頼性が高くなるが、収集するコストも高い。
妥当な探索データセットのサイズを推定するための定量的な方法はまだない。
パイロットスタディから小さなデータセットを収集した後、2つの異なる構成を区別するのに十分なデータサンプルがいくつあるか?
このような実験で必要となるデータサンプル数を推定する新しい手法を提案し、いくつかのケーススタディにおいて、我々の推定が十分な統計的パワーを持っていることを検証した。
我々のフレームワークは、ニューラルネットワークNLPモデルの診断のために、探索データセットを体系的に構築するのに役立つ。 As large and powerful neural language models are developed, researchers have been increasingly interested in developing diagnostic tools to probe them. There are many papers with conclusions of the form "observation X is found in model Y", using their own datasets with varying sizes. Larger probing datasets bring more reliability, but are also expensive to collect. There is yet to be a quantitative method for estimating reasonable probing dataset sizes. We tackle this omission in the context of comparing two probing configurations: after we have collected a small dataset from a pilot study, how many additional data samples are sufficient to distinguish two different configurations? We present a novel method to estimate the required number of data samples in such experiments and, across several case studies, we verify that our estimations have sufficient statistical power. Our framework helps to systematically construct probing datasets to diagnose neural NLP models. | 翻訳日:2022-02-28 15:01:12 公開日:2022-02-25 |
# 境界のない形態:クロースレベル形態素アノテーション Morphology Without Borders: Clause-Level Morphological Annotation ( http://arxiv.org/abs/2202.12832v1 ) ライセンス: Link先を確認 | Omer Goldman and Reut Tsarfaty | (参考訳) 形態素的タスクは、単語を反転テーブルに整理する大きな多言語データセットを使用し、様々なタスクのトレーニングと評価データとして機能する。
しかし、これらのデータを綿密に検査すると、単語の明確な言語的および操作的定義が欠如し、派生したタスクの普遍性を著しく損なうという、言語横断的な矛盾が明らかになる。
この不足を克服するために,形態素を単語レベルではなく節レベルの現象と考えることを提案する。
これは、飽和節で実現されたすべての関数をカプセル化する言語間で均質な特徴の固定的かつ包括的なセットに固定されている。
mightymorphは、英語、ドイツ語、トルコ語、ヘブライ語の4つのタイプ論的に異なる言語をカバーする、節レベルの形態に関する新しいデータセットです。
我々は,このデータセットを用いて3つの節レベルの形態的タスク(反射,反射,解析)を導出する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
さらに、節レベルへのモルフォロジーの再定義は、文脈化言語モデル(lms)との巧妙なインターフェースを提供し、複雑な形態素をエンコードするlms能力を調べるのに使うことができる。
この研究は、計算形態学の研究における新たな地平線を開き、神経形態モデリングをクロス言語で研究するための余地を残している。 Morphological tasks use large multi-lingual datasets that organize words into inflection tables, which then serve as training and evaluation data for various tasks. However, a closer inspection of these data reveals profound cross-linguistic inconsistencies, that arise from the lack of a clear linguistic and operational definition of what is a word, and that severely impair the universality of the derived tasks. To overcome this deficiency, we propose to view morphology as a clause-level phenomenon, rather than word-level. It is anchored in a fixed yet inclusive set of features homogeneous across languages, that encapsulates all functions realized in a saturated clause. We deliver MightyMorph, a novel dataset for clause-level morphology covering 4 typologically-different languages: English, German, Turkish and Hebrew. We use this dataset to derive 3 clause-level morphological tasks: inflection, reinflection and analysis. Our experiments show that the clause-level tasks are substantially harder than the respective word-level tasks, while having comparable complexity across languages. Furthermore, redefining morphology to the clause-level provides a neat interface with contextualized language models (LMs) and can be used to probe LMs capacity to encode complex morphology. Taken together, this work opens up new horizons in the study of computational morphology, leaving ample space for studying neural morphological modeling cross-linguistically. | 翻訳日:2022-02-28 15:01:01 公開日:2022-02-25 |
# 製造産業におけるビン充填問題に対するデータ駆動列生成アルゴリズム A Data-Driven Column Generation Algorithm For Bin Packing Problem in Manufacturing Industry ( http://arxiv.org/abs/2202.12466v1 ) ライセンス: Link先を確認 | Jiahui Duan, Xialiang Tong, Fei Ni, Zhenan He, Lei Chen, Mingxuan Yuan | (参考訳) ビンパッキング問題は、実際のロジスティックなシナリオ(例えば、パッキングパイプライン、express delivery)に広く存在し、パッキング効率の向上と輸送コストの削減を目標としている。
このNPハード組合せ最適化問題では、ボックス内の各アイテムの位置と量は、複雑な制約と特別な顧客要求によって厳密に制限される。
厳密な制約は合理的な計算負荷では扱えないため、既存の手法では最適解を得るのは難しい。
本稿では,この問題に対処するため,huaweiのパッキングパイプラインから収集した履歴データからパッキング知識を抽出する。
まず、履歴パッキングレコードと入力順序(まとめる順序)の関係を十分に活用することにより、その問題を集合被覆問題として再構成する。
次に、制約処理とプロセス加速という2つの新しい戦略を古典的な列生成手法に適用し、この集合被覆問題を解く。
複雑な制約と顧客要求のために、新しい列を生成するための価格問題の解決コストが高い。
提案された制約処理戦略は、コスト削減の最も負の値を持つ履歴パッキングレコードを利用する。
これらの制約は、これらの歴史的なパッキングレコードにおいて暗黙的に満たされており、制約についてさらなる評価を行う必要がないため、計算負荷は節約される。
カラム生成アルゴリズムの繰り返し処理をさらに排除し,最適化プロセスを高速化するために,修正ポインタネットワークと呼ばれる学習から価格へのアプローチを提案し,どの履歴パッキングレコードを直接選択すべきかを決定する。
実世界のデータセットを用いた実験により,提案手法はパッキング成功率を向上し,同時に計算時間を短縮できることを示す。 The bin packing problem exists widely in real logistic scenarios (e.g., packing pipeline, express delivery), with its goal to improve the packing efficiency and reduce the transportation cost. In this NP-hard combinatorial optimization problem, the position and quantity of each item in the box are strictly restricted by complex constraints and special customer requirements. Existing approaches are hard to obtain the optimal solution since rigorous constraints cannot be handled within a reasonable computation load. In this paper, for handling this difficulty, the packing knowledge is extracted from historical data collected from the packing pipeline of Huawei. First, by fully exploiting the relationship between historical packing records and input orders(orders to be packed) , the problem is reformulated as a set cover problem. Then, two novel strategies, the constraint handling and process acceleration strategies are applied to the classic column generation approach to solve this set cover problem. The cost of solving pricing problem for generating new columns is high due to the complex constraints and customer requirements. The proposed constraints handling strategy exploits the historical packing records with the most negative value of the reduced cost. Those constraints have been implicitly satisfied in these historical packing records so that there is no need to conduct further evaluation on constraints, thus the computational load is saved. To further eliminate the iteration process of column generation algorithm and accelerate the optimization process, a Learning to Price approach called Modified Pointer Network is proposed, by which we can determine which historical packing records should be selected directly. Through experiments on realworld datasets, we show our proposed method can improve the packing success rate and decrease the computation time simultaneously. | 翻訳日:2022-02-28 15:00:34 公開日:2022-02-25 |
# Diffomorphic Image Registrationのためのインプシット最適化 Implicit Optimizer for Diffeomorphic Image Registration ( http://arxiv.org/abs/2202.12498v1 ) ライセンス: Link先を確認 | Kun Han, Shanlin Sun | (参考訳) diffeomorphic image registrationは、可逆性とポイントツーポイント対応を可能にする医療画像処理の基礎技術である。
近年,畳み込みニューラルネットワーク(cnns)を用いた登録問題に対する学習ベースの手法が数多く提案されている。
高速化と比較して、複雑なCNNベースの手法による精度の向上は小さい。
この問題に対処するため,Diffomorphic Image Registration (IDIR) のための高速かつ正確なインプリシット最適化手法を提案し,入力が点座標 p でありその点 v における出力が速度ベクトルであるニューラル速度場 (NVF) としてDeep Implicit Function を利用する。
提案手法は,従来の画像登録手法よりも高速かつ優れた登録結果を提供し,所望の微分型特性を維持しつつ,学習に基づく手法を著しく向上することを示す。 Diffeomorphic image registration is the underlying technology in medical image processing which enables the invertibility and point-to-point correspondence. Recently, numerous learning-based methods utilizing convolutional neural networks (CNNs) have been proposed for registration problems. Compared with the speed boosting, accuracy improvement brought by the complicated CNN-based methods is minor. To tackle this problem, we propose a rapid and accurate Implicit Optimizer for Diffeomorphic Image Registration (IDIR) which utilizes the Deep Implicit Function as the neural velocity field (NVF) whose input is the point coordinate p and output is velocity vector at that point v. To reduce the huge memory consumption brought by NVF for 3D volumes, a sparse sampling is employed to the framework. We evaluate our method on two 3D large-scale MR brain scan datasets, the results show that our proposed method provides faster and better registration results than conventional image registration approaches and outperforms the learning-based methods by a significant margin while maintaining the desired diffeomorphic properties. | 翻訳日:2022-02-28 14:57:58 公開日:2022-02-25 |
# (参考訳) 入力不確実性を考慮したロバスト多目的ベイズ最適化フレームワーク A Robust Multi-Objective Bayesian Optimization Framework Considering Input Uncertainty ( http://arxiv.org/abs/2202.12848v1 ) ライセンス: CC BY 4.0 | J.Qing, I. Couckuyt, T. Dhaene | (参考訳) ベイズ最適化は、高価な目的関数のデータ効率最適化のための一般的なツールである。
エンジニアリング設計のような現実的なアプリケーションでは、設計者は複数の目的を捉え、堅牢なソリューションを見つけるために入力の不確実性を考慮していることが多い。
これは単目的ベイズ最適化において活発な話題であるが、多目的の場合ではあまり研究されない。
入力の不確実性を考慮した多目的最適化を効率的に行うための新しいベイズ最適化フレームワークを提案する。
我々は,ベイズリスク基準を推定してロバスト性を定量化するロバストなガウス過程モデルを提案し,ロバストなパレートフロンティアを探索するための2段階のベイズ最適化手法を開発した。
完全なフレームワークは入力の不確実性の様々な分布をサポートし、並列コンピューティングを最大限に活用する。
本稿では,数値ベンチマークによるフレームワークの有効性を示す。 Bayesian optimization is a popular tool for data-efficient optimization of expensive objective functions. In real-life applications like engineering design, the designer often wants to take multiple objectives as well as input uncertainty into account to find a set of robust solutions. While this is an active topic in single-objective Bayesian optimization, it is less investigated in the multi-objective case. We introduce a novel Bayesian optimization framework to efficiently perform multi-objective optimization considering input uncertainty. We propose a robust Gaussian Process model to infer the Bayes risk criterion to quantify robustness, and we develop a two-stage Bayesian optimization process to search for a robust Pareto frontier. The complete framework supports various distributions of the input uncertainty and takes full advantage of parallel computing. We demonstrate the effectiveness of the framework through numerical benchmarks. | 翻訳日:2022-02-28 14:55:12 公開日:2022-02-25 |
# 畳み込み層の特徴図からの対向ロバスト性理解 Understanding Adversarial Robustness from Feature Maps of Convolutional Layers ( http://arxiv.org/abs/2202.12435v1 ) ライセンス: Link先を確認 | Cong Xu and Min Yang | (参考訳) ニューラルネットワークの敵対的堅牢性は、主に2つの要因に依存している。1つは、ネットワークの特徴表現能力であり、もう1つは摂動に対する抵抗能力である。
本稿では,畳み込み層の特徴マップからネットワークの摂動防止能力について検討する。
理論解析により, 平均プールよりも大きな畳み込み特性が摂動抵抗の向上に寄与することが明らかとなったが, 最大プールには当てはまらない。
理論的な知見に基づき,既存のニューラルネットワークの頑健性を改善するための2つの実現可能な方法を提案する。
提案手法は非常に単純で、入力のアップサンプリングや畳み込み演算子のストライド構成の変更のみを必要とする。
alexnet、vgg16、restnet18、preactresnet18など、いくつかのベンチマークニューラルネットワークアーキテクチャでアプローチをテストし、さまざまな攻撃において、自然な正確性と堅牢性の両方において、非自明な改善を達成しています。
本研究はロバストニューラルネットワークの設計に新たな洞察をもたらす。
コードは \url{https://github.com/mtandhj/rcm} で入手できる。 The adversarial robustness of a neural network mainly relies on two factors, one is the feature representation capacity of the network, and the other is its resistance ability to perturbations. In this paper, we study the anti-perturbation ability of the network from the feature maps of convolutional layers. Our theoretical analysis discovers that larger convolutional features before average pooling can contribute to better resistance to perturbations, but the conclusion is not true for max pooling. Based on the theoretical findings, we present two feasible ways to improve the robustness of existing neural networks. The proposed approaches are very simple and only require upsampling the inputs or modifying the stride configuration of convolution operators. We test our approaches on several benchmark neural network architectures, including AlexNet, VGG16, RestNet18 and PreActResNet18, and achieve non-trivial improvements on both natural accuracy and robustness under various attacks. Our study brings new insights into the design of robust neural networks. The code is available at \url{https://github.com/MTandHJ/rcm}. | 翻訳日:2022-02-28 14:36:12 公開日:2022-02-25 |
# 緑内障検診における眼底画像の教師なし分布検出のためのディープディリクレ不確実性 Deep Dirichlet uncertainty for unsupervised out-of-distribution detection of eye fundus photographs in glaucoma screening ( http://arxiv.org/abs/2202.12634v1 ) ライセンス: Link先を確認 | Teresa Ara\'ujo, Guilherme Aresta and Hrvoje Bogunovic | (参考訳) カラー眼底写真を用いた早期緑内障診断のための自動ツールの開発は、この疾患の影響を著しく減少させる可能性がある。
しかし、現在の最先端のソリューションは現実のシナリオに対して堅牢ではない。
そこで本研究では,ディリクレ分布(dirichlet distribution)に基づくモデルを提案する。
AIROGSの課題に対する我々のアプローチを実証する。
最終試験段階(2022年2月8日)の開始時点では,提案手法が最も高いスコアを示した。 The development of automatic tools for early glaucoma diagnosis with color fundus photographs can significantly reduce the impact of this disease. However, current state-of-the-art solutions are not robust to real-world scenarios, providing over-confident predictions for out-of-distribution cases. With this in mind, we propose a model based on the Dirichlet distribution that allows to obtain class-wise probabilities together with an uncertainty estimation without exposure to out-of-distribution cases. We demonstrate our approach on the AIROGS challenge. At the start of the final test phase (8 Feb. 2022), our method had the highest average score among all submissions. | 翻訳日:2022-02-28 14:35:54 公開日:2022-02-25 |
# ARIA: コンテントプロヴァンスに対する可逆的ロバストなイメージ属性 ARIA: Adversarially Robust Image Attribution for Content Provenance ( http://arxiv.org/abs/2202.12860v1 ) ライセンス: Link先を確認 | Maksym Andriushchenko, Xiaoyang Rebecca Li, Geoffrey Oxholm, Thomas Gittings, Tu Bui, Nicolas Flammarion, John Collomosse | (参考訳) 画像の帰属 -- 信頼されたソースにイメージを戻す -- は、オンラインの誤報と戦う新たなツールだ。
この目的のために、近頃、深い視覚の指紋モデルが研究されている。
しかし、それらは逆例として知られる小さな入力摂動に対して堅牢ではない。
まず,不正確な画像トリビューションを発生させる有効な逆画像の生成方法について述べる。
次に,強固なコントラスト学習を通じて,深部視覚フィンガープリンティングモデルに対する知覚不能な敵意攻撃を防止する手法について述べる。
提案したトレーニング手順は、$\ell_\infty$-bounded adversarial の例によるトレーニングを利用するが、概念的には単純であり、計算オーバーヘッドが小さいだけである。
結果のモデルは、はるかに堅牢で、不飽和画像でも正確であり、数百万の画像を持つデータベースでも、良好に動作します。
特に、操作された画像に対する$\ell_\infty$-boundedな摂動の下で、91.6%の標準と85.1%の逆のリコールを達成する。
また,学習中に知覚不能な他のタイプの摂動にロバスト性が一般化することを示した。
最後に,マッチング画像の編集変更を検出するための,可逆的ロバストな画像コンパレータモデルをトレーニングする方法を示す。 Image attribution -- matching an image back to a trusted source -- is an emerging tool in the fight against online misinformation. Deep visual fingerprinting models have recently been explored for this purpose. However, they are not robust to tiny input perturbations known as adversarial examples. First we illustrate how to generate valid adversarial images that can easily cause incorrect image attribution. Then we describe an approach to prevent imperceptible adversarial attacks on deep visual fingerprinting models, via robust contrastive learning. The proposed training procedure leverages training on $\ell_\infty$-bounded adversarial examples, it is conceptually simple and incurs only a small computational overhead. The resulting models are substantially more robust, are accurate even on unperturbed images, and perform well even over a database with millions of images. In particular, we achieve 91.6% standard and 85.1% adversarial recall under $\ell_\infty$-bounded perturbations on manipulated images compared to 80.1% and 0.0% from prior work. We also show that robustness generalizes to other types of imperceptible perturbations unseen during training. Finally, we show how to train an adversarially robust image comparator model for detecting editorial changes in matched images. | 翻訳日:2022-02-28 14:35:44 公開日:2022-02-25 |
# 双方向LSTMと時間分散CNNを用いた韻律的特徴と意味的特徴に基づく抑うつの予測 Prediction of Depression Severity Based on the Prosodic and Semantic Features with Bidirectional LSTM and Time Distributed CNN ( http://arxiv.org/abs/2202.12456v1 ) ライセンス: Link先を確認 | Kaining Mao, Wei Zhang, Deborah Baofeng Wang, Ang Li, Rongqi Jiao, Yanhui Zhu, Bin Wu, Tiansheng Zheng, Lei Qian, Wei Lyu, Minjie Ye, Jie Chen | (参考訳) うつ病は世界中で身体的にも心理的にも個人に影響を及ぼしている。
世界規模の公衆衛生問題となり、様々な研究分野から注目を集めている。
伝統的に、うつ病の診断は半構造化面接と補足的なアンケートによって定式化されており、医師の経験に重きを置きバイアスを被っている。
メンタルヘルスモニタリングとクラウドベースのリモート診断は、自動うつ病診断システムを通じて実施することができる。
本稿では,抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。
本モデルは,Ozデータセット(DAIC-WOZ)を用いて,参加者のうつ病重症度を推定するために訓練された。
音声モダリティには、データセットが提供するコラボレーティブ音声分析レポジトリ(COVAREP)機能を使用し、Bidirectional Long Short-Term Memory Network(Bi-LSTM)とTime-distributed Convolutional Neural Network(T-CNN)を用いる。
テキストモダリティでは、単語表現(GloVe)にグローバルベクトルを用いて単語埋め込みを行い、その埋め込みをBi-LSTMネットワークに入力する。
その結果,5つのクラス(健康,中等度,中等度,重度,重度)の音声モデルに対して,最良シーケンスレベルF1スコアが0.9870,患者レベルF1スコアが0.9074,患者レベルF1スコアが0.9709,患者レベルF1スコアが0.9245であった。
結果は多モード融合モデルに似ており、患者レベルのうつ病検出タスクでは5つのクラスでF1スコアが0.9580である。
実験では、過去の研究よりも統計的に有意な改善が見られた。 Depression is increasingly impacting individuals both physically and psychologically worldwide. It has become a global major public health problem and attracts attention from various research fields. Traditionally, the diagnosis of depression is formulated through semi-structured interviews and supplementary questionnaires, which makes the diagnosis heavily relying on physicians experience and is subject to bias. Mental health monitoring and cloud-based remote diagnosis can be implemented through an automated depression diagnosis system. In this article, we propose an attention-based multimodality speech and text representation for depression prediction. Our model is trained to estimate the depression severity of participants using the Distress Analysis Interview Corpus-Wizard of Oz (DAIC-WOZ) dataset. For the audio modality, we use the collaborative voice analysis repository (COVAREP) features provided by the dataset and employ a Bidirectional Long Short-Term Memory Network (Bi-LSTM) followed by a Time-distributed Convolutional Neural Network (T-CNN). For the text modality, we use global vectors for word representation (GloVe) to perform word embeddings and the embeddings are fed into the Bi-LSTM network. Results show that both audio and text models perform well on the depression severity estimation task, with best sequence level F1 score of 0.9870 and patient-level F1 score of 0.9074 for the audio model over five classes (healthy, mild, moderate, moderately severe, and severe), as well as sequence level F1 score of 0.9709 and patient-level F1 score of 0.9245 for the text model over five classes. Results are similar for the multimodality fused model, with the highest F1 score of 0.9580 on the patient-level depression detection task over five classes. Experiments show statistically significant improvements over previous works. | 翻訳日:2022-02-28 14:34:16 公開日:2022-02-25 |
# 知識蒸留による患者別と患者非依存の精液予測のギャップを埋める Bridging the Gap Between Patient-specific and Patient-independent Seizure Prediction via Knowledge Distillation ( http://arxiv.org/abs/2202.12598v1 ) ライセンス: Link先を確認 | Di Wu, Jie Yang, and Mohamad Sawan | (参考訳) 目的。
ディープニューラルネットワーク(DNN)は、てんかん発作の予測など、様々な脳-機械インタフェース(BCI)アプリケーションで前例のない成功を収めている。
しかし、既存のアプローチは通常、てんかん信号の高度にパーソナライズされた特徴のために患者特有の方法でモデルを訓練する。
そのため、各科目からのラベル付き録音は限られた数しか使用できない。
その結果、現在のDNNベースの手法では、トレーニングデータの不十分さにより、ある程度の一般化能力の低下が示される。
一方,患者に依存しないモデルでは,より多くの患者データを活用し,患者データをプールすることで全患者に普遍的なモデルを訓練しようとする。
その結果,患者に依存しないモデルは,患者間の個人差が大きいため,患者固有のモデルよりも悪い結果が得られた。
したがって、患者固有のモデルと患者に依存しないモデルの間には大きなギャップがある。
本稿では,複数の被験者からの大量のデータを利用した知識蒸留に基づく新しい学習手法を提案する。
まず、事前訓練された一般モデルを用いて、利用可能なすべての対象の信号から情報的特徴を抽出する。
患者固有のモデルは、蒸留された知識と追加のパーソナライズされたデータによって得られる。
重要なこと。
提案手法は,患者固有の発作予測器の性能を大幅に向上させ,患者固有の発作予測器と患者非依存予測器のギャップを橋渡しする。
提案手法を用いて,CHB-MIT sEEGデータベース上で5つの最先端の発作予測法を訓練する。
その結果,提案手法の精度,感度,誤予測率により,最先端手法の予測性能が一貫して向上することが示された。 Objective. Deep neural networks (DNN) have shown unprecedented success in various brain-machine interface (BCI) applications such as epileptic seizure prediction. However, existing approaches typically train models in a patient-specific fashion due to the highly personalized characteristics of epileptic signals. Therefore, only a limited number of labeled recordings from each subject can be used for training. As a consequence, current DNN based methods demonstrate poor generalization ability to some extent due to the insufficiency of training data. On the other hand, patient-independent models attempt to utilize more patient data to train a universal model for all patients by pooling patient data together. Despite different techniques applied, results show that patient-independent models perform worse than patient-specific models due to high individual variation across patients. A substantial gap thus exists between patient-specific and patient-independent models. In this paper, we propose a novel training scheme based on knowledge distillation which makes use of a large amount of data from multiple subjects. It first distills informative features from signals of all available subjects with a pre-trained general model. A patient-specific model can then be obtained with the help of distilled knowledge and additional personalized data. Significance. The proposed training scheme significantly improves the performance of patient-specific seizure predictors and bridges the gap between patient-specific and patient-independent predictors. Five state-of-the-art seizure prediction methods are trained on the CHB-MIT sEEG database with our proposed scheme. The resulting accuracy, sensitivity, and false prediction rate show that our proposed training scheme consistently improves the prediction performance of state-of-the-art methods by a large margin. | 翻訳日:2022-02-28 14:33:39 公開日:2022-02-25 |
# 短・雑音時系列のnnetenエントロピー計算を改善する新しい手法 Novel techniques for improvement the NNetEn entropy calculation for short and noisy time series ( http://arxiv.org/abs/2202.12703v1 ) ライセンス: Link先を確認 | Hanif Heidari and Andrei Velichko | (参考訳) エントロピーは情報理論の基本概念である。
アナログ信号やデジタル信号の解析に広く用いられている。
従来のエントロピー測定では、時系列の長さや振幅に対する感度や外部ノイズに対するロバスト性が低いといった欠点がある。
近年,これらの問題を克服するためにNNetEnエントロピー尺度が導入された。
NNetEnエントロピーは、LogNNetニューラルネットワーク分類モデルの修正版を使用している。
このアルゴリズムは、与えられた時系列が満たすべき n = 19625 要素の貯水池行列を含む。
多くの実用時系列は19625要素未満である。
そこで本研究では, この難易度を克服するために, 補修と伸張の異なる手法について検討する。
最も成功した技術は実用的応用である。
外部ノイズやバイアスの存在は、エントロピー測定の効率に影響を及ぼす他の重要な問題である。
有意義な分析を行うためには,信号対雑音比 (SNR) とオフセットの異なる3つの時系列(カオス,周期,二値)を考える。
SNRが30dBを超えると、NNetEnエントロピーの計算誤差が10%を超えないことが示されている。
これにより、ノイズフィルタリングを必要とせずに、様々な性質、白色雑音、または1/f雑音の存在下で実験信号のNNetEnを測定することが可能となる。 Entropy is a fundamental concept of information theory. It is widely used in the analysis of analog and digital signals. Conventional entropy measures have drawbacks, such as sensitivity to the length and amplitude of time series and low robustness to external noise. Recently, the NNetEn entropy measure has been introduced to overcome these problems. The NNetEn entropy uses a modified version of the LogNNet neural network classification model. The algorithm contains a reservoir matrix with N = 19625 elements, which the given time series should fill. Many practical time series have less than 19625 elements. Against this background, this paper investigates different duplicating and stretching techniques for filling to overcome this difficulty. The most successful technique is identified for practical applications. The presence of external noise and bias are other important issues affecting the efficiency of entropy measures. In order to perform meaningful analysis, three time series with different dynamics (chaotic, periodic, and binary), with a variation of signal-to-noise ratio (SNR) and offsets, are considered. It is shown that the error in the calculation of the NNetEn entropy does not exceed 10% when the SNR exceeds 30 dB. This opens the possibility of measuring the NNetEn of experimental signals in the presence of noise of various nature, white noise, or 1/f noise, without the need for noise filtering. | 翻訳日:2022-02-28 14:33:18 公開日:2022-02-25 |
# HTGN-BTW:時空間リンク予測のためのバイタイムウィンドトレーニング戦略を持つ異種時空間グラフネットワーク HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction ( http://arxiv.org/abs/2202.12713v1 ) ライセンス: Link先を確認 | Chongjian Yue, Lun Du, Qiang Fu, Wendong Bi, Hengyu Liu, Yu Gu, Di Yao | (参考訳) 近年,Eコマースネットワークやソーシャルネットワークなどの時間的ネットワークの発展に伴い,時間的リンク予測の問題が注目されている。
wsdm cup 2022の時間的リンク予測タスクは、2つの異なる特性とデータ特性を持つ2種類の時間的グラフを同時に処理できる単一のモデルが、与えられた時間範囲内の2つのノード間で特定のタイプのリンクが起こるかどうかを予測することを期待する。
本研究では,このタスクをヘテロジニアス時相ネットワークにおけるリンク予測タスクとして捉え,非固定時間間隔と多種多様なリンクタイプを用いた時間的リンク予測タスクを解決するための汎用モデルであるヘテロジニアス時相グラフネットワーク(htgn)を提案する。
すなわち、HTGNは任意の時間周期でリンクの不均一性と未固定時間間隔での予測に適応することができる。
モデルをトレーニングするために,2種類のタイムウインドウから2種類のミニバッチを持つバイタイムウインドウトレーニング戦略(btw)を設計した。
その結果、最終テストでは、データセットa上のauc 0.662482、データセットb上のauc 0.906923、平均tスコア 0.628942で2位となった。 With the development of temporal networks such as E-commerce networks and social networks, the issue of temporal link prediction has attracted increasing attention in recent years. The Temporal Link Prediction task of WSDM Cup 2022 expects a single model that can work well on two kinds of temporal graphs simultaneously, which have quite different characteristics and data properties, to predict whether a link of a given type will occur between two given nodes within a given time span. Our team, named as nothing here, regards this task as a link prediction task in heterogeneous temporal networks and proposes a generic model, i.e., Heterogeneous Temporal Graph Network (HTGN), to solve such temporal link prediction task with the unfixed time intervals and the diverse link types. That is, HTGN can adapt to the heterogeneity of links and the prediction with unfixed time intervals within an arbitrary given time period. To train the model, we design a Bi-Time-Window training strategy (BTW) which has two kinds of mini-batches from two kinds of time windows. As a result, for the final test, we achieved an AUC of 0.662482 on dataset A, an AUC of 0.906923 on dataset B, and won 2nd place with an Average T-scores of 0.628942. | 翻訳日:2022-02-28 14:32:58 公開日:2022-02-25 |
# マイニングコンプレックスの同時確率最適化のためのスケジュールヒューリスティックスの学習 Learning to Schedule Heuristics for the Simultaneous Stochastic Optimization of Mining Complexes ( http://arxiv.org/abs/2202.12866v1 ) ライセンス: Link先を確認 | Yassine Yaakoubi, Roussos Dimitrakopoulos | (参考訳) マイニングコンプレックス(SSOMC)の同時確率最適化は大規模な確率的組合せ最適化問題であり、複数の鉱山から物質を抽出し、その処理を相互接続した設備を用いて最終生成物を生成すると同時に、物質供給(地質)の不確実性を考慮し、関連するリスクを管理する。
シミュレーションアニーリングはSSOMCの解法を比較する方法よりも優れていることが示されているが、初期の性能は、ヒューリスティックスの性能の組み合わせが適用すべき摂動を決定するために使用されるという最近の性能よりも優れている可能性がある。
本研究では、SSOMCを解くために、完全自己管理型ハイパーヒューリスティックのヒューリスティックスケジューリングのためのデータ駆動型フレームワークを提案する。
提案したL2P(Learning-to-perturb)ハイパーヒューリスティックは,マルチ近隣シミュレーションアニールアルゴリズムである。
L2Pは、強化学習を用いて自己適応的に適用すべきヒューリスティック(摂動)を選択し、特定の探索点に適した局所探索を効率的に探索する。
いくつかの最先端エージェントがL2Pに組み込まれ、検索をより良く適応させ、より良いソリューションへと導く。
ヒューリスティックスの性能を記述するデータから学習することにより、より高速な解を求めるヒューリスティックスの問題固有の順序を求めることができる。
l2pは、効率、堅牢性、一般化能力を重視した、いくつかの実世界の鉱業複合体でテストされている。
その結果,反復回数を30~50%削減し,計算時間を30~45%削減した。 The simultaneous stochastic optimization of mining complexes (SSOMC) is a large-scale stochastic combinatorial optimization problem that simultaneously manages the extraction of materials from multiple mines and their processing using interconnected facilities to generate a set of final products, while taking into account material supply (geological) uncertainty to manage the associated risk. Although simulated annealing has been shown to outperform comparing methods for solving the SSOMC, early performance might dominate recent performance in that a combination of the heuristics' performance is used to determine which perturbations to apply. This work proposes a data-driven framework for heuristic scheduling in a fully self-managed hyper-heuristic to solve the SSOMC. The proposed learn-to-perturb (L2P) hyper-heuristic is a multi-neighborhood simulated annealing algorithm. The L2P selects the heuristic (perturbation) to be applied in a self-adaptive manner using reinforcement learning to efficiently explore which local search is best suited for a particular search point. Several state-of-the-art agents have been incorporated into L2P to better adapt the search and guide it towards better solutions. By learning from data describing the performance of the heuristics, a problem-specific ordering of heuristics that collectively finds better solutions faster is obtained. L2P is tested on several real-world mining complexes, with an emphasis on efficiency, robustness, and generalization capacity. Results show a reduction in the number of iterations by 30-50% and in the computational time by 30-45%. | 翻訳日:2022-02-28 14:32:34 公開日:2022-02-25 |
# 時系列異常検出のための動的層の積み重ね残余 Stacked Residuals of Dynamic Layers for Time Series Anomaly Detection ( http://arxiv.org/abs/2202.12457v1 ) ライセンス: Link先を確認 | L. Zancato, A. Achille, G. Paolini, A. Chiuso, S. Soatto | (参考訳) 予測残差に逐次確率比テストを導入することにより,多変量時系列における異常検出を行う,エンドツーエンドの微分可能なニューラルネットワークアーキテクチャを提案する。
このアーキテクチャは、トレンドや季節といった信号の線形予測可能なコンポーネントを非線形のコンポーネントから分離するために設計された動的システムのカスケードである。
前者は局所線形動的層によってモデル化され、その残余は、各時系列のグローバル統計をそれぞれの局所的な予測のコンテキストとして集約する一般的な時間畳み込みネットワークに供給される。
最後の層は異常検出器を実装し、予測残差の時間構造を利用して孤立点異常とセットポイント変化の両方を検出する。
これは従来のCUMSUMアルゴリズムの新たな応用に基づいており、f-divergencesの変分近似を用いて適応されている。
モデルは観測された信号の時間スケールに自動的に適応する。
受信時にSARIMAモデルを近似し、より多くのデータが観測されるため、監視を必要とせず、信号とその共変量の統計を自動チューニングする。
STRICと呼ばれる結果のシステムは、複数の異常検出ベンチマーク上で、最先端の堅牢な統計手法とディープニューラルネットワークアーキテクチャの両方を上回ります。 We present an end-to-end differentiable neural network architecture to perform anomaly detection in multivariate time series by incorporating a Sequential Probability Ratio Test on the prediction residual. The architecture is a cascade of dynamical systems designed to separate linearly predictable components of the signal such as trends and seasonality, from the non-linear ones. The former are modeled by local Linear Dynamic Layers, and their residual is fed to a generic Temporal Convolutional Network that also aggregates global statistics from different time series as context for the local predictions of each one. The last layer implements the anomaly detector, which exploits the temporal structure of the prediction residuals to detect both isolated point anomalies and set-point changes. It is based on a novel application of the classic CUMSUM algorithm, adapted through the use of a variational approximation of f-divergences. The model automatically adapts to the time scales of the observed signals. It approximates a SARIMA model at the get-go, and auto-tunes to the statistics of the signal and its covariates, without the need for supervision, as more data is observed. The resulting system, which we call STRIC, outperforms both state-of-the-art robust statistical methods and deep neural network architectures on multiple anomaly detection benchmarks. | 翻訳日:2022-02-28 14:31:49 公開日:2022-02-25 |
# スパースニューラル付加モデル:グループ空間による特徴選択による解釈可能な深層学習 Sparse Neural Additive Model: Interpretable Deep Learning with Feature Selection via Group Sparsity ( http://arxiv.org/abs/2202.12482v1 ) ライセンス: Link先を確認 | Shiyun Xu, Zhiqi Bu, Pratik Chaudhari, Ian J. Barnett | (参考訳) 解釈可能な機械学習は、説明可能性を維持しながら素晴らしいパフォーマンスを示した。
特に、ニューラル加法モデル(NAM)は、ブラックボックス深層学習の解釈可能性を提供し、一般化加法モデルの大規模なファミリー間で最先端の精度を達成する。
特徴選択によるNAMの強化と一般化の促進を目的として,群間隔正則化(例えば,グループLASSO)を用いたスパースニューラル加算モデル(SNAM)を提案し,各特徴をトレーニング可能なパラメータをグループとしてクラスタ化するサブネットワークで学習する。
SNAMの理論的性質を非パラメトリック真理に取り組むための新しい手法を用いて研究し、パラメトリック真理にのみ作用するLASSOのような古典的スパース線形モデルから拡張する。
具体的には,低次勾配および近位勾配降下のsnamはトレーニング損失ゼロに収束し,snamの推定誤差は非漸近的に$n\to\infty$となることを示す。
また, SNAMはLASSOと同様, 完全な特徴選択, 適切な正規化による正確なサポート回復が可能であることも証明した。
さらに,SNAMは「識別可能性」を良好に保ち,各特徴の効果を回復できることを示す。
我々は,この理論を広範な実験により検証し,SNAMの精度と効率をよりよく検証する。 Interpretable machine learning has demonstrated impressive performance while preserving explainability. In particular, neural additive models (NAM) offer the interpretability to the black-box deep learning and achieve state-of-the-art accuracy among the large family of generalized additive models. In order to empower NAM with feature selection and improve the generalization, we propose the sparse neural additive models (SNAM) that employ the group sparsity regularization (e.g. Group LASSO), where each feature is learned by a sub-network whose trainable parameters are clustered as a group. We study the theoretical properties for SNAM with novel techniques to tackle the non-parametric truth, thus extending from classical sparse linear models such as the LASSO, which only works on the parametric truth. Specifically, we show that SNAM with subgradient and proximal gradient descents provably converges to zero training loss as $t\to\infty$, and that the estimation error of SNAM vanishes asymptotically as $n\to\infty$. We also prove that SNAM, similar to LASSO, can have exact support recovery, i.e. perfect feature selection, with appropriate regularization. Moreover, we show that the SNAM can generalize well and preserve the `identifiability', recovering each feature's effect. We validate our theories via extensive experiments and further testify to the good accuracy and efficiency of SNAM. | 翻訳日:2022-02-28 14:31:27 公開日:2022-02-25 |
# 未知環境における動的メカニズムの学習 : 強化学習アプローチ Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach ( http://arxiv.org/abs/2202.12797v1 ) ライセンス: Link先を確認 | Boxiang Lyu, Qinglin Meng, Shuang Qiu, Zhaoran Wang, Zhuoran Yang, Michael I. Jordan | (参考訳) 動的メカニズム設計は、メカニズム設計者が時間変化のある環境でエージェント間でリソースを割り当てる方法を研究する。
エージェントが未知のマルコフ決定プロセス(MDP)に従ってメカニズムデザイナと相互作用する問題について考察し、エージェント報酬とメカニズムデザイナの状態は未知の報酬関数と遷移カーネルを持つエピソードMDPに従って進化する。
線形関数近似によるオンライン設定に着目し,複数ラウンドの相互作用を通じて動的ヴィクレー・クラーク・グルーブ(VCG)機構の回復を試みる。
我々の研究の重要な貢献は、報酬のないオンライン強化学習(RL)を導入して、豊かな政策空間を探索し、動的なVCGメカニズムの価格を見積もることである。
提案手法の後悔は$\tilde{\mathcal{o}}(t^{2/3})$で上限され、さらに下限を考案し、我々のアルゴリズムが効率的であることを示し、同じ$\tilde{\mathcal{o}}(t^{2/3})$を下限として後悔することを示し、ここで$t$はラウンドの総数である。
我々の研究は、基礎となるモデルについて事前知識のない動的メカニズム設計問題の解決において、オンラインRLに対する後悔の保証を確立します。 Dynamic mechanism design studies how mechanism designers should allocate resources among agents in a time-varying environment. We consider the problem where the agents interact with the mechanism designer according to an unknown Markov Decision Process (MDP), where agent rewards and the mechanism designer's state evolve according to an episodic MDP with unknown reward functions and transition kernels. We focus on the online setting with linear function approximation and attempt to recover the dynamic Vickrey-Clarke-Grove (VCG) mechanism over multiple rounds of interaction. A key contribution of our work is incorporating reward-free online Reinforcement Learning (RL) to aid exploration over a rich policy space to estimate prices in the dynamic VCG mechanism. We show that the regret of our proposed method is upper bounded by $\tilde{\mathcal{O}}(T^{2/3})$ and further devise a lower bound to show that our algorithm is efficient, incurring the same $\tilde{\mathcal{O}}(T^{2 / 3})$ regret as the lower bound, where $T$ is the total number of rounds. Our work establishes the regret guarantee for online RL in solving dynamic mechanism design problems without prior knowledge of the underlying model. | 翻訳日:2022-02-28 14:31:03 公開日:2022-02-25 |
# (参考訳) 3Dビデオゲームにおける知覚的バグの識別 Learning to Identify Perceptual Bugs in 3D Video Games ( http://arxiv.org/abs/2202.12884v1 ) ライセンス: CC BY 4.0 | Benedict Wilkins, Kostas Stathis | (参考訳) ビデオゲームにおける自動バグ検出(ABD)は、自動ゲーム探索とバグ識別の2つの相補的な問題からなる。
自動ゲーム探索は、強化学習などの分野の発展によって、近年注目を集めている。
プレイヤーの経験にあるバグを特定するという相補的な問題は、ほとんどの場合、ルールのマニュアル仕様に依存していた。
このような手法では,多くの害虫が同定できないことが広く認識されているが,この方向への進展はほとんど見られない。
本研究では,レンダリングされたゲーム画面のみをプレイヤーが見ているように利用することにより,学習ベースの手法を用いて知覚的バグの範囲を特定することができることを示す。
我々は3Dゲーム環境でABDメソッドをテストするオープンプラットフォーム World of Bugs (WOB) を開発した。 Automated Bug Detection (ABD) in video games is composed of two distinct but complementary problems: automated game exploration and bug identification. Automated game exploration has received much recent attention, spurred on by developments in fields such as reinforcement learning. The complementary problem of identifying the bugs present in a player's experience has for the most part relied on the manual specification of rules. Although it is widely recognised that many bugs of interest cannot be identified with such methods, little progress has been made in this direction. In this work we show that it is possible to identify a range of perceptual bugs using learning-based methods by making use of only the rendered game screen as seen by the player. To support our work, we have developed World of Bugs (WOB) an open platform for testing ABD methods in 3D game environments. | 翻訳日:2022-02-28 14:29:57 公開日:2022-02-25 |
# SIMMC 2.0チャレンジにおけるあいまいさ検出と参照解決のためのマルチモーダル表現の探索 Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge ( http://arxiv.org/abs/2202.12645v1 ) ライセンス: Link先を確認 | Francisco Javier Chiyah-Garcia and Alessandro Suglia and Jos\'e Lopes and Arash Eshghi and Helen Hastie | (参考訳) 代名詞や指示記述などのアナフォリックな表現は、先行するターンの言語的文脈や、即時的な視覚環境に関するものである。
しかし、話者の参照記述が必ずしも参照者を識別するとは限らないため、その後の明確化交換による解決の必要性が曖昧になる。
したがって、会話型AIにおけるタスク成功の鍵は、効果的なあいまいさ検出と参照解決である。
本稿では,simmc 2.0 チャレンジ (kottur et al. 2021) の一環として,これら2つのタスクのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
その結果,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルでは,スマートオブジェクト表現を用いることで,視覚コンポーネントの必要性を回避することができることがわかった。 Anaphoric expressions, such as pronouns and referential descriptions, are situated with respect to the linguistic context of prior turns, as well as, the immediate visual environment. However, a speaker's referential descriptions do not always uniquely identify the referent, leading to ambiguities in need of resolution through subsequent clarificational exchanges. Thus, effective Ambiguity Detection and Coreference Resolution are key to task success in Conversational AI. In this paper, we present models for these two tasks as part of the SIMMC 2.0 Challenge (Kottur et al. 2021). Specifically, we use TOD-BERT and LXMERT based models, compare them to a number of baselines and provide ablation experiments. Our results show that (1) language models are able to exploit correlations in the data to detect ambiguity; and (2) unimodal coreference resolution models can avoid the need for a vision component, through the use of smart object representations. | 翻訳日:2022-02-28 14:15:41 公開日:2022-02-25 |
# ASRにおけるデータバイアスと予測バイアスを仲裁する言語技術実践者 Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR ( http://arxiv.org/abs/2202.12603v1 ) ライセンス: Link先を確認 | Nina Markl and Stephen Joseph McNulty | (参考訳) 変動が自然言語の基本特性であるにもかかわらず、自動音声認識システムは、非標準言語と限界言語で体系的に悪化する。
本稿では、言語政策のレンズを用いて、業界におけるASRシステムのトレーニングとテストの現在の実践が、これらの体系的な誤りの相違をもたらすデータバイアスの原因となっているかを分析する。
これは、音声および言語技術実践者がアルゴリズムバイアスの起源と害を理解し、それを緩和する方法を理解する上で有用な視点である、と我々は信じている。
また,言語資源の(公的な)基盤として,市場だけでなく,言論コミュニティの有意義な協力のもとに,言語資源の再フレーミングを提案する。 Despite the fact that variation is a fundamental characteristic of natural language, automatic speech recognition systems perform systematically worse on non-standardised and marginalised language varieties. In this paper we use the lens of language policy to analyse how current practices in training and testing ASR systems in industry lead to the data bias giving rise to these systematic error differences. We believe that this is a useful perspective for speech and language technology practitioners to understand the origins and harms of algorithmic bias, and how they can mitigate it. We also propose a re-framing of language resources as (public) infrastructure which should not solely be designed for markets, but for, and with meaningful cooperation of, speech communities. | 翻訳日:2022-02-28 14:14:07 公開日:2022-02-25 |
# アカウンタブルで再現可能なフェデレーションラーニングを目指して:FactSheetsアプローチ Towards an Accountable and Reproducible Federated Learning: A FactSheets Approach ( http://arxiv.org/abs/2202.12443v1 ) ライセンス: Link先を確認 | Nathalie Baracaldo, Ali Anwar, Mark Purcell, Ambrish Rawat, Mathieu Sinn, Bashar Altakrouri, Dian Balta, Mahdi Sellami, Peter Kuhn, Ulrich Schopp, Matthias Buchinger | (参考訳) フェデレートラーニング(FL)は、分散データとプライベートデータに基づくモデルの共有トレーニングのための新しいパラダイムである。
倫理的ガイドラインに関しては、FLはプライバシーを約束するが、透明性と信頼性を追求する必要がある。
特にFLは、関係する当事者の説明責任と、規則、法律、原則への遵守に対処しなければならない。
AF^2 Frameworkを導入し、検証可能な主張を暗黙の事実と融合して再現可能な議論を行う。
AIライフサイクルに透明性と信頼性を注入し、動的でネストされた事実やFLの複雑なモデル構成を組み込むように拡張するためのAI FactSheetsを構築しています。
このアプローチに基づいて、監査人はflプロセスを検証、再現、証明することができる。
これは、AIエンジニアリングと倫理の課題に対処するために、実践的に直接適用することができる。 Federated Learning (FL) is a novel paradigm for the shared training of models based on decentralized and private data. With respect to ethical guidelines, FL is promising regarding privacy, but needs to excel vis-\`a-vis transparency and trustworthiness. In particular, FL has to address the accountability of the parties involved and their adherence to rules, law and principles. We introduce AF^2 Framework, where we instrument FL with accountability by fusing verifiable claims with tamper-evident facts, into reproducible arguments. We build on AI FactSheets for instilling transparency and trustworthiness into the AI lifecycle and expand it to incorporate dynamic and nested facts, as well as complex model compositions in FL. Based on our approach, an auditor can validate, reproduce and certify a FL process. This can be directly applied in practice to address the challenges of AI engineering and ethics. | 翻訳日:2022-02-28 14:13:38 公開日:2022-02-25 |
# 有向グラフ自動エンコーダ Directed Graph Auto-Encoders ( http://arxiv.org/abs/2202.12449v1 ) ライセンス: Link先を確認 | Georgios Kollias, Vasileios Kalantzis, Tsuyoshi Id\'e, Aur\'elie Lozano, Naoki Abe | (参考訳) Wesfeiler-Lemanアルゴリズムのノードラベルへの直接拡張によって動機付けられた有向グラフのための新しい自動エンコーダのクラスを導入する。
提案モデルは,有向グラフのノードに対する解釈可能な潜在表現のペアを学習し,そのエンコーダと非対称内積デコーダにパラメータ化グラフ畳み込みネットワーク(GCN)層を用いる。
エンコーダ内のパラメータは、隣接するノード間で交換される表現の重み付けを制御する。
本稿では,提案モデルが有意義な潜伏埋め込みを学習し,ネットワークデータセットの有向リンク予測タスクにおいて優れた性能を発揮することを示す。 We introduce a new class of auto-encoders for directed graphs, motivated by a direct extension of the Weisfeiler-Leman algorithm to pairs of node labels. The proposed model learns pairs of interpretable latent representations for the nodes of directed graphs, and uses parameterized graph convolutional network (GCN) layers for its encoder and an asymmetric inner product decoder. Parameters in the encoder control the weighting of representations exchanged between neighboring nodes. We demonstrate the ability of the proposed model to learn meaningful latent embeddings and achieve superior performance on the directed link prediction task on several popular network datasets. | 翻訳日:2022-02-28 14:13:22 公開日:2022-02-25 |
# MetaVA:心電図に基づく心室不整脈検出のための深部ニューラルネットワークのカリキュラムメタラーニングと事前調整 MetaVA: Curriculum Meta-learning and Pre-fine-tuning of Deep Neural Networks for Detecting Ventricular Arrhythmias based on ECGs ( http://arxiv.org/abs/2202.12450v1 ) ライセンス: Link先を確認 | Wenrui Zhang, Shijia Geng, Zhaoji Fu, Linlin Zheng, Chenyang Jiang, Shenda Hong | (参考訳) 心室不整脈(VA)は突然の心臓死の主な原因である。
心電図(ECG)に基づくVA検出のための機械学習手法の開発は、人々の命を救うのに役立つ。
しかし、ECGのためのこのような機械学習モデルの開発は、以下の理由により困難である。
1)異なる被験者と集団レベルの多様性
2) 1つの主題の異なるモーメントからの個人レベルの多様性。
本研究では,これらの課題を事前学習と微調整の段階で解決することを目的とする。
事前学習段階において,グループレベルの多様性を解決するために,カリキュラム学習(CL)法を用いたモデル非依存メタラーニング(MAML)を提案する。
MAMLは、大きなデータセットからより優れた知識を転送し、モデルを新しい人に迅速に適応させるために、わずか数レコードを使用すると期待されている。
CLは、メタラーニングによって、簡単なタスクから難しいタスクまで、MAMLをさらに改善する予定である。
微調整の段階では,個別レベルの多様性を解決するために,事前調整の改善を提案する。
利用可能なECGデータセットを3つ組み合わせて実験を行った。
その結果,提案手法はすべての評価指標において比較手法よりも優れていた。
アブレーションによる研究によると、MAMLとCLはより均一に機能し、事前調整はモデルをトレーニングデータに適合させる可能性がある。 Ventricular arrhythmias (VA) are the main causes of sudden cardiac death. Developing machine learning methods for detecting VA based on electrocardiograms (ECGs) can help save people's lives. However, developing such machine learning models for ECGs is challenging because of the following: 1) group-level diversity from different subjects and 2) individual-level diversity from different moments of a single subject. In this study, we aim to solve these problems in the pre-training and fine-tuning stages. For the pre-training stage, we propose a novel model agnostic meta-learning (MAML) with curriculum learning (CL) method to solve group-level diversity. MAML is expected to better transfer the knowledge from a large dataset and use only a few recordings to quickly adapt the model to a new person. CL is supposed to further improve MAML by meta-learning from easy to difficult tasks. For the fine-tuning stage, we propose improved pre-fine-tuning to solve individual-level diversity. We conduct experiments using a combination of three publicly available ECG datasets. The results show that our method outperforms the compared methods in terms of all evaluation metrics. Ablation studies show that MAML and CL could help perform more evenly, and pre-fine-tuning could better fit the model to training data. | 翻訳日:2022-02-28 14:13:10 公開日:2022-02-25 |
# 強化学習による確率指向グラフの到達可能性解析 Reachability analysis in stochastic directed graphs by reinforcement learning ( http://arxiv.org/abs/2202.12546v1 ) ライセンス: Link先を確認 | Corrado Possieri, Mattia Frasca, and Alessandro Rizzo | (参考訳) 確率指向グラフにおける到達可能性確率を強化学習法により特徴づける。
特に,確率的ダイグラフにおける遷移確率のダイナミクスは,差分包摂によってモデル化され,マルコフ決定過程として解釈できることを示す。
後者のフレームワークを用いて,確率的ダイアグラムのためのノードの集合の到達可能性の上限を上下に設定する報酬関数を設計する手法を提案する。
提案手法の有効性は,移動剤の近接パターンによって発生した接触ネットワーク上での流行病の拡散に応用することで実証された。 We characterize the reachability probabilities in stochastic directed graphs by means of reinforcement learning methods. In particular, we show that the dynamics of the transition probabilities in a stochastic digraph can be modeled via a difference inclusion, which, in turn, can be interpreted as a Markov decision process. Using the latter framework, we offer a methodology to design reward functions to provide upper and lower bounds on the reachability probabilities of a set of nodes for stochastic digraphs. The effectiveness of the proposed technique is demonstrated by application to the diffusion of epidemic diseases over time-varying contact networks generated by the proximity patterns of mobile agents. | 翻訳日:2022-02-28 14:12:53 公開日:2022-02-25 |
# 文脈階層逆強化学習 Context-Hierarchy Inverse Reinforcement Learning ( http://arxiv.org/abs/2202.12597v1 ) ライセンス: Link先を確認 | Wei Gao, David Hsu, Wee Sun Lee | (参考訳) 逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
実演から報酬関数を学ぶことは様々なタスクで大きな成功を収めてきたが、他のいくつかの課題はほとんど無視されている。
まず、既存のIRL法は、事前の知識に頼ることなく、報酬関数をゼロから学習しようとする。
第二に、伝統的なIRL法では、報酬関数はすべての実演において均質であると仮定する。
既存のIRLメソッドは、不均一なデモにまで拡張することができた。
しかし、動作に影響を与える1つの隠れた変数を仮定し、デモの報酬とともに隠れた変数を学習する。
これらの問題を解決するために、複雑な振る舞いの報酬関数を学習するためにコンテキストを利用した新しいIRLアルゴリズムであるContext Hierarchy IRL(CHIRL)を提案する。
chirlは、コンテキストを有向非循環グラフとして階層的にモデル化し、各ネットワークモジュールとコンテキスト階層のノードを関連付ける、対応するモジュラーディープニューラルネットワークとして報酬関数を表現する。
コンテキスト階層とモジュール報酬表現は、複数のコンテキスト間のデータ共有と状態抽象化を可能にし、学習性能を大幅に向上させる。
CHIRLは、コンテキスト階層がサブタスク分解を表すとき、階層的なタスク計画と自然な関係を持つ。
サブタスクの因果依存性に関する以前の知識を取り入れ、複数のサブタスクに分離し、各サブタスクを征服して元のタスクを解くことで、大きな複雑なタスクを解くことができる。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。 An inverse reinforcement learning (IRL) agent learns to act intelligently by observing expert demonstrations and learning the expert's underlying reward function. Although learning the reward functions from demonstrations has achieved great success in various tasks, several other challenges are mostly ignored. Firstly, existing IRL methods try to learn the reward function from scratch without relying on any prior knowledge. Secondly, traditional IRL methods assume the reward functions are homogeneous across all the demonstrations. Some existing IRL methods managed to extend to the heterogeneous demonstrations. However, they still assume one hidden variable that affects the behavior and learn the underlying hidden variable together with the reward from demonstrations. To solve these issues, we present Context Hierarchy IRL(CHIRL), a new IRL algorithm that exploits the context to scale up IRL and learn reward functions of complex behaviors. CHIRL models the context hierarchically as a directed acyclic graph; it represents the reward function as a corresponding modular deep neural network that associates each network module with a node of the context hierarchy. The context hierarchy and the modular reward representation enable data sharing across multiple contexts and state abstraction, significantly improving the learning performance. CHIRL has a natural connection with hierarchical task planning when the context hierarchy represents subtask decomposition. It enables to incorporate the prior knowledge of causal dependencies of subtasks and make it capable of solving large complex tasks by decoupling it into several subtasks and conquering each subtask to solve the original task. Experiments on benchmark tasks, including a large scale autonomous driving task in the CARLA simulator, show promising results in scaling up IRL for tasks with complex reward functions. | 翻訳日:2022-02-28 14:12:45 公開日:2022-02-25 |
# ニューラルネットワークにおける不変ウェイト学習 Learning Invariant Weights in Neural Networks ( http://arxiv.org/abs/2202.12439v1 ) ライセンス: Link先を確認 | Tycho F.A. van der Ouderaa and Mark van der Wilk | (参考訳) データの不変性や対称性に関する仮定は、統計モデルの予測能力を大幅に向上させることができる。
機械学習においてよく使われるモデルの多くは、畳み込みニューラルネットワークの変換等、データの特定の対称性を尊重することを制約しており、新しい対称性型の導入が活発に研究されている。
しかし、データ自体からそのような不変性を学ぶ努力は、依然としてオープンな研究課題である。
限界確率はガウス過程における不変性を学ぶための原理的な方法をもたらすことが示されている。
本稿では,このアプローチに等価な重み空間を提案し,限界確率の下限を最小化し,ニューラルネットワークの不変性を学習することにより,自然に高いパフォーマンスモデルを実現する。 Assumptions about invariances or symmetries in data can significantly increase the predictive power of statistical models. Many commonly used models in machine learning are constraint to respect certain symmetries in the data, such as translation equivariance in convolutional neural networks, and incorporation of new symmetry types is actively being studied. Yet, efforts to learn such invariances from the data itself remains an open research problem. It has been shown that marginal likelihood offers a principled way to learn invariances in Gaussian Processes. We propose a weight-space equivalent to this approach, by minimizing a lower bound on the marginal likelihood to learn invariances in neural networks resulting in naturally higher performing models. | 翻訳日:2022-02-28 14:11:33 公開日:2022-02-25 |
# データ前処理による対物フェアネスの学習とテストについて On Learning and Testing of Counterfactual Fairness through Data Preprocessing ( http://arxiv.org/abs/2202.12440v1 ) ライセンス: Link先を確認 | Haoyu Chen, Wenbin Lu, Rui Song and Pulak Ghosh | (参考訳) 機械学習は実生活における意思決定においてますます重要になっているが、人々は不適切な使用によってもたらされる倫理的問題を懸念している。
最近の研究は、機械学習の公正性に関する議論を因果的枠組みに持ち込み、対実的公正の概念を精査している。
本稿では,fair Learning through dAta preprocessing (FLAP)アルゴリズムを開発し,偏りのあるトレーニングデータから対実的公正な判断を学習し,対実的公正性を保証するために異なるデータ前処理手順を使用するべき条件を定式化する。
また,処理された非感性属性から判断の条件付き独立性や感度特性に等価であることを示し,処理データを用いて元の判断における識別を検出できることを示した。
本アルゴリズムの性能はシミュレーションデータと実世界のアプリケーションを用いて示す。 Machine learning has become more important in real-life decision-making but people are concerned about the ethical problems it may bring when used improperly. Recent work brings the discussion of machine learning fairness into the causal framework and elaborates on the concept of Counterfactual Fairness. In this paper, we develop the Fair Learning through dAta Preprocessing (FLAP) algorithm to learn counterfactually fair decisions from biased training data and formalize the conditions where different data preprocessing procedures should be used to guarantee counterfactual fairness. We also show that Counterfactual Fairness is equivalent to the conditional independence of the decisions and the sensitive attributes given the processed non-sensitive attributes, which enables us to detect discrimination in the original decision using the processed data. The performance of our algorithm is illustrated using simulated data and real-world applications. | 翻訳日:2022-02-28 14:11:23 公開日:2022-02-25 |
# 不均一入力領域上でのマルチタスクガウス過程の学習 Learning Multi-Task Gaussian Process Over Heterogeneous Input Domains ( http://arxiv.org/abs/2202.12636v1 ) ライセンス: Link先を確認 | Haitao Liu, Kai Wu, Yew-Soon Ong, Xiaomo Jiang, Xiaofang Wang | (参考訳) マルチタスクガウス過程(MTGP)は、タスク間で知識を伝達することで相関したタスクを効果的に学習するためのよく知られた非パラメトリックベイズモデルである。
しかし、現在のmtgpモデルは、通常、同じ入力ドメインで定義されたマルチタスクシナリオに限定されており、実際の異質なケースに取り組むためのスペースは残っていない。
そこで本稿では,同地域化モデル(hsvlmc)の確率的変分線形モデルを用いて,入力領域の異なるタスクを同時に学習する手法を提案する。
特に,ベイズ校正法を用いて確率的変分枠組みを開発した。
(i)効果的な入力アライメントを達成するために、ドメインマッピングによって引き起こされる次元の縮小の効果を考慮に入れる。
(ii) モデル推論を改善するために、事前ドメインマッピングによってもたらされる帰納的バイアスを活用するために、残留モデリング戦略を用いる。
最後に、既存のlmcモデルに対する提案モデルの優位性は、多様な異種マルチタスクケースにおいて広範囲に検証されている。 Multi-task Gaussian process (MTGP) is a well-known non-parametric Bayesian model for learning correlated tasks effectively by transferring knowledge across tasks. But current MTGP models are usually limited to the multi-task scenario defined in the same input domain, leaving no space for tackling the practical heterogeneous case, i.e., the features of input domains vary over tasks. To this end, this paper presents a novel heterogeneous stochastic variational linear model of coregionalization (HSVLMC) model for simultaneously learning the tasks with varied input domains. Particularly, we develop the stochastic variational framework with a Bayesian calibration method that (i) takes into account the effect of dimensionality reduction raised by domain mapping in order to achieve effective input alignment; and (ii) employs a residual modeling strategy to leverage the inductive bias brought by prior domain mappings for better model inference. Finally, the superiority of the proposed model against existing LMC models has been extensively verified on diverse heterogeneous multi-task cases. | 翻訳日:2022-02-28 14:11:06 公開日:2022-02-25 |
# 不均一処理効果推定のための観測データとランダム化データの組み合わせ Combining Observational and Randomized Data for Estimating Heterogeneous Treatment Effects ( http://arxiv.org/abs/2202.12891v1 ) ライセンス: Link先を確認 | Tobias Hatt, Jeroen Berrevoets, Alicia Curth, Stefan Feuerriegel, Mihaela van der Schaar | (参考訳) 不均一な治療効果の推定は、多くの領域において重要な問題である。
このような治療効果を正確に推定するためには、一般的に観察研究やランダム化実験のデータに依存する。
現在、既存の作品の多くは観測データのみに依存しており、これはしばしば混同され、偏りのある推定結果となる。
観測データは統合されているが、ランダム化されたデータは未確立であるが、サンプルのサイズは通常小さすぎて不均一な処理効果を学習できない。
本稿では,多量の観測データと少量のランダム化データを表現学習により組み合わせ,不均一な処理効果を推定する。
まず、観測データを用いて共有構造(表現形式)を学習し、次にランダム化されたデータを用いてデータ固有の構造を学習する。
本フレームワークの有限サンプル特性を解析し,いくつかの自然ベースラインと比較する。
したがって、観測データとランダムデータを組み合わせた場合の条件とそうでない場合の条件を導出する。
そこで我々は,CorNetと呼ばれるサンプル効率のよいアルゴリズムを提案する。
本研究では,コーネットと複数の実世界のデータセットの理論的性質を検証するために,シミュレーション実験を行い,本手法が既存の手法よりも優れていることを示す。 Estimating heterogeneous treatment effects is an important problem across many domains. In order to accurately estimate such treatment effects, one typically relies on data from observational studies or randomized experiments. Currently, most existing works rely exclusively on observational data, which is often confounded and, hence, yields biased estimates. While observational data is confounded, randomized data is unconfounded, but its sample size is usually too small to learn heterogeneous treatment effects. In this paper, we propose to estimate heterogeneous treatment effects by combining large amounts of observational data and small amounts of randomized data via representation learning. In particular, we introduce a two-step framework: first, we use observational data to learn a shared structure (in form of a representation); and then, we use randomized data to learn the data-specific structures. We analyze the finite sample properties of our framework and compare them to several natural baselines. As such, we derive conditions for when combining observational and randomized data is beneficial, and for when it is not. Based on this, we introduce a sample-efficient algorithm, called CorNet. We use extensive simulation studies to verify the theoretical properties of CorNet and multiple real-world datasets to demonstrate our method's superiority compared to existing methods. | 翻訳日:2022-02-28 14:10:53 公開日:2022-02-25 |
# (参考訳) DataLab: データ分析と介入のためのプラットフォーム DataLab: A Platform for Data Analysis and Intervention ( http://arxiv.org/abs/2202.12875v1 ) ライセンス: CC BY-SA 4.0 | Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu, Yixin Liu, Graham Neubig and Pengfei Liu | (参考訳) 機械学習におけるデータの役割は重要であるが、既存のツールや研究の多くは、データの解釈や操作ではなく、既存のデータに基づくシステムに焦点を当てている。
本稿では,ユーザがデータの特徴をインタラクティブに分析できるだけでなく,異なるデータ処理操作のための標準化されたインターフェースを提供する,統一データ指向プラットフォームDataLabを提案する。
さらに、データセットの普及が進行中であるという点では、データセットレコメンデーションとグローバルビジョン分析の機能を備えており、研究者がデータエコシステムをよりよく見るのに役立つ。
これまでdatalabは、1,715のデータセットと3,583の変換されたバージョン(例:hyponyms置換)をカバーしており、728のデータセットは318の機能関数でアノテートされた140万のサンプルの助けを借りて、さまざまな分析(性別バイアスなど)をサポートしている。
DataLabは開発中であり、今後サポートされる予定である。
私たちはwebプラットフォーム、web api、python sdk、pypiが公開したパッケージおよびオンラインドキュメントをリリースしました。 Despite data's crucial role in machine learning, most existing tools and research tend to focus on systems on top of existing data rather than how to interpret and manipulate data. In this paper, we propose DataLab, a unified data-oriented platform that not only allows users to interactively analyze the characteristics of data, but also provides a standardized interface for different data processing operations. Additionally, in view of the ongoing proliferation of datasets, \toolname has features for dataset recommendation and global vision analysis that help researchers form a better view of the data ecosystem. So far, DataLab covers 1,715 datasets and 3,583 of its transformed version (e.g., hyponyms replacement), where 728 datasets support various analyses (e.g., with respect to gender bias) with the help of 140M samples annotated by 318 feature functions. DataLab is under active development and will be supported going forward. We have released a web platform, web API, Python SDK, PyPI published package and online documentation, which hopefully, can meet the diverse needs of researchers. | 翻訳日:2022-02-28 14:09:41 公開日:2022-02-25 |
# NeuralKG:知識グラフの多言語表現学習のためのオープンソースライブラリ NeuralKG: An Open Source Library for Diverse Representation Learning of Knowledge Graphs ( http://arxiv.org/abs/2202.12571v1 ) ライセンス: Link先を確認 | Wen Zhang, Xiangnan Chen, Zhen Yao, Mingyang Chen, Yushan Zhu, Hongtao Yu, Yufeng Huang, Zezhong Xu, Yajing Xu, Ningyu Zhang, Zonggang Yuan, Feiyu Xiong, Huajun Chen | (参考訳) NeuralKGは、知識グラフの多様な表現学習のためのオープンソースのPythonベースのライブラリである。
従来のKGE、GNNベースのKGE、ルールベースのKGEを含む3種類の知識グラフ埋め込み(KGE)メソッドを実装している。
統一されたフレームワークにより、NeuralKGはこれらのメソッドのリンク予測結果をベンチマークで再現し、特に元々は非ピソンプログラミング言語で記述されたメソッドにおいて、ユーザをその再実装の面倒なタスクから解放する。
また、NeuralKGは高度に構成可能で拡張可能である。
様々な分離モジュールを提供し、互いに混合し、適応することができる。
そのため、neuralkgを使用することで、開発者や研究者は自身の設計したモデルを迅速に実装し、最高のパフォーマンスを達成するための最適なトレーニング方法を得ることができる。
我々は、オープンで共有されたKG表現学習コミュニティを組織するために、http://neuralkg.zjukg.cnにウェブサイトを構築しました。
ソースコードはすべてhttps://github.com/zjukg/NeuralKGで公開されている。 NeuralKG is an open-source Python-based library for diverse representation learning of knowledge graphs. It implements three different series of Knowledge Graph Embedding (KGE) methods, including conventional KGEs, GNN-based KGEs, and Rule-based KGEs. With a unified framework, NeuralKG successfully reproduces link prediction results of these methods on benchmarks, freeing users from the laborious task of reimplementing them, especially for some methods originally written in non-python programming languages. Besides, NeuralKG is highly configurable and extensible. It provides various decoupled modules that can be mixed and adapted to each other. Thus with NeuralKG, developers and researchers can quickly implement their own designed models and obtain the optimal training methods to achieve the best performance efficiently. We built an website in http://neuralkg.zjukg.cn to organize an open and shared KG representation learning community. The source code is all publicly released at https://github.com/zjukg/NeuralKG. | 翻訳日:2022-02-28 13:44:09 公開日:2022-02-25 |
# 生物医学領域におけるディープラーニング・自然言語処理・説明可能な人工知能 Deep Learning, Natural Language Processing, and Explainable Artificial Intelligence in the Biomedical Domain ( http://arxiv.org/abs/2202.12678v1 ) ライセンス: Link先を確認 | Milad Moradi, Matthias Samwald | (参考訳) 本稿では,まず人工知能とその生物学・医学への応用について紹介する。
1. ディープラーニングの方法は、次に、セクションで説明します。
2) 本研究は第3節におけるテキストデータ研究の焦点を絞ったもので, 自然言語処理とそのバイオメディカル分野への応用について述べる。
第4節では、説明可能な人工知能について紹介し、特に生物医学領域における人工知能システムの説明可能性の重要性について論じる。 In this article, we first give an introduction to artificial intelligence and its applications in biology and medicine in Section 1. Deep learning methods are then described in Section 2. We narrow down the focus of the study on textual data in Section 3, where natural language processing and its applications in the biomedical domain are described. In Section 4, we give an introduction to explainable artificial intelligence and discuss the importance of explainability of artificial intelligence systems, especially in the biomedical domain. | 翻訳日:2022-02-28 13:43:52 公開日:2022-02-25 |
# 平衡アグリゲーション:最適化による符号化セット Equilibrium Aggregation: Encoding Sets via Optimization ( http://arxiv.org/abs/2202.12795v1 ) ライセンス: Link先を確認 | Sergey Bartunov, Fabian B. Fuchs, Timothy Lillicrap | (参考訳) ニューラルネットワークの処理セットや他の順序付けされていない可変サイズの入力は通常、複数の入力テンソルを単一の表現に変換することで処理される。
単純な和のプーリングから多頭注意まで、すでに多くの集約手法が存在するが、それらは理論的および経験的観点からの表現力に制限されている。
主により強力なアグリゲーション戦略の探索において,Equilibrium Aggregationと呼ばれる最適化に基づく手法を提案する。
既存の集約手法の多くは, 平衡集約の特別な場合として回収可能であること, 重要な場合において, より効果的であることを示す。
Equilibrium Aggregationは、既存の多くのアーキテクチャやアプリケーションにおいて、ドロップイン代替として使用することができる。
我々は,その効率を中央値推定,クラスカウント,分子特性予測の3つのタスクで検証する。
すべての実験において、平衡アグリゲーションは他のアグリゲーション技術よりも高い性能を達成する。 Processing sets or other unordered, potentially variable-sized inputs in neural networks is usually handled by \emph{aggregating} a number of input tensors into a single representation. While a number of aggregation methods already exist from simple sum pooling to multi-head attention, they are limited in their representational power both from theoretical and empirical perspectives. On the search of a principally more powerful aggregation strategy, we propose an optimization-based method called Equilibrium Aggregation. We show that many existing aggregation methods can be recovered as special cases of Equilibrium Aggregation and that it is provably more efficient in some important cases. Equilibrium Aggregation can be used as a drop-in replacement in many existing architectures and applications. We validate its efficiency on three different tasks: median estimation, class counting, and molecular property prediction. In all experiments, Equilibrium Aggregation achieves higher performance than the other aggregation techniques we test. | 翻訳日:2022-02-28 13:43:43 公開日:2022-02-25 |
# 単純後悔最小化のためのメタラーニング Meta-Learning for Simple Regret Minimization ( http://arxiv.org/abs/2202.12888v1 ) ライセンス: Link先を確認 | Mohammadjavad Azizi, Branislav Kveton, Mohammad Ghavamzadeh, Sumeet Katariya | (参考訳) バンディットにおける簡単な後悔の最小化のためのメタラーニングフレームワークを開発する。
このフレームワークでは、学習エージェントが未知の事前分布からサンプル化された一連のバンディットタスクと相互作用し、そのメタパラメータを学習して、将来のタスクをよりよく実行する。
本稿では,このメタ学習問題に対するベイズ的かつ頻繁なアルゴリズムを提案する。
ベイズアルゴリズムは、メタパラメータ上の以前の分布にアクセスでき、そのメタ単純後悔は、水平線$n$は単に$\tilde{O}(m / \sqrt{n})$である。
これは、頻繁なアルゴリズムのメタ単純後悔が$\tilde{o}(\sqrt{m} n + m/ \sqrt{n})$であることを示す一方で、より悪いことである。
しかし、このアルゴリズムはメタパラメータの事前分布は不要であり、様々な分布の実装が容易であるため、より一般的なものである。
アルゴリズムをいくつかのバンディット問題のクラスにインスタンス化する。
我々のアルゴリズムは一般的であり、いくつかの環境で経験的に評価することで理論を補完する。 We develop a meta-learning framework for simple regret minimization in bandits. In this framework, a learning agent interacts with a sequence of bandit tasks, which are sampled i.i.d.\ from an unknown prior distribution, and learns its meta-parameters to perform better on future tasks. We propose the first Bayesian and frequentist algorithms for this meta-learning problem. The Bayesian algorithm has access to a prior distribution over the meta-parameters and its meta simple regret over $m$ bandit tasks with horizon $n$ is mere $\tilde{O}(m / \sqrt{n})$. This is while we show that the meta simple regret of the frequentist algorithm is $\tilde{O}(\sqrt{m} n + m/ \sqrt{n})$, and thus, worse. However, the algorithm is more general, because it does not need a prior distribution over the meta-parameters, and is easier to implement for various distributions. We instantiate our algorithms for several classes of bandit problems. Our algorithms are general and we complement our theory by evaluating them empirically in several environments. | 翻訳日:2022-02-28 13:43:02 公開日:2022-02-25 |
# 二重相関低減ネットワークの改良 Improved Dual Correlation Reduction Network ( http://arxiv.org/abs/2202.12533v1 ) ライセンス: Link先を確認 | Yue Liu, Sihang Zhou, Xinwang Liu, Wenxuan Tu, Xihong Yang | (参考訳) ディープグラフクラスタリングは、基礎となるグラフ構造を明らかにし、ノードを人間のアノテーションなしで異なるクラスタに分割することを目的としている。
しかし,既存の手法は表現崩壊問題に悩まされており,異なるクラスを持つサンプルを同じ潜伏埋め込みに符号化する傾向がある。
これにより、ノードの識別能力が制限され、サブ最適クラスタリング性能が向上する。
この問題に対処するために,サンプルの識別能力を向上させることにより,改良された二元相関補正ネットワーク (IDCRN) と呼ばれる新しいディープグラフクラスタリングアルゴリズムを提案する。
具体的には、クロスビュー特徴相関行列をアイデンティティ行列に近似することにより、特徴の異なる次元間の冗長性を低減し、潜在空間の識別能力を明示的に改善する。
一方、クロスビューサンプル相関行列は、学習された潜在表現を導くために設計されたクラスタリング精製隣接行列を近似させ、ビューをまたいでも親和性行列を回復させ、特徴の識別能力を暗黙的に向上させる。
さらに,導入した伝播正規化項を通じて,グラフ畳み込みネットワーク(gcns)におけるオーバースモーシング問題による崩壊表現を回避し,idcrnが浅層ネットワーク構造で長距離情報をキャプチャできるようにする。
6つのベンチマークによる大規模な実験結果は、既存の最先端のディープグラフクラスタリングアルゴリズムと比較して、IDCRNの有効性と効率性を示している。 Deep graph clustering, which aims to reveal the underlying graph structure and divide the nodes into different clusters without human annotations, is a fundamental yet challenging task. However, we observed that the existing methods suffer from the representation collapse problem and easily tend to encode samples with different classes into the same latent embedding. Consequently, the discriminative capability of nodes is limited, resulting in sub-optimal clustering performance. To address this problem, we propose a novel deep graph clustering algorithm termed Improved Dual Correlation Reduction Network (IDCRN) through improving the discriminative capability of samples. Specifically, by approximating the cross-view feature correlation matrix to an identity matrix, we reduce the redundancy between different dimensions of features, thus improving the discriminative capability of the latent space explicitly. Meanwhile, the cross-view sample correlation matrix is forced to approximate the designed clustering-refined adjacency matrix to guide the learned latent representation to recover the affinity matrix even across views, thus enhancing the discriminative capability of features implicitly. Moreover, we avoid the collapsed representation caused by the over-smoothing issue in Graph Convolutional Networks (GCNs) through an introduced propagation regularization term, enabling IDCRN to capture the long-range information with the shallow network structure. Extensive experimental results on six benchmarks have demonstrated the effectiveness and the efficiency of IDCRN compared to the existing state-of-the-art deep graph clustering algorithms. | 翻訳日:2022-02-28 13:42:36 公開日:2022-02-25 |
# (参考訳) 強化学習による特徴関数の訓練:XAI-methods play Connect Four Training Characteristic Functions with Reinforcement Learning: XAI-methods play Connect Four ( http://arxiv.org/abs/2202.11797v2 ) ライセンス: CC BY-SA 4.0 | Stephan W\"aldchen, Felix Huber, Sebastian Pokutta | (参考訳) 説明可能なAI(XAI)の目標の1つは、どの入力コンポーネントが分類器決定に関連するかを決定することである。
これは一般的にサリエンシー・アトリビューションとして知られている。
特性関数(協調ゲーム理論からの)は部分入力を評価し、シャプリー値のような理論的に「公正」な帰属法の基礎を形成することができる。
標準分類子関数のみを考えると、部分入力をどのように実現すべきかは明らかでない。
代わりに、ニューラルネットワークのようなブラックボックス分類器のためのほとんどのXAIメソッドは、一般的にオフマニフォールドにある反ファクト入力を考慮する。
これにより、評価が難しくなり、操作が容易になる。
本稿では,ニューラルネットワークの形式で特徴関数を直接学習し,単純な2人プレイゲームを行うためのセットアップを提案する。
トレーニング中にエージェントから色情報をランダムに隠すことで、Connect Fourのゲームに適用する。
XAIメソッドの比較には3つの利点がある: 部分的な入力を実現する方法の曖昧さを軽減し、オフマンフォールド評価を不要にし、互いに対戦させることでメソッドを比較することができる。 One of the goals of Explainable AI (XAI) is to determine which input components were relevant for a classifier decision. This is commonly know as saliency attribution. Characteristic functions (from cooperative game theory) are able to evaluate partial inputs and form the basis for theoretically "fair" attribution methods like Shapley values. Given only a standard classifier function, it is unclear how partial input should be realised. Instead, most XAI-methods for black-box classifiers like neural networks consider counterfactual inputs that generally lie off-manifold. This makes them hard to evaluate and easy to manipulate. We propose a setup to directly train characteristic functions in the form of neural networks to play simple two-player games. We apply this to the game of Connect Four by randomly hiding colour information from our agents during training. This has three advantages for comparing XAI-methods: It alleviates the ambiguity about how to realise partial input, makes off-manifold evaluation unnecessary and allows us to compare the methods by letting them play against each other. | 翻訳日:2022-02-28 12:29:17 公開日:2022-02-25 |
# (参考訳) 分割変分推論:確率的フェデレーション学習のためのフレームワーク Partitioned Variational Inference: A Framework for Probabilistic Federated Learning ( http://arxiv.org/abs/2202.12275v2 ) ライセンス: CC BY 4.0 | Matthew Ashman, Thang D. Bui, Cuong V. Nguyen, Efstratios Markou, Adrian Weller, Siddharth Swaroop and Richard E. Turner | (参考訳) コンピューティングデバイスの普及は、これまでアクセスできないデータを使用して、新しい問題領域に機械学習モデルをデプロイする機会をもたらした。
このようなモデルをトレーニングする従来のアルゴリズムでは、単一のノードで計算を行う単一のマシンにデータを保存する必要があり、複数のデバイスで分散化されたトレーニングには適さない。
この欠陥は、複数のデータ所有者が協力してトレーニングし、ローカルデータをプライベートにしながら共有モデルを使用することのできる、フェデレーション付き学習アルゴリズムの開発を動機付けている。
しかし、これらのアルゴリズムの多くは、モデルの不確かさを捉えることができる確率的推定よりも、モデルパラメータの点推定の獲得に重点を置いている。
変分推論 (VI) は多くの現代の確率モデルに適合させる方法として選択されている。
本稿では,フェデレーション環境でviを実行する汎用フレームワークであるpartitioned variational inference (pvi)を提案する。
我々は, PVI の新たなサポート理論を開発し, 実践者にとって魅力的な選択となる多くの特性を示し, PVI を用いて断片化された, 関連のある文献を統一し, 様々なフェデレーション環境での PVI の有効性を示す実験結果を提供する。 The proliferation of computing devices has brought about an opportunity to deploy machine learning models on new problem domains using previously inaccessible data. Traditional algorithms for training such models often require data to be stored on a single machine with compute performed by a single node, making them unsuitable for decentralised training on multiple devices. This deficiency has motivated the development of federated learning algorithms, which allow multiple data owners to train collaboratively and use a shared model whilst keeping local data private. However, many of these algorithms focus on obtaining point estimates of model parameters, rather than probabilistic estimates capable of capturing model uncertainty, which is essential in many applications. Variational inference (VI) has become the method of choice for fitting many modern probabilistic models. In this paper we introduce partitioned variational inference (PVI), a general framework for performing VI in the federated setting. We develop new supporting theory for PVI, demonstrating a number of properties that make it an attractive choice for practitioners; use PVI to unify a wealth of fragmented, yet related literature; and provide empirical results that showcase the effectiveness of PVI in a variety of federated settings. | 翻訳日:2022-02-28 12:07:37 公開日:2022-02-25 |
# (参考訳) アクティブフロー制御のための機械学習手法の比較解析 Comparative analysis of machine learning methods for active flow control ( http://arxiv.org/abs/2202.11664v2 ) ライセンス: CC BY 4.0 | Fabio Pino, Lorenzo Schena, Jean Rabault, Alexander Kuhnle and Miguel A. Mendez | (参考訳) 遺伝的プログラミング(gp)や強化学習(rl)といった機械学習フレームワークがフロー制御で人気を集めている。
本研究は,bayesian optimization (bo) やlipschitz global optimization (lipo) といった大域的最適化手法に対して,最も代表的なアルゴリズムのいくつかをベンチマークし,両者の比較分析を行う。
まず, 最適制御理論とモデルフリー機械学習法を結びつけ, フロー制御問題の一般的な枠組みについて検討する。
そして、3つのテストケースで制御アルゴリズムをテストする。
1) 周波数クロストークを特徴とする非線形力学系の安定化, (2) バーガース流からのウェーブキャンセリング, (3) シリンダ後流における抗力低減などである。
これらの問題に対するコントロールは,近年の文献において,いずれかの手法で取り組まれているが,本論文では,探索と搾取の違いと,制御法定義における「モデル能力」と「要求複雑性」とのバランスを包括的に比較する。
このような比較が様々な手法のハイブリダイゼーションへの道を開くと信じており、フロー制御問題の文献における今後の発展を展望する。 Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the flow control problem, linking optimal control theory with model-free machine learning methods. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. Although the control of these problems has been tackled in the recent literature with one method or the other, we present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison opens the path towards hybridization of the various methods, and we offer some perspective on their future development in the literature of flow control problems. | 翻訳日:2022-02-28 12:06:27 公開日:2022-02-25 |
# 周期的バイラテラル相互作用によるフレーズベースアフォーダンス検出 Phrase-Based Affordance Detection via Cyclic Bilateral Interaction ( http://arxiv.org/abs/2202.12076v2 ) ライセンス: Link先を確認 | Liangsheng Lu, Wei Zhai, Hongchen Luo, Yu Kang and Yang Cao | (参考訳) Affordance Detectionは、画像中の潜在的なアクション可能性を持つオブジェクトを知覚することを指すもので、現実のアプリケーションシナリオにおける人の目的に依存するため、困難なタスクである。
既存の作業は主に、動的に変化する価格特性に対応するために、画像/ビデオから固有の人間オブジェクトの依存関係を抽出する。
本稿では,視覚言語の観点からアフォーアンスを知覚し,行動目的を記述した一連のフレーズが与えられた場合,同じアフォーアンスを持つシーン内のすべての対象領域を検出すべきという,難しいフレーズに基づくアフォーアンス検出問題を検討する。
そこで本稿では,言語と視覚の特徴を段階的に整合させる巡回的二元整合性強化ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
さらに,短いフレーズでアフォーマンスカテゴリをアノテートすることにより,一般の目的駆動型アフォーアンスデータセット(pad)を拡張する。
比較実験の結果, 客観的指標と視覚品質の両面において, 4つの分野から9つの典型的な方法よりも優れた方法が得られた。
関連するコードとデータセットは \url{https://github.com/lulsheng/CBCE-Net} でリリースされる。 Affordance detection, which refers to perceiving objects with potential action possibilities in images, is a challenging task since the possible affordance depends on the person's purpose in real-world application scenarios. The existing works mainly extract the inherent human-object dependencies from image/video to accommodate affordance properties that change dynamically. In this paper, we explore to perceive affordance from a vision-language perspective and consider the challenging phrase-based affordance detection problem,i.e., given a set of phrases describing the action purposes, all the object regions in a scene with the same affordance should be detected. To this end, we propose a cyclic bilateral consistency enhancement network (CBCE-Net) to align language and vision features progressively. Specifically, the presented CBCE-Net consists of a mutual guided vision-language module that updates the common features of vision and language in a progressive manner, and a cyclic interaction module (CIM) that facilitates the perception of possible interaction with objects in a cyclic manner. In addition, we extend the public Purpose-driven Affordance Dataset (PAD) by annotating affordance categories with short phrases. The contrastive experimental results demonstrate the superiority of our method over nine typical methods from four relevant fields in terms of both objective metrics and visual quality. The related code and dataset will be released at \url{https://github.com/lulsheng/CBCE-Net}. | 翻訳日:2022-02-28 12:02:28 公開日:2022-02-25 |