このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200531)

# 三重ウェルトラップに閉じ込められた3つの超低温ボソニック原子の全秩序運動量相関:創発的多体量子相転移のシグネチャと3光子量子光学干渉との類似

All-order momentum correlations of three ultracold bosonic atoms confined in triple-well traps: Signatures of emergent many-body quantum phase transitions and analogies with three-photon quantum-optics interference ( http://arxiv.org/abs/2002.00311v2 )

ライセンス: Link先を確認
Constantine Yannouleas, Uzi Landman(参考訳) 3つのスピンレス超低温相互作用中性原子の飛行時間スペクトルに関連する全次運動量相関関数を線形3次元光学トラップに閉じ込めた。 相互作用原子の基底となるハミルトニアンは拡張三点ハバードモデルである。 本研究では, 質量粒子の物質波干渉を対象とし, 種々の相互作用強度を持つ超低温粒子の量子状態を特徴付ける実験プロトコルの確立を目標とした。 The manifested advantages and deep physical insights that can be gained through the employment of the results of our study for a comprehensive understanding of the nature of the quantum states of interacting many-particle systems, via analysis of the all-order (that is 1st, 2nd and 3rd) momentum correlation functions for three bosonic atoms in a three well confinement, are illustrated and discussed in the context of time-of-flight inteferometric interrogations of the interaction-strength-induced emergent quantum phase transition from the Mott insulating phase to the superfluid one. さらに,我々は,量子情報応用や量子コンピューティングの発展・実装をターゲットとした探索に焦点をあてた真の3光子干渉の側面を含む,3光子の量子光学干渉と強い類似性を確立することを議論した。

All-order momentum correlation functions associated with the time-of-flight spectroscopy of three spinless ultracold bosonic interacting neutral atoms confined in a linear three-well optical trap are presented. The underlying Hamiltonian employed for the interacting atoms is an augmented three-site Hubbard model. Our investigations target matter-wave interference of massive particles, aiming at the establishment of experimental protocols for characterizing the quantum states of trapped attractively or repulsively interacting ultracold particles, with variable interaction strength. The manifested advantages and deep physical insights that can be gained through the employment of the results of our study for a comprehensive understanding of the nature of the quantum states of interacting many-particle systems, via analysis of the all-order (that is 1st, 2nd and 3rd) momentum correlation functions for three bosonic atoms in a three well confinement, are illustrated and discussed in the context of time-of-flight inteferometric interrogations of the interaction-strength-induced emergent quantum phase transition from the Mott insulating phase to the superfluid one. Furthermore, we discuss that our inteferometric interrogations establish strong analogies with the quantum-optics interference of three photons, including the aspects of genuine three-photon interference, which are focal to explorations targeting the development and implementation of quantum information applications and quantum computing.
翻訳日:2023-06-05 00:27:27 公開日:2020-05-31
# 正準リーブ・ライニガーモデルにおける場形成係数の決定式

Determinant formula for the field form factor in the anyonic Lieb-Liniger model ( http://arxiv.org/abs/2002.12629v2 )

ライセンス: Link先を確認
Lorenzo Piroli, Stefano Scopa, Pasquale Calabrese(参考訳) 我々は、相互作用 $c$, anyonic parameter $\kappa$, and number of particles $N$ の任意の値に対して有効である、正準リーブ・ライニガーモデルにおける場形式係数の正確な式を導出する。 ボソニックの場合と同様に、形式因子は bethe pseudomomenta の有理関数であるが、明示的に $\kappa$ に依存する、$n\times n$ 行列の行列式で表される。 この式は評価が効率的であり、数個の数値計算および解析計算に不可欠な要素を提供する。 その導出は3つの段階からなる。 まず, 標準リーブ・リンガーモデルにおいて, アノニカルな形状因子は2つの特別な外殻状態の間のボソニック型と等しいことを示す。 第二に、解析的性質を特徴付け、一意に特定する条件のセットを提供する。 最後に、決定式がこれらの条件を満たすことを示す。

We derive an exact formula for the field form factor in the anyonic Lieb-Liniger model, valid for arbitrary values of the interaction $c$, anyonic parameter $\kappa$, and number of particles $N$. Analogously to the bosonic case, the form factor is expressed in terms of the determinant of a $N\times N$ matrix, whose elements are rational functions of the Bethe quasimomenta but explicitly depend on $\kappa$. The formula is efficient to evaluate, and provide an essential ingredient for several numerical and analytical calculations. Its derivation consists of three steps. First, we show that the anyonic form factor is equal to the bosonic one between two special off-shell Bethe states, in the standard Lieb-Liniger model. Second, we characterize its analytic properties and provide a set of conditions that uniquely specify it. Finally, we show that our determinant formula satisfies these conditions.
翻訳日:2023-06-01 08:01:01 公開日:2020-05-31
# 量子コンピュータにおけるスピンの平均値による絡み合いの検出

Detecting entanglement by the mean value of spin on a quantum computer ( http://arxiv.org/abs/2003.01011v2 )

ライセンス: Link先を確認
A.R. Kuzmak and V.M. Tkachuk(参考訳) 量子コンピュータ上で量子ビットとシステムの他の部分との絡み合いの程度を決定するプロトコルを実装した。 このプロトコルは, 論文[Frydryszak et al. (2017)]で得られた結果に基づいている。 このプロトコルはIBM社が提供するibmq-ourenseと呼ばれる5量子ビット超伝導量子プロセッサでテストされる。 我々は、この装置で用意されたシュリンガー・キャットとワーナー・ステートの絡み合いの値を決定し、理論値と比較する。 また、ランク-2混合状態の絡み合いを決定するプロトコルも提案されている。 このプロトコルをibmq-ourense量子デバイス上で用意された2つのベル状態からなる混合状態に適用する。

We implement a protocol to determine the degree of entanglement between a qubit and the rest of the system on a quantum computer. The protocol is based on results obtained in paper [Frydryszak et al. (2017)]. This protocol is tested on a 5-qubit superconducting quantum processor called ibmq-ourense provided by the IBM company. We determine the values of entanglement of the Schr\"odinger cat and the Werner states prepared on this device and compare them with the theoretical ones. In addition, a protocol for determining the entanglement of rank-2 mixed states is proposed. We apply this protocol to the mixed state which consists of two Bell states prepared on the ibmq-ourense quantum device.
翻訳日:2023-05-31 12:22:10 公開日:2020-05-31
# 任意の相関関数をもつ効率的な計算のための運動理論の階層方程式の一般化

Generalization of the hierarchical equations of motion theory for efficient calculations with arbitrary correlation functions ( http://arxiv.org/abs/2003.06134v3 )

ライセンス: Link先を確認
Tatsushi Ikeda and Gregory D. Scholes(参考訳) 階層的運動方程式(heom)理論は、調和環境に結合した開量子力学を厳密に記述する標準的な方法の1つである。 このようなモデルは超高速現象に現れる環境の非マルコフ的および非摂動的効果を捉えるために用いられる。 ヘム理論の正則な枠組みでは、環境相関関数は指数関数の線形結合に制限される。 本稿では,非指数相関関数の処理を含むHEOM理論の新たな定式化について述べる。 LibHEOM と PyHEOM という,我々のアプローチに基づいたシミュレーションを行うために開発したライブラリと Python バインディングが補足材料として提供される。

The hierarchical equations of motion (HEOM) theory is one of the standard methods to rigorously describe open quantum dynamics coupled to harmonic environments. Such a model is used to capture non-Markovian and non-perturbative effects of environments appearing in ultra-fast phenomena. In the regular framework of the HEOM theory, the environment correlation functions are restricted into linear combinations of exponential functions. In this article, we present a new formulation of the HEOM theory including treatments of non-exponential correlation functions, which enables us to describe general environmental effects more efficiently and stably than the original theory and other generalizations. The library and its Python binding we developed to perform simulations based on our approach, named LibHEOM and PyHEOM respectively, are provided as supplementary material.
翻訳日:2023-05-29 06:24:59 公開日:2020-05-31
# 平均スピンベクトルからのフォン・ノイマンエントロピー

Von Neumann Entropy from Mean Spin Vector ( http://arxiv.org/abs/2005.09647v2 )

ライセンス: Link先を確認
Ram Narayan Deb(参考訳) 2つの二層原子の一般的な純粋な絡み合った状態を示すため、部分的トレースのフォン・ノイマンエントロピーは、対の1つの原子の平均スピンベクトルの大きさから直接測定できる。 そのような系に対する部分的トレースのフォン・ノイマンエントロピーは、ペアの1つの原子の平均スピンベクトルの大きさの値を持つならば、2つの原子の量子状態の正確な形を知ることなく得られるという事実を強調した。 平均スピンベクトルは、集団分光法におけるスピンスクイーズと分光スクイーズという文脈で使用され、実験的に測定可能であり、そのような系の部分的トレースのフォン・ノイマンエントロピーの正確な測度を提供する。 この論文で開発されたアイデアは、2つの準位系の代数がスピン-$\frac{1}{2}$粒子の代数によって記述できるので、他の量子力学的2次系の文脈で使うことができる。

We show for a general pure entangled state of two two-level atoms, the von Neumann entropy of the partial traces can be directly measured from the magnitude of the mean spin vector of a single atom of the pair. We emphasize the fact that the von Neumann entropy of the partial traces for such a system can be obtained without knowing the exact form of the quantum state of the two atoms, if we have the value of the magnitude of the mean spin vector of a single atom of the pair. Mean spin vector, used in the context of spin squeezing and spectroscopic squeezing in population spectroscopy, is experimentally measurable and provides an exact measure of von Neumann entropy of the partial traces for such a system. The idea developed in this paper can be used in the context of other quantum mechanical two level systems as the algebra of two level systems can be described by that of spin- $\frac{1}{2}$ particles.
翻訳日:2023-05-19 08:04:38 公開日:2020-05-31
# 量子回路を用いたPT破壊非エルミタン系における例外点の観測

Observation of exceptional point in a PT broken non-Hermitian system simulated using a quantum circuit ( http://arxiv.org/abs/2005.13828v2 )

ライセンス: Link先を確認
Geng-Li Zhang, Di Liu, Xi-Ming Wang and Man-Hong Yung(参考訳) 非エルミート系の退化点である例外点 (EP) は, マイクロキャビティの感度を大幅に向上させる能力が実験的に実証されて以来, 注目されている。 エルミート系の通常の退化とは異なり、EPsでは、固有エネルギーと固有ベクトルが合体する。 EPのエキゾチックな性質や潜在的な応用のいくつかは研究されているが、研究範囲は実験能力によって大きく制限されている。 より高階のEPを持つようなシステムでは、従来のシミュレーションでは実現が困難である。 本稿では、広い範囲のepを研究できる量子回路上の非エルミート系をシミュレートするための拡張可能な手法を提案する。 このシステムは本質的にパリティタイム(pt)であり、非対称な制御効果とポスト選択によって破壊される。 サンプル回路を量子プログラミングフレームワークに実装し、EPにおける位相遷移を実証する。 量子回路のスケーラブルで柔軟な性質を考えると、我々のモデルは高次EPで大規模システムをシミュレートすることができる。 この研究は量子コンピュータの幅広い応用につながり、非エルミート系と関連するEPの研究のためのツールを提供するかもしれない。

Exceptional points (EPs), the degeneracy point of non-Hermitian systems, have recently attracted great attention after its ability to greatly enhance the sensitivity of micro-cavities is demonstrated experimentally. Unlike the usual degeneracies in Hermitian systems, at EPs, both the eigenenergies and eigenvectors coalesce. Although some of the exotic properties and potential applications of EPs are explored, the range of EPs studied is largely limited by the experimental capability. Some of the systems, e.g. with higher-order EPs, are hard to achieve with conventional simulations. Here we propose an extendable method to simulate non-Hermitian systems on the quantum circuits, where a wide range of EPs can be studied. The system is inherently parity-time (PT) broken due to the non-symmetric controlling effects and post-selection. A sample circuit is implemented in a quantum programming framework, and the phase transition at EP is demonstrated. Considering the scalable and flexible nature of quantum circuits, our model is capable of simulating large scale systems with higher-order EPs. We believe this work may lead to broader applications of quantum computers and provide a tool to the studies for non-Hermitian systems and the associated EPs.
翻訳日:2023-05-18 03:08:34 公開日:2020-05-31
# 適応型ポンプ変調による完全高次元ベル基底のコヒーレント生成

Coherent generation of the complete high-dimensional Bell basis by adaptive pump modulation ( http://arxiv.org/abs/2006.00445v1 )

ライセンス: Link先を確認
Yuanyuan Chen, Wuhong Zhang, Dongkai Zhang, Xiaodong Qiu and Lixiang Chen(参考訳) ベル基底は最大絡み合った双光子状態の集合であり、量子情報処理にとって重要な前提条件であり、多くの量子アプリケーションは高次元ベル基底の操作の要求を強調している。 ベル状態は独創的な単光子量子ゲートを用いて作成できるが、高次元でのその実装の複雑さは著しく増大する。 ここでは、適応ポンプ変調が任意の次元ヒルベルト空間におけるベル基底の効率的な準備を可能にすることを示すための精巧なアプローチを示す。 4次元軌道角運動量ベル状態の完全な集合が実験的に生成され、絡み合い次元を証明するための高い忠実度が得られる。 我々の戦略は単純に、他の物理的な自由度を利用しても、より複雑な量子状態を作るために一般化できる。 また、様々な量子プロトコル、特に量子密度符号化を必要とするものにおいて、高次元の絡み合いの使用を容易にすることができる。

The Bell basis, a set of maximally entangled biphoton state, is a critical prerequisite towards quantum information processing, and many quantum applications have highlighted the requirement for the manipulation of high-dimensional Bell basis. While the Bell states can be created by using ingenious single-photon quantum gates, its implementation complexity in higher dimensions is significantly increased. Here we present an elaborate approach to show that the adaptive pump modulation enable the efficient preparation of Bell basis in arbitrary-dimensional Hilbert space. A complete set of four-dimensional orbital angular momentum Bell states are experimentally created, yielding high fidelities for certifying the entanglement dimensionality. Our strategy can be simply generalized to prepare more complex forms of quantum states even exploiting other physical degrees of freedom. Also, it can facilitate the use of high-dimensional entanglement in a variety of quantum protocols, in particular those requiring quantum dense coding.
翻訳日:2023-05-17 20:43:23 公開日:2020-05-31
# 接触・近接追跡アプリ開発のための参加型デザイン

Participatory Design to build better contact- and proximity-tracing apps ( http://arxiv.org/abs/2006.00432v1 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Tania De Gasperis (1 and 3) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) OCAD University)(参考訳) パンデミックの広がりを管理する手段として、コンタクト・アンド・コネクティブ・トレーシング・ソリューションが推進される中、これらのソリューションを展開する市民と当局の間には不信感がある。 ソリューションの有効性は、これらのソリューションの開発方法に対する信頼の欠如と透明性のため、障壁にぶつかる最小の取り込みしきい値を満たすことに依存している。 我々は,信頼を喚起するメカニズムとして参加型設計を提案し,ユーザのニーズに合致するだけでなく,リスクの高いコミュニティにもリーチを広げる技術ソリューションを共同開発する上で,その適用可能性を検討する。 また、我々は、開発におけるバザーモデルの役割を強調し、ソリューションを評価し、実証的な証拠でこのアプローチの価値を政策立案者や他の利害関係者に納得させるための量的および質的な指標で補完する。

With the push for contact- and proximity-tracing solutions as a means to manage the spread of the pandemic, there is a distrust between the citizens and authorities that are deploying these solutions. The efficacy of the solutions relies on meeting a minimum uptake threshold which is hitting a barrier because of a lack of trust and transparency in how these solutions are being developed. We propose participatory design as a mechanism to evoke trust and explore how it might be applied to co-create technological solutions that not only meet the needs of the users better but also expand their reach to underserved and high-risk communities. We also highlight the role of the bazaar model of development and complement that with quantitative and qualitative metrics for evaluating the solutions and convincing policymakers and other stakeholders in the value of this approach with empirical evidence.
翻訳日:2023-05-17 20:42:56 公開日:2020-05-31
# クリックストリームデータを用いたブレンドコースにおける学生戦略の分析

Analyzing Student Strategies In Blended Courses Using Clickstream Data ( http://arxiv.org/abs/2006.00421v1 )

ライセンス: Link先を確認
Nil-Jana Akpinar, Aaditya Ramdas, Umut Acar(参考訳) 教育ソフトウェアデータは、学生の学習行動や成功の要因に関するユニークな洞察を約束する。 大規模なオープンオンラインコースのパフォーマンス予測に多くの作業が費やされてきたが、ブレンドコースに同じ方法が適用可能かどうかは不明であり、学生戦略のより深い理解が欠落していることが多い。 我々は,自然言語処理(nlp)から借用されたパターンマイニングとモデルを用いて,学生のインタラクションを理解し,ブレンドした大学コースから頻繁な戦略を抽出する。 細かなクリックストリームデータは、さまざまな機能にまたがる非商用教育支援システムであるdiderotを通じて収集される。 その結果,学生が準備している評価タイプによって相互作用パターンが大きく異なり,抽出した特徴の多くは信頼性の高い性能予測に利用できることがわかった。 提案するハイブリッドnlp手法は,データ粒度が十分であれば,ブレンドコースの低データ設定においても有用な知見が得られることが示唆された。

Educational software data promises unique insights into students' study behaviors and drivers of success. While much work has been dedicated to performance prediction in massive open online courses, it is unclear if the same methods can be applied to blended courses and a deeper understanding of student strategies is often missing. We use pattern mining and models borrowed from Natural Language Processing (NLP) to understand student interactions and extract frequent strategies from a blended college course. Fine-grained clickstream data is collected through Diderot, a non-commercial educational support system that spans a wide range of functionalities. We find that interaction patterns differ considerably based on the assessment type students are preparing for, and many of the extracted features can be used for reliable performance prediction. Our results suggest that the proposed hybrid NLP methods can provide valuable insights even in the low-data setting of blended courses given enough data granularity.
翻訳日:2023-05-17 20:42:19 公開日:2020-05-31
# 量子情報用超電導ナノワイヤ単光子検出器

Superconducting Nanowire Single-Photon Detectors for Quantum Information ( http://arxiv.org/abs/2006.00411v1 )

ライセンス: Link先を確認
Lixing You(参考訳) 超伝導ナノワイヤ単光子検出器(snspd)は、単一光子によるクーパーペアの破断効果に基づく量子リミットの超伝導光検出器であり、検出効率が高く、ダークカウントレートが低く、計数率が高く、また、その光子が示すものよりも低いタイミングジッタを示す。 SNSPDは量子鍵分布や光量子計算を含む量子情報処理に広く応用されている。 本稿では,量子情報からの単一光子検出器の要件と,その原理,鍵となる指標,最新の性能問題,SNSPDに関連するその他の課題について述べる。 量子情報に関するSNSPDの代表的な応用についても取り上げる。

The superconducting nanowire single-photon detector (SNSPD) is a quantum-limit superconducting optical detector based on the Cooper-pair breaking effect by a single photon, which exhibits a higher detection efficiency, lower dark count rate, higher counting rate, and lower timing jitter when compared with those exhibited by its counterparts. SNSPDs have been extensively applied in quantum information processing, including quantum key distribution and optical quantum computation. In this review, we present the requirements of single-photon detectors from quantum information, as well as the principle, key metrics, latest performance issues and other issues associated with SNSPD. The representative applications of SNSPDs with respect to quantum information will also be covered.
翻訳日:2023-05-17 20:41:55 公開日:2020-05-31
# シンプレクティック・フロケ空間における複素スペクトル解析における散逸動的カシミール効果

Dissipative dynamical Casimir effect in terms of the complex spectral analysis in the symplectic-Floquet space ( http://arxiv.org/abs/2006.00621v1 )

ライセンス: Link先を確認
Satoshi Tanaka, Kazuki Kanki(参考訳) 一次元フォトニック結晶と相互作用するオプトロメカニカルキャビティの動的カシミール効果を,シンプレクティック・フロケ空間におけるフロケ・リウヴィリアンの複素スペクトル解析の観点から理論的に検討した。 キャビティモードの量子真空変動は、ミラー境界の周期的な動きによってパラメトリック増幅され、増幅された光子がフォトニックバンドに自発的に放出される。 シンプレクティック・フロケット空間におけるbrillouin-wigner-feshbach射影法を用いて,全系liouvillianから非エルミート実効フロケ・リオヴィリアンを導出した。 キャビティからの光子放出の微視的散逸過程はエネルギー依存の自己エネルギーによって考慮されている。 固有モードが多モードボゴリューボフ変換によって表現される有効フロケ・リオビリアンの非線形複素固有値問題を非摂動的に解いて全システムの離散固有モードを得る。 微視的ダイナミクスに基づいて、非平衡定常固有モードは、パラメトリック増幅と散逸効果のバランスによって虚部が消滅する固有モードとして同定される。 キャビティモードとフォトニックバンドの混合が間接的な仮想遷移によって引き起こされる際には、非局所定常固有モードが出現し、有限帯域フォトニックバンドを用いることで、DCEの原因となる外部磁場周波数を大幅に低減できることがわかった。

Dynamical Casimir effect of the optomechanical cavity interacting with one-dimensional photonic crystal is theoretically investigated in terms of the complex spectral analysis of Floquet-Liouvillian in the symplectic-Floquet space. The quantum vacuum fluctuation of the intra-cavity mode is parametrically amplified by a periodic motion of the mirror boundary, and the amplified photons are spontaneously emitted to the photonic band. We have derived the non-Hermitian effective Floquet-Liouvillian from the total system Liouvillian with the use of the Brillouin-Wigner-Feshbach projection method in the symplectic-Floquet space. The microscopic dissipation process of the photon emission from the cavity has been taken into account by the energy-dependent self-energy. We have obtained the discrete eigenmodes of the total system by non-perturbatively solving the nonlinear complex eigenvalue problem of the effective Floquet-Liouvillian, where the eigenmodes are represented by the multimode Bogoliubov transformation. Based on the microscopic dynamics, the nonequilibrium stationary eigenmodes are identified as the eigenmodes with vanishing values of their imaginary parts due to the balance between the parametric amplification and dissipation effects. We have found that the nonlocal stationary eigenmode appears when the mixing between the cavity mode and the photonic band is caused by the indirect virtual transition, where the external field frequency to cause the DCE can be largely reduced by using the finite bandwidth photonic band.
翻訳日:2023-05-17 20:36:12 公開日:2020-05-31
# 解析的に解ける準1次元クロニグ・ペニー模型

Analytically solvable quasi-one-dimensional Kronig-Penney model ( http://arxiv.org/abs/2006.00580v1 )

ライセンス: Link先を確認
Marta Sroczy\'nska (1), Tomasz Wasak (1 and 2), Zbigniew Idziaszek (1) ((1) Faculty of Physics, University of Warsaw, Poland, (2) Max Planck Institute for the Physics of Complex Systems, Dresden, Germany)(参考訳) 本稿では,準一次元(quasi-1d)導波路で移動する量子粒子の現実的な条件として,教科書kronig-penneyモデルを一般化する。 導波路に沿って、粒子は正則化されたデルタポテンシャルの無限配列上に散乱する。 我々の出発点はリープマン・シュウィンガー方程式であり、準1Dグリーン関数の解析公式に基づいて、準1D幾何に対して正確に解ける。 標準クロニッヒ・ペニーモデルのように、バンド構造を形成する粒子準モーメントの関数としての固有エネルギーの性質について検討する。 準-1次元幾何学におけるイオンの無限鎖上の原子散乱の数値計算と比較し, 実験を行った。 この合意はかなり良好であり、正規化デルタポテンシャルにエネルギー依存散乱長を導入することでさらに改善することができる。 エネルギースペクトルは、横方向の励起によって生じる多重重なり帯の存在を示す。 大きな格子定数では、このモデルは準1次元散乱の1次元結合定数を持つ標準的なクロニッヒ-ペニー結果に還元され、閉じ込め共振を示す。 反対の極限では、格子定数が逆ポテンシャルの調和振動子長に匹敵するとき、散乱器間の量子干渉による準-1D結合定数の補正を計算する。 最後に、最小帯域の有効質量を計算し、大きな散乱長と正の散乱長に対して負になることを示す。

We generalize the textbook Kronig-Penney model to realistic conditions for a quantum-particle moving in the quasi-one-dimensional (quasi-1D) waveguide, where motion in the transverse direction is confined by a harmonic trapping potential. Along the waveguide, the particle scatters on an infinite array of regularized delta potentials. Our starting point is the Lippmann-Schwinger equation, which for quasi-1D geometry can be solved exactly, based on the analytical formula for the quasi-1D Green's function. We study the properties of eigen-energies as a function of particle quasi-momentum, which form band structure, as in standard Kronig-Penney model. We test our model by comparing it to the numerical calculations for an atom scattering on an infinite chain of ions in quasi-1D geometry. The agreement is fairly good and can be further improved by introducing energy-dependent scattering length in the regularized delta potential. The energy spectrum exhibits the presence of multiple overlapping bands resulting from excitations in the transverse direction. At large lattice constants, our model reduces to standard Kronig-Penney result with one-dimensional coupling constant for quasi-1D scattering, exhibiting confinement-induced resonances. In the opposite limit, when lattice constant becomes comparable to harmonic oscillator length of the transverse potential, we calculate the correction to the quasi-1D coupling constant due to the quantum interference between scatterers. Finally, we calculate the effective mass for the lowest band and show that it becomes negative for large and positive scattering lengths.
翻訳日:2023-05-17 20:35:21 公開日:2020-05-31
# フィッシングとスピアフィッシング:サイバースパイ活動の例とそれらに対する保護技術

Phishing and Spear Phishing: examples in Cyber Espionage and techniques to protect against them ( http://arxiv.org/abs/2006.00577v1 )

ライセンス: Link先を確認
Alessandro Ecclesie Agazzi(参考訳) フィッシング攻撃は、2012年以降、サイバー攻撃の91%以上を開始するオンライン詐欺で最も使われているテクニックとなっている。 本研究は,フィッシング攻撃とスピアフィッシング攻撃を5段階に分けて実施し,その結果を拡大し,成功の可能性を高める方法について検討する。 また、これらのソーシャルエンジニアリング攻撃に対する4つの異なる保護層に焦点が当てられ、その強みと弱点を示している。 3つ目は潜在的な脅威に対処するためのユーザの知識と専門知識です。 最後のレイヤは"外部"として定義され、セキュリティを強化する効果的な方法である多要素認証を持つことの重要性が強調され、フィッシングやスピアフィッシングに対するさらなる保護層が形成される。

Phishing attacks have become the most used technique in the online scams, initiating more than 91% of cyberattacks, from 2012 onwards. This study reviews how Phishing and Spear Phishing attacks are carried out by the phishers, through 5 steps which magnify the outcome, increasing the chance of success. The focus will be also given on four different layers of protection against these social engineering attacks, showing their strengths and weaknesses; the first and second layers consist of automated tools and decision-aid tools. the third one is users' knowledge and expertise to deal with potential threats. The last layer, defined as "external", will underline the importance of having a Multi-factor authentication, an effective way to provide an enhanced security, creating a further layer of protection against Phishing and Spear Phishing.
翻訳日:2023-05-17 20:34:56 公開日:2020-05-31
# 新型コロナウイルス(covid-19)の接触追跡携帯電話アプリケーションにおける情報セキュリティの側面

A review of information security aspects of the emerging COVID-19 contact tracing mobile phone applications ( http://arxiv.org/abs/2006.00529v1 )

ライセンス: Link先を確認
Georgios Magklaras, Lucia Nikolaia Lopez Bojorquez(参考訳) 本稿では、新型コロナウイルスのパンデミックに対する携帯電話ベースのコンタクトトレースの新たな実践における、データの信頼性とユーザプライバシの側面について論じる。 さまざまな国や大手テクノロジー企業は、携帯電話ベースのソリューションの設計や利用をすでに計画しており、この病気に感染した可能性のある人々を迅速かつ特定し、一般市民への普及を制限している。 しかし、収集データの有効性と、実装されたアプローチが携帯電話ユーザーのプライバシーを侵害する可能性の両方に関して深刻な懸念が持ち上がっている。 このレビューは、既存の実装の弱点を調査し、この種の情報を収集し処理するインフラの安全性向上と、これらのソリューションを一般から採用し、受け入れる上で貢献できる具体的な推奨をまとめている。

This paper discusses the aspects of data reliability and user privacy for the emerging practice of mobile phone based contact tracing for the COVID-19 pandemic. Various countries and large technology companies have already used or plan to design and use mobile phone based solutions, in an effort to urgently expedite the process of identifying people who may have been exposed to the disease and limit its spread to the general population. However, serious concerns have been raised both in terms of the validity of the collected data as well as the extent to which implemented approaches can breach the privacy of the mobile phone users. This review examines the weaknesses of existing implementations and concludes with specific recommendations that can contribute towards increasing the safety of infrastructures that collect and process this kind of information, as well as the adoption and acceptance of these solutions from the public.
翻訳日:2023-05-17 20:33:34 公開日:2020-05-31
# 連続可変支援熱量子シミュレーション

Continuous-variable assisted thermal quantum simulation ( http://arxiv.org/abs/2006.00471v1 )

ライセンス: Link先を確認
Dan-Bo Zhang, Guo-Qing Zhang, Zheng-Yuan Xue, Shi-Liang Zhu, Z. D. Wang(参考訳) 有限温度での量子多体系のシミュレーションは極めて重要であるが、非常に難しい。 ここでは、有限温度での量子システムをシミュレーションするための連続変数を用いた実験可能な量子アルゴリズムを提案する。 本アルゴリズムは,逆温度と所望の精度で多項式的にスケーリングする時間複雑性を有する。 我々は、キタエフ模型の有限温度位相図をシミュレートして量子アルゴリズムを実証する。 北エフ環の重要な交叉位相図は、数量子ビットしか持たない量子コンピュータで正確にシミュレートできるので、アルゴリズムは現在の量子プロセッサで容易に実装できる。 さらに,超伝導あるいは捕捉イオン量子コンピュータで実装可能なプロトコルを提案する。

Simulation of a quantum many-body system at finite temperatures is crucially important but quite challenging. Here we present an experimentally feasible quantum algorithm assisted with continuous-variable for simulating quantum systems at finite temperatures. Our algorithm has a time complexity scaling polynomially with the inverse temperature and the desired accuracy. We demonstrate the quantum algorithm by simulating finite temperature phase diagram of the Kitaev model. It is found that the important crossover phase diagram of the Kitaev ring can be accurately simulated by a quantum computer with only a few qubits and thus the algorithm may be readily implemented on current quantum processors. We further propose a protocol implementable with superconducting or trapped ion quantum computers.
翻訳日:2023-05-17 20:33:08 公開日:2020-05-31
# オープンセットからクローズドセットへ:オブジェクトカウントのための空間分割とコンバータ

From Open Set to Closed Set: Supervised Spatial Divide-and-Conquer for Object Counting ( http://arxiv.org/abs/2001.01886v2 )

ライセンス: Link先を確認
Haipeng Xiong, Hao Lu, Chengxin Liu, Liang Liu, Chunhua Shen, Zhiguo Cao(参考訳) 画像やビデオからオブジェクトの数を推定するタスクであるビジュアルカウントは、本質的にはオープンセットの問題であり、理論上は[0, inf]で個体数が異なる。 しかし、収集されたデータやラベル付きインスタンスは実際には限られており、小さな閉じた集合のみが観察される。 既存の手法では、通常、このタスクを回帰的にモデル化するが、閉じた集合の範囲から数え切れないシーンに苦しむ傾向がある。 実際、カウントには興味深い、排他的な性質があります。 より密な領域は、前述した閉集合内にある部分領域数まで、常に分割することができる。 そこで我々は,開集合数え上げを閉集合問題に変換する空間分割対数(S-DC)の概念を導入する。 このアイデアは、SS-DCNet(Supervised Spatial Divide-and-Conquer Network)によって実現されている。 したがって、SS-DCNetはクローズドセットからしか学べないが、S-DCを介してオープンセットシナリオにうまく一般化できる。 SS-DCNetも効率的である。 サブリージョンの畳み込み特性の繰り返し計算を避けるため、S-DCは入力画像ではなく特徴マップ上で実行される。 おもちゃのデータに対する制御実験と同様に理論解析を行い、なぜクローズドセットモデリングが意味を持つのかを実証する。 SS-DCNetは最先端の性能を実現する。 コードとモデルはhttps://tinyurl.com/ss-dcnet。

Visual counting, a task that aims to estimate the number of objects from an image/video, is an open-set problem by nature, i.e., the number of population can vary in [0, inf) in theory. However, collected data and labeled instances are limited in reality, which means that only a small closed set is observed. Existing methods typically model this task in a regression manner, while they are prone to suffer from an unseen scene with counts out of the scope of the closed set. In fact, counting has an interesting and exclusive property---spatially decomposable. A dense region can always be divided until sub-region counts are within the previously observed closed set. We therefore introduce the idea of spatial divide-and-conquer (S-DC) that transforms open-set counting into a closed-set problem. This idea is implemented by a novel Supervised Spatial Divide-and-Conquer Network (SS-DCNet). Thus, SS-DCNet can only learn from a closed set but generalize well to open-set scenarios via S-DC. SS-DCNet is also efficient. To avoid repeatedly computing sub-region convolutional features, S-DC is executed on the feature map instead of on the input image. We provide theoretical analyses as well as a controlled experiment on toy data, demonstrating why closed-set modeling makes sense. Extensive experiments show that SS-DCNet achieves the state-of-the-art performance. Code and models are available at: https://tinyurl.com/SS-DCNet.
翻訳日:2023-01-13 20:42:31 公開日:2020-05-31
# キリンは鳥になれるか? データ生成のための画像間変換の評価

Can Giraffes Become Birds? An Evaluation of Image-to-image Translation for Data Generation ( http://arxiv.org/abs/2001.03637v2 )

ライセンス: Link先を確認
Daniel V. Ruiz, Gabriel Salomon, Eduardo Todt(参考訳) 衛星画像からの地図生成から輪郭のみから服全体の画像の作成まで、画像から画像への翻訳への関心が高まっている。 本研究では,新たなデータを生成するためのgan(generative adversarial network)を用いた画像から画像への翻訳について検討する。 キリンを鳥に変身させるのは難しい作業であり、様々な大きさ、質感、形態を持っている。 InstaGANという名前の教師なしクロスドメイン翻訳者は、両方のドメイン間の翻訳を学ぶために、キリンと鳥とそれぞれのマスクで訓練された。 もともとの空間配置と背景を保存しつつ、キリン画像からの翻訳を用いて合成鳥画像のデータセットを生成した。 生成した鳥類は存在せず、InstaGANが学習した潜伏表現の結果に過ぎないことを強調することが重要である。 共通文献データセットの2つのサブセットは、GANのトレーニングと、COCOとCaltech-UCSD Birds 200-2011の翻訳画像の生成に使用された。 生成した画像とマスクの現実性と品質を評価するため,質的,定量的な分析を行った。 定量的解析のために,Pascal VOC,Caltech-UCSD Birds 200-2011,およびFakeSetという新たなデータセット上で,事前学習したMask R-CNNを用いて鳥の検出とセグメンテーションを行った。 生成されたデータセットは、実際のデータセットに近い検出とセグメンテーションの結果を達成し、生成されたイメージは最先端のディープニューラルネットワークによって検出およびセグメンテーションされるのに十分なほどリアルであることを示唆している。

There is an increasing interest in image-to-image translation with applications ranging from generating maps from satellite images to creating entire clothes' images from only contours. In the present work, we investigate image-to-image translation using Generative Adversarial Networks (GANs) for generating new data, taking as a case study the morphing of giraffes images into bird images. Morphing a giraffe into a bird is a challenging task, as they have different scales, textures, and morphology. An unsupervised cross-domain translator entitled InstaGAN was trained on giraffes and birds, along with their respective masks, to learn translation between both domains. A dataset of synthetic bird images was generated using translation from originally giraffe images while preserving the original spatial arrangement and background. It is important to stress that the generated birds do not exist, being only the result of a latent representation learned by InstaGAN. Two subsets of common literature datasets were used for training the GAN and generating the translated images: COCO and Caltech-UCSD Birds 200-2011. To evaluate the realness and quality of the generated images and masks, qualitative and quantitative analyses were made. For the quantitative analysis, a pre-trained Mask R-CNN was used for the detection and segmentation of birds on Pascal VOC, Caltech-UCSD Birds 200-2011, and our new dataset entitled FakeSet. The generated dataset achieved detection and segmentation results close to the real datasets, suggesting that the generated images are realistic enough to be detected and segmented by a state-of-the-art deep neural network.
翻訳日:2023-01-12 23:12:47 公開日:2020-05-31
# 変分ハイブリッドアルゴリズムに最適化された量子古典クラウドプラットフォーム

A quantum-classical cloud platform optimized for variational hybrid algorithms ( http://arxiv.org/abs/2001.04449v3 )

ライセンス: Link先を確認
Peter J. Karalekas, Nikolas A. Tezak, Eric C. Peterson, Colm A. Ryan, Marcus P. da Silva, and Robert S. Smith(参考訳) 量子コンピューティングの短期的応用をサポートするために、量子コンピュータ(qpus)が共有クラウドインフラストラクチャを介して古典的コンピュータ(cpu)と協調して動作する量子古典的クラウド-インという新しい計算パラダイムが登場した。 本研究では,量子古典的クラウドプラットフォームのアーキテクチャ要件を列挙し,実行時のパフォーマンスをベンチマークするフレームワークを提案する。 さらに、パラメトリックコンパイルとアクティブ量子ビットリセットという2つのプラットフォームレベルの拡張について検討し、短期量子ハードウェアの最も有望な応用である変分ハイブリッドアルゴリズム(VHA)をサポートするために量子古典的アーキテクチャを特に最適化する。 最後に,これら2つの機能を rigetti quantum cloud services (qcs) プラットフォームに統合することで,アルゴリズムランタイムを統制するレイテンシを大幅に改善できることを示す。

In order to support near-term applications of quantum computing, a new compute paradigm has emerged--the quantum-classical cloud--in which quantum computers (QPUs) work in tandem with classical computers (CPUs) via a shared cloud infrastructure. In this work, we enumerate the architectural requirements of a quantum-classical cloud platform, and present a framework for benchmarking its runtime performance. In addition, we walk through two platform-level enhancements, parametric compilation and active qubit reset, that specifically optimize a quantum-classical architecture to support variational hybrid algorithms (VHAs), the most promising applications of near-term quantum hardware. Finally, we show that integrating these two features into the Rigetti Quantum Cloud Services (QCS) platform results in considerable improvements to the latencies that govern algorithm runtime.
翻訳日:2023-01-12 00:10:08 公開日:2020-05-31
# 注意! 軽量2次元手のポーズ推定手法

Attention! A Lightweight 2D Hand Pose Estimation Approach ( http://arxiv.org/abs/2001.08047v2 )

ライセンス: Link先を確認
Nicholas Santavas, Ioannis Kansizoglou, Loukas Bampis, Evangelos Karakasis and Antonios Gasteratos(参考訳) 視覚に基づく人間のポーズ推定は、ヒューマン・コンピュータ・インタラクション(HCI)の非侵襲的技術である。 入力装置としての直接的な手の使用は、外骨格、手袋、カメラなどの特殊なセンシング機器を必要とせず、魅力的な相互作用手段を提供する。 伝統的に、HCIは製造業、手術、エンターテイメント産業、建築など様々な分野で応用されている。 視覚に基づく人間のポーズ推定アルゴリズムの展開は、これらのアプリケーションに革新をもたらす可能性がある。 本稿では,新たな畳み込みニューラルネットワークアーキテクチャを提案する。その軽量な性質とパラメータがわずか1.9万であるため,組み込みシステムにデプロイ可能なセルフアテンションモジュールで強化されたものだ。 ソースコードと質的な結果が公開されている。

Vision based human pose estimation is an non-invasive technology for Human-Computer Interaction (HCI). Direct use of the hand as an input device provides an attractive interaction method, with no need for specialized sensing equipment, such as exoskeletons, gloves etc, but a camera. Traditionally, HCI is employed in various applications spreading in areas including manufacturing, surgery, entertainment industry and architecture, to mention a few. Deployment of vision based human pose estimation algorithms can give a breath of innovation to these applications. In this letter, we present a novel Convolutional Neural Network architecture, reinforced with a Self-Attention module that it can be deployed on an embedded system, due to its lightweight nature, with just 1.9 Million parameters. The source code and qualitative results are publicly available.
翻訳日:2023-01-07 18:33:01 公開日:2020-05-31
# バックプロパゲーションを用いた非線形RFシステムの同定

Identification of Non-Linear RF Systems Using Backpropagation ( http://arxiv.org/abs/2001.09877v3 )

ライセンス: Link先を確認
Andreas Toftegaard Kristensen, Andreas Burg, and Alexios Balatsoukas-Stimming(参考訳) 本研究では,非線形RFシステムをモデルベースニューラルネットワークとして見るために,深層展開を用いる。 このビューは、幅広いニューラルネットワークツールとオプティマイザを直接使用して、そのようなカスケードモデルの効率的な識別を可能にする。 本手法の有効性を,IQ不均衡モデルと非線形PAモデルとを連続的に適用した全二重通信におけるディジタル自己干渉キャンセルの例を用いて示す。 約44.5dbの自己干渉キャンセル性能において、拡張線形パラメータ多項式モデルと比較して、モデルパラメータの数を74%減らし、サンプル当たりの演算数を79%減らすことができる。

In this work, we use deep unfolding to view cascaded non-linear RF systems as model-based neural networks. This view enables the direct use of a wide range of neural network tools and optimizers to efficiently identify such cascaded models. We demonstrate the effectiveness of this approach through the example of digital self-interference cancellation in full-duplex communications where an IQ imbalance model and a non-linear PA model are cascaded in series. For a self-interference cancellation performance of approximately 44.5 dB, the number of model parameters can be reduced by 74% and the number of operations per sample can be reduced by 79% compared to an expanded linear-in-parameters polynomial model.
翻訳日:2023-01-06 08:34:11 公開日:2020-05-31
# トップnレコメンダシステムに対する影響関数型データ中毒攻撃

Influence Function based Data Poisoning Attacks to Top-N Recommender Systems ( http://arxiv.org/abs/2002.08025v3 )

ライセンス: Link先を確認
Minghong Fang, Neil Zhenqiang Gong, Jia Liu(参考訳) Recommender システムはユーザをエンゲージする Web サービスの不可欠なコンポーネントである。 人気のあるレコメンデータシステムは、大量のクラウドソースされたユーザ-イテムインタラクションデータ(例えば、評価スコア)を使用して、ユーザの好みやアイテムプロパティをモデル化し、その後、ユーザの好みとベストにマッチするアイテムのトップ$N$をユーザに推奨する。 本研究では,攻撃者が慎重にユーザとイテムのインタラクションデータに偽ユーザを注入することで,レコメンデーションを行うために,レコメンデーションシステムにデータ中毒攻撃を起動できることを示す。 具体的には、攻撃者はリコメンダシステムを騙して、ターゲットアイテムをできるだけ多くの通常のユーザに推奨することができる。 我々は、行列分解に基づくレコメンデーションシステムに焦点を当てている。 攻撃者が注入できる偽ユーザ数を考慮し、最適化問題として、偽ユーザに対する評価スコアの作成を定式化する。 しかし、この最適化問題は、非凸整数プログラミング問題であるため、解決が難しい。 この課題に対処するために,最適化問題を概ね解決するためのいくつかの手法を開発した。 例えば、インフルエンス関数を利用して、レコメンデーションに影響を及ぼす正規ユーザのサブセットを選択し、これらの影響力のあるユーザに基づいて、定式化された最適化問題を解決する。 その結果,攻撃は効果的であり,既存手法よりも優れていた。

Recommender system is an essential component of web services to engage users. Popular recommender systems model user preferences and item properties using a large amount of crowdsourced user-item interaction data, e.g., rating scores; then top-$N$ items that match the best with a user's preference are recommended to the user. In this work, we show that an attacker can launch a data poisoning attack to a recommender system to make recommendations as the attacker desires via injecting fake users with carefully crafted user-item interaction data. Specifically, an attacker can trick a recommender system to recommend a target item to as many normal users as possible. We focus on matrix factorization based recommender systems because they have been widely deployed in industry. Given the number of fake users the attacker can inject, we formulate the crafting of rating scores for the fake users as an optimization problem. However, this optimization problem is challenging to solve as it is a non-convex integer programming problem. To address the challenge, we develop several techniques to approximately solve the optimization problem. For instance, we leverage influence function to select a subset of normal users who are influential to the recommendations and solve our formulated optimization problem based on these influential users. Our results show that our attacks are effective and outperform existing methods.
翻訳日:2022-12-30 13:35:25 公開日:2020-05-31
# xベクトル埋め込みを用いた病的音声検出

Pathological speech detection using x-vector embeddings ( http://arxiv.org/abs/2003.00864v3 )

ライセンス: Link先を確認
Catarina Botelho, Francisco Teixeira, Thomas Rolland, Alberto Abad, Isabel Trancoso(参考訳) 話者の健康を評価する非侵襲的バイオマーカーとしての音声の可能性は、身体的および心理的条件の両方において、複数の研究の結果によって繰り返し支持されている。 従来の言語ベースの疾患分類システムは、注意深く設計された知識に基づく特徴に注目してきた。 しかし、これらの特徴は疾患の全症状を表わさない可能性があり、より微妙な症状を見逃す可能性さえある。 これにより研究者は、ガウスのスーパーベクター、i-ベクター、x-ベクターなどの症状を本質的にモデル化する一般的な話者表現の方向に進むようになった。 本研究は,パーキンソン病(PD)および閉塞型睡眠時無呼吸症(OSA)の検出における一般特徴抽出法としての有用性を評価することを目的とした。 我々は、知識に基づく特徴とi-vectorに対するアプローチを検証し、OSAとPDのための2つのポルトガルのコーパスと、PDのためのスペイン語コーパスの報告を行った。 x-vectorとi-vectorの両方のモデルは、ドメイン外のヨーロッパ・ポルトガル・コーパスで訓練された。 その結果,x-vectorsは同言語コーパスの知識に基づく機能よりも優れた性能を示すことができた。 さらに, 整合条件下では, xベクターがiベクターと類似する性能を示したが, ドメインミスマッチが生じた場合には, 著しく優れていた。

The potential of speech as a non-invasive biomarker to assess a speaker's health has been repeatedly supported by the results of multiple works, for both physical and psychological conditions. Traditional systems for speech-based disease classification have focused on carefully designed knowledge-based features. However, these features may not represent the disease's full symptomatology, and may even overlook its more subtle manifestations. This has prompted researchers to move in the direction of general speaker representations that inherently model symptoms, such as Gaussian Supervectors, i-vectors and, x-vectors. In this work, we focus on the latter, to assess their applicability as a general feature extraction method to the detection of Parkinson's disease (PD) and obstructive sleep apnea (OSA). We test our approach against knowledge-based features and i-vectors, and report results for two European Portuguese corpora, for OSA and PD, as well as for an additional Spanish corpus for PD. Both x-vector and i-vector models were trained with an out-of-domain European Portuguese corpus. Our results show that x-vectors are able to perform better than knowledge-based features in same-language corpora. Moreover, while x-vectors performed similarly to i-vectors in matched conditions, they significantly outperform them when domain-mismatch occurs.
翻訳日:2022-12-27 05:42:30 公開日:2020-05-31
# ap-mtl : ロボット支援手術におけるリアルタイム計測とセグメント化のためのマルチタスク学習モデル

AP-MTL: Attention Pruned Multi-task Learning Model for Real-time Instrument Detection and Segmentation in Robot-assisted Surgery ( http://arxiv.org/abs/2003.04769v2 )

ライセンス: Link先を確認
Mobarakol Islam, Vibashan VS, Hongliang Ren(参考訳) 画像誘導ロボット手術において,手術シーン理解とマルチタスク学習が重要である。 高分解能画像の検出とセグメンテーションのためのリアルタイムロボットシステムのトレーニングは、限られた計算資源で難しい問題をもたらす。 得られた知覚は、実時間フィードバック、手術スキルアセスメント、人間とロボットの協調手術に応用でき、手術の成果を高めることができる。 そこで本研究では,重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習(MTL)モデルを開発した。 同じ収束点における複数のタスクの最適化は不可欠であり、複雑な問題を示す。 そこで我々は,タスク指向の勾配を計算し,デコーダを独立に訓練する非同期タスクアウェア最適化(ato)手法を提案する。 さらに、mtlモデルは常に計算コストが高く、リアルタイムアプリケーションを妨げる。 この課題に対処するために、より重要でスパースなパラメータを除去し、グローバルアテンション・ダイナミック・プルーニング(GADP)を導入する。 さらに、弱い特徴を抑え、重要な特徴を励起し、動的空間的・チャネル的特徴再校正を行うスキップ・スクリップ・エキサイクレーション(SE)モジュールを設計する。 MICCAI内視鏡視課題のロボット機器セグメンテーションデータセットを検証した結果、我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れている。

Surgical scene understanding and multi-tasking learning are crucial for image-guided robotic surgery. Training a real-time robotic system for the detection and segmentation of high-resolution images provides a challenging problem with the limited computational resource. The perception drawn can be applied in effective real-time feedback, surgical skill assessment, and human-robot collaborative surgeries to enhance surgical outcomes. For this purpose, we develop a novel end-to-end trainable real-time Multi-Task Learning (MTL) model with weight-shared encoder and task-aware detection and segmentation decoders. Optimization of multiple tasks at the same convergence point is vital and presents a complex problem. Thus, we propose an asynchronous task-aware optimization (ATO) technique to calculate task-oriented gradients and train the decoders independently. Moreover, MTL models are always computationally expensive, which hinder real-time applications. To address this challenge, we introduce a global attention dynamic pruning (GADP) by removing less significant and sparse parameters. We further design a skip squeeze and excitation (SE) module, which suppresses weak features, excites significant features and performs dynamic spatial and channel-wise feature re-calibration. Validating on the robotic instrument segmentation dataset of MICCAI endoscopic vision challenge, our model significantly outperforms state-of-the-art segmentation and detection models, including best-performed models in the challenge.
翻訳日:2022-12-24 21:38:59 公開日:2020-05-31
# 対話行為分類のための話者認識CRF

Speaker-change Aware CRF for Dialogue Act Classification ( http://arxiv.org/abs/2004.02913v2 )

ライセンス: Link先を確認
Guokan Shang (1 and 2), Antoine Jean-Pierre Tixier (1), Michalis Vazirgiannis (1 and 3), Jean-Pierre Lorr\'e (2) ((1) \'Ecole Polytechnique, (2) Linagora, (3) AUEB)(参考訳) ダイアログ法(DA)分類における最近の研究は、条件付きランダムフィールド(CRF)と結合したニューラルネットワークモデルを用いて、シーケンスラベリング問題としてタスクにアプローチしている。 CRFは、入力発話シーケンスが与えられたターゲットDAラベルシーケンスの条件確率をモデル化する。 しかし、このタスクには別の重要な入力シーケンス、すなわち以前の作業では無視される話者のシーケンスが含まれる。 この制限に対処するため,本論文では,話者変化を考慮したCRF層の簡易な修正を提案する。 SwDAコーパスの実験では、修正されたCRF層が元のものよりも優れており、一部のDAラベルには非常に広いマージンがある。 さらに,crf層は,話者変化を条件としたdaラベルペア間の有意義で洗練された遷移パターンをエンドツーエンドで学習できることを示す。 コードは公開されている。

Recent work in Dialogue Act (DA) classification approaches the task as a sequence labeling problem, using neural network models coupled with a Conditional Random Field (CRF) as the last layer. CRF models the conditional probability of the target DA label sequence given the input utterance sequence. However, the task involves another important input sequence, that of speakers, which is ignored by previous work. To address this limitation, this paper proposes a simple modification of the CRF layer that takes speaker-change into account. Experiments on the SwDA corpus show that our modified CRF layer outperforms the original one, with very wide margins for some DA labels. Further, visualizations demonstrate that our CRF layer can learn meaningful, sophisticated transition patterns between DA label pairs conditioned on speaker-change in an end-to-end way. Code is publicly available.
翻訳日:2022-12-16 05:35:46 公開日:2020-05-31
# 7T拡散MRIを用いた半監督深部文脈認識学習による深部小脳核分割

Deep Cerebellar Nuclei Segmentation via Semi-Supervised Deep Context-Aware Learning from 7T Diffusion MRI ( http://arxiv.org/abs/2004.09788v3 )

ライセンス: Link先を確認
Jinyoung Kim, Remi Patriat, Jordan Kaplan, Oren Solomon, Noam Harel(参考訳) 深部小脳核は小脳の重要な構造であり、運動や感覚情報の処理に関与している。 そのため、深部小脳核を正確に分断し、小脳系の理解と深部脳刺激治療におけるその有用性を解明する重要なステップである。 しかし, 標準磁気共鳴イメージング(MRI)プロトコル下では, このような小さな核をはっきりと可視化することは困難であり, 正確なセグメンテーションは不可能である。 7 Tesla (T) MRI技術の最近の進歩とディープニューラルネットワークの可能性は、自動的に患者固有のセグメンテーションを促進する。 本稿では,7t拡散mri上での深部小脳象牙質と介在核の高速・高精度・ロバストな患者特異的セグメンテーションのための深部学習フレームワーク(dcn-net)を提案する。 DCN-Netは、連続的なプーリング操作をせずにパッチイメージのコンテキスト情報を効果的にエンコードし、拡張された高密度ブロックによって複雑さを追加する。 エンド・ツー・エンドのトレーニングでは、歯状核と介在核のラベル確率は、高度に不均衡なデータを扱うハイブリッド損失によって独立に学習される。 最後に,ラベル付きデータの制限問題に対処するために,自己学習戦略を用いる。 この目的のために、手動ラベルで訓練されたDCN-Netを用いて、ラベルなしデータ上に補助歯状および介在核ラベルを作成する。 提案フレームワークは,60名から7t b0 mriを用いて検証した。 実験の結果、dcn-netはatlasベースの深部小脳核セグメンテーションツールや他の最先端ディープニューラルネットワークよりも精度と一貫性において優れたセグメンテーションを提供することがわかった。 本研究は, デンタル酸およびインターフェクト核セグメンテーションにおけるDCN-Net内の提案成分の有効性を更に証明する。

Deep cerebellar nuclei are a key structure of the cerebellum that are involved in processing motor and sensory information. It is thus a crucial step to accurately segment deep cerebellar nuclei for the understanding of the cerebellum system and its utility in deep brain stimulation treatment. However, it is challenging to clearly visualize such small nuclei under standard clinical magnetic resonance imaging (MRI) protocols and therefore precise segmentation is not feasible. Recent advances in 7 Tesla (T) MRI technology and great potential of deep neural networks facilitate automatic patient-specific segmentation. In this paper, we propose a novel deep learning framework (referred to as DCN-Net) for fast, accurate, and robust patient-specific segmentation of deep cerebellar dentate and interposed nuclei on 7T diffusion MRI. DCN-Net effectively encodes contextual information on the patch images without consecutive pooling operations and adding complexity via proposed dilated dense blocks. During the end-to-end training, label probabilities of dentate and interposed nuclei are independently learned with a hybrid loss, handling highly imbalanced data. Finally, we utilize self-training strategies to cope with the problem of limited labeled data. To this end, auxiliary dentate and interposed nuclei labels are created on unlabeled data by using DCN-Net trained on manual labels. We validate the proposed framework using 7T B0 MRIs from 60 subjects. Experimental results demonstrate that DCN-Net provides better segmentation than atlas-based deep cerebellar nuclei segmentation tools and other state-of-the-art deep neural networks in terms of accuracy and consistency. We further prove the effectiveness of the proposed components within DCN-Net in dentate and interposed nuclei segmentation.
翻訳日:2022-12-11 05:45:16 公開日:2020-05-31
# ArchNet:分散機械学習システムにおけるデータ共有モデル

ArchNet: Data Hiding Model in Distributed Machine Learning System ( http://arxiv.org/abs/2004.10968v2 )

ライセンス: Link先を確認
Kaiyan Chang, Wei Jiang, Jinyu Zhan, Zicheng Gong, Weijia Pan(参考訳) idle組み込みデバイスをクラウドコンピューティングに統合することは、分散機械学習をサポートする有望なアプローチである。 本稿では,このような分散機械学習システムにおけるデータ隠蔽問題に対処する。 分散機械学習システムにおけるデータ暗号化の目的のために,三項非対称暗号定理を提案し,数学的証明を与える。 本手法は,MNIST,Fashion-MNIST,Cifar-10データセット上に実装され,実際の状況をシミュレートする。 暗号化データセット上で異なるベースモデルを使用して、結果をRC4アルゴリズムと差分プライバシーポリシーと比較する。 提案した設計の効率性を評価する実験結果を得た。 具体的には、mistの精度をrc4と比較して97.26%向上させることができる。archnetが暗号化したデータセットの精度は97.26%、84.15%、79.80%であり、元のデータセットでは97.31%、82.31%、80.22%である。 ArchNetは組み込みデバイスで分散システムにデプロイ可能であることも示している。

Integrating idle embedded devices into cloud computing is a promising approach to support distributed machine learning. In this paper, we approach to address the data hiding problem in such distributed machine learning systems. For the purpose of the data encryption in the distributed machine learning systems, we propose the Tripartite Asymmetric Encryption theorem and give mathematical proof. Based on the theorem, we design a general image encryption scheme ArchNet.The scheme has been implemented on MNIST, Fashion-MNIST and Cifar-10 datasets to simulate real situation. We use different base models on the encrypted datasets and compare the results with the RC4 algorithm and differential privacy policy. Experiment results evaluated the efficiency of the proposed design. Specifically, our design can improve the accuracy on MNIST up to 97.26% compared with RC4.The accuracies on the datasets encrypted by ArchNet are 97.26%, 84.15% and 79.80%, and they are 97.31%, 82.31% and 80.22% on the original datasets, which shows that the encrypted accuracy of ArchNet has the same performance as the base model. It also shows that ArchNet can be deployed on the distributed system with embedded devices.
翻訳日:2022-12-10 12:40:10 公開日:2020-05-31
# 変圧器の注意の流れの定量化

Quantifying Attention Flow in Transformers ( http://arxiv.org/abs/2005.00928v2 )

ライセンス: Link先を確認
Samira Abnar and Willem Zuidema(参考訳) Transformerモデルでは、"self-attention"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。 したがって、トランスフォーマーの層にまたがって、異なるトークンに由来する情報がますます混ざり合うようになる。 これにより、注意重みは説明プローブとして信頼できない。 本稿では,この情報の流れを自己確認によって定量化する問題を考える。 入力トークンの相対的関連性として注意重みを用いる場合,注意重み,注意ロールアウト,注意フローをポストホック法として,入力トークンに対する注意を近似する2つの手法を提案する。 これらの手法は,情報の流れを相補的に把握し,生の注意と比較して,いずれもアブレーション法と入力勾配を用いて得られた入力トークンの重要性スコアと高い相関性をもたらすことを示す。

In the Transformer model, "self-attention" combines information from attended embeddings into the representation of the focal embedding in the next layer. Thus, across layers of the Transformer, information originating from different tokens gets increasingly mixed. This makes attention weights unreliable as explanations probes. In this paper, we consider the problem of quantifying this flow of information through self-attention. We propose two methods for approximating the attention to input tokens given attention weights, attention rollout and attention flow, as post hoc methods when we use attention weights as the relative relevance of the input tokens. We show that these methods give complementary views on the flow of information, and compared to raw attention, both yield higher correlations with importance scores of input tokens obtained using an ablation method and input gradients.
翻訳日:2022-12-07 11:42:07 公開日:2020-05-31
# Encoder-Decoderモデルは文法的誤り訂正における事前学習されたマスク言語モデルから得られる

Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction ( http://arxiv.org/abs/2005.00987v2 )

ライセンス: Link先を確認
Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, Kentaro Inui(参考訳) 本稿では,BERT などの事前学習されたマスク付き言語モデル (MLM) を,文法的誤り訂正のためのエンコーダデコーダモデル (EncDec) に効果的に組み込む方法について検討する。 この疑問に対する答えは、従来のEMMをEncDecモデルに組み込む一般的な方法は、ECCに適用した場合に潜在的な欠点があるため、予想されるほど単純ではない。 例えば、GECモデルへの入力の分布は、事前学習用MLMのコーパスとはかなり異なる(誤った、不器用ななど)が、この問題は以前の方法では解決されない。 実験の結果,提案手法は,まず,まず与えられたGECコーパスを用いてMDMを微調整し,次に、細調整MLMの出力をGECモデルの付加的な特徴として使用することにより,MDMの利点を最大化することができることがわかった。 最高のパフォーマンスモデルはBEA-2019とCoNLL-2014ベンチマークで最先端のパフォーマンスを達成する。 私たちのコードは、https://github.com/kanekomasahiro/bert-gec.comで公開されています。

This paper investigates how to effectively incorporate a pre-trained masked language model (MLM), such as BERT, into an encoder-decoder (EncDec) model for grammatical error correction (GEC). The answer to this question is not as straightforward as one might expect because the previous common methods for incorporating a MLM into an EncDec model have potential drawbacks when applied to GEC. For example, the distribution of the inputs to a GEC model can be considerably different (erroneous, clumsy, etc.) from that of the corpora used for pre-training MLMs; however, this issue is not addressed in the previous methods. Our experiments show that our proposed method, where we first fine-tune a MLM with a given GEC corpus and then use the output of the fine-tuned MLM as additional features in the GEC model, maximizes the benefit of the MLM. The best-performing model achieves state-of-the-art performances on the BEA-2019 and CoNLL-2014 benchmarks. Our code is publicly available at: https://github.com/kanekomasahiro/bert-gec.
翻訳日:2022-12-07 06:32:14 公開日:2020-05-31
# 胃癌のコンピュータビジョン : 診断に有効なツール

Review on Computer Vision in Gastric Cancer: Potential Efficient Tools for Diagnosis ( http://arxiv.org/abs/2005.09459v2 )

ライセンス: Link先を確認
Yihua Sun(参考訳) 胃癌の迅速診断は臨床医にとって大きな課題である。 近年,胃癌に対するコンピュータビジョンの進歩が進展しており,本研究は過去5年間の進歩に焦点を当てている。 データ生成と拡張の異なる方法が提示され、識別的特徴を抽出するための様々なアプローチが比較および評価された。 より正確な診断とタイムリーな治療を支援するために、分類と分割手法を慎重に検討する。 分類のために, 回転像とリアルタイム推定像(内視鏡), 高分解能像(病理組織学), 低診断精度像(x線), 軟部組織像(ct)の造影不良像, アノテーション不足像など, 特定の画像の進行性を改善するための様々な方法が開発されている。 検出とセグメンテーションには、従来の方法と機械学習方法が比較される。 これらの方法の応用は、胃癌の診断における労力と時間消費を大幅に削減する。

Rapid diagnosis of gastric cancer is a great challenge for clinical doctors. Dramatic progress of computer vision on gastric cancer has been made recently and this review focuses on advances during the past five years. Different methods for data generation and augmentation are presented, and various approaches to extract discriminative features compared and evaluated. Classification and segmentation techniques are carefully discussed for assisting more precise diagnosis and timely treatment. For classification, various methods have been developed to better proceed specific images, such as images with rotation and estimated real-timely (endoscopy), high resolution images (histopathology), low diagnostic accuracy images (X-ray), poor contrast images of the soft-tissue with cavity (CT) or those images with insufficient annotation. For detection and segmentation, traditional methods and machine learning methods are compared. Application of those methods will greatly reduce the labor and time consumption for the diagnosis of gastric cancers.
翻訳日:2022-12-02 05:51:36 公開日:2020-05-31
# ParsBERT:ペルシア語理解のためのトランスフォーマーベースモデル

ParsBERT: Transformer-based Model for Persian Language Understanding ( http://arxiv.org/abs/2005.12515v2 )

ライセンス: Link先を確認
Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri(参考訳) 訓練済みの言語モデルの急増は、強力な言語モデルの構築を可能にすることによって、自然言語処理(NLP)分野の新しい時代が始まった。 これらのモデルの中で、BERTのようなトランスフォーマーベースのモデルは、最先端の性能のために人気が高まっている。 しかし、これらのモデルは通常英語に焦点を当てており、他の言語は限られた資源を持つ多言語モデルに任せている。 本稿では,ペルシャ語用単言語BERT(ParsBERT)を提案する。 また、ペルシャにおけるNLPタスクで利用可能なデータの量は極めて制限されているため、異なるNLPタスクのための巨大なデータセットと、モデルの事前トレーニングも構成されている。 ParsBERTは、既存のものを含め、すべてのデータセットで高いスコアを取得し、Sentiment Analysis、Text Classification、 Named Entity Recognitionタスクにおいて、多言語BERTや他の以前の作業よりも優れたパフォーマンスを実現している。

The surge of pre-trained language models has begun a new era in the field of Natural Language Processing (NLP) by allowing us to build powerful language models. Among these models, Transformer-based models such as BERT have become increasingly popular due to their state-of-the-art performance. However, these models are usually focused on English, leaving other languages to multilingual models with limited resources. This paper proposes a monolingual BERT for the Persian language (ParsBERT), which shows its state-of-the-art performance compared to other architectures and multilingual models. Also, since the amount of data available for NLP tasks in Persian is very restricted, a massive dataset for different NLP tasks as well as pre-training the model is composed. ParsBERT obtains higher scores in all datasets, including existing ones as well as composed ones and improves the state-of-the-art performance by outperforming both multilingual BERT and other prior works in Sentiment Analysis, Text Classification and Named Entity Recognition tasks.
翻訳日:2022-11-29 00:06:53 公開日:2020-05-31
# CTによる胸部自動切除のための多重分解能残像ネットワーク

Multiple resolution residual network for automatic thoracic organs-at-risk segmentation from CT ( http://arxiv.org/abs/2005.13690v2 )

ライセンス: Link先を確認
Hyemin Um, Jue Jiang, Maria Thor, Andreas Rimner, Leo Luo, Joseph O. Deasy, and Harini Veeraraghavan(参考訳) 胸部放射線治療 (rt) 計画のためのct画像からの複数の正常臓器・リスク (oar) セグメントに対する多重分解能残差ネットワーク (mrrn) の実装と評価を行った。 提案手法は,複数画像解像度で計算された特徴ストリームと残差接続による特徴レベルを同時に組み合わせる。 各レベルのフィーチャーストリームは、画像がさまざまな機能レベルを通過すると更新される。 左肺, 心臓, 食道, 脊髄を分画する検査を35回行った肺がん患者206例の胸部CT検査を用いて, アプローチを訓練した。 このアプローチは、オープンソースのAAPM Thoracic Auto-Segmentation Challengeデータセットから60個のCTスキャンでテストされた。 Dice similarity Coefficient (DSC) を用いて評価した。 このアプローチは食道のような切開が難しい構造物に対する大きな挑戦において最も優れた評価方法となり,他の全ての構造物で同等の結果を得た。 術中DSCは,左肺および右肺に0.97(ICC:0.97-0.98),心に0.93(IQR:0.93-0.95),食道に0.78(IQR:0.76-0.80),脊髄に0.88(IQR:0.86-0.89)であった。

We implemented and evaluated a multiple resolution residual network (MRRN) for multiple normal organs-at-risk (OAR) segmentation from computed tomography (CT) images for thoracic radiotherapy treatment (RT) planning. Our approach simultaneously combines feature streams computed at multiple image resolutions and feature levels through residual connections. The feature streams at each level are updated as the images are passed through various feature levels. We trained our approach using 206 thoracic CT scans of lung cancer patients with 35 scans held out for validation to segment the left and right lungs, heart, esophagus, and spinal cord. This approach was tested on 60 CT scans from the open-source AAPM Thoracic Auto-Segmentation Challenge dataset. Performance was measured using the Dice Similarity Coefficient (DSC). Our approach outperformed the best-performing method in the grand challenge for hard-to-segment structures like the esophagus and achieved comparable results for all other structures. Median DSC using our method was 0.97 (interquartile range [IQR]: 0.97-0.98) for the left and right lungs, 0.93 (IQR: 0.93-0.95) for the heart, 0.78 (IQR: 0.76-0.80) for the esophagus, and 0.88 (IQR: 0.86-0.89) for the spinal cord.
翻訳日:2022-11-28 09:43:41 公開日:2020-05-31
# DaSGD: 遅延平均化を用いた分散トレーニングにおけるSGD並列化のパフォーマンス向上

DaSGD: Squeezing SGD Parallelization Performance in Distributed Training Using Delayed Averaging ( http://arxiv.org/abs/2006.00441v1 )

ライセンス: Link先を確認
Qinggang Zhou, Yawen Zhang, Pengcheng Li, Xiaoyong Liu, Jun Yang, Runsheng Wang and Ru Huang(参考訳) 最先端のディープラーニングアルゴリズムは、モデルのサイズの増加とデータセットのトレーニングに取り組むために、分散トレーニングシステムに依存している。 ミニバッチ確率勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止し、すべての作業者から集約された勾配を待ち、次の作業の前に重み更新を受ける必要がある。 この同期実行モデルは、分散トレーニングシステムにおける多数のワーカー間の勾配/重み通信のオーバーヘッドを明らかにする。 通信オーバヘッドの100%を隠蔽するために,SGDとフォワード/バックの伝搬を並列化する新しいSGDアルゴリズムDaSGD(Local SGD with Delayed Averaging)を提案する。 このアルゴリズムは、勾配更新方式を調整することにより、ハードウェアリソースをより効率的に利用し、低レイテンシと高スループットのインターコネクションへの依存を減らす。 理論解析と実験結果から,sgdと同じ収束率o(1/sqrt(k))が得られた。 パフォーマンス評価は、クラスタサイズでリニアパフォーマンスのスケールアップを可能にすることを実証する。

The state-of-the-art deep learning algorithms rely on distributed training systems to tackle the increasing sizes of models and training data sets. Minibatch stochastic gradient descent (SGD) algorithm requires workers to halt forward/back propagations, to wait for gradients aggregated from all workers, and to receive weight updates before the next batch of tasks. This synchronous execution model exposes the overheads of gradient/weight communication among a large number of workers in a distributed training system. We propose a new SGD algorithm, DaSGD (Local SGD with Delayed Averaging), which parallelizes SGD and forward/back propagations to hide 100% of the communication overhead. By adjusting the gradient update scheme, this algorithm uses hardware resources more efficiently and reduces the reliance on the low-latency and high-throughput inter-connects. The theoretical analysis and the experimental results show its convergence rate O(1/sqrt(K)), the same as SGD. The performance evaluation demonstrates it enables a linear performance scale-up with the cluster size.
翻訳日:2022-11-26 13:17:14 公開日:2020-05-31
# 協調エッジ学習における資源共有のためのインセンティブ機構設計

Incentive Mechanism Design for Resource Sharing in Collaborative Edge Learning ( http://arxiv.org/abs/2006.00511v1 )

ライセンス: Link先を確認
Wei Yang Bryan Lim, Jer Shyuan Ng, Zehui Xiong, Dusit Niyato, Cyril Leung, Chunyan Miao, Qiang Yang(参考訳) 5GとBeyondネットワークでは、人工知能のアプリケーションがますます普及すると予想されている。 これは、現在のクラウド中心のモデルトレーニングアプローチから、エッジラーニングとして知られるエッジコンピューティングベースの協調学習スキームへのパラダイムシフトを必要とします。 本稿では,まず,協調エッジラーニングの原理と技術を紹介する。 そこで我々は,エッジサーバとエンドデバイスの通信,キャッシュ,計算,学習リソース(3C-L)を効果的に活用するために,エッジ学習を成功させ,スケーラブルな実装を実現することを確立する。 しかし、ユーザは十分な補償を受けることなく、リソースへのコントリビュートを承諾することはできない。 エッジノードの多様性、例えば利用可能な計算資源の観点から考えると、エッジ学習のためのリソース共有を容易にするインセンティブ機構設計の課題について論じる。 さらに, エッジラーニングに寄与する新鮮データの価格設定にDeep Learningを用いた最適オークション設計を含むケーススタディを提案する。 性能評価の結果,提案するオークションの収益を最大化する効果が示された。

In 5G and Beyond networks, Artificial Intelligence applications are expected to be increasingly ubiquitous. This necessitates a paradigm shift from the current cloud-centric model training approach to the Edge Computing based collaborative learning scheme known as edge learning, in which model training is executed at the edge of the network. In this article, we first introduce the principles and technologies of collaborative edge learning. Then, we establish that a successful, scalable implementation of edge learning requires the communication, caching, computation, and learning resources (3C-L) of end devices and edge servers to be leveraged jointly in an efficient manner. However, users may not consent to contribute their resources without receiving adequate compensation. In consideration of the heterogeneity of edge nodes, e.g., in terms of available computation resources, we discuss the challenges of incentive mechanism design to facilitate resource sharing for edge learning. Furthermore, we present a case study involving optimal auction design using Deep Learning to price fresh data contributed for edge learning. The performance evaluation shows the revenue maximizing properties of our proposed auction over the benchmark schemes.
翻訳日:2022-11-26 13:16:55 公開日:2020-05-31
# next-basketレコメンデーションのためのパーソナライズされたアイテム頻度情報のモデル化

Modeling Personalized Item Frequency Information for Next-basket Recommendation ( http://arxiv.org/abs/2006.00556v1 )

ライセンス: Link先を確認
Haoji Hu and Xiangnan He and Jinyang Gao and Zhi-Li Zhang(参考訳) next-basket recommendation (nbr)はeコマースや小売業界で広く使われている。 このシナリオでは、ユーザが一度に一組のアイテム(バスケット)を購入する。 NBRは一連のバスケットに基づいて逐次モデリングとレコメンデーションを行う。 NBRは一般に、一連の項目に基づいて次の項目を推奨するシーケンシャルな(セッションベースの)レコメンデーションよりも複雑である。 リカレントニューラルネットワーク(RNN)はシーケンシャルなモデリングに非常に有効であることが証明され、したがってNBRに適応した。 しかし,既存のRNNでは推薦シナリオでアイテムの周波数情報を直接キャプチャすることはできない。 実世界のデータセットを慎重に分析した結果,PIF情報(各アイテムがユーザによって購入される回数を記録する)がNBRに2つの重要な信号を提供することがわかった。 しかし、これは既存の方法によって無視されている。 RNN法のような既存の手法は表現能力が強いが,実証実験の結果,PIFの学習や取得に失敗していることがわかった。 その結果、既存の手法ではpifに含まれる臨界信号を完全に活用することはできない。 このようなRNNの制約を考慮し、これらの臨界信号を直接利用する簡単なアイテム周波数に基づくk-nearest neighbors (kNN)法を提案する。 提案手法を4つの実世界データセット上で評価する。 比較的単純であるにもかかわらず、PIFに関連するパターンがデータに重要な役割を果たす場合、我々の手法は、RNNを用いたディープラーニングベースの手法を含む最先端のNBR手法よりも優れている。

Next-basket recommendation (NBR) is prevalent in e-commerce and retail industry. In this scenario, a user purchases a set of items (a basket) at a time. NBR performs sequential modeling and recommendation based on a sequence of baskets. NBR is in general more complex than the widely studied sequential (session-based) recommendation which recommends the next item based on a sequence of items. Recurrent neural network (RNN) has proved to be very effective for sequential modeling and thus been adapted for NBR. However, we argue that existing RNNs cannot directly capture item frequency information in the recommendation scenario. Through careful analysis of real-world datasets, we find that {\em personalized item frequency} (PIF) information (which records the number of times that each item is purchased by a user) provides two critical signals for NBR. But, this has been largely ignored by existing methods. Even though existing methods such as RNN based methods have strong representation ability, our empirical results show that they fail to learn and capture PIF. As a result, existing methods cannot fully exploit the critical signals contained in PIF. Given this inherent limitation of RNNs, we propose a simple item frequency based k-nearest neighbors (kNN) method to directly utilize these critical signals. We evaluate our method on four public real-world datasets. Despite its relative simplicity, our method frequently outperforms the state-of-the-art NBR methods -- including deep learning based methods using RNNs -- when patterns associated with PIF play an important role in the data.
翻訳日:2022-11-26 13:16:39 公開日:2020-05-31
# 不正検出のためのサポートベクトルデータ記述の適用

Applying support vector data description for fraud detection ( http://arxiv.org/abs/2006.00618v1 )

ライセンス: Link先を確認
Mohamad Khedmati, Masoud Erfani, Mohammad GhasemiGol(参考訳) 不正検出は、銀行や金融セクター、保険、政府機関、法執行機関など、様々な企業に適用される重要なトピックである。 近年、詐欺未遂事件が顕著に増加しており、不正検出が研究に不可欠な話題となっている。 不正検出の主な課題の1つは、複雑で困難な作業である不正サンプルの取得である。 この課題に対処するために,SVDDのような不正サンプルを必要としない一級分類法を適用した。 また,dbscanの拡張であるredbscanを用いてサンプル数を削減し,データ形状を保持するものを選択する。 提案手法の実装により得られた結果から,不正検出は性能と速度の両方で改善された。

Fraud detection is an important topic that applies to various enterprises such as banking and financial sectors, insurance, government agencies, law enforcement, and more. Fraud attempts have been risen remarkably in current years, shaping fraud detection an essential topic for research. One of the main challenges in fraud detection is acquiring fraud samples which is a complex and challenging task. In order to deal with this challenge, we apply one-class classification methods such as SVDD which does not need the fraud samples for training. Also, we present our algorithm REDBSCAN which is an extension of DBSCAN to reduce the number of samples and select those that keep the shape of data. The results obtained by the implementation of the proposed method indicated that the fraud detection process was improved in both performance and speed.
翻訳日:2022-11-26 13:16:15 公開日:2020-05-31
# 潜時音色合成の導入

Introducing Latent Timbre Synthesis ( http://arxiv.org/abs/2006.00408v1 )

ライセンス: Link先を確認
K. Tatar, D. Bisig, P. Pasquier(参考訳) 本稿では,Deep Learning を用いた音声合成手法である Latent Timbre Synthesis (LTS) を提案する。 この合成法により、作曲家と音響設計者は、複数の音の音色間の補間と外挿を、音声フレームの潜在空間を用いて行うことができる。 LTSのための2つの変分オートエンコーダアーキテクチャの詳細を提供し、それらの利点と欠点を比較した。 この実装には、グラフィカルなユーザインターフェースを備えた完全に動作するアプリケーションである \textit{interpolate\_two} が含まれており、オーディオフレームの潜時空間における補間と外挿を用いて、2つのオーディオ抜粋間の音色を探索することができる。 我々の実装はオープンソースであり、技術的背景のあるユーザのためのガイドを提供することで、この技術のアクセシビリティを向上させることを目指している。

We present the Latent Timbre Synthesis (LTS), a new audio synthesis method using Deep Learning. The synthesis method allows composers and sound designers to interpolate and extrapolate between the timbre of multiple sounds using the latent space of audio frames. We provide the details of two Variational Autoencoder architectures for LTS, and compare their advantages and drawbacks. The implementation includes a fully working application with graphical user interface, called \textit{interpolate\_two}, which enables practitioners to explore the timbre between two audio excerpts of their selection using interpolation and extrapolation in the latent space of audio frames. Our implementation is open-source, and we aim to improve the accessibility of this technology by providing a guide for users with any technical background.
翻訳日:2022-11-26 13:15:46 公開日:2020-05-31
# 改良型確率ラウンドリング

Improved stochastic rounding ( http://arxiv.org/abs/2006.00489v1 )

ライセンス: Link先を確認
Lu Xia, Martijn Anthonissen, Michiel Hochstenbach and Barry Koren(参考訳) 浮動小数点演算や固定小数点演算のビット数が限られているため、丸みは多くの計算において必要なステップである。 ラウンドングメソッドは異なるアプリケーション向けにカスタマイズできるが、ラウンドオフエラーは一般的に避けられない。 計算列が実装されると、ラウンドオフエラーが拡大または蓄積される。 ラウンドオフエラーの拡大は重大な障害を引き起こす可能性がある。 確率ラウンドリング(SR)は、例えばニューラルネットワーク(NN)のトレーニングに広く用いられている非バイアスラウンドリング法として導入され、低精度計算においても有望なトレーニング結果を示す。 トレーニングNNにおけるSRの利用は一貫して増加しているが、SRの誤り解析は改善され続けている。 さらに、SRの偏りのない丸めの結果は常に大きなばらつきを伴う。 本研究では,srの一般性について述べ,証明する。 さらに、円形分散の上限を導入し、検証する。 SRの2つの新しい確率分布は、多目的最適化問題の解法により、分散とバイアスのトレードオフを研究するために提案される。 シミュレーション研究では, ニュートン反復による和, 平方根計算, 内積計算などの異なる演算に対して, 丸めの分散, バイアス, 相対誤差について, 特定の丸め精度で検討した。

Due to the limited number of bits in floating-point or fixed-point arithmetic, rounding is a necessary step in many computations. Although rounding methods can be tailored for different applications, round-off errors are generally unavoidable. When a sequence of computations is implemented, round-off errors may be magnified or accumulated. The magnification of round-off errors may cause serious failures. Stochastic rounding (SR) was introduced as an unbiased rounding method, which is widely employed in, for instance, the training of neural networks (NNs), showing a promising training result even in low-precision computations. Although the employment of SR in training NNs is consistently increasing, the error analysis of SR is still to be improved. Additionally, the unbiased rounding results of SR are always accompanied by large variances. In this study, some general properties of SR are stated and proven. Furthermore, an upper bound of rounding variance is introduced and validated. Two new probability distributions of SR are proposed to study the trade-off between variance and bias, by solving a multiple objective optimization problem. In the simulation study, the rounding variance, bias, and relative errors of SR are studied for different operations, such as summation, square root calculation through Newton iteration and inner product computation, with specific rounding precision.
翻訳日:2022-11-26 13:15:04 公開日:2020-05-31
# 最大音声周波数推定:爆発振幅と位相スペクトル

Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase Spectra ( http://arxiv.org/abs/2006.00521v1 )

ライセンス: Link先を確認
Thomas Drugman, Yannis Stylianou(参考訳) 最大発声周波数(MVF)は、発声音の生成中に周期成分と周期成分を分離するスペクトル境界として様々な音声モデルで用いられる。 最近の研究では、適切な推定とモデリングが統計的パラメトリック音声合成器の品質を高めることが示されている。 対照的に、これらのMVF推定手法は歌唱音声合成器の性能を低下させるために報告されている。 本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。 位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。 この情報は、MVF推定に関する決定を提供する最大可能性基準にさらに統合される。 提案手法は2つの最先端手法と比較し,客観的評価と主観評価の両方において優れた性能を示す。 知覚検査は、ハイピッチ音声の劇的な改善を示す。

Maximum Voiced Frequency (MVF) is used in various speech models as the spectral boundary separating periodic and aperiodic components during the production of voiced sounds. Recent studies have shown that its proper estimation and modeling enhance the quality of statistical parametric speech synthesizers. Contrastingly, these same methods of MVF estimation have been reported to degrade the performance of singing voice synthesizers. This paper proposes a new approach for MVF estimation which exploits both amplitude and phase spectra. It is shown that phase conveys relevant information about the harmonicity of the voice signal, and that it can be jointly used with features derived from the amplitude spectrum. This information is further integrated into a maximum likelihood criterion which provides a decision about the MVF estimate. The proposed technique is compared to two state-of-the-art methods, and shows a superior performance in both objective and subjective evaluations. Perceptual tests indicate a drastic improvement in high-pitched voices.
翻訳日:2022-11-26 13:09:39 公開日:2020-05-31
# 音声自動極性検出のための残差励磁スキューネス

Residual Excitation Skewness for Automatic Speech Polarity Detection ( http://arxiv.org/abs/2006.00525v1 )

ライセンス: Link先を確認
Thomas Drugman(参考訳) 正しい音声極性の検出は、複数の音声処理技術に先立って必要なステップである。 決定の誤りは、パフォーマンスに劇的な悪影響をもたらす可能性がある。 現在のシステムは、複数のデバイスから発生するデータ量の増加に対処しなければならないため、音声の極性の自動検出は重要な問題となっている。 そこで本研究では,2つの励起信号の歪度に基づく非常に単純なアルゴリズムを提案する。 この手法は10の音声コーパス(8545ファイル)に表示され、クリーンな条件下では0.06%の誤差率となり、4つの最先端手法よりも明らかに優れている。 さらに、単純さによって計算負荷を大幅に削減し、ノイズと残響環境の両方において強い強靭性を示す。

Detecting the correct speech polarity is a necessary step prior to several speech processing techniques. An error on its determination could have a dramatic detrimental impact on their performance. As current systems have to deal with increasing amounts of data stemming from multiple devices, the automatic detection of speech polarity has become a crucial problem. For this purpose, we here propose a very simple algorithm based on the skewness of two excitation signals. The method is shown on 10 speech corpora (8545 files) to lead to an error rate of only 0.06% in clean conditions and to clearly outperform four state-of-the-art methods. Besides it significantly reduces the computational load through its simplicity and is observed to exhibit the strongest robustness in both noisy and reverberant environments.
翻訳日:2022-11-26 13:09:27 公開日:2020-05-31
# DC-UNet: 医用画像分割のためのデュアルチャネル効率の良いCNNによるU-Netアーキテクチャ再考

DC-UNet: Rethinking the U-Net Architecture with Dual Channel Efficient CNN for Medical Images Segmentation ( http://arxiv.org/abs/2006.00414v1 )

ライセンス: Link先を確認
Ange Lou, Shuyue Guan, Murray Loew(参考訳) 近年,コンピュータビジョン分野でのディープラーニングの普及が進んでいる。 畳み込みニューラルネットワーク(CNN)は、特に医療画像において、画像セグメンテーション領域においてブレークスルーをもたらした。 この点において、U-Netは医用画像分割タスクにおける主要なアプローチである。 U-Netは、一般的なマルチモーダル医療画像のセグメンテーションだけでなく、いくつかの厳しいケースでもよく機能する。 しかし,従来のU-Netアーキテクチャにはいくつかの面で制限があることがわかった。 そこで私たちは修正を加えました 1) エンコーダとデコーダの代わりに効率的なCNNアーキテクチャを設計する。 2) エンコーダとデコーダのスキップ接続を置き換えるために残留モジュールを適用し, 最先端のU-Netモデルに基づく改良を行った。 これらの変更の後、我々はU-Netアーキテクチャの後継となる新しいアーキテクチャ--DC-UNetを設計した。 我々は、このCNNに基づいて、新しい効果的なCNNアーキテクチャを作成し、DC-UNetを構築した。 タフケースのある3つのデータセットについて評価を行い,従来のu-netと比較して,それぞれ2.90%,1.49%,11.42%の性能が向上した。 また,灰色対グレー画像比較では,谷本類似度を用いてjaccard類似度を置き換えた。

Recently, deep learning has become much more popular in computer vision area. The Convolution Neural Network (CNN) has brought a breakthrough in images segmentation areas, especially, for medical images. In this regard, U-Net is the predominant approach to medical image segmentation task. The U-Net not only performs well in segmenting multimodal medical images generally, but also in some tough cases of them. However, we found that the classical U-Net architecture has limitation in several aspects. Therefore, we applied modifications: 1) designed efficient CNN architecture to replace encoder and decoder, 2) applied residual module to replace skip connection between encoder and decoder to improve based on the-state-of-the-art U-Net model. Following these modifications, we designed a novel architecture--DC-UNet, as a potential successor to the U-Net architecture. We created a new effective CNN architecture and build the DC-UNet based on this CNN. We have evaluated our model on three datasets with tough cases and have obtained a relative improvement in performance of 2.90%, 1.49% and 11.42% respectively compared with classical U-Net. In addition, we used the Tanimoto similarity to replace the Jaccard similarity for gray-to-gray image comparisons.
翻訳日:2022-11-26 13:09:13 公開日:2020-05-31
# GANアーキテクチャによる高分解能ドローン画像の終端変化検出

End-to-End Change Detection for High Resolution Drone Images with GAN Architecture ( http://arxiv.org/abs/2006.00467v1 )

ライセンス: Link先を確認
Yura Zharkovsky, Ovadya Menadeva(参考訳) 大規模な監視は現在、時間と費用のかかる地上調査とは対照的に、高解像度のドローンカメラで実現可能である。 本研究では,インフラ検査に高分解能ドローン画像を用いた最先端の切替検出ganベースアルゴリズムを利用する可能性について初めて明らかにする。 この概念をソーラーパネルの設置で実証する。 変化検出型深層学習アルゴリズムに基づいて変化を識別する深層学習型データ駆動アルゴリズムを提案する。 条件付きadversarial networkアプローチを用いて,画像の変更検出のためのフレームワークを提案する。 提案するネットワークアーキテクチャは、Pix2pix GANフレームワークに基づいている。 広範な実験結果から,提案手法は他の最先端変化検出手法よりも優れていることが示された。

Monitoring large areas is presently feasible with high resolution drone cameras, as opposed to time-consuming and expensive ground surveys. In this work we reveal for the first time, the potential of using a state-of-the-art change detection GAN based algorithm with high resolution drone images for infrastructure inspection. We demonstrate this concept on solar panel installation. A deep learning, data-driven algorithm for identifying changes based on a change detection deep learning algorithm was proposed. We use the Conditional Adversarial Network approach to present a framework for change detection in images. The proposed network architecture is based on pix2pix GAN framework. Extensive experimental results have shown that our proposed approach outperforms the other state-of-the-art change detection methods.
翻訳日:2022-11-26 13:08:24 公開日:2020-05-31
# グレースケール符号化光フィールドからの顔認証

Face Authentication from Grayscale Coded Light Field ( http://arxiv.org/abs/2006.00473v1 )

ライセンス: Link先を確認
Dana Weitzner, David Mendlovic and Raja Giryes(参考訳) 顔認証は、スマートフォンなどの日常システムのための、急速に成長する認証ツールである。 現在の2D顔認証法は非常に正確であるが、近年では、人の顔の2Dプリントを使用するなど、より信頼性が高く堅牢なスプーフィングを実現するために、そのようなソリューションに3Dセンサーを追加したいと提案されている。 しかし、これは比較的高価な深度センサーを必要とする。 そこで本研究では,スリムグレースケール符号化光フィールドイメージングに基づく新しい認証システムを提案する。 符号化画像上で直接動作し、復元フリーな高速スプーフィング機構を提供する。 続いてマルチビューのマルチモーダル顔認証ネットワークが、グレースケールデータと低解像度深度マップを併用することで、rgbケースとの競合結果を得る。 本稿では,LFWのシミュレーション3D(RGBD)バージョンと,光場計算カメラで取得した実顔の集合に対して,本ソリューションの有効性を実証する。

Face verification is a fast-growing authentication tool for everyday systems, such as smartphones. While current 2D face recognition methods are very accurate, it has been suggested recently that one may wish to add a 3D sensor to such solutions to make them more reliable and robust to spoofing, e.g., using a 2D print of a person's face. Yet, this requires an additional relatively expensive depth sensor. To mitigate this, we propose a novel authentication system, based on slim grayscale coded light field imaging. We provide a reconstruction free fast anti-spoofing mechanism, working directly on the coded image. It is followed by a multi-view, multi-modal face verification network that given grayscale data together with a low-res depth map achieves competitive results to the RGB case. We demonstrate the effectiveness of our solution on a simulated 3D (RGBD) version of LFW, which will be made public, and a set of real faces acquired by a light field computational camera.
翻訳日:2022-11-26 13:08:13 公開日:2020-05-31
# Motion2Vec: 手術ビデオからの半教師付き表現学習

Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos ( http://arxiv.org/abs/2006.00545v1 )

ライセンス: Link先を確認
Ajay Kumar Tanwani, Pierre Sermanet, Andy Yan, Raghav Anand, Mariano Phielipp, Ken Goldberg(参考訳) 埋め込み空間における意味ある視覚表現の学習は、アクションセグメンテーションや模倣のような下流タスクの一般化を促進する。 本稿では,動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を半教師付きで学習する。 映像の時間順序を尊重しつつ、他のセグメントのランダムにサンプリングされた画像から、同じ動作セグメントからの画像をプッシュしながら、同じアクションセグメントからのイメージをプルして、映像を最小化することで、ビデオ観察から深い埋め込み特徴空間を学ぶアルゴリズムmotion2vecを提案する。 埋め込みは、シームズネットワークを事前訓練した後、所定の埋め込み空間のパラメトリゼーションのために繰り返しニューラルネットワークで繰り返しセグメンテーションされる。 埋め込み空間を意味的にアライメントし、学習したモデルパラメータを推測することで、残りの未ラベルデータに擬似ラベルを割り当てるために、ラベル付きビデオセグメントの小さなセットのみを使用する。 この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。 その結果、85.5パーセントのセグメンテーション精度が、いくつかの最先端のベースラインに対するパフォーマンス改善を示唆する一方で、キネマティックなポーズ模倣は、テストセットにおける観察毎の位置で0.94センチの誤差を与える。 ビデオ、コード、データはhttps://sites.google.com/view/motion2vecで入手できる。

Learning meaningful visual representations in an embedding space can facilitate generalization in downstream tasks such as action segmentation and imitation. In this paper, we learn a motion-centric representation of surgical video demonstrations by grouping them into action segments/sub-goals/options in a semi-supervised manner. We present Motion2Vec, an algorithm that learns a deep embedding feature space from video observations by minimizing a metric learning loss in a Siamese network: images from the same action segment are pulled together while pushed away from randomly sampled images of other segments, while respecting the temporal ordering of the images. The embeddings are iteratively segmented with a recurrent neural network for a given parametrization of the embedding space after pre-training the Siamese network. We only use a small set of labeled video segments to semantically align the embedding space and assign pseudo-labels to the remaining unlabeled data by inference on the learned model parameters. We demonstrate the use of this representation to imitate surgical suturing motions from publicly available videos of the JIGSAWS dataset. Results give 85.5 % segmentation accuracy on average suggesting performance improvement over several state-of-the-art baselines, while kinematic pose imitation gives 0.94 centimeter error in position per observation on the test set. Videos, code and data are available at https://sites.google.com/view/motion2vec
翻訳日:2022-11-26 13:07:56 公開日:2020-05-31
# 高次元共分散行列に対するフィッシャーの複合確率検定

Fisher's combined probability test for high-dimensional covariance matrices ( http://arxiv.org/abs/2006.00426v1 )

ライセンス: Link先を確認
Xiufan Yu, Danning Li, and Lingzhou Xue(参考訳) 大規模共分散行列の検定は、高次元データを用いた統計解析において極めて重要である。 過去10年間、二次形式統計、最大形統計、重み付き結合という3種類のテスト統計が文献で研究されてきた。 二次形式統計はスパース代替に対して低電力に悩まされ、最大形式統計は密度の高い代替に対して低電力に悩まされることが知られている。 重み付き結合法は,重みが適切に選択された場合に二次形式統計や最大形式統計のパワーを高めるために導入された。 本稿では,2次形式統計学の潜在可能性と高次元共分散行列の最大形式統計学を活用できる新しい視点を提供する。 本研究では,二次形式統計のp値と最大形式統計を組み合わせるフィッシャー法に基づくスケール不変パワー拡張テストを提案する。 二次形式統計と最大形式統計の漸近的合同分布を慎重に検討した結果,提案手法が正しい漸近的大きさを保ち,より一般的な代替手段に対するパワーを高めることを証明した。 さらに,シミュレーション研究における有限サンプル性能と実応用を示す。

Testing large covariance matrices is of fundamental importance in statistical analysis with high-dimensional data. In the past decade, three types of test statistics have been studied in the literature: quadratic form statistics, maximum form statistics, and their weighted combination. It is known that quadratic form statistics would suffer from low power against sparse alternatives and maximum form statistics would suffer from low power against dense alternatives. The weighted combination methods were introduced to enhance the power of quadratic form statistics or maximum form statistics when the weights are appropriately chosen. In this paper, we provide a new perspective to exploit the full potential of quadratic form statistics and maximum form statistics for testing high-dimensional covariance matrices. We propose a scale-invariant power enhancement test based on Fisher's method to combine the p-values of quadratic form statistics and maximum form statistics. After carefully studying the asymptotic joint distribution of quadratic form statistics and maximum form statistics, we prove that the proposed combination method retains the correct asymptotic size and boosts the power against more general alternatives. Moreover, we demonstrate the finite-sample performance in simulation studies and a real application.
翻訳日:2022-11-26 13:06:43 公開日:2020-05-31
# 強化多エージェント深部強化学習に基づくアクティブ配電システムの分散電圧制御

Distributed Voltage Regulation of Active Distribution System Based on Enhanced Multi-agent Deep Reinforcement Learning ( http://arxiv.org/abs/2006.00546v1 )

ライセンス: Link先を確認
Di Cao, Junbo Zhao, Weihao Hu, Fei Ding, Qi Huang, Zhe Chen(参考訳) 本稿では,スペクトルクラスタリングと拡張型マルチエージェント深層強化学習(madrl)アルゴリズムに基づくデータ駆動分散電圧制御手法を提案する。 教師なしクラスタリングによって、システム全体を電圧と反応性の電力感度に応じて複数のサブネットワークに分解することができる。 次に、各サブネットワークの分散制御問題をマルコフゲームとしてモデル化し、各サブネットワークを適応エージェントとしてモデル化する拡張MADRLアルゴリズムにより解決する。 ディープニューラルネットワークは各エージェントでポリシー関数とアクション値関数を近似するために使用される。 すべてのエージェントは、ローカル情報のみに基づいて意思決定を行う分散方式で実行しながら、最適な調整電圧調整戦略を学ぶために集中的に訓練される。 提案手法は,システムパラメータの通信と知識の要求を大幅に低減することができる。 また、不確実性を効果的に処理し、最新のローカル情報に基づいたオンライン協調制御を提供する。 IEEE 33-bus と 123-bus の既存のモデルベースおよびデータ駆動方式との比較により,提案手法の有効性とメリットが示された。

This paper proposes a data-driven distributed voltage control approach based on the spectrum clustering and the enhanced multi-agent deep reinforcement learning (MADRL) algorithm. Via the unsupervised clustering, the whole distribution system can be decomposed into several sub-networks according to the voltage and reactive power sensitivity. Then, the distributed control problem of each sub-network is modeled as Markov games and solved by the enhanced MADRL algorithm, where each sub-network is modeled as an adaptive agent. Deep neural networks are used in each agent to approximate the policy function and the action value function. All agents are centrally trained to learn the optimal coordinated voltage regulation strategy while executed in a distributed manner to make decisions based on only local information. The proposed method can significantly reduce the requirements of communications and knowledge of system parameters. It also effectively deals with uncertainties and can provide online coordinated control based on the latest local information. Comparison results with other existing model-based and data-driven methods on IEEE 33-bus and 123-bus systems demonstrate the effectiveness and benefits of the proposed approach.
翻訳日:2022-11-26 13:00:30 公開日:2020-05-31
# トランスダクティブゼロショット学習における属性誘発バイアス除去

Attribute-Induced Bias Eliminating for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2006.00412v1 )

ライセンス: Link先を確認
Hantao Yao, Shaobo Min, Yongdong Zhang, Changsheng Xu(参考訳) Transductive Zero-shot Learning (ZSL) は、視覚的および意味的な情報を共同埋め込み空間で整列することで、目に見えないカテゴリを認識することを目的としている。 トランスダクティブZSLには、視覚的バイアスと2つのドメイン間のセマンティックバイアスという4種類のドメインバイアスが存在するが、既存の作業は、その部分のみに焦点を当てており、知識伝達の間に深刻な意味的曖昧さをもたらす。 この問題を解決するために,トランスダクティブZSLのための新しい属性誘導バイアス除去(AIBE)モジュールを提案する。 特に、2つのドメイン間の視覚バイアスに対して、平均教師モジュールは、教師なし学習とラベルなし画像を持つ2つのドメイン間の視覚表現の不一致を橋渡しするために最初に利用される。 次に,注目グラフ属性埋め込みにより,目に見えるカテゴリと見当たらないカテゴリ間の意味バイアスを低減し,グラフ操作を用いてカテゴリ間の意味関係をキャプチャする。 さらに,各カテゴリの視覚的中心を個々の視覚的データポイントではなく,視覚的・視覚的バイアスを低減し,対応する意味属性と整合させることにより,埋め込み空間における意味的関係をさらに保存する。 最後に、unseenドメインにおけるセマンティクス・ビジュアルバイアスに対して、セマンティクスアライメント制約は、視覚空間とセマンティクス空間を教師なしの方法でアライメントするように設計されている。 いくつかのベンチマークによる評価は、CUB、AwA2、SUNデータセットの標準/一般ZSL設定に対して、82.8%/75.5%、97.1%/82.5%、73.2%/52.1%という提案手法の有効性を示している。

Transductive Zero-shot learning (ZSL) targets to recognize the unseen categories by aligning the visual and semantic information in a joint embedding space. There exist four kinds of domain biases in Transductive ZSL, i.e., visual bias and semantic bias between two domains and two visual-semantic biases in respective seen and unseen domains, but existing work only focuses on the part of them, which leads to severe semantic ambiguity during the knowledge transfer. To solve the above problem, we propose a novel Attribute-Induced Bias Eliminating (AIBE) module for Transductive ZSL. Specifically, for the visual bias between two domains, the Mean-Teacher module is first leveraged to bridge the visual representation discrepancy between two domains with unsupervised learning and unlabelled images. Then, an attentional graph attribute embedding is proposed to reduce the semantic bias between seen and unseen categories, which utilizes the graph operation to capture the semantic relationship between categories. Besides, to reduce the semantic-visual bias in the seen domain, we align the visual center of each category, instead of the individual visual data point, with the corresponding semantic attributes, which further preserves the semantic relationship in the embedding space. Finally, for the semantic-visual bias in the unseen domain, an unseen semantic alignment constraint is designed to align visual and semantic space in an unsupervised manner. The evaluations on several benchmarks demonstrate the effectiveness of the proposed method, e.g., obtaining the 82.8%/75.5%, 97.1%/82.5%, and 73.2%/52.1% for Conventional/Generalized ZSL settings for CUB, AwA2, and SUN datasets, respectively.
翻訳日:2022-11-26 13:00:13 公開日:2020-05-31
# 軽量CNNを用いた非均一照明画像の高速化

Fast Enhancement for Non-Uniform Illumination Images using Light-weight CNNs ( http://arxiv.org/abs/2006.00439v1 )

ライセンス: Link先を確認
Feifan Lv, Bo Liu, Feng Lu(参考訳) 本稿では,色,露出,コントラスト,ノイズ,アーティファクトなどの処理を同時に効果的に行うために,非均一照明画像強調のための新しい軽量畳み込みニューラルネットワーク(5kパラメータ)を提案する。 より具体的には、入力画像は2つの異なる側面からそれぞれRetinexモデルを用いて拡張される(露光過多と露光過多の抑制)。 そして、これら2つの強化結果と原画像とを融合させて、良好な明るさ、コントラスト、詳細の画像を得る。 最後に、余分なノイズと圧縮アーティファクトを取り除き、最終的な結果を得る。 このネットワークをトレーニングするために,半教師ありリタッチソリューションを提案し,様々なシーンと光条件を含む新しいデータセット(82k画像)を構築する。 我々のモデルは、既存の拡張手法よりも高速な0.5メガピクセル(600*800)画像をリアルタイム(50fps)に拡張することができる。 広汎な実験により,非均一照明画像の処理は高速かつ効果的であることが確認された。

This paper proposes a new light-weight convolutional neural network (5k parameters) for non-uniform illumination image enhancement to handle color, exposure, contrast, noise and artifacts, etc., simultaneously and effectively. More concretely, the input image is first enhanced using Retinex model from dual different aspects (enhancing under-exposure and suppressing over-exposure), respectively. Then, these two enhanced results and the original image are fused to obtain an image with satisfactory brightness, contrast and details. Finally, the extra noise and compression artifacts are removed to get the final result. To train this network, we propose a semi-supervised retouching solution and construct a new dataset (82k images) contains various scenes and light conditions. Our model can enhance 0.5 mega-pixel (like 600*800) images in real time (50 fps), which is faster than existing enhancement methods. Extensive experiments show that our solution is fast and effective to deal with non-uniform illumination images.
翻訳日:2022-11-26 12:59:39 公開日:2020-05-31
# ベラムに書き込まれた古いゲエスクリプトの認識のための修正セグメンテーションアルゴリズム

Modified Segmentation Algorithm for Recognition of Older Geez Scripts Written on Vellum ( http://arxiv.org/abs/2006.00465v1 )

ライセンス: Link先を確認
Girma Negashe, Adane Mamuye(参考訳) 手書き文書の認識は、文書画像を機械理解可能なフォーマットに変換することを目的としている。 手書きの文書認識は、パターン認識の分野で最も難しい分野である。 古いGeezスクリプトのように、何百年も前にvellumで書かれたドキュメントがより複雑になる。 そこで本研究では,古いGeezスクリプトを識別する修正セグメンテーション手法を提案する。 ノイズ低減のための適応フィルタリング,文書画像のバイナライゼーションのためのIsodataイテレーティブなグローバルしきい値設定,ゲエ文字,数字,句読点間の異なるストロークを分割するための境界ボックス投影を改良した。 SVMマルチクラス分類器は、修正セグメンテーションアルゴリズムで79.32%の精度で認識された。

Recognition of handwritten document aims at transforming document images into a machine understandable format. Handwritten document recognition is the most challenging area in the field of pattern recognition. It becomes more complex when a document was written on vellum before hundreds of years, like older Geez scripts. In this study, we introduced a modified segmentation approach to recognize older Geez scripts. We used adaptive filtering for noise reduction, Isodata iterative global thresholding for document image binarization, modified bounding box projection to segment distinct strokes between Geez characters, numbers, and punctuation marks. SVM multiclass classifier scored 79.32% recognition accuracy with the modified segmentation algorithm.
翻訳日:2022-11-26 12:59:19 公開日:2020-05-31
# exemplarベースの生成的顔編集

Exemplar-based Generative Facial Editing ( http://arxiv.org/abs/2006.00472v1 )

ライセンス: Link先を確認
Jingtao Guo, Yi Liu, Zhenzhen Qian, Zuowei Zhou(参考訳) 画像合成は、生成モデルの力の増加によってかなりの進歩を遂げている。 本稿では,この領域をインパインティングする形で顔編集を行うための新しい生成手法を提案する。 本手法では,まず顔編集領域をマスクして原画像の画素制約を解消し,それに対応する情報を基準画像から学習してマスキング領域を完了させることにより,例題ベースの顔編集を実現する。 さらに,異種符号化をモデル化するために属性ラベル制約を課し,画像編集領域から画像編集領域へ望ましくない情報が転送されるのを避ける。 実験の結果, 顔編集の結果が多様でパーソナライズされ, ユーザ制御の柔軟性が向上した。

Image synthesis has witnessed substantial progress due to the increasing power of generative model. This paper we propose a novel generative approach for exemplar based facial editing in the form of the region inpainting. Our method first masks the facial editing region to eliminates the pixel constraints of the original image, then exemplar based facial editing can be achieved by learning the corresponding information from the reference image to complete the masked region. In additional, we impose the attribute labels constraint to model disentangled encodings in order to avoid undesired information being transferred from the exemplar to the original image editing region. Experimental results demonstrate our method can produce diverse and personalized face editing results and provide far more user control flexibility than nearly all existing methods.
翻訳日:2022-11-26 12:59:07 公開日:2020-05-31
# 局所コントラスト拡張手法に基づく汎用デハジングアルゴリズム

A General-Purpose Dehazing Algorithm based on Local Contrast Enhancement Approaches ( http://arxiv.org/abs/2006.00568v1 )

ライセンス: Link先を確認
Bangyong Sun, Vincent Whannou de Dravo and Zhe Yu(参考訳) デハジングは画像処理とコンピュータビジョンのコミュニティであり、霧の状況で撮影された画像を強化するタスクである。 この種のアルゴリズムをよりよく理解するために,本論文では,複数の局所コントラスト調整アルゴリズムに適したデハジング法を提案する。 私たちはそれを2つのフィルターで基盤にします。 最初のフィルタは正規化のステップと他の統計的トリックで構築され、最後は局所コントラスト改善アルゴリズムを表す。 したがって、リアルタイムアプリケーション用のcpuとgpuの両方で動作する。 当社のアプローチがコミュニティの新たなアイデアの扉を開くことを期待しています。 この方法の他の利点は、まず訓練する必要がなく、次に追加の最適化処理を必要としないことである。 さらに、多くのビジョンタスクで前処理または後処理ステップとして使用できる。 さらに、問題を物理的解釈に変換する必要はなく、最終的には非常に高速である。 このデフォッギングアルゴリズムのファミリは比較的単純であるが、ビジュアルアセスメントだけでなく、客観的基準にもとづく最先端のアルゴリズムと比較して有望な結果を示す。

Dehazing is in the image processing and computer vision communities, the task of enhancing the image taken in foggy conditions. To better understand this type of algorithm, we present in this document a dehazing method which is suitable for several local contrast adjustment algorithms. We base it on two filters. The first filter is built with a step of normalization with some other statistical tricks while the last represents the local contrast improvement algorithm. Thus, it can work on both CPU and GPU for real-time applications. We hope that our approach will open the door to new ideas in the community. Other advantages of our method are first that it does not need to be trained, then it does not need additional optimization processing. Furthermore, it can be used as a pre-treatment or post-processing step in many vision tasks. In addition, it does not need to convert the problem into a physical interpretation, and finally that it is very fast. This family of defogging algorithms is fairly simple, but it shows promising results compared to state-of-the-art algorithms based not only on a visual assessment but also on objective criteria.
翻訳日:2022-11-26 12:58:55 公開日:2020-05-31
# NLP Scholar: 自然言語処理文学のためのインタラクティブビジュアルエクスプローラー

NLP Scholar: An Interactive Visual Explorer for Natural Language Processing Literature ( http://arxiv.org/abs/2006.01131v1 )

ライセンス: Link先を確認
Saif M. Mohammad(参考訳) NLP Scholarプロジェクトの一環として、ACL AnthologyとGoogle Scholarから情報を抽出・調整することで、NLP論文とそのメタ情報(引用番号を含む)の単一の統合データセットを作成しました。 本稿では、データの様々な側面を示す相互接続型インタラクティブな可視化(ダッシュボード)について述べる。 視覚化内のアイテムをクリックしたり、検索ボックス内のクエリ用語を入力すると、ダッシュボード内のすべての視覚化でデータがフィルタリングされる。 これにより、ユーザーは特定の時間内に発行される、特定の著者によって発行される、興味のある分野の論文を検索することができる。 ここで提示されたインタラクティブな可視化と、引用にマッピングされた論文のデータセットには、分野がどのように成長しているかの理解(全体的およびサブエリア全体で)や、後続の出版物に対する様々な種類の論文の影響の定量化など、追加の用途がある。

As part of the NLP Scholar project, we created a single unified dataset of NLP papers and their meta-information (including citation numbers), by extracting and aligning information from the ACL Anthology and Google Scholar. In this paper, we describe several interconnected interactive visualizations (dashboards) that present various aspects of the data. Clicking on an item within a visualization or entering query terms in the search boxes filters the data in all visualizations in the dashboard. This allows users to search for papers in the area of their interest, published within specific time periods, published by specified authors, etc. The interactive visualizations presented here, and the associated dataset of papers mapped to citations, have additional uses as well including understanding how the field is growing (both overall and across sub-areas), as well as quantifying the impact of different types of papers on subsequent publications.
翻訳日:2022-11-26 12:58:21 公開日:2020-05-31
# データ駆動によるき裂音声のパターンの検出と分析

Data-driven Detection and Analysis of the Patterns of Creaky Voice ( http://arxiv.org/abs/2006.00518v1 )

ライセンス: Link先を確認
Thomas Drugman, John Kane, Christer Gobl(参考訳) 本稿では,難聴音声の時間的励起パターンについて検討する。 クレーキーな声は、フレーズ境界標識としてよく使われる声質であるが、態度、感情的状態、さらには社会的地位を表現する手段としても用いられる。 その結果, 難聴音声の自動検出とモデリングは, 音声技術への応用に影響を及ぼす可能性がある。 しかし、クレーキー音声の音響特性は、モーダル発声とはかなり異なる。 さらに、いくつかの音響パターンは、難聴音声の知覚をもたらし、その自動検出、分析、モデリングに使用される戦略を複雑化する。 本研究は,様々な言語,話者,および読解データと会話データの両方を用いて,クレーキー音声の検出のために文献で提案されている各種音響特徴の相互情報に基づく評価を行う。 これらの特徴を分類実験で利用し, 検出精度を技術状況と比較して高い精度で向上させる。 どちらの実験も、いくつかのクレーキーパターンの存在を明確に示している。 続いて同定されたパターンの質的および定量的な分析を行い、これらのパターンの使用における話者依存性のかなりの変動を明らかにする。 また,難解な音声検出システムが,難解なパターン間でどのように機能するかについても検討する。

This paper investigates the temporal excitation patterns of creaky voice. Creaky voice is a voice quality frequently used as a phrase-boundary marker, but also as a means of portraying attitude, affective states and even social status. Consequently, the automatic detection and modelling of creaky voice may have implications for speech technology applications. The acoustic characteristics of creaky voice are, however, rather distinct from modal phonation. Further, several acoustic patterns can bring about the perception of creaky voice, thereby complicating the strategies used for its automatic detection, analysis and modelling. The present study is carried out using a variety of languages, speakers, and on both read and conversational data and involves a mutual information-based assessment of the various acoustic features proposed in the literature for detecting creaky voice. These features are then exploited in classification experiments where we achieve an appreciable improvement in detection accuracy compared to the state of the art. Both experiments clearly highlight the presence of several creaky patterns. A subsequent qualitative and quantitative analysis of the identified patterns is provided, which reveals a considerable speaker-dependent variability in the usage of these creaky patterns. We also investigate how creaky voice detection systems perform across creaky patterns.
翻訳日:2022-11-26 12:57:49 公開日:2020-05-31
# 視覚的接地音声を用いた単語認識学習

Learning to Recognise Words using Visually Grounded Speech ( http://arxiv.org/abs/2006.00512v1 )

ライセンス: Link先を確認
Sebastiaan Scholten, Danny Merkx, Odette Scharenborg(参考訳) 視覚下地音声モデルによる単語認識について検討した。 このモデルは、画像と音声キャプションのペアで訓練され、視覚的に接地した埋め込みを作成し、音声から画像検索に利用し、その逆もできる。 そこで本研究では, 孤立した単語を埋め込み, 画像検索に使用することにより, 単語を認識できるかどうかを検討する。 ゲーティングパラダイムを用いて単語認識の時間軸を調査し,人間の音声処理における単語競合効果が単語認識に影響を及ぼすかどうかを統計的に分析する。 実験の結果,このモデルでは単語を認識でき,またゲーティングパラダイムでは,単語を部分的な入力から認識することもでき,単語の初期コホートからの単語競合に負の影響を受けやすいことがわかった。

We investigated word recognition in a Visually Grounded Speech model. The model has been trained on pairs of images and spoken captions to create visually grounded embeddings which can be used for speech to image retrieval and vice versa. We investigate whether such a model can be used to recognise words by embedding isolated words and using them to retrieve images of their visual referents. We investigate the time-course of word recognition using a gating paradigm and perform a statistical analysis to see whether well known word competition effects in human speech processing influence word recognition. Our experiments show that the model is able to recognise words, and the gating paradigm reveals that words can be recognised from partial input as well and that recognition is negatively influenced by word competition from the word initial cohort.
翻訳日:2022-11-26 12:51:21 公開日:2020-05-31
# 『私のサイズ(名詞)で判断する』ヨーダリブ:人口動態を意識したユーモア生成フレームワーク

"Judge me by my size (noun), do you?'' YodaLib: A Demographic-Aware Humor Generation Framework ( http://arxiv.org/abs/2006.00578v1 )

ライセンス: Link先を確認
Aparna Garimella, Carmen Banea, Nabil Hossain, Rada Mihalcea(参考訳) ユーモアの主観的性質は、コンピュータ化されたユーモア生成を困難な課題にする。 本稿では,mad libsストーリーの空白を埋めるためのユーモア自動生成フレームワークを提案する。 このようなストーリーで構成されたデータセットを収集し、Amazon Mechanical Turk上で慎重に選択された労働者によって判断される。 我々は、不完全文中の位置バイアス付き単語充填を予測するためにBERTプラットフォームを構築し、文章中の位置バイアス付きユーモアを分類するためにBERTを微調整する。 対象語や文を選択・分類し,特定の年齢層に合わせたコヒーレントで面白い物語を生成する,完全自動化されたmad libsスタイルのユーモア生成フレームワークであるyodalibを開発した。 実験の結果,YodaLibは従来提案されていた半自動的手法よりも優れており,定性的・定量的分析においても人間のアノテータを上回っていることがわかった。

The subjective nature of humor makes computerized humor generation a challenging task. We propose an automatic humor generation framework for filling the blanks in Mad Libs stories, while accounting for the demographic backgrounds of the desired audience. We collect a dataset consisting of such stories, which are filled in and judged by carefully selected workers on Amazon Mechanical Turk. We build upon the BERT platform to predict location-biased word fillings in incomplete sentences, and we fine tune BERT to classify location-specific humor in a sentence. We leverage these components to produce YodaLib, a fully-automated Mad Libs style humor generation framework, which selects and ranks appropriate candidate words and sentences in order to generate a coherent and funny story tailored to certain demographics. Our experimental results indicate that YodaLib outperforms a previous semi-automated approach proposed for this task, while also surpassing human annotators in both qualitative and quantitative analyses.
翻訳日:2022-11-26 12:50:50 公開日:2020-05-31
# LRG at SemEval-2020 Task 7:Assess the Aability of BERT and Derivative Models to Perform Short-Edits based Humor Grading (特集 New Trends)

LRG at SemEval-2020 Task 7: Assessing the Ability of BERT and Derivative Models to Perform Short-Edits based Humor Grading ( http://arxiv.org/abs/2006.00607v1 )

ライセンス: Link先を確認
Siddhant Mahurkar and Rajaswa Patil(参考訳) 本稿では,短編集によるユーモアグレーディングにおけるBERTとその派生モデル(RoBERTa, DistilBERT, ALBERT)の有効性を評価する。 humicroeditとfunlinesデータセット上で、これらのモデルをユーモアのグレーディングと分類タスクのためにテストします。 我々はこれらのモデルを用いて、ゼロショット推論とデータセット間推論に基づくアプローチを用いて、言語モデリングと一般化能力をテストする。 さらに、トレーニングされたBERTモデルの最終層から自己注意重みを定性的に分析することにより、ユーモアグレーディングにおける自己注意層の役割についても検討する。 実験の結果, 事前学習したBERT派生モデルはすべて, ユーモラスグレーティングに関連するタスクに対して重要な一般化能力を示すことがわかった。

In this paper, we assess the ability of BERT and its derivative models (RoBERTa, DistilBERT, and ALBERT) for short-edits based humor grading. We test these models for humor grading and classification tasks on the Humicroedit and the FunLines dataset. We perform extensive experiments with these models to test their language modeling and generalization abilities via zero-shot inference and cross-dataset inference based approaches. Further, we also inspect the role of self-attention layers in humor-grading by performing a qualitative analysis over the self-attention weights from the final layer of the trained BERT model. Our experiments show that all the pre-trained BERT derivative models show significant generalization capabilities for humor-grading related tasks.
翻訳日:2022-11-26 12:49:48 公開日:2020-05-31
# CNRL at SemEval-2020 Task 5: Modelling Causal Reasoning in Language with Multi-Head Self-Attention Weights Based Counterfactal Detection

CNRL at SemEval-2020 Task 5: Modelling Causal Reasoning in Language with Multi-Head Self-Attention Weights based Counterfactual Detection ( http://arxiv.org/abs/2006.00609v1 )

ライセンス: Link先を確認
Rajaswa Patil and Veeky Baths(参考訳) 本稿では,自然言語における因果推論のモデル化手法として,多頭自己照査重みを用いてテキスト中の反事実を検出する手法を提案する。 事前学習したトランスフォーマーモデルを用いて,テキストから文脈埋め込みと自己対応重みを抽出する。 これらの自己注意重みからタスク固有の特徴を抽出するために畳み込み層を用いることを示す。 さらに,類似した2つのサブタスク間の知識共有のための共通基盤モデルを用いた微調整手法について述べる。 実験では, 各種変圧器モデルの性能解析と比較を行った。 最後に,マルチヘッド自足重みを用いて定性解析を行い,モデルのダイナミクスを解釈する。

In this paper, we describe an approach for modelling causal reasoning in natural language by detecting counterfactuals in text using multi-head self-attention weights. We use pre-trained transformer models to extract contextual embeddings and self-attention weights from the text. We show the use of convolutional layers to extract task-specific features from these self-attention weights. Further, we describe a fine-tuning approach with a common base model for knowledge sharing between the two closely related sub-tasks for counterfactual detection. We analyze and compare the performance of various transformer models in our experiments. Finally, we perform a qualitative analysis with the multi-head self-attention weights to interpret our models' dynamics.
翻訳日:2022-11-26 12:49:32 公開日:2020-05-31
# データ駆動型最適潮流:物理インフォームド機械学習アプローチ

Data-driven Optimal Power Flow: A Physics-Informed Machine Learning Approach ( http://arxiv.org/abs/2006.00544v1 )

ライセンス: Link先を確認
Xingyu Lei, Zhifang Yang, Juan Yu, Junbo Zhao, Qian Gao, Hongxin Yu(参考訳) 本稿では,selm(stacked extreme learning machine)フレームワークに基づく最適パワーフロー(opf)のためのデータ駆動アプローチを提案する。 SELMは高速なトレーニング速度を持ち、ディープラーニングアルゴリズムと比較して時間を要するパラメータチューニング処理を必要としない。 しかし,システム動作状態とOPFソリューションの複雑な関係のため,SELMのOPFへの直接適用は困難である。 この目的のために、OPFモデルの機能を3段階に分解するデータ駆動型OPF回帰フレームワークを開発した。 これは学習の複雑さを減らすだけでなく、学習バイアスの修正にも役立ちます。 機能アトラクションの強化を実現するために,アクティブ制約同定に基づくサンプル事前分類戦略も開発されている。 IEEEおよびポーランドのベンチマークシステムにおいて,提案手法が他の手法よりも優れていることを示す。 また,提案手法は,少数のハイパーパラメータを調整することで,異なるテストシステムに容易に拡張できることが示されている。

This paper proposes a data-driven approach for optimal power flow (OPF) based on the stacked extreme learning machine (SELM) framework. SELM has a fast training speed and does not require the time-consuming parameter tuning process compared with the deep learning algorithms. However, the direct application of SELM for OPF is not tractable due to the complicated relationship between the system operating status and the OPF solutions. To this end, a data-driven OPF regression framework is developed that decomposes the OPF model features into three stages. This not only reduces the learning complexity but also helps correct the learning bias. A sample pre-classification strategy based on active constraint identification is also developed to achieve enhanced feature attractions. Numerical results carried out on IEEE and Polish benchmark systems demonstrate that the proposed method outperforms other alternatives. It is also shown that the proposed method can be easily extended to address different test systems by adjusting only a few hyperparameters.
翻訳日:2022-11-26 12:48:58 公開日:2020-05-31
# 地域連続学習のための深部Rラーニング

Deep R-Learning for Continual Area Sweeping ( http://arxiv.org/abs/2006.00589v1 )

ライセンス: Link先を確認
Rishi Shah, Yuqian Jiang, Justin Hart, Peter Stone(参考訳) カバレッジパス計画(英語: cover path planning)は、ロボットが特定の領域のすべての点を通過する経路を、通常一様周波数で繰り返し計画しなければならない、ロボット工学におけるよく研究された問題である。 いくつかのポイントをもっと頻繁に訪問する必要があるシナリオに対処するため、この問題は一様でないカバレッジ計画に拡張されている。 本稿では,ロボットが事前に関連事象の分布を把握せず,かつ,関心事象の検出率の最大化を学ばなければならない,一様でないカバレッジのバリエーションについて考察する。 この連続的な地域浄化問題は、環境に関する強い仮定を定式化しており、これまでは強欲なアプローチが提案されているのみである。 環境制約を少なく抑えるために, 連続的なエリアスイーピング定式化を一般化し, 半マルコフ決定過程における強化学習に基づく新しいアプローチを提案する。 このアプローチは抽象シミュレーションおよび高忠実度ガゼボシミュレーションで評価される。 これらの評価は、サービスロボティクスの成長分野に特に関係する、一般的な設定における既存のアプローチにおいて大きな改善を示している。

Coverage path planning is a well-studied problem in robotics in which a robot must plan a path that passes through every point in a given area repeatedly, usually with a uniform frequency. To address the scenario in which some points need to be visited more frequently than others, this problem has been extended to non-uniform coverage planning. This paper considers the variant of non-uniform coverage in which the robot does not know the distribution of relevant events beforehand and must nevertheless learn to maximize the rate of detecting events of interest. This continual area sweeping problem has been previously formalized in a way that makes strong assumptions about the environment, and to date only a greedy approach has been proposed. We generalize the continual area sweeping formulation to include fewer environmental constraints, and propose a novel approach based on reinforcement learning in a Semi-Markov Decision Process. This approach is evaluated in an abstract simulation and in a high fidelity Gazebo simulation. These evaluations show significant improvement upon the existing approach in general settings, which is especially relevant in the growing area of service robotics.
翻訳日:2022-11-26 12:43:56 公開日:2020-05-31
# EEG-TCNet: 埋め込み型運動画像脳機械インタフェースのための正確な時間畳み込みネットワーク

EEG-TCNet: An Accurate Temporal Convolutional Network for Embedded Motor-Imagery Brain-Machine Interfaces ( http://arxiv.org/abs/2006.00622v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Michael Hersche, Xiaying Wang, Nobuaki Kobayashi, Lukas Cavigelli, Luca Benini(参考訳) 近年、深層学習(DL)は脳波(EEG)に基づく運動画像脳-機械インタフェース(MI-BMI)の改善に大きく貢献している。 高い分類精度を達成する一方で、DLモデルのサイズも大きくなり、大量のメモリと計算資源が必要になった。 これは、データのローカル処理によるユーザのプライバシ、レイテンシ低減、低消費電力を保証する組み込みBMIソリューションに対して、大きな課題となる。 本稿では、トレーニング可能なパラメータをほとんど必要とせず、優れた精度を実現する新しい時間畳み込みネットワーク(TCN)であるEEG-TCNetを提案する。 メモリフットプリントの低さと推論の計算複雑性の低さは、エッジのリソース制限されたデバイスへの組み込み分類に適している。 BCIコンペティションIV-2aデータセットの実験結果は、EEG-TCNetが4クラスMIで77.35%の分類精度を達成したことを示している。 被験者毎の最適なネットワークハイパーパラメータを見つけることで、精度をさらに83.84%向上させる。 最後に、mi実験で12の異なるeegデータセットを含む大規模テストベンチマークである、すべてのbciベンチマーク(moabb)の母体上で、eeg-tcnetの汎用性を示す。 その結果、eeg-tcnetは単一のデータセット以上の一般化に成功し、moabbの現在の最先端(soa)を0.25のメタ効果で上回った。

In recent years, deep learning (DL) has contributed significantly to the improvement of motor-imagery brain-machine interfaces (MI-BMIs) based on electroencephalography(EEG). While achieving high classification accuracy, DL models have also grown in size, requiring a vast amount of memory and computational resources. This poses a major challenge to an embedded BMI solution that guarantees user privacy, reduced latency, and low power consumption by processing the data locally. In this paper, we propose EEG-TCNet, a novel temporal convolutional network (TCN) that achieves outstanding accuracy while requiring few trainable parameters. Its low memory footprint and low computational complexity for inference make it suitable for embedded classification on resource-limited devices at the edge. Experimental results on the BCI Competition IV-2a dataset show that EEG-TCNet achieves 77.35% classification accuracy in 4-class MI. By finding the optimal network hyperparameters per subject, we further improve the accuracy to 83.84%. Finally, we demonstrate the versatility of EEG-TCNet on the Mother of All BCI Benchmarks (MOABB), a large scale test benchmark containing 12 different EEG datasets with MI experiments. The results indicate that EEG-TCNet successfully generalizes beyond one single dataset, outperforming the current state-of-the-art (SoA) on MOABB by a meta-effect of 0.25.
翻訳日:2022-11-26 12:43:10 公開日:2020-05-31
# 線形モデルとマルチレゾリューション多領域記号表現を用いた解釈可能な時系列分類

Interpretable Time Series Classification using Linear Models and Multi-resolution Multi-domain Symbolic Representations ( http://arxiv.org/abs/2006.01667v1 )

ライセンス: Link先を確認
Thach Le Nguyen and Severin Gsponer and Iulia Ilie and Martin O'Reilly and Georgiana Ifrim(参考訳) 時系列分類文学は過去10年間で急速に拡大し、毎年多くの新しい分類アプローチが公表されている。 以前の研究は主に分類器の精度と効率の改善に重点を置いており、解釈性は幾分無視されている。 分類器のこの側面は、多くのアプリケーションドメインにとって重要になり、2018年のEU GDPR法の導入は、解釈可能な学習アルゴリズムの重要性をさらに強調する可能性が高い。 現在、最先端の分類精度は、大きなアンサンブル(COTE)またはディープニューラルネットワーク(FCN)に基づいた非常に複雑なモデルで達成されている。 これらのアプローチは時間や空間のどちらに関しても効率的ではなく、解釈が難しく、可変長時系列に適用できないため、元のシリーズをセットされた固定長に前処理する必要がある。 本稿では,これらのギャップに対処する新しい時系列分類アルゴリズムを提案する。 本手法は,時系列の記号表現,効率的なシーケンスマイニングアルゴリズム,線形分類モデルに基づく。 我々の線形モデルはディープラーニングモデルと同じくらい正確であるが、実行時間やメモリに関してより効率的であり、可変長の時系列を扱うことができ、元の時系列における識別的象徴的特徴を強調することで解釈できる。 マルチレゾリューション・マルチドメイン線形分類器(mtSS-SEQL+LR)は,最先端のCOTEアンサンブルや最近の深層学習手法(FCN, ResNet)と同様の精度で,COTEや深層モデルで必要とされる時間とメモリのごく一部を使用することを示す。 この分類器の解釈可能性をさらに分析するために,著者らが収集した人間の動作データセットを事例として検討する。 再現性を促進するために、すべての結果、ソースコード、データをリリースします。

The time series classification literature has expanded rapidly over the last decade, with many new classification approaches published each year. Prior research has mostly focused on improving the accuracy and efficiency of classifiers, with interpretability being somewhat neglected. This aspect of classifiers has become critical for many application domains and the introduction of the EU GDPR legislation in 2018 is likely to further emphasize the importance of interpretable learning algorithms. Currently, state-of-the-art classification accuracy is achieved with very complex models based on large ensembles (COTE) or deep neural networks (FCN). These approaches are not efficient with regard to either time or space, are difficult to interpret and cannot be applied to variable-length time series, requiring pre-processing of the original series to a set fixed-length. In this paper we propose new time series classification algorithms to address these gaps. Our approach is based on symbolic representations of time series, efficient sequence mining algorithms and linear classification models. Our linear models are as accurate as deep learning models but are more efficient regarding running time and memory, can work with variable-length time series and can be interpreted by highlighting the discriminative symbolic features on the original time series. We show that our multi-resolution multi-domain linear classifier (mtSS-SEQL+LR) achieves a similar accuracy to the state-of-the-art COTE ensemble, and to recent deep learning methods (FCN, ResNet), but uses a fraction of the time and memory required by either COTE or deep models. To further analyse the interpretability of our classifier, we present a case study on a human motion dataset collected by the authors. We release all the results, source code and data to encourage reproducibility.
翻訳日:2022-11-26 12:42:28 公開日:2020-05-31
# エンド・ツー・エンド法による脳腫瘍の分節と全生存予測

A Review on End-To-End Methods for Brain Tumor Segmentation and Overall Survival Prediction ( http://arxiv.org/abs/2006.01632v1 )

ライセンス: Link先を確認
Snehal Rajput, Mehul S Raval(参考訳) 脳腫瘍の分節は、正常な脳組織から腫瘍組織を脱線することを目的としている。 腫瘍組織は壊死、縦隔浮腫、活動性腫瘍を含む。 対照的に、健康な脳組織は白い物質、灰色の物質、脳脊髄液を含む。 MRIベースの脳腫瘍セグメンテーションの研究が人気を集めている。 1.x線やct画像などの電離放射線を照射しない。 2.内部構造の詳細な画像を作成する。 MRIスキャンは、深層学習に基づくアプローチに入力され、自動脳腫瘍セグメンテーションに有用である。 セグメントの特徴は分類器に与えられ、患者の全体的な生存率を予測する。 本研究の目的は脳腫瘍の分節化と全体的な生存予測に関する最先端の概観を提供することである。

Brain tumor segmentation intends to delineate tumor tissues from healthy brain tissues. The tumor tissues include necrosis, peritumoral edema, and active tumor. In contrast, healthy brain tissues include white matter, gray matter, and cerebrospinal fluid. The MRI based brain tumor segmentation research is gaining popularity as; 1. It does not irradiate ionized radiation like X-ray or computed tomography imaging. 2. It produces detailed pictures of internal body structures. The MRI scans are input to deep learning-based approaches which are useful for automatic brain tumor segmentation. The features from segments are fed to the classifier which predict the overall survival of the patient. The motive of this paper is to give an extensive overview of state-of-the-art jointly covering brain tumor segmentation and overall survival prediction.
翻訳日:2022-11-26 12:41:56 公開日:2020-05-31
# グラフ上のグラディエント・スパースパラメータ推定のためのツリー投影グラディエントDescent

Tree-Projected Gradient Descent for Estimating Gradient-Sparse Parameters on Graphs ( http://arxiv.org/abs/2006.01662v1 )

ライセンス: Link先を確認
Sheng Xu, Zhou Fan, Sahand Negahban(参考訳) グラデーション・スパースパラメータベクトル $\boldsymbol{\theta}^* \in \mathbb{r}^p$ の推定について検討し、基礎となるグラフ $g$ 上で強い勾配分離性$s^*:|\nabla_g \boldsymbol{\theta}^*\|_0$ を持つ。 Z_1,\ldots,Z_n$ および滑らかな凸損失関数 $\mathcal{L}$ に対して、$\boldsymbol{\theta}^*$ は人口リスク $\mathbb{E}[\mathcal{L}(\boldsymbol{\theta};Z_1,\ldots,Z_n)]$ を最小化する。 適切な制限された強凸性と損失に対する滑らかさの仮定の下で、結果として生じる推定器は、$g$から独立な乗算定数まで2乗誤差のリスク$\frac{s^*}{n} \log (1+\frac{p}{s^*}) を達成する。 対照的に、従来の多項式時間アルゴリズムは、より特殊な設定、または$g$と/または$\nabla_g \boldsymbol{\theta}^*$のスパーシティパターンに対する追加の仮定の下でのみこの保証を達成することが示されている。 一般フレームワークの応用として、ランダムな設計を伴う線形モデルや一般化線形モデルの例に適用する。

We study estimation of a gradient-sparse parameter vector $\boldsymbol{\theta}^* \in \mathbb{R}^p$, having strong gradient-sparsity $s^*:=\|\nabla_G \boldsymbol{\theta}^*\|_0$ on an underlying graph $G$. Given observations $Z_1,\ldots,Z_n$ and a smooth, convex loss function $\mathcal{L}$ for which $\boldsymbol{\theta}^*$ minimizes the population risk $\mathbb{E}[\mathcal{L}(\boldsymbol{\theta};Z_1,\ldots,Z_n)]$, we propose to estimate $\boldsymbol{\theta}^*$ by a projected gradient descent algorithm that iteratively and approximately projects gradient steps onto spaces of vectors having small gradient-sparsity over low-degree spanning trees of $G$. We show that, under suitable restricted strong convexity and smoothness assumptions for the loss, the resulting estimator achieves the squared-error risk $\frac{s^*}{n} \log (1+\frac{p}{s^*})$ up to a multiplicative constant that is independent of $G$. In contrast, previous polynomial-time algorithms have only been shown to achieve this guarantee in more specialized settings, or under additional assumptions for $G$ and/or the sparsity pattern of $\nabla_G \boldsymbol{\theta}^*$. As applications of our general framework, we apply our results to the examples of linear models and generalized linear models with random design.
翻訳日:2022-11-26 12:41:03 公開日:2020-05-31
# 実践的推論による情報参照の学習

Learning to refer informatively by amortizing pragmatic reasoning ( http://arxiv.org/abs/2006.00418v1 )

ライセンス: Link先を確認
Julia White, Jesse Mu, Noah D. Goodman(参考訳) 人間の言語の特徴は、文脈に関連した情報を効果的かつ効率的に伝達する能力である。 言語に対する人間の推論の1つの理論は、再帰的な社会的推論(Goodman & Frank, 2016)を通じて現実的な現象を捉えるRational Speech Acts(RSA)フレームワークで提示されている。 しかし、RSAは制約のない環境での理想的な推論を表す。 内部リスナモデルとのコミュニケーションを成功させるために直接最適化することで,話者は時間とともにrsa計算のコストを償却することを学べるかもしれない。 合成データと人間の生成データを表す2つのコミュニケーションゲームデータセットの接地型ニューラルスピーカーとリスナーによるシミュレーションでは、明示的な実用的推論を必要とせずに、より効果的で簡潔な言語を迅速に生成できることがわかった。

A hallmark of human language is the ability to effectively and efficiently convey contextually relevant information. One theory for how humans reason about language is presented in the Rational Speech Acts (RSA) framework, which captures pragmatic phenomena via a process of recursive social reasoning (Goodman & Frank, 2016). However, RSA represents ideal reasoning in an unconstrained setting. We explore the idea that speakers might learn to amortize the cost of RSA computation over time by directly optimizing for successful communication with an internal listener model. In simulations with grounded neural speakers and listeners across two communication game datasets representing synthetic and human-generated data, we find that our amortized model is able to quickly generate language that is effective and concise across a range of contexts, without the need for explicit pragmatic reasoning.
翻訳日:2022-11-26 12:40:15 公開日:2020-05-31
# 2018年のブラジル大統領選挙に関連するグループ信念をツイートで検出する : モデリングトピックスとセンチメント分析の併用研究

Detecting Group Beliefs Related to 2018's Brazilian Elections in Tweets A Combined Study on Modeling Topics and Sentiment Analysis ( http://arxiv.org/abs/2006.00490v1 )

ライセンス: Link先を確認
Brenda Salenave Santana and Aline Aver Vanin(参考訳) 2018年のブラジル大統領選挙は、Twitterなどの代替メディアやソーシャルネットワークの影響を強調した。 本研究では,ブラジルの選挙における第2回投票に関する政治的動機づけ談話の分析を行う。 同様の言説が集団の関与を個人的信念に強化するかどうかを検証するため,当時の政治ハッシュタグに関連する一連のツイートを収集した。 この目的のために我々は,話題モデリング手法と意見マイニング手法を組み合わせて,動機付けられた政治談話の分析を行った。 ポルトガルの感情辞書であるSentiLex-PTを用いて,意見に関連する単語群のトップ5から抽出した。 単語のバッグモデルを用いて,各意見群と観察群間でコサイン類似性計算を行った。 本研究は、デジタル政治シナリオにおける情熱的な談話の更なる活用を、類似の信念を伝える集団への感謝と関与の一形態として観察することを可能にした。

2018's Brazilian presidential elections highlighted the influence of alternative media and social networks, such as Twitter. In this work, we perform an analysis covering politically motivated discourses related to the second round in Brazilian elections. In order to verify whether similar discourses reinforce group engagement to personal beliefs, we collected a set of tweets related to political hashtags at that moment. To this end, we have used a combination of topic modeling approach with opinion mining techniques to analyze the motivated political discourses. Using SentiLex-PT, a Portuguese sentiment lexicon, we extracted from the dataset the top 5 most frequent group of words related to opinions. Applying a bag-of-words model, the cosine similarity calculation was performed between each opinion and the observed groups. This study allowed us to observe an exacerbated use of passionate discourses in the digital political scenario as a form of appreciation and engagement to the groups which convey similar beliefs.
翻訳日:2022-11-26 12:39:58 公開日:2020-05-31
# ベイズ最適化と入力不確実性低減

Bayesian Optimisation vs. Input Uncertainty Reduction ( http://arxiv.org/abs/2006.00643v1 )

ライセンス: Link先を確認
Juan Ungredda, Michael Pearce, Juergen Branke(参考訳) シミュレータは実世界データから推定されるキャリブレーション入力を必要とすることが多く、推定の質はシミュレーション出力に大きく影響する。 特に最適な解を見つけるためにシミュレーション最適化を行う場合、入力の不確実性は検出された解の品質に大きく影響する。 ひとつの解決策は、最適な妥協ソリューションをもたらす不確実範囲の入力に対して、平均で最高のパフォーマンスを持つソリューションを探索することだ。 我々は、ユーザがシミュレーションを実行するか、むしろ現実世界のデータを集めるかを選択できる、より一般的な設定を考える。 ユーザは、インプットとソリューションを選択してシミュレーション出力を観察し、代わりに、より焦点を絞った、より妥協の少ないソリューションを探索できるように、インプット推定を改善する外部データソースをクエリすることができる。 そこで本研究では,シミュレーションと実データ収集のトレードオフを明示的に検討し,真の入力によるシミュレータの最適解を求める。 情報手続きの値を用いて、ベイジアン情報収集最適化(bico)と呼ばれる新しい統一シミュレーション最適化手順を提案し、各イテレーションにおいて、どの2つのアクション(実行シミュレーションまたはデータ収集)がより有益かを自動的に決定する。 数値実験により,提案アルゴリズムは最適化とデータ収集の適切なバランスを自動的に決定できることを示した。

Simulators often require calibration inputs estimated from real world data and the quality of the estimate can significantly affect simulation output. Particularly when performing simulation optimisation to find an optimal solution, the uncertainty in the inputs significantly affects the quality of the found solution. One remedy is to search for the solution that has the best performance on average over the uncertain range of inputs yielding an optimal compromise solution. We consider the more general setting where a user may choose between either running simulations or instead collecting real world data. A user may choose an input and a solution and observe the simulation output, or instead query an external data source improving the input estimate enabling the search for a more focused, less compromised solution. We explicitly examine the trade-off between simulation and real data collection in order to find the optimal solution of the simulator with the true inputs. Using a value of information procedure, we propose a novel unified simulation optimisation procedure called Bayesian Information Collection and Optimisation (BICO) that, in each iteration, automatically determines which of the two actions (running simulations or data collection) is more beneficial. Numerical experiments demonstrate that the proposed algorithm is able to automatically determine an appropriate balance between optimisation and data collection.
翻訳日:2022-11-26 12:33:45 公開日:2020-05-31
# エンティティタグ付けと関係抽出のためのベンチマークバイオレックス

Benchmarking BioRelEx for Entity Tagging and Relation Extraction ( http://arxiv.org/abs/2006.00533v1 )

ライセンス: Link先を確認
Abhinav Bhatt, Kaustubh D. Dhole(参考訳) 異なる生物学的実体間の関係や相互作用の抽出は依然として非常に難しい問題であるが、他の一般的なドメインの抽出ほど注目されていない。 注釈付きデータの欠如に加えて、低ベンチマークは依然として進捗の鈍化の主な理由である。 このギャップを埋めるために,最近導入された公開データセット上で,既存の複数のエンティティと関係抽出モデルを比較した。 DYGIEのようなスパンベースのマルチタスクアーキテクチャは、前回の最先端技術よりもエンティティタグと関係抽出の絶対的な改善が4.9%と6%を示し、関連するドメインに事前トレーニングされた埋め込みのようなドメイン固有の情報を組み込むことでパフォーマンスが向上することを示している。

Extracting relationships and interactions between different biological entities is still an extremely challenging problem but has not received much attention as much as extraction in other generic domains. In addition to the lack of annotated data, low benchmarking is still a major reason for slow progress. In order to fill this gap, we compare multiple existing entity and relation extraction models over a recently introduced public dataset, BioRelEx of sentences annotated with biological entities and relations. Our straightforward benchmarking shows that span-based multi-task architectures like DYGIE show 4.9% and 6% absolute improvements in entity tagging and relation extraction respectively over the previous state-of-art and that incorporating domain-specific information like embeddings pre-trained over related domains boosts performance.
翻訳日:2022-11-26 12:33:03 公開日:2020-05-31
# ディープシームスニューラルネットワークによるテキスト分類のための文書埋め込みの改善

Improve Document Embedding for Text Categorization Through Deep Siamese Neural Network ( http://arxiv.org/abs/2006.00572v1 )

ライセンス: Link先を確認
Erfaneh Gharavi, Hadi Veisi(参考訳) インターネット上のデータ量の増加により、テキスト分類を含む効率的な自然言語処理タスクにおいて、高インフォーマルで低次元のテキスト表現を見つけることが大きな課題となっている。 この表現は、文書分類の関連レベルを維持しながら、テキストの意味情報をキャプチャするべきである。 このアプローチは、文書を類似したトピックでベクトル空間表現の類似した空間にマッピングする。 大規模テキストの表現を得るために,ディープ・シームズニューラルネットワークの利用を提案する。 分散表現にトピックにドキュメントの関連性を埋め込むために、siameseニューラルネットワークを使用してドキュメント表現を共同学習する。 siameseネットワークは、多層パーセプトロンの2つのサブネットワークからなる。 bbcニュースデータセットにおけるテキスト分類タスクの表現について検討する。 その結果,提案した表現は,本データセットのテキスト分類タスクにおいて,従来および最先端の表現よりも優れていた。

Due to the increasing amount of data on the internet, finding a highly-informative, low-dimensional representation for text is one of the main challenges for efficient natural language processing tasks including text classification. This representation should capture the semantic information of the text while retaining their relevance level for document classification. This approach maps the documents with similar topics to a similar space in vector space representation. To obtain representation for large text, we propose the utilization of deep Siamese neural networks. To embed document relevance in topics in the distributed representation, we use a Siamese neural network to jointly learn document representations. Our Siamese network consists of two sub-network of multi-layer perceptron. We examine our representation for the text categorization task on BBC news dataset. The results show that the proposed representations outperform the conventional and state-of-the-art representations in the text classification task on this dataset.
翻訳日:2022-11-26 12:32:47 公開日:2020-05-31
# モーメントを用いた新しい高速化確率勾配法

A New Accelerated Stochastic Gradient Method with Momentum ( http://arxiv.org/abs/2006.00423v1 )

ライセンス: Link先を確認
Liang Liu and Xiaopeng Luo(参考訳) 本稿では,モーメントが過去の勾配の重み付き平均となる運動量を持つ新しい加速度確率勾配法を提案する。 重みは反復時間に比例して崩壊する。 運動量を伴う確率勾配降下(Sgdm)は、繰り返し時間とともに指数関数的に減衰する重みを使って運動量項を生成する。 指数関数的に減衰する重みを用いて、優れた設計と複雑なフォーマットを持つsgdmの変種がより良い性能を達成するために提案されている。 我々の手法のモーメント更新規則はSgdmと同じくらい単純である。 本研究では,指数関数的減衰重みと逆比例分解重みの両方が領域に最適化されるパラメータの移動方向のばらつきを制限することができる理論収束特性解析を行う。 実験の結果,本手法は実用上の問題にうまく対応し,Sgdmより優れ,畳み込みニューラルネットワークではAdamより優れていた。

In this paper, we propose a novel accelerated stochastic gradient method with momentum, which momentum is the weighted average of previous gradients. The weights decays inverse proportionally with the iteration times. Stochastic gradient descent with momentum (Sgdm) use weights that decays exponentially with the iteration times to generate an momentum term. Using exponentially decaying weights, variants of Sgdm with well designed and complicated formats have been proposed to achieve better performance. The momentum update rules of our method is as simple as that of Sgdm. We provide theoretical convergence properties analyses for our method, which show both the exponentially decay weights and our inverse proportionally decay weights can limit the variance of the moving direction of parameters to be optimized to a region. Experimental results empirically show that our method works well with practical problems and outperforms Sgdm, and it outperforms Adam in convolutional neural networks.
翻訳日:2022-11-26 12:32:06 公開日:2020-05-31
# BiLSTM-CRFを用いた中国語の司法名認識

Recognizing Chinese Judicial Named Entity using BiLSTM-CRF ( http://arxiv.org/abs/2006.00464v1 )

ライセンス: Link先を確認
Pin Tang, Pinli Yang, Yuang Shi, Yi Zhou, Feng Lin and Yan Wang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理システムにおいて重要な役割を果たす。 司法ナーは、司法情報検索、実体関係抽出、知識マップ構築の基本的な構成要素である。 しかし、中国の司法のナーは、裁判所に提出された中国の特性と高い精度の要求により、より困難なままである。 そこで本稿では,BiLSTM-CRF(Bi-directional long short-term memory)と条件付きランダムフィールド(CRF)を組み合わせた深層学習方式を提案する。 さらなる精度向上のために,モデル最適化に適応モーメント推定(Adam)を用いることを提案する。 提案手法を検証するため,中国ジャッジメントオンラインから取得した,通勤・仮釈放・仮サービス等の判定文書の実験を行った。 実験の結果, 0.876の精度, 0.856のリコール, F1のスコア0.855の精度が得られ, 提案したBiLSTM-CRFのAdamオプティマイザによる優位性が示唆された。

Named entity recognition (NER) plays an essential role in natural language processing systems. Judicial NER is a fundamental component of judicial information retrieval, entity relation extraction, and knowledge map building. However, Chinese judicial NER remains to be more challenging due to the characteristics of Chinese and high accuracy requirements in the judicial filed. Thus, in this paper, we propose a deep learning-based method named BiLSTM-CRF which consists of bi-directional long short-term memory (BiLSTM) and conditional random fields (CRF). For further accuracy promotion, we propose to use Adaptive moment estimation (Adam) for optimization of the model. To validate our method, we perform experiments on judgment documents including commutation, parole and temporary service outside prison, which is acquired from China Judgments Online. Experimental results achieve the accuracy of 0.876, recall of 0.856 and F1 score of 0.855, which suggests the superiority of the proposed BiLSTM-CRF with Adam optimizer.
翻訳日:2022-11-26 12:24:50 公開日:2020-05-31
# 正規化流模型のクラスにおける表現力

The Expressive Power of a Class of Normalizing Flow Models ( http://arxiv.org/abs/2006.00392v1 )

ライセンス: Link先を確認
Zhifeng Kong and Kamalika Chaudhuri(参考訳) フローの正規化は、フレキシブルな生成モデルと簡単な確率計算を可能にするため、近年注目されている。 様々なフローモデルが提案されているが、これらのモデルの表現力に関する形式的な理解はほとんどない。 本研究では,基本的な正規化の流れを研究し,その表現力の限界を厳格に定式化する。 以上の結果から,これらの流れは1次元で非常に表現力が高いが,高次元では表現力に制限がある可能性が示唆された。

Normalizing flows have received a great deal of recent attention as they allow flexible generative modeling as well as easy likelihood computation. While a wide variety of flow models have been proposed, there is little formal understanding of the representation power of these models. In this work, we study some basic normalizing flows and rigorously establish bounds on their expressive power. Our results indicate that while these flows are highly expressive in one dimension, in higher dimensions their representation power may be limited, especially when the flows have moderate depth.
翻訳日:2022-11-26 12:23:57 公開日:2020-05-31
# DANR: 離散性を考慮したネットワーク正規化

DANR: Discrepancy-aware Network Regularization ( http://arxiv.org/abs/2006.00409v1 )

ライセンス: Link先を確認
Hongyuan You, Furkan Kocayusufoglu, Ambuj K. Singh(参考訳) ネットワーク正規化は、ネットワーク上のコヒーレントモデルを学ぶための構造的事前知識を組み込む効果的なツールであり、空間経済学から神経画像研究まで幅広い応用において、確実に正確な推定値が得られる。 近年,ネットワークの進化に対応するため,ネットワークの正規化を時空間に拡張することへの関心が高まっている。 しかし、時空間と時空間の両方の場合、欠落または破損したエッジウェイトは、望ましい解を見つけるためのネットワーク正規化の能力を損なう可能性がある。 これらのギャップに対処するため, 離散性を考慮したネットワーク正規化手法 (DANR) を提案し, 正規化が不十分で, 時空間ネットワーク上でのモデル進化と構造変化を効果的に捉える。 グローバル最適解への収束を保証し,提案する問題を解くために,乗算器の交互方向法(admm)に基づく分散スケーラブルアルゴリズムを開発した。 合成ネットワークと実世界のネットワークにおける実験結果から,本手法は様々なタスクの性能向上を実現し,進化するネットワークにおけるモデル変化の解釈を可能にした。

Network regularization is an effective tool for incorporating structural prior knowledge to learn coherent models over networks, and has yielded provably accurate estimates in applications ranging from spatial economics to neuroimaging studies. Recently, there has been an increasing interest in extending network regularization to the spatio-temporal case to accommodate the evolution of networks. However, in both static and spatio-temporal cases, missing or corrupted edge weights can compromise the ability of network regularization to discover desired solutions. To address these gaps, we propose a novel approach---{\it discrepancy-aware network regularization} (DANR)---that is robust to inadequate regularizations and effectively captures model evolution and structural changes over spatio-temporal networks. We develop a distributed and scalable algorithm based on the alternating direction method of multipliers (ADMM) to solve the proposed problem with guaranteed convergence to global optimum solutions. Experimental results on both synthetic and real-world networks demonstrate that our approach achieves improved performance on various tasks, and enables interpretation of model changes in evolving networks.
翻訳日:2022-11-26 12:23:47 公開日:2020-05-31
# peridynamic differential operator を用いた非局所物理型深層学習フレームワーク

A nonlocal physics-informed deep learning framework using the peridynamic differential operator ( http://arxiv.org/abs/2006.00446v1 )

ライセンス: Link先を確認
Ehsan Haghighat, Ali Can Bekar, Erdogan Madenci, Ruben Juanes(参考訳) 最近導入された物理情報ニューラルネットワーク(PINN)フレームワークは、物理をディープラーニングに取り入れ、偏微分方程式(PDE)の解法と方程式パラメータの同定に有望な道を提供する。 しかし、既存のpinnアプローチの性能は、ネットワークがグローバルに解の挙動を捉えることができないために、急勾配の存在下で低下する可能性がある。 この欠点は、短距離(局所)空間と時間変数に加えて、ネットワークの入力に長距離(非局所)相互作用を導入することで改善できると仮定する。 このアンサッツに従えば、近距離微分作用素 (pddo) を用いた非局所ピン法--長距離相互作用を取り入れ、支配方程式における空間微分を除去した数値解法-- を考案する。 PDDO関数はニューラルネットワークアーキテクチャに容易に組み込めるため、非局所性は現代のディープラーニングアルゴリズムの性能を低下させることはない。 非局所PDDO-PINNを固体力学における材料パラメータの解法および同定、具体的には、剛性パンチによる押込みを受ける領域の弾塑性変形に応用し、混合変位-引き込み境界条件が溶液の局所的変形と鋭い勾配をもたらすことを示した。 解の精度とパラメータ推定の両方において, 局所ピンに対する非局所ピンの優れた挙動を記述し, 解が鋭い勾配を発達する偏微分方程式のシミュレーションと発見の可能性を示した。

The Physics-Informed Neural Network (PINN) framework introduced recently incorporates physics into deep learning, and offers a promising avenue for the solution of partial differential equations (PDEs) as well as identification of the equation parameters. The performance of existing PINN approaches, however, may degrade in the presence of sharp gradients, as a result of the inability of the network to capture the solution behavior globally. We posit that this shortcoming may be remedied by introducing long-range (nonlocal) interactions into the network's input, in addition to the short-range (local) space and time variables. Following this ansatz, here we develop a nonlocal PINN approach using the Peridynamic Differential Operator (PDDO)---a numerical method which incorporates long-range interactions and removes spatial derivatives in the governing equations. Because the PDDO functions can be readily incorporated in the neural network architecture, the nonlocality does not degrade the performance of modern deep-learning algorithms. We apply nonlocal PDDO-PINN to the solution and identification of material parameters in solid mechanics and, specifically, to elastoplastic deformation in a domain subjected to indentation by a rigid punch, for which the mixed displacement--traction boundary condition leads to localized deformation and sharp gradients in the solution. We document the superior behavior of nonlocal PINN with respect to local PINN in both solution accuracy and parameter inference, illustrating its potential for simulation and discovery of partial differential equations whose solution develops sharp gradients.
翻訳日:2022-11-26 12:23:10 公開日:2020-05-31
# 損失誘導学習によるグラフ学習

Graph Learning with Loss-Guided Training ( http://arxiv.org/abs/2006.00460v1 )

ライセンス: Link先を確認
Eliav Buchnik, Edith Cohen(参考訳) 古典的には、確率勾配降下 (SGD) で訓練されたMLモデルは、例ごとの平均損失を最小限に抑え、トレーニングの過程で残っているトレーニング例の分布を利用するように設計されている。 近年の研究では、トレーニングの過程でトレーニング分布を動的に調整することで、経験的および理論的に大きな加速が可能となり、トレーニングがより損失の高い例に集中できることを示した。 本稿では,DeepWalkによるノード埋め込み手法の新たな領域における損失誘導トレーニングについて検討する。 これらの手法は、入力グラフ上のランダムウォークを用いて生成される暗黙的かつ大規模な正のトレーニング例で機能するので、典型的な例選択法には適用できない。 本稿では,このフレームワークにおける損失誘導学習を可能にする計算効率のよい手法を提案する。 データセットの豊富なコレクションに対する実験的な評価は,総合的なトレーニングと総合的な計算の両面で,ベースライン静的メソッドよりも大幅に加速していることを示す。

Classically, ML models trained with stochastic gradient descent (SGD) are designed to minimize the average loss per example and use a distribution of training examples that remains {\em static} in the course of training. Research in recent years demonstrated, empirically and theoretically, that significant acceleration is possible by methods that dynamically adjust the training distribution in the course of training so that training is more focused on examples with higher loss. We explore {\em loss-guided training} in a new domain of node embedding methods pioneered by {\sc DeepWalk}. These methods work with implicit and large set of positive training examples that are generated using random walks on the input graph and therefore are not amenable for typical example selection methods. We propose computationally efficient methods that allow for loss-guided training in this framework. Our empirical evaluation on a rich collection of datasets shows significant acceleration over the baseline static methods, both in terms of total training performed and overall computation.
翻訳日:2022-11-26 12:22:42 公開日:2020-05-31
# 量子化ニューラルネットワーク:キャラクタリゼーションと総合最適化

Quantized Neural Networks: Characterization and Holistic Optimization ( http://arxiv.org/abs/2006.00530v1 )

ライセンス: Link先を確認
Yoonho Boo, Sungho Shin, and Wonyong Sung(参考訳) 低消費電力、高スループット、組み込みアプリケーションには量子ディープニューラルネットワーク(QDNN)が必要である。 これまでの研究は主に与えられたモデルの量子化のための最適化手法の開発に重点を置いていた。 しかし、量子化感度はモデルアーキテクチャに依存する。 したがって、モデル選択はQDNN設計プロセスの一部となる必要がある。 また、重量と活性化量子化の特性は全く異なる。 本研究はQDNNのトレーニング手法と量子化フレンドリなアーキテクチャ設計を含むQDNNの最適化のための総合的なアプローチを提案する。 合成データは、重量と活性化量子化の効果を可視化するために使用される。 その結果、より深いモデルは活性化量子化の傾向が強く、より広いモデルは重量と活性化量子化の両面でレジリエンスを向上させることが示された。 本研究はQDNNの最適化に関する知見を提供する。

Quantized deep neural networks (QDNNs) are necessary for low-power, high throughput, and embedded applications. Previous studies mostly focused on developing optimization methods for the quantization of given models. However, quantization sensitivity depends on the model architecture. Therefore, the model selection needs to be a part of the QDNN design process. Also, the characteristics of weight and activation quantization are quite different. This study proposes a holistic approach for the optimization of QDNNs, which contains QDNN training methods as well as quantization-friendly architecture design. Synthesized data is used to visualize the effects of weight and activation quantization. The results indicate that deeper models are more prone to activation quantization, while wider models improve the resiliency to both weight and activation quantization. This study can provide insight into better optimization of QDNNs.
翻訳日:2022-11-26 12:22:26 公開日:2020-05-31
# 自然言語処理における伝達学習に関する調査

A Survey on Transfer Learning in Natural Language Processing ( http://arxiv.org/abs/2007.04239v1 )

ライセンス: Link先を確認
Zaid Alyafeai, Maged Saeed AlShaibani, Irfan Ahmad(参考訳) ディープラーニングモデルは通常、大量のデータが必要です。 しかし、これらの大きなデータセットは必ずしも達成できない。 これは多くの難題NLPタスクで一般的である。 例えばNeural Machine Translationでは、そのような大規模なデータセットをキュレートすることは、低リソース言語では特に不可能である可能性がある。 ディープラーニングモデルのもうひとつの制限は、巨大なコンピューティングリソースの需要だ。 これらの障害は、大規模に訓練されたモデルを用いた知識伝達の可能性に疑問を呈する研究を動機付ける。 多くの大規模モデルが出現するにつれて、転校学習の需要が増加している。 本調査では,最近のNLP分野における転写学習の進歩を取り上げる。 また、文献から異なる移行学習アプローチを分類するための分類も提供する。

Deep learning models usually require a huge amount of data. However, these large datasets are not always attainable. This is common in many challenging NLP tasks. Consider Neural Machine Translation, for instance, where curating such large datasets may not be possible specially for low resource languages. Another limitation of deep learning models is the demand for huge computing resources. These obstacles motivate research to question the possibility of knowledge transfer using large trained models. The demand for transfer learning is increasing as many large models are emerging. In this survey, we feature the recent transfer learning advances in the field of NLP. We also provide a taxonomy for categorizing different transfer learning approaches from the literature.
翻訳日:2022-11-26 12:15:46 公開日:2020-05-31
# 半教師付き学習の擬似表現ラベリング

Pseudo-Representation Labeling Semi-Supervised Learning ( http://arxiv.org/abs/2006.00429v1 )

ライセンス: Link先を確認
Song-Bo Yang, Tian-li Yu(参考訳) 近年、半教師付き学習(SSL)は、ラベルのないデータを活用してディープラーニングモデルの性能向上に成功し、大量のラベル付きデータの需要を大幅に減らしている。 多くのSSL技術が提案され、ImageNetやCIFAR-10のような有名なデータセットで有望なパフォーマンスを示している。 しかし、いくつかの出口技術(特にデータ拡張ベース)は経験的に産業用途には適していない。 そこで本研究では,擬似ラベル技術を用いて少量のラベル付データを反復的にラベル付けし,それらをトレーニングデータとして使用する,単純で柔軟なフレームワークであるpseudo-representation labelingを提案する。 さらに,本フレームワークは自己指導型表現学習と統合され,ラベル付きデータとラベルなしデータの双方の表現学習の恩恵を受けることができる。 このフレームワークは、特定のモデル構造に制限されることなく実装できるが、既存のモデルを改善するための一般的な技術である。 従来の手法と比較して、擬似表現ラベリングはより直感的であり、現実世界の実践的な問題を効果的に解決することができる。 経験的には、WM-811KウェハマップやMIT-BIH Arrhythmiaデータセットのような産業タイプの分類問題において、最先端の半教師付き学習法よりも優れている。

In recent years, semi-supervised learning (SSL) has shown tremendous success in leveraging unlabeled data to improve the performance of deep learning models, which significantly reduces the demand for large amounts of labeled data. Many SSL techniques have been proposed and have shown promising performance on famous datasets such as ImageNet and CIFAR-10. However, some exiting techniques (especially data augmentation based) are not suitable for industrial applications empirically. Therefore, this work proposes the pseudo-representation labeling, a simple and flexible framework that utilizes pseudo-labeling techniques to iteratively label a small amount of unlabeled data and use them as training data. In addition, our framework is integrated with self-supervised representation learning such that the classifier gains benefits from representation learning of both labeled and unlabeled data. This framework can be implemented without being limited at the specific model structure, but a general technique to improve the existing model. Compared with the existing approaches, the pseudo-representation labeling is more intuitive and can effectively solve practical problems in the real world. Empirically, it outperforms the current state-of-the-art semi-supervised learning methods in industrial types of classification problems such as the WM-811K wafer map and the MIT-BIH Arrhythmia dataset.
翻訳日:2022-11-26 12:15:04 公開日:2020-05-31
# ゲートリカレントユニットとアテンション機構を用いた歩行者追跡

Pedestrian Tracking with Gated Recurrent Units and Attention Mechanisms ( http://arxiv.org/abs/2006.11407v1 )

ライセンス: Link先を確認
Mahdi Elhousni and Xinming Huang(参考訳) 歩行者追跡は、特にセキュリティアプリケーションにおいて、長い間重要な問題と考えられてきた。 これまで、様々な種類のセンサで多くのアプローチが提案されてきた。 1つの一般的な方法は、慣性測定ユニット(IMU)センサーに基づくPDR(Pedestrian Dead Reckoning)[1]である。 しかし、pdrは集積誤差と精度の低下に苦しむ統合およびしきい値ベース手法である。 本稿では,センサデータを深層学習モデルに入力し,歩行者の変位や方向を予測する新しい手法を提案する。 また,idmセンサデータとlidarで測定した正確な位置を含むデータベースを収集・構築する装置を新たに開発した。 予備結果は有望であり、より多くのデータを収集し、全歩行者運動にディープラーニングモデルを適用することでこれを前進させる計画である。

Pedestrian tracking has long been considered an important problem, especially in security applications. Previously,many approaches have been proposed with various types of sensors. One popular method is Pedestrian Dead Reckoning(PDR) [1] which is based on the inertial measurement unit(IMU) sensor. However PDR is an integration and threshold based method, which suffers from accumulation errors and low accuracy. In this paper, we propose a novel method in which the sensor data is fed into a deep learning model to predict the displacements and orientations of the pedestrian. We also devise a new apparatus to collect and construct databases containing synchronized IMU sensor data and precise locations measured by a LIDAR. The preliminary results are promising, and we plan to push this forward by collecting more data and adapting the deep learning model for all general pedestrian motions.
翻訳日:2022-11-26 12:14:43 公開日:2020-05-31
# 小児OSA分類における準等角形状に基づく側方ケファログラムの局所変形解析

Quasi-conformal Geometry based Local Deformation Analysis of Lateral Cephalogram for Childhood OSA Classification ( http://arxiv.org/abs/2006.11408v1 )

ライセンス: Link先を確認
Hei-Long Chan, Hoi-Man Yuen, Chun-Ting Au, Kate Ching-Ching Chan, Albert Martin Li, Lok-Ming Lui(参考訳) 頭蓋顔面形態は閉塞性睡眠時無呼吸(OSA)の解剖学的原因の1つである。 医学的な研究により、脳波計は患者の骨格構造や軟組織に関する情報を提供する。 そこで本研究では,準共形幾何学に基づく局所的変形情報を用いた頭部計測手法を提案する。 本研究は,60対のケースコントロールペアと,アクセス可能な側方脳波とPSG(Polysomnography)データを用いた振り返り分析である。 15個のランドマーク点の局所変形を準共形幾何学を用いて検討し, ランドマーク点間の3つの直線距離と組み合わせることで, 対象毎に合計1218個の情報特徴を得た。 L2標準の分類モデルが開発された。 実験では92.5%の精度で実験を行った。

Craniofacial profile is one of the anatomical causes of obstructive sleep apnea(OSA). By medical research, cephalometry provides information on patients' skeletal structures and soft tissues. In this work, a novel approach to cephalometric analysis using quasi-conformal geometry based local deformation information was proposed for OSA classification. Our study was a retrospective analysis based on 60 case-control pairs with accessible lateral cephalometry and polysomnography (PSG) data. By using the quasi-conformal geometry to study the local deformation around 15 landmark points, and combining the results with three linear distances between landmark points, a total of 1218 information features were obtained per subject. A L2 norm based classification model was built. Under experiments, our proposed model achieves 92.5% testing accuracy.
翻訳日:2022-11-26 12:14:31 公開日:2020-05-31
# フルインフォームドcuckoo探索アルゴリズムを用いたマルチレベル画像閾値決定

Multilevel Image Thresholding Using a Fully Informed Cuckoo Search Algorithm ( http://arxiv.org/abs/2006.09987v1 )

ライセンス: Link先を確認
Xiaotao Huang, Liang Shen, Chongyi Fan, Jiahua zhu and Sixian Chen(参考訳) セグメンテーションでは有効であるが、目的関数の最適化に最適なしきい値に対して徹底探索を用いるため、従来のマルチレベルしきい値法は計算コストがかかる。 この問題を解決するために、人口ベースメタヒューリスティックアルゴリズムは探索能力を向上させるために広く利用されている。 本稿では,環トポロジーに基づく完全インフォームド戦略を用いて,cuckoo searchと呼ばれる一般的なメタヒューリスティックスを改善する。 この戦略では、人口の各々が近隣から学び、人口の協力と学習効率を向上させる。 相関関数により品質を評価する初期ランダムしきい値から、ベストソリューションまたはベストフィットネス値を得ることができる。 種々の閾値について実験的に検討した。 その結果,提案アルゴリズムは,他の4つの手法よりも正確かつ効率的であることが示唆された。

Though effective in the segmentation, conventional multilevel thresholding methods are computationally expensive as exhaustive search are used for optimal thresholds to optimize the objective functions. To overcome this problem, population-based metaheuristic algorithms are widely used to improve the searching capacity. In this paper, we improve a popular metaheuristic called cuckoo search using a ring topology based fully informed strategy. In this strategy, each individual in the population learns from its neighborhoods to improve the cooperation of the population and the learning efficiency. Best solution or best fitness value can be obtained from the initial random threshold values, whose quality is evaluated by the correlation function. Experimental results have been examined on various numbers of thresholds. The results demonstrate that the proposed algorithm is more accurate and efficient than other four popular methods.
翻訳日:2022-11-26 12:13:50 公開日:2020-05-31
# 可変リワード推定器ボトルネック:マルチドメインタスク指向ダイアログのためのロバストリワード推定器の学習

Variational Reward Estimator Bottleneck: Learning Robust Reward Estimator for Multi-Domain Task-Oriented Dialog ( http://arxiv.org/abs/2006.00417v1 )

ライセンス: Link先を確認
Jeiyoon Park, Chanhee Lee, Kuekyeng Kim, Heuiseok Lim(参考訳) マルチドメインタスク指向ダイアログシステムに対する対人学習アプローチの成功にもかかわらず、逆逆強化学習による対話ポリシーの訓練は、しばしばポリシー生成器と報酬推定器のパフォーマンスのバランスが取れない。 最適化の間、報酬推定器はしばしばポリシージェネレータを圧倒し、過剰に不均一な勾配を生成する。 本研究では,入力と報酬推定器間の非生産的情報フローを制約する効果的な正規化手法である変分報酬推定ボトルネック(vrb)を提案する。 VRBは、相互情報のボトルネックを利用して差別的特徴を捉えることに焦点を当てている。 マルチドメインタスク指向のダイアログデータセットにおける実験結果から,VRBが従来の手法よりも大幅に優れていることが示された。

Despite its notable success in adversarial learning approaches to multi-domain task-oriented dialog system, training the dialog policy via adversarial inverse reinforcement learning often fails to balance the performance of the policy generator and reward estimator. During optimization, the reward estimator often overwhelms the policy generator and produces excessively uninformative gradients. We proposes the Variational Reward estimator Bottleneck (VRB), which is an effective regularization method that aims to constrain unproductive information flows between inputs and the reward estimator. The VRB focuses on capturing discriminative features, by exploiting information bottleneck on mutual information. Empirical results on a multi-domain task-oriented dialog dataset demonstrate that the VRB significantly outperforms previous methods.
翻訳日:2022-11-26 12:13:35 公開日:2020-05-31
# SANA : アルジェリアにおける新聞コメントの感性分析

SANA : Sentiment Analysis on Newspapers comments in Algeria ( http://arxiv.org/abs/2006.00459v1 )

ライセンス: Link先を確認
Hichem Rahab, Abdelhafid Zitouni, Mahieddine Djoudi(参考訳) 現在の生活では、発生した出来事との相互作用から人々の意見を追跡することが非常に最近のことである。 それを行うための非常に一般的な方法は、現代の出来事を扱う新聞ウェブサイトに掲載されている記事へのコメントである。 感性分析または意見マイニングは、意見テキストに隠された背景現象を見つけることを目的としている創発的な分野である。 アルジェリアの新聞サイトでのコメントで、我々の仕事に興味があります。 このため、SANAとOCAの2つのコーパスが使用された。 SANAコーパスはアルジェリアの新聞3紙からのコメントの収集によって作成され、アルジェリアのアラビア語話者2人が注釈を付け、OCAは感情分析のための無料のコーパスである。 分類には、サポートベクトルマシン、ナイーブベイズおよびケネレスの隣人を採用する。 得られた結果は非常に有望であり、そのような領域における茎の異なる効果を示す一方、ケネレスト近傍はSVMが最も支配的な類似の作業とは異なり、他の分類器と比較して重要な改善を与える。 本研究では,今後の研究で期待する新聞コメントの感情分析において,専門的資源の重要性と方法について考察する。

It is very current in today life to seek for tracking the people opinion from their interaction with occurring events. A very common way to do that is comments in articles published in newspapers web sites dealing with contemporary events. Sentiment analysis or opinion mining is an emergent field who is the purpose is finding the behind phenomenon masked in opinionated texts. We are interested in our work by comments in Algerian newspaper websites. For this end, two corpora were used SANA and OCA. SANA corpus is created by collection of comments from three Algerian newspapers, and annotated by two Algerian Arabic native speakers, while OCA is a freely available corpus for sentiment analysis. For the classification we adopt Supports vector machines, naive Bayes and knearest neighbors. Obtained results are very promising and show the different effects of stemming in such domain, also knearest neighbors give important improvement comparing to other classifiers unlike similar works where SVM is the most dominant. From this study we observe the importance of dedicated resources and methods the newspaper comments sentiment analysis which we look forward in future works.
翻訳日:2022-11-26 12:13:22 公開日:2020-05-31