このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210919となっている論文です。

PDF登録状況(公開日: 20210919)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子トンネルにおけるデコヒーレンスの効果について

On the effect of decoherence on quantum tunnelling ( http://arxiv.org/abs/2011.12955v2 )

ライセンス: Link先を確認
A. Y. Klimenko(参考訳) この研究は、少なくとも原則として、デコヒーレンスに関連する微視的メカニズムを検証できる一連の量子実験を提案する。 これらの実験は、薄い界面で分離された2つの体積の間の非平衡混合の量子力学的バージョンと解釈できる。 このような実験の主な目的の1つは、時間対称法則が時間方向の非可逆過程に道を譲り、量子レベルでのデコヒーレンスによって表される非平衡条件を特定することである。 デコヒーレンスの速度は、最小限の侵入で間接的に調査されることが示唆されており、これはデコヒーレンスの影響を受けるトンネルの速度を測定することで達成できる。 ここでのデコヒーレンス(Decoherence)は、エネルギーの重要な交換を含まない一般的な過程として理解され、クラウス作用素の特定のクラスによって支配される。 本研究は, 脱コヒーレンスの存在下でのトンネルの状況を分析し, 異なる条件下での脱コヒーレンスと脱コヒーレンスを関連づける公式を得る。 環境との一体的相互作用による内在的非一貫性のトンネル化と非一貫性への影響は類似しているが同一ではないことを示し,実験で区別できることを示した。

This work proposes a series of quantum experiments that can, at least in principle, allow for examining microscopic mechanisms associated with decoherence. These experiments can be interpreted as a quantum-mechanical version of non-equilibrium mixing between two volumes separated by a thin interface. One of the principal goals of such experiments is in identifying non-equilibrium conditions when time-symmetric laws give way to time-directional, irreversible processes, which are represented by decoherence at the quantum level. The rate of decoherence is suggested to be examined indirectly, with minimal intrusions -- this can be achieved by measuring tunnelling rates that, in turn, are affected by decoherence. Decoherence is understood here as a general process that does not involve any significant exchanges of energy and governed by a particular class of the Kraus operators. The present work analyses different regimes of tunnelling in the presence of decoherence and obtains formulae that link the corresponding rates of tunnelling and decoherence under different conditions. It is shown that the effects on tunnelling of intrinsic decoherence and of decoherence due to unitary interactions with the environment are similar but not the same and can be distinguished in experiments.
翻訳日:2023-04-22 22:51:08 公開日:2021-09-19
# 有限時空間オフセットにおけるX線真空回折

X-ray vacuum diffraction at finite spatio-temporal offset ( http://arxiv.org/abs/2107.09632v2 )

ライセンス: Link先を確認
Felix Karbstein and Ricardo R. Q. P. T. Oude Weernink(参考訳) 本研究では,光高輝度およびx線自由電子レーザーパルスの頭部衝突におけるx線真空回折の非線形qedシグネチャについて検討した。 x線プローブの前方円錐外側の信号光子の高強度レーザー駆動散乱は、量子真空非線形性の将来の実験的署名を構成する。 簡易な現象論的アドホックモデルを用いて,最近,遠方場における信号の角分布は,高強度ポンプとの相互作用領域におけるプローブビームの波面曲率に敏感であると主張した。 本研究では,ポンプ場とプローブ場の両方をパルスパルアキシャルガウスビームとしてモデル化し,その効果を第一原理から再解析する。 我々は,量子真空非線形性の個々のシグネチャとして,また真空複屈折実験における信号対バックグラウンド分離を改善する潜在的手段として,真空回折に焦点を当てた。

We study the nonlinear QED signature of x-ray vacuum diffraction in the head-on collision of optical high-intensity and x-ray free-electron laser pulses at finite spatio-temporal offsets between the laser foci. The high-intensity laser driven scattering of signal photons outside the forward cone of the x-ray probe constitutes a prospective experimental signature of quantum vacuum nonlinearity. Resorting to a simplified phenomenological ad-hoc model, it was recently argued that the angular distribution of the signal in the far-field is sensitive to the wavefront curvature of the probe beam in the interaction region with the high-intensity pump. In this work, we model both the pump and probe fields as pulsed paraxial Gaussian beams and reanalyze this effect from first principles. We focus on vacuum diffraction both as an individual signature of quantum vacuum nonlinearity and as a potential means to improve the signal-to-background-separation in vacuum birefringence experiments.
翻訳日:2023-03-21 11:58:55 公開日:2021-09-19
# Ransomware Lottery:ランサムウェア攻撃のゲーム理論モデル

Winning the Ransomware Lottery: A Game-Theoretic Model for Mitigating Ransomware Attacks ( http://arxiv.org/abs/2107.14578v2 )

ライセンス: Link先を確認
Erick Galinkin(参考訳) ランサムウェアは個人や企業に対する脅威が高まっており、サイバー保険や組織のセキュリティ計画において重要な要素となっている。 ゲーム理論レンズは、利益を最大化する攻撃者と損失を最小化する防御者との間の競争としてゲームをフレーム化することが多いが、多くの状況においてランサムウェア組織は非協力的なゲームをしていないが、宝くじをしている。 攻撃者の欲望行動は、ランサムウェアオペレータによって、時には同じグループによっても、多くの犠牲者が1回以上ヒットする状況を生み出します。 ディフェンダーがマルウェアと戦うためには、そのインセンティブを取り除かなければならない。 本研究では,実際のランサムウェア攻撃データに基づく期待値モデルを構築し,支払い価値,攻撃コスト,支払確率の3つの変数を同定する。 このモデルを用いて,ランサムウェア攻撃に伴う利益モチベーションを低減するために,これらの変数を操作する可能性を検討する。 本モデルに基づいて,ランサムウェア操作者に対して敵対的な環境を実現するための緩和策を提案する。 特に、オフサイトバックアップや政府のインセンティブが、ランサムウェアと戦う上で最も実りある方法であることが分かりました。

Ransomware is a growing threat to individuals and enterprises alike, constituting a major factor in cyber insurance and in the security planning of every organization. Although the game theoretic lens often frames the game as a competition between equals -- a profit maximizing attacker and a loss minimizing defender -- the reality of many situations is that ransomware organizations are not playing a non-cooperative game, they are playing a lottery. The wanton behavior of attackers creates a situation where many victims are hit more than once by ransomware operators, sometimes even by the same group. If defenders wish to combat malware, they must then seek to remove the incentives of it. In this work, we construct an expected value model based on data from actual ransomware attacks and identify three variables: the value of payments, the cost of an attack, and the probability of payment. Using this model, we consider the potential to manipulate these variables to reduce the profit motive associated with ransomware attack. Based on the model, we present mitigations to encourage an environment that is hostile to ransomware operators. In particular, we find that off-site backups and government incentives for their adoption are the most fruitful avenue for combating ransomware.
翻訳日:2023-03-20 09:07:25 公開日:2021-09-19
# 驚くほどポピュラーなアルゴリズムに基づく適応ユークリッド距離トポロジー学習pso

Surprisingly Popular Algorithm-based Adaptive Euclidean Distance Topology Learning PSO ( http://arxiv.org/abs/2108.11173v2 )

ライセンス: Link先を確認
Xuan Wu, Jizong Han, Quanlong Cui, Liang Chen, Yanchun Liang, Han Huang, Heow Pueh Lee, You Zhou and Chunguo Wu(参考訳) 驚くほど人気のあるアルゴリズム(SPA)は、社会科学において提案される強力な集団決定モデルであり、少数民族が持つ知識を識別することができる。 SPAにインスパイアされた我々は、粒子の性能を評価するために適合性に頼るだけでなく、粒子の新しい測定基準を構築した。 通信トポロジが典型的な選択に与える影響から,適応型ユークリッド距離動的トポロジを提案する。 さらに,spaを用いて活用するサブ人口の探索方向を誘導し,異なる位相がspaに与える影響を分析する,アルゴリズムベース適応ユークリッド距離トポロジ学習粒子群最適化(spadepso)を提案する。 実験では,全CEC2014ベンチマークスイート上で提案したSpadePSO,拡散スペクトルレーダ多相符号化設計,常微分方程式の推論について検討した。 特に、完全なCEC2014ベンチマークスイートの実験結果は、SpadePSOがPSO、OLPSO、HCLPSO、GL-PSO、TSLPSO、XPSOと競合していることを示している。 SpadePSOの平均偏差と標準偏差は、拡散スペクトルレーダー多相符号設計における他のPSO変種よりも低い。 最後に、通常の微分方程式モデルの推論結果から、SpadePSOはラテンPSOよりも優れた性能を示し、特にこの問題のために設計されている。 SpadePSOはラテンPSOよりも人口数が少ない。

The surprisingly popular algorithm (SPA) is a powerful crowd decision model proposed in social science, which can identify the knowledge possessed by the minority. Inspired by SPA, we build a new metric for particles, not just rely on fitness to evaluate particle performance. Due to the significant influence of the communication topology on exemplar selection, we propose an adaptive euclidean distance dynamic topology. And then we propose the Surprisingly Popular Algorithm-based Adaptive Euclidean Distance Topology Learning Particle Swarm Optimization (SpadePSO), which uses SPA to guide the search direction of the exploitation sub-population, and analyze the influence of different topologies on SPA. In the experimental part, we evaluate the proposed SpadePSO on the full CEC2014 benchmark suite, the spread spectrum radar polyphase coding design and the inference of ordinary differential equations. Especially, The experimental results on the full CEC2014 benchmark suite show that the SpadePSO is competitive with PSO, OLPSO, HCLPSO, GL-PSO, TSLPSO and XPSO. The mean and standard deviation of SpadePSO are lower than the other PSO variants on the spread spectrum radar polyphase coding design. Finally, the ordinary differential equations models' inference results show that SpadePSO performs better than LatinPSO, specially designed for this problem. SpadePSO has lower requirements for population number than LatinPSO.
翻訳日:2023-03-17 05:32:39 公開日:2021-09-19
# 多量子系における非相対論的行列力学入門 : 量子エンタングルメントと量子量子化子の研究

A thorough introduction to non-relativistic matrix mechanics in multi-qudit systems with a study on quantum entanglement and quantum quantifiers ( http://arxiv.org/abs/2109.06444v3 )

ライセンス: Link先を確認
Lucas Camponogara Viera and Shu-Hsien Liao (Institute of Electro-Optical Engineering, National Taiwan Normal University, Taipei, Taiwan)(参考訳) 量子コンピューティングは21世紀で最も遠い技術であり、物理学の最先端における課題に取り組む。 このコンピュータサイエンスの新しいパラダイムは、量子力学の目覚ましい非直観的な特徴と量子情報の基盤である量子絡み合いを利用して、よく知られた古典的アルゴリズムの量子スピードアップと、盗聴に対する暗号化データ通信を可能にする。 この記事では、状態ベクトルにおける量子力学の現代の仮定的アプローチの基本的な数学的アイデンティティと、多部系における密度作用素の定式化を実証することにより、非相対論的行列力学の深い理解を提供することに焦点を当てる。 さらに, 1-qubit, 1-qutrit, 2-qubit, 2-qudit のコヒーレント・非コヒーレント密度作用素を, $su(d)$ リー群に埋め込まれた d-次元$n$-qudit 状態に対して bloch のパラメトリゼーションを用いて, $\mathfrak{su}(d)$ リー代数にまたがる一般gell mann の行列を導出して解析する。 また、量子非破壊測定、量子デコヒーレンス、特に量子エンタングルメントの基本的な概念に対処し、量子エンタングルメントは、その歴史的発展とマルチパーティイト系における数学的記述に関する体系的な見解を提供する。 量子エンタングルメントの度合いと量子コヒーレンスを測るのに必要なユビキタス量子量子量化器をいくつか導入し、量子コヒーレンスを1量子状態の$p$-norm量子コヒーレンス測度から導いた。

Quantum computing is among the most far-reaching technologies of the 21st century, tackling challenges at the cutting edge of physics. This new paradigm in computer science harnesses quantum entanglement, one striking non-intuitive feature of quantum mechanics and a cornerstone of quantum information, to provide computation with a quantum speed-up over the best-known classical algorithms and to enable encrypted data communication against eavesdropping. The bulk of this article is focused on providing a deep and abiding understanding of non-relativistic matrix mechanics by demonstrating the fundamental mathematical identities of the contemporary postulatory approach of quantum mechanics within the state vector and density operator formalism in multipartite systems. In addition to that, we derive and analyze the respective 1-qubit, 1-qutrit, 2-qubit, and 2-qudit coherent and incoherent density operators using Bloch's parametrization for generalized $d$-dimensional $N$-qudit states embedded in the $SU(d)$ Lie group with associate generalized Gell Mann's matrices spanning the $\mathfrak{su}(d)$ Lie algebra. We also address the fundamental concepts of quantum nondemolition measurements, quantum decoherence and, particularly, quantum entanglement providing for the latter a systematic view on its historical development and mathematical description in multipartite systems. We conclude our review by introducing some of the ubiquitous quantum quantifiers required to measure degrees of quantum entanglement and quantum coherence, deriving the $p$-norm quantum coherence measure for a 1-qubit state.
翻訳日:2023-03-15 03:23:15 公開日:2021-09-19
# マグノン・パラメトロンの理論

Theory of the Magnon Parametron ( http://arxiv.org/abs/2109.09117v1 )

ライセンス: Link先を確認
Mehrdad Elyasi, Eiji Saitoh, Gerrit E. W. Bauer(参考訳) マグノンパラメトロン(magnon parametron)は、共振器内のマイクロ波によってパラメトリックに励起される強磁性粒子である。 マイクロ波パワーの一定のしきい値を超えると、効果的なイジングスピンを形成する双安定定常状態が出現する。 相互作用するマグノン系のマイクロ波パワー, 磁場, 温度の関数としてマグノン・パラメトロンの力学を計算し, 熱的および量子的変動を考慮した。 安定なイジングスピン, 熱活性化スイッチングの電信ノイズ, 温度が低い状態の中間状態の3つの動的位相を, 有意な蒸留性マグノンの絡み合いと量子的に相関していることを予測する。 これら3つの操作方式は、代替計算方式にとって魅力的である。

The 'magnon parametron' is a ferromagnetic particle that is parametrically excited by microwaves in a cavity. Above a certain threshold of the microwave power, a bistable steady state emerges that forms an effective Ising spin. We calculate the dynamics of the magnon parametron as a function of microwave power, applied magnetic field and temperature for the interacting magnon system, taking into account thermal and quantum fluctuations. We predict three dynamical phases, viz. a stable Ising spin, telegraph noise of thermally activated switching, and an intermediate regime that at lower temperatures is quantum correlated with significant distillible magnon entanglement. These three regimes of operation are attractive for alternative computing schemes.
翻訳日:2023-03-14 07:33:03 公開日:2021-09-19
# Mind the Gap: 同期ハイブリッド教室におけるインタラクティブプログラミングコースの再考

Mind the Gap: Reimagining an Interactive Programming Course for the Synchronous Hybrid Classroom ( http://arxiv.org/abs/2109.09073v1 )

ライセンス: Link先を確認
Christopher M. Poskitt, Kyong Jin Shim, Yi Meng Lau, Hong Seng Ong(参考訳) 新型コロナウイルス(COVID-19)は大学に大きな影響を及ぼし、多くのコースをオンラインで提供せざるを得なくなった。 国がパンデミックをコントロールしている中、対面指導を安全に再開する潜在的な方法は、物理的・遠隔の学生が同時に教えられる同期ハイブリッド教室である。 しかし、これには、遠隔で参加する学生が、自分の関与と仲間との「ギャップ」を知覚するリスクなど、課題が伴う。 この経験報告では、このリスクを軽減する方法で、インタラクティブなプログラミングコースがハイブリッドデリバリにどのように適応されたかを説明します。 当社のソリューションは、参加機会の平等化とピアラーニングを促進するために、プロフェッショナルなコミュニケーションプラットフォームであるSlackの使用を中心にしています。 さらに,'ズーム疲労'を緩和するため,ビデオのコンセプトを取り上げ,短い授業を用いて統合した半自由型教室を実装した。 最後に,学生調査の結果とソリューションの実践経験について批判的に考察する。

COVID-19 has significantly affected universities, forcing many courses to be delivered entirely online. As countries bring the pandemic under control, a potential way to safely resume some face-to-face teaching is the synchronous hybrid classroom, in which physically and remotely attending students are taught simultaneously. This comes with challenges, however, including the risk that remotely attending students perceive a 'gap' between their engagement and that of their physical peers. In this experience report, we describe how an interactive programming course was adapted to hybrid delivery in a way that mitigated this risk. Our solution centred on the use of a professional communication platform - Slack - to equalise participation opportunities and to facilitate peer learning. Furthermore, to mitigate 'Zoom fatigue', we implemented a semi-flipped classroom, covering concepts in videos and using shorter lessons to consolidate them. Finally, we critically reflect on the results of a student survey and our own experiences of implementing the solution.
翻訳日:2023-03-14 07:32:50 公開日:2021-09-19
# RIS支援通信のためのハイブリッドビームフォーミング:フィットネスランドスケープ解析とニッチ遺伝的アルゴリズム

Hybrid Beamforming for RIS-Aided Communications: Fitness Landscape Analysis and Niching Genetic Algorithm ( http://arxiv.org/abs/2109.09054v1 )

ライセンス: Link先を確認
Bai Yan, Qi Zhao, Jin Zhang, J. Andrew Zhang, Xin Yao(参考訳) Reconfigurable Intelligent Surface (RIS) はコスト効率が良いがエネルギー効率のよい通信を実現するための革新的アプローチである。 基地局(BS)の送信ビームフォーミングとRISの離散位相シフトを共同最適化して高いサービス品質を提供する。 しかし、既存の研究は、多数の位相シフトの間の高い依存を無視し、それらを別々に推定することで、容易に局所最適状態に閉じ込められる。 局所光学の個数と分布を調べるために,和率最大化問題に対する適合ランドスケープ分析を行う。 ランドスケープの頑丈さを調べるために,適合度分布相関と自己相関という2つのランドスケープ特徴を用いた。 調査の結果,特に大規模RISでは,地形が硬く多様であり,局所的なピークが多いことが示唆された。 マルチモーダルランドスケープ構造を扱うために,和率最大化問題を解くため,新しいニッチ遺伝的アルゴリズムを提案する。 特に, ニチング技術, 最寄りのクラスタリングが組み込まれ, 個体群を複数の近縁種に分割し, 複数の局所最適位置を同定し, グローバルな探索能力を高める。 また,収束速度をさらに向上させるため,最小種数を提案する。 シミュレーションの結果,提案手法は既存のアルゴリズム,特に大規模RISの場合と比較して大きな能力向上を実現していることがわかった。

Reconfigurable Intelligent Surface (RIS) is a revolutionizing approach to provide cost-effective yet energy-efficient communications. The transmit beamforming of the base station (BS) and discrete phase shifts of the RIS are jointly optimized to provide high quality of service. However, existing works ignore the high dependence between the large number of phase shifts and estimate them separately, consequently, easily getting trapped into local optima. To investigate the number and distribution of local optima, we conduct a fitness landscape analysis on the sum rate maximization problems. Two landscape features, the fitness distribution correlation and autocorrelation, are employed to investigate the ruggedness of landscape. The investigation results indicate that the landscape exhibits a rugged, multi-modal structure, i.e., has many local peaks, particularly in the cases with large-scale RISs. To handle the multi-modal landscape structure, we propose a novel niching genetic algorithm to solve the sum rate maximization problem. Particularly, a niching technique, nearest-better clustering, is incorporated to partition the population into several neighborhood species, thereby locating multiple local optima and enhance the global search ability. We also present a minimum species size to further improve the convergence speed. Simulation results demonstrate that our method achieves significant capacity gains compared to existing algorithms, particularly in the cases with large-scale RISs.
翻訳日:2023-03-14 07:32:01 公開日:2021-09-19
# 低レベルの領域における人工知能 -- 調査

Artificial Intelligence in the Low-Level Realm -- A Survey ( http://arxiv.org/abs/2111.00881v1 )

ライセンス: Link先を確認
Vahid Mohammadi Safarzadeh, Hamed Ghasr Loghmani(参考訳) リソースを意識した機械学習は近年トレンドとなり、IoTのエッジデバイスによってML計算の側面をより悪用することに注力している。 本稿では,低リソース環境におけるオペレーティングシステムのメインタスクにMLを適用するための取り組みと課題に焦点を当てた概念的かつ実践的な領域のレビューを試みる。 人工知能は、音声や画像認識などのアプリケーションとオペレーティングシステムに統合されている。 しかし、この統合はユーザー空間にのみ存在する。 ここでは、OSの主要な責務において、AIアプローチ、特に機械学習を活用する方法と取り組みを求める。 MLがOSにもたらす改善により、より信頼できるものになります。 言い換えれば、答えるべき主な質問は、従来のOSカーネルのメインタスクを改善する上で、AIがどのように直接的に役割を担ってきたかである。 また、この組み合わせの方法における課題と制限も提供される。

Resource-aware machine learning has been a trending topic in recent years, focusing on making ML computational aspects more exploitable by the edge devices in the Internet of Things. This paper attempts to review a conceptually and practically related area concentrated on efforts and challenges for applying ML in the operating systems' main tasks in a low-resource environment. Artificial Intelligence has been integrated into the operating system with applications such as voice or image recognition. However, this integration is only in user space. Here, we seek methods and efforts that exploit AI approaches, specifically machine learning, in the OSes' primary responsibilities. We provide the improvements that ML can bring to OS to make them more trustworthy. In other words, the main question to be answered is how AI has played/can play a role directly in improving the traditional OS kernel main tasks. Also, the challenges and limitations in the way of this combination are provided.
翻訳日:2023-03-14 07:27:21 公開日:2021-09-19
# 深層学習によるCOVID-19誤報のカレイドスコープのナビゲーション

Navigating the Kaleidoscope of COVID-19 Misinformation Using Deep Learning ( http://arxiv.org/abs/2110.15703v1 )

ライセンス: Link先を確認
Yuanzhi Chen and Mohammad Rashedul Hasan(参考訳) さまざまな自然言語処理タスクを解決するためのディープラーニングベースの混合ドメイン転送学習アプローチの成功にかかわらず、covid-19ソーシャルメディアデータから誤情報を検出するための汎用的なソリューションを提供していない。 このタイプのデータの本質的な複雑さは、その動的(コンテキストが急速に進化する)、ニュアンス付き(誤情報型はしばしば曖昧である)、多種多様(歪んだ、きめ細やかな、重複するカテゴリ)の性質によって引き起こされるため、対象領域の局所的およびグローバル的コンテキストの両方を捉える効果的なモデルが不可欠である。 体系的な調査を行うことで、次のように示す。 (i)混合ドメイン転送学習で活用された深層変圧器型事前学習モデルでは,局所的文脈の把握が困難であり,一般化が不十分である。 (ii)浅いネットワークベースのドメイン固有モデルと畳み込みニューラルネットワークの組み合わせは、ターゲットデータから直接、局所的および全体的コンテキストを階層的に抽出し、より一般化可能なソリューションを提供することができる。

Irrespective of the success of the deep learning-based mixed-domain transfer learning approach for solving various Natural Language Processing tasks, it does not lend a generalizable solution for detecting misinformation from COVID-19 social media data. Due to the inherent complexity of this type of data, caused by its dynamic (context evolves rapidly), nuanced (misinformation types are often ambiguous), and diverse (skewed, fine-grained, and overlapping categories) nature, it is imperative for an effective model to capture both the local and global context of the target domain. By conducting a systematic investigation, we show that: (i) the deep Transformer-based pre-trained models, utilized via the mixed-domain transfer learning, are only good at capturing the local context, thus exhibits poor generalization, and (ii) a combination of shallow network-based domain-specific models and convolutional neural networks can efficiently extract local as well as global context directly from the target data in a hierarchical fashion, enabling it to offer a more generalizable solution.
翻訳日:2023-03-14 07:26:57 公開日:2021-09-19
# 形成の絡み合いの強い超付加性について --条件と例

On the strong superadditivity of entanglement of formation -- Conditions and examples ( http://arxiv.org/abs/2109.10211v1 )

ライセンス: Link先を確認
Asutosh Kumar(参考訳) Shorの[Math. Phys. 246(3), 453 (2004)]とHastingsの[Nature Phys. 5, 255 (2009)]研究から、形成の絡み合いの強い重付加性は一般的には正しくない。 本稿では, 生成の絡み合いの強いスーパーアディティティの条件を提案し, その結果, 強いスーパーアディティティである状態のクラスを同定する。

From Shor's [Comm. Math. Phys. 246(3), 453 (2004)] and Hastings's [Nature Phys. 5, 255 (2009)] studies, the strong superadditivity of entanglement of formation is, in general, not true. In this paper, we provide conditions for strong superadditivity of entanglement of formation, and consequently identify classes of states that are strongly superadditive.
翻訳日:2023-03-14 07:26:34 公開日:2021-09-19
# 機械学習を用いた量子変分PDE解法

Quantum variational PDE solver with machine learning ( http://arxiv.org/abs/2109.09216v1 )

ライセンス: Link先を確認
Jaewoo Joo and Hyungil Moon(参考訳) 非線形偏微分方程式(pdes)を解くことは基礎科学だけでなく、多くの実用産業においても最も一般的だが重要な課題の一つである。 本稿では,量子変分(quva)pdeソルバを,機械学習(ml)スキームを用いて,数学的に難しい問題において2つの新興技術を統合することを提案する。 このソルバのコア量子処理は、特別に設計された量子演算子の期待値を効率的に計算することである。 大規模量子系では、制御量子ビットの少ない測定からデータを取得し、量子系全体の測定において指数的なコストを回避し、ML技術を用いて所望のPDEの解集合を見つける経路を最適化する。 例えば、二階desのいくつかの異なるタイプをランダムに選択されたサンプルで調べ、別の試行的なサンプルで解関数の最適候補を追跡するために回帰法が実装されている。 そこで本研究では,DESの正確な解を得るために必要な条件を条件として,高忠実度な3種類のDESの解析解のパターンを3量子系が追従できることを実証した。 したがって、最終解候補集合は、ML技術のサポートによりQuVa PDEソルバから効率的に抽出され、このアルゴリズムは、複雑な数学的問題の解の探索や、大規模量子系(例えば量子化学)における固有状態の優れたアンザッツを見つけるのに有用である。

To solve nonlinear partial differential equations (PDEs) is one of the most common but important tasks in not only basic sciences but also many practical industries. We here propose a quantum variational (QuVa) PDE solver with the aid of machine learning (ML) schemes to synergise two emerging technologies in mathematically hard problems. The core quantum processing in this solver is to calculate efficiently the expectation value of specially designed quantum operators. For a large quantum system, we only obtain data from measurements of few control qubits to avoid the exponential cost in the measurements of the whole quantum system and optimise a pathway to find possible solution sets of the desired PDEs using ML techniques. As an example, a few different types of the second-order DEs are examined with randomly chosen samples and a regression method is implemented to chase the best candidates of solution functions with another trial samples. We demonstrated that a three-qubit system successfully follows the pattern of analytical solutions of three different DEs with high fidelity since the variational solutions are given by a necessary condition to obtain the exact solution of the DEs. Thus, we believe that final solution candidate sets are efficiently extracted from the QuVa PDE solver with the support of ML techniques and this algorithm could be beneficial to search for the solutions of complex mathematical problems as well as to find good ansatzs for eigenstates in large quantum systems (e.g., for quantum chemistry).
翻訳日:2023-03-14 07:25:40 公開日:2021-09-19
# Mach-Zehnder干渉計の構成可能なネットワークにおけるSqueezed-Vacuum光による分散量子センシング

Distributed Quantum Sensing with Squeezed-Vacuum Light in a Configurable Network of Mach-Zehnder Interferometers ( http://arxiv.org/abs/2109.09178v1 )

ライセンス: Link先を確認
Marco Malitesta, Augusto Smerzi, Luca Pezz\`e(参考訳) 任意の数 $d \geq 1$ の位相シフトを並列に推定するmzis(distributed mach-zehnder interferometers)のセンサネットワークについて検討した。 このスキームは、量子回路(QC)によって$d$モードに分割される圧縮真空状態を使用する。 QCの各出力モードは$d$MZIの1つの入力であり、もう1つの入力はコヒーレントな状態である。 特に、${\it i}$) は、最大感度を持つ$d$位相の任意の線形結合を推定できるセンサネットワークの最適な構成を特定する。 このプロトコルはショットノイズ限界を克服し、全プローブ状態における粒子の総平均数に対してハイゼンベルクスケールに達する。 さらに、並列多相推定は、任意の相の線形結合を推定するための最適な分離可能な戦略を克服する:感度ゲインは、少なくとも$d$である。 Viceversa, ${\it ii}$) 特定の QC が与えられると、位相の最適線形結合が感度を最大化し、QC のランダムな選択に対して堅牢であることを示す。 我々の手法は分散量子センシングにおける様々な応用への道を開く。

We study a sensor network of distributed Mach-Zehnder interferometers (MZIs) for the parallel (simultaneous) estimation of an arbitrary number $d \geq 1$ of phase shifts. The scheme uses a squeezed-vacuum state that is split between $d$ modes by a quantum circuit (QC). Each output mode of the QC is the input of one of $d$ MZIs, the other input of each MZI being a coherent state. In particular, ${\it i}$) we identify the optimal configuration of the sensor network that allows the estimation of any linear combination of the $d$ phases with maximal sensitivity. The protocol overcomes the shot-noise limit and reaches Heisenberg scalings with respect to the total average number of particles in the overall probe state, the multiphase estimation only requiring local photocounting. Furthermore, the parallel multiphase estimation overcomes optimal separable strategies for the estimation of any linear combination of the phases: the sensitivity gain being a factor $d$, at most. Viceversa, ${\it ii}$) given a specific QC, we identify the optimal linear combination of the phases that maximizes the sensitivity and show that results are robust against random choices of the QC. Our scheme paves the ways to a variety of applications in distributed quantum sensing.
翻訳日:2023-03-14 07:25:13 公開日:2021-09-19
# 行列型多様体の代数的マトロイドに関する結果

Results on the algebraic matroid of the determinantal variety ( http://arxiv.org/abs/2002.05082v6 )

ライセンス: Link先を確認
Manolis C. Tsakiris(参考訳) 我々は行列多様体の代数的マトロイドの特徴化に向けて前進する。 マトロイドの基底集合の族を示し、これらは全て基底集合であると予想する。 この予想は、特別な場合に証明される純粋に組合せ的ステートメントに還元される。 我々の結果は、我々が導入した連鎖整合体の緩和的サポートの組合せ的概念、グラスマン多様体上の線型部分問題としてそのエントリーの部分集合から有界ランクの行列を完備する問題の解釈、およびシュトゥルムフェルス$&$ゼレヴィンスキーによって記述されたグラスマン多様体上の局所座標のクラスで描画する接続に依拠している。

We make progress towards characterizing the algebraic matroid of the determinantal variety. We present a family of base sets of the matroid and conjecture these are all the base sets. This conjecture is reduced to a purely combinatorial statement, which is proved for special cases. Our results rely on the combinatorial notion of relaxed supports of linkage matching fields that we introduce, our interpretation of the problem of completing a matrix of bounded rank from a subset of its entries as a linear section problem on the Grassmannian, and a connection that we draw with a class of local coordinates on the Grassmannian described by Sturmfels $\&$ Zelevinsky.
翻訳日:2023-01-01 20:42:12 公開日:2021-09-19
# オンライン学習による交流ネットワークの同定

Identification of AC Networks via Online Learning ( http://arxiv.org/abs/2003.06210v3 )

ライセンス: Link先を確認
Emanuele Fabbiani, Pulkit Nahata, Giuseppe De Nicolao, Giancarlo Ferrari-Trecate(参考訳) 電力ネットワークにおける断続的な分散型エネルギー資源の浸透の増大は、グリッドの詳細な知識を頼りにする新しい計画と制御手法を要求する。 しかしながら、システムトポロジとパラメータに関する信頼性のある情報は、時間的に変化する電気配電ネットワークにおいて欠落または時代遅れになる可能性がある。 本稿では,位相情報と線パラメータを捉えたネットワークアドミタンス行列を推定するオンライン学習手法を提案する。 まず,電圧と電流のファサー計測を利用した再帰的同定アルゴリズムを提案する。 収束を加速する目的で, 最適電圧励振を演算することで各ステップにおけるデータの情報内容の最大化を行う実験手順を, 基礎アルゴリズムを補完する。 本手法は既存の手法を改良し,現実的なテストベッドに関する数値的研究によりその効果を実証する。

The increasing penetration of intermittent distributed energy resources in power networks calls for novel planning and control methodologies which hinge on detailed knowledge of the grid. However, reliable information concerning the system topology and parameters may be missing or outdated for temporally varying electric distribution networks. This paper proposes an online learning procedure to estimate the network admittance matrix capturing topological information and line parameters. We start off by providing a recursive identification algorithm exploiting phasor measurements of voltages and currents. With the goal of accelerating convergence, we subsequently complement our base algorithm with a design-of-experiment procedure which maximizes the information content of data at each step by computing optimal voltage excitations. Our approach improves on existing techniques, and its effectiveness is substantiated by numerical studies on realistic testbeds.
翻訳日:2022-12-24 01:22:02 公開日:2021-09-19
# 2倍無限残留ニューラルネットワーク:拡散過程アプローチ

Doubly infinite residual neural networks: a diffusion process approach ( http://arxiv.org/abs/2007.03253v2 )

ライセンス: Link先を確認
Stefano Peluchetti and Stefano Favaro(参考訳) 多数のレイヤ(深さ)とレイヤ毎のユニット(幅)を備えた現代のニューラルネットワーク(NN)は、多くのドメインで顕著なパフォーマンスを実現している。 無限に広いNNとガウス過程の相互作用に関する膨大な文献があるが、無限に深いNNに対する類似の相互作用についてはほとんど知られていない。 独立かつ同一分布(i.i.d.)の初期化を持つnnは、層数が増えるにつれて望ましくない前方および後方伝播特性を示す。 これらの欠点を克服するため、Peluchetti と Favaro (2020) はネットワークのパラメータを持つ完全連結残差ネットワーク (ResNets) を、層数が増加するにつれて縮小する分布によって初期化し、無限に深いResNetと確率微分方程式、すなわち拡散過程の解との相互作用を確立し、無限に深いResNetsが望ましくないフォワードプロパゲーション特性を損なわないことを示す。 本稿では, Peluchetti と Favaro (2020) の結果をレビューし,それらを畳み込み ResNet に拡張し, 完全連結深度 ResNet のトレーニング問題に直接関連する類似の後方伝播結果を確立する。 次に,ネットワークの幅とネットワークの深さが非有界に大きくなるような,二重無限NNのより一般的な設定について検討する。 我々は2つの無限完全接続 ResNet に焦点をあてる。 この設定の下では、関心の量のダイナミクスが初期化時に決定論的限界に収束することを示す。 これにより、弱いトレーニングと完全に訓練されたResNetの場合の両方で、推論のための分析式を提供することができます。 その結果,未スケールネットワークのパラメータがi.i.d.であり,残差ブロックが浅い場合,2倍無限のresnetの表現力の制限が浮き彫りになった。

Modern neural networks (NN) featuring a large number of layers (depth) and units per layer (width) have achieved a remarkable performance across many domains. While there exists a vast literature on the interplay between infinitely wide NNs and Gaussian processes, a little is known about analogous interplays with respect to infinitely deep NNs. NNs with independent and identically distributed (i.i.d.) initializations exhibit undesirable forward and backward propagation properties as the number of layers increases. To overcome these drawbacks, Peluchetti and Favaro (2020) considered fully-connected residual networks (ResNets) with network's parameters initialized by means of distributions that shrink as the number of layers increases, thus establishing an interplay between infinitely deep ResNets and solutions to stochastic differential equations, i.e. diffusion processes, and showing that infinitely deep ResNets does not suffer from undesirable forward-propagation properties. In this paper, we review the results of Peluchetti and Favaro (2020), extending them to convolutional ResNets, and we establish analogous backward-propagation results, which directly relate to the problem of training fully-connected deep ResNets. Then, we investigate the more general setting of doubly infinite NNs, where both network's width and network's depth grow unboundedly. We focus on doubly infinite fully-connected ResNets, for which we consider i.i.d. initializations. Under this setting, we show that the dynamics of quantities of interest converge, at initialization, to deterministic limits. This allow us to provide analytical expressions for inference, both in the case of weakly trained and fully trained ResNets. Our results highlight a limited expressive power of doubly infinite ResNets when the unscaled network's parameters are i.i.d. and the residual blocks are shallow.
翻訳日:2022-11-12 19:16:28 公開日:2021-09-19
# natcat: 自然に注釈付きリソースを持つ弱い教師付きテキスト分類

NatCat: Weakly Supervised Text Classification with Naturally Annotated Resources ( http://arxiv.org/abs/2009.14335v2 )

ライセンス: Link先を確認
Zewei Chu, Karl Stratos, Kevin Gimpel(参考訳) NatCatは3つのデータソース(Wikipedia、Stack Exchange、Reddit)から構築されたテキスト分類のための大規模なリソースである。 NatCatは、オンラインコミュニティ内で自然に起こる手作業によるキュレーションから派生した文書分類ペアで構成されている。 その有用性を示すために,NatCatをトレーニングして汎用テキスト分類器を構築し,それを11種類のテキスト分類タスク(CatEval)で評価し,従来の作業と比べて大きな改善を報告した。 さまざまなモデリング選択とリソースの組み合わせをベンチマークし、タスクが特定のNatCatデータソースからどのような恩恵を受けるかを示す。

We describe NatCat, a large-scale resource for text classification constructed from three data sources: Wikipedia, Stack Exchange, and Reddit. NatCat consists of document-category pairs derived from manual curation that occurs naturally within online communities. To demonstrate its usefulness, we build general purpose text classifiers by training on NatCat and evaluate them on a suite of 11 text classification tasks (CatEval), reporting large improvements compared to prior work. We benchmark different modeling choices and resource combinations and show how tasks benefit from particular NatCat data sources.
翻訳日:2022-10-13 06:29:38 公開日:2021-09-19
# 画像はエンティティを認識するのに役立つか? マルチモーダルNERにおける画像の役割に関する研究

Can images help recognize entities? A study of the role of images for Multimodal NER ( http://arxiv.org/abs/2010.12712v2 )

ライセンス: Link先を確認
Shuguang Chen, Gustavo Aguilar, Leonardo Neves, Thamar Solorio(参考訳) マルチモーダルなエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。 mnerタスクにイメージを組み込むために多くのマルチモーダルニューラル技術が提案されているが、マルチモーダルインタラクションを活用できるモデルの能力はいまだによく分かっていない。 本研究では,異なる視点から既存のマルチモーダル融合技術の詳細解析を行い,画像から情報を追加することで必ずしも性能が向上しないシナリオを説明する。 また、MNERの文脈を充実させる手段として、キャプションの使用についても検討する。 人気のあるソーシャルプラットフォームからの3つのデータセットに関する実験は、既存のマルチモーダルモデルのボトルネックとキャプションを使用する状況を公開している。

Multimodal named entity recognition (MNER) requires to bridge the gap between language understanding and visual context. While many multimodal neural techniques have been proposed to incorporate images into the MNER task, the model's ability to leverage multimodal interactions remains poorly understood. In this work, we conduct in-depth analyses of existing multimodal fusion techniques from different perspectives and describe the scenarios where adding information from the image does not always boost performance. We also study the use of captions as a way to enrich the context for MNER. Experiments on three datasets from popular social platforms expose the bottleneck of existing multimodal models and the situations where using captions is beneficial.
翻訳日:2022-10-03 23:01:33 公開日:2021-09-19
# 作物病検出のための2段階機械学習アプローチ : GANとUAV技術の応用

A two-step machine learning approach for crop disease detection: an application of GAN and UAV technology ( http://arxiv.org/abs/2109.11066v1 )

ライセンス: Link先を確認
Aaditya Prasad (1), Nikhil Mehta (1), Matthew Horak (2), Wan D. Bae (3) ((1) Tesla STEM High School, (2) Lockheed Martin Corporation, (3) Seattle University)(参考訳) 自動植物診断は、農業のコスト効率を大幅に向上させる技術である。 しかし、複数の問題により、解像度と速度の逆関係や適切なラベル付きトレーニングデータの欠如など、ドローンの有効性が低下する。 本稿では,低忠実度および高忠実度画像を連続的に解析し,効率と精度を維持した2段階機械学習手法を提案する。 2つのデータジェネレータは、高忠実度データセットのクラス不均衡を最小化し、UAV画像を表す低忠実度データを生成するためにも使用される。 クラス不均衡で劣化した高忠実度リンゴ樹画像のデータベース上で,応用と方法の解析を行う。 アプリケーションは、生成ネットワークを用いて高忠実度データを生成し、その新しいデータと元の高忠実度データを用いて低忠実度画像を生成する。 機械学習の識別子は植物を識別し、病原性の有無をラベル付けする。 機械学習の分類器は、病気の可能性のある植物イメージを与えられ、これらの植物に対して実際の診断を返す。 その結果,高忠実度システムでは96.3%,低忠実度システムでは75.5%の信頼性が得られた。 当社のドローン技術は、労働ベースの診断方法と比較して、有望な精度を示す。

Automated plant diagnosis is a technology that promises large increases in cost-efficiency for agriculture. However, multiple problems reduce the effectiveness of drones, including the inverse relationship between resolution and speed and the lack of adequate labeled training data. This paper presents a two-step machine learning approach that analyzes low-fidelity and high-fidelity images in sequence, preserving efficiency as well as accuracy. Two data-generators are also used to minimize class imbalance in the high-fidelity dataset and to produce low-fidelity data that is representative of UAV images. The analysis of applications and methods is conducted on a database of high-fidelity apple tree images which are corrupted with class imbalance. The application begins by generating high-fidelity data using generative networks and then uses this novel data alongside the original high-fidelity data to produce low-fidelity images. A machine-learning identifier identifies plants and labels them as potentially diseased or not. A machine learning classifier is then given the potentially diseased plant images and returns actual diagnoses for these plants. The results show an accuracy of 96.3% for the high-fidelity system and a 75.5% confidence level for our low-fidelity system. Our drone technology shows promising results in accuracy when compared to labor-based methods of diagnosis.
翻訳日:2021-09-24 15:13:09 公開日:2021-09-19
# (参考訳) コンピュータゲームの設計と使用による線形プログラミング学習体験の補完:F1チャンピオンシップゲーム

Complementing the Linear-Programming Learning Experience with the Design and Use of Computerized Games: The Formula 1 Championship Game ( http://arxiv.org/abs/2109.10698v1 )

ライセンス: CC BY 4.0
Gerardo L. Febres(参考訳) この文書は競争的文脈の中で利点を達成するための複雑な状況のモデリングに焦点を当てています。 私たちのゴールは、数学モデリングプロセスに不可欠な非容易な定量化タスクを教え、実行するゲームの特徴を考案することです。 数学モデリングプロセスと最適化問題定式化を実行するコンピュータゲームを導入する。 ゲームは「フォーミュラ1選手権」と名付けられ、コンピュータシミュレーションプラットフォーム「MoNet」でゲームモデルが開発された。 チームマネージャが自分たちのレーシングカーを、実現可能で最も有利な状況まで拡張する決定を下さなければならない状況に似ています。 本稿では,本ゲームにおけるルール,制限,F1回路シミュレータの5つについて述べる。 最適化問題という形で,この状況を定式化している。 それぞれのレースに勝つための一連の回路に最適な車両調整を達成するための予算を割り当てることは、アプローチである。 各グランプリの予算の最適配分に注目して、割り当てられた資金を使って車を改善する方法も正しいアプローチである。 一般に、これらのアプローチには、同じマルチスケール最適化問題の異なる側面があるため、矛盾の程度があるかもしれない。 したがって、最適化問題を定式化する際に、最優先事項を要素または他の要素に割り当てることの影響を評価する。 このような最適化問題の解決の有効性を研究することは、あるスケールにフォーカスすることの利点を評価するエキサイティングな方法であることが判明した。 この研究の別のスレッドは、学習過程におけるゲームの意味を示唆している。 フォーミュラ1ゲームの適用は、複雑なシステム状況における機会を発見し、それらを公式化し、最終的に記述されたコンテキストに関連する利点を抽出し、具体化する効果的な方法であると考えている。

This document focuses on modeling a complex situations to achieve an advantage within a competitive context. Our goal is to devise the characteristics of games to teach and exercise non-easily quantifiable tasks crucial to the math-modeling process. A computerized game to exercise the math-modeling process and optimization problem formulation is introduced. The game is named The Formula 1 Championship, and models of the game were developed in the computerized simulation platform MoNet. It resembles some situations in which team managers must make crucial decisions to enhance their racing cars up to the feasible, most advantageous conditions. This paper describes the game's rules, limitations, and five Formula 1 circuit simulators used for the championship development. We present several formulations of this situation in the form of optimization problems. Administering the budget to reach the best car adjustment to a set of circuits to win the respective races can be an approach. Focusing on the best distribution of each Grand Prix's budget and then deciding how to use the assigned money to improve the car is also the right approach. In general, there may be a degree of conflict among these approaches because they are different aspects of the same multi-scale optimization problem. Therefore, we evaluate the impact of assigning the highest priority to an element, or another, when formulating the optimization problem. Studying the effectiveness of solving such optimization problems turns out to be an exciting way of evaluating the advantages of focusing on one scale or another. Another thread of this research directs to the meaning of the game in the teaching-learning process. We believe applying the Formula 1 Game is an effective way to discover opportunities in a complex-system situation and formulate them to finally extract and concrete the related benefit to the context described.
翻訳日:2021-09-24 01:10:12 公開日:2021-09-19
# 知識グラフの自動バイアス検出に向けて

Towards Automatic Bias Detection in Knowledge Graphs ( http://arxiv.org/abs/2109.10697v1 )

ライセンス: Link先を確認
Daphna Keidar, Mian Zhong, Ce Zhang, Yash Raj Shrestha, Bibek Paudel(参考訳) 近年,知識グラフを活用したソーシャルアプリケーションの普及に伴い,KGに基づく手法の公平性を確保する技術の必要性が高まっている。 これまでの研究では、KGは様々な社会的偏見の傾向を示し、それらを嫌悪する複数の方法を提案してきた。 しかし,このような研究では,デバイアス化技術に焦点が当てられ,デバイアス化される関係はユーザによって手作業で特定されている。 手動仕様は、それ自体が人間の認知バイアスに影響を受けやすいため、バイアスを定量化し、暴露できるシステムが必要である。 文献におけるこのギャップを解決するために,数値バイアス指標に基づいて知識グラフの埋め込みに存在するバイアスを識別する枠組みについて述べる。 本フレームワークは,職業予測の課題に対して,3つの異なるバイアス尺度で説明し,さらなるバイアス定義や応用に柔軟に拡張することができる。 バイアスを負った関係は、その後の偏見を判断するために意思決定者に渡される。

With the recent surge in social applications relying on knowledge graphs, the need for techniques to ensure fairness in KG based methods is becoming increasingly evident. Previous works have demonstrated that KGs are prone to various social biases, and have proposed multiple methods for debiasing them. However, in such studies, the focus has been on debiasing techniques, while the relations to be debiased are specified manually by the user. As manual specification is itself susceptible to human cognitive bias, there is a need for a system capable of quantifying and exposing biases, that can support more informed decisions on what to debias. To address this gap in the literature, we describe a framework for identifying biases present in knowledge graph embeddings, based on numerical bias metrics. We illustrate the framework with three different bias measures on the task of profession prediction, and it can be flexibly extended to further bias definitions and applications. The relations flagged as biased can then be handed to decision makers for judgement upon subsequent debiasing.
翻訳日:2021-09-23 13:55:30 公開日:2021-09-19
# (参考訳) Denoized Pseudo-Labelingによるソースフリードメイン適応基底画像分割

Source-Free Domain Adaptive Fundus Image Segmentation with Denoised Pseudo-Labeling ( http://arxiv.org/abs/2109.09735v1 )

ライセンス: CC BY 4.0
Cheng Chen, Quande Liu, Yueming Jin, Qi Dou, Pheng-Ann Heng(参考訳) ドメイン適応は通常、ターゲットデータとのドメインアライメントのためにその分散情報を利用するために、ソースドメインデータにアクセスする必要があります。 しかし、多くの実世界のシナリオでは、プライバシの問題により、ターゲットドメインのモデル適応中にソースデータがアクセスできない場合がある。 本稿では,既存のソースモデルとラベルなしターゲットデータのみをモデル適応に適用可能な,実用的かつ難解な非教師なし領域適応問題について検討する。 本稿では,疑似ラベルからのモデルの自己適応を促進するために,ソースモデルとラベルなしのターゲットデータを有効に活用する手法を提案する。 さらに、ソースモデルから生成された擬似ラベルは、ドメインシフトによって必然的にノイズが発生することを考慮し、不確実性推定とプロトタイプ推定を伴う2つの補完的な画素レベルおよびクラスレベルの分別スキームを導入し、ノイズを低減し、信頼性の高いラベルを選択することで擬似ラベルの有効性を高める。 クロスドメイン・ファンドス・イメージ・セグメンテーションの実験結果から,ソース・イメージの使用やソース・トレーニングの変更を伴わずに,最先端のソース・依存型ドメイン・アダプティブ・手法と同等あるいはそれ以上の性能を達成できた。

Domain adaptation typically requires to access source domain data to utilize their distribution information for domain alignment with the target data. However, in many real-world scenarios, the source data may not be accessible during the model adaptation in the target domain due to privacy issue. This paper studies the practical yet challenging source-free unsupervised domain adaptation problem, in which only an existing source model and the unlabeled target data are available for model adaptation. We present a novel denoised pseudo-labeling method for this problem, which effectively makes use of the source model and unlabeled target data to promote model self-adaptation from pseudo labels. Importantly, considering that the pseudo labels generated from source model are inevitably noisy due to domain shift, we further introduce two complementary pixel-level and class-level denoising schemes with uncertainty estimation and prototype estimation to reduce noisy pseudo labels and select reliable ones to enhance the pseudo-labeling efficacy. Experimental results on cross-domain fundus image segmentation show that without using any source images or altering source training, our approach achieves comparable or even higher performance than state-of-the-art source-dependent unsupervised domain adaptation methods.
翻訳日:2021-09-23 06:45:48 公開日:2021-09-19
# (参考訳) 単一チャンバーモデルに基づく呼吸コンプライアンス推定アルゴリズムの臨床的検証

Clinical Validation of Single-Chamber Model-Based Algorithms Used to Estimate Respiratory Compliance ( http://arxiv.org/abs/2109.10224v1 )

ライセンス: CC BY 4.0
Gregory Rehm, Jimmy Nguyen, Chelsea Gilbeau, Marc T Bomactao, Chen-Nee Chuah, Jason Adams(参考訳) 計算アルゴリズムを用いた呼吸生理学の非侵襲的推定は、将来の臨床医が患者の病態の有害な変化を検出するための貴重な技術である。 しかし、非侵襲的に肺生理学を分析するために用いられる臨床アルゴリズムは、臨床環境では厳密な検証を受けており、機械装置を使うか、2-8人の患者による小さな臨床検証データセットで検証されることが多い。 この研究は、まず、機械的肺からのデータと18人の挿管患者から4万近い呼吸を含むオープンで臨床的に検証されたデータセットを確立することで、この状況を改善することを目的としている。 次に,このデータを用いて呼吸コンプライアンスを推定する「シングルチャンバー」モデルを用いた15種類のアルゴリズムを評価する。 患者が入院時に経験する様々な臨床シナリオに基づいて,これらのアルゴリズムを評価する。 特に,4種類の患者換気器非同期性に基づくアルゴリズムの性能について検討する。 また,異なる換気モードのアルゴリズムを解析して,アルゴリズム性能をベンチマークし,換気モードがアルゴリズムに与える影響を判定する。 私たちのアプローチはいくつかの進歩をもたらします 1) 異なるモードおよび非同期シナリオ下で, どのアルゴリズムが最も有効かを示す。 2)アルゴリズム結果のばらつきを低減させる単純な数学的手法の開発 3)シングルチャンバーモデルアルゴリズムに関するさらなる洞察を提供する。 論文,アプローチ,データセット,ソフトウェアフレームワークを将来の研究者が活用して,作業を改善し,将来的な"単一チャンバ"アルゴリズムを臨床実践に統合できることを願っています。

Non-invasive estimation of respiratory physiology using computational algorithms promises to be a valuable technique for future clinicians to detect detrimental changes in patient pathophysiology. However, few clinical algorithms used to non-invasively analyze lung physiology have undergone rigorous validation in a clinical setting, and are often validated either using mechanical devices, or with small clinical validation datasets using 2-8 patients. This work aims to improve this situation by first, establishing an open, and clinically validated dataset comprising data from both mechanical lungs and nearly 40,000 breaths from 18 intubated patients. Next, we use this data to evaluate 15 different algorithms that use the "single chamber" model of estimating respiratory compliance. We evaluate these algorithms under varying clinical scenarios patients typically experience during hospitalization. In particular, we explore algorithm performance under four different types of patient ventilator asynchrony. We also analyze algorithms under varying ventilation modes to benchmark algorithm performance and to determine if ventilation mode has any impact on the algorithm. Our approach yields several advances by 1) showing which specific algorithms work best clinically under varying mode and asynchrony scenarios, 2) developing a simple mathematical method to reduce variance in algorithmic results, and 3) presenting additional insights about single-chamber model algorithms. We hope that our paper, approach, dataset, and software framework can thus be used by future researchers to improve their work and allow future integration of "single chamber" algorithms into clinical practice.
翻訳日:2021-09-23 06:34:37 公開日:2021-09-19
# (参考訳) MRI前立腺病変分節に対する非教師的領域適応と意味的整合性

Unsupervised Domain Adaptation with Semantic Consistency across Heterogeneous Modalities for MRI Prostate Lesion Segmentation ( http://arxiv.org/abs/2109.09736v1 )

ライセンス: CC BY 4.0
Eleni Chiou, Francesco Giganti, Shonit Punwani, Iasonas Kokkinos, and Eleftheria Panagiotaki(参考訳) 画像チャネルの数など、以前のプロトコルと異なる新しい医用画像モダリティでは、以前のものと異質な新しいドメインが導入される。 この一般的な医用イメージングシナリオは、同じ次元の領域にまたがるシフトを扱うドメイン適応文献では、ほとんど考慮されない。 我々の研究は、画素空間における2つの異種領域を翻訳する確率的生成モデルに依存し、意味的整合性を促進する2つの新しい損失関数を導入する。 まず、ソースドメインに意味的サイクル・コンシスタンス損失を導入し、翻訳が意味を保ち続けることを保証する。 次に、ターゲットデータをソースに変換し、ソースドメインネットワークでラベル付けし、生成した擬似ラベルを使用してターゲットドメインネットワークを監督する擬似ラベル損失を導入する。 その結果,対象領域に対して体系的により良い表現を抽出できることがわかった。 特に,高度拡散強調画像技術であるVERDICT-MRIの性能向上に,ラベル付きmp-MRIデータを活用することが課題である。 いくつかの教師なしドメイン適応アプローチと比較して、我々のアプローチは、半教師付きおよび教師付き学習設定に一貫して続く、大幅な改善をもたらす。

Any novel medical imaging modality that differs from previous protocols e.g. in the number of imaging channels, introduces a new domain that is heterogeneous from previous ones. This common medical imaging scenario is rarely considered in the domain adaptation literature, which handles shifts across domains of the same dimensionality. In our work we rely on stochastic generative modeling to translate across two heterogeneous domains at pixel space and introduce two new loss functions that promote semantic consistency. Firstly, we introduce a semantic cycle-consistency loss in the source domain to ensure that the translation preserves the semantics. Secondly, we introduce a pseudo-labelling loss, where we translate target data to source, label them by a source-domain network, and use the generated pseudo-labels to supervise the target-domain network. Our results show that this allows us to extract systematically better representations for the target domain. In particular, we address the challenge of enhancing performance on VERDICT-MRI, an advanced diffusion-weighted imaging technique, by exploiting labeled mp-MRI data. When compared to several unsupervised domain adaptation approaches, our approach yields substantial improvements, that consistently carry over to the semi-supervised and supervised learning settings.
翻訳日:2021-09-23 06:23:36 公開日:2021-09-19
# (参考訳) JEM++:JEMのトレーニング技術の改善

JEM++: Improved Techniques for Training JEM ( http://arxiv.org/abs/2109.09032v1 )

ライセンス: CC BY 4.0
Xiulong Yang, Shihao Ji(参考訳) JEM(Joint Energy-based Model)は、最近のCNN分類器の強力な識別能力を維持しつつ、GANベースのアプローチの質に匹敵するサンプルを生成するハイブリッドモデルである。 本稿では,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,新しいトレーニング手順とアーキテクチャ機能を提案する。 1) 前段からサンプルに近いサンプルを生成するための近位SGLDを提案し,安定性を向上した。 2) ebmの近似最大度学習を多段階微分ゲームとして扱い, バックプロパゲーション中に冗長な計算を省くようyopoフレームワークを拡張し, トレーニングを実質的に高速化する。 3) ランダムノイズからSGLD鎖を初期化する代わりに, トレーニングデータから推定した分布からサンプルを抽出する情報初期化を導入する。 4) この情報的初期化により、JEMのバッチ正規化が可能となり、ハイブリッドモデリングのための最新のCNNアーキテクチャのパワーがさらに解放される。 コード: https://github.com/sndnyang/jempp

Joint Energy-based Model (JEM) is a recently proposed hybrid model that retains strong discriminative power of modern CNN classifiers, while generating samples rivaling the quality of GAN-based approaches. In this paper, we propose a variety of new training procedures and architecture features to improve JEM's accuracy, training stability, and speed altogether. 1) We propose a proximal SGLD to generate samples in the proximity of samples from the previous step, which improves the stability. 2) We further treat the approximate maximum likelihood learning of EBM as a multi-step differential game, and extend the YOPO framework to cut out redundant calculations during backpropagation, which accelerates the training substantially. 3) Rather than initializing SGLD chain from random noise, we introduce a new informative initialization that samples from a distribution estimated from training data. 4) This informative initialization allows us to enable batch normalization in JEM, which further releases the power of modern CNN architectures for hybrid modeling. Code: https://github.com/sndnyang/JEMPP
翻訳日:2021-09-22 14:00:25 公開日:2021-09-19
# (参考訳) 画像分類を行うオントロジーに基づくn-ball概念埋め込み

Ontology-based n-ball Concept Embeddings Informing Few-shot Image Classification ( http://arxiv.org/abs/2109.09063v1 )

ライセンス: CC BY 4.0
Mirantha Jayathilaka, Tingting Mu, Uli Sattler(参考訳) 我々は、オントロジーに基づく背景知識を、ニューラルネットワークベースの視覚アーキテクチャに組み込んだ、$n$-ballの概念の形で統合する、ViOCEという新しいフレームワークを提案する。 このアプローチは、2つの要素からなるオントロジーの象徴的知識を連続空間に変換し、仮定と不一致の性質をキャプチャするn-ボール埋め込みを学習し、学習した埋め込みを用いて視覚モデルのトレーニングと推論を導く。 本稿では,2つの標準ベンチマークにおいて,画像分類のタスクを用いてViOCEを評価し,優れた性能を示す。

We propose a novel framework named ViOCE that integrates ontology-based background knowledge in the form of $n$-ball concept embeddings into a neural network based vision architecture. The approach consists of two components - converting symbolic knowledge of an ontology into continuous space by learning n-ball embeddings that capture properties of subsumption and disjointness, and guiding the training and inference of a vision model using the learnt embeddings. We evaluate ViOCE using the task of few-shot image classification, where it demonstrates superior performance on two standard benchmarks.
翻訳日:2021-09-22 13:40:52 公開日:2021-09-19
# (参考訳) NLPにおけるコントラスト学習による対人訓練

Adversarial Training with Contrastive Learning in NLP ( http://arxiv.org/abs/2109.09075v1 )

ライセンス: CC BY-SA 4.0
Daniela N. Rim, DongNyeong Heo, Heeyoul Choi(参考訳) 長年、自然言語処理(NLP)設定において、敵の訓練が広く研究されてきた。 主な目的は、類似した入力が意味論的に類似した結果をもたらすようにモデルを堅牢にすることであり、言語に意味的類似性の客観的な尺度がないため、これは自明な問題ではない。 以前の作業では、この課題に対処するために、外部トレーニング済みのNLPモデルを使用していた。 しかし、近年の言語処理におけるコントラスト学習の一般的なアプローチは、そのような類似性制限を得るための便利な方法を示している。 対照的な学習アプローチの主な利点は、類似したデータポイントを互いに近づき、さらに表現空間の異なるものからマッピングすることを目指していることである。 本研究では,コントラッシブラーニング(ATCL)を用いた対人訓練を提案し,コントラストラーニングの利点を利用した言語処理タスクの対人訓練を行う。 中心となるアイデアは、入力の埋め込み空間を高速勾配法(fgm)で線形摂動させ、モデルにコントラスト学習を通じて元の摂動表現を近づけるように訓練することである。 NLP実験では,ATCLを言語モデルおよびニューラルマシン翻訳タスクに適用した。 この結果から, ベースラインに比較して定量的(複雑度, BLEU)のスコアが向上するだけでなく, ATCLは事前学習モデルを用いることなく, 両タスクのセマンティックレベルにおいて, 質的な結果が得られることがわかった。

For years, adversarial training has been extensively studied in natural language processing (NLP) settings. The main goal is to make models robust so that similar inputs derive in semantically similar outcomes, which is not a trivial problem since there is no objective measure of semantic similarity in language. Previous works use an external pre-trained NLP model to tackle this challenge, introducing an extra training stage with huge memory consumption during training. However, the recent popular approach of contrastive learning in language processing hints a convenient way of obtaining such similarity restrictions. The main advantage of the contrastive learning approach is that it aims for similar data points to be mapped close to each other and further from different ones in the representation space. In this work, we propose adversarial training with contrastive learning (ATCL) to adversarially train a language processing task using the benefits of contrastive learning. The core idea is to make linear perturbations in the embedding space of the input via fast gradient methods (FGM) and train the model to keep the original and perturbed representations close via contrastive learning. In NLP experiments, we applied ATCL to language modeling and neural machine translation tasks. The results show not only an improvement in the quantitative (perplexity and BLEU) scores when compared to the baselines, but ATCL also achieves good qualitative results in the semantic level for both tasks without using a pre-trained model.
翻訳日:2021-09-22 13:29:26 公開日:2021-09-19
# (参考訳) 大気力学の表現学習に向けて

Towards Representation Learning for Atmospheric Dynamics ( http://arxiv.org/abs/2109.09076v1 )

ライセンス: CC BY 4.0
Sebastian Hoffmann and Christian Lessig(参考訳) 人為的強制下での将来の気候シナリオの予測は、気候変動を理解し、潜在的に逆作用する技術の影響を評価するために重要である。 この予測のための機械学習とハイブリッド技術は、関連するがしばしば微妙な影響に敏感な情報的指標に依存している。 大気力学では、気候システムの重要な部分である「眼球メートル法」、すなわち専門家による視覚検査が現在も金の基準となっている。 しかし,アルゴリズム記述が必要な機械学習システムでは,メトリクスとして使用することはできない。 コンピュータビジョンなどの学習指標の基盤として,中間的ニューラルネットワークアクティベーションの成功により,大気力学に特化して設計された,新しい自己教師型表現学習アプローチを提案する。 私たちのアプローチは、AtmoDistと呼ばれ、単純な補助的なタスクでニューラルネットワークをトレーニングします。 このタスクは、ネットワークに層内のアクティベーションとしてデータの本質的な重要な側面を学習させ、それによって識別基準を得る。 我々は、AtmoDistを用いて、GANに基づく渦性と発散の超解像の計量を定義することでこれを実証する。 我々のスケールアップされたデータは、高解像度参照の真の統計値と密接に一致し、平均二乗誤差に基づいて最先端のデータを著しく上回る。 AtmoDistは教師なしで、時間的なフィールドシーケンスのみを必要とし、単純な補助的なタスクを使用するため、気候変動を理解して緩和することを目的とした幅広いアプリケーションで使用することができる。

The prediction of future climate scenarios under anthropogenic forcing is critical to understand climate change and to assess the impact of potentially counter-acting technologies. Machine learning and hybrid techniques for this prediction rely on informative metrics that are sensitive to pertinent but often subtle influences. For atmospheric dynamics, a critical part of the climate system, the "eyeball metric", i.e. a visual inspection by an expert, is currently still the gold standard. However, it cannot be used as metric in machine learning systems where an algorithmic description is required. Motivated by the success of intermediate neural network activations as basis for learned metrics, e.g. in computer vision, we present a novel, self-supervised representation learning approach specifically designed for atmospheric dynamics. Our approach, called AtmoDist, trains a neural network on a simple, auxiliary task: predicting the temporal distance between elements of a shuffled sequence of atmospheric fields (e.g. the components of the wind field from a reanalysis or simulation). The task forces the network to learn important intrinsic aspects of the data as activations in its layers and from these hence a discriminative metric can be obtained. We demonstrate this by using AtmoDist to define a metric for GAN-based super resolution of vorticity and divergence. Our upscaled data matches closely the true statistics of a high resolution reference and it significantly outperform the state-of-the-art based on mean squared error. Since AtmoDist is unsupervised, only requires a temporal sequence of fields, and uses a simple auxiliary task, it can be used in a wide range of applications that aim to understand and mitigate climate change.
翻訳日:2021-09-22 13:15:50 公開日:2021-09-19
# (参考訳) 低分解能ヒューマンポース推定

Low-resolution Human Pose Estimation ( http://arxiv.org/abs/2109.09090v1 )

ライセンス: CC BY-SA 4.0
Chen Wang, Feng Zhang, Xiatian Zhu, Shuzhi Sam Ge(参考訳) 人間のポーズ推定は高解像度画像において大きな進歩を遂げた。 しかし、解像度の低い画像データには、未熟な課題が伴う。 このギャップを埋めるため,我々は既存の手法を調査し,最も支配的なヒートマップベース手法が低解像度でのモデル性能低下を招き,オフセット学習が効果的な戦略であることを明らかにした。 本研究は,既存のオフセット学習手法の2つの基本的な制約,すなわち,一貫性のないトレーニングとテスト,分離されたヒートマップとオフセット学習に対処する新しい信頼意識学習(CAL)手法を提案する。 特にcalは、ミニバッチ学習の方法でモデル出力の統計的重要性を捉えながら、地中および最も自信のある予測に関して、ヒートマップとオフセットの学習を選択的に重み付けている。 COCOベンチマークで行った大規模な実験により,本手法は低分解能人のポーズ推定における最先端の手法よりも優れていた。

Human pose estimation has achieved significant progress on images with high imaging resolution. However, low-resolution imagery data bring nontrivial challenges which are still under-studied. To fill this gap, we start with investigating existing methods and reveal that the most dominant heatmap-based methods would suffer more severe model performance degradation from low-resolution, and offset learning is an effective strategy. Established on this observation, in this work we propose a novel Confidence-Aware Learning (CAL) method which further addresses two fundamental limitations of existing offset learning methods: inconsistent training and testing, decoupled heatmap and offset learning. Specifically, CAL selectively weighs the learning of heatmap and offset with respect to ground-truth and most confident prediction, whilst capturing the statistical importance of model output in mini-batch learning manner. Extensive experiments conducted on the COCO benchmark show that our method outperforms significantly the state-of-the-art methods for low-resolution human pose estimation.
翻訳日:2021-09-22 13:06:52 公開日:2021-09-19
# (参考訳) ナレッジグラフと自動ニュースプロファイリングを用いた機関リスク識別の枠組み

A Framework for Institutional Risk Identification using Knowledge Graphs and Automated News Profiling ( http://arxiv.org/abs/2109.09103v1 )

ライセンス: CC BY 4.0
Mahmoud Mahfouz, Armineh Nourbakhsh, Sameena Shah(参考訳) 世界中の組織は、運用に影響を及ぼすさまざまなリスクに直面しています。 潜在的なリスクの影響を事前に検出し評価するための、堅牢なリスク識別プロセスを持つことが不可欠である。 タスクの性質と、深い主題に関する専門知識の現在の要件を考えると、ほとんどの組織は、非常に手動のプロセスを使用します。 私たちの研究では 自動化されたシステムを開発し (a)世界ニュースを継続的に監視する b)リスクを自律的に識別し、特徴付けることができる。 (c)到達トリガーの接近を判定し、リスクインパクトの顕現からの距離を判断することができる。 (d)リスクに最も影響される可能性のある組織の運用領域を特定する。 その他、次のような貢献がある。 (a)リスクのナレッジグラフ表現と b) 特定のリスクのテキスト記述と多言語ニュースとを一致させるために,神経埋め込みモデルを用いて組織が特定したリスクに適合する関連ニュース。

Organizations around the world face an array of risks impacting their operations globally. It is imperative to have a robust risk identification process to detect and evaluate the impact of potential risks before they materialize. Given the nature of the task and the current requirements of deep subject matter expertise, most organizations utilize a heavily manual process. In our work, we develop an automated system that (a) continuously monitors global news, (b) is able to autonomously identify and characterize risks, (c) is able to determine the proximity of reaching triggers to determine the distance from the manifestation of the risk impact and (d) identifies organization's operational areas that may be most impacted by the risk. Other contributions also include: (a) a knowledge graph representation of risks and (b) relevant news matching to risks identified by the organization utilizing a neural embedding model to match the textual description of a given risk with multi-lingual news.
翻訳日:2021-09-22 12:52:16 公開日:2021-09-19
# (参考訳) BERTをベースとした言語モデルが音声文で何を学ぶか : 実証的研究

What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study ( http://arxiv.org/abs/2109.09105v1 )

ライセンス: CC BY 4.0
Ayush Kumar, Mukuntha Narayanan Sundararaman, Jithendra Vepa(参考訳) 言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクに広く活用されている。 音声言語は,会話の有意義な表現を生成するために,話者の対話,対話状態,発話による多モーダル行動の注意深い理解を必要とする。本研究では,SLUを3つの代表的な特性である会話(分散,一時停止,オーバートーク),チャンネル(話者型,ターンタスク),ASR(挿入,削除,置換)に分解することを提案する。 本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。 実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。 マイナス面として、LMはターンタスクとASRエラー予測で低いスコアを得る。 さらに、音声文字によるLMの事前訓練は、その言語的理解を阻害する。 最後に、Switchboard Dialog Act と Disfluency dataset の2つのベンチマークデータセット上で、上記のプロパティの有効性と転送性を確立する。

Language Models (LMs) have been ubiquitously leveraged in various tasks including spoken language understanding (SLU). Spoken language requires careful understanding of speaker interactions, dialog states and speech induced multimodal behaviors to generate a meaningful representation of the conversation.In this work, we propose to dissect SLU into three representative properties:conversational(disfluency, pause, overtalk), channel(speaker-type, turn-tasks) andASR(insertion, deletion,substitution). We probe BERT based language models (BERT, RoBERTa) trained on spoken transcripts to investigate its ability to understand multifarious properties in absence of any speech cues. Empirical results indicate that LM is surprisingly good at capturing conversational properties such as pause prediction and overtalk detection from lexical tokens. On the downsides, the LM scores low on turn-tasks and ASR errors predictions. Additionally, pre-training the LM on spoken transcripts restrain its linguistic understanding. Finally,we establish the efficacy and transferability of the mentioned properties on two benchmark datasets: Switchboard Dialog Act and Disfluency datasets.
翻訳日:2021-09-22 10:48:07 公開日:2021-09-19
# (参考訳) HPTQ:ハードウェアフレンドリーなポストトレーニング量子化

HPTQ: Hardware-Friendly Post Training Quantization ( http://arxiv.org/abs/2109.09113v1 )

ライセンス: CC BY 4.0
Hai Victor Habi, Reuven Peretz, Elad Cohen, Lior Dikstein, Oranit Dror, Idit Diamant, Roy H. Jennings and Arnon Netzer(参考訳) ニューラルネットワーク量子化は、エッジデバイスへのモデルのデプロイを可能にする。 ハードウェア効率にとって必須の要件は、量子化器がハードウェアに優しく、一様で対称で、2つのしきい値を持つことである。 我々の知る限り、現在のポストトレーニング量子化法はこれらの制約をすべて同時にサポートしていない。 本稿では,いくつかの既知の量子化手法を相乗的に組み合わせることでこの問題に対処する,ハードウェアフレンドリなポストトレーニング量子化(hptq)フレームワークを提案する。 分類,オブジェクト検出,セマンティックセグメンテーション,ポーズ推定の4つのタスクについて,多種多様なネットワークアーキテクチャ上で大規模に検討した。 広範な実験により,ハードウェアフレンドリーな制約下での競争結果が得られることを示した。

Neural network quantization enables the deployment of models on edge devices. An essential requirement for their hardware efficiency is that the quantizers are hardware-friendly: uniform, symmetric, and with power-of-two thresholds. To the best of our knowledge, current post-training quantization methods do not support all of these constraints simultaneously. In this work, we introduce a hardware-friendly post training quantization (HPTQ) framework, which addresses this problem by synergistically combining several known quantization methods. We perform a large-scale study on four tasks: classification, object detection, semantic segmentation and pose estimation over a wide variety of network architectures. Our extensive experiments show that competitive results can be obtained under hardware-friendly constraints.
翻訳日:2021-09-22 10:30:09 公開日:2021-09-19
# (参考訳) ゼロショット多言語バックトランスレーションによる著者プロファイリングの防止

Preventing Author Profiling through Zero-Shot Multilingual Back-Translation ( http://arxiv.org/abs/2109.09133v1 )

ライセンス: CC BY 4.0
David Ifeoluwa Adelani, Miaoran Zhang, Xiaoyu Shen, Ali Davody, Thomas Kleinbauer, and Dietrich Klakow(参考訳) 単文ほど短い文書では、性別や民族など、著者に関する機密情報が不注意に明かされることがある。 スタイル転送は、著者のプロファイリングを可能にする情報を取り除くために、テキストを変換する効果的な方法である。 しかし、現在の多くの最先端のアプローチでは、改善されたプライバシには変換データのダウンストリームユーティリティが望ましくない低下が伴う。 本稿では,本論文の翻訳モデルを用いて,多言語逆翻訳による著者プロファイルのリスクを効果的に低減する簡易なゼロショット手法を提案する。 我々は、異なるドメインにわたる3つのデータセット上の5つの代表的なテキストスタイル転送モデルと比較する。 自動評価と人的評価の両方の結果から,本手法はトレーニングデータを必要とせず,最高の総合的な性能を達成することが示された。 私たちは、性別と人種の敵対的な予測を最大222ドルまで下げることができ、一方、下流タスクで元のユーティリティの95セントを維持できます。

Documents as short as a single sentence may inadvertently reveal sensitive information about their authors, including e.g. their gender or ethnicity. Style transfer is an effective way of transforming texts in order to remove any information that enables author profiling. However, for a number of current state-of-the-art approaches the improved privacy is accompanied by an undesirable drop in the down-stream utility of the transformed data. In this paper, we propose a simple, zero-shot way to effectively lower the risk of author profiling through multilingual back-translation using off-the-shelf translation models. We compare our models with five representative text style transfer models on three datasets across different domains. Results from both an automatic and a human evaluation show that our approach achieves the best overall performance while requiring no training data. We are able to lower the adversarial prediction of gender and race by up to $22\%$ while retaining $95\%$ of the original utility on downstream tasks.
翻訳日:2021-09-22 10:14:51 公開日:2021-09-19
# (参考訳) LODE: ローカルの深い欠陥と新しいベンチマーク

LODE: Deep Local Deblurring and A New Benchmark ( http://arxiv.org/abs/2109.09149v1 )

ライセンス: CC BY 4.0
Zerun Wang, Liuyu Xiang, Fan Yang, Jinzhao Qian, Jie Hu, Haidong Huang, Jungong Han, Yuchen Guo, Guiguang Ding(参考訳) 最近のディープ・デブロワーリング・アルゴリズムは目覚ましい進歩を遂げているが、既存のほとんどの手法は、画像のぼやけが激しいカメラの揺れによって生じるグローバル・デブロワーリング問題に焦点を当てている。 比較的静的な背景を持つ移動物体から主に派生した局所的ぼかしが一般的であるが、未探索のままである。 本稿では,まず,3,700個の実世界の局所的ぼやけた画像とそれに対応する地表面からなるローカルデブラリング(lode)データセットを構築し,ローカルデブラリングのためのデータ基盤を構築した。 次に,局所ブラインド合成モジュールは局所的にぼやけたトレーニングペアを生成し,局所ブラインド知覚モジュールは局所的にぼやけた領域を自動捕捉し,Blur-guided Space Attentionモジュールは空間的に注意を払って遅延ネットワークを誘導する,3つのコンポーネントを含む,BLur-Aware Deblurring Network (BladeNet) と呼ばれる新しいフレームワークを提案する。 このフレームワークは柔軟で、既存の多くのSotAアルゴリズムと組み合わせることができる。 我々は,REDS と LODE データセットの広範な実験を行い,BladeNet がPSNR を 2.5dB で改善し,SotAs を局所的に改善し,グローバルデブロアに匹敵する性能を維持した。 データセットとコードを公開します。

While recent deep deblurring algorithms have achieved remarkable progress, most existing methods focus on the global deblurring problem, where the image blur mostly arises from severe camera shake. We argue that the local blur, which is mostly derived from moving objects with a relatively static background, is prevalent but remains under-explored. In this paper, we first lay the data foundation for local deblurring by constructing, for the first time, a LOcal-DEblur (LODE) dataset consisting of 3,700 real-world captured locally blurred images and their corresponding ground-truth. Then, we propose a novel framework, termed BLur-Aware DEblurring network (BladeNet), which contains three components: the Local Blur Synthesis module generates locally blurred training pairs, the Local Blur Perception module automatically captures the locally blurred region and the Blur-guided Spatial Attention module guides the deblurring network with spatial attention. This framework is flexible such that it can be combined with many existing SotA algorithms. We carry out extensive experiments on REDS and LODE datasets showing that BladeNet improves PSNR by 2.5dB over SotAs for local deblurring while keeping comparable performance for global deblurring. We will publish the dataset and codes.
翻訳日:2021-09-22 10:03:00 公開日:2021-09-19
# (参考訳) 自己監督表現の一般化可能性に関する研究

A Study of the Generalizability of Self-Supervised Representations ( http://arxiv.org/abs/2109.09150v1 )

ライセンス: CC BY 4.0
Atharva Tendle and Mohammad Rashedul Hasan(参考訳) 近年の自己教師付き学習(SSL)により、ラベルのないデータから一般化可能な視覚表現を学習できるようになった。 事前訓練されたSSL表現に基づいて微調整されたDeep Learningモデルの性能は、最先端の教師あり学習(SL)表現で微調整されたモデルと同等である。 SSLの進歩を無視すると、その一般化性は広く研究されていない。 本稿では、転送学習分類タスクのドメインベース研究を行い、事前学習されたsslおよびsl表現の一般化可能性についてより深い分析を行う。 表現はImageNetソースデータから学習され、ソースデータセットに似た2種類のターゲットデータセットを使用して微調整され、ソースデータセットと大きく異なる。 本稿では,SSLモデルとSLモデルの一般化可能性について,予測精度と予測信頼度を用いて検討する。 これに加えて、これらのモデルの最終畳み込み層の帰属を分析し、データの意味的同一性についてどのように考えるかを理解する。 SSL表現はSL表現と比較して一般化可能であることを示す。 本稿では,その不変性を調べることによってSSL表現の一般化可能性を説明し,SL表現よりも優れていることを示す。

Recent advancements in self-supervised learning (SSL) made it possible to learn generalizable visual representations from unlabeled data. The performance of Deep Learning models fine-tuned on pretrained SSL representations is on par with models fine-tuned on the state-of-the-art supervised learning (SL) representations. Irrespective of the progress made in SSL, its generalizability has not been studied extensively. In this article, we perform a deeper analysis of the generalizability of pretrained SSL and SL representations by conducting a domain-based study for transfer learning classification tasks. The representations are learned from the ImageNet source data, which are then fine-tuned using two types of target datasets: similar to the source dataset, and significantly different from the source dataset. We study generalizability of the SSL and SL-based models via their prediction accuracy as well as prediction confidence. In addition to this, we analyze the attribution of the final convolutional layer of these models to understand how they reason about the semantic identity of the data. We show that the SSL representations are more generalizable as compared to the SL representations. We explain the generalizability of the SSL representations by investigating its invariance property, which is shown to be better than that observed in the SL representations.
翻訳日:2021-09-22 09:42:27 公開日:2021-09-19
# (参考訳) 体積保存力学学習のための局所シンプレクティックニューラルネットワーク

Locally-symplectic neural networks for learning volume-preserving dynamics ( http://arxiv.org/abs/2109.09151v1 )

ライセンス: CC BY 4.0
J\=anis Baj\=ars(参考訳) 音量保存力学を学習するための局所シンプレクティックニューラルネットワーク LocSympNets を提案する。 LocSympNets の構成は、体積保存力学系のベクトル場の局所ハミルトン記述の定理とシンプレクティック積分器に基づく分割法に由来する。 最近提案されたシンプレクティシティ保存ニューラルネットワークの修正勾配モジュールは、局所的なシンプレクティクスモジュールを構築するために使用される。 自由剛体運動の半離散化随伴方程式やオイラー方程式など、線形および非線形力学を考慮に入れて数値的に研究する。 LocSympNetsは線形および非線形のダイナミクスを高い精度で学習することができる。 剛体力学の1つの軌道を学習する場合、ランダムにサンプリングされたデータからシステム全体の学習を考慮すれば、長期予測において絶対相対誤差が1%未満のシステムの両方の不変量を学び、質的に優れた短時間予測を生成することができる。

We propose locally-symplectic neural networks LocSympNets for learning volume-preserving dynamics. The construction of LocSympNets stems from the theorem of local Hamiltonian description of the vector field of a volume-preserving dynamical system and the splitting methods based on symplectic integrators. Modified gradient modules of recently proposed symplecticity-preserving neural networks SympNets are used to construct locally-symplectic modules, which composition results in volume-preserving neural networks. LocSympNets are studied numerically considering linear and nonlinear dynamics, i.e., semi-discretized advection equation and Euler equations of the motion of a free rigid body, respectively. LocSympNets are able to learn linear and nonlinear dynamics to high degree of accuracy. When learning a single trajectory of the rigid body dynamics LocSympNets are able to learn both invariants of the system with absolute relative errors below 1% in long-time predictions and produce qualitatively good short-time predictions, when the learning of the whole system from randomly sampled data is considered.
翻訳日:2021-09-22 09:39:01 公開日:2021-09-19
# (参考訳) 分類規則集合の理解における視覚因子の探索と検証

An Exploration And Validation of Visual Factors in Understanding Classification Rule Sets ( http://arxiv.org/abs/2109.09160v1 )

ライセンス: CC BY-SA 4.0
Jun Yuan, Oded Nov, Enrico Bertini(参考訳) ルールセットは、透明性と知性が必要な設定でモデルロジックを伝える手段として、機械学習(ML)でよく使用される。 ルールセットは通常、論理文(ルール)のテキストベースのリストとして表示される。 驚いたことに、これまでルールを提示するための視覚的な代替方法を探求する作業は限られていた。 本稿では、ルールの代替表現をデザインするアイデアを考察し、ルールの可読性と理解にポジティブな影響を与えると思われる多くの視覚的要素に焦点を当てる。 次に,その影響を考察するユーザスタディを提案する。 その結果, 設計要因のいくつかは, 精度への影響を最小限に抑えつつ, 読者がいかに効率的にルールを処理できるかに強い影響を与えていることがわかった。 この作業は、MLモデルを理解するためのコミュニケーション戦略としてルールを使用する場合、実践者がより効果的なソリューションを採用するのに役立つ。

Rule sets are often used in Machine Learning (ML) as a way to communicate the model logic in settings where transparency and intelligibility are necessary. Rule sets are typically presented as a text-based list of logical statements (rules). Surprisingly, to date there has been limited work on exploring visual alternatives for presenting rules. In this paper, we explore the idea of designing alternative representations of rules, focusing on a number of visual factors we believe have a positive impact on rule readability and understanding. We then presents a user study exploring their impact. The results show that some design factors have a strong impact on how efficiently readers can process the rules while having minimal impact on accuracy. This work can help practitioners employ more effective solutions when using rules as a communication strategy to understand ML models.
翻訳日:2021-09-22 09:22:48 公開日:2021-09-19
# (参考訳) CaTGrasp:シミュレーションによるクラッタのカテゴリーレベルタスク関連グラフ作成

CaTGrasp: Learning Category-Level Task-Relevant Grasping in Clutter from Simulation ( http://arxiv.org/abs/2109.09163v1 )

ライセンス: CC BY 4.0
Bowen Wen and Wenzhao Lian and Kostas Bekris and Stefan Schaal(参考訳) 下流操作タスクが有効な把握セットを制約する産業アセンブリでは,タスク関連把握が重要である。 しかし、タスク関係の把握ラベルの定義や注釈が難しいため、このタスクの実行方法を学ぶのは困難である。 モデリングのための適切な表現や、タスク関連の把握を行うためのオフ・ザ・棚のツールに関するコンセンサスもまだ存在しない。 本研究では,実世界のデータ収集や手動アノテーションを必要とせずに,産業オブジェクトのタスク関連把握を学習するフレームワークを提案する。 これを達成するために、フレームワーク全体は、合成ラベル生成による教師付きトレーニングや、自己教師付きハンドオブジェクトインタラクションを含む、シミュレーションのみでトレーニングされる。 本稿では,対象インスタンス間の密接な対応を確立し,タスク関係の把握を新たなインスタンスに伝達する,カテゴリレベルでのオブジェクト中心の標準表現を提案する。 密集した産業用物体のタスク関連把握に関する広範囲な実験をシミュレーションと実世界の双方で行い,提案手法の有効性を実証した。 コードとデータはhttps://sites.google.com/view/catgraspで公開される。

Task-relevant grasping is critical for industrial assembly, where downstream manipulation tasks constrain the set of valid grasps. Learning how to perform this task, however, is challenging, since task-relevant grasp labels are hard to define and annotate. There is also yet no consensus on proper representations for modeling or off-the-shelf tools for performing task-relevant grasps. This work proposes a framework to learn task-relevant grasping for industrial objects without the need of time-consuming real-world data collection or manual annotation. To achieve this, the entire framework is trained solely in simulation, including supervised training with synthetic label generation and self-supervised, hand-object interaction. In the context of this framework, this paper proposes a novel, object-centric canonical representation at the category level, which allows establishing dense correspondence across object instances and transferring task-relevant grasps to novel instances. Extensive experiments on task-relevant grasping of densely-cluttered industrial objects are conducted in both simulation and real-world setups, demonstrating the effectiveness of the proposed framework. Code and data will be released upon acceptance at https://sites.google.com/view/catgrasp.
翻訳日:2021-09-22 09:13:36 公開日:2021-09-19
# (参考訳) 形状抽出によるガウス過程を用いた確率的軸受異常診断

Probabilistic Bearing Fault Diagnosis Using Gaussian Process with Tailored Feature Extraction ( http://arxiv.org/abs/2109.09189v1 )

ライセンス: CC BY 4.0
Mingxuan Liang, Kai Zhou(参考訳) 転がり軸受は、過酷な環境下での長時間の運転により、機械システムの予期せぬ故障や重大事故を引き起こす様々な障害にさらされている。 近年,深層学習が関心を集め,データ駆動型ベアリング障害診断に広く応用されている。 しかし,現在の深層学習法では,必然的に存在する不確かさを無視する決定論的分類という形で,ベアリング障害の診断を行う。 この問題に対処するため,本研究では,予測の不確実性を考慮した確率的故障診断フレームワークを開発した。 このフレームワークはガウスプロセス分類器(GPC)の確率的特徴を完全に活用する。 高忠実度GPCの確立を容易にするため、多種多様なカーネル主成分分析(KPCA)法と積み重ねオートエンコーダからなる所定の方法プール上で、クロスバリデーションに基づくグリッドサーチにより、分割された特徴抽出を最適に行うことができる。 この戦略は、特徴と欠点の間の複雑な非線形関係を適切に特徴付けることができる。 さらに、診断性能を高めるためにセンサ融合の概念を採用する。 従来のディープラーニング手法と比較すると,このフレームワークではラベル付きデータが少なく,パラメータチューニングの労力も少ないのが一般的である。 実験用転がり軸受データセットを用いたシステムケーススタディを行い,本フレームワークの有効性を検証した。 また, 故障診断性能に及ぼす各種要因について検討した。

Rolling bearings are subject to various faults due to its long-time operation under harsh environment, which will lead to unexpected breakdown of machinery system and cause severe accidents. Deep learning methods recently have gained growing interests and extensively applied in the data-driven bearing fault diagnosis. However, current deep learning methods perform the bearing fault diagnosis in the form of deterministic classification, which overlook the uncertainties that inevitably exist in actual practice. To tackle this issue, in this research we develop a probabilistic fault diagnosis framework that can account for the uncertainty effect in prediction, which bears practical significance. This framework fully leverages the probabilistic feature of Gaussian process classifier (GPC). To facilitate the establishment of high-fidelity GPC, the tailored feature extraction with dimensionality reduction method can be optimally determined through the cross validation-based grid search upon a prespecified method pool consisting of various kernel principal component analysis (KPCA) methods and stacked autoencoder. This strategy can ensure the complex nonlinear relations between the features and faults to be adequately characterized. Furthermore, the sensor fusion concept is adopted to enhance the diagnosis performance. As compared with the traditional deep learning methods, this proposed framework usually requires less labeled data and less effort for parameter tuning. Systematic case studies using the publicly accessible experimental rolling bearing dataset are carried out to validate this new framework. Various influencing factors on fault diagnosis performance also are thoroughly investigated.
翻訳日:2021-09-22 08:55:00 公開日:2021-09-19
# (参考訳) オンラインソーシャルネットワークにおけるリンク予測のためのegoネットワークレイヤのパワー活用

Harnessing the Power of Ego Network Layers for Link Prediction in Online Social Networks ( http://arxiv.org/abs/2109.09190v1 )

ライセンス: CC BY 4.0
Mustafa Toprak, Chiara Boldrini, Andrea Passarella, Marco Conti(参考訳) オンラインソーシャルネットワークにおけるユーザー間のリンクを推薦できることは、ユーザーが同志の個人とつながり、プラットフォーム自体やサードパーティーがソーシャルメディア情報を活用してビジネスを成長させる上で重要である。 予測は一般に教師なしの学習や教師なしの学習に基づいており、しばしば普通の隣人数のような単純で効果的なグラフトポロジー情報を活用する。 しかし、個人の社会的構造に関するより豊かな情報は、より良い予測につながるかもしれないと論じる。 本稿では,確立された社会的認知理論を活用し,リンク予測の性能を向上させることを提案する。 これらの理論によれば、個人は平均して5つの同心円に沿って社会的関係を配置し、親密性を減少させる。 異なるサークルにおける関係は、新しいリンクを予測する上で異なる重要性を持つと仮定する。 この主張を検証するために、一般的な特徴抽出予測アルゴリズム(教師なしと教師なしの両方)に注目し、社会循環認識を含むように拡張する。 我々は,これらのサークル認識アルゴリズムの予測性能を,複数のベンチマーク(ベースラインバージョン,ノード埋め込みおよびGNNベースのリンク予測を含む)に対して検証し,ビデオゲーマーとジェネリックユーザからなる2つのTwitterデータセットを活用する。 また,node2vec や seal のような最先端のソリューションを上回り,計算の複雑さを増すことなく,ソーシャルアウェアネスによって予測性能が大幅に向上することを示した。 最後に,ソーシャル・アウェアネスは,特定のカテゴリを対象とする分類器(費用がかかるか実用的でないか)の代わりに利用できることを示す。

Being able to recommend links between users in online social networks is important for users to connect with like-minded individuals as well as for the platforms themselves and third parties leveraging social media information to grow their business. Predictions are typically based on unsupervised or supervised learning, often leveraging simple yet effective graph topological information, such as the number of common neighbors. However, we argue that richer information about personal social structure of individuals might lead to better predictions. In this paper, we propose to leverage well-established social cognitive theories to improve link prediction performance. According to these theories, individuals arrange their social relationships along, on average, five concentric circles of decreasing intimacy. We postulate that relationships in different circles have different importance in predicting new links. In order to validate this claim, we focus on popular feature-extraction prediction algorithms (both unsupervised and supervised) and we extend them to include social-circles awareness. We validate the prediction performance of these circle-aware algorithms against several benchmarks (including their baseline versions as well as node-embedding- and GNN-based link prediction), leveraging two Twitter datasets comprising a community of video gamers and generic users. We show that social-awareness generally provides significant improvements in the prediction performance, beating also state-of-the-art solutions like node2vec and SEAL, and without increasing the computational complexity. Finally, we show that social-awareness can be used in place of using a classifier (which may be costly or impractical) for targeting a specific category of users.
翻訳日:2021-09-22 08:38:44 公開日:2021-09-19
# (参考訳) 要約の事実整合性評価のためのクラウドソーシングプロトコルの検討

Investigating Crowdsourcing Protocols for Evaluatingthe Factual Consistency of Summaries ( http://arxiv.org/abs/2109.09195v1 )

ライセンス: CC BY 4.0
Xiangru Tang, Alexander R. Fabbri, Ziming Mao, Griffin Adams, Borui Wang, Haoran Li, Yashar Mehdad, Dragomir Radev(参考訳) 要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾を生じやすい。 したがって、改良されたモデルを開発するためには、要約の事実整合性を比較する必要がある。 しかし,現実整合性のための最適な人的評価設定は標準化されていない。 この問題に対処するため,CNN-Daily Mail と XSum の各データセットから,評価ベースの Likert スケールとランキングベースの Best-Worst Scaling プロトコルを用いて,4つの最先端モデル上で100の項目をクラウドソーシングし,最も信頼性の高い評価フレームワークを決定する。 ランキングベースのプロトコルはデータセット間の要約品質をより信頼性の高い尺度を提供するのに対し、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。 我々のクラウドソーシングテンプレートと要約評価は、要約における事実整合性の研究を促進するために公開される。

Current pre-trained models applied to summarization are prone to factual inconsistencies which either misrepresent the source text or introduce extraneous information. Thus, comparing the factual consistency of summaries is necessary as we develop improved models. However, the optimal human evaluation setup for factual consistency has not been standardized. To address this issue, we crowdsourced evaluations for factual consistency using the rating-based Likert scale and ranking-based Best-Worst Scaling protocols, on 100 articles from each of the CNN-Daily Mail and XSum datasets over four state-of-the-art models, to determine the most reliable evaluation framework. We find that ranking-based protocols offer a more reliable measure of summary quality across datasets, while the reliability of Likert ratings depends on the target dataset and the evaluation design. Our crowdsourcing templates and summary evaluations will be publicly available to facilitate future research on factual consistency in summarization.
翻訳日:2021-09-22 08:03:36 公開日:2021-09-19
# (参考訳) 深層学習に基づく自動・説明可能なオントロジー拡張:化学領域を事例として

Automated and Explainable Ontology Extension Based on Deep Learning: A Case Study in the Chemical Domain ( http://arxiv.org/abs/2109.09202v1 )

ライセンス: CC BY 4.0
Adel Memariani, Martin Glauer, Fabian Neuhaus, Till Mossakowski and Janna Hastings(参考訳) 参照オントロジーは、そのドメインに対して共有語彙と知識リソースを提供します。 手作業による構築により、高品質の維持が可能になり、コミュニティ全体で広く受け入れられるようになる。 しかし、手動開発プロセスは大規模ドメインではスケールしない。 本稿では, 生命化学のオントロジーとして注目されるChEBIオントロジーに, 自動オントロジー拡張のための新しい方法論を提案する。 我々は,ChEBIオントロジーとそれらが属するクラスから,葉ノード構造に基づくトランスフォーマーに基づくディープラーニングモデルを訓練した。 このモデルでは、これまで見えない化学構造を自動的に分類することができる。 提案モデルでは,F1スコア0.80を達成し,前回の結果よりも6ポイント向上した。 さらに,モデルの注意重みの可視化が,モデルの意思決定方法に関する洞察を提供することによって,結果を説明する上でどのように役立つかを実証する。

Reference ontologies provide a shared vocabulary and knowledge resource for their domain. Manual construction enables them to maintain a high quality, allowing them to be widely accepted across their community. However, the manual development process does not scale for large domains. We present a new methodology for automatic ontology extension and apply it to the ChEBI ontology, a prominent reference ontology for life sciences chemistry. We trained a Transformer-based deep learning model on the leaf node structures from the ChEBI ontology and the classes to which they belong. The model is then capable of automatically classifying previously unseen chemical structures. The proposed model achieved an overall F1 score of 0.80, an improvement of 6 percentage points over our previous results on the same dataset. Additionally, we demonstrate how visualizing the model's attention weights can help to explain the results by providing insight into how the model made its decisions.
翻訳日:2021-09-22 07:53:44 公開日:2021-09-19
# (参考訳) cliff: 抽象要約における忠実性と事実性を改善するための対比学習

CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization ( http://arxiv.org/abs/2109.09209v1 )

ライセンス: CC BY 4.0
Shuyang Cao and Lu Wang(参考訳) 我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。 参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。 さらに、我々は、新しい人間の要約エラーアノテーションに見られる2つの最先端モデルであるBARTとPEGASUSのエラーとよく似た、ネガティブなサンプルを作成するための4種類の戦略を設計する。 XSumとCNN/Daily Mailの実験は、私たちの対照的な学習フレームワークがデータセットやモデル間で堅牢であることを示している。 qaベースの事実度評価によれば、一貫して、誤り訂正の強い比較、補足に基づく再ランク付け、不一致トレーニングよりも多くの事実要約を生成する。 人間の判断は観察を反響させ、我々のモデルの概要がより多くの誤りを正すことを見つける。

We study generating abstractive summaries that are faithful and factually consistent with the given articles. A novel contrastive learning formulation is presented, which leverages both reference summaries, as positive training data, and automatically generated erroneous summaries, as negative training data, to train summarization systems that are better at distinguishing between them. We further design four types of strategies for creating negative samples, to resemble errors made commonly by two state-of-the-art models, BART and PEGASUS, found in our new human annotations of summary errors. Experiments on XSum and CNN/Daily Mail show that our contrastive learning framework is robust across datasets and models. It consistently produces more factual summaries than strong comparisons with post error correction, entailment-based reranking, and unlikelihood training, according to QA-based factuality evaluation. Human judges echo the observation and find that our model summaries correct more errors.
翻訳日:2021-09-22 07:36:53 公開日:2021-09-19
# (参考訳) ARCA23K:オープンセットラベルノイズを調査するためのオーディオデータセット

ARCA23K: An audio dataset for investigating open-set label noise ( http://arxiv.org/abs/2109.09227v1 )

ライセンス: CC0 1.0
Turab Iqbal, Yin Cao, Andrew Bailey, Mark D. Plumbley, Wenwu Wang(参考訳) freesoundのような音声共有プラットフォームでオーディオデータが利用できるため、ユーザーは大量の注釈付きオーディオにアクセスできる。 このようなデータをトレーニングに利用することはますます普及しているが、このようなデータセットでよく見られるラベルノイズの問題にはさらなる調査が必要である。 本稿では,23000以上のラベル付きフリーサウンドクリップからなる音声データセットであるarca23kについて述べる。 FSDKaggle2018やFSDnoisy18Kのような過去のデータセットとは異なり、ARCA23Kはより制御された方法でラベルノイズの研究を促進する。 私たちは、データセットの作成プロセス全体を、完全に再現可能なように記述します。 本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。 分類性能と表現学習の観点からラベルノイズの影響について検討する実験を行った。

The availability of audio data on sound sharing platforms such as Freesound gives users access to large amounts of annotated audio. Utilising such data for training is becoming increasingly popular, but the problem of label noise that is often prevalent in such datasets requires further investigation. This paper introduces ARCA23K, an Automatically Retrieved and Curated Audio dataset comprised of over 23000 labelled Freesound clips. Unlike past datasets such as FSDKaggle2018 and FSDnoisy18K, ARCA23K facilitates the study of label noise in a more controlled manner. We describe the entire process of creating the dataset such that it is fully reproducible, meaning researchers can extend our work with little effort. We show that the majority of labelling errors in ARCA23K are due to out-of-vocabulary audio clips, and we refer to this type of label noise as open-set label noise. Experiments are carried out in which we study the impact of label noise in terms of classification performance and representation learning.
翻訳日:2021-09-22 07:12:35 公開日:2021-09-19
# (参考訳) チェックでupv! 2021年多言語チェック価値のある主張の文化的差異を誤認

UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying Multilingual Check-worthy Claims ( http://arxiv.org/abs/2109.09232v1 )

ライセンス: CC BY 4.0
Ipek Baris Schlicht, Angel Felipe Magnoss\~ao de Paula and Paolo Rosso(参考訳) チェックに値するクレームを特定することは、自動化されたファクトチェックシステムの最初のステップであることが多い。 このタスクを多言語で処理する方法が検討されている。 多言語テキスト表現による入力のエンコーディングは、多言語チェック値検出の1つの方法である。 そこで,本研究では,不意のバイアスを緩和するための補助タスクとして,言語識別タスクを提案する。本研究の目的は,英語,アラビア語,ブルガリア語,スペイン語,トルコ語のツイートを含むclef-2021 checkthat!のデータセットを用いて,共同トレーニングを行うことである。 その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。

Identifying check-worthy claims is often the first step of automated fact-checking systems. Tackling this task in a multilingual setting has been understudied. Encoding inputs with multilingual text representations could be one approach to solve the multilingual check-worthiness detection. However, this approach could suffer if cultural bias exists within the communities on determining what is check-worthy.In this paper, we propose a language identification task as an auxiliary task to mitigate unintended bias.With this purpose, we experiment joint training by using the datasets from CLEF-2021 CheckThat!, that contain tweets in English, Arabic, Bulgarian, Spanish and Turkish. Our results show that joint training of language identification and check-worthy claim detection tasks can provide performance gains for some of the selected languages.
翻訳日:2021-09-22 07:00:57 公開日:2021-09-19
# (参考訳) ハッカ検出のための統一多言語著者プロファイリング

Unified and Multilingual Author Profiling for Detecting Haters ( http://arxiv.org/abs/2109.09233v1 )

ライセンス: CC BY 4.0
Ipek Baris Schlicht and Angel Felipe Magnoss\~ao de Paula(参考訳) 本稿では,言語に関係なくツイートを処理してヘイトスピーチスプレッダーを識別する統一ユーザプロファイリングフレームワークを提案する。 このフレームワークは、ツイートを文変換でエンコードし、ユーザープロファイルを学ぶために重要なツイートを選択するための注意メカニズムを適用する。 さらに、注意層は、トークンレベルとポストレベルの両方で注意重み付けを行うことにより、ユーザがヘイトスピーチスプレッダーである理由を説明するのに役立つ。 提案モデルは最先端の多言語トランスフォーマーモデルよりも優れていた。

This paper presents a unified user profiling framework to identify hate speech spreaders by processing their tweets regardless of the language. The framework encodes the tweets with sentence transformers and applies an attention mechanism to select important tweets for learning user profiles. Furthermore, the attention layer helps to explain why a user is a hate speech spreader by producing attention weights at both token and post level. Our proposed model outperformed the state-of-the-art multilingual transformer models.
翻訳日:2021-09-22 06:49:28 公開日:2021-09-19
# (参考訳) mirrorwic: 事前学習された言語モデルからの文脈内表現の省略について

MirrorWiC: On Eliciting Word-in-Context Representations from Pretrained Language Models ( http://arxiv.org/abs/2109.09237v1 )

ライセンス: CC BY 4.0
Qianchu Liu, Fangyu Liu, Nigel Collier, Anna Korhonen, Ivan Vuli\'c(参考訳) 近年の研究では,BERT や RoBERTa などの事前学習言語モデル (PLM) が,単純な自己指導手法でも有効文や単語エンコーダに変換できることが示されている。 本稿では,PLMにおけるワード・イン・コンテクスト(WiC)表現を改善するための,シンプルで効率的なWiCターゲットファインチューニング手法であるMirrorWiCを提案する。 提案手法は,ウィキペディアから採取した原文のみを利用して,標準的なコントラスト学習装置内で,文脈対応の単語表現を学習する。 複数の言語にまたがる一連の標準および包括的なWiCベンチマークを実験した。 提案する完全教師なしミラーウィックモデルでは,全単言語,多言語,多言語間,多言語間において,既成のplmを大きく上回っている。 さらに、標準的なWiCベンチマークでは、MirrorWiCは、タスク内データとセンスラベルで微調整された教師付きモデルと同等である。

Recent work indicated that pretrained language models (PLMs) such as BERT and RoBERTa can be transformed into effective sentence and word encoders even via simple self-supervised techniques. Inspired by this line of work, in this paper we propose a fully unsupervised approach to improving word-in-context (WiC) representations in PLMs, achieved via a simple and efficient WiC-targeted fine-tuning procedure: MirrorWiC. The proposed method leverages only raw texts sampled from Wikipedia, assuming no sense-annotated data, and learns context-aware word representations within a standard contrastive learning setup. We experiment with a series of standard and comprehensive WiC benchmarks across multiple languages. Our proposed fully unsupervised MirrorWiC models obtain substantial gains over off-the-shelf PLMs across all monolingual, multilingual and cross-lingual setups. Moreover, on some standard WiC benchmarks, MirrorWiC is even on-par with supervised models fine-tuned with in-task data and sense labels.
翻訳日:2021-09-22 06:40:18 公開日:2021-09-19
# (参考訳) 胸部ctスキャンの多施設データセットによるcovid-19病診断のためのロバスト自動フレームワーク

Robust Automated Framework for COVID-19 Disease Identification from a Multicenter Dataset of Chest CT Scans ( http://arxiv.org/abs/2109.09241v1 )

ライセンス: CC BY 4.0
Shahin Heidarian, Parnian Afshar, Nastaran Enshaei, Farnoosh Naderkhani, Moezedin Javad Rafiee, Anastasia Oikonomou, Akbar Shafiee, Pascal N. Tyrrell, Faranak Babaki Fard, Konstantinos N. plataniotis, Arash Mohammadi(参考訳) 本研究の目的は,様々な画像センタで取得した胸部ctスキャンと放射線線量に基づいて,covid-19,市中肺炎(cap),正常症例を識別するための強固な深層学習に基づく枠組みを開発することである。 提案手法は,特定の走査プロトコルを用いて1つの撮像センタから取得した比較的小さなデータセット上でトレーニングされるが,複数のスキャナが異なる技術パラメータを用いて取得した異種テストセット上では良好に動作することを示した。 また、列車とテストセット間のデータシフトに対応し、別のセンターから新しい外部データセットを受け取ることでモデルの堅牢性を高めるために、教師なしのアプローチでモデルを更新することが可能であることを示した。 モデルの複数のバージョンから予測を集約するために,アンサンブルアーキテクチャを採用した。 最初の訓練と開発目的のために、標準放射線線量スキャンプロトコルを用いて1つのイメージングセンターから取得したボリュームCTを含む171 COVID-19, 60 CAP, 76の正常症例の社内データセットが使用された。 モデルを評価するために,データ特性の変化がモデルの性能に与える影響を検討するために,4つの異なるテストセットを振り返って収集した。 試験例では,列車セットと類似したCTスキャン,低用量および超低用量CTスキャンが検出された。 また、心臓血管疾患や手術歴のある患者からいくつかのctスキャンが得られた。 この研究で使用されたテストデータセットは、51のcovid-19、28のcap、51の正常例であった。 実験の結果,本フレームワークは96.15% (95%CI: [91.25-98.74]), 新型コロナウイルス感受性96.08% (95%CI: [86.54-99.5]), CAP感受性92.86% (95%CI: [76.50-99.19]) を達成できることを確認した。

The objective of this study is to develop a robust deep learning-based framework to distinguish COVID-19, Community-Acquired Pneumonia (CAP), and Normal cases based on chest CT scans acquired in different imaging centers using various protocols, and radiation doses. We showed that while our proposed model is trained on a relatively small dataset acquired from only one imaging center using a specific scanning protocol, the model performs well on heterogeneous test sets obtained by multiple scanners using different technical parameters. We also showed that the model can be updated via an unsupervised approach to cope with the data shift between the train and test sets and enhance the robustness of the model upon receiving a new external dataset from a different center. We adopted an ensemble architecture to aggregate the predictions from multiple versions of the model. For initial training and development purposes, an in-house dataset of 171 COVID-19, 60 CAP, and 76 Normal cases was used, which contained volumetric CT scans acquired from one imaging center using a constant standard radiation dose scanning protocol. To evaluate the model, we collected four different test sets retrospectively to investigate the effects of the shifts in the data characteristics on the model's performance. Among the test cases, there were CT scans with similar characteristics as the train set as well as noisy low-dose and ultra-low dose CT scans. In addition, some test CT scans were obtained from patients with a history of cardiovascular diseases or surgeries. The entire test dataset used in this study contained 51 COVID-19, 28 CAP, and 51 Normal cases. Experimental results indicate that our proposed framework performs well on all test sets achieving total accuracy of 96.15% (95%CI: [91.25-98.74]), COVID-19 sensitivity of 96.08% (95%CI: [86.54-99.5]), CAP sensitivity of 92.86% (95%CI: [76.50-99.19]).
翻訳日:2021-09-22 06:21:31 公開日:2021-09-19
# 交通網:単一カメラを用いた3次元交通監視

Traffic-Net: 3D Traffic Monitoring Using a Single Camera ( http://arxiv.org/abs/2109.09165v1 )

ライセンス: Link先を確認
Mahdi Rezaei, Mohsen Azarmi, Farzam Mohammad Pour Mir(参考訳) コンピュータビジョンは、インテリジェントトランスポーテーションシステム(ITS)と交通監視において重要な役割を果たしてきた。 急速に成長する自動車両や混雑した都市とともに、ビデオ監視インフラを使用したATM(Automatic and Advanced Traffic Management System)は、Deep Neural Networksの実装によって進化してきた。 本研究では,1台のcctvトラヒックカメラを用いて,3次元車両/歩行者検知,速度検出,軌道推定,渋滞検出,車両と歩行者のインタラクションの監視など,リアルタイム交通監視のための実用的なプラットフォームを提供する。 車両・歩行者検出のためのカスタムYOLOv5ディープニューラルネットワークモデルとSORT追跡アルゴリズムの改良を行った。 カメラ自動校正のためのハイブリッド衛星地上逆視点マッピング(SG-IPM)法も開発され,正確な3次元物体検出と可視化が可能となった。 また,短期および長期の時間的ビデオデータストリームに基づく階層的トラヒックモデリングソリューションを開発し,脆弱な道路利用者のトラヒックフロー,ボトルネック,リスクスポットを理解する。 MIO-TCD, UA-DETRAC, GRAM-RTMなどの交通監視データセットを用いて, 道路, 交差点, 都市部から異なる照明・気象条件下で収集した実世界のシナリオと現状との比較実験を行った。

Computer Vision has played a major role in Intelligent Transportation Systems (ITS) and traffic surveillance. Along with the rapidly growing automated vehicles and crowded cities, the automated and advanced traffic management systems (ATMS) using video surveillance infrastructures have been evolved by the implementation of Deep Neural Networks. In this research, we provide a practical platform for real-time traffic monitoring, including 3D vehicle/pedestrian detection, speed detection, trajectory estimation, congestion detection, as well as monitoring the interaction of vehicles and pedestrians, all using a single CCTV traffic camera. We adapt a custom YOLOv5 deep neural network model for vehicle/pedestrian detection and an enhanced SORT tracking algorithm. For the first time, a hybrid satellite-ground based inverse perspective mapping (SG-IPM) method for camera auto-calibration is also developed which leads to an accurate 3D object detection and visualisation. We also develop a hierarchical traffic modelling solution based on short- and long-term temporal video data stream to understand the traffic flow, bottlenecks, and risky spots for vulnerable road users. Several experiments on real-world scenarios and comparisons with state-of-the-art are conducted using various traffic monitoring datasets, including MIO-TCD, UA-DETRAC and GRAM-RTM collected from highways, intersections, and urban areas under different lighting and weather conditions.
翻訳日:2021-09-21 16:57:32 公開日:2021-09-19
# 動的データフィルタリングによるNLPデータセットのトレーニング

Training Dynamic based data filtering may not work for NLP datasets ( http://arxiv.org/abs/2109.09191v1 )

ライセンス: Link先を確認
Arka Talukdar, Monika Dagar, Prachi Gupta, Varun Menon(参考訳) 最近のデータセットサイズの増加は、自然言語理解に大きな進歩をもたらした。 これらの大きなデータセットは通常、自動化(検索エンジンやWebクローラ)やクラウドソーシングを通じて収集される。 これらのデータセットのトレーニングは記憶と一般化の欠如につながる。 したがって、誤認されたデータの識別と隔離を支援する技術を開発することが重要となる。 本稿では,NLPデータセットにおける誤りのある例を識別・削除するためのAUM(Area Under the Margin)メトリクスの適用性について検討する。 我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを見出した。また,かなりの数の正確なラベル付きポイントを除去し,大量の関連言語情報を失うことにつながる。 モデルが構文表現や意味表現に頼るのではなく,分布情報に依存することを示す。

The recent increase in dataset size has brought about significant advances in natural language understanding. These large datasets are usually collected through automation (search engines or web crawlers) or crowdsourcing which inherently introduces incorrectly labeled data. Training on these datasets leads to memorization and poor generalization. Thus, it is pertinent to develop techniques that help in the identification and isolation of mislabelled data. In this paper, we study the applicability of the Area Under the Margin (AUM) metric to identify and remove/rectify mislabelled examples in NLP datasets. We find that mislabelled samples can be filtered using the AUM metric in NLP datasets but it also removes a significant number of correctly labeled points and leads to the loss of a large amount of relevant language information. We show that models rely on the distributional information instead of relying on syntactic and semantic representations.
翻訳日:2021-09-21 16:56:05 公開日:2021-09-19
# 顔認識における隠蔽下での頑健性に向けて

Towards robustness under occlusion for face recognition ( http://arxiv.org/abs/2109.09083v1 )

ライセンス: Link先を確認
Tomas M. Borges and Teofilo E. de Campos and Ricardo de Queiroz(参考訳) 本稿では,ResNetのバックボーンを用いた顔認識パイプラインの性能に及ぼすオクルージョンの影響を評価する。 分類器は、307クラスの5,478の画像を含むCelebA-HQデータセットのサブセットで訓練され、トップ1エラー率は17.91%に達した。 入力画像に適用した8種類のオクルージョンマスクを設計した。 これにより分類器の性能が大幅に低下し、各マスクのエラー率は以前よりも少なくとも2倍悪化した。 咬合下でのロバスト性を高めるため,2つのアプローチを行った。 第1は、事前学習された多元的画像補完ネットワークを用いた画像インペインティングである。 2つ目はCutmixである。これはトレーニングイメージとラベルを長方形のパッチを使って混ぜた正規化戦略であり、分類器は入力の破損に対してより堅牢である。 どちらの戦略も効果的で興味深い結果が得られた。 特にcutmixアプローチは、トレーニング時間がかなり長いにもかかわらず、アプリケーション時に追加のステップを必要とせずにネットワークをより堅牢にする。 異なるオクルージョンマスクを含むデータセットとその塗装済みのデータセットは、この分野の研究を促進するために公開されています。

In this paper, we evaluate the effects of occlusions in the performance of a face recognition pipeline that uses a ResNet backbone. The classifier was trained on a subset of the CelebA-HQ dataset containing 5,478 images from 307 classes, to achieve top-1 error rate of 17.91%. We designed 8 different occlusion masks which were applied to the input images. This caused a significant drop in the classifier performance: its error rate for each mask became at least two times worse than before. In order to increase robustness under occlusions, we followed two approaches. The first is image inpainting using the pre-trained pluralistic image completion network. The second is Cutmix, a regularization strategy consisting of mixing training images and their labels using rectangular patches, making the classifier more robust against input corruptions. Both strategies revealed effective and interesting results were observed. In particular, the Cutmix approach makes the network more robust without requiring additional steps at the application time, though its training time is considerably longer. Our datasets containing the different occlusion masks as well as their inpainted counterparts are made publicly available to promote research on the field.
翻訳日:2021-09-21 16:55:33 公開日:2021-09-19
# RSI-Net:高解像度リモートセンシング画像のセマンティックセグメンテーションのためのGCNとAtrous CNNを統合した2ストリームディープニューラルネットワーク

RSI-Net: Two-Stream Deep Neural Network Integrating GCN and Atrous CNN for Semantic Segmentation of High-resolution Remote Sensing Images ( http://arxiv.org/abs/2109.09148v1 )

ライセンス: Link先を確認
Shuang He, Xia Lu, Jason Gu, Haitong Tang, Qin Yu, Kaiyue Liu, Haozhou Ding, Chunqi Chang, Nizhuan Wang(参考訳) リモートセンシング画像(rsi)の意味セグメンテーションでは,表現力と位置精度のトレードオフが極めて重要である。 どのように効果的にトレードオフを得るかはオープンな問題であり、注意体系や非常に深いモデルを利用する現在のアプローチは、大きなメモリ消費を伴う複雑なモデルをもたらす。 一般に使われている畳み込みニューラルネットワーク(CNN)と固定正方形カーネルを比較すると、グラフ畳み込みニューラルネットワーク(GCN)は隣接する土地被覆間の相関を明示的に利用し、任意に不規則な画像領域で柔軟な畳み込みを行うことができる。 しかし,マルチスケールのアトラス畳み込みネットワーク(DenseAtrousCNet)は受容場を拡大し,画像のグローバルな情報を得ることができる一方で,ターゲットスケールとぼやけた境界のばらつきの問題はGCNでは容易には解決できない。 本稿では,GCNとAtrous CNNの両方の利点に着想を得て,空間的文脈構造を効果的にモデル化・伝播することにより,RSI(RSI-Net)のセマンティックセグメンテーションのための2ストリームディープニューラルネットワークと,画像レベルとグラフレベルの組み合わせによる新しいデコード方式を提案する。 Vaihingen, Potsdam, Gaofen RSIデータセットにおいて, 総合的精度, F1スコア, カッパ係数を6つの最先端RSIセマンティックセマンティックセグメンテーション法と比較して比較した結果, RSI-Netの優れた性能を示した。

For semantic segmentation of remote sensing images (RSI), trade-off between representation power and location accuracy is quite important. How to get the trade-off effectively is an open question, where current approaches of utilizing attention schemes or very deep models result in complex models with large memory consumption. Compared with the popularly-used convolutional neural network (CNN) with fixed square kernels, graph convolutional network (GCN) can explicitly utilize correlations between adjacent land covers and conduct flexible convolution on arbitrarily irregular image regions. However, the problems of large variations of target scales and blurred boundary cannot be easily solved by GCN, while densely connected atrous convolution network (DenseAtrousCNet) with multi-scale atrous convolution can expand the receptive fields and obtain image global information. Inspired by the advantages of both GCN and Atrous CNN, a two-stream deep neural network for semantic segmentation of RSI (RSI-Net) is proposed in this paper to obtain improved performance through modeling and propagating spatial contextual structure effectively and a novel decoding scheme with image-level and graph-level combination. Extensive experiments are implemented on the Vaihingen, Potsdam and Gaofen RSI datasets, where the comparison results demonstrate the superior performance of RSI-Net in terms of overall accuracy, F1 score and kappa coefficient when compared with six state-of-the-art RSI semantic segmentation methods.
翻訳日:2021-09-21 16:55:17 公開日:2021-09-19
# 非イテレーティブクラスタルーティングを用いたカプセルネットワーク

Capsule networks with non-iterative cluster routing ( http://arxiv.org/abs/2109.09213v1 )

ライセンス: Link先を確認
Zhihao Zhao, Samuel Cheng(参考訳) カプセルネットワークは、連続する層間で情報を流すルーティングアルゴリズムを使用する。 既存のルーティング手順では、カプセルは次の層のカプセルの予測(最終投票)を生成する。 簡単に言えば、次の層カプセルの入力は、受け取った全ての票に対する重み付けの合計である。 本稿では,カプセルネットワークのための非イテレーティブクラスタルーティングを提案する。 提案されているクラスタルーティングでは、カプセルは次層カプセルの個別の投票ではなく、投票クラスタを生成し、各投票クラスタは次層カプセルにその中心を送信します。 一般に、次の層カプセルの入力は、受信した各投票クラスタのセントロイド上の重み付き和である。 より小さなばらつきを持つクラスターから来るセンチロイドは、重み付き和過程においてより重い重みを割り当てる。 現状のカプセルネットワークと比較して,提案したカプセルネットワークは,Fashion-MNISTデータセットとSVHNデータセットにおいて,パラメータが少なく,かつ,パラメータが適度な小さなNORBデータセットとCIFAR-10データセット上で最高の精度を達成する。 提案したカプセルネットワークは、不絡み合った表現を持つカプセルも生成し、新しい視点で撮影された画像によく当てはまる。 提案するカプセルネットワークは、カプセルチャネル内の入力画像の2次元空間情報を保存し、カプセルチャネルが回転すると、これらのチャネルから再構成されたオブジェクトは同じ変換によって回転する。 コードはhttps://github.com/zhaozhihao/clusterroutingで入手できる。

Capsule networks use routing algorithms to flow information between consecutive layers. In the existing routing procedures, capsules produce predictions (termed votes) for capsules of the next layer. In a nutshell, the next-layer capsule's input is a weighted sum over all the votes it receives. In this paper, we propose non-iterative cluster routing for capsule networks. In the proposed cluster routing, capsules produce vote clusters instead of individual votes for next-layer capsules, and each vote cluster sends its centroid to a next-layer capsule. Generally speaking, the next-layer capsule's input is a weighted sum over the centroid of each vote cluster it receives. The centroid that comes from a cluster with a smaller variance is assigned a larger weight in the weighted sum process. Compared with the state-of-the-art capsule networks, the proposed capsule networks achieve the best accuracy on the Fashion-MNIST and SVHN datasets with fewer parameters, and achieve the best accuracy on the smallNORB and CIFAR-10 datasets with a moderate number of parameters. The proposed capsule networks also produce capsules with disentangled representation and generalize well to images captured at novel viewpoints. The proposed capsule networks also preserve 2D spatial information of an input image in the capsule channels: if the capsule channels are rotated, the object reconstructed from these channels will be rotated by the same transformation. Codes are available at https://github.com/ZHAOZHIHAO/ClusterRouting.
翻訳日:2021-09-21 16:54:45 公開日:2021-09-19
# ゼロラベル言語学習に向けて

Towards Zero-Label Language Learning ( http://arxiv.org/abs/2109.09193v1 )

ライセンス: Link先を確認
Zirui Wang, Adams Wei Yu, Orhan Firat, Yuan Cao(参考訳) 本稿では,自然言語処理(NLP)におけるゼロラベル学習について考察する。 私たちのフレームワークの中核は、強力な事前訓練された言語モデルを活用するための新しいアプローチです。 具体的には、最近のGPT-3における少数ショット推論の成功に触発されて、実際の人間のアノテーションを使わずに、少数のショットプロンプトを利用して高品質なトレーニングデータを合成する、Unsupervised Data Generation (UDG)と呼ばれるトレーニングデータ生成手順を提案する。 合成データのみに基づいてタスク固有モデルをトレーニングすることで,ゼロラベル学習が可能となるが,人間ラベルデータでトレーニングされた強力なベースラインモデルにより,優れた,あるいは同等の結果が得られる。 さらに,ラベル付きデータと組み合わせることで,SuperGLUEベンチマークで新たな最先端結果が得られるように,高効率なデータ拡張手法として機能する。

This paper explores zero-label learning in Natural Language Processing (NLP), whereby no human-annotated data is used anywhere during training and models are trained purely on synthetic data. At the core of our framework is a novel approach for better leveraging the powerful pretrained language models. Specifically, inspired by the recent success of few-shot inference on GPT-3, we present a training data creation procedure named Unsupervised Data Generation (UDG), which leverages few-shot prompts to synthesize high-quality training data without real human annotations. Our method enables zero-label learning as we train task-specific models solely on the synthetic data, yet we achieve better or comparable results from strong baseline models trained on human-labeled data. Furthermore, when mixed with labeled data, our approach serves as a highly effective data augmentation procedure, achieving new state-of-the-art results on the SuperGLUE benchmark.
翻訳日:2021-09-21 16:53:56 公開日:2021-09-19
# クライアント側同期を伴わない分割学習:クライアント側分割ネットワークサイズから全体的なパフォーマンス解析

Splitfed learning without client-side synchronization: Analyzing client-side split network portion size to overall performance ( http://arxiv.org/abs/2109.09246v1 )

ライセンス: Link先を確認
Praveen Joshi, Chandra Thapa, Seyit Camtepe, Mohammed Hasanuzzamana, Ted Scully and Haithem Afli(参考訳) federated learning (fl)、slit learning (sl)、splitfed learning (sfl)の3つは、分散機械学習における最近の3つの開発であり、生データのプライバシーを守る能力によって注目を集めている。 したがって、大規模医療画像分類、インターネット・オブ・メディカルシング、組織間フィッシングメール検出など、データに敏感なさまざまな領域で広く適用できる。 SFLはFLとSLの合流点上に開発された。 FLパラダイムからの並列クライアントサイド機械学習モデルのアップデートと(トレーニング中の)モデルのプライバシの向上により、SLから来るクライアントとサーバの間にモデルを分割することで、FLとSLの利点をもたらす。 しかし、SFLはクライアント側モデル同期を必要とするため、クライアント側で通信と計算のオーバーヘッドがあります。 リソース制約のあるクライアント側では、学習の効率を上げるためにそのような要件を取り除く必要がある。 本稿では,クライアント側モデル同期のないSFLについて検討する。 結果として得られるアーキテクチャは、Multi-head Split Learningとして知られている。 分散クライアント間のIDデータ分散に基づくMNISTデータに対するResNet18モデルを考慮した実証研究により,マルチヘッド分割学習が実現可能であることがわかった。 性能はSFLに匹敵する。 さらにsflは、mnistテストセットのマルチヘッド分割学習よりも精度が1%-2%向上している。 この結果をさらに強化するため,クライアント側モデル部分を用いたマルチヘッド分割学習とその性能への影響について検討した。 この結果から,モデル全体の性能への影響は最小限に抑えられた。

Federated Learning (FL), Split Learning (SL), and SplitFed Learning (SFL) are three recent developments in distributed machine learning that are gaining attention due to their ability to preserve the privacy of raw data. Thus, they are widely applicable in various domains where data is sensitive, such as large-scale medical image classification, internet-of-medical-things, and cross-organization phishing email detection. SFL is developed on the confluence point of FL and SL. It brings the best of FL and SL by providing parallel client-side machine learning model updates from the FL paradigm and a higher level of model privacy (while training) by splitting the model between the clients and server coming from SL. However, SFL has communication and computation overhead at the client-side due to the requirement of client-side model synchronization. For the resource-constrained client-side, removal of such requirements is required to gain efficiency in the learning. In this regard, this paper studies SFL without client-side model synchronization. The resulting architecture is known as Multi-head Split Learning. Our empirical studies considering the ResNet18 model on MNIST data under IID data distribution among distributed clients find that Multi-head Split Learning is feasible. Its performance is comparable to the SFL. Moreover, SFL provides only 1%-2% better accuracy than Multi-head Split Learning on the MNIST test set. To further strengthen our results, we study the Multi-head Split Learning with various client-side model portions and its impact on the overall performance. To this end, our results find a minimal impact on the overall performance of the model.
翻訳日:2021-09-21 16:53:08 公開日:2021-09-19
# 二重行動正規化強化学習

Dual Behavior Regularized Reinforcement Learning ( http://arxiv.org/abs/2109.09037v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。 しかし、これらのアプローチの多くは、最適あるいはほぼ最適な経験や一貫した環境の存在を想定している。 本研究では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。 このアプローチの柔軟性と、経験やその他のさまざまなコンテキストを収集するための環境が利用可能なオンラインコンテキストにどのように適用できるかを実証する。 このアルゴリズムは, 連続環境の幅に応じて, 異なる状況下で複数の強いベースラインモデルより優れていることを示す。 追加のアブレーションは、私たちの二重行動の正規化強化学習アプローチが、他の説得力のある修正と比較してどのように設計されているかに関する洞察を与え、一般化する能力を示しています。

Reinforcement learning has been shown to perform a range of complex tasks through interaction with an environment or collected leveraging experience. However, many of these approaches presume optimal or near optimal experiences or the presence of a consistent environment. In this work we propose dual, advantage-based behavior policy based on counterfactual regret minimization. We demonstrate the flexibility of this approach and how it can be adapted to online contexts where the environment is available to collect experiences and a variety of other contexts. We demonstrate this new algorithm can outperform several strong baseline models in different contexts based on a range of continuous environments. Additional ablations provide insights into how our dual behavior regularized reinforcement learning approach is designed compared with other plausible modifications and demonstrates its ability to generalize.
翻訳日:2021-09-21 16:51:53 公開日:2021-09-19
# マルチスタディ予測のための最適アンサンブル構築とCOVID-19過剰死亡推定への応用

Optimal Ensemble Construction for Multi-Study Prediction with Applications to COVID-19 Excess Mortality Estimation ( http://arxiv.org/abs/2109.09164v1 )

ライセンス: Link先を確認
Gabriel Loewinger, Rolando Acosta Nunez, Rahul Mazumder and Giovanni Parmigiani(参考訳) モデルトレーニングのために複数のデータセットが利用できるバイオメディカルサイエンスにおいて、予測タスクに遭遇することがますます多い。 データセットのプーリングや標準統計学習手法の適用といった一般的なアプローチは、データセットが異種である場合の予測性能が低下する可能性がある。 理論的および応用的な研究により、$\textit{multi-study ensembling}$は、モデル一般化性を促進する方法でデータセット間の可変性を活用する実行可能な代替物であることが示されている。 multi-study ensemblingは、2段階の$\textit{stacking}$ストラテジを使用して、研究固有のモデルに適合し、アンサンブル重みを別々に見積もる。 しかし、このアプローチはモデルフィッティング段階におけるアンサンブル特性を無視し、効率を損なう可能性がある。 そこで我々は, マルチスタディ・スタックリングに対する $\textit{optimal ensemble construction}$, a $\textit{all-in-one}$アプローチを提案する。 このアプローチの制限ケースは、モデルフィッティングの前にマルチスタディスタッキングやデータセットのプーリングといった既存のメソッドをもたらすことを証明します。 提案する損失関数を最適化する効率的なブロック座標降下アルゴリズムを提案する。 本手法を基準死亡率予測のための多国別データセットに適用し,標準手法と比較した。 パンデミックの開始前にはほとんどデータが入手できない場合、他国のデータを活用することで予測精度が大幅に向上することを示す。 重要なことに、このアプローチは、このアプリケーションにおけるマルチスタディスタックや他の標準メソッドよりも優れています。 データ駆動や他のシミュレーションにおける手法の性能をさらに特徴付ける。 提案手法は, マルチスタディ・スタックリングや他の先行手法と競合し, 性能的に優れる。

It is increasingly common to encounter prediction tasks in the biomedical sciences for which multiple datasets are available for model training. Common approaches such as pooling datasets and applying standard statistical learning methods can result in poor out-of-study prediction performance when datasets are heterogeneous. Theoretical and applied work has shown $\textit{multi-study ensembling}$ to be a viable alternative that leverages the variability across datasets in a manner that promotes model generalizability. Multi-study ensembling uses a two-stage $\textit{stacking}$ strategy which fits study-specific models and estimates ensemble weights separately. This approach ignores, however, the ensemble properties at the model-fitting stage, potentially resulting in a loss of efficiency. We therefore propose $\textit{optimal ensemble construction}$, an $\textit{all-in-one}$ approach to multi-study stacking whereby we jointly estimate ensemble weights as well as parameters associated with each study-specific model. We prove that limiting cases of our approach yield existing methods such as multi-study stacking and pooling datasets before model fitting. We propose an efficient block coordinate descent algorithm to optimize the proposed loss function. We compare our approach to standard methods by applying it to a multi-country COVID-19 dataset for baseline mortality prediction. We show that when little data is available for a country before the onset of the pandemic, leveraging data from other countries can substantially improve prediction accuracy. Importantly, our approach outperforms multi-study stacking and other standard methods in this application. We further characterize the method's performance in data-driven and other simulations. Our method remains competitive with or outperforms multi-study stacking and other earlier methods across a range of between-study heterogeneity levels.
翻訳日:2021-09-21 16:51:40 公開日:2021-09-19
# 逆多元帯域に対する一般化翻訳とスケール不変オンラインアルゴリズム

Generalized Translation and Scale Invariant Online Algorithm for Adversarial Multi-Armed Bandits ( http://arxiv.org/abs/2109.09212v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 敵対的多腕バンディット問題を研究し,任意の翻訳や腕の損失の尺度の下で不変な完全オンラインアルゴリズムフレームワークを構築した。 本稿では,アルゴリズムが期待する性能を汎用競合クラスと比較し,多種多様な問題シナリオに適用できるようにする。 このアルゴリズムは普遍的な予測の観点から動作し、使用する性能尺度は任意のアーム選択シーケンスに対する期待後悔であり、これは我々の損失と競合する損失シーケンスとの差である。 コンペティションクラスは固定アームの選択、バンディットの切り替え、コンテキストのバンディット、その他の興味のある競技を含むように設計されている。 コンペティションクラスのシーケンスは一般的に特定のアプリケーションによって決定され、それに応じて設計されるべきである。 我々のアルゴリズムは損失シーケンスに関する予備情報も不要であり、完全にオンラインである。 その性能限界は二乗損失の和の2次境界であり、損失のアフィン変換は正規化された後悔に影響を与えない。

We study the adversarial multi-armed bandit problem and create a completely online algorithmic framework that is invariant under arbitrary translations and scales of the arm losses. We study the expected performance of our algorithm against a generic competition class, which makes it applicable for a wide variety of problem scenarios. Our algorithm works from a universal prediction perspective and the performance measure used is the expected regret against arbitrary arm selection sequences, which is the difference between our losses and a competing loss sequence. The competition class can be designed to include fixed arm selections, switching bandits, contextual bandits, or any other competition of interest. The sequences in the competition class are generally determined by the specific application at hand and should be designed accordingly. Our algorithm neither uses nor needs any preliminary information about the loss sequences and is completely online. Its performance bounds are the second order bounds in terms of sum of the squared losses, where any affine transform of the losses has no effect on the normalized regret.
翻訳日:2021-09-21 16:51:04 公開日:2021-09-19
# ComicGAN: テキストからコミュニティブ・ジェネレーティブ・アドバイサル・ネットワーク

ComicGAN: Text-to-Comic Generative Adversarial Network ( http://arxiv.org/abs/2109.09120v1 )

ライセンス: Link先を確認
Ben Proven-Bessel, Zilong Zhao, Lydia Chen(参考訳) 漫画の挿絵や注釈は複雑で難しい過程である。 イラストの描写やコミックの対話に基づいて漫画イラストを作成するために、既存の機械学習アルゴリズムは開発されていない。 さらに、gan(generative adversarial network)が、対話や記述に対応するオリジナルコミックを生成できるかどうかも不明である。 GANはフォトリアリスティックな画像を作るのに成功しているが、この技術は必ずしも欠陥のない漫画を生み出すわけではない。 さらに、コミックの評価は、インセプションスコアのような一般的な指標は、写真を扱うようにデザインされているため、比較がつかないため、顕著な課題である。 この論文では 1. テキスト記述に基づいて漫画を合成するテキスト・ツー・イメージGANに基づく新しいテキスト・ツー・コミック・パイプラインであるComicGANを実装した。 2) GANを用いた漫画生成の技術的困難に関する詳細な実証研究について述べる。 ComicGANには2つの新しい特徴がある。 (i)順列及び増補によるラベルからのテキスト記述の作成及び (II)畳み込みニューラルネットワークを用いたカスタム画像符号化 提案するComicGANは,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。 1000のDilbertのコミックパネルと6000の記述は、テキスト入力から合成されたコミックパネルがオリジナルのDilbertパネルに似ていることを示している。 テキスト記述作成とカスタム画像エンコーディングの新しい手法は、ベースラインアルゴリズムよりもfrechetインセプション距離、詳細、全体的な画像品質を改善した。 説明から挿絵を生成することは、記述に規定された文字や色を含む明確な漫画を提供した。

Drawing and annotating comic illustrations is a complex and difficult process. No existing machine learning algorithms have been developed to create comic illustrations based on descriptions of illustrations, or the dialogue in comics. Moreover, it is not known if a generative adversarial network (GAN) can generate original comics that correspond to the dialogue and/or descriptions. GANs are successful in producing photo-realistic images, but this technology does not necessarily translate to generation of flawless comics. What is more, comic evaluation is a prominent challenge as common metrics such as Inception Score will not perform comparably, as they are designed to work on photos. In this paper: 1. We implement ComicGAN, a novel text-to-comic pipeline based on a text-to-image GAN that synthesizes comics according to text descriptions. 2. We describe an in-depth empirical study of the technical difficulties of comic generation using GAN's. ComicGAN has two novel features: (i) text description creation from labels via permutation and augmentation, and (ii) custom image encoding with Convolutional Neural Networks. We extensively evaluate the proposed ComicGAN in two scenarios, namely image generation from descriptions, and image generation from dialogue. Our results on 1000 Dilbert comic panels and 6000 descriptions show synthetic comic panels from text inputs resemble original Dilbert panels. Novel methods for text description creation and custom image encoding brought improvements to Frechet Inception Distance, detail, and overall image quality over baseline algorithms. Generating illustrations from descriptions provided clear comics including characters and colours that were specified in the descriptions.
翻訳日:2021-09-21 16:49:50 公開日:2021-09-19
# 持続体験による生涯ロボット強化学習

Lifelong Robotic Reinforcement Learning by Retaining Experiences ( http://arxiv.org/abs/2109.09180v1 )

ライセンス: Link先を確認
Annie Xie, Chelsea Finn(参考訳) マルチタスク学習により、ロボットは有用なスキルの多様なレパートリーを取得できる。 しかし、多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。 実際には、ユーザやロボットの現在の環境に応じて、ロボットが学習するタスクが順次到着する。 本研究では,ロボットシステムの実用的制約を動機とする実用的な逐次的マルチタスクrl問題について検討し,従来のタスクで学習したデータとポリシーを効果的に活用し,ロボットのスキルセットを累積的に拡大する手法を導出する。 シミュレーションによるロボット操作実験では,各タスクをスクラッチから学習するよりも半数以下のサンプルを必要とするが,非現実的なラウンドロビンデータ収集は避けている。 Franka Emika Pandaのロボットアームでは、ボトルキャップやブロック挿入など10の課題を徐々に学習しています。

Multi-task learning ideally allows robots to acquire a diverse repertoire of useful skills. However, many multi-task reinforcement learning efforts assume the robot can collect data from all tasks at all times. In reality, the tasks that the robot learns arrive sequentially, depending on the user and the robot's current environment. In this work, we study a practical sequential multi-task RL problem that is motivated by the practical constraints of physical robotic systems, and derive an approach that effectively leverages the data and policies learned for previous tasks to cumulatively grow the robot's skill-set. In a series of simulated robotic manipulation experiments, our approach requires less than half the samples than learning each task from scratch, while avoiding impractical round-robin data collection. On a Franka Emika Panda robot arm, our approach incrementally learns ten challenging tasks, including bottle capping and block insertion.
翻訳日:2021-09-21 16:44:27 公開日:2021-09-19
# マルチエージェント強化学習におけるq-learningの欲張り解き

Greedy UnMixing for Q-Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2109.09034v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 本稿では,協調型マルチエージェント強化学習(MARL)のためのGreedy UnMix(GUM)を提案する。 Greedy UnMixは、MARLメソッドが大きなジョイントステートアクション空間の一部として値の過大評価によって失敗するシナリオを避けることを目的としている。 これは、データセットの状態マージを制限し、観測されていない共同状態のアクションスペースを避けることによって、保守的なqラーニングアプローチを通じてこれに対処することを目的としている。 MARL のシナリオに対する Q 関数の下位境界の順守を実証し、既存の Q 学習 MARL の手法とベンチマーク MARL のタスクに対するより一般的な MARL アルゴリズムに優れた性能を示す。

This paper introduces Greedy UnMix (GUM) for cooperative multi-agent reinforcement learning (MARL). Greedy UnMix aims to avoid scenarios where MARL methods fail due to overestimation of values as part of the large joint state-action space. It aims to address this through a conservative Q-learning approach through restricting the state-marginal in the dataset to avoid unobserved joint state action spaces, whilst concurrently attempting to unmix or simplify the problem space under the centralized training with decentralized execution paradigm. We demonstrate the adherence to Q-function lower bounds in the Q-learning for MARL scenarios, and demonstrate superior performance to existing Q-learning MARL approaches as well as more general MARL algorithms over a set of benchmark MARL tasks, despite its relative simplicity compared with state-of-the-art approaches.
翻訳日:2021-09-21 16:43:24 公開日:2021-09-19
# 正規化! Don't Mix: 明示的な集中構造を持たないマルチエージェント強化学習

Regularize! Don't Mix: Multi-Agent Reinforcement Learning without Explicit Centralized Structures ( http://arxiv.org/abs/2109.09038v1 )

ライセンス: Link先を確認
Chapman Siu, Jason Traish, Richard Yi Da Xu(参考訳) 本稿では,MARQ(Multi-Agent Regularized Q-learning)と呼ばれる明示的な協調構造を学習するのではなく,正規化を用いたマルチエージェント強化学習を提案する。 多くのMARLアプローチは、グローバルな状態情報を利用したり、エージェントが分散的に振る舞うときに通信制約を取り除くために集中的な構造を利用する。 エージェントの実行中に削除される冗長な構造を学習する代わりに、エージェントの共有経験を利用して個々のポリシーを規則化し、構造化された探索を促進することを提案する。 我々は、MARQがマルチエージェント設定でポリシーを明示的にあるいは暗黙的に正規化する方法について、いくつかの異なるアプローチを検討する。 MARQは、これらの制限をMARLコンテキストで解決することを目的としており、正規化制約を適用し、オフ・ポリティクス・アウト・オブ・ディストリビューション・エージェントの経験のバイアスを補正し、多様な探索を促進する。 提案手法は複数のベンチマークマルチエージェント環境において評価され,複数のベースラインと最先端アルゴリズムを一貫して上回っており,より少ないステップで学習し,高いリターンに収束する。

We propose using regularization for Multi-Agent Reinforcement Learning rather than learning explicit cooperative structures called {\em Multi-Agent Regularized Q-learning} (MARQ). Many MARL approaches leverage centralized structures in order to exploit global state information or removing communication constraints when the agents act in a decentralized manner. Instead of learning redundant structures which is removed during agent execution, we propose instead to leverage shared experiences of the agents to regularize the individual policies in order to promote structured exploration. We examine several different approaches to how MARQ can either explicitly or implicitly regularize our policies in a multi-agent setting. MARQ aims to address these limitations in the MARL context through applying regularization constraints which can correct bias in off-policy out-of-distribution agent experiences and promote diverse exploration. Our algorithm is evaluated on several benchmark multi-agent environments and we show that MARQ consistently outperforms several baselines and state-of-the-art algorithms; learning in fewer steps and converging to higher returns.
翻訳日:2021-09-21 16:43:08 公開日:2021-09-19
# ASRの公正度測定のためのモデルベースアプローチ

Model-Based Approach for Measuring the Fairness in ASR ( http://arxiv.org/abs/2109.09061v1 )

ライセンス: Link先を確認
Zhe Liu, Irina-Elena Veliche, Fuchun Peng(参考訳) 公平性の問題は、自動音声認識システム(ASR)が人口のすべてのサブグループに対して等しく機能しない場合に生じる。 asrの公平性測定研究において、ニュアサンス因子の制御方法、話者間の観測されていない不均一性に対処する方法、異なるサブグループ間の単語誤り率(wer)ギャップの出所を追跡する方法に関するオープンな質問は、特に重要である。 本稿では,関心サブグループ間のWER差をよりよく測定し,解釈するために,混合効果ポアソン回帰を導入する。 特に,提案手法は上述した3つの問題に効果的に対処でき,実用的格差分析に非常に柔軟である。 合成および実世界の音声データに対するモデルベースアプローチの有効性を示す。

The issue of fairness arises when the automatic speech recognition (ASR) systems do not perform equally well for all subgroups of the population. In any fairness measurement studies for ASR, the open questions of how to control the nuisance factors, how to handle unobserved heterogeneity across speakers, and how to trace the source of any word error rate (WER) gap among different subgroups are especially important - if not appropriately accounted for, incorrect conclusions will be drawn. In this paper, we introduce mixed-effects Poisson regression to better measure and interpret any WER difference among subgroups of interest. Particularly, the presented method can effectively address the three problems raised above and is very flexible to use in practical disparity analyses. We demonstrate the validity of proposed model-based approach on both synthetic and real-world speech data.
翻訳日:2021-09-21 16:42:48 公開日:2021-09-19
# decoras: 深層学習による電波放射源の検出と特性評価

DECORAS: detection and characterization of radio-astronomical sources using deep learning ( http://arxiv.org/abs/2109.09077v1 )

ライセンス: Link先を確認
S.Rezaei, J.P.McKean, M.Biehl, A.Javadpour(参考訳) 我々は,VLBI(Very Long Baseline Interferometry)観測から遠点と遠点の両方を検出する深層学習に基づくDECRASを提案する。 当社のアプローチは,低数の畳み込みレイヤを使用してソース検出にスケーラブルなソリューションを提供する,エンコーダ・デコーダニューラルネットワークアーキテクチャに基づいている。 さらに、DECRASは、検出されたソースの位置、有効半径、ピーク輝度の観点から、ソース特性を実行する。 実時間20cmのVLBA(Very Long Baseline Array)観測に基づく画像を用いて,ネットワークを訓練し,実験を行った。 また、これらの画像は事前の非畳み込みステップを通さず、フーリエ変換を介して可視データに直接関連している。 DeCORASが生成するソースカタログは,従来のソース検出アルゴリズムと比較して,全体的な完全性や純粋性に優れていた。 DECORASは7.5$\sigma$レベルで完備であり、信頼性は5.5$\sigma$でほぼ2倍改善されている。 DECORASは検出されたソースの位置を0.61$\pm$ 0.69 masに復元でき、有効半径とピーク表面の明るさはそれぞれ98および94パーセントで20%以内に回収される。 全体として、DECORASは将来の広視野VLBIサーベイに信頼性の高いソース検出および特徴付けソリューションを提供する。

We present DECORAS, a deep learning based approach to detect both point and extended sources from Very Long Baseline Interferometry (VLBI) observations. Our approach is based on an encoder-decoder neural network architecture that uses a low number of convolutional layers to provide a scalable solution for source detection. In addition, DECORAS performs source characterization in terms of the position, effective radius and peak brightness of the detected sources. We have trained and tested the network with images that are based on realistic Very Long Baseline Array (VLBA) observations at 20 cm. Also, these images have not gone through any prior de-convolution step and are directly related to the visibility data via a Fourier transform. We find that the source catalog generated by DECORAS has a better overall completeness and purity, when compared to a traditional source detection algorithm. DECORAS is complete at the 7.5$\sigma$ level, and has an almost factor of two improvement in reliability at 5.5$\sigma$. We find that DECORAS can recover the position of the detected sources to within 0.61 $\pm$ 0.69 mas, and the effective radius and peak surface brightness are recovered to within 20 per cent for 98 and 94 per cent of the sources, respectively. Overall, we find that DECORAS provides a reliable source detection and characterization solution for future wide-field VLBI surveys.
翻訳日:2021-09-21 16:41:24 公開日:2021-09-19
# 遠隔監視によるロングテール関係抽出のための階層的関係誘導型sentenceアライメント

Hierarchical Relation-Guided Type-Sentence Alignment for Long-Tail Relation Extraction with Distant Supervision ( http://arxiv.org/abs/2109.09036v1 )

ライセンス: Link先を確認
Yang Li, Guodong Long, Tao Shen, Jing Jiang(参考訳) 距離監督は知識グラフの3つの事実を使って関係抽出のためのコーパスをラベル付けし、誤ったラベル付けと長い尾の問題を引き起こす。 長い尾関係への知識伝達に関係の階層を用いる研究もある。 しかし、粗い粒度の関係は、しばしば遠い事実の属性(例えば、ドメインやトピック)のみを意味するため、文の意味論のみに基づく関係の識別が困難である。 ひとつの解決策はエンティティタイプに頼ることだが、エンティティタイプの情報を完全に活用する方法や、多面的なエンティティタイプを文にアライメントする方法について、オープンな疑問が残る。 本研究では,遠隔教師付き文をエンティティタイプで強化する新しいモデルを提案する。 本手法は,(1)文脈自由と関連背景の両方を注入して文レベルの誤りラベルを緩和するペアワイズ型エンリッチ化文符号化モジュールと,(2)三重事実の基本属性で文を豊かにする階層型センテンスアライメントモジュールとから構成される。 本モデルでは,ベンチマークの総合的および長期的パフォーマンスにおいて,最先端の新たな結果が得られる。

Distant supervision uses triple facts in knowledge graphs to label a corpus for relation extraction, leading to wrong labeling and long-tail problems. Some works use the hierarchy of relations for knowledge transfer to long-tail relations. However, a coarse-grained relation often implies only an attribute (e.g., domain or topic) of the distant fact, making it hard to discriminate relations based solely on sentence semantics. One solution is resorting to entity types, but open questions remain about how to fully leverage the information of entity types and how to align multi-granular entity types with sentences. In this work, we propose a novel model to enrich distantly-supervised sentences with entity types. It consists of (1) a pairwise type-enriched sentence encoding module injecting both context-free and -related backgrounds to alleviate sentence-level wrong labeling, and (2) a hierarchical type-sentence alignment module enriching a sentence with the triple fact's basic attributes to support long-tail relations. Our model achieves new state-of-the-art results in overall and long-tail performance on benchmarks.
翻訳日:2021-09-21 16:38:22 公開日:2021-09-19
# 反論生成のための知識強化エビデンス検索

Knowledge-Enhanced Evidence Retrieval for Counterargument Generation ( http://arxiv.org/abs/2109.09057v1 )

ライセンス: Link先を確認
Yohan Jo, Haneul Yoo, JinYeong Bak, Alice Oh, Chris Reed, Eduard Hovy(参考訳) 文に対する正当性を見つけることは、逆論生成を含む多くのタスクの鍵となる。 我々は,Web上の多様な情報源から,その証拠を回収するシステムを構築した。 このシステムの中核は自然言語推論(nli)モデルであり、候補文が正当な反証であるか否かを判断する。 しかし、これまでのほとんどのNLIモデルは、複雑な推論を含む反証拠を見つけるのに必要な適切な推論能力がない。 そこで我々は,知識グラフを組み込んで因果関係と例に基づく推論を取り扱う知識強化NLIモデルを提案する。 我々のNLIモデルは、特にターゲット推論を必要とするインスタンスにおいて、NLIタスクのベースラインよりも優れています。 さらに, このnliモデルにより, 複雑な対位関係の検索がより良くなり, 対位関係検索がさらに改善される。

Finding counterevidence to statements is key to many tasks, including counterargument generation. We build a system that, given a statement, retrieves counterevidence from diverse sources on the Web. At the core of this system is a natural language inference (NLI) model that determines whether a candidate sentence is valid counterevidence or not. Most NLI models to date, however, lack proper reasoning abilities necessary to find counterevidence that involves complex inference. Thus, we present a knowledge-enhanced NLI model that aims to handle causality- and example-based inference by incorporating knowledge graphs. Our NLI model outperforms baselines for NLI tasks, especially for instances that require the targeted inference. In addition, this NLI model further improves the counterevidence retrieval system, notably finding complex counterevidence better.
翻訳日:2021-09-21 16:38:01 公開日:2021-09-19
# ロングランジ言語モデルは実際にロングランジコンテキストを使用するか?

Do Long-Range Language Models Actually Use Long-Range Context? ( http://arxiv.org/abs/2109.09115v1 )

ライセンス: Link先を確認
Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, Mohit Iyyer(参考訳) 言語モデルは一般的に、短命で断続的な入力シーケンスで訓練され、長距離文脈に存在する談話レベルの情報を使用して予測を改善する能力が制限される。 近年の自己注意の効率向上に向けた取り組みは、過去のモデルよりもはるかに長いシーケンスを処理できる長距離トランスフォーマー言語モデルの普及につながっている。 しかし、そのようなモデルが長距離の文脈を利用する方法はまだ不明である。 本稿では,最大8Kトークンの入力シーケンスを受信する2つの長距離トランスフォーマー言語モデル(PG-19長周期LMベンチマークデータセットにおける最先端のパープレキシティを実現する \emph{Routing Transformer} を含む)のきめ細かい解析を行う。 我々の結果は、これらのモデルに長距離コンテキスト(例えば、以前の2Kトークンを超えて)を提供することで、小さなトークンのセット(例えば、遠くのコンテキストからコピーできるもの)での予測を改善するだけで、文レベルの予測タスクには役立ちません。 最後に,PG-19 には様々な文書タイプや領域があり,長期的文脈は(教科書や雑誌とは対照的に)文学小説に最も役立ちます。

Language models are generally trained on short, truncated input sequences, which limits their ability to use discourse-level information present in long-range context to improve their predictions. Recent efforts to improve the efficiency of self-attention have led to a proliferation of long-range Transformer language models, which can process much longer sequences than models of the past. However, the ways in which such models take advantage of the long-range context remain unclear. In this paper, we perform a fine-grained analysis of two long-range Transformer language models (including the \emph{Routing Transformer}, which achieves state-of-the-art perplexity on the PG-19 long-sequence LM benchmark dataset) that accept input sequences of up to 8K tokens. Our results reveal that providing long-range context (i.e., beyond the previous 2K tokens) to these models only improves their predictions on a small set of tokens (e.g., those that can be copied from the distant context) and does not help at all for sentence-level prediction tasks. Finally, we discover that PG-19 contains a variety of different document types and domains, and that long-range context helps most for literary novels (as opposed to textbooks or magazines).
翻訳日:2021-09-21 16:37:48 公開日:2021-09-19
# Mapud\"ungunのFST形態解析と発電機

FST Morphological Analyser and Generator for Mapud\"ungun ( http://arxiv.org/abs/2109.09176v1 )

ライセンス: Link先を確認
Andr\'es Chand\'ia(参考訳) Smeets の Mapuche 文法に従い、この記事では Mapud\"ungun の主要な形態音韻学的側面を説明し、それらが何を引き起こすのか、どのようにそれらが起こるのかを説明する。 本稿では, 有限状態形態素解析器(および生成器)を用いて, Mapuche 語形式で相互作用するすべての成分(根と接尾辞)を分類し, 適切にタグ付けできる計算手法を提案する。 この記事の大部分は、Mapud\"ungun動詞の形態とFOMAを用いた形式化の詳細を提示することに焦点を当てている。 本論文では,システム評価プロセスとその結果について述べる。

Following the Mapuche grammar by Smeets, this article describes the main morphophonological aspects of Mapud\"ungun, explaining what triggers them and the contexts where they arise. We present a computational approach producing a finite state morphological analyser (and generator) capable of classifying and appropriately tagging all the components (roots and suffixes) that interact in a Mapuche word form. The bulk of the article focuses on presenting details about the morphology of Mapud\"ungun verb and its formalisation using FOMA. A system evaluation process and its results are also present in this article.
翻訳日:2021-09-21 16:37:25 公開日:2021-09-19
# 条件探索:ベースラインを超えて有用な情報を測定する

Conditional probing: measuring usable information beyond a baseline ( http://arxiv.org/abs/2109.09234v1 )

ライセンス: Link先を確認
John Hewitt, Kawin Ethayarajh, Percy Liang, Christopher D. Manning(参考訳) 探索実験は、ニューラル表現が(音声の一部のような)特性を予測できる範囲を調査する。 表現がプロパティを符号化すると、その表現が非テクスチュアルな単語埋め込みのようなベースライン表現を探索するよりも精度が高いことを示唆する。 比較ポイントとしてベースラインを使用する代わりに、私たちは、ベースラインではなく、表現に含まれる情報を測定することに興味を持っています。 例えば、現在の方法では、表現が音声の一部を予測するために単語識別(ベースライン)よりも有用である場合を検出することができるが、表現が単語識別で説明できない部分の側面だけを予測している場合には検出できない。 本研究では,$\mathcal{v}$-information と呼ばれる利用可能な情報の理論を拡張し,条件付き探索を提案する。 ケーススタディでは,非テクスチュアルな単語埋め込みを条件付けした後,従来考えられていたよりも深いネットワーク層において,部分音声のような特性がアクセス可能であることがわかった。

Probing experiments investigate the extent to which neural representations make properties -- like part-of-speech -- predictable. One suggests that a representation encodes a property if probing that representation produces higher accuracy than probing a baseline representation like non-contextual word embeddings. Instead of using baselines as a point of comparison, we're interested in measuring information that is contained in the representation but not in the baseline. For example, current methods can detect when a representation is more useful than the word identity (a baseline) for predicting part-of-speech; however, they cannot detect when the representation is predictive of just the aspects of part-of-speech not explainable by the word identity. In this work, we extend a theory of usable information called $\mathcal{V}$-information and propose conditional probing, which explicitly conditions on the information in the baseline. In a case study, we find that after conditioning on non-contextual word embeddings, properties like part-of-speech are accessible at deeper layers of a network than previously thought.
翻訳日:2021-09-21 16:37:13 公開日:2021-09-19
# 自然言語処理におけるマルチタスク学習:概要

Multi-Task Learning in Natural Language Processing: An Overview ( http://arxiv.org/abs/2109.09138v1 )

ライセンス: Link先を確認
Shijie Chen, Yu Zhang, and Qiang Yang(参考訳) ディープラーニングアプローチは自然言語処理(NLP)の分野で大きな成功を収めています。 しかしながら、ディープニューラルモデルは、NLPタスクで広まる過度な適合とデータ不足の問題に悩まされることが多い。 近年、関連するタスクの有用な情報を活用して、関連する複数のタスクの同時パフォーマンス向上を実現するマルチタスク学習(mtl)が、これらの課題の処理に利用されている。 本稿では,NLPタスクにおけるMTLの利用について概説する。 まず, nlpタスクで使用されるmtlアーキテクチャをレビューし, 並列アーキテクチャ, 階層アーキテクチャ, モジュールアーキテクチャ, ジェネレーティブ逆アーキテクチャの4つのクラスに分類した。 次に,損失構成,データサンプリング,タスクスケジューリングに関する最適化手法を提示し,マルチタスクモデルを適切に学習する。 様々な NLP タスクで MTL の応用を提示した後、ベンチマークデータセットをいくつか導入する。 最後に,本分野におけるいくつかの研究の方向性について考察する。

Deep learning approaches have achieved great success in the field of Natural Language Processing (NLP). However, deep neural models often suffer from overfitting and data scarcity problems that are pervasive in NLP tasks. In recent years, Multi-Task Learning (MTL), which can leverage useful information of related tasks to achieve simultaneous performance improvement on multiple related tasks, has been used to handle these problems. In this paper, we give an overview of the use of MTL in NLP tasks. We first review MTL architectures used in NLP tasks and categorize them into four classes, including the parallel architecture, hierarchical architecture, modular architecture, and generative adversarial architecture. Then we present optimization techniques on loss construction, data sampling, and task scheduling to properly train a multi-task model. After presenting applications of MTL in a variety of NLP tasks, we introduce some benchmark datasets. Finally, we make a conclusion and discuss several possible research directions in this field.
翻訳日:2021-09-21 16:34:20 公開日:2021-09-19
# ドメイン適応物体検出のための逆学習による共同分布アライメント

Joint Distribution Alignment via Adversarial Learning for Domain Adaptive Object Detection ( http://arxiv.org/abs/2109.09033v1 )

ライセンス: Link先を確認
Bo Zhang, Tao Chen, Bin Wang, Ruoyao Li(参考訳) 教師なしのドメイン適応オブジェクト検出は、リッチラベル付きデータを持つ訓練済みの検出器を、ラベルなしデータを持つ新しいターゲットドメインに適応させることを目的としている。 近年、主流のアプローチは、敵対的学習を通じてこのタスクを実行するが、2つの制限に悩まされている。 第一に、それらは主に教師なしのクロスドメイン特徴マッチングによって境界分布を調整し、条件付きアライメントのために活用できる各特徴のカテゴリー的および位置的情報を無視する;第二に、すべてのクラスをドメイン間の知識の伝達に等しく重要として扱い、異なるクラスが通常異なる転送可能性を持つことを無視する。 本稿では,これらの課題に対処するためのJADF(Joint Adaptive Detection framework)を提案する。 まず、オブジェクト検出のためのエンドツーエンドの連接適応フレームワークを提案し、余分なハイパーパラメータを導入することなく、領域間の境界分布と条件分布を一致させる。 次に、各オブジェクトクラスの転送可能性を考慮するために、クラスワイド転送可能性評価のためのメトリクスを提案し、ドメイン適応のためのJADFの目的に組み込む。 さらに、unsupervised domain adaptation(UDA)からunsupervised few-shot domain adaptation(UFDA)への拡張研究を行い、未ラベルのターゲットドメインで利用可能なトレーニングイメージはわずかである。 大規模な実験により、JADFはUDAとUFDAの両方の設定で有効であることが確認され、既存の最先端のクロスドメイン検出方法よりも大幅にパフォーマンスが向上した。

Unsupervised domain adaptive object detection aims to adapt a well-trained detector from its original source domain with rich labeled data to a new target domain with unlabeled data. Recently, mainstream approaches perform this task through adversarial learning, yet still suffer from two limitations. First, they mainly align marginal distribution by unsupervised cross-domain feature matching, and ignore each feature's categorical and positional information that can be exploited for conditional alignment; Second, they treat all classes as equally important for transferring cross-domain knowledge and ignore that different classes usually have different transferability. In this paper, we propose a joint adaptive detection framework (JADF) to address the above challenges. First, an end-to-end joint adversarial adaptation framework for object detection is proposed, which aligns both marginal and conditional distributions between domains without introducing any extra hyperparameter. Next, to consider the transferability of each object class, a metric for class-wise transferability assessment is proposed, which is incorporated into the JADF objective for domain adaptation. Further, an extended study from unsupervised domain adaptation (UDA) to unsupervised few-shot domain adaptation (UFDA) is conducted, where only a few unlabeled training images are available in unlabeled target domain. Extensive experiments validate that JADF is effective in both the UDA and UFDA settings, achieving significant performance gains over existing state-of-the-art cross-domain detection methods.
翻訳日:2021-09-21 16:29:02 公開日:2021-09-19
# フレームとイベントドメインを併用した物体追跡

Object Tracking by Jointly Exploiting Frame and Event Domain ( http://arxiv.org/abs/2109.09052v1 )

ライセンス: Link先を確認
Jiqing Zhang and Xin Yang and Yingkai Fu and Xiaopeng Wei and Baocai Yin and Bo Dong(参考訳) 従来のフレームベースとバイオインスパイアされたイベントベースのカメラの相補性に着想を得て、フレームとイベントドメインから視覚的な手がかりを融合し、特に劣化した状況(例えば、ダイナミックレンジ、低光度、高速モーションオブジェクト)において単一のオブジェクト追跡性能を向上させるマルチモーダルアプローチを提案する。 提案手法は,両領域の有意義な情報を効果的かつ適応的に組み合わせることができる。 提案手法の有効性は, 自己および横断的な注意方式に基づく特徴を効果的に向上する, 新規なクロスドメインアテンション方式によって実現され, 適応性は2つのドメインの寄与を適応的にバランスさせる, 特別に設計された重み付け方式によって保護される。 単一オブジェクト追跡におけるイベントベースの視覚的ヒントを活用するために,我々は,大規模フレームイベントベースのデータセットを構築した。 広範な実験により、提案手法は、代表的な成功率と精度率で、最先端のフレームベーストラッキング手法を少なくとも10.4%、11.9%上回ることがわかった。 また,我々のアプローチにおける各キーコンポーネントの有効性は,徹底的なアブレーション研究によって証明された。

Inspired by the complementarity between conventional frame-based and bio-inspired event-based cameras, we propose a multi-modal based approach to fuse visual cues from the frame- and event-domain to enhance the single object tracking performance, especially in degraded conditions (e.g., scenes with high dynamic range, low light, and fast-motion objects). The proposed approach can effectively and adaptively combine meaningful information from both domains. Our approach's effectiveness is enforced by a novel designed cross-domain attention schemes, which can effectively enhance features based on self- and cross-domain attention schemes; The adaptiveness is guarded by a specially designed weighting scheme, which can adaptively balance the contribution of the two domains. To exploit event-based visual cues in single-object tracking, we construct a large-scale frame-event-based dataset, which we subsequently employ to train a novel frame-event fusion based model. Extensive experiments show that the proposed approach outperforms state-of-the-art frame-based tracking methods by at least 10.4% and 11.9% in terms of representative success rate and precision rate, respectively. Besides, the effectiveness of each key component of our approach is evidenced by our thorough ablation study.
翻訳日:2021-09-21 16:28:36 公開日:2021-09-19
# BEV投影による高効率都市規模雲分割

Efficient Urban-scale Point Clouds Segmentation with BEV Projection ( http://arxiv.org/abs/2109.09074v1 )

ライセンス: Link先を確認
Zhenhong Zou and Yizhe Li(参考訳) ポイント雲の分析は近年研究者の目をつかんだが、3Dセマンティックセグメンテーションは依然として問題となっている。 ほとんどのディープポイントクラウドモデルは、3dポイントクラウド上で直接学習を行う。 この課題に対処するため、3次元点雲を高密度の鳥眼視投影に転送することを提案する。 この場合、クラス不均衡の低減と様々な2次元セグメンテーション手法を活用できるため、セグメンテーションタスクが簡略化される。 さらに,投影画像上でマルチモーダル学習が可能な注意型融合ネットワークの設計を行った。 最後に、2Dアウトをリマップして、3Dセマンティックセグメンテーション結果を生成する。 提案手法の利点を実証するため,我々はセンサットアーバンデータセットについて様々な実験を行い,本モデルが競合評価結果(61.17%miou,91.37%)を示す。 私たちの研究が、ポイントクラウド分析のさらなる探求を刺激できることを願っています。

Point clouds analysis has grasped researchers' eyes in recent years, while 3D semantic segmentation remains a problem. Most deep point clouds models directly conduct learning on 3D point clouds, which will suffer from the severe sparsity and extreme data processing load in urban-scale data. To tackle the challenge, we propose to transfer the 3D point clouds to dense bird's-eye-view projection. In this case, the segmentation task is simplified because of class unbalance reduction and the feasibility of leveraging various 2D segmentation methods. We further design an attention-based fusion network that can conduct multi-modal learning on the projected images. Finally, the 2D out are remapped to generate 3D semantic segmentation results. To demonstrate the benefits of our method, we conduct various experiments on the SensatUrban dataset, in which our model presents competitive evaluation results (61.17% mIoU and 91.37% OverallAccuracy). We hope our work can inspire further exploration in point cloud analysis.
翻訳日:2021-09-21 16:28:17 公開日:2021-09-19
# 階層的ダンスビデオ認識のための教師なし3次元ポーズ推定

Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition ( http://arxiv.org/abs/2109.09166v1 )

ライセンス: Link先を確認
Xiaodan Hu, Narendra Ahuja(参考訳) ダンスの専門家は、しばしばダンスを情報階層とみなし、低レベル(生画像、画像シーケンス)、中レベル(人間のポーズと体の一部の動き)、高レベル(ダンスジャンル)にまたがる。 本稿では,HDVR(Hierarchical Dance Video Recognition framework)を提案する。 HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。 一人の人間で動くほとんどの方法とは異なり、追跡は複数のダンサーで行われており、排他的だ。 推定3dポーズシーケンスから、hdvrは体部の動きを抽出し、ダンスジャンルから抽出する。 結果として生じる階層的なダンス表現は専門家に説明できる。 雑音とフレーム間対応の曖昧さを克服するために,空間的および時間的動きの平滑さと測光連続性を時間とともに強制する。 我々は,lstmネットワークを用いて,ダンスジャンルを認識できる3次元運動列を抽出する。 実験では16の身体部分からなる154種類の運動タイプを特定し,30時間を含む9つのジャンルの1143の動画クリップを含む,イリノイ大学ダンス(UID)データセットを作成した。 実験の結果,我々のアルゴリズムは最先端の3Dポーズ推定法よりも優れており,ダンス認識性能も向上していることがわかった。

Dance experts often view dance as a hierarchy of information, spanning low-level (raw images, image sequences), mid-levels (human poses and bodypart movements), and high-level (dance genre). We propose a Hierarchical Dance Video Recognition framework (HDVR). HDVR estimates 2D pose sequences, tracks dancers, and then simultaneously estimates corresponding 3D poses and 3D-to-2D imaging parameters, without requiring ground truth for 3D poses. Unlike most methods that work on a single person, our tracking works on multiple dancers, under occlusions. From the estimated 3D pose sequence, HDVR extracts body part movements, and therefrom dance genre. The resulting hierarchical dance representation is explainable to experts. To overcome noise and interframe correspondence ambiguities, we enforce spatial and temporal motion smoothness and photometric continuity over time. We use an LSTM network to extract 3D movement subsequences from which we recognize the dance genre. For experiments, we have identified 154 movement types, of 16 body parts, and assembled a new University of Illinois Dance (UID) Dataset, containing 1143 video clips of 9 genres covering 30 hours, annotated with movement and genre labels. Our experimental results demonstrate that our algorithms outperform the state-of-the-art 3D pose estimation methods, which also enhances our dance recognition performance.
翻訳日:2021-09-21 16:27:58 公開日:2021-09-19
# wav-bert:低リソース音声認識のための協調音響・言語表現学習

Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition ( http://arxiv.org/abs/2109.09161v1 )

ライセンス: Link先を確認
Guolin Zheng, Yubei Xiao, Ke Gong, Pan Zhou, Xiaodan Liang, Liang Lin(参考訳) 音声および言語表現学習の統合は,低音源音声認識のための高音源言語データの豊富な知識を伝達するためにますます重要になっている。 既存のアプローチは、音声からテキストへの転送を学ぶために、事前学習された音響モデルと言語モデルを単にカスケードする。 しかし、音声とテキストの表現の相違をどう解決するかは未解明であり、音響情報や言語情報の活用を妨げる。 さらに、事前学習された言語モデルの埋め込み層を音響的特徴に置き換えることで、破滅的な忘れ問題を引き起こす可能性がある。 本研究では,音声とテキストの文脈情報を融合・活用するための協調音響・言語表現学習手法であるWav-BERTを紹介する。 具体的には、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。 表現集約モジュールは音響表現と言語表現を集約するために設計され、bertに音響情報を組み込むために埋め込み注意モジュールが導入され、2つの事前学習モデルの協調を効果的に促進し、表現学習を促進することができる。 広汎な実験により,我々のWav-BERTは既存の手法よりも優れ,低音源音声認識における最先端性能を実現していることがわかった。

Unifying acoustic and linguistic representation learning has become increasingly crucial to transfer the knowledge learned on the abundance of high-resource language data for low-resource speech recognition. Existing approaches simply cascade pre-trained acoustic and language models to learn the transfer from speech to text. However, how to solve the representation discrepancy of speech and text is unexplored, which hinders the utilization of acoustic and linguistic information. Moreover, previous works simply replace the embedding layer of the pre-trained language model with the acoustic features, which may cause the catastrophic forgetting problem. In this work, we introduce Wav-BERT, a cooperative acoustic and linguistic representation learning method to fuse and utilize the contextual information of speech and text. Specifically, we unify a pre-trained acoustic model (wav2vec 2.0) and a language model (BERT) into an end-to-end trainable framework. A Representation Aggregation Module is designed to aggregate acoustic and linguistic representation, and an Embedding Attention Module is introduced to incorporate acoustic information into BERT, which can effectively facilitate the cooperation of two pre-trained models and thus boost the representation learning. Extensive experiments show that our Wav-BERT significantly outperforms the existing approaches and achieves state-of-the-art performance on low-resource speech recognition.
翻訳日:2021-09-21 16:23:09 公開日:2021-09-19
# フェデレーション学習におけるデータ評価の公平性向上

Improving Fairness for Data Valuation in Federated Learning ( http://arxiv.org/abs/2109.09046v1 )

ライセンス: Link先を確認
Zhenan Fan, Huang Fang, Zirui Zhou, Jian Pei, Michael P. Friedlander, Changxin Liu, Yong Zhang(参考訳) フェデレーション学習(federated learning)は、データのプライバシを確保しながら、複数のデータ所有者が協力して作業できる、新たな分散機械学習スキームである。 連合学習の成功は、データ所有者の参加に大きく依存する。 データ所有者の参加を維持、奨励するには、データ所有者が提供したデータの品質を公平に評価し、それに応じて報酬を与えることが不可欠である。 Federated Shapley Value – Wangらによって最近提案された。 [federated learning, 2020]は,データバリュエーションに多くの望ましい特性を満たす,フェデレーション学習の枠組みの下でのデータ価値を測る尺度です。 しかし、同じローカルデータを持つ2人のデータ所有者が同じ評価を受けられないため、フェデレーション・シャプレー値の設計に不公平な可能性がある。 フェデレーションシャプリー値の公平性を改善するために, フェデレーションシャプリー値と呼ばれる新しい尺度を提案する。 設計は、データ所有者の異なるサブセットによるすべての可能な貢献からなるマトリックスを完成させることに依存する。 軽度な条件下では、最適化から概念やツールを活用することで、この行列は概して低ランクであることが示される。 理論解析と経験的評価の両方が、提案手法が多くの状況において公平性を改善することを検証している。

Federated learning is an emerging decentralized machine learning scheme that allows multiple data owners to work collaboratively while ensuring data privacy. The success of federated learning depends largely on the participation of data owners. To sustain and encourage data owners' participation, it is crucial to fairly evaluate the quality of the data provided by the data owners and reward them correspondingly. Federated Shapley value, recently proposed by Wang et al. [Federated Learning, 2020], is a measure for data value under the framework of federated learning that satisfies many desired properties for data valuation. However, there are still factors of potential unfairness in the design of federated Shapley value because two data owners with the same local data may not receive the same evaluation. We propose a new measure called completed federated Shapley value to improve the fairness of federated Shapley value. The design depends on completing a matrix consisting of all the possible contributions by different subsets of the data owners. It is shown under mild conditions that this matrix is approximately low-rank by leveraging concepts and tools from optimization. Both theoretical analysis and empirical evaluation verify that the proposed measure does improve fairness in many circumstances.
翻訳日:2021-09-21 16:21:18 公開日:2021-09-19
# NVMクロスバー上の逆学習ネットワークの雑音安定性とロバスト性について

On the Noise Stability and Robustness of Adversarially Trained Networks on NVM Crossbars ( http://arxiv.org/abs/2109.09060v1 )

ライセンス: Link先を確認
Deboleena Roy, Chun Tao, Indranil Chakraborty, Kaushik Roy(参考訳) ディープニューラルネットワーク(DNN)に基づくアプリケーションは、過去10年間で指数関数的に増加している。 計算要求の増大に合わせて、いくつかの非揮発性メモリ(NVM)クロスバーベースのアクセラレータが提案されている。 エネルギー効率と性能の改善とは別に、これらの近似ハードウェアは、DNNにとって重要なセキュリティ上の懸念である敵攻撃に対する防御の本質的な堅牢性も持っている。 以前の研究は、不安定な入力でトレーニングされたdnnであるバニラネットワークのこの本質的なロバスト性の定量化に重点を置いてきた。 しかし、DNNの逆行訓練はロバスト性のベンチマーク手法であり、ハードウェア固有のロバスト性のみに依存するだけでは不十分である。 本研究では,NVMクロスバー型アナログハードウェアで提供される対角的トレーニングと本質的ロバスト性を用いて,ロバストDNNの設計について検討する。 まず,そのようなネットワークの非摂動入力におけるノイズ安定性について検討し,逆訓練ネットワークの内部活性化がsnr(signal-to-noise ratio)を低くし,バニラネットワークよりもノイズに敏感であることを観察する。 その結果,非理想計算による性能劣化が著しく増大し,平均2倍の精度低下が生じた。 一方、PGD(Projected-Gradient-Descent)White-Box攻撃を用いて生成された敵画像に対して、CIFAR-10/100で逆トレーニングされたResNet-10/20は、攻撃エプシロン(\epsilon_{ attack}$、入力摂動の度合い)が敵トレーニングのエプシロン(\epsilon_{train}$)よりも大きい場合、基盤となるNVMクロスバーによる堅牢な5-10%の精度を示す。 その結果,アナログハードウェア上では,ハードウェアの非理想性と$\epsilon_{train}$の厳密なキャリブレーションが必要となり,ロバスト性と性能が向上した。

Applications based on Deep Neural Networks (DNNs) have grown exponentially in the past decade. To match their increasing computational needs, several Non-Volatile Memory (NVM) crossbar-based accelerators have been proposed. Apart from improved energy efficiency and performance, these approximate hardware also possess intrinsic robustness for defense against Adversarial Attacks, which is an important security concern for DNNs. Prior works have focused on quantifying this intrinsic robustness for vanilla networks, that is DNNs trained on unperturbed inputs. However, adversarial training of DNNs is the benchmark technique for robustness, and sole reliance on intrinsic robustness of the hardware may not be sufficient. In this work, we explore the design of robust DNNs through the amalgamation of adversarial training and the intrinsic robustness offered by NVM crossbar-based analog hardware. First, we study the noise stability of such networks on unperturbed inputs and observe that internal activations of adversarially trained networks have lower Signal-to-Noise Ratio (SNR), and are sensitive to noise than vanilla networks. As a result, they suffer significantly higher performance degradation due to the non-ideal computations; on an average 2x accuracy drop. On the other hand, for adversarial images generated using Projected-Gradient-Descent (PGD) White-Box attacks, ResNet-10/20 adversarially trained on CIFAR-10/100 display a 5-10% gain in robust accuracy due to the underlying NVM crossbar when the attack epsilon ($\epsilon_{attack}$, the degree of input perturbations) is greater than the epsilon of the adversarial training ($\epsilon_{train}$). Our results indicate that implementing adversarially trained networks on analog hardware requires careful calibration between hardware non-idealities and $\epsilon_{train}$ to achieve optimum robustness and performance.
翻訳日:2021-09-21 16:20:57 公開日:2021-09-19
# 医療条件の共起:SNOMED符号の確率論的トピックモデリングによるパターンの抽出

Co-occurrence of medical conditions: Exposing patterns through probabilistic topic modeling of SNOMED codes ( http://arxiv.org/abs/2109.09199v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Claudine Jurkovitz, Hagit Shatkay(参考訳) 多発性共発性健康状態の患者は、しばしば悪化した合併症とあまり好ましくない結果に直面する。 腎疾患に罹患している人では特に共起状態が一般的であり、米国の一般人口の13%に影響を及ぼしている。 本研究の目的は,確率的枠組みを用いた患者の共起医療状況のパターンを特定し,特徴付けることである。 具体的には, 腎臓病と診断された13,000例のehrsに割り当てられ記録されたsnomedctコード間の関連を, 非伝統的な方法で発見するために, トピックモデリングを適用する。 トピックモデリングに関するほとんどの先行研究とは異なり、自然言語ではなくコードに適用する。 さらに,トピックを定量的に評価し,タイトネスと特徴性を評価し,医療的妥当性も評価した。 実験の結果,各トピックは簡潔に,極めて可能性が高くユニークな疾患コードによって特徴付けられることが明らかとなった。 さらに、各トピック間のトピック間距離は、典型的には高く、特異性を示す。 最後に、多くの符号化された条件がトピック内でグループ化され、実際に医学文献に共生していると報告されている。 特に, 医学文献では報告されていない疾患と間接的な関連が指摘されている。

Patients associated with multiple co-occurring health conditions often face aggravated complications and less favorable outcomes. Co-occurring conditions are especially prevalent among individuals suffering from kidney disease, an increasingly widespread condition affecting 13% of the general population in the US. This study aims to identify and characterize patterns of co-occurring medical conditions in patients employing a probabilistic framework. Specifically, we apply topic modeling in a non-traditional way to find associations across SNOMEDCT codes assigned and recorded in the EHRs of>13,000 patients diagnosed with kidney disease. Unlike most prior work on topic modeling, we apply the method to codes rather than to natural language. Moreover, we quantitatively evaluate the topics, assessing their tightness and distinctiveness, and also assess the medical validity of our results. Our experiments show that each topic is succinctly characterized by a few highly probable and unique disease codes, indicating that the topics are tight. Furthermore, inter-topic distance between each pair of topics is typically high, illustrating distinctiveness. Last, most coded conditions grouped together within a topic, are indeed reported to co-occur in the medical literature. Notably, our results uncover a few indirect associations among conditions that have hitherto not been reported as correlated in the medical literature.
翻訳日:2021-09-21 16:20:11 公開日:2021-09-19
# HCM-AF-Riskモデルによる肥大型心筋症患者の心房細動と予測因子の同定

Machine Learning Methods for Identifying Atrial Fibrillation Cases and Their Predictors in Patients With Hypertrophic Cardiomyopathy: The HCM-AF-Risk Model ( http://arxiv.org/abs/2109.09207v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Dai-Yin Lu, Ioannis Ventoulis, Gabriela V. Greenland, Hulya Yalcin, Yufan Guan, Joseph E. Marine, Jeffrey E. Olgin, Stefan L. Zimmerman, Theodore P. Abraham, M. Roselle Abraham, Hagit Shatkay(参考訳) 肥大型心筋症 (hcm) 患者は心房細動 (af) の頻度が高く、心不全、高血圧、加齢、糖尿病、前回の脳卒中/移行性虚血発作スコアのリスクが低いにもかかわらず、脳卒中リスクが高くなる。 したがって、HCMにおけるAFと脳卒中の病態を理解する必要がある。 本研究では,AF患者を識別するためのデータ駆動型機械学習手法を開発し,その臨床像と臨床像の特徴を電子健康記録データを用いて検討した。 発作性持続性AF (n = 191) のHCM患者をAFとみなし, 副鼻腔リズム (n = 640) の残りの患者をAFとしてタグ付けした。 NAF患者とAF患者を区別するのに有用な93の臨床的変数と最も有用な変数を2サンプルtと情報取得基準に基づいて選択した。 正に (n = 11) , 負に (n = 7) が AF と相関する18個の高情報変数を同定した。 次に患者記録を18変数で表現した。 比較的少ないAF症例から得られたデータ不均衡は、オーバーサンプリングとアンダーサンプリング戦略の組み合わせによって対処された。 このサンプリング手法で複数の分類器を訓練しテストし,効果的な分類を示した。 具体的には、18の変数に基づいて訓練され、データ不均衡のために修正されたロジスティック回帰とナイーブベイズ分類器のアンサンブルは、No-AFのケース(感度 = 0.74, 特異性 = 0.70, C-index = 0.80)からAFを分離するのに最も有効であることが証明された。 我々のモデルは,HCM における AF 症例の同定のための最初の機械学習に基づく手法である。 このモデルは優れた性能を示し、データ不均衡に対処し、AFがより重症なHCM表現型と関連していることを示唆している。

Hypertrophic cardiomyopathy (HCM) patients have a high incidence of atrial fibrillation (AF) and increased stroke risk, even with low risk of congestive heart failure, hypertension, age, diabetes, previous stroke/transient ischemic attack scores. Hence, there is a need to understand the pathophysiology of AF and stroke in HCM. In this retrospective study, we develop and apply a data-driven, machine learning based method to identify AF cases, and clinical and imaging features associated with AF, using electronic health record data. HCM patients with documented paroxysmal/persistent/permanent AF (n = 191) were considered AF cases, and the remaining patients in sinus rhythm (n = 640) were tagged as No-AF. We evaluated 93 clinical variables and the most informative variables useful for distinguishing AF from No-AF cases were selected based on the 2-sample t test and the information gain criterion. We identified 18 highly informative variables that are positively (n = 11) and negatively (n = 7) correlated with AF in HCM. Next, patient records were represented via these 18 variables. Data imbalance resulting from the relatively low number of AF cases was addressed via a combination of oversampling and under-sampling strategies. We trained and tested multiple classifiers under this sampling approach, showing effective classification. Specifically, an ensemble of logistic regression and naive Bayes classifiers, trained based on the 18 variables and corrected for data imbalance, proved most effective for separating AF from No-AF cases (sensitivity = 0.74, specificity = 0.70, C-index = 0.80). Our model is the first machine learning based method for identification of AF cases in HCM. This model demonstrates good performance, addresses data imbalance, and suggests that AF is associated with a more severe cardiac HCM phenotype.
翻訳日:2021-09-21 16:19:50 公開日:2021-09-19
# 肥大型心筋症(HCM-VAr-Risk Model)における心室不整脈とその予測因子の検討

Identifying Ventricular Arrhythmias and Their Predictors by Applying Machine Learning Methods to Electronic Health Records in Patients With Hypertrophic Cardiomyopathy(HCM-VAr-Risk Model) ( http://arxiv.org/abs/2109.09210v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Dai-Yin Lu, Shibani M Kudchadkar, Gabriela Villarreal Greenland, Prasanth Lingamaneni, Celia P Corona-Villalobos, Yufan Guan, Joseph E Marine, Jeffrey E Olgin, Stefan Zimmerman, Theodore P Abraham, Hagit Shatkay, Maria Roselle Abraham(参考訳) 肥大型心筋症(HC)における突然死(SCD)の臨床的リスク階層化には、American College of Cardiology Foundation/American Heart Association (ACCF/AHA)のガイドラインやHCM Risk-SCDモデル(C-index of 0.69)のルールが採用されている。 SCDに繋がる心室性不整脈(VAr)患者を,より幅広い変数を考慮したデータ駆動機械学習が効果的に同定できるかどうかを検討した。 持続性心室頻拍および心室細動に対する711 HC患者の電子健康記録をスキャンした。 心室頻拍または心室細動(n = 61)の患者をvar例、残りの(n = 650)を非varと分類した。 2-sample t 試験と情報ゲイン基準を用いて,VAr と非VAr を区別する最も有意義な臨床変数を同定した。 オーバーサンプリング法とアンダーサンプリング法の併用により,VAr症例の少ないデータ不均衡に対処し,本手法を用いて複数の分類器を訓練,試験し,効果的な分類方法を示した。 臨床的変数は93例, VArは22例であった。 この22変数に基づいて訓練され、データ不均衡のために修正されたロジスティック回帰とナイーブベイズ分類器のアンサンブルは、VArと非VArのケース(感度 = 0.73, 特異性 = 0.76, C-index = 0.83)を分離するのに最も効果的であった。 我々の手法 (HCM-VAr-Risk Model) は, 確立した10個のSCD予測器に加えて, VArの新しい予測器を12個同定した。 結論として, 臨床属性を用いて, hc患者を同定するための機械学習の応用は, 初めてである。

Clinical risk stratification for sudden cardiac death (SCD) in hypertrophic cardiomyopathy (HC) employs rules derived from American College of Cardiology Foundation/American Heart Association (ACCF/AHA) guidelines or the HCM Risk-SCD model (C-index of 0.69), which utilize a few clinical variables. We assessed whether data-driven machine learning methods that consider a wider range of variables can effectively identify HC patients with ventricular arrhythmias (VAr) that lead to SCD. We scanned the electronic health records of 711 HC patients for sustained ventricular tachycardia or ventricular fibrillation. Patients with ventricular tachycardia or ventricular fibrillation (n = 61) were tagged as VAr cases and the remaining (n = 650) as non-VAr. The 2-sample t test and information gain criterion were used to identify the most informative clinical variables that distinguish VAr from non-VAr; patient records were reduced to include only these variables. Data imbalance stemming from low number of VAr cases was addressed by applying a combination of over- and under-sampling strategies.We trained and tested multiple classifiers under this sampling approach, showing effective classification. We evaluated 93 clinical variables, of which 22 proved predictive of VAr. The ensemble of logistic regression and naive Bayes classifiers, trained based on these 22 variables and corrected for data imbalance, was most effective in separating VAr from non-VAr cases (sensitivity = 0.73, specificity = 0.76, C-index = 0.83). Our method (HCM-VAr-Risk Model) identified 12 new predictors of VAr, in addition to 10 established SCD predictors. In conclusion, this is the first application of machine learning for identifying HC patients with VAr, using clinical attributes.
翻訳日:2021-09-21 16:19:12 公開日:2021-09-19
# 多スケール多様体ワーピング

Multiscale Manifold Warping ( http://arxiv.org/abs/2109.09222v1 )

ライセンス: Link先を確認
Sridhar Mahadevan, Anup Rao, Georgios Theocharous and Jennifer Healey(参考訳) 多くの現実世界のアプリケーションは、バイオインフォマティクス、手書き認識、アクティビティ認識、人間とロボットの協調を含む2つの時間的シーケンスを整列する必要がある。 動的時間ウォーピング(DTW)は一般的なアライメント手法であるが、アライメントシーケンスの次元が不等な高次元実世界のデータでは失敗することがある。 本稿では,実世界のデータの多スケール多様体的潜在構造を活用すれば,アライメントの改善が期待できることを示す。 我々は、DTWとDiffusion Waveletsと呼ばれるマルチスケールの多様体学習フレームワークを統合する、WOW(Warping on Wavelets)と呼ばれる新しいフレームワークを紹介します。 本稿では,WOW系アルゴリズムの理論的解析を行い,いくつかの実世界のデータセットにおいて,標準時ワープ(CTW)や多様体ワープといった従来の手法よりも優れていることを示す。

Many real-world applications require aligning two temporal sequences, including bioinformatics, handwriting recognition, activity recognition, and human-robot coordination. Dynamic Time Warping (DTW) is a popular alignment method, but can fail on high-dimensional real-world data where the dimensions of aligned sequences are often unequal. In this paper, we show that exploiting the multiscale manifold latent structure of real-world data can yield improved alignment. We introduce a novel framework called Warping on Wavelets (WOW) that integrates DTW with a a multi-scale manifold learning framework called Diffusion Wavelets. We present a theoretical analysis of the WOW family of algorithms and show that it outperforms previous state of the art methods, such as canonical time warping (CTW) and manifold warping, on several real-world datasets.
翻訳日:2021-09-21 16:18:33 公開日:2021-09-19
# rethnicity: 名前から民族を予測する

Rethnicity: Predicting Ethnicity from Names ( http://arxiv.org/abs/2109.09228v1 )

ライセンス: Link先を確認
Fangzhou Xie(参考訳) 名前から民族を予測するための r パッケージ \texttt{rethnicity} を提供する。 Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。 データセットの不均衡を調整することにより、マイノリティグループの精度に特に注意が払われる。 私はまた、その可用性、正確性、パフォーマンスを、名前から民族を予測する他のソリューションと比較します。 DIMEデータセットのサンプルコードスニペットと分析もパッケージの応用例として示されている。

I provide an R package, \texttt{rethnicity}, for predicting ethnicity from names. I use the Bidirectional LSTM as the model and Florida Voter Registration as training data. Special care is given for the accuracy of minority groups, by adjusting the imbalance in the dataset. I also compare the availability, accuracy, and performance with other solutions for predicting ethnicity from names. Sample code snippet and analysis of the DIME dataset are also shown as applications of the package.
翻訳日:2021-09-21 16:18:16 公開日:2021-09-19
# 画像統計を用いた簡便で効率的な実世界の超解像

Simple and Efficient Unpaired Real-world Super-Resolution using Image Statistics ( http://arxiv.org/abs/2109.09071v1 )

ライセンス: Link先を確認
Kwangjin Yoon(参考訳) 対の低分解能(LR)と高分解能(HR)画像のないSRネットワークの学習は、対応するHRによる直接監督ができないため困難である。 近年,多くの実世界のSR研究が画像間翻訳技術を活用している。 すなわち、2つ以上の生成的敵ネットワーク(GAN)を使い、それぞれがあるドメインから別のドメインへ画像を変換し、 \egはHRドメインからLRドメインへ画像を変換する。 しかし、未ペアデータを用いてGANでそのような翻訳を安定して学習することは容易ではない。 本研究では,実世界のSRネットワークの簡易かつ効率的なトレーニング手法を提案する。 ネットワークを安定的にトレーニングするには、手段やばらつきなどの画像パッチの統計を利用する。 我々の現実世界のSRフレームワークは、2つのGANで構成されており、1つはHR画像をLR画像に翻訳する(分解タスク)、もう1つはLRをHRに翻訳する(SRタスク)。 提案するデータサンプリング戦略、すなわち分散マッチングを用いて、ganを用いた非ペア画像翻訳を効率的に学習できると主張する。 NTIRE 2020実世界のSRデータセット上で本手法を検証した。 本手法はssimメトリックの点で現在の最先端手法よりも優れており、lpipsメトリックで比較結果が得られる。

Learning super-resolution (SR) network without the paired low resolution (LR) and high resolution (HR) image is difficult because direct supervision through the corresponding HR counterpart is unavailable. Recently, many real-world SR researches take advantage of the unpaired image-to-image translation technique. That is, they used two or more generative adversarial networks (GANs), each of which translates images from one domain to another domain, \eg, translates images from the HR domain to the LR domain. However, it is not easy to stably learn such a translation with GANs using unpaired data. In this study, we present a simple and efficient method of training of real-world SR network. To stably train the network, we use statistics of an image patch, such as means and variances. Our real-world SR framework consists of two GANs, one for translating HR images to LR images (degradation task) and the other for translating LR to HR (SR task). We argue that the unpaired image translation using GANs can be learned efficiently with our proposed data sampling strategy, namely, variance matching. We test our method on the NTIRE 2020 real-world SR dataset. Our method outperforms the current state-of-the-art method in terms of the SSIM metric as well as produces comparable results on the LPIPS metric.
翻訳日:2021-09-21 16:11:36 公開日:2021-09-19
# 個人認識型ダウンサンプリングとマルチモーダル学習に基づく自閉症スペクトラム障害の同定

Identifying Autism Spectrum Disorder Based on Individual-Aware Down-Sampling and Multi-Modal Learning ( http://arxiv.org/abs/2109.09129v1 )

ライセンス: Link先を確認
Li Pan, Jundong Liu, Mingqin Shi, Chi Wah Wong, Kei Hang Katie Chan(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、患者の社会的能力に影響を与える神経発達状態のセットである。 近年,機能的MRI(fMRI)を用いた深層学習法が採用されている。 しかし、既存のアプローチは異常な脳機能結合のみに集中しているが、地域活動の重要性を無視している。 このような事前知識の偏りから、従来の診断モデルは、部位間不均一性と個人間表現型差に悩まされていた。 そこで本研究では,機能的接続と局所活動の両方に関して,脳ネットワーク全体のパーソナライズされた低解像度表現を学習できるfMRIの特徴抽出手法を提案する。 まず、我々は脳画像をグラフ構造として抽象化し、ノードは脳の領域を表し、エッジは機能的な接続を表し、階層的なグラフプーリングによってスパースネットワークに分解する。 次に、各対象に抽出された特徴とビルディングエッジを割り当てることにより、個体群グラフを構築する。 非同一分散ノード機能は、グラフ畳み込みネットワークによって学習されたノード埋め込みにさらに再分類される。 これらの方法により,本フレームワークはfMRI全体から直接的かつ効率的に特徴を抽出し,暗黙の個人間差を認識できる。 ABIDE-Iデータセットのフレームワークを10倍のクロスバリデーションで評価した。 本モデルでは,平均分類精度85.95\%,平均AUC0.92を達成している。

Autism Spectrum Disorder(ASD) is a set of neurodevelopmental conditions that affect patients' social abilities. In recent years, deep learning methods have been employed to detect ASD through functional MRI (fMRI). However, existing approaches solely concentrated on the abnormal brain functional connections but ignored the importance of regional activities. Due to this biased prior knowledge, previous diagnosis models suffered from inter-site heterogeneity and inter-individual phenotypical differences. To address this issue, we propose a novel feature extraction method for fMRI that can learn a personalized lowe-resolution representation of the entire brain networking regarding both the functional connections and regional activities. First, we abstract the brain imaging as a graph structure, where nodes represent brain areas and edges denote functional connections, and downsample it to a sparse network by hierarchical graph pooling. Subsequently, by assigning each subject with the extracted features and building edges through inter-individual non-imaging characteristics, we build a population graph. The non-identically distributed node features are further recalibrated to node embeddings learned by graph convolutional networks. By these means, our framework can extract features directly and efficiently from the entire fMRI and be aware of implicit inter-individual differences. We have evaluated our framework on the ABIDE-I dataset with 10-fold cross-validation. The present model has achieved a mean classification accuracy of 85.95\% and a mean AUC of 0.92, which is better than the state-of-the-art methods.
翻訳日:2021-09-21 16:11:13 公開日:2021-09-19
# DeepPoint:mmWaveレーダによる点雲の3次元再構成のためのディープラーニングモデル

DeepPoint: A Deep Learning Model for 3D Reconstruction in Point Clouds via mmWave Radar ( http://arxiv.org/abs/2109.09188v1 )

ライセンス: Link先を確認
Yue Sun, Honggang Zhang, Zhuoming Huang, and Benyuan Liu(参考訳) 近年の研究では、低視界環境下でのオブジェクト検出にmmWaveレーダセンシングが有効であることが示されており、自動運転車のような自律ナビゲーションシステムにおいて理想的な技術となっている。 しかし,sparsity,low resolution,specularity,high noiseなどのレーダー信号の特性から,mmwaveレーダセンシングによる3次元物体形状の再構成は依然として困難である。 近年提案した3DRIMR (3D Restruction and Imaging via mmWave Radar)に基づいて構築されたDeepPointは,従来の3DRIMR設計を大幅に上回るポイントクラウド形式で3Dオブジェクトを生成するディープラーニングモデルである。 このモデルは、条件付き生成適応ネットワーク(GAN)ベースのディープニューラルネットワークアーキテクチャを採用する。 3DRIMRのStage 1で生成されたオブジェクトの2D深度画像を入力として、オブジェクトの滑らかで密度の高い3D点雲を出力する。 このモデルは、3drimrのステージ1の不完全な生成プロセスのために、これらの入力ポイント雲が多くの不正確な点を含む可能性があることを考慮し、様々な視点から観察すると、オブジェクトの複数の粗さとスパースな入力ポイント雲の結合の本質的な特徴を抽出するために、ディープポイントブロックまたはレイヤのシーケンスを利用する新しいジェネレータネットワークからなる。 DeepPointの設計は、入力ポイントクラウドのグローバルな特徴を捉えるために深い構造を採用しており、最適化された多数のDeepPointブロックと接続をスキップして、元の3DRIMR設計よりもパフォーマンスの向上を実現している。 実験により,本モデルが元の3DRIMRや他の標準技術よりも優れていることが示された。

Recent research has shown that mmWave radar sensing is effective for object detection in low visibility environments, which makes it an ideal technique in autonomous navigation systems such as autonomous vehicles. However, due to the characteristics of radar signals such as sparsity, low resolution, specularity, and high noise, it is still quite challenging to reconstruct 3D object shapes via mmWave radar sensing. Built on our recent proposed 3DRIMR (3D Reconstruction and Imaging via mmWave Radar), we introduce in this paper DeepPoint, a deep learning model that generates 3D objects in point cloud format that significantly outperforms the original 3DRIMR design. The model adopts a conditional Generative Adversarial Network (GAN) based deep neural network architecture. It takes as input the 2D depth images of an object generated by 3DRIMR's Stage 1, and outputs smooth and dense 3D point clouds of the object. The model consists of a novel generator network that utilizes a sequence of DeepPoint blocks or layers to extract essential features of the union of multiple rough and sparse input point clouds of an object when observed from various viewpoints, given that those input point clouds may contain many incorrect points due to the imperfect generation process of 3DRIMR's Stage 1. The design of DeepPoint adopts a deep structure to capture the global features of input point clouds, and it relies on an optimally chosen number of DeepPoint blocks and skip connections to achieve performance improvement over the original 3DRIMR design. Our experiments have demonstrated that this model significantly outperforms the original 3DRIMR and other standard techniques in reconstructing 3D objects.
翻訳日:2021-09-21 16:10:49 公開日:2021-09-19
# 赤ちゃんロボット:幼児の運動能力を向上させる

Baby Robot: Improving the Motor Skills of Toddlers ( http://arxiv.org/abs/2109.09223v1 )

ライセンス: Link先を確認
Eric Ca\~nas, Alba M. G. Garcia, Ana\'is Garrell and Cecilio Angulo(参考訳) 本稿では,乳幼児の運動能力向上を目的としたロボット「Baby Robot」を紹介する。 著者らは強化学習とコンピュータビジョン技術を使って自律的に動く車のようなおもちゃを開発した。 ロボットの動作は、障害を避けながら、以前に認識された、あるいは少なくとも検出された対象の赤ちゃんから逃れることであり、赤ちゃんの安全が損なわれない。 同様の機動性向上目的の数多くの商用玩具が市場に投入されているが、最善のケースでは単純かつ反復的な動作を行うため、インテリジェントな自律的な動きに賭ける人はいない。 赤ちゃんロボット」を表現した2つのクロール玩具は、幼児の移動性をいかに改善したかを確認するために、通常のおもちゃに関して実環境でテストされた。 これらの実生活実験は、子どものグループがおもちゃと対話する幼稚園で提案したロボットを用いて行われた。 被験者の運動能力に有意な改善が認められた。

This article introduces "Baby Robot", a robot aiming to improve motor skills of babies and toddlers. Authors developed a car-like toy that moves autonomously using reinforcement learning and computer vision techniques. The robot behaviour is to escape from a target baby that has been previously recognized, or at least detected, while avoiding obstacles, so that the security of the baby is not compromised. A myriad of commercial toys with a similar mobility improvement purpose are into the market; however, there is no one that bets for an intelligent autonomous movement, as they perform simple yet repetitive trajectories in the best of the cases. Two crawling toys -- one in representation of "Baby Robot" -- were tested in a real environment with respect to regular toys in order to check how they improved the toddlers mobility. These real-life experiments were conducted with our proposed robot in a kindergarten, where a group of children interacted with the toys. Significant improvement in the motion skills of participants were detected.
翻訳日:2021-09-21 16:01:16 公開日:2021-09-19
# 市場参加者の業績のリバースエンジニアリングに基づくデータ駆動型収束入札戦略:カリフォルニアISOを事例として

A Data-Driven Convergence Bidding Strategy Based on Reverse Engineering of Market Participants' Performance: A Case of California ISO ( http://arxiv.org/abs/2109.09238v1 )

ライセンス: Link先を確認
Ehsan Samani, Mahdi Kohansal, Hamed Mohsenian-Rad(参考訳) コンバージェンス入札、すなわち仮想入札は近年、電力市場全体において広く採用されている。 市場参加者は、日頭市場におけるマージン価格とリアルタイム市場におけるマージン価格の違いを仲裁する機会を提供する。 コンバージェンス入札(CB)が電力市場の運営に重大な影響を与えているという事実を踏まえると、市場参加者が実際にCBを戦略的に選択する方法を理解することが重要である。 我々は、カリフォルニアISOが運営する電力市場に焦点を当てて、この問題に対処する。 この点において、現在市場参加者が使用している様々なコンバージェンス入札戦略の学習、特徴付け、評価に、利用可能な電気市場データを使用します。 実世界の3年間のデータに適用可能な,データ駆動のリバースエンジニアリング手法の開発を含む。 分析には特徴選択と密度に基づくデータクラスタリングが関与する。 その結果、カリフォルニアISO市場におけるCB戦略の3つの主要なクラスタが特定された。 戦略の各クラスタの異なる特性と性能を解析する。 興味深いことに、文献における既存の戦略的収束入札手法と一致しない共通の現実世界戦略を解きます。 次に、既存の実世界の戦略から学んだ教訓に基づいて、それらを著しく上回る新しいCB戦略を提案する。 我々の分析は、収束入札のための新しい戦略の開発を含む。 新たな戦略には3つのステップがある: 価格スパイクを捕捉するネット利益の最大化、動的ノードラベリング、戦略選択アルゴリズム。 本研究は, 市場参加者の年間純利益が, 提案したコンバージェンス入札戦略を用いていれば40%以上増加できることを示す。

Convergence bidding, a.k.a., virtual bidding, has been widely adopted in wholesale electricity markets in recent years. It provides opportunities for market participants to arbitrage on the difference between the day-ahead market locational marginal prices and the real-time market locational marginal prices. Given the fact that convergence bids (CBs) have a significant impact on the operation of electricity markets, it is important to understand how market participants strategically select their CBs in real-world. We address this open problem with focus on the electricity market that is operated by the California ISO. In this regard, we use the publicly available electricity market data to learn, characterize, and evaluate different types of convergence bidding strategies that are currently used by market participants. Our analysis includes developing a data-driven reverse engineering method that we apply to three years of real-world data. Our analysis involves feature selection and density-based data clustering. It results in identifying three main clusters of CB strategies in the California ISO market. Different characteristics and the performance of each cluster of strategies are analyzed. Interestingly, we unmask a common real-world strategy that does not match any of the existing strategic convergence bidding methods in the literature. Next, we build upon the lessons learned from the existing real-world strategies to propose a new CB strategy that can significantly outperform them. Our analysis includes developing a new strategy for convergence bidding. The new strategy has three steps: net profit maximization by capturing price spikes, dynamic node labeling, and strategy selection algorithm. We show through case studies that the annual net profit for the most lucrative market participants can increase by over 40% if the proposed convergence bidding strategy is used.
翻訳日:2021-09-21 15:58:13 公開日:2021-09-19
# 予測状態のトポロジー・収束・再構築

Topology, Convergence, and Reconstruction of Predictive States ( http://arxiv.org/abs/2109.09203v1 )

ライセンス: Link先を確認
Samuel P. Loomis and James P. Crutchfield(参考訳) 離散確率過程における予測等価性は、統計物理学やカオス力学系におけるランダム性と構造を同定し、隠れマルコフモデルの推定に大いに成功している。 時系列データから確実に再構成できる条件について検討し, 測度の弱いトポロジーにおいて, 経験的サンプルから予測状態の収束が達成できることを示した。 さらに、予測状態は弱位相を再現するヒルベルト空間に表すことができる。 本稿では,これらの表現が高メモリプロセスの再構成において特に有用であることを示す。

Predictive equivalence in discrete stochastic processes have been applied with great success to identify randomness and structure in statistical physics and chaotic dynamical systems and to inferring hidden Markov models. We examine the conditions under which they can be reliably reconstructed from time-series data, showing that convergence of predictive states can be achieved from empirical samples in the weak topology of measures. Moreover, predictive states may be represented in Hilbert spaces that replicate the weak topology. We mathematically explain how these representations are particularly beneficial when reconstructing high-memory processes and connect them to reproducing kernel Hilbert spaces.
翻訳日:2021-09-21 15:57:17 公開日:2021-09-19
# ペルシア語レビューにおけるアスペクトベース感性分析のための共同モデリングと極性

Jointly Modeling Aspect and Polarity for Aspect-based Sentiment Analysis in Persian Reviews ( http://arxiv.org/abs/2109.07680v2 )

ライセンス: Link先を確認
Milad Vazan and Jafar Razmara(参考訳) 自然言語テキストからのユーザの意見の同定は,現実世界の応用が拡大する中で,エキサイティングな研究分野となっている。 研究分野は感情分析と分類と呼ばれ、アスペクトカテゴリー検出(ACD)とアスペクトカテゴリー極性(ACP)はアスペクトベースの感情分析の2つの重要なサブタスクである。 ACDの目標は、ACPがACDタスクから各アスペクトカテゴリの極性を指定するのに対して、エンティティのどのアスペクトが意見として現れるかを指定することである。 以前の研究は主にこれらの2つのサブタスクに対する別の解を提案する。 本稿では,ACD と ACP のサブタスクに着目し,両問題を同時に解決する。 提案手法では,4種類の深層モデルを用いたマルチラベル分類を行い,その性能を比較検討した。 ペルシアのレビューのデータセットはCinemaTicketのウェブサイトから収集され、14のカテゴリから2200のサンプルが集められた。 サンプルベースおよびラベルベースメトリクスを用いて,収集したデータセットを用いてモデルの評価を行った。 その結果,LSTMおよびBi-LSTMと比較して,CNNおよびGRUモデルの高い適用性と嗜好性を示した。

Identification of user's opinions from natural language text has become an exciting field of research due to its growing applications in the real world. The research field is known as sentiment analysis and classification, where aspect category detection (ACD) and aspect category polarity (ACP) are two important sub-tasks of aspect-based sentiment analysis. The goal in ACD is to specify which aspect of the entity comes up in opinion while ACP aims to specify the polarity of each aspect category from the ACD task. The previous works mostly propose separate solutions for these two sub-tasks. This paper focuses on the ACD and ACP sub-tasks to solve both problems simultaneously. The proposed method carries out multi-label classification where four different deep models were employed and comparatively evaluated to examine their performance. A dataset of Persian reviews was collected from CinemaTicket website including 2200 samples from 14 categories. The developed models were evaluated using the collected dataset in terms of example-based and label-based metrics. The results indicate the high applicability and preference of the CNN and GRU models in comparison to LSTM and Bi-LSTM.
翻訳日:2021-09-21 11:20:37 公開日:2021-09-19