このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201224となっている論文です。

PDF登録状況(公開日: 20201224)

TitleAuthorsAbstract論文公表日・翻訳日
# 相空間における熱流と非可換量子力学

Heat flow and noncommutative quantum mechanics in phase-space ( http://arxiv.org/abs/1912.11884v2 )

ライセンス: Link先を確認
Jonas F. G. Santos(参考訳) 本研究では,非可換位相空間効果の観点から相互作用する2つの量子系の熱流を解析し,量子理論に導入された新しい定数を制御することにより,変形したハイゼンベルク・ワイル代数により熱流を熱流から冷熱流へと拡張し,熱平衡に達するのに必要な時間を短縮できることを示した。 また、非可換量子力学の文脈における熱力学の第二法則の堅牢性に関する簡単な議論も行う。

In this work, we investigate the heat flow of two interacting quantum systems on the perspective of noncommutativity phase-space effects and show that by controlling the new constants introduced in the quantum theory, due to a deformed Heisenberg-Weyl algebra, the heat flow from the hot to the cold system may be enhanced, thus decreasing the time required to reach thermal equilibrium. We also give a brief discussion on the robustness of the second law of thermodynamics in the context of noncommutative quantum mechanics
翻訳日:2023-06-10 08:09:43 公開日:2020-12-24
# 部分的測定と雑音ダイナミクスによる量子ゼノ効果

Quantum Zeno effect with partial measurement and noisy dynamics ( http://arxiv.org/abs/2006.13970v2 )

ライセンス: Link先を確認
Parveen Kumar, Alessandro Romito, and Kyrylo Snizhko(参考訳) 本研究は,ハミルトニアン系における短相関雑音の存在下での連続的部分計測によって引き起こされる量子ゼノ効果(qze)について検討する。 実測強度の関数としてQZEの生存確率とオンセットについて検討し、ノイズパラメータによっては、パラメータ空間の異なる領域の雑音によって量子ゼノ効果が増強または抑制されることを示した。 特に、qzeの強化条件は、生存確率の短時間または長時間の挙動や量子ゼノン状態の開始をマークする測定強度によって決定される場合に異なる。

We study the Quantum Zeno Effect (QZE) induced by continuous partial measurement in the presence of short-correlated noise in the system Hamiltonian. We study the survival probability and the onset of the QZE as a function of the measurement strength, and find that, depending on the noise parameters, the quantum Zeno effect can be enhanced or suppressed by the noise in different regions of the parameter space. Notably, the conditions for the enhancement of the QZE are different when determined by the short-time or long-time behavior of the survival probability, or by the measurement strength marking the onset of the quantum Zeno regime.
翻訳日:2023-05-12 22:17:23 公開日:2020-12-24
# 強化学習による多レベル散逸量子システムの量子最適制御

Quantum optimal control of multi-level dissipative quantum systems with Reinforcement Learning ( http://arxiv.org/abs/2007.00838v2 )

ライセンス: Link先を確認
Zheng An, Qi-Kai He, Hai-Jing Song, D. L. Zhou(参考訳) 高い精度で複雑な量子システムの操作と制御は、普遍的なフォールトトレラント量子コンピューティングを実現するために不可欠である。 制御資源が制限された物理システムでは, ターゲットシステムのダイナミクスを効率的に, 正確に制御することが課題である。 本稿では,多レベル散逸量子制御フレームワークを提案し,複雑な量子システムの制御パラメータを制限した最適戦略の同定に深層強化学習が有効であることを示す。 このフレームワークは、他の量子制御モデルに適用するために一般化することができる。 従来の最適制御法と比較して、この深層強化学習アルゴリズムは、異なる種類の外乱を持つマルチレベル量子システムの効率的かつ高精度な制御を実現することができる。

Manipulate and control of the complex quantum system with high precision are essential for achieving universal fault tolerant quantum computing. For a physical system with restricted control resources, it is a challenge to control the dynamics of the target system efficiently and precisely under disturbances. Here we propose a multi-level dissipative quantum control framework and show that deep reinforcement learning provides an efficient way to identify the optimal strategies with restricted control parameters of the complex quantum system. This framework can be generalized to be applied to other quantum control models. Compared with the traditional optimal control method, this deep reinforcement learning algorithm can realize efficient and precise control for multi-level quantum systems with different types of disturbances.
翻訳日:2023-05-11 21:00:19 公開日:2020-12-24
# 真の3者コヒーレンスの定量化と観察:古典光学に基づく解法

Quantification and observation of genuine three-party coherence: A solution based on classical optics ( http://arxiv.org/abs/2007.03786v2 )

ライセンス: Link先を確認
X.-F. Qian, S. A. Wadood, A. N. Vamivakas, and J. H. Eberly(参考訳) 古典光学の概念を借用して,波動場,古典場,量子場に対する真の3者純状態コヒーレンスを定量化する。 3つの原理の自由度からなる古典的同軸光線のテンソル構造は、3量子ビット量子状態のテンソル構造と等価であることが示されている。 偏光度と呼ばれる従来の基底独立な光コヒーレンス量は、所望の2つのコヒーレンス測度であると決定される。 適切に一般化された場合、基本的な制約関係の集合は3つの2項のコヒーレンスから導かれる。 制約関係は幾何学的に解釈され、コヒーレンス立方体内にネストされたテトラヘドラとして視覚化することができる。 制約に基づいて三者のコヒーレンスの尺度が定義される。 我々は, 実験の完了と制約の確認, および光学的文脈における3つのコヒーレンスの測定について報告する。 古典光学に基づくアプローチは、量子コヒーレンスを分析する別の方法も開きます。

We introduce a quantification of genuine three-party pure-state coherence for wave fields, classical and quantum, by borrowing concepts from classical optics. The tensor structure of a classical paraxial light beam composed of three principle degrees of freedom is shown to be equivalent to that of a three-qubit quantum state. The traditional basis-independent optical coherence quantity called degree of polarization is then determined to be the desired quantitative two-party coherence measure. When appropriately generalized, a set of fundamental constraint relations is derived among three two-party coherences. The constraint relations can be geometrically interpreted and visualized as tetrahedra nested within a coherence cube. A measure of three-party coherence is defined based on the constraints. We are reporting completed experimental tests and confirmations of the constraints as well as measurement of three-party coherence in the optical context. Our approach based on classical optics also opens an alternative way to analyze quantum coherence.
翻訳日:2023-05-11 01:31:35 公開日:2020-12-24
# 量子ホール効果、Kosterlitz-Thouless相転移、Dirac磁気モノポール、Bohr-Sommerfeld量子化について

On quantum Hall effect, Kosterlitz-Thouless phase transition, Dirac magnetic monopole, and Bohr-Sommerfeld quantization ( http://arxiv.org/abs/2009.08259v3 )

ライセンス: Link先を確認
Felix A. Buot, Allan Roy Elnar, Gibson Maglasang, and Roland E.S. Otadoy(参考訳) 我々は,低次元系の輸送・渦・沈降運動における量子化現象,定常状態系(例えば,箱内粒子やトーラス内粒子,ブリルアンゾーン,松原時間帯,松原量子化周波数など)の振動ダイナミクスによる位相空間における閉じ込め運動の定常量子化,および音源の量子化について検討した。 我々は、整数ホール効果の量子化、分数量子ホール効果、ベレツェンスキー-コステリッツ-Thouless vortex量子化、ディラック磁極、ハルダン相、量子物理学の閉じたメソスコピック回路における接触抵抗、および完全可積分ハミルトニアン系のモノドロミー(ホロノミー)の関係を自己整合のボーア-ソマーフェルト量子化条件がいかに浸透するかについて議論する。 オープン系の量子輸送において、量子化は量子伝導の基本単位、プランク定数によって決定される量子単位の他の閉系、および離散渦電荷とディラック磁極電荷の単位の源において起こる。 論文の論文は、チャーン・サイモンズゲージ理論によるトポロジカル量子場理論(TQFT)のゲージ場のように、B-S量子化条件をU(1)ゲージ理論として単にキャストしたり、特にベリー接続や曲率の観点から凝縮物質物理学のトポロジカルバンド理論(TBT)において自己整合性を持たせたりすれば、この論文で扱われるすべての物理現象における量子化法は統一される。

We addressed quantization phenomena in transport and vortex/precession-motion of low-dimensional systems, stationary quantization of confined motion in phase space due to oscillatory dynamics or compacti fication of space and time for steady-state systems (e.g., particle in a box or torus, Brillouin zone, and Matsubara time zone or Matsubara quantized frequencies), and the quantization of sources. We discuss how the self-consistent Bohr-Sommerfeld quantization condition permeates the relationships between the quantization of integer Hall effect, fractional quantum Hall effect, the Berezenskii-Kosterlitz-Thouless vortex quantization, the Dirac magnetic monopole, the Haldane phase, contact resistance in closed mesoscopic circuits of quantum physics, and in the monodromy (holonomy) of completely integrable Hamiltonian systems of quantum geometry. In quantum transport of open systems, quantization occurs in fundamental units of quantum conductance, other closed systems in quantum units dictated by Planck's constant, and for sources in units of discrete vortex charge and Dirac magnetic monopole charge. The thesis of the paper is that if we simply cast the B-S quantization condition as a U(1) gauge theory, like the gauge field of the topological quantum field theory (TQFT) via the Chern-Simons gauge theory, or specifically as in topological band theory (TBT) of condensed matter physics in terms of Berry connection and curvature to make it self-consistent, then all the quantization method in all the physical phenomena treated in this paper are unified.
翻訳日:2023-05-02 02:10:09 公開日:2020-12-24
# 駆動散逸型Schr\"{o}dinger方程式を用いた量子オットー熱エンジンの研究

Study of quantum Otto heat engine using driven-dissipative Schr\"{o}dinger equation ( http://arxiv.org/abs/2010.04856v2 )

ライセンス: Link先を確認
You-wei Fang, Yu-ting Zheng and Jun Chang(参考訳) 量子熱エンジンは最近、デバイスの小型化により注目を集めている。 駆動拡散型schr\"{o}dinger方程式を用いた量子オットー熱エンジンの動力学の研究を行った。 異なる初期状態から始めると、内部エネルギー、電力および熱-作業変換効率の時間進化をシミュレートする。 初期状態はオットーサイクルが安定に達する前にこれらの熱力学的量に影響を与える。 遷移期において、効率と電力は、サイクロスタリー状態の対応する値よりも高く、または低い可能性がある。 驚くべきことに、効率はオットー限界を超え、カルノー限界さえも越えることができ、出力は定格出力よりもずっと高い。 効率の異常は初期状態のエネルギーによる。 したがって, 定期的に汲み上げは熱湯と同様の役割を果たすが, 柔軟に操作できる可能性が示唆された。 さらに, ポンプエネルギーを機械作業に変換するために, 単一の貯水池で稼働する新しい量子エンジンを提案する。 このマニピュレーションエンジンは、生体内の生体組織のような大きな温度差のない微小環境での作業に応用できる可能性がある。 我々のプロトコルは適用性と制御性を利用して新しい量子エンジンをモデル化することが期待される。

The quantum heat engines have drawn much attention due to miniaturization of devices recently. We study the dynamics of the quantum Otto heat engine using the driven-dissipative Schr\"{o}dinger equation. Starting from different initial states, we simulate the time evolutions of the internal energy, power and heat-work conversion efficiency. The initial state impacts on these thermodynamic quantities before the Otto cycle reaches stable. In the transition period, the efficiency and power may be higher or lower than the corresponding values in the cyclostationary state. Remarkably, the efficiency could surpass the Otto limit and even the Carnot limit and the power could be much higher than the rated power. The efficiency anomaly is due to the energy in the initial state. Thus, we suggest that periodically pumping could take the similar role of a hot bath but could be manipulated flexibly. Furthermore, we propose a new quantum engine working in a single reservoir to convert the pump energy into mechanical work. This manipulative engine could potentially be applied to working in the microenvironments without a large temperature difference, such as the biological tissues in vivo. Our protocol is expected to model a new quantum engine with the advantage of applicability and controllability.
翻訳日:2023-04-29 11:22:29 公開日:2020-12-24
# 2, 3, 4個のガッピングフラットバンドを有する線グラフ格子の脆弱なトポロジー

Fragile topology in line-graph lattices with two, three, or four gapped flat bands ( http://arxiv.org/abs/2010.11953v2 )

ライセンス: Link先を確認
Christie S. Chiu, Da-Shuai Ma, Zhi-Da Song, B. Andrei Bernevig, Andrew A. Houck(参考訳) 格子の幾何学的性質はバンドスペクトルに大きな影響を与える。 例えば、対称性の制約と幾何学的フラストレーションは、それぞれトポロジー的に非自明なバンドと分散のないバンドをもたらす。 線グラフ格子はこれら2つの特徴の完全な例である: それらの最も低いエネルギーバンドは完全に平坦であり、ここでは、幾何学的性質のいくつかを平坦なバンドにおける脆弱な位相の存在または欠如と結びつける定式化を開発する。 この理論的研究は、いくつかの種類の線グラフ格子における脆弱なトポロジーの実験的な研究を可能にする。

The geometric properties of a lattice can have profound consequences on its band spectrum. For example, symmetry constraints and geometric frustration can give rise to topologicially nontrivial and dispersionless bands, respectively. Line-graph lattices are a perfect example of both of these features: their lowest energy bands are perfectly flat, and here we develop a formalism to connect some of their geometric properties with the presence or absence of fragile topology in their flat bands. This theoretical work will enable experimental studies of fragile topology in several types of line-graph lattices, most naturally suited to superconducting circuits.
翻訳日:2023-04-28 00:47:01 公開日:2020-12-24
# 個々のAuナノ粒子における2光子フォトルミネッセンスの超干渉縞--中間状態の臨界役割

Super interference fringes of two-photon photoluminescence in individual Au nanoparticles: the critical role of the intermediate state ( http://arxiv.org/abs/2012.13080v1 )

ライセンス: Link先を確認
Yao Li, Yonggang Yang, Chengbing Qin, Yunrui Song, Shuangping Han, Guofeng Zhang, Ruiyun Chen, Jianyong Hu, Liantuan Xiao, and Suotang Jia(参考訳) 光と金属ナノ粒子の相互作用は、ナノメートル長と超短時間スケールの微視的現象の研究を可能にし、強い閉じ込めと光学場の強化の恩恵を受ける。 しかし、これらのナノ粒子の超高速ダイナミクスは、主にピコ秒上の多光子フォトルミネッセンスやフェムト秒上のフォトエミッションによって研究されている。 そこで本研究では,auナノビピラミド(aunp)の2光子発光(tppl)測定を行い,サブフェムト秒から数十ピコ秒までの時間スケールにおける2パルス励起による超高速ダイナミクスを明らかにした。 2次光ルミネッセンス増強、すなわちスーパー干渉縞は数十フェムト秒で実証されている。 パワー依存測定により、パルス間遅延が数十フェムト秒から数十ピコ秒に変化したときの非線形性の変換が発見された。 3つの固有状態モデルによる数値シミュレーションと、異なる直径を持つAuナノスフィアのさらなる実験により、実中間状態が観測現象に重要な役割を果たすことを示した。 数値シミュレーションにより, 劣化時間, 放射率, 異なる状態間のカップリングなどの重要なパラメータを推定した。 貴金属ナノ粒子の超高速ダイナミクスにおける中間状態の役割について考察した。 超干渉縞の巨大な光ルミネッセンスは、イメージング、センシング、ナノフォトニクスにおいて潜在的に実用的な応用を可能にする。

The interaction between light and metal nanoparticles enables investigations of microscopic phenomena on nanometer length and ultrashort time scales, benefiting from strong confinement and enhancement of the optical field. However, the ultrafast dynamics of these nanoparticles are primarily investigated by multiphoton photoluminescence on picoseconds or photoemission on femtoseconds independently. Here, we presented two-photon photoluminescence (TPPL) measurements on individual Au nanobipyramids (AuNP) to reveal their ultrafast dynamics by two-pulse excitation on a global time scale ranging from sub-femtosecond to tens of picoseconds. Two-orders-of-magnitude photoluminescence enhancement, namely super interference fringes, has been demonstrated on tens of femtoseconds. Power-dependent measurements uncovered the transform of the nonlinearity from 1 to 2 when the interpulse delay varied from tens of femtoseconds to tens of picoseconds. We proved that the real intermediate state plays a critical role in the observed phenomena, supported by numerical simulations with a three eigenstates model and further experiments on Au nanospheres with different diameters. The crucial parameters, including the dephasing time, the radiative rate, and the coupling between different states, have been estimated using numerical simulations. Our results provide insight into the role of intermediate states in the ultrafast dynamics of noble metal nanoparticles. The giant photoluminescence in super interference fringes enables potential practical applications in imaging, sensing, and nanophotonics.
翻訳日:2023-04-19 11:57:31 公開日:2020-12-24
# 新型コロナウイルス(covid-19)接触追跡アプリのプライバシー利用トレードオフの定量化

Quantifying the Privacy-Utility Trade-offs in COVID-19 Contact Tracing Apps ( http://arxiv.org/abs/2012.13061v1 )

ライセンス: Link先を確認
Patrick Ocheja, Yang Cao, Shiyao Ding, and Masatoshi Yoshikawa(参考訳) 新型コロナウイルスの感染拡大を抑える方法は、ほとんどの国にとって大きな懸念事項だ。 状況が変わらず、各国は一部の制限を解除し、感染拡大防止のための新たな措置を講じることで経済の再開に尽力している。 本稿では、接触者追跡、クラスター識別、移動制限、ステータス検証など、新型コロナウイルスを封じ込めるために採用されたいくつかのアプローチについて検討する。 具体的には、技術、アーキテクチャ、トレードオフ(プライヴァシー対ユーティリティ)、採用のフェーズといった特徴に基づいて、利用可能なテクニックを分類します。 本稿では,接触追跡アプリケーションのプライバシー利用度評価の質的・定量的尺度を用いて,プライバシー評価の新しい手法を提案する。 この新しい手法では,プライバシの欠如,100%のプライバシ,およびkがプライバシまたはプライバシを提供するシステムによって設定されるkの3つのレベルにユーティリティを分類する。

How to contain the spread of the COVID-19 virus is a major concern for most countries. As the situation continues to change, various countries are making efforts to reopen their economies by lifting some restrictions and enforcing new measures to prevent the spread. In this work, we review some approaches that have been adopted to contain the COVID-19 virus such as contact tracing, clusters identification, movement restrictions, and status validation. Specifically, we classify available techniques based on some characteristics such as technology, architecture, trade-offs (privacy vs utility), and the phase of adoption. We present a novel approach for evaluating privacy using both qualitative and quantitative measures of privacy-utility assessment of contact tracing applications. In this new method, we classify utility at three (3) distinct levels: no privacy, 100% privacy, and at k where k is set by the system providing the utility or privacy.
翻訳日:2023-04-19 11:57:09 公開日:2020-12-24
# コヒーレンス証人に基づくコヒーレンスの検出と推定

Detecting and estimating coherence based on coherence witnesses ( http://arxiv.org/abs/2012.13038v1 )

ライセンス: Link先を確認
Zhao Ma, Zhou Zhang, Yue Dai, Yuli Dong, Chengjie Zhang(参考訳) 量子コヒーレンスには、量子熱力学から量子メートル法、量子チャネルの識別、量子生物学まで幅広い応用がある。 したがって、コヒーレンスの検出と定量化は量子資源理論の2つの基本的な問題である。 本稿では,任意の有限次元状態に対してコヒーレンス証人を構築し,コヒーレンスを検出・推定する方法を提案する。 我々のコヒーレンス証人は、証人の期待値が負かどうかをテストすることによって、コヒーレントな状態を検出する。 また,2つの典型的コヒーレンス証人を提案するとともに,コヒーレンスの堅牢性,$l_1$-norm,$l_2$-normのコヒーレンス対策を推定するためにも用いられる。 さらに、我々の一貫性のある証人の一人と以前に紹介された証人を比較し、我々の証人が以前の証人より厳格に強いことを証明した。 また,コヒーレンス観測を計測することにより未知のパラメータを推定する量子メソロジータスクにおけるコヒーレンスの適用について述べる。

Quantum coherence has wide-ranging applications from quantum thermodynamics to quantum metrology, quantum channel discrimination and even quantum biology. Thus, detecting and quantifying coherence are two fundamental problems in quantum resource theory. Here, we introduce feasible methods to detect and estimate the coherence by constructing coherence witnesses for any finite-dimensional states. Our coherence witnesses detect coherent states by testing whether the expectation value of the witness is negative or not. Two typical coherence witnesses are proposed and discussed based on our witness-constructing method, which are also used to estimate the robustness of coherence, $l_1$-norm and $l_2$-norm of coherence measures. Furthermore, we compare one of our coherence witness with a previously introduced witness, by proving that our witness is strictly stronger than that previous witness. We also present an application of coherence in a quantum metrology task, in which we estimate an unknown parameter by measuring our coherence witness.
翻訳日:2023-04-19 11:56:51 公開日:2020-12-24
# 複雑地形における多脚ロボットの進化的歩行移動

Evolutionary Gait Transfer of Multi-Legged Robots in Complex Terrains ( http://arxiv.org/abs/2012.13320v1 )

ライセンス: Link先を確認
Min Jiang, Guokun Chi, Geqiang Pan, Shihui Guo, and Kay Chen Tan(参考訳) ロボット歩行最適化は、様々な内部および外部制約の下で最適な制御軌道を生成するタスクである。 制御空間の高次元を考えると、この問題は複雑で未知の環境を歩く多脚ロボットにとって特に難しい。 既存の文献では、歩行生成を最適化問題とみなし、特定の環境を歩くロボットの歩行最適化をスクラッチから解くことが多い。 しかし、このような手法は複雑な環境下での運動生成の質と速度を改善するのに役立つ事前取得知識の利用を考慮していない。 本稿では,多目的歩行最適化のためのトランスファー学習に基づく進化的フレームワークtr-goを提案する。 このアイデアは、トランスファー学習の手法を用いて高品質な人口を初期化することであり、あらゆる種類の人口ベースの最適化アルゴリズムをこのフレームワークにシームレスに統合することができる。 利点は、生成された歩幅が異なる環境やタスクに動的に適応できるだけでなく、複数の設計仕様(例えば、速度、安定性)を同時に満たせることである。 実験により, NSGA-II, RM-MEDA, MOPSOの3つの多目的進化アルゴリズムに基づく歩行最適化問題の枠組みの有効性が示された。 事前取得済みの知識を様々な傾斜した頑丈な知識に移す際,提案するtr-goフレームワークは,非移行シナリオと比較して,少なくとも3~4倍の速度で進化過程を加速する。

Robot gait optimization is the task of generating an optimal control trajectory under various internal and external constraints. Given the high dimensions of control space, this problem is particularly challenging for multi-legged robots walking in complex and unknown environments. Existing literatures often regard the gait generation as an optimization problem and solve the gait optimization from scratch for robots walking in a specific environment. However, such approaches do not consider the use of pre-acquired knowledge which can be useful in improving the quality and speed of motion generation in complex environments. To address the issue, this paper proposes a transfer learning-based evolutionary framework for multi-objective gait optimization, named Tr-GO. The idea is to initialize a high-quality population by using the technique of transfer learning, so any kind of population-based optimization algorithms can be seamlessly integrated into this framework. The advantage is that the generated gait can not only dynamically adapt to different environments and tasks, but also simultaneously satisfy multiple design specifications (e.g., speed, stability). The experimental results show the effectiveness of the proposed framework for the gait optimization problem based on three multi-objective evolutionary algorithms: NSGA-II, RM-MEDA and MOPSO. When transferring the pre-acquired knowledge from the plain terrain to various inclined and rugged ones, the proposed Tr-GO framework accelerates the evolution process by a minimum of 3-4 times compared with non-transferred scenarios.
翻訳日:2023-04-19 11:53:38 公開日:2020-12-24
# フェルミプラズマのe-a-w孤立構造伝播に及ぼす量子回折の影響

Effects of Quantum Diffraction on the Propagation of E-A-W Solitary Structure in Fermi Plasma ( http://arxiv.org/abs/2012.13244v1 )

ライセンス: Link先を確認
S. Sarkar, T. Ghosh and S. Chandra(参考訳) 物質のプラズマ状態は様々な状況で研究できる。 これらの研究は、銀河、降着円盤、中性子星などの天体や実験室のプラズマにも大きな関心を持っている。 異なる物体はプラズマのダイナミクスを調べるために異なるアプローチを要求する。 量子プラズマ中の電子の運動における相対論的効果は、2温度の電子を持つ波の孤立構造の特徴に大きく影響した。 本稿では,量子流体力学(qhd)モデルを考えると分散関係が導出され,標準摂動法を用いて相対論的および量子的効果を持つ波動について数学的モデル(非線形schr\"odinger方程式)が研究されている。 本研究では,回折係数,流速,その他のプラズマパラメータの異なる値の解析を行った。 nlseを用いて安定なローグ波構造を解析し,それらの孤立プロファイルとローグ波のシミュレーションを行った。

Plasma state of matter can be studied in various types of situations. These studies are of great interest in Astrophysical objects like galaxies, accretion disk, neutron stars, etc, and laboratory plasma as well. Different objects demand different approaches to investigate the dynamics of the plasma. The relativistic effects in the motion of electrons in Quantum Plasma highly affect the characteristics of the solitary structure of the wave with two-temperature electrons. In this paper, considering the quantum hydrodynamic (QHD) model a dispersion relation is derived, and using standard perturbation technique, a mathematical model (i.e. nonlinear Schr\"odinger Equation) is studied for a wave with relativistic and quantum effects in it. We study the analysis for different values of diffraction coefficient, streaming velocity, and other plasma parameters as well. We analyze the stable rogue wave structure using NLSE and run simulations of those solitary profiles and rogue waves.
翻訳日:2023-04-19 11:52:47 公開日:2020-12-24
# 蛍光クロス相関検出による捕捉イオン構造イメージング

Imaging trapped ion structures via fluorescence cross-correlation detection ( http://arxiv.org/abs/2012.13206v1 )

ライセンス: Link先を確認
Stefan Richter, Sebastian Wolf, Joachim von Zanthier, Ferdinand Schmidt-Kaler(参考訳) トラップされたイオン構造から自由空間に散乱した蛍光光子から相互相関信号を記録する。 信号の解析により、イオンの空間的アライメントと同様に、空間周波数、距離を曖昧に明らかにすることができる。 2つのイオンの場合、空間周波数 $f_\text{spatial}=1490 \pm 2_{stat の相互相関から得られる。 8歳。 ここで、統計の不確かさは、相関イベントの集積数を$n^{-0.51\pm0.06}$とすることで改善される。 我々は、空間周波数を1494\pm 11\,\text{rad}^{-1}$と独立に決定し、良好な一致を示す。 本手法を3つのイオンに拡張し, 直接撮像技術が失敗するような構造情報を得るためのモデルシステムとして, 識別不能光子の2次元エミッタアレイの機能を実証した。

Cross-correlation signals are recorded from fluorescence photons scattered in free space off a trapped ion structure. The analysis of the signal allows for unambiguously revealing the spatial frequency, thus the distance, as well as the spatial alignment of the ions. For the case of two ions we obtain from the cross-correlations a spatial frequency $f_\text{spatial}=1490 \pm 2_{stat.}\pm 8_{syst.}\,\text{rad}^{-1}$, where the statistical uncertainty improves with the integrated number of correlation events as $N^{-0.51\pm0.06}$. We independently determine the spatial frequency to be $1494\pm 11\,\text{rad}^{-1}$, proving excellent agreement. Expanding our method to the case of three ions, we demonstrate its functionality for two-dimensional arrays of emitters of indistinguishable photons, serving as a model system to yield structural information where direct imaging techniques fail.
翻訳日:2023-04-19 11:52:31 公開日:2020-12-24
# 超伝導マイクロリングの量子力学への応用

Levitation of superconducting micro-rings for quantum magnetomechanics ( http://arxiv.org/abs/2012.13199v1 )

ライセンス: Link先を確認
Carles Navau and Stefan Minniberger and Michael Trupke and Alvaro Sanchez(参考訳) 超伝導体の浮上は量子技術、特に磁気力学の上昇分野において重要な構成要素となっている。 理論的な提案や実験のほとんどでは、球面のような固体の幾何学がレビテーターとして考慮されている。 第一に、リングに作用する力は固体に期待される力に匹敵するが、超伝導体の質量は大幅に減少する。 これにより、達成可能なトラップ周波数が増大する。 第二に、フィールド内冷却によってリングに閉じ込められたフラックスは、システムのさらなる制御をもたらす。 反ヘルムホルツ四極体場と双極子場に共振する超伝導リングの解析的定式化をゼロ場とインフィールドの両方で行うための一般的な理論的枠組みを構築した。 浮揚環の位置とトラップ周波数は、冷却過程において適用される系のパラメータと磁場の関数として解析的に見出される。 バルク超伝導体でよく見られるものとは異なり、この理想化された幾何学には横方向と回転安定性は与えられない。 したがって、あらゆる自由度で安定性を実現するための単純な超伝導構造の必要性について論じる。

Levitation of superconductors is becoming an important building block in quantum technologies, particularly in the rising field of magnetomechanics. In most of the theoretical proposals and experiments, solid geometries such as spheres are considered for the levitator. Here we demonstrate that replacing them by superconducting rings brings two important advantages: Firstly, the forces acting on the ring remain comparable to those expected for solid objects, while the mass of the superconductor is greatly reduced. In turn, this reduction increases the achievable trap frequency. Secondly, the flux trapped in the ring by in-field cooling yields an additional degree of control for the system. We construct a general theoretical framework with which we obtain analytical formulations for a superconducting ring levitating in an anti-Helmholtz quadrupole field and a dipole field, for both zero-field and in-field cooling. The positions and the trapping frequencies of the levitated rings are analytically found as a function of the parameters of the system and the field applied during the cooling process. Unlike what is commonly observed in bulk superconductors, lateral and rotational stability are not granted for this idealized geometry. We therefore discuss the requirements for simple superconducting structures to achieve stability in all degrees of freedom.
翻訳日:2023-04-19 11:52:19 公開日:2020-12-24
# 研究ソフトウェアレジストリとリポジトリのための9つのベストプラクティス:簡潔なガイド

Nine Best Practices for Research Software Registries and Repositories: A Concise Guide ( http://arxiv.org/abs/2012.13117v1 )

ライセンス: Link先を確認
Task Force on Best Practices for Software Registries: Alain Monteil (INRIA), Alejandra Gonzalez-Beltran (Science and Technology Facilities Council, UK Research and Innovation), Alexandros Ioannidis (CERN), Alice Allen (University of Maryland), Allen Lee (Arizona State University), Anita Bandrowski (University of California at San Diego), Bruce E. Wilson (Oak Ridge National Laboratory), Bryce Mecum (University of California at Santa Barbara), Cai Fan Du (University of Texas at Austin), Carly Robinson (DOE-OSTI), Daniel Garijo (University of Southern California), Daniel S. Katz (University of Illinois at Urbana-Champaign), David Long (Brigham Young University), Genevieve Milliken (NYU Bobst Library), Herv\'e M\'enager (Institut Pasteur), Jessica Hausman (NASA Jet Propulsion Laboratory), Jurriaan H. Spaaks (Netherlands eScience Center), Katrina Fenlon (University of Maryland), Kristin Vanderbilt (University of New Mexico), Lorraine Hwang (University of California at Davis), Lynn Davis (DOE-OSTI), Martin Fenner (DataCite), Michael R. Crusoe (CWL), Michael Hucka (California Institute of Technology), Mingfang Wu (Australian Research Data Commons), Neil Chue Hong (University of Edinburgh), Peter Teuben (University of Maryland), Shelley Stall (American Geophysical Union), Stephan Druskat (German Aerospace Center (DLR)/University Jena/Humboldt-Universit\"at zu Berlin), Ted Carnevale (Yale University), Thomas Morrell (California Institute of Technology)(参考訳) 科学ソフトウェアレジストリとリポジトリは、それぞれの分野において様々な役割を担っている。 これらのリソースは、ソフトウェア発見性と研究の透明性を改善し、ソフトウェア引用のための情報を提供し、時間とともに失われる可能性のある計算方法の保存を促進する。 しかし、これらのリソースの開発には手間がかかり、レジストリやリポジトリの作成者を支援するガイドラインはほとんどない。 このニーズに対処するために、マネージャが個々のレジストリやリポジトリを管理するスコープ、プラクティス、ルールを定義するのに役立つ9つのベストプラクティスを紹介します。 これらのベストプラクティスは、2019-2020年にforce11 software citation implementation working groupのタスクフォースによってまとめられた既存のリソースの作成者の経験から抽出された。 ここで提示されるような特定のポリシーを配置することで、科学的なソフトウェアレジストリやリポジトリがユーザや規律に役立てることができると考えています。

Scientific software registries and repositories serve various roles in their respective disciplines. These resources improve software discoverability and research transparency, provide information for software citations, and foster preservation of computational methods that might otherwise be lost over time, thereby supporting research reproducibility and replicability. However, developing these resources takes effort, and few guidelines are available to help prospective creators of registries and repositories. To address this need, we present a set of nine best practices that can help managers define the scope, practices, and rules that govern individual registries and repositories. These best practices were distilled from the experiences of the creators of existing resources, convened by a Task Force of the FORCE11 Software Citation Implementation Working Group during the years 2019-2020. We believe that putting in place specific policies such as those presented here will help scientific software registries and repositories better serve their users and their disciplines.
翻訳日:2023-04-19 11:51:13 公開日:2020-12-24
# 室温調整可能な空洞における光の定常超流動性

Steady-state superfluidity of light in a tunable cavity at room temperature ( http://arxiv.org/abs/2012.13463v1 )

ライセンス: Link先を確認
G. Keijsers, Z. Geng, K. J. H. Peters, M. Wouters, and S. R. K. Rodriguez(参考訳) 非線形キャビティ内の光は、ある種の条件下では摩擦なしに流れることが期待されている。 これまで、部分光部分マター(すなわちポラリトン)超流動は、定常状態の液体ヘリウム温度か、ピコ秒以下の時間スケールの室温で観測されてきた。 ここでは,超流動性空洞光子(偏光子ではない)のサインを初めて報告する。 欠陥に対して光子流体を発射すると、臨界強度以上で臨界速度以下での後方散乱の抑制が観察される。 室温, 定常光子超流動性は, オイル充填キャビティの強い熱光学非線形性により生じる。 数値シミュレーションにより実験結果が定性的に再現され, 油の熱緩和時間内に粘性光子流体が超流動に再編成される様子が明らかになった。 室温での光子超流動性の探索プラットフォームとして熱光学非線形キャビティを確立し,構造鏡を用いた任意の潜在的景観における超流動性探索の視点を提供する。

Light in a nonlinear cavity is expected to flow without friction -- like a superfluid -- under certain conditions. Until now, part-light part-matter (i.e., polariton) superfluids have been observed either at liquid helium temperatures in steady state, or at room temperature for sub-picosecond timescales. Here we report signatures of superfluid cavity photons (not polaritons) for the first time. When launching a photon fluid against a defect, we observe a suppression of backscattering above a critical intensity and below a critical velocity. Room-temperature and steady-state photon superfluidity emerges thanks to the strong thermo-optical nonlinearity of our oil-filled cavity. Numerical simulations qualitatively reproduce our experimental observations, and reveal how a viscous photon fluid reorganizes into a superfluid within the thermal relaxation time of the oil. Our results establish thermo-optical nonlinear cavities as platforms for probing photon superfluidity at room temperature, and offer perspectives for exploring superfluidity in arbitrary potential landscapes using structured mirrors.
翻訳日:2023-04-19 11:44:32 公開日:2020-12-24
# 多スピン量子系の非エルミート力学と創発的中心スピン模型のシミュレーション

Simulating non-Hermitian dynamics of a multi-spin quantum system and an emergent central spin model ( http://arxiv.org/abs/2012.13415v1 )

ライセンス: Link先を確認
Anant V. Varma and Sourin Das(参考訳) 1つのスピン-$1/2$(\mathsf{pt~}$ symmetric)系の力学を、ユニタリダイナミクスを持つより大きなヒルベルト空間の部分空間に便利に埋め込むことでシミュレートすることができる。 私たちの目標は、このアイデアの多くのボディ一般化、すなわち多くのボディ非ヘルミットダイナミクスを組み込むことです。 この方向への第一歩として、「$N$」非相互作用スピン-$1/2$$$(\mathsf{PT~}$ symmetric)自由度の埋め込みを調査し、そのような埋め込み手順の複雑な性質を展開させる。 その結果、エルミート・ハミルトニアン (hermitian hamiltonian) は "all to all", $q$-body interaction terms (q=1,...,n+1$) を持つ n+1$ スピンハーフのクラスターを表し、追加のスピン-1/2$ はより大きな埋め込み空間の一部となる。 強く相関した中心スピンモデルとして可視化でき、中心スピンの役割を果たす追加スピンが1/2$である。 直交性崩壊により、中心スピンの異方性軸に沿って印加された消滅する小さな交換場でさえも、スピンフリッピングの摂動から生じる非干渉の強い抑制をもたらすことが判明した。

It is possible to simulate the dynamics of a single spin-$1/2$ ($\mathsf{PT~}$ symmetric) system by conveniently embedding it into a subspace of a larger Hilbert space with unitary dynamics. Our goal is to formulate a many body generalization of this idea i.e., embedding many body non-Hermitian dynamics. As a first step in this direction, we investigate embedding of "$N$" non-interacting spin-$1/2$ ($\mathsf{PT~}$ symmetric) degrees of freedom, thereby unfolding the complex nature of such an embedding procedure. It turns out that the resulting Hermitian Hamiltonian represents a cluster of $N+1$ spin halves with "all to all", $q$-body interaction terms ($q=1,...,N+1$) in which the additional spin-$1/2$ is a part of the larger embedding space. We can visualize it as a strongly correlated central spin model with the additional spin-$1/2$ playing the role of central spin. We find that due to the orthogonality catastrophe, even a vanishing small exchange field applied along the anisotropy axis of the central spin leads to a strong suppression of its decoherence arising from spin-flipping perturbations.
翻訳日:2023-04-19 11:43:51 公開日:2020-12-24
# 集団における感染状況の時間的追跡

Timely Tracking of Infection Status of Individuals in a Population ( http://arxiv.org/abs/2012.13393v1 )

ライセンス: Link先を確認
Melih Bastopcu and Sennur Ulukus(参考訳) 人口の感染状況(例:covid-19)をリアルタイムに追跡することを検討する。 この研究では、医療提供者が感染した人や、病気からできるだけ早く回復した人々を検出したいと考えている。 追跡プロセスの時系列を計測するために, 高齢者の感染状況と, 最近の検査結果をもとに, 医療提供者によるリアルタイム推定値との長期平均差を用いた。 まず、この平均的なテスト率の差について分析的な表現を見つけ、感染と回復率を与えられた。 次に,この平均差を最小化するための交互最小化に基づくアルゴリズムを提案する。 人口の全員を等しく検査する代わりに、全体の試験率に制限がある場合、その感染と回復率に基づいて、人口のほんの一部しか検査されないことが観察される。 また,総検査率の増加が感染状況の追跡に役立つことも観察した。 さらに、人口規模の増加は、感染や回復率の異なる人々の多様性を増大させ、テスト能力をより効率的に利用することで、システム性能を向上させることができる。 最後に、医療提供者の好みに応じて、感染した人または回復した人をより迅速に検出するために、テストレートの割り当てを変更することができる。

We consider real-time timely tracking of infection status (e.g., covid-19) of individuals in a population. In this work, a health care provider wants to detect infected people as well as people who recovered from the disease as quickly as possible. In order to measure the timeliness of the tracking process, we use the long-term average difference between the actual infection status of the people and their real-time estimate by the health care provider based on the most recent test results. We first find an analytical expression for this average difference for given test rates, and given infection and recovery rates of people. Next, we propose an alternating minimization based algorithm to minimize this average difference. We observe that if the total test rate is limited, instead of testing all members of the population equally, only a portion of the population is tested based on their infection and recovery rates. We also observe that increasing the total test rate helps track the infection status better. In addition, an increased population size increases diversity of people with different infection and recovery rates, which may be exploited to spend testing capacity more efficiently, thereby improving the system performance. Finally, depending on the health care provider's preferences, test rate allocation can be altered to detect either the infected people or the recovered people more quickly.
翻訳日:2023-04-19 11:42:56 公開日:2020-12-24
# ワイヤレスセンサネットワークのための自然刺激型アルゴリズム:総合的な調査

Nature-Inspired Algorithms for Wireless Sensor Networks: A Comprehensive Survey ( http://arxiv.org/abs/2101.10453v1 )

ライセンス: Link先を確認
Abhilash Singh, Sandeep Sharma, Jitenda Singh(参考訳) 無線センサネットワーク(WSN)の問題点を解決するため,センサ寿命が限られているため,自然に着想を得たアルゴリズムが適切な手法として登場しつつある。 最適なネットワークカバレッジを得ることは、ネットワークのセットアップ前に検討する必要がある課題の1つです。 最適ネットワークカバレッジは、バッテリ駆動センサーの限られたエネルギー消費を最小限に抑えるだけでなく、冗長な情報の検知を減らす。 本稿では,WSNの最適カバレッジに関する自然に着想を得た最適化アルゴリズムに焦点を当てる。 論文の前半では、wsnsにおける問題領域とともに最適化アルゴリズムの分類について簡単に論じた。 論文の後半では、WSNの最適カバレッジを得るために、2つの自然に着想を得たアルゴリズムの性能を比較した。 1つ目は改良された遺伝的アルゴリズムとバイナリantコロニーアルゴリズム(igabaca)、もう1つはライオン最適化(lo)である。 シミュレーションの結果,LOはネットワークカバレッジが良く,LOの収束速度はIGA-BACAよりも速いことがわかった。 さらに,IGA-BACAと比較すると,LOの世代数が少ない場合に最適カバレッジが達成されることがわかった。 このレビューは、研究者がこの分野だけでなく、この分野の応用を探るのに役立つだろう。 キーワード: 最適カバレッジ、バイオインスパイアされたアルゴリズム、ライオン最適化、WSN。

In order to solve the critical issues in Wireless Sensor Networks (WSNs), with concern for limited sensor lifetime, nature-inspired algorithms are emerging as a suitable method. Getting optimal network coverage is one of those challenging issues that need to be examined critically before any network setup. Optimal network coverage not only minimizes the consumption of limited energy of battery-driven sensors but also reduce the sensing of redundant information. In this paper, we focus on nature-inspired optimization algorithms concerning the optimal coverage in WSNs. In the first half of the paper, we have briefly discussed the taxonomy of the optimization algorithms along with the problem domains in WSNs. In the second half of the paper, we have compared the performance of two nature-inspired algorithms for getting optimal coverage in WSNs. The first one is a combined Improved Genetic Algorithm and Binary Ant Colony Algorithm (IGABACA), and the second one is Lion Optimization (LO). The simulation results confirm that LO gives better network coverage, and the convergence rate of LO is faster than that of IGA-BACA. Further, we observed that the optimal coverage is achieved at a lesser number of generations in LO as compared to IGA-BACA. This review will help researchers to explore the applications in this field as well as beyond this area. Keywords: Optimal Coverage, Bio-inspired Algorithm, Lion Optimization, WSNs.
翻訳日:2023-04-19 11:32:16 公開日:2020-12-24
# 位置依存質量を持つ相対論的アハロノフ・ボーム・クーロン系の論拠」に対する回答

Reply on `Comment on The relativistic Aharonov-Bohm-Coulomb system with position-dependent mass' ( http://arxiv.org/abs/2012.14282v1 )

ライセンス: Link先を確認
R. R. S. Oliveira, A. A. Araujo Filho, R. V. Maluf, and C. A. S. Almeida(参考訳) 本論文では, キラリティ演算子$\gamma_5=\sigma_1$の使用は, このコメントの著者が述べているように, 正確ではないことが示されている。

It is shown that the results of our paper are correct, although the use of the chirality operator $\gamma_5=\sigma_1$ in the paper is not correct, as fairly the authors of the Comment stated.
翻訳日:2023-04-19 11:31:44 公開日:2020-12-24
# 制御と学習のための微分分子シミュレーション

Differentiable Molecular Simulations for Control and Learning ( http://arxiv.org/abs/2003.00868v2 )

ライセンス: Link先を確認
Wujie Wang, Simon Axelrod, Rafael G\'omez-Bombarelli(参考訳) 分子動力学シミュレーションは、基本機構の解明と所望のタスクのための物質工学の両方を可能にするために、原子論的なスケールで統計力学を使用する。 マイクロスケールでの分子系の挙動は、通常、ハミルトン関数やエネルギー関数によってパラメータ化された微分方程式でシミュレートされる。 ハミルトニアンはシステムの状態と環境との相互作用を記述している。 予測顕微鏡モデルを導出するために、観察された巨視的量に一致する分子ハミルトニアンを推論したい。 工学の観点からは、ハミルトニアンを制御し、自己組織化や光学制御のように望ましいシミュレーション結果と構造を達成し、実験室で望ましいハミルトニアンを持つシステムを実現することを望んでいる。 どちらの場合も、シミュレーションシステムの創発的性質が与えられた目標に合致するようにハミルトニアンの修正が目的である。 本研究は, バルクターゲットオブザーバブルとシミュレーション結果がハミルトン群に対して解析的に微分可能な微分可能シミュレーションを用いて, ハミルトン群をパラメータ化してマクロモデルの推定と制御プロトコルの開発を行う方法を示す。

Molecular dynamics simulations use statistical mechanics at the atomistic scale to enable both the elucidation of fundamental mechanisms and the engineering of matter for desired tasks. The behavior of molecular systems at the microscale is typically simulated with differential equations parameterized by a Hamiltonian, or energy function. The Hamiltonian describes the state of the system and its interactions with the environment. In order to derive predictive microscopic models, one wishes to infer a molecular Hamiltonian that agrees with observed macroscopic quantities. From the perspective of engineering, one wishes to control the Hamiltonian to achieve desired simulation outcomes and structures, as in self-assembly and optical control, to then realize systems with the desired Hamiltonian in the lab. In both cases, the goal is to modify the Hamiltonian such that emergent properties of the simulated system match a given target. We demonstrate how this can be achieved using differentiable simulations where bulk target observables and simulation outcomes can be analytically differentiated with respect to Hamiltonians, opening up new routes for parameterizing Hamiltonians to infer macroscopic models and develop control protocols.
翻訳日:2022-12-28 08:31:43 公開日:2020-12-24
# 組合せ最適化のための強化学習:調査

Reinforcement Learning for Combinatorial Optimization: A Survey ( http://arxiv.org/abs/2003.03600v3 )

ライセンス: Link先を確認
Nina Mazyavkina and Sergey Sviridov and Sergei Ivanov and Evgeny Burnaev(参考訳) 組合せ最適化問題を解決するための多くの伝統的なアルゴリズムは、解を順次構築する手作りのヒューリスティックを用いる。 このようなヒューリスティックはドメインの専門家によって設計され、しばしば問題の厳しい性質のために最適化される。 強化学習(rl)は,教師付きあるいは自己監督型の方法でエージェントを訓練することにより,これらのヒューリスティックスの探索を自動化する優れた方法を提案する。 本稿では、RLフレームワークを難しい組合せ問題に適用する最近の進歩について考察する。 我々の調査は、運用研究や機械学習コミュニティに必要な背景を提供し、現場を前進させる作業を紹介します。 我々は最近提案したRL法について、各問題の改善のタイムラインを概説するとともに、従来のアルゴリズムとの比較を行い、RLモデルが組合せ問題を解く上で有望な方向となることを示す。

Many traditional algorithms for solving combinatorial optimization problems involve using hand-crafted heuristics that sequentially construct a solution. Such heuristics are designed by domain experts and may often be suboptimal due to the hard nature of the problems. Reinforcement learning (RL) proposes a good alternative to automate the search of these heuristics by training an agent in a supervised or self-supervised manner. In this survey, we explore the recent advancements of applying RL frameworks to hard combinatorial problems. Our survey provides the necessary background for operations research and machine learning communities and showcases the works that are moving the field forward. We juxtapose recently proposed RL methods, laying out the timeline of the improvements for each problem, as well as we make a comparison with traditional algorithms, indicating that RL models can become a promising direction for solving combinatorial problems.
翻訳日:2022-12-25 19:30:18 公開日:2020-12-24
# EPSNet: 層間アテンション融合を用いた高効率パノプティックセグメンテーションネットワーク

EPSNet: Efficient Panoptic Segmentation Network with Cross-layer Attention Fusion ( http://arxiv.org/abs/2003.10142v3 )

ライセンス: Link先を確認
Chia-Yuan Chang, Shuo-En Chang, Pei-Yung Hsiao, and Li-Chen Fu(参考訳) panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションを1つのタスクに統一するシーン解析タスクである。 しかし、現在の最先端の研究は推論時間にあまり関心を持たなかった。 本研究では,高速な推論速度でパノプティカルセグメンテーションタスクに取り組むために,EPSNet(Efficient Panoptic Segmentation Network)を提案する。 基本的に、EPSNetはプロトタイプマスクとマスク係数の単純な線形結合に基づいてマスクを生成する。 セグメンテーションやセマンティクスセグメンテーションなどの軽量ネットワークブランチは、マスク係数を予測し、プロトタイプネットワークブランチによって予測される共有プロトタイプでマスクを生成するだけでよい。 さらに,共有プロトタイプの品質向上のために,多層アテンション融合モジュール(cross-layer attention fusion module)と呼ばれるモジュールを導入し,多層機能とアテンション機構を集約することで,相互の長距離依存関係を捕捉する。 提案手法の有効性を検証するため,提案手法を用いて,高速な推論速度(GPUでは53ms)で高い有望な性能を実現するCOCOパン光学データセットの実験を行った。

Panoptic segmentation is a scene parsing task which unifies semantic segmentation and instance segmentation into one single task. However, the current state-of-the-art studies did not take too much concern on inference time. In this work, we propose an Efficient Panoptic Segmentation Network (EPSNet) to tackle the panoptic segmentation tasks with fast inference speed. Basically, EPSNet generates masks based on simple linear combination of prototype masks and mask coefficients. The light-weight network branches for instance segmentation and semantic segmentation only need to predict mask coefficients and produce masks with the shared prototypes predicted by prototype network branch. Furthermore, to enhance the quality of shared prototypes, we adopt a module called "cross-layer attention fusion module", which aggregates the multi-scale features with attention mechanism helping them capture the long-range dependencies between each other. To validate the proposed work, we have conducted various experiments on the challenging COCO panoptic dataset, which achieve highly promising performance with significantly faster inference speed (53ms on GPU).
翻訳日:2022-12-21 00:16:27 公開日:2020-12-24
# 不整合構造情報を用いたロバスト画像再構成

Robust Image Reconstruction with Misaligned Structural Information ( http://arxiv.org/abs/2004.00589v3 )

ライセンス: Link先を確認
Leon Bungert, Matthias J. Ehrhardt(参考訳) マルチモダリティ(またはマルチチャネル)イメージングは、リモートセンシングにおけるハイパースペクトルイメージング、物質科学におけるスペクトルCT、医療におけるマルチコントラストMRI、PET-MRなど、ますます重要で広く利用されるようになった。 過去数十年にわたる研究の結果、いくつかのモダリティからのデータを組み合わせる数学的手法が多々あった。 変分正規化としてしばしば定式化される最先端の手法は、定量的および質的に画像再構成を著しく改善することが示されている。 これらのモデルのほとんど全てが、モダリティが完全に登録されているという仮定に依存しており、ほとんどの実世界の応用ではそうではない。 本稿では,再建と登録を共同で行う変分フレームワークを提案し,このハードルを克服する。 当社のアプローチは,レコンストラクションと登録の両方の正確性の観点から確立されたアプローチを,異なるモダリティとアウトランクで達成した最初の方法です。 シミュレーションおよび実データを用いた数値計算の結果, マルチコントラストMRI, PET-MR, ハイパースペクトル画像の様々な応用における提案手法の可能性が示唆された。 そこで,提案手法により,実環境下での複数モード間の共有情報の堅牢な利用が可能となった。

Multi-modality (or multi-channel) imaging is becoming increasingly important and more widely available, e.g. hyperspectral imaging in remote sensing, spectral CT in material sciences as well as multi-contrast MRI and PET-MR in medicine. Research in the last decades resulted in a plethora of mathematical methods to combine data from several modalities. State-of-the-art methods, often formulated as variational regularization, have shown to significantly improve image reconstruction both quantitatively and qualitatively. Almost all of these models rely on the assumption that the modalities are perfectly registered, which is not the case in most real world applications. We propose a variational framework which jointly performs reconstruction and registration, thereby overcoming this hurdle. Our approach is the first to achieve this for different modalities and outranks established approaches in terms of accuracy of both reconstruction and registration. Numerical results on simulated and real data show the potential of the proposed strategy for various applications in multi-contrast MRI, PET-MR, and hyperspectral imaging: typical misalignments between modalities such as rotations, translations, zooms can be effectively corrected during the reconstruction process. Therefore the proposed framework allows the robust exploitation of shared information across multiple modalities under real conditions.
翻訳日:2022-12-17 19:38:33 公開日:2020-12-24
# 低リソース機械翻訳のための言語的要因によるトランスフォーマーの充実

Enriching the Transformer with Linguistic Factors for Low-Resource Machine Translation ( http://arxiv.org/abs/2004.08053v2 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Marta R. Costa-juss\`a, Carlos Escolano(参考訳) すなわち、ソーストークンを参照する言語情報などの単語の特徴の導入は、特定の環境でのニューラルマシン翻訳システム(典型的にはリカレントアーキテクチャ)の結果を改善することが知られている。 本研究では,現在最先端のニューラルマシン翻訳アーキテクチャであるtransformerを拡張し,外部知識の導入を可能にすることを提案する。 特に,提案する修正法であるファクタドトランスフォーマーでは,機械翻訳システムに追加の知識を挿入する言語的要因を用いる。 異なる種類の機能の使用とは別に、異なるアーキテクチャ構成の影響について検討する。 具体的には,組込みレベルやエンコーダレベルで単語と特徴の組み合わせのパフォーマンスを分析し,二つの異なる組み合わせ戦略を実験する。 IWSLTドイツ語対英語タスクにおけるベースライントランスフォーマーよりも0.8BLEUの改善点を示す。 さらに,低リソース言語と極遠言語の両方を含むより難易度の高いflres english-to-nepaliベンチマークを実験し,1.2 bleuの改良を得た。

Introducing factors, that is to say, word features such as linguistic information referring to the source tokens, is known to improve the results of neural machine translation systems in certain settings, typically in recurrent architectures. This study proposes enhancing the current state-of-the-art neural machine translation architecture, the Transformer, so that it allows to introduce external knowledge. In particular, our proposed modification, the Factored Transformer, uses linguistic factors that insert additional knowledge into the machine translation system. Apart from using different kinds of features, we study the effect of different architectural configurations. Specifically, we analyze the performance of combining words and features at the embedding level or at the encoder level, and we experiment with two different combination strategies. With the best-found configuration, we show improvements of 0.8 BLEU over the baseline Transformer in the IWSLT German-to-English task. Moreover, we experiment with the more challenging FLoRes English-to-Nepali benchmark, which includes both extremely low-resourced and very distant languages, and obtain an improvement of 1.2 BLEU.
翻訳日:2022-12-12 13:06:07 公開日:2020-12-24
# RNN-Tモデルは外部オーディオに一般化できない:原因と解決策

RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions ( http://arxiv.org/abs/2005.03271v3 )

ライセンス: Link先を確認
Chung-Cheng Chiu, Arun Narayanan, Wei Han, Rohit Prabhavalkar, Yu Zhang, Navdeep Jaitly, Ruoming Pang, Tara N. Sainath, Patrick Nguyen, Liangliang Cao, Yonghui Wu(参考訳) 近年,自律音声認識(ASR)の課題に対して,全神経終末アプローチが最先端の結果を得た。 しかしながら、既存の作業の多くは、同じドメインからトレインとテストデータが引き出されるASRモデルの構築に重点を置いている。 例えば、短いセグメントで訓練されたエンドツーエンドモデルは、長い発話で評価すると性能が低下する。 本研究では,ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(rnn-t)を用いたエンド・ツー・エンドモデルの一般化特性を分析し,一般化性能に悪影響を及ぼすモデルコンポーネントを同定する。 トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。 長い形式のyoutubeテストセットでは、非ストリーミングrnn-tモデルを短いデータセグメントでトレーニングすると、提案手法は単語誤り率(wer)を22.3%から14.8%に改善し、短い検索クエリでトレーニングされたストリーミングrnn-tモデルでは、youtubeセットのwerを67.0%から25.3%に改善する。 最後に、Librispeechでトレーニングすると、動的重複推論によりYouTube上のWERは99.8%から33.0%に改善される。

In recent years, all-neural end-to-end approaches have obtained state-of-the-art results on several challenging automatic speech recognition (ASR) tasks. However, most existing works focus on building ASR models where train and test data are drawn from the same domain. This results in poor generalization characteristics on mismatched-domains: e.g., end-to-end models trained on short segments perform poorly when evaluated on longer utterances. In this work, we analyze the generalization properties of streaming and non-streaming recurrent neural network transducer (RNN-T) based end-to-end models in order to identify model components that negatively affect generalization performance. We propose two solutions: combining multiple regularization techniques during training, and using dynamic overlapping inference. On a long-form YouTube test set, when the nonstreaming RNN-T model is trained with shorter segments of data, the proposed combination improves word error rate (WER) from 22.3% to 14.8%; when the streaming RNN-T model trained on short Search queries, the proposed techniques improve WER on the YouTube set from 67.0% to 25.3%. Finally, when trained on Librispeech, we find that dynamic overlapping inference improves WER on YouTube from 99.8% to 33.0%.
翻訳日:2022-12-05 23:41:40 公開日:2020-12-24
# 多モード非線形埋め込みの学習:性能境界とアルゴリズム

Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm ( http://arxiv.org/abs/2006.02330v2 )

ライセンス: Link先を確認
Semih Kaya and Elif Vural(参考訳) 複数のモダリティでデータコレクションの低次元表現を学ぶための文献には多くのアプローチが存在するが、以前は見過ごされていたデータへのマルチモーダル非線形埋め込みの一般化は見過ごされている。 本研究ではまず,マルチモーダルな非線形埋め込みを教師付き環境で学習する理論的解析を行う。 性能限界は,マルチモーダル分類と検索問題の一般化に成功するためには,データ空間全体に埋め込む補間関数の規則性が,クラス間分離やクロスモーダルアライメント基準と同様に重要であることを示している。 次に,これらの理論的な発見を動機とした多モード非線形表現学習アルゴリズムを提案し,このアルゴリズムでは,インタプリタのリプシッツ正則性とトレーニングサンプルの埋め込みを協調的に最適化する。 近年のマルチモーダル・シングルモーダル学習アルゴリズムとの比較により,提案手法は多モーダル画像分類およびクロスモーダル画像テキスト検索において有望な性能を示すことを示す。

While many approaches exist in the literature to learn low-dimensional representations for data collections in multiple modalities, the generalizability of multi-modal nonlinear embeddings to previously unseen data is a rather overlooked subject. In this work, we first present a theoretical analysis of learning multi-modal nonlinear embeddings in a supervised setting. Our performance bounds indicate that for successful generalization in multi-modal classification and retrieval problems, the regularity of the interpolation functions extending the embedding to the whole data space is as important as the between-class separation and cross-modal alignment criteria. We then propose a multi-modal nonlinear representation learning algorithm that is motivated by these theoretical findings, where the embeddings of the training samples are optimized jointly with the Lipschitz regularity of the interpolators. Experimental comparison to recent multi-modal and single-modal learning algorithms suggests that the proposed method yields promising performance in multi-modal image classification and cross-modal image-text retrieval applications.
翻訳日:2022-11-25 17:08:27 公開日:2020-12-24
# 自己学習を用いた低リソースニューラルマシン翻訳のためのバックトランスレーションの強化

Enhanced back-translation for low resource neural machine translation using self-training ( http://arxiv.org/abs/2006.02876v3 )

ライセンス: Link先を確認
Idris Abdulmumin, Bashir Shehu Galadanci, Abubakar Isa(参考訳) 単言語目標データ(合成並列データ)のバック翻訳を用いたニューラルネットワーク翻訳(NMT)モデルの改善は、現在、改良された翻訳システムのトレーニングのための最先端のアプローチである。 後方システムの品質 - 利用可能な並列データに基づいてトレーニングされ, 後方翻訳に使用される - は, 最終NMTモデルの性能に影響を及ぼすために多くの研究で示されている。 低リソース環境では、利用可能な並列データは、通常、標準翻訳モデルのトレーニングに必要な質的合成データを生成できる後方モデルを訓練するには不十分である。 本研究は,前方翻訳手法を用いてモデル自体を改善するために,後方モデルの出力を用いる自己学習戦略を提案する。 この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。 改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。

Improving neural machine translation (NMT) models using the back-translations of the monolingual target data (synthetic parallel data) is currently the state-of-the-art approach for training improved translation systems. The quality of the backward system - which is trained on the available parallel data and used for the back-translation - has been shown in many studies to affect the performance of the final NMT model. In low resource conditions, the available parallel data is usually not enough to train a backward model that can produce the qualitative synthetic data needed to train a standard translation model. This work proposes a self-training strategy where the output of the backward model is used to improve the model itself through the forward translation technique. The technique was shown to improve baseline low resource IWSLT'14 English-German and IWSLT'15 English-Vietnamese backward translation models by 11.06 and 1.5 BLEUs respectively. The synthetic data generated by the improved English-German backward model was used to train a forward model which out-performed another forward model trained using standard back-translation by 2.7 BLEU.
翻訳日:2022-11-25 09:06:17 公開日:2020-12-24
# モデルフリー強化学習:クリップ型擬似回帰からサンプル複雑性へ

Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample Complexity ( http://arxiv.org/abs/2006.03864v3 )

ライセンス: Link先を確認
Zihan Zhang, Yuan Zhou, Xiangyang Ji(参考訳) 本稿では,割引マルコフ決定プロセス(MDP)に対する$\epsilon$-optimal Policyの学習問題を考察する。 値が$s$、アクションが$a$、ディスカウント係数$\gamma \in (0,1)$、近似しきい値$\epsilon > 0$ が与えられると、サンプル複雑性が$\tilde{o}(\frac{sa\ln(1/p)}{\epsilon^2(1-\gamma)^{5.5}})$ (ここで$\tilde{o}(\cdot)$s poly-logarithmic factors of $s,a,1/(1-\gamma)$, and $1/\epsilon$) を学習するためのモデルフリーなアルゴリズムを提供する。 十分小さな$\epsilon$に対して、サンプル複雑性を持つアルゴリズムを改良した$\tilde{O}(\frac{SA\ln(1/p)}{\epsilon^2(1-\gamma)^{3}})$を示す。 第1のバウンドは、既知のすべてのモデルフリーアルゴリズムとモデルベースアルゴリズムをS$に強く依存して改善するが、第2のアルゴリズムは、既知のすべての複雑なバウンドを破り、情報理論の下限を対数因子にマッチさせる。

In this paper we consider the problem of learning an $\epsilon$-optimal policy for a discounted Markov Decision Process (MDP). Given an MDP with $S$ states, $A$ actions, the discount factor $\gamma \in (0,1)$, and an approximation threshold $\epsilon > 0$, we provide a model-free algorithm to learn an $\epsilon$-optimal policy with sample complexity $\tilde{O}(\frac{SA\ln(1/p)}{\epsilon^2(1-\gamma)^{5.5}})$ (where the notation $\tilde{O}(\cdot)$ hides poly-logarithmic factors of $S,A,1/(1-\gamma)$, and $1/\epsilon$) and success probability $(1-p)$. For small enough $\epsilon$, we show an improved algorithm with sample complexity $\tilde{O}(\frac{SA\ln(1/p)}{\epsilon^2(1-\gamma)^{3}})$. While the first bound improves upon all known model-free algorithms and model-based ones with tight dependence on $S$, our second algorithm beats all known sample complexity bounds and matches the information theoretic lower bound up to logarithmic factors.
翻訳日:2022-11-24 21:07:20 公開日:2020-12-24
# マルチビューICAによるニューロイメージング研究における共有応答のモデル化

Modeling Shared Responses in Neuroimaging Studies through MultiView ICA ( http://arxiv.org/abs/2006.06635v4 )

ライセンス: Link先を確認
Hugo Richard, Luigi Gresele, Aapo Hyv\"arinen, Bertrand Thirion, Alexandre Gramfort, Pierre Ablin(参考訳) 被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。 しかし、複数の被験者から得られるデータの集約は、解剖学、機能的トポグラフィーおよび個人間の刺激応答において大きな変動を考慮に入れる必要があるため、困難である。 データモデリングは、実験的なセットアップが十分に定義された認知操作を含まない映画視聴のような生態学的に関係のある状況では特に困難である。 本稿では,各対象のデータを共有独立音源と雑音の線形結合としてモデル化するグループ研究のための,新しい多視点独立成分分析モデルを提案する。 ほとんどの群ICAプロシージャとは対照的に、モデルの可能性は閉形式である。 確率を最大化するための準ニュートン法を開発したが、これは頑健であり、迅速に収束する。 提案手法は,まずfmriデータを用いて,対象者間の共通源同定における感度の向上を示す。 また,脳磁図(MEG)データでは,ファントムデータより高精度なソースローカライゼーションが得られた。 Cam-CANデータセットから200人の被験者に適用すると、センサーとソース空間における誘発された活動の明確なシーケンスが明らかになる。 コードはhttps://github.com/hugorichard/multiviewicaで無料で利用できる。

Group studies involving large cohorts of subjects are important to draw general conclusions about brain functional organization. However, the aggregation of data coming from multiple subjects is challenging, since it requires accounting for large variability in anatomy, functional topography and stimulus response across individuals. Data modeling is especially hard for ecologically relevant conditions such as movie watching, where the experimental setup does not imply well-defined cognitive operations. We propose a novel MultiView Independent Component Analysis (ICA) model for group studies, where data from each subject are modeled as a linear combination of shared independent sources plus noise. Contrary to most group-ICA procedures, the likelihood of the model is available in closed form. We develop an alternate quasi-Newton method for maximizing the likelihood, which is robust and converges quickly. We demonstrate the usefulness of our approach first on fMRI data, where our model demonstrates improved sensitivity in identifying common sources among subjects. Moreover, the sources recovered by our model exhibit lower between-session variability than other methods.On magnetoencephalography (MEG) data, our method yields more accurate source localization on phantom data. Applied on 200 subjects from the Cam-CAN dataset it reveals a clear sequence of evoked activity in sensor and source space. The code is freely available at https://github.com/hugorichard/multiviewica.
翻訳日:2022-11-22 10:11:07 公開日:2020-12-24
# アルゴリズム構成のための精細境界:双対クラス近似のナイフエッジ

Refined bounds for algorithm configuration: The knife-edge of dual class approximability ( http://arxiv.org/abs/2006.11827v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Tuomas Sandholm, Ellen Vitercik(参考訳) アルゴリズムがよりチューニング可能なパラメータを持つようになるにつれて、アルゴリズム構成の自動化がますます必要になりつつある。 機械学習を使ってパラメータをチューニングし、ランタイムやソリューションの品質といったパフォーマンスメトリクスを最適化することが一般的です。 トレーニングセットは、手元の特定のドメインからの問題インスタンスで構成される。 トレーニングセットは、トレーニングセットに対するパラメータの平均的な経験的パフォーマンスが、予想される将来的なパフォーマンスに近づいていることを保証するため、どの程度の大きさでなければならないか? パラメータの関数としてのアルゴリズムの性能は、"単純な"関数によって近似することができる。 この近似が L-無限ノルムの下で成り立つなら、強いサンプル複雑性境界を与えることができる。 一方、近似が無限小よりも小さい p に対して L-p ノルムの下でのみ成り立つ場合、最悪の場合において有意義なサンプル複雑性境界を与えることはできない。 我々は、コンピュータ科学において最も強力なツールの一つである整数プログラミングの文脈における境界を実証的に評価する。 実験により、これまでよく知られた境界よりも最大700倍小さいサンプル複雑性境界を得る。

Automating algorithm configuration is growing increasingly necessary as algorithms come with more and more tunable parameters. It is common to tune parameters using machine learning, optimizing performance metrics such as runtime and solution quality. The training set consists of problem instances from the specific domain at hand. We investigate a fundamental question about these techniques: how large should the training set be to ensure that a parameter's average empirical performance over the training set is close to its expected, future performance? We answer this question for algorithm configuration problems that exhibit a widely-applicable structure: the algorithm's performance as a function of its parameters can be approximated by a "simple" function. We show that if this approximation holds under the L-infinity norm, we can provide strong sample complexity bounds. On the flip side, if the approximation holds only under the L-p norm for p smaller than infinity, it is not possible to provide meaningful sample complexity bounds in the worst case. We empirically evaluate our bounds in the context of integer programming, one of the most powerful tools in computer science. Via experiments, we obtain sample complexity bounds that are up to 700 times smaller than the previously best-known bounds.
翻訳日:2022-11-18 11:58:27 公開日:2020-12-24
# 2プレイヤーゼロサムマルコフゲームにおけるオフポリティ爆発性の評価

Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2007.02141v2 )

ライセンス: Link先を確認
Kenshi Abe, Yusuke Kaneko(参考訳) オフ・ポリティィ・アセスメント(OPE)は、異なる政策から得られた歴史的データを用いて新しい政策を評価する問題である。 最近のopeの文脈では、ほとんどの研究はマルチプレイヤーのケースではなく、シングルプレイヤーのケースに焦点を当てている。 本研究では,2プレイヤーゼロサムマルコフゲームにおける2つの頑健かつ二重強化学習推定器によって構成されたOPE推定器を提案する。 提案されたプロジェクトエクスプロイザビリティは、政策プロファイル(つまり、ポリシーのタプル)が2プレイヤーゼロサムゲームにおけるナッシュ均衡にどの程度近いかを決定する指標としてしばしば用いられる。 提案した推定器の可利用性推定誤差境界を検証した。 そこで我々は,ある政策プロファイルクラスから推定される攻撃可能性を最小限に抑える政策プロファイルを選択することで,最適な政策プロファイルを見つける方法を提案する。 当社の手法で選択したポリシープロファイルの後悔の限界を証明します。 最後に,実験を通して提案した推定器の有効性と性能を示す。

Off-policy evaluation (OPE) is the problem of evaluating new policies using historical data obtained from a different policy. In the recent OPE context, most studies have focused on single-player cases, and not on multi-player cases. In this study, we propose OPE estimators constructed by the doubly robust and double reinforcement learning estimators in two-player zero-sum Markov games. The proposed estimators project exploitability that is often used as a metric for determining how close a policy profile (i.e., a tuple of policies) is to a Nash equilibrium in two-player zero-sum games. We prove the exploitability estimation error bounds for the proposed estimators. We then propose the methods to find the best candidate policy profile by selecting the policy profile that minimizes the estimated exploitability from a given policy profile class. We prove the regret bounds of the policy profiles selected by our methods. Finally, we demonstrate the effectiveness and performance of the proposed estimators through experiments.
翻訳日:2022-11-13 13:19:11 公開日:2020-12-24
# ディープエッジインテリジェンスにおける最先端技術

State-of-the-art Techniques in Deep Edge Intelligence ( http://arxiv.org/abs/2008.00824v3 )

ライセンス: Link先を確認
Ahnaf Hannan Lodhi, Bar{\i}\c{s} Akg\"un, \"Oznur \"Ozkasap(参考訳) 世界中のネットワークで生成される膨大な量のデータが、機械学習技術や最近ではDeep Learningによって完全にアンロックされている。 後者が提供するアドバンテージは、さまざまなアプリケーションで急速に選択のフレームワークになりつつある。 しかし、計算資源の集中化とデータ集約の必要性は、ディープラーニングアプリケーションの民主化の要因を長い間制限してきた。 エッジコンピューティングは、ネットワーク周辺で利用可能なhiherto untapped処理リソースを活用することを目的とした、新興のパラダイムである。 エッジインテリジェンス(EI)は、エッジコンピューティングの概念を用いた学習を可能にする強力な代替手段として急速に登場した。 ディープラーニングベースのエッジインテリジェンス(dei)はこの急速に進化する領域にある。 本稿では,deiの運用における主な制約について概説する。 deiの主要な研究分野は、連合学習、分散計算、圧縮スキーム、条件計算によって統合されている。 また,一般的な課題をいくつか提示し,今後の研究動向を強調する。

The potential held by the gargantuan volumes of data being generated across networks worldwide has been truly unlocked by machine learning techniques and more recently Deep Learning. The advantages offered by the latter have seen it rapidly becoming a framework of choice for various applications. However, the centralization of computational resources and the need for data aggregation have long been limiting factors in the democratization of Deep Learning applications. Edge Computing is an emerging paradigm that aims to utilize the hitherto untapped processing resources available at the network periphery. Edge Intelligence (EI) has quickly emerged as a powerful alternative to enable learning using the concepts of Edge Computing. Deep Learning-based Edge Intelligence or Deep Edge Intelligence (DEI) lies in this rapidly evolving domain. In this article, we provide an overview of the major constraints in operationalizing DEI. The major research avenues in DEI have been consolidated under Federated Learning, Distributed Computation, Compression Schemes and Conditional Computation. We also present some of the prevalent challenges and highlight prospective research avenues.
翻訳日:2022-11-03 06:05:56 公開日:2020-12-24
# 動的マルチエージェントシステムにおける強化学習モデルの説明

Explanation of Reinforcement Learning Model in Dynamic Multi-Agent System ( http://arxiv.org/abs/2008.01508v2 )

ライセンス: Link先を確認
Xinzhi Wang, Huao Li, Hui Zhang, Michael Lewis, Katia Sycara(参考訳) 近年,Deep Reinforcement Learning(DRL)システムにおける透明性と解釈可能性への関心が高まっている。 言語による説明は、私たちの日常生活におけるコミュニケーションの最も自然な方法として、ユーザーがシステムをよりよく理解することができ、最終的には高いレベルの信頼とスムーズなコラボレーションにつながるので、もっと注目に値する。 本稿では,DRL行動薬の口頭説明作成における新たな取り組みについて報告する。 ルールベースのモデルは、事前知識で事前に定義された一連のルールを使用して説明を構築するように設計されている。 次に, 規則に基づく説明を学習データとして活用し, 言語説明生成の暗黙論理を一般的な状況に拡張する学習モデルを提案する。 学習モデルは静的ルールベースモデルよりも柔軟性と一般化性が高いことが示されている。 両モデルの性能は客観的指標によって定量的に評価される。 その結果,両モデルによる言語説明は,DRLシステムの解釈可能性に対するユーザの主観的満足度を向上させることがわかった。 さらに、学習モデルの7つの変種は、言語説明の質を向上させるための入力チャネル、注意機構、および提案エンコーダの寄与を説明するように設計されている。

Recently, there has been increasing interest in transparency and interpretability in Deep Reinforcement Learning (DRL) systems. Verbal explanations, as the most natural way of communication in our daily life, deserve more attention, since they allow users to gain a better understanding of the system which ultimately could lead to a high level of trust and smooth collaboration. This paper reports a novel work in generating verbal explanations for DRL behaviors agent. A rule-based model is designed to construct explanations using a series of rules which are predefined with prior knowledge. A learning model is then proposed to expand the implicit logic of generating verbal explanation to general situations by employing rule-based explanations as training data. The learning model is shown to have better flexibility and generalizability than the static rule-based model. The performance of both models is evaluated quantitatively through objective metrics. The results show that verbal explanation generated by both models improve subjective satisfaction of users towards the interpretability of DRL systems. Additionally, seven variants of the learning model are designed to illustrate the contribution of input channels, attention mechanism, and proposed encoder in improving the quality of verbal explanation.
翻訳日:2022-11-03 00:12:53 公開日:2020-12-24
# 胸椎疾患分類のための集計法

An Aggregate Method for Thorax Diseases Classification ( http://arxiv.org/abs/2008.03008v5 )

ライセンス: Link先を確認
Bayu A. Nugroho(参考訳) リアルワードの医用画像分類で見られる一般的な問題は、正のパターンが通常まれなデータセットにおける正のパターンと負のパターンの固有不均衡である。 さらに、ニューラルネットワークを用いた複数クラスの分類において、トレーニングパターンを1つの出力ノードで正のパターンとして扱い、残りの出力ノードで負のパターンとして扱う。 本稿では,損失関数におけるトレーニングパターンの重みは,クラス内のトレーニングパターンの数だけでなく,そのトレーニングパターンを正として扱うノードの数にも基づいて設計し,他のノードでは負の扱いをする。 胸部疾患分類問題に対する深部ネットワークトレーニングのための重み計算アルゴリズムと,最先端の深部ネットワークアーキテクチャを用いたトレーニング最適化を組み合わせたアプローチを提案する。 Chest X-Ray画像データセットの実験結果から,この新しい重み付け方式により分類性能が向上し,EfficientNetによるトレーニング最適化により性能が向上することが示された。 胸椎疾患分類の先行研究から得られたいくつかの成績と比較し,提案法との公平な比較を行った。

A common problem found in real-word medical image classification is the inherent imbalance of the positive and negative patterns in the dataset where positive patterns are usually rare. Moreover, in the classification of multiple classes with neural network, a training pattern is treated as a positive pattern in one output node and negative in all the remaining output nodes. In this paper, the weights of a training pattern in the loss function are designed based not only on the number of the training patterns in the class but also on the different nodes where one of them treats this training pattern as positive and the others treat it as negative. We propose a combined approach of weights calculation algorithm for deep network training and the training optimization from the state-of-the-art deep network architecture for thorax diseases classification problem. Experimental results on the Chest X-Ray image dataset demonstrate that this new weighting scheme improves classification performances, also the training optimization from the EfficientNet improves the performance furthermore. We compare the aggregate method with several performances from the previous study of thorax diseases classifications to provide the fair comparisons against the proposed method.
翻訳日:2022-11-02 01:11:43 公開日:2020-12-24
# 敵意のないロバストな深層強化学習

Adversary Agnostic Robust Deep Reinforcement Learning ( http://arxiv.org/abs/2008.06199v2 )

ライセンス: Link先を確認
Xinghua Qu, Yew-Soon Ong, Abhishek Gupta, Zhu Sun(参考訳) 深層強化学習(DRL)の政策は、テスト時に現れるが訓練中に未知の状態観察に対する摂動(例えば、ランダムノイズや逆境攻撃)によって欺かれることが示されている。 drlポリシーの堅牢性を高めるために、以前のアプローチでは、これらの摂動観測で対応する一般化能力を達成するために、敵の知識を訓練プロセスに追加できると仮定していた。 しかし、そのような仮定はロバスト性の改善をもっと高くするだけでなく、他の種類の攻撃に対してモデルをより効果的に残すこともできる。 対照的に、敵からの学習を必要としない逆非依存の頑健なDRLパラダイムを提案する。 この目的のために、我々はまず、政策蒸留設定に基づく敵とは独立して、ロバスト性が達成可能であることを理論的に導出する。 この発見により、我々は2つの条件で新しい政策蒸留損失を提案する。 1) 教師方針により選択された行動の可能性を最大化し,かつ,残りの行動に対するエントロピーを最大化することを目的とした処方料ギャップ最大化損失 2) 入力状態に対する勾配の大きさを最小化する対応するヤコビ正規化損失。 理論解析により, 蒸留損失は, 補充ギャップと対向ロバスト性を高めることが保証された。 さらに,5つのatariゲームにおける実験は,他の最先端手法と比較して,敵対的ロバスト性を高めるという点で,このアプローチの優位性を確証している。

Deep reinforcement learning (DRL) policies have been shown to be deceived by perturbations (e.g., random noise or intensional adversarial attacks) on state observations that appear at test time but are unknown during training. To increase the robustness of DRL policies, previous approaches assume that the knowledge of adversaries can be added into the training process to achieve the corresponding generalization ability on these perturbed observations. However, such an assumption not only makes the robustness improvement more expensive but may also leave a model less effective to other kinds of attacks in the wild. In contrast, we propose an adversary agnostic robust DRL paradigm that does not require learning from adversaries. To this end, we first theoretically derive that robustness could indeed be achieved independently of the adversaries based on a policy distillation setting. Motivated by this finding, we propose a new policy distillation loss with two terms: 1) a prescription gap maximization loss aiming at simultaneously maximizing the likelihood of the action selected by the teacher policy and the entropy over the remaining actions; 2) a corresponding Jacobian regularization loss that minimizes the magnitude of the gradient with respect to the input state. The theoretical analysis shows that our distillation loss guarantees to increase the prescription gap and the adversarial robustness. Furthermore, experiments on five Atari games firmly verify the superiority of our approach in terms of boosting adversarial robustness compared to other state-of-the-art methods.
翻訳日:2022-10-30 16:45:19 公開日:2020-12-24
# Excavating AI」を発掘する - ギャラリーのエレファント

Excavating "Excavating AI": The Elephant in the Gallery ( http://arxiv.org/abs/2009.01215v3 )

ライセンス: Link先を確認
Michael J. Lyons(参考訳) 2つのアート展「Training Humans」と「Making Faces」は、ケイト・クロウフォードとトレバー・パグレンによるエッセイ「Excavating AI: The politics of image in machine learning training sets」に付随し、社会・マスメディアネットワークや学術サークルで起こっている議論に大きな影響を与えている。 しかし、批判的な精査は、顔画像の使用に対するインフォームドコンセンサスに関する自己コントラクタリースタンスと、MLトレーニングセットに対する批判の深刻な欠陥を明らかにしている。 本分析は,芸術的,その他の文脈で人的データを使用する場合のインフォームド・コンセントの非交渉性を明らかにし,MLトレーニングセットの記述に関する問題点を明らかにする。

Two art exhibitions, "Training Humans" and "Making Faces," and the accompanying essay "Excavating AI: The politics of images in machine learning training sets" by Kate Crawford and Trevor Paglen, are making substantial impact on discourse taking place in the social and mass media networks, and some scholarly circles. Critical scrutiny reveals, however, a self-contradictory stance regarding informed consent for the use of facial images, as well as serious flaws in their critique of ML training sets. Our analysis underlines the non-negotiability of informed consent when using human data in artistic and other contexts, and clarifies issues relating to the description of ML training sets.
翻訳日:2022-10-22 18:25:48 公開日:2020-12-24
# 近接センシング:デジタルコンタクトトラッキングのためのノイズRSSI-BLE信号およびその他の移動センサデータのモデリングと理解

Proximity Sensing: Modeling and Understanding Noisy RSSI-BLE Signals and Other Mobile Sensor Data for Digital Contact Tracing ( http://arxiv.org/abs/2009.04991v3 )

ライセンス: Link先を確認
Sheshank Shankar, Rishank Kanaparti, Ayush Chopra, Rohan Sukumaran, Parth Patwa, Myungsun Kang, Abhishek Singh, Kevin P. McPherson, Ramesh Raskar(参考訳) 新型コロナウイルスの感染拡大を抑える主要な健康戦略として、効果的な接触追跡によるソーシャルディスタンシングが出現している。 そこで本研究では,Bluetooth Low Energy(BLE)信号とデバイス上のセンサ(加速度計,磁力計,ジャイロスコープ)のジョイントモデルを用いて,ペアの近接距離を推定する手法を提案する。 本稿では,センサデータストリーム(時系列,ヒストグラムなど)の解釈方法について検討し,複数の統計的および深層学習手法を用いて近接感の表現を学習する。 本稿では、ndcf(正規化決定コスト関数)の指標を報告し、様々な入力信号の異なる影響を分析し、この課題に関連する様々な課題について考察する。

As we await a vaccine, social-distancing via efficient contact tracing has emerged as the primary health strategy to dampen the spread of COVID-19. To enable efficient digital contact tracing, we present a novel system to estimate pair-wise individual proximity, via a joint model of Bluetooth Low Energy (BLE) signals with other on-device sensors (accelerometer, magnetometer, gyroscope). We explore multiple ways of interpreting the sensor data stream (time-series, histogram, etc) and use several statistical and deep learning methods to learn representations for sensing proximity. We report the normalized Decision Cost Function (nDCF) metric and analyze the differential impact of the various input signals, as well as discuss various challenges associated with this task.
翻訳日:2022-10-22 02:30:48 公開日:2020-12-24
# パンデミック下の歴史的疾患予測モデルの構築 : インフルエンザとCOVID-19の事例

Steering a Historical Disease Forecasting Model Under a Pandemic: Case of Flu and COVID-19 ( http://arxiv.org/abs/2009.11407v2 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Nikhil Muralidhar, Bijaya Adhikari, Anika Tabassum, Naren Ramakrishnan, B. Aditya Prakash(参考訳) インフルエンザをタイムリーに予測することは、適切な準備と意思決定において、医療機関や政策立案者を助ける。 しかし、研究の関心が高まりつつも、効果的なインフルエンザ予測は依然として課題である。 インフルエンザに似た病気(ILI)の数が、COVID-19との症状的類似性や、一般人口の医療活動のパターンの変化など、さまざまな要因に影響を受けている。 現在のパンデミックの下では、過去のインフルエンザモデルは病気のダイナミクスに関する貴重な専門知識を持っているが、適応が困難である。 そこで我々は,インフルエンザとCOVID-19が共存する新たなシナリオに,歴史的疾患予測モデルを"ステア"する神経伝達学習アーキテクチャであるCALI-Netを提案する。 当社のフレームワークは,新型コロナウイルス関連信号から学ぶべき時期と,過去のモデルから学ぶべき時期を自動的に学習することで,この適応を可能にする。 このように、歴史的ILIデータから学んだ表現と、新型コロナウイルス関連の限られた信号を利用する。 私たちの実験は、現在のパンデミックに過去の予測モデルを適用することに成功していることを示しています。 また,本研究の主な目標である適応化の成功は,最先端のインフルエンザ予測手法と比較して総合的なパフォーマンスを犠牲にしないことを示した。

Forecasting influenza in a timely manner aids health organizations and policymakers in adequate preparation and decision making. However, effective influenza forecasting still remains a challenge despite increasing research interest. It is even more challenging amidst the COVID pandemic, when the influenza-like illness (ILI) counts are affected by various factors such as symptomatic similarities with COVID-19 and shift in healthcare seeking patterns of the general population. Under the current pandemic, historical influenza models carry valuable expertise about the disease dynamics but face difficulties adapting. Therefore, we propose CALI-Net, a neural transfer learning architecture which allows us to 'steer' a historical disease forecasting model to new scenarios where flu and COVID co-exist. Our framework enables this adaptation by automatically learning when it should emphasize learning from COVID-related signals and when it should learn from the historical model. Thus, we exploit representations learned from historical ILI data as well as the limited COVID-related signals. Our experiments demonstrate that our approach is successful in adapting a historical forecasting model to the current pandemic. In addition, we show that success in our primary goal, adaptation, does not sacrifice overall performance as compared with state-of-the-art influenza forecasting approaches.
翻訳日:2022-10-15 16:55:52 公開日:2020-12-24
# 帰属型入力サンプリングとブロックワイズ特徴集約による畳み込みニューラルネットワークの説明

Explaining Convolutional Neural Networks through Attribution-Based Input Sampling and Block-Wise Feature Aggregation ( http://arxiv.org/abs/2010.00672v2 )

ライセンス: Link先を確認
Sam Sattarzadeh, Mahesh Sudhakar, Anthony Lem, Shervin Mehryar, K. N. Plataniotis, Jongseong Jang, Hyunwoo Kim, Yeonjeong Jeong, Sangmin Lee, Kyunghoon Bae(参考訳) 機械学習の新たな分野として、説明可能なAI(XAI)は、畳み込みニューラルネットワーク(CNN)による決定を解釈する上で、優れたパフォーマンスを提供している。 CNNの視覚的説明を実現するために,クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。 しかし,これらの手法に基づく帰属手法は,その説明力を制限する低解像度かつぼやけた説明地図を提供する。 この問題を回避するために、様々な層に基づく可視化を求める。 本研究では,帰属に基づく入力サンプリング手法に基づいて,モデルの複数の層から可視化マップを収集し,それらを集約して詳細な説明に到達させる。 また,cnnベースのモデル群全体に適用可能な層選択戦略を提案し,モデルの各畳み込みブロックの最後の層を可視化するために抽出フレームワークを適用した。 さらに,抽出した下位レベルの情報の有効性を実証的に分析し,その属性を高める。 自然と産業のデータセットで訓練された浅層モデルと深層モデルについて,実測値と実測値の両方を用いて総合的な実験を行い,説明能力と視覚品質の面で最先端手法を満たして検証し,提案手法が説明対象やインスタンスの大きさに関わらず安定性を示すことを示した。

As an emerging field in Machine Learning, Explainable AI (XAI) has been offering remarkable performance in interpreting the decisions made by Convolutional Neural Networks (CNNs). To achieve visual explanations for CNNs, methods based on class activation mapping and randomized input sampling have gained great popularity. However, the attribution methods based on these techniques provide lower resolution and blurry explanation maps that limit their explanation power. To circumvent this issue, visualization based on various layers is sought. In this work, we collect visualization maps from multiple layers of the model based on an attribution-based input sampling technique and aggregate them to reach a fine-grained and complete explanation. We also propose a layer selection strategy that applies to the whole family of CNN-based models, based on which our extraction framework is applied to visualize the last layers of each convolutional block of the model. Moreover, we perform an empirical analysis of the efficacy of derived lower-level information to enhance the represented attributions. Comprehensive experiments conducted on shallow and deep models trained on natural and industrial datasets, using both ground-truth and model-truth based evaluation metrics validate our proposed algorithm by meeting or outperforming the state-of-the-art methods in terms of explanation ability and visual quality, demonstrating that our method shows stability regardless of the size of objects or instances to be explained.
翻訳日:2022-10-12 08:48:58 公開日:2020-12-24
# ReINFORCEを用いたサンプル効率的な強化学習

Sample Efficient Reinforcement Learning with REINFORCE ( http://arxiv.org/abs/2010.11364v2 )

ライセンス: Link先を確認
Junzi Zhang, Jongho Kim, Brendan O'Donoghue, Stephen Boyd(参考訳) 政策勾配法は大規模強化学習において最も効果的な方法の一つであり、その実証的な成功は、そのグローバル収束理論の基礎を発達させるいくつかの研究のきっかけとなった。 しかしながら、事前の作業では、正確な勾配や、バッチサイズを分散させたミニバッチ確率勾配に基づく状態行動の訪問尺度が必要となり、実用シナリオでの適用性が制限されている。 本稿では,ソフトマックスパラメトリゼーションとログバリアー正則化の下で,単一軌跡の近似勾配や軌道の固定サイズのミニバッチを計算する古典的な政策勾配法と,広く用いられている補強勾配推定手法について考察する。 悪」エピソードの数を制御し、古典的二重化のトリックを頼りにすることで、任意の時間サブリニアな高確率の後悔と、漸近的なサブリニアレートで平均的な後悔のグローバル収束をほぼ確実に確立する。 これらは、よく知られた強化アルゴリズムに対する最初の大域収束とサンプル効率結果を提供し、実際の性能をよりよく理解するのに役立つ。

Policy gradient methods are among the most effective methods for large-scale reinforcement learning, and their empirical success has prompted several works that develop the foundation of their global convergence theory. However, prior works have either required exact gradients or state-action visitation measure based mini-batch stochastic gradients with a diverging batch size, which limit their applicability in practical scenarios. In this paper, we consider classical policy gradient methods that compute an approximate gradient with a single trajectory or a fixed size mini-batch of trajectories under soft-max parametrization and log-barrier regularization, along with the widely-used REINFORCE gradient estimation procedure. By controlling the number of "bad" episodes and resorting to the classical doubling trick, we establish an anytime sub-linear high probability regret bound as well as almost sure global convergence of the average regret with an asymptotically sub-linear rate. These provide the first set of global convergence and sample efficiency results for the well-known REINFORCE algorithm and contribute to a better understanding of its performance in practice.
翻訳日:2022-10-04 07:51:29 公開日:2020-12-24
# 反応の混合によるスパース線形分類器の復元

Recovery of sparse linear classifiers from mixture of responses ( http://arxiv.org/abs/2010.12087v3 )

ライセンス: Link先を確認
Venkata Gandikota, Arya Mazumdar, Soumyabrata Pal(参考訳) 線形分類器の混合を学習する問題において、目的は二項応答の列から超平面の集合を学習することである。 各応答はベクトルによるクエリの結果であり、クエリベクトルが属するコレクションからランダムに選択されたハイパープレーンの側面を示す。 このモデルはカテゴリラベルを持つ異種データの豊富な表現を提供し、いくつかの特別な設定でしか研究されていない。 我々は、すべての超平面を回復する上限、特に超平面が疎い場合のクエリ複雑性という、ひっそりと未熟な問題に目を向ける。 この設定は1ビット圧縮センシングとして知られる極端量子化問題の自然な一般化である。 a set of $\ell$ unknown $k$-sparse vectors とする。 集合を別のベクトル $\boldsymbol{a}$ でクエリし、$\boldsymbol{a}$ の内部積の符号と$\ell$-set からランダムに選択されたベクトルを求めることができる。 すべての$\ell$ 未知ベクトルを識別できるクエリはいくつあるか? この問題は、基本的な1ビット圧縮されたセンシング問題(例えば$\ell=1$ case)と類似の回帰問題(符号の代わりに値が与えられる)よりもはるかに難しい。 この問題に対する厳密なクエリ複雑性の結果(効率的なアルゴリズム)を提供する。

In the problem of learning a mixture of linear classifiers, the aim is to learn a collection of hyperplanes from a sequence of binary responses. Each response is a result of querying with a vector and indicates the side of a randomly chosen hyperplane from the collection the query vector belongs to. This model provides a rich representation of heterogeneous data with categorical labels and has only been studied in some special settings. We look at a hitherto unstudied problem of query complexity upper bound of recovering all the hyperplanes, especially for the case when the hyperplanes are sparse. This setting is a natural generalization of the extreme quantization problem known as 1-bit compressed sensing. Suppose we have a set of $\ell$ unknown $k$-sparse vectors. We can query the set with another vector $\boldsymbol{a}$, to obtain the sign of the inner product of $\boldsymbol{a}$ and a randomly chosen vector from the $\ell$-set. How many queries are sufficient to identify all the $\ell$ unknown vectors? This question is significantly more challenging than both the basic 1-bit compressed sensing problem (i.e., $\ell=1$ case) and the analogous regression problem (where the value instead of the sign is provided). We provide rigorous query complexity results (with efficient algorithms) for this problem.
翻訳日:2022-10-04 06:13:52 公開日:2020-12-24
# 時間的メッセージ制御によるアクセントとロバストなマルチエージェント通信

Succinct and Robust Multi-Agent Communication With Temporal Message Control ( http://arxiv.org/abs/2010.14391v2 )

ライセンス: Link先を確認
Sai Qian Zhang, Jieyu Lin, Qi Zhang(参考訳) 近年の研究では、エージェント間のコミュニケーションの導入により、協調型マルチエージェント強化学習(MARL)における全体的なパフォーマンスが著しく向上することが示されている。 しかし、既存の通信方式では、エージェントが信頼できる通信チャネルの下で実行時に過剰な数のメッセージを交換する必要があることが多く、現実の多くの状況においてその実用性を妨げている。 本稿では,MARLにおける簡潔でロバストな通信を実現するための,シンプルかつ効果的なアプローチである「textit{Temporal Message Control} (TMC)」を提案する。 tmcは、エージェント間で交換される情報量を大幅に削減するために、時間的平滑化技術を適用する。 実験の結果,TMCは精度に影響を与えることなく,エージェント間通信のオーバーヘッドを大幅に低減できることがわかった。 さらに、TMCは、損失の多いネットワーク環境における既存のアプローチよりも、送信損失に対する堅牢性を示す。

Recent studies have shown that introducing communication between agents can significantly improve overall performance in cooperative Multi-agent reinforcement learning (MARL). However, existing communication schemes often require agents to exchange an excessive number of messages at run-time under a reliable communication channel, which hinders its practicality in many real-world situations. In this paper, we present \textit{Temporal Message Control} (TMC), a simple yet effective approach for achieving succinct and robust communication in MARL. TMC applies a temporal smoothing technique to drastically reduce the amount of information exchanged between agents. Experiments show that TMC can significantly reduce inter-agent communication overhead without impacting accuracy. Furthermore, TMC demonstrates much better robustness against transmission loss than existing approaches in lossy networking environments.
翻訳日:2022-10-02 11:39:03 公開日:2020-12-24
# モデルルービックキューブ:tinynetsのツイスト解像度、深さ、幅

Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets ( http://arxiv.org/abs/2010.14819v2 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Qiulin Zhang, Wei Zhang, Chunjing Xu, Tong Zhang(参考訳) 優れたディープニューラルネットワークを実現するために、EfficientNetsでは、一連のテクニックを慎重に設計する。 解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供します。 したがって、3次元をねじって高効率で優れた性能のネットワークを見つけることができる。 本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。 ネットワーク拡大と異なり、小さなネットワークの幅よりも解像度と深さが重要であることが観察される。 したがって、もともとの方法、すなわち、効率の良いネットの複合スケーリングはもはや適切ではない。 この目的のために, FLOPs制約付きEfficientNet-B0から導出される一連のモデルを通じて, ニューラルネットワークを小型化するための小さな公式を要約する。 ImageNetベンチマークの実験結果によると、我々のTinyNetは、逆の巨大式を使ったEfficientNetsの小さなバージョンよりもはるかに優れたパフォーマンスを示している。 例えば、私たちのtinynet-eは、わずか24mのフロップで59.9%のtop-1精度を達成しています。 コードはhttps://github.com/huawei-noah/ghostnet/tree/tinynet_pytorch、https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/tinynetで入手できる。

To obtain excellent deep neural architectures, a series of techniques are carefully designed in EfficientNets. The giant formula for simultaneously enlarging the resolution, depth and width provides us a Rubik's cube for neural networks. So that we can find networks with high efficiency and excellent performance by twisting the three dimensions. This paper aims to explore the twisting rules for obtaining deep neural networks with minimum model sizes and computational costs. Different from the network enlarging, we observe that resolution and depth are more important than width for tiny networks. Therefore, the original method, i.e., the compound scaling in EfficientNet is no longer suitable. To this end, we summarize a tiny formula for downsizing neural architectures through a series of smaller models derived from the EfficientNet-B0 with the FLOPs constraint. Experimental results on the ImageNet benchmark illustrate that our TinyNet performs much better than the smaller version of EfficientNets using the inversed giant formula. For instance, our TinyNet-E achieves a 59.9% Top-1 accuracy with only 24M FLOPs, which is about 1.9% higher than that of the previous best MobileNetV3 with similar computational cost. Code will be available at https://github.com/huawei-noah/ghostnet/tree/master/tinynet_pytorch, and https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/tinynet.
翻訳日:2022-10-02 05:29:55 公開日:2020-12-24
# 統計的学習理論における最適問題依存汎化誤差境界について

Towards Optimal Problem Dependent Generalization Error Bounds in Statistical Learning Theory ( http://arxiv.org/abs/2011.06186v4 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 問題依存率、すなわち「最良の仮説」で評価された分散、有効損失、勾配規範とほぼ最適にスケールする一般化誤差について検討する。 我々は,「一様局所収束」と呼ばれる原則付きフレームワークを導入し,中央統計学習問題に対する鋭い問題依存率を特徴付ける。 方法論的観点から,本フレームワークは既存の一様収束と局所化解析のアプローチの基本的限界を解決している。 また、局所化複雑性、一方の均一不等式、サンプルベースの反復アルゴリズムの研究における改善とある程度の統一も提供する。 いわゆる「低率」体制では、一般的な「リッチ」クラスの最適分散依存率を達成する最初の(減量ペナルド)推定器を提供し、標準経験的リスク最小化のための損失依存率の改善も行う。 高速」な体制では、正確な漸近に匹敵する有限サンプル問題依存境界を確立する。 さらに, 勾配降下や一階期待最大化といった反復アルゴリズムは, 非凸学習, 確率最適化, 欠落データを用いた学習といった分野において, 最適一般化誤差を実現できることを示した。

We study problem-dependent rates, i.e., generalization errors that scale near-optimally with the variance, the effective loss, or the gradient norms evaluated at the "best hypothesis." We introduce a principled framework dubbed "uniform localized convergence," and characterize sharp problem-dependent rates for central statistical learning problems. From a methodological viewpoint, our framework resolves several fundamental limitations of existing uniform convergence and localization analysis approaches. It also provides improvements and some level of unification in the study of localized complexities, one-sided uniform inequalities, and sample-based iterative algorithms. In the so-called "slow rate" regime, we provides the first (moment-penalized) estimator that achieves the optimal variance-dependent rate for general "rich" classes; we also establish improved loss-dependent rate for standard empirical risk minimization. In the "fast rate" regime, we establish finite-sample problem-dependent bounds that are comparable to precise asymptotics. In addition, we show that iterative algorithms like gradient descent and first-order Expectation-Maximization can achieve optimal generalization error in several representative problems across the areas of non-convex learning, stochastic optimization, and learning with missing data.
翻訳日:2022-09-26 06:59:53 公開日:2020-12-24
# データ拡張を用いたカーネル畳み込み深層ニューラルネットワーク

Kernel-convoluted Deep Neural Networks with Data Augmentation ( http://arxiv.org/abs/2012.02521v2 )

ライセンス: Link先を確認
Minjin Kim, Young-geun Kim, Dongha Kim, Yongdai Kim, Myunghee Cho Paik(参考訳) ミックスアップ法(zhang et al.) 線形補間データを利用する2018年は、一般化性能と敵の例に対する堅牢性を改善する効果的なデータ拡張ツールとして登場した。 モチベーションは、暗黙のモデル制約によって望ましくない振動を緩和し、観測されたデータポイント内において線形に振舞い、滑らかさを促進することである。 本研究では,この前提を形式的に検討し,滑らかさの制約を明示的に課し,暗黙のモデル制約を取り入れるように拡張する方法を提案する。 まず,カーネル変換モデル (KCM) を基本関数をカーネル関数で局所的に平均化することにより,スムーズ性制約を直接課す新しい関数クラスを導出する。 次に,KCMにMixup法を組み込んで滑らかさの領域を拡張することを提案する。 KCMとKCMをMixupに適合させた場合、カーネルのいくつかの条件下でそれぞれリスク分析を行う。 過大なリスクの上限は、元の関数クラスのそれよりも遅くないことを示す。 kcmとミックスアップの上限は、ミックスアップの摂動が \(o(n^{-1/2})\) より早く消滅すると、kcmのそれによって支配される(ただし、\(n\) はサンプルサイズである)。 CIFAR-10 と CIFAR-100 のデータセットを用いて,Mixup を用いた KCM がMixup 法より汎用性や頑健性に優れることを示した。

The Mixup method (Zhang et al. 2018), which uses linearly interpolated data, has emerged as an effective data augmentation tool to improve generalization performance and the robustness to adversarial examples. The motivation is to curtail undesirable oscillations by its implicit model constraint to behave linearly at in-between observed data points and promote smoothness. In this work, we formally investigate this premise, propose a way to explicitly impose smoothness constraints, and extend it to incorporate with implicit model constraints. First, we derive a new function class composed of kernel-convoluted models (KCM) where the smoothness constraint is directly imposed by locally averaging the original functions with a kernel function. Second, we propose to incorporate the Mixup method into KCM to expand the domains of smoothness. In both cases of KCM and the KCM adapted with the Mixup, we provide risk analysis, respectively, under some conditions for kernels. We show that the upper bound of the excess risk is not slower than that of the original function class. The upper bound of the KCM with the Mixup remains dominated by that of the KCM if the perturbation of the Mixup vanishes faster than \(O(n^{-1/2})\) where \(n\) is a sample size. Using CIFAR-10 and CIFAR-100 datasets, our experiments demonstrate that the KCM with the Mixup outperforms the Mixup method in terms of generalization and robustness to adversarial examples.
翻訳日:2021-05-22 20:37:43 公開日:2020-12-24
# Connectivity Queries を用いたネットワーク状態のマッピング

Mapping Network States Using Connectivity Queries ( http://arxiv.org/abs/2012.03413v3 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Bijaya Adhikari, Andr\'es D. Gonz\'alez, Charles Nicholson, Anil Vullikanti, B. Aditya Prakash(参考訳) 供給ノードから到達可能なノードのサンプルがあれば、インフラストラクチャネットワークのすべての障害コンポーネントを推測できますか? 自然災害後の破壊後の最も重要なプロセスの1つは、重要なインフラストラクチャーコンポーネントの損傷や故障状態を素早く決定することである。 しかしこれは、破壊的なイベントの後、アクセス可能なコンポーネントや観測可能なコンポーネントはごく一部しかないことを考えると、簡単ではない。 過去の研究は、与えられた点プローブ、すなわち、故障したコンポーネントの推測に取り組んできた。 失敗したコンポーネントの 直接のサンプルで それとは対照的に、いくつかの'サービス可能な'到達可能なノードと小さな点プローブのサンプルの部分的な情報が与えられた場合、故障したコンポーネントを推測する難しい問題を研究し、しばしばより実用的になる。 この問題を最小記述長(mdl)原理を用いて定式化し、mdlコストを効果的に最小化する欲望アルゴリズムを提案する。 本アルゴリズムは,地震後の実ネットワークのドメインエキスパートシミュレーションにより評価する。 提案アルゴリズムは,故障したコンポーネント,特にシステム全体の性能に影響を及ぼす重要なコンポーネントの同定に成功した。

Can we infer all the failed components of an infrastructure network, given a sample of reachable nodes from supply nodes? One of the most critical post-disruption processes after a natural disaster is to quickly determine the damage or failure states of critical infrastructure components. However, this is non-trivial, considering that often only a fraction of components may be accessible or observable after a disruptive event. Past work has looked into inferring failed components given point probes, i.e. with a direct sample of failed components. In contrast, we study the harder problem of inferring failed components given partial information of some `serviceable' reachable nodes and a small sample of point probes, being the first often more practical to obtain. We formulate this novel problem using the Minimum Description Length (MDL) principle, and then present a greedy algorithm that minimizes MDL cost effectively. We evaluate our algorithm on domain-expert simulations of real networks in the aftermath of an earthquake. Our algorithm successfully identify failed components, especially the critical ones affecting the overall system performance.
翻訳日:2021-05-16 21:50:21 公開日:2020-12-24
# 乳癌における病理組織学的機能を有する核多形スペクトルの自動スコアリング

Automated Scoring of Nuclear Pleomorphism Spectrum with Pathologist-level Performance in Breast Cancer ( http://arxiv.org/abs/2012.04974v2 )

ライセンス: Link先を確認
Caner Mercan, Maschenka Balkenhol, Roberto Salgado, Mark Sherman, Philippe Vielh, Willem Vreuls, Antonio Polonia, Hugo M. Horlings, Wilko Weichert, Jodi M. Carter, Peter Bult, Matthias Christgen, Carsten Denkert, Koen van de Vijver, Jeroen van der Laak, Francesco Ciompi(参考訳) 腫瘍核の全体的な出現における異常の程度として定義されている核多型は、3段階の乳がんグレーディングの構成要素の1つである。 核多型が連続的な変化のスペクトルを反映していることを考えると,従来の3カテゴリ分類に制約を加えることなく,複数の病理医の集団的知識から,様々な腫瘍領域の深部ニューラルネットワークを訓練した。 また,病理医が腫瘍の核多型を判定し,正常な乳腺上皮を比較対象とする定期的な臨床経験から,正常な上皮のメリットをベースラインとして議論する新たなアプローチも提案する。 複数の実験において, 完全自動アプローチは, 興味のある地域やスライド画像全体において, それぞれ10例と4例と比較して, 最上位の病理医レベルのパフォーマンスを達成することができた。

Nuclear pleomorphism, defined herein as the extent of abnormalities in the overall appearance of tumor nuclei, is one of the components of the three-tiered breast cancer grading. Given that nuclear pleomorphism reflects a continuous spectrum of variation, we trained a deep neural network on a large variety of tumor regions from the collective knowledge of several pathologists, without constraining the network to the traditional three-category classification. We also motivate an additional approach in which we discuss the additional benefit of normal epithelium as baseline, following the routine clinical practice where pathologists are trained to score nuclear pleomorphism in tumor, having the normal breast epithelium for comparison. In multiple experiments, our fully-automated approach could achieve top pathologist-level performance in select regions of interest as well as at whole slide images, compared to ten and four pathologists, respectively.
翻訳日:2021-05-16 01:54:25 公開日:2020-12-24
# あらゆる因果発見のための反復的なステップ

A Single Iterative Step for Anytime Causal Discovery ( http://arxiv.org/abs/2012.07513v2 )

ライセンス: Link先を確認
Raanan Y. Rohekar, Yaniv Gurwicz, Shami Nisimov, Gal Novik(参考訳) そこで本研究では,非干渉データからの因果グラフを潜在共同設立者と選択バイアスが存在する可能性から回収する,健全かつ完全なアルゴリズムを提案する。 我々は因果マルコフと忠実性の仮定に頼り、観測変数間の一連の条件独立(CI)テストを実行することにより、基礎となる因果グラフの同値クラスを復元する。 結果グラフに含まれる独立性と因果関係は,任意の反復の後に正し,反復によってより有益になるように,反復的に適用される1つのステップを提案する。 本質的には、ci条件セットのサイズを、結果グラフ上のテストされたノードからの距離に結びつける。 各イテレーションは、前回のイテレーションよりも大きい条件セットを持つCIテストを実行することで、スケルトンと向きを洗練します。 繰り返し、CIテストの条件セットは特定の探索距離内にあるノードから構築され、これらの条件セットのサイズはこの探索距離と等しい。 このアルゴリズムは、条件セットのサイズとともに探索距離を反復的に増加させる。 したがって、各イテレーションは、より小さな条件セットを持つ以前のイテレーションによって復元されたグラフを洗練します。 提案アルゴリズムでは,FCIアルゴリズムと比較して,CIテストと条件セットの大幅な削減が要求される。 これは、完全なCIオラクルを使用して真の基盤グラフを復元し、限られた観測データを用いてグラフを正確に推定することの両方で明らかである。

We present a sound and complete algorithm for recovering causal graphs from observed, non-interventional data, in the possible presence of latent confounders and selection bias. We rely on the causal Markov and faithfulness assumptions and recover the equivalence class of the underlying causal graph by performing a series of conditional independence (CI) tests between observed variables. We propose a single step that is applied iteratively, such that the independence and causal relations entailed from the resulting graph, after any iteration, is correct and becomes more informative with successive iteration. Essentially, we tie the size of the CI condition set to its distance from the tested nodes on the resulting graph. Each iteration refines the skeleton and orientation by performing CI tests having condition sets that are larger than in the preceding iteration. In an iteration, condition sets of CI tests are constructed from nodes that are within a specified search distance, and the sizes of these condition sets is equal to this search distance. The algorithm then iteratively increases the search distance along with the condition set sizes. Thus, each iteration refines a graph, that was recovered by previous iterations having smaller condition sets -- having a higher statistical power. We demonstrate that our algorithm requires significantly fewer CI tests and smaller condition sets compared to the FCI algorithm. This is evident for both recovering the true underlying graph using a perfect CI oracle, and accurately estimating the graph using limited observed data.
翻訳日:2021-05-08 14:45:04 公開日:2020-12-24
# 人工知能と神経科学へのDeutschの優れた説明を応用する -- 最初の調査

Applying Deutsch's concept of good explanations to artificial intelligence and neuroscience -- an initial exploration ( http://arxiv.org/abs/2012.09318v2 )

ライセンス: Link先を確認
Daniel C. Elton(参考訳) 人工知能はディープラーニング革命以来、大きな進歩を遂げてきたが、AIシステムはトレーニングデータの外部への露出と新しい状況への適応に苦戦している。 科学者は、これまで観測されたことのない現象の存在を外挿し、時には予測する驚くべき能力を示す理論を開発できた。 デビッド・ドイッチュ(David Deutsch)によれば、この種の外挿は「リーチ」と呼ばれ、科学的理論が変化しにくいためである。 本研究では,Deutschの難易度原理と,バイアス分散トレードオフやOccam's razorといった深層学習におけるより形式化された原則との関連について検討する。 我々は、モデル/理論が内部的にどの程度変化しても、同じ予測を得られるか、外部変数と区別し、新しい非分布データを正確に予測するために、モデルがどの程度変化する必要があるかを示す。 本稿では,ラショモン集合の大きさを用いた内部変動量の測定方法とコルモゴロフ複雑性を用いた外部変動量の測定方法について述べる。 人間の脳を見て、脳内の2つの学習システムを区別することで、知性において困難な説明が果たす役割を探求する。 第1のシステムはディープラーニングと似ていて、知覚と運動制御のほとんどを基盤としており、第2のシステムはより創造的なシステムであり、世界の難しい説明を生成できる。 我々は、この第2のシステムがいかに多変量説明を生成することができるかを理解することは、人工知能を実現するために解決すべき重要な課題であると主張している。 帰納を拒絶するポペル認識論の枠組みに接触し、知識の生成は予想と反論を通じて進行する進化過程であると主張する。

Artificial intelligence has made great strides since the deep learning revolution, but AI systems still struggle to extrapolate outside of their training data and adapt to new situations. For inspiration we look to the domain of science, where scientists have been able to develop theories which show remarkable ability to extrapolate and sometimes predict the existence of phenomena which have never been observed before. According to David Deutsch, this type of extrapolation, which he calls "reach", is due to scientific theories being hard to vary. In this work we investigate Deutsch's hard-to-vary principle and how it relates to more formalized principles in deep learning such as the bias-variance trade-off and Occam's razor. We distinguish internal variability, how much a model/theory can be varied internally while still yielding the same predictions, with external variability, which is how much a model must be varied to accurately predict new, out-of-distribution data. We discuss how to measure internal variability using the size of the Rashomon set and how to measure external variability using Kolmogorov complexity. We explore what role hard-to-vary explanations play in intelligence by looking at the human brain and distinguish two learning systems in the brain. The first system operates similar to deep learning and likely underlies most of perception and motor control while the second is a more creative system capable of generating hard-to-vary explanations of the world. We argue that figuring out how replicate this second system, which is capable of generating hard-to-vary explanations, is a key challenge which needs to be solved in order to realize artificial general intelligence. We make contact with the framework of Popperian epistemology which rejects induction and asserts that knowledge generation is an evolutionary process which proceeds through conjecture and refutation.
翻訳日:2021-05-03 03:04:38 公開日:2020-12-24
# (参考訳) MOBAゲームにおけるイベント予測:データセット、属性、評価

Predicting Events in MOBA Games: Dataset, Attribution, and Evaluation ( http://arxiv.org/abs/2012.09424v3 )

ライセンス: CC BY 4.0
Zelong Yang, Yan Wang, Piji Li, Shaobin Lin, Shuming Shi, Shao-Lun Huang(参考訳) マルチプレイヤーオンラインバトルアリーナ(moba)ゲームは近年ますます人気が高まっている。 その結果、ゲーム前またはゲーム内予測の提供に多くの努力が注がれている。 しかし,これらの研究は,1)ゲーム内特徴の不足,2)予測結果における解釈可能性の欠如,の2つの側面で制限されている。 この2つの制限は、現在の作品の実用的性能と工業的応用を著しく制限した。 本研究では,MOBAゲーム『Honor of Kings』のゲーム内機能を含む大規模データセットを収集,リリースする。 次に,2つのグラデーションに基づく帰属法を用いて,入力特徴に予測を帰属させることにより,解釈可能な方法で4種類の重要な事象を予測することを提案する。 異なるモデルの説明力と帰属方法を評価するために, 忠実度に基づく評価指標を提案する。 最後に,mobaゲームにおけるイベントの予測精度を評価するため,収集したデータセットにおける複数の競合手法の精度と信頼性を評価した。

The multiplayer online battle arena (MOBA) games have become increasingly popular in recent years. Consequently, many efforts have been devoted to providing pre-game or in-game predictions for them. However, these works are limited in the following two aspects: 1) the lack of sufficient in-game features; 2) the absence of interpretability in the prediction results. These two limitations greatly restrict the practical performance and industrial application of the current works. In this work, we collect and release a large-scale dataset containing rich in-game features for the popular MOBA game Honor of Kings. We then propose to predict four types of important events in an interpretable way by attributing the predictions to the input features using two gradient-based attribution methods: Integrated Gradients and SmoothGrad. To evaluate the explanatory power of different models and attribution methods, a fidelity-based evaluation metric is further proposed. Finally, we evaluate the accuracy and Fidelity of several competitive methods on the collected dataset to assess how well machines predict events in MOBA games.
翻訳日:2021-05-02 20:42:04 公開日:2020-12-24
# パーキンソン病度評価のためのエンドツーエンドネットワークにおける動作境界探索

Exploring Motion Boundaries in an End-to-End Network for Vision-based Parkinson's Severity Assessment ( http://arxiv.org/abs/2012.09890v2 )

ライセンス: Link先を確認
Amirhossein Dadashzadeh, Alan Whone, Michal Rolinski, Majid Mirmehdi(参考訳) パーキンソン病(PD)のような神経疾患を評価することは、運動機能や非運動機能の評価を必要とする課題である。 本稿では、UPDRS(Unified Parkinson's Disease Rating Scale)において、手の動きと歩行の2つの重要な要素におけるPD重症度を測定するためのエンドツーエンドディープラーニングフレームワークを提案する。 本手法は,テンポラルセグメンテーションフレームワークで訓練された膨らんだ3次元cnnを用いて,映像データの時間構造と時間構造を学習する。 また、モデルの性能を高めるための時間的注意機構も展開します。 さらに、モーション境界は、より優れた動き評価のためにカメラの動きの影響を隠蔽する追加の入力モダリティとして検討される。 提案するネットワークの精度に異なるデータモダリティが与える影響を補正し、他の一般的なアーキテクチャと比較する。 提案手法は,25名のpd患者を対象に72.3%,77.1%のtop-1精度を得た。

Evaluating neurological disorders such as Parkinson's disease (PD) is a challenging task that requires the assessment of several motor and non-motor functions. In this paper, we present an end-to-end deep learning framework to measure PD severity in two important components, hand movement and gait, of the Unified Parkinson's Disease Rating Scale (UPDRS). Our method leverages on an Inflated 3D CNN trained by a temporal segment framework to learn spatial and long temporal structure in video data. We also deploy a temporal attention mechanism to boost the performance of our model. Further, motion boundaries are explored as an extra input modality to assist in obfuscating the effects of camera motion for better movement assessment. We ablate the effects of different data modalities on the accuracy of the proposed network and compare with other popular architectures. We evaluate our proposed method on a dataset of 25 PD patients, obtaining 72.3% and 77.1% top-1 accuracy on hand movement and gait tasks respectively.
翻訳日:2021-05-02 07:22:09 公開日:2020-12-24
# 突発的物体検出のための集中型情報インタラクション

Centralized Information Interaction for Salient Object Detection ( http://arxiv.org/abs/2012.11294v2 )

ライセンス: Link先を確認
Jiang-Jiang Liu, Zhi-Ang Liu, Ming-Ming Cheng(参考訳) U字形構造は、多スケール特徴を効率よく組み合わせるための有能な物体検出の利点を示している。 しかし、既存のu-shapeベースの手法の多くはボトムアップとトップダウンの経路の改善に重点を置いており、両者の接続を無視している。 本稿は,これらの接続を集中化することにより,相互に情報交換を行うことができ,セマンティックに強く,位置的により正確な特徴を得ることができることを示す。 提案手法の可能性を刺激するために,空間的補間を伴わずにマルチスケール入力を同時に処理できる相対的グローバルキャリブレーションモジュールを更に設計する。 上記の戦略とモジュールの利点を生かして、提案手法は、いくつかの追加パラメータを導入しながら、より効率的に機能を集約することができる。 本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。 実験の結果,提案手法は,計算複雑性の低い5つのベンチマークにおいて,従来の最先端のベンチマークに対して良好に動作することが示された。 ソースコードは公開される予定だ。

The U-shape structure has shown its advantage in salient object detection for efficiently combining multi-scale features. However, most existing U-shape based methods focused on improving the bottom-up and top-down pathways while ignoring the connections between them. This paper shows that by centralizing these connections, we can achieve the cross-scale information interaction among them, hence obtaining semantically stronger and positionally more precise features. To inspire the potential of the newly proposed strategy, we further design a relative global calibration module that can simultaneously process multi-scale inputs without spatial interpolation. Benefiting from the above strategy and module, our proposed approach can aggregate features more effectively while introducing only a few additional parameters. Our approach can cooperate with various existing U-shape-based salient object detection methods by substituting the connections between the bottom-up and top-down pathways. Experimental results demonstrate that our proposed approach performs favorably against the previous state-of-the-arts on five widely used benchmarks with less computational complexity. The source code will be publicly available.
翻訳日:2021-04-27 06:32:35 公開日:2020-12-24
# (参考訳) 変圧器時代におけるバイオメディカルワード埋め込みの改善

Improved Biomedical Word Embeddings in the Transformer Era ( http://arxiv.org/abs/2012.11808v2 )

ライセンス: CC BY 4.0
Jiho Noh, Ramakanth Kavuluru(参考訳) バイオメディカルワードの埋め込みは通常、局所的およびグローバルな分布特性を捉える神経的手法で、自由テキストコーパスで事前訓練される。 それらは、これらの埋め込みをさらにチューニングするタスク固有の目的を最適化するために設計された、さまざまなニューラルアーキテクチャを使用して、下流タスクで活用される。 しかし、2018年以降、静的な埋め込みから言語モデル(例えばELMo、BERTやUMMFiTのようなトランスフォーマー)に動機づけられたコンテキスト埋め込みへの顕著なシフトがある。 これらの動的埋め込みは、文脈によって同義語や頭字語を区別できるという付加的な利点を持つ。 しかし、静的な埋め込みは依然として低リソース設定(スマートデバイス、IoT要素など)と、計算言語学の観点から語彙意味論の研究に関係している。 本稿では,まずスキップグラム法を用いて単語と概念の埋め込みを共同で学習し,さらにバイオメディカル引用における医用ヘッド(MeSH)の概念に現れる相関情報を微調整する。 この微調整は、メッシュペアの共起をキャプチャする分類目標を持つ2素入力モードのbertトランスフォーマーアーキテクチャによって達成される。 本質的には,動的埋め込みを生成するために使用されるトランスアーキテクチャを再利用して,概念相関を用いた静的埋め込みを改善する。 先行研究により開発された単語関連性について,複数のデータセットを用いた調律された静的組込みの評価を行う。 概念と用語を選択的にカリングすることなく(以前の取り組みによって追求されたように)、静的な埋め込みをこれまでで最も徹底的に評価し、ボード全体のパフォーマンス改善を図っていると信じています。 私たちは、ダウンストリームアプリケーションとリサーチの取り組みのために、コードと埋め込みを提供しています。

Biomedical word embeddings are usually pre-trained on free text corpora with neural methods that capture local and global distributional properties. They are leveraged in downstream tasks using various neural architectures that are designed to optimize task-specific objectives that might further tune such embeddings. Since 2018, however, there is a marked shift from these static embeddings to contextual embeddings motivated by language models (e.g., ELMo, transformers such as BERT, and ULMFiT). These dynamic embeddings have the added benefit of being able to distinguish homonyms and acronyms given their context. However, static embeddings are still relevant in low resource settings (e.g., smart devices, IoT elements) and to study lexical semantics from a computational linguistics perspective. In this paper, we jointly learn word and concept embeddings by first using the skip-gram method and further fine-tuning them with correlational information manifesting in co-occurring Medical Subject Heading (MeSH) concepts in biomedical citations. This fine-tuning is accomplished with the BERT transformer architecture in the two-sentence input mode with a classification objective that captures MeSH pair co-occurrence. In essence, we repurpose a transformer architecture (typically used to generate dynamic embeddings) to improve static embeddings using concept correlations. We conduct evaluations of these tuned static embeddings using multiple datasets for word relatedness developed by previous efforts. Without selectively culling concepts and terms (as was pursued by previous efforts), we believe we offer the most exhaustive evaluation of static embeddings to date with clear performance improvements across the board. We provide our code and embeddings for public use for downstream applications and research endeavors: https://github.com/bionlproc/BERT-CRel-Embeddings
翻訳日:2021-04-27 02:03:03 公開日:2020-12-24
# (参考訳) 分子ct:異なるスケールの分子の幾何学と表現学習の統合

Molecular CT: Unifying Geometry and Representation Learning for Molecules at Different Scales ( http://arxiv.org/abs/2012.11816v2 )

ライセンス: CC BY 4.0
Jun Zhang, Yaqiang Zhou, Yao-Kun Lei, Yi Isaac Yang and Yi Qin Gao(参考訳) 深層学習は分子物理学の多くの領域を変えており、分子モデリング問題に挑戦する新しい解決策を提供する大きな可能性を示している。 この傾向とともに、分子システムと互換性のある表現的かつ汎用的なニューラルネットワークアーキテクチャの需要が高まっている。 この目的のために、新しいディープニューラルネットワークアーキテクチャである分子構成変換器(Molecular CT)が導入された。 分子CTは、関係対応エンコーダモジュールと計算学的に普遍的な幾何学学習ユニットから構成されており、異なる粒子数と不変 w.r.t に対して、粒子間の関係制約を考慮できる。 トランスローテーション変換。 計算効率と普遍性は、分子CTを様々な分子学習シナリオに多用し、特に異なる分子系をまたいだ伝達可能な表現学習に有益である。 例えば、分子ctは異なるスケールで分子システムの表現学習を可能にし、基準モデルと比較してより軽量な構造を用いて、共通のベンチマークで同等または改善された結果が得られることを示す。

Deep learning is changing many areas in molecular physics, and it has shown great potential to deliver new solutions to challenging molecular modeling problems. Along with this trend arises the increasing demand of expressive and versatile neural network architectures which are compatible with molecular systems. A new deep neural network architecture, Molecular Configuration Transformer (Molecular CT), is introduced for this purpose. Molecular CT is composed of a relation-aware encoder module and a computationally universal geometry learning unit, thus able to account for the relational constraints between particles meanwhile scalable to different particle numbers and invariant w.r.t. the trans-rotational transforms. The computational efficiency and universality make Molecular CT versatile for a variety of molecular learning scenarios and especially appealing for transferable representation learning across different molecular systems. As examples, we show that Molecular CT enables representational learning for molecular systems at different scales, and achieves comparable or improved results on common benchmarks using a more light-weighted structure compared to baseline models.
翻訳日:2021-04-27 01:39:18 公開日:2020-12-24
# (参考訳) 会話における感情の認識

Recognizing Emotion Cause in Conversations ( http://arxiv.org/abs/2012.11820v2 )

ライセンス: CC BY-SA 4.0
Soujanya Poria, Navonil Majumder, Devamanyu Hazarika, Deepanway Ghosal, Rishabh Bhardwaj, Samson Yu Bai Jian, Romila Ghosh, Niyati Chhaya, Alexander Gelbukh, Rada Mihalcea(参考訳) テキストにおける感情の原因を認識することは、NLPにおける基本的な研究領域である。 この領域の進歩は、影響に基づくモデルの解釈可能性と性能を向上させる可能性を秘めている。 会話における発話レベルでの感情の特定は、対話者間の相互作用のダイナミックさのために特に困難である。 そこで本研究では,会話中の感情をrecconというデータセットで認識するタスクを提案する。 さらに,原因の出所に基づいて異なる原因タイプを定義し,強いトランスフォーマベースのベースラインを構築し,因果スパン抽出と因果感情の2つのサブタスクに対応する。 データセットはhttps://github.com/declare-lab/recconで入手できる。

Recognizing the cause behind emotions in text is a fundamental yet under-explored area of research in NLP. Advances in this area hold the potential to improve interpretability and performance in affect-based models. Identifying emotion causes at the utterance level in conversations is particularly challenging due to the intermingling dynamic among the interlocutors. To this end, we introduce the task of recognizing emotion cause in conversations with an accompanying dataset named RECCON. Furthermore, we define different cause types based on the source of the causes and establish strong transformer-based baselines to address two different sub-tasks of RECCON: 1) Causal Span Extraction and 2) Causal Emotion Entailment. The dataset is available at https://github.com/declare-lab/RECCON.
翻訳日:2021-04-27 01:15:33 公開日:2020-12-24
# Unbiased Subdata Selection for Fair Classification: a Unified Framework and Scalable Algorithms

Unbiased Subdata Selection for Fair Classification: A Unified Framework and Scalable Algorithms ( http://arxiv.org/abs/2012.12356v2 )

ライセンス: Link先を確認
Qing Ye and Weijun Xie(参考訳) 現代のデータ分析における重要な問題として、分類は異なるドメインの様々なアプリケーションを見てきた。 従来の分類アプローチとは異なり、公正な分類は、敏感な特徴(例えば性別、人種)に対する意図しない偏見の問題に関係している。 公平度尺度の非凸性が高いため、既存の手法では正確な公平度をモデル化できない場合が多く、公平度分類の結果が劣ることがある。 本稿では,精度と公平性を共同で最適化する新しい統一フレームワークの開発により,そのギャップを埋める。 提案手法は多種多様であり,文献に精通した様々な公正度尺度を組み込むことが可能であり,深い分類モデルを含む多くの分類器にも適用可能である。 具体的には、提案したフレームワークのフィッシャー整合性を最初に証明する。 次に,本フレームワーク内の多くの分類モデルが混合整数凸プログラムとして再キャスト可能であり,インスタンスサイズが中程度であればオフ・ザ・シェルソルバによって効果的に解くことができ,近似アルゴリズムの効率を比較するベンチマークとして使用できることを示す。 提案手法では, 分類結果が分かっている場合, 「偏りのない部分データ選択」 と呼ばれる結果問題は非常に多項式解決可能であり, より代表的データポイントの選択による分類公平性の向上に利用できることを示す。 これにより、大規模インスタンスを解決するために反復精錬戦略(IRS)を開発する動機となり、分類精度を改善し、非バイアスのサブデータ選択を交互に行う。 我々は、IRSの収束特性を研究し、近似境界を導出する。 より広範に、このフレームワークはF1スコアを考慮して不均衡なデータによる分類モデルを改善するために利用することができる。

As an important problem in modern data analytics, classification has witnessed varieties of applications from different domains. Different from conventional classification approaches, fair classification concerns the issues of unintentional biases against the sensitive features (e.g., gender, race). Due to high nonconvexity of fairness measures, existing methods are often unable to model exact fairness, which can cause inferior fair classification outcomes. This paper fills the gap by developing a novel unified framework to jointly optimize accuracy and fairness. The proposed framework is versatile and can incorporate different fairness measures studied in literature precisely as well as can be applicable to many classifiers including deep classification models. Specifically, in this paper, we first prove Fisher consistency of the proposed framework. We then show that many classification models within this framework can be recast as mixed-integer convex programs, which can be solved effectively by off-the-shelf solvers when the instance sizes are moderate and can be used as benchmarks to compare the efficiency of approximation algorithms. We prove that in the proposed framework, when the classification outcomes are known, the resulting problem, termed "unbiased subdata selection," is strongly polynomial-solvable and can be used to enhance the classification fairness by selecting more representative data points. This motivates us to develop an iterative refining strategy (IRS) to solve the large-scale instances, where we improve the classification accuracy and conduct the unbiased subdata selection in an alternating fashion. We study the convergence property of IRS and derive its approximation bound. More broadly, this framework can be leveraged to improve classification models with unbalanced data by taking F1 score into consideration.
翻訳日:2021-04-26 07:41:16 公開日:2020-12-24
# (参考訳) 視覚関係検出における偽陽性の克服に向けて

Towards Overcoming False Positives in Visual Relationship Detection ( http://arxiv.org/abs/2012.12510v2 )

ライセンス: CC BY 4.0
Daisheng Jin, Xiao Ma, Chongzhi Zhang, Yizhuo Zhou, Jiashu Tao, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, Zhoujun Li, Xianglong Liu, Hongsheng Li(参考訳) 本稿では,視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。 否定的な関係提案の多くは、例えば、不正確なオブジェクト検出によって、低周波の難しい提案が不適合になるような、識別が容易である。 本稿では,偽陽性の影響を緩和するロバストなvrdフレームワークであるsabra(spatially-aware balanced negative proposal sampling)を提案する。 不均衡分布下でモデルを効果的に最適化するために、サブラはミニバッチサンプリングに balanced negative proposal sampling (bnps) 戦略を採用する。 BNPSは提案を5つの明確に定義されたサブクラスに分割し、逆周波数に応じてバランスの取れたトレーニング分布を生成する。 BNPSはより簡単な最適化環境を提供し、偽陽性の数を著しく削減する。 さらに,空間的曖昧度の高い低周波挑戦的偽陽性提案をさらに解決するために,オブジェクトの空間的相互作用をモデル化する単純で効率的な多頭異種グラフアテンションネットワーク(mh-gat)と,局所空間構成を学ぶ空間マスクデコーダの2つの側面において,sabraの空間モデリング能力を向上させる。 SABRAは2つの人間と物体の相互作用(HOI)データセットと1つの一般的なVRDデータセットに対して、SOTA手法を大きなマージンで上回る。

In this paper, we investigate the cause of the high false positive rate in Visual Relationship Detection (VRD). We observe that during training, the relationship proposal distribution is highly imbalanced: most of the negative relationship proposals are easy to identify, e.g., the inaccurate object detection, which leads to the under-fitting of low-frequency difficult proposals. This paper presents Spatially-Aware Balanced negative pRoposal sAmpling (SABRA), a robust VRD framework that alleviates the influence of false positives. To effectively optimize the model under imbalanced distribution, SABRA adopts Balanced Negative Proposal Sampling (BNPS) strategy for mini-batch sampling. BNPS divides proposals into 5 well defined sub-classes and generates a balanced training distribution according to the inverse frequency. BNPS gives an easier optimization landscape and significantly reduces the number of false positives. To further resolve the low-frequency challenging false positive proposals with high spatial ambiguity, we improve the spatial modeling ability of SABRA on two aspects: a simple and efficient multi-head heterogeneous graph attention network (MH-GAT) that models the global spatial interactions of objects, and a spatial mask decoder that learns the local spatial configuration. SABRA outperforms SOTA methods by a large margin on two human-object interaction (HOI) datasets and one general VRD dataset.
翻訳日:2021-04-26 04:15:14 公開日:2020-12-24
# (参考訳) 単言語学習データを用いたコードスイッチング言語モデル

Code Switching Language Model Using Monolingual Training Data ( http://arxiv.org/abs/2012.12543v2 )

ライセンス: CC BY 4.0
Asad Ullah, Tauseef Ahmed(参考訳) 単言語データのみを使用したコードスイッチング(cs)言語モデルのトレーニングはまだ研究中である。 本稿では,単言語学習データのみを用いてCS言語モデルを訓練する。 リカレントニューラルネットワーク(RNN)モデルは、シーケンシャルデータの予測に最も適している。 本研究では,単言語英語とスペイン語データのみからの代替バッチを用いて,rnn言語モデルを訓練し,言語モデルのパープレキシティを算出する。 その結果, CS言語モデルの難易度は, 学習におけるモノリンガルデータのバッチの交互利用により低下した。 RNN言語モデルの出力埋め込みにおいて平均二乗誤差(MSE)を用いて連続的に改善した。 両方の方法を組み合わせて、パープレキシティを299.63から80.38に減らす。 提案手法は言語モデルとコードスイッチトレーニングデータとの微調整に匹敵するものであった。

Training a code-switching (CS) language model using only monolingual data is still an ongoing research problem. In this paper, a CS language model is trained using only monolingual training data. As recurrent neural network (RNN) models are best suited for predicting sequential data. In this work, an RNN language model is trained using alternate batches from only monolingual English and Spanish data and the perplexity of the language model is computed. From the results, it is concluded that using alternate batches of monolingual data in training reduced the perplexity of a CS language model. The results were consistently improved using mean square error (MSE) in the output embeddings of RNN based language model. By combining both methods, perplexity is reduced from 299.63 to 80.38. The proposed methods were comparable to the language model fine tune with code-switch training data.
翻訳日:2021-04-26 02:35:55 公開日:2020-12-24
# ヘイトフルミーム検出のためのマルチモーダルフレームワーク

A Multimodal Framework for the Detection of Hateful Memes ( http://arxiv.org/abs/2012.12871v2 )

ライセンス: Link先を確認
Phillip Lippe, Nithin Holla, Shantanu Chandra, Santhosh Rajamanickam, Georgios Antoniou, Ekaterina Shutova, Helen Yannakoudakis(参考訳) オンラインヘイトスピーチの一般的な表現は、本質的にマルチモーダルであり、ミームの形で現れる。 ヘイトフルコンテンツを自動的に検出するシステムの設計は、社会全体に望ましくない影響を和らげる上で、最重要課題である。 ミームは、画像とテキストの両方を使ってメッセージを伝達し、それゆえ、マルチモーダル推論と共同視覚と言語理解を必要とする。 本研究では,この一連の研究を進め,憎悪のあるミームの検出のためのマルチモーダルフレームワークの開発を目指す。 我々は,単純な微調整以上の既存マルチモーダルアプローチの性能を向上させるとともに,マルチモーダルとアンサンブル学習を奨励し,ロバスト性を向上させるために比較例のアップサンプリングの有効性を示す。 さらに,モデルの誤分類を分析し,様々な仮説に基づく拡張とその性能への影響を考察し,この分野における今後の研究に重要な意味を示している。 我々の最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、AUROCスコア80.53を達成し、Facebookが主催する2020 Hateful Memes Challengeの第2フェーズに私たちを配置する。

An increasingly common expression of online hate speech is multimodal in nature and comes in the form of memes. Designing systems to automatically detect hateful content is of paramount importance if we are to mitigate its undesirable effects on the society at large. The detection of multimodal hate speech is an intrinsically difficult and open problem: memes convey a message using both images and text and, hence, require multimodal reasoning and joint visual and language understanding. In this work, we seek to advance this line of research and develop a multimodal framework for the detection of hateful memes. We improve the performance of existing multimodal approaches beyond simple fine-tuning and, among others, show the effectiveness of upsampling of contrastive examples to encourage multimodality and ensemble learning based on cross-validation to improve robustness. We furthermore analyze model misclassifications and discuss a number of hypothesis-driven augmentations and their effects on performance, presenting important implications for future research in the field. Our best approach comprises an ensemble of UNITER-based models and achieves an AUROC score of 80.53, placing us 4th on phase 2 of the 2020 Hateful Memes Challenge organized by Facebook.
翻訳日:2021-04-25 18:23:25 公開日:2020-12-24
# RAP-Net:単一解剖学的前駆体を用いた多臓器分離

RAP-Net: Coarse-to-Fine Multi-Organ Segmentation with Single Random Anatomical Prior ( http://arxiv.org/abs/2012.12425v2 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Shunxing Bao, Richard G. Abramson, Yuankai Huo, Bennett A. Landman(参考訳) 広義の腹腔内マルチオルガンセグメンテーションの実行は,空間的文脈情報の損失を最小化する高分解能セグメンテーションの抽出を容易にする。 しかし、現在の粗分別アプローチは、抽出された臓器の関心領域(ROI)に対応する単一の臓器精製セグメンテーションを実行するために、かなりの数のモデルを必要とする。 低分解能の粗いネットワークを用いて3dボリュームから多臓器の大域的先行コンテキストを抽出することから始まり、さらに1つの洗練されたモデルを用いて複数の臓器に対応するモデルに代えてすべての腹部臓器を区分する微細なフェーズを提案する。 解剖学的先行とそれに対応するパッチを組み合わせて解剖学的位置と境界情報を保存し,全臓器の高分解能セグメンテーションを単一モデルで行う。 本方法の訓練と評価には,13臓器を注記した100症例を対象とした臨床研究コホートを用いた。 4倍のクロスバリデーションでアルゴリズムをテストし,13臓器のセグメンテーション性能を評価するためにdiceスコアを計算した。 提案手法は,13モデルにおいて,平均diceスコアが84.58%に対して81.69% (p<0.0001。

Performing coarse-to-fine abdominal multi-organ segmentation facilitates to extract high-resolution segmentation minimizing the lost of spatial contextual information. However, current coarse-to-refine approaches require a significant number of models to perform single organ refine segmentation corresponding to the extracted organ region of interest (ROI). We propose a coarse-to-fine pipeline, which starts from the extraction of the global prior context of multiple organs from 3D volumes using a low-resolution coarse network, followed by a fine phase that uses a single refined model to segment all abdominal organs instead of multiple organ corresponding models. We combine the anatomical prior with corresponding extracted patches to preserve the anatomical locations and boundary information for performing high-resolution segmentation across all organs in a single model. To train and evaluate our method, a clinical research cohort consisting of 100 patient volumes with 13 organs well-annotated is used. We tested our algorithms with 4-fold cross-validation and computed the Dice score for evaluating the segmentation performance of the 13 organs. Our proposed method using single auto-context outperforms the state-of-the-art on 13 models with an average Dice score 84.58% versus 81.69% (p<0.0001).
翻訳日:2021-04-25 18:02:41 公開日:2020-12-24
# マルチコントラストCTによる健康キドニーアトラスの診断

Multi-Contrast Computed Tomography Healthy Kidney Atlas ( http://arxiv.org/abs/2012.12432v2 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Kaiwen Xu, Shunxing Bao, Agnes B. Fogo, Raymond Harris, Mark P. de Caestecker, Mattias Heinrich, Jeffrey M. Spraggins, Yuankai Huo, Bennett A. Landman(参考訳) 3次元のマルチモーダル組織マップの構築は、情報統合を通じて、時間的および空間的スケールにわたる学際的なイノベーションを促進する機会を提供する。 作業の優先順位が細胞レベルに割り当てられ、細胞相互作用や組織の変化を探索する一方で、臓器やシステム内での発見の文脈化は、スケールにわたる高解像度リンクの可視化と解釈に不可欠である。 腹部CT(腹部CT)では,腎形態,体の大きさ,性別,画像プロトコルの経時的変化が著しい。 スケール間のばらつきを統合および可視化するために、ボリュームアトラスフレームワークが必要である。 しかし,多発造影CTには腹腔・後腹膜臓器のアラス・フレームワークは存在しない。 そこで我々は,非造影CT,早期動脈,後期動脈,静脈,遅延造影CTを対象とし,腎に特異的に最適化された高分解能CT後腹膜腺腫を提案した。 そこで本研究では,高分解能CTアトラステンプレートに腹部容積を登録するために,深層学習に基づく興味抽出法と2段階階層自動登録パイプラインを導入する。 アトラスを生成・評価するために,500名(腎疾患歴なし,年齢15~50歳,男性250名,女性250名)のコントラストctスキャンを行った。 本研究は,本テンプレートの安定な一般化性を示し,小から大までの腎臓の変動を,人口動態の多様性に富むコントラストや個体群にまたがって統合した。 アトラスと人口動態の関連は、個体群間の腎臓解剖の変動をよりよく理解した。

The construction of three-dimensional multi-modal tissue maps provides an opportunity to spur interdisciplinary innovations across temporal and spatial scales through information integration. While the preponderance of effort is allocated to the cellular level and explore the changes in cell interactions and organizations, contextualizing findings within organs and systems is essential to visualize and interpret higher resolution linkage across scales. There is a substantial normal variation of kidney morphometry and appearance across body size, sex, and imaging protocols in abdominal computed tomography (CT). A volumetric atlas framework is needed to integrate and visualize the variability across scales. However, there is no abdominal and retroperitoneal organs atlas framework for multi-contrast CT. Hence, we proposed a high-resolution CT retroperitoneal atlas specifically optimized for the kidney across non-contrast CT and early arterial, late arterial, venous and delayed contrast enhanced CT. Briefly, we introduce a deep learning-based volume of interest extraction method and an automated two-stage hierarchal registration pipeline to register abdominal volumes to a high-resolution CT atlas template. To generate and evaluate the atlas, multi-contrast modality CT scans of 500 subjects (without reported history of renal disease, age: 15-50 years, 250 males & 250 females) were processed. We demonstrate a stable generalizability of the atlas template for integrating the normal kidney variation from small to large, across contrast modalities and populations with great variability of demographics. The linkage of atlas and demographics provided a better understanding of the variation of kidney anatomy across populations.
翻訳日:2021-04-25 18:02:19 公開日:2020-12-24
# (参考訳) タスク適応型負クラスによるオープンセット認識

Task-Adaptive Negative Class Envision for Few-Shot Open-Set Recognition ( http://arxiv.org/abs/2012.13073v1 )

ライセンス: CC BY 4.0
Shiyuan Huang, Jiawei Ma, Guangxing Han, Shih-Fu Chang(参考訳) 最近の研究は、オープンワールドを扱う能力を備えた認識システムの実現を目指している。 ショット学習は限られた例から新しいクラスを素早く学ぶことを目的としているが、オープンセット認識は未知の負のクラスをオープンワールドから考える。 本稿では,新しい情報源からの問い合わせに頑健な認識システムを学習し,実例と未知のオープンソースから学習するオープンセット認識(fsor)の問題点について検討する。 そこで我々は,従来の知識から新たな概念を想定する人間の能力を模倣し,オープンワールドをモデル化するタスク適応型ネガティブクラス構想手法(TANE)を提案する。 本質的には、外部メモリを使用して負のクラス表現を推定します。 さらに,学習プロセスを強化する新しい共役エピソードトレーニング戦略を導入する。 4つの公開ベンチマークの大規模な実験により、我々のアプローチは、数発のオープンセット認識における最先端の性能を著しく改善することが示された。 さらに,本手法を一般化したオープンセット認識(GFSOR)に拡張し,MiniImageNetの性能向上を実現した。

Recent works seek to endow recognition systems with the ability to handle the open world. Few shot learning aims for fast learning of new classes from limited examples, while open-set recognition considers unknown negative class from the open world. In this paper, we study the problem of few-shot open-set recognition (FSOR), which learns a recognition system robust to queries from new sources with few examples and from unknown open sources. To achieve that, we mimic human capability of envisioning new concepts from prior knowledge, and propose a novel task-adaptive negative class envision method (TANE) to model the open world. Essentially we use an external memory to estimate a negative class representation. Moreover, we introduce a novel conjugate episode training strategy that strengthens the learning process. Extensive experiments on four public benchmarks show that our approach significantly improves the state-of-the-art performance on few-shot open-set recognition. Besides, we extend our method to generalized few-shot open-set recognition (GFSOR), where we also achieve performance gains on MiniImageNet.
翻訳日:2021-04-25 17:03:50 公開日:2020-12-24
# (参考訳) 車輪レール界面条件推定(W-RICE)

Wheel-Rail Interface Condition Estimation (W-RICE) ( http://arxiv.org/abs/2012.13096v1 )

ライセンス: CC BY 4.0
Sundar Shrestha, Anand Koirala, Maksym Spiryagin, Qing Wu(参考訳) 車輪とレールの間の表面粗さは、ローリングノイズレベルに大きな影響を及ぼす。 車輪レール界面におけるフロストやグリースなどの第3体の存在は, 付着係数の変化に寄与し, 様々なレベルの騒音が発生する。 そのため,車輪-レール間相互作用から生じる騒音パターンの解析から車輪-レール間の付着条件を推定することが可能である。 本研究では, 転がり音を入力として接着条件を推定する新しい手法を提案する。

The surface roughness between the wheel and rail has a huge influence on rolling noise level. The presence of the third body such as frost or grease at wheel-rail interface contributes towards change in adhesion coefficient resulting in the generation of noise at various levels. Therefore, it is possible to estimate adhesion conditions between the wheel and rail from the analysis of noise patterns originating from wheel-rail interaction. In this study, a new approach to estimate adhesion condition is proposed which takes rolling noise as input.
翻訳日:2021-04-25 16:49:13 公開日:2020-12-24
# (参考訳) 振り返って学ぶ

Learning with Retrospection ( http://arxiv.org/abs/2012.13098v1 )

ライセンス: CC BY 4.0
Xiang Deng, Zhongfei Zhang(参考訳) ディープニューラルネットワークは、コンピュータビジョンや自然言語処理など、人工知能のさまざまな領域でうまく展開されている。 DNNを訓練するための現在の標準手順は、現在の学習重量を除いて、過去の時代の学習情報を全て捨てている。 この破棄された情報は本当に役に立たないのか? 廃棄された情報はその後の訓練に役立てることができると我々は主張する。 本稿では,過去の学習情報を利用してその後の学習を指導する振り返り学習(LWR)を提案する。 LWRは、追加のネットワークパラメータや推論コストを導入することなく、DNNの精度、キャリブレーション、堅牢性を改善するための、シンプルで効果的なトレーニングフレームワークである。 いくつかのベンチマークデータセットに対する大規模な実験は、DNNのトレーニングにおけるLWRの優位性を示している。

Deep neural networks have been successfully deployed in various domains of artificial intelligence, including computer vision and natural language processing. We observe that the current standard procedure for training DNNs discards all the learned information in the past epochs except the current learned weights. An interesting question is: is this discarded information indeed useless? We argue that the discarded information can benefit the subsequent training. In this paper, we propose learning with retrospection (LWR) which makes use of the learned information in the past epochs to guide the subsequent training. LWR is a simple yet effective training framework to improve accuracies, calibration, and robustness of DNNs without introducing any additional network parameters or inference cost, only with a negligible training overhead. Extensive experiments on several benchmark datasets demonstrate the superiority of LWR for training DNNs.
翻訳日:2021-04-25 16:43:11 公開日:2020-12-24
# (参考訳) 事前学習された異種観測表現を用いた協調政策学習

Cooperative Policy Learning with Pre-trained Heterogeneous Observation Representations ( http://arxiv.org/abs/2012.13099v1 )

ライセンス: CC BY 4.0
Wenlei Shi, Xinran Wei, Jia Zhang, Xiaoyuan Ni, Arthur Jiang, Jiang Bian, Tie-Yan Liu(参考訳) 多エージェント強化学習(MARL)は、一定のグローバル報酬を最大化するための協調政策を学ぶために、ますます研究されている。 既存の多くの研究は、MARLのグラフニューラルネットワーク(GNN)を利用して、相互接続エージェント上に構築された相互作用グラフ上で重要な協調情報を伝達している。 しかしながら、バニラGNNアプローチは、一般的なメッセージパッシング機構が異質な頂点間で有効でなく、単純なメッセージアグリゲーション関数が複数の隣人からの組合せの相互作用を正確にモデル化できないため、複雑な実世界のシナリオを扱う上で重大な欠陥をもたらす。 より情報的なメッセージパッシングとアグリゲーション機構を備えた複雑なGNNモデルを採用することは、明らかに異種頂点表現と協調的政策学習の恩恵をもたらすが、一方で、MARLの訓練困難を増大させ、元のグローバル報酬と比較してより強く直接的な報酬信号を要求する可能性がある。 これらの課題に対処するために、あらかじめ訓練された異種観測表現を用いた新しい協調学習フレームワークを提案する。 特に、エンコーダ-デコーダに基づくグラフアテンションを用いて、MARLによりより容易に活用できる複雑な相互作用と異種表現を学習する。 さらに,協調政策学習の難しさを和らげるため,局所的アクター・クリティック・アルゴリズムを用いた事前学習をデザインする。 実世界のシナリオに対する大規模な実験は、我々の新しいアプローチが既存のMARLベースラインと、業界で広く使われている運用研究ソリューションを大きく上回っていることを示している。

Multi-agent reinforcement learning (MARL) has been increasingly explored to learn the cooperative policy towards maximizing a certain global reward. Many existing studies take advantage of graph neural networks (GNN) in MARL to propagate critical collaborative information over the interaction graph, built upon inter-connected agents. Nevertheless, the vanilla GNN approach yields substantial defects in dealing with complex real-world scenarios since the generic message passing mechanism is ineffective between heterogeneous vertices and, moreover, simple message aggregation functions are incapable of accurately modeling the combinational interactions from multiple neighbors. While adopting complex GNN models with more informative message passing and aggregation mechanisms can obviously benefit heterogeneous vertex representations and cooperative policy learning, it could, on the other hand, increase the training difficulty of MARL and demand more intense and direct reward signals compared to the original global reward. To address these challenges, we propose a new cooperative learning framework with pre-trained heterogeneous observation representations. Particularly, we employ an encoder-decoder based graph attention to learn the intricate interactions and heterogeneous representations that can be more easily leveraged by MARL. Moreover, we design a pre-training with local actor-critic algorithm to ease the difficulty in cooperative policy learning. Extensive experiments over real-world scenarios demonstrate that our new approach can significantly outperform existing MARL baselines as well as operational research solutions that are widely-used in industry.
翻訳日:2021-04-25 16:28:37 公開日:2020-12-24
# (参考訳) 大規模画像検索のための非交互グラフハッシュアルゴリズム

A non-alternating graph hashing algorithm for large scale image search ( http://arxiv.org/abs/2012.13138v1 )

ライセンス: CC BY 4.0
Sobhan Hemati, Mohammad Hadi Mehdizavareh, Shojaeddin Chenouri, Hamid R Tizhoosh(参考訳) ビッグデータの時代には、メモリと計算効率を改善する手法が技術展開の成功に不可欠になっている。 ハッシュは、ビッグデータに付随する計算制限に対処する最も効果的なアプローチの1つである。 この問題を解く自然な方法の一つは、バイナリコードの学習に親和性を直接組み込むスペクトルハッシュである。 しかし、バイナリ制約のため、最適化は難解になる。 この課題を緩和するために、バイナリコードを取得する計算負荷を削減し、良い解を得るための様々な緩和アプローチが提案されている。 既存の緩和手法の問題は、1つ以上の補助変数を使って、問題を緩和しながら高品質なバイナリコードを実現することである。 補助変数の存在は、計算複雑性を増大させる座標降下アプローチにつながる。 これらの変数の導入は不要であると主張する。 そこで本研究では,問題に追加変数を付加しないスペクトルハッシュのための新しい緩和定式法を提案する。 さらに、変数の数とデータポイントが等しい元の空間で問題を解く代わりに、より小さな空間で問題を解き、この解からバイナリコードを取得する。 このトリックは、メモリと計算の複雑さを同時に軽減します。 この解を得るために, 2つの最適化手法,すなわち射影勾配と多様体の最適化を適用する。 提案手法は,4つの公開データセットを対象とした包括的実験を用いて,高効率スペクトルハッシュ(esh)アルゴリズムにより,低複雑性の領域に比べて高い検索性能が得られることを示す。

In the era of big data, methods for improving memory and computational efficiency have become crucial for successful deployment of technologies. Hashing is one of the most effective approaches to deal with computational limitations that come with big data. One natural way for formulating this problem is spectral hashing that directly incorporates affinity to learn binary codes. However, due to binary constraints, the optimization becomes intractable. To mitigate this challenge, different relaxation approaches have been proposed to reduce the computational load of obtaining binary codes and still attain a good solution. The problem with all existing relaxation methods is resorting to one or more additional auxiliary variables to attain high quality binary codes while relaxing the problem. The existence of auxiliary variables leads to coordinate descent approach which increases the computational complexity. We argue that introducing these variables is unnecessary. To this end, we propose a novel relaxed formulation for spectral hashing that adds no additional variables to the problem. Furthermore, instead of solving the problem in original space where number of variables is equal to the data points, we solve the problem in a much smaller space and retrieve the binary codes from this solution. This trick reduces both the memory and computational complexity at the same time. We apply two optimization techniques, namely projected gradient and optimization on manifold, to obtain the solution. Using comprehensive experiments on four public datasets, we show that the proposed efficient spectral hashing (ESH) algorithm achieves highly competitive retrieval performance compared with state of the art at low complexity.
翻訳日:2021-04-25 16:09:05 公開日:2020-12-24
# (参考訳) 支配に基づくラフセットアプローチによる初等的品質予測

Predicting Seminal Quality with the Dominance-Based Rough Sets Approach ( http://arxiv.org/abs/2012.13204v1 )

ライセンス: CC BY 4.0
Nassim Dehouche(参考訳) この論文は、以前に発表された研究の臨床的データに依存している。 我々は、その作品の2つの非常に疑わしい仮定、すなわち、証拠の欠如と欠如の曖昧な証拠を特定し、属性のドメインの順序性を無視した。 そこで,DRSA(Dominance-based rough set approach)のような適切な順序付け手法を用いることで,エキスパートシステムの予測精度が大幅に向上し,100インスタンスのデータセットに対してほぼ完全な精度が得られることを示す。 診断問題の解決におけるDRSAの性能以外にも、これらの結果は基礎となるデータセットの不十分さと自明さを示唆している。 本論文では,uci機械学習リポジトリからのオープンデータへのリンクを提供し,請求項の検証・再検証を容易にする。

The paper relies on the clinical data of a previously published study. We identify two very questionable assumptions of said work, namely confusing evidence of absence and absence of evidence, and neglecting the ordinal nature of attributes' domains. We then show that using an adequate ordinal methodology such as the dominance-based rough sets approach (DRSA) can significantly improve the predictive accuracy of the expert system, resulting in almost complete accuracy for a dataset of 100 instances. Beyond the performance of DRSA in solving the diagnosis problem at hand, these results suggest the inadequacy and triviality of the underlying dataset. We provide links to open data from the UCI machine learning repository to allow for an easy verification/refutation of the claims made in this paper.
翻訳日:2021-04-25 15:18:39 公開日:2020-12-24
# (参考訳) ビジネスプロセスの一部コンプライアンスのための形式的枠組みを目指して

Towards a Formal Framework for Partial Compliance of Business Processes ( http://arxiv.org/abs/2012.13219v1 )

ライセンス: CC BY 4.0
Ho-Pun Lam and Mustafa Hashmi and Akhil Kumar(参考訳) プロセスコンプライアンスというバイナリな"YES-NO"の概念は、多くのケースが部分的コンプライアンスのグレーな領域に該当するため、会社の運用パフォーマンスを評価するマネージャにとってあまり役に立たない。 したがって、メトリクスの観点から部分的コンプライアンスを定量化し、それらにコンプライアンスの数値を割り当てることで実際のケースを分類する手段を持つことが必要である。 本稿では,さまざまな抽象化レベル(タスク,トレース,プロセスレベルなど)および各タスクの複数の次元(時間的,金銭的,役割的,データ的,品質的)にわたるビジネスプロセスのコンプライアンスレベルを定量化するための評価枠組みを定式化し,管理者の業務に関するより有用な情報を提供し,意思決定プロセスの改善を支援する。 このアプローチは、地方、州、連邦政府が提供する社会サービスをより柔軟にし、市民の生活を改善することで、社会的価値を高めることもできる。

Binary "YES-NO" notions of process compliance are not very helpful to managers for assessing the operational performance of their company because a large number of cases fall in the grey area of partial compliance. Hence, it is necessary to have ways to quantify partial compliance in terms of metrics and be able to classify actual cases by assigning a numeric value of compliance to them. In this paper, we formulate an evaluation framework to quantify the level of compliance of business processes across different levels of abstraction (such as task,trace and process level) and across multiple dimensions of each task (such as temporal, monetary, role-, data-, and quality-related) to provide managers more useful information about their operations and to help them improve their decision making processes. Our approach can also add social value by making social services provided by local, state and federal governments more flexible and improving the lives of citizens.
翻訳日:2021-04-25 14:47:43 公開日:2020-12-24
# (参考訳) ガウス型混合格子を用いた非一様格子上の補間点

Interpolating Points on a Non-Uniform Grid using a Mixture of Gaussians ( http://arxiv.org/abs/2012.13257v1 )

ライセンス: CC BY 4.0
Ivan Skorokhodov(参考訳) 本研究では,ガウス混合モデルに基づく一様でない画像補間を行う手法を提案する。 近接近傍、双線型、ハミング、ランチョスなどの従来の画像補間法。 補間したい座標が 均一な格子上に 配置されていると仮定する しかし、実際には必ずしもそうではないため、任意に位置付けられた画素値から画像を生成できる補間法を開発する。 我々は、既知の各画素を2次元正規分布として表現し、各出力画像画素を既知の各画素の混合したサンプルとして考慮する。 任意に配置されたピクセル群から画像を再構成する機能とは別に、これはまた、下流アプリケーションに役立つ補間手順を通して区別することもできます。 最適化されたCUDAカーネルとベンチマークを再現するソースコードはhttps://github.com/universome/non-uniform-interpolationにあります。

In this work, we propose an approach to perform non-uniform image interpolation based on a Gaussian Mixture Model. Traditional image interpolation methods, like nearest neighbor, bilinear, Hamming, Lanczos, etc. assume that the coordinates you want to interpolate from, are positioned on a uniform grid. However, it is not always the case in practice and we develop an interpolation method that is able to generate an image from arbitrarily positioned pixel values. We do this by representing each known pixel as a 2D normal distribution and considering each output image pixel as a sample from the mixture of all the known ones. Apart from the ability to reconstruct an image from arbitrarily positioned set of pixels, this also allows us to differentiate through the interpolation procedure, which might be helpful for downstream applications. Our optimized CUDA kernel and the source code to reproduce the benchmarks is located at https://github.com/universome/non-uniform-interpolation.
翻訳日:2021-04-25 14:27:19 公開日:2020-12-24
# (参考訳) ドメインランダム化と伝達学習を用いたニューラルネットワーク上のシードフェノタイピング

Seed Phenotyping on Neural Networks using Domain Randomization and Transfer Learning ( http://arxiv.org/abs/2012.13259v1 )

ライセンス: CC BY 4.0
Venkat Margapuri and Mitchell Neilsen(参考訳) 種子表現型は、種子の形態的特性を分析して、様々な環境条件下での種子の発生、耐性および収量の観点から種子の挙動を予測するという考え方である。 この研究の焦点は、Tensorflowを用いたシード表現のための最先端のオブジェクト検出とローカライズニューラルネットワーク、Mask R-CNNとYOLO(You Only Look Once)の応用と実現可能性分析である。 このような取り組みにおける大きなボトルネックの1つは、大量のトレーニングデータを必要とすることだ。 多数のシード画像のキャプチャは厄介だが、画像は画像上の種子の境界を示し、ニューラルネットワークが消費できるデータフォーマットに変換するために注釈付けされる必要がある。 手動でアノテーションのタスクを実行するツールは無料で利用できるが、必要な時間は非常に大きい。 そのようなシナリオに取り組むために、ドメインランダム化という考え方がある。 シミュレーション対象を含む画像に学習したモデルを実世界オブジェクトに適用する手法を考察する。 また、転帰学習(transfer learning)も行う。 問題を解く際に得られる知識を別の問題に適用するという考え方が用いられる。 ネットワークは、人気のあるImageNetとCOCOデータセットからトレーニング済み重量に基づいてトレーニングされる。 研究の一環として, キャノラ, 粗米, ソルガム, 大豆, 小麦の5種類の種に対して, 異なるパラメータを用いた実験を行った。

Seed phenotyping is the idea of analyzing the morphometric characteristics of a seed to predict the behavior of the seed in terms of development, tolerance and yield in various environmental conditions. The focus of the work is the application and feasibility analysis of the state-of-the-art object detection and localization neural networks, Mask R-CNN and YOLO (You Only Look Once), for seed phenotyping using Tensorflow. One of the major bottlenecks of such an endeavor is the need for large amounts of training data. While the capture of a multitude of seed images is taunting, the images are also required to be annotated to indicate the boundaries of the seeds on the image and converted to data formats that the neural networks are able to consume. Although tools to manually perform the task of annotation are available for free, the amount of time required is enormous. In order to tackle such a scenario, the idea of domain randomization i.e. the technique of applying models trained on images containing simulated objects to real-world objects, is considered. In addition, transfer learning i.e. the idea of applying the knowledge obtained while solving a problem to a different problem, is used. The networks are trained on pre-trained weights from the popular ImageNet and COCO data sets. As part of the work, experiments with different parameters are conducted on five different seed types namely, canola, rough rice, sorghum, soy, and wheat.
翻訳日:2021-04-25 14:22:45 公開日:2020-12-24
# (参考訳) ポリシー最適化による車両経路問題の学習

Learning Vehicle Routing Problems using Policy Optimisation ( http://arxiv.org/abs/2012.13269v1 )

ライセンス: CC BY-SA 4.0
Nasrin Sultana, Jeffrey Chan, A. K. Qin, Tabinda Sarwar(参考訳) 深部強化学習(DRL)は、ポリシーネットワークを介して複雑な組合せ最適化問題を解くための効果的なヒューリスティックスを学ぶために用いられ、有望な性能を示した。 既存の作業では、非自明さと困難さのバランスがよいため、ルーティング問題の解決(車両)に注力しています。 最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。 これらのアプローチは、あるケースでは優れた性能を示しているが、大きな探索空間の典型的な組合せ/ルーティング問題を考えると、それらはあまりに早く貧弱なポリシーに収束する可能性がある。 そこで本稿では,より確率的なポリシを提供することにより,探索を支援するアプローチ名 Entropy regularized reinforcement learning (ERRL) を提案する。 経験的に、低分散ERRLはRLトレーニングを高速かつ安定に行う。 また、テスト期間中にローカル検索演算子の組み合わせを導入し、解法を大幅に改善し、ERRLを補完する。 車両ルーティング問題に対して,高エントロピーのポリシーは,最適化環境を円滑にすることで,最適化が容易になることを示す。 定量的評価の結果,モデルの性能は最先端の変種に匹敵することがわかった。 本評価では, キャパシタント車両ルーティング問題 (CVRP) , 固定フリート問題 (MRPFF) , トラベリングセールスマン問題 (Travelling Salesman problem) などの車両ルーティング問題に対して, モデルが最先端の性能を示すことを実験的に示す。

Deep reinforcement learning (DRL) has been used to learn effective heuristics for solving complex combinatorial optimisation problem via policy networks and have demonstrated promising performance. Existing works have focused on solving (vehicle) routing problems as they have a nice balance between non-triviality and difficulty. State-of-the-art approaches learn a policy using reinforcement learning, and the learnt policy acts as a pseudo solver. These approaches have demonstrated good performance in some cases, but given the large search space typical combinatorial/routing problem, they can converge too quickly to poor policy. To prevent this, in this paper, we propose an approach name entropy regularised reinforcement learning (ERRL) that supports exploration by providing more stochastic policies, which tends to improve optimisation. Empirically, the low variance ERRL offers RL training fast and stable. We also introduce a combination of local search operators during test time, which significantly improves solution and complement ERRL. We qualitatively demonstrate that for vehicle routing problems, a policy with higher entropy can make the optimisation landscape smooth which makes it easier to optimise. The quantitative evaluation shows that the performance of the model is comparable with the state-of-the-art variants. In our evaluation, we experimentally illustrate that the model produces state-of-the-art performance on variants of Vehicle Routing problems such as Capacitated Vehicle Routing Problem (CVRP), Multiple Routing with Fixed Fleet Problems (MRPFF) and Travelling Salesman problem.
翻訳日:2021-04-25 14:12:53 公開日:2020-12-24
# (参考訳) ディープラーニングによる生体認証テンプレートの保護が不十分なファジィコミットメント

Fuzzy Commitments Offer Insufficient Protection to Biometric Templates Produced by Deep Learning ( http://arxiv.org/abs/2012.13293v1 )

ライセンス: CC BY 4.0
Danny Keller, Margarita Osadchy, and Orr Dunkelman(参考訳) 本研究では,顔画像に適用した場合のファジィコミットメントが与える保護について,最先端のディープラーニング顔認識システムを用いて検討する。 これらのシステムは高い精度を生み出すことができるが、エントロピーが少なすぎるテンプレートを生成する。 その結果,保護テンプレートを用いて顔画像の再構成を行う再構成攻撃が提案された。 再建された顔画像は、オリジナルのものと非常によく似ている。 最も単純な攻撃シナリオでは、再構築されたテンプレートの78%以上がアカウントのアンロックに成功した(システムが0.1% FARに設定されている場合)。 最も難しい」設定(あるシステムから再構成された画像を別のシステムで使用し、異なる特徴抽出プロセスで使用する)であっても、再構成された画像は、システム全体の50倍から120倍の成功率を提供する。

In this work, we study the protection that fuzzy commitments offer when they are applied to facial images, processed by the state of the art deep learning facial recognition systems. We show that while these systems are capable of producing great accuracy, they produce templates of too little entropy. As a result, we present a reconstruction attack that takes a protected template, and reconstructs a facial image. The reconstructed facial images greatly resemble the original ones. In the simplest attack scenario, more than 78% of these reconstructed templates succeed in unlocking an account (when the system is configured to 0.1% FAR). Even in the "hardest" settings (in which we take a reconstructed image from one system and use it in a different system, with different feature extraction process) the reconstructed image offers 50 to 120 times higher success rates than the system's FAR.
翻訳日:2021-04-25 13:54:06 公開日:2020-12-24
# (参考訳) LEUGAN:unsupervised Generative Attentional Networksによる低照度画像強調

LEUGAN:Low-Light Image Enhancement by Unsupervised Generative Attentional Networks ( http://arxiv.org/abs/2012.13322v1 )

ライセンス: CC BY 4.0
Yangyang Qu, Chao liu, Yongsheng Ou(参考訳) 低照度データからの画像復元は難しい課題である。 既存のディープネットワークベースのアルゴリズムのほとんどは、ペアワイズイメージでトレーニングされるように設計されている。 実世界のデータセットが欠如しているため、通常は画像エッジとカラー情報の損失という観点で、実際に一般化した場合に性能が低下する。 本稿では、低照度画像強調タスクを処理するための注意誘導型教師なし生成ネットワークを提案する。 具体的には,よりシャープなエッジを復元するエッジ補助モジュールと,よりリアルなカラーを復元するアテンション誘導モジュールの2つを含む。 さらに,生成した画像のエッジをより鮮明にするために,新たな損失関数を提案する。 実験により,提案アルゴリズムが最先端の手法,特に実世界の画像に対して,画像の明瞭性とノイズ制御の面で好適に動作することを確認した。

Restoring images from low-light data is a challenging problem. Most existing deep-network based algorithms are designed to be trained with pairwise images. Due to the lack of real-world datasets, they usually perform poorly when generalized in practice in terms of loss of image edge and color information. In this paper, we propose an unsupervised generation network with attention-guidance to handle the low-light image enhancement task. Specifically, our network contains two parts: an edge auxiliary module that restores sharper edges and an attention guidance module that recovers more realistic colors. Moreover, we propose a novel loss function to make the edges of the generated images more visible. Experiments validate that our proposed algorithm performs favorably against state-of-the-art methods, especially for real-world images in terms of image clarity and noise control.
翻訳日:2021-04-25 13:23:18 公開日:2020-12-24
# (参考訳) ベクトル出力reluニューラルネットワーク問題は共陽性プログラムである:2層ネットワークの凸解析と多項式時間アルゴリズム

Vector-output ReLU Neural Network Problems are Copositive Programs: Convex Analysis of Two Layer Networks and Polynomial-time Algorithms ( http://arxiv.org/abs/2012.13329v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Tolga Ergen, John Pauly and Mert Pilanci(参考訳) 本稿では2層ベクトル出力ReLUニューラルネットワークトレーニング問題の凸半無限双対について述べる。 この半無限双対は有限次元表現を許すが、その支持は特徴付けが難しい凸集合上のものである。 特に,非凸ニューラルネットワークトレーニング問題は,有限次元凸コ陽性プログラムと等価であることを示す。 私たちの研究は、ニューラルネットワークのグローバルな最適化と、共陽性プログラムの強いつながりを初めて特定しました。 そこで本研究では,ニューラルネットワークが半負の行列因子分解によって共負のプログラムを暗黙的に解こうとしていることを示す。 本稿では,ベクトル出力ニューラルネットワークトレーニング問題の最小値を求めるアルゴリズムについて述べる。これは固定データランクのサンプル数に多項式であるが,次元は指数関数的である。 しかし、畳み込みアーキテクチャの場合、計算複雑性は他の全てのパラメータのフィルタサイズと多項式のみにおいて指数関数的である。 本稿では,このニューラルネットワーク学習問題のグローバル最適化をソフトスレッショルドsvdを用いて正確に把握し,ある種の問題に対して正確であることが保証され,実際に確率的勾配降下の解に対応する共負緩和を提供する。

We describe the convex semi-infinite dual of the two-layer vector-output ReLU neural network training problem. This semi-infinite dual admits a finite dimensional representation, but its support is over a convex set which is difficult to characterize. In particular, we demonstrate that the non-convex neural network training problem is equivalent to a finite-dimensional convex copositive program. Our work is the first to identify this strong connection between the global optima of neural networks and those of copositive programs. We thus demonstrate how neural networks implicitly attempt to solve copositive programs via semi-nonnegative matrix factorization, and draw key insights from this formulation. We describe the first algorithms for provably finding the global minimum of the vector output neural network training problem, which are polynomial in the number of samples for a fixed data rank, yet exponential in the dimension. However, in the case of convolutional architectures, the computational complexity is exponential in only the filter size and polynomial in all other parameters. We describe the circumstances in which we can find the global optimum of this neural network training problem exactly with soft-thresholded SVD, and provide a copositive relaxation which is guaranteed to be exact for certain classes of problems, and which corresponds with the solution of Stochastic Gradient Descent in practice.
翻訳日:2021-04-25 12:51:08 公開日:2020-12-24
# (参考訳) 内部欠陥を有するリンゴの並列ビームX線CTデータセットと機械学習のためのラベルバランス

Parallel-beam X-ray CT datasets of apples with internal defects and label balancing for machine learning ( http://arxiv.org/abs/2012.13346v1 )

ライセンス: CC BY 4.0
Sophia Bethany Coban and Vladyslav Andriiashen and Poulami Somanya Ganguly and Maureen van Eijnatten and Kees Joost Batenburg(参考訳) 内部欠陥のある94個のリンゴの3つの並列ビームトモグラフィーデータセットと欠陥ラベルファイルを示す。 データセットは、データ駆動で学習に基づく画像再構成、セグメンテーション、後処理方法の開発とテストのために準備されている。 3つのバージョンは無ノイズシミュレーションであり、ガウスノイズの追加と散乱ノイズによるシミュレーションである。 データセットは、実際の3次元X線CTデータとその後のボリューム再構成に基づいている。 ボリューム再構成に基づく地上の真理像もこのプロジェクトを通じて利用可能である。 Appleには様々な欠陥があり、当然ラベルバイアスが生じる。 我々は、バイアスを最適化問題として定式化することでこれに取り組む。 さらに,この問題を単純なヒューリスティックアルゴリズムと混合整数二次計画という2つの手法で解くことを実証する。 これにより、データセットをテスト、トレーニング、検証サブセットに分割し、ラベルバイアスを排除できる。 したがって、データセットは、画像再構成、セグメンテーション、自動欠陥検出、機械学習におけるラベルバイアスの影響(削除のための新しい手法の適用)のテストに使用できる。

We present three parallel-beam tomographic datasets of 94 apples with internal defects along with defect label files. The datasets are prepared for development and testing of data-driven, learning-based image reconstruction, segmentation and post-processing methods. The three versions are a noiseless simulation; simulation with added Gaussian noise, and with scattering noise. The datasets are based on real 3D X-ray CT data and their subsequent volume reconstructions. The ground truth images, based on the volume reconstructions, are also available through this project. Apples contain various defects, which naturally introduce a label bias. We tackle this by formulating the bias as an optimization problem. In addition, we demonstrate solving this problem with two methods: a simple heuristic algorithm and through mixed integer quadratic programming. This ensures the datasets can be split into test, training or validation subsets with the label bias eliminated. Therefore the datasets can be used for image reconstruction, segmentation, automatic defect detection, and testing the effects of (as well as applying new methodologies for removing) label bias in machine learning.
翻訳日:2021-04-25 12:24:29 公開日:2020-12-24
# (参考訳) モデル行動の人間の説明は、実際のモデル行動とどの程度一致しているか?

To what extent do human explanations of model behavior align with actual model behavior? ( http://arxiv.org/abs/2012.13354v1 )

ライセンス: CC BY 4.0
Grusha Prasad and Yixin Nie and Mohit Bansal and Robin Jia and Douwe Kiela and Adina Williams(参考訳) 生活の中でNLPモデルが果たす役割がますます顕著になっていることを考えると、モデルがどのように振る舞うかという人間の期待に沿ったモデルを評価することが重要です。 自然言語推論(NLI)をケーススタディとして,モデルの推論決定に関する人間による説明が,モデルが実際に意思決定を行う方法とどのように一致しているかを検討した。 より具体的には、自然言語による人間の説明が入力語に対するモデルの感度にどのように適合するかを、統合勾配によって測定する2つのアライメントメトリクスを定義した。 そして、6種類の変圧器モデル(BERT, RoBERTa, ELECTRAのベースおよび大版)を評価し、BERTベースモデルが、両者のアライメント指標に対して、人為的な説明と最高の整合性を持つことを発見した。 さらに,調査したモデルの基本バージョンは,従来のモデルよりも人間の生成した説明との整合度が高い傾向にあり,モデルパラメータの増加が人間の説明との整合を悪化させる可能性が示唆された。 最後に,nli上のモデルの精度からモデルのアライメントが予測されないことを見出し,精度とアライメントが直交し,両者がモデルを評価する上で重要な方法であることを示す。

Given the increasingly prominent role NLP models (will) play in our lives, it is important to evaluate models on their alignment with human expectations of how models behave. Using Natural Language Inference (NLI) as a case study, we investigated the extent to which human-generated explanations of models' inference decisions align with how models actually make these decisions. More specifically, we defined two alignment metrics that quantify how well natural language human explanations align with model sensitivity to input words, as measured by integrated gradients. Then, we evaluated six different transformer models (the base and large versions of BERT, RoBERTa and ELECTRA), and found that the BERT-base model has the highest alignment with human-generated explanations, for both alignment metrics. Additionally, the base versions of the models we surveyed tended to have higher alignment with human-generated explanations than their larger counterparts, suggesting that increasing the number model parameters could result in worse alignment with human explanations. Finally, we find that a model's alignment with human explanations is not predicted by the model's accuracy on NLI, suggesting that accuracy and alignment are orthogonal, and both are important ways to evaluate models.
翻訳日:2021-04-25 12:06:16 公開日:2020-12-24
# (参考訳) 心臓MRI左室定量化のための時空間多タスク学習

Spatio-temporal Multi-task Learning for Cardiac MRI Left Ventricle Quantification ( http://arxiv.org/abs/2012.13364v1 )

ライセンス: CC BY 4.0
Sulaiman Vesal, Mingxuan Gu, Andreas Maier, Nishant Ravikumar(参考訳) 左心室形態の定量的評価は,心機能評価と心血管疾患の診断の改善に不可欠である。 現在の臨床実践では、LV定量化は心筋形状指標の測定に依存しており、通常は心内膜と心内膜を手動で測定することで達成される。 しかし、このプロセスは、サーバ間およびサーバ内変数に従属し、時間がかかり、面倒な作業である。 本稿では, 心臓のLV形態, 局所壁厚 (RWT) を定量化し, さらに, 所定の3次元Cine-magnetic resonance (MR) 画像系列に対する心期周期 (systole, diastole) を検出するための時空間多タスク学習手法を提案する。 まず、エンコーダデコーダネットワークを用いて心臓のLVを分割し、その後11のLV指標を回帰するマルチタスクフレームワークを導入し、モデル最適化時の並列タスクとして心臓の位相を分類する。 提案する深層学習モデルは,mr画像から空間的および時間的特徴を抽出する3次元時空間畳み込みに基づく。 145名のcine-mrシークエンスを用いた提案手法の有効性を実証し,他の最先端定量法との比較を行った。 提案手法は平均絶対誤差(MAE)が129 $mm^2$, 1.23 $mm$, 1.76 $mm$, Pearson correlation coefficient(PCC)が96.4%, 87.2%, 97.5%, LVと心筋(Myo)空洞領域が6RWT, 3LV次元が9.0\%, 位相分類が9.0\%であった。 実験の結果, 心臓のmr配列における心形態, 画像の出現, コントラストの低さに拘わらず, 提案手法のロバスト性が強調された。

Quantitative assessment of cardiac left ventricle (LV) morphology is essential to assess cardiac function and improve the diagnosis of different cardiovascular diseases. In current clinical practice, LV quantification depends on the measurement of myocardial shape indices, which is usually achieved by manual contouring of the endo- and epicardial. However, this process subjected to inter and intra-observer variability, and it is a time-consuming and tedious task. In this paper, we propose a spatio-temporal multi-task learning approach to obtain a complete set of measurements quantifying cardiac LV morphology, regional-wall thickness (RWT), and additionally detecting the cardiac phase cycle (systole and diastole) for a given 3D Cine-magnetic resonance (MR) image sequence. We first segment cardiac LVs using an encoder-decoder network and then introduce a multitask framework to regress 11 LV indices and classify the cardiac phase, as parallel tasks during model optimization. The proposed deep learning model is based on the 3D spatio-temporal convolutions, which extract spatial and temporal features from MR images. We demonstrate the efficacy of the proposed method using cine-MR sequences of 145 subjects and comparing the performance with other state-of-the-art quantification methods. The proposed method obtained high prediction accuracy, with an average mean absolute error (MAE) of 129 $mm^2$, 1.23 $mm$, 1.76 $mm$, Pearson correlation coefficient (PCC) of 96.4%, 87.2%, and 97.5% for LV and myocardium (Myo) cavity regions, 6 RWTs, 3 LV dimensions, and an error rate of 9.0\% for phase classification. The experimental results highlight the robustness of the proposed method, despite varying degrees of cardiac morphology, image appearance, and low contrast in the cardiac MR sequences.
翻訳日:2021-04-25 11:51:29 公開日:2020-12-24
# (参考訳) 時空間・時空間予測法に関する調査

A Survey on Spatial and Spatiotemporal Prediction Methods ( http://arxiv.org/abs/2012.13384v1 )

ライセンス: CC BY 4.0
Zhe Jiang(参考訳) GPSやリモートセンシング技術の進歩により、様々な領域から大量の地理空間的・時空間的データが収集され、効率的かつ効率的な予測方法の必要性が高まっている。 説明的特徴と対象とする応答(カテゴリー的あるいは連続的)が一組の場所で与えられた空間データサンプルから,説明的特徴に基づいて応答変数を予測できるモデルを学習することを目的とする。 この問題は、地球科学、都市情報学、ジオソーシャルメディア分析、公衆衛生における幅広い応用において重要であるが、空間的・時間的自己相関、空間的不均質性、時間的非定常性、限られた地上的真理、複数のスケールと解像度など、時空間的データのユニークな特徴のために困難である。 本稿では,空間的および時空間的予測の原理と手法を体系的に検討する。 我々は、それらが対処する主要な課題によって分類された方法の分類を提供する。 それぞれの方法について、基礎となる仮定、理論的基礎を導入し、その利点と欠点について議論する。 我々のゴールは、学際的なドメイン科学者が問題を解決する技術を選ぶのを助けることであり、さらに重要なことは、データマイニング研究者が空間的および時空間予測における主要な原則や方法を理解し、将来の研究機会を特定するのを助けることである。

With the advancement of GPS and remote sensing technologies, large amounts of geospatial and spatiotemporal data are being collected from various domains, driving the need for effective and efficient prediction methods. Given spatial data samples with explanatory features and targeted responses (categorical or continuous) at a set of locations, the problem aims to learn a model that can predict the response variable based on explanatory features. The problem is important with broad applications in earth science, urban informatics, geosocial media analytics and public health, but is challenging due to the unique characteristics of spatiotemporal data, including spatial and temporal autocorrelation, spatial heterogeneity, temporal non-stationarity, limited ground truth, and multiple scales and resolutions. This paper provides a systematic review on principles and methods in spatial and spatiotemporal prediction. We provide a taxonomy of methods categorized by the key challenge they address. For each method, we introduce its underlying assumption, theoretical foundation, and discuss its advantages and disadvantages. Our goal is to help interdisciplinary domain scientists choose techniques to solve their problems, and more importantly, to help data mining researchers to understand the main principles and methods in spatial and spatiotemporal prediction and identify future research opportunities.
翻訳日:2021-04-25 10:59:37 公開日:2020-12-24
# (参考訳) adaptive summaries: ユーザのフィードバックから学習するパーソナライズされた概念に基づく要約アプローチ

Adaptive Summaries: A Personalized Concept-based Summarization Approach by Learning from Users' Feedback ( http://arxiv.org/abs/2012.13387v1 )

ライセンス: CC BY 4.0
Samira Ghodratnama and Mehrdad Zakershahrak and Fariborz Sobhanmanesh(参考訳) 複雑な質問に答えることと同様に、決定を効率的に行うために膨大な量のデータを探索することは、多くの現実世界のアプリケーションシナリオにおいて困難である。 この文脈では、自動要約はビッグデータ分析の基礎を提供するため、非常に重要である。 従来の要約アプローチは、要約の主観的側面を考慮しないすべてのユーザ、すなわち異なるユーザにとって価値のあるもの、に適合する短い静的要約を生成するためにシステムを最適化する。 本稿では,適応要約(adaptive summaries)と呼ばれる対話型概念に基づく要約モデルを提案する。 本システムは,反復ループでフィードバックを与えることで,ユーザの提供した情報から徐々に学習する。 ユーザは、サマリに含まれる概念を、ユーザの視点とフィードバックの信頼レベルから、その概念の重要性とともに選択するためのアクションを拒否するか、受け入れるかを選択できる。 提案手法は,対話的な処理速度を保証し,ユーザの関与を維持する。 さらに、要約タスクでは難しい問題である参照要約の必要性を排除している。 アダプティブ・サマリー(Adaptive Summaries)は、ユーザが望むコンテンツを最大化し、好みに基づいて高品質なサマリーを作成するのに役立つ。

Exploring the tremendous amount of data efficiently to make a decision, similar to answering a complicated question, is challenging with many real-world application scenarios. In this context, automatic summarization has substantial importance as it will provide the foundation for big data analytic. Traditional summarization approaches optimize the system to produce a short static summary that fits all users that do not consider the subjectivity aspect of summarization, i.e., what is deemed valuable for different users, making these approaches impractical in real-world use cases. This paper proposes an interactive concept-based summarization model, called Adaptive Summaries, that helps users make their desired summary instead of producing a single inflexible summary. The system learns from users' provided information gradually while interacting with the system by giving feedback in an iterative loop. Users can choose either reject or accept action for selecting a concept being included in the summary with the importance of that concept from users' perspectives and confidence level of their feedback. The proposed approach can guarantee interactive speed to keep the user engaged in the process. Furthermore, it eliminates the need for reference summaries, which is a challenging issue for summarization tasks. Evaluations show that Adaptive Summaries helps users make high-quality summaries based on their preferences by maximizing the user-desired content in the generated summaries.
翻訳日:2021-04-25 10:11:49 公開日:2020-12-24
# (参考訳) 深層ネットワークにおけるミックス・プロビティ・フォーミング

Mixed-Privacy Forgetting in Deep Networks ( http://arxiv.org/abs/2012.13431v1 )

ライセンス: CC BY 4.0
Aditya Golatkar, Alessandro Achille, Avinash Ravichandran, Marzia Polito, Stefano Soatto(参考訳) 大規模な画像分類タスクでトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を - あるいは「忘れられる」 - 除去できることを示し, 忘れた後の残余情報量に強い計算可能な境界を与える。 実世界のテクニックを忘れることの応用に触発されて、我々は混合プライバシー設定で忘れることという新しい概念を導入し、トレーニングサンプルの「中核」サブセットを忘れる必要がないことを認識した。 この問題の相違は概念的には単純であるが,この環境での作業は視覚分類タスクに適用される手法を忘れることの精度と保証を大幅に向上させることを示す。 さらに,性能の低下を最小限に抑えつつ,重みのサブセットをゼロにするだけで,非コアデータに含まれるすべての情報を効率的に削除することができる。 これらの結果は、標準ディープネットワークを適切な線形近似に置き換えることで得られる。 ネットワークアーキテクチャとトレーニング手順の変更により、そのような線形近似は元のネットワークに匹敵する性能を達成し、忘れる問題は2次化し、大規模モデルでも効率的に解けることを示す。 従来のディープネットワークの忘れ方とは異なり、大規模ビジョンタスクでは最先端の精度に近づけることができます。 特に,本手法では,モデル精度をトレードオフすることなく忘れることができることを示す。

We show that the influence of a subset of the training samples can be removed -- or "forgotten" -- from the weights of a network trained on large-scale image classification tasks, and we provide strong computable bounds on the amount of remaining information after forgetting. Inspired by real-world applications of forgetting techniques, we introduce a novel notion of forgetting in mixed-privacy setting, where we know that a "core" subset of the training samples does not need to be forgotten. While this variation of the problem is conceptually simple, we show that working in this setting significantly improves the accuracy and guarantees of forgetting methods applied to vision classification tasks. Moreover, our method allows efficient removal of all information contained in non-core data by simply setting to zero a subset of the weights with minimal loss in performance. We achieve these results by replacing a standard deep network with a suitable linear approximation. With opportune changes to the network architecture and training procedure, we show that such linear approximation achieves comparable performance to the original network and that the forgetting problem becomes quadratic and can be solved efficiently even for large models. Unlike previous forgetting methods on deep networks, ours can achieve close to the state-of-the-art accuracy on large scale vision tasks. In particular, we show that our method allows forgetting without having to trade off the model accuracy.
翻訳日:2021-04-25 10:01:48 公開日:2020-12-24
# (参考訳) ThamizhiUDp: Tamilの依存性パーザ

ThamizhiUDp: A Dependency Parser for Tamil ( http://arxiv.org/abs/2012.13436v1 )

ライセンス: CC BY-SA 4.0
Kengatharaiyer Sarveswaran and Gihan Dias(参考訳) 本稿では,汎用依存形式を用いたタミル語テキストの係り受け解析のための完全なパイプラインを提供する,ニューラルベースの係り受けパーサであるtamizhiudpを開発した方法について述べる。 我々は、依存関係解析パイプラインのフェーズを検討し、これらのフェーズごとにツールやリソースを特定し、精度を改善し、データの不足に取り組む。 thamizhiudp は stanza をトークン化と補題化に、thamizhipost と thamizhimorph を音声の一部と形態的アノテーションに、uuparser を依存性解析のために多言語訓練に使っている。 ThamizhiPOStは、Amrita POSタグ付きコーパスでトレーニングされたStanzaをベースにしたPOSタグである。 現在のタミルPOSタグのF1スコアは93.27である。 形態学的アナライザであるtamizhimorphはルールベースのシステムで,タミルを非常によくカバーしています。 依存関係解析のThamizhiUDpは多言語データを用いて訓練した。 Labelled Assigned Score (LAS) は62.39で、現在のタミル依存解析で達成されている最高値よりも4ポイント高い。 したがって、既存のツールやリソースに対応するために依存性解析パイプラインを分割することは、低リソース言語にとって実行可能なアプローチであることを示す。

This paper describes how we developed a neural-based dependency parser, namely ThamizhiUDp, which provides a complete pipeline for the dependency parsing of the Tamil language text using Universal Dependency formalism. We have considered the phases of the dependency parsing pipeline and identified tools and resources in each of these phases to improve the accuracy and to tackle data scarcity. ThamizhiUDp uses Stanza for tokenisation and lemmatisation, ThamizhiPOSt and ThamizhiMorph for generating Part of Speech (POS) and Morphological annotations, and uuparser with multilingual training for dependency parsing. ThamizhiPOSt is our POS tagger, which is based on the Stanza, trained with Amrita POS-tagged corpus. It is the current state-of-the-art in Tamil POS tagging with an F1 score of 93.27. Our morphological analyzer, ThamizhiMorph is a rule-based system with a very good coverage of Tamil. Our dependency parser ThamizhiUDp was trained using multilingual data. It shows a Labelled Assigned Score (LAS) of 62.39, 4 points higher than the current best achieved for Tamil dependency parsing. Therefore, we show that breaking up the dependency parsing pipeline to accommodate existing tools and resources is a viable approach for low-resource languages.
翻訳日:2021-04-25 09:20:04 公開日:2020-12-24
# (参考訳) 畳み込みニューラルネットワークとホログラフィーを用いたリアルタイム表情絵文字マスキング

Real-Time Facial Expression Emoji Masking with Convolutional Neural Networks and Homography ( http://arxiv.org/abs/2012.13447v1 )

ライセンス: CC BY 4.0
Qinchen Wang and Sixuan Wu and Tingfeng Xia(参考訳) ニューラルネットワークに基づくアルゴリズムは多くのアプリケーションで成功している。 画像処理において、畳み込みニューラルネットワーク(CNN)は人間の顔の画像の表情を分類するために訓練することができる。 本研究では,学生の顔に感情の絵文字を付けてマスクするシステムを構築する。 本システムには3つのビルディングブロックがある: グラデーションのヒストグラムを用いた顔検出(hog)とサポートベクターマシン(svm)、fer2013データセットでトレーニングされたcnnによる表情分類、そして最後に、ホモグラフィ推定によって各絵文字を学生の顔に戻す。 (Demo: https://youtu.be/GCjtXw1y8Pw) このパイプラインはリアルタイムでデプロイ可能で、教育的な設定で使用できます。

Neural network based algorithms has shown success in many applications. In image processing, Convolutional Neural Networks (CNN) can be trained to categorize facial expressions of images of human faces. In this work, we create a system that masks a student's face with a emoji of the respective emotion. Our system consists of three building blocks: face detection using Histogram of Gradients (HoG) and Support Vector Machine (SVM), facial expression categorization using CNN trained on FER2013 dataset, and finally masking the respective emoji back onto the student's face via homography estimation. (Demo: https://youtu.be/GCjtXw1y8Pw) Our results show that this pipeline is deploy-able in real-time, and is usable in educational settings.
翻訳日:2021-04-25 09:06:44 公開日:2020-12-24
# (参考訳) ニューラルネットワークの翻訳が空の出力を好む理由

Why Neural Machine Translation Prefers Empty Outputs ( http://arxiv.org/abs/2012.13454v1 )

ライセンス: CC BY 4.0
Xing Shi, Yijun Xiao, Kevin Knight(参考訳) ニューラルネットワーク翻訳(NMT)システムがなぜ空の翻訳に高い確率を割り当てるのかを考察する。 説明は2つあります まず、ラベルの平滑化により、正しい長さの翻訳の信頼性が低下し、空の翻訳が最終的にそれらを上回りやすくする。 第二に、NMTシステムは、長さに関係なく、同じ高周波EoSワードを使用して全てのターゲット文を終了する。 これにより暗黙の平滑化が生じ、ゼロ長の翻訳が増加する。 異なる長さのターゲット文で異なるEoS型を使用することで、この暗黙の平滑化を排除できる。

We investigate why neural machine translation (NMT) systems assign high probability to empty translations. We find two explanations. First, label smoothing makes correct-length translations less confident, making it easier for the empty translation to finally outscore them. Second, NMT systems use the same, high-frequency EoS word to end all target sentences, regardless of length. This creates an implicit smoothing that increases zero-length translations. Using different EoS types in target sentences of different lengths exposes and eliminates this implicit smoothing.
翻訳日:2021-04-25 08:57:23 公開日:2020-12-24
# (参考訳) 珍しいのか? 隠れた異常を識別するためのインテリジェント要約手法

Am I Rare? An Intelligent Summarization Approach for Identifying Hidden Anomalies ( http://arxiv.org/abs/2012.15755v1 )

ライセンス: CC BY 4.0
Samira Ghodratnama and Mehrdad Zakershahrak and Fariborz Sobhanmanesh(参考訳) ネットワークトラフィックデータを監視して、隠れた異常パターンを検出することは、高いコンピューティングリソースを必要とする困難で時間のかかるタスクである。 この目的のためには、元のデータに代わるものとして、適切な要約技術が非常に重要である。 しかし、要約されたデータは異常を取り除く脅威にさらされている。 したがって、元のデータと同じパターンを反映できる要約を作成することが不可欠である。 そこで本研究では,隠れ異常を識別するための知能要約手法であるINSIDENTを提案する。 提案手法は,元データ分布を要約データに保持することを保証する。 提案手法は,各クラスタの特徴を局所重み付けすることにより,特徴空間を特徴空間に動的にマッピングするクラスタリングに基づくアルゴリズムである。 したがって、新しい特徴空間では、類似のサンプルが近くなり、その結果、外れ値がより検出できる。 また、クラスタサイズに基づく代表者の選択は、集計データ内の元のデータと同じ分布を保持する。 INSIDENTは、異常検出アルゴリズムと異常検出アルゴリズムを実行する前に、前処理アプローチとして使用できる。 ベンチマークデータセットの実験結果は、データの要約が異常検出タスクにおける元のデータの代わりになることを示す。

Monitoring network traffic data to detect any hidden patterns of anomalies is a challenging and time-consuming task that requires high computing resources. To this end, an appropriate summarization technique is of great importance, where it can be a substitute for the original data. However, the summarized data is under the threat of removing anomalies. Therefore, it is vital to create a summary that can reflect the same pattern as the original data. Therefore, in this paper, we propose an INtelligent Summarization approach for IDENTifying hidden anomalies, called INSIDENT. The proposed approach guarantees to keep the original data distribution in summarized data. Our approach is a clustering-based algorithm that dynamically maps original feature space to a new feature space by locally weighting features in each cluster. Therefore, in new feature space, similar samples are closer, and consequently, outliers are more detectable. Besides, selecting representatives based on cluster size keeps the same distribution as the original data in summarized data. INSIDENT can be used both as the preprocess approach before performing anomaly detection algorithms and anomaly detection algorithm. The experimental results on benchmark datasets prove a summary of the data can be a substitute for original data in the anomaly detection task.
翻訳日:2021-04-25 08:49:32 公開日:2020-12-24
# SubICap:Subword-informed Image Captioningを目指して

SubICap: Towards Subword-informed Image Captioning ( http://arxiv.org/abs/2012.13122v1 )

ライセンス: Link先を確認
Naeha Sharif, Mohammed Bennamoun, Wei Liu, Syed Afaq Ali Shah(参考訳) 既存の画像キャプション(IC)システムは、単語をキャプション内の原子単位としてモデル化し、単語の構造情報を活用できない。 これにより、希少な単語の表現は非常に難しく、語彙外語は不可能になる。 さらに、計算複雑性を回避するため、既存のICモデルは、稀な単語の同一性が失われるように、頻繁な単語の控えめな大きさの語彙で動作する。 本研究は,コーパスにおけるレアワード処理におけるICシステムの共通的制限に対処する。 単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。 これはコーパス内のすべての単語を、かなり低いサブワード語彙で表現し、パラメータ学習を改善するのに役立つ。 サブワードの言語モデルを用いて, 学習語彙サイズがベースラインおよび最先端の単語レベルモデルよりも約90%小さくなり, 様々な指標スコアが向上した。 定量的・定性的な結果と分析は,提案手法の有効性を示す。

Existing Image Captioning (IC) systems model words as atomic units in captions and are unable to exploit the structural information in the words. This makes representation of rare words very difficult and out-of-vocabulary words impossible. Moreover, to avoid computational complexity, existing IC models operate over a modest sized vocabulary of frequent words, such that the identity of rare words is lost. In this work we address this common limitation of IC systems in dealing with rare words in the corpora. We decompose words into smaller constituent units 'subwords' and represent captions as a sequence of subwords instead of words. This helps represent all words in the corpora using a significantly lower subword vocabulary, leading to better parameter learning. Using subword language modeling, our captioning system improves various metric scores, with a training vocabulary size approximately 90% less than the baseline and various state-of-the-art word-level models. Our quantitative and qualitative results and analysis signify the efficacy of our proposed approach.
翻訳日:2021-04-25 08:29:06 公開日:2020-12-24
# WEmbSim:イメージキャプションのためのシンプルで効果的なメトリック

WEmbSim: A Simple yet Effective Metric for Image Captioning ( http://arxiv.org/abs/2012.13137v1 )

ライセンス: Link先を確認
Naeha Sharif, Lyndon White, Mohammed Bennamoun, Wei Liu, Syed Afaq Ali Shah(参考訳) 自動キャプション評価の分野は、適切性や流動性要件を満たすキャプション生成の必要性に対処するため、依然として集中的な研究が続けられている。 従来の高度学習ベースメトリクスの開発の試みから,字幕の単語埋め込み(MOWE)を用いた簡易なコサイン類似度尺度が,教師なし字幕評価において驚くほど高い性能を達成できることが判明した。 これにより,SPICE,CIDEr,WMDなどの複雑な尺度を人的判断とシステムレベルの相関で打ち負かす有効な尺度WEmbSimが提案された。 さらに、一般的に使われている教師なし手法に対して、キャプションペアのヒトのコンセンサススコアを一致させるのに最適な精度を達成する。 したがって、WEmbSim は任意の複素計量を正当化するための新しい基底線を設定する。

The area of automatic image caption evaluation is still undergoing intensive research to address the needs of generating captions which can meet adequacy and fluency requirements. Based on our past attempts at developing highly sophisticated learning-based metrics, we have discovered that a simple cosine similarity measure using the Mean of Word Embeddings(MOWE) of captions can actually achieve a surprisingly high performance on unsupervised caption evaluation. This inspires our proposed work on an effective metric WEmbSim, which beats complex measures such as SPICE, CIDEr and WMD at system-level correlation with human judgments. Moreover, it also achieves the best accuracy at matching human consensus scores for caption pairs, against commonly used unsupervised methods. Therefore, we believe that WEmbSim sets a new baseline for any complex metric to be justified.
翻訳日:2021-04-25 08:28:51 公開日:2020-12-24
# マルチモーダルディープ・アンサンブルによる有害ミームの検出

Detecting Hateful Memes Using a Multimodal Deep Ensemble ( http://arxiv.org/abs/2012.13235v1 )

ライセンス: Link先を確認
Vlad Sandulescu(参考訳) ヘイトスピーチの検出には機械学習アルゴリズムが使用されているが、人間の精度に近づくために重要な技術的課題はまだ解決されていない。 直近の視覚言語トランスフォーマーアーキテクチャのいくつかを調査し,その性能向上のための改善を提案する。 提案したモデルは,3100名以上の参加者のうち,リーダボード上の5$^{th}$に対して,ベースラインを大きなマージンで上回る。

While significant progress has been made using machine learning algorithms to detect hate speech, important technical challenges still remain to be solved in order to bring their performance closer to human accuracy. We investigate several of the most recent visual-linguistic Transformer architectures and propose improvements to increase their performance for this task. The proposed model outperforms the baselines by a large margin and ranks 5$^{th}$ on the leaderboard out of 3,100+ participants.
翻訳日:2021-04-25 08:28:16 公開日:2020-12-24
# バンディットとrlにおけるモデル選択のための後悔境界バランスと除去

Regret Bound Balancing and Elimination for Model Selection in Bandits and RL ( http://arxiv.org/abs/2012.13045v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile, Peter Bartlett(参考訳) 本稿では,確率的バンディットと強化学習問題のアルゴリズムに対する簡単なモデル選択手法を提案する。 単純に)最適後悔の知識を仮定する以前の研究とは対照的に、各基本アルゴリズムは全てのラウンドで保持されるかもしれないし、持たないかもしれない、候補の後悔境界を持つ必要がある。 各ラウンドにおいて、我々の手法は、残されている全ての基本アルゴリズムの残差の残差を保ち、その候補境界に違反するアルゴリズムを排除するために、基本アルゴリズムを実行する。 このアプローチの完全な後悔は、最も有効な候補の後悔の時間と乗法的要因によって境界づけられていることを証明する。 この因子は、ネスト関数クラスを持つ線形包帯やMDP、未知の不特定な線形包帯、異なる信頼パラメータを持つ線形包帯に適用されるLinUCBなど、いくつかの応用において合理的に小さい。 さらに、適切なギャップ推定の下では、この因子は基本アルゴリズムの数でしかスケールせず、ラウンド数が十分に大きい場合の複雑さも示さない。 最後に、線形確率的包帯のモデル選択における最近の取り組みとは異なり、我々のアプローチは、確率的ではなく対向的な環境によって文脈情報が生成されるケースをカバーできる。

We propose a simple model selection approach for algorithms in stochastic bandit and reinforcement learning problems. As opposed to prior work that (implicitly) assumes knowledge of the optimal regret, we only require that each base algorithm comes with a candidate regret bound that may or may not hold during all rounds. In each round, our approach plays a base algorithm to keep the candidate regret bounds of all remaining base algorithms balanced, and eliminates algorithms that violate their candidate bound. We prove that the total regret of this approach is bounded by the best valid candidate regret bound times a multiplicative factor. This factor is reasonably small in several applications, including linear bandits and MDPs with nested function classes, linear bandits with unknown misspecification, and LinUCB applied to linear bandits with different confidence parameters. We further show that, under a suitable gap-assumption, this factor only scales with the number of base algorithms and not their complexity when the number of rounds is large enough. Finally, unlike recent efforts in model selection for linear stochastic bandits, our approach is versatile enough to also cover cases where the context information is generated by an adversarial environment, rather than a stochastic one.
翻訳日:2021-04-25 08:28:08 公開日:2020-12-24
# ProofWriter: 自然言語に対する含意、証明、帰納的文の生成

ProofWriter: Generating Implications, Proofs, and Abductive Statements over Natural Language ( http://arxiv.org/abs/2012.13048v1 )

ライセンス: Link先を確認
Oyvind Tafjord, Bhavana Dalvi Mishra, Peter Clark(参考訳) トランスフォーマーは自然言語理論(自然言語で表現される論理規則)上の論理的推論をエミュレートし、真/偽のラベルを候補に確実に割り当てることが示されている。 しかし、理論の含意を生成する能力はまだ実証されておらず、答えの証明を再構築する方法は不十分である。 本研究では、証明子と呼ばれる生成モデルが、理論の含意とそれらをサポートする自然言語証明の両方を確実に生成できることを示す。 特に、1段階の含意生成を繰り返すと、信頼性が高く、(ポストホックな合理化ではなく)実際のモデル決定を表す証明が得られる。 RuleTakerデータセットでは、ProofWriterの証明の精度が以前のメソッドを+9%以上上回り、トレーニングやドメイン外の問題では見えない深さの証明を一般化する。 理論と証明不可能な結論が与えられた場合、証明とともに結論を証明できる欠落した事実を特定する。 これらの結果は、自然言語を体系的に推論するためのニューラルメソッドの実行可能性を大幅に向上させた。

Transformers have been shown to emulate logical deduction over natural language theories (logical rules expressed in natural language), reliably assigning true/false labels to candidate implications. However, their ability to generate implications of a theory has not yet been demonstrated, and methods for reconstructing proofs of answers are imperfect. In this work we show that a generative model, called ProofWriter, can reliably generate both implications of a theory and the natural language proof(s) that support them. In particular, iterating a 1-step implication generator results in proofs that are highly reliable, and represent actual model decisions (rather than post-hoc rationalizations). On the RuleTaker dataset, the accuracy of ProofWriter's proofs exceed previous methods by +9% absolute, and in a way that generalizes to proof depths unseen in training and on out-of-domain problems. We also show that generative techniques can perform a type of abduction with high precision: Given a theory and an unprovable conclusion, identify a missing fact that allows the conclusion to be proved, along with a proof. These results significantly improve the viability of neural methods for systematically reasoning over natural language.
翻訳日:2021-04-25 08:26:45 公開日:2020-12-24
# フェアネス制約付き非定常多関節帯域に対するレグレトバウンド

A Regret bound for Non-stationary Multi-Armed Bandits with Fairness Constraints ( http://arxiv.org/abs/2012.13380v1 )

ライセンス: Link先を確認
Shaarad A. R and Ambedkar Dukkipati(参考訳) マルチアームバンディットのフレームワークは、シーケンシャルな意思決定問題の戦略を研究するための最も一般的なプラットフォームである。 近年、公平性の概念が機械学習コミュニティで注目を集めている。 任意の時点で、たとえ学習段階であっても、成績の悪い候補者がより良い候補者よりも好まれるべきでないという公平な条件を課すことができる。 この公正性制約は最も厳密な1つとして知られており、後悔の限界が確立された定常的な環境で確率的マルチアームバンドの枠組みで研究されている。 本論文の主な目的は,非定常環境でこの問題を研究することである。 本稿では,緩やかに変化する確率的k$-armed bandit問題を解くための探索的fair-ucbeアルゴリズムと結びついた,fair upper confidenceと呼ばれる新しいアルゴリズムを提案する。 i)fair-ucbeは、上記のフェアネス条件を実際に満たしており、(ii)$t$が時平線であるいくつかの適切な$\alpha \in (0, 1)$に対して、$o\left(k^{\frac{3}{2}} t^{1 - \frac{\alpha}{2}} \sqrt{\log t}\right)$となる。 これは私たちの知識を最大限に活用するために、非定常帯域幅に適用できるサブ線形後悔を持つ最初の公正アルゴリズムである。 非定常の場合におけるアルゴリズムの性能は,環境の変動がゼロになるにつれて定常値に近い値に近づくことが示された。

The multi-armed bandits' framework is the most common platform to study strategies for sequential decision-making problems. Recently, the notion of fairness has attracted a lot of attention in the machine learning community. One can impose the fairness condition that at any given point of time, even during the learning phase, a poorly performing candidate should not be preferred over a better candidate. This fairness constraint is known to be one of the most stringent and has been studied in the stochastic multi-armed bandits' framework in a stationary setting for which regret bounds have been established. The main aim of this paper is to study this problem in a non-stationary setting. We present a new algorithm called Fair Upper Confidence Bound with Exploration Fair-UCBe algorithm for solving a slowly varying stochastic $k$-armed bandit problem. With this we present two results: (i) Fair-UCBe indeed satisfies the above mentioned fairness condition, and (ii) it achieves a regret bound of $O\left(k^{\frac{3}{2}} T^{1 - \frac{\alpha}{2}} \sqrt{\log T}\right)$, for some suitable $\alpha \in (0, 1)$, where $T$ is the time horizon. This is the first fair algorithm with a sublinear regret bound applicable to non-stationary bandits to the best of our knowledge. We show that the performance of our algorithm in the non-stationary case approaches that of its stationary counterpart as the variation in the environment tends to zero.
翻訳日:2021-04-25 08:25:07 公開日:2020-12-24
# ソーシャルメディアにおける国家支援プロパガンダのマルチモーダル同定

Multi-modal Identification of State-Sponsored Propaganda on Social Media ( http://arxiv.org/abs/2012.13042v1 )

ライセンス: Link先を確認
Xiaobo Guo, Soroush Vosoughi(参考訳) 近年,インターネットにおける国家支援型プロパガンダの普及が懸念されている。 国家が支援するインターネット・プロパガンダを特定するために多くの努力がなされているが、プロパガンダのあいまいな定義が信頼できないデータラベリングにつながり、膨大な量の潜在的な予測機能によってモデルが説明不能になってしまうため、この問題は解決されるには程遠い。 本稿では、このタスクのためのバランスのとれたデータセットを構築する最初の試みである。 データセットは、2つの期間にわたる3つの異なる組織によるプロパガンダで構成されている。 同一期間(F1=0.869)と異なる期間(過去、未来、テスト)の両方において、同一期間(F1=0.697)の3団体によるプロパガンダ検出に有望な性能を達成できる、視覚的・テキスト的内容のみに基づくプロパガンダメッセージ検出のためのマルチモデルフレームワークを提案する(F1=0.697)。 偽陽性予測の影響を低減するため,偽陽性率と真陽性率の関係をテストするために閾値を変更し,フレームワークの解釈性を高めるために可視化ツールを用いてモデルによる予測について説明を行う。 我々の新しいデータセットと一般的なフレームワークは、国家が支援するインターネットプロパガンダを識別するタスクの強力なベンチマークを提供し、このタスクの今後の取り組みの道筋を指摘する。

The prevalence of state-sponsored propaganda on the Internet has become a cause for concern in the recent years. While much effort has been made to identify state-sponsored Internet propaganda, the problem remains far from being solved because the ambiguous definition of propaganda leads to unreliable data labelling, and the huge amount of potential predictive features causes the models to be inexplicable. This paper is the first attempt to build a balanced dataset for this task. The dataset is comprised of propaganda by three different organizations across two time periods. A multi-model framework for detecting propaganda messages solely based on the visual and textual content is proposed which achieves a promising performance on detecting propaganda by the three organizations both for the same time period (training and testing on data from the same time period) (F1=0.869) and for different time periods (training on past, testing on future) (F1=0.697). To reduce the influence of false positive predictions, we change the threshold to test the relationship between the false positive and true positive rates and provide explanations for the predictions made by our models with visualization tools to enhance the interpretability of our framework. Our new dataset and general framework provide a strong benchmark for the task of identifying state-sponsored Internet propaganda and point out a potential path for future work on this task.
翻訳日:2021-04-25 08:24:38 公開日:2020-12-24
# 木構造付加モデルによる高次元ベイズ最適化

High-Dimensional Bayesian Optimization via Tree-Structured Additive Models ( http://arxiv.org/abs/2012.13088v1 )

ライセンス: Link先を確認
Eric Han, Ishank Arora, Jonathan Scarlett(参考訳) ベイズ最適化(BO)は高価な低次元ブラックボックス最適化問題に取り組む上で大きな成功を収めている。 関心のある多くの最適化問題は高次元であり、そのような設定へのboのスケーリングは依然として重要な課題である。 本稿では,変数の重複部分集合を持つ低次元関数を高次元対象関数をモデル化するために構成する一般化加法モデルを考える。 我々のゴールは、既存の手法のサンプル効率を維持しつつ、モデルの複雑さを減らし、計算資源の削減とモデル学習の高速化である。 具体的には,構造学習と獲得関数の最適化の両方を容易にするため,木構造への依存グラフの制約を行う。 前者に対しては,ギブスサンプリングと突然変異に基づくハイブリッドグラフ学習アルゴリズムを提案する。 さらに,連続ドメインの場合,一般化された加法モデルをより効率的に活用することのできる,ズームに基づく新しいアルゴリズムを提案する。 我々は,合成関数と実世界のデータセットに関する実験を通じて,我々のアプローチの有効性を実証し,議論する。

Bayesian Optimization (BO) has shown significant success in tackling expensive low-dimensional black-box optimization problems. Many optimization problems of interest are high-dimensional, and scaling BO to such settings remains an important challenge. In this paper, we consider generalized additive models in which low-dimensional functions with overlapping subsets of variables are composed to model a high-dimensional target function. Our goal is to lower the computational resources required and facilitate faster model learning by reducing the model complexity while retaining the sample-efficiency of existing methods. Specifically, we constrain the underlying dependency graphs to tree structures in order to facilitate both the structure learning and optimization of the acquisition function. For the former, we propose a hybrid graph learning algorithm based on Gibbs sampling and mutation. In addition, we propose a novel zooming-based algorithm that permits generalized additive models to be employed more efficiently in the case of continuous domains. We demonstrate and discuss the efficacy of our approach via a range of experiments on synthetic functions and real-world datasets.
翻訳日:2021-04-25 08:24:11 公開日:2020-12-24
# 確率帯域結合のための上部信頼境界

Upper Confidence Bounds for Combining Stochastic Bandits ( http://arxiv.org/abs/2012.13115v1 )

ライセンス: Link先を確認
Ashok Cutkosky, Abhimanyu Das, Manish Purohit(参考訳) 確率的バンディットアルゴリズムを結合する簡単な手法を提案する。 提案手法は,従来の UCB アルゴリズムの変種を用いて解く高レベルな$N$のバンドイット問題において,各$N$の個別バンドイットアルゴリズムをアームとして扱う "meta-UCB" 手法に基づいている。 私たちの最後の後悔は、基本アルゴリズムの後悔にのみ依存します。 このアプローチは、CORRALが基本アルゴリズムに課す安定性条件を必要とせず、CORRALアルゴリズムの逆の帯域幅に対する簡単かつ直感的な代替戦略を提供する。 本研究の結果は,いくつかの設定で下位境界値と一致し,不特定線形帯域問題とモデル選択問題に対するアルゴリズムの実証検証を行う。

We provide a simple method to combine stochastic bandit algorithms. Our approach is based on a "meta-UCB" procedure that treats each of $N$ individual bandit algorithms as arms in a higher-level $N$-armed bandit problem that we solve with a variant of the classic UCB algorithm. Our final regret depends only on the regret of the base algorithm with the best regret in hindsight. This approach provides an easy and intuitive alternative strategy to the CORRAL algorithm for adversarial bandits, without requiring the stability conditions imposed by CORRAL on the base algorithms. Our results match lower bounds in several settings, and we provide empirical validation of our algorithm on misspecified linear bandit and model selection problems.
翻訳日:2021-04-25 08:23:56 公開日:2020-12-24
# 近似ベイズ推論のためのバッチ正規化について

On Batch Normalisation for Approximate Bayesian Inference ( http://arxiv.org/abs/2012.13220v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Puneet K. Dokania, Philip H.S. Torr, Yarin Gal(参考訳) 本研究では,平均場やMCDropoutなどのベイズニューラルネットワークにおける変分推論手法の文脈におけるバッチ正規化について検討した。 バッチ正規化はエビデンス下限 (elbo) の最適値には影響を与えないことを示す。 さらにモンテカルロバッチ正規化 (mcbn) アルゴリズムをmcドロップアウトと平行な近似推定手法として提案し, バッチサイズが大きい場合には, mcbnが認識の不確かさを捉えることができないことを示した。 最後に、この障害を修正するために何が必要なのか、すなわち、ミニバッチサイズをMCBNの変動パラメータとして見る必要がある。 この変動パラメータに対するELBOの漸近性についてコメントし、データセットのサイズが無限大に向かって増加するにつれて、バッチサイズは無限大に向けて増加し、MCBNが妥当な近似推論手法であることを示す。

We study batch normalisation in the context of variational inference methods in Bayesian neural networks, such as mean-field or MC Dropout. We show that batch-normalisation does not affect the optimum of the evidence lower bound (ELBO). Furthermore, we study the Monte Carlo Batch Normalisation (MCBN) algorithm, proposed as an approximate inference technique parallel to MC Dropout, and show that for larger batch sizes, MCBN fails to capture epistemic uncertainty. Finally, we provide insights into what is required to fix this failure, namely having to view the mini-batch size as a variational parameter in MCBN. We comment on the asymptotics of the ELBO with respect to this variational parameter, showing that as dataset size increases towards infinity, the batch-size must increase towards infinity as well for MCBN to be a valid approximate inference technique.
翻訳日:2021-04-25 08:23:43 公開日:2020-12-24
# 雑音ラベルデータを用いた学習停止点の同定

Identifying Training Stop Point with Noisy Labeled Data ( http://arxiv.org/abs/2012.13435v1 )

ライセンス: Link先を確認
Sree Ram Kamabattula, Venkat Devarajan, Babak Namazi, Ganesh Sankaranarayanan(参考訳) ノイズラベルによるディープニューラルネットワーク(DNN)のトレーニングは、過パラメータ化による難しい問題である。 dnnは、初期段階においてクリーンなサンプルに本質的に適合する傾向にあり、後に比較的低い速度でノイズの多いサンプルに適合する。 したがって、ノイズの多いデータセットでは、テストの精度が最初に上がり、後期に低下する。 近年の研究では, 有効性試験精度(MOTA)の早期停止点を見つけるために, i) クリーンな検証セットが利用可能か, i) ノイズ比が知られているか, 両方を仮定している。 しかし、しばしばクリーンな検証セットは利用できず、ノイズ推定は不正確である。 これらの問題を克服するために,我々は,これらの条件を伴わない新しいトレーニングソリューションを提供する。 異なる条件下での異なる騒音比に対する訓練精度の変化率を分析し,訓練停止領域を同定する。 さらに,MOTA付近のトレーニング停止点(TSP)を見つけるために,小規模学習仮定に基づくヒューリスティックアルゴリズムを開発した。 我々の知る限りでは、我々の手法は、トレーニングセット全体を活用しながら、最初に \textit{training behavior} にのみ依存し、自動的に TSP を見つける。 我々は,CIFAR-10,CIFAR-100,およびノイズ比,ノイズタイプ,アーキテクチャの異なる実環境雑音データを用いて,アルゴリズム(AutoTSP)のロバスト性を検証した。

Training deep neural networks (DNNs) with noisy labels is a challenging problem due to over-parameterization. DNNs tend to essentially fit on clean samples at a higher rate in the initial stages, and later fit on the noisy samples at a relatively lower rate. Thus, with a noisy dataset, the test accuracy increases initially and drops in the later stages. To find an early stopping point at the maximum obtainable test accuracy (MOTA), recent studies assume either that i) a clean validation set is available or ii) the noise ratio is known, or, both. However, often a clean validation set is unavailable, and the noise estimation can be inaccurate. To overcome these issues, we provide a novel training solution, free of these conditions. We analyze the rate of change of the training accuracy for different noise ratios under different conditions to identify a training stop region. We further develop a heuristic algorithm based on a small-learning assumption to find a training stop point (TSP) at or close to MOTA. To the best of our knowledge, our method is the first to rely solely on the \textit{training behavior}, while utilizing the entire training set, to automatically find a TSP. We validated the robustness of our algorithm (AutoTSP) through several experiments on CIFAR-10, CIFAR-100, and a real-world noisy dataset for different noise ratios, noise types and architectures.
翻訳日:2021-04-25 08:23:25 公開日:2020-12-24
# 音声言語識別のための最適トランスポートに基づく教師なしニューラル適応モデル

Unsupervised neural adaptation model based on optimal transport for spoken language identification ( http://arxiv.org/abs/2012.13152v1 )

ライセンス: Link先を確認
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai(参考訳) トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。 本稿では,sidの分布ミスマッチ問題に対処するための教師なしニューラルネットワーク適応モデルを提案する。 本モデルでは,データセットの学習と試験のための特徴量と分類器の分布差を低減するために適応を明示的に定式化する。 さらに、分布差を測定するための最適輸送(OT)の強い力にインスパイアされ、ワッサーシュタイン距離メートル法が適応損失として設計される。 トレーニングデータとテストデータの両方における適応損失を伴うトレーニングデータセットの分類損失を最小化することにより、トレーニング領域とテスト領域の統計分布差を低減させる。 学習データとテストデータセットを異なる条件で収集したオリエンタル言語認識(OLR)チャレンジデータコーパスについてSLID実験を行った。 その結果,クロスドメインテストタスクにおいて大幅な改善が得られた。

Due to the mismatch of statistical distributions of acoustic speech between training and testing sets, the performance of spoken language identification (SLID) could be drastically degraded. In this paper, we propose an unsupervised neural adaptation model to deal with the distribution mismatch problem for SLID. In our model, we explicitly formulate the adaptation as to reduce the distribution discrepancy on both feature and classifier for training and testing data sets. Moreover, inspired by the strong power of the optimal transport (OT) to measure distribution discrepancy, a Wasserstein distance metric is designed in the adaptation loss. By minimizing the classification loss on the training data set with the adaptation loss on both training and testing data sets, the statistical distribution difference between training and testing domains is reduced. We carried out SLID experiments on the oriental language recognition (OLR) challenge data corpus where the training and testing data sets were collected from different conditions. Our results showed that significant improvements were achieved on the cross domain test tasks.
翻訳日:2021-04-25 08:23:02 公開日:2020-12-24
# attentionddi:siamese attention-based deep learning method for drug-drug interaction predictions

AttentionDDI: Siamese Attention-based Deep Learning method for drug-drug interaction predictions ( http://arxiv.org/abs/2012.13248v1 )

ライセンス: Link先を確認
Kyriakos Schwarz, Ahmed Allam, Nicolas Andres Perez Gonzalez, Michael Krauthammer(参考訳) 背景: 薬物と薬物の相互作用(DDIs)は、薬物が単独で投与されたときに観察されるもの以上の副作用を引き起こす2つ以上の薬物の投与によって引き起こされる過程を指す。 大量の薬物対が存在するため、すべての組み合わせを実験的にテストし、以前は観測されていなかった副作用を発見することはほとんど不可能である。 したがって、この問題に対処するために機械学習ベースの手法が使われている。 方法: 薬物標的, 経路, 遺伝子発現プロファイルなどの薬物特性の比較から得られた複数の薬物類似性対策を統合した, DDI予測のためのシームズ自己注意型マルチモーダルニューラルネットワークを提案する。 結果:提案したDDI予測モデルは,複数のステップから構成されるモデルの制約を克服し,訓練されたエンドツーエンドで克服し,2)有意な入力特徴を特定するための注意機構を通じてモデル説明性を提供し,3)類似またはより良い予測性能(AUPRスコアは0.77から0.92)を,さまざまなベンチマークデータセットでテストした場合の最先端DDIモデルと比較した。 新たなDDI予測は、独立したデータリソースを使用してさらに検証される。 結論: シームズマルチモーダルニューラルネットワークはDDIを正確に予測することができ、自然言語処理ドメインで一般的に使用されるアテンションメカニズムがDDIモデル説明容易性を支援するために有効に適用できることがわかった。

Background: Drug-drug interactions (DDIs) refer to processes triggered by the administration of two or more drugs leading to side effects beyond those observed when drugs are administered by themselves. Due to the massive number of possible drug pairs, it is nearly impossible to experimentally test all combinations and discover previously unobserved side effects. Therefore, machine learning based methods are being used to address this issue. Methods: We propose a Siamese self-attention multi-modal neural network for DDI prediction that integrates multiple drug similarity measures that have been derived from a comparison of drug characteristics including drug targets, pathways and gene expression profiles. Results: Our proposed DDI prediction model provides multiple advantages: 1) It is trained end-to-end, overcoming limitations of models composed of multiple separate steps, 2) it offers model explainability via an Attention mechanism for identifying salient input features and 3) it achieves similar or better prediction performance (AUPR scores ranging from 0.77 to 0.92) compared to state-of-the-art DDI models when tested on various benchmark datasets. Novel DDI predictions are further validated using independent data resources. Conclusions: We find that a Siamese multi-modal neural network is able to accurately predict DDIs and that an Attention mechanism, typically used in the Natural Language Processing domain, can be beneficially applied to aid in DDI model explainability.
翻訳日:2021-04-25 08:22:46 公開日:2020-12-24
# 混乱のモデル化による群衆からの学習

Learning from Crowds by Modeling Common Confusions ( http://arxiv.org/abs/2012.13052v1 )

ライセンス: Link先を確認
Zhendong Chu, Jing Ma, Hongning Wang(参考訳) クラウドソーシングは、大量のラベル付きデータを低コストで取得する実用的な方法を提供する。 しかしアノテータのアノテーションの品質は大きく異なり、クラウドソースアノテーションから高品質なモデルを学ぶ上で新たな課題がもたらされる。 本稿では,アノテーションノイズを共通の雑音と個々の雑音に分解し,インスタンスの難易度とアノテーションの専門知識に基づいて混乱の原因を区別する新しい視点を提案する。 この新たなクラウドソーシングモデルは,2種類のノイズ適応層を持つエンドツーエンド学習ソリューションによって実現される。1つは,一般的な混同をキャプチャするためにアノテータ間で共有され,もう1つは個々の混同を実現するためにアノテータに関連するものである。 各アノテーションのノイズ発生源を認識するために,補助ネットワークを用いて2つの雑音適応層をインスタンスと注釈子の両方に対して選択する。 合成および実世界のベンチマークによる大規模な実験により,提案手法の有効性が示された。

Crowdsourcing provides a practical way to obtain large amounts of labeled data at a low cost. However, the annotation quality of annotators varies considerably, which imposes new challenges in learning a high-quality model from the crowdsourced annotations. In this work, we provide a new perspective to decompose annotation noise into common noise and individual noise and differentiate the source of confusion based on instance difficulty and annotator expertise on a per-instance-annotator basis. We realize this new crowdsourcing model by an end-to-end learning solution with two types of noise adaptation layers: one is shared across annotators to capture their commonly shared confusions, and the other one is pertaining to each annotator to realize individual confusion. To recognize the source of noise in each annotation, we use an auxiliary network to choose the two noise adaptation layers with respect to both instances and annotators. Extensive experiments on both synthesized and real-world benchmarks demonstrate the effectiveness of our proposed common noise adaptation solution.
翻訳日:2021-04-25 08:22:17 公開日:2020-12-24
# white matter hyperintensities volume and cognition:アルツハイマー病の神経画像化イニシアチブにおける深層学習に基づく病変検出と定量化アルゴリズムの評価

White matter hyperintensities volume and cognition: Assessment of a deep learning based lesion detection and quantification algorithm on the Alzheimers Disease Neuroimaging Initiative ( http://arxiv.org/abs/2012.13059v1 )

ライセンス: Link先を確認
Lavanya Umapathy, Gloria Guzman Perez-Carillo, Blair Winegar, Srinivasan Vedantham, Maria Altbach, and Ali Bilgin(参考訳) 認知と白質ハイパーインテンシティ(WMH)のボリュームの関係は、しばしば使用する病変分割アルゴリズムの精度に依存する。 したがって、WMHの正確な検出と定量化は非常に興味深い。 本稿では,深層学習に基づくWMHセグメンテーションアルゴリズムStackGen-Netを用いて,ADNIから3次元FLAIRボリューム上でWMHを検出し定量化する。 被験者のサブセット(n=20)と経験者神経放射線科医による手動WMHセグメンテーションを用いて,アルゴリズムの精度を実証した。 対象者のより大きなコホート(n=290)では, より大きなWMHボリュームが, 実行機能(P=.004), メモリ(P=.01), 言語(P=.005)の悪化と相関していることがわかった。

The relationship between cognition and white matter hyperintensities (WMH) volumes often depends on the accuracy of the lesion segmentation algorithm used. As such, accurate detection and quantification of WMH is of great interest. Here, we use a deep learning-based WMH segmentation algorithm, StackGen-Net, to detect and quantify WMH on 3D FLAIR volumes from ADNI. We used a subset of subjects (n=20) and obtained manual WMH segmentations by an experienced neuro-radiologist to demonstrate the accuracy of our algorithm. On a larger cohort of subjects (n=290), we observed that larger WMH volumes correlated with worse performance on executive function (P=.004), memory (P=.01), and language (P=.005).
翻訳日:2021-04-25 08:22:00 公開日:2020-12-24
# オンライン写真共有のリアルタイム効果

Unveiling Real-Life Effects of Online Photo Sharing ( http://arxiv.org/abs/2012.13180v1 )

ライセンス: Link先を確認
Van-Khoa Nguyen, Adrian Popescu, Jerome Deshayes-Chossart(参考訳) ソーシャルネットワークは、ユーザーのデータを利用する権利と引き換えに、サービスへの無料アクセスを提供する。 データ共有は、ユーザが選択した最初のコンテキストで実行される。 しかし、データはソーシャルネットワークやサードパーティーによって異なる文脈で使われ、しばしば透明性がない。 本稿では,影響のある実環境におけるデータ共有の効果を明らかにする新しい手法を提案する。 オンラインユーザープロフィールの形成に強い影響があるため、ビジュアルコンテンツに焦点が当てられている。 このアプローチは,(1)クラウドソーシングによって得られた状況影響評価に関連する概念のセット,(2)ユーザの写真を分析するために使用される対象検出器のセット,(3)状況毎に手動で評価される500のビジュアルユーザプロファイルからなる基底真理データセットの3つのコンポーネントに依存している。 これらのコンポーネントは、各状況における視覚的ユーザプロファイルを評価する方法を学習するLERVUPに組み合わされている。 LERVUPは新しいイメージ記述子を利用して、ユーザレベルで概念評価とオブジェクト検出を集約する。 また、注目メカニズムを使用して、高い評価のコンセプトの検出を強化し、低い評価のコンセプトに圧倒されるのを防ぐ。 プロファイルレーティングの自動ランキングと手動の地上真実との相関を測定することにより、状況ごとに性能を評価する。 その結果、LERVUPは2つのランキングの相関が強いため有効であることが示唆された。 この結果は、データ共有の効果に関する有意義な自動的状況関連フィードバックを提供することが可能であることを示している。

Social networks give free access to their services in exchange for the right to exploit their users' data. Data sharing is done in an initial context which is chosen by the users. However, data are used by social networks and third parties in different contexts which are often not transparent. We propose a new approach which unveils potential effects of data sharing in impactful real-life situations. Focus is put on visual content because of its strong influence in shaping online user profiles. The approach relies on three components: (1) a set of concepts with associated situation impact ratings obtained by crowdsourcing, (2) a corresponding set of object detectors used to analyze users' photos and (3) a ground truth dataset made of 500 visual user profiles which are manually rated for each situation. These components are combined in LERVUP, a method which learns to rate visual user profiles in each situation. LERVUP exploits a new image descriptor which aggregates concept ratings and object detections at user level. It also uses an attention mechanism to boost the detections of highly-rated concepts to prevent them from being overwhelmed by low-rated ones. Performance is evaluated per situation by measuring the correlation between the automatic ranking of profile ratings and a manual ground truth. Results indicate that LERVUP is effective since a strong correlation of the two rankings is obtained. This finding indicates that providing meaningful automatic situation-related feedback about the effects of data sharing is feasible.
翻訳日:2021-04-25 08:21:39 公開日:2020-12-24
# モデル関数に基づくBregman近位最小化アルゴリズムの大域的収束

Global Convergence of Model Function Based Bregman Proximal Minimization Algorithms ( http://arxiv.org/abs/2012.13161v1 )

ライセンス: Link先を確認
Mahesh Chandra Mukkamala, Jalal Fadili, Peter Ochs(参考訳) 連続微分可能関数の勾配写像のリプシッツ連続性は、様々な最適化アルゴリズムの設計において重要な役割を果たす。 しかし、低階行列因数分解やディープニューラルネットワーク問題のような実践的な応用で生じる多くの関数は、リプシッツ連続勾配を持たない。 これは、ブレグマン距離と呼ばれる一般化された近接測度に基づく、$l$-smadプロパティとして知られる一般化概念の開発につながった。 しかし、$L$-smadプロパティは、例えば$\abs{x^4-1}$のような単純な非滑らか関数を扱えない。 これは$l$-smadプロパティを一般化し、非凸な非滑らかな複合問題の大きなクラスにも有効である。 提案するマップ特性に基づいて,複数の既存アルゴリズムを統一したモデル bpg という大域収束アルゴリズムを提案する。 収束解析は新しいリアプノフ関数に基づいている。 また,一般の非凸非滑らかな最適化問題に対して有効なアート最適化手法の状態と比較して,標準位相探索問題,ロバスト位相探索問題,ポアソン線形逆問題に対するモデルBPGの優れた性能を数値的に説明する。

Lipschitz continuity of the gradient mapping of a continuously differentiable function plays a crucial role in designing various optimization algorithms. However, many functions arising in practical applications such as low rank matrix factorization or deep neural network problems do not have a Lipschitz continuous gradient. This led to the development of a generalized notion known as the $L$-smad property, which is based on generalized proximity measures called Bregman distances. However, the $L$-smad property cannot handle nonsmooth functions, for example, simple nonsmooth functions like $\abs{x^4-1}$ and also many practical composite problems are out of scope. We fix this issue by proposing the MAP property, which generalizes the $L$-smad property and is also valid for a large class of nonconvex nonsmooth composite problems. Based on the proposed MAP property, we propose a globally convergent algorithm called Model BPG, that unifies several existing algorithms. The convergence analysis is based on a new Lyapunov function. We also numerically illustrate the superior performance of Model BPG on standard phase retrieval problems, robust phase retrieval problems, and Poisson linear inverse problems, when compared to a state of the art optimization method that is valid for generic nonconvex nonsmooth optimization problems.
翻訳日:2021-04-25 08:21:16 公開日:2020-12-24
# ドメイン適応としての言語間依存パーシング

Cross-lingual Dependency Parsing as Domain Adaptation ( http://arxiv.org/abs/2012.13163v1 )

ライセンス: Link先を確認
Kailai Sun, Zuchao Li, Hai Zhao(参考訳) 自然言語処理(NLP)では、低リソース言語のための注釈付きリソースが利用できないため、言語間変換学習はドメイン内学習と同じくらい不可欠である。 本稿では,教師なしの普遍的な特徴を抽出する事前学習タスクの能力を利用する。 マルチタスクとして依存性解析に2つの事前学習タスクを追加し、ドメイン内および言語間両方の面でモデルの性能を向上させる。 さらに,クロスドメイン学習における自己学習の有用性に着想を得て,従来の自己学習と2つの事前学習を組み合わせる。 このように、トレーニングコーパスだけでなく、追加の無注釈データにおいても、普遍的な特徴を継続的に抽出し、さらなる改善を得ることができる。

In natural language processing (NLP), cross-lingual transfer learning is as essential as in-domain learning due to the unavailability of annotated resources for low-resource languages. In this paper, we use the ability of a pre-training task that extracts universal features without supervision. We add two pre-training tasks as the auxiliary task into dependency parsing as multi-tasking, which improves the performance of the model in both in-domain and cross-lingual aspects. Moreover, inspired by the usefulness of self-training in cross-domain learning, we combine the traditional self-training and the two pre-training tasks. In this way, we can continuously extract universal features not only in training corpus but also in extra unannotated data and gain further improvement.
翻訳日:2021-04-25 08:20:55 公開日:2020-12-24
# 多言語ニューラルマシン翻訳におけるジェンダーバイアス:アーキテクチャの問題

Gender Bias in Multilingual Neural Machine Translation: The Architecture Matters ( http://arxiv.org/abs/2012.13176v1 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a, Carlos Escolano, Christine Basta, Javier Ferrando, Roser Batlle and Ksenia Kharitonova(参考訳) 多言語ニューラルマシン翻訳アーキテクチャは、主に言語間のモジュールやパラメータの共有量が異なる。 本稿では、アルゴリズムの観点から、選択したアーキテクチャが同じデータで訓練された場合、性別バイアスの精度に影響を与えるかどうかを考察する。 4つの言語対の実験により、言語固有のエンコーダ-デコーダは共有エンコーダ-デコーダアーキテクチャよりもバイアスが少ないことが示されている。 情報源埋め込みと注意のさらなる解釈可能性分析は、言語特化の場合、埋め込みはより多くの性別情報をエンコードし、その注意はより分散していることを示している。 両方の行動は男女のバイアスを軽減するのに役立つ。

Multilingual Neural Machine Translation architectures mainly differ in the amount of sharing modules and parameters among languages. In this paper, and from an algorithmic perspective, we explore if the chosen architecture, when trained with the same data, influences the gender bias accuracy. Experiments in four language pairs show that Language-Specific encoders-decoders exhibit less bias than the Shared encoder-decoder architecture. Further interpretability analysis of source embeddings and the attention shows that, in the Language-Specific case, the embeddings encode more gender information, and its attention is more diverted. Both behaviors help in mitigating gender bias.
翻訳日:2021-04-25 08:20:44 公開日:2020-12-24
# co-gat:ジョイントダイアログアクティベーション認識と感情分類のための対話型グラフ注意ネットワーク

Co-GAT: A Co-Interactive Graph Attention Network for Joint Dialog Act Recognition and Sentiment Classification ( http://arxiv.org/abs/2012.13260v1 )

ライセンス: Link先を確認
Libo Qin, Zhouyang Li, Wanxiang Che, Minheng Ni, Ting Liu(参考訳) 対話システムでは、対話行為認識と感情分類は話者意図を捉えるための2つの相関的なタスクであり、対話行為と感情は明示的意図と暗黙的意図を別々に示すことができる。 対話コンテキスト情報(コンテキスト情報)と相互相互作用情報は、この2つの関連するタスクに寄与する2つの重要な要素である。 残念ながら、既存のどのアプローチも2つの重要な情報ソースを同時に考慮していない。 本稿では,2つのタスクを協調実行するためのコ・インターアクティブグラフ注意ネットワーク(Co-GAT)を提案する。 コアモジュールは、クロス発話接続とクロスタスク接続が構築され、相互に更新され、2つの種類の情報を同時に考慮する共対話グラフインタラクション層である。 2つの公開データセットによる実験結果から,我々のモデルは2つの情報源の取得に成功し,最先端の性能を達成できた。 さらに,文脈的および相互的相互作用情報からの貢献は,文脈的表現(bert,roberta,xlnet)と完全に重複しないことがわかった。

In a dialog system, dialog act recognition and sentiment classification are two correlative tasks to capture speakers intentions, where dialog act and sentiment can indicate the explicit and the implicit intentions separately. The dialog context information (contextual information) and the mutual interaction information are two key factors that contribute to the two related tasks. Unfortunately, none of the existing approaches consider the two important sources of information simultaneously. In this paper, we propose a Co-Interactive Graph Attention Network (Co-GAT) to jointly perform the two tasks. The core module is a proposed co-interactive graph interaction layer where a cross-utterances connection and a cross-tasks connection are constructed and iteratively updated with each other, achieving to consider the two types of information simultaneously. Experimental results on two public datasets show that our model successfully captures the two sources of information and achieve the state-of-the-art performance. In addition, we find that the contributions from the contextual and mutual interaction information do not fully overlap with contextualized word representations (BERT, Roberta, XLNet).
翻訳日:2021-04-25 08:20:32 公開日:2020-12-24
# 自然言語攻撃生成のための文脈対応アプローチ

A Context Aware Approach for Generating Natural Language Attacks ( http://arxiv.org/abs/2012.13339v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi(参考訳) ブラックボックス設定で自然言語処理モデルを攻撃する重要な課題について検討する。 本稿では,テキスト分類と包含タスクにおいて,意味的に類似した逆例を作成する攻撃戦略を提案する。 提案攻撃は,元の単語とその周囲の文脈の両方の情報を考慮し,候補語を見つける。 マスク付き言語モデリングとコンテキスト理解のための次の文予測を併用する。 従来の文献で提案された攻撃と比較して, 成功率と単語摂動率の両面において, 高い品質の敵対例を生成することができる。

We study an important task of attacking natural language processing models in a black box setting. We propose an attack strategy that crafts semantically similar adversarial examples on text classification and entailment tasks. Our proposed attack finds candidate words by considering the information of both the original word and its surrounding context. It jointly leverages masked language modelling and next sentence prediction for context understanding. In comparison to attacks proposed in prior literature, we are able to generate high quality adversarial examples that do significantly better both in terms of success rate and word perturbation percentage.
翻訳日:2021-04-25 08:20:14 公開日:2020-12-24
# SPOTTER:目標強化学習によるシンボリックプランニングオペレータの拡張

SPOTTER: Extending Symbolic Planning Operators through Targeted Reinforcement Learning ( http://arxiv.org/abs/2012.13037v1 )

ライセンス: Link先を確認
Vasanth Sarathy, Daniel Kasenberg, Shivam Goel, Jivko Sinapov, Matthias Scheutz(参考訳) シンボリックプランニングモデルは、決定エージェントが任意の方法でアクションをシーケンスし、動的ドメインの様々な目標を達成することを可能にする。 しかし、通常は手作りであり、人間の誤りに対して堅牢でない正確な定式化を必要とする傾向がある。 強化学習(RL)アプローチはそのようなモデルを必要としない。 しかしながら、RLアプローチは数百万回の経験を必要とし、しばしば他のタスクに簡単に転送できないポリシーを学ぶ。 本稿では、これらのアプローチを統合するためのオープンな問題の1つに対処する: 意思決定エージェントは、目標達成を試みながら、象徴的計画モデルにおける不一致をどうやって解決できるのか? エージェントに到達不可能な目標を達成するために,エージェントが必要とする新たな演算子を探索し,RLを用いて計画エージェントを増強し,サポートするSPOTTERという統合フレームワークを提案する。 SPOTTERは純粋なRLアプローチよりも優れており、トランスファー可能なシンボリック知識を発見し、監督や計画トレース、あるいは行方不明の計画オペレータに関する事前知識を必要としない。

Symbolic planning models allow decision-making agents to sequence actions in arbitrary ways to achieve a variety of goals in dynamic domains. However, they are typically handcrafted and tend to require precise formulations that are not robust to human error. Reinforcement learning (RL) approaches do not require such models, and instead learn domain dynamics by exploring the environment and collecting rewards. However, RL approaches tend to require millions of episodes of experience and often learn policies that are not easily transferable to other tasks. In this paper, we address one aspect of the open problem of integrating these approaches: how can decision-making agents resolve discrepancies in their symbolic planning models while attempting to accomplish goals? We propose an integrated framework named SPOTTER that uses RL to augment and support ("spot") a planning agent by discovering new operators needed by the agent to accomplish goals that are initially unreachable for the agent. SPOTTER outperforms pure-RL approaches while also discovering transferable symbolic knowledge and does not require supervision, successful plan traces or any a priori knowledge about the missing planning operator.
翻訳日:2021-04-25 08:20:03 公開日:2020-12-24
# LCEval: カプセル評価のための複合メトリックの学習

LCEval: Learned Composite Metric for Caption Evaluation ( http://arxiv.org/abs/2012.13136v1 )

ライセンス: Link先を確認
Naeha Sharif and Lyndon White and Mohammed Bennamoun and Wei Liu and Syed Afaq Ali Shah(参考訳) 自動評価指標は字幕システムの開発と細部解析において重要な意味を持つ。 現在の評価基準は、システムレベルでの人間の判断と許容できる相関性を達成する傾向にあるが、キャプションレベルでは達成できない。 本研究では,キャプションレベルのキャプション評価を改善するために,ニューラルネットワークを用いた学習指標を提案する。 本稿では,学習指標のパフォーマンスに影響を与えるパラメータについて,異なる言語的特徴と学習指標のキャプションレベル相関との関係について検討する。 また、異なるトレーニング例でトレーニングされたメトリクスを比較して、評価のバリエーションを測定します。 さらに,様々な文の摂動に対する学習指標と手作り指標の感度を強調するロバスト性解析を行う。 実験分析の結果,提案指標はキャプションレベルの相関から既存の指標よりも優れているだけでなく,人的評価に対するシステムレベルの相関も強いことがわかった。

Automatic evaluation metrics hold a fundamental importance in the development and fine-grained analysis of captioning systems. While current evaluation metrics tend to achieve an acceptable correlation with human judgements at the system level, they fail to do so at the caption level. In this work, we propose a neural network-based learned metric to improve the caption-level caption evaluation. To get a deeper insight into the parameters which impact a learned metrics performance, this paper investigates the relationship between different linguistic features and the caption-level correlation of the learned metrics. We also compare metrics trained with different training examples to measure the variations in their evaluation. Moreover, we perform a robustness analysis, which highlights the sensitivity of learned and handcrafted metrics to various sentence perturbations. Our empirical analysis shows that our proposed metric not only outperforms the existing metrics in terms of caption-level correlation but it also shows a strong system-level correlation against human assessments.
翻訳日:2021-04-25 08:19:43 公開日:2020-12-24
# ポートフォリオに基づくアルゴリズム選択における一般化

Generalization in portfolio-based algorithm selection ( http://arxiv.org/abs/2012.13315v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Tuomas Sandholm, and Ellen Vitercik(参考訳) ポートフォリオベースのアルゴリズム選択は、過去20年で大きな成功を収めてきた。 このアルゴリズム構成手順は、まず多様なアルゴリズムパラメータ設定のポートフォリオを選択し、次に与えられた問題インスタンス上でアルゴリズムセレクタを使用して、強い予測性能を持つポートフォリオからパラメータ設定を選択する。 多くの場合、ポートフォリオとアルゴリズムセレクタは、手元のアプリケーションドメインの典型的な問題インスタンスのトレーニングセットを使用して選択される。 本稿では,ポートフォリオに基づくアルゴリズム選択に対する証明可能な最初の保証を提供する。 トレーニングセットがどの程度大きいかを分析し、結果のアルゴリズムセレクタの平均的なパフォーマンスが将来の(予測された)パフォーマンスに近いことを確認します。 1)アルゴリズムセレクタの学習-理論的な複雑さ、2)ポートフォリオのサイズ、3)アルゴリズムのパフォーマンスをパラメータの関数として学習-理論的な複雑さである。 本稿では,ポートフォリオ構築とアルゴリズム選択のエンドツーエンド学習理論分析を紹介する。 ポートフォリオが大きければ、非常に単純なアルゴリズムセレクタであっても、過剰適合は避けられないことを証明します。 ポートフォリオのサイズが大きくなるにつれて、可能なすべての問題インスタンスに適切なパラメータ設定を組み込むことが期待できますが、過度な適合を避けることは不可能になります。

Portfolio-based algorithm selection has seen tremendous practical success over the past two decades. This algorithm configuration procedure works by first selecting a portfolio of diverse algorithm parameter settings, and then, on a given problem instance, using an algorithm selector to choose a parameter setting from the portfolio with strong predicted performance. Oftentimes, both the portfolio and the algorithm selector are chosen using a training set of typical problem instances from the application domain at hand. In this paper, we provide the first provable guarantees for portfolio-based algorithm selection. We analyze how large the training set should be to ensure that the resulting algorithm selector's average performance over the training set is close to its future (expected) performance. This involves analyzing three key reasons why these two quantities may diverge: 1) the learning-theoretic complexity of the algorithm selector, 2) the size of the portfolio, and 3) the learning-theoretic complexity of the algorithm's performance as a function of its parameters. We introduce an end-to-end learning-theoretic analysis of the portfolio construction and algorithm selection together. We prove that if the portfolio is large, overfitting is inevitable, even with an extremely simple algorithm selector. With experiments, we illustrate a tradeoff exposed by our theoretical analysis: as we increase the portfolio size, we can hope to include a well-suited parameter setting for every possible problem instance, but it becomes impossible to avoid overfitting.
翻訳日:2021-04-25 08:19:13 公開日:2020-12-24
# gpt-2を用いたadversarial trainingによる限定ラベルデータによるスパムレビューの分類

Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data via Adversarial Training ( http://arxiv.org/abs/2012.13400v1 )

ライセンス: Link先を確認
Athirai A. Irissappane, Hanfei Yu, Yankun Shen, Anubha Agrawal, Gray Stanton(参考訳) オンラインレビューは、サービスや製品を購入する際に重要な情報源である。 オピニオンスパマーはこれらのレビューを操作し、サービス全体の認識を意図的に変える。 オンラインレビューのコーパスは存在するが、スパムやノンスパムとラベル付けされているものはほとんどなく、スパム検出モデルのトレーニングが難しい。 本稿では,限定ラベルデータと大量のラベル付きデータで意見スパムを分類するための生成前訓練2(gpt-2)の能力を活用した,敵対的訓練機構を提案する。 TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。 提案モデルでは,適切なパープレキシティを有する合成スパム/非スパムレビューも生成でき,トレーニング中に付加ラベルデータを提供できる。

Online reviews are a vital source of information when purchasing a service or a product. Opinion spammers manipulate these reviews, deliberately altering the overall perception of the service. Though there exists a corpus of online reviews, only a few have been labeled as spam or non-spam, making it difficult to train spam detection models. We propose an adversarial training mechanism leveraging the capabilities of Generative Pre-Training 2 (GPT-2) for classifying opinion spam with limited labeled data and a large set of unlabeled data. Experiments on TripAdvisor and YelpZip datasets show that the proposed model outperforms state-of-the-art techniques by at least 7% in terms of accuracy when labeled data is limited. The proposed model can also generate synthetic spam/non-spam reviews with reasonable perplexity, thereby, providing additional labeled data during training.
翻訳日:2021-04-25 08:18:55 公開日:2020-12-24
# Union-net: 小さなデータセットに適応したディープニューラルネットワークモデル

Union-net: A deep neural network model adapted to small data sets ( http://arxiv.org/abs/2012.13044v1 )

ライセンス: Link先を確認
Qingfang He, Guang Cheng and Zhiying Lin(参考訳) 実際の応用では、一般に小さなデータセットが得られる。 現在、機械学習の実用的応用のほとんどは、ビッグデータに基づく古典的なモデルを使用して、小さなデータセットの問題を解決する。 しかし、ディープニューラルネットワークモデルは複雑な構造を持ち、巨大なモデルパラメータを持ち、トレーニングはより高度な機器を必要とするため、アプリケーションにある種の困難をもたらす。 そこで本稿では,結合畳み込みの概念を提案し,浅いネットワーク構造を持つ軽量深層ネットワークモデルユニオンネットを設計し,小さなデータセットに対応する。 このモデルは、畳み込みネットワークユニットと、同じ入力の異なる組み合わせを組み合わせてユニオンモジュールを形成する。 各結合加群は畳み込み層と同値である。 3つのモジュール間のシリアル入力と出力は「3層」ニューラルネットワークを構成する。 各ユニオンモジュールの出力は、最後の畳み込み層の入力として融合付加され、4層ネットワーク構造を有する複雑なネットワークを形成する。 ディープ・ネットワーク・モデル・ネットワークは深く、伝送経路が長すぎるため、基礎となる情報伝達が失われてしまうという問題を解決する。 モデルはモデルパラメータが少なく、チャネルも少ないため、小さなデータセットへの適応性が向上する。 これは、深層ネットワークモデルが小さなデータセットのトレーニングにおいて過剰に適合しやすいという問題を解決する。 公開データセット cifar10 と 17flowers を使用して、多重分類実験を行う。 実験により、Union-netモデルは大きなデータセットと小さなデータセットの分類においてうまく機能することが示された。 日々のアプリケーションシナリオにおいて高い実用的価値があります。 モデルはhttps://github.com/yeaso/union-netで公開される。

In real applications, generally small data sets can be obtained. At present, most of the practical applications of machine learning use classic models based on big data to solve the problem of small data sets. However, the deep neural network model has complex structure, huge model parameters, and training requires more advanced equipment, which brings certain difficulties to the application. Therefore, this paper proposes the concept of union convolution, designing a light deep network model union-net with a shallow network structure and adapting to small data sets. This model combines convolutional network units with different combinations of the same input to form a union module. Each union module is equivalent to a convolutional layer. The serial input and output between the 3 modules constitute a "3-layer" neural network. The output of each union module is fused and added as the input of the last convolutional layer to form a complex network with a 4-layer network structure. It solves the problem that the deep network model network is too deep and the transmission path is too long, which causes the loss of the underlying information transmission. Because the model has fewer model parameters and fewer channels, it can better adapt to small data sets. It solves the problem that the deep network model is prone to overfitting in training small data sets. Use the public data sets cifar10 and 17flowers to conduct multi-classification experiments. Experiments show that the Union-net model can perform well in classification of large data sets and small data sets. It has high practical value in daily application scenarios. The model code is published at https://github.com/yeaso/union-net
翻訳日:2021-04-25 08:18:42 公開日:2020-12-24
# 追従のための回転同変シームズネットワーク

Rotation Equivariant Siamese Networks for Tracking ( http://arxiv.org/abs/2012.13078v1 )

ライセンス: Link先を確認
Deepak K. Gupta, Devanshu Arya and Efstratios Gavves(参考訳) 回転は、視覚的オブジェクト追跡において、長く普及しているが未解決であり、困難な課題である。 既存のディープラーニングベースのトラッキングアルゴリズムは、本質的に翻訳同変であるがローテーションに取り組むように設計されていない通常のCNNを使用している。 本稿では,ビデオ中のローテーションインスタンスの存在下では,既存のトラッカーの性能が著しく影響を受けることを最初に示す。 回転の悪影響を回避するため, ステアブルフィルタからなる群等価畳み込み層を用いて構築した回転等価シムズネットワーク(RE-SiamNets)を提案する。 SiamNetsは、オブジェクトの向きの変化を教師なしの方法で推定できるため、相対的な2Dポーズ推定にも使用することができる。 さらに,この方向変化は,連続する2フレーム間の方向変化の制限を課すことで,シャムの追従に付加的な動き制約を課すことができることを示した。 ベンチマークでは、ローテーションインスタンスを含むビデオの集合からなるデータセットであるローテーショントラッキングベンチマーク(rtb)を提案する。 2つの有名なシームズアーキテクチャの実験を通して、RE-SiamNetが回転の問題をうまく処理し、通常のアーキテクチャよりも優れていたことを示す。 さらに、再シアムネットは、基準フレームに対して目標が保持した面内回転を教師なしの方法で、目標の姿勢の相対的変化を正確に推定することができる。

Rotation is among the long prevailing, yet still unresolved, hard challenges encountered in visual object tracking. The existing deep learning-based tracking algorithms use regular CNNs that are inherently translation equivariant, but not designed to tackle rotations. In this paper, we first demonstrate that in the presence of rotation instances in videos, the performance of existing trackers is severely affected. To circumvent the adverse effect of rotations, we present rotation-equivariant Siamese networks (RE-SiamNets), built through the use of group-equivariant convolutional layers comprising steerable filters. SiamNets allow estimating the change in orientation of the object in an unsupervised manner, thereby facilitating its use in relative 2D pose estimation as well. We further show that this change in orientation can be used to impose an additional motion constraint in Siamese tracking through imposing restriction on the change in orientation between two consecutive frames. For benchmarking, we present Rotation Tracking Benchmark (RTB), a dataset comprising a set of videos with rotation instances. Through experiments on two popular Siamese architectures, we show that RE-SiamNets handle the problem of rotation very well and out-perform their regular counterparts. Further, RE-SiamNets can accurately estimate the relative change in pose of the target in an unsupervised fashion, namely the in-plane rotation the target has sustained with respect to the reference frame.
翻訳日:2021-04-25 08:18:19 公開日:2020-12-24
# P4コントラスト:RGB-Dシーン理解のための点線対向学習

P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding ( http://arxiv.org/abs/2012.13089v1 )

ライセンス: Link先を確認
Yunze Liu, Li Yi, Shanghang Zhang, Qingnan Fan, Thomas Funkhouser, Hao Dong(参考訳) 自己教師付き表現学習はコンピュータビジョンにおいて重要な問題であり、下流タスクのより効率的で効果的なトレーニングの初期化として使用できる、大きなラベルのないデータセットで特徴抽出器を事前訓練する手段を提供する。 有望なアプローチは、対照的な学習を使って、類似したデータサンプルに近づき、異種データには遠く離れている潜在空間を学習することだ。 このアプローチは、画像と点雲の特徴抽出器の両方を事前訓練する上で大きな成功を収めてきたが、特に高レベルシーン理解の促進を目的としたマルチモーダルRGB-Dスキャンでは、ほとんど研究されていない。 そこで本研究では, 正の対にrgb-d点が対応し, 負の対に2つの相同性が乱れ, または2つのrgb-d点が対応しない対を含む「点-画素対のペア」を提案する。 これにより、ハードネガティブ化の柔軟性が増し、ネットワークが両方のモダリティから機能を学ぶのに役立ちます。 実験により,提案手法は従来の事前学習手法よりも3つの大規模RGB-Dシーン理解ベンチマーク(ScanNet, SUN RGB-D, 3RScan)の方が優れた性能を示した。

Self-supervised representation learning is a critical problem in computer vision, as it provides a way to pretrain feature extractors on large unlabeled datasets that can be used as an initialization for more efficient and effective training on downstream tasks. A promising approach is to use contrastive learning to learn a latent space where features are close for similar data samples and far apart for dissimilar ones. This approach has demonstrated tremendous success for pretraining both image and point cloud feature extractors, but it has been barely investigated for multi-modal RGB-D scans, especially with the goal of facilitating high-level scene understanding. To solve this problem, we propose contrasting "pairs of point-pixel pairs", where positives include pairs of RGB-D points in correspondence, and negatives include pairs where one of the two modalities has been disturbed and/or the two RGB-D points are not in correspondence. This provides extra flexibility in making hard negatives and helps networks to learn features from both modalities, not just the more discriminating one of the two. Experiments show that this proposed approach yields better performance on three large-scale RGB-D scene understanding benchmarks (ScanNet, SUN RGB-D, and 3RScan) than previous pretraining approaches.
翻訳日:2021-04-25 08:17:55 公開日:2020-12-24
# EDN:極端にバラバラなネットワークによる有能な物体検出

EDN: Salient Object Detection via Extremely-Downsampled Network ( http://arxiv.org/abs/2012.13093v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Yun Liu, Le Zhang, Ming-Ming Cheng(参考訳) 近年のサルエント物体検出(SOD)の進歩は主にマルチスケール学習の恩恵を受けており、高レベルの特徴と低レベルの特徴がそれぞれサルエント物体の探索と詳細発見に協力して機能している。 しかしながら、ほとんどの努力は、マルチスケール特徴の融合や境界表現の強化によって、低レベルの特徴学習に費やされている。 本稿では,sodにおいても高レベル機能学習の改善が不可欠であることを示す。 そこで本研究では,画像全体のグローバルビューを効果的に学習するために,極端にダウンサンプリング技術を用いた極端にダウンサンプリングされたネットワーク(edn)を導入する。 SCPC(Scale-Correlated Pyramid Convolution)は、上述の極端なダウンサンプリングからオブジェクトの詳細を復元するエレガントなデコーダを構築するように設計されている。 大規模な実験により、EDNはリアルタイムの速度で \sArt のパフォーマンスを達成することが示された。 そのため、この研究はSODに新たな思考を巻き起こすことが期待されている。 コードはリリースされます。

Recent progress on salient object detection (SOD) mainly benefits from multi-scale learning, where the high-level and low-level features work collaboratively in locating salient objects and discovering fine details, respectively. However, most efforts are devoted to low-level feature learning by fusing multi-scale features or enhancing boundary representations. In this paper, we show another direction that improving high-level feature learning is essential for SOD as well. To verify this, we introduce an Extremely-Downsampled Network (EDN), which employs an extreme downsampling technique to effectively learn a global view of the whole image, leading to accurate salient object localization. A novel Scale-Correlated Pyramid Convolution (SCPC) is also designed to build an elegant decoder for recovering object details from the above extreme downsampling. Extensive experiments demonstrate that EDN achieves \sArt performance with real-time speed. Hence, this work is expected to spark some new thinking in SOD. The code will be released.
翻訳日:2021-04-25 08:17:31 公開日:2020-12-24
# MobileSal: 極めて効率的なRGB-Dサルエントオブジェクト検出

MobileSal: Extremely Efficient RGB-D Salient Object Detection ( http://arxiv.org/abs/2012.13095v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Yun Liu, Jun Xu, Jia-Wang Bian, Yuchao Gu, Ming-Ming Cheng(参考訳) ニューラルネットワークの計算コストが高いため、最近のRGB-D salient Object Detection (SOD)の成功は現実のアプリケーションに利益をもたらす。 そこで,本稿では,モバイルネットワークによる深層特徴抽出による効率的なRGB-D SODに着目した新しいネットワーク,‘methodname’を提案する。 問題は、モバイルネットワークが、面倒なネットワークよりも機能表現の力が少ないことだ。 この目的のために,カラー画像の深度情報を適切に活用すれば,SODに関連する特徴表現を強化することができる。 そこで本研究では,RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙の深度復元(IDR)手法を提案する。 IDRはトレーニング段階でのみ採用され、テスト中に省略されるため、計算自由である。 さらに,高効率な多レベル特徴集約のための小型ピラミッド改良(CPR)を提案し,明確な境界を持つ健全な物体を導出する。 idr と cpr を組み込んだ場合、 \methodname~perform は高速 (450fps) でパラメータ (6.5m) の少ない 7 つの挑戦的な rgb-d sod データセットの \sart メソッドに対して好適である。 コードはリリースされます。

The high computational cost of neural networks has prevented recent successes in RGB-D salient object detection (SOD) from benefiting real-world applications. Hence, this paper introduces a novel network, \methodname, which focuses on efficient RGB-D SOD by using mobile networks for deep feature extraction. The problem is that mobile networks are less powerful in feature representation than cumbersome networks. To this end, we observe that the depth information of color images can strengthen the feature representation related to SOD if leveraged properly. Therefore, we propose an implicit depth restoration (IDR) technique to strengthen the feature representation capability of mobile networks for RGB-D SOD. IDR is only adopted in the training phase and is omitted during testing, so it is computationally free. Besides, we propose compact pyramid refinement (CPR) for efficient multi-level feature aggregation so that we can derive salient objects with clear boundaries. With IDR and CPR incorporated, \methodname~performs favorably against \sArt methods on seven challenging RGB-D SOD datasets with much faster speed (450fps) and fewer parameters (6.5M). The code will be released.
翻訳日:2021-04-25 08:17:13 公開日:2020-12-24
# フラクトレイン:効率の良いdnnトレーニングのための時間的および空間的なビット節約

FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training ( http://arxiv.org/abs/2012.13113v1 )

ライセンス: Link先を確認
Yonggan Fu, Haoran You, Yang Zhao, Yue Wang, Chaojian Li, Kailash Gopalakrishnan, Zhangyang Wang, Yingyan Lin(参考訳) 近年のディープニューラルネットワーク(DNN)のブレークスルーは、オンサイトラーニングを特徴とするインテリジェントエッジデバイスに対する大きな需要を押し上げている一方で、エッジで利用可能な限られたリソースと、最先端(SOTA)DNNに必要な膨大なトレーニングコストのために、そのようなシステムの実践的実現は依然として課題である。 精度の低下はトレーニング時間/エネルギー効率を高めるための最も効果的なノブの1つであり、低精度DNNトレーニングへの関心が高まっている。 本稿では,最も冗長なビットレベルから,トレーニング軌道に沿って段階的に,入力毎に動的に,より少ないトレーニングコストの削減方法を,直交方向から検討する。 具体的には、(i)somaの静的量子化dnnトレーニングの精度に到達しないアクティベーション、ウエイト、勾配の精度を最終訓練段階まで徐々に向上させるプログレッシブ分数量子化と、(ii)各レイヤのアクティベーションとグラデーションの両方に、入力順応的な方法で精度を割り当てる動的分数量子化とを統合したフラクトレムを提案する。 大規模なシミュレーションとアブレーション研究(6つのモデル、4つのデータセット、標準、適応、微調整を含む3つのトレーニング設定)は、FracTrainの有効性を検証し、計算コストとDNNトレーニングのハードウェア量子化エネルギー/遅延を低減し、同等以上の精度(-0.12%~+1.87%)を達成する。 例えば、CIFAR-10上でResNet-74をトレーニングする場合、FracTrainは最高のSOTAベースラインと比較して、それぞれ77.6%と53.5%の計算コストとトレーニング遅延の削減を達成した。 私たちのコードは、https://github.com/RICE-EIC/FracTrain.comで利用可能です。

Recent breakthroughs in deep neural networks (DNNs) have fueled a tremendous demand for intelligent edge devices featuring on-site learning, while the practical realization of such systems remains a challenge due to the limited resources available at the edge and the required massive training costs for state-of-the-art (SOTA) DNNs. As reducing precision is one of the most effective knobs for boosting training time/energy efficiency, there has been a growing interest in low-precision DNN training. In this paper, we explore from an orthogonal direction: how to fractionally squeeze out more training cost savings from the most redundant bit level, progressively along the training trajectory and dynamically per input. Specifically, we propose FracTrain that integrates (i) progressive fractional quantization which gradually increases the precision of activations, weights, and gradients that will not reach the precision of SOTA static quantized DNN training until the final training stage, and (ii) dynamic fractional quantization which assigns precisions to both the activations and gradients of each layer in an input-adaptive manner, for only "fractionally" updating layer parameters. Extensive simulations and ablation studies (six models, four datasets, and three training settings including standard, adaptation, and fine-tuning) validate the effectiveness of FracTrain in reducing computational cost and hardware-quantified energy/latency of DNN training while achieving a comparable or better (-0.12%~+1.87%) accuracy. For example, when training ResNet-74 on CIFAR-10, FracTrain achieves 77.6% and 53.5% computational cost and training latency savings, respectively, compared with the best SOTA baseline, while achieving a comparable (-0.07%) accuracy. Our codes are available at: https://github.com/RICE-EIC/FracTrain.
翻訳日:2021-04-25 08:16:48 公開日:2020-12-24
# ハウスドルフ点畳み込みと幾何学的事前性

Hausdorff Point Convolution with Geometric Priors ( http://arxiv.org/abs/2012.13118v1 )

ライセンス: Link先を確認
Pengdi Huang, Liqiang Lin, Fuyou Xue, Kai Xu, Danny Cohen-Or, Hui Huang(参考訳) 形状認識応答がなければ、コンパクトなカーネルセットで点雲の3次元幾何学を効率的に特徴づけることは困難である。 本稿では,点畳み込み応答を計算するための形状認識距離尺度としてハウスドルフ距離を用いることを提唱する。 私たちが提示したHPC(Hausdorff Point Convolution)は形状認識技術である。 hpcは4種類の幾何学的前駆を核として持つ比較的コンパクトな集合を持つ強力な点特徴学習を構成する。 さらに,HPCに基づくディープニューラルネットワーク(HPC-DNN)を開発した。 タスク固有の学習は、入力とカーネルポイントセット間の最短距離を結合するためにネットワーク重みを調整することで実現できる。 また,マルチカーネルHPCを設計し,階層的な特徴学習を実現している。 HPC-DNNは強い点の畳み込みベースライン(例えばKPConv)より優れており、S3DISでは2.8% mIoU、セマンティックKITTIでは1.5%向上している。

Without a shape-aware response, it is hard to characterize the 3D geometry of a point cloud efficiently with a compact set of kernels. In this paper, we advocate the use of Hausdorff distance as a shape-aware distance measure for calculating point convolutional responses. The technique we present, coined Hausdorff Point Convolution (HPC), is shape-aware. We show that HPC constitutes a powerful point feature learning with a rather compact set of only four types of geometric priors as kernels. We further develop a HPC-based deep neural network (HPC-DNN). Task-specific learning can be achieved by tuning the network weights for combining the shortest distances between input and kernel point sets. We also realize hierarchical feature learning by designing a multi-kernel HPC for multi-scale feature encoding. Extensive experiments demonstrate that HPC-DNN outperforms strong point convolution baselines (e.g., KPConv), achieving 2.8% mIoU performance boost on S3DIS and 1.5% on SemanticKITTI for semantic segmentation task.
翻訳日:2021-04-25 08:16:07 公開日:2020-12-24
# MRDet:空中画像の高精度オブジェクト指向物体検出のためのマルチヘッドネットワーク

MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2012.13135v1 )

ライセンス: Link先を確認
Ran Qin and Qingjie Liu and Guangshuai Gao and Di Huang and Yunhong Wang(参考訳) 空中画像の物体は通常任意の向きを持ち、地上に密集しているため、検出は非常に困難である。 最近開発された多くの手法は、余分な配向パラメータを推定し、密度の高いアンカーを配置することでこれらの問題を解こうとしている。 本稿では、水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。 AO-RPNは非常に効率的で、元のRPNよりも少数のパラメータしか増加しない。 さらに,検出タスクを複数のサブタスクに分離し,その処理を行うマルチヘッドネットワークを提案する。 各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。 MRDet (Multi-head Rotated Object Detector) と略記する。 提案したMDDetをDOTAとHRSC2016という2つの挑戦的なベンチマークでテストし、最先端の手法と比較した。 提案手法は,その有効性を示す非常に有望な結果が得られる。

Objects in aerial images usually have arbitrary orientations and are densely located over the ground, making them extremely challenge to be detected. Many recently developed methods attempt to solve these issues by estimating an extra orientation parameter and placing dense anchors, which will result in high model complexity and computational costs. In this paper, we propose an arbitrary-oriented region proposal network (AO-RPN) to generate oriented proposals transformed from horizontal anchors. The AO-RPN is very efficient with only a few amounts of parameters increase than the original RPN. Furthermore, to obtain accurate bounding boxes, we decouple the detection task into multiple subtasks and propose a multi-head network to accomplish them. Each head is specially designed to learn the features optimal for the corresponding task, which allows our network to detect objects accurately. We name it MRDet short for Multi-head Rotated object Detector for convenience. We test the proposed MRDet on two challenging benchmarks, i.e., DOTA and HRSC2016, and compare it with several state-of-the-art methods. Our method achieves very promising results which clearly demonstrate its effectiveness.
翻訳日:2021-04-25 08:15:46 公開日:2020-12-24
# 生成逆ネットワークを用いた外観不変6-DoF視覚像定位

Appearance-Invariant 6-DoF Visual Localization using Generative Adversarial Networks ( http://arxiv.org/abs/2012.13191v1 )

ライセンス: Link先を確認
Yimin Lin, Jianfeng Huang, Shiguo Lian(参考訳) 異なる照明, 天気, 季節などの外部環境が変化した場合に, 新たな視覚定位ネットワークを提案する。 視覚的ローカライゼーションネットワークは、特徴抽出ネットワークとポーズ回帰ネットワークとから構成される。 特徴抽出ネットワークは、生成的な逆ネットワークであるcycleganに基づくエンコーダネットワークで構成されており、異なる天候や季節の非ペアサンプルから固有の外観不変特徴マップをキャプチャすることができる。 このような不変な特徴により,6自由度姿勢回帰ネットワークを用いて,屋外照明,天候,季節変化の存在下での長期視覚定位に取り組む。 位置認識とローカライゼーションのための様々な挑戦的データセットを用いて視覚的ローカライゼーションネットワークを証明し、その結果、様々な環境変化のあるシナリオにおいて、我々の手法が最先端の手法より優れていることを示す。

We propose a novel visual localization network when outside environment has changed such as different illumination, weather and season. The visual localization network is composed of a feature extraction network and pose regression network. The feature extraction network is made up of an encoder network based on the Generative Adversarial Network CycleGAN, which can capture intrinsic appearance-invariant feature maps from unpaired samples of different weathers and seasons. With such an invariant feature, we use a 6-DoF pose regression network to tackle long-term visual localization in the presence of outdoor illumination, weather and season changes. A variety of challenging datasets for place recognition and localization are used to prove our visual localization network, and the results show that our method outperforms state-of-the-art methods in the scenarios with various environment changes.
翻訳日:2021-04-25 08:14:49 公開日:2020-12-24
# オプティカルフロー再構成による部分咬合下の動的顔表情認識

Dynamic Facial Expression Recognition under Partial Occlusion with Optical Flow Reconstruction ( http://arxiv.org/abs/2012.13217v1 )

ライセンス: Link先を確認
Delphine Poux, Benjamin Allaert, Nacim Ihaddadene, Ioan Marius Bilasco, Chaabane Djeraba and Mohammed Bennamoun(参考訳) ビデオ表情認識は多くのアプリケーションで有用であり、近年多くの関心を集めている。 制御された環境において(咬合なしで)本当に良い結果を与えるソリューションもあるが、部分的な顔面の咬合の存在に対する認識は依然として困難な課題である。 咬合に対処するため,顔の閉塞部分の再構成に基づく解法が提案されている。 これらの解は主に顔のテクスチャや幾何学に基づいている。 しかし、同じ表現をしている異なる人物の顔の動きの類似性は、再建の真の資産であると考えられる。 本稿では、この資産を利用して、光学フロー領域における顔の隠蔽部分を再構築するスキップ接続を有するオートエンコーダに基づく新しいソリューションを提案する。 私たちの知る限りでは、これは表情認識のための動きを直接再構築する最初の提案です。 我々は,異なるオクルージョンが生成される制御データセットCK+のアプローチを検証した。 提案手法は,オクルード状態と非オクルード状態の間における認識精度の差を著しく低減することを示す。 また、我々のアプローチを既存の最先端のソリューションと比較する。 今後,再現可能で公平な比較の基礎を築くために,咬合生成と再構成評価を含む新しい実験プロトコルを提案する。

Video facial expression recognition is useful for many applications and received much interest lately. Although some solutions give really good results in a controlled environment (no occlusion), recognition in the presence of partial facial occlusion remains a challenging task. To handle occlusions, solutions based on the reconstruction of the occluded part of the face have been proposed. These solutions are mainly based on the texture or the geometry of the face. However, the similarity of the face movement between different persons doing the same expression seems to be a real asset for the reconstruction. In this paper we exploit this asset and propose a new solution based on an auto-encoder with skip connections to reconstruct the occluded part of the face in the optical flow domain. To the best of our knowledge, this is the first proposition to directly reconstruct the movement for facial expression recognition. We validated our approach in the controlled dataset CK+ on which different occlusions were generated. Our experiments show that the proposed method reduce significantly the gap, in terms of recognition accuracy, between occluded and non-occluded situations. We also compare our approach with existing state-of-the-art solutions. In order to lay the basis of a reproducible and fair comparison in the future, we also propose a new experimental protocol that includes occlusion generation and reconstruction evaluation.
翻訳日:2021-04-25 08:14:31 公開日:2020-12-24
# 深層学習ネットワークを用いた人物再同定 : 体系的考察

Person Re-Identification using Deep Learning Networks: A Systematic Review ( http://arxiv.org/abs/2012.13318v1 )

ライセンス: Link先を確認
Ankit Yadav, Dinesh Kumar Vishwakarma(参考訳) 近年,人物の身元確認は研究コミュニティから多くの注目を集めている。 セキュリティベースのアプリケーションにおいて重要な役割を担っているため、個人の再識別は、強盗の追跡、テロ攻撃やその他のセキュリティー上の重要な出来事の防止に関連する研究の中心にある。 過去10年間、再帰的なアプローチは大きな成長を遂げてきたが、この進歩を理解・要約するレビュー文献はほとんど存在しない。 このレビューでは、人を再識別するための最新のディープラーニングアプローチを取り上げている。 既存のre-idレビューでは、特定の側面からre-idテクニックを分析しているが、このレビューでは、ディープアーキテクチャタイプ、共通Re-Idチャレンジ(ポーズ、雷、ビュー、スケール、部分的または完全閉塞、バックグラウンドクラッタ)、マルチモーダルRe-Id、クロスドメインRe-Idチャレンジ、メトリックラーニングアプローチ、ビデオRe-Idコントリビューションなど、複数のディープラーニング側面からの多くのre-idテクニックを評価する。 このレビューには、何年もかけて収集されたいくつかのre-idベンチマークも含まれている。 最新のDeep Re-idの作業が組み込まれているため、これはre-id文学に大きな貢献をする。 最後に、結論と今後の方向性を含める。

Person re-identification has received a lot of attention from the research community in recent times. Due to its vital role in security based applications, person re-identification lies at the heart of research relevant to tracking robberies, preventing terrorist attacks and other security critical events. While the last decade has seen tremendous growth in re-id approaches, very little review literature exists to comprehend and summarize this progress. This review deals with the latest state-of-the-art deep learning based approaches for person re-identification. While the few existing re-id review works have analysed re-id techniques from a singular aspect, this review evaluates numerous re-id techniques from multiple deep learning aspects such as deep architecture types, common Re-Id challenges (variation in pose, lightning, view, scale, partial or complete occlusion, background clutter), multi-modal Re-Id, cross-domain Re-Id challenges, metric learning approaches and video Re-Id contributions. This review also includes several re-id benchmarks collected over the years, describing their characteristics, specifications and top re-id results obtained on them. The inclusion of the latest deep re-id works makes this a significant contribution to the re-id literature. Lastly, the conclusion and future directions are included.
翻訳日:2021-04-25 08:14:13 公開日:2020-12-24
# グローバルコンテキストネットワーク

Global Context Networks ( http://arxiv.org/abs/2012.13375v1 )

ライセンス: Link先を確認
Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu(参考訳) Non-Local Network (NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存関係をキャプチャするための先駆的なアプローチを提供する。 しかし、厳密な実証分析によって、非ローカルネットワークによってモデル化されたグローバルコンテキストは、異なるクエリ位置でほぼ同じであることがわかった。 本稿では,NLNetの精度を保ちながら計算量を大幅に削減する,クエリ非依存の定式化に基づく単純化されたネットワーク構築手法を提案する。 さらに,非局所ブロックの一層変換関数を2層ボトルネックに置き換えることで,パラメータ数が大幅に減少する。 結果として得られたネットワーク要素はglobal context(gc)ブロックと呼ばれ、軽量な方法でグローバルコンテキストを効果的にモデル化し、バックボーンネットワークの複数のレイヤに適用してglobal context network(gcnet)を形成する。 実験の結果、GCNetは様々な認識タスクのベンチマークで一般的にNLNetを上回っていることがわかった。 コードとネットワークの構成はhttps://github.com/xvjiarui/GCNetで確認できる。

The Non-Local Network (NLNet) presents a pioneering approach for capturing long-range dependencies within an image, via aggregating query-specific global context to each query position. However, through a rigorous empirical analysis, we have found that the global contexts modeled by the non-local network are almost the same for different query positions. In this paper, we take advantage of this finding to create a simplified network based on a query-independent formulation, which maintains the accuracy of NLNet but with significantly less computation. We further replace the one-layer transformation function of the non-local block by a two-layer bottleneck, which further reduces the parameter number considerably. The resulting network element, called the global context (GC) block, effectively models global context in a lightweight manner, allowing it to be applied at multiple layers of a backbone network to form a global context network (GCNet). Experiments show that GCNet generally outperforms NLNet on major benchmarks for various recognition tasks. The code and network configurations are available at https://github.com/xvjiarui/GCNet.
翻訳日:2021-04-25 08:13:47 公開日:2020-12-24
# GraNet: ALSポイントクラウド分類のためのグローバルな関係認識型注意ネットワーク

GraNet: Global Relation-aware Attentional Network for ALS Point Cloud Classification ( http://arxiv.org/abs/2012.13466v1 )

ライセンス: Link先を確認
Rong Huang, Yusheng Xu, Uwe Stilla(参考訳) 本研究では,als点雲の意味的ラベル付けに焦点をあてた新しいニューラルネットワークを提案し,空間的・チャネル的長期関係の重要性について検討し,グローバル・リレーションシップ・アウェア・アウェア・アテンション・ネットワーク(granet)と呼ぶ。 GraNetはまず,局所的空間的不一致注意畳み込みモジュール(LoSDA)を用いて局所的幾何学的記述と局所的依存関係を学習する。 ロスダでは、複数の局所空間幾何学習モジュールを積み重ねることで、方位情報、空間分布、標高差を完全に考慮し、注意プーリングモジュールを用いて局所依存関係を埋め込む。 次に、空間的関係認識注意モジュール(SRA)とチャネル的関係認識注意モジュール(CRA)からなるグローバルな関係認識注意モジュール(GRA)を調査し、空間的位置と特徴ベクトルとの間のグローバルな空間的・チャネル的関係をさらに学習する。 上記の2つの重要なモジュールは、大都市のスケール変化をさらに考慮するために、マルチスケールネットワークアーキテクチャに組み込まれている。 2つのALSポイントクラウドデータセットの総合的な実験を行い、提案フレームワークの性能評価を行った。 以上の結果から,本手法は他の先進的分類法と比較して高い分類精度が得られた。 ISPRSベンチマークデータセットにおける我々の手法の全体的な精度(OA)は、平均的なF1測度(AvgF1)が73.5%である9つの意味クラスを分類するために84.5%に改善することができる。 電力線:66.3%、低植生:82.8%、不活性表面:91.8%、車:80.7%、フェンス:51.2%、屋根:94.6%、ファサード:62.1%、低木:49.9%、木:82.1%。 さらに、高密度都市部をカバーする新しいALS点雲データセットを用いて実験を行った。

In this work, we propose a novel neural network focusing on semantic labeling of ALS point clouds, which investigates the importance of long-range spatial and channel-wise relations and is termed as global relation-aware attentional network (GraNet). GraNet first learns local geometric description and local dependencies using a local spatial discrepancy attention convolution module (LoSDA). In LoSDA, the orientation information, spatial distribution, and elevation differences are fully considered by stacking several local spatial geometric learning modules and the local dependencies are embedded by using an attention pooling module. Then, a global relation-aware attention module (GRA), consisting of a spatial relation-aware attention module (SRA) and a channel relation aware attention module (CRA), are investigated to further learn the global spatial and channel-wise relationship between any spatial positions and feature vectors. The aforementioned two important modules are embedded in the multi-scale network architecture to further consider scale changes in large urban areas. We conducted comprehensive experiments on two ALS point cloud datasets to evaluate the performance of our proposed framework. The results show that our method can achieve higher classification accuracy compared with other commonly used advanced classification methods. The overall accuracy (OA) of our method on the ISPRS benchmark dataset can be improved to 84.5% to classify nine semantic classes, with an average F1 measure (AvgF1) of 73.5%. In detail, we have following F1 values for each object class: powerlines: 66.3%, low vegetation: 82.8%, impervious surface: 91.8%, car: 80.7%, fence: 51.2%, roof: 94.6%, facades: 62.1%, shrub: 49.9%, trees: 82.1%. Besides, experiments were conducted using a new ALS point cloud dataset covering highly dense urban areas.
翻訳日:2021-04-25 08:13:29 公開日:2020-12-24
# 産業用ポイントクラウドデータのインスタンスセグメンテーション

Instance Segmentation of Industrial Point Cloud Data ( http://arxiv.org/abs/2012.14253v1 )

ライセンス: Link先を確認
Eva Agapaki, Ioannis Brilakis(参考訳) 本論文の課題は、産業施設のオブジェクト指向幾何学的デジタル双極子(gDT)を自動生成するコストと手作業を効率的に最小化する方法であり、これらのモデルを作成するための初期投資と比べてさらに価値を提供する。 これまでの研究は,(Agapaki と Brilakis 2020) で示されたように,現在の最先端クラスセグメンテーション性能(CLOIデータセットクラスの平均75%精度と平均AUC 90%)を達成し,レーザー走査工業データから最も重要なモデルオブジェクト(CLOIクラス)のラベル付きポイントクラスタを直接生成した。 CLOIはC-shapes、L-shapes、O-shapes、I-shapesとそれらの組み合わせを表す。 しかし、幾何学的な形状に適合するために使用できる個々のインスタンスの自動セグメント化の問題はまだ解決されていない。 我々は,インスタンスセグメンテーションアルゴリズムの使用は,gDTの生成に必要な出力を提供する理論的可能性を持っていると論じる。 本稿では、(a)CLOI-Instanceグラフ接続アルゴリズムを用いて、オブジェクトクラスのポイントクラスタをインスタンスに分割し、(b)ステップ(a)を改善するポイントの境界セグメンテーションにより、この論文のインスタンスセグメンテーションを解決する。 この方法はcloiベンチマークデータセット(agapaki et al.)でテストされた。 2019年)とセグメンテーションされたインスタンスは、76.25%の平均精度を持ち、すべてのクラスでポイント当たり平均リコールが70%である。 これは、分類点ラベル以外の知識のない産業用点雲を自動分割するのは初めてであり、散在する産業用点雲における効率的なgDT生成のための基盤岩であることが証明された。

The challenge that this paper addresses is how to efficiently minimize the cost and manual labour for automatically generating object oriented geometric Digital Twins (gDTs) of industrial facilities, so that the benefits provide even more value compared to the initial investment to generate these models. Our previous work achieved the current state-of-the-art class segmentation performance (75% average accuracy per point and average AUC 90% in the CLOI dataset classes) as presented in (Agapaki and Brilakis 2020) and directly produces labelled point clusters of the most important to model objects (CLOI classes) from laser scanned industrial data. CLOI stands for C-shapes, L-shapes, O-shapes, I-shapes and their combinations. However, the problem of automated segmentation of individual instances that can then be used to fit geometric shapes remains unsolved. We argue that the use of instance segmentation algorithms has the theoretical potential to provide the output needed for the generation of gDTs. We solve instance segmentation in this paper through (a) using a CLOI-Instance graph connectivity algorithm that segments the point clusters of an object class into instances and (b) boundary segmentation of points that improves step (a). Our method was tested on the CLOI benchmark dataset (Agapaki et al. 2019) and segmented instances with 76.25% average precision and 70% average recall per point among all classes. This proved that it is the first to automatically segment industrial point cloud shapes with no prior knowledge other than the class point label and is the bedrock for efficient gDT generation in cluttered industrial point clouds.
翻訳日:2021-04-25 08:12:51 公開日:2020-12-24
# SCC:StarCraft IIのゲームを習得する効率的な深層強化学習エージェント

SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II ( http://arxiv.org/abs/2012.13169v1 )

ライセンス: Link先を確認
Xiangjun Wang, Junxiao Song, Penghui Qi, Peng Peng, Zhenkun Tang, Wei Zhang, Weimin Li, Xiongjun Pi, Jujie He, Chao Gao, Haitao Long, Quan Yuan(参考訳) AlphaStarは、StarCraft IIのグランドマスターレベルに達したAIで、複雑なリアルタイム戦略(RTS)ゲームにおいて、深層強化学習が何を達成できるかを示す驚くべきマイルストーンだ。 しかし、ゲーム、アルゴリズム、システムの複雑さ、特に膨大な量の計算は、コミュニティにとってこの方向にさらなる研究を行う大きな障害である。 我々は,深層強化学習エージェントであるstarcraft commander (scc)を提案する。 計算量が桁違いに減ると、人間のパフォーマンスがテストマッチでグランドマスタープレーヤーを破って、ライブイベントではトッププロプレイヤーを破る。 さらに、様々な人間の戦略に対して強い堅牢性を示し、人間の遊びから見えない新しい戦略を発見する。 本稿では,StarCraft IIのフルゲームにおいて,効率的な模倣学習と強化学習に関する重要な洞察と最適化を共有する。

AlphaStar, the AI that reaches GrandMaster level in StarCraft II, is a remarkable milestone demonstrating what deep reinforcement learning can achieve in complex Real-Time Strategy (RTS) games. However, the complexities of the game, algorithms and systems, and especially the tremendous amount of computation needed are big obstacles for the community to conduct further research in this direction. We propose a deep reinforcement learning agent, StarCraft Commander (SCC). With order of magnitude less computation, it demonstrates top human performance defeating GrandMaster players in test matches and top professional players in a live event. Moreover, it shows strong robustness to various human strategies and discovers novel strategies unseen from human plays. In this paper, we will share the key insights and optimizations on efficient imitation learning and reinforcement learning for StarCraft II full game.
翻訳日:2021-04-25 08:11:14 公開日:2020-12-24
# 疫学予測におけるエキスパートガイダンスの導入

Incorporating Expert Guidance in Epidemic Forecasting ( http://arxiv.org/abs/2101.10247v1 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Bijaya Adhikari, Naren Ramakrishnan, B. Aditya Prakash(参考訳) インフルエンザ様疾患(ILI)の予知は、近年、技術から科学まで、多くのデータ駆動手法で急速に進展している。 これらの手法は成功したが、専門家のフィードバックやガイダンスを予測フレームワークに体系的に組み込むことができないため、適用性は限られている。 本稿では,ai安全性からセルドニアン最適化フレームワークを活用する新しいアプローチを提案し,流行予測にどのように適用できるかを示す。 我々は,誤りの円滑性と局所的一貫性について検討し,その導入が成功すれば,好ましくない行動の確率を制限できるだけでなく,テストデータのrmseを最大17%低減できることを示した。

Forecasting influenza like illnesses (ILI) has rapidly progressed in recent years from an art to a science with a plethora of data-driven methods. While these methods have achieved qualified success, their applicability is limited due to their inability to incorporate expert feedback and guidance systematically into the forecasting framework. We propose a new approach leveraging the Seldonian optimization framework from AI safety and demonstrate how it can be adapted to epidemic forecasting. We study two types of guidance: smoothness and regional consistency of errors, where we show that by its successful incorporation, we are able to not only bound the probability of undesirable behavior to happen, but also to reduce RMSE on test data by up to 17%.
翻訳日:2021-04-25 08:10:29 公開日:2020-12-24
# thuir@coliee-2020: 判例検索と補足のための意味理解と正確なマッチングの活用

THUIR@COLIEE-2020: Leveraging Semantic Understanding and Exact Matching for Legal Case Retrieval and Entailment ( http://arxiv.org/abs/2012.13102v1 )

ライセンス: Link先を確認
Yunqiu Shao, Bulou Liu, Jiaxin Mao, Yiqun Liu, Min Zhang, Shaoping Ma(参考訳) 本稿では,法律情報抽出・包括競争における訴訟検索・包括の課題に取り組むための方法論について述べる(coliee-2020)。 我々は,2つの事例検索業務,すなわち,訴訟検索業務と訴訟関連業務に参画した。 タスク1(検索タスク)は、新規ケースが与えられたケース法コーパスから支援ケースを自動的に識別すること、タスク2(附タスク)は、関連ケースにおいて、新規ケースの決定を伴う特定段落を識別することを目的とする。 いずれのタスクにおいても,セマンティック理解のためのニューラルモデルと,正確なマッチングのための従来の検索モデルを採用しました。 その結果、私たちのチーム(TLIR)は、タスク1のチームの中で2位、タスク2のチームでは3位にランクインしました。 実験の結果, 意味理解と厳密なマッチングの融合モデルは, 法的事例検索タスクに有用であり, 法的事例検索タスクは意味理解に強く依存していることが示唆された。

In this paper, we present our methodologies for tackling the challenges of legal case retrieval and entailment in the Competition on Legal Information Extraction / Entailment 2020 (COLIEE-2020). We participated in the two case law tasks, i.e., the legal case retrieval task and the legal case entailment task. Task 1 (the retrieval task) aims to automatically identify supporting cases from the case law corpus given a new case, and Task 2 (the entailment task) to identify specific paragraphs that entail the decision of a new case in a relevant case. In both tasks, we employed the neural models for semantic understanding and the traditional retrieval models for exact matching. As a result, our team (TLIR) ranked 2nd among all of the teams in Task 1 and 3rd among teams in Task 2. Experimental results suggest that combing models of semantic understanding and exact matching benefits the legal case retrieval task while the legal case entailment task relies more on semantic understanding.
翻訳日:2021-04-25 08:09:57 公開日:2020-12-24
# 重み付き有色グラフにおける大域的最適経路を求める一般化a*アルゴリズム

A Generalized A* Algorithm for Finding Globally Optimal Paths in Weighted Colored Graphs ( http://arxiv.org/abs/2012.13057v1 )

ライセンス: Link先を確認
Jaein Lim and Panagiotis Tsiotras(参考訳) 探索空間の幾何学的情報と意味的情報の両方が良い計画に不可欠である。 それらの特性を重み付き色グラフ(エッジ重みと頂点色で意味情報を表す幾何学的情報)にエンコードし、低ランク色エッジを最小に含む経路群の中で最短経路を求める一般化されたA*を提案する。 このクラス順序付きA*(COA*)アルゴリズムの完全性と最適性は、ここで定義された最適性の概念に対して証明する。 coa*の実用性は、2d移動ロボットや3dロボットアーム、センサー能力に乏しい5dロボットアームの場合には、実現可能で実現不可能で未知の頂点と縁を持つ3次グラフで数値的に検証される。 我々はCOA*の結果を通常のA*アルゴリズムと比較し、後者は不確実性に関係なく最短経路を見つけ、COA*がA*解を支配していることを示す。

Both geometric and semantic information of the search space is imperative for a good plan. We encode those properties in a weighted colored graph (geometric information in terms of edge weight and semantic information in terms of edge and vertex color), and propose a generalized A* to find the shortest path among the set of paths with minimal inclusion of low-ranked color edges. We prove the completeness and optimality of this Class-Ordered A* (COA*) algorithm with respect to the hereto defined notion of optimality. The utility of COA* is numerically validated in a ternary graph with feasible, infeasible, and unknown vertices and edges for the cases of a 2D mobile robot, a 3D robotic arm, and a 5D robotic arm with limited sensing capabilities. We compare the results of COA* to that of the regular A* algorithm, the latter of which finds the shortest path regardless of uncertainty, and we show that the COA* dominates the A* solution in terms of finding less uncertain paths.
翻訳日:2021-04-25 08:09:32 公開日:2020-12-24
# 教師なしリアルタイム映像強調のための高能率リカレント・アドバイザラル・フレームワーク

An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time Video Enhancement ( http://arxiv.org/abs/2012.13033v1 )

ライセンス: Link先を確認
Dario Fuoli, Zhiwu Huang, Danda Pani Paudel, Luc Van Gool, Radu Timofte(参考訳) ビデオ強調は、主に計算コストが高く、データ量が大きく、時空間における一貫性の達成が困難であるため、スティルよりも難しい問題である。 実際には、これらの課題は、教師付き学習戦略の適用を阻害するサンプルペアの欠如としばしば結合される。 これらの課題に対処するために,不用意なビデオ例から直接学習する効率的な対角ビデオ強調フレームワークを提案する。 特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。 提案する設計では,フレーム間の時空間情報を効率的に伝達でき,複雑なネットワークの必要性を低減できる。 提案手法では,提案する再帰単位を全てのアーキテクチャで採用することで,非ペア映像からの学習を循環的に行うことができる。 効率的なトレーニングは、ソースとターゲットドメインの合同分布を同時に学習する単一の識別器を導入することで達成される。 その結果,提案する映像エンハンサーは,視覚品質,定量的指標,推論速度の面で,最先端手法よりも明らかに優れていることがわかった。 特に、我々のビデオエンハンサーは、フルhdビデオ(1080x1920)を毎秒35フレーム以上増やすことができる。

Video enhancement is a challenging problem, more than that of stills, mainly due to high computational cost, larger data volumes and the difficulty of achieving consistency in the spatio-temporal domain. In practice, these challenges are often coupled with the lack of example pairs, which inhibits the application of supervised learning strategies. To address these challenges, we propose an efficient adversarial video enhancement framework that learns directly from unpaired video examples. In particular, our framework introduces new recurrent cells that consist of interleaved local and global modules for implicit integration of spatial and temporal information. The proposed design allows our recurrent cells to efficiently propagate spatio-temporal information across frames and reduces the need for high complexity networks. Our setting enables learning from unpaired videos in a cyclic adversarial manner, where the proposed recurrent units are employed in all architectures. Efficient training is accomplished by introducing one single discriminator that learns the joint distribution of source and target domain simultaneously. The enhancement results demonstrate clear superiority of the proposed video enhancer over the state-of-the-art methods, in all terms of visual quality, quantitative metrics, and inference speed. Notably, our video enhancer is capable of enhancing over 35 frames per second of FullHD video (1080x1920).
翻訳日:2021-04-25 08:09:13 公開日:2020-12-24
# モーション画像におけるハンドジェスチャ認識を用いたコンピュータポインターの制御

Control of computer pointer using hand gesture recognition in motion pictures ( http://arxiv.org/abs/2012.13188v1 )

ライセンス: Link先を確認
Yalda Foroutan, Ahmad Kalhor, Saeid Mohammadi Nejati, Samad Sheikhaei(参考訳) ユーザインタフェースは、手動検出とジェスチャーの分類によってコンピュータカーソルを制御するように設計されている。 6720の画像サンプルを持つハンドデータセットを収集し、拳、掌、左向け、右向きの4つのクラスを含む。 画像は、単純な背景と異なる視点と光条件で15人の人物から撮影されます。 CNNネットワークは、このデータセットに基づいてトレーニングされ、キャプチャされた各画像のラベルを予測し、それらの類似度を測定する。 最後に、コマンドはクリック、右クリック、カーソルの移動と定義される。 このアルゴリズムは91.88%の精度を持ち、異なるバックグラウンドで使用できる。

A user interface is designed to control the computer cursor by hand detection and classification of its gesture. A hand dataset with 6720 image samples is collected, including four classes: fist, palm, pointing to the left, and pointing to the right. The images are captured from 15 persons in simple backgrounds and different perspectives and light conditions. A CNN network is trained on this dataset to predict a label for each captured image and measure the similarity of them. Finally, commands are defined to click, right-click and move the cursor. The algorithm has 91.88% accuracy and can be used in different backgrounds.
翻訳日:2021-04-25 08:08:50 公開日:2020-12-24
# 産業環境におけるCNNの3DFポーズ推定とグラッピングへの応用

Effective Deployment of CNNs for 3DoF Pose Estimation and Grasping in Industrial Settings ( http://arxiv.org/abs/2012.13210v1 )

ライセンス: Link先を確認
Daniele De Gregorio, Riccardo Zanella, Gianluca Palli, Luigi Di Stefano(参考訳) 本稿では,ロボット把持アプリケーションなど,実用的な産業環境でディープラーニングを効果的に展開する方法について検討する。 ディープラーニングベースのソリューションが提案された場合、通常、トレーニングデータを生成するための単純な方法が欠如する。 自動化が主な目標である産業では、このギャップを埋めないことが、ディープラーニングが学術的な世界ほど普及していない主な理由の1つである。 そこで本研究では,畳み込みニューラルネットワーク(CNN)に基づく3DoF Pose Estimatorによるシステムを構築し,人間の介入を最小限に抑えながら,現場で大量のトレーニング画像を集める効果的な手法を開発した。 また,ラベル付け段階の自動化により,生産レベルの使用に適した極めて堅牢なシステムも得られる。 実験評価に使用するデータセットとともに,このソリューションのオープンソース実装が提供されている。

In this paper we investigate how to effectively deploy deep learning in practical industrial settings, such as robotic grasping applications. When a deep-learning based solution is proposed, usually lacks of any simple method to generate the training data. In the industrial field, where automation is the main goal, not bridging this gap is one of the main reasons why deep learning is not as widespread as it is in the academic world. For this reason, in this work we developed a system composed by a 3-DoF Pose Estimator based on Convolutional Neural Networks (CNNs) and an effective procedure to gather massive amounts of training images in the field with minimal human intervention. By automating the labeling stage, we also obtain very robust systems suitable for production-level usage. An open source implementation of our solution is provided, alongside with the dataset used for the experimental evaluation.
翻訳日:2021-04-25 08:08:41 公開日:2020-12-24
# 臨床MRI検査における1mm等方性MP-RAGEボリュームの超解像と合成 : 向き,解像度,コントラストの異なるスキャンを用いて

Joint super-resolution and synthesis of 1 mm isotropic MP-RAGE volumes from clinical MRI exams with scans of different orientation, resolution and contrast ( http://arxiv.org/abs/2012.13340v1 )

ライセンス: Link先を確認
Juan Eugenio Iglesias, Benjamin Billot, Yael Balbastre, Azadeh Tabari, John Conklin, Daniel C. Alexander, Polina Golland, Brian L. Edlow, Bruce Fischl(参考訳) 人間の脳MRIスキャンの自動3次元形態計測のためのアルゴリズムは、約1mmの解像度でほぼ等方的なボクセルを持つデータのために設計されており、T1スキャンを必要とする(MP-RAGEなど)。 この制限は、臨床環境では、毎年数百万のMRIスキャンが、大きなスライス間隔("thick slice")で取得されるのを防ぐ。 これらのスキャンを定量的に分析できないことは、医療における定量的なニューロイメージングの導入を妨げ、巨大なサンプルサイズを達成し、人間の脳に対する理解を大幅に改善する研究を妨げている。 CNNの最近の進歩はMRIの超解像およびコントラスト合成において顕著な結果をもたらしている。 しかしながら、これらのアプローチは入力画像のコントラスト、解像度、配向に非常に敏感であり、したがってサイト内においても多様な臨床的取得プロトコルに一般化されない。 コントラスト,解像度,方向の異なる1つ以上の厚めスライススキャンを受信し,標準コントラスト(典型的には1mmMP-RAGE)の等方性スキャンを生成するCNNの訓練方法であるSynthSRを提案する。 提案手法では, 頭蓋骨切断やバイアスフィールド補正などの前処理は不要である。 重要なことは、SynthSRは3Dセグメンテーションから生成された合成入力画像に基づいて訓練し、高解像度のトレーニングデータなしでコントラスト、解像度、方向の組み合わせをCNNに訓練することができる。 また,synthsrを用いて生成した画像から,皮質下セグメンテーションやボリュームトリー,画像登録(テンソル型モーフォメトリーなど),画像品質要件が満たされた場合には皮質厚みモーフォメトリーまで確実に使用できることを示す。 ソースコードはgithub.com/BBillot/SynthSRで公開されている。

Most existing algorithms for automatic 3D morphometry of human brain MRI scans are designed for data with near-isotropic voxels at approximately 1 mm resolution, and frequently have contrast constraints as well - typically requiring T1 scans (e.g., MP-RAGE). This limitation prevents the analysis of millions of MRI scans acquired with large inter-slice spacing ("thick slice") in clinical settings every year. The inability to quantitatively analyze these scans hinders the adoption of quantitative neuroimaging in healthcare, and precludes research studies that could attain huge sample sizes and hence greatly improve our understanding of the human brain. Recent advances in CNNs are producing outstanding results in super-resolution and contrast synthesis of MRI. However, these approaches are very sensitive to the contrast, resolution and orientation of the input images, and thus do not generalize to diverse clinical acquisition protocols - even within sites. Here we present SynthSR, a method to train a CNN that receives one or more thick-slice scans with different contrast, resolution and orientation, and produces an isotropic scan of canonical contrast (typically a 1 mm MP-RAGE). The presented method does not require any preprocessing, e.g., skull stripping or bias field correction. Crucially, SynthSR trains on synthetic input images generated from 3D segmentations, and can thus be used to train CNNs for any combination of contrasts, resolutions and orientations without high-resolution training data. We test the images generated with SynthSR in an array of common downstream analyses, and show that they can be reliably used for subcortical segmentation and volumetry, image registration (e.g., for tensor-based morphometry), and, if some image quality requirements are met, even cortical thickness morphometry. The source code is publicly available at github.com/BBillot/SynthSR.
翻訳日:2021-04-25 08:08:27 公開日:2020-12-24
# ベイズ予測型共変量調整

Bayesian prognostic covariate adjustment ( http://arxiv.org/abs/2012.13112v1 )

ライセンス: Link先を確認
David Walsh, Alejandro Schuler, Diana Hall, Jon Walsh, Charles Fisher(参考訳) 疾患の結果に関する歴史的データは、様々な方法で臨床試験の分析に組み込むことができる。 予測モデルから予測スコアを用いた既存の文献をもとに,コ変量調整による治療効果推定の効率を向上させる。 ここでは,予測的共変量調整と経験的事前分布を組み合わせたベイズ的枠組みを,過去の治験における予測モデルの予測性能から学習した。 ベイズ的アプローチは、前者が拡散した場合の厳密なI型エラー制御による確率的共変量調整と、前者が急激なピーク時の単腕トライアルとを補間する。 この方法は理論上、統計的パワーを著しく増加させつつ、合理的な条件下でI型誤差率を制限することが示されている。 我々は,過去のアルツハイマー病臨床治験のシミュレーションおよび解析において本手法の有用性を実証した。

Historical data about disease outcomes can be integrated into the analysis of clinical trials in many ways. We build on existing literature that uses prognostic scores from a predictive model to increase the efficiency of treatment effect estimates via covariate adjustment. Here we go further, utilizing a Bayesian framework that combines prognostic covariate adjustment with an empirical prior distribution learned from the predictive performances of the prognostic model on past trials. The Bayesian approach interpolates between prognostic covariate adjustment with strict type I error control when the prior is diffuse, and a single-arm trial when the prior is sharply peaked. This method is shown theoretically to offer a substantial increase in statistical power, while limiting the type I error rate under reasonable conditions. We demonstrate the utility of our method in simulations and with an analysis of a past Alzheimer's disease clinical trial.
翻訳日:2021-04-25 08:07:52 公開日:2020-12-24
# 相互知識伝達による分散連合学習

Decentralized Federated Learning via Mutual Knowledge Transfer ( http://arxiv.org/abs/2012.13063v1 )

ライセンス: Link先を確認
Chengxi Li, Gang Li, Pramod K. Varshney(参考訳) 本稿では,iot(internet of things)システムにおける分散連合学習(decentralized federated learning, dfl)の問題について検討する。 既存のDFLスキームのほとんどは、2つの交互ステップ、すなわち勾配更新とモデル平均化で構成されている。 しかしながら、ローカルクライアントで異なるモデルを融合させるためにモデルパラメータを直接平均化することは、特にトレーニングデータが異なるクライアント間で異種である場合、ローカルアップデートにおけるクライアントドリフトに悩まされる。 これにより、収束が遅くなり、学習性能が低下する。 そこで本研究では,学習した知識を相互に伝達することによってモデルを融合させる相互知識伝達アルゴリズム(Def-KT)を提案する。 mnist,fashion-mnist,cifar10データセットを用いた実験により,提案するdef-ktアルゴリズムが,モデル平均化によるベースラインdfl法,すなわちcomboおよびfullavg法,特にトレーニングデータが独立で,異なるクライアント間で同一に分散(非iid)された場合において有意に優れていることが明らかになった。

In this paper, we investigate the problem of decentralized federated learning (DFL) in Internet of things (IoT) systems, where a number of IoT clients train models collectively for a common task without sharing their private training data in the absence of a central server. Most of the existing DFL schemes are composed of two alternating steps, i.e., gradient update and model averaging. However, averaging of model parameters directly to fuse different models at the local clients suffers from client-drift in the local updates especially when the training data are heterogeneous across different clients. This leads to slow convergence and degraded learning performance. As a possible solution, we propose the decentralized federated learning via mutual knowledge transfer (Def-KT) algorithm where local clients fuse models by transferring their learnt knowledge to each other. Our experiments on the MNIST, Fashion-MNIST, and CIFAR10 datasets reveal that the proposed Def-KT algorithm significantly outperforms the baseline DFL methods with model averaging, i.e., Combo and FullAvg, especially when the training data are not independent and identically distributed (non-IID) across different clients.
翻訳日:2021-04-25 08:07:39 公開日:2020-12-24
# 可逆ニューラルネットワークによる逆例探索

Exploring Adversarial Examples via Invertible Neural Networks ( http://arxiv.org/abs/2012.13111v1 )

ライセンス: Link先を確認
Ruqi Bai and Saurabh Bagchi and David I. Inouye(参考訳) 逆の例(AEs)は、原画像にわずかな摂動を導入することによって、ディープニューラルネットワーク(DNN)分類器を誤解させることのできるイメージである。 このセキュリティ脆弱性は、ニューラルネットワークに依存するシステムに現実世界の脅威をもたらす可能性があるため、近年、大きな研究につながった。 しかし、敵の例の特徴の深い理解はいまだ解明されていない。 本稿では,リプシッツ連続写像関数を用いたインバータブルニューラルモデル(invertible neural model)の入力から出力への新たな理解方法を提案する。 任意の潜在表現を対応する入力画像に反転させる能力により、より深いレベルで敵の例を調査し、敵の潜在表現を乱すことができる。 このような新たな視点から,高速な空間対向例生成手法を提案し,対向訓練を高速化する。 さらに、この新しい視点は、逆のサンプル検出の新しい方法に貢献するかもしれない。

Adversarial examples (AEs) are images that can mislead deep neural network (DNN) classifiers via introducing slight perturbations into original images. This security vulnerability has led to vast research in recent years because it can introduce real-world threats into systems that rely on neural networks. Yet, a deep understanding of the characteristics of adversarial examples has remained elusive. We propose a new way of achieving such understanding through a recent development, namely, invertible neural models with Lipschitz continuous mapping functions from the input to the output. With the ability to invert any latent representation back to its corresponding input image, we can investigate adversarial examples at a deeper level and disentangle the adversarial example's latent representation. Given this new perspective, we propose a fast latent space adversarial example generation method that could accelerate adversarial training. Moreover, this new perspective could contribute to new ways of adversarial example detection.
翻訳日:2021-04-25 08:07:12 公開日:2020-12-24
# 感度 -- カオス性や勾配を制御するための局所指標

Sensitivity -- Local Index to Control Chaoticity or Gradient Globally ( http://arxiv.org/abs/2012.13134v1 )

ライセンス: Link先を確認
Katsunari Shibata, Takuya Ejima, Yuki Tokumaru, Toshitaka Matsuki(参考訳) 本稿では、ニューラルネットワーク(NN)のカオス性や勾配を世界規模で制御するために、各ニューロンに「感度」という完全に局所的な指標を提案し、さらに「感度調整学習(SAL)」という学習方法を提案する。 インデックスは、その入力に対する出力の勾配の大きさである。 1.0前後に調整することで、ニューロン内の情報伝達は、前方および後方の両方の計算を縮小または拡張することなく中程度に変化し、重みと入力がランダムな場合にも、ニューロン層を通しての情報伝達も中程度に変化する。 したがって、この手法は、リカレントNN(RNN)において、そのグローバルネットワークのカオス性を制御するために使用することができ、また、ディープフィードフォワードNN(DFNN)や長期依存のRNNにおいて、エラーバック伝搬(BP)学習における消滅する勾配問題を解決するためにも使用できる。 我々は、SALを小さなランダムウェイトを持つRNNに適用した場合、対数感度の和は、ネットワークアーキテクチャに関係なく0.0に達するまで、最大リャプノフ指数とほぼ同値であることを示した。 また,SAL は BP や BPTT と連携して,300 層DFNN や RNN において,最初の入力と出力の間に300 段階の遅延が生じる問題を回避する。 学習前の重み行列のスペクトル半径の微調整と比較すると,salの連続的非線形学習特性により学習性能が改善し,感度の低下が抑制された。

In this paper, we propose a fully local index named "sensitivity" for each neuron to control chaoticity or gradient globally in a neural network (NN), and also propose a learning method to adjust it named "sensitivity adjustment learning (SAL)". The index is the gradient magnitude of its output with respect to its inputs. By adjusting it around 1.0, information transmission in the neuron changes to moderate without shrinking or expanding for both forward and backward computations, and the information transmission through a layer of neurons also moderate when the weights and inputs are random. Therefore, it can be used in a recurrent NN (RNN) to control chaoticity of its global network dynamics, and also can be used to solve the vanishing gradient problem in error back propagation (BP) learning in a deep feedforward NN (DFNN) or an RNN with long-term dependency. We demonstrated that when SAL is applied to an RNN with small random weights, the sum of log-sensitivities is almost equivalent to the maximum Lyapunov exponent until it reaches 0.0 regardless of the network architecture. We also show that SAL works with BP or BPTT to avoid the vanishing gradient problem in a 300-layer DFNN or an RNN solving a problem with 300-step lag between the first input and the output. Compared with the fine manual tuning of the spectral radius of weight matrix before learning, the learning performance was quite better due to the continuous nonlinear learning nature of SAL, which prevented the loss of sensitivity.
翻訳日:2021-04-25 08:06:40 公開日:2020-12-24
# 多様な勧告のためのハイブリッドバンドフレームワーク

A Hybrid Bandit Framework for Diversified Recommendation ( http://arxiv.org/abs/2012.13245v1 )

ライセンス: Link先を確認
Qinxu Ding, Yong Liu, Chunyan Miao, Fei Cheng, Haihong Tang(参考訳) 対話型レコメンダシステムでは,ユーザの適切なフィードバックを受けてレコメンデーションポリシを更新することで,レコメンデーション手順にユーザを参加させる。 したがって、実際のアプリケーションシナリオで広く使われている。 これまでのインタラクティブレコメンデーション手法は、主にアイテムセットの関連性に関するユーザのパーソナライズされた好みの学習に焦点を当てている。 しかしながら、アイテムセットの多様性特性に対するユーザのパーソナライズされた好みの調査は通常無視される。 この問題を解決するために,モジュール関数と分散関数の組み合わせを最適化するためのオンライン学習環境であるLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。 具体的には、lmdbはモジュラー関数を使って各アイテムの関連性をモデル化し、分散関数はアイテム集合の多様性特性を記述する。 さらに,LMDH(Linear Modular Dispersion Hybrid)と呼ばれる学習アルゴリズムも開発し,LMDB問題を解くとともに,そのnステップの後悔に基づいてギャップのない境界を導出する。 推薦精度と多様性のバランスをとるためのlmdbフレームワークの有効性を実証するために,実データセットに関する広範な実験を行った。

The interactive recommender systems involve users in the recommendation procedure by receiving timely user feedback to update the recommendation policy. Therefore, they are widely used in real application scenarios. Previous interactive recommendation methods primarily focus on learning users' personalized preferences on the relevance properties of an item set. However, the investigation of users' personalized preferences on the diversity properties of an item set is usually ignored. To overcome this problem, we propose the Linear Modular Dispersion Bandit (LMDB) framework, which is an online learning setting for optimizing a combination of modular functions and dispersion functions. Specifically, LMDB employs modular functions to model the relevance properties of each item, and dispersion functions to describe the diversity properties of an item set. Moreover, we also develop a learning algorithm, called Linear Modular Dispersion Hybrid (LMDH) to solve the LMDB problem and derive a gap-free bound on its n-step regret. Extensive experiments on real datasets are performed to demonstrate the effectiveness of the proposed LMDB framework in balancing the recommendation accuracy and diversity.
翻訳日:2021-04-25 08:06:12 公開日:2020-12-24
# 軽度認知障害とアルツハイマー病におけるデジタル双生児の病態進展のモデル化

Modeling Disease Progression in Mild Cognitive Impairment and Alzheimer's Disease with Digital Twins ( http://arxiv.org/abs/2012.13455v1 )

ライセンス: Link先を確認
Daniele Bertolini, Anton D. Loukianov, Aaron M. Smith, David Li-Bland, Yannick Pouliot, Jonathan R. Walsh, Charles K. Fisher(参考訳) アルツハイマー病(英語: Alzheimer's Disease, AD)は、神経変性疾患であり、様々な重症度に影響を及ぼし、複数の認知機能機器を用いて臨床試験で評価される。 ADの臨床試験は、病気の早期、特に軽度認知障害(MCI)に重点を置いているため、疾患スペクトラム全体にわたる被験者の結果をモデル化する能力は非常に重要である。 我々は、条件制限ボルツマンマシン(CRBM)と呼ばれる教師なし機械学習モデルを用いて、AD被験者のデジタルツインを作成する。 デジタル双生児(英: digital twins)は、実際の被験者とベースラインデータを共有し、標準治療下での結果を包括的にモデル化する臨床記録である。 CRBMは、観察研究の被験者から得た大量の記録と、ADスペクトル全体にわたる臨床試験のプラセボアームに基づいて訓練されている。 これらのデータは、データセット内の被験者間で測定および欠落した観察の、挑戦的だが一般的なパッチワークを示し、それから効果的に学習する新しいモデルアーキテクチャを提案する。 本研究は,Digital Twinsが,MCIや軽度・軽度ADを含む多彩な疾患重症度で臨床治験において,複数の重要なエンドポイントの進行を同時に捉える方法を示す。

Alzheimer's Disease (AD) is a neurodegenerative disease that affects subjects in a broad range of severity and is assessed in clinical trials with multiple cognitive and functional instruments. As clinical trials in AD increasingly focus on earlier stages of the disease, especially Mild Cognitive Impairment (MCI), the ability to model subject outcomes across the disease spectrum is extremely important. We use unsupervised machine learning models called Conditional Restricted Boltzmann Machines (CRBMs) to create Digital Twins of AD subjects. Digital Twins are simulated clinical records that share baseline data with actual subjects and comprehensively model their outcomes under standard-of-care. The CRBMs are trained on a large set of records from subjects in observational studies and the placebo arms of clinical trials across the AD spectrum. These data exhibit a challenging, but common, patchwork of measured and missing observations across subjects in the dataset, and we present a novel model architecture designed to learn effectively from it. We evaluate performance against a held-out test dataset and show how Digital Twins simultaneously capture the progression of a number of key endpoints in clinical trials across a broad spectrum of disease severity, including MCI and mild-to-moderate AD.
翻訳日:2021-04-25 08:05:52 公開日:2020-12-24
# 保証RL:ほぼ確実に制約のある強化学習

Assured RL: Reinforcement Learning with Almost Sure Constraints ( http://arxiv.org/abs/2012.13036v1 )

ライセンス: Link先を確認
Agustin Castellano and Juan Bazerque and Enrique Mallada(参考訳) 我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。 我々は、報酬プロセスとは独立に実行可能なポリシーを識別できるバリアベースの分解を満たす値とアクション値関数を定義する。 条件 {\pi} が与えられた場合、ある状態-作用対が実現不可能な遷移を行う確率を求める補助的な問題を解くのと同値であることを示す。 この解釈を用いて,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。 我々の分析は、モデルレス制約によるRL問題の解法を可能とし、実現可能性情報を提供するここでのダメージ関数と呼ばれる、追加の信号で強化学習(RL)フレームワークを強化する必要性を動機付けている。 さらに、障壁学習アルゴリズムは、q-learningやsarsaといった既存のrlアルゴリズムを包み込み、ほぼ確実に制約された問題を解決することができる。

We consider the problem of finding optimal policies for a Markov Decision Process with almost sure constraints on state transitions and action triplets. We define value and action-value functions that satisfy a barrier-based decomposition which allows for the identification of feasible policies independently of the reward process. We prove that, given a policy {\pi}, certifying whether certain state-action pairs lead to feasible trajectories under {\pi} is equivalent to solving an auxiliary problem aimed at finding the probability of performing an unfeasible transition. Using this interpretation,we develop a Barrier-learning algorithm, based on Q-Learning, that identifies such unsafe state-action pairs. Our analysis motivates the need to enhance the Reinforcement Learning (RL) framework with an additional signal, besides rewards, called here damage function that provides feasibility information and enables the solution of RL problems with model-free constraints. Moreover, our Barrier-learning algorithm wraps around existing RL algorithms, such as Q-Learning and SARSA, giving them the ability to solve almost-surely constrained problems.
翻訳日:2021-04-25 08:05:01 公開日:2020-12-24
# 学習における統計的効率について

On Statistical Efficiency in Learning ( http://arxiv.org/abs/2012.13307v1 )

ライセンス: Link先を確認
Jie Ding, Enmao Diao, Jiawei Zhou, Vahid Tarokh(参考訳) 多くの統計的学習問題の中心的な問題は、候補モデルから適切なモデルを選択することである。 大きなモデルは分散(あるいは過剰適合)を増大させる傾向があり、小さなモデルは与えられた固定データセットに対するバイアス(または不適合)を引き起こす傾向にある。 本研究では,モデルフィッティングとモデル複雑性のバランスを保ち,信頼性の高い予測力を得るためのモデル選択という重要な課題に対処する。 統計的学習の理論的限界にアプローチするタスクを考えると、選択されたモデルは、潜在的に不特定な候補モデルのクラスが与えられたときの最良のモデルと同じくらいの予測性能を持つ。 本研究では,竹内情報基準の一般化概念を提案し,合理的な仮定の下で最適なアウトサンプル予測損失を漸近的に達成できることを実証する。 これは、竹内の情報基準が我々の最善の知識に対して漸近的であることを示す最初の証拠である。 我々の証明は、様々な非線形モデル、損失関数、高次元性(モデルの複雑さがサンプルサイズで増大するという意味で)に適用できる。 提案手法は, 計算効率のよいクロスバリデーションのためのサロゲートとして使用できる。 さらに,ストリーミングデータのモデル化のために,モデル複雑性を逐次拡大して選択安定性を高め,計算コストを低減するオンラインアルゴリズムを提案する。 実験により,提案手法は予測能力が望ましいこと,計算コストが一般的な手法に比べて著しく低いことがわかった。

A central issue of many statistical learning problems is to select an appropriate model from a set of candidate models. Large models tend to inflate the variance (or overfitting), while small models tend to cause biases (or underfitting) for a given fixed dataset. In this work, we address the critical challenge of model selection to strike a balance between model fitting and model complexity, thus gaining reliable predictive power. We consider the task of approaching the theoretical limit of statistical learning, meaning that the selected model has the predictive performance that is as good as the best possible model given a class of potentially misspecified candidate models. We propose a generalized notion of Takeuchi's information criterion and prove that the proposed method can asymptotically achieve the optimal out-sample prediction loss under reasonable assumptions. It is the first proof of the asymptotic property of Takeuchi's information criterion to our best knowledge. Our proof applies to a wide variety of nonlinear models, loss functions, and high dimensionality (in the sense that the models' complexity can grow with sample size). The proposed method can be used as a computationally efficient surrogate for leave-one-out cross-validation. Moreover, for modeling streaming data, we propose an online algorithm that sequentially expands the model complexity to enhance selection stability and reduce computation cost. Experimental studies show that the proposed method has desirable predictive power and significantly less computational cost than some popular methods.
翻訳日:2021-04-25 08:04:43 公開日:2020-12-24