このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210417となっている論文です。

PDF登録状況(公開日: 20210417)

TitleAuthorsAbstract論文公表日・翻訳日
# 電磁誘導透過性に及ぼす近接励起状態の影響

Effect of Closely-Spaced Excited States on Electromagnetically Induced Transparency ( http://arxiv.org/abs/1912.12267v2 )

ライセンス: Link先を確認
Saesun Kim and Alberto M. Marino(参考訳) 電磁誘導透明性(EIT)は、量子メモリや量子ゲートなどの量子デバイスに適用可能であることによるよく知られた現象である。 EITは通常、計算の単純さのために3段階のラムダシステムでモデル化される。 しかし、この単純化されたモデルは、実原子を用いたEIT実験のすべての物理を捉えていない。 2つの密接な励起状態がEITおよび非共鳴ラマン遷移に与える影響の理論的研究を示す。 ドップラー拡張線幅よりも分離が小さい2つの励起状態と磁場のコヒーレント相互作用は、EIT伝送を強化し、EITピークの幅を広げることができる。 しかし、不等双極子強度の遷移を持つ系に対する2光子共鳴周波数のシフトは、デコヒーレンスのない理想的な条件下であってもドップラー拡大を考慮した場合の最大透明性の低下につながる。 その結果、蒸気セルでは完全な透明性が達成できない。 2つの励起状態間の分離がドップラー幅のオーダー以上である場合のみ、完全な透明性を回復することができる。 さらに,外共振ラマン吸収が促進され,共振周波数がシフトすることを示した。 最後に、フィールドと4つのレベルとの相互作用を考慮に入れた場合の理論的予測に一致する$^{85}$RbのD1線に関する実験的なEIT測定について述べる。

Electromagnetically induced transparency (EIT) is a well-known phenomenon due in part to its applicability to quantum devices such as quantum memories and quantum gates. EIT is commonly modeled with a three-level lambda system due to the simplicity of the calculations. However, this simplified model does not capture all the physics of EIT experiments with real atoms. We present a theoretical study of the effect of two closely-spaced excited states on EIT and off-resonance Raman transitions. We find that the coherent interaction of the fields with two excited states whose separation is smaller than their Doppler broadened linewidth can enhance the EIT transmission and broaden the width of the EIT peak. However, a shift of the two-photon resonance frequency for systems with transitions of unequal dipole strengths leads to a reduction of the maximum transparency that can be achieved when Doppler broadening is taken into account even under ideal conditions of no decoherence. As a result, complete transparency cannot be achieved in a vapor cell. Only when the separation between the two excited states is of the order of the Doppler width or larger can complete transparency be recovered. In addition, we show that off-resonance Raman absorption is enhanced and its resonance frequency is shifted. Finally, we present experimental EIT measurements on the D1 line of $^{85}$Rb that agree with the theoretical predictions when the interaction of the fields with the four levels is taken into account.
翻訳日:2023-06-09 23:17:49 公開日:2021-04-17
# 超伝導カドミウムヒ素の表面状態を利用したマイクロ波光子数分解検出器

Microwave Photon Number Resolving Detector Using the Topological Surface State of Superconducting Cadmium Arsenide ( http://arxiv.org/abs/2009.02096v2 )

ライセンス: Link先を確認
Eric Chatterjee, Wei Pan, and Daniel Soh(参考訳) 光子数分解検出器は量子光学において中心的な役割を果たす。 低エネルギー光子を吸収する適切なバンド構造だけでなく、離散光電子励起を検出する手段を提供する適切な材料を見つけることが、マイクロ波周波数範囲における吸収光子数の解決における鍵となる課題である。 そこで本研究では, 超伝導アルセニドカドミウム (cd3as2) を用いた光子吸収による温度利得を, 位相的半金属表面状態を検出器として測定する。 表面電子は入ってくる光子を吸収し、熱によって余剰エネルギーを超伝導バルクのフォノンモードに伝達する。 温度ゲインはゼロバイアスバルク比抵抗の変化を測定することで決定できるが、格子のダイナミクスには影響しない。 さらに、得られた温度ゲインは吸収光子の個数と個別にスケールし、光子数解決機能を実現する。 ここでは、吸収された光子の数と周波数の関数として温度上昇を計算する。 また、表面電子からバルクフォノンへの熱伝達過程の時間スケールを導出する。 伝熱過程が熱散逸損失を無視するのに十分な速さであることを具体的に示す。

Photon number resolving detectors play a central role in quantum optics. A key challenge in resolving the number of absorbed photons in the microwave frequency range is finding a suitable material that provides not only an appropriate band structure for absorbing low-energy photons but also a means of detecting a discrete photoelectron excitation. To this end, we propose to measure the temperature gain after absorbing a photon using superconducting cadmium arsenide (Cd3As2) with a topological semimetallic surface state as the detector. The surface electrons absorb the incoming photons and then transfer the excess energy via heat to the superconducting bulk's phonon modes. The temperature gain can be determined by measuring the change in the zero-bias bulk resistivity, which does not significantly affect the lattice dynamics. Moreover, the obtained temperature gain scales discretely with the number of absorbed photons, enabling a photon-number resolving function. Here, we will calculate the temperature increase as a function of the number and frequency of photons absorbed. We will also derive the timescale for the heat transfer process from the surface electrons to the bulk phonons. We will specifically show that the transfer processes are fast enough to ignore heat dissipation loss.
翻訳日:2023-05-03 20:53:49 公開日:2021-04-17
# 連続および時間離散非マルコフ系-保存相互作用:リウヴィル空間における散逸コヒーレント量子フィードバック

Continuous and time-discrete non-Markovian system-reservoir interactions: Dissipative coherent quantum feedback in Liouville space ( http://arxiv.org/abs/2011.05071v2 )

ライセンス: Link先を確認
Oliver K\"astle, Regina Finsterhoelzl, Andreas Knorr, Alexander Carmele(参考訳) 指数関数的メモリスケーリングを多項式効率に還元する経路積分のテンソルネットワーク実現と、時間離散型量子メモリのリウヴィル空間実装に基づき、2つの構造化貯水池に同時に露出する量子システムについて検討する。 そこで本稿では, 対角線と対角線と対角線との相互作用と, 連続的, 離散的遅延効果の2倍のメモリを組み合わせた, 数値的に正確な2次元テンソルネットワークを提案する。 一例として、離散フォトニックフィードバックと構造された音響フォノンモードの非マルコフ的動的相互作用を考察し、初期励起された2レベルシステム内での貯留層間相関と長寿命個体群トラップの出現を導いた。

Based on tensor network realizations of path integrals reducing exponential memory scaling to polynomial efficiency and a Liouville space implementation of a time-discrete quantum memory, we investigate a quantum system simultaneously exposed to two structured reservoirs. For this purpose, we employ a numerically exact quasi-2D tensor network combining both diagonal and off-diagonal system-reservoir interactions with a twofold memory for continuous and discrete retardation effects. As a possible example, we study the non-Markovian dynamical interplay between discrete photonic feedback and structured acoustic phonon modes, resulting in emerging inter-reservoir correlations and long-living population trapping within an initially-excited two-level system.
翻訳日:2023-04-24 19:04:08 公開日:2021-04-17
# ポジティヴな関連サンプルがテストコストを節約

Positively Correlated Samples Save Pooled Testing Costs ( http://arxiv.org/abs/2011.09794v2 )

ライセンス: Link先を確認
Yi-Jheng Lin, Che-Hao Yu, Tzu-Hsuan Liu, Cheng-Shang Chang, and Wen-Tsuen Chen(参考訳) 個別のテストアプローチよりも大幅なコスト削減を実現するグループテストアプローチは、最近、COVID-19の大規模なテストで大きな関心を集めている。 多くの研究は単に群に混ざったサンプルが独立であると仮定している。 しかし、この仮定は新型コロナウイルスのような伝染病には妥当ではないかもしれない。 特に、家族内の人々は互いに感染する傾向があり、したがって正の相関関係にある可能性が高い。 正の相関を利用して、以下の2つの主な貢献を行う。 1つは、グループ内のサンプルが正の相関関係にある場合に、ドルフマン二段階法を用いてさらなるコスト削減を実現するための厳密な証明を提供することである。 もうひとつは,ソーシャルグラフを用いたプールテストのための階層的凝集アルゴリズムを提案することであり,ソーシャルグラフのエッジが2人間の頻繁なソーシャルコンタクトを接続する。 このようなアルゴリズムは、ドルフマン二段階アルゴリズムを適用した場合のランダムプーリングと比較して、顕著なコスト削減(約20%-35%)をもたらす。

The group testing approach that achieves significant cost reduction over the individual testing approach has received a lot of interest lately for massive testing of COVID-19. Many studies simply assume samples mixed in a group are independent. However, this assumption may not be reasonable for a contagious disease like COVID-19. Specifically, people within a family tend to infect each other and thus are likely to be positively correlated. By exploiting positive correlation, we make the following two main contributions. One is to provide a rigorous proof that further cost reduction can be achieved by using the Dorfman two-stage method when samples within a group are positively correlated. The other is to propose a hierarchical agglomerative algorithm for pooled testing with a social graph, where an edge in the social graph connects frequent social contacts between two persons. Such an algorithm leads to notable cost reduction (roughly 20%-35%) compared to random pooling when the Dorfman two-stage algorithm is applied.
翻訳日:2023-04-23 17:18:48 公開日:2021-04-17
# 人工ニューラルネットワークのためのサンプリング非対称開量子システム

Sampling asymmetric open quantum systems for artificial neural networks ( http://arxiv.org/abs/2012.10990v2 )

ライセンス: Link先を確認
Oliver K\"astle and Alexander Carmele(参考訳) 制限されたボルツマンマシンアーキテクチャとメトロポリスサンプリング手法に基づく確立されたニューラルネットワークアプローチは、対称なオープン量子システムに適しているが、それらは、サンプルサイズのようなトレーニングパラメータによらず、翻訳不変性の対称性を持たないセットアップのスケーラビリティと体系的なエラーをもたらす。 この表現限界を克服するために、非対称特性を明示的に考慮し、非対称オープンシステムに対する高速収束時間と高いスケーラビリティを達成し、人工ニューラルネットワークの普遍的適用性を説明するハイブリッドサンプリング戦略を提案する。

While established neural network approaches based on restricted Boltzmann machine architectures and Metropolis sampling methods are well suited for symmetric open quantum systems, they result in poor scalability and systematic errors for setups without symmetries of translational invariance, independent of training parameters such as the sample size. To overcome this representational limit, we present a hybrid sampling strategy which takes asymmetric properties explicitly into account, achieving fast convergence times and high scalability for asymmetric open systems, underlining the universal applicability of artificial neural networks.
翻訳日:2023-04-20 02:27:30 公開日:2021-04-17
# 2次元クラスAI金属における非線形ホール効果

Nonlinear Hall effect in two-dimensional class AI metals ( http://arxiv.org/abs/2104.08477v1 )

ライセンス: Link先を確認
Zi-Shan Liao, Hong-Hao Zhang, Zhongbo Yan(参考訳) 時間反転不変量系において、ベリー曲率分布に対する時間反転対称性の制約により、異常ホール効果が線形応答系において同一に消滅するのに対し、反転対称性が破れ、フェルミ面上の非零ベリー曲率双極子(bcd)を許容する場合には、非線形ホール効果が二次応答系に現れる。 本研究では,スピンレス時間反転対称性を持つ対称性クラスAIに属する二次元ドープ絶縁体とセミメタルのBCD起源の非線形ホール効果について検討する。 クラスAIは2次元の強いトポロジカル絶縁体フェーズをホストしていないが、ハミルトニアンに一定の制約を課すと、トポロジカルに妨げられた絶縁体と自明な絶縁体に分類できる。 絶縁体が2つの異なる相の相境界に近づくと、ドーピングレベルがバンドエッジ付近にある場合、BCDはより顕著になる。 さらに、絶縁体が2つの異なる位相間の相転移を行うと、BCDは、その兆候を劇的に変化させる。 反転対称性のない半金属の場合、ドーピング準位がディラック点を横切ると、BCDはそれらの符号を鋭く反転させる。 エネルギーにおけるディラック点の位置のシフトにより、BCDが符号を鋭く反転させる臨界ドーピングレベルが変化する。 本研究により、クラスai材料は興味深い幾何学的および位相的性質を持つことができ、スピン軌道結合が無視できるにもかかわらず、この種類の材料にも顕著な非線形ホール効果が現れることが判明した。 本研究は,非線形ホール効果を研究する材料の範囲を広げ,この効果を応用するための新たな展望を提供する。

In a time-reversal invariant system, while the anomalous Hall effect identically vanishes in the linear response regime due to the constraint of time-reversal symmetry on the distribution of Berry curvature, a nonlinear Hall effect can emerge in the second-order response regime if the inversion symmetry is broken to allow a nonzero Berry curvature dipole (BCD) on the Fermi surface. In this work, we study the nonlinear Hall effect of the BCD origin in two-dimensional doped insulators and semimetals belonging to the symmetry class AI which has spinless time-reversal symmetry. Despite that the class AI does not host any strong topological insulator phase in two dimensions, we find that they can still be classified as topologically obstructed insulators and trivial insulators if putting certain constraint on the Hamiltonians. When the insulator gets closer to the phase boundary of the two distinct phases, we find that the BCDs will become more prominent if the doping level is located near the band edge. Moreover, when the insulator undergoes a phase transition between the two distinct phases, we find that the BCDs will dramatically change their signs. For the semimetals without inversion symmetry, we find that the BCDs will sharply reverse their signs when the doping level crosses the Dirac points. With the shift of the locations of Dirac points in energy, the critical doping level at which the BCDs sharply reverse their signs will accordingly change. Our study reveals that class AI materials can also have interesting geometrical and topological properties, and remarkable nonlinear Hall effect can also appear in this class of materials even though the spin-orbit coupling is negligible. Our findings broaden the scope of materials to study the nonlinear Hall effect and provide new perspectives for the application of this effect.
翻訳日:2023-04-03 08:44:52 公開日:2021-04-17
# バンダゴンに飛び乗るか? --NBAファンコミュニティにおけるバンドワゴン現象の特徴

Jump on the Bandwagon? -- Characterizing Bandwagon Phenomenon in Online NBA Fan Communities ( http://arxiv.org/abs/2104.08632v1 )

ライセンス: Link先を確認
Yichen Wang, Jason Shuo Zhang, Xu Han, Qin Lv(参考訳) オンラインコミュニティにおけるユーザダイナミクスの理解は活発な研究トピックとなり、人間の行動分析やコミュニティ管理に貴重な洞察を与えることができる。 本研究では,プロスポーツチームにおけるオンラインファンの忠誠心を大規模に評価するために,ユーザダイナミクスの特殊な事例である「バンドワゴンファン」現象について検討する。 NBA関連の議論フォーラムのReddit上の既存の構造を活用し、一般的なバンドワゴンパターンを調査し、バンドワゴンファンの行動を調べて潜在行動特性を捉えた。 優れたチームがより多くのバンドワゴンファンを引き付けるのを観察するが、必ずしも弱いチームに由来するとは限らない。 ブロードワゴンファンフローの解析は,プレーオフシーズンが進むにつれて,異なるチームに対して異なる傾向を示す。 さらに,バンドワゴンユーザと非バンドワゴンユーザを,活動量と言語使用量の観点から比較した。 bandwagonのユーザーは短いコメントを書くが、より良いフィードバックを受け取り、関連チームのアタッチメントの少ない言葉を使う。 評価結果のベースライン法に対する大幅な改善が示すように, バンドワゴン利用者のより効果的な識別と, シーズン中の将来のバンドワゴン行動の予測を可能にした。

Understanding user dynamics in online communities has become an active research topic and can provide valuable insights for human behavior analysis and community management. In this work, we investigate the "bandwagon fan" phenomenon, a special case of user dynamics, to provide a large-scale characterization of online fan loyalty in the context of professional sports teams. We leverage the existing structure of NBA-related discussion forums on Reddit, investigate the general bandwagon patterns, and trace the behavior of bandwagon fans to capture latent behavioral characteristics. We observe that better teams attract more bandwagon fans, but they do not necessarily come from weak teams. Our analysis of bandwagon fan flow also shows different trends for different teams, as the playoff season progresses. Furthermore, we compare bandwagon users with non-bandwagon users in terms of their activity and language usage. We find that bandwagon users write shorter comments but receive better feedback, and use words that show less attachment to their affiliated teams. Our observations allow for more effective identification of bandwagon users and prediction of users' future bandwagon behavior in a season, as demonstrated by the significant improvement over the baseline method in our evaluation results.
翻訳日:2023-04-03 08:39:20 公開日:2021-04-17
# 1次元無限平方井戸ハミルトニアンの超対称パートナー

Supersymmetric Partners of the One-Dimensional Infinite Square Well Hamiltonian ( http://arxiv.org/abs/2104.08617v1 )

ライセンス: Link先を確認
M. Gadella, J. Hern\'andez-Mu\~noz, L.M. Nieto, and C. San Mill\'an(参考訳) 微分作用素 $-d^2/dx^2$ on $l^2[-a,a]$, $a>0$,すなわち1次元無限平方井戸の自己随伴拡大である自己随伴作用素の族の超対称パートナーを見つける。 まず、これらの自己随伴拡張を、各拡張を決定するパラメータのいくつかの選択の観点から分類する。 基本的に2つの大きな拡張グループがあります。 第一に、基底状態は厳密に正のエネルギーを持つ。 一方、基底状態はゼロまたは負のエネルギーを持つ。 本稿では、第1群に属する拡大(強正の基底状態のエネルギー)が無限列の超対称パートナーを持つことを示し、$\ell$-次パートナーは、$(\ell-1)$-次パートナーと$(\ell+1)$-次パートナーの両方と1つのエネルギーレベルで異なることを示す。 一般に、$-d^2/dx^2$ の各自己随伴拡大の固有値は超越方程式から得られ、すべて無限である。 この研究のケースでは、無限である固有値、すなわち「すべての拡大は純粋に離散スペクトルを持つ」、そしてそれらの固有関数はそれぞれの拡張の$\ell$-th 超対称パートナーに対して決定される。

We find supersymmetric partners of a family of self-adjoint operators which are self-adjoint extensions of the differential operator $-d^2/dx^2$ on $L^2[-a,a]$, $a>0$, that is, the one dimensional infinite square well. First of all, we classify these self-adjoint extensions in terms of several choices of the parameters determining each of the extensions. There are essentially two big groups of extensions. In one, the ground state has strictly positive energy. On the other, either the ground state has zero or negative energy. In the present paper, we show that each of the extensions belonging to the first group (energy of ground state strictly positive) has an infinite sequence of supersymmetric partners, such that the $\ell$-th order partner differs in one energy level from both the $(\ell-1)$-th and the $(\ell+1)$-th order partners. In general, the eigenvalues for each of the self-adjoint extensions of $-d^2/dx^2$ come from a transcendental equation and are all infinite. For the case under our study, we determine the eigenvalues, which are also infinite, {all the extensions have a purely discrete spectrum,} and their respective eigenfunctions for all of its $\ell$-th supersymmetric partners of each extension.
翻訳日:2023-04-03 08:38:47 公開日:2021-04-17
# yi jingの哲学に触発された新しい非人口型メタヒューリスティックオプティマイザ

A Novel Non-population-based Meta-heuristic Optimizer Inspired by the Philosophy of Yi Jing ( http://arxiv.org/abs/2104.08564v1 )

ライセンス: Link先を確認
Ho-Kin Tang, Sim Kuan Goh(参考訳) yi-Yangペア最適化(YYPO)は,Yi-Jingの哲学からインスピレーションを得て,単一目的最適化において競争性能を達成することが示されている。 さらに、他の人口ベース最適化と比較すると、低時間の複雑さの利点がある。 本稿では,YYPOの概念拡張として,Yi最適化アルゴリズムを提案する。 y-Yang 対を Yi-point に置き換えて解を更新し、最適化過程における探索と利用の両面でのバランスをとる。 概念的プロトタイプとして,YI を IEEE CEC 2017 ベンチマークで検討し,その性能を,YYPO ファミリーにおける最先端の動的Yin-Yang ペア最適化である Levy 飛行ベースオプティマイザCV1.0 と比較する。 実験結果によると、YIは低時間の複雑さを維持しながら高い競争性能を示した。 したがって, この研究の結果は, 研究にふさわしいYi Jingの哲学を用いて, メタヒューリスティック・オプティマイザの強化に寄与する。

Drawing inspiration from the philosophy of Yi Jing, Yin-Yang pair optimization (YYPO) has been shown to achieve competitive performance in single objective optimizations. Besides, it has the advantage of low time complexity when comparing to other population-based optimization. As a conceptual extension of YYPO, we proposed the novel Yi optimization (YI) algorithm as one of the best non-population-based optimizer. Incorporating both the harmony and reversal concept of Yi Jing, we replace the Yin-Yang pair with a Yi-point, in which we utilize the Levy flight to update the solution and balance both the effort of the exploration and the exploitation in the optimization process. As a conceptual prototype, we examine YI with IEEE CEC 2017 benchmark and compare its performance with a Levy flight-based optimizer CV1.0, the state-of-the-art dynamical Yin-Yang pair optimization in YYPO family and a few classical optimizers. According to the experimental results, YI shows highly competitive performance while keeping the low time complexity. Hence, the results of this work have implications for enhancing meta-heuristic optimizer using the philosophy of Yi Jing, which deserves research attention.
翻訳日:2023-04-03 08:37:53 公開日:2021-04-17
# Cear\'a (Brazil) 市町村における企業・企業公共事業共生ネットワークの特質

Characterization of the Firm-Firm Public Procurement Co-Bidding Network from the State of Cear\'a (Brazil) Municipalities ( http://arxiv.org/abs/2104.08547v1 )

ライセンス: Link先を確認
Marcos Lyra and Ant\'onio Curado and Bruno Dam\'asio and Fernando Ba\c{c}\~ao and Fl\'avio L. Pinheiro(参考訳) 公的資金の不正は、社会の経済的、社会的、政治的幸福に有害な結果をもたらす可能性がある。 公共調達契約に関連する不正行為は、毎年数十億ユーロの損失を計上している。 したがって、当局が不規則な活動に陥りやすいエージェントを特定するのに役立つ分析フレームワークを探求することは最も有益である。 ここでは,2015 年から2019 年の間に Cear\'a (ブラジル) の184 ドルの市町村が発行した公益事業に参加する企業間の連携関係について,標準的なネットワーク科学手法を用いて検討する。 調達活動に類似したパターンを持つ企業の2,200ドルのグループ/コミュニティを地理的および活動範囲で特定する。 コミュニティのプロファイリングにより、市場操作や不規則な活動の影響を受けやすいグループを強調できる。 本研究は,市場エージェント間の複雑な関係性を明らかにするために,政策におけるネットワーク分析の潜在的応用を補強するものである。

Fraud in public funding can have deleterious consequences for the economic, social, and political well-being of societies. Fraudulent activity associated with public procurement contracts accounts for losses of billions of euros every year. Thus, it is of utmost relevance to explore analytical frameworks that can help public authorities identify agents that are more susceptible to incur in irregular activities. Here, we use standard network science methods to study the co-biding relationships between firms that participate in public tenders issued by the $184$ municipalities of the State of Cear\'a (Brazil) between 2015 and 2019. We identify $22$ groups/communities of firms with similar patterns of procurement activity, defined by their geographic and activity scopes. The profiling of the communities allows us to highlight groups that are more susceptible to market manipulation and irregular activities. Our work reinforces the potential application of network analysis in policy to unfold the complex nature of relationships between market agents in a scenario of scarce data.
翻訳日:2023-04-03 08:37:33 公開日:2021-04-17
# CNNで学ぶ機能的アーキテクチャにおけるLie対称性の出現

Emergence of Lie symmetries in functional architectures learned by CNNs ( http://arxiv.org/abs/2104.08537v1 )

ライセンス: Link先を確認
Federico Bertoni, Noemi Montobbio, Alessandro Sarti and Giovanna Citti(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)の初期層における自然画像学習における対称性の自発的発達について検討する。 私たちのアーキテクチャは、生体視覚システムの初期段階を模倣するために構築されています。 特に、Larial Geniculate Nucleus (LGN) と類似して定義された事前フィルタリングステップ $\ell^0$ を含む。 さらに、第1の畳み込み層は、一次視覚野の水平接続と類似して、学習された接続カーネルによって駆動される伝搬として定義される横接続を備える(V1)。 層$\ell^0$は、LGN細胞の受容プロファイルのよく知られたモデルであるガウスのラプラシアン(LoG)によってよく近似された回転対称パターンを示す。 第1層の畳み込みフィルタは、V1の単純細胞のプロファイルに関する確立されたモデルと一致して、Gabor関数によって近似することができる。 本研究では, 学習したフィルタの向き選択性の出現を示すとともに, 学習した側方接続カーネルについて検討する。 また、学習したカーネルによって引き起こされる関連フィールドについても検討し、V1水平接続の既知のグループベースモデルと定性的かつ定量的に比較した。 これらの幾何学的性質は、外部刺激によって引き起こされる脳の可塑性による視覚系における対称性の出現と類似して、CNNアーキテクチャのトレーニング中に自然に生じる。

In this paper we study the spontaneous development of symmetries in the early layers of a Convolutional Neural Network (CNN) during learning on natural images. Our architecture is built in such a way to mimic the early stages of biological visual systems. In particular, it contains a pre-filtering step $\ell^0$ defined in analogy with the Lateral Geniculate Nucleus (LGN). Moreover, the first convolutional layer is equipped with lateral connections defined as a propagation driven by a learned connectivity kernel, in analogy with the horizontal connectivity of the primary visual cortex (V1). The layer $\ell^0$ shows a rotational symmetric pattern well approximated by a Laplacian of Gaussian (LoG), which is a well-known model of the receptive profiles of LGN cells. The convolutional filters in the first layer can be approximated by Gabor functions, in agreement with well-established models for the profiles of simple cells in V1. We study the learned lateral connectivity kernel of this layer, showing the emergence of orientation selectivity w.r.t. the learned filters. We also examine the association fields induced by the learned kernel, and show qualitative and quantitative comparisons with known group-based models of V1 horizontal connectivity. These geometric properties arise spontaneously during the training of the CNN architecture, analogously to the emergence of symmetries in visual systems thanks to brain plasticity driven by external stimuli.
翻訳日:2023-04-03 08:37:12 公開日:2021-04-17
# 健康の社会的決定要因に関連した弁護士プロボノサービスの必要性の定量化

Quantifying the Need for Attorney Pro Bono Services in Connection with the Social Determinants of Health ( http://arxiv.org/abs/2104.08522v1 )

ライセンス: Link先を確認
Yi Mao, Stacey R. Beck, Benjamin Bartek, Beatriz Cabrera, Rachell Calhoun, David Coe, Jakob Cronberg, Suren Nalluri, and Bradley Merrill Thompson(参考訳) この論文は、社会決定因子(Social Determinants of Health, SDoH)を構成する問題において、米国中の狂ったクライアントの法的ニーズに対処するために、毎年追加の弁護士時間の必要性を見積もっている。 その結果、政策立案者や民間寄付者などの利害関係者に、リソースを適切に配分し、いわゆる司法ギャップを埋めるためのプログラムを設計できるようにする。 パイロット研究として、プロジェクトのスコープは、健康の社会的決定要因(標準的な住宅、退院、強制収容、無能力者の保護、家庭内暴力の被害者)に関連するいくつかの主要な司法問題のみをカバーしている。 私たちの計算によると、これらの5つの法的問題のみに対処する弁護士の時間の総数は、年間3400万以上である。 米国弁護士協会(American Bar Association)は2018年、我々のデータの大半が得られた年のうち、米国の開業弁護士の総数は1,338,678人(Weiss)と見積もっています。 したがって、必要な時間を提供するためには、米国のすべての練習弁護士が年間約26時間貢献する必要がある。 多くの弁護士が実際にプロのボノ時間に貢献していますが、彼らは私たちが研究した5人以上の法的なニーズに対処しています。

The paper estimates the need for additional attorney hours annually to address the legal needs of indigent clients throughout the United States in matters that comprise the so-called social determinants of health (SDoH). The result will inform stakeholders such as policy makers and private donors so they can allocate resources appropriately and design programs to close the do-called justice gap. As a pilot study, the scope of the project covers only a few major justice problems related to the social determinants of health (standard housing, evictions and foreclosures, guardianships for the incapacitated, and victims of domestic violence) because they significantly impact health outcomes and there are data available. Based on our calculations, we estimate that the total number of attorney hours to address only these five legal issues is over 34 million per year. To put that in perspective, the American Bar Association estimated that in 2018, the year from which much of our data comes, the total number of practicing attorneys in the United States was 1,338,678 (Weiss). Thus, to provide the needed hours, every single practicing attorney in the United States would need to contribute about 26 hours a year. While many lawyers do in fact contribute pro bono hours, they address the full range of legal needs that go well beyond just the five we studied.
翻訳日:2023-04-03 08:36:50 公開日:2021-04-17
# Word2Vec: 最適ハイパーパラメータとNLPダウンストリームタスクへの影響

Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream Tasks ( http://arxiv.org/abs/2003.11645v3 )

ライセンス: Link先を確認
Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) Word2Vecは自然言語処理(NLP)タスクの顕著なモデルである。 同様のインスピレーションは、新しい最先端(SotA)ディープニューラルネットワークのための分散埋め込みで見られる。 しかし、ハイパーパラメータの間違った組み合わせは品質の悪いベクトルを生成する。 本研究の目的は、ハイパーパラメータの最適組み合わせを実証的に示し、様々な組み合わせを評価することである。 それらは、リリース済みのオリジナルのword2vecモデルと比較する。 名前付きエンティティ認識(ner)と感情分析(sa)を含む内在的および外在的(下流)評価を行った。 下流のタスクでは、最良のモデルはタスク固有のもので、高いアナロジースコアは必ずしもf1スコアと正の相関を示さず、データのみに焦点を当てることにも当てはまる。 点の後にベクトル次元のサイズを増やすと、品質や性能が低下する。 時間、エネルギー、環境を節約するための倫理的考慮が作成されれば、合理的に小さなコーパスも同様に、場合によってはさらに良くなるかもしれない。 また,小コーパスを用いた場合,100億語コーパスで学習した元モデルと比較して,人間に割り当てられたワーシムスコア,対応するスピアマン相関,下流パフォーマンス(重要度テスト)が向上した。

Word2Vec is a prominent model for natural language processing (NLP) tasks. Similar inspiration is found in distributed embeddings for new state-of-the-art (SotA) deep neural networks. However, wrong combination of hyper-parameters can produce poor quality vectors. The objective of this work is to empirically show optimal combination of hyper-parameters exists and evaluate various combinations. We compare them with the released, pre-trained original word2vec model. Both intrinsic and extrinsic (downstream) evaluations, including named entity recognition (NER) and sentiment analysis (SA) were carried out. The downstream tasks reveal that the best model is usually task-specific, high analogy scores don't necessarily correlate positively with F1 scores and the same applies to focus on data alone. Increasing vector dimension size after a point leads to poor quality or performance. If ethical considerations to save time, energy and the environment are made, then reasonably smaller corpora may do just as well or even better in some cases. Besides, using a small corpus, we obtain better human-assigned WordSim scores, corresponding Spearman correlation and better downstream performances (with significance tests) compared to the original model, trained on 100 billion-word corpus.
翻訳日:2022-12-20 23:23:19 公開日:2021-04-17
# csmoute:不均衡データ分類のための合成オーバーサンプリングとアンダーサンプリングの併用

CSMOUTE: Combined Synthetic Oversampling and Undersampling Technique for Imbalanced Data Classification ( http://arxiv.org/abs/2004.03409v2 )

ライセンス: Link先を確認
Micha{\l} Koziarski(参考訳) 本稿では,SMUTE(Synthetic Majority Undersampling Technique)という分類タスクにおけるデータ不均衡を扱う新しいデータレベルアルゴリズムを提案する。 SMUTEは、以前SMOTEのオーバーサンプリング設定で導入された、近くのインスタンスの補間の概念を活用する。 さらに、SMOTEオーバサンプリングとSMUTEアンダーサンプリングを統合するCSMOUTE(Combined Synthetic Oversampling and Undersampling Technique)を併用する。 実験の結果,SMUTEアルゴリズムとCSMOUTEアルゴリズム,特により複雑な分類器(MLPとSVM)と組み合わせた場合,および多数の外れ値からなるデータセットに適用した場合の有用性が示された。 この結果から,提案手法は,本論文でより詳細に論じられた,局所的なデータ特性を考慮したさらなる拡張が期待できるという結論が得られた。

In this paper we propose a novel data-level algorithm for handling data imbalance in the classification task, Synthetic Majority Undersampling Technique (SMUTE). SMUTE leverages the concept of interpolation of nearby instances, previously introduced in the oversampling setting in SMOTE. Furthermore, we combine both in the Combined Synthetic Oversampling and Undersampling Technique (CSMOUTE), which integrates SMOTE oversampling with SMUTE undersampling. The results of the conducted experimental study demonstrate the usefulness of both the SMUTE and the CSMOUTE algorithms, especially when combined with more complex classifiers, namely MLP and SVM, and when applied on datasets consisting of a large number of outliers. This leads us to a conclusion that the proposed approach shows promise for further extensions accommodating local data characteristics, a direction discussed in more detail in the paper.
翻訳日:2022-12-15 23:03:42 公開日:2021-04-17
# 不均衡大腸癌画像分類における畳み込みニューラルネットワークトレーニングのための2段階再サンプリング

Two-Stage Resampling for Convolutional Neural Network Training in the Imbalanced Colorectal Cancer Image Classification ( http://arxiv.org/abs/2004.03332v2 )

ライセンス: Link先を確認
Micha{\l} Koziarski(参考訳) データ不均衡は、現代の機械学習におけるオープンな課題の1つだ。 特に病理組織像などの医学的データでは一般的である。 画像データには従来のデータレベルのアプローチは不適当である: smoteやその派生品のような過剰なサンプリング手法は非現実的な合成観測に繋がるが、アンダーサンプリングは利用可能なデータ量を減らし、畳み込みニューラルネットワークのトレーニングの成功に不可欠である。 オーバーサンプリングとアンダーサンプリングに関連する問題を緩和するために、画像空間におけるオーバーサンプリング技術を用いて畳み込みニューラルネットワークのトレーニングに大量のデータを活用する新しい2段階リサンプリング手法を提案し、その後、特徴空間におけるアンダーサンプリングを適用してネットワークの最後の層を微調整する。 大腸癌画像データセットを用いて行った実験は,提案手法の有用性を示している。

Data imbalance remains one of the open challenges in the contemporary machine learning. It is especially prevalent in case of medical data, such as histopathological images. Traditional data-level approaches for dealing with data imbalance are ill-suited for image data: oversampling methods such as SMOTE and its derivatives lead to creation of unrealistic synthetic observations, whereas undersampling reduces the amount of available data, critical for successful training of convolutional neural networks. To alleviate the problems associated with over- and undersampling we propose a novel two-stage resampling methodology, in which we initially use the oversampling techniques in the image space to leverage a large amount of data for training of a convolutional neural network, and afterwards apply undersampling in the feature space to fine-tune the last layers of the network. Experiments conducted on a colorectal cancer image dataset indicate the usefulness of the proposed approach.
翻訳日:2022-12-15 22:45:41 公開日:2021-04-17
# CrisisBench:人道情報処理のための危機関連ソーシャルメディアデータセットのベンチマーク

CrisisBench: Benchmarking Crisis-related Social Media Datasets for Humanitarian Information Processing ( http://arxiv.org/abs/2004.06774v4 )

ライセンス: Link先を確認
Firoj Alam, Hassan Sajjad, Muhammad Imran and Ferda Ofli(参考訳) 災害時の迅速な対応を計画する人道的組織にとって、ソーシャルメディアストリームの時間的クリティカルな分析が重要である。 textit{crisis informatics}研究コミュニティは、ソーシャルメディアに投稿された大きな危機関連データを処理し分類するための、いくつかの技術とシステムを開発した。 しかし、文献(例えば、トレーニングモデル)で使用されるデータセットの分散性のため、結果を比較して危機情報処理のためのより良いモデルを構築するための進捗を測定することは不可能である。 本研究では,既存の危機関連データセットを組み合わせることで,このギャップを埋めることを試みる。 我々は、8つの人称注釈データセットを統合し、166.1k と 141.5k のつぶやきを \textit{informativeness} と \textit{ Humanitarian} の分類タスクにそれぞれ提供する。 統合データセットは、より高度なモデルをトレーニングするのに役立ちます。 さらに、CNN、fastText、transformerなど、いくつかのディープラーニングアーカイブを用いて、バイナリクラスとマルチクラスの両方の分類タスクのベンチマークを提供する。 https://crisisnlp.qcri.org/crisis_datasets_benchmarks.html

Time-critical analysis of social media streams is important for humanitarian organizations for planing rapid response during disasters. The \textit{crisis informatics} research community has developed several techniques and systems for processing and classifying big crisis-related data posted on social media. However, due to the dispersed nature of the datasets used in the literature (e.g., for training models), it is not possible to compare the results and measure the progress made towards building better models for crisis informatics tasks. In this work, we attempt to bridge this gap by combining various existing crisis-related datasets. We consolidate eight human-annotated datasets and provide 166.1k and 141.5k tweets for \textit{informativeness} and \textit{humanitarian} classification tasks, respectively. We believe that the consolidated dataset will help train more sophisticated models. Moreover, we provide benchmarks for both binary and multiclass classification tasks using several deep learning architecrures including, CNN, fastText, and transformers. We make the dataset and scripts available at: https://crisisnlp.qcri.org/crisis_datasets_benchmarks.html
翻訳日:2022-12-13 10:06:40 公開日:2021-04-17
# SongNet: Rigid Formatsコントロールされたテキスト生成

SongNet: Rigid Formats Controlled Text Generation ( http://arxiv.org/abs/2004.08022v2 )

ライセンス: Link先を確認
Piji Li, Haisong Zhang, Xiaojiang Liu, Shuming Shi(参考訳) ニューラルテキスト生成は様々なタスクで大きく進歩した。 ほとんどのタスクの一般的な特徴は、テキストは生成時にいくつかの厳密なフォーマットに制限されないことである。 しかし、歌詞(楽譜が与えられる)、ソネット、宋詩など、特殊なテキストパラダイムに直面することもある。 これらのテキストの典型的特徴は3つに分かれている: (1) 厳密な事前定義された形式に完全に従わなければならない。 (2)いくつかの韻律に従わなければならない。 (3)いくつかの形式に制限されているが、文の完全性を保証する必要がある。 我々の知る限りでは、事前定義された固形書式に基づくテキスト生成は十分に研究されていない。 そこで本研究では,SongNetというシンプルでエレガントなフレームワークを提案する。 フレームワークのバックボーンは、トランスフォーマティブベースの自動回帰言語モデルである。 記号のセットは、特に形式、韻律、文の整合性においてモデリング性能を改善するために設計されている。 我々は、注意機構を改善し、モデルにフォーマットに関する将来の情報を取り込ませる。 事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。 2つの収集コーパスで実施した大規模な実験により,自動測定と人的評価の両面で,提案手法が有意に優れた結果をもたらすことが示された。

Neural text generation has made tremendous progress in various tasks. One common characteristic of most of the tasks is that the texts are not restricted to some rigid formats when generating. However, we may confront some special text paradigms such as Lyrics (assume the music score is given), Sonnet, SongCi (classical Chinese poetry of the Song dynasty), etc. The typical characteristics of these texts are in three folds: (1) They must comply fully with the rigid predefined formats. (2) They must obey some rhyming schemes. (3) Although they are restricted to some formats, the sentence integrity must be guaranteed. To the best of our knowledge, text generation based on the predefined rigid formats has not been well investigated. Therefore, we propose a simple and elegant framework named SongNet to tackle this problem. The backbone of the framework is a Transformer-based auto-regressive language model. Sets of symbols are tailor-designed to improve the modeling performance especially on format, rhyme, and sentence integrity. We improve the attention mechanism to impel the model to capture some future information on the format. A pre-training and fine-tuning framework is designed to further improve the generation quality. Extensive experiments conducted on two collected corpora demonstrate that our proposed framework generates significantly better results in terms of both automatic metrics and the human evaluation.
翻訳日:2022-12-12 10:15:27 公開日:2021-04-17
# 時空間分散型シナプス接続を用いたUAVにおけるLGMDのローミング選択性向上

Enhancing LGMD's Looming Selectivity for UAV with Spatial-temporal Distributed Presynaptic Connections ( http://arxiv.org/abs/2005.04397v3 )

ライセンス: Link先を確認
Jiannan Zhao, Hongxin Wang, and Shigang Yue(参考訳) 衝突検出は無人航空機(UAV)にとって最も困難な課題の1つである。 これは計算能力が限られているため、小型または小型のUAVには特に当てはまる。 自然界では、小型で単純な視覚システムを持つ飛行昆虫は、複雑な環境での衝突や衝突を回避できる優れた能力を示している。 この好例が locusts によって提供されている。 彼らは、Lobula Giant Movement Detector (LGMD)と呼ばれる動きに基づく視覚ニューロンの活動を通じて、密集した群内の衝突を避けることができる。 LGMDニューロンの定義的特徴は、略奪を好むことである。 飛んでいる昆虫の視覚ニューロンとして、LGMDはUAVの衝突検知システムを構築するための理想的な基盤であると考えられている。 しかし、既存のLGMDモデルは、UAVのアジャイル飛行によって引き起こされる複雑な背景運動のような他の視覚的手がかりと明確に区別することはできない。 この問題に対処するために,locustsのシナプス形態に関する最近の知見に触発された,空間的-時空間的シナプス相互作用を分散的に実装する新しいモデルを提案した。 まず, 局所的に分布する励起を導入し, 速度を優先する視覚運動による励起を増強した。 そして、抑制のための時間遅延を放射的に延長して分散励起と競合させ、非推奨の視覚運動を選択的に抑制する。 提案したUAVアジャイル飛行モデルの性能を検証するためのシステム実験が実施されている。 その結果、この新モデルは複雑な飛行シーンにおける略奪選択性を著しく向上させ、小型または小型UAVの衝突検出システムに実装できる可能性が示された。

Collision detection is one of the most challenging tasks for Unmanned Aerial Vehicles (UAVs). This is especially true for small or micro UAVs, due to their limited computational power. In nature, flying insects with compact and simple visual systems demonstrate their remarkable ability to navigate and avoid collision in complex environments. A good example of this is provided by locusts. They can avoid collisions in a dense swarm through the activity of a motion based visual neuron called the Lobula Giant Movement Detector (LGMD). The defining feature of the LGMD neuron is its preference for looming. As a flying insect's visual neuron, LGMD is considered to be an ideal basis for building UAV's collision detecting system. However, existing LGMD models cannot distinguish looming clearly from other visual cues such as complex background movements caused by UAV agile flights. To address this issue, we proposed a new model implementing distributed spatial-temporal synaptic interactions, which is inspired by recent findings in locusts' synaptic morphology. We first introduced the locally distributed excitation to enhance the excitation caused by visual motion with preferred velocities. Then radially extending temporal latency for inhibition is incorporated to compete with the distributed excitation and selectively suppress the non-preferred visual motions. Systematic experiments have been conducted to verify the performance of the proposed model for UAV agile flights. The results have demonstrated that this new model enhances the looming selectivity in complex flying scenes considerably, and has potential to be implemented on embedded collision detection systems for small or micro UAVs.
翻訳日:2022-12-05 06:43:51 公開日:2021-04-17
# UGC-VQA:ユーザ生成コンテンツのブラインドビデオ品質評価のベンチマーク

UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated Content ( http://arxiv.org/abs/2005.14354v2 )

ライセンス: Link先を確認
Zhengzhong Tu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, and Alan C. Bovik(参考訳) 近年、安価で信頼性の高いコンシューマー・キャプチャー・デバイスの進化とソーシャルメディアプラットフォームの人気のおかげで、インターネット上で共有されストリーミングされるユーザー生成コンテンツ(ugc)ビデオが爆発的に増えている。 したがって、この膨大なコンテンツを監視、制御、最適化するために、UGC/コンシューマービデオの正確なビデオ品質評価(VQA)モデルが必要である。 UGCコンテンツの品質劣化は予測不可能で、複雑で、しばしば開始されるため、Wildビデオの品質予測は非常に難しい。 本稿では,映像品質研究とVQAモデル設計の両面での新たな経験的洞察を得ることにより,VQAの非参照/盲点VQA(No-Reference/blind VQA)特徴とモデルを固定評価アーキテクチャ上で総合的に評価することにより,UGC-VQA問題の進展に寄与する。 先行するVQAモデル機能の上に特徴選択戦略を適用することで,先導モデルが使用する763個の統計特徴のうち60個の特徴を抽出し,新しい融合ベースのBVQAモデルを作成することができる。 実験の結果,videvalは他の先行モデルに比べて計算コストがかなり低く,最先端の性能を達成できた。 我々の研究プロトコルは、UGC-VQA問題に対する信頼性の高いベンチマークも定義しており、深層学習に基づくVQAモデリングのさらなる研究や、知覚的に最適化された効率的なUGCビデオ処理、トランスコーディング、ストリーミングを促進すると信じている。 再現可能な研究と公開評価を促進するために、VIDEVALの実装がオンラインで公開されている。

Recent years have witnessed an explosion of user-generated content (UGC) videos shared and streamed over the Internet, thanks to the evolution of affordable and reliable consumer capture devices, and the tremendous popularity of social media platforms. Accordingly, there is a great need for accurate video quality assessment (VQA) models for UGC/consumer videos to monitor, control, and optimize this vast content. Blind quality prediction of in-the-wild videos is quite challenging, since the quality degradations of UGC content are unpredictable, complicated, and often commingled. Here we contribute to advancing the UGC-VQA problem by conducting a comprehensive evaluation of leading no-reference/blind VQA (BVQA) features and models on a fixed evaluation architecture, yielding new empirical insights on both subjective video quality studies and VQA model design. By employing a feature selection strategy on top of leading VQA model features, we are able to extract 60 of the 763 statistical features used by the leading models to create a new fusion-based BVQA model, which we dub the \textbf{VID}eo quality \textbf{EVAL}uator (VIDEVAL), that effectively balances the trade-off between VQA performance and efficiency. Our experimental results show that VIDEVAL achieves state-of-the-art performance at considerably lower computational cost than other leading models. Our study protocol also defines a reliable benchmark for the UGC-VQA problem, which we believe will facilitate further research on deep learning-based VQA modeling, as well as perceptually-optimized efficient UGC video processing, transcoding, and streaming. To promote reproducible research and public evaluation, an implementation of VIDEVAL has been made available online: \url{https://github.com/tu184044109/VIDEVAL_release}.
翻訳日:2022-11-26 23:49:46 公開日:2021-04-17
# 協調的マルチエージェント強化学習のための分散値関数近似

Distributed Value Function Approximation for Collaborative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2006.10443v3 )

ライセンス: Link先を確認
Milos S. Stankovic, Marko Beko, Srdjan S. Stankovic(参考訳) 本稿では,情報構造制約が厳密なマルコフ決定過程における値関数の線形近似のマルチエージェントオフポリシー学習のための分散勾配に基づく時間差分アルゴリズムを提案する。 アルゴリズムは以下の通りである。 1) 状態依存パラメータによる可視性トレースを含む、単一エージェントの非政治的勾配時間差学習アルゴリズムに基づく局所パラメータ更新 2) 有向グラフで表される線形確率時間変化のコンセンサススキーム。 提案するアルゴリズムは,その形式,可視性トレースの定義,時間スケールの選択,コンセンサス反復を組み込む方法などによって異なる。 この論文の主な貢献は、基礎となるフェラー・マルコフ過程の一般的な性質と確率時間変化コンセンサスモデルに基づく収束解析である。 一般の仮定の下では、提案された全てのアルゴリズムによって生成されるパラメータ推定が、正確に定義された不変集合を持つ対応する常微分方程式(ODE)に弱収束することが証明される。 本手法は,より弱い情報構造制約下での時間微分アルゴリズムに適用できることを示す。 漸近確率微分方程式の定式化と解析により,提案アルゴリズムの分散低減効果を実証した。 通信ネットワーク設計の具体的なガイドラインが提供される。 アルゴリズムの優れた特性は特性シミュレーションの結果によって示される。

In this paper we propose several novel distributed gradient-based temporal difference algorithms for multi-agent off-policy learning of linear approximation of the value function in Markov decision processes with strict information structure constraints, limiting inter-agent communications to small neighborhoods. The algorithms are composed of: 1) local parameter updates based on single-agent off-policy gradient temporal difference learning algorithms, including eligibility traces with state dependent parameters, and 2) linear stochastic time varying consensus schemes, represented by directed graphs. The proposed algorithms differ by their form, definition of eligibility traces, selection of time scales and the way of incorporating consensus iterations. The main contribution of the paper is a convergence analysis based on the general properties of the underlying Feller-Markov processes and the stochastic time varying consensus model. We prove, under general assumptions, that the parameter estimates generated by all the proposed algorithms weakly converge to the corresponding ordinary differential equations (ODE) with precisely defined invariant sets. It is demonstrated how the adopted methodology can be applied to temporal-difference algorithms under weaker information structure constraints. The variance reduction effect of the proposed algorithms is demonstrated by formulating and analyzing an asymptotic stochastic differential equation. Specific guidelines for communication network design are provided. The algorithms' superior properties are illustrated by characteristic simulation results.
翻訳日:2022-11-19 13:40:44 公開日:2021-04-17
# 薬物安全性へのデータサイエンス的アプローチ:鎮痛治療の臨床試験による有害薬物事象のセマンティックおよび視覚的マイニング

A data science approach to drug safety: Semantic and visual mining of adverse drug events from clinical trials of pain treatments ( http://arxiv.org/abs/2006.16910v2 )

ライセンス: Link先を確認
Jean-Baptiste Lamy(参考訳) 臨床試験は証拠に基づく医学の基礎である。 メタアナリシスと臨床実践ガイドラインを作成するための専門家やコンセンサスパネルによって試験結果がレビューされる。 しかし、これらの結果のレビューは長くて面倒な作業なので、新しいトライアルが発行されるたびにメタ分析とガイドラインは更新されない。 また、専門家の独立性は評価が難しい場合もある。 それとは対照的に、医療リスク分析を含む他の多くの領域では、データサイエンス、ビッグデータ、ビジュアルアナリティクスの出現により、専門家ベースから事実ベースの知識への移行が可能になった。 12年後、多くの試験結果が公募登録で公開されている。 それでも、データサイエンスの手法はまだ試行データに広く適用されていない。 本稿では,臨床試験中に報告された安全事象を解析し,登録簿に掲載するプラットフォームを提案する。 このプラットフォームは、痛治療に関する582回の試行を含むオントロジモデルに基づいており、さまざまなレベルの粒度でデータセットをクエリするためにセマンティックweb技術を使用している。 また、26次元のフラワーグリフを用いて、13のカテゴリと2レベルの重大さで有害薬物事象(ade)を可視化する。 このプラットフォームの関心をいくつかのユースケースを通じて説明し、メタ分析で最初に見つかった結論を見出すことができた。 このプラットフォームは薬物安全性の専門家4人に提供され、ADEの痛み治療のオントロジーとともにオンラインで公開されている。

Clinical trials are the basis of Evidence-Based Medicine. Trial results are reviewed by experts and consensus panels for producing meta-analyses and clinical practice guidelines. However, reviewing these results is a long and tedious task, hence the meta-analyses and guidelines are not updated each time a new trial is published. Moreover, the independence of experts may be difficult to appraise. On the contrary, in many other domains, including medical risk analysis, the advent of data science, big data and visual analytics allowed moving from expert-based to fact-based knowledge. Since 12 years, many trial results are publicly available online in trial registries. Nevertheless, data science methods have not yet been applied widely to trial data. In this paper, we present a platform for analyzing the safety events reported during clinical trials and published in trial registries. This platform is based on an ontological model including 582 trials on pain treatments, and uses semantic web technologies for querying this dataset at various levels of granularity. It also relies on a 26-dimensional flower glyph for the visualization of the Adverse Drug Events (ADE) rates in 13 categories and 2 levels of seriousness. We illustrate the interest of this platform through several use cases and we were able to find back conclusions that were initially found during meta-analyses. The platform was presented to four experts in drug safety, and is publicly available online, with the ontology of pain treatment ADE.
翻訳日:2022-11-19 05:19:01 公開日:2021-04-17
# 生存分析のための汎用機械学習フレームワーク

A General Machine Learning Framework for Survival Analysis ( http://arxiv.org/abs/2006.15442v2 )

ライセンス: Link先を確認
Andreas Bender, David R\"ugamer, Fabian Scheipl, Bernd Bischl(参考訳) 生存分析として知られる時間間データのモデリングには、検閲と切り離し、時間的特徴とエフェクトを扱える特別な方法が必要であり、複数の競合するイベントの設定にまで拡張される。 しかし、生存分析のための機械学習手法の多くは、正しい検閲されたデータと比例的ハザード仮定による標準設定のみを考慮する。 拡張を提供するメソッドは通常、これらの課題のほとんどに対処し、しばしば標準的な機械学習ワークフローに直接統合できない特別なソフトウェアを必要とする。 本研究では,データ拡張戦略を用いて複雑なサバイバルタスクを削減し,標準的なポアソン回帰タスクを実現する,非常に汎用的な機械学習フレームワークを提案する。 この改革は、よく発達した統計理論に基づいている。 提案手法では,勾配木,深層ニューラルネットワーク,モデルベースブーストなど,Poisson(log-)類似度を最適化可能なアルゴリズムを,時間-時間分析の文脈で使用することができる。 提案手法では,イベント時間分布や特徴や相互作用効果の機能的形状に関して仮定を必要としない。 提案手法に基づき, 精度, 汎用性の観点からは, 専門的な技術アプローチと競合するが, 専門的な方法論的ノウハウに対するプログラミング努力や要件の投資は比較的少ない新しい手法を開発する。

The modeling of time-to-event data, also known as survival analysis, requires specialized methods that can deal with censoring and truncation, time-varying features and effects, and that extend to settings with multiple competing events. However, many machine learning methods for survival analysis only consider the standard setting with right-censored data and proportional hazards assumption. The methods that do provide extensions usually address at most a subset of these challenges and often require specialized software that can not be integrated into standard machine learning workflows directly. In this work, we present a very general machine learning framework for time-to-event analysis that uses a data augmentation strategy to reduce complex survival tasks to standard Poisson regression tasks. This reformulation is based on well developed statistical theory. With the proposed approach, any algorithm that can optimize a Poisson (log-)likelihood, such as gradient boosted trees, deep neural networks, model-based boosting and many more can be used in the context of time-to-event analysis. The proposed technique does not require any assumptions with respect to the distribution of event times or the functional shapes of feature and interaction effects. Based on the proposed framework we develop new methods that are competitive with specialized state of the art approaches in terms of accuracy, and versatility, but with comparatively small investments of programming effort or requirements for specialized methodological know-how.
翻訳日:2022-11-16 07:41:02 公開日:2021-04-17
# 深層学習を用いた進捗監視のための材料認識

Material Recognition for Automated Progress Monitoring using Deep Learning Methods ( http://arxiv.org/abs/2006.16344v2 )

ライセンス: Link先を確認
Hadi Mahami, Navid Ghassemi, Mohammad Tayarani Darbandy, Afshin Shoeibi, Sadiq Hussain, Farnad Nasirzadeh, Roohallah Alizadehsani, Darius Nahavandi, Abbas Khosravi, Saeid Nahavandi(参考訳) 最近の人工知能、特にディープラーニングの進歩は、自動化のための最先端の技術手法を導入することで、不可逆的に多くの分野を変えてきた。 建設監視は例外ではなく、建設監視システムの一部として、材料分類と認識が深層学習と機械ビジョン研究者の注目を集めている。 しかし、プロダクション対応システムを作るには、まだカバーすべき長い道のりがある。 様々な照明や許容できる精度といった現実世界の問題は、堅牢なシステムを構築するために対処する必要がある。 本稿では,これらの課題に対処し,課題の精度97.35%という技術性能の状況に到達した。 また、複数の建設現場から採取された11クラスの1231枚の画像を含む新しいデータセットを収集し、公開し、この分野の研究者を支援している。

Recent advancements in Artificial intelligence, especially deep learning, has changed many fields irreversibly by introducing state of the art methods for automation. Construction monitoring has not been an exception; as a part of construction monitoring systems, material classification and recognition have drawn the attention of deep learning and machine vision researchers. However, to create production-ready systems, there is still a long path to cover. Real-world problems such as varying illuminations and reaching acceptable accuracies need to be addressed in order to create robust systems. In this paper, we have addressed these issues and reached a state of the art performance, i.e., 97.35% accuracy rate for this task. Also, a new dataset containing 1231 images of 11 classes taken from several construction sites is gathered and publicly published to help other researchers in this field.
翻訳日:2022-11-15 13:27:27 公開日:2021-04-17
# トランスフォーマーによるnerのためのスウェーデン語と英語のfasttext埋め込みの検討

Exploring Swedish & English fastText Embeddings for NER with the Transformer ( http://arxiv.org/abs/2007.16007v2 )

ライセンス: Link先を確認
Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) 本稿では,比較的小さなコーパスからの埋め込みがより大きなコーパスからの埋め込みよりも優れており,スウェーデンの新しいアナログテストセットを公開している。 自然言語処理(NLP)のダウンストリームタスクにおいて、優れたネットワーク性能を実現するために、データセットのサイズ、適切なハイパーパラメータ、よく訓練された埋め込みなど、いくつかの重要な役割を果たす。 ハイパーパラメータの適切なセットによって、より小さなデータセットでも優れたネットワーク性能が達成できることを示す。 内因性および外因性の両方において埋め込みを評価する。 埋め込みは、名前付きエンティティ認識(ner)タスクと重要度テストでトランスフォーマーと共にデプロイされる。 これはスウェーデン語と英語の両方で行われます。 最近リリースされた一般的なcrawlバージョンに比べて,下流タスクにおける両方の言語のパフォーマンスが向上し,形態学的にリッチな言語であるスウェーデン語では文字n-gramが有用である。

In this paper, our main contributions are that embeddings from relatively smaller corpora can outperform ones from larger corpora and we make the new Swedish analogy test set publicly available. To achieve a good network performance in natural language processing (NLP) downstream tasks, several factors play important roles: dataset size, the right hyper-parameters, and well-trained embeddings. We show that, with the right set of hyper-parameters, good network performance can be reached even on smaller datasets. We evaluate the embeddings at both the intrinsic and extrinsic levels. The embeddings are deployed with the Transformer in named entity recognition (NER) task and significance tests conducted. This is done for both Swedish and English. We obtain better performance in both languages on the downstream task with smaller training data, compared to recently released, Common Crawl versions; and character n-grams appear useful for Swedish, a morphologically rich language.
翻訳日:2022-11-07 11:56:10 公開日:2021-04-17
# 自由空間光通信におけるモデル自由深層学習による資源配分

Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications ( http://arxiv.org/abs/2007.13709v2 )

ライセンス: Link先を確認
Zhan Gao and Mark Eisen and Alejandro Ribeiro(参考訳) 本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。 資源配分問題は制約付き確率最適化フレームワークとしてモデル化され、電力適応、リレー選択、およびそれらの共同割り当てを含む様々なFSOシナリオをカバーする。 本稿では,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。 まず,確率的双対勾配 (sdg) アルゴリズムを提案する。このアルゴリズムは強双対性を生かして問題を正確に解決するが,その実装には明示的かつ正確なシステムモデルが必要である。 そこで,本研究では,dnn(deep neural network)を用いて資源割当ポリシをパラメータ化し,その最適化を行うsdgアルゴリズムに基づくプライマル・デュアル・ディープ・ラーニング(pddl)アルゴリズムを提案する。 パラメータ化資源割り当て問題は,DNNの強い表現力による最適性の損失を少なく抑え,システムモデルの知識を必要とせずに実装することができる。 提案したアルゴリズムをFSO資源割り当て問題に相関させるため, 幅広い数値実験を行った。 本研究では,連続電力割り当てとバイナリリレー選択設定の両方において,ベースライン方式と比較して性能と計算効率が優れていることを示す。

This paper investigates the general problem of resource allocation for mitigating channel fading effects in Free Space Optical (FSO) communications. The resource allocation problem is modeled as the constrained stochastic optimization framework, which covers a variety of FSO scenarios involving power adaptation, relay selection and their joint allocation. Under this framework, we propose two algorithms that solve FSO resource allocation problems. We first present the Stochastic Dual Gradient (SDG) algorithm that is shown to solve the problem exactly by exploiting the strong duality but whose implementation necessarily requires explicit and accurate system models. As an alternative we present the Primal-Dual Deep Learning (PDDL) algorithm based on the SDG algorithm, which parametrizes the resource allocation policy with Deep Neural Networks (DNNs) and optimizes the latter via a primal-dual method. The parametrized resource allocation problem incurs only a small loss of optimality due to the strong representational power of DNNs, and can be moreover implemented without knowledge of system models. A wide set of numerical experiments are performed to corroborate the proposed algorithms in FSO resource allocation problems. We demonstrate their superior performance and computational efficiency compared to the baseline methods in both continuous power allocation and binary relay selection settings.
翻訳日:2022-11-06 11:37:20 公開日:2021-04-17
# 心と機械の中の言葉の意味

Word meaning in minds and machines ( http://arxiv.org/abs/2008.01766v3 )

ライセンス: Link先を確認
Brenden M. Lake and Gregory L. Murphy(参考訳) 自然言語処理(NLP)の最近の進歩により、機械は幅広い言語能力の集合を達成してきた。 心理学者は、これらのモデルに対する関心が高まり、そのアウトプットを類似性、関連性、プライミング、理解といった心理的判断と比較し、モデルが心理学理論として機能するかどうかという疑問を提起している。 本稿では,人間と機械が言葉の意味を表現する方法を比較する。 現代のNLPシステムは、人間の単語類似性のモデルとしてかなり成功したが、他の多くの点で不足している。 現在のモデルは、大きなコーパスのテキストベースのパターンと強く結びついており、人々が言葉を通じて表現する欲求、目標、信念と弱く結びついています。 単語の意味は認識と行動にも根ざし、現在のシステムがそうでない方法で柔軟な組み合わせが可能である必要がある。 我々は、NLPシステムを基盤とするより有望なアプローチについて議論し、それらがより人間らしく概念的な言葉の意味の基盤でより成功していくと論じる。

Machines have achieved a broad and growing set of linguistic competencies, thanks to recent progress in Natural Language Processing (NLP). Psychologists have shown increasing interest in such models, comparing their output to psychological judgments such as similarity, association, priming, and comprehension, raising the question of whether the models could serve as psychological theories. In this article, we compare how humans and machines represent the meaning of words. We argue that contemporary NLP systems are fairly successful models of human word similarity, but they fall short in many other respects. Current models are too strongly linked to the text-based patterns in large corpora, and too weakly linked to the desires, goals, and beliefs that people express through words. Word meanings must also be grounded in perception and action and be capable of flexible combinations in ways that current systems are not. We discuss more promising approaches to grounding NLP systems and argue that they will be more successful with a more human-like, conceptual basis for word meaning.
翻訳日:2022-11-02 23:11:12 公開日:2021-04-17
# ワンショットコンテキストアウェアドメイン適応によるオンラインビジュアルトラッキング

Online Visual Tracking with One-Shot Context-Aware Domain Adaptation ( http://arxiv.org/abs/2008.09891v2 )

ライセンス: Link先を確認
Hossein Kashiani, Amir Abbas Hamidi Imani, Shahriar Baradaran Shokouhi, Ahmad Ayatollahi(参考訳) オンライン学習ポリシーにより、視覚トラッカーはドメイン固有の手がかりを学習することで、さまざまな歪みに対してより堅牢になる。 しかし、このポリシーを採用するトラッカーは、背景領域の差別的コンテキストを十分に活用できていない。 さらに、各時間ステップに十分なデータがないため、オンライン学習アプローチは、トラッカーがバックグラウンド領域に過剰にフィットしやすいようにもなります。 本稿では,意味的背景コンテキストの寄与度を高めるためのドメイン適応手法を提案する。 ドメイン適応アプローチは、市販の深層モデルだけでバックボーンになっている。 提案手法の強みは、厳密な閉塞と背景の乱雑な問題に対処する識別能力に起因している。 さらに,セマンティクス候補に対する非セマンティクス的背景候補の優位を緩和するコストに敏感な損失を導入し,データ不均衡問題に対処する。 実験により, トラッカーは, 最先端トラッカーと比較して, リアルタイムに競合する結果が得られることを示した。

Online learning policy makes visual trackers more robust against different distortions through learning domain-specific cues. However, the trackers adopting this policy fail to fully leverage the discriminative context of the background areas. Moreover, owing to the lack of sufficient data at each time step, the online learning approach can also make the trackers prone to over-fitting to the background regions. In this paper, we propose a domain adaptation approach to strengthen the contributions of the semantic background context. The domain adaptation approach is backboned with only an off-the-shelf deep model. The strength of the proposed approach comes from its discriminative ability to handle severe occlusion and background clutter challenges. We further introduce a cost-sensitive loss alleviating the dominance of non-semantic background candidates over the semantic candidates, thereby dealing with the data imbalance issue. Experimental results demonstrate that our tracker achieves competitive results at real-time speed compared to the state-of-the-art trackers.
翻訳日:2022-10-26 08:13:14 公開日:2021-04-17
# Kullback-Leibler分散を用いた非負行列分解アルゴリズム

Algorithms for Nonnegative Matrix Factorization with the Kullback-Leibler Divergence ( http://arxiv.org/abs/2010.01935v2 )

ライセンス: Link先を確認
Le Thi Khanh Hien, Nicolas Gillis(参考訳) 非負行列分解 (non negative matrix factorization, nmf) は、非負データ集合に対する標準的な線形次元減少手法である。 入力データと低ランク近似との差を測定するために、KL(Kullback-Leibler)の発散はNMFの最も広く使われている目的関数の1つである。 観測データサンプルの基盤となる統計値がポアソン分布に従っている場合、最大同値推定器に対応し、KL NMFは文書や画像などのデータセットをカウントするのに特に意味がある。 本稿では,KL NMFアルゴリズムの収束性を研究する上で不可欠なKL目的関数の重要な特性を最初に収集する。 第二に、既存のKL NMF解決アルゴリズムの見直しとともに、目的関数の非増加を保証する3つの新しいアルゴリズムを提案する。 また,提案アルゴリズムの1つに対して,グローバル収束保証を提供する。 最後に,KL NMFアルゴリズムの性能を包括的に把握するために,広範な数値実験を行った。

Nonnegative matrix factorization (NMF) is a standard linear dimensionality reduction technique for nonnegative data sets. In order to measure the discrepancy between the input data and the low-rank approximation, the Kullback-Leibler (KL) divergence is one of the most widely used objective function for NMF. It corresponds to the maximum likehood estimator when the underlying statistics of the observed data sample follows a Poisson distribution, and KL NMF is particularly meaningful for count data sets, such as documents or images. In this paper, we first collect important properties of the KL objective function that are essential to study the convergence of KL NMF algorithms. Second, together with reviewing existing algorithms for solving KL NMF, we propose three new algorithms that guarantee the non-increasingness of the objective function. We also provide a global convergence guarantee for one of our proposed algorithms. Finally, we conduct extensive numerical experiments to provide a comprehensive picture of the performances of the KL NMF algorithms.
翻訳日:2022-10-10 21:15:25 公開日:2021-04-17
# 残余超完全オートエンコーダブロックに基づくロバストPCAによる自動車レーダ干渉軽減

Automotive Radar Interference Mitigation with Unfolded Robust PCA based on Residual Overcomplete Auto-Encoder Blocks ( http://arxiv.org/abs/2010.10357v2 )

ライセンス: Link先を確認
Nicolae-C\u{a}t\u{a}lin Ristea, Andrei Anghel, Radu Tudor Ionescu, Yonina C. Eldar(参考訳) 自動運転では、レーダーシステムは道路上の他の車両などのターゲットを検出する上で重要な役割を果たす。 異なる車両に搭載されたレーダーは互いに干渉し、検出性能を低下させる。 自動車用レーダー干渉緩和のための深層学習手法は、目標の振幅を確実に推定できるが、それぞれの目標の位相を回復できない。 本稿では、干渉の有無の振幅と位相の両方を推定できる、展開された頑健な主成分分析(RPCA)に基づく効率的かつ効果的な手法を提案する。 我々の貢献は、残余のオーバーコンプリートオートエンコーダ(ROC-AE)ブロックを未開のRPCAの繰り返しアーキテクチャに導入することであり、その結果、未開のRPCAや他のディープラーニングモデルよりも大幅に優れるより深いモデルが得られる。

In autonomous driving, radar systems play an important role in detecting targets such as other vehicles on the road. Radars mounted on different cars can interfere with each other, degrading the detection performance. Deep learning methods for automotive radar interference mitigation can succesfully estimate the amplitude of targets, but fail to recover the phase of the respective targets. In this paper, we propose an efficient and effective technique based on unfolded robust Principal Component Analysis (RPCA) that is able to estimate both amplitude and phase in the presence of interference. Our contribution consists in introducing residual overcomplete auto-encoder (ROC-AE) blocks into the recurrent architecture of unfolded RPCA, which results in a deeper model that significantly outperforms unfolded RPCA as well as other deep learning models.
翻訳日:2022-10-07 13:09:34 公開日:2021-04-17
# 事前学習した分類器のオンラインアクティブモデル選択

Online Active Model Selection for Pre-trained Classifiers ( http://arxiv.org/abs/2010.09818v3 )

ライセンス: Link先を確認
Mohammad Reza Karimi, Nezihe Merve G\"urel, Bojan Karla\v{s}, Johannes Rausch, Ce Zhang and Andreas Krause(参考訳) 事前訓練済みの分類器とラベルなしのデータ例のストリームが与えられたら、ラベルをいつクエリするかを積極的に決めて、クエリを少数作成しながら、最良のモデルを他のものと区別できるのでしょうか? この質問に答えることは、様々な実践的なシナリオに重大な影響を与える。 本研究では,任意のラウンドにおいて最適なモデルをラベル付けし,高い確率で出力するオンライン選択的サンプリング手法を考案する。 本アルゴリズムは,逆ストリームと確率ストリームの両方のオンライン予測タスクに使用できる。 我々は,アルゴリズムの理論的保証を確立し,その有効性を実験で広く実証する。

Given $k$ pre-trained classifiers and a stream of unlabeled data examples, how can we actively decide when to query a label so that we can distinguish the best model from the rest while making a small number of queries? Answering this question has a profound impact on a range of practical scenarios. In this work, we design an online selective sampling approach that actively selects informative examples to label and outputs the best model with high probability at any round. Our algorithm can be used for online prediction tasks for both adversarial and stochastic streams. We establish several theoretical guarantees for our algorithm and extensively demonstrate its effectiveness in our experimental studies.
翻訳日:2022-10-05 21:04:51 公開日:2021-04-17
# mBERTから見えなくなるのは始まりにすぎない:多言語言語モデルで新しい言語を扱う

When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models ( http://arxiv.org/abs/2010.12858v2 )

ライセンス: Link先を確認
Benjamin Muller and Antonis Anastasopoulos and Beno\^it Sagot and Djam\'e Seddah(参考訳) 大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。 しかし、大規模な多言語言語モデルでは利用できない、少量の生データしか利用できない未確認言語に対して、このアプローチがどのように適用されるべきなのかは、いまだ不明である。 本研究は,多言語モデルと単言語モデルを比較することにより,これらのモデルが未知言語に対して複数の方法で振る舞うことを示す。 一部の言語はトランスファー学習の恩恵を受け、近縁の高リソース言語と同様に振る舞うが、他の言語はそうではない。 後者に着目して、この転送失敗は、そのような言語を書くために使われるスクリプトの影響に大きく関係していることを示す。 これらの言語を翻訳することで、下流タスクにおける大規模多言語言語モデルの能力が大幅に向上する。

Transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be applied for unseen languages that are not covered by any available large-scale multilingual language model and for which only a small amount of raw data is generally available. In this work, by comparing multilingual and monolingual models, we show that such models behave in multiple ways on unseen languages. Some languages greatly benefit from transfer learning and behave similarly to closely related high resource languages whereas others apparently do not. Focusing on the latter, we show that this failure to transfer is largely related to the impact of the script used to write such languages. Transliterating those languages improves very significantly the ability of large-scale multilingual language models on downstream tasks.
翻訳日:2022-10-03 13:12:07 公開日:2021-04-17
# 低線量CT再建のためのセルフ・スーパービジョントレーニング

Self-Supervised Training For Low Dose CT Reconstruction ( http://arxiv.org/abs/2010.13232v2 )

ライセンス: Link先を確認
Mehmet Ozan Unal, Metin Ertas, Isa Yildirim(参考訳) 電離放射線はct画像の最大の関心事である。 画像品質を損なうことなく線量レベルの低減を図るため, 圧縮センシング法を用いて低線量CT再構成を行った。 近年,ディープラーニングの台頭,計算能力の向上,ビッグデータの活用など,データ駆動型手法が注目されている。 深層学習に基づく手法は、低用量CT再構成問題にも様々な方法で用いられている。 通常、これらの手法の成功はラベル付きデータに依存する。 しかし、近年の研究では、騒がしいデータセットでトレーニングを成功させることが示されている。 本研究では,低線量シノグラムをトレーニングターゲットとして使用するためのトレーニングスキームを定義した。 自己教師付き学習手法の要件である雑音が要素的に独立な投影領域に自己教師付き原理を適用した。 自己教師型トレーニングを用いて、FBP法のフィルタリング部とデノイザーニューラルネットワークのパラメータを最適化する。 提案手法は,低線量CT再構成作業における解析的CTファントムと実世界のCT画像の再構成において,定性的かつ定量的に従来法と圧縮法の両方に優れることを示した。

Ionizing radiation has been the biggest concern in CT imaging. To reduce the dose level without compromising the image quality, low-dose CT reconstruction has been offered with the availability of compressed sensing based reconstruction methods. Recently, data-driven methods got attention with the rise of deep learning, the availability of high computational power, and big datasets. Deep learning based methods have also been used in low-dose CT reconstruction problem in different manners. Usually, the success of these methods depends on labeled data. However, recent studies showed that training can be achieved successfully with noisy datasets. In this study, we defined a training scheme to use low-dose sinograms as their own training targets. We applied the self-supervision principle in the projection domain where the noise is element-wise independent which is a requirement for self-supervised training methods. Using the self-supervised training, the filtering part of the FBP method and the parameters of a denoiser neural network are optimized. We demonstrate that our method outperforms both conventional and compressed sensing based iterative reconstruction methods qualitatively and quantitatively in the reconstruction of analytic CT phantoms and real-world CT images in low-dose CT reconstruction task.
翻訳日:2022-10-03 05:07:22 公開日:2021-04-17
# wearing a mask: recurrent neural tangent kernelsを用いた可変長シーケンスの圧縮表現

Wearing a MASK: Compressed Representations of Variable-Length Sequences Using Recurrent Neural Tangent Kernels ( http://arxiv.org/abs/2010.13975v2 )

ライセンス: Link先を確認
Sina Alemohammad, Hossein Babaei, Randall Balestriero, Matt Y. Cheung, Ahmed Imtiaz Humayun, Daniel LeJeune, Naiming Liu, Lorenzo Luzi, Jasper Tan, Zichao Wang, Richard G. Baraniuk(参考訳) 高次元性は、可視化や解釈から歴史保存のための予測と保存まで、データの使用に多くの課題をもたらす。 固定長列の次元性を減少させるテクニックが多いが、これらの手法が可変長列に一般化することは滅多にない。 このギャップに対処するために,recurrent neural tangent kernel (rntk) を用いて,可変長シーケンスへのカーネルの使用に依存する既存手法を拡張する。 ReLuを活性化したディープニューラルネットワークは、Max-Affine Spline Operator (MASO) であるため、我々のアプローチであるMax-Affine Spline Kernel (MASK) を疑う。 我々は、MASKを用いて主成分分析(PCA)とt分散確率的隣接埋め込み(t-SNE)を拡張し、これらの新しいアルゴリズムを用いて、2階微分方程式からサンプリングされた合成時系列データを分離する方法を実証する。

High dimensionality poses many challenges to the use of data, from visualization and interpretation, to prediction and storage for historical preservation. Techniques abound to reduce the dimensionality of fixed-length sequences, yet these methods rarely generalize to variable-length sequences. To address this gap, we extend existing methods that rely on the use of kernels to variable-length sequences via use of the Recurrent Neural Tangent Kernel (RNTK). Since a deep neural network with ReLu activation is a Max-Affine Spline Operator (MASO), we dub our approach Max-Affine Spline Kernel (MASK). We demonstrate how MASK can be used to extend principal components analysis (PCA) and t-distributed stochastic neighbor embedding (t-SNE) and apply these new algorithms to separate synthetic time series data sampled from second-order differential equations.
翻訳日:2022-10-02 13:01:16 公開日:2021-04-17
# 非構造化空間を利用してGPU上のディープラーニングモデルを高速化できる場合

When deep learning models on GPU can be accelerated by taking advantage of unstructured sparsity ( http://arxiv.org/abs/2011.06295v2 )

ライセンス: Link先を確認
Marcin Pietro\'n, Dominik \.Zurek(参考訳) 本稿では,グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の性能向上に着目する。 Nvidia Deep Neural Network (cuDnn)ライブラリは、GPUのためのディープラーニング(DL)アルゴリズムの最も効果的な実装を提供する。 GPUはディープラーニング計算の最も効率的で一般的なアクセラレータの1つである。 現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。 CNNモデルを圧縮する最も一般的な手法の1つは、重み付けである。 プルーニングには2つの主な種類がある: 構造的(全体重みチャネルの除去に基づく)と非構造的(個々の重みを取り除く)である。 第1はより容易な加速を可能にするが、このタイプでは、第2のタイプで得られるような空間レベルと精度を達成することは困難である。 リトレーニングによる非構造的プラニングは、いくつかのディープcnnモデルで最大$\sim90\%$以上のスパーシティを生成することができる。 この研究は、直接スパース演算を用いて畳み込み層の計算を高速化する価値があるかを示す。 VGG-16、CNN非静的、およびResNetモデルの1x1層がベンチマークとして使用された。 また,時間効率の低下が時間効率に与える影響についても述べる。

This paper is focused on the improvement the efficiency of the sparse convolutional neural networks (CNNs) layers on graphic processing units (GPU). The Nvidia deep neural network (cuDnn) library provides the most effective implementation of deep learning (DL) algorithms for GPUs. GPUs are one of the most efficient and commonly used accelerators for deep learning computations. The modern CNN models need megabytes of coefficients and needed millions MAC operations to perform convolution. One of the most common techniques for compressing CNN models is weight pruning. There are two main types of pruning: structural (based on removing whole weight channels) and non-structural (removing individual weights). The first enables much easier acceleration, but with this type it is difficult to achieve a sparsity level and accuracy as high as that obtained with the second type. Non-structural pruning with retraining can generate a matrix-weight up to $\sim90\%$ or more of sparsity in some deep CNN models. This work shows when is worth using a direct sparse operation to speed-up the calculation of the convolution layers. The VGG-16, CNN-non-static and 1x1 layers from ResNet models were used as a benchmarks. In addition, we present the impact of using reduced precision on time efficiency.
翻訳日:2022-09-26 06:43:37 公開日:2021-04-17
# 簡易深層強化学習手法によるグリッドトポロジ再構成の検討

Exploring grid topology reconfiguration using a simple deep reinforcement learning approach ( http://arxiv.org/abs/2011.13465v2 )

ライセンス: Link先を確認
Medha Subramanian, Jan Viebahn, Simon H. Tindemans, Benjamin Donnot, Antoine Marot(参考訳) システムオペレータはますます不安定な運用条件に直面しています。 システム信頼性をコスト効率よく管理するために、制御室オペレーターはAIと機械学習に基づくコンピュータ化された意思決定支援ツールに目を向けている。 具体的には、強化学習(RL)は、オペレータにグリッド制御アクションを提案するエージェントを訓練するための有望なテクニックである。 本稿では, IEEE 14-busテストケースを1週間動作可能な人工制御室演算子を表現するために, RLを用いた簡単なベースライン手法を提案する。 このエージェントは、グリッド上の電力の流れを制御するためにトポロジカルスイッチングアクションを取り、単一の well-chosen シナリオでトレーニングされる。 このエージェントの動作は世代と需要の異なる時系列でテストされ、1000シナリオ中965シナリオでグリッドを正常に動作させる能力を示している。 エージェントが提案するトポロジのタイプと変数は、テストシナリオ全体で分析され、効率的で多様なエージェントの振る舞いを示す。

System operators are faced with increasingly volatile operating conditions. In order to manage system reliability in a cost-effective manner, control room operators are turning to computerised decision support tools based on AI and machine learning. Specifically, Reinforcement Learning (RL) is a promising technique to train agents that suggest grid control actions to operators. In this paper, a simple baseline approach is presented using RL to represent an artificial control room operator that can operate a IEEE 14-bus test case for a duration of 1 week. This agent takes topological switching actions to control power flows on the grid, and is trained on only a single well-chosen scenario. The behaviour of this agent is tested on different time-series of generation and demand, demonstrating its ability to operate the grid successfully in 965 out of 1000 scenarios. The type and variability of topologies suggested by the agent are analysed across the test scenarios, demonstrating efficient and diverse agent behaviour.
翻訳日:2022-09-20 12:42:16 公開日:2021-04-17
# ニューラルネットワークとスパース符号化の同時学習による不完全特徴からの学習

Learning from Incomplete Features by Simultaneous Training of Neural Networks and Sparse Coding ( http://arxiv.org/abs/2011.14047v2 )

ライセンス: Link先を確認
Cesar F. Caiafa, Ziyao Wang, Jordi Sol\'e-Casals, Qibin Zhao(参考訳) 本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。 各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定する。 この状況は一般的に、すべての機能がデータサンプル毎に収集されない場合に発生する。 未知辞書上のデータベクトルのスパース表現を仮定しながら、サンプル毎の機能のサブセットのみを使用して、ロジスティック回帰やディープニューラルネットワークといった一般的な分類器を訓練する新しい教師付き学習法を開発した。 十分な条件が特定され、もしそれらの再構築がハイパープレーンによって適切に分離されるように不完全な観察で分類器を訓練できるなら、同じ分類器は元の(観測されていない)データサンプルを正しく分離する。 従来のデータインプテーション手法と1つの最先端アルゴリズムと比較して,提案手法の有効性を検証し,提案手法の有効性を示すために,合成およびよく知られたデータセットに関する広範なシミュレーション結果が提示された。

In this paper, the problem of training a classifier on a dataset with incomplete features is addressed. We assume that different subsets of features (random or structured) are available at each data instance. This situation typically occurs in the applications when not all the features are collected for every data sample. A new supervised learning method is developed to train a general classifier, such as a logistic regression or a deep neural network, using only a subset of features per sample, while assuming sparse representations of data vectors on an unknown dictionary. Sufficient conditions are identified, such that, if it is possible to train a classifier on incomplete observations so that their reconstructions are well separated by a hyperplane, then the same classifier also correctly separates the original (unobserved) data samples. Extensive simulation results on synthetic and well-known datasets are presented that validate our theoretical findings and demonstrate the effectiveness of the proposed method compared to traditional data imputation approaches and one state-of-the-art algorithm.
翻訳日:2022-09-19 19:22:09 公開日:2021-04-17
# (参考訳) ResAtomシステム:ディープラーニングに基づくタンパク質およびリガンド親和性予測モデル

ResAtom System: Protein and Ligand Affinity Prediction Model Based on Deep Learning ( http://arxiv.org/abs/2105.05125v1 )

ライセンス: CC BY 4.0
Yeji Wang, Shuo Wu, Yanwen Duan, Yong Huang(参考訳) モチベーション:タンパク質リガンド親和性予測は構造に基づく薬物設計の重要な部分である。 分子ドッキングと親和性予測を含む。 分子動力学は、現在高い精度で親和性を予測することができるが、大規模な仮想スクリーニングには適していない。 ディープラーニングに基づく既存の親和性予測と評価関数は、主に実験的に決定されたコンフォーメーションに依存している。 結果: ResNet ニューラルネットワークを用いたタンパク質-リガンド親和性の予測モデルを構築した。 結果のResAtom-ScoreモデルはCASF-2016ベンチマークテストセット上でピアソンの相関係数 R = 0.833 を達成する。 同時に、実験的に決定されたコンフォーメーションが存在しない場合、ResAtom-Scoreと組み合わせて、様々な既存のスコアリング機能の性能を評価した。 その結果, ResAtom-Score と組み合わせて {\Delta}VinaRF20 を用いることで, 評価関数に近いアフィニティ予測が可能であることがわかった。 これらの結果から,ResAtom系は将来,標的タンパク質を持つ小分子リガンドのシリカスクリーニングに利用される可能性が示唆された。 可用性:https://github.com/wyji001/ResAtom

Motivation: Protein-ligand affinity prediction is an important part of structure-based drug design. It includes molecular docking and affinity prediction. Although molecular dynamics can predict affinity with high accuracy at present, it is not suitable for large-scale virtual screening. The existing affinity prediction and evaluation functions based on deep learning mostly rely on experimentally-determined conformations. Results: We build a predictive model of protein-ligand affinity through the ResNet neural network with added attention mechanism. The resulting ResAtom-Score model achieves Pearson's correlation coefficient R = 0.833 on the CASF-2016 benchmark test set. At the same time, we evaluated the performance of a variety of existing scoring functions in combination with ResAtom-Score in the absence of experimentally-determined conformations. The results show that the use of {\Delta}VinaRF20 in combination with ResAtom-Score can achieve affinity prediction close to scoring functions in the presence of experimentally-determined conformations. These results suggest that ResAtom system may be used for in silico screening of small molecule ligands with target proteins in the future. Availability: https://github.com/wyji001/ResAtom
翻訳日:2021-05-14 07:13:48 公開日:2021-04-17
# 一般表面の測光ステレオのための非校正型ニューラルインバースレンダリング

Uncalibrated Neural Inverse Rendering for Photometric Stereo of General Surfaces ( http://arxiv.org/abs/2012.06777v3 )

ライセンス: Link先を確認
Berk Kaya, Suryansh Kumar, Carlos Oliveira, Vittorio Ferrari, Luc Van Gool(参考訳) 本稿では,測光ステレオ問題に対する無補間深層ニューラルネットワークフレームワークを提案する。 この問題を解決するためのモデルのトレーニングのために、既存のニューラルネットワークベースの方法は、オブジェクトの正確な光方向または地対面正規化を必要とするか、その両方を必要とする。 しかし実際には、どちらの情報も正確に取得することは困難であり、視覚応用にフォトメトリックステレオアルゴリズムを広く採用することは制限されている。 この難しさを回避すべく,この問題に対する非校正型ニューラルネットワーク逆レンダリング手法を提案する。 まず、入力画像から光方向を推定し、画像再構成損失を最適化し、表面の正規値、双方向の反射率分布値、深さを計算する。 さらに, 複素曲面の凹凸部と凸部を明示的にモデル化し, 画像形成過程における相互反射の影響を考察した。 提案手法の広範囲な評価は, 一般に, 教師あり, 古典的アプローチと同等あるいは良好な結果を示す。

This paper presents an uncalibrated deep neural network framework for the photometric stereo problem. For training models to solve the problem, existing neural network-based methods either require exact light directions or ground-truth surface normals of the object or both. However, in practice, it is challenging to procure both of this information precisely, which restricts the broader adoption of photometric stereo algorithms for vision application. To bypass this difficulty, we propose an uncalibrated neural inverse rendering approach to this problem. Our method first estimates the light directions from the input images and then optimizes an image reconstruction loss to calculate the surface normals, bidirectional reflectance distribution function value, and depth. Additionally, our formulation explicitly models the concave and convex parts of a complex surface to consider the effects of interreflections in the image formation process. Extensive evaluation of the proposed method on the challenging subjects generally shows comparable or better results than the supervised and classical approaches.
翻訳日:2021-05-10 05:17:48 公開日:2021-04-17
# (参考訳) worldsheet: 世界を3dシートで包み込み、1枚の画像から合成する

Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image ( http://arxiv.org/abs/2012.09854v2 )

ライセンス: CC BY 4.0
Ronghang Hu, Nikhila Ravi, Alex Berg, Deepak Pathak(参考訳) 本稿では,単一のRGB画像のみを入力として,新しいビュー合成手法であるWorldsheetを提案する。 主な洞察は、平面メッシュシートを入力画像に縮小するだけであり、学習した中間深度と一致して、大きな視点変化でフォトリアリスティックな見えないビューを生成するのに十分な形状をキャプチャする。 そこで本研究では,包み込んだメッシュシートをテクスチャ化し,対象の視点から画像に微分的に描画できる,新しい微分可能なテクスチャ・サンプラーを提案する。 我々のアプローチは、カテゴリに依存しないエンドツーエンドのトレーニングで、3Dの監督を使わずに、テスト時に1つのイメージを必要とする。 また、複数のWorldsheetのレイヤを積み重ねてオクルージョンを処理することで、シンプルな拡張も検討しています。 Worldsheetは、複数のデータセットにまたがる単一イメージビュー合成における最先端の手法を一貫して上回る。 さらに、このシンプルなアイデアは、広い範囲の高解像度のインザミルド画像で驚くほど新しいビューを捉え、ナビゲート可能な3Dポップアップに変換する。 Video results and code at https://worldsheet.github.io.com

We present Worldsheet, a method for novel view synthesis using just a single RGB image as input. The main insight is that simply shrink-wrapping a planar mesh sheet onto the input image, consistent with the learned intermediate depth, captures underlying geometry sufficient to generate photorealistic unseen views with large viewpoint changes. To operationalize this, we propose a novel differentiable texture sampler that allows our wrapped mesh sheet to be textured and rendered differentiably into an image from a target viewpoint. Our approach is category-agnostic, end-to-end trainable without using any 3D supervision, and requires a single image at test time. We also explore a simple extension by stacking multiple layers of Worldsheets to better handle occlusions. Worldsheet consistently outperforms prior state-of-the-art methods on single-image view synthesis across several datasets. Furthermore, this simple idea captures novel views surprisingly well on a wide range of high-resolution in-the-wild images, converting them into navigable 3D pop-ups. Video results and code at https://worldsheet.github.io.
翻訳日:2021-05-02 11:44:03 公開日:2021-04-17
# (参考訳) ユニバーサルな継続的知識基盤を目指して

Towards a Universal Continuous Knowledge Base ( http://arxiv.org/abs/2012.13568v2 )

ライセンス: CC BY 4.0
Gang Chen, Maosong Sun, and Yang Liu(参考訳) 人工知能(ai)では、知識は知的システムがタスクを達成するのに必要な情報である。 従来の知識ベースでは離散的な記号表現を用いるが、データから学習した連続表現に符号化された知識の検出は近年注目を集めている。 本研究では,複数のニューラルネットワークからインポートされた知識を格納できる連続知識ベース(ckb)を構築する手法を提案する。 提案手法の主な考え方は,各ニューラルネットワークのインタフェースを定義し,機能シミュレーション問題として知識伝達をキャストすることである。 CKBは単一のモデルから知識をインポートし、その知識を新しいモデルにエクスポートし、元のモデルと同等のパフォーマンスを達成する。 さらに興味深いことに、複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートし、元のモデルよりも高い精度を達成する。 CKBでは、知識の蒸留や伝達学習も容易に行うことができる。 私たちの研究は、さまざまなaiタスクのためにトレーニングされたさまざまなニューラルネットワークにエンコードされたすべての継続的知識を収集、保存、整理するための、普遍的な継続的知識ベースを構築するための扉を開きます。

In artificial intelligence (AI), knowledge is the information required by an intelligent system to accomplish tasks. While traditional knowledge bases use discrete, symbolic representations, detecting knowledge encoded in the continuous representations learned from data has received increasing attention recently. In this work, we propose a method for building a continuous knowledge base (CKB) that can store knowledge imported from multiple, diverse neural networks. The key idea of our approach is to define an interface for each neural network and cast knowledge transferring as a function simulation problem. Experiments on text classification show promising results: the CKB imports knowledge from a single model and then exports the knowledge to a new model, achieving comparable performance with the original model. More interesting, we import the knowledge from multiple models to the knowledge base, from which the fused knowledge is exported back to a single model, achieving a higher accuracy than the original model. With the CKB, it is also easy to achieve knowledge distillation and transfer learning. Our work opens the door to building a universal continuous knowledge base to collect, store, and organize all continuous knowledge encoded in various neural networks trained for different AI tasks.
翻訳日:2021-04-25 06:09:43 公開日:2021-04-17
# (参考訳) 事前学習モデルにおけるドメイン間知識伝達限界の同定

Identifying the Limits of Cross-Domain Knowledge Transfer for Pretrained Models ( http://arxiv.org/abs/2104.08410v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu, Nelson F. Liu, Christopher Potts(参考訳) 事前訓練された言語モデルは、事前訓練で見られる言語だけでなく、新しい言語や非言語データに対してもタスク固有の微調整を改善する証拠が増えている。 この驚くべきクロスドメイン転送の性質は何ですか? モデルが無作為なスクランブルによる単語の同一性に関する情報を拒否されると、どの程度の転送が起こるのかを体系的に探究することで、部分的な答えを提供する。 4つの分類タスクと2つのシーケンスラベリングタスクにおいて、ベースラインモデル、GloVe埋め込みを用いたLSTM、BERTを評価する。 BERTだけがスクランブルされたドメインへの高い転送率を示し、分類のためにはシークエンスラベリングタスクではないことがわかった。 本分析では,移動がなぜ他のタスクで成功するのかを説明するとともに,事前学習と微調整の別々の貢献を分離し,単語頻度の役割を定量化する。 これらの知見は、ドメイン間転送が発生する場所と理由を説明するのに役立ち、将来の研究と実用的な微調整作業のガイドとなる。

There is growing evidence that pretrained language models improve task-specific fine-tuning not just for the languages seen in pretraining, but also for new languages and even non-linguistic data. What is the nature of this surprising cross-domain transfer? We offer a partial answer via a systematic exploration of how much transfer occurs when models are denied any information about word identity via random scrambling. In four classification tasks and two sequence labeling tasks, we evaluate baseline models, LSTMs using GloVe embeddings, and BERT. We find that only BERT shows high rates of transfer into our scrambled domains, and for classification but not sequence labeling tasks. Our analyses seek to explain why transfer succeeds for some tasks but not others, to isolate the separate contributions of pretraining versus fine-tuning, and to quantify the role of word frequency. These findings help explain where and why cross-domain transfer occurs, which can guide future studies and practical fine-tuning efforts.
翻訳日:2021-04-24 09:15:10 公開日:2021-04-17
# (参考訳) 逐次相互文書照合の解決

Sequential Cross-Document Coreference Resolution ( http://arxiv.org/abs/2104.08413v1 )

ライセンス: CC BY 4.0
Emily Allaway, Shuai Wang, and Miguel Ballesteros(参考訳) エンティティとイベントをテキストで関連付けることは、自然言語理解の重要な要素である。 クロスドキュメント・コア参照の解決は、特にマルチドキュメント分析タスクへの関心の高まりにとって重要である。 本研究は,コア参照解決のための効率的なシーケンシャル予測パラダイムをクロスドキュメント設定に拡張し,エンティティとイベントのコア設定の競合性を実現するとともに,クロスドキュメント設定におけるシーケンシャルモデルと高階推論の有効性の強い証拠を提供する新しいモデルを提案する。 我々のモデルは、参照をクラスタ表現に漸進的に構成し、参照と既に構築されているクラスタ間のリンクを予測し、高次モデルを近似する。 さらに,コリファレンスにおける様々な入力と表現型の重要性に関する新たな知見を提供するため,広範なアブレーション研究を行う。

Relating entities and events in text is a key component of natural language understanding. Cross-document coreference resolution, in particular, is important for the growing interest in multi-document analysis tasks. In this work we propose a new model that extends the efficient sequential prediction paradigm for coreference resolution to cross-document settings and achieves competitive results for both entity and event coreference while provides strong evidence of the efficacy of both sequential models and higher-order inference in cross-document settings. Our model incrementally composes mentions into cluster representations and predicts links between a mention and the already constructed clusters, approximating a higher-order model. In addition, we conduct extensive ablation studies that provide new insights into the importance of various inputs and representation types in coreference.
翻訳日:2021-04-24 08:59:14 公開日:2021-04-17
# (参考訳) 新型コロナウイルスの接触追跡アプリのリスクスコア学習

Risk score learning for COVID-19 contact tracing apps ( http://arxiv.org/abs/2104.08415v1 )

ライセンス: CC BY 4.0
Kevin Murphy and Abhishek Kumar and Stelios Serghiou(参考訳) Google(グーグル)やApple(アップル)など、新型コロナウイルス(COVID-19)用のデジタルコンタクト追跡アプリは、特定の露出中にユーザーが感染したリスクを推定する必要がある。 このようなリスクスコアモデルは、公衆衛生局が設定しなければならない多くのパラメータを含んでいる。 これらのパラメータの設定方法に関する専門家ガイダンスは提供されているが(例えば、)。 https://github.com/lfph/gaen-risk-scoring/blob/main/risk-scoring.md) データ駆動アプローチをうまく利用できるかを尋ねるのは自然です。 これは、例えば、新しい変異の進化やワクチンの採用によって、病気が変化するリスクファクターに特に有用である。 本稿では,リスクスコアモデルのパラメータを自動的に最適化するための機械学習手法を提案する。 このデータは、すでに複数の保健当局によって集約されたプライバシー保護の方法で収集されているが、本論文では、シミュレーションデータに制限を課し、アプローチの実現可能性に影響を与えるさまざまな要因を体系的に研究することができる。 特に,より多くのデータが不足している場合(例えば,アプリによって記録されていない感染症など),パラメータの推測が困難になることが示された。 それでも、学習アプローチは、手動で設計されたベースラインよりも優れている。

Digital contact tracing apps for COVID-19, such as the one developed by Google and Apple, need to estimate the risk that a user was infected during a particular exposure, in order to decide whether to notify the user to take precautions, such as entering into quarantine, or requesting a test. Such risk score models contain numerous parameters that must be set by the public health authority. Although expert guidance for how to set these parameters has been provided (e.g. https://github.com/lfph/gaen-risk-scoring/blob/main/risk-scoring.md), it is natural to ask if we could do better using a data-driven approach. This can be particularly useful when the risk factors of the disease change, e.g., due to the evolution of new variants, or the adoption of vaccines. In this paper, we show that machine learning methods can be used to automatically optimize the parameters of the risk score model, provided we have access to exposure and outcome data. Although this data is already being collected in an aggregated, privacy-preserving way by several health authorities, in this paper we limit ourselves to simulated data, so that we can systematically study the different factors that affect the feasibility of the approach. In particular, we show that the parameters become harder to estimate when there is more missing data (e.g., due to infections which were not recorded by the app). Nevertheless, the learning approach outperforms a strong manually designed baseline.
翻訳日:2021-04-24 08:43:35 公開日:2021-04-17
# (参考訳) FiG-NeRF:3次元物体カテゴリーモデリングのための図形球面ニューラルラジアンス場

FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category Modelling ( http://arxiv.org/abs/2104.08418v1 )

ライセンス: CC BY 4.0
Christopher Xie, Keunhong Park, Ricardo Martin-Brualla, Matthew Brown(参考訳) 入力画像のコレクションから高品質な3Dオブジェクトカテゴリモデルを学習するためにNeRF(Neural Radiance Fields)を用いて検討する。 以前の作業とは対照的に、前景オブジェクトと異なる背景を同時に分離しながら、これを行うことができます。 本研究では,2成分NeRFモデルであるFiG-NeRFを用いて,物体カテゴリを表す変形可能な前景と幾何学的に一定な背景としてシーンを説明する。 本手法は, 被写体の3次元画像のみを用いて, 正確な3次元オブジェクト分類モデルを学習可能であることを示す。 さらに, この2部分解により, モデルが精度良く, 鮮明なアモーダルセグメンテーションを行うことができる。 本手法は, 合成, 合成, 合成, 室内データを用いて, ビュー合成および画像忠実度測定値を用いて定量的に評価する。 本研究は,既存の手法の性能を超える3次元オブジェクトカテゴリモデリングを実証するものである。

We investigate the use of Neural Radiance Fields (NeRF) to learn high quality 3D object category models from collections of input images. In contrast to previous work, we are able to do this whilst simultaneously separating foreground objects from their varying backgrounds. We achieve this via a 2-component NeRF model, FiG-NeRF, that prefers explanation of the scene as a geometrically constant background and a deformable foreground that represents the object category. We show that this method can learn accurate 3D object category models using only photometric supervision and casually captured images of the objects. Additionally, our 2-part decomposition allows the model to perform accurate and crisp amodal segmentation. We quantitatively evaluate our method with view synthesis and image fidelity metrics, using synthetic, lab-captured, and in-the-wild data. Our results demonstrate convincing 3D object category modelling that exceed the performance of existing methods.
翻訳日:2021-04-24 08:31:03 公開日:2021-04-17
# (参考訳) TIE: 埋め込み型インクリメンタルな時間的知識グラフ補完フレームワーク

TIE: A Framework for Embedding-based Incremental Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2104.08419v1 )

ライセンス: CC BY 4.0
Jiapeng Wu, Yishi Xu, Yingxue Zhang, Chen Ma, Mark Coates and Jackie Chi Kit Cheung(参考訳) 時間知識グラフ(TKG)における推論は情報検索と意味探索にとって重要な課題である。 TKGが頻繁に更新される場合、特に困難である。 モデルは、TKGの変化に適応して、効率的なトレーニングと推論を行い、そのパフォーマンスを歴史的な知識で保存する必要がある。 近年のTKGコンプリート(TKGC)は,エンコーダデコーダフレームワークをタイムアウェア符号化関数で拡張することによって実現されている。 しかし、これらの方法を用いて各時間段階ごとにモデルを微調整することは、1)破滅的な忘れ方、2)モデルが事実の変化を識別できないこと(例えば、結婚の政治的関係と終わり方の変化)、3)訓練効率の欠如といった問題に対処するものではない。 これらの課題に対処するために,tkg表現学習,経験リプレイ,時間正規化を組み合わせた時間対応インクリメンタル埋め込み(tie)フレームワークを提案する。 モデルの不透過性を特徴付ける指標のセットを導入し、削除した事実と否定的なラベルを関連付ける制約を提案する。 Wikidata12kとYAGO11kデータセットによる実験結果から,提案したTIEフレームワークはトレーニング時間を約10倍短縮し,バニラフルバッチトレーニングと比較して,提案した指標を改善した。 従来の測定方法では、パフォーマンスが大幅に低下することはない。 広範なアブレーション研究により、実世界のtkgアプリケーションに関する意思決定に不可欠な、異なる評価指標間のパフォーマンストレードオフが明らかになった。

Reasoning in a temporal knowledge graph (TKG) is a critical task for information retrieval and semantic search. It is particularly challenging when the TKG is updated frequently. The model has to adapt to changes in the TKG for efficient training and inference while preserving its performance on historical knowledge. Recent work approaches TKG completion (TKGC) by augmenting the encoder-decoder framework with a time-aware encoding function. However, naively fine-tuning the model at every time step using these methods does not address the problems of 1) catastrophic forgetting, 2) the model's inability to identify the change of facts (e.g., the change of the political affiliation and end of a marriage), and 3) the lack of training efficiency. To address these challenges, we present the Time-aware Incremental Embedding (TIE) framework, which combines TKG representation learning, experience replay, and temporal regularization. We introduce a set of metrics that characterizes the intransigence of the model and propose a constraint that associates the deleted facts with negative labels. Experimental results on Wikidata12k and YAGO11k datasets demonstrate that the proposed TIE framework reduces training time by about ten times and improves on the proposed metrics compared to vanilla full-batch training. It comes without a significant loss in performance for any traditional measures. Extensive ablation studies reveal performance trade-offs among different evaluation metrics, which is essential for decision-making around real-world TKG applications.
翻訳日:2021-04-24 08:14:14 公開日:2021-04-17
# (参考訳) Robust Embeddings Via Distributions

Robust Embeddings Via Distributions ( http://arxiv.org/abs/2104.08420v1 )

ライセンス: CC BY 4.0
Kira A. Selby (1), Yinong Wang (1), Ruizhe Wang (1), Peyman Passban (2), Ahmad Rashid (2), Mehdi Rezagholizadeh (2) and Pascal Poupart (1) ((1) University of Waterloo, (2) Huawei Noah's Ark Lab)(参考訳) この分野における最近の目覚ましい進歩にもかかわらず、多くの自然言語処理(NLP)モデルは、ノイズの多い領域で十分な性能を発揮するのに苦戦している。 NLPモデルのロバスト性を改善するための新しい確率的埋め込み準位法を提案する。 我々の手法であるRobust Embeddings via Distributions (RED)は、ノイズトークンと周辺コンテキストの両方からの情報を組み込んで、どの決定論的手法よりも意味空間における不確実性を表現できる埋め込みベクトル上の分布を求める。 本手法は,自然騒音と合成雑音の両方の存在下で,既存の最先端モデルを用いて多数の下流課題に対して評価を行い,文献からロバスト性に対する他の埋め込み手法よりも明らかに改善することを示す。

Despite recent monumental advances in the field, many Natural Language Processing (NLP) models still struggle to perform adequately on noisy domains. We propose a novel probabilistic embedding-level method to improve the robustness of NLP models. Our method, Robust Embeddings via Distributions (RED), incorporates information from both noisy tokens and surrounding context to obtain distributions over embedding vectors that can express uncertainty in semantic space more fully than any deterministic method. We evaluate our method on a number of downstream tasks using existing state-of-the-art models in the presence of both natural and synthetic noise, and demonstrate a clear improvement over other embedding approaches to robustness from the literature.
翻訳日:2021-04-24 07:54:42 公開日:2021-04-17
# (参考訳) Fashion-Guided Adversarial Attack on Person Segmentation

Fashion-Guided Adversarial Attack on Person Segmentation ( http://arxiv.org/abs/2104.08422v1 )

ライセンス: CC BY 4.0
Marc Treu, Trung-Nghia Le, Huy H. Nguyen, Junichi Yamagishi, Isao Echizen(参考訳) 本稿では,人間インスタンスセグメンテーションネットワーク,すなわち,個人セグメンテーションネットワークを攻撃対象とする,第1の逆例ベース手法を提案する。 本稿では,対象画像中の攻撃可能な領域を自動的に識別し,画質への影響を最小限に抑えるファッショナリアタック(fashionadv)フレームワークを提案する。 ファッションスタイルの画像から学習した敵対的なテクスチャを生成し、元の画像の衣服領域にオーバーレイすることで、画像内のすべての人が、人のセグメンテーションネットワークに見えないようにする。 合成された逆境のテクスチャは目立たず、人間の目に自然に見える。 提案手法の有効性は、ロバストネストレーニングと、ターゲットネットワークの複数のコンポーネントを共同攻撃することで向上する。 大規模な実験は、人間の目に自然に見えるだけでなく、サイバー空間における画像操作と保存に対する堅牢性の観点から、FashionAdvの有効性を実証した。 コードとデータはプロジェクトのページ https://github.com/nii-yamagishilab/fashion_adv で公開されています。

This paper presents the first adversarial example based method for attacking human instance segmentation networks, namely person segmentation networks in short, which are harder to fool than classification networks. We propose a novel Fashion-Guided Adversarial Attack (FashionAdv) framework to automatically identify attackable regions in the target image to minimize the effect on image quality. It generates adversarial textures learned from fashion style images and then overlays them on the clothing regions in the original image to make all persons in the image invisible to person segmentation networks. The synthesized adversarial textures are inconspicuous and appear natural to the human eye. The effectiveness of the proposed method is enhanced by robustness training and by jointly attacking multiple components of the target network. Extensive experiments demonstrated the effectiveness of FashionAdv in terms of robustness to image manipulations and storage in cyberspace as well as appearing natural to the human eye. The code and data are publicly released on our project page https://github.com/nii-yamagishilab/fashion_adv
翻訳日:2021-04-24 07:27:44 公開日:2021-04-17
# (参考訳) 単語埋め込みメソッドは安定しているか、それに注意すべきか?

Are Word Embedding Methods Stable and Should We Care About It? ( http://arxiv.org/abs/2104.08433v1 )

ライセンス: CC BY 4.0
Angana Borah, Manash Pratim Barman, Amit Awekar(参考訳) 表現学習法は、複数の実行で与えられたデータの類似した表現を一貫して生成する場合、安定であると考えられる。 Word Embedding Methods (WEM) は、与えられたテキストデータ中の各単語に対して密度の高いベクトル表現を生成する表現学習のクラスである。 本研究の中心となる考え方は,単語類似性に基づく内在的評価を用いたWEMの安定性の測定である。 我々は、Word2Vec、GloVe、fastTextの3つの人気のあるWEMを実験した。 安定度測定には,これらのモデルのトレーニングに係わる5つのパラメータの効果を検討する。 われわれは、ウィキペディア、ニュース、歌詞、欧州議会の議事録の4つの実世界のデータセットを用いて実験を行う。 また,wemの安定性が3つの下流タスク(クラスタリング,posタグ,公平性評価)に与える影響を観察した。 我々の実験は、3つのWEMの中で、fastTextが最も安定しており、GloVeとWord2Vecが続くことを示している。

A representation learning method is considered stable if it consistently generates similar representation of the given data across multiple runs. Word Embedding Methods (WEMs) are a class of representation learning methods that generate dense vector representation for each word in the given text data. The central idea of this paper is to explore the stability measurement of WEMs using intrinsic evaluation based on word similarity. We experiment with three popular WEMs: Word2Vec, GloVe, and fastText. For stability measurement, we investigate the effect of five parameters involved in training these models. We perform experiments using four real-world datasets from different domains: Wikipedia, News, Song lyrics, and European parliament proceedings. We also observe the effect of WEM stability on three downstream tasks: Clustering, POS tagging, and Fairness evaluation. Our experiments indicate that amongst the three WEMs, fastText is the most stable, followed by GloVe and Word2Vec.
翻訳日:2021-04-24 07:13:19 公開日:2021-04-17
# (参考訳) ディープカオス同期

Deep Chaos Synchronization ( http://arxiv.org/abs/2104.08436v1 )

ライセンス: CC BY 4.0
Majid Mobini, Georges Kaddoum (Senior Member, IEEE)(参考訳) 本研究では,畳み込みニューラルネットワーク(CNN)を用いた新しいDeep Chaos Synchronization (DCS)システムを導入することで,ノイズチャネル上のカオス同期の問題に対処する。 従来のディープラーニング(DL)ベースのコミュニケーション戦略は非常に強力だが、大規模なデータセットでのトレーニングは通常困難で時間を要する。 この課題に取り組むために、dcsは事前情報や大規模なデータセットを必要としない。 さらに、比較分析のための新しいリカレントニューラルネットワーク(RNN)に基づくカオス同期システムを提案する。 提案したDCSアーキテクチャは,ノイズ,収束,トレーニングに対する堅牢性の観点から,RNNベースの同期と競合することを示す。 したがって、DCSスキームはこれらの特徴により、新しい種類の変調器スキームの扉を開き、ウルトラ信頼性低レイテンシ通信(URLLC)と産業用IoT(IIoT)のノイズ、収束、およびトレーニング要件に対する堅牢性を満たす。

In this study, we address the problem of chaotic synchronization over a noisy channel by introducing a novel Deep Chaos Synchronization (DCS) system using a Convolutional Neural Network (CNN). Conventional Deep Learning (DL) based communication strategies are extremely powerful but training on large data sets is usually a difficult and time-consuming procedure. To tackle this challenge, DCS does not require prior information or large data sets. In addition, we provide a novel Recurrent Neural Network (RNN)-based chaotic synchronization system for comparative analysis. The results show that the proposed DCS architecture is competitive with RNN-based synchronization in terms of robustness against noise, convergence, and training. Hence, with these features, the DCS scheme will open the door for a new class of modulator schemes and meet the robustness against noise, convergence, and training requirements of the Ultra Reliable Low Latency Communications (URLLC) and Industrial Internet of Things (IIoT).
翻訳日:2021-04-24 07:00:29 公開日:2021-04-17
# (参考訳) tempered mcmcによるベイズグラフ畳み込みニューラルネットワーク

Bayesian graph convolutional neural networks via tempered MCMC ( http://arxiv.org/abs/2104.08438v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Ayush Bhagat, Manavendra Maharana and Pavel N. Krivitsky(参考訳) 畳み込みニューラルネットワークのようなディープラーニングモデルは、画像やマルチメディアタスク、特に構造化データに長い間適用されてきた。 最近では、グラフで表現できる非構造化データにもっと注意が払われている。 この種のデータは、医療や医療、ソーシャルネットワーク、研究データリポジトリなどでよく見られる。 グラフ畳み込みニューラルネットワークは、畳み込みによる自動特徴抽出によるグラフベースのデータ表現を活用するディープラーニングの分野で最近注目を集めている。 これらの手法が幅広い用途で普及していることを考えると、堅牢な不確実性定量化が不可欠である。 大規模なモデルと非構造化データセットにとって、これは依然として課題である。 ベイズ推論は、ディープラーニングモデルのモデルパラメータの不確実性定量化に対する原理的かつ堅牢なアプローチを提供する。 ベイズ推論は他でも広く使われているが、マルコフ連鎖モンテカルロ法(mcmc)の計算要件のため、ディープラーニングへの応用は限られている。 並列計算の最近の進歩と、グラデーションを組み込んだサンプリングにおける高度な提案手法により、ベイズ深層学習手法の実装が可能となった。 本稿では,MCMCサンプリングや高度な提案手法などの最先端手法を用いたベイズグラフ深層学習手法を提案する。 この結果から,ベイジアングラフ畳み込み法は,先進的な学習法と類似した精度を提供しつつ,重要なベンチマーク問題に対する堅牢な不確実性定量化のためのより良い代替手段を提供することができた。

Deep learning models, such as convolutional neural networks, have long been applied to image and multi-media tasks, particularly those with structured data. More recently, there has been more attention to unstructured data that can be represented via graphs. These types of data are often found in health and medicine, social networks, and research data repositories. Graph convolutional neural networks have recently gained attention in the field of deep learning that takes advantage of graph-based data representation with automatic feature extraction via convolutions. Given the popularity of these methods in a wide range of applications, robust uncertainty quantification is vital. This remains a challenge for large models and unstructured datasets. Bayesian inference provides a principled and robust approach to uncertainty quantification of model parameters for deep learning models. Although Bayesian inference has been used extensively elsewhere, its application to deep learning remains limited due to the computational requirements of the Markov Chain Monte Carlo (MCMC) methods. Recent advances in parallel computing and advanced proposal schemes in sampling, such as incorporating gradients has allowed Bayesian deep learning methods to be implemented. In this paper, we present Bayesian graph deep learning techniques that employ state-of-art methods such as tempered MCMC sampling and advanced proposal schemes. Our results show that Bayesian graph convolutional methods can provide accuracy similar to advanced learning methods while providing a better alternative for robust uncertainty quantification for key benchmark problems.
翻訳日:2021-04-24 06:39:03 公開日:2021-04-17
# (参考訳) 教師の模倣による予算の学習

Learning on a Budget via Teacher Imitation ( http://arxiv.org/abs/2104.08440v1 )

ライセンス: CC BY 4.0
Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana(参考訳) deep reinforcement learning(rl)テクニックは、自己生成あるいは他のエンティティから取得可能な、事前のエクスペリエンスを活用することで、大きなメリットを享受することができる。 アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。 しかし、現実的な懸念から、これらの相互作用の数は予算に制限されているため、これらを最も適切なタイミングで実行することが不可欠である。 近年,特に学生の視点から,この問題に対処する有望な研究がいくつかある。 彼らの成功にもかかわらず、アドバイスチャレンジから学ぶための全体的な解決策として、実用的適用性と整合性に関していくつかの欠点がある。 本稿では,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の問題に対処する統一的なアプローチを構築する。 また,人間の介入を最小限に抑えながら任意のタスクに適応できるように,これらのコンポーネントのパラメータを自動的に決定する手法も提案する。 5つの異なるAtariゲームで行った実験は、我々のアルゴリズムが最先端のパフォーマンスを達成し、競争相手よりも優れていることを検証する。

Deep Reinforcement Learning (RL) techniques can benefit greatly from leveraging prior experience, which can be either self-generated or acquired from other entities. Action advising is a framework that provides a flexible way to transfer such knowledge in the form of actions between teacher-student peers. However, due to the realistic concerns, the number of these interactions is limited with a budget; therefore, it is crucial to perform these in the most appropriate moments. There have been several promising studies recently that address this problem setting especially from the student's perspective. Despite their success, they have some shortcomings when it comes to the practical applicability and integrity as an overall solution to the learning from advice challenge. In this paper, we extend the idea of advice reusing via teacher imitation to construct a unified approach that addresses both advice collection and advice utilisation problems. Furthermore, we also propose a method to automatically determine the relevant hyperparameters of these components on-the-fly to make it able to adapt to any task with minimal human intervention. The experiments we performed in 5 different Atari games verify that our algorithm can outperform its competitors by achieving state-of-the-art performance, and its components themselves also provides significant advantages individually.
翻訳日:2021-04-24 06:13:47 公開日:2021-04-17
# (参考訳) 深層強化学習におけるアドバイス模倣による行動助言

Action Advising with Advice Imitation in Deep Reinforcement Learning ( http://arxiv.org/abs/2104.08441v1 )

ライセンス: CC BY 4.0
Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana(参考訳) アクションアドバイザリング(action advising)は、教師と教師のパラダイムに基づいて構築されたピアツーピアの知識交換手法で、深層強化学習におけるサンプル非効率問題を緩和する。 近年,学生主導型アプローチは有望な結果を得た。 しかし、開発の初期段階にあるため、これらにはいくつかの重大な欠点がある。 現在の方法に欠けている能力の1つは、再利用によるアドバイスをさらに活用することであり、ピアツーピアの予算とコストの制約を考慮した実践的な設定において特に重要である。 そこで本研究では,学習エージェントが事前に取得したアドバイスを模倣して,学習機構自体に介入することなく直接学習方針に再利用する手法を提案する。 特に,教師の方針を模倣する行動クローニングモジュールを用いて,退学規則を取り入れて,どの状態と機器のペアが実際に収集されているかの追跡を行う。 3つのアタリゲームで実施した実験の結果, 一般化によるアドバイス再利用は, 深いRLで実現可能な選択肢であり, 簡単な早期助言ヒューリスティックと組み合わせても, 学習性能を著しく向上させながら, 実現可能であることがわかった。

Action advising is a peer-to-peer knowledge exchange technique built on the teacher-student paradigm to alleviate the sample inefficiency problem in deep reinforcement learning. Recently proposed student-initiated approaches have obtained promising results. However, due to being in the early stages of development, these also have some substantial shortcomings. One of the abilities that are absent in the current methods is further utilising advice by reusing, which is especially crucial in the practical settings considering the budget and cost constraints in peer-to-peer. In this study, we present an approach to enable the student agent to imitate previously acquired advice to reuse them directly in its exploration policy, without any interventions in the learning mechanism itself. In particular, we employ a behavioural cloning module to imitate the teacher policy and use dropout regularisation to have a notion of epistemic uncertainty to keep track of which state-advice pairs are actually collected. As the results of experiments we conducted in three Atari games show, advice reusing via generalisation is indeed a feasible option in deep RL and our approach can successfully achieve this while significantly improving the learning performance, even when paired with a simple early advising heuristic.
翻訳日:2021-04-24 05:57:30 公開日:2021-04-17
# (参考訳) 多様なマルチアンワー検索のためのジョイントパスランキング

Joint Passage Ranking for Diverse Multi-Answer Retrieval ( http://arxiv.org/abs/2104.08445v1 )

ライセンス: CC BY 4.0
Sewon Min, Kenton Lee, Ming-Wei Chang, Kristina Toutanova, Hannaneh Hajishirzi(参考訳) 本研究では,各質問に対する複数の異なる回答を検索するために,探索不足の問題であるマルチアンサー検索について検討する。 このタスクでは、異なる正当な回答を欠くコストで同じ回答を含む通路を繰り返し検索してはならないため、検索された通路の合同モデリングが必要となる。 単一問合せ検索に焦点をあてる以前の作業は、共同で経路の集合を推論できないため、制限されている。 本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。 検索されたパスの結合確率をモデル化するために、JPRは、新しいトレーニングと復号アルゴリズムを備えた一連のパスを選択する自動回帰リランカを使用する。 従来のアプローチと比較して、JPRは3つのマルチ回答データセットの回答カバレッジを大幅に改善している。 ダウンストリームの質問応答と組み合わせることで、より少ないパスを考慮する必要があるため、より大規模な回答生成モデルが可能になる。

We study multi-answer retrieval, an under-explored problem that requires retrieving passages to cover multiple distinct answers for a given question. This task requires joint modeling of retrieved passages, as models should not repeatedly retrieve passages containing the same answer at the cost of missing a different valid answer. Prior work focusing on single-answer retrieval is limited as it cannot reason about the set of passages jointly. In this paper, we introduce JPR, a joint passage retrieval model focusing on reranking. To model the joint probability of the retrieved passages, JPR makes use of an autoregressive reranker that selects a sequence of passages, equipped with novel training and decoding algorithms. Compared to prior approaches, JPR achieves significantly better answer coverage on three multi-answer datasets. When combined with downstream question answering, the improved retrieval enables larger answer generation models since they need to consider fewer passages, establishing a new state-of-the-art.
翻訳日:2021-04-24 05:39:37 公開日:2021-04-17
# (参考訳) ヒトの視線知覚とCNNモデル

Gaze Perception in Humans and CNN-Based Model ( http://arxiv.org/abs/2104.08447v1 )

ライセンス: CC BY 4.0
Nicole X. Han, William Yang Wang, Miguel P. Eckstein(参考訳) 他人の注意の軌跡を正確に推測することは、人間の社会的相互作用に不可欠であり、AIが人間と効果的に相互作用することが重要である。 本研究では,cnn (convolutional neural network) に基づく視線と人間の視線のモデルを用いて,実世界のシーン画像における注意の軌跡を,複数の個人が共通の場所を見ている場合と比較する。 本モデルと比較すると,被写体の存在や画像中の個人数など,人間の注目点推定はシーンの文脈に影響されていることがわかった。

Making accurate inferences about other individuals' locus of attention is essential for human social interactions and will be important for AI to effectively interact with humans. In this study, we compare how a CNN (convolutional neural network) based model of gaze and humans infer the locus of attention in images of real-world scenes with a number of individuals looking at a common location. We show that compared to the model, humans' estimates of the locus of attention are more influenced by the context of the scene, such as the presence of the attended target and the number of individuals in the image.
翻訳日:2021-04-24 05:20:16 公開日:2021-04-17
# (参考訳) マルチスピーカ音声分離のためのMIMO自励式RNNビームフォーマ

MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation ( http://arxiv.org/abs/2104.08450v1 )

ライセンス: CC BY 4.0
Xiyun Li and Yong Xu and Meng Yu and Shi-Xiong Zhang and Jiaming Xu and Bo Xu and Dong Yu(参考訳) 提案手法は, 行列逆転と固有値分解を2つのRNNに置き換えることにより, 従来のMVDRよりも優れた性能を示した。本研究では, 自己注意の強力なモデリング能力を活用し, 従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。 音声と雑音空間共分散行列からビームフォーミング重みを学習するために,時間空間自己アテンションモジュールを提案する。 時間的自己アテンションモジュールは、RNNが共分散行列のグローバル統計学を学ぶのに役立つ。 空間自己アテンションモジュールは、共分散行列のチャネル間相関に参加するように設計されている。 さらに,マルチスピーカ指向性特徴を持つマルチチャネル入力とマルチスピーカ音声分離出力(MIMO)モデルを開発し,提案したMIMO自己注意RNNビームフォーマが,先行技術に対する音声認識(ASR)精度と知覚品質(PESQ)推定の両方を改善することを示す。

Recently, our proposed recurrent neural network (RNN) based all deep learning minimum variance distortionless response (ADL-MVDR) beamformer method yielded superior performance over the conventional MVDR by replacing the matrix inversion and eigenvalue decomposition with two RNNs.In this work, we present a self-attentive RNN beamformer to further improve our previous RNN-based beamformer by leveraging on the powerful modeling capability of self-attention. Temporal-spatial self-attention module is proposed to better learn the beamforming weights from the speech and noise spatial covariance matrices. The temporal self-attention module could help RNN to learn global statistics of covariance matrices. The spatial self-attention module is designed to attend on the cross-channel correlation in the covariance matrices. Furthermore, a multi-channel input with multi-speaker directional features and multi-speaker speech separation outputs (MIMO) model is developed to improve the inference efficiency.The evaluations demonstrate that our proposed MIMO self-attentive RNN beamformer improves both the automatic speech recognition (ASR) accuracy and the perceptual estimation of speech quality (PESQ) against prior arts.
翻訳日:2021-04-24 05:13:55 公開日:2021-04-17
# (参考訳) KazakhTTS: オープンソースのKazakhテキスト音声合成データセット

KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset ( http://arxiv.org/abs/2104.08459v1 )

ライセンス: CC BY 4.0
Saida Mussakhojayeva, Aigerim Janaliyeva, Almas Mirzakhmetov, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットを提案する。 このデータセットは、2人のプロのスピーカー(女性と男性)が話す約91時間の録音音声から成り立っている。 Kazakh text-to-speech(TTS)アプリケーションをアカデミックと産業の両方で促進するために開発された、初めて公開された大規模なデータセットである。 本稿では,データセット開発手順を説明し,課題に直面する経験を共有し,今後の重要な方向性について議論する。 データセットの信頼性を示すため、ベースラインのエンドツーエンドTSモデルを構築し、主観的平均世論スコア(MOS)を用いて評価した。 評価の結果、データセットでトレーニングされた最良のttsモデルは、両方の話者に対して4以上のmosを達成し、実用的に適用できることがわかった。 データセット、トレーニングレシピ、事前トレーニングされたTSモデルは無料で利用できる。

This paper introduces a high-quality open-source speech synthesis dataset for Kazakh, a low-resource language spoken by over 13 million people worldwide. The dataset consists of about 91 hours of transcribed audio recordings spoken by two professional speakers (female and male). It is the first publicly available large-scale dataset developed to promote Kazakh text-to-speech (TTS) applications in both academia and industry. In this paper, we share our experience by describing the dataset development procedures and faced challenges, and discuss important future directions. To demonstrate the reliability of our dataset, we built baseline end-to-end TTS models and evaluated them using the subjective mean opinion score (MOS) measure. Evaluation results show that the best TTS models trained on our dataset achieve MOS above 4 for both speakers, which makes them applicable for practical use. The dataset, training recipe, and pretrained TTS models are freely available.
翻訳日:2021-04-24 05:01:30 公開日:2021-04-17
# (参考訳) モルフォシンタクティック探索へのマルチラベルアプローチ

A multilabel approach to morphosyntactic probing ( http://arxiv.org/abs/2104.08464v1 )

ライセンス: CC BY 4.0
Naomi Tachikawa Shapiro, Amandalynne Paullada, Shane Steinert-Threlkeld(参考訳) 多言語言語モデルから単語埋め込みのモルフォシンタクティック表現を評価するための多言語探索タスクを提案する。 この課題を多言語BERT (Devlin et al., 2018) を用いて, アフリカーンス, クロアチア語, フィンランド語, ヘブライ語, 韓国語, スペイン語, トルコ語という, 様々な形態的複雑性を持つ7つの言語に対する訓練調査を行った。 この単純かつ堅牢なパラダイムを通じて、多言語BERTは、多くの形態素合成的特徴を容易に同時に抽出可能である(例えば、性、文法的ケース、プロノミナルタイプ)。 我々はさらに,アラビア語,中国語,マラーティー語,スロベニア語,タガログ語,ヨルバ語という,ゼロショットトランスファー設定における6つの"ヘルドアウト"言語に関するプローブを評価した。 このスタイルの探索は、言語モデルが言語間で共有されていると認識する言語特性を明らかにするという利点を付加している。 例えば、調査は保留言語における名詞の認識においてうまく行っており、多言語BERTが個々の言語を横断する名詞の概念を持っていることを示唆している。

We introduce a multilabel probing task to assess the morphosyntactic representations of word embeddings from multilingual language models. We demonstrate this task with multilingual BERT (Devlin et al., 2018), training probes for seven typologically diverse languages of varying morphological complexity: Afrikaans, Croatian, Finnish, Hebrew, Korean, Spanish, and Turkish. Through this simple but robust paradigm, we show that multilingual BERT renders many morphosyntactic features easily and simultaneously extractable (e.g., gender, grammatical case, pronominal type). We further evaluate the probes on six "held-out" languages in a zero-shot transfer setting: Arabic, Chinese, Marathi, Slovenian, Tagalog, and Yoruba. This style of probing has the added benefit of revealing the linguistic properties that language models recognize as being shared across languages. For instance, the probes performed well on recognizing nouns in the held-out languages, suggesting that multilingual BERT has a conception of noun-hood that transcends individual languages; yet, the same was not true of adjectives.
翻訳日:2021-04-24 04:50:27 公開日:2021-04-17
# (参考訳) 文結合によるニューラルマシン翻訳のためのデータ拡張

Sentence Concatenation Approach to Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2104.08478v1 )

ライセンス: CC BY 4.0
Seiichiro Kondo and Kengo Hotate and Masahiro Kaneko and Mamoru Komachi(参考訳) ニューラルマシン翻訳(nmt)は、翻訳精度が高いため、最近広く注目を集めている。 しかし、低リソース言語の主要な問題である長い文の翻訳における性能は低下している。 この問題は、訓練データに長文が不足していることに起因すると推定される。 そこで本研究では,長文処理のための簡易データ拡張手法を提案する。 本手法では、与えられた並列コーパスのみを訓練データとして使用し、2つの文を連結して長文を生成する。 実験結果から, 単純性に拘わらず, 提案手法による長文翻訳の改善を確認した。 さらに,バックトランスレーションと組み合わせた場合,提案手法により翻訳品質がさらに向上する。

Neural machine translation (NMT) has recently gained widespread attention because of its high translation accuracy. However, it shows poor performance in the translation of long sentences, which is a major issue in low-resource languages. It is assumed that this issue is caused by insufficient number of long sentences in the training data. Therefore, this study proposes a simple data augmentation method to handle long sentences. In this method, we use only the given parallel corpora as the training data and generate long sentences by concatenating two sentences. Based on the experimental results, we confirm improvements in long sentence translation by the proposed data augmentation method, despite its simplicity. Moreover, the translation quality is further improved by the proposed method, when combined with back-translation.
翻訳日:2021-04-24 04:48:54 公開日:2021-04-17
# (参考訳) 効果的なクロスドメインレコメンデーションのためのデュアルメトリック学習

Dual Metric Learning for Effective and Efficient Cross-Domain Recommendations ( http://arxiv.org/abs/2104.08490v1 )

ライセンス: CC BY 4.0
Pan Li and Alexander Tuzhilin(参考訳) クロスドメインレコメンデータシステムは、消費者が異なるアプリケーションで有用なアイテムを識別するのを助けるためにますます重要になっている。 しかし、既存のクロスドメインモデルは一般的に多くの重複するユーザーを必要とし、一部のアプリケーションでは入手が困難である。 また、クロスドメインレコメンデーションタスクの双対性構造を考慮せず、ユーザとアイテム間の双方向潜時関係を考慮せず、最適なレコメンデーション性能を達成できなかった。 そこで本稿では,学習プロセスが安定化するまで,二つのドメイン間で情報を反復的に伝達する,二重学習に基づく新しいドメイン間推薦モデルを提案する。 本研究では,複数のドメインにまたがるユーザ嗜好を抽出し,異なる潜在空間にまたがるユーザ間の関係を保ちながら,新しい潜在直交マッピングを開発する。 さらに、二重学習法とメトリック学習法を組み合わせることで、2つのドメイン間の共通ユーザオーバーラップを大幅に削減し、ドメイン間の推薦性能をより向上させることができる。 提案モデルを2つの大規模産業データセットと6つのドメインペアでテストし,最先端のベースラインを一貫して大幅に上回っていることを示す。 また,提案モデルは,オーバーラップユーザが多い最先端のベースラインに匹敵する満足度の高いレコメンデーション性能を得るために,非常に少ないオーバラップユーザでも機能することを示した。

Cross domain recommender systems have been increasingly valuable for helping consumers identify useful items in different applications. However, existing cross-domain models typically require large number of overlap users, which can be difficult to obtain in some applications. In addition, they did not consider the duality structure of cross-domain recommendation tasks, thus failing to take into account bidirectional latent relations between users and items and achieve optimal recommendation performance. To address these issues, in this paper we propose a novel cross-domain recommendation model based on dual learning that transfers information between two related domains in an iterative manner until the learning process stabilizes. We develop a novel latent orthogonal mapping to extract user preferences over multiple domains while preserving relations between users across different latent spaces. Furthermore, we combine the dual learning method with the metric learning approach, which allows us to significantly reduce the required common user overlap across the two domains and leads to even better cross-domain recommendation performance. We test the proposed model on two large-scale industrial datasets and six domain pairs, demonstrating that it consistently and significantly outperforms all the state-of-the-art baselines. We also show that the proposed model works well with very few overlap users to obtain satisfying recommendation performance comparable to the state-of-the-art baselines that use many overlap users.
翻訳日:2021-04-23 13:29:54 公開日:2021-04-17
# (参考訳) 部分観測可能な深部RLの自己監督補助損失

A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable Settings ( http://arxiv.org/abs/2104.08492v1 )

ライセンス: CC BY 4.0
Eltayeb Ahmed, Luisa Zintgraf, Christian A. Schroeder de Witt and Nicolas Usunier(参考訳) 本研究では,高機能エージェントが空間環境をナビゲートするために必要となる環境において,強化学習に役立つ補助的損失を探索する。 提案する補助的損失は、エージェントの現在のエピソード軌跡からサンプリングされた一対の状態が整列しているかどうかを予測するニューラルネットワーク分類器の分類誤差を最小化することである。 分類器は、エージェントのメモリだけでなく、状態のペアとして入力される。 この補助的損失の動機は、エージェントエピソードの軌跡において2つの状態のどちらがより最近で、どちらの状態がエージェントに空間的に近いかと強い相関関係にあることである。 我々の仮説は、この問題に答えるための学習機能により、エージェントは空間的推論を促進する状態の記憶表現を学習し、内部化する。 この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。

In this work we explore an auxiliary loss useful for reinforcement learning in environments where strong performing agents are required to be able to navigate a spatial environment. The auxiliary loss proposed is to minimize the classification error of a neural network classifier that predicts whether or not a pair of states sampled from the agents current episode trajectory are in order. The classifier takes as input a pair of states as well as the agent's memory. The motivation for this auxiliary loss is that there is a strong correlation with which of a pair of states is more recent in the agents episode trajectory and which of the two states is spatially closer to the agent. Our hypothesis is that learning features to answer this question encourages the agent to learn and internalize in memory representations of states that facilitate spatial reasoning. We tested this auxiliary loss on a navigation task in a gridworld and achieved 9.6% increase in accumulative episode reward compared to a strong baseline approach.
翻訳日:2021-04-23 13:03:15 公開日:2021-04-17
# (参考訳) 統合型オーディオ・ビジュアルリップバイオメトリックスのための深層学習の探索

Exploring Deep Learning for Joint Audio-Visual Lip Biometrics ( http://arxiv.org/abs/2104.08510v1 )

ライセンス: CC BY 4.0
Meng Liu, Longbiao Wang, Kong Aik Lee, Hanyi Zhang, Chang Zeng, Jianwu Dang(参考訳) 音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。 従来の研究は、AVリップバイオメトリックスの有用性を示した。 しかし、大型avデータベースの欠如は、ディープラーニングに基づく視聴覚バイオメトリックスの探求を妨げている。 この問題に対処するため,既存の公開データベースを用いて中規模データベースをコンパイルする。 一方,我々は,畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール,時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール,マルチモーダル融合モジュールによって実現されたDeepLip AVリップバイオメトリックスシステムを構築した。 実験の結果、DeepLipは文脈モデルにおいて従来の話者認識モデルよりも優れており、テストデータセットでそれぞれ0.75%と1.11%の誤差率で、最高の単一モダリティベースラインと比較して50%以上の相対的な改善を実現していることがわかった。

Audio-visual (AV) lip biometrics is a promising authentication technique that leverages the benefits of both the audio and visual modalities in speech communication. Previous works have demonstrated the usefulness of AV lip biometrics. However, the lack of a sizeable AV database hinders the exploration of deep-learning-based audio-visual lip biometrics. To address this problem, we compile a moderate-size database using existing public databases. Meanwhile, we establish the DeepLip AV lip biometrics system realized with a convolutional neural network (CNN) based video module, a time-delay neural network (TDNN) based audio module, and a multimodal fusion module. Our experiments show that DeepLip outperforms traditional speaker recognition models in context modeling and achieves over 50% relative improvements compared with our best single modality baseline, with an equal error rate of 0.75% and 1.11% on the test datasets, respectively.
翻訳日:2021-04-23 12:55:06 公開日:2021-04-17
# (参考訳) 形態的インフレクションの最小スーパービジョン

Minimal Supervision for Morphological Inflection ( http://arxiv.org/abs/2104.08512v1 )

ライセンス: CC BY-SA 4.0
Omer Goldman and Reut Tsarfaty(参考訳) モルフォロジー・インフレクション・タスクの様々な風味に対するニューラルモデルは、十分なラベル付きデータを与えられた場合、非常に正確であることが証明されている。 本研究は,ラベル付きデータのブートストラップを,ラベル付けされていない大量のテキストを伴って,ラベル付きパラダイムと同等に設定することで,このアノテーションボトルネックを克服することを目的としている。 提案手法は, 形態素系の多種多様な規則性を二相的に利用し, そこでは, {\em の類似に基づく単語タグ付けに続いて, {\em 距離に基づく単語ペアリングを行う。 本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。 正書法と意味正規性の組み合わせは、特に複雑な形態素-音韻体系の困難を緩和する。 以上の結果から,多くのタグ付き例を手作りすることは不要な作業である可能性が示唆された。 しかし、ほとんど使われない形式に対処するためには、より多くの作業が必要である。

Neural models for the various flavours of morphological inflection tasks have proven to be extremely accurate given ample labeled data -- data that may be slow and costly to obtain. In this work we aim to overcome this annotation bottleneck by bootstrapping labeled data from a seed as little as {\em five} labeled paradigms, accompanied by a large bulk of unlabeled text. Our approach exploits different kinds of regularities in morphological systems in a two-phased setup, where word tagging based on {\em analogies} is followed by word pairing based on {\em distances}. We experiment with the Paradigm Cell Filling Problem over eight typologically different languages, and find that, in languages with relatively simple morphology, orthographic regularities on their own allow inflection models to achieve respectable accuracy. Combined orthographic and semantic regularities alleviate difficulties with particularly complex morpho-phonological systems. Our results suggest that hand-crafting many tagged examples might be an unnecessary effort. However, more work is needed in order to address rarely used forms.
翻訳日:2021-04-23 12:43:31 公開日:2021-04-17
# (参考訳) 音声データからの多言語・言語間インテント検出

Multilingual and Cross-Lingual Intent Detection from Spoken Data ( http://arxiv.org/abs/2104.08524v1 )

ライセンス: CC BY-SA 4.0
Daniela Gerz, Pei-Hao Su, Razvan Kusztos, Avishek Mondal, Micha{\l} Lis, Eshan Singhal, Nikola Mrk\v{s}i\'c, Tsung-Hsien Wen, Ivan Vuli\'c(参考訳) 本稿では,音声データから多言語間および多言語間インテント検出に関する体系的研究を行う。 この研究は、音声データを用いた意図検出タスクのための最初のトレーニングおよび評価リソースであるminds-14と呼ばれる新しいリソースを活用する。 e-bankingドメインの商用システムから抽出された14の意図をカバーしており、14の多様な言語の例に関連付けられている。 その結果,機械翻訳モデルと最先端の多言語文エンコーダ(例: labse)を組み合わせることで,minds-14の対象言語の大部分において強い意図検出が可能となり,ゼロショットとマイショットの学習,翻訳方向,音声認識の影響など,さまざまな軸間で比較分析を行うことができた。 本研究は, 音声データからの多言語意図検出装置の開発と評価を, 先行研究と比較してはるかに広い範囲で行うための重要なステップであると考えている。

We present a systematic study on multilingual and cross-lingual intent detection from spoken data. The study leverages a new resource put forth in this work, termed MInDS-14, a first training and evaluation resource for the intent detection task with spoken data. It covers 14 intents extracted from a commercial system in the e-banking domain, associated with spoken examples in 14 diverse language varieties. Our key results indicate that combining machine translation models with state-of-the-art multilingual sentence encoders (e.g., LaBSE) can yield strong intent detectors in the majority of target languages covered in MInDS-14, and offer comparative analyses across different axes: e.g., zero-shot versus few-shot learning, translation direction, and impact of speech recognition. We see this work as an important step towards more inclusive development and evaluation of multilingual intent detectors from spoken data, in a much wider spectrum of languages compared to prior work.
翻訳日:2021-04-23 12:27:10 公開日:2021-04-17
# (参考訳) The Topic Confusion Task: A novel Scenario for Authorship Attribution

The Topic Confusion Task: A Novel Scenario for Authorship Attribution ( http://arxiv.org/abs/2104.08530v1 )

ライセンス: CC BY 4.0
Malik H. Altakrori (1 and 3), Jackie Chi Kit Cheung (1 and 3), Benjamin C. M. Fung (2 and 3) ((1) School of Computer Science -McGill University, (2) School of Information Studies-McGill University, (3) Mila)(参考訳) 著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。 研究者は、未確認のトピックがテストフェーズで使用されるかどうかによって異なる、著者帰属の同じトピックと横断的なシナリオを調査した。 しかし、どちらのシナリオも、著者のスタイルを捉えなかったり、トピックシフトによってエラーが発生したり、他の要因によってエラーが発生したりすることを説明できない。 そこで,本論文では,著者と著者の対話的構成をトレーニングセットとテストセットに切り替える「emph{topic confusion}」タスクを提案する。 このセットアップにより、アトリビューションプロセスのエラーを調査できます。 特徴がトピックを捉えているため,スイッチによってモデルの混乱が引き起こされ,特徴が書き込みスタイルをキャプチャできないため,モデルが弱くなるという,正確性と2つのエラー対策について検討した。 特徴の異なる特徴を評価した結果,話題の変動の影響を受けにくく,帰属過程の精度を高めることができることがわかった。 さらに,単語レベルの$n$-gramと組み合わせることで,クロストピックシナリオにおける最先端技術よりも優れていることを示す。 最後に,BERT や RoBERTa のような事前学習型言語モデルは,このタスクでは性能が悪く,単純な$n$-gram 機能により性能が向上していることを示す。

Authorship attribution is the problem of identifying the most plausible author of an anonymous text from a set of candidate authors. Researchers have investigated same-topic and cross-topic scenarios of authorship attribution, which differ according to whether unseen topics are used in the testing phase. However, neither scenario allows us to explain whether errors are caused by failure to capture authorship style, by the topic shift or by other factors. Motivated by this, we propose the \emph{topic confusion} task, where we switch the author-topic configuration between training and testing set. This setup allows us to probe errors in the attribution process. We investigate the accuracy and two error measures: one caused by the models' confusion by the switch because the features capture the topics, and one caused by the features' inability to capture the writing styles, leading to weaker models. By evaluating different features, we show that stylometric features with part-of-speech tags are less susceptible to topic variations and can increase the accuracy of the attribution process. We further show that combining them with word-level $n$-grams can outperform the state-of-the-art technique in the cross-topic scenario. Finally, we show that pretrained language models such as BERT and RoBERTa perform poorly on this task, and are outperformed by simple $n$-gram features.
翻訳日:2021-04-23 12:15:03 公開日:2021-04-17
# (参考訳) マルチパースペクティブ抽象的回答要約

Multi-Perspective Abstractive Answer Summarization ( http://arxiv.org/abs/2104.08536v1 )

ライセンス: CC BY 4.0
Alexander R. Fabbri, Xiaojian Wu, Srini Iyer, Mona Diab(参考訳) Stack OverflowやYahoo!といったコミュニティ質問回答(CQA)フォーラム。 回答には、幅広い質問に対する回答の豊富なリソースが含まれている。 各質問スレッドは、異なる視点で多数の回答を受け取ることができる。 マルチパースペクティブな回答要約の目標は、答えのすべての観点を含む要約を作成することである。 マルチパースペクティブで抽象的な回答要約のための大きな障害は、このような要約を生成するための監督を提供するデータセットがないことである。 本研究は,既存のCQAフォーラムから多視点・多点抽象要約を自動生成する新しいデータセット作成手法を提案する。 このデータセットが提供するスーパービジョンは、本質的にマルチパースペクティブな要約を生成するモデルを訓練する。 さらに,複数の視点を維持しながら,より多様で忠実な回答サマリーを出力するモデルを訓練するために,文関連予測とマルチタスク損失を併用したマルチリワード最適化手法を提案する。 提案手法は, 強力なベースラインと比較して, 自動評価と人間評価により, 視点と忠実性が向上したことを示す。

Community Question Answering (CQA) forums such as Stack Overflow and Yahoo! Answers contain a rich resource of answers to a wide range of questions. Each question thread can receive a large number of answers with different perspectives. The goal of multi-perspective answer summarization is to produce a summary that includes all perspectives of the answer. A major obstacle for multi-perspective, abstractive answer summarization is the absence of a dataset to provide supervision for producing such summaries. This work introduces a novel dataset creation method to automatically create multi-perspective, bullet-point abstractive summaries from an existing CQA forum. Supervision provided by this dataset trains models to inherently produce multi-perspective summaries. Additionally, to train models to output more diverse, faithful answer summaries while retaining multiple perspectives, we propose a multi-reward optimization technique coupled with a sentence-relevance prediction multi-task loss. Our methods demonstrate improved coverage of perspectives and faithfulness as measured by automatic and human evaluations compared to a strong baseline.
翻訳日:2021-04-23 11:13:13 公開日:2021-04-17
# (参考訳) 非教師なし低線量ct用インバータブルジェネレータを用いたサイクルフリーサイクガン

Cycle-free CycleGAN using Invertible Generator for Unsupervised Low-Dose CT Denoising ( http://arxiv.org/abs/2104.08538v1 )

ライセンス: CC BY 4.0
Taesung Kwon, Jong Chul Ye(参考訳) 近年、cycleganは、ペアトレーニングデータセットを必要とせずに、低線量x線ct(ct)の高性能、超高速デノイジンを提供することが示された。 これはサイクル一貫性のおかげで可能だったが、cycleganは2つのジェネレータと2つの識別器を必要とし、サイクル一貫性を強制し、重要なgpuリソースとトレーニングのための技術的スキルを要求する。 Adaptive Instance Normalization (AdaIN) によるチューニング可能な CycleGAN の提案は,ひとつのジェネレータを使用することで問題を緩和している。 しかし、トレーニングには2つの識別器と追加のAdaINコードジェネレータが必要である。 そこで本研究では,単一生成器と判別器で構成されるが,サイクル一貫性を保証できる新しいサイクルフリーサイクルganアーキテクチャを提案する。 主な革新は、可逆生成器の使用が自動的にサイクル整合条件を満たし、CycleGANの定式化において追加の判別器を除去するという観察から生じる。 可逆発生器をより効果的にするために,ウェーブレット残差領域にネットワークを実装した。 各種低線量CT画像を用いた広範囲な実験により,従来のCycleGANと比較して学習可能なパラメータの10%と学習時間を短縮し,難聴化性能を大幅に向上できることを確認した。

Recently, CycleGAN was shown to provide high-performance, ultra-fast denoising for low-dose X-ray computed tomography (CT) without the need for a paired training dataset. Although this was possible thanks to cycle consistency, CycleGAN requires two generators and two discriminators to enforce cycle consistency, demanding significant GPU resources and technical skills for training. A recent proposal of tunable CycleGAN with Adaptive Instance Normalization (AdaIN) alleviates the problem in part by using a single generator. However, two discriminators and an additional AdaIN code generator are still required for training. To solve this problem, here we present a novel cycle-free Cycle-GAN architecture, which consists of a single generator and a discriminator but still guarantees cycle consistency. The main innovation comes from the observation that the use of an invertible generator automatically fulfills the cycle consistency condition and eliminates the additional discriminator in the CycleGAN formulation. To make the invertible generator more effective, our network is implemented in the wavelet residual domain. Extensive experiments using various levels of low-dose CT images confirm that our method can significantly improve denoising performance using only 10% of learnable parameters and faster training time compared to the conventional CycleGAN.
翻訳日:2021-04-23 10:52:44 公開日:2021-04-17
# (参考訳) dwug: 4つの言語におけるダイアクロニックな単語使用グラフの大きなリソース

DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages ( http://arxiv.org/abs/2104.08540v1 )

ライセンス: CC BY 4.0
Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray(参考訳) 単語の意味は、同期的にも対数的にも、捕獲が難しいことで悪名高い。 本稿では,10万の人間の意味的近さ判断に基づいて,4言語で意味するアノテーションを意味づける格付け付き文脈付きダイアクロニック単語の最大資源の作成について述べる。 マルチラウンドのインクリメンタルなアノテーションプロセス、クラスタアルゴリズムによる使用方法をセンスにグループ化する選択、そしてこのデータセットに可能なdiachronicとsyncnicを詳細に記述します。

Word meaning is notoriously difficult to capture, both synchronically and diachronically. In this paper, we describe the creation of the largest resource of graded contextualized, diachronic word meaning annotation in four different languages, based on 100,000 human semantic proximity judgments. We thoroughly describe the multi-round incremental annotation process, the choice for a clustering algorithm to group usages into senses, and possible - diachronic and synchronic - uses for this dataset.
翻訳日:2021-04-23 10:32:20 公開日:2021-04-17
# (参考訳) TransVG: トランスフォーマーによるエンドツーエンドの視覚グラウンド

TransVG: End-to-End Visual Grounding with Transformers ( http://arxiv.org/abs/2104.08541v1 )

ライセンス: CC BY 4.0
Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, and Houqiang Li(参考訳) 本稿では,言語クエリを画像上にグラウンド化する作業,すなわちTransVGという視覚的グラウンド化のための,巧妙で効果的なトランスフォーマーベースのフレームワークを提案する。 2段階または1段階を含む最先端の手法は、クエリ推論とマルチモーダル融合を実行するために手動で設計されたメカニズムを持つ複雑なモジュールに依存している。 しかし、クエリ分解や画像シーングラフといった融合モジュール設計における特定のメカニズムの関与により、モデルが特定のシナリオでデータセットに過剰に適合し、視覚的言語的コンテキスト間の相性が制限される。 そこで本研究では,トランスフォーマティブを利用してマルチモーダル対応を確立することを提案し,複雑な融合モジュール(モジュラーアテンションネットワーク,動的グラフ,マルチモーダルツリーなど)を,より高性能な簡易なトランスフォーマエンコーダ層に置き換えることができることを示す。 さらに,視覚接地を直接座標回帰問題として再定式化し,候補群(すなわち領域提案やアンカーボックス)から予測することを避ける。 広範に使用される5つのデータセットについて広範な実験を行い、transvgによって一連の最新記録をセットする。 トランスフォーマーベースのビジュアルグラウンドフレームワークのベンチマークを構築し、コードを一般公開します。

In this paper, we present a neat yet effective transformer-based framework for visual grounding, namely TransVG, to address the task of grounding a language query to the corresponding region onto an image. The state-of-the-art methods, including two-stage or one-stage ones, rely on a complex module with manually-designed mechanisms to perform the query reasoning and multi-modal fusion. However, the involvement of certain mechanisms in fusion module design, such as query decomposition and image scene graph, makes the models easily overfit to datasets with specific scenarios, and limits the plenitudinous interaction between the visual-linguistic context. To avoid this caveat, we propose to establish the multi-modal correspondence by leveraging transformers, and empirically show that the complex fusion modules (e.g., modular attention network, dynamic graph, and multi-modal tree) can be replaced by a simple stack of transformer encoder layers with higher performance. Moreover, we re-formulate the visual grounding as a direct coordinates regression problem and avoid making predictions out of a set of candidates (i.e., region proposals or anchor boxes). Extensive experiments are conducted on five widely used datasets, and a series of state-of-the-art records are set by our TransVG. We build the benchmark of transformer-based visual grounding framework and will make our code available to the public.
翻訳日:2021-04-23 10:16:21 公開日:2021-04-17
# (参考訳) マルチビュー埋め込み空間におけるマルチソースニューラルトピックモデリング

Multi-source Neural Topic Modeling in Multi-view Embedding Spaces ( http://arxiv.org/abs/2104.08551v1 )

ライセンス: CC BY 4.0
Pankaj Gupta, Yatin Chaudhary, Hinrich Sch\"utze(参考訳) 単語の埋め込みとトピックは相補的な表現であるが、いくつかの過去の研究では、(神経)トピックモデリングにおける事前訓練された単語埋め込みのみを使用して、短文または小文書のデータの疎結合に対処している。 本研究は,(1)事前学習された話題埋め込み,(2)事前学習された単語埋め込み(Glove非感受性およびBERTモデルからのコンテキスト感受性)を1つまたは複数のソースから組み合わせた,トピックの品質向上と多面的対処を行う。 そのために、まず、事前学習されたトピック(トピックプール)とワード埋め込み(ワードプール)の各プールを構築します。 次に、1つ以上の関連するソースドメインを特定し、スパースターゲットドメインで意味のある学習をガイドするために知識を伝達する。 ニューラルトピックモデリングでは、ニュースや医療領域からの短文・長文・小・大規模文書コレクションを用いて、一般化(複雑度)、解釈可能性(トピックコヒーレンス)、情報検索(IR)を通じてトピックや文書表現の品質を定量化する。 マルチソースのマルチビュー埋め込み空間を紹介し,6つのソース(高リソース)と5つのターゲット(低リソース)コーパスを用いた最先端のニューラルネットワークトピックモデリングを示した。

Though word embeddings and topics are complementary representations, several past works have only used pretrained word embeddings in (neural) topic modeling to address data sparsity in short-text or small collection of documents. This work presents a novel neural topic modeling framework using multi-view embedding spaces: (1) pretrained topic-embeddings, and (2) pretrained word-embeddings (context insensitive from Glove and context-sensitive from BERT models) jointly from one or many sources to improve topic quality and better deal with polysemy. In doing so, we first build respective pools of pretrained topic (i.e., TopicPool) and word embeddings (i.e., WordPool). We then identify one or more relevant source domain(s) and transfer knowledge to guide meaningful learning in the sparse target domain. Within neural topic modeling, we quantify the quality of topics and document representations via generalization (perplexity), interpretability (topic coherence) and information retrieval (IR) using short-text, long-text, small and large document collections from news and medical domains. Introducing the multi-source multi-view embedding spaces, we have shown state-of-the-art neural topic modeling using 6 source (high-resource) and 5 target (low-resource) corpora.
翻訳日:2021-04-23 09:58:49 公開日:2021-04-17
# (参考訳) 目的依存不確かさ駆動網膜血管セグメンテーション

Objective-Dependent Uncertainty Driven Retinal Vessel Segmentation ( http://arxiv.org/abs/2104.08554v1 )

ライセンス: CC BY 4.0
Suraj Mishra, Danny Z. Chen, X. Sharon Hu(参考訳) 血管新生疾患の診断から白質病変の発見に至るまで,底部画像の細血管分割は極めて重要である。 正確な血管分割の予測結果が知られている。 しかし、小さな容器を分割する効果はまだ限られている。 本稿では,微小血管分割を我々の枠組みに組み込んだ網膜血管分割について検討した。 そこで本研究では,血管分割を2つの目的に分割するディープ畳み込みニューラルネットワーク(CNN)を提案する。 具体的には, 血管の細分化と小血管の細分化を2つの目的と捉えた。 そして,目的依存的不確実性(homoscedastic)を生かして,ネットワークが両方の目的を同時に学習できるようにする。 さらに, 個々の目的を改善するために, (a) 小型容器接続性向上のための補助損失(すなわち, 小型容器分割の改善) および (b) 局在性向上のためのエンコーダ・デコーダ拡張アーキテクチャ (すなわち, 正確な容器分割のための) を提案する。 3つのパブリック網膜血管セグメンテーションデータセット(CHASE_DB1,DRIVE,STARE)を用いて,微小血管のセグメンテーションにおけるフレームワークの優位性を検証した。

From diagnosing neovascular diseases to detecting white matter lesions, accurate tiny vessel segmentation in fundus images is critical. Promising results for accurate vessel segmentation have been known. However, their effectiveness in segmenting tiny vessels is still limited. In this paper, we study retinal vessel segmentation by incorporating tiny vessel segmentation into our framework for the overall accurate vessel segmentation. To achieve this, we propose a new deep convolutional neural network (CNN) which divides vessel segmentation into two separate objectives. Specifically, we consider the overall accurate vessel segmentation and tiny vessel segmentation as two individual objectives. Then, by exploiting the objective-dependent (homoscedastic) uncertainty, we enable the network to learn both objectives simultaneously. Further, to improve the individual objectives, we propose: (a) a vessel weight map based auxiliary loss for enhancing tiny vessel connectivity (i.e., improving tiny vessel segmentation), and (b) an enhanced encoder-decoder architecture for improved localization (i.e., for accurate vessel segmentation). Using 3 public retinal vessel segmentation datasets (CHASE_DB1, DRIVE, and STARE), we verify the superiority of our proposed framework in segmenting tiny vessels (8.3% average improvement in sensitivity) while achieving better area under the receiver operating characteristic curve (AUC) compared to state-of-the-art methods.
翻訳日:2021-04-23 09:34:44 公開日:2021-04-17
# (参考訳) 反復フィードバック(MoTIF)を用いたモバイルアプリタスク : 対話型視覚環境におけるタスク実現可能性

Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments ( http://arxiv.org/abs/2104.08560v1 )

ライセンス: CC BY 4.0
Andrea Burns, Deniz Arsan, Sanjna Agrawal, Ranjitha Kumar, Kate Saenko, Bryan A. Plummer(参考訳) 近年、視覚言語研究は、対話型質問応答、視覚的常識推論、質問応答可能性予測など、より複雑な推論を必要とするタスクの研究にシフトしている。 しかし、これらの問題に使用されるデータセットは、あいまいな自然言語要求や多様なデジタルドメインなど、実際の入力とマルチモーダル環境の複雑さを捉えることができない。 これまで最も多くの対話型環境に対応する自然言語コマンドを備えたデータセットである,反復フィードバック(motif)を備えたモバイルアプリタスクを紹介する。 MoTIFは、満足できない対話環境のための自然言語要求を最初に含み、タスク不確実性解決の研究を可能にするために、このサブセットについてフォローアップ質問を得る。 実現可能性分類実験を行い、F1スコア37.3にしか達せず、よりリッチな視覚言語表現の必要性を検証し、タスク実現可能性について推論するためのアーキテクチャを改善した。

In recent years, vision-language research has shifted to study tasks which require more complex reasoning, such as interactive question answering, visual common sense reasoning, and question-answer plausibility prediction. However, the datasets used for these problems fail to capture the complexity of real inputs and multimodal environments, such as ambiguous natural language requests and diverse digital domains. We introduce Mobile app Tasks with Iterative Feedback (MoTIF), a dataset with natural language commands for the greatest number of interactive environments to date. MoTIF is the first to contain natural language requests for interactive environments that are not satisfiable, and we obtain follow-up questions on this subset to enable research on task uncertainty resolution. We perform initial feasibility classification experiments and only reach an F1 score of 37.3, verifying the need for richer vision-language representations and improved architectures to reason about task feasibility.
翻訳日:2021-04-23 09:25:56 公開日:2021-04-17
# (参考訳) GupShup: オープンドメインコードスイッチド会話の抽象化要約のための注釈付きコーパス

GupShup: An Annotated Corpus for Abstractive Summarization of Open-Domain Code-Switched Conversations ( http://arxiv.org/abs/2104.08578v1 )

ライセンス: CC BY-SA 4.0
Laiba Mehnaz, Debanjan Mahata, Rakesh Gosangi, Uma Sushmitha Gunturi, Riya Jain, Gauri Gupta, Amardeep Kumar, Isabelle Lee, Anish Acharya, Rajiv Ratn Shah(参考訳) コードスイッチングは、会話中に話者が異なる言語を切り替えるコミュニケーション現象である。 会話エージェントやチャットプラットフォームの普及により、コードスイッチングは世界中の多言語コミュニティで書かれた会話の不可欠な部分となっている。 これにより、これらの会話を要約し理解する技術を開発することが不可欠である。 そこで本研究では,ヒンディー語とヒンディー語で6,831以上の会話と,それに対応する英語とヒンディー語で記述された要約文を含む,ヒンディー語で書かれた会話要約データセットGupShupを開発した。 本稿では,データ収集とアノテーションプロセス全体の詳細な説明を行う。 様々なコード切り換え統計を用いてデータセットを分析する。 我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。 以上の結果から,マルチ言語 mBART モデルとマルチビュー seq2seq モデルでは,新しいデータセット上で最高の性能が得られることがわかった。

Code-switching is the communication phenomenon where speakers switch between different languages during a conversation. With the widespread adoption of conversational agents and chat platforms, code-switching has become an integral part of written conversations in many multi-lingual communities worldwide. This makes it essential to develop techniques for summarizing and understanding these conversations. Towards this objective, we introduce abstractive summarization of Hindi-English code-switched conversations and develop the first code-switched conversation summarization dataset - GupShup, which contains over 6,831 conversations in Hindi-English and their corresponding human-annotated summaries in English and Hindi-English. We present a detailed account of the entire data collection and annotation processes. We analyze the dataset using various code-switching statistics. We train state-of-the-art abstractive summarization models and report their performances using both automated metrics and human evaluation. Our results show that multi-lingual mBART and multi-view seq2seq models obtain the best performances on the new dataset
翻訳日:2021-04-23 09:18:40 公開日:2021-04-17
# (参考訳) 構造分割のための非負タッカー分解による音楽中の音声パターンの発見

Uncovering audio patterns in music with Nonnegative Tucker Decomposition for structural segmentation ( http://arxiv.org/abs/2104.08580v1 )

ライセンス: CC BY 4.0
Axel Marmoret (1), J\'er\'emy E. Cohen (1), Nancy Bertin (1), Fr\'ed\'eric Bimbot (1) ((1) Univ Rennes, Inria, CNRS, IRISA, France.)(参考訳) 近年の研究では、テンソル分解を用いて繰り返しをモデル化し、ループベースの電子音楽でトラックを分離することを提案している。 本研究は,Non negative Tucker Decompositon (NTD) によるポップソングの楽曲パターンと構造を明らかにする能力について検討する。 ntdがいくつかのパターンの線形結合としてバーの内容を表現しがちであるという事実を生かして、音楽的な観点から解釈可能な、対応する圧縮空間で繰り返しモチーフをキャプチャし、シングルアウトする分解の能力を示す。 結果として得られた機能は、構造的なセグメンテーションに効率的であることが判明し、広範なサンプルベースの学習スキームに依存する最先端のアプローチに潜在的に挑戦する可能性のあるrwc popデータセットの実験結果につながった。

Recent work has proposed the use of tensor decomposition to model repetitions and to separate tracks in loop-based electronic music. The present work investigates further on the ability of Nonnegative Tucker Decompositon (NTD) to uncover musical patterns and structure in pop songs in their audio form. Exploiting the fact that NTD tends to express the content of bars as linear combinations of a few patterns, we illustrate the ability of the decomposition to capture and single out repeated motifs in the corresponding compressed space, which can be interpreted from a musical viewpoint. The resulting features also turn out to be efficient for structural segmentation, leading to experimental results on the RWC Pop data set which are potentially challenging state-of-the-art approaches that rely on extensive example-based learning schemes.
翻訳日:2021-04-23 08:59:05 公開日:2021-04-17
# (参考訳) MTCNNとVGG面モデルを用いた年代推定

Age Range Estimation using MTCNN and VGG-Face Model ( http://arxiv.org/abs/2104.08585v1 )

ライセンス: CC BY 4.0
Dipesh Gyawali, Prashanga Pokharel, Ashutosh Chauhan, Subodh Chandra Shakya(参考訳) Convolutional Neural Networkは、いくつかのアプリケーションで使われていることに驚いた。 CNNを用いた年齢範囲推定は、無数の領域に応用され、研究の最先端領域となり、推定精度の向上が図られている。 提案した研究の年齢範囲を同定するために, 深層CNNモデルを用いた。 まず,mtcnnを用いた画像データセットから顔画像のみを抽出し,画像から顔以外の不要な特徴を除去する。 第2に,データ拡張に乱作法を用いてモデル性能を向上した。 我々は,転帰学習の概念を研究に用いている。 Adience Benchmarkで評価した年齢帯識別モデルの構築に,事前学習した顔認識モデル,すなわちVGG-Faceを用いた。 テストのパフォーマンスは、既存の最先端をかなりのマージンで上回った。

The Convolutional Neural Network has amazed us with its usage on several applications. Age range estimation using CNN is emerging due to its application in myriad of areas which makes it a state-of-the-art area for research and improve the estimation accuracy. A deep CNN model is used for identification of people's age range in our proposed work. At first, we extracted only face images from image dataset using MTCNN to remove unnecessary features other than face from the image. Secondly, we used random crop technique for data augmentation to improve the model performance. We have used the concept of transfer learning in our research. A pretrained face recognition model i.e VGG-Face is used to build our model for identification of age range whose performance is evaluated on Adience Benchmark for confirming the efficacy of our work. The performance in test set outperformed existing state-of-the-art by substantial margins.
翻訳日:2021-04-23 08:46:42 公開日:2021-04-17
# (参考訳) 正直な虚偽の統計的分析:Seinfeld TV Series Sitcom を事例として

A Stylistic Analysis of Honest Deception: The Case of Seinfeld TV Series Sitcom ( http://arxiv.org/abs/2104.08599v1 )

ライセンス: CC BY 4.0
Mohcine El Baroudi(参考訳) 正しい方法で使用すると、言語は強力なツールになります。 コミュニケーションの主要な手段であり、正しい言葉やスタイルの選択を使うことは、長く続く影響をもたらす可能性がある。 スタイリスティックス(英: stylistics)とは、コミュニケーションにおける様々な言語スタイルの使用についての研究である。 それゆえ、スタイル分析は、スタイルがどのように使われ、何が通信され、どのようにコミュニケーションされるかを決定するために、テキストにおける言語的スタイルの使用についての研究である。 正直な欺きは、文字通りの意味とは別の意味を意味する言葉の選択を使うことである。 正直な虚偽が使われ、文字通り理解された文章を聴いたり読んだりする人は、その点について完全に見逃してしまうことがある。 これは、正直さと虚偽が生じるためである。 しかし、読者や視聴者やリスナーを欺くよりも、永続的な影響を持つ意図で、正直な騙しが使われることを理解した方がよい。 正直なデセプションで使われる主なスタイルは、双曲、リテーテ、皮肉、皮肉である。 セインフェルド・シットコム』(Seinfeld Sitcom)は、1990年から1998年にかけて放送されたテレビコメディ番組で、コメディアンの日常生活とコメディアンが人生体験をどう見ているかを理解し、それらを笑えるジョークに変換する試みである。 また、ジェリーが人生にやってきた多くの女性から正しいパートナーを得るのに苦労していることも示している。 シンフェルド・シットコムのテレビシリーズにおける正直な騙しを反映して、このシリーズでいかに正直な騙しが使われたか、なぜ使われたのか、何が通信されているのかを考察する。 この研究は、直観的な形式を使って、シリーズ全体を通して、正直なデセプションで使われるさまざまなスタイルの分析とグループ化を行う予定だ。

Language is a powerful tool if used in the correct manner. It is the major mode of communication, and using the correct choice of words and styles can serve to have a long-lasting impact. Stylistics is the study of the use of various language styles in communication to pass a message with a bigger impact or to communicate indirectly. Stylistic analysis, therefore, is the study of the use of linguistic styles in texts to determine how a style has been used, what is communicated and how it is communicated. Honest deception is the use of a choice of words to imply something different from the literal meaning. A person listening or reading a text where honest deception has been used and with a literal understanding may completely miss out on the point. This is because the issue of honesty and falsehood arises. However, it would be better to understand that honest deception is used with the intention of having a lasting impact rather than to deceive the readers, viewers or listeners. The major styles used in honest deception are hyperboles, litotes, irony and sarcasm. The Seinfeld Sitcom TV series was a situational TV comedy show aired from 1990 to 1998. the show attempts to bring to the understanding the daily life of a comedian and how comedian views life experiences and convert them into hilarious jokes. It also shows Jerry's struggle with getting the right partner from the many women who come into his life. Reflecting on honest deception in the Seinfeld sitcom TV series, this paper is going to investigate how honest deception has been used in the series, why it has been used and what is being communicated. The study is going to use a recapitulative form to give a better analysis and grouping of the different styles used in honest deception throughout the series.
翻訳日:2021-04-23 08:38:23 公開日:2021-04-17
# (参考訳) 要約ニュース要約のためのトランスダクティブ学習

Transductive Learning for Abstractive News Summarization ( http://arxiv.org/abs/2104.09500v1 )

ライセンス: CC BY 4.0
Arthur Bra\v{z}inskas, Mengwen Liu, Ramesh Nallapati, Sujith Ravi, Markus Dreyer(参考訳) 事前訓練された言語モデルは近年抽象的な要約が進んでいる。 これらのモデルは、テスト時間で要約を生成する前に、人間による参照に基づいてさらに微調整される。 本稿では,帰納的学習の要約への最初の応用を提案する。 このパラダイムでは、モデルは推論の前にテストセットの入力から学ぶことができる。 翻訳を行うために,文を要約した入力文書を用いて,テスト時の学習のための参照を構築することを提案する。 これらの文はしばしば圧縮され、融合されて抽象的な要約を形成し、省略された詳細と追加の文脈を読者に提供する。 提案手法は,CNN/DMおよびNYTデータセットの最先端結果が得られることを示す。 例えば、CNN/DMで1 ROUGE-Lの点数を改善する。 さらに,より古いニュースから最近のニュースへのトランスダクションの利点を示す。 最後に,人間的および自動的な評価を通じて,要約がより抽象的で一貫性のあるものになることを示す。

Pre-trained language models have recently advanced abstractive summarization. These models are further fine-tuned on human-written references before summary generation in test time. In this work, we propose the first application of transductive learning to summarization. In this paradigm, a model can learn from the test set's input before inference. To perform transduction, we propose to utilize input document summarizing sentences to construct references for learning in test time. These sentences are often compressed and fused to form abstractive summaries and provide omitted details and additional context to the reader. We show that our approach yields state-of-the-art results on CNN/DM and NYT datasets. For instance, we achieve over 1 ROUGE-L point improvement on CNN/DM. Further, we show the benefits of transduction from older to more recent news. Finally, through human and automatic evaluation, we show that our summaries become more abstractive and coherent.
翻訳日:2021-04-23 08:26:20 公開日:2021-04-17
# (参考訳) 誰が誰に反応したか:会話構造における潜在話題と談話の合同効果

Who Responded to Whom: The Joint Effects of Latent Topics and Discourse in Conversation Structure ( http://arxiv.org/abs/2104.08601v1 )

ライセンス: CC BY 4.0
Lu Ji, Jing Li, Zhongyu Wei, Qi Zhang, Xuanjing Huang(参考訳) 多くのオンライン会話が日常的に作成され、会話を理解する必要性が強くなる。 議論を構成する基盤として,会話の会話における応答関係を同定し,会話の開始に応答発話を関連付ける。 トピックの内容の整合性や談話の役割の依存性が如何にこのような相互作用を示すかを明らかにするとともに,先行研究では単語の発生に根ざした潜在要因の影響を無視している。 本研究では,単語分布における潜在話題と談話の学習モデルを提案し,話題一貫性と談話依存性を活用し,対関係開始-応答リンクの予測を行う。 英語と中国語の会話における実験結果から,我々のモデルは,中国のカスタマーサービス対話における79対73MRRなど,過去の芸術の状況を大きく上回っていることがわかった。 我々はさらにアウトプットを調査し、話題や談話が会話によるユーザーインタラクションをどう示すかを明らかにした。

Numerous online conversations are produced on a daily basis, resulting in a pressing need to conversation understanding. As a basis to structure a discussion, we identify the responding relations in the conversation discourse, which link response utterances to their initiations. To figure out who responded to whom, here we explore how the consistency of topic contents and dependency of discourse roles indicate such interactions, whereas most prior work ignore the effects of latent factors underlying word occurrences. We propose a model to learn latent topics and discourse in word distributions, and predict pairwise initiation-response links via exploiting topic consistency and discourse dependency. Experimental results on both English and Chinese conversations show that our model significantly outperforms the previous state of the arts, such as 79 vs. 73 MRR on Chinese customer service dialogues. We further probe into our outputs and shed light on how topics and discourse indicate conversational user interactions.
翻訳日:2021-04-23 08:13:21 公開日:2021-04-17
# (参考訳) 保守的文脈的組合せカスケードバンド

Conservative Contextual Combinatorial Cascading Bandit ( http://arxiv.org/abs/2104.08615v1 )

ライセンス: CC BY 4.0
Kun Wang, Canzhe Zhao, Shuai Li, Shuo Shao(参考訳) 保守的なメカニズムは、探索と搾取の間のトレードオフをバランスさせる意思決定問題において望ましい性質である。 本稿では,保存的機構を組み込んだオンライン学習ゲームである<emph{conservative context combinatorial cascading bandit="c^4$-bandit")を提案する。 各ステップにおいて、学習エージェントにはいくつかのコンテキストが与えられ、基本戦略よりも悪くはない項目のリストを推奨し、いくつかの停止ルールによって報酬を観察する必要がある。 我々は,この問題を解決するために$c^4$-ucbアルゴリズムを設計し,そのnステップ上の後悔を2つの状況に対して証明する。 両方の状況における後悔は、2つの用語に分解することができる: (a) 一般的なコンビネートコンビネート・カスカディング・バンディットの上限、および (b) 保守的なメカニズムからの後悔に対する一定の用語。 このアルゴリズムは、検索エンジンおよびレコメンデータシステムに直接適用することができる。 合成データに関する実験は、その利点を示し、理論解析を検証する。

Conservative mechanism is a desirable property in decision-making problems which balance the tradeoff between the exploration and exploitation. We propose the novel \emph{conservative contextual combinatorial cascading bandit ($C^4$-bandit)}, a cascading online learning game which incorporates the conservative mechanism. At each time step, the learning agent is given some contexts and has to recommend a list of items but not worse than the base strategy and then observes the reward by some stopping rules. We design the $C^4$-UCB algorithm to solve the problem and prove its n-step upper regret bound for two situations: known baseline reward and unknown baseline reward. The regret in both situations can be decomposed into two terms: (a) the upper bound for the general contextual combinatorial cascading bandit; and (b) a constant term for the regret from the conservative mechanism. The algorithm can be directly applied to the search engine and recommender system. Experiments on synthetic data demonstrate its advantages and validate our theoretical analysis.
翻訳日:2021-04-23 07:59:21 公開日:2021-04-17
# (参考訳) クリプティッククロスワードの復号:NLPのターゲットとしての意味論的に複雑なワードプレイパズル

Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP ( http://arxiv.org/abs/2104.08620v1 )

ライセンス: CC BY 4.0
Josh Rozner, Christopher Potts, Kyle Mahowald(参考訳) イギリスで支配的な英語のクロスワードであるcryptic crosswordsは、柔軟で創造的な知性と言語知識を用いて専門家によって解決することができる。 難解な手掛かりは流れる自然言語のように読めるが、反対に2つの部分から成り立っている:定義と、サブワードまたは文字レベルの操作を必要とするワードプレイ暗号である。 そのため、より創造的で人間的な方法で言語を処理しようとするNLPシステムの評価と発展のための有望な目標である。 そこで本研究では,主要な新聞社から得られた暗号的なクロスワードの手がかりのデータセットを,ベンチマークとして使用し,それらを解くためにシーケンス・ツー・シーケンスモデルを訓練する。 また、この課題へのアプローチ開発をガイドする関連するベンチマークも開発しています。 そこで本研究では,暗号解読の学習に先立って,非スクランブル語などの関連タスクで事前学習を行う新たなカリキュラム学習手法を用いて,性能を大幅に向上できることを示す。 しかし、この曲がりくねったアプローチでさえ、人間ができるような新しい手がかり型には一般化しておらず、暗号的なクロスワードはnlpシステムと将来のイノベーションの潜在的な源である。

Cryptic crosswords, the dominant English-language crossword variety in the United Kingdom, can be solved by expert humans using flexible, creative intelligence and knowledge of language. Cryptic clues read like fluent natural language, but they are adversarially composed of two parts: a definition and a wordplay cipher requiring sub-word or character-level manipulations. As such, they are a promising target for evaluating and advancing NLP systems that seek to process language in more creative, human-like ways. We present a dataset of cryptic crossword clues from a major newspaper that can be used as a benchmark and train a sequence-to-sequence model to solve them. We also develop related benchmarks that can guide development of approaches to this challenging task. We show that performance can be substantially improved using a novel curriculum learning approach in which the model is pre-trained on related tasks involving, e.g, unscrambling words, before it is trained to solve cryptics. However, even this curricular approach does not generalize to novel clue types in the way that humans can, and so cryptic crosswords remain a challenge for NLP systems and a potential source of future innovation.
翻訳日:2021-04-23 07:40:34 公開日:2021-04-17
# (参考訳) ロボットのダイナミックモータースキルを訓練する人間

Training Humans to Train Robots Dynamic Motor Skills ( http://arxiv.org/abs/2104.08631v1 )

ライセンス: CC BY 4.0
Marina Y. Aoyama, Matthew Howard(参考訳) learning from demonstration(lfd)は、初心者がロボットにモータースキルを教えることを可能にする、自然で直感的な方法だと考えられている。 しかし、LfDの有効性が教育の質に大きく依存していることは、初心者に保証されない可能性があることを認識しておくことが重要である。 デモ参加者に、特定の教職に対するアドホックなアドバイス以上の情報的なデモンストレーションを誘導する最も効果的な方法について、未解決の疑問が残る。 そこで本研究では,実演の質を判断する指標を導出するための機械教育の活用について検討し,より優れた教師になるための指導・訓練におけるその利用を評価した。 簡単な学習ロボットを用いた実験では,提案手法による指導と指導が,学習者スキルの最大66.5%の誤差を減少させる可能性が示唆された。

Learning from demonstration (LfD) is commonly considered to be a natural and intuitive way to allow novice users to teach motor skills to robots. However, it is important to acknowledge that the effectiveness of LfD is heavily dependent on the quality of teaching, something that may not be assured with novices. It remains an open question as to the most effective way of guiding demonstrators to produce informative demonstrations beyond ad hoc advice for specific teaching tasks. To this end, this paper investigates the use of machine teaching to derive an index for determining the quality of demonstrations and evaluates its use in guiding and training novices to become better teachers. Experiments with a simple learner robot suggest that guidance and training of teachers through the proposed approach can lead to up to 66.5% decrease in error in the learnt skill.
翻訳日:2021-04-23 07:21:35 公開日:2021-04-17
# (参考訳) 視覚解析のための数式構造の自動発見

Automated Mathematical Equation Structure Discovery for Visual Analysis ( http://arxiv.org/abs/2104.08633v1 )

ライセンス: CC BY 4.0
Caroline Pacheco do Esp\'irito Silva, Jos\'e A. M. Felippe De Souza, Antoine Vacavant, Thierry Bouwmans, Andrews Cordolino Sobral(参考訳) 複雑なシナリオに見られるさまざまな課題に対処する最良の数学的方程式を見つけるには、シナリオの詳細な理解と専門家による試行錯誤プロセスが必要である。 近年、ほとんどの最先端方程式発見法はモデリングや識別システムに広く応用されている。 しかし、方程式発見のアプローチはコンピュータビジョン、特に特徴抽出の分野で非常に有用である。 本稿では,現実のシナリオで直面するさまざまな課題に対処するため,人間の介入がほとんどなく,スクラッチから方程式を自動的に検出する新たなフレームワークを提案するために,最近のAIの進歩に注目した。 さらに,提案手法は,ハンドデザインではなく生成ネットワークによる探索空間設計を提案することにより,人間のバイアスを軽減することができる。 概念実証として,我々のフレームワークで発見された方程式を用いて,動画の背景から移動物体を識別する。 実験の結果,提案手法の可能性を示唆し,ビデオシーケンスにおける最良方程式の発見に有効性を示した。 コードとデータは、https://github.com/carolinepacheco/equation-discovery-scene- analysisで入手できる。

Finding the best mathematical equation to deal with the different challenges found in complex scenarios requires a thorough understanding of the scenario and a trial and error process carried out by experts. In recent years, most state-of-the-art equation discovery methods have been widely applied in modeling and identification systems. However, equation discovery approaches can be very useful in computer vision, particularly in the field of feature extraction. In this paper, we focus on recent AI advances to present a novel framework for automatically discovering equations from scratch with little human intervention to deal with the different challenges encountered in real-world scenarios. In addition, our proposal can reduce human bias by proposing a search space design through generative network instead of hand-designed. As a proof of concept, the equations discovered by our framework are used to distinguish moving objects from the background in video sequences. Experimental results show the potential of the proposed approach and its effectiveness in discovering the best equation in video sequences. The code and data are available at: https://github.com/carolinepacheco/equation-discovery-scene-analysis
翻訳日:2021-04-23 07:10:20 公開日:2021-04-17
# (参考訳) UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans Detection

UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans Detection ( http://arxiv.org/abs/2104.08635v1 )

ライセンス: CC BY 4.0
Andrei Paraschiv, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) オンライン界における偏光と毒性の現実世界への影響は、2020年末と今年の初めを否定的に捉えた。 Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいており、毒性レベルのスパンを特定するための最初の言語毒性検出タスクである。 このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。 本モデルは,複数のトランスフォーマーベースモデル(BERT,RoBERTa)の微調整過程において,条件付きランダムフィールドと組み合わせた半教師付き環境で仮想適応トレーニングを適用することを検討する。 我々のアプローチは、パフォーマンス改善とより堅牢なモデルにつながり、公式提出時のf1-scoreの65.73%、再評価後のチューニング後のf1-scoreの66.13%を達成することができます。

The real-world impact of polarization and toxicity in the online sphere marked the end of 2020 and the beginning of this year in a negative way. Semeval-2021, Task 5 - Toxic Spans Detection is based on a novel annotation of a subset of the Jigsaw Unintended Bias dataset and is the first language toxicity detection task dedicated to identifying the toxicity-level spans. For this task, participants had to automatically detect character spans in short comments that render the message as toxic. Our model considers applying Virtual Adversarial Training in a semi-supervised setting during the fine-tuning process of several Transformer-based models (i.e., BERT and RoBERTa), in combination with Conditional Random Fields. Our approach leads to performance improvements and more robust models, enabling us to achieve an F1-score of 65.73% in the official submission and an F1-score of 66.13% after further tuning during post-evaluation.
翻訳日:2021-04-23 06:49:10 公開日:2021-04-17
# (参考訳) AM2iCo: 逆例による低リソース言語間の文脈における単語意味評価

AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples ( http://arxiv.org/abs/2104.08639v1 )

ライセンス: CC BY 4.0
Qianchu Liu, Edoardo M. Ponti, Diana McCarthy, Ivan Vuli\'c, Anna Korhonen(参考訳) 文脈における単語の意味の獲得と言語間の対応やバリエーションの区別は、多言語および多言語間のテキスト表現モデルを構築する上で鍵となる。 However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. これらのギャップに対処するために, AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; 本論文は,14言語対の言語間文脈における単語の意味の同一性を理解するための最先端技術(SotA)表現モデルの能力を忠実に評価することを目的とする。 我々は,様々な環境において一連の実験を行い,am2icoの挑戦的な性質を実証する。 その結果、現在のSotAの事前学習エンコーダは人間のパフォーマンスにかなり遅れており、低リソース言語や英語と異なる言語では最大のギャップが観察されていることがわかった。

Capturing word meaning in context and distinguishing between correspondences and variations across languages is key to building successful multilingual and cross-lingual text representation models. However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. In order to address these gaps, we present AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; it aims to faithfully assess the ability of state-of-the-art (SotA) representation models to understand the identity of word meaning in cross-lingual contexts for 14 language pairs. We conduct a series of experiments in a wide range of setups and demonstrate the challenging nature of AM2iCo. The results reveal that current SotA pretrained encoders substantially lag behind human performance, and the largest gaps are observed for low-resource languages and languages dissimilar to English.
翻訳日:2021-04-23 06:37:33 公開日:2021-04-17
# (参考訳) 戦略ゲームのための多様で競争的なプレイスタイルの生成

Generating Diverse and Competitive Play-Styles for Strategy Games ( http://arxiv.org/abs/2104.08641v1 )

ライセンス: CC BY 4.0
Diego Perez-Liebana, Cristina Guerrero-Romero, Alexander Dockhorn, Dominik Jeurissen, Linjie Xu(参考訳) 競争的なプレイレベルを維持しながら異なるプレイスタイルを達成できるエージェントを設計することは、特に研究コミュニティが戦略ゲームのような超人的なパフォーマンスをまだ見ていないゲームでは難しい作業である。 これらはAIが大きな行動空間、長期計画、部分的な観測可能性を扱うことを必要とし、意思決定が困難な問題となっている。 さらに, 演奏強度を低下させることなく, 汎用アルゴリズムを用いて異なる演奏スタイルを実現することは容易ではない。 本稿では,ターンベースの戦略ゲーム (Tribes) を行うために,Portfolio Monte Carlo Tree Search with Progressive Unpruningを提案する。 以上の結果から,本アルゴリズムは,トレーニング用以上のゲームレベルを幅広く収集した場合でも,これらの目標を達成することができることがわかった。

Designing agents that are able to achieve different play-styles while maintaining a competitive level of play is a difficult task, especially for games for which the research community has not found super-human performance yet, like strategy games. These require the AI to deal with large action spaces, long-term planning and partial observability, among other well-known factors that make decision-making a hard problem. On top of this, achieving distinct play-styles using a general algorithm without reducing playing strength is not trivial. In this paper, we propose Portfolio Monte Carlo Tree Search with Progressive Unpruning for playing a turn-based strategy game (Tribes) and show how it can be parameterized so a quality-diversity algorithm (MAP-Elites) is used to achieve different play-styles while keeping a competitive level of play. Our results show that this algorithm is capable of achieving these goals even for an extensive collection of game levels beyond those used for training.
翻訳日:2021-04-23 06:20:50 公開日:2021-04-17
# (参考訳) 能力問題:言語データのアーティファクトの検索と削除について

Competency Problems: On Finding and Removing Artifacts in Language Data ( http://arxiv.org/abs/2104.08646v1 )

ライセンス: CC BY 4.0
Matt Gardner, William Merrill, Jesse Dodge, Matthew E. Peters, Alexis Ross, Sameer Singh, Noah Smith(参考訳) NLPにおける最近の研究は、入力特徴と出力ラベルの間のデータセットアーティファクト、バイアス、および急激な相関を文書化してきた。 しかし、どの機能が正当な相関の代わりに「純然たる」のかを判断する方法は、通常、特定されていないままである。 本研究では,複雑な言語理解タスクにおいて,すべての単純な特徴相関が突発的であり,この概念を「能力問題」と呼ぶ問題のクラスに形式化する。 例えば、それ自体で「驚き」という言葉は、否定、比喩、皮肉などを含む文脈に依存しない感情ラベルに関する情報を与えてはならない。 人間のバイアスを考慮した場合の能力問題に対するデータ作成の難しさを理論的に分析し,データセットのサイズが大きくなるにつれて,現実的なデータセットが能力問題から徐々に逸脱していくことを示す。 この分析により、データセットのアーティファクトの単純な統計的テストが得られます。これは、前の研究で説明されていたよりも微妙なバイアスを示すために使われます。 この問題を理論的に扱うことで、データセットインスタンスのローカルな編集や、将来的なデータ収集やコンピテンシー問題を対象としたモデル設計への推奨など、提案されたソリューションの分析が可能になります。

Much recent work in NLP has documented dataset artifacts, bias, and spurious correlations between input features and output labels. However, how to tell which features have "spurious" instead of legitimate correlations is typically left unspecified. In this work we argue that for complex language understanding tasks, all simple feature correlations are spurious, and we formalize this notion into a class of problems which we call competency problems. For example, the word "amazing" on its own should not give information about a sentiment label independent of the context in which it appears, which could include negation, metaphor, sarcasm, etc. We theoretically analyze the difficulty of creating data for competency problems when human bias is taken into account, showing that realistic datasets will increasingly deviate from competency problems as dataset size increases. This analysis gives us a simple statistical test for dataset artifacts, which we use to show more subtle biases than were described in prior work, including demonstrating that models are inappropriately affected by these less extreme biases. Our theoretical treatment of this problem also allows us to analyze proposed solutions, such as making local edits to dataset instances, and to give recommendations for future data collection and model design efforts that target competency problems.
翻訳日:2021-04-23 06:04:24 公開日:2021-04-17
# (参考訳) COLIEE@ICAIL 2019におけるIITP:BM25とBERTを用いた法的情報検索

IITP in COLIEE@ICAIL 2019: Legal Information Retrieval usingBM25 and BERT ( http://arxiv.org/abs/2104.08653v1 )

ライセンス: CC BY 4.0
Baban Gain, Dibyanayan Bandyopadhyay, Tanik Saikh, Asif Ekbal(参考訳) 司法領域における自然言語処理(NLP)と情報検索(IR)は必須課題である。 電子形式でのドメイン固有データの出現と異なる人工知能(AI)技術の支援により、自動化された言語処理はより快適になり、研究者や開発者が法的コミュニティに様々な自動化ツールを提供することで人的負担を減らすことが可能になった。 international conference on artificial intelligence and law (icail)-2019 (coliee-2019) とは、国際人工知能・法会議 (international conference on artificial intelligence and law,icail) の略である。 共有された4つのサブタスク(すなわち)。 task1、task2、task3、task4は、司法システムに少数の自動化システムを提供することができる。 本稿では,この共有タスクで定義されたすべてのサブタスクへの参加の一環として実施した実験について報告する。 我々はこれらの問題に対処するために、異なる情報検索(IR)と深層学習に基づくアプローチを利用している。 これら4つのサブタスクすべてにおいて、奨励的な結果が得られる。

Natural Language Processing (NLP) and Information Retrieval (IR) in the judicial domain is an essential task. With the advent of availability domain-specific data in electronic form and aid of different Artificial intelligence (AI) technologies, automated language processing becomes more comfortable, and hence it becomes feasible for researchers and developers to provide various automated tools to the legal community to reduce human burden. The Competition on Legal Information Extraction/Entailment (COLIEE-2019) run in association with the International Conference on Artificial Intelligence and Law (ICAIL)-2019 has come up with few challenging tasks. The shared defined four sub-tasks (i.e. Task1, Task2, Task3 and Task4), which will be able to provide few automated systems to the judicial system. The paper presents our working note on the experiments carried out as a part of our participation in all the sub-tasks defined in this shared task. We make use of different Information Retrieval(IR) and deep learning based approaches to tackle these problems. We obtain encouraging results in all these four sub-tasks.
翻訳日:2021-04-23 05:43:42 公開日:2021-04-17
# (参考訳) 全天候・照明条件におけるIUPUI運転映像と画像

IUPUI Driving Videos and Images in All Weather and Illumination Conditions ( http://arxiv.org/abs/2104.08657v1 )

ライセンス: CC BY 4.0
Jiang Yu Zheng(参考訳) この文書は、すべての天気と照明条件で捉えた運転ビューの画像とビデオのデータセットを記述する。 データセットはCDVLに送信されている。

This document describes an image and video dataset of driving views captured in all weather and illumination conditions. The data set has been submitted to CDVL.
翻訳日:2021-04-23 05:36:35 公開日:2021-04-17
# (参考訳) 普遍依存木からの単調性マーキング

Monotonicity Marking from Universal Dependency Trees ( http://arxiv.org/abs/2104.08659v1 )

ライセンス: CC BY 4.0
Zeming Chen, Qiyue Gao(参考訳) 依存性解析は自然言語処理と計算言語学の分野で広く使われているツールである。 しかし、依存関係のパーシングを単調性に結びつける作業はほとんどなく、これは論理学と言語学のセマンティクスの重要な部分である。 本稿では,ユニバーサル依存構文解析木に基づくモノトニック情報を自動アノテートするシステムを提案する。 本システムでは,数量化器,語彙項目,トークンレベルの極性情報に関する表面レベルモノトニック性情報を利用する。 そこで我々は,NatLog や ccg2mono など,文献中の既存のシステムと比較した。 その結果,本システムは NatLog と ccg2mono より優れていることがわかった。

Dependency parsing is a tool widely used in the field of Natural language processing and computational linguistics. However, there is hardly any work that connects dependency parsing to monotonicity, which is an essential part of logic and linguistic semantics. In this paper, we present a system that automatically annotates monotonicity information based on Universal Dependency parse trees. Our system utilizes surface-level monotonicity facts about quantifiers, lexical items, and token-level polarity information. We compared our system's performance with existing systems in the literature, including NatLog and ccg2mono, on a small evaluation dataset. Results show that our system outperforms NatLog and ccg2mono.
翻訳日:2021-04-23 05:28:19 公開日:2021-04-17
# (参考訳) BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models ( http://arxiv.org/abs/2104.08663v1 )

ライセンス: CC BY-SA 4.0
Nandan Thakur, Nils Reimers, Andreas R\"uckl\'e, Abhishek Srivastava, Iryna Gurevych(参考訳) ニューラルirモデルは、その一般化能力に関する洞察をかなり限定した、均質かつ狭い設定でしばしば研究されてきた。 この問題に対処し、研究者がモデルの有効性をより広く確立するために、情報検索のための異種ベンチマークであるBEIR(Benchmarking IR)を導入する。 オープンドメインのデータセットと狭い専門家ドメインを含む多様な検索タスクにまたがる評価に、17のデータセットを慎重に選択する。 我々は,beirにおけるゼロショット評価システムにおける9つの最先端検索モデルの有効性について検討し,全データセットで一貫した実行が困難であることを見出した。 以上の結果から,bm25はロバストなベースラインモデルであり,総じてゼロショット性能を高い計算コストで達成できることがわかった。 対照的に、高密度リトライバルモデルは計算効率が高いが、しばしば他のアプローチを過小評価し、その一般化能力の改善の余地を浮き彫りにしている。 本研究では,様々な検索モデルを分析し,今後の作業に有用であると考えられる提案をいくつか提示する。 BEIRデータセットとコードはhttps://github.com/UKPLab/beir.comで入手できる。

Neural IR models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their generalization capabilities. To address this, and to allow researchers to more broadly establish the effectiveness of their models, we introduce BEIR (Benchmarking IR), a heterogeneous benchmark for information retrieval. We leverage a careful selection of 17 datasets for evaluation spanning diverse retrieval tasks including open-domain datasets as well as narrow expert domains. We study the effectiveness of nine state-of-the-art retrieval models in a zero-shot evaluation setup on BEIR, finding that performing well consistently across all datasets is challenging. Our results show BM25 is a robust baseline and Reranking-based models overall achieve the best zero-shot performances, however, at high computational costs. In contrast, Dense-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. In this work, we extensively analyze different retrieval models and provide several suggestions that we believe may be useful for future work. BEIR datasets and code are available at https://github.com/UKPLab/beir.
翻訳日:2021-04-23 05:15:50 公開日:2021-04-17
# フルコア燃料性能解析のための機械学習支援サロゲート構築

Machine learning-assisted surrogate construction for full-core fuel performance analysis ( http://arxiv.org/abs/2104.09499v1 )

ライセンス: Link先を確認
Yifeng Che, Joseph Yurko, Koroush Shirvan(参考訳) 原子炉の挙動を正確に予測するには、結合中性子、熱水和物、燃料熱力学の多物理シミュレーションが必要である。 燃料の熱力学的応答は、運用限界と安全分析に不可欠な情報を提供する。 従来, 計算時空間パワー分布と熱境界条件を結合中性子熱水和シミュレーションから入力として, 燃料性能解析を独立に行う。 このような一方的な結合は、フルコア燃料性能解析によって引き起こされる高コストの結果であり、「ピークロッド」解析よりもより現実的で正確な反応予測を提供する。 したがって、燃料性能モデリングをコアリロード設計の最適化に活用できるように高速実行サーロゲートを構築し、フルコア燃料性能モデリングの計算効率を向上させることが望ましい。 本研究は、いくつかの現実的な平衡PWRコア設計に基づくフルコアサロゲート構築手法を提案する。 高速で従来的なアプローチとして、ルックアップテーブルは特定の燃料性能量(QoIs)に対してのみ有効である。 いくつかの代表的な機械学習アルゴリズムを導入し、他の燃料性能QoIの複雑な物理を捉える。 ルールベースモデルは,操作条件の空間的・時間的複雑さを考慮した特徴抽出手法として有用である。 構築されたサーロゲートは、予測精度を満足して少なくとも1万時間加速度を達成する。 現在の作業は、燃料性能モデリングのコア設計最適化フレームワークへの密結合の基礎を築いている。 また、計算コストがより負担になるBISONによるフルコア燃料性能解析のステージも設定する。

Accurately predicting the behavior of a nuclear reactor requires multiphysics simulation of coupled neutronics, thermal-hydraulics and fuel thermo-mechanics. The fuel thermo-mechanical response provides essential information for operational limits and safety analysis. Traditionally, fuel performance analysis is performed standalone, using calculated spatial-temporal power distribution and thermal boundary conditions from the coupled neutronics-thermal-hydraulics simulation as input. Such one-way coupling is result of the high cost induced by the full-core fuel performance analysis, which provides more realistic and accurate prediction of the core-wide response than the "peak rod" analysis. It is therefore desirable to improve the computational efficiency of full-core fuel performance modeling by constructing fast-running surrogate, such that fuel performance modeling can be utilized in the core reload design optimization. This work presents methodologies for full-core surrogate construction based on several realistic equilibrium PWR core designs. As a fast and conventional approach, look-up tables are only effective for certain fuel performance quantities of interest (QoIs). Several representative machine-learning algorithms are introduced to capture the complicated physics for other fuel performance QoIs. Rule-based model is useful as a feature extraction technique to account for the spatial-temporal complexity of operating conditions. Constructed surrogates achieve at least ten thousand time acceleration with satisfying prediction accuracy. Current work lays foundation for tighter coupling of fuel performance modeling into the core design optimization framework. It also sets stage for full-core fuel performance analysis with BISON where the computational cost becomes more burdensome.
翻訳日:2021-04-21 13:29:00 公開日:2021-04-17
# ExplaGraphs: 構造化コモンセンス推論のための説明グラフ生成タスク

ExplaGraphs: An Explanation Graph Generation Task for Structured Commonsense Reasoning ( http://arxiv.org/abs/2104.07644v2 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Lisa Bauer, Mohit Bansal(参考訳) 最近のcommonsense-reasoningタスクは、モデルが特定のコンテキストに対してマルチチョイスの質問に答える自然界において、通常差別的である。 識別タスクは、モデルの推論と予測を基礎となるコモンセンス知識で適切に評価できないため、制限されている。 また、そのようなモデルが「正しい理由」ではなく、推論ショートカットを使用することも可能にします。 本研究では,姿勢予測のための説明グラフ生成のための新しい生成および構造化コモンセンス推論タスク(および関連するデータセット)であるExplaGraphsを提案する。 具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。 データセットの説明グラフはクラウドソーシングを通じて収集され、新たなグラフ収集フレームワークにより、複数の検証と精細化ラウンドを通じてグラフの品質が向上します。 グラフの83%は、様々な構造と推論深度を持つ外部の常識ノードを含んでいる。 また,生成したグラフの構造的および意味的正確性と,そのヒューマン・ライティング・グラフとの適合性をチェックするマルチレベル評価フレームワークを提案する。 我々は,bart や t5 のような最先端テキスト生成モデルを用いて説明グラフを生成し,人間のパフォーマンスに大きなギャップがあることを観察し,この新たなコモンセンスグラフに基づく説明生成タスクに有用な作業を促す。

Recent commonsense-reasoning tasks are typically discriminative in nature, where a model answers a multiple-choice question for a certain context. Discriminative tasks are limiting because they fail to adequately evaluate the model's ability to reason and explain predictions with underlying commonsense knowledge. They also allow such models to use reasoning shortcuts and not be "right for the right reasons". In this work, we present ExplaGraphs, a new generative and structured commonsense-reasoning task (and an associated dataset) of explanation graph generation for stance prediction. Specifically, given a belief and an argument, a model has to predict whether the argument supports or counters the belief and also generate a commonsense-augmented graph that serves as non-trivial, complete, and unambiguous explanation for the predicted stance. The explanation graphs for our dataset are collected via crowdsourcing through a novel Collect-Judge-And-Refine graph collection framework that improves the graph quality via multiple rounds of verification and refinement. A significant 83% of our graphs contain external commonsense nodes with diverse structures and reasoning depths. We also propose a multi-level evaluation framework that checks for the structural and semantic correctness of the generated graphs and their plausibility with human-written graphs. We experiment with state-of-the-art text generation models like BART and T5 to generate explanation graphs and observe that there is a large gap with human performance, thereby encouraging useful future work for this new commonsense graph-based explanation generation task.
翻訳日:2021-04-20 14:53:28 公開日:2021-04-17
# 事前訓練された言語モデルによるデータセットの生成

Generating Datasets with Pretrained Language Models ( http://arxiv.org/abs/2104.07540v2 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) 事前学習された言語モデル(plm)から高品質な文埋め込みを得るには、追加の事前学習目的を付加するか、ラベル付きテキストペアで微調整する必要がある。 後者のアプローチは一般的に前者よりも優れていますが、十分なサイズの適切なデータセットを生成するには、多大な人的努力が必要です。 本稿では、ラベル付きデータや微調整や事前学習目的への修正を必要とせず、いかに大きなPLMが高品質な埋め込みを得るために活用できるかを示す。 完全に教師なしのアプローチは、いくつかの英語意味テキスト類似性データセットの強いベースラインを上回る。

To obtain high-quality sentence embeddings from pretrained language models (PLMs), they must either be augmented with additional pretraining objectives or finetuned on a large set of labeled text pairs. While the latter approach typically outperforms the former, it requires great human effort to generate suitable datasets of sufficient size. In this paper, we show how large PLMs can be leveraged to obtain high-quality embeddings without requiring any labeled data, finetuning or modifications to the pretraining objective: We utilize the generative abilities of PLMs to generate entire datasets of labeled text pairs from scratch, which can then be used for regular finetuning of much smaller models. Our fully unsupervised approach outperforms strong baselines on several English semantic textual similarity datasets.
翻訳日:2021-04-20 14:53:02 公開日:2021-04-17
# ロボット行動による事前学習語埋め込みの具体化

Embodying Pre-Trained Word Embeddings Through Robot Actions ( http://arxiv.org/abs/2104.08521v1 )

ライセンス: Link先を確認
Minori Toyoda, Kanata Suzuki, Hiroki Mori, Yoshihiko Hayashi, Tetsuya Ogata(参考訳) 本稿では,ロボット行動の基底表現とその言語記述を得るための有望なニューラルネットワークモデルを提案する。 多文語を含む様々な言語表現に適切に反応することは、言語対話を通じて人と対話するロボットにとって重要な能力である。 これまでの研究によると、ロボットは事前訓練された単語埋め込みを用いて、アクション記述ペアデータセットに含まれていない単語を使うことができる。 しかし、分布仮説の下で訓練された単語埋め込みは、テキストコーパスから純粋に派生しているため、根拠づけられていない。 本稿では,ロボットの感覚運動体験を用いて,事前学習した単語の埋め込みを具体化したものに変換する。 単語埋め込みに適合する非線形層を組み込むことで、アクションや記述のための双方向翻訳モデルを拡張する。 提案モデルでは,再構成層と双方向翻訳モデルを交互にトレーニングすることにより,事前学習した単語の埋め込みを変換して,ペアのアクション記述データセットに適応させることができる。 その結果,同義語の組込みはロボットの体験(動作や環境)を反映して意味クラスタを形成することがわかった。 これらの埋め込みにより、ロボットはデータセット内のアクションとペアでない未知の単語からアクションを適切に生成できる。

We propose a promising neural network model with which to acquire a grounded representation of robot actions and the linguistic descriptions thereof. Properly responding to various linguistic expressions, including polysemous words, is an important ability for robots that interact with people via linguistic dialogue. Previous studies have shown that robots can use words that are not included in the action-description paired datasets by using pre-trained word embeddings. However, the word embeddings trained under the distributional hypothesis are not grounded, as they are derived purely from a text corpus. In this letter, we transform the pre-trained word embeddings to embodied ones by using the robot's sensory-motor experiences. We extend a bidirectional translation model for actions and descriptions by incorporating non-linear layers that retrofit the word embeddings. By training the retrofit layer and the bidirectional translation model alternately, our proposed model is able to transform the pre-trained word embeddings to adapt to a paired action-description dataset. Our results demonstrate that the embeddings of synonyms form a semantic cluster by reflecting the experiences (actions and environments) of a robot. These embeddings allow the robot to properly generate actions from unseen words that are not paired with actions in a dataset.
翻訳日:2021-04-20 14:49:13 公開日:2021-04-17
# 再帰的入力と状態推定:データ不足を伴う時系列から学習するための一般的なフレームワーク

Recursive input and state estimation: A general framework for learning from time series with missing data ( http://arxiv.org/abs/2104.08556v1 )

ライセンス: Link先を確認
Alberto Garc\'ia-Dur\'an, Robert West(参考訳) データ不足の時系列は、機械学習の重要な設定で発生する信号である。 このような時系列をモデル化するのに最も成功したアプローチは、入力と前の状態を変換して失われた観測を考慮し、変換された信号を標準的な方法で処理するリカレントニューラルネットワークに基づいている。 本稿では、この一般的なアプローチのための単一統一フレームワークRISE(Recursive Input and State Estimation)を導入し、既存のモデルをこのフレームワークの具体例として再構成する。 次に、任意のインスタンスのパフォーマンスを改善するために、RISEフレームワーク内の新たなバリエーションについて検討する。 我々は、RISEインスタンスが使用する信号の潜在表現を学習するために表現学習技術を利用する。 我々は遅延信号表現を学習するための様々な符号化手法を議論・開発する。 我々は、3つのデータインプテーションデータセット上で様々なエンコーディング関数を持つフレームワークのインスタンスをベンチマークし、ライジングインスタンスが常に分解可能な桁から数値の表現を学ぶエンコーダの恩恵を受けていることを観察した。

Time series with missing data are signals encountered in important settings for machine learning. Some of the most successful prior approaches for modeling such time series are based on recurrent neural networks that transform the input and previous state to account for the missing observations, and then treat the transformed signal in a standard manner. In this paper, we introduce a single unifying framework, Recursive Input and State Estimation (RISE), for this general approach and reformulate existing models as specific instances of this framework. We then explore additional novel variations within the RISE framework to improve the performance of any instance. We exploit representation learning techniques to learn latent representations of the signals used by RISE instances. We discuss and develop various encoding techniques to learn latent signal representations. We benchmark instances of the framework with various encoding functions on three data imputation datasets, observing that RISE instances always benefit from encoders that learn representations for numerical values from the digits into which they can be decomposed.
翻訳日:2021-04-20 14:47:22 公開日:2021-04-17
# cetacean translation initiative: a roadmap tociphering the communication of sperm whales

Cetacean Translation Initiative: a roadmap to deciphering the communication of sperm whales ( http://arxiv.org/abs/2104.08614v1 )

ライセンス: Link先を確認
Jacob Andreas, Ga\v{s}per Begu\v{s}, Michael M. Bronstein, Roee Diamant, Denley Delaney, Shane Gero, Shafi Goldwasser, David F. Gruber, Sarah de Haas, Peter Malkin, Roger Payne, Giovanni Petri, Daniela Rus, Pratyusha Sharma, Dan Tchernov, Pernille T{\o}nnesen, Antonio Torralba, Daniel Vogt, Robert J. Wood(参考訳) 過去10年間、人間の言語分析のための機械学習は画期的な隆盛を遂げており、現在の手法では、構文や意味論のさまざまな側面(文構造や接頭辞の意味など)を、大規模なデータコレクションから正確に復元することができる。 近年の研究では、非ヒト種における音響コミュニケーションの分析ツールが期待されている。 我々は, 生物音響, 行動, 生物学的, 環境データなど, 動物のコミュニケーション研究におけるマルチモーダルデータストリームの収集, 処理, 解析の基盤として, 機械学習が重要であると仮定する。 ケタカンは高度な音響通信を持つため、独特な非ヒトのモデル種であるが、地上の媒体ではなく水中で進化した全く異なるエンコーディングシステムを使用している。 特にスペルムクジラは、高度に発達した神経解剖学的特徴、認知能力、社会構造、離散的なクリックベースの符号化によって、将来他の動物にも応用できる高度な機械学習ツールの出発点となる。 本稿では,既存の技術と多分野の科学コミュニティの取り組みに基づいて,この目標に向けてのロードマップについて述べる。 マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素を概説し,それらの基本コミュニケーションユニットと言語ライクな高レベル構造を検出し,インタラクティブな再生実験によりモデルを検証する。 このような事業によって開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性がある。

The past decade has witnessed a groundbreaking rise of machine learning for human language analysis, with current methods capable of automatically accurately recovering various aspects of syntax and semantics - including sentence structure and grounded word meaning - from large data collections. Recent research showed the promise of such tools for analyzing acoustic communication in nonhuman species. We posit that machine learning will be the cornerstone of future collection, processing, and analysis of multimodal streams of data in animal communication studies, including bioacoustic, behavioral, biological, and environmental data. Cetaceans are unique non-human model species as they possess sophisticated acoustic communications, but utilize a very different encoding system that evolved in an aquatic rather than terrestrial medium. Sperm whales, in particular, with their highly-developed neuroanatomical features, cognitive abilities, social structures, and discrete click-based encoding make for an excellent starting point for advanced machine learning tools that can be applied to other animals in the future. This paper details a roadmap toward this goal based on currently existing technology and multidisciplinary scientific community effort. We outline the key elements required for the collection and processing of massive bioacoustic data of sperm whales, detecting their basic communication units and language-like higher-level structures, and validating these models through interactive playback experiments. The technological capabilities developed by such an undertaking are likely to yield cross-applications and advancements in broader communities investigating non-human communication and animal behavioral research.
翻訳日:2021-04-20 14:46:08 公開日:2021-04-17
# 質問マッチングのためのコンテキスト認識インタラクションネットワーク

Context-Aware Interaction Network for Question Matching ( http://arxiv.org/abs/2104.08451v1 )

ライセンス: Link先を確認
Zhe Hu, Zuohui Fu, Yu Yin, Gerard de Melo and Cheng Peng(参考訳) テキストマッチングにおいて印象的なマイルストーンは、2つの文間の関連する意味的関係をキャプチャするクロスアテンション機構を採用することで達成されている。 しかし、これらの相互接続機構は、文脈情報の重要性を無視して、2つの入力間の単語レベルのリンクに焦点を当てている。 本研究では,2つのシーケンスを適切に調整し,意味的関係を推測するコンテキスト認識インタラクションネットワーク(COIN)を提案する。 具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。 複数の積み重ねられた相互作用ブロックを適用し、異なるレベルのアライメントを生成し、徐々に注目結果を洗練する。 2つの質問マッチングデータセットと詳細な分析実験により,本モデルの有効性が確認された。

Impressive milestones have been achieved in text matching by adopting a cross-attention mechanism to capture pertinent semantic connections between two sentences. However, these cross-attention mechanisms focus on word-level links between the two inputs, neglecting the importance of contextual information. We propose a context-aware interaction network (COIN) to properly align two sequences and infer their semantic relationship. Specifically, each interaction block includes (1) a context-aware cross-attention mechanism to effectively integrate contextual information, and (2) a gate fusion layer to flexibly interpolate aligned representations. We apply multiple stacked interaction blocks to produce alignments at different levels and gradually refine the attention results. Experiments on two question matching datasets and detailed analyses confirm the effectiveness of our model.
翻訳日:2021-04-20 14:44:16 公開日:2021-04-17
# DPRとRAGによるゼロショットスロット充填

Zero-shot Slot Filling with DPR and RAG ( http://arxiv.org/abs/2104.08610v1 )

ライセンス: Link先を確認
Michael Glass, Gaetano Rossiello, Alfio Gliozzo(参考訳) 与えられた文書コレクションから知識グラフ(KG)を自動的に抽出する能力は、人工知能の長年の問題である。 この能力を評価する一つの方法はスロットフィリングのタスクである。 エンティティクエリが[Entity, Slot, ?]形式で与えられる。 ]関連する通路や通路から欠落した値を生成または抽出することによりスロットを「埋める」ようシステムに依頼する。 この能力は、特にエンタープライズアプリケーションにおいて、ますます需要が高まっている知識ベース人口の自動生成システムを作成する上で非常に重要である。 近年,知識ベースの評価と同様,言語モデルの評価には有望な方向性があり,スロットフィリングのタスクがこの目的に最も適している。 この分野の最近の進歩は、検索に基づく言語モデルを用いてエンドツーエンドでこの課題を解決しようとしている。 Retrieval Augmented Generation (RAG)のようなモデルは、複雑な情報抽出パイプラインを伴わずに驚くほど優れたパフォーマンスを示す。 しかし、KILTベンチマークの2つのスロットフィリングタスクにおけるこれらのモデルによる結果は、実際の情報抽出システムに必要なレベルには達していない。 本稿では,より優れたスロットフィラーを実現するために,ragのレトリバーとジェネレータを改善するためのいくつかの戦略について述べる。 我々のKGI0システム(https://github.com/IBM/retrieve-write-slot-filling)は、T-RExデータセットとzsREデータセットの両方でKILTリーダボードの1位に達した。

The ability to automatically extract Knowledge Graphs (KG) from a given collection of documents is a long-standing problem in Artificial Intelligence. One way to assess this capability is through the task of slot filling. Given an entity query in form of [Entity, Slot, ?], a system is asked to `fill' the slot by generating or extracting the missing value from a relevant passage or passages. This capability is crucial to create systems for automatic knowledge base population, which is becoming in ever-increasing demand, especially in enterprise applications. Recently, there has been a promising direction in evaluating language models in the same way we would evaluate knowledge bases, and the task of slot filling is the most suitable to this intent. The recent advancements in the field try to solve this task in an end-to-end fashion using retrieval-based language models. Models like Retrieval Augmented Generation (RAG) show surprisingly good performance without involving complex information extraction pipelines. However, the results achieved by these models on the two slot filling tasks in the KILT benchmark are still not at the level required by real-world information extraction systems. In this paper, we describe several strategies we adopted to improve the retriever and the generator of RAG in order to make it a better slot filler. Our KGI0 system (available at https://github.com/IBM/retrieve-write-slot-filling) reached the top-1 position on the KILT leaderboard on both T-REx and zsRE dataset with a large margin.
翻訳日:2021-04-20 14:44:02 公開日:2021-04-17
# 補足木による回答の解説

Explaining Answers with Entailment Trees ( http://arxiv.org/abs/2104.08661v1 )

ライセンス: Link先を確認
Bhavana Dalvi, Peter Jansen, Oyvind Tafjord, Zhengnan Xie, Hannah Smith, Leighanna Pipatanangkura, Peter Clark(参考訳) 我々のゴールは、オープンドメインのテキスト質問回答(QA)の文脈において、単にテキスト証拠("rationales")をリストアップするだけでなく、そのような証拠がどのようにしてその答えを体系的に導くかを示すことで、答えを説明することである。 これが実現できれば、システムの推論を理解してデバッグする新たな機会が生まれるでしょう。 我々のアプローチは、エンテーメント・ツリー(すなわち、中間的な結論を通じて知られている事実から最終回答まで、エンテーメント・ステップのツリー)の形で説明を生成することである。 このスキルでモデルをトレーニングするために、マルチステップのエンターテイメントツリーを含む最初のデータセットであるENTAILMENTBANKを作成しました。 木の各ノード(典型的には)において、2つ以上の事実が組み合わさって新しい結論を生み出す。 仮説(質問+回答)が与えられたとき、私たちは3つの難しい説明タスクを定義している: (a) すべての関連文(金の包含木の葉)、 (b) すべての関連文およびいくつかの無関係な文、または (c)コーパス。 強言語モデルはこれらのタスクを部分的に解き、性能を改善するためにいくつかの新しい方向を特定する。 この作業は、コミュニティがよりリッチでシステマティックな説明を生成するための、新しいタイプのデータセット(複数ステップの包含)とベースラインを提供するため、重要である。

Our goal, in the context of open-domain textual question-answering (QA), is to explain answers by not just listing supporting textual evidence ("rationales"), but also showing how such evidence leads to the answer in a systematic way. If this could be done, new opportunities for understanding and debugging the system's reasoning would become possible. Our approach is to generate explanations in the form of entailment trees, namely a tree of entailment steps from facts that are known, through intermediate conclusions, to the final answer. To train a model with this skill, we created ENTAILMENTBANK, the first dataset to contain multistep entailment trees. At each node in the tree (typically) two or more facts compose together to produce a new conclusion. Given a hypothesis (question + answer), we define three increasingly difficult explanation tasks: generate a valid entailment tree given (a) all relevant sentences (the leaves of the gold entailment tree), (b) all relevant and some irrelevant sentences, or (c) a corpus. We show that a strong language model only partially solves these tasks, and identify several new directions to improve performance. This work is significant as it provides a new type of dataset (multistep entailments) and baselines, offering a new avenue for the community to generate richer, more systematic explanations.
翻訳日:2021-04-20 14:43:39 公開日:2021-04-17
# 依存グラフを用いた質問分解

Question Decomposition with Dependency Graphs ( http://arxiv.org/abs/2104.08647v1 )

ライセンス: Link先を確認
Matan Hasson and Jonathan Berant(参考訳) QDMRは複雑な質問の意味表現であり、質問を一連の原子ステップに分解する。 最先端のQDMRパーサは共通のシーケンス・ツー・シーケンス(seq2seq)アプローチを用いるが、QDMR構造は入力問題におけるスパン間のラベル付き関係を根本的に記述し、従って依存性ベースのアプローチがこのタスクに適しているように見える。 本研究では,依存グラフ(DG)に基づくQDMRパーサを提案する。グラフ内のノードは単語であり,エッジは異なる計算ステップに対応する論理的関係を記述する。 a)すべてのグラフエッジが同時に計算される非回帰グラフパーサ,および(b)ゴールドグラフを補助監督として使用するseq2seqパーサを提案する。 グラフパーサは性能を緩やかに低下させる(0.47から0.44)が、パーサの非自己回帰性に起因する推論時間の16倍の高速化と、seq2seqモデルと比較してサンプルの複雑さが向上する。 第二に、補助グラフによって訓練されたseq2seqモデルは、seq2seqモデルよりも新しいドメインへのより良い一般化と、長い計算ステップのシーケンスを持つ問題に対するパフォーマンスの向上を実現している。

QDMR is a meaning representation for complex questions, which decomposes questions into a sequence of atomic steps. While state-of-the-art QDMR parsers use the common sequence-to-sequence (seq2seq) approach, a QDMR structure fundamentally describes labeled relations between spans in the input question, and thus dependency-based approaches seem appropriate for this task. In this work, we present a QDMR parser that is based on dependency graphs (DGs), where nodes in the graph are words and edges describe logical relations that correspond to the different computation steps. We propose (a) a non-autoregressive graph parser, where all graph edges are computed simultaneously, and (b) a seq2seq parser that uses gold graph as auxiliary supervision. We find that a graph parser leads to a moderate reduction in performance (0.47 to 0.44), but to a 16x speed-up in inference time due to the non-autoregressive nature of the parser, and to improved sample complexity compared to a seq2seq model. Second, a seq2seq model trained with auxiliary graph supervision has better generalization to new domains compared to a seq2seq model, and also performs better on questions with long sequences of computation steps.
翻訳日:2021-04-20 14:37:58 公開日:2021-04-17
# DiS-ReX:遠隔監視関係抽出のための多言語データセット

DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2104.08655v1 )

ライセンス: Link先を確認
Abhyuday Bhartiya, Kartikeya Badola, Mausam(参考訳) 遠隔監視(DS)は、人間のアノテーションを使わずに、関係抽出(RE)のための大規模データセットを作成するための確立された手法である。 しかし、DS-REの研究はほとんど英語に限られている。 単一言語へのreの制約は、より多様な事実の抽出を可能にする他の言語における大量のデータの利用を阻害する。 最近、多言語DS-RE用のデータセットがリリースされた。 しかし,本分析の結果から,1)関係を表現しない文の欠如,2)関係を正確に1つだけ表現するエンティティペアのすべての文など,非現実的な特徴が示された。 これらの特性がモデル性能の過大評価につながることを示す。 そこで我々は,これらの問題を緩和する新しいデータセットDiS-ReXを提案する。 私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。 また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。 競合するデータセットとは異なり、我々のデータセットは挑戦的であり、この分野で将来の研究を行う余地を残している。

Distant supervision (DS) is a well established technique for creating large-scale datasets for relation extraction (RE) without using human annotations. However, research in DS-RE has been mostly limited to the English language. Constraining RE to a single language inhibits utilization of large amounts of data in other languages which could allow extraction of more diverse facts. Very recently, a dataset for multilingual DS-RE has been released. However, our analysis reveals that the proposed dataset exhibits unrealistic characteristics such as 1) lack of sentences that do not express any relation, and 2) all sentences for a given entity pair expressing exactly one relation. We show that these characteristics lead to a gross overestimation of the model performance. In response, we propose a new dataset, DiS-ReX, which alleviates these issues. Our dataset has more than 1.5 million sentences, spanning across 4 languages with 36 relation classes + 1 no relation (NA) class. We also modify the widely used bag attention models by encoding sentences using mBERT and provide the first benchmark results on multilingual DS-RE. Unlike the competing dataset, we show that our dataset is challenging and leaves enough room for future research to take place in this field.
翻訳日:2021-04-20 14:37:34 公開日:2021-04-17
# 未知のユーティリティによる学習

Agnostic learning with unknown utilities ( http://arxiv.org/abs/2104.08482v1 )

ライセンス: Link先を確認
Kush Bhatia, Peter L. Bartlett, Anca D. Dragan, Jacob Steinhardt(参考訳) 分類のための伝統的な学習アプローチは、それぞれの誤りが同じコストを持つと暗黙的に仮定する。 しかし、現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。 しかしながら、これらのユーティリティを直接学習目的に組み込むことは、人間が指定するのが非常に複雑で難しいため、しばしば実現不可能である。 データセット $S = \{x_1, \ldots, x_n\}$ ここで各データポイント $x_i \sim \mathcal{D}$ が与えられた場合、学習者の目的は、あるクラスの決定関数$\mathcal{F}$ で関数 $f$ を出力することである。 このリスクは、未知のユーティリティ $u^*$ において、クラス $\mathcal{F}$ の最高の予測子に対して出力予測子 $f$ のパフォーマンスを測定する。 このユーティリティ $u^*$ は特定の構造を持たないと仮定される。 これは、有限個のサンプルからユーティリティ $u^*$ の一般化された推定を得ることができないことを考慮し、我々の設定で学習が可能かどうかという興味深い疑問を提起する。 驚いたことに、サンプルされた点のみのユーティリティの推定は、よく一般化された決定関数を学ぶのに$s$ sufficesである。 本研究は,学習者に対して,設定した$S$に対して$u^*$を推定できる情報抽出機構について検討する。 我々は、$k$-comparison oracleと呼ばれる比較を一般化することにより、学習者が一度に$k$異なる入力を$x$で比較できるようにする。 学習フレームワークの過剰なリスクは、$O\left(\frac{1}{k} \right)$で減少することを示す。 この結果、oracleの注文が1万ドル増えると、比較クエリは人間から引き出すのが難しくなりますが、より正確な学習を可能にします。

Traditional learning approaches for classification implicitly assume that each mistake has the same cost. In many real-world problems though, the utility of a decision depends on the underlying context $x$ and decision $y$. However, directly incorporating these utilities into the learning objective is often infeasible since these can be quite complex and difficult for humans to specify. We formally study this as agnostic learning with unknown utilities: given a dataset $S = \{x_1, \ldots, x_n\}$ where each data point $x_i \sim \mathcal{D}$, the objective of the learner is to output a function $f$ in some class of decision functions $\mathcal{F}$ with small excess risk. This risk measures the performance of the output predictor $f$ with respect to the best predictor in the class $\mathcal{F}$ on the unknown underlying utility $u^*$. This utility $u^*$ is not assumed to have any specific structure. This raises an interesting question whether learning is even possible in our setup, given that obtaining a generalizable estimate of utility $u^*$ might not be possible from finitely many samples. Surprisingly, we show that estimating the utilities of only the sampled points~$S$ suffices to learn a decision function which generalizes well. We study mechanisms for eliciting information which allow a learner to estimate the utilities $u^*$ on the set $S$. We introduce a family of elicitation mechanisms by generalizing comparisons, called the $k$-comparison oracle, which enables the learner to ask for comparisons across $k$ different inputs $x$ at once. We show that the excess risk in our agnostic learning framework decreases at a rate of $O\left(\frac{1}{k} \right)$. This result brings out an interesting accuracy-elicitation trade-off -- as the order $k$ of the oracle increases, the comparative queries become harder to elicit from humans but allow for more accurate learning.
翻訳日:2021-04-20 14:31:30 公開日:2021-04-17
# 不均衡データ分類のためのポテンシャルアンカリング

Potential Anchoring for imbalanced data classification ( http://arxiv.org/abs/2104.08548v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski(参考訳) データ不均衡は、現代の機械学習アルゴリズムのパフォーマンスに悪影響を及ぼす要因の1つである。 データ不均衡の負の影響を減らすための最も一般的なアプローチの1つは、元のデータセットをデータレベルの戦略で前処理することだ。 本稿では,不均衡なデータのオーバーサンプリングとアンダーサンプリングのための統一フレームワークを提案する。 提案手法は放射状基底関数を用いて,再サンプリング過程における基底クラス分布の原形を保存する。 これは、生成した合成観測の潜在的な類似性損失に対する位置を最適化することで達成される。 最後のAnchoringアルゴリズムは、提案したフレームワーク内でオーバーサンプリングとアンダーサンプリングを組み合わせる。 60個の不均衡データセットを用いて行った実験の結果は、放射基底関数を用いてクラスポテンシャルをモデル化する手法を含む最先端再サンプリングアルゴリズムに対するポテンシャルアンチョリングの性能を示す。 さらに,データ複雑度指数に基づく解析結果から,自然複雑度(自然複雑度)の処理に特に適している可能性が示唆された。 ノイズの存在に影響されない)データセット。

Data imbalance remains one of the factors negatively affecting the performance of contemporary machine learning algorithms. One of the most common approaches to reducing the negative impact of data imbalance is preprocessing the original dataset with data-level strategies. In this paper we propose a unified framework for imbalanced data over- and undersampling. The proposed approach utilizes radial basis functions to preserve the original shape of the underlying class distributions during the resampling process. This is done by optimizing the positions of generated synthetic observations with respect to the potential resemblance loss. The final Potential Anchoring algorithm combines over- and undersampling within the proposed framework. The results of the experiments conducted on 60 imbalanced datasets show outperformance of Potential Anchoring over state-of-the-art resampling algorithms, including previously proposed methods that utilize radial basis functions to model class potential. Furthermore, the results of the analysis based on the proposed data complexity index show that Potential Anchoring is particularly well suited for handling naturally complex (i.e. not affected by the presence of noise) datasets.
翻訳日:2021-04-20 14:30:56 公開日:2021-04-17
# 最適輸送を用いた半改良マルチモードマルチインスタンス・マルチラベルディープネットワーク

Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport ( http://arxiv.org/abs/2104.08489v1 )

ライセンス: Link先を確認
Yang Yang, Zhao-Yang Fu, De-Chuan Zhan, Zhi-Bin Liu, and Yuan Jiang(参考訳) 複雑なオブジェクトは通常、複数のラベルを持ち、複数のモーダル表現で表現することができる。 以前の方法では、均質なマルチモーダルデータは一貫性があり、実際のアプリケーションでは、生データは乱れ、例えば、記事は、不整合なテキストと画像インスタンスの可変数で構成される。 そのため、マルチモーダルマルチインスタンスマルチラベル(M3)学習は、そのようなタスクを扱うためのフレームワークを提供し、優れた性能を示した。 しかし、M3学習は、1)ラベル相関を効果的に活用する方法、2)ラベルのないインスタンスを処理するためにマルチモーダル学習を利用する方法の2つの主な課題に直面している。 そこで本研究では,m3学習をエンド・ツー・エンドのマルチモーダル深層ネットワークで考慮し,異なるモーダルバッグレベル予測の一貫性原理を生かしたマルチモーダルマルチインスタンス深層ネットワーク(m3dn)を提案する。 M3DNに基づいて、最適な輸送量を持つ潜在地層ラベルの計量を学習する。 さらに,非ラベル付きマルチモーダルマルチインスタンスデータを導入し,単一モダリティのインスタンスレベルのオートエンコーダとバッグレベルの最適化トランスポートを考慮したM3DNSを提案し,モダリティ間の整合性を高める。 これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。 ベンチマークデータセットと実世界のwkgゲームハブデータセットの実験は、提案手法の有効性を検証する。

Complex objects are usually with multiple labels, and can be represented by multiple modal representations, e.g., the complex articles contain text and image information as well as multiple annotations. Previous methods assume that the homogeneous multi-modal data are consistent, while in real applications, the raw data are disordered, e.g., the article constitutes with variable number of inconsistent text and image instances. Therefore, Multi-modal Multi-instance Multi-label (M3) learning provides a framework for handling such task and has exhibited excellent performance. However, M3 learning is facing two main challenges: 1) how to effectively utilize label correlation; 2) how to take advantage of multi-modal learning to process unlabeled instances. To solve these problems, we first propose a novel Multi-modal Multi-instance Multi-label Deep Network (M3DN), which considers M3 learning in an end-to-end multi-modal deep network and utilizes consistency principle among different modal bag-level predictions. Based on the M3DN, we learn the latent ground label metric with the optimal transport. Moreover, we introduce the extrinsic unlabeled multi-modal multi-instance data, and propose the M3DNS, which considers the instance-level auto-encoder for single modality and modified bag-level optimal transport to strengthen the consistency among modalities. Thereby M3DNS can better predict label and exploit label correlation simultaneously. Experiments on benchmark datasets and real world WKG Game-Hub dataset validate the effectiveness of the proposed methods.
翻訳日:2021-04-20 14:29:39 公開日:2021-04-17
# 支持ベクターマシンを用いた眼底自己蛍光画像に基づく眼疾患の効率的なスクリーニング

Efficient Screening of Diseased Eyes based on Fundus Autofluorescence Images using Support Vector Machine ( http://arxiv.org/abs/2104.08519v1 )

ライセンス: Link先を確認
Shanmukh Reddy Manne, Kiran Kumar Vupparaboina, Gowtham Chowdary Gudapati, Ram Anudeep Peddoju, Chandra Prakash Konkimalla, Abhilash Goud, Sarforaz Bin Bashar, Jay Chhablani, Soumya Jana(参考訳) 様々な視力障害は、眼窩領域の地理的萎縮(ga)と関連している。 現在の臨床実践では、眼科医は、眼底蛍光(FAF)画像に基づいて、そのようなGAの存在を手動で検出し、関連する場合は疾患を診断する。 しかし, 眼科医の眼科医の全般的不足, 特に遠隔地では, 専門医の時間と努力を医学的に重要な症例に向ける手法の開発が不可欠となる。 さらに、熟練眼科医の診察においてかなりの経済的・物理的障壁に直面している不利な背景や遠隔地からの被験者は、有害な状態が存在することを合理的に確信した後にのみ医学的注意を向ける傾向がある。 眼科医と潜在的な患者の双方の関心をひくため,健康眼と病気眼をアルゴリズム的に区別し,比較的多量の眼科医のみからの入力を限定的に行うスクリーニング段階を計画した。 具体的には、各faf画像上に早期治療型糖尿病網膜症研究(etdrs)グリッドを設置し、センタリー統計を自動的に収集する。 このような統計を特徴として、健康眼と病気眼を、利用可能な医療記録を用いてアルゴリズムを訓練することにより分類することを提案する。 本稿では,サポートベクトルマシン(SVM)の有効性を示す。 具体的には、線形かつラジアル基底関数(RBF)カーネルを持つSVMを考察し、両変数の良好な性能を観察する。 その中でも,分類精度(標準トレーニング対テスト比80:20では90.55%)と実用的クラス条件コストの観点から,後者を推奨する。

A variety of vision ailments are associated with geographic atrophy (GA) in the foveal region of the eye. In current clinical practice, the ophthalmologist manually detects potential presence of such GA based on fundus autofluorescence (FAF) images, and hence diagnoses the disease, when relevant. However, in view of the general scarcity of ophthalmologists relative to the large number of subjects seeking eyecare, especially in remote regions, it becomes imperative to develop methods to direct expert time and effort to medically significant cases. Further, subjects from either disadvantaged background or remote localities, who face considerable economic/physical barrier in consulting trained ophthalmologists, tend to seek medical attention only after being reasonably certain that an adverse condition exists. To serve the interest of both the ophthalmologist and the potential patient, we plan a screening step, where healthy and diseased eyes are algorithmically differentiated with limited input from only optometrists who are relatively more abundant in number. Specifically, an early treatment diabetic retinopathy study (ETDRS) grid is placed by an optometrist on each FAF image, based on which sectoral statistics are automatically collected. Using such statistics as features, healthy and diseased eyes are proposed to be classified by training an algorithm using available medical records. In this connection, we demonstrate the efficacy of support vector machines (SVM). Specifically, we consider SVM with linear as well as radial basis function (RBF) kernel, and observe satisfactory performance of both variants. Among those, we recommend the latter in view of its slight superiority in terms of classification accuracy (90.55% at a standard training-to-test ratio of 80:20), and practical class-conditional costs.
翻訳日:2021-04-20 14:29:11 公開日:2021-04-17
# 増分学習のための測地経路の学習について

On Learning the Geodesic Path for Incremental Learning ( http://arxiv.org/abs/2104.08572v1 )

ライセンス: Link先を確認
Christian Simon, Piotr Koniusz, Mehrtash Harandi(参考訳) ニューラルネットワークは、破滅的な忘れ忘れという問題、すなわち新しい知識を得る際に過去の知識を忘れてしまう現象に悩まされている。 破滅的な忘れを克服することは、モデルが逐次的な経験から効率的で堅牢な方法で学習できる"インクリメンタル学習"のプロセスをエミュレートする上で非常に重要である。 漸進的な学習のための最先端技術は、破滅的な忘れ込みを防ぐために知識蒸留を利用する。 これにより、ネットワークが以前見た概念に対する応答が更新を通して安定し続けることを保証しながら、ネットワークを更新する。 これは、ネットワークの現在の応答と以前の応答との相違を最小限にすることで実現される。 本研究は, 蒸留技術に新たな方法をもたらすものである。 先行技術とは対照的に, 先行および現在応答のための低次元多様体をまず構築し, 多様体を接続する測地線に沿った応答の不一致を最小限に抑えることを提案する。 これにより, 過去の知識をより効率的に保存できる, スムーズな性質を持つ, より強い知識蒸留がもたらされる。

Neural networks notoriously suffer from the problem of catastrophic forgetting, the phenomenon of forgetting the past knowledge when acquiring new knowledge. Overcoming catastrophic forgetting is of significant importance to emulate the process of "incremental learning", where the model is capable of learning from sequential experience in an efficient and robust way. State-of-the-art techniques for incremental learning make use of knowledge distillation towards preventing catastrophic forgetting. Therein, one updates the network while ensuring that the network's responses to previously seen concepts remain stable throughout updates. This in practice is done by minimizing the dissimilarity between current and previous responses of the network one way or another. Our work contributes a novel method to the arsenal of distillation techniques. In contrast to the previous state of the art, we propose to firstly construct low-dimensional manifolds for previous and current responses and minimize the dissimilarity between the responses along the geodesic connecting the manifolds. This induces a more formidable knowledge distillation with smooth properties which preserves the past knowledge more efficiently as observed by our comprehensive empirical study.
翻訳日:2021-04-20 14:28:40 公開日:2021-04-17
# コントラスト型自己監督表現学習による色彩変数の同定

Color Variants Identification via Contrastive Self-Supervised Representation Learning ( http://arxiv.org/abs/2104.08581v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Sandeep Repakula, Maulik Parmar, Abhinav Ravi(参考訳) 本稿では,カラーバリエーションの識別問題に対処するために,深部視覚表現学習を利用する。 特に,ファッション製品におけるカラーバリエーションの識別には,デザイン(あるいはスタイル)に正確にマッチするファッション商品を識別する問題に言及するが,その色の違いにのみ対処する。 まず,2つの製品がカラー変種であるか否かを手動で記述することで,この問題を解決する。 このようなアノテーションを得て、三重項損失に基づくニューラルネットワークモデルをトレーニングし、ファッション製品の深い表現を学ぶ。 しかし,本論文のような大規模実世界の産業データセットでは,データセット全体のアノテーションを得ることは不可能である。 そこで我々は,自己指導型学習を用いて表現を得る方法を探究する。 我々は,既存の最先端自己監督手法は,カラー変種モデルの教師バージョンと競合しないことを示した。 これに対処するために,新しいコントラスト損失に基づく自己教師付き色変種モデルを提案する。 直感的には、我々のモデルは、既存の方法でデータ拡張に使われるランダムな作物ではなく、固定された方法でオブジェクトの異なる部分に焦点を当てる。 本手法は,既存の自己監督手法よりも優れていることを示すため,定量的かつ定性的に評価し,時には教師付きモデルも評価する。

In this paper, we utilize deep visual Representation Learning to address the problem of identification of color variants. In particular, we address color variants identification in fashion products, which refers to the problem of identifying fashion products that match exactly in their design (or style), but only to differ in their color. Firstly, we solve this problem by obtaining manual annotations depicting whether two products are color variants. Having obtained such annotations, we train a triplet loss based neural network model to learn deep representations of fashion products. However, for large scale real-world industrial datasets such as addressed in our paper, it is infeasible to obtain annotations for the entire dataset. Hence, we rather explore the use of self-supervised learning to obtain the representations. We observed that existing state-of-the-art self-supervised methods do not perform competitive against the supervised version of our color variants model. To address this, we additionally propose a novel contrastive loss based self-supervised color variants model. Intuitively, our model focuses on different parts of an object in a fixed manner, rather than focusing on random crops typically used for data augmentation in existing methods. We evaluate our method both quantitatively and qualitatively to show that it outperforms existing self-supervised methods, and at times, the supervised model as well.
翻訳日:2021-04-20 14:28:22 公開日:2021-04-17
# ScaleFreeCTR:大規模埋め込みテーブルを用いたCTRモデルの混合キャッシュ型分散トレーニングシステム

ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table ( http://arxiv.org/abs/2104.08542v1 )

ライセンス: Link先を確認
Huifeng Guo, Wei Guo, Yong Gao, Ruiming Tang, Xiuqiang He, Wenzhi Liu(参考訳) 深層学習の優れた特徴表現能力のため、様々な深部クリックスルーレート(CTR)モデルが工業企業によって商業システムに展開されている。 より優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的にトレーニングする必要があるため、トレーニングプロセスの高速化が不可欠である。 密集したトレーニングデータを持つモデルとは異なり、CTRモデルのトレーニングデータは通常、高次元かつ疎らである。 高次元のスパース入力を低次元の高密度実値ベクトルに変換するため、ほとんどの深部CTRモデルは埋め込み層を採用しており、数百 GB や TB にも達する。 単一のGPUは、すべての埋め込みパラメータに対応できないため、分散トレーニングを行う場合、データ並列化のみを実行するのは合理的ではない。 そのため、既存の分散トレーニングプラットフォームではモデル並列化を採用している。 具体的には、組み込みパラメータの維持と更新にサーバのcpu(ホスト)メモリを使用し、gpu workerを使用して前方および後方の計算を行う。 残念ながらこれらのプラットフォームには2つのボトルネックがある。(1)ホストとgpu間のpull \&push操作のレイテンシ、(2)cpuサーバにおけるパラメータの更新と同期。 このようなボトルネックに対処するために,本論文では,CTRモデルのためのMixCacheベースの分散トレーニングシステムであるScaleFreeCTRを提案する。 具体的には、SFCTRでは、CPUに巨大な埋め込みテーブルを格納するが、CPUの代わりにGPUを使用して効率よく埋め込み同期を行う。 GPU-HostとGPU-GPU間のデータ転送のレイテンシを低減するため、MixCache機構とVirtual Sparse Id演算を提案する。 総合的な実験とアブレーション実験を行い,SFCTRの有効性と効率を実証した。

Because of the superior feature representation ability of deep learning, various deep Click-Through Rate (CTR) models are deployed in the commercial systems by industrial companies. To achieve better performance, it is necessary to train the deep CTR models on huge volume of training data efficiently, which makes speeding up the training process an essential problem. Different from the models with dense training data, the training data for CTR models is usually high-dimensional and sparse. To transform the high-dimensional sparse input into low-dimensional dense real-value vectors, almost all deep CTR models adopt the embedding layer, which easily reaches hundreds of GB or even TB. Since a single GPU cannot afford to accommodate all the embedding parameters, when performing distributed training, it is not reasonable to conduct the data-parallelism only. Therefore, existing distributed training platforms for recommendation adopt model-parallelism. Specifically, they use CPU (Host) memory of servers to maintain and update the embedding parameters and utilize GPU worker to conduct forward and backward computations. Unfortunately, these platforms suffer from two bottlenecks: (1) the latency of pull \& push operations between Host and GPU; (2) parameters update and synchronization in the CPU servers. To address such bottlenecks, in this paper, we propose the ScaleFreeCTR: a MixCache-based distributed training system for CTR models. Specifically, in SFCTR, we also store huge embedding table in CPU but utilize GPU instead of CPU to conduct embedding synchronization efficiently. To reduce the latency of data transfer between both GPU-Host and GPU-GPU, the MixCache mechanism and Virtual Sparse Id operation are proposed. Comprehensive experiments and ablation studies are conducted to demonstrate the effectiveness and efficiency of SFCTR.
翻訳日:2021-04-20 14:23:56 公開日:2021-04-17
# 簡易データ拡張手法による完全テキスト依存型終末誤字検出と診断

A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques ( http://arxiv.org/abs/2104.08428v1 )

ライセンス: Link先を確認
Kaiqi Fu and Jones Lin and Dengfeng Ke and Yanlu Xie and Jinsong Zhang and Binghuai Lin(参考訳) 近年,複雑なモジュールを1つのディープネットワークアーキテクチャで表現することで,従来のハイブリッドDNN-HMMシステムのモデル構築プロセスを大幅に単純化する手段として,MD&Dシステムが人気となっている。 本稿では,本モデルにおける先行文を,sed-mddと異なるテキスト依存モデルとして,モデル内の先行文の音素列にアテンション機構を通した完全エンドツーエンドシステムを実現する。 さらに、入力としての先行テキストは、音素配列における正と負のサンプルの不均衡の問題となる。 そこで本研究では,この問題を解決するために,誤発音音素を効果的に捕捉するモデルの能力を向上させる3つの簡易データ拡張手法を提案する。 CNN-RNN-CTCモデルと比較して,L2-ARCTICの実験を行い,F測定値の49.29%から56.08%に改善した。

Recently, end-to-end mispronunciation detection and diagnosis (MD&D) systems has become a popular alternative to greatly simplify the model-building process of conventional hybrid DNN-HMM systems by representing complicated modules with a single deep network architecture. In this paper, in order to utilize the prior text in the end-to-end structure, we present a novel text-dependent model which is difference with sed-mdd, the model achieves a fully end-to-end system by aligning the audio with the phoneme sequences of the prior text inside the model through the attention mechanism. Moreover, the prior text as input will be a problem of imbalance between positive and negative samples in the phoneme sequence. To alleviate this problem, we propose three simple data augmentation methods, which effectively improve the ability of model to capture mispronounced phonemes. We conduct experiments on L2-ARCTIC, and our best performance improved from 49.29% to 56.08% in F-measure metric compared to the CNN-RNN-CTC model.
翻訳日:2021-04-20 14:16:42 公開日:2021-04-17
# 長期臨床文書分類のための階層型トランスネットワーク

Hierarchical Transformer Networks for Longitudinal Clinical Document Classification ( http://arxiv.org/abs/2104.08444v1 )

ライセンス: Link先を確認
Yuqi Si and Kirk Roberts(参考訳) 本稿では,患者レベルの予測を目的とした長期依存関係モデリングのための階層型トランスフォーマーネットワークを提案する。 このネットワークは、3段階のトランスフォーマーベースのエンコーダを備えており、単語から文、文から音まで徐々に学習し、最終的に患者に注記する。 単語から文への第1レベルは事前訓練されたbertモデルを直接適用し、第2レベルと第3レベルは2層エンコーダのスタックを実装し、最終患者表現は臨床予測のために分類層に供給される。 従来のBERTモデルと比較して,本モデルでは, 512語から, 長い臨床書面列に適した長いシーケンスへと, 最大入力長を増大させる。 計算資源限界の最適トレードオフを特定するために,異なるパラメータを用いて実験を行った。 予測タスクが異なるMIMIC-IIIデータセットに対する実験結果から,提案した階層モデルが従来の階層型ニューラルネットワークより優れていることが示された。

We present the Hierarchical Transformer Networks for modeling long-term dependencies across clinical notes for the purpose of patient-level prediction. The network is equipped with three levels of Transformer-based encoders to learn progressively from words to sentences, sentences to notes, and finally notes to patients. The first level from word to sentence directly applies a pre-trained BERT model, and the second and third levels both implement a stack of 2-layer encoders before the final patient representation is fed into the classification layer for clinical predictions. Compared to traditional BERT models, our model increases the maximum input length from 512 words to much longer sequences that are appropriate for long sequences of clinical notes. We empirically examine and experiment with different parameters to identify an optimal trade-off given computational resource limits. Our experimental results on the MIMIC-III dataset for different prediction tasks demonstrate that our proposed hierarchical model outperforms previous state-of-the-art hierarchical neural networks.
翻訳日:2021-04-20 14:16:23 公開日:2021-04-17
# テキスト分類のためのデータ蒸留

Data Distillation for Text Classification ( http://arxiv.org/abs/2104.08448v1 )

ライセンス: Link先を確認
Yongqi Li, Wenjie Li(参考訳) ディープラーニングのテクニックは多くの分野で大きな成功を収めている一方、ディープラーニングモデルは計算の複雑さとコストが増している。 これはこれらのモデルの幅広い応用を妨げる。 この問題を緩和するために, モデル蒸留は, 精度を著しく低下させることなく, より小さなモデルに圧縮する有効な方法として現れる。 本稿では,大規模学習データセットからより小型で合成的なデータへの知識の抽出を目的としたデータ蒸留について検討する。 小さなデータセットに基づいて、大規模で成長するニューラルネットワークトレーニング問題に対処する可能性がある。 テキスト分類のための新しいデータ蒸留法を開発した。 提案手法を8つのベンチマークデータセットで評価する。 その結果、原文データの0.1%の大きさの蒸留データが、原文の約90%のパフォーマンスを達成することは、かなり印象的である。

Deep learning techniques have achieved great success in many fields, while at the same time deep learning models are getting more complex and expensive to compute. It severely hinders the wide applications of these models. In order to alleviate this problem, model distillation emerges as an effective means to compress a large model into a smaller one without a significant drop in accuracy. In this paper, we study a related but orthogonal issue, data distillation, which aims to distill the knowledge from a large training dataset down to a smaller and synthetic one. It has the potential to address the large and growing neural network training problem based on the small dataset. We develop a novel data distillation method for text classification. We evaluate our method on eight benchmark datasets. The results that the distilled data with the size of 0.1% of the original text data achieves approximately 90% performance of the original is rather impressive.
翻訳日:2021-04-20 14:16:08 公開日:2021-04-17
# 文書き換えサンプリングによるテキスト分類器の攻撃

Attacking Text Classifiers via Sentence Rewriting Sampler ( http://arxiv.org/abs/2104.08453v1 )

ライセンス: Link先を確認
Lei Xu, Kalyan Veeramachaneni(参考訳) テキスト分類におけるほとんどの逆攻撃方法は、少数の単語や文字を変更することで分類器の予測を変更するように設計されている。 文レベルの再現に固有の困難と、高い意味的類似性と文の品質を維持する問題のために、文全体を書き換えることで分類器を攻撃しようとする試みはほとんどない。 この問題に対処するため、我々は意味のある文を条件付きで生成できる汎用文書き換えサンプリング(SRS)フレームワークを設計する。 次に、SRSをカスタマイズしてテキスト分類モデルを攻撃する。 本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。 実験の結果,これらの書き換え文の多くは分類器によって誤分類されていることがわかった。 提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。

Most adversarial attack methods on text classification are designed to change the classifier's prediction by modifying few words or characters. Few try to attack classifiers by rewriting a whole sentence, due to the difficulties inherent in sentence-level rephrasing and the problem of maintaining high semantic similarity and sentence quality. To tackle this problem, we design a general sentence rewriting sampler (SRS) framework, which can conditionally generate meaningful sentences. Then we customize SRS to attack text classification models. Our method can effectively rewrite the original sentence in multiple ways while maintaining high semantic similarity and good sentence quality. Experimental results show that many of these rewritten sentences are misclassified by the classifier. Our method achieves a better attack success rate on 4 out of 7 datasets, as well as significantly better sentence quality on all 7 datasets.
翻訳日:2021-04-20 14:15:55 公開日:2021-04-17
# ニューラルパスハンター:経路接地による対話システムにおける幻覚の低減

Neural Path Hunter: Reducing Hallucination in Dialogue Systems via Path Grounding ( http://arxiv.org/abs/2104.08455v1 )

ライセンス: Link先を確認
Nouha Dziri, Andrea Madotto, Osmar Zaiane, Avishek Joey Bose(参考訳) 大規模事前学習型言語モデル(lm)を用いた対話システムは、自然に流れるような応答を提供する。 印象的な世代パフォーマンスにもかかわらず、これらのモデルはしばしば、その普及を妨げている事実的に誤ったステートメントを生成する。 本稿では,知識グラフ(KG)によって提供される既知の事実に対して,ニューラル対話システムの忠実さを向上し,幻覚を低減することに焦点を当てる。 そこで我々は,KGのk-hopサブグラフを用いて,生成した応答を補正する生成-then-refine戦略に従うニューラルパスハンターを提案する。 Neural Path Hunterは別のトークンレベルの事実批判を利用して幻覚のもっともらしい源を識別し、その後k-hopサブグラフ上に伝播するクエリ信号を作成して正しいエンティティを検索する2つのニューラルLMの連鎖からなる洗練段階が続く。 提案モデルは,モデルを再トレーニングすることなく,任意の対話生成応答に容易に適用できる。 我々は,OpenDialKGデータセットに対する提案手法を一連の指標に対して実証的に検証し,GPT2対話応答に対する信頼度を8.4%向上させたことを報告した。

Dialogue systems powered by large pre-trained language models (LM) exhibit an innate ability to deliver fluent and natural-looking responses. Despite their impressive generation performance, these models can often generate factually incorrect statements impeding their widespread adoption. In this paper, we focus on the task of improving the faithfulness -- and thus reduce hallucination -- of Neural Dialogue Systems to known facts supplied by a Knowledge Graph (KG). We propose Neural Path Hunter which follows a generate-then-refine strategy whereby a generated response is amended using the k-hop subgraph of a KG. Neural Path Hunter leverages a separate token-level fact critic to identify plausible sources of hallucination followed by a refinement stage consisting of a chain of two neural LM's that retrieves correct entities by crafting a query signal that is propagated over the k-hop subgraph. Our proposed model can easily be applied to any dialogue generated responses without retraining the model. We empirically validate our proposed approach on the OpenDialKG dataset against a suite of metrics and report a relative improvement of faithfulness over GPT2 dialogue responses by 8.4%.
翻訳日:2021-04-20 14:15:41 公開日:2021-04-17
# OntoNotesからの移行:Coreference Resolution Model Transfer

Moving on from OntoNotes: Coreference Resolution Model Transfer ( http://arxiv.org/abs/2104.08457v1 )

ライセンス: Link先を確認
Patrick Xia, Benjamin Van Durme(参考訳) コリファレンス解決のための学術ニューラルモデルは通常、単一のデータセット(オンノート)でトレーニングされ、モデルの改善はそのデータセット上でベンチマークされる。 しかし、コア参照解決モデルの実際の使用はアノテーションガイドラインとターゲットデータセットのドメインに依存しており、OntoNotesとはしばしば異なる。 対象とするデータセットで利用可能な注釈付き文書の数に基づいて,コリファレンス解決モデルの転送可能性の定量化を目標とする。 対象とする5つのデータセットを調査し,目標文書が少ない場合には,継続トレーニングが一貫して有効であり,特に有益であることを確認した。 LitBankとPreCoの最先端の結果を含む、いくつかのデータセットにまたがる新たなベンチマークを確立します。

Academic neural models for coreference resolution are typically trained on a single dataset (OntoNotes) and model improvements are then benchmarked on that dataset. However, real-world usages of coreference resolution models depend on the annotation guidelines and the domain of the target dataset, which often differ from those of OntoNotes. We aim to quantify transferability of coreference resolution models based on the number of annotated documents available in the target dataset. We examine five target datasets and find that continued training is consistently effective and especially beneficial when there are few target documents. We establish new benchmarks across several datasets, including state-of-the-art results on LitBank and PreCo.
翻訳日:2021-04-20 14:15:20 公開日:2021-04-17
# 構文構造と一般マルコフモデル

Syntactic structures and the general Markov models ( http://arxiv.org/abs/2104.08462v1 )

ライセンス: Link先を確認
Sitanshu Gakkhar, Matilde Marcolli(参考訳) さらに,Longobardi (2017b), Collins (2010), Ceolin et al の構文構造データの研究も行っている。 (2020) と Koopman (2011) は Shu et al で開始された一般マルコフモデルを用いている。 一般的なマルコフモデル(markov model)とは、データの一貫性に関する問題である。 本論文で検討したアイデアは,構文構造の設定よりも広く適用可能であり,一般的なマルコフモデルを用いたデータの一貫性解析に使用できる。 さらに、我々はCeolin et alの方法の解釈を行う。 (2020) を無限サイト進化モデルとしてマルコフモデルと比較し, 人間の言語構文に作用する進化過程の文脈において, それぞれを探索した。

We further the theme of studying syntactic structures data from Longobardi (2017b), Collins (2010), Ceolin et al. (2020) and Koopman (2011) using general Markov models initiated in Shu et al. (2017), exploring the question of how consistent the data is with the idea that general Markov models. The ideas explored in the present paper are more generally applicable than to the setting of syntactic structures, and can be used when analyzing consistency of data with general Markov models. Additionally, we give an interpretation of the methods of Ceolin et al. (2020) as an infinite sites evolutionary model and compare it to the Markov model and explore each in the context of evolutionary processes acting on human language syntax.
翻訳日:2021-04-20 14:15:10 公開日:2021-04-17
# 文脈化単語埋め込みにおける周波数に基づく歪み

Frequency-based Distortions in Contextualized Word Embeddings ( http://arxiv.org/abs/2104.08465v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky(参考訳) 事前学習データにおける単語頻度は、コンテキスト化BERT埋め込みにおける類似度指標の挙動にどのように影響するか? ある単語の関係が誇張されたり、過小評価されたりする体系的な方法はありますか? 本研究では,(1)単語の埋め込みによる同一性を予測する識別プローブ,(2)単語の文脈化表現に対する最小境界球面,という2つの新しいツールを用いて,文脈化単語埋め込みの幾何学的特徴を探索する。 その結果, 高頻度・低頻度の単語は表現幾何学的に大きく異なることがわかった。 人間の判断と比較すると、埋め込み類似性(例えばコサイン類似性)のポイント推定は、トレーニングデータ内の単語の頻度に応じて、2つの単語の意味的類似性を過小評価することができる。 BERT-Baseは北米やヨーロッパよりも南アメリカとアフリカ諸国の差別化が難しい。 これらの歪みは, bert-multilingual を用いた場合も持続することが明らかとなり, 追加データでは容易に修正できないことが示唆された。

How does word frequency in pre-training data affect the behavior of similarity metrics in contextualized BERT embeddings? Are there systematic ways in which some word relationships are exaggerated or understated? In this work, we explore the geometric characteristics of contextualized word embeddings with two novel tools: (1) an identity probe that predicts the identity of a word using its embedding; (2) the minimal bounding sphere for a word's contextualized representations. Our results reveal that words of high and low frequency differ significantly with respect to their representational geometry. Such differences introduce distortions: when compared to human judgments, point estimates of embedding similarity (e.g., cosine similarity) can over- or under-estimate the semantic similarity of two words, depending on the frequency of those words in the training data. This has downstream societal implications: BERT-Base has more trouble differentiating between South American and African countries than North American and European ones. We find that these distortions persist when using BERT-Multilingual, suggesting that they cannot be easily fixed with additional data, which in turn introduces new distortions.
翻訳日:2021-04-20 14:14:57 公開日:2021-04-17
# 多ドメイン感情分類のための非共有性マスキングによる共有学習

Learning to Share by Masking the Non-shared for Multi-domain Sentiment Classification ( http://arxiv.org/abs/2104.08480v1 )

ライセンス: Link先を確認
Jianhua Yuan, Yanyan Zhao, Bing Qin, Ting Liu(参考訳) マルチドメインの感情分類は、複数のドメインにラベル付きデータが存在するが、ドメイン間で機能する効果的な感情分類器のトレーニングには不十分なシナリオを扱う。 したがって、ドメイン間で共有される感情知識を完全に活用することは、現実世界のアプリケーションにとって重要である。 既存の多くの作品は高次元空間でドメイン不変な特徴を抽出しようとするが、そのようなモデルはテキストレベルで共有特徴とプライベート特徴を明確に区別することができない。 テキストからドメイン関連トークンを削除することがドメイン非分散を改善するのに役立つという仮定に基づいて、まずオリジナルの文をドメイン非依存に変換します。 この目的のために,テキストからドメイン関連語を明示的にマスキングし,これらのドメインに依存しないテキストからドメイン不変感の特徴を学習するBertMaskerネットワークを提案する。 精度を0.94%, 精度を1.8%向上させることで, マルチドメイン感情分類とクロスドメイン設定の両方において, 提案モデルの有効性を実証した。 マスキングに関するさらなる分析は、これらのドメイン関連および感情非関連トークンを削除することで、テキストのドメインの区別が減少し、BERTベースのドメイン分類器のパフォーマンスが12%以上低下することを示した。

Multi-domain sentiment classification deals with the scenario where labeled data exists for multiple domains but insufficient for training effective sentiment classifiers that work across domains. Thus, fully exploiting sentiment knowledge shared across domains is crucial for real world applications. While many existing works try to extract domain-invariant features in high-dimensional space, such models fail to explicitly distinguish between shared and private features at text-level, which to some extent lacks interpretablity. Based on the assumption that removing domain-related tokens from texts would help improve their domain-invariance, we instead first transform original sentences to be domain-agnostic. To this end, we propose the BertMasker network which explicitly masks domain-related words from texts, learns domain-invariant sentiment features from these domain-agnostic texts, and uses those masked words to form domain-aware sentence representations. Empirical experiments on a well-adopted multiple domain sentiment classification dataset demonstrate the effectiveness of our proposed model on both multi-domain sentiment classification and cross-domain settings, by increasing the accuracy by 0.94% and 1.8% respectively. Further analysis on masking proves that removing those domain-related and sentiment irrelevant tokens decreases texts' domain distinction, resulting in the performance degradation of a BERT-based domain classifier by over 12%.
翻訳日:2021-04-20 14:14:37 公開日:2021-04-17
# ファウショット関係分類の再検討:評価データと分類方式

Revisiting Few-shot Relation Classification: Evaluation Data and Classification Schemes ( http://arxiv.org/abs/2104.08481v1 )

ライセンス: Link先を確認
Ofer Sabo, Yanai Elazar, Yoav Goldberg, Ido Dagan(参考訳) 関係分類のためのFSL(Few-Shot Learning)について検討する。 FSLの現実的なシナリオに着目して、テストインスタンスがターゲットカテゴリのどれにも属さない場合(つまりNOTA)、FSLの最近の一般的なデータセット構造を再検討し、非現実的なデータ分布を指摘する。 そこで本研究では,教師付きRCデータセットから,より現実的な数ショットテストデータを抽出し,TACREDデータセットに適用する手法を提案する。 これにより、FSL RCの新たな挑戦的なベンチマークが得られ、その上で、アートモデルの状態はパフォーマンスの低下を示している。 次に、埋め込み空間に課せられる制約に関して、FSLの一般的な埋め込みに基づく最も近い隣り合うアプローチの分類スキームを分析する。 そこで本研究では,NOTAカテゴリを学習ベクトルとして表現する新たな分類手法を提案する。

We explore Few-Shot Learning (FSL) for Relation Classification (RC). Focusing on the realistic scenario of FSL, in which a test instance might not belong to any of the target categories (none-of-the-above, aka NOTA), we first revisit the recent popular dataset structure for FSL, pointing out its unrealistic data distribution. To remedy this, we propose a novel methodology for deriving more realistic few-shot test data from available datasets for supervised RC, and apply it to the TACRED dataset. This yields a new challenging benchmark for FSL RC, on which state of the art models show poor performance. Next, we analyze classification schemes within the popular embedding-based nearest-neighbor approach for FSL, with respect to constraints they impose on the embedding space. Triggered by this analysis we propose a novel classification scheme, in which the NOTA category is represented as learned vectors, shown empirically to be an appealing option for FSL.
翻訳日:2021-04-20 14:14:14 公開日:2021-04-17
# 自発L2音声の言語的複雑度とソフィケーションの自動解析におけるASRの影響

The Impact of ASR on the Automatic Analysis of Linguistic Complexity and Sophistication in Spontaneous L2 Speech ( http://arxiv.org/abs/2104.08529v1 )

ライセンス: Link先を確認
Yu Qiao, Zhou Wei, Elma Kerz, Ralf Schl\"uter(参考訳) 近年,第2言語(L2)書記における言語複雑性の自動評価手法は,学習者のパフォーマンス向上,学習者の品質評価,L2開発ベンチマークにおいて大きな進歩を遂げている。 対照的に、特にL2自然発話を評価するための完全自動化アプローチに関して、話の領域では比較的少ない。 高性能asrシステムの重要性は広く認識されているが、その性能がその後の自動テキスト解析に与える影響についての研究はほとんど行われていない。 本稿では,この課題に焦点をあて,自然発生L2音声における言語的複雑性の自動解析に最先端のASRシステムを用いることによる影響を検討する。 選択された34の尺度は, 統語, 語彙, n-gram, 情報理論の4つのカテゴリーに分類された。 相関分析により,ASR生成と手書きの転写に基づいて得られた測定値の一致を決定した。 また,タスクタイプの効果を制御する場合,ASR性能が特定の種類の複雑性測定に与える影響についても述べる。

In recent years, automated approaches to assessing linguistic complexity in second language (L2) writing have made significant progress in gauging learner performance, predicting human ratings of the quality of learner productions, and benchmarking L2 development. In contrast, there is comparatively little work in the area of speaking, particularly with respect to fully automated approaches to assessing L2 spontaneous speech. While the importance of a well-performing ASR system is widely recognized, little research has been conducted to investigate the impact of its performance on subsequent automatic text analysis. In this paper, we focus on this issue and examine the impact of using a state-of-the-art ASR system for subsequent automatic analysis of linguistic complexity in spontaneously produced L2 speech. A set of 34 selected measures were considered, falling into four categories: syntactic, lexical, n-gram frequency, and information-theoretic measures. The agreement between the scores for these measures obtained on the basis of ASR-generated vs. manual transcriptions was determined through correlation analysis. A more differential effect of ASR performance on specific types of complexity measures when controlling for task type effects is also presented.
翻訳日:2021-04-20 14:13:54 公開日:2021-04-17
# 適応組込みによる危機時のドリフト対策

Combating Temporal Drift in Crisis with Adapted Embeddings ( http://arxiv.org/abs/2104.08535v1 )

ライセンス: Link先を確認
Kevin Stowe, Iryna Gurevych(参考訳) 言語の使用は時間とともに変化し、NLPシステムの有効性に影響を与える可能性がある。 本研究は危機時の言論変化に対応する方法を検討する。 危機時のソーシャルメディアデータについて検討し,効果的な時間に敏感な手法が求められている。 目的とする言語モデルの学習に未ラベルのデータを使用する時間事前学習と,意味的変化を解析するためのツールに基づく埋め込みシフトモデルという,2つの異なる手法を実験的に検討した。 このシフトにより、言語変化の観測パターンに基づいて、入力データを正規化することで、時間的ドリフトに対処できる。 ラベル付きデータにアクセスできないシナリオをシミュレートし、これらの手法の有効性を様々な危機に対して示し、データセット間の関連分類において最大8.0 F1スコアのパフォーマンスを向上させることを示す。

Language usage changes over time, and this can impact the effectiveness of NLP systems. This work investigates methods for adapting to changing discourse during crisis events. We explore social media data during crisis, for which effective, time-sensitive methods are necessary. We experiment with two separate methods to accommodate changing data: temporal pretraining, which uses unlabeled data for the target time periods to train better language models, and a model of embedding shift based on tools for analyzing semantic change. This shift allows us to counteract temporal drift by normalizing incoming data based on observed patterns of language change. Simulating scenarios in which we lack access to incoming labeled data, we demonstrate the effectiveness of these methods for a wide variety of crises, showing we can improve performance by up to 8.0 F1 score for relevance classification across datasets.
翻訳日:2021-04-20 14:13:37 公開日:2021-04-17
# 会話カオスの交差:多言語タスク指向対話システムにおける素数

Crossing the Conversational Chasm: A Primer on Multilingual Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2104.08570v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Goran Glava\v{s}, Olga Majewska, Anna Korhonen, Ivan Vuli\'c(参考訳) 自然言語と機械との会話がAIの中心的な目的の1つであり、会話型AIにおける研究・開発努力の膨大な増加にもかかわらず、タスク指向対話(ToD) - すなわち、具体的なタスクを完了しようとする人工知能エージェントとの会話 - は現在、限られた領域(食品注文、チケット予約など)といくつかの主要言語(例えば、英語、中国語)に限定されている。 本稿では,多言語ToDにおける既存の取り組みを概観し,真に多言語ToDシステムの開発を妨げる要因を解析する。 1) 大規模な事前訓練されたニューラルネットワークモデルに基づく現在の最先端のToDモデルは、データ空腹である; 同時に、(2) ToDのユースケースのためのデータ取得は高価で面倒である。 したがって、Multilingual ToD への既存のアプローチは、リソース豊富な言語(ToD では、基本的には英語のみ)からの(ゼロまたは少数ショットの)クロスリンガル変換に依存しており、これは (i) 機械翻訳または (ii) マルチリンガル表現空間によって行われる。 しかし、そのようなアプローチは、並列データや限定的な単言語コーパスを持たない多数の低リソース言語にとって、現在実現可能なソリューションではない。 最後に, tod と他の言語間および多言語間nlp研究との並列性を引き出すことにより, 課題と潜在的な解決策について論じる。

Despite the fact that natural language conversations with machines represent one of the central objectives of AI, and despite the massive increase of research and development efforts in conversational AI, task-oriented dialogue (ToD) -- i.e., conversations with an artificial agent with the aim of completing a concrete task -- is currently limited to a few narrow domains (e.g., food ordering, ticket booking) and a handful of major languages (e.g., English, Chinese). In this work, we provide an extensive overview of existing efforts in multilingual ToD and analyse the factors preventing the development of truly multilingual ToD systems. We identify two main challenges that combined hinder the faster progress in multilingual ToD: (1) current state-of-the-art ToD models based on large pretrained neural language models are data hungry; at the same time (2) data acquisition for ToD use cases is expensive and tedious. Most existing approaches to multilingual ToD thus rely on (zero- or few-shot) cross-lingual transfer from resource-rich languages (in ToD, this is basically only English), either by means of (i) machine translation or (ii) multilingual representation spaces. However, such approaches are currently not a viable solution for a large number of low-resource languages without parallel data and/or limited monolingual corpora. Finally, we discuss critical challenges and potential solutions by drawing parallels between ToD and other cross-lingual and multilingual NLP research.
翻訳日:2021-04-20 14:13:24 公開日:2021-04-17
# 平行文書による文のアライメントは生体機械翻訳に役立つ

Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation ( http://arxiv.org/abs/2104.08588v1 )

ライセンス: Link先を確認
Shengxuan Luo, Huaiyuan Ying, Sheng Yu(参考訳) 既存のニューラルマシン翻訳システムは、一部の言語では一般的なドメインでの人間レベルの性能に近い性能を達成しているが、並列コーパスの欠如は特定のドメインにおいて重要な問題となっている。 生物医学領域では、平行コーパスはアクセスしにくい。 本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。 bwes (bilingual word embeddeds) を簡易かつ効果的な方法で構築し, 両言語単語の類似性を評価し, 文のアライメント問題を拡張アース・ムーバー距離 (emd) 問題に移した。 提案手法は,1対1,多対多のいずれにおいても高い精度を実現した。 一般ドメインでの事前トレーニングでは、より大きなドメイン内データセットとn-to-m文ペアがNMTモデルに有効である。 ドメインコーパスの微調整は、翻訳モデルがより多くの用語を学び、ドメイン内テキストのスタイルに適合するのに役立つ。

The existing neural machine translation system has achieved near human-level performance in general domain in some languages, but the lack of parallel corpora poses a key problem in specific domains. In biomedical domain, the parallel corpus is less accessible. This work presents a new unsupervised sentence alignment method and explores features in training biomedical neural machine translation (NMT) systems. We use a simple but effective way to build bilingual word embeddings (BWEs) to evaluate bilingual word similarity and transferred the sentence alignment problem into an extended earth mover's distance (EMD) problem. The proposed method achieved high accuracy in both 1-to-1 and many-to-many cases. Pre-training in general domain, the larger in-domain dataset and n-to-m sentence pairs benefit the NMT model. Fine-tuning in domain corpus helps the translation model learns more terminology and fits the in-domain style of text.
翻訳日:2021-04-20 14:12:56 公開日:2021-04-17
# XLEnt:Lexical-Semantic-Phonetic Wordalignmentによる大規模言語間エンティティデータセットのマイニング

XLEnt: Mining a Large Cross-lingual Entity Dataset with Lexical-Semantic-Phonetic Word Alignment ( http://arxiv.org/abs/2104.08597v1 )

ライセンス: Link先を確認
Ahmed El-Kishky, Adi Renduchintala, James Cross, Francisco Guzm\'an, Philipp Koehn(参考訳) 言語間の名前付き辞書は、機械翻訳や言語間のウィキフィケーションといった多言語NLPタスクにとって重要なリソースである。 知識ベースは英語やフランス語のような高リソース言語で多くのエンティティを含んでいるが、低リソース言語に対応するエンティティはしばしば欠落している。 そこで本研究では, web から言語横断エンティティ lexicon を自動的にマイニングする手法である lexical-semantic-phonetic align (lsp-align) を提案する。 LSP-Alignは、言語間の実体対を抽出し、120の異なる言語から1億6400万の実体対を抽出する。 nlpコミュニティへのリソースとして,多言語タグ付きエンティティコーパスとともに,これらのクロスリンガルエンティティペアをリリースする。

Cross-lingual named-entity lexicon are an important resource to multilingual NLP tasks such as machine translation and cross-lingual wikification. While knowledge bases contain a large number of entities in high-resource languages such as English and French, corresponding entities for lower-resource languages are often missing. To address this, we propose Lexical-Semantic-Phonetic Align (LSP-Align), a technique to automatically mine cross-lingual entity lexicon from the web. We demonstrate LSP-Align outperforms baselines at extracting cross-lingual entity pairs and mine 164 million entity pairs from 120 different languages aligned with English. We release these cross-lingual entity pairs along with the massively multilingual tagged named entity corpus as a resource to the NLP community.
翻訳日:2021-04-20 14:12:38 公開日:2021-04-17
# トランスフォーマによる資源制約言語における感情分類

Emotion Classification in a Resource Constrained Language Using Transformer-based Approach ( http://arxiv.org/abs/2104.08613v1 )

ライセンス: Link先を確認
Avishek Das, Omar Sharif, Mohammed Moshiul Hoque, Iqbal H. Sarker(参考訳) 高リソース言語では感情分類の研究が著しく進んでいるが、ベンガル語のようなリソース制約のある言語はまだ初期段階である。 しかし、必要な言語処理ツールやベンチマークコーパスの欠如は、ベンガルにおける感情分類タスクをより難しく複雑にする。 本研究は,ベンガル語のテキストを,怒り,恐怖,嫌悪,悲しみ,喜び,驚きの6つの基本的な感情の1つに分類するトランスフォーマティブに基づく手法を提案する。 分類作業のために6243のテキストからなるベンガル感情コーパスを開発した。 様々な機械学習(LR、RF、MNB、SVM)、ディープニューラルネットワーク(CNN、BiLSTM、CNN+BiLSTM)、トランスフォーマー(Bangla-BERT、m-BERT、XLM-R)を用いた実験を行った。 実験結果から、XLM-Rはテストデータ上で最も重み付けられた$f_1$-scoreの69.73\%を達成し、他のすべての技術より優れていることが示された。 データセットはhttps://github.com/omar-sharif03/NAACL-SRW-2021で公開されている。

Although research on emotion classification has significantly progressed in high-resource languages, it is still infancy for resource-constrained languages like Bengali. However, unavailability of necessary language processing tools and deficiency of benchmark corpora makes the emotion classification task in Bengali more challenging and complicated. This work proposes a transformer-based technique to classify the Bengali text into one of the six basic emotions: anger, fear, disgust, sadness, joy, and surprise. A Bengali emotion corpus consists of 6243 texts is developed for the classification task. Experimentation carried out using various machine learning (LR, RF, MNB, SVM), deep neural networks (CNN, BiLSTM, CNN+BiLSTM) and transformer (Bangla-BERT, m-BERT, XLM-R) based approaches. Experimental outcomes indicate that XLM-R outdoes all other techniques by achieving the highest weighted $f_1$-score of $69.73\%$ on the test data. The dataset is publicly available at https://github.com/omar-sharif03/NAACL-SRW-2021.
翻訳日:2021-04-20 14:12:23 公開日:2021-04-17
# Random Matrix Theory を用いたストップワードのカスタマイズ決定

Customized determination of stop words using Random Matrix Theory approach ( http://arxiv.org/abs/2104.08642v1 )

ライセンス: Link先を確認
Bogdan {\L}obodzi\'nski(参考訳) 単語単位で計算された単語間の距離を研究し、ランダム行列理論(rmt)の分布と比較する。 その結果,同じ単語間の距離分布は,単一パラメータブロディ分布によってよく説明できることがわかった。 ブロディ分布の適合性を用いて、一連のテキスト中の与えられた単語間の距離が混合ダイナミクスを示し、規則的およびカオス的レジームが共存することを発見した。 適合閾値の一定の良さでブロディ分布に正しく適合した分布は、通常、テキストの非形式的部分と見なされる停止語として識別できることが判明した。 適合の良さに様々なしきい値を適用することで、分析対象のテキストから所望の程度まで不規則な単語を抽出することができる。 そこで本研究では,単語に基づく任意の言語におけるテキストに対する停止語セットのカスタマイズに使用可能な,完全非依存のレシピを定式化する。

The distances between words calculated in word units are studied and compared with the distributions of the Random Matrix Theory (RMT). It is found that the distribution of distance between the same words can be well described by the single-parameter Brody distribution. Using the Brody distribution fit, we found that the distance between given words in a set of texts can show mixed dynamics, coexisting regular and chaotic regimes. It is found that distributions correctly fitted by the Brody distribution with a certain goodness of the fit threshold can be identifid as stop words, usually considered as the uninformative part of the text. By applying various threshold values for the goodness of fit, we can extract uninformative words from the texts under analysis to the desired extent. On this basis we formulate a fully agnostic recipe that can be used in the creation of a customized set of stop words for texts in any language based on words.
翻訳日:2021-04-20 14:12:01 公開日:2021-04-17
# ロバストトレーニングによるゼロショット言語間転送学習の改善

Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training ( http://arxiv.org/abs/2104.08645v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Wasi Uddin Ahmad, Nanyun Peng, Kai-Wei Chang(参考訳) 近年,多言語BERT や XLM-R などの事前学習型多言語言語モデルは,ゼロショット言語間移動学習において優れた性能を示した。 しかし、異なる言語に対する多言語コンテキスト埋め込み空間は完全に整合していないため、異なる言語の表現の違いがゼロショットの言語間移動を引き起こす可能性がある。 この研究では、これらの失敗事例と敵対例の関連性を描く。 次に,入力埋め込みにおける雑音を許容できるロバストモデルをトレーニングするために,ロバストなトレーニング手法を提案する。 本研究では,敵対的訓練とランダムな平滑化の2つの手法について検討した。 実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。 ソース言語とターゲット言語間の距離が大きくなると、パフォーマンスが大幅に向上する。

In recent years, pre-trained multilingual language models, such as multilingual BERT and XLM-R, exhibit good performance on zero-shot cross-lingual transfer learning. However, since their multilingual contextual embedding spaces for different languages are not perfectly aligned, the difference between representations of different languages might cause zero-shot cross-lingual transfer failed in some cases. In this work, we draw connections between those failed cases and adversarial examples. We then propose to use robust training methods to train a robust model that can tolerate some noise in input embeddings. We study two widely used robust training methods: adversarial training and randomized smoothing. The experimental results demonstrate that robust training can improve zero-shot cross-lingual transfer for text classification. The performance improvements become significant when the distance between the source language and the target language increases.
翻訳日:2021-04-20 14:11:47 公開日:2021-04-17
# エンティティ中心情報抽出のための雑音ラベルからの学習

Learning from Noisy Labels for Entity-Centric Information Extraction ( http://arxiv.org/abs/2104.08656v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Muhao Chen(参考訳) 最近の情報抽出の試みは、多くの深層神経モデルに依存している。 しかし、そのようなモデルはノイズの多いラベルに簡単に適合し、性能劣化に悩まされる。 大規模な学習資源においてノイズの多いラベルをフィルタリングするのは非常にコストがかかるが、近年の研究により、これらのラベルは記憶すべきトレーニングステップを多く取り、クリーンなラベルよりも忘れられる頻度が高いことが示されている。 このような特性に動機づけられ,パラメータ初期化の異なる複数のニューラルモデルからなる,エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。 これらのモデルはタスク固有の損失に共同最適化されており、契約損失に基づいて同様の予測を生成するように正規化されている。 結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。 情報抽出に広く用いられているがノイズの多い2つのベンチマークであるTACREDとCoNLL03の大規模な実験は、我々のフレームワークの有効性を実証している。

Recent efforts for information extraction have relied on many deep neural models. However, any such models can easily overfit noisy labels and suffer from performance degradation. While it is very costly to filter noisy labels in large learning resources, recent studies show that such labels take more training steps to be memorized and are more frequently forgotten than clean labels, therefore are identifiable in training. Motivated by such properties, we propose a simple co-regularization framework for entity-centric information extraction, which consists of several neural models with different parameter initialization. These models are jointly optimized with task-specific loss, and are regularized to generate similar predictions based on an agreement loss, which prevents overfitting on noisy labels. In the end, we can take any of the trained models for inference. Extensive experiments on two widely used but noisy benchmarks for information extraction, TACRED and CoNLL03, demonstrate the effectiveness of our framework.
翻訳日:2021-04-20 14:11:33 公開日:2021-04-17
# イディオムを特徴づける: 慣習性と並行性

Characterizing Idioms: Conventionality and Contingency ( http://arxiv.org/abs/2104.08664v1 )

ライセンス: Link先を確認
Michaela Socolof, Jackie Chi Kit Cheung, Michael Wagner, Timothy J. O'Donnell(参考訳) 慣用句は他の2つの重要な方法で異なる。 第一に、イディオムの言葉は慣習的な意味を持つ。 第二に、イディオムにおける単語の非慣習的な意味は、イディオムにおける他の単語の存在に付随する。 言語学的理論は、これらの2つの性質が互いに依存するかどうか、およびイディオムを満たすために特別な理論機械が必要であるかどうかについて意見が一致しない。 これらの2つの性質に対応する2つの測度を定義し、イディオムが2次元の期待される交点に落ちるが、次元そのものは相関しないことを示す。 以上の結果から,イディオムは他の句ほど異常はなく,イディオムを扱う特別な機械の導入が保証されないことが示唆された。

Idioms are unlike other phrases in two important ways. First, the words in an idiom have unconventional meanings. Second, the unconventional meaning of words in an idiom are contingent on the presence of the other words in the idiom. Linguistic theories disagree about whether these two properties depend on one another, as well as whether special theoretical machinery is needed to accommodate idioms. We define two measures that correspond to these two properties, and we show that idioms fall at the expected intersection of the two dimensions, but that the dimensions themselves are not correlated. Our results suggest that idioms are no more anomalous than other types of phrases, and that introducing special machinery to handle idioms may not be warranted.
翻訳日:2021-04-20 14:11:19 公開日:2021-04-17
# 予測モデルによる制御計画

Planning with Expectation Models for Control ( http://arxiv.org/abs/2104.08543v1 )

ライセンス: Link先を確認
Katya Kudashkina, Yi Wan, Abhishek Naik, Richard S. Sutton(参考訳) モデルベース強化学習(MBRL)では、Wanら。 (2019) では, 環境モデルが全体の分布やサンプルではなく, 次の特徴ベクトルを期待できる条件を示し, 計画性能に損なわれなかった。 このような期待モデルは、環境が確率的かつ非定常であるときに興味を持ち、関数近似を用いて学習されるような近似モデルである。 この場合、完全な分布モデルは非実用的であり、サンプルモデルはより高価な計算的または高い分散である。 ワンなど。 一定の政策を評価する 予測のみの計画を考えました 本稿では,制御事例を扱い,改善を計画し,適切な近似ポリシーを見出す。 期待モデルを用いた計画では、前述したようなアクション値関数(Sorg & Singh, 2010)ではなく、状態値関数を更新しなければならない。 これは、プランニングがアクション選択にどのように影響するかという問題を開く。 本稿では3つの戦略を考察し,それぞれに汎用MBRLアルゴリズムを提案する。 計算実験において,これらのアルゴリズムの強みと弱みを特定する。 我々のアルゴリズムと実験は、MBRLを一般的な設定で予測モデルで扱う最初のものである。

In model-based reinforcement learning (MBRL), Wan et al. (2019) showed conditions under which the environment model could produce the expectation of the next feature vector rather than the full distribution, or a sample thereof, with no loss in planning performance. Such expectation models are of interest when the environment is stochastic and non-stationary, and the model is approximate, such as when it is learned using function approximation. In these cases a full distribution model may be impractical and a sample model may be either more expensive computationally or of high variance. Wan et al. considered only planning for prediction to evaluate a fixed policy. In this paper, we treat the control case - planning to improve and find a good approximate policy. We prove that planning with an expectation model must update a state-value function, not an action-value function as previously suggested (e.g., Sorg & Singh, 2010). This opens the question of how planning influences action selections. We consider three strategies for this and present general MBRL algorithms for each. We identify the strengths and weaknesses of these algorithms in computational experiments. Our algorithms and experiments are the first to treat MBRL with expectation models in a general setting.
翻訳日:2021-04-20 14:02:47 公開日:2021-04-17
# 知的環境におけるエージェント間のインタラクションにおける信頼評価のためのロバストモデル

A Robust Model for Trust Evaluation during Interactions between Agents in a Sociable Environment ( http://arxiv.org/abs/2104.08555v1 )

ライセンス: Link先を確認
Qin Liang, Minjie Zhang, Fenghui Ren, Takayuki Ito(参考訳) 信頼評価は、研究と応用の両方において重要なトピックである。 本稿では, エージェント間の信頼評価モデルについて, 直接信頼, 近隣リンクを介した間接信頼, 環境におけるエージェントの評価(すなわち, エージェントの評判)を組み合わせて提案する。 ソーシャルネットワーク) 堅牢な評価を提供するためです 我々のアプローチは、ソーシャルネットワーク構造から独立したタイプロジーであり、中央制御器を使わずに分散的に利用することができる。

Trust evaluation is an important topic in both research and applications in sociable environments. This paper presents a model for trust evaluation between agents by the combination of direct trust, indirect trust through neighbouring links and the reputation of an agent in the environment (i.e. social network) to provide the robust evaluation. Our approach is typology independent from social network structures and in a decentralized manner without a central controller, so it can be used in broad domains.
翻訳日:2021-04-20 14:02:30 公開日:2021-04-17
# フィルタ分布テンプレートを用いた効率的な畳み込みネットワークモデルの構築

Towards Efficient Convolutional Network Models with Filter Distribution Templates ( http://arxiv.org/abs/2104.08446v1 )

ライセンス: Link先を確認
Ramon Izquierdo-Cordova, Walterio Mayol-Cuevas(参考訳) 機能マップの縮小に伴う深い層でのフィルタ数の増加は畳み込みネットワーク設計において広く採用されているパターンである。 古典的なCNNアーキテクチャや自動発見されたモデルでも見られる。 CNS法でさえ、このピラミッドパターンから派生した乗数の選択をよく調べる。 本稿では,VGGおよびResNetアーキテクチャにおけるフィルタの当初のピラミッド分布の,実装が容易で直感的でアグレッシブなバリエーションからなるテンプレートセットを導入することで,このプラクティスを否定する。 CIFAR、CINIC10、TinyImagenetデータセットの実験では、テンプレートによって生成されたモデルは、より少ないパラメータとメモリ要求の観点からより効率的であることが示されています。

Increasing number of filters in deeper layers when feature maps are decreased is a widely adopted pattern in convolutional network design. It can be found in classical CNN architectures and in automatic discovered models. Even CNS methods commonly explore a selection of multipliers derived from this pyramidal pattern. We defy this practice by introducing a small set of templates consisting of easy to implement, intuitive and aggressive variations of the original pyramidal distribution of filters in VGG and ResNet architectures. Experiments on CIFAR, CINIC10 and TinyImagenet datasets show that models produced by our templates, are more efficient in terms of fewer parameters and memory needs.
翻訳日:2021-04-20 13:58:10 公開日:2021-04-17
# Visual Transformer Pruning

Visual Transformer Pruning ( http://arxiv.org/abs/2104.08500v1 )

ライセンス: Link先を確認
Mingjian Zhu, Kai Han, Yehui Tang, Yunhe Wang(参考訳) Visual Transformerは様々なコンピュータビジョンアプリケーションで競争力を発揮している。 しかし、ストレージ、実行時のメモリ、計算要求によってモバイルデバイスへのデプロイが妨げられている。 ここでは,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマリン方式を提案する。 Transformerでチャネルワイドのスパーシリティを促進することで、重要なチャネルが自動的に現れる。 精度を損なうことなく高い刈り取り率を達成するために、係数の小さいチャネルを大量に廃棄することができる。 ビジュアルトランスフォーマープルーニングのパイプラインは、1) スパーシティ正規化によるトレーニング、2) プルーニングチャネル、3) 微調整である。 提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。

Visual transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment on mobile devices. Here we present an visual transformer pruning approach, which identifies the impacts of channels in each layer and then executes pruning accordingly. By encouraging channel-wise sparsity in the Transformer, important channels automatically emerge. A great number of channels with small coefficients can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for visual transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning channels; 3) finetuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate its effectiveness.
翻訳日:2021-04-20 13:58:01 公開日:2021-04-17
# 自己監督運動表現を用いた視覚的音源分離と位置決め

Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations ( http://arxiv.org/abs/2104.08506v1 )

ライセンス: Link先を確認
Lingyu Zhu and Esa Rahtu(参考訳) 本研究の目的は,音源の映像に基づく混合音から成分音を分離し,音声・視覚的音源分離を行うことである。 さらに、入力されたビデオシーケンスのソース位置をピンポイントすることを目的とする。 近年の研究では、ソースタイプの事前知識(例えば、音声と視覚の分離結果)が顕著に示されている。 人間の楽器)と事前訓練されたモーション検出器(例) キーポイントまたは光学フロー) しかし、同時に、モデルは特定のアプリケーションドメインに限定されます。 本稿では,これらの制約に対処し,次のような貢献をする:i) 外観と動きを専門とする2段階アーキテクチャである外観と動きのネットワーク (AMnet) を提案する。 システム全体を自己教師型でトレーニングし, 音に関連する動作を明示的に表現するためのAME(Audio-Motion Embedding)フレームワークを導入し, iii) 音声・動作特徴融合のためのオーディオ・モーション・トランスフォーマーアーキテクチャを提案し, iv) 事前訓練されたキーポイント検出器や光フロー推定器を使用しないにもかかわらず, 2つの挑戦的データセット(MUSIC-21, AVE)に対して最先端の性能を示す。 プロジェクトページ: https://ly-zhu.github.io/self-supervised-motion-representations

The objective of this paper is to perform audio-visual sound source separation, i.e.~to separate component audios from a mixture based on the videos of sound sources. Moreover, we aim to pinpoint the source location in the input video sequence. Recent works have shown impressive audio-visual separation results when using prior knowledge of the source type (e.g. human playing instrument) and pre-trained motion detectors (e.g. keypoints or optical flows). However, at the same time, the models are limited to a certain application domain. In this paper, we address these limitations and make the following contributions: i) we propose a two-stage architecture, called Appearance and Motion network (AMnet), where the stages specialise to appearance and motion cues, respectively. The entire system is trained in a self-supervised manner; ii) we introduce an Audio-Motion Embedding (AME) framework to explicitly represent the motions that related to sound; iii) we propose an audio-motion transformer architecture for audio and motion feature fusion; iv) we demonstrate state-of-the-art performance on two challenging datasets (MUSIC-21 and AVE) despite the fact that we do not use any pre-trained keypoint detectors or optical flow estimators. Project page: https://ly-zhu.github.io/self-supervised-motion-representations
翻訳日:2021-04-20 13:57:50 公開日:2021-04-17
# PARE:3次元人体推定のための注意後退器

PARE: Part Attention Regressor for 3D Human Body Estimation ( http://arxiv.org/abs/2104.08527v1 )

ライセンス: Link先を確認
Muhammed Kocabas, Chun-Hao P. Huang, Otmar Hilliges, Michael J. Black(参考訳) 有意な進歩にもかかわらず, art 3d の人間のポーズや形状推定手法は部分的咬合に敏感であり, 身体のほとんどが観察可能であるにもかかわらず, 劇的に誤った予測を生じる可能性がある。 そこで本研究では,身体部分誘導型注意マスクの予測を学習するPARE(Part Attention Regressor)というソフトアテンション機構を導入する。 我々は,最先端の手法がグローバルな特徴表現に依存していることを観察する。 対照的に、PAREの部分誘導型注意機構は、個々の身体部分の視認性に関する情報を活用しながら、近隣の身体部分からの情報を活用して隠蔽部分を予測することでこれらの問題を克服する。 我々はPAREが有意義な注意マスクを学習し、定量評価により、PAREが既存のオクルージョン固有および標準ベンチマークのアプローチよりも正確で堅牢な再構築結果が得られることを確認した。 コードはhttps://pare.is.tue.mpg.de/で研究目的に利用できる。

Despite significant progress, we show that state of the art 3D human pose and shape estimation methods remain sensitive to partial occlusion and can produce dramatically wrong predictions although much of the body is observable. To address this, we introduce a soft attention mechanism, called the Part Attention REgressor (PARE), that learns to predict body-part-guided attention masks. We observe that state-of-the-art methods rely on global feature representations, making them sensitive to even small occlusions. In contrast, PARE's part-guided attention mechanism overcomes these issues by exploiting information about the visibility of individual body parts while leveraging information from neighboring body-parts to predict occluded parts. We show qualitatively that PARE learns sensible attention masks, and quantitative evaluation confirms that PARE achieves more accurate and robust reconstruction results than existing approaches on both occlusion-specific and standard benchmarks. Code will be available for research purposes at https://pare.is.tue.mpg.de/.
翻訳日:2021-04-20 13:57:28 公開日:2021-04-17
# 人物再同定を用いたワイドベースラインマルチカメラキャリブレーション

Wide-Baseline Multi-Camera Calibration using Person Re-Identification ( http://arxiv.org/abs/2104.08568v1 )

ライセンス: Link先を確認
Yan Xu, Yu-Jhe Li, Xinshuo Weng, Kris Kitani(参考訳) 建設現場のカメラ,スポーツスタジアム,公共空間など,大規模環境の広義のシナリオを対象としたカメラネットワークの3次元ポーズ推定の問題に対処する。 この課題は、2つの異なるカメラビューから観察される同じ3dキーポイントの検出とマッチングが難しいため、標準的なstructure-from-motion(sfm)パイプラインが適用できないため、難しい。 このような状況下では、現場の人々を「キーポイント」として扱い、異なるカメラビューに関連付けることが、対応を得るための代替手段となる。 この直感に基づいて,ワイドベースラインカメラキャリブレーションのための人物再識別(re-ID)のアイデアを利用する手法を提案する。 提案手法では,まずカメラ間の人間境界ボックスの関連付けにre-ID法を用い,次に境界ボックス対応を点対応に変換し,最後に多視点幾何とバンドル調整を用いてカメラポーズの解決を行う。 本手法は,可視者を除いて特別な校正対象を必要としないため,校正更新の頻繁な状況に適用できる。 異なる大きさのシーン、カメラ設定(屋内および屋外)、人間の活動(ウォーキング、バスケットボール、建設)から得られたデータセットに関する広範な実験を行う。 実験結果から,本手法は手動でラベル付けされた点対応に依存する標準SfM法と同等の性能を示した。

We address the problem of estimating the 3D pose of a network of cameras for large-environment wide-baseline scenarios, e.g., cameras for construction sites, sports stadiums, and public spaces. This task is challenging since detecting and matching the same 3D keypoint observed from two very different camera views is difficult, making standard structure-from-motion (SfM) pipelines inapplicable. In such circumstances, treating people in the scene as "keypoints" and associating them across different camera views can be an alternative method for obtaining correspondences. Based on this intuition, we propose a method that uses ideas from person re-identification (re-ID) for wide-baseline camera calibration. Our method first employs a re-ID method to associate human bounding boxes across cameras, then converts bounding box correspondences to point correspondences, and finally solves for camera pose using multi-view geometry and bundle adjustment. Since our method does not require specialized calibration targets except for visible people, it applies to situations where frequent calibration updates are required. We perform extensive experiments on datasets captured from scenes of different sizes, camera settings (indoor and outdoor), and human activities (walking, playing basketball, construction). Experiment results show that our method achieves similar performance to standard SfM methods relying on manually labeled point correspondences.
翻訳日:2021-04-20 13:57:09 公開日:2021-04-17
# RefineMask: 細粒度機能を備えた高品質なインスタンスセグメンテーションを目指す

RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained Features ( http://arxiv.org/abs/2104.08569v1 )

ライセンス: Link先を確認
Gang Zhang, Xin Lu, Jingru Tan, Jianmin Li, Zhaoxiang Zhang, Quanquan Li, Xiaolin Hu(参考訳) 例えば、インスタンスセグメンテーションの2段階のメソッド。 Mask R-CNNは、最近優れたパフォーマンスを達成した。 しかし、セグメンテッドマスクは、特に大きな物体の場合、特徴ピラミッドとインスタンスワイドプーリングプロセスの両方のダウンサンプリング操作のため、いまだに非常に粗い。 本研究では,オブジェクトとシーンの高品質なインスタンスセグメンテーションのためのRefineMaskという新しい手法を提案する。 より詳細な情報をステージごとに融合することで、RefineMaskは高品質なマスクを一貫して洗練することができる。 refinemaskは、以前のほとんどのメソッドで過剰にスムースされ、正確なバウンダリを出力する、オブジェクトの曲がった部分のようなハードケースのセグメンテーションに成功している。 ベルとホイッスルがなければ、RefineMaskはCOCO、LVIS、CityscapesのベンチマークでMask R-CNNよりも2.6, 3.4, 3.8 APの大幅なゲインを得る。 さらに、LVIS Challenge 2020の勝者はLVIS test-devセットで1.3ポイント上回る結果となり、新たな最先端技術を確立します。 コードはhttps://github.com/zhanggang001/refinemaskで入手できる。

The two-stage methods for instance segmentation, e.g. Mask R-CNN, have achieved excellent performance recently. However, the segmented masks are still very coarse due to the downsampling operations in both the feature pyramid and the instance-wise pooling process, especially for large objects. In this work, we propose a new method called RefineMask for high-quality instance segmentation of objects and scenes, which incorporates fine-grained features during the instance-wise segmenting process in a multi-stage manner. Through fusing more detailed information stage by stage, RefineMask is able to refine high-quality masks consistently. RefineMask succeeds in segmenting hard cases such as bent parts of objects that are over-smoothed by most previous methods and outputs accurate boundaries. Without bells and whistles, RefineMask yields significant gains of 2.6, 3.4, 3.8 AP over Mask R-CNN on COCO, LVIS, and Cityscapes benchmarks respectively at a small amount of additional computational cost. Furthermore, our single-model result outperforms the winner of the LVIS Challenge 2020 by 1.3 points on the LVIS test-dev set and establishes a new state-of-the-art. Code will be available at https://github.com/zhanggang001/RefineMask.
翻訳日:2021-04-20 13:56:44 公開日:2021-04-17
# VSpSR: 変分スパース表現による探索可能な超解法

VSpSR: Explorable Super-Resolution via Variational Sparse Representation ( http://arxiv.org/abs/2104.08575v1 )

ライセンス: Link先を確認
Hangqi Zhou, Chao Huang, Shangqi Gao, Xiahai Zhuang(参考訳) 超解像(SR)は不適切な問題であり、無限に多くの高分解能(HR)画像を同じ低分解能(LR)画像に分解できることを意味する。 本研究では,自然画像の局所的自己相似性を暗黙的に表現し,ニューラルネットワークによる超解法(VSpSR)のための変分スパースフレームワークを開発する。 HR画像のすべての小さなパッチは、過剰完全辞書における原子のスパース表現によってうまく近似できるので、SR空間を探索するために2分岐モジュール、すなわちVSpMを設計する。 具体的には、VSpMの一方の枝はLR入力からパッチレベル基底を抽出し、他方の枝はスパース係数に対して画素単位の変動分布を推定する。 係数を繰り返しサンプリングすることで、無限のスパース表現を得ることができ、それによって多様なHR画像を生成することができる。 NTIRE 2021によるSR空間の学習に関する予備的な結果によると、我々のチーム(FudanZmic21)は、リリーススコアの7番目です。 VSpSRの実装はhttps://zmiclab.github.io/で公開されている。

Super-resolution (SR) is an ill-posed problem, which means that infinitely many high-resolution (HR) images can be degraded to the same low-resolution (LR) image. To study the one-to-many stochastic SR mapping, we implicitly represent the non-local self-similarity of natural images and develop a Variational Sparse framework for Super-Resolution (VSpSR) via neural networks. Since every small patch of a HR image can be well approximated by the sparse representation of atoms in an over-complete dictionary, we design a two-branch module, i.e., VSpM, to explore the SR space. Concretely, one branch of VSpM extracts patch-level basis from the LR input, and the other branch infers pixel-wise variational distributions with respect to the sparse coefficients. By repeatedly sampling coefficients, we could obtain infinite sparse representations, and thus generate diverse HR images. According to the preliminary results of NTIRE 2021 challenge on learning SR space, our team (FudanZmic21) ranks 7-th in terms of released scores. The implementation of VSpSR is released at https://zmiclab.github.io/.
翻訳日:2021-04-20 13:56:22 公開日:2021-04-17
# 畳み込みニューラルネットワークによるspect/ctセグメンテーションのためのファジィクラスタリングの学習

Learning Fuzzy Clustering for SPECT/CT Segmentation via Convolutional Neural Networks ( http://arxiv.org/abs/2104.08623v1 )

ライセンス: Link先を確認
Junyu Chen, Ye Li, Licia P. Luna, Hyun Woo Chung, Steven P. Rowe, Yong Du, Lilja B.Solnes, Eric C. Frey(参考訳) qbspect (quantical bone single-photon emission computed tomography) は, 重ね合わせ構造の活性をより定量化できるため, 平面骨シンチグラフィよりも骨転移の定量的評価に有用である。 骨転移の反応を評価する重要な要素は、正確な画像分割である。 しかしながら、qbspect画像の性質によって制限されるため、解剖学的領域(rois)のセグメンテーションは専門家による手作業による記述に大きく依存している。 本研究は,QBSPECT画像を病変,骨,背景に分割する高速で堅牢な自動分割法を提案する。 本稿では,畳み込みニューラルネットワーク(convnet)を訓練するための教師なしセグメンテーション損失関数とその半教師付き変種を提案する。 損失関数は古典的ファジィC平均(FCM)アルゴリズムの目的関数に基づいて開発された。 本研究では,従来のクラスタリング手法と教師付き損失関数を用いて学習したConvNetと比較した。 Dice similarity coefficient (DSC) および他のいくつかの指標は, SPECT/CT画像とSPECT/CT画像の両方において, 病変や骨の描写に有効である。 提案手法は,現実的なシミュレート画像を用いたトレーニングであっても,臨床データセット上で良好なセグメンテーション結果が得られることを示した。 新規な損失関数を用いたConvNet画像分割法を開発し評価した。 この方法は、注釈付きトレーニングデータの可用性に応じて、教師なし、半教師なし、または完全に教師なしモードで動作する。 以上の結果から,QBSPECT/CTの高速で頑健な病変と骨分節が得られた。 この方法は、他の医療画像分割アプリケーションにも応用できる可能性がある。

Quantitative bone single-photon emission computed tomography (QBSPECT) has the potential to provide a better quantitative assessment of bone metastasis than planar bone scintigraphy due to its ability to better quantify activity in overlapping structures. An important element of assessing response of bone metastasis is accurate image segmentation. However, limited by the properties of QBSPECT images, the segmentation of anatomical regions-of-interests (ROIs) still relies heavily on the manual delineation by experts. This work proposes a fast and robust automated segmentation method for partitioning a QBSPECT image into lesion, bone, and background. We present a new unsupervised segmentation loss function and its semi- and supervised variants for training a convolutional neural network (ConvNet). The loss functions were developed based on the objective function of the classical Fuzzy C-means (FCM) algorithm. We conducted a comprehensive study to compare our proposed methods with ConvNets trained using supervised loss functions and conventional clustering methods. The Dice similarity coefficient (DSC) and several other metrics were used as figures of merit as applied to the task of delineating lesion and bone in both simulated and clinical SPECT/CT images. We experimentally demonstrated that the proposed methods yielded good segmentation results on a clinical dataset even though the training was done using realistic simulated images. A ConvNet-based image segmentation method that uses novel loss functions was developed and evaluated. The method can operate in unsupervised, semi-supervised, or fully-supervised modes depending on the availability of annotated training data. The results demonstrated that the proposed method provides fast and robust lesion and bone segmentation for QBSPECT/CT. The method can potentially be applied to other medical image segmentation applications.
翻訳日:2021-04-20 13:56:01 公開日:2021-04-17
# 高次再電流時空変圧器

Higher Order Recurrent Space-Time Transformer ( http://arxiv.org/abs/2104.08665v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Oswald Lanz(参考訳) 視覚エージェントに予測能力を持たせることは、大規模なビデオインテリジェンスへの重要なステップである。 主なモデリングパラダイムはシーケンス学習であり、主にLSTMを通して実装されている。 フィードフォワードトランスフォーマーアーキテクチャは、言語処理のMLアプリケーションやコンピュータビジョンにおけるリカレントモデル設計を置き換えるものである。 本稿では,ビデオ予測タスクにおけるトランスフォーマー型アーキテクチャの競争力について検討する。 そこで本稿では,ビデオの自己注意の時空間分解を主成分とする高次再帰層の設計法であるHORSTを提案する。 HORSTは、タスク固有の設計を使わずに、Something-V2早期動作認識とEPIC-Kitchens-55アクション予測における技術競争性能の状態を達成している。 これは、自己着想の高次設計を繰り返すことに起因する因果的予測能力の有望な証拠であると考えています。

Endowing visual agents with predictive capability is a key step towards video intelligence at scale. The predominant modeling paradigm for this is sequence learning, mostly implemented through LSTMs. Feed-forward Transformer architectures have replaced recurrent model designs in ML applications of language processing and also partly in computer vision. In this paper we investigate on the competitiveness of Transformer-style architectures for video predictive tasks. To do so we propose HORST, a novel higher order recurrent layer design whose core element is a spatial-temporal decomposition of self-attention for video. HORST achieves state of the art competitive performance on Something-Something-V2 early action recognition and EPIC-Kitchens-55 action anticipation, without exploiting a task specific design. We believe this is promising evidence of causal predictive capability that we attribute to our recurrent higher order design of self-attention.
翻訳日:2021-04-20 13:55:33 公開日:2021-04-17
# 対話型オープンドメイン質問応答のためのグラフ誘導多ラウンド検索法

A Graph-guided Multi-round Retrieval Method for Conversational Open-domain Question Answering ( http://arxiv.org/abs/2104.08443v1 )

ライセンス: Link先を確認
Yongqi Li, Wenjie Li, Liqiang Nie(参考訳) 近年、会話エージェントは、人々の日常生活における有用な情報に対して、自然かつ便利なアクセスを提供し、広く新しい研究テーマである会話的質問応答(qa)を提供している。 一般的な会話型QAタスクの中では、Webから正確な回答を抽出するために関連するパスを検索する必要がある会話型オープンドメインQAは、より実用的であるが、あまり研究されていない。 主な課題は、会話における歴史的文脈をうまく捉え、十分に探求し、効果的な大規模検索を促進する方法である。 現在の研究は、主に歴史質問を利用して、現在の質問を洗練したり、その表現を強化したりするが、タスクにとって重要な会話における歴史回答と現在の回答の関係は完全に無視される。 そこで本研究では,会話のターン間の応答関係をモデル化するグラフ誘導検索手法を提案する。 特に、履歴回答と潜在的な現在の回答を含むハイパーリンク接続されたパスから派生したパスグラフを使用して、その後の回答抽出に関連性の高いパスを検索する。 さらに,より補完的な情報を歴史的文脈に収集するために,検索コンテキストが現在の質問理解に与える影響を探究するために,マルチラウンド関連フィードバック手法を導入することを提案する。 公開データセットにおける実験結果は,提案手法の有効性を検証した。 特に、F1スコアは予測された履歴回答と真の歴史回答で5%と11%向上する。

In recent years, conversational agents have provided a natural and convenient access to useful information in people's daily life, along with a broad and new research topic, conversational question answering (QA). Among the popular conversational QA tasks, conversational open-domain QA, which requires to retrieve relevant passages from the Web to extract exact answers, is more practical but less studied. The main challenge is how to well capture and fully explore the historical context in conversation to facilitate effective large-scale retrieval. The current work mainly utilizes history questions to refine the current question or to enhance its representation, yet the relations between history answers and the current answer in a conversation, which is also critical to the task, are totally neglected. To address this problem, we propose a novel graph-guided retrieval method to model the relations among answers across conversation turns. In particular, it utilizes a passage graph derived from the hyperlink-connected passages that contains history answers and potential current answers, to retrieve more relevant passages for subsequent answer extraction. Moreover, in order to collect more complementary information in the historical context, we also propose to incorporate the multi-round relevance feedback technique to explore the impact of the retrieval context on current question understanding. Experimental results on the public dataset verify the effectiveness of our proposed method. Notably, the F1 score is improved by 5% and 11% with predicted history answers and true history answers, respectively.
翻訳日:2021-04-20 13:44:45 公開日:2021-04-17
# 深いガウス過程に対する畳み込み正規化流れ

Convolutional Normalizing Flows for Deep Gaussian Processes ( http://arxiv.org/abs/2104.08472v1 )

ライセンス: Link先を確認
Haibin Yu, Bryan Kian Hsiang Low, Patrick Jaillet, Dapeng Liu(参考訳) GPモデルの階層的な構成であるディープガウス過程(DGP)は、単層プロセスよりも表現力を高めることに成功した。 しかし、近年の変分推論に基づく手法の開発を動機づけたDGPでは正確な推論を行うことはできない。 残念ながら、これらの手法はバイアスのある後続の信念を生み出すか、収束を評価するのが難しい。 そこで本研究では, 柔軟で任意に複雑で, スケーラブルな後方分布を規定するための新しい手法を提案する。 後方分布は、単純な初期確率を可逆変換の列を通してより複雑なものに変換する正規化流れ(nf)によって構成される。 さらに,新しい畳み込み正規化流(CNF)を開発し,時間効率の向上と層間依存性の捕捉を図る。 CNF DGPはDGPの最先端近似法よりも優れていた。

Deep Gaussian processes (DGPs), a hierarchical composition of GP models, have successfully boosted the expressive power than the single-layer counterpart. However, it is impossible to perform exact inference in DGPs, which has motivated the recent development of variational inference based methods. Unfortunately, these methods either yield a biased posterior belief or are difficult to evaluate the convergence. This paper, on the contrary, introduces a new approach for specifying flexible, arbitrarily complex, and scalable approximate posterior distributions. The posterior distribution is constructed through a normalizing flow (NF) which transforms a simple initial probability into a more complex one through a sequence of invertible transformations. Moreover, a novel convolutional normalizing flow (CNF) is developed to improve the time efficiency and capture dependency between layers. Empirical evaluation demonstrates that CNF DGP outperforms the state-of-the-art approximation methods for DGPs.
翻訳日:2021-04-20 13:44:01 公開日:2021-04-17
# ファジィペアワイズ制約を用いたファジィ判別クラスタリング

Fuzzy Discriminant Clustering with Fuzzy Pairwise Constraints ( http://arxiv.org/abs/2104.08546v1 )

ライセンス: Link先を確認
Zhen Wang, Shan-Shan Wang, Lan Bai, Wen-Si Wang, Yuan-Hai Shao(参考訳) 半教師付きファジィクラスタリングにおいて、本論文は従来のペアワイズ制約(すなわち、マスターリンクまたはノーリンク)をファジィペアワイズ制約に拡張する。 ファジィペアワイズ制約により、スーパーバイザは一対のサンプルの暗黙のファジィベクトル間の類似度または類似度を提供することができる。 この制約はサンプル間のより複雑な関係を示し、ファジィ特性の排除を避けることができる。 ファジィ判別クラスタリングモデル(fdc)を提案し,ファジィペアワイズ制約を融合する。 FDCにおける非凸最適化問題は、いくつかの不確定二次計画問題(IQPP)の解法を含む期待最大化アルゴリズムによって解決される。 さらに, 定常点が保証されるIQPPに対して, 対角ブロック座標正則 (DBCD) アルゴリズムを提案し, 一定の条件下で大域的解を求めることができる。 異なる応用に適合するため、fdc は様々な計量空間(例えば、再生核ヒルベルト空間)に拡張される。 いくつかのベンチマークデータセットと表情データベースによる実験結果は、いくつかの最先端クラスタリングモデルと比較して、FDCの高性能性を示している。

In semi-supervised fuzzy clustering, this paper extends the traditional pairwise constraint (i.e., must-link or cannot-link) to fuzzy pairwise constraint. The fuzzy pairwise constraint allows a supervisor to provide the grade of similarity or dissimilarity between the implicit fuzzy vectors of a pair of samples. This constraint can present more complicated relationship between the pair of samples and avoid eliminating the fuzzy characteristics. We propose a fuzzy discriminant clustering model (FDC) to fuse the fuzzy pairwise constraints. The nonconvex optimization problem in our FDC is solved by a modified expectation-maximization algorithm, involving to solve several indefinite quadratic programming problems (IQPPs). Further, a diagonal block coordinate decent (DBCD) algorithm is proposed for these IQPPs, whose stationary points are guaranteed, and the global solutions can be obtained under certain conditions. To suit for different applications, the FDC is extended into various metric spaces, e.g., the Reproducing Kernel Hilbert Space. Experimental results on several benchmark datasets and facial expression database demonstrate the outperformance of our FDC compared with some state-of-the-art clustering models.
翻訳日:2021-04-20 13:43:47 公開日:2021-04-17
# スケッチ構造正規化による生涯学習

Lifelong Learning with Sketched Structural Regularization ( http://arxiv.org/abs/2104.08604v1 )

ライセンス: Link先を確認
Haoran Li, Aditya Krishnan, Jingfeng Wu, Soheil Kolouri, Praveen K. Pilly, Vladimir Braverman(参考訳) 新しいタスクを継続的に学習しながら破滅的な忘れを防ぐことは、生涯学習において不可欠な問題である。 構造正規化 (SR) は、ネットワークを従来のタスクから「クリティカルパラメータ」を変更して新しいタスクを学習することで、破滅的な忘れを緩和するアルゴリズムのファミリーを指す。 このペナルティは、例えばElastic Weight Consolidation frameworkにおける(経験的)フィッシャー情報行列のように、 \emph{importance matrix} で定義される二次正則化器によってしばしば誘導される。 実際には、計算上の制約のため、ほとんどのSR手法は、その対角線による重要性行列を粗く近似する。 本稿では,SR手法の正則化に使用する重要行列を圧縮する代替手法として, \emph{Sketched Structure Regularization} (Sketched SR)を提案する。 具体的には,SRアルゴリズムの重要行列をより正確に近似するために, 'emph{linear sketching method} を適用する。 スケッチされたSR: (i) は計算的に効率的で実装が容易であり, (ii) 理論上正当化された近似誤差を提供し, (iii) 構造正則化クラスに属する任意のメソッドに適用可能であることを示す。 提案手法は,多変量MNISTやCIFAR-100など,合成実験とベンチマーク連続学習の両方において,SRアルゴリズムの性能を継続的に向上することを示す。

Preventing catastrophic forgetting while continually learning new tasks is an essential problem in lifelong learning. Structural regularization (SR) refers to a family of algorithms that mitigate catastrophic forgetting by penalizing the network for changing its "critical parameters" from previous tasks while learning a new one. The penalty is often induced via a quadratic regularizer defined by an \emph{importance matrix}, e.g., the (empirical) Fisher information matrix in the Elastic Weight Consolidation framework. In practice and due to computational constraints, most SR methods crudely approximate the importance matrix by its diagonal. In this paper, we propose \emph{Sketched Structural Regularization} (Sketched SR) as an alternative approach to compress the importance matrices used for regularizing in SR methods. Specifically, we apply \emph{linear sketching methods} to better approximate the importance matrices in SR algorithms. We show that sketched SR: (i) is computationally efficient and straightforward to implement, (ii) provides an approximation error that is justified in theory, and (iii) is method oblivious by construction and can be adapted to any method that belongs to the structural regularization class. We show that our proposed approach consistently improves various SR algorithms' performance on both synthetic experiments and benchmark continual learning tasks, including permuted-MNIST and CIFAR-100.
翻訳日:2021-04-20 13:43:28 公開日:2021-04-17
# ExTRACTOR:脅威レポートからの攻撃行動の抽出

EXTRACTOR: Extracting Attack Behavior from Threat Reports ( http://arxiv.org/abs/2104.08618v1 )

ライセンス: Link先を確認
Kiavash Satvat, Rigel Gjomemo and V.N. Venkatakrishnan(参考訳) サイバー脅威インテリジェンス(CTI)レポートに含まれる攻撃に関する知識は、サイバー脅威を効果的に識別し、迅速に対応するために非常に重要である。 しかし、この知識はしばしば大量のテキストに埋め込まれており、効果的に利用することは困難である。 この課題に対処するために,CTIレポートから簡潔な攻撃行動の正確な抽出を可能にするEXTRACTORという新しい手法とツールを提案する。 EXTRACTORはテキストについて強い仮定をせず、構造化されていないテキストから前兆グラフとして攻撃行動を抽出することができる。 我々は、様々なソースからの実際のインシデントレポートと、Windows、Linux、FreeBSDの様々なOSプラットフォームに対するいくつかのアタックキャンペーンを含むDARPA敵のエンゲージメントのレポートを用いて、EXTRACTORを評価した。 評価の結果,EXTRACTORはCTIレポートから簡潔な前駆グラフを抽出し,サイバー分析ツールによる脅威追跡に有効であることが示された。

The knowledge on attacks contained in Cyber Threat Intelligence (CTI) reports is very important to effectively identify and quickly respond to cyber threats. However, this knowledge is often embedded in large amounts of text, and therefore difficult to use effectively. To address this challenge, we propose a novel approach and tool called EXTRACTOR that allows precise automatic extraction of concise attack behaviors from CTI reports. EXTRACTOR makes no strong assumptions about the text and is capable of extracting attack behaviors as provenance graphs from unstructured text. We evaluate EXTRACTOR using real-world incident reports from various sources as well as reports of DARPA adversarial engagements that involve several attack campaigns on various OS platforms of Windows, Linux, and FreeBSD. Our evaluation results show that EXTRACTOR can extract concise provenance graphs from CTI reports and show that these graphs can successfully be used by cyber-analytics tools in threat-hunting.
翻訳日:2021-04-20 13:40:30 公開日:2021-04-17
# 分散ネットワークの異常エッジとノード接続性

Unveiling Anomalous Edges and Nominal Connectivity of Attributed Networks ( http://arxiv.org/abs/2104.08637v1 )

ライセンス: Link先を確認
Konstantinos D. Polyzos, Costas Mavromatis, Vassilis N. Ioannidis, and Georgios B. Giannakis(参考訳) 属性付きネットワークにおける異常の発見は、近ごろ人気を集めている。それは、データとネットワーク科学のアプリケーションに、‘IoT’(Internet of Things)、ファイナンス、セキュリティなど、さまざまな分野における、アウトレーヤの公開と敵の振る舞いのフラグ付けが重要であるためだ。 本研究は, 共役強度を持つ2つの異なる定式化を用いて, 属性グラフの異常エッジを明らかにすることを扱う。 まず、グラフデータマトリックスを低ランクとスパースコンポーネントに分解することで、パフォーマンスを著しく向上させる。 第2は、乱れのないグラフを頑健に復元することにより、第1のスコープを広げ、異常識別性能を高める。 新たな手法は,異なるコミュニティのノードをつなぐ異常なエッジをキャプチャするだけでなく,異なる特徴を持つ任意の2つのノード間のスプリアス接続もキャプチャする。 実データおよび合成データを用いた実験により,両手法の有効性が検証された。

Uncovering anomalies in attributed networks has recently gained popularity due to its importance in unveiling outliers and flagging adversarial behavior in a gamut of data and network science applications including {the Internet of Things (IoT)}, finance, security, to list a few. The present work deals with uncovering anomalous edges in attributed graphs using two distinct formulations with complementary strengths, which can be easily distributed, and hence efficient. The first relies on decomposing the graph data matrix into low rank plus sparse components to markedly improve performance. The second broadens the scope of the first by performing robust recovery of the unperturbed graph, which enhances the anomaly identification performance. The novel methods not only capture anomalous edges linking nodes of different communities, but also spurious connections between any two nodes with different features. Experiments conducted on real and synthetic data corroborate the effectiveness of both methods in the anomaly identification task.
翻訳日:2021-04-20 13:38:28 公開日:2021-04-17
# LiDAR深度完了のための表面形状モデル

A Surface Geometry Model for LiDAR Depth Completion ( http://arxiv.org/abs/2104.08466v1 )

ライセンス: Link先を確認
Yiming Zhao, Lin Bai, Ziming Zhang and Xinming Huang(参考訳) LiDARの深さ完了は対応するカメラフレーム上の各ピクセルの深さ値を予測するタスクである。 既存の最先端ソリューションのほとんどは、モデルトレーニングのために大量のデータと重い計算を必要とするディープニューラルネットワークに基づいている。 本稿では,外乱除去アルゴリズムによって強化された局所表面形状を利用して,新しい非学習深度補完法を提案する。 提案した表面幾何モデルは、深さの不明なほとんどのピクセルが近傍のLiDAR点を持つという観察に着想を得たものである。 したがって、これらの画素は同じ表面を最寄りのLiDAR点と共有し、それぞれの深さを最寄りのLiDAR深さ値と残留誤差と推定することができる。 残差誤差は、既知のカメラ固有のパラメータ、推定正規ベクトル、画像平面上のオフセット距離を含む、いくつかの物理パラメータを入力として導出した方程式を用いて算出される。 提案手法は,不正マップされたLiDAR点を隠蔽領域から除去するアルゴリズムにより,さらに拡張されている。 KITTIデータセットでは、提案手法は既存のすべての非学習手法の中で最高のエラー性能を達成し、最高の自己教師付き学習手法といくつかの教師付き学習手法に匹敵する。 さらに、隠蔽領域から外れた点が一般的な問題であるため、カメラとLiDARの両方のセンサーを備えた多くのロボットシステムに適用可能な、一般的な前処理ステップである。

LiDAR depth completion is a task that predicts depth values for every pixel on the corresponding camera frame, although only sparse LiDAR points are available. Most of the existing state-of-the-art solutions are based on deep neural networks, which need a large amount of data and heavy computations for training the models. In this letter, a novel non-learning depth completion method is proposed by exploiting the local surface geometry that is enhanced by an outlier removal algorithm. The proposed surface geometry model is inspired by the observation that most pixels with unknown depth have a nearby LiDAR point. Therefore, it is assumed those pixels share the same surface with the nearest LiDAR point, and their respective depth can be estimated as the nearest LiDAR depth value plus a residual error. The residual error is calculated by using a derived equation with several physical parameters as input, including the known camera intrinsic parameters, estimated normal vector, and offset distance on the image plane. The proposed method is further enhanced by an outlier removal algorithm that is designed to remove incorrectly mapped LiDAR points from occluded regions. On KITTI dataset, the proposed solution achieves the best error performance among all existing non-learning methods and is comparable to the best self-supervised learning method and some supervised learning methods. Moreover, since outlier points from occluded regions is a commonly existing problem, the proposed outlier removal algorithm is a general preprocessing step that is applicable to many robotic systems with both camera and LiDAR sensors.
翻訳日:2021-04-20 13:37:00 公開日:2021-04-17
# 非線形ハイパースペクトルアンミックスのためのモデルベースディープオートエンコーダネットワーク

Model-Based Deep Autoencoder Networks for Nonlinear Hyperspectral Unmixing ( http://arxiv.org/abs/2104.08409v1 )

ライセンス: Link先を確認
Haoqing Li, Ricardo Augusto Borsoi, Tales Imbiriba, Pau Closas, Jos\'e Carlos Moreira Bermudez, Deniz Erdo\u{g}mu\c{s}(参考訳) オートエンコーダ (AEC) ネットワークは近年,非教師付きハイパースペクトルアンミキシング (HU) を行うための有望な手法として,潜在表現を多元性,デコーダを混合モデル, エンコーダを逆性に関連付ける手法として出現している。 AECは非教師付きおよびモデルフリーなアルゴリズムにつながるため、非線形HUに特に魅力がある。 しかし、既存のアプローチでは、エンコーダが混合プロセスを反転させるべきであるという事実を探求できず、それによってロバスト性が低下する可能性がある。 本稿では,線形混合体上の非線形ゆらぎを混合モデルとして,非線形huのモデルベースaecを提案する。 従来の作品と異なるのは、この制限がエンコーダとデコーダネットワークの両方に固有の構造を自然に課すことである。 これにより、混合モデルの柔軟性を低下させることなく、AECに事前情報を導入する。 合成および実データを用いたシミュレーションは,提案手法が非線形huを改善することを示す。

Autoencoder (AEC) networks have recently emerged as a promising approach to perform unsupervised hyperspectral unmixing (HU) by associating the latent representations with the abundances, the decoder with the mixing model and the encoder with its inverse. AECs are especially appealing for nonlinear HU since they lead to unsupervised and model-free algorithms. However, existing approaches fail to explore the fact that the encoder should invert the mixing process, which might reduce their robustness. In this paper, we propose a model-based AEC for nonlinear HU by considering the mixing model a nonlinear fluctuation over a linear mixture. Differently from previous works, we show that this restriction naturally imposes a particular structure to both the encoder and to the decoder networks. This introduces prior information in the AEC without reducing the flexibility of the mixing model. Simulations with synthetic and real data indicate that the proposed strategy improves nonlinear HU.
翻訳日:2021-04-20 13:32:30 公開日:2021-04-17
# 深部生成モデルを用いた三次元空間における薬物様分子の設計

Learning to design drug-like molecules in three-dimensional space using deep generative models ( http://arxiv.org/abs/2104.08474v1 )

ライセンス: Link先を確認
Yibo Li, Jianfeng Pei and Luhua Lai(参考訳) 近年、分子グラフの深い生成モデルが、デ・ノボの薬物設計の分野でますます注目を集めている。 薬物様分子のトポロジー構造を生成するために様々なモデルが開発されているが、立体構造の生成に関する調査はまだ限られている。 既存の方法は、薬物類似性を考慮せずに低分子量化合物に焦点を当てるか、原子密度マップを用いて間接的に3D構造を生成する。 本稿では,高品質な3次元構造を持つ薬物様分子を設計するためのグラフ生成モデルLigand Neural Network (L-Net)を紹介する。 L-Netは分子(水素原子を含む)のトポロジカル構造と3D構造を直接出力し、追加の原子配置や結合秩序推論アルゴリズムを必要としない。 L-Netのアーキテクチャは特に薬物様分子に最適化されており、その性能を総合的に評価するために一連のメトリクスが組み立てられている。 その結果、L-Netは化学的に正しい、適合性があり、薬物のような分子を生成できることがわかった。 最後に、構造に基づく分子設計におけるその可能性を示すために、L-NetとMCTSを組み合わせて、ABL1キナーゼを標的とする潜在的阻害剤を生成する能力をテストする。

Recently, deep generative models for molecular graphs are gaining more and more attention in the field of de novo drug design. A variety of models have been developed to generate topological structures of drug-like molecules, but explorations in generating three-dimensional structures are still limited. Existing methods have either focused on low molecular weight compounds without considering drug-likeness or generate 3D structures indirectly using atom density maps. In this work, we introduce Ligand Neural Network (L-Net), a novel graph generative model for designing drug-like molecules with high-quality 3D structures. L-Net directly outputs the topological and 3D structure of molecules (including hydrogen atoms), without the need for additional atom placement or bond order inference algorithm. The architecture of L-Net is specifically optimized for drug-like molecules, and a set of metrics is assembled to comprehensively evaluate its performance. The results show that L-Net is capable of generating chemically correct, conformationally valid, and highly druglike molecules. Finally, to demonstrate its potential in structure-based molecular design, we combine L-Net with MCTS and test its ability to generate potential inhibitors targeting ABL1 kinase.
翻訳日:2021-04-20 13:32:09 公開日:2021-04-17
# スコアカードモデルのための最適反事実説明

Optimal Counterfactual Explanations for Scorecard modelling ( http://arxiv.org/abs/2104.08619v1 )

ライセンス: Link先を確認
Guillermo Navas-Palencia(参考訳) 反事実的説明は、近年注目を集めている機械学習モデルに説明可能性を提供するためのポストホック手法の1つである。 文献のほとんどの例では、ローン申請の拒絶後、ブラックボックス機械学習モデルのポストホック説明を生成する問題に対処している。 対照的に,本研究では,銀行業において主に融資を行うための解釈可能なモデルの一種であるスコアカードモデルの数学的プログラミング定式化について検討する。 提案した混合整数プログラミング定式化は、目的関数を組み合わせて、二進数、確率、連続的な結果に対する多目的最適化手法を用いて、密接で現実的でスパースなカウンターファクトを確実にする。 さらに,これらの定式化を拡張して,多様性を確保しつつ,複数の最適対策を同時に生成する。 2つの実世界のデータセットの実験により、提案されたアプローチは、望ましい特性に対処する最適な多種多様なカウンターファクトを生成できることを確認した。

Counterfactual explanations is one of the post-hoc methods used to provide explainability to machine learning models that have been attracting attention in recent years. Most examples in the literature, address the problem of generating post-hoc explanations for black-box machine learning models after the rejection of a loan application. In contrast, in this work, we investigate mathematical programming formulations for scorecard models, a type of interpretable model predominant within the banking industry for lending. The proposed mixed-integer programming formulations combine objective functions to ensure close, realistic and sparse counterfactuals using multi-objective optimization techniques for a binary, probability or continuous outcome. Moreover, we extend these formulations to generate multiple optimal counterfactuals simultaneously while guaranteeing diversity. Experiments on two real-world datasets confirm that the presented approach can generate optimal diverse counterfactuals addressing desired properties with assumable CPU times for practice use.
翻訳日:2021-04-20 13:31:48 公開日:2021-04-17