このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210425となっている論文です。

PDF登録状況(公開日: 20210425)

TitleAuthorsAbstract論文公表日・翻訳日
# 重力子と光子との相互作用特性

Characteristics of interaction between Gravitons and Photons ( http://arxiv.org/abs/2001.10196v2 )

ライセンス: Link先を確認
Athira B S, Susobhan Mandal, Subhashish Banerjee(参考訳) 二元融合による重力波の直接検出は、世紀の発見として称賛されている。 重力波の存在に関する最近の証拠から、コンパクト天体や異なる力学時空における極限条件下での物質の性質を知ることができるようになった。 本論文の一番のテーマは、天体物理観測に使用できる光子と重力子の相互作用の様々な特徴を明らかにすることである。 光-物質カップリングと自己相互作用項を含む相互作用光子の効果的な作用は、物質と光子の両方に結合した重力自由度を排除することによって構成される。 物質の状態方程式は、この理論における光のダイナミクスから探せることが示されている。 真空複屈折はゲージ場間の自己相互作用の非線形の性質から生じるこの理論の一般的な性質でもある。 さらに, 分散関係を変化させた量子有効作用の非局所的性質についても詳細に論じる。 以上の結果は、光子-重力相互作用の特徴を用いて直接測定することなく重力波の性質を推測する別の方法でもある。

The direct detection of gravitational waves from binary mergers has been hailed as the discovery of the century. In the light of recent evidence on the existence of gravitational waves, it is now possible to know about the properties of matter under extreme conditions in compact astrophysical objects and different dynamical spacetimes. The foremost theme of the present article is to bring out the various features of the interaction between photons and gravitons that can be used in astrophysical observations. The effective action of interacting photons containing light-matter coupling and self-interaction term is constructed by eliminating the graviton degrees of freedom coupled to both matter and photons. It is shown that the equation of state of matter can be probed from the dynamics of light in this theory. The vacuum birefringence is also shown to be a generic property in this theory that arises from the non-linear nature of the self-interaction between gauge fields. Further, the non-local nature of quantum effective action with modified dispersion relation is also discussed in great detail. The above results also open an alternate way to infer the properties of gravitational waves without their direct measurement using the features of photon-graviton interaction.
翻訳日:2023-06-05 09:13:35 公開日:2021-04-25
# 新型コロナウイルス時代の道徳的判断:あなたの選択は本当に重要だ

Moral decisions in the age of COVID-19: your choices really matter ( http://arxiv.org/abs/2004.07081v2 )

ライセンス: Link先を確認
Francesco Donnarumma and Giovanni Pezzulo(参考訳) この期間、検疫規則に従うかどうかなどの道徳的な決定は、前例のない社会的な影響をもたらす。 我々は、2020年3月7日~8日にかけて、多くの旅行者がハイリスクゾーン(ミラノ)からイタリア南部(カンパニア、ラツィオ)に移動した際に発生した「ミラノからの脱出」をシミュレートした。 シミュレーションの結果,これらの地域では50例以下のウイルスが突然の感染拡大を引き起こした可能性が示唆された。 社会的ダイナミクスに対する少数の個人の行動の驚くべき影響は、通常の状況のように、集団的ダイナミクスはより少数の「チーター」の決定に対して比較的堅牢である、という私たちの認知的期待に挑戦する。 この状況は、我々の個々人の道徳的決定に対する前例のない影響に対する認識と理解を高める新しい教育戦略を必要とする。

The moral decisions we make during this period, such as deciding whether to comply with quarantine rules, have unprecedented societal effects. We simulate the "escape from Milan" that occurred on March 7th-8th 2020, when many travelers moved from a high-risk zone (Milan) to southern regions of Italy (Campania and Lazio) immediately after an imminent lockdown was announced. Our simulations show that fewer than 50 active cases might have caused the sudden spread of the virus observed afterwards in these regions. The surprising influence of the actions of few individuals on societal dynamics challenges our cognitive expectations -- as in normal conditions, collective dynamics are rather robust to the decisions of few "cheaters". This situation therefore requires novel educational strategies that increase our awareness and understanding of the unprecedented effects of our individual moral decisions.
翻訳日:2023-05-23 11:30:09 公開日:2021-04-25
# 初心者にプログラミングを教える - App Inventorプロジェクトの大規模分析

Teaching Programming to Novices: A Large-scale Analysis of App Inventor Projects ( http://arxiv.org/abs/2006.11327v2 )

ライセンス: Link先を確認
Nathalia da Cruz Alves, Christiane Gresse von Wangenheim and Jean Carlo Rossa Hauck(参考訳) K-12学生にプログラミングを教えることが重要である。 このような状況下では、App Inventorは、K-12から高等教育まで、主要な仕事や趣味をサポートするモバイルアプリケーションを開発するエンドユーザを含む、幅広い聴衆が使用しているブロックベースのプログラミング環境である。 App Inventorでプログラミングを学ぶことは研究されているが、どのプログラミング概念が一般的に使われているのか、他のブロックベースのプログラミング環境と比べてどうか、という疑問が残る。 そこで,App Inventor Galleryの88,606本のアプリを大規模に分析し,App Inventorプロジェクトの特徴を考察した。 App Inventorプロジェクトの規模は、ごくわずかのブロックを持つプロジェクトから、6万ブロックを超える驚くほど大きなプロジェクトまで様々です。 一般的には、プログラミングブロックよりもデザインコンポーネントがはるかに少ないため、一般的には、適切に動作するためには、app inventorプロジェクトの各デザインコンポーネントに、いくつかのプログラミングブロックが必要になる。 また,AivaloglouとHermansが報告した233,491のScratchプロジェクトの解析結果と比較した [4]。 app inventorプロジェクトのイベントがより優勢であるように、条件付きやループの使用が少なくなるなど、いくつかの違いが見られる。 これらの発見は、特定の学習目標に応じてコンピューティングを教えるためのApp Inventorの採用に関する決定を導いたり、カリキュラムの調整の必要性を示したりすることができる。

Teaching programming to K-12 students has become essential. In this context, App Inventor is a popular block-based programming environment used by a wide audience, from K-12 to higher education, including end-users to create mobile applications to support their primary job or hobbies. Although learning programming with App Inventor has been investigated, a question that remains is which programming concepts are typically used and how this compares to other block-based programming environments. Therefore, we explore the characteristics of App Inventor projects through a large-scale analysis of 88,606 apps from the App Inventor Gallery. We discovered that the size of App Inventor projects varies from projects with very few blocks to some surprisingly large projects with more than 60,000 blocks. In general, much fewer design components are used than programming blocks, as typically, to work properly, several programming blocks are necessary for each design component in an App Inventor project. In addition, we also compare our results with the analysis of 233,491 Scratch projects reported by Aivaloglou and Hermans [4]. Several differences can be observed, as in App Inventor projects events are more predominant, with lesser use of conditionals and loops. These findings may guide the decision on the adoption of App Inventor for teaching computing depending on the specific learning objectives or indicate the need for tailoring the curricula.
翻訳日:2023-05-13 11:15:13 公開日:2021-04-25
# ナノ結晶物質波干渉法における相対的加速ノイズ緩和:量子重力による質量の絡み合いへの応用

Relative Acceleration Noise Mitigation for Nanocrystal Matter-wave Interferometry: Application to Entangling Masses via Quantum Gravity ( http://arxiv.org/abs/2007.15029v2 )

ライセンス: Link先を確認
Marko Toro\v{s}, Thomas W. van de Kamp, Ryan J. Marshman, M. S. Kim, Anupam Mazumdar, Sougato Bose(参考訳) 特定の実装にかかわらず、大きな運動量移動を持つ物質波干渉計は、インターフェロメトリ質量と関連する装置の間の相対加速度により、普遍的に劣化する。 本稿では, 相対加速度を積極的に追跡することなく, 干渉質量と関連する装置の両方を自由に落下カプセルに配置し, 等価原理により最強の慣性雑音成分が消滅する解を提案する。 この設定では、最も重要な残音源を2つ調べる。 (a)実験装置の非慣性ジッタと (b)重力勾配ノイズ。 前者は適切な圧力と温度で所望値以下に低減でき、後者は制御された環境下で完全に緩和可能であることを示す。 我々はついに、重力の量子的性質(S. Bose et. al. Phys. Rev. Lett 119, 240401 (2017))をテストするための最近の提案にこの分析を適用した。 関係する絡み合いの目撃は、相対加速度雑音のレベルが達成可能であることを示す。

Matter wave interferometers with large momentum transfers, irrespective of specific implementations, will face a universal dephasing due to relative accelerations between the interferometric mass and the associated apparatus. Here we propose a solution that works even without actively tracking the relative accelerations: putting both the interfering mass and its associated apparatus in a freely falling capsule, so that the strongest inertial noise components vanish due to the equivalence principle. In this setting, we investigate two of the most important remaining noise sources: (a) the non-inertial jitter of the experimental setup and (b) the gravity-gradient noise. We show that the former can be reduced below desired values by appropriate pressures and temperatures, while the latter can be fully mitigated in a controlled environment. We finally apply the analysis to a recent proposal for testing the quantum nature of gravity [S. Bose et. al. Phys. Rev. Lett 119, 240401 (2017)] through the entanglement of two masses undergoing interferometry. We show that the relevant entanglement witnessing is feasible with achievable levels of relative acceleration noise.
翻訳日:2023-05-07 20:22:40 公開日:2021-04-25
# 多層ネットワークにおける古典的および量子的ランダムウォーク中心度測定

Classical and quantum random-walk centrality measures in multilayer networks ( http://arxiv.org/abs/2012.07157v2 )

ライセンス: Link先を確認
Lucas B\"ottcher and Mason A. Porter(参考訳) 多層ネットワーク解析は多様な多元関係を持つ実体の構造的性質を研究するのに有用な手法である。 ノードとノード層タプルの重要性を分類することは、多層ネットワークの研究の重要な側面である。 これを行うには、様々な構造的特徴に応じてノードとノード層をランク付けできる様々な集中度尺度を計算することが一般的である。 本稿では,多層ネットワーク上の異なる種類の連続時間古典的・量子的ランダムウォークのノード占有特性の観点から,占有率,ページランク,間隙率,近接性中心性を定式化する。 我々は,本フレームワークを様々な合成および実世界の多層ネットワークに適用し,古典的および量子的中心性尺度の顕著な差異を同定する。 また,ランダムウォークとジオデシックパスの相関関係についても考察した。

Multilayer network analysis is a useful approach for studying the structural properties of entities with diverse, multitudinous relations. Classifying the importance of nodes and node-layer tuples is an important aspect of the study of multilayer networks. To do this, it is common to calculate various centrality measures, which allow one to rank nodes and node-layers according to a variety of structural features. In this paper, we formulate occupation, PageRank, betweenness, and closeness centralities in terms of node-occupation properties of different types of continuous-time classical and quantum random walks on multilayer networks. We apply our framework to a variety of synthetic and real-world multilayer networks, and we identify marked differences between classical and quantum centrality measures. Our computations also give insights into the correlations between certain random-walk-based and geodesic-path-based centralities.
翻訳日:2023-04-20 23:23:15 公開日:2021-04-25
# 真空中における光共振ナノ粒子の6GHz超高速回転

6 GHz hyperfast rotation of an optically levitated nanoparticle in vacuum ( http://arxiv.org/abs/2012.09693v2 )

ライセンス: Link先を確認
Yuanbin Jin, Jiangwei Yan, Shah Jee Rahman, Jie Li, Xudong Yu, Jing Zhang(参考訳) 我々は,光浮遊ナノ粒子系における記録破りの超高回転周波数を約6GHzで観測した。 ナノ微粒子を高数値開口(na)対物レンズで重力方向に光学的に捕捉し、特に中間圧力(約100pa)において散乱力と光泳動力の影響を補償する大きな利点を示す。 これにより、フィードバック冷却を用いることなく、ナノ粒子を大気から低気圧(10^{-3}$ Pa)にトラップすることができる。 得られたナノ粒子の最大回転周波数は4.3GHzであり, フィードバック冷却による6GHz回転は, これまでに報告された中で最速の機械回転である。 本研究は,光浮上系の超高速回転を効率的に観測するための有用なガイドを提供し,超感度トルク検出,真空摩擦の検出,非コンベンションデコヒーレンス理論の検証など様々な応用法を見いだすことができる。

We report an experimental observation of a record-breaking ultra-high rotation frequency about 6 GHz in an optically levitated nanoparticle system. We optically trap a nanoparticle in the gravity direction with a high numerical aperture (NA) objective lens, which shows significant advantages in compensating the influences of the scattering force and the photophoretic force on the trap, especially at intermediate pressure (about 100 Pa). This allows us to trap a nanoparticle from atmospheric to low pressure ($10^{-3}$ Pa) without using feedback cooling. We measure a highest rotation frequency about 4.3 GHz of the trapped nanoparticle without feedback cooling and a 6 GHz rotation with feedback cooling, which is the fastest mechanical rotation ever reported to date. Our work provides useful guides for efficiently observing hyperfast rotation in the optical levitation system, and may find various applications such as in ultrasensitive torque detection, probing vacuum friction, and testing unconventional decoherence theories.
翻訳日:2023-04-20 08:25:35 公開日:2021-04-25
# 量子回路としての時空

Spacetime as a quantum circuit ( http://arxiv.org/abs/2101.01185v2 )

ライセンス: Link先を確認
A. Ramesh Chandra, Jan de Boer, Mario Flory, Michal P. Heller, Sergio H\"ortner, Andrew Rolph(参考訳) ホログラフィック時空の有限カットオフ領域は、異なる時間における境界状態とウィルソンカットオフの間を写像する量子回路を表し、それらの量子回路の複雑性は重力作用によって与えられる。 最適回路は重力作用を最小化する。 これは、非最適化回路に対する「複雑度等容容積」予想と有限カットオフへの経路積分最適化の両方の一般化である。 ホログラフィック $t\bar t$ のツールを使うことで、定数スカラー曲率の表面が量子回路の最適化において特別な役割を果たすことが分かる。 また,本提案のキネマティック空間への興味深い接続を見いだし,重力作用の回路表現とゲートカウントの解釈について考察した。

We propose that finite cutoff regions of holographic spacetimes represent quantum circuits that map between boundary states at different times and Wilsonian cutoffs, and that the complexity of those quantum circuits is given by the gravitational action. The optimal circuit minimizes the gravitational action. This is a generalization of both the "complexity equals volume" conjecture to unoptimized circuits, and path integral optimization to finite cutoffs. Using tools from holographic $T\bar T$, we find that surfaces of constant scalar curvature play a special role in optimizing quantum circuits. We also find an interesting connection of our proposal to kinematic space, and discuss possible circuit representations and gate counting interpretations of the gravitational action.
翻訳日:2023-04-17 22:07:32 公開日:2021-04-25
# 相対性理論としての普遍定数

Universal Constants as Manifestations of Relativity ( http://arxiv.org/abs/2103.13854v2 )

ライセンス: Link先を確認
A. A. Sheykin(参考訳) J の分類による「ユニバーサル定数」の解釈について検討する。 ~M。 L'evy-Leblond $\hbar$ と $c$ は、この型の定数の最も一般的な例である。 Fock の相対性理論 w.r.t. 観測は、$c$ と $\hbar$ の両方をある相対性理論の表象と見なせることを示す。 また、ボルツマン定数を同様の方法で解釈できる可能性を示し、定数時空曲率と重力定数$G$の相対論的解釈についていくつかのコメントを行う。

We study the possible interpretation of the "universal constants" by the classification of J.~M.~L\'evy-Leblond. $\hbar$ and $c$ are the most common example of constants of this type. Using Fock's principle of the relativity w.r.t. observation means, we show that both $c$ and $\hbar$ can be viewed as manifestations of certain relativity. We also show that there is a possibility to interpret the Boltzmann's constant in a similar way, and make some comments about the relativistic interpretation of the constant spacetime curvature and gravitational constant $G$.
翻訳日:2023-04-06 21:44:06 公開日:2021-04-25
# nonadiabtic quantum-classical dynamicsのための一般化離散切断ウィグナー近似

Generalized Discrete Truncated Wigner Approximation for Nonadiabtic Quantum-Classical Dynamics ( http://arxiv.org/abs/2104.07139v2 )

ライセンス: Link先を確認
Haifeng Lang, Oriol Vendrell and Philipp Hauke(参考訳) 非断熱分子動力学は、電子励起状態を含む幅広い化学反応やフェムトケミカル実験で起こる。 これらの力学は、システムの複雑さが増大するにつれて数値的に扱うことは困難であり、そのシミュレーションに正確かつ安価な方法を持つことが望ましい。 本稿では, 量子スピン格子系においてよく確立された線形化半古典的手法である一般化離散トランキャットウィグナー近似(GDTWA)を, 化学非線形系のアリーナに導入する。 meyer-miller-stock-thoss や spin mappings のような従来の連続写像のアプローチとは対照的に、gdtwa は離散位相空間における電子自由度をサンプリングし、電子状態の非物理的無界な成長を禁じている。 離散サンプリングはまた、明示的なパラメータを使わずに効果的に減少するが、消滅しないゼロ点エネルギーを考慮し、同一演算子や他の演算子を平等な足場で扱うことができる。 2つの線形ビブロニックカップリングモデルの数値ベンチマークが示すように、GDTWAは、力学が緩和かコヒーレント相互作用によって支配されるかに関わらず、幅広いパラメータ構造において満足な精度を持つ。 本手法は, 化学および関連分野における非断熱力学問題の解決に極めて適している可能性が示唆された。

Nonadiabatic molecular dynamics occur in a wide range of chemical reactions and femtochemistry experiments involving electronically excited states. These dynamics are hard to treat numerically as the system's complexity increases and it is thus desirable to have accurate yet affordable methods for their simulation. Here, we introduce a linearized semiclassical method, the generalized discrete truncated Wigner approximation (GDTWA), which is well-established in the context of quantum spin lattice systems, into the arena of chemical nonadiabatic systems. In contrast to traditional continuous mapping approaches, e.g. the Meyer-Miller-Stock-Thoss and the spin mappings, GDTWA samples the electron degrees of freedom in a discrete phase space, and thus forbids an unphysical unbounded growth of electronic state populations. The discrete sampling also accounts for an effective reduced but non-vanishing zero-point energy without an explicit parameter, which makes it possible to treat the identity operator and other operators on an equal footing. As numerical benchmarks on two Linear Vibronic Coupling models show, GDTWA has a satisfactory accuracy in a wide parameter regime, independently of whether the dynamics is dominated by relaxation or by coherent interactions. Our results suggest that the method can be very adequate to treat challenging nonadiabatic dynamics problems in chemistry and related fields.
翻訳日:2023-04-03 20:54:53 公開日:2021-04-25
# pq$ペニーフリップゲームと二面体グループの関係

The connection between the $PQ$ penny flip game and the dihedral groups ( http://arxiv.org/abs/2104.12043v1 )

ライセンス: Link先を確認
Theodore Andronikos and Alla Sirokofskich(参考訳) 本稿はpqペニーフリップゲームに着想を得たものである。 グループ理論的な概念を用いてオリジナルゲームとその拡張も研究している。 PQ ペニーフリップゲームは二面群 $D_{8}$ に関連付けられることを示す。 我々は、$d_{8}$の範囲内でちょうど2つの勝利戦略が存在することを証明し、確率$1.0$でqの勝利を保証できる2つの異なる状態列が存在することを確定する。 また、このゲームはすべての二面体群$D_{8 n}$, $n \geq 1$でプレイでき、大きな変化はないことを示す。 q が $u(2)$ 全体から彼の動きを引けるとき何が起こるかを調べ、再び、q の勝利戦略のクラスはちょうど2つあり、各クラスは無限個の等価戦略を含んでいるが、いずれも前と同じ状態を通じて硬貨を送信していると結論づける。 最後に、量子プレーヤが処理時に$U(2)$を持つようなゲームの拡張を考える。 我々は、Qが確実にピカールに勝つためには、彼は第1と最終の両方をしなければならないことを証明している。

This paper is inspired by the PQ penny flip game. It employs group-theoretic concepts to study the original game and also its possible extensions. We show that the PQ penny flip game can be associated with the dihedral group $D_{8}$. We prove that within $D_{8}$ there exist precisely two classes of winning strategies for Q. We establish that there are precisely two different sequences of states that can guaranteed Q's win with probability $1.0$. We also show that the game can be played in the all dihedral groups $D_{8 n}$, $n \geq 1$, with any significant change. We examine what happens when Q can draw his moves from the entire $U(2)$ and we conclude that again, there are exactly two classes of winning strategies for Q, each class containing now an infinite number of equivalent strategies, but all of them send the coin through the same sequence of states as before. Finally, we consider general extensions of the game with the quantum player having $U(2)$ at his disposal. We prove that for Q to surely win against Picard, he must make both the first and the last move.
翻訳日:2023-04-02 11:13:56 公開日:2021-04-25
# 進化的共設計における品質多様性の探索とソフトテンセグリティモジュールロボットの制御

Seeking Quality Diversity in Evolutionary Co-design of Morphology and Control of Soft Tensegrity Modular Robots ( http://arxiv.org/abs/2104.12175v1 )

ライセンス: Link先を確認
Enrico Zardini, Davide Zappetti, Davide Zambrano, Giovanni Iacca, Dario Floreano(参考訳) モルフォロジーとコントローラの非自明な相互作用のため、最適なソフトモジュラーロボットの設計は困難である。 進化的アルゴリズム(EA)と物理シミュレータの組み合わせは、この問題を克服するための有効なツールである。 本研究は,2つのロボット作業,すなわち目標到達と狭い通路のスキューズングのための,テンセグリティソフトモジュールロボット(TSMR)の共進化設計における品質多様性向上のためのアルゴリズム的解について検討する。 この目的のために、MAP-Elites と Viability Evolution (ViE) と NEAT (ViE-NEAT) の3つの異なる EA を使用し、ロボット形態学とニューラルネットワーク(NN) ベースのコントローラを共進化させながら多様性を求めることを考案した。 詳しくは、DM-MEはMAP-Elitesを拡張し、それぞれ形態学とコントローラを参照する2つの特徴マップを使用し、NN関連の特徴記述子を自動的に定義するメカニズムを統合する。 適合性を考慮すると、ゴール取得タスクViE-NEATはMAP-Elitesを上回り、DM-MEに相当する結果が得られる。 代わりに、特徴空間の「照明」の観点から多様性を考えると、DM-MEは両方のタスクにおいて他の2つのアルゴリズムよりも優れており、ロボット設計の豊富なプールを提供し、一方、ViE-NEATはゴール到達時のMAP-Elitesに匹敵する性能を示しているが、地図は利用していない。

Designing optimal soft modular robots is difficult, due to non-trivial interactions between morphology and controller. Evolutionary algorithms (EAs), combined with physical simulators, represent a valid tool to overcome this issue. In this work, we investigate algorithmic solutions to improve the Quality Diversity of co-evolved designs of Tensegrity Soft Modular Robots (TSMRs) for two robotic tasks, namely goal reaching and squeezing trough a narrow passage. To this aim, we use three different EAs, i.e., MAP-Elites and two custom algorithms: one based on Viability Evolution (ViE) and NEAT (ViE-NEAT), the other named Double Map MAP-Elites (DM-ME) and devised to seek diversity while co-evolving robot morphologies and neural network (NN)-based controllers. In detail, DM-ME extends MAP-Elites in that it uses two distinct feature maps, referring to morphologies and controllers respectively, and integrates a mechanism to automatically define the NN-related feature descriptor. Considering the fitness, in the goal-reaching task ViE-NEAT outperforms MAP-Elites and results equivalent to DM-ME. Instead, when considering diversity in terms of "illumination" of the feature space, DM-ME outperforms the other two algorithms on both tasks, providing a richer pool of possible robotic designs, whereas ViE-NEAT shows comparable performance to MAP-Elites on goal reaching, although it does not exploit any map.
翻訳日:2023-04-02 11:10:52 公開日:2021-04-25
# 高次多項式に対する二相正則秘密共有

Two-Server Verifiable Homomorphic Secret Sharing for High-Degree Polynomials ( http://arxiv.org/abs/2104.12163v1 )

ライセンス: Link先を確認
Xin Chen, Liang Feng Zhang(参考訳) ホモモルフィックシークレット・シェアリング(HSS)は、複数の入力クライアントが複数のサーバ間でデータを秘密にすることで、各サーバが共有する関数をローカルに計算して部分的な結果を得ることができ、全ての部分的な結果が出力クライアントによってアウトソースされたデータ上の関数の値の再構築を可能にする。 高次多項式に対する既存の HSS スキームは、アウトソースされた計算の正しさを保証するのに不可欠である、大量のサーバを必要とするか、あるいは検証不可能である。 本稿では,2サーバ検証可能なhss(vhss)モデルを提案し,高次多項式の計算を支援するスキームを構築する。 アウトソースされた多項式の度合いは、システムのセキュリティパラメータの多項式に匹敵する。 2つのサーバしか使用していないにも関わらず、当社のvhssでは、各サーバがアウトソースデータに関する情報を学ばず、クライアントに間違った関数値を出力するよう説得することはできません。 VHSSははるかに効率的です。 次数7の多項式を計算する場合、我々のスキームは以前の最良の構成より310倍高速になる。

Homomorphic secret sharing (HSS) allows multiple input clients to secret-share their data among multiple servers such that each server is able to locally compute a function on its shares to obtain a partial result and all partial results enable the reconstruction of the function's value on the outsourced data by an output client. The existing HSS schemes for {\em high-degree} polynomials either {\em require a large number of servers} or {\em lack verifiability}, which is essential for ensuring the correctness of the outsourced computations. In this paper, we propose a two-server verifiable HSS (VHSS) model and construct a scheme that supports the computation of high-degree polynomials. The degree of the outsourced polynomials can be as high as a polynomial in the system's security parameter. Despite of using only 2 servers, our VHSS ensures that each single server learns no information about the outsourced data and no single server is able to persuade the client to output a wrong function value. Our VHSS is significantly more efficient. When computing degree-7 polynomials, our scheme could be 3-10 times faster than the previously best construction.
翻訳日:2023-04-02 11:10:20 公開日:2021-04-25
# 準エクササイズアプローチによる踏切回避

Avoided level crossings in quasi-exact approach ( http://arxiv.org/abs/2104.12144v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 量子トンネルの存在は、そのパラメータの小さな変更の後、系の突然の空間的再局在の可能性を開く。 このようなトムの古典的大惨事の量子類似性は、エネルギー準位の交差を避けることによって平行される確率密度の最大値の再順序付けによって実験的に表される。 この現象は摂動に過敏なため、どんなモデル(例えば、いくつかの明らかなミニマを持つ分析ポテンシャルによって記述される)でもそのような不安定性に近い説明は困難である。 ここでは再局在化インスタントの系統的完全(あるいはより優れた)構成を提案する。 その応用は、一次元臨界インスタント設定において考慮されている。 この手法は、関連する非数的な多ガウス波動関数とともに、相互に一貫した非ポリノミカル解析ポテンシャルを与える。

The existence of quantum tunneling opens the possibility of a sudden spatial relocalization of a system after a minor modification of its parameters. Such a quantum analogue of the Thom's classical catastrophe would manifest itself, experimentally, via a reordering of the maxima of the probability density paralleled by avoided crossings of the energy levels. Any model (described, say, by an analytic potential with several pronounced minima) is difficult to describe near such an instability because the phenomenon is oversensitive to perturbations. A systematic exact (or, better, quasi-exact) construction of the relocalization instants is proposed here. Its application is considered in the one-dimensional critical-instant setup. The approach is shown to yield the mutually consistent non-polynomial analytic potentials together with the related non-numerical multi-Gaussian-shaped wave functions.
翻訳日:2023-04-02 11:09:59 公開日:2021-04-25
# 短絡から断熱までの高速で安定した充電

Fast and stable charging via a shortcut to adiabaticity ( http://arxiv.org/abs/2104.12143v1 )

ライセンス: Link先を確認
Hanyuan Hu, Shifan Qi, Jun Jing(参考訳) 量子電池(Quantum battery)は、量子力学の分野における新たな課題であり、量子系におけるエネルギーのチャージ、保存、ディスパッチに応用される。 本研究では,3レベル量子電池の暗黒状態に対する断熱的進化に基づく高速で安定した充電プロトコルを提案する。 これは従来の刺激型ラマン断熱通路(stirap)と量子遷移なし駆動技術を組み合わせたものである。 反ダイアバティック駆動の強度に制約があっても、充電プロセスは最大1桁まで加速することができる。 stirapの典型的なプラットフォームとしてrydberg原子系で充電プロトコルを実行するために、禁止遷移の制約を避けるために前提となる駆動パルスを変更する。 さらに,本プロトコルは従来のSTIRAPよりも環境の消耗や嫌悪に対して堅牢であることがわかった。

Quantum battery is an emerging subject in the field of quantum thermodynamics, which is applied to charge, store and dispatch energy in quantum systems. In this work, we propose a fast and stable charging protocol based on the adiabatic evolution for the dark state of a three-level quantum battery. It combines the conventional stimulated Raman adiabatic passage (STIRAP) and the quantum transitionless driving technique. The charging process can be accelerated up to nearly one order in magnitude even under constraint of the strength of counter-diabatic driving. To perform the charging protocol in the Rydberg atomic system as a typical platform for STIRAP, the prerequisite driving pulses are modified to avoid the constraint of the forbidden transition. Moreover, our protocol is found to be more robust against the environmental dissipation and dephasing than the conventional STIRAP.
翻訳日:2023-04-02 11:09:47 公開日:2021-04-25
# 先行性について--共通法に関する情報理論分析

What About the Precedent: An Information-Theoretic Analysis of Common Law ( http://arxiv.org/abs/2104.12133v1 )

ライセンス: Link先を確認
Josef Valvoda, Tiago Pimentel, Niklas Stoehr, Ryan Cotterell, Simone Teufel(参考訳) 一般的な法律では、新しい事件の結果は主に既存の法令ではなく前例によって決定される。 しかし、この前例は新しい事件の結果にどのように影響しますか。 この質問に答えることは公正かつ一貫した司法判断を保証する上で重要である。 ハルズベリーは、前例の議論が結果の主要な決定要因であると信じており、グッドハートは、最も重要なことは前例の事実であると信じている。 我々は、欧州人権裁判所(ECtHR)の訴訟のコーパスに基づく調査を行い、事件そのものだけでなく、裁判官の議論(前例)に引用される事例にもアクセスできるようにした。 情報理論的な視点とケース・アウトカム分類タスクとしての質問をモデル化すると、先例の議論は、事件の結果と0.38ナットの情報を共有しているのに対し、先例の事実は0.18ナットの情報(すなわち58%未満)しか共有していないのに対し、ハルズベリーの見解は、この特定の裁判所においてより正確である可能性がある。 しかしながら、我々は、グッドハートの見解が支配的な特定の像が存在するという定性的な分析で発見し、これらの証拠は、手元の法的概念がより単純でないものであることを示している。

In common law, the outcome of a new case is determined mostly by precedent cases, rather than by existing statutes. However, how exactly does the precedent influence the outcome of a new case? Answering this question is crucial for guaranteeing fair and consistent judicial decision-making. We are the first to approach this question computationally by comparing two longstanding jurisprudential views; Halsbury's, who believes that the arguments of the precedent are the main determinant of the outcome, and Goodhart's, who believes that what matters most is the precedent's facts. We base our study on the corpus of legal cases from the European Court of Human Rights (ECtHR), which allows us to access not only the case itself, but also cases cited in the judges' arguments (i.e. the precedent cases). Taking an information-theoretic view, and modelling the question as a case outcome classification task, we find that the precedent's arguments share 0.38 nats of information with the case's outcome, whereas precedent's facts only share 0.18 nats of information (i.e., 58% less); suggesting Halsbury's view may be more accurate in this specific court. We found however in a qualitative analysis that there are specific statues where Goodhart's view dominates, and present some evidence these are the ones where the legal concept at hand is less straightforward.
翻訳日:2023-04-02 11:09:18 公開日:2021-04-25
# データプライバシのコストに関する調査報告

A Report on the Cost of Data Privacy ( http://arxiv.org/abs/2105.06263v1 )

ライセンス: Link先を確認
Monika Balamurugan(参考訳) われわれの生活がデジタルの世界に移行するにつれて、われわれのオンラインアイデンティティーは、オンラインおよびオフライン生活のあらゆる側面に関するデータ収集の強化へと進化してきた。 このデータは、さまざまな分析に利用したい企業にとって非常に魅力的だ。 このレポートでは、データがどのように追跡されているか、いつ、どこで、どの企業がどの企業によって追跡されているのか、あいまいな理解しか持たない世界中の消費者に意識を与えます。

As our lives migrate to the digital realm, our online identity has evolved to become an increasingly robust collection of data about every aspect of our online and offline lives. This data is extremely appealing to companies who wish to use it for a variety of analytics. In this report, we create awareness for the consumers around the world who have only a vague understanding of how much of their data is being tracked, where, when, and by which companies.
翻訳日:2023-04-02 11:01:13 公開日:2021-04-25
# 計算グループ選択

Computational Group Selection ( http://arxiv.org/abs/2104.12279v1 )

ライセンス: Link先を確認
Nripsuta Saxena(参考訳) 人間は人生の大部分をグループの一員として過ごす。 本稿では,生産的グループを計算的に形成可能にするための研究方向を提案する。 私たちは、この目標の追求(例えば、既存のバイアスや不平等を増幅しない)に対処する必要があるいくつかの問題と、このタスクを効率的に達成するための複数の研究の道をもたらす。

Humans spend a significant part of their lives being a part of groups. In this document we propose research directions that would make it possible to computationally form productive groups. We bring to light several issues that need to be addressed in the pursuit of this goal (not amplifying existing biases and inequality, for example), as well as multiple avenues to study that would help achieve us this task efficiently.
翻訳日:2023-04-02 11:01:04 公開日:2021-04-25
# 非一元的アプローチにおける時間依存コヒーレント圧縮状態

Time-dependent coherent squeezed states in a nonunitary approach ( http://arxiv.org/abs/2104.12266v1 )

ライセンス: Link先を確認
A. S. Pereira, A. S. Lemos(参考訳) そこで本研究では,非単体的アプローチにおける運動法積分を適用し,コヒーレント圧縮状態(CSS)の時間依存性の変位と圧縮パラメータを得た。 その順番に、一般の時間依存二次ハミルトニアンを持つ一次元システムのためのcssが構築される。 これらの状態の特性、特に不確実性関係と遷移確率の最小化について論じる。 応用として、振動子のCSSを時間依存周波数で計算し、このよく知られたMathieu方程式から解が得られることを示した。

In this work, we have applied the integrals of motion method in a nonunitary approach and so obtained the time-dependent displacement and squeezed parameters of the coherent squeezed states (CSS). On its turn, CSS for one-dimensional systems with general time-dependent quadratic Hamiltonian are constructed. We discuss the properties of these states, in particular, minimization of uncertainty relation and transition probabilities. As an application, we calculate the CSS of an oscillator with a time-dependent frequency and shown that the solution can be obtained from these well-known Mathieu's equation.
翻訳日:2023-04-02 11:00:56 公開日:2021-04-25
# 構造環境との相互作用による非マルコフ性探査へのガウスステアリングの利用

Exploiting Gaussian steering to probe non-Markovianity due to the interaction with a structured environment ( http://arxiv.org/abs/2104.12243v1 )

ライセンス: Link先を確認
Massimo Frigerio, Samaneh Hesabi, Davood Afshar, and Matteo G. A. Paris(参考訳) 我々は、連続変数(cv)ガウス量子チャネルの非マルコフ性を定量化するガウスステアリングに基づく測度を提唱する。 提案手法は,量子ブラウン運動(QBM)チャネルの非マルコフ性の評価と,ローレンツ・ドルデカットオフによって記述されたスペクトル密度と,高温および低温の両方においてオーミックおよびサブオーミック環境との相互作用から導かれる,非マルコフ性(英語版)の非マルコフ性(英語版)を評価するために用いられる。 本研究は,cvシステムの量子相関と非マルコフ性との相互作用を理解することに加え,いくつかの物理シナリオにおいて非マルコフ性を定量化するために実験レベルで実装できることを示す。

We put forward a measure based on Gaussian steering to quantify the non-Markovianity of continuous-variable (CV) Gaussian quantum channels. We employ the proposed measure to assess and compare the non-Markovianity of a quantum Brownian motion (QBM) channel, originating from the interaction with Ohmic and sub-Ohmic environments with spectral densities described by a Lorentz-Drude cutoff, both at high and low temperatures, showing that sub-Ohmic, high temperature environments lead to highly non-Markovian evolution, with cyclic backflows of Gaussian steerability from the environment to the system. Our results add to the understanding of the interplay between quantum correlations and non-Markovianity for CV systems, and could be implemented at the experimental level to quantify non-Markovianity in some physical scenarios.
翻訳日:2023-04-02 11:00:11 公開日:2021-04-25
# 原子エレクトロニクスの進歩

Advances in atomtronics ( http://arxiv.org/abs/2104.12239v1 )

ライセンス: Link先を確認
R. A. Pepino(参考訳) atomtronicsは原子物理学の比較的新しいサブフィールドであり、超低温原子光学系における電子部品のデバイス挙動を実現することを目的としている。 これらの系がコヒーレントであるという事実は、電流に加えて、現在のキャリア自身に量子状態を与えるか、あるいは量子計算処理を行うことができるため、特に興味深い。 このサブフィールドの基本概念を概観した後,外部駆動・閉ループデバイスの開発に向けた理論的および実験的進展について報告する。 電子系およびスピントロニクス系に対するこれらの原子アナログの機能と潜在的な応用についても論じる。

Atomtronics is a relatively new subfield of atomic physics that aims to realize the device behavior of electronic components in ultracold atom-optical systems. The fact that these systems are coherent makes them particularly interesting since, in addition to current, one can impart quantum states onto the current carriers themselves or perhaps perform quantum computational operations on them. After reviewing the fundamental ideas of this subfield, we report on the theoretical and experimental progress made towards developing externally-driven and closed loop devices. The functionality and potential applications for these atom analogs to electronic and spintronic systems is also discussed.
翻訳日:2023-04-02 10:59:50 公開日:2021-04-25
# 解釈可能な機能サブセットの選択:shapley値に基づくアプローチ

Interpretable feature subset selection: A Shapley value based approach ( http://arxiv.org/abs/2001.03956v3 )

ライセンス: Link先を確認
Sandhya Tripathi, N. Hemachandra, Prashant Trivedi(参考訳) 特徴選択と関連する問題に対して,プレイヤーとしての機能とヒンジロスに基づく特徴関数を備えた協調ゲームという分類ゲームの概念を導入し,全トレーニングエラーのShapley値に基づく誤差評価(SVEA)に対する特徴の寄与を関連づける。 我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための結合相互作用が重要である機能サブセット、またはデータが主に嘘をついている部分空間にまたがる特徴を識別することを示すことである。 加えて、我々のスキーム(\star$)は、ベイズ分類器が依存しない特徴を、サーロゲート損失関数ベースの有限サンプル分類器によって識別する;これは、そのような分類器のリスクが0〜1ドルの超過に寄与する;(\star$)は、特徴の未知のヒンジリスクを推定し、(\star$)は分類ゲームのコアの類似性を設計することによって、割り当てと負の価値を持つsveaの安定性特性を関連付ける。 Shapley値の計算コストの性質のため、モンテカルロをベースとした近似アルゴリズムを構築し、特性関数(Linear Programs)を必要なときにのみ計算する。 複数のサブサンプルから得られたSVEA値の間隔推定を提供することにより,特徴選択における潜在的なサンプルバイアス問題に対処する。 本稿では, 様々な合成および実データについて, 既存の再帰的特徴除去手法やReliefFよりも優れた結果が得られることを示す。 理論上は, 特徴関数の観点からの分類ゲームは, 重要な特徴の同定を含む, フレームワークの解釈可能性(最終課題の観点から形式化)と説明可能性を提供する。

For feature selection and related problems, we introduce the notion of classification game, a cooperative game, with features as players and hinge loss based characteristic function and relate a feature's contribution to Shapley value based error apportioning (SVEA) of total training error. Our major contribution is ($\star$) to show that for any dataset the threshold 0 on SVEA value identifies feature subset whose joint interactions for label prediction is significant or those features that span a subspace where the data is predominantly lying. In addition, our scheme ($\star$) identifies the features on which Bayes classifier doesn't depend but any surrogate loss function based finite sample classifier does; this contributes to the excess $0$-$1$ risk of such a classifier, ($\star$) estimates unknown true hinge risk of a feature, and ($\star$) relate the stability property of an allocation and negative valued SVEA by designing the analogue of core of classification game. Due to Shapley value's computationally expensive nature, we build on a known Monte Carlo based approximation algorithm that computes characteristic function (Linear Programs) only when needed. We address the potential sample bias problem in feature selection by providing interval estimates for SVEA values obtained from multiple sub-samples. We illustrate all the above aspects on various synthetic and real datasets and show that our scheme achieves better results than existing recursive feature elimination technique and ReliefF in most cases. Our theoretically grounded classification game in terms of well defined characteristic function offers interpretability (which we formalize in terms of final task) and explainability of our framework, including identification of important features.
翻訳日:2023-01-12 04:31:57 公開日:2021-04-25
# ハイパーパラメータチューニングのためのニューラルネットワークトレーニングの理解と最適化

Understanding and Optimizing Packed Neural Network Training for Hyper-Parameter Tuning ( http://arxiv.org/abs/2002.02885v4 )

ライセンス: Link先を確認
Rui Liu, Sanjay Krishnan, Aaron J. Elmore, Michael J. Franklin(参考訳) ニューラルネットワークが機械学習の実践にますます採用されているため、さまざまなモデルのトレーニングタスクセット間で、限られたトレーニングリソースを効率的に共有する方法が重要な問題となっている。 本稿では,共有リソースの利用性を向上させるために,複数のニューラルネットワークモデルを単一のgpu上で共同でトレーニングする手法を提案する。 このアイデアはpackと呼ばれるプリミティブを提案して実現します。 さらに,ハイパーパラメータチューニングの大幅な改善を示唆する,パックおよびエンド・ツー・エンド実験の包括的実証研究を行った。 The results suggest: (1) packing two models can bring up to 40% performance improvement over unpacked setups for a single training step and the improvement increases when packing more models; (2) the benefit of the pack primitive largely depends on a number of factors including memory capacity, chip architecture, neural network structure, and batch size; (3) there exists a trade-off between packing and unpacking when training multiple neural network models on limited resources; (4) a pack-aware Hyperband is up to 2.7x faster than the original Hyperband, with this improvement growing as memory size increases and subsequently the density of models packed.

As neural networks are increasingly employed in machine learning practice, how to efficiently share limited training resources among a diverse set of model training tasks becomes a crucial issue. To achieve better utilization of the shared resources, we explore the idea of jointly training multiple neural network models on a single GPU in this paper. We realize this idea by proposing a primitive, called pack. We further present a comprehensive empirical study of pack and end-to-end experiments that suggest significant improvements for hyperparameter tuning. The results suggest: (1) packing two models can bring up to 40% performance improvement over unpacked setups for a single training step and the improvement increases when packing more models; (2) the benefit of the pack primitive largely depends on a number of factors including memory capacity, chip architecture, neural network structure, and batch size; (3) there exists a trade-off between packing and unpacking when training multiple neural network models on limited resources; (4) a pack-aware Hyperband is up to 2.7x faster than the original Hyperband, with this improvement growing as memory size increases and subsequently the density of models packed.
翻訳日:2023-01-03 04:01:51 公開日:2021-04-25
# 低ボラティリティ異常と適応型多要素モデル

The Low-volatility Anomaly and the Adaptive Multi-Factor Model ( http://arxiv.org/abs/2003.08302v2 )

ライセンス: Link先を確認
Robert A. Jarrow, Rinald Murataj, Martin T. Wells, Liao Zhu(参考訳) 本稿は,低ボラティリティ異常の新しい説明を提供する。 グループワイズ解釈可能基底選択(gibs)アルゴリズムにより推定された適応多要素モデルを用いて,低ボラティリティポートフォリオと高ボラティリティポートフォリオに有意な関連性を持つ基底資産を求める。 これら2つのポートフォリオは非常に異なる要因に負荷をかけており、ボラティリティは独立したリスクではなく、既存のリスク要因と関連していることを示している。 低ボラティリティポートフォリオのアウトパフォーマンスは、これらの負荷されたリスク要因の(均衡的な)パフォーマンスに起因する。 AMFモデルは、Fama-French 5-factorモデルよりも優れている。

The paper provides a new explanation of the low-volatility anomaly. We use the Adaptive Multi-Factor (AMF) model estimated by the Groupwise Interpretable Basis Selection (GIBS) algorithm to find those basis assets significantly related to low and high volatility portfolios. These two portfolios load on very different factors, indicating that volatility is not an independent risk, but that it's related to existing risk factors. The out-performance of the low-volatility portfolio is due to the (equilibrium) performance of these loaded risk factors. The AMF model outperforms the Fama-French 5-factor model both in-sample and out-of-sample.
翻訳日:2022-12-23 03:49:54 公開日:2021-04-25
# CoInGP: 遺伝的プログラミングによる畳み込み

CoInGP: Convolutional Inpainting with Genetic Programming ( http://arxiv.org/abs/2004.11300v2 )

ライセンス: Link先を確認
Domagoj Jakobovic, Luca Manzoni, Luca Mariot, Stjepan Picek, Mauro Castelli(参考訳) 画像の欠落画素に対する畳み込み予測器として,遺伝的プログラミング(GP)を用いることを検討した。 トレーニングフェーズは、境界の画素がGPツリーの入力を表す画像上にスライディングウィンドウをスライディングすることで行われる。 ツリーの出力を中央画素の予測値とする。 我々は、スライドウィンドウ、すなわちムーアとフォン・ノイマン近傍の2つの位相を考える。 トレーニングセット上で最も低い予測エラーをスコアする最高のgpツリーは、テストセットのピクセルを予測するために使用されます。 我々は2つの実験を通してアプローチを実験的に評価した。 まず、MNISTデータセットから1000個の完全画像のサブセット上でGPツリーをトレーニングする。 その結果,GPは2つの領域間で有意な差が見られず,単純なベースライン予測器に対して画素の分布を学習できることがわかった。 第2の実験では,2つの劣化画像に対してgp畳み込み予測器を訓練し,約20%の画素を除去した。 この場合、ムーア地区はより良く機能するが、フォン・ノイマン地区はより大きな訓練セットを許容する。

We investigate the use of Genetic Programming (GP) as a convolutional predictor for missing pixels in images. The training phase is performed by sweeping a sliding window over an image, where the pixels on the border represent the inputs of a GP tree. The output of the tree is taken as the predicted value for the central pixel. We consider two topologies for the sliding window, namely the Moore and the Von Neumann neighborhood. The best GP tree scoring the lowest prediction error over the training set is then used to predict the pixels in the test set. We experimentally assess our approach through two experiments. In the first one, we train a GP tree over a subset of 1000 complete images from the MNIST dataset. The results show that GP can learn the distribution of the pixels with respect to a simple baseline predictor, with no significant differences observed between the two neighborhoods. In the second experiment, we train a GP convolutional predictor on two degraded images, removing around 20% of their pixels. In this case, we observe that the Moore neighborhood works better, although the Von Neumann neighborhood allows for a larger training set.
翻訳日:2022-12-10 08:44:24 公開日:2021-04-25
# ロバスト音響モデリングのためのマルチストリームCNN

Multistream CNN for Robust Acoustic Modeling ( http://arxiv.org/abs/2005.10470v2 )

ライセンス: Link先を確認
Kyu J. Han, Jing Pan, Venkata Krishna Naveen Tadala, Tao Ma and Dan Povey(参考訳) 本稿では,音声認識タスクにおけるロバスト音響モデリングのためのニューラルネットワークアーキテクチャであるマルチストリームCNNを提案する。 提案するアーキテクチャは,複数のストリームにまたがる畳み込みニューラルネットワークに異なる拡張率を適用することで,時間分解能の異なる入力音声を処理する。 ダイレーションレートは、3フレームのサブサンプリングレートの倍数から選択される。 各ストリームはtdnn-f層(1d cnnの変種)をスタックし、ストリームからの埋め込みベクトルを連結して最終層に投影する。 提案するマルチストリームcnnアーキテクチャの有効性を検証するために,kaldi の優れた tdnn-f モデルに対する一貫性のある改善を示す。 マルチストリームCNNは、LibriSpeechコーパスの他のテストセットのWERを12%改善する(相対的)。 連絡先センター向けのASAPPのASRシステムからのカスタムデータに基づいて、顧客チャネルオーディオに対するWERの相対的な改善を11%記録し、荒野のデータに対するロバスト性を証明する。 実時間係数の面では、マルチストリームCNNはベースラインのTDNN-Fを15%上回り、生産システムにおける実用性も示唆している。 自己アテンティブなSRU LM再構成と組み合わせることで、マルチストリームCNNは、LibriSpeechのテストクリーンで1.75%の最高のWERを達成するためにASAPPに貢献する。

This paper proposes multistream CNN, a novel neural network architecture for robust acoustic modeling in speech recognition tasks. The proposed architecture processes input speech with diverse temporal resolutions by applying different dilation rates to convolutional neural networks across multiple streams to achieve the robustness. The dilation rates are selected from the multiples of a sub-sampling rate of 3 frames. Each stream stacks TDNN-F layers (a variant of 1D CNN), and output embedding vectors from the streams are concatenated then projected to the final layer. We validate the effectiveness of the proposed multistream CNN architecture by showing consistent improvements against Kaldi's best TDNN-F model across various data sets. Multistream CNN improves the WER of the test-other set in the LibriSpeech corpus by 12% (relative). On custom data from ASAPP's production ASR system for a contact center, it records a relative WER improvement of 11% for customer channel audio to prove its robustness to data in the wild. In terms of real-time factor, multistream CNN outperforms the baseline TDNN-F by 15%, which also suggests its practicality on production systems. When combined with self-attentive SRU LM rescoring, multistream CNN contributes for ASAPP to achieve the best WER of 1.75% on test-clean in LibriSpeech.
翻訳日:2022-11-30 23:57:26 公開日:2021-04-25
# コントラスト的知識蒸留による弱視的接地の改善

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation ( http://arxiv.org/abs/2007.01951v2 )

ライセンス: Link先を確認
Liwei Wang, Jing Huang, Yin Li, Kun Xu, Zhengyuan Yang, Dong Yu(参考訳) 弱教師付きフレーズグラウンドニングは、画像-センスペアのみを使用して、領域-フレーズ対応を学習することを目的としている。 従って大きな課題は、トレーニング中の画像領域と文句の間のリンクの欠如にある。 この課題に対処するために,訓練時に汎用物体検出器を活用し,領域認識と画像強度マッチングの両方を考慮したコントラスト学習フレームワークを提案する。 我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。 重要なことは、検出対象名と候補句とのソフトマッチングスコアから画像文ペア内の領域句スコア関数を抽出し、画像文スコア関数を地文ペアで教師することである。 このようなスコア関数の設計は、テスト時にオブジェクト検出の必要性をなくし、推論コストを大幅に削減する。 テスト時に高価な物体検出器を必要とする従来の手法を上回って,視覚句の接地に関する最先端の結果を得る。

Weakly supervised phrase grounding aims at learning region-phrase correspondences using only image-sentence pairs. A major challenge thus lies in the missing links between image regions and sentence phrases during training. To address this challenge, we leverage a generic object detector at training time, and propose a contrastive learning framework that accounts for both region-phrase and image-sentence matching. Our core innovation is the learning of a region-phrase score function, based on which an image-sentence score function is further constructed. Importantly, our region-phrase score function is learned by distilling from soft matching scores between the detected object names and candidate phrases within an image-sentence pair, while the image-sentence score function is supervised by ground-truth image-sentence pairs. The design of such score functions removes the need of object detection at test time, thereby significantly reducing the inference cost. Without bells and whistles, our approach achieves state-of-the-art results on visual phrase grounding, surpassing previous methods that require expensive object detectors at test time.
翻訳日:2022-11-14 04:53:44 公開日:2021-04-25
# 再帰ベイズ分類のための停止基準設計:解析と決定幾何学

Stopping Criterion Design for Recursive Bayesian Classification: Analysis and Decision Geometry ( http://arxiv.org/abs/2007.15568v2 )

ライセンス: Link先を確認
Aziz Kocanaogullari, Murat Akcakaya and Deniz Erdogmus(参考訳) 分類のための再帰的ベイズ更新に基づくシステムは、特定の停止/終了基準を通じて証拠収集のコストを制限し、それに従って意思決定を強制する。 従来、事前定義された閾値に基づく2つの終了基準 i) 状態後分布の最大値,及び (ii)後方不確実性は一般的に用いられる。 本稿では, 後続状態に関する幾何学的解釈を提案し, 従来の終端基準を用いた場合の欠点をポイント・バイ・ポイントで解析する。 例えば、提案した幾何学的解釈により、状態後部の最大値以上で定義された信頼しきい値が不必要な証拠収集をもたらす硬さに悩まされているのに対し、不確実性に基づくしきい値は、いくつかの状態候補がすでに好ましくないと判明している場合に、多くのカテゴリに脆弱で早期に終了する。 さらに,いずれの方法も後続更新の進化を無視している。 次に,従来の手法の限界を克服し,決定精度と速度の比較を行うため,幾何学的洞察を持つ新しい停止・終了基準を提案する。 我々は,脳コンピュータインタフェース型入力システムを用いて,シミュレーションと実実験データを用いてクレームを検証した。

Systems that are based on recursive Bayesian updates for classification limit the cost of evidence collection through certain stopping/termination criteria and accordingly enforce decision making. Conventionally, two termination criteria based on pre-defined thresholds over (i) the maximum of the state posterior distribution; and (ii) the state posterior uncertainty are commonly used. In this paper, we propose a geometric interpretation over the state posterior progression and accordingly we provide a point-by-point analysis over the disadvantages of using such conventional termination criteria. For example, through the proposed geometric interpretation we show that confidence thresholds defined over maximum of the state posteriors suffer from stiffness that results in unnecessary evidence collection whereas uncertainty based thresholding methods are fragile to number of categories and terminate prematurely if some state candidates are already discovered to be unfavorable. Moreover, both types of termination methods neglect the evolution of posterior updates. We then propose a new stopping/termination criterion with a geometrical insight to overcome the limitations of these conventional methods and provide a comparison in terms of decision accuracy and speed. We validate our claims using simulations and using real experimental data obtained through a brain computer interfaced typing system.
翻訳日:2022-11-05 13:49:52 公開日:2021-04-25
# オーバーパラメータ学習のための実験設計と単ショット深層学習への応用

Experimental Design for Overparameterized Learning with Application to Single Shot Deep Active Learning ( http://arxiv.org/abs/2009.12820v3 )

ライセンス: Link先を確認
Neta Shoham and Haim Avron(参考訳) 現代の機械学習モデルによる印象的なパフォーマンスは、非常に大量のラベル付きデータでそのようなモデルをトレーニングする能力に基づいている。 しかし、ラベル付きデータの大量アクセスは制限やコストがかかることが多いため、トレーニングセットを慎重にキュレートすることでボトルネックを軽減することが望ましい。 最適実験設計は、学習過程を最大限に知らせるためにラベル付けされるデータポイントを選択するための確立されたパラダイムである。 不幸なことに、最適実験設計に関する古典的な理論は、アンダーパラメータ化(従って非補間的)モデルを学ぶために例を選択することに焦点を当てているが、ディープニューラルネットワークのような現代の機械学習モデルは過剰パラメータ化され、しばしば補間的になるように訓練される。 そのため、古典的な実験設計法は多くの近代的な学習環境には適用できない。 実際、過度パラメータ化モデルの予測性能は分散が支配的である傾向にあり、古典的な実験設計では分散が重視されるが、過度パラメータ化モデルの予測性能は、この論文で示されているように、偏りが支配的あるいは混合的な性質でもある。 本稿では,過パラメータ回帰と補間に適した設計戦略を提案するとともに,シングルショット深層アクティブ学習のための新しいアルゴリズムを提案することにより,深層学習の文脈における本手法の適用性を示す。

The impressive performance exhibited by modern machine learning models hinges on the ability to train such models on a very large amounts of labeled data. However, since access to large volumes of labeled data is often limited or expensive, it is desirable to alleviate this bottleneck by carefully curating the training set. Optimal experimental design is a well-established paradigm for selecting data point to be labeled so to maximally inform the learning process. Unfortunately, classical theory on optimal experimental design focuses on selecting examples in order to learn underparameterized (and thus, non-interpolative) models, while modern machine learning models such as deep neural networks are overparameterized, and oftentimes are trained to be interpolative. As such, classical experimental design methods are not applicable in many modern learning setups. Indeed, the predictive performance of underparameterized models tends to be variance dominated, so classical experimental design focuses on variance reduction, while the predictive performance of overparameterized models can also be, as is shown in this paper, bias dominated or of mixed nature. In this paper we propose a design strategy that is well suited for overparameterized regression and interpolation, and we demonstrate the applicability of our method in the context of deep learning by proposing a new algorithm for single shot deep active learning.
翻訳日:2022-10-14 03:18:59 公開日:2021-04-25
# 変圧器を用いた自動生成ヘッドラインの同定

Identifying Automatically Generated Headlines using Transformers ( http://arxiv.org/abs/2009.13375v3 )

ライセンス: Link先を確認
Antonis Maronikolakis, Hinrich Schutze, Mark Stevenson(参考訳) インターネットやソーシャルメディアを通じて拡散した偽の情報は世論やユーザー活動に影響を与え、生成モデルは偽のコンテンツを以前より早く、より安価に生成できるようにする。 遠方では、深層学習モデルによって生成された偽コンテンツを特定することが、ユーザーを誤情報から守る上で重要な役割を果たすだろう。 この目的のために、人間とコンピュータが生成した見出しを含むデータセットが作成され、ユーザー調査によると、47.8%のケースで、人間は偽の見出しを識別できただけだった。 しかし、最も正確な自動アプローチであるトランスフォーマーは85.7%の精度を達成し、言語モデルから生成されたコンテンツを正確にフィルタリングできることを示した。

False information spread via the internet and social media influences public opinion and user activity, while generative models enable fake content to be generated faster and more cheaply than had previously been possible. In the not so distant future, identifying fake content generated by deep learning models will play a key role in protecting users from misinformation. To this end, a dataset containing human and computer-generated headlines was created and a user study indicated that humans were only able to identify the fake headlines in 47.8% of the cases. However, the most accurate automatic approach, transformers, achieved an overall accuracy of 85.7%, indicating that content generated from language models can be filtered out accurately.
翻訳日:2022-10-13 21:23:30 公開日:2021-04-25
# UNITE:マルチソースデータを活用した不確実性に基づく健康リスク予測

UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data ( http://arxiv.org/abs/2010.11389v2 )

ライセンス: Link先を確認
Chacha Chen, Junjie Liang, Fenglong Ma, Lucas M. Glass, Jimeng Sun and Cao Xiao(参考訳) 健康リスク予測が成功すると、モデルの正確性と信頼性が要求される。 既存の予測モデルは、モデル精度を改善するための高度な深層学習技術を備えた電子健康記録(EHR)に大きく依存している。 しかし、オンライン健康データ、特に社会経済状況、環境要因、そして各場所の詳細な人口統計情報の重要性は、いずれも強力な予測信号であり、精密医療を増強することができる。 モデルの信頼性を達成するためには、予測の正確な予測と不確実性スコアを提供する必要がある。 しかし、既存の不確実性推定手法は、多ソースデータに存在する高次元データを扱うのにしばしば失敗する。 このギャップを埋めるために、UNcertaInTyベースのhEalth Risk Prediction (UNITE)モデルを提案する。 UNITEは、適応型マルチモーダルディープカーネルと確率的変動推論モジュールに基づいて、EHRデータ、患者統計、Webから収集された公衆衛生データを含むマルチソースの健康データを活用する、正確な疾患リスク予測と不確実性推定を提供する。 我々は,非アルコール性脂肪肝疾患 (NASH) とアルツハイマー病 (AD) の実際の疾患リスク予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19.%の高パフォーマンスを実現している。 また,uniteは有意義な不確かさをモデル化し,類似した患者をクラスタリングすることでエビデンスに基づく臨床支援を提供できることを示した。

Successful health risk prediction demands accuracy and reliability of the model. Existing predictive models mainly depend on mining electronic health records (EHR) with advanced deep learning techniques to improve model accuracy. However, they all ignore the importance of publicly available online health data, especially socioeconomic status, environmental factors, and detailed demographic information for each location, which are all strong predictive signals and can definitely augment precision medicine. To achieve model reliability, the model needs to provide accurate prediction and uncertainty score of the prediction. However, existing uncertainty estimation approaches often failed in handling high-dimensional data, which are present in multi-sourced data. To fill the gap, we propose UNcertaInTy-based hEalth risk prediction (UNITE) model. Building upon an adaptive multimodal deep kernel and a stochastic variational inference module, UNITE provides accurate disease risk prediction and uncertainty estimation leveraging multi-sourced health data including EHR data, patient demographics, and public health data collected from the web. We evaluate UNITE on real-world disease risk prediction tasks: nonalcoholic fatty liver disease (NASH) and Alzheimer's disease (AD). UNITE achieves up to 0.841 in F1 score for AD detection, up to 0.609 in PR-AUC for NASH detection, and outperforms various state-of-the-art baselines by up to $19\%$ over the best baseline. We also show UNITE can model meaningful uncertainties and can provide evidence-based clinical support by clustering similar patients.
翻訳日:2022-10-04 07:17:39 公開日:2021-04-25
# メンタルヘルス研究のためのソーシャルメディアデータの現状について

On the State of Social Media Data for Mental Health Research ( http://arxiv.org/abs/2011.05233v2 )

ライセンス: Link先を確認
Keith Harrigian, Carlos Aguirre, Mark Dredze(参考訳) メンタルヘルスと監視のためのデータ駆動の手法は、過去10年間に計算科学研究に重点を置いてきた。 しかし、医学的理解とシステムパフォーマンスの両面でのドメインの進歩は、適切なデータが利用可能であることに縛られ続けている。 それまでの体系的なレビューは、必ずしもデータ関連の課題が研究の進展にどんな影響を及ぼしたかを測定することは可能ではなかった。 本稿では,メンタルヘルス研究を行うためのソーシャルメディアデータの現状に関する分析を行う。 我々は、メタ分析を容易にするために標準化されたスキーマを使用して注釈付けされたメンタルヘルスデータセットのオープンソースディレクトリを導入する。

Data-driven methods for mental health treatment and surveillance have become a major focus in computational science research in the last decade. However, progress in the domain, in terms of both medical understanding and system performance, remains bounded by the availability of adequate data. Prior systematic reviews have not necessarily made it possible to measure the degree to which data-related challenges have affected research progress. In this paper, we offer an analysis specifically on the state of social media data that exists for conducting mental health research. We do so by introducing an open-source directory of mental health datasets, annotated using a standardized schema to facilitate meta-analysis.
翻訳日:2022-09-27 07:22:58 公開日:2021-04-25
# 線形閾値モデルに基づくオンライン影響最大化

Online Influence Maximization under Linear Threshold Model ( http://arxiv.org/abs/2011.06378v3 )

ライセンス: Link先を確認
Shuai Li, Fang Kong, Kejie Tang, Qizhi Li, Wei Chen(参考訳) オンライン影響最大化(OIM)は、影響伝播モデルパラメータを学習し、同時に拡散する影響を最大化するソーシャルネットワークで一般的な問題である。 これまでのほとんどの研究は、エッジレベルのフィードバックの下で独立カスケード(IC)モデルに焦点を当てていた。 本稿では,線形しきい値(LT)モデルでOIMに対処する。 LTモデルのノードアクティベーションは、すべてのアクティブな隣人の集合効果に起因するため、ノードレベルのフィードバックでOIMをモデル化することはより自然である。 これは、ノードのグループによる集約効果のみを観察し、グループもランダムであるため、オンライン学習に新たな課題をもたらします。 ノードアクティベーションにおける線形構造に基づいて、線形帯域のアイデアを取り入れ、観測されたフィードバックに整合したアルゴリズムLT-LinUCBを設計する。 群観測変調(gom)有界な平滑性特性の証明により、ランダム観測による影響差の新たな結果として、$m$ がエッジ数、$t$ がラウンド数である$\tilde{o}(\mathrm{poly}(m)\sqrt{t})$ が与えられる。 これは、LTモデルの下でのOIMに対する最初の理論的結果である。 最終的に、OIM-ETCアルゴリズムは、O(\mathrm{poly}(m)\ T^{2/3})$で、モデルに依存しず、単純で、オンラインのフィードバックやオフラインの計算に必要のない。

Online influence maximization (OIM) is a popular problem in social networks to learn influence propagation model parameters and maximize the influence spread at the same time. Most previous studies focus on the independent cascade (IC) model under the edge-level feedback. In this paper, we address OIM in the linear threshold (LT) model. Because node activations in the LT model are due to the aggregated effect of all active neighbors, it is more natural to model OIM with the node-level feedback. And this brings new challenge in online learning since we only observe aggregated effect from groups of nodes and the groups are also random. Based on the linear structure in node activations, we incorporate ideas from linear bandits and design an algorithm LT-LinUCB that is consistent with the observed feedback. By proving group observation modulated (GOM) bounded smoothness property, a novel result of the influence difference in terms of the random observations, we provide a regret of order $\tilde{O}(\mathrm{poly}(m)\sqrt{T})$, where $m$ is the number of edges and $T$ is the number of rounds. This is the first theoretical result in such order for OIM under the LT model. In the end, we also provide an algorithm OIM-ETC with regret bound $O(\mathrm{poly}(m)\ T^{2/3})$, which is model-independent, simple and has less requirement on online feedback and offline computation.
翻訳日:2022-09-26 07:42:33 公開日:2021-04-25
# 大規模マルチロボット経路計画のためのメッセージアウェアグラフアテンションネットワーク

Message-Aware Graph Attention Networks for Large-Scale Multi-Robot Path Planning ( http://arxiv.org/abs/2011.13219v2 )

ライセンス: Link先を確認
Qingbiao Li, Weizhe Lin, Zhe Liu, Amanda Prorok(参考訳) 輸送と物流の分野は、乗客やリソースの取扱いと流通のために自律移動ロボットにますます依存している。 大規模なシステムスケールでは、分散型パス計画と調整ソリューションを見つけることが、効率的なシステムパフォーマンスの鍵となる。 近年,分散マルチエージェントシステムにおける通信ポリシの学習能力から,グラフニューラルネットワーク(GNN)が普及している。 しかし、バニラGNNは、エージェントが重要な情報を優先順位付けするのを防ぐ単純なメッセージ集約機構に依存している。 この課題に対処するため,本稿では,メッセージ依存の注意を喚起するための新しいメカニズムを導入して,GNNをマルチエージェントパス計画に活用する作業を拡張した。 我々のメッセージ対応グラフ注意neTwork(MAGAT)は、近隣のロボットから受信したメッセージにおける特徴の相対的重要性を決定するキークエリライクなメカニズムに基づいている。 MAGATは,集中型エキスパートアルゴリズムに近い性能を達成可能であることを示す。 さらに,複数のベンチマークモデルとの比較により,我々の注意機構はロボットの密度によって非常に効果的であり,通信帯域幅の制約によって安定に機能することが示された。 実験により、我々のモデルは、未確認の問題インスタンスでうまく一般化でき、ベンチマーク成功率よりも475%向上し、訓練インスタンスよりも$\times$100大きい非常に大規模なインスタンスでも達成できることが示された。

The domains of transport and logistics are increasingly relying on autonomous mobile robots for the handling and distribution of passengers or resources. At large system scales, finding decentralized path planning and coordination solutions is key to efficient system performance. Recently, Graph Neural Networks (GNNs) have become popular due to their ability to learn communication policies in decentralized multi-agent systems. Yet, vanilla GNNs rely on simplistic message aggregation mechanisms that prevent agents from prioritizing important information. To tackle this challenge, in this paper, we extend our previous work that utilizes GNNs in multi-agent path planning by incorporating a novel mechanism to allow for message-dependent attention. Our Message-Aware Graph Attention neTwork (MAGAT) is based on a key-query-like mechanism that determines the relative importance of features in the messages received from various neighboring robots. We show that MAGAT is able to achieve a performance close to that of a coupled centralized expert algorithm. Further, ablation studies and comparisons to several benchmark models show that our attention mechanism is very effective across different robot densities and performs stably in different constraints in communication bandwidth. Experiments demonstrate that our model is able to generalize well in previously unseen problem instances, and that it achieves a 47\% improvement over the benchmark success rate, even in very large-scale instances that are $\times$100 larger than the training instances.
翻訳日:2022-09-20 08:48:14 公開日:2021-04-25
# (参考訳) トランスフォーマーを用いたエンドツーエンドビデオインスタンスセグメンテーション

End-to-End Video Instance Segmentation with Transformers ( http://arxiv.org/abs/2011.14503v4 )

ライセンス: CC BY 4.0
Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia(参考訳) ビデオインスタンスセグメンテーション(英: video instance segmentation、vis)は、ビデオに興味のあるオブジェクトインスタンスの分類、セグメンテーション、追跡を同時に行うタスクである。 最近の手法では、この課題に対処するための洗練されたパイプラインを開発するのが一般的である。 本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。 入力として複数の画像フレームからなるビデオクリップが与えられると、VisTRはビデオ内の各インスタンスのマスクのシーケンスを直接出力する。 コアには、新しい効果的なインスタンスシーケンスマッチングとセグメンテーション戦略があり、シーケンスレベルでインスタンスを監視およびセグメンテーションする。 VisTRはインスタンスのセグメンテーションとトラッキングを類似性学習の視点でフレーム化し、パイプライン全体を大幅に単純化し、既存のアプローチと大きく異なる。 ベルとホイッスルがなければ、VisTRは既存のすべてのVISモデルの中で最高速度を達成し、YouTube-VISデータセットの単一モデルを用いた手法の中で最高の結果を得る。 初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争の精度を実現した。 VisTRが今後の研究を動機づけて、より多くのビデオ理解タスクを実現できることを願っている。

Video instance segmentation (VIS) is the task that requires simultaneously classifying, segmenting and tracking object instances of interest in video. Recent methods typically develop sophisticated pipelines to tackle this task. Here, we propose a new video instance segmentation framework built upon Transformers, termed VisTR, which views the VIS task as a direct end-to-end parallel sequence decoding/prediction problem. Given a video clip consisting of multiple image frames as input, VisTR outputs the sequence of masks for each instance in the video in order directly. At the core is a new, effective instance sequence matching and segmentation strategy, which supervises and segments instances at the sequence level as a whole. VisTR frames the instance segmentation and tracking in the same perspective of similarity learning, thus considerably simplifying the overall pipeline and is significantly different from existing approaches. Without bells and whistles, VisTR achieves the highest speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
翻訳日:2021-06-07 07:25:25 公開日:2021-04-25
# NPAS: リアルタイムモバイルアクセラレーションを超えて、統一ネットワークプルーニングとアーキテクチャ検索を実現するコンパイラ対応フレームワーク

NPAS: A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration ( http://arxiv.org/abs/2012.00596v2 )

ライセンス: Link先を確認
Zhengang Li, Geng Yuan, Wei Niu, Pu Zhao, Yanyu Li, Yuxuan Cai, Xuan Shen, Zheng Zhan, Zhenglun Kong, Qing Jin, Zhiyu Chen, Sijia Liu, Kaiyuan Yang, Bin Ren, Yanzhi Wang, Xue Lin(参考訳) モバイルエッジデバイスにDNNを効率的にデプロイする需要が高まるにつれ、不要な計算の削減と実行速度の向上がますます重要になる。 モデル圧縮やネットワークアーキテクチャ検索(nas)を含むこの目標に向けた以前の手法は独立して実行されており、モバイルアクセラレーションに必要なコンパイラレベルの最適化を十分に考慮していない。 本研究では、まず、(i)様々なDNN層に適用可能なきめ細かい構造化プルーニングの一般的なカテゴリを提案し、(ii)モデル圧縮とNASのギャップを埋める異なるDNNと異なるプルーニングスキームをサポートする包括的なコンパイラ自動コード生成フレームワークを提案する。 さらに,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。 大規模な探索空間を扱うため,高速な評価とベイズ最適化による強化学習に基づくメタモデリング手法を提案し,NASフレームワークに匹敵するトレーニングエポックの総数を確保する。 6.7ms,5.9ms,3.9ms画像ネット推定時間を78.2%,75%(mobilenet-v3レベル),71%(mobilenet-v2レベル)top-1精度で達成した。

With the increasing demand to efficiently deploy DNNs on mobile edge devices, it becomes much more important to reduce unnecessary computation and increase the execution speed. Prior methods towards this goal, including model compression and network architecture search (NAS), are largely performed independently and do not fully consider compiler-level optimizations which is a must-do for mobile acceleration. In this work, we first propose (i) a general category of fine-grained structured pruning applicable to various DNN layers, and (ii) a comprehensive, compiler automatic code generation framework supporting different DNNs and different pruning schemes, which bridge the gap of model compression and NAS. We further propose NPAS, a compiler-aware unified network pruning, and architecture search. To deal with large search space, we propose a meta-modeling procedure based on reinforcement learning with fast evaluation and Bayesian optimization, ensuring the total number of training epochs comparable with representative NAS frameworks. Our framework achieves 6.7ms, 5.9ms, 3.9ms ImageNet inference times with 78.2%, 75% (MobileNet-V3 level), and 71% (MobileNet-V2 level) Top-1 accuracy respectively on an off-the-shelf mobile phone, consistently outperforming prior work.
翻訳日:2021-05-30 20:11:28 公開日:2021-04-25
# 分解、圧縮、合成に基づくビデオ符号化:参照に基づく超解像によるニューラルアプローチ

Decomposition, Compression, and Synthesis Based Video Coding: A Neural Approach Through Reference-Based Super Resolution ( http://arxiv.org/abs/2012.00650v2 )

ライセンス: Link先を確認
Ming Lu, Tong Chen, zhenyu Dai, Dong Wang, Dandan Ding, and Zhan Ma(参考訳) 高い圧縮効率を求めるため、潜在的な解決策はダウンサンプリングベースのビデオ符号化(DSVC)であり、入力ビデオは比較的低い解像度で符号化するためにまずダウンスケールされ、デコードされたフレームはディープニューラルネットワーク(DNN)を介して超解かれる。 しかし、一様分解能サンプリングが高周波成分の深刻な損失を招いたか、既存のdsvc法で不均一にサンプリングされたフレームにまたがる情報集約が不十分であったため、符号化ゲインはしばしば境界づけされる。 そこで本研究では,まず,各空間テクスチャフレーム (STF) に入力映像を分解し,その空間的細部を保存し,他の時間的動きフレーム (TMF) を低空間解像度に分解し,動きの滑らかさを保ちながら圧縮し,次に,一般的なビデオコーダを用いて圧縮し,最終的に高精細度ビデオ再構成のための復号STFとTMFを,そのネイティブな入力と同じ解像度で合成する。 この研究は、分解におけるバイコビックサンプリングと圧縮におけるヴァーサタイルビデオ符号化(VVC)準拠コーデックを単純に適用し、合成部に焦点をあてる。 このようなクロスレゾリューション合成はRefSR(Reference-based Super-Resolution)によって容易にできる。 具体的には、TMF上に動き補償ネットワーク(MCN)を考案し、テクスチャ転送ネットワーク(TTN)を用いて対応するSTFと協調して処理される時間的動き特徴を効率よく整合・集約し、空間的詳細を向上し、圧縮及び分解再サンプリングノイズをより高率歪み(R−D)効率で効果的に緩和することができる。

In pursuit of higher compression efficiency, a potential solution is the Down-Sampling based Video Coding (DSVC) where a input video is first downscaled for encoding at a relatively lower resolution, and then decoded frames are super-resolved through deep neural networks (DNNs). However, the coding gains are often bounded due to either uniform resolution sampling induced severe loss of high-frequency component, or insufficient information aggregation across non-uniformly sampled frames in existing DSVC methods. To address this, we propose to first decompose the input video into respective spatial texture frames (STFs) at its native spatial resolution that preserve the rich spatial details, and the other temporal motion frames (TMFs) at a lower spatial resolution that retain the motion smoothness; then compress them together using any popular video coder; and finally synthesize decoded STFs and TMFs for high-fidelity video reconstruction at the same resolution as its native input. This work simply applies the bicubic sampling in decomposition and Versatile Video Coding (VVC) compliant codec in compression, and puts the focus on the synthesis part. Such cross-resolution synthesis can be facilitated by Reference-based Super-Resolution (RefSR). Specifically, a motion compensation network (MCN) is devised on TMFs to efficiently align and aggregate temporal motion features that will be jointly processed with corresponding STFs using a texture transfer network (TTN) to better augment spatial details, by which the compression and resolution re-sampling noises can be effectively alleviated with better rate-distortion (R-D) efficiency, etc.
翻訳日:2021-05-30 19:35:22 公開日:2021-04-25
# semeval-2021タスク6:テキストと画像における説得技術の検出

SemEval-2021 Task 6: Detection of Persuasion Techniques in Texts and Images ( http://arxiv.org/abs/2105.09284v1 )

ライセンス: Link先を確認
Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, Giovanni Da San Martino(参考訳) 本稿では,SemEval-2021 Task 6 on Detection of Persuasion Techniques in Texts and Images: the data, the annotations guidelines, the evaluation setup, the results, and the member systemについて述べる。 タスクはミームに焦点をあて、(i)テキスト中のテクニックの検出、(ii)テクニックが使われているテキストスパンの検出、(iii)ミーム全体、すなわちテキストと画像の両方のテクニックの3つのサブタスクを持っていた。 71の登録と22のチームが参加し、最終的にテストセットへの公式提出が行われた。 第3サブタスクの評価結果は、モダリティ、テキスト、画像の両方の重要性を確認した。 さらに、いくつかのチームは、早期融合や後期融合といった2つのモダリティを結合するだけでなく、両者の相互作用をジョイントモデルでモデル化することで、利点を報告した。

We describe SemEval-2021 task 6 on Detection of Persuasion Techniques in Texts and Images: the data, the annotation guidelines, the evaluation setup, the results, and the participating systems. The task focused on memes and had three subtasks: (i) detecting the techniques in the text, (ii) detecting the text spans where the techniques are used, and (iii) detecting techniques in the entire meme, i.e., both in the text and in the image. It was a popular task, attracting 71 registrations, and 22 teams that eventually made an official submission on the test set. The evaluation results for the third subtask confirmed the importance of both modalities, the text and the image. Moreover, some teams reported benefits when not just combining the two modalities, e.g., by using early or late fusion, but rather modeling the interaction between them in a joint model.
翻訳日:2021-05-20 18:29:56 公開日:2021-04-25
# 人物再識別のための教師なし事前訓練

Unsupervised Pre-training for Person Re-identification ( http://arxiv.org/abs/2012.03753v2 )

ライセンス: Link先を確認
Dengpan Fu, Dongdong Chen, Jianmin Bao, Hao Yang, Lu Yuan, Lei Zhang, Houqiang Li, Dong Chen(参考訳) 本稿では,Re-IDデータセット "LUPerson" について述べるとともに,学習者のRe-ID特徴表現の一般化能力を向上させるための教師なし事前学習を初めて行おうとする。 これは、既存のRe-IDデータセットはすべて、データアノテーションに必要なコストがかかるため、制限されたスケールである、という問題に対処するためです。 以前の研究では、ImageNetで事前訓練されたモデルを活用して、人物Re-IDデータの不足を軽減するが、ImageNetと人物Re-IDデータの大きなドメインギャップに悩まされている。 lupersonは、既存の最大のre-idデータセットの30倍の大きさの、200万以上のidの4mイメージのラベルなしデータセットである。 また、非常に多様な撮影環境(例えば、カメラの設定、シーンなど)もカバーしている。 このデータセットに基づいて、データ拡張とコントラスト損失という2つの視点からRe-ID特徴を学習するための重要な要素を体系的に研究する。 この大規模なデータセットで実施された教師なしの事前トレーニングは、既存のすべてのRe-IDメソッドに利益をもたらす一般的なRe-ID機能に効果的に結びつく。 いくつかのフレームワークで事前学習したモデルを用いて、CUHK03、Market1501、DukeMTMC、MSMT17の4つの広く使われているRe-IDデータセットに対して、ベルやホイッスルを使わずに最先端の結果を得る。 また,小規模のターゲットデータセットや少数ショット設定では,性能改善がより重要であることを示した。

In this paper, we present a large scale unlabeled person re-identification (Re-ID) dataset "LUPerson" and make the first attempt of performing unsupervised pre-training for improving the generalization ability of the learned person Re-ID feature representation. This is to address the problem that all existing person Re-ID datasets are all of limited scale due to the costly effort required for data annotation. Previous research tries to leverage models pre-trained on ImageNet to mitigate the shortage of person Re-ID data but suffers from the large domain gap between ImageNet and person Re-ID data. LUPerson is an unlabeled dataset of 4M images of over 200K identities, which is 30X larger than the largest existing Re-ID dataset. It also covers a much diverse range of capturing environments (eg, camera settings, scenes, etc.). Based on this dataset, we systematically study the key factors for learning Re-ID features from two perspectives: data augmentation and contrastive loss. Unsupervised pre-training performed on this large-scale dataset effectively leads to a generic Re-ID feature that can benefit all existing person Re-ID methods. Using our pre-trained model in some basic frameworks, our methods achieve state-of-the-art results without bells and whistles on four widely used Re-ID datasets: CUHK03, Market1501, DukeMTMC, and MSMT17. Our results also show that the performance improvement is more significant on small-scale target datasets or under few-shot setting.
翻訳日:2021-05-16 21:23:08 公開日:2021-04-25
# (参考訳) 潜在的慣用表現(PIE)-英: Corpus for Classes of Idioms

Potential Idiomatic Expression (PIE)-English: Corpus for Classes of Idioms ( http://arxiv.org/abs/2105.03280v1 )

ライセンス: CC BY 4.0
Tosin P. Adewumi, Saleha Javed, Roshanak Vadoodi, Aparajita Tripathy, Konstantina Nikolaidou, Foteini Liwicki and Marcus Liwicki(参考訳) 我々は、自然言語処理(NLP)のためのかなり大きな潜在慣用表現(PIE)データセットを英語で提示する。 機械翻訳(MT)、単語感覚の曖昧化(WSD)、情報検索といったタスクに関するNLPシステムにおける課題は、この作業のクラスのようなラベル付きイディオムデータセットを持つことを必須にしている。 著者の知る限りでは、これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のイディオムコーパスである。 特に、以下のクラスはデータセットにラベル付けされている: メタファ、シミール、オイフェミズム、並列主義、人格化、オキシモロン、パラドックス、ハイパーボイル、皮肉、リテラル。 過去の多くの試みは、コーパスサイズとサンプルのクラスで制限されてきたが、このデータセットは10のクラス(または感覚)から約1,200のイディオムのケースを持つ20,100以上のサンプルを含んでいる。 コーパスは、研究者が特定のニーズを満たすために拡張することもできる。 コーパスには、NLTKライブラリからの音声タグ(PoS)の一部が含まれている。 BERTモデルを含む3つの一般的なモデルのベースラインと比較を得るためにコーパスで実施された分類実験は良い結果を得た。 また、NLPタスクのためのコーパスと関連するコードも公開しています。

We present a fairly large, Potential Idiomatic Expression (PIE) dataset for Natural Language Processing (NLP) in English. The challenges with NLP systems with regards to tasks such as Machine Translation (MT), word sense disambiguation (WSD) and information retrieval make it imperative to have a labelled idioms dataset with classes such as it is in this work. To the best of the authors' knowledge, this is the first idioms corpus with classes of idioms beyond the literal and the general idioms classification. In particular, the following classes are labelled in the dataset: metaphor, simile, euphemism, parallelism, personification, oxymoron, paradox, hyperbole, irony and literal. Many past efforts have been limited in the corpus size and classes of samples but this dataset contains over 20,100 samples with almost 1,200 cases of idioms (with their meanings) from 10 classes (or senses). The corpus may also be extended by researchers to meet specific needs. The corpus has part of speech (PoS) tagging from the NLTK library. Classification experiments performed on the corpus to obtain a baseline and comparison among three common models, including the BERT model, give good results. We also make publicly available the corpus and the relevant codes for working with it for NLP tasks.
翻訳日:2021-05-11 11:01:35 公開日:2021-04-25
# (参考訳) ニューラルネットワーク(anns)を用いたカルバートの水圧閉塞予測のための深部視覚特徴の回帰

Regression on Deep Visual Features using Artificial Neural Networks (ANNs) to Predict Hydraulic Blockage at Culverts ( http://arxiv.org/abs/2105.03233v1 )

ライセンス: CC BY 4.0
Umair Iqbal, Johan Barthelemy, Wanqing Li and Pascal Perez(参考訳) 都市景観における横断排水水理構造物(例えばカルバート、ブリッジ)は、輸送された破片によってブロックされやすく、しばしばフラッシュフラッドを引き起こす。 オーストラリアでは、Wollongong City Council (WCC) のブロック・コンジット・ポリシーが、設計プロセスにおけるブロックを考慮に入れた唯一の公式ガイドラインである。 しかし、この方針は洪水後の視覚検査に基づいており、水圧遮断の正確な表現とは考えられないという意見も多い。 この議論の結果として、視覚的遮断と水理的遮断は、両者の間に確立された定量的な関係を持たない2つの異なる用語と見なされる。 本稿では, 油圧遮断の予測に深い視覚的特徴を用いることにより, 両項を関連づけることを試みる。 入力として変換のイメージを取得し、ディープラーニングモデルを使用して視覚的特徴を抽出し、視覚的特徴を前処理し、回帰モデルにフィードし、対応する油圧閉塞を予測する。 本研究で使用したデータセット(Hydrology-Lab Dataset (HD), Visual Hydrology-Lab Dataset (VHD))は, 複数のブロックシナリオを大規模に再現した変圧器のスケールされた物理モデルを用いて実験した。 回帰モデルの性能は標準評価指標を用いて評価した。 さらに、モデルとハードウェア要求分析の相対比較の処理時間の観点から、全体的な機械学習パイプラインの性能を評価した。 MobileNetで使用したANNによる視覚的特徴抽出は,R^{2}$スコア0.7855で最高の回帰性能を達成した。 R^{2}$スコアの正の値は、視覚特徴と油圧遮断の相関の存在を示し、両者が相互に関連があることを示唆した。

Cross drainage hydraulic structures (i.e., culverts, bridges) in urban landscapes are prone to getting blocked by transported debris which often results in causing the flash floods. In context of Australia, Wollongong City Council (WCC) blockage conduit policy is the only formal guideline to consider blockage in design process. However, many argue that this policy is based on the post floods visual inspections and hence can not be considered accurate representation of hydraulic blockage. As a result of this on-going debate, visual blockage and hydraulic blockage are considered two distinct terms with no established quantifiable relation among both. This paper attempts to relate both terms by proposing the use of deep visual features for prediction of hydraulic blockage at a given culvert. An end-to-end machine learning pipeline is propounded which takes an image of culvert as input, extract visual features using deep learning models, pre-process the visual features and feed into regression model to predict the corresponding hydraulic blockage. Dataset (i.e., Hydrology-Lab Dataset (HD), Visual Hydrology-Lab Dataset (VHD)) used in this research was collected from in-lab experiments carried out using scaled physical models of culverts where multiple blockage scenarios were replicated at scale. Performance of regression models was assessed using standard evaluation metrics. Furthermore, performance of overall machine learning pipeline was assessed in terms of processing times for relative comparison of models and hardware requirement analysis. From the results ANN used with MobileNet extracted visual features achieved the best regression performance with $R^{2}$ score of 0.7855. Positive value of $R^{2}$ score indicated the presence of correlation between visual features and hydraulic blockage and suggested that both can be interrelated with each other.
翻訳日:2021-05-11 10:53:43 公開日:2021-04-25
# バッチ強化学習のための指数的下界:バッチRLはオンラインRLよりも指数的に難しい

Exponential Lower Bounds for Batch Reinforcement Learning: Batch RL can be Exponentially Harder than Online RL ( http://arxiv.org/abs/2012.08005v3 )

ライセンス: Link先を確認
Andrea Zanette(参考訳) 強化学習のいくつかの実践的応用は、エージェントが過去のデータから学習することを含む。 多くの場合、これらのアプリケーションでは、1)ほぼ最適なポリシーを特定したり、2)ターゲットポリシーの価値を見積もる必要があります。 いずれのタスクに対しても, 1 \emph{realizability} が成立しても,アクション値関数に対する線形関数表現を持つディスカウント無限大地平線mdpにおける情報理論的下限である \emph{exponential} を導出し, 2) バッチアルゴリズムは厳密な報酬と遷移を観測し, 3) バッチアルゴリズムは問題クラスに対する事前データ分布として \emph{best} を与えられる。 さらに、もしデータセットがポリシーのロールアウトから来ない場合、下界は、もし \emph{every} ポリシーのアクション値関数が線形表現を許すとしても保持する。 目的が最適に近いポリシーを見つけることなら、これらのハードインスタンスは \emph{online} アルゴリズムで容易に解けることを発見し、最も好ましいバッチデータ分布下であっても、オンライン RL よりも指数関数的に困難であるような RL 問題が存在することを示した。 言い換えれば、オンライン探索は、関数近似を用いたサンプル効率のよいRLを実現するために重要である。 第二の補題は、仮定の下で有限と無限のホライズンバッチ問題の指数的分離である。 技術的レベルでは、この研究は、すべての分布に保持される下位境界を証明し、特別なケースとして従来の固定分布の下限を自動的に回収する新しい 'oracle + batch algorithm' フレームワークを導入している。 最後に、この研究は \emph{deadly triad} として知られる問題を形式化し、 \emph{bootstrapping} 問題 \citep{sutton2018reinforcement} が RL の \emph{extrapolation} 問題よりも深刻な可能性があると説明する。

Several practical applications of reinforcement learning involve an agent learning from past data without the possibility of further exploration. Often these applications require us to 1) identify a near optimal policy or to 2) estimate the value of a target policy. For both tasks we derive \emph{exponential} information-theoretic lower bounds in discounted infinite horizon MDPs with a linear function representation for the action value function even if 1) \emph{realizability} holds, 2) the batch algorithm observes the exact reward and transition \emph{functions}, and 3) the batch algorithm is given the \emph{best} a priori data distribution for the problem class. Furthermore, if the dataset does not come from policy rollouts then the lower bounds hold even if the action-value function of \emph{every} policy admits a linear representation. If the objective is to find a near-optimal policy, we discover that these hard instances are easily solved by an \emph{online} algorithm, showing that there exist RL problems where \emph{batch RL is exponentially harder than online RL} even under the most favorable batch data distribution. In other words, online exploration is critical to enable sample efficient RL with function approximation. A second corollary is the exponential separation between finite and infinite horizon batch problems under our assumptions. On a technical level, this work introduces a new `oracle + batch algorithm' framework to prove lower bounds that hold for every distribution, and automatically recovers traditional fixed distribution lower bounds as a special case. Finally this work helps formalize the issue known as \emph{deadly triad} and explains that the \emph{bootstrapping} problem \citep{sutton2018reinforcement} is potentially more severe than the \emph{extrapolation} issue for RL because unlike the latter, bootstrapping cannot be mitigated by adding more samples.
翻訳日:2021-05-08 14:42:14 公開日:2021-04-25
# (参考訳) クラウドデータセンターにおけるパフォーマンスと省エネ型双方向タスクスケジューリング

Performance and Energy-Aware Bi-objective Tasks Scheduling for Cloud Data Centers ( http://arxiv.org/abs/2105.00843v1 )

ライセンス: CC BY 4.0
Huned Materwala and Leila Ismail(参考訳) クラウドコンピューティングはユーザタスクのリモート実行を可能にする。 スマートシティのサービスやアプリケーションにおけるクラウドコンピューティングの普及は、Quality of Services(QoS)に準拠したタスクのタイムリーな実行を必要とします。 しかし、コンピューティングサーバの利用の増加は、高エネルギー消費、運用コスト、環境汚染の問題を悪化させる。 クラウドデータセンターのパフォーマンスを最大化し、エネルギーを最小化するのは難しい。 本稿では,矛盾する性能とエネルギー目標をトレードオフする性能とエネルギー最適化の両対象アルゴリズムを提案する。 進化的アルゴリズムに基づく多目的最適化は、システム性能カウンタを用いて初めて提案される。 提案モデルの性能は,クラウドコンピューティング環境における現実的なクラウドデータセットを用いて評価する。 実験の結果, 技術アルゴリズムと比較すると, 高い性能と低エネルギー化を実現している。

Cloud computing enables remote execution of users tasks. The pervasive adoption of cloud computing in smart cities services and applications requires timely execution of tasks adhering to Quality of Services (QoS). However, the increasing use of computing servers exacerbates the issues of high energy consumption, operating costs, and environmental pollution. Maximizing the performance and minimizing the energy in a cloud data center is challenging. In this paper, we propose a performance and energy optimization bi-objective algorithm to tradeoff the contradicting performance and energy objectives. An evolutionary algorithm-based multi-objective optimization is for the first time proposed using system performance counters. The performance of the proposed model is evaluated using a realistic cloud dataset in a cloud computing environment. Our experimental results achieve higher performance and lower energy consumption compared to a state of the art algorithm.
翻訳日:2021-05-06 06:52:58 公開日:2021-04-25
# (参考訳) ランダム埋め込みと線形回帰はタンパク質機能を予測する

Random Embeddings and Linear Regression can Predict Protein Function ( http://arxiv.org/abs/2104.14661v1 )

ライセンス: CC BY 4.0
Tianyu Lu, Alex X. Lu, Alan M. Moses(参考訳) 数百万のタンパク質配列で事前訓練された大規模な自己制御モデルが、タンパク質機能予測のためのタンパク質配列の埋め込みを生成することで最近人気を集めている。 しかし、ランダムなベースラインがないため、事前学習がタンパク質機能予測に有用な情報を学んだかどうかを判断することは困難である。 ここでは, プレトレーニングを必要としないワンホット符号化とランダム埋め込みが, 14種類の配列対機能タスクにまたがるタンパク質機能予測の強力なベースラインであることを示す。

Large self-supervised models pretrained on millions of protein sequences have recently gained popularity in generating embeddings of protein sequences for protein function prediction. However, the absence of random baselines makes it difficult to conclude whether pretraining has learned useful information for protein function prediction. Here we show that one-hot encoding and random embeddings, both of which do not require any pretraining, are strong baselines for protein function prediction across 14 diverse sequence-to-function tasks.
翻訳日:2021-05-04 04:34:16 公開日:2021-04-25
# ウォバッシュ川流域における極端水文現象の誘導予測

Inductive Predictions of Extreme Hydrologic Events in The Wabash River Watershed ( http://arxiv.org/abs/2104.14658v1 )

ライセンス: Link先を確認
Nicholas Majeske, Bidisha Abesh, Chen Zhu, Ariful Azad(参考訳) 本研究では,水文データと気象データとの時間的変動から,水文現象を予測する機械学習手法を提案する。 ワバッシュ川流域の80年以上にわたって観測・シミュレーションされた時系列データから,数値計算と記憶の必要量を削減し,双方向lstmネットワークを訓練し,土壌水と流れの予測を行った。 我々の単純なモデルは、GeoMANのような複雑な注意ネットワークよりも、精度を犠牲にすることなく、はるかに高速に訓練できることを示す。 土壌水および河川流量の予測値に基づいて,干ばつなどの極端な水文現象の発生と深刻度を予測した。 また、トレーニングプロセス中に観測された位置とは別の地理的な場所で極端な事象を予測できることを実証した。 この空間的インダクティブな設定により,ワバッシュ盆地データを用いてトレーニングしたモデルを用いて,米国および世界の他の地域における極端な事象を予測できる。

We present a machine learning method to predict extreme hydrologic events from spatially and temporally varying hydrological and meteorological data. We used a timestep reduction technique to reduce the computational and memory requirements and trained a bidirection LSTM network to predict soil water and stream flow from time series data observed and simulated over eighty years in the Wabash River Watershed. We show that our simple model can be trained much faster than complex attention networks such as GeoMAN without sacrificing accuracy. Based on the predicted values of soil water and stream flow, we predict the occurrence and severity of extreme hydrologic events such as droughts. We also demonstrate that extreme events can be predicted in geographical locations separate from locations observed during the training process. This spatially-inductive setting enables us to predict extreme events in other areas in the US and other parts of the world using our model trained with the Wabash Basin data.
翻訳日:2021-05-03 19:51:23 公開日:2021-04-25
# ハイブリッドネットワークを用いた深層学習によるダブルウェル問題の再検討

Revisiting the double-well problem by deep learning with a hybrid network ( http://arxiv.org/abs/2104.14657v1 )

ライセンス: Link先を確認
Shurui Li, Jianqin Xu and Jing Qian(参考訳) 深層学習による物理問題の解決は正確で効率的であり、主に精巧なニューラルネットワークの利用を考慮に入れている。 本稿では,システムの時間進化の強振動ダイナミクスを解くことの難しさを克服するために,LSTMとResNetの2つの異なる種類のニューラルネットワークを統合した新しいハイブリッドネットワークを提案する。 ダブルウェルモデルを例にとると,本手法はlstmネットワークを用いた事前学習と周波数周期性検証の恩恵を受けると同時に,単一ネットワークでは不可能であるresnetを用いたシステム全体のダイナミクスの忠実度を高い精度で予測できることを示す。 このようなハイブリッドネットワークは、高速空間的または時間的変調を持つシステムにおける協調ダイナミクスの解決に応用でき、実験条件下での現実的な振動計算を期待できる。

Solving physical problems by deep learning is accurate and efficient mainly accounting for the use of an elaborate neural network. We propose a novel hybrid network which integrates two different kinds of neural networks: LSTM and ResNet, in order to overcome the difficulty met in solving strongly-oscillating dynamics of the system's time evolution. By taking the double-well model as an example we show that our new method can benefit from a pre-learning and verification of the periodicity of frequency by using the LSTM network, simultaneously making a high-fidelity prediction about the whole dynamics of system with ResNet, which is impossibly achieved in the case of single network. Such a hybrid network can be applied for solving cooperative dynamics in a system with fast spatial or temporal modulations, promising for realistic oscillation calculations under experimental conditions.
翻訳日:2021-05-03 19:51:06 公開日:2021-04-25
# (参考訳) 文生成研究の包括的試み

A Comprehensive Attempt to Research Statement Generation ( http://arxiv.org/abs/2104.14339v1 )

ライセンス: CC BY 4.0
Wenhao Wu and Sujian Li(参考訳) 研究者にとって、優れた研究声明を書くことは重要だが、多くの時間と労力がかかる。 本稿では,研究成果を要約し,正式な研究成果を作成することを目的とした研究成果生成(RSG)タスクを提案する。 本研究では,コーパス構築,メソッド設計,性能評価などの総合的な試みを行う。 まず、62の研究ステートメントと対応する1,203の出版物からなるrsgデータセットを構築する。 資源の制限により,トピックモデリングとクラスタリング技術を用いて研究者の研究方向を特定し,ニューラルネットワーク要約器により有能な文章を抽出する実践的RSG手法を提案する。 最後に,本手法は,コンテンツカバレッジとコヒーレンスを向上し,すべてのベースラインに優れることを示す。

For a researcher, writing a good research statement is crucial but costs a lot of time and effort. To help researchers, in this paper, we propose the research statement generation (RSG) task which aims to summarize one's research achievements and help prepare a formal research statement. For this task, we conduct a comprehensive attempt including corpus construction, method design, and performance evaluation. First, we construct an RSG dataset with 62 research statements and the corresponding 1,203 publications. Due to the limitation of our resources, we propose a practical RSG method which identifies a researcher's research directions by topic modeling and clustering techniques and extracts salient sentences by a neural text summarizer. Finally, experiments show that our method outperforms all the baselines with better content coverage and coherence.
翻訳日:2021-05-01 04:14:38 公開日:2021-04-25
# レゾリューションボックスを用いたニューラルネットワークのカスタマイズ可能な参照実行監視

Customizable Reference Runtime Monitoring of Neural Networks using Resolution Boxes ( http://arxiv.org/abs/2104.14435v1 )

ライセンス: Link先を確認
Changshun Wu, Yli\`es Falcone, Saddek Bensalem(参考訳) データ抽象化による分類システムのモニタリング手法を提案する。 データ抽象化は、解決を伴うボックスの概念に依存します。 Boxベースの抽象化は、各次元の最小値と最大値で値の集合を表現する。 ボックスを解像度の概念で拡張し、クラスタリングのカバレッジを定義します。 これにより、構築されたボックスに異なるクラスタリングパラメータが与える影響を研究し、サブ最適パラメータの間隔を推定できる。 さらに,システムの正しい動作と不正確な動作の両方を利用するモニタを自動生成する。 これにより、モニタの抽象化のサイズをチェックし、ネットワークの分離性を分析することができる。 モニタは、選択された層に配置されたシステムの各クラスのサブモニターを組み合わせることで得られる。 本実験は,クラスタリングカバレッジ推定の有効性を実証し,選択したクラスタリングパラメータとモニタ層に基づいてモニタの有効性と精度を評価する方法を示す。

We present an approach for monitoring classification systems via data abstraction. Data abstraction relies on the notion of box with a resolution. Box-based abstraction consists in representing a set of values by its minimal and maximal values in each dimension. We augment boxes with a notion of resolution and define their clustering coverage, which is intuitively a quantitative metric that indicates the abstraction quality. This allows studying the effect of different clustering parameters on the constructed boxes and estimating an interval of sub-optimal parameters. Moreover, we automatically construct monitors that leverage both the correct and incorrect behaviors of a system. This allows checking the size of the monitor abstractions and analyzing the separability of the network. Monitors are obtained by combining the sub-monitors of each class of the system placed at some selected layers. Our experiments demonstrate the effectiveness of our clustering coverage estimation and show how to assess the effectiveness and precision of monitors according to the selected clustering parameter and monitored layers.
翻訳日:2021-04-30 13:14:16 公開日:2021-04-25
# 新型コロナウイルスのCT分類のための説明可能なAI:最初の比較研究

Explainable AI For COVID-19 CT Classifiers: An Initial Comparison Study ( http://arxiv.org/abs/2104.14506v1 )

ライセンス: Link先を確認
Qinghao Ye and Jun Xia and Guang Yang(参考訳) 人工知能(AI)は、特にディープラーニングが導入されたときに、すべての産業セクターで飛躍的な発展を遂げた。 ディープラーニングは、パターンを認識し解釈する方法を通じて、エンティティの振る舞いを学ぶのに役立つ。 無限の可能性にもかかわらず、深層学習アルゴリズムがそもそもどのように決定を下すのかは謎だ。 説明可能なAI(XAI)は、ディープラーニングのためのAIとブラックボックスをアンロックする鍵である。 XAIは、エンドユーザが理解できるように、目標、ロジック、意思決定を説明するためにプログラムされたAIモデルである。 エンドユーザは、ドメインエキスパート、規制機関、マネジャー、執行委員会メンバー、データサイエンティスト、AIを使用するユーザ、認識の有無に関わらず、あるいはAIモデルの決定に影響を受けている人である。 胸部CTは、COVID-19に関連する肺疾患の臨床的診断と治療のための貴重なツールとして登場した。 aiは、他の肺疾患とcovid-19所見を区別するために、ctスキャンの迅速な評価をサポートすることができる。 しかし、これらのAIツールやディープラーニングアルゴリズムがこのような決定にどのように到達し、一般的に深い層を持つニューラルネットワークから派生した最も影響力のある特徴は明確ではない。 本研究の目的は、比較調査による新型コロナウイルス分類モデルのためのXAI戦略の提案と開発である。 その結果,XAIモデルから得られた結果からより詳細な情報を用いて,臨床医の理解と意思決定をさらに促進できる有望な定量化と質的可視化が示された。

Artificial Intelligence (AI) has made leapfrogs in development across all the industrial sectors especially when deep learning has been introduced. Deep learning helps to learn the behaviour of an entity through methods of recognising and interpreting patterns. Despite its limitless potential, the mystery is how deep learning algorithms make a decision in the first place. Explainable AI (XAI) is the key to unlocking AI and the black-box for deep learning. XAI is an AI model that is programmed to explain its goals, logic, and decision making so that the end users can understand. The end users can be domain experts, regulatory agencies, managers and executive board members, data scientists, users that use AI, with or without awareness, or someone who is affected by the decisions of an AI model. Chest CT has emerged as a valuable tool for the clinical diagnostic and treatment management of the lung diseases associated with COVID-19. AI can support rapid evaluation of CT scans to differentiate COVID-19 findings from other lung diseases. However, how these AI tools or deep learning algorithms reach such a decision and which are the most influential features derived from these neural networks with typically deep layers are not clear. The aim of this study is to propose and develop XAI strategies for COVID-19 classification models with an investigation of comparison. The results demonstrate promising quantification and qualitative visualisations that can further enhance the clinician's understanding and decision making with more granular information from the results given by the learned XAI models.
翻訳日:2021-04-30 13:05:22 公開日:2021-04-25
# CTCモデルとRNN-TモデルのアンサンブルによるストリーミングASRシステムと非ストリーミングASRシステムのギャップを埋める

Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models ( http://arxiv.org/abs/2104.14346v1 )

ライセンス: Link先を確認
Thibault Doutre, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Olivier Siohan, Liangliang Cao(参考訳) ストリームエンドツーエンド自動音声認識(ASR)システムは、音声をテキストにリアルタイムに書き起こす必要がある日常的なアプリケーションで広く使われている。 レイテンシの最小化は、そのようなタスクに適している。 ストリーミング以外のモデルと異なり、ストリーミングモデルは将来的な文脈では因果関係なく、より高い単語エラー率(WER)に悩まされる。 ストリーミングモデルを改善するために,最近の研究 [1] では教師の非教師モデルと教師の予測を用いて教師モデルを訓練することを提案した。 しかし、教師と学生のWERのパフォーマンス格差は依然として高い。 本稿では,非ストリーミング型教師モデルの多種多様な集合を用いて,認識出力投票誤り低減(ROVER)を用いて,このギャップを埋めることを目的とする。 特に、RNN-Tモデルよりも弱いにもかかわらず、CTCモデルは素晴らしい教師であることを示す。 さらに,RNN-TとCTCモデルを融合させることで,最強の教員を育成する。 結果として得られた学生モデルは、以前の作品のストリーミングモデルによって大幅に改善 [1]: werはスペイン語で41%、ポルトガル語で27%、フランス語で13%減少している。

Streaming end-to-end automatic speech recognition (ASR) systems are widely used in everyday applications that require transcribing speech to text in real-time. Their minimal latency makes them suitable for such tasks. Unlike their non-streaming counterparts, streaming models are constrained to be causal with no future context and suffer from higher word error rates (WER). To improve streaming models, a recent study [1] proposed to distill a non-streaming teacher model on unsupervised utterances, and then train a streaming student using the teachers' predictions. However, the performance gap between teacher and student WERs remains high. In this paper, we aim to close this gap by using a diversified set of non-streaming teacher models and combining them using Recognizer Output Voting Error Reduction (ROVER). In particular, we show that, despite being weaker than RNN-T models, CTC models are remarkable teachers. Further, by fusing RNN-T and CTC models together, we build the strongest teachers. The resulting student models drastically improve upon streaming models of previous work [1]: the WER decreases by 41% on Spanish, 27% on Portuguese, and 13% on French.
翻訳日:2021-04-30 12:51:45 公開日:2021-04-25
# (参考訳) マルチパスニューラルネットワークにおけるバランシング精度とレイテンシ

Balancing Accuracy and Latency in Multipath Neural Networks ( http://arxiv.org/abs/2104.12040v1 )

ライセンス: CC BY 4.0
Mohammed Amer, Tom\'as Maul, Iman Yi Liao(参考訳) ニューラルネットワークの能力の増大は、複雑な機械学習タスクの成功に大きく貢献し、そのような大規模モデルの計算需要は、計算を加速するために必要なハードウェアの大幅な改善を刺激した。 しかし、レイテンシの高いモデルは、ハンドヘルドやIoTデバイスのような限られたリソース環境には適していない。 したがって、多くのディープラーニング技術は、限られたリソース制約に違反することなく、適切な精度のモデルを開発することでこの問題に対処することを目指している。 本研究では,一発のニューラルネットワーク探索モデルを用いて,難解な複数パスニューラルネットワークの性能を暗黙的に評価する。 このアーキテクチャ検索とプルーニング手法とアーキテクチャサンプル評価を組み合わせることで、グレードの複雑さを持つモデルのスペクトルの精度とレイテンシの関係をモデル化することができる。 提案手法は,異なるレイテンシを持つモデル間の相対的性能を精度良くモデル化し,異なるデータセット間で良好な精度で未知のモデルの性能を予測する。

The growing capacity of neural networks has strongly contributed to their success at complex machine learning tasks and the computational demand of such large models has, in turn, stimulated a significant improvement in the hardware necessary to accelerate their computations. However, models with high latency aren't suitable for limited-resource environments such as hand-held and IoT devices. Hence, many deep learning techniques aim to address this problem by developing models with reasonable accuracy without violating the limited-resource constraint. In this work, we use a one-shot neural architecture search model to implicitly evaluate the performance of an intractable number of multipath neural networks. Combining this architecture search with a pruning technique and architecture sample evaluation, we can model the relation between the accuracy and the latency of a spectrum of models with graded complexity. We show that our method can accurately model the relative performance between models with different latencies and predict the performance of unseen models with good precision across different datasets.
翻訳日:2021-04-28 11:51:26 公開日:2021-04-25
# (参考訳) オープンエンドソリューション分析とフィードバックのための数学操作埋め込み

Math Operation Embeddings for Open-ended Solution Analysis and Feedback ( http://arxiv.org/abs/2104.12047v1 )

ライセンス: CC BY 4.0
Mengxue Zhang, Zichao Wang, Richard Baraniuk, Andrew Lan(参考訳) 解答に対するフィードバックや解答の中間段階でのフィードバックは数学教育において重要な要素である。 このようなフィードバックは、学生の誤りの修正に役立ち、最終的には学習結果の改善につながる。 学生ソリューションの自動分析とフィードバックのための既存のアプローチの多くは、手動で認知モデルを構築し、各質問に対する生徒の誤りを予測する必要がある。 このプロセスには多大な人的努力が必要であり、この情報を持っていない宿題や実践で使われるほとんどの質問にスケールしない。 本稿では,少人数の質問に対して開発した誤り診断とフィードバック機構を,より多くの質問にスケールアップする試みとして,学生の段階的解法から方程式解法へ分析する。 近年の数学式符号化法を用いて, 算数埋め込みベクトル空間における遷移として, 解ステップに適用される各算術演算を表現した。 我々は、認知チュータシステムに学生ソリューションステップを含むデータセットを使用して、算術演算の暗黙的かつ明示的な表現を学習する。 これらの表現が, 生徒が解答ステップで行おうとする数学的操作を, 正しく実行したか否かに関わらず特定できるかどうかを探索し, 誤ったステップに対して適切なフィードバックタイプを選択する。 実験の結果,学習した数学演算表現は,異なるデータ分布にまたがってよく一般化することがわかった。

Feedback on student answers and even during intermediate steps in their solutions to open-ended questions is an important element in math education. Such feedback can help students correct their errors and ultimately lead to improved learning outcomes. Most existing approaches for automated student solution analysis and feedback require manually constructing cognitive models and anticipating student errors for each question. This process requires significant human effort and does not scale to most questions used in homework and practices that do not come with this information. In this paper, we analyze students' step-by-step solution processes to equation solving questions in an attempt to scale up error diagnostics and feedback mechanisms developed for a small number of questions to a much larger number of questions. Leveraging a recent math expression encoding method, we represent each math operation applied in solution steps as a transition in the math embedding vector space. We use a dataset that contains student solution steps in the Cognitive Tutor system to learn implicit and explicit representations of math operations. We explore whether these representations can i) identify math operations a student intends to perform in each solution step, regardless of whether they did it correctly or not, and ii) select the appropriate feedback type for incorrect steps. Experimental results show that our learned math operation representations generalize well across different data distributions.
翻訳日:2021-04-28 10:45:52 公開日:2021-04-25
# (参考訳) 深い確率的グラフィカルモデリング

Deep Probabilistic Graphical Modeling ( http://arxiv.org/abs/2104.12053v1 )

ライセンス: CC BY-SA 4.0
Adji B. Dieng(参考訳) 確率的グラフィカルモデリング(PGM)は、データの解釈可能な生成プロセスを定式化し、未知に関する不確実性を表現するためのフレームワークを提供するが、柔軟性に欠ける。 ディープラーニング(DL)は、近年大きな実証的な成功を収めたデータから学ぶための代替フレームワークである。 DLは優れた柔軟性を提供するが、PGMの解釈可能性やキャリブレーションに欠ける。 この論文は、深い確率的グラフィカルモデリング(dpgm)を開発する。 DPGMはDLを活用してPGMをより柔軟にする。 DPGMは、PGMとDLの両方の利点を示すデータから学習する新しい方法をもたらす。 我々はPGM内でDLを用いて、解釈可能な潜在構造を持つフレキシブルモデルを構築する。 ニューラルネットワークを用いた指数関数型ファミリーPCAを拡張し,潜在因子の解釈可能性を高めながら予測性能を向上させる。 もうひとつ紹介するモデルクラスでは、シーケンシャルなデータをモデリングする際の長期的依存関係を説明できるようにしています。 最後に、DPGMは、PGMで広く使われているモデル群である確率論的トピックモデルのいくつかの際立った問題をうまく解決する。 DPGMは複雑なデータで学習するための新しいアルゴリズムも導入している。 ニューラルネットワークによってパラメータ化された学習モデルのための,既存の最大可能性に基づくアルゴリズムを統一するアルゴリズムである。 この統一ビューは、PGMの標準推論アルゴリズムである期待最大化を用いて実現される。 また,従来のPGMの最大極大アプローチから逸脱する学習パラダイムである,エントロピー規則化された逆数学習を開発する。 DLの観点からは、エントロピー規則化された逆数学習は、生成逆数ネットワークの長期モード崩壊問題に対する解決策を提供する。

Probabilistic graphical modeling (PGM) provides a framework for formulating an interpretable generative process of data and expressing uncertainty about unknowns, but it lacks flexibility. Deep learning (DL) is an alternative framework for learning from data that has achieved great empirical success in recent years. DL offers great flexibility, but it lacks the interpretability and calibration of PGM. This thesis develops deep probabilistic graphical modeling (DPGM.) DPGM consists in leveraging DL to make PGM more flexible. DPGM brings about new methods for learning from data that exhibit the advantages of both PGM and DL. We use DL within PGM to build flexible models endowed with an interpretable latent structure. One model class we develop extends exponential family PCA using neural networks to improve predictive performance while enforcing the interpretability of the latent factors. Another model class we introduce enables accounting for long-term dependencies when modeling sequential data, which is a challenge when using purely DL or PGM approaches. Finally, DPGM successfully solves several outstanding problems of probabilistic topic models, a widely used family of models in PGM. DPGM also brings about new algorithms for learning with complex data. We develop reweighted expectation maximization, an algorithm that unifies several existing maximum likelihood-based algorithms for learning models parameterized by neural networks. This unifying view is made possible using expectation maximization, a canonical inference algorithm in PGM. We also develop entropy-regularized adversarial learning, a learning paradigm that deviates from the traditional maximum likelihood approach used in PGM. From the DL perspective, entropy-regularized adversarial learning provides a solution to the long-standing mode collapse problem of generative adversarial networks, a widely used DL approach.
翻訳日:2021-04-28 10:26:35 公開日:2021-04-25
# (参考訳) 機械学習による肝疾患の診断と診断からの献血者検出

Machine Learning Approaches for Inferring Liver Diseases and Detecting Blood Donors from Medical Diagnosis ( http://arxiv.org/abs/2104.12055v1 )

ライセンス: CC BY 4.0
Fahad B. Mostafa and Md Easin Hasan(参考訳) 医学的診断では、医療専門家は、様々な種類の病理学的方法を用いて、患者の医療状況に関する医療報告を判断する。 現代では、コンピュータと技術の利点により、データを収集し、多くの隠れた結果を視覚化することができる。 特定の問題に基づく統計的機械学習アルゴリズムは、決定を下すのに役立つ。 機械学習のデータ駆動アルゴリズムは、既存の方法を検証し、研究者が潜在的な新しい決定を提案するのに役立つ。 本稿では,連鎖方程式による多重計算を欠落データに応用し,主成分分析により次元の減少を図る。 重要な発見を明らかにするために、データの可視化が実装された。 血液ドナーと非血液ドナーを肝炎,線維症,肝硬変の疾患で分類するために用いられた,多くの二分分類機械学習アルゴリズム(人工ニューラルネットワーク,ランダムフォレスト,サポートベクターマシン)を提示,比較した。 UCI-MLR [1]で公表されたデータから、血液ドナーと非血液ドナー(肝炎、線維症、硬変)の分類方法として、実験室の医療専門家がより良い判断を下すのに役立つ方法が見つかった。 提案手法では精度が向上した(例)。 98.23%)であった。 これにより分類の質が向上した。

For a medical diagnosis, health professionals use different kinds of pathological ways to make a decision for medical reports in terms of patients medical condition. In the modern era, because of the advantage of computers and technologies, one can collect data and visualize many hidden outcomes from them. Statistical machine learning algorithms based on specific problems can assist one to make decisions. Machine learning data driven algorithms can be used to validate existing methods and help researchers to suggest potential new decisions. In this paper, multiple imputation by chained equations was applied to deal with missing data, and Principal Component Analysis to reduce the dimensionality. To reveal significant findings, data visualizations were implemented. We presented and compared many binary classifier machine learning algorithms (Artificial Neural Network, Random Forest, Support Vector Machine) which were used to classify blood donors and non-blood donors with hepatitis, fibrosis and cirrhosis diseases. From the data published in UCI-MLR [1], all mentioned techniques were applied to find one better method to classify blood donors and non-blood donors (hepatitis, fibrosis, and cirrhosis) that can help health professionals in a laboratory to make better decisions. Our proposed ML-method showed better accuracy score (e.g. 98.23% for SVM). Thus, it improved the quality of classification.
翻訳日:2021-04-28 10:24:48 公開日:2021-04-25
# (参考訳) オーバーヘッドレースビデオによるスイマーストローク速度の推定

Swimmer Stroke Rate Estimation From Overhead Race Video ( http://arxiv.org/abs/2104.12056v1 )

ライセンス: CC BY 4.0
Timothy Woinoski and Ivan V. Baji\'c(参考訳) 本研究では,オーバヘッドレースビデオ(ORV)からスイマーストローク率を自動的に判定するスイミング分析システムを提案する。 ORVは競技中の水泳選手の映像として定義されており、観察や分析の目的で撮影されている。 例えば、ライブストリーム、放送、あるいは特殊なカメラ機器からの映像で、カメラの動きの有無は問わない。 これらは競泳競技の最も典型的な形態である。 興味ある競技のビデオを見ると、どんな競技でもスイマーのストローク率を自動的に収集するシステムを作る方法について詳述する。 この情報により、より良いシステムを作成することができ、分析システムに追加することで、他のスイミング指標を自動的に抽出することができる。

In this work, we propose a swimming analytics system for automatically determining swimmer stroke rates from overhead race video (ORV). General ORV is defined as any footage of swimmers in competition, taken for the purposes of viewing or analysis. Examples of this are footage from live streams, broadcasts, or specialized camera equipment, with or without camera motion. These are the most typical forms of swimming competition footage. We detail how to create a system that will automatically collect swimmer stroke rates in any competition, given the video of the competition of interest. With this information, better systems can be created and additions to our analytics system can be proposed to automatically extract other swimming metrics of interest.
翻訳日:2021-04-28 10:17:21 公開日:2021-04-25
# (参考訳) GAN生成画像の発見が難しい:合成画像検出機に対する新たな攻撃

Making GAN-Generated Images Difficult To Spot: A New Attack Against Synthetic Image Detectors ( http://arxiv.org/abs/2104.12069v1 )

ライセンス: CC BY 4.0
Xinwei Zhao, Matthew C. Stamm(参考訳) 視覚的にリアルなGAN生成画像は、最近重要な誤報の脅威として現れた。 これらの合成画像は、鑑識検出器によって容易に識別できる法医学的痕跡を含んでいることが研究によって示されている。 残念なことに、これらの検出器はニューラルネットワーク上に構築されている。 本稿では,gan生成画像検出器を騙すことができる新たなアンチフォレンス攻撃を提案する。 我々の攻撃は 敵対的に訓練された 発生装置を使って 検出者が実際の画像と 関連づけた痕跡を 合成する さらに,移動性を実現するために,攻撃を訓練する手法を提案する。 未知のCNNが明示的にトレーニングされていないことを騙すことができる。 そこで,我々は7種類のganを用いた合成画像を用いて8種類の最先端検出cnnを騙すことができることを示す実験を行った。

Visually realistic GAN-generated images have recently emerged as an important misinformation threat. Research has shown that these synthetic images contain forensic traces that are readily identifiable by forensic detectors. Unfortunately, these detectors are built upon neural networks, which are vulnerable to recently developed adversarial attacks. In this paper, we propose a new anti-forensic attack capable of fooling GAN-generated image detectors. Our attack uses an adversarially trained generator to synthesize traces that these detectors associate with real images. Furthermore, we propose a technique to train our attack so that it can achieve transferability, i.e. it can fool unknown CNNs that it was not explicitly trained against. We demonstrate the performance of our attack through an extensive set of experiments, where we show that our attack can fool eight state-of-the-art detection CNNs with synthetic images created using seven different GANs.
翻訳日:2021-04-28 10:07:58 公開日:2021-04-25
# (参考訳) 拡張可能なエンドツーエンドRF分類:畳み込みMSTによる大容量データセット正規化の一事例

Scalable End-to-End RF Classification: A Case Study on Undersized Dataset Regularization by Convolutional-MST ( http://arxiv.org/abs/2104.12103v1 )

ライセンス: CC BY 4.0
Khalid Youssef, Greg Schuette, Yubin Cai, Daisong Zhang, Yikun Huang, Yahya Rahmat-Samii, Louis-S. Bouchard(参考訳) 畳み込みと繰り返しニューラルネットワークに基づくアプローチがそれぞれの分野の性質に有効であることが証明されたコンピュータビジョンや音声認識のような分野とは異なり、ディープラーニング(DL)は、レーダー、信号インテリジェンス、電子戦争、通信といったRFシステムの固有の性質と課題に相応しい一般的なアプローチを欠いている。 既存のアプローチでは、堅牢性、一貫性、効率性、繰り返し可能性、スケーラビリティに問題がある。 レーダー目標識別などのRFセンシングにおける主な課題の1つは、データ取得の困難さとコストである。 1クラスあたり数百から数千のサンプルが、2から12のクラスに分類する訓練で使用されるのが一般的で、精度は87%から99%と報告されている。 本稿では,多段階学習に基づく新しいdl手法を提案し,rfセンシング信号の分類について実証する。 トレーニングでは,最大17種類のクラスに対して,最大99%の精度を継続的に達成し,標準のDLアプローチよりも最大35%の精度向上を実現した。

Unlike areas such as computer vision and speech recognition where convolutional and recurrent neural networks-based approaches have proven effective to the nature of the respective areas of application, deep learning (DL) still lacks a general approach suitable for the unique nature and challenges of RF systems such as radar, signals intelligence, electronic warfare, and communications. Existing approaches face problems in robustness, consistency, efficiency, repeatability and scalability. One of the main challenges in RF sensing such as radar target identification is the difficulty and cost of obtaining data. Hundreds to thousands of samples per class are typically used when training for classifying signals into 2 to 12 classes with reported accuracy ranging from 87% to 99%, where accuracy generally decreases with more classes added. In this paper, we present a new DL approach based on multistage training and demonstrate it on RF sensing signal classification. We consistently achieve over 99% accuracy for up to 17 diverse classes using only 11 samples per class for training, yielding up to 35% improvement in accuracy over standard DL approaches.
翻訳日:2021-04-28 09:52:59 公開日:2021-04-25
# (参考訳) Fair-Capacitated Clustering

Fair-Capacitated Clustering ( http://arxiv.org/abs/2104.12116v1 )

ライセンス: CC BY 4.0
Tai Le Quy, Arjun Roy, Gunnar Friege and Eirini Ntoutsi(参考訳) 従来、クラスタリングアルゴリズムは、データを同様のインスタンスのグループに分割することに重点を置いていた。 しかし、類似性の目的は、各クラスタに対して性別や人種などの保護された属性の観点からグループを公平に表現するアプリケーションでは不十分である。 さらに、多くのアプリケーションにおいて、クラスタをエンドユーザにとって有用なものにするためには、クラスタ間の平衡基数が必要である。 我々のモチベーションは、学生が多様な学生集団でより良く学ぶことができることを示し、もちろん、類似の濃度の集団は、例えば、グループ割り当てにおいてより実践的であることを示唆する教育分野から来ており、この目的のために、クラスタの公平性を確保し、クラスタの濃度のバランスを保ちながら、データを類似のインスタンスのクラスタに分割する公平なクラスタリング問題を導入する。 本稿では,この問題に対する2段階の解法を提案する。i) 公平制約を満たす最小集合を生成するために,fairletsに頼り,ii) 階層クラスタリングとパーティショニングベースのクラスタリングという2つのアプローチを提案する。 階層的アプローチはマージステップ中に追加の濃度要求を埋め込み、分割ベースは追加要件を満たすためにクナップサック問題定式化を使用して割り当てステップを変更する。 4つの教育データセットに関する実験では,クラスタ品質を維持しつつ,公平性と濃度の両面で,バランスの取れたクラスタを提供する方法が示されている。

Traditionally, clustering algorithms focus on partitioning the data into groups of similar instances. The similarity objective, however, is not sufficient in applications where a fair-representation of the groups in terms of protected attributes like gender or race, is required for each cluster. Moreover, in many applications, to make the clusters useful for the end-user, a balanced cardinality among the clusters is required. Our motivation comes from the education domain where studies indicate that students might learn better in diverse student groups and of course groups of similar cardinality are more practical e.g., for group assignments.To this end, we introduce the fair-capacitated clustering problem that partitions the data into clusters of similar instances while ensuring cluster fairness and balancing cluster cardinalities. We propose a two-step solution to the problem: i) we rely on fairlets to generate minimal sets that satisfy the fair constraint and ii) we propose two approaches, namely hierarchical clustering and partitioning-based clustering, to obtain the fair-capacitated clustering. The hierarchical approach embeds the additional cardinality requirements during the merging step while the partitioning-based one alters the assignment step using a knapsack problem formulation to satisfy the additional requirements. Our experiments on four educational datasets show that our approaches deliver well-balanced clusters in terms of both fairness and cardinality while maintaining a good clustering quality.
翻訳日:2021-04-28 09:33:37 公開日:2021-04-25
# (参考訳) オフィスビルにおけるエネルギー柔軟性を活用したソフトアクタ批判者深層強化学習手法の開発

Development of a Soft Actor Critic Deep Reinforcement Learning Approach for Harnessing Energy Flexibility in a Large Office Building ( http://arxiv.org/abs/2104.12125v1 )

ライセンス: CC BY 4.0
Anjukan Kathirgamanathan, Eleni Mangina, Donal P. Finn(参考訳) 本研究は, 大規模商業ビルの冷却設定点(冷却負荷)を制御し, エネルギーの柔軟性を高めるため, 「ソフトアクター批判」に基づく深部強化学習(DRL)の新規適用と研究に関するものである。 この研究は、従来型のモデルベース制御手法の開発と適用に関する課題を、より広いビルの在庫に展開することによるものである。 SACは、連続的な行動空間を扱えるモデルフリーDRL技術であり、建築エネルギーシステムの自動化とインテリジェント制御の文脈において、実生活や高忠実性シミュレーションの実装に限定的な応用が見られた。 このような制御技術は、スマートで持続可能で将来の電力網の運用を支援するための1つの解決策と見なされている。 本研究は,オフィスビルのEnergyPlus環境におけるエージェントの訓練と展開を通じて,SAC DRL技術の適合性を検証した。 sac drlは、デフォルトのルールベース制御(rbc)方式と比較してエネルギーコストを9.7%削減できる最適な制御方針を学習し、1週間の試験期間で保温限界を改善または維持することができた。 アルゴリズムは異なるハイパーパラメータに対して堅牢であることが示され、この最適制御ポリシーは、容易に利用可能な変数からなる最小状態空間を使用することで学習された。 アルゴリズムの堅牢性は、学習の速度と異なる季節や気候に展開する能力の調査を通じて検証された。 SAC DRLは,3ヶ月の手術後にRBCを上回り,この期間の熱的快適さを損なうことなく,最小限のトレーニングサンプルポイントを必要とすることがわかった。 他の気候や季節に移行できるが、さらなる再訓練やハイパーパラメータチューニングが推奨される。

This research is concerned with the novel application and investigation of `Soft Actor Critic' (SAC) based Deep Reinforcement Learning (DRL) to control the cooling setpoint (and hence cooling loads) of a large commercial building to harness energy flexibility. The research is motivated by the challenge associated with the development and application of conventional model-based control approaches at scale to the wider building stock. SAC is a model-free DRL technique that is able to handle continuous action spaces and which has seen limited application to real-life or high-fidelity simulation implementations in the context of automated and intelligent control of building energy systems. Such control techniques are seen as one possible solution to supporting the operation of a smart, sustainable and future electrical grid. This research tests the suitability of the SAC DRL technique through training and deployment of the agent on an EnergyPlus based environment of the office building. The SAC DRL was found to learn an optimal control policy that was able to minimise energy costs by 9.7% compared to the default rule-based control (RBC) scheme and was able to improve or maintain thermal comfort limits over a test period of one week. The algorithm was shown to be robust to the different hyperparameters and this optimal control policy was learnt through the use of a minimal state space consisting of readily available variables. The robustness of the algorithm was tested through investigation of the speed of learning and ability to deploy to different seasons and climates. It was found that the SAC DRL requires minimal training sample points and outperforms the RBC after three months of operation and also without disruption to thermal comfort during this period. The agent is transferable to other climates and seasons although further retraining or hyperparameter tuning is recommended.
翻訳日:2021-04-28 09:20:10 公開日:2021-04-25
# (参考訳) ハイパースペクトル画像分類のための3D/2D正規化CNN特徴階層

3D/2D regularized CNN feature hierarchy for Hyperspectral image classification ( http://arxiv.org/abs/2104.12136v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Manuel Mazzara, and Salvatore Distefano(参考訳) 畳み込みニューラルネットワーク(cnn)はハイパースペクトル画像分類(hsic)のために厳密に研究されており、ハードラベルとラベル上の非一様分布による一般化性能と学習速度の低下を犠牲にして、共同空間スペクトル情報の活用に有効であることが知られている。 aforesaid問題に対処するために、いくつかの正規化技術が使われてきた。 しかし、モデルはしばしば、一般化の観点からは良くないサンプルを極めて自信を持って予測することを学ぶ。 そこで本稿では,ハードラベルの重み付き平均値であるソフトラベルと地上ラベルの均一分布を用いて,HSIC用ハイブリッドCNNの一般化性能を向上させることを提案する。 提案手法はCNNが過信されるのを防ぐのに役立つ。 一般化性能の向上において,ラベル平滑化はモデルキャリブレーションも改善し,ビーム探索が大幅に向上することを示す。 公開されたハイパースペクトルデータセットは、最先端のモデルと比較して一般化性能、統計的重要性、計算複雑性が改善された実験評価を検証するために使用される。 コードはhttps://github.com/mahmad00.comから入手できる。

Convolutional Neural Networks (CNN) have been rigorously studied for Hyperspectral Image Classification (HSIC) and are known to be effective in exploiting joint spatial-spectral information with the expense of lower generalization performance and learning speed due to the hard labels and non-uniform distribution over labels. Several regularization techniques have been used to overcome the aforesaid issues. However, sometimes models learn to predict the samples extremely confidently which is not good from a generalization point of view. Therefore, this paper proposed an idea to enhance the generalization performance of a hybrid CNN for HSIC using soft labels that are a weighted average of the hard labels and uniform distribution over ground labels. The proposed method helps to prevent CNN from becoming over-confident. We empirically show that in improving generalization performance, label smoothing also improves model calibration which significantly improves beam-search. Several publicly available Hyperspectral datasets are used to validate the experimental evaluation which reveals improved generalization performance, statistical significance, and computational complexity as compared to the state-of-the-art models. The code will be made available at https://github.com/mahmad00.
翻訳日:2021-04-28 08:50:11 公開日:2021-04-25
# (参考訳) ポイントクラウドを超えた3d攻撃

3D Adversarial Attacks Beyond Point Cloud ( http://arxiv.org/abs/2104.12146v1 )

ライセンス: CC BY 4.0
Jinlai Zhang, Lyujie Chen, Binbin Liu, Bo Ouyang, Qizhi Xie, Jihong Zhu, Yanmei Meng(参考訳) 従来の3Dポイントクラウドに対する敵攻撃は主に、元のポイントクラウドに摂動を加えることに焦点を当てていたが、生成された敵ポイントクラウドの例は、物理的世界の3Dオブジェクトを厳密に表現するものではなく、転送可能性も低く、単純なSRS/SORによって容易に防御できる。 本稿では,この問題を解決するために,Mesh攻撃という新たな敵攻撃を提案する。 具体的には、ポイントクラウドの代わりにメッシュ上で摂動を行い、逆メッシュの例とポイントクラウドの例を同時に取得する。 逆の例を生成するために、ポイントクラウド分類器の損失をメッシュ頂点にバックプロパゲーションする差分サンプルモジュールと、メッシュを滑らかに規則化するメッシュ損失を使用する。 広範な実験により,提案手法がsota攻撃法を上回った。 私たちのコードは、次のように利用できる。

Previous adversarial attacks on 3D point clouds mainly focus on add perturbation to the original point cloud, but the generated adversarial point cloud example does not strictly represent a 3D object in the physical world and has lower transferability or easily defend by the simple SRS/SOR. In this paper, we present a novel adversarial attack, named Mesh Attack to address this problem. Specifically, we perform perturbation on the mesh instead of point clouds and obtain the adversarial mesh examples and point cloud examples simultaneously. To generate adversarial examples, we use a differential sample module that back-propagates the loss of point cloud classifier to the mesh vertices and a mesh loss that regularizes the mesh to be smooth. Extensive experiments demonstrated that the proposed scheme outperforms the SOTA attack methods. Our code is available at: {\footnotesize{\url{https://github.com/cuge1995/Mesh-Attack}}}.
翻訳日:2021-04-28 08:40:52 公開日:2021-04-25
# (参考訳) 変形可能なオブジェクト操作のための潜在グラフダイナミクスの学習

Learning Latent Graph Dynamics for Deformable Object Manipulation ( http://arxiv.org/abs/2104.12149v1 )

ライセンス: CC BY 4.0
Xiao Ma, David Hsu, Wee Sun Lee(参考訳) 布やロープなどの変形可能な物体を操作することは、ロボット工学における長年の課題である。 本研究の目的は、DefOrmable Object Manipulation (G-DOOM)のための潜伏グラフのダイナミクスを学ぶことである。 多くのdofと複雑なダイナミクスの課題に取り組むため、g-doomは相互作用するキーポイントのスパースセットとして変形可能なオブジェクトを近似し、キーポイントの幾何と相互作用のダイナミクスを抽象的に捉えたグラフニューラルネットワークを学習する。 さらに、知覚的課題、具体的にはオブジェクトの自己隠蔽に対処するために、G-DOOMは、時間とともにキーポイントを追跡し、履歴上のインタラクションを条件付けるために、繰り返しニューラルネットワークを追加する。 次に、高忠実度シミュレータのコントラスト学習により、結果の反復グラフダイナミクスモデルを訓練する。 操作計画のために、g-doomは各キーポイントに適用されるモデル予測制御を通じて学習力学モデルについて明示的に理由を定める。 我々は,G-DOOM が最先端の手法よりも優れていることを示すために,一連の挑戦的な布地やロープ操作作業において G-DOOM を評価する。 さらに,シミュレーションデータに基づいてトレーニングを行ったが,g-doomは実際のロボットに直接移動し,布とロープの操作を行う。

Manipulating deformable objects, such as cloth and ropes, is a long-standing challenge in robotics: their large number of degrees of freedom (DoFs) and complex non-linear dynamics make motion planning extremely difficult. This work aims to learn latent Graph dynamics for DefOrmable Object Manipulation (G-DOOM). To tackle the challenge of many DoFs and complex dynamics, G-DOOM approximates a deformable object as a sparse set of interacting keypoints and learns a graph neural network that captures abstractly the geometry and interaction dynamics of the keypoints. Further, to tackle the perceptual challenge, specifically, object self-occlusion, G-DOOM adds a recurrent neural network to track the keypoints over time and condition their interactions on the history. We then train the resulting recurrent graph dynamics model through contrastive learning in a high-fidelity simulator. For manipulation planning, G-DOOM explicitly reasons about the learned dynamics model through model-predictive control applied at each of the keypoints. We evaluate G-DOOM on a set of challenging cloth and rope manipulation tasks and show that G-DOOM outperforms a state-of-the-art method. Further, although trained entirely on simulation data, G-DOOM transfers directly to a real robot for both cloth and rope manipulation in our experiments.
翻訳日:2021-04-28 08:30:11 公開日:2021-04-25
# (参考訳) 代数的解集合プログラミング

Algebraic answer set programming ( http://arxiv.org/abs/2104.12156v1 )

ライセンス: CC BY 4.0
Christian Antic(参考訳) 非単調推論は、人工知能研究において、解集合プログラミングを通じて顕著に形式化された人間の知能の重要な部分である。 複雑なオブジェクトを初等的なオブジェクトの合成として記述することは、コンピュータ科学および科学全般において共通の戦略である。 本稿では,解集合プログラミングと人工知能の基礎を,解集合プログラムの逐次構成の導入と研究を通じて提供する。 具体的には、合成の概念が有限モノイドと半ネアリングの族、baptized {\em ASP monoids} と {\em ASP seminearrings} を生み出すことを示す。 特に、構成と結合の組み合わせが有限等等等化半ニアリングの構造をもたらすことを示す。 また、ちょうど1つの原子を持つ規則のみを含む固有krom-hornプログラムの制限クラスは、有限等分半環を与えることを示した。 意味面では、プログラムのvan Emden-Kowalski即時帰結演算子は合成によって表現できることを示し、演算子への明示的な参照なしに、Hornプログラムの最小モデル意味論を計算することができる。 その結果、代数的に解集合を特徴づけ、数学的に満足な方法で解集合プログラムの構文と意味の間の概念的ギャップを橋渡しし、強で均一な同値性の代数的特徴を与える。 さらに、解集合プログラムに対する代数的メタ計算を生じさせる。 より広い意味では、本論文は、ルールに基づく論理理論の代数へのさらなるステップであり、将来的には、より広い形式的クラス、特に第一階および断続的な解集合プログラムおよびそれらの拡張に、本論文の手法を適応し、一般化する予定である。

Non-monotonic reasoning is an essential part of human intelligence prominently formalized in artificial intelligence research via answer set programming. Describing complex objects as the composition of elementary ones is a common strategy in computer science and science in general. This paper contributes to the foundations of answer set programming and artificial intelligence by introducing and studying the sequential composition of answer set programs. Specifically, we show that the notion of composition gives rise to a family of finite monoids and seminearrings, baptized {\em ASP monoids} and {\em ASP seminearrings} in this paper. Particularly, we show that the combination of composition and union yields the structure of a finite idempotent seminearring. We also show that the restricted class of proper Krom-Horn programs, which only contain rules with exactly one body atom, yields a finite idempotent semiring. On the semantic side, we show that the van Emden-Kowalski immediate consequence operator of a program can be represented via composition, which allows us to compute the least model semantics of Horn programs without any explicit reference to operators. As a result, we characterize answer sets algebraically, which bridges the conceptual gap between the syntax and semantics of an answer set program in a mathematically satisfactory way, and which provides an algebraic characterization of strong and uniform equivalence. Moreover, it gives rise to an algebraic meta-calculus for answer set programs. In a broader sense, this paper is a further step towards an algebra of rule-based logical theories and in the future we plan to adapt and generalize the methods of this paper to wider classes of formalisms, most importantly to first-order and disjunctive answer set programs and extensions thereof.
翻訳日:2021-04-28 08:07:02 公開日:2021-04-25
# (参考訳) 1対1音声変換のための適応学習型生成型逆ネットワーク

An Adaptive Learning based Generative Adversarial Network for One-To-One Voice Conversion ( http://arxiv.org/abs/2104.12159v1 )

ライセンス: CC BY 4.0
Sandipan Dhar, Nanda Dulal Jana, Swagatam Das(参考訳) 近年、音声合成の分野では音声変換(vc)が重要な研究分野として登場し、音声合成技術や自動映画ダビング、音声合成から名前への変換に応用されている。 vcは基本的に、ある話者の発声スタイルを別の話者に変換するが、言語内容は変わらない。 VCタスクは、音声分析、音声特徴マッピング、音声再構成からなる3段階パイプラインを通じて実行される。 現在、gan(generative adversarial network)モデルは、ソースからターゲット話者への音声特徴マッピングに広く使われている。 本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。 ALGAN-VCフレームワークは、音源とターゲット話者間の音声品質と音声類似性を改善するためのいくつかのアプローチで構成されている。 このモデルは、Dense Residual Network(DRN)のようなアーキテクチャをジェネレータネットワークに組み込んで、効率的な音声特徴学習を行い、ソースからターゲットの音声特徴変換を行う。 また,提案モデルの損失関数を計算するために適応学習機構を統合する。 さらに,提案モデルの学習能力を高めるために,強化学習率アプローチを用いた。 このモデルは、1対1のVCに対して、フォワードマッピングと逆マッピングの両方を同時に使用することでトレーニングされる。 提案したモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020のデータセットと、インドの地域言語と英語で記録された自己準備された音声データセットでテストされている。 主観的・客観的評価により,提案手法は,高い話者類似性と適切な音声品質を実現し,音声変換タスクをエレガントに行うことができた。

Voice Conversion (VC) emerged as a significant domain of research in the field of speech synthesis in recent years due to its emerging application in voice-assisting technology, automated movie dubbing, and speech-to-singing conversion to name a few. VC basically deals with the conversion of vocal style of one speaker to another speaker while keeping the linguistic contents unchanged. VC task is performed through a three-stage pipeline consisting of speech analysis, speech feature mapping, and speech reconstruction. Nowadays the Generative Adversarial Network (GAN) models are widely in use for speech feature mapping from source to target speaker. In this paper, we propose an adaptive learning-based GAN model called ALGAN-VC for an efficient one-to-one VC of speakers. Our ALGAN-VC framework consists of some approaches to improve the speech quality and voice similarity between source and target speakers. The model incorporates a Dense Residual Network (DRN) like architecture to the generator network for efficient speech feature learning, for source to target speech feature conversion. We also integrate an adaptive learning mechanism to compute the loss function for the proposed model. Moreover, we use a boosted learning rate approach to enhance the learning capability of the proposed model. The model is trained by using both forward and inverse mapping simultaneously for a one-to-one VC. The proposed model is tested on Voice Conversion Challenge (VCC) 2016, 2018, and 2020 datasets as well as on our self-prepared speech dataset, which has been recorded in Indian regional languages and in English. A subjective and objective evaluation of the generated speech samples indicated that the proposed model elegantly performed the voice conversion task by achieving high speaker similarity and adequate speech quality.
翻訳日:2021-04-28 07:42:00 公開日:2021-04-25
# (参考訳) MIDeepSeg: 深層学習を用いた医用画像からの見えない物体の最小対話的セグメンテーション

MIDeepSeg: Minimally Interactive Segmentation of Unseen Objects from Medical Images Using Deep Learning ( http://arxiv.org/abs/2104.12166v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Guotai Wang, Tao Song, Jingyang Zhang, Michael Aertsen, Jan Deprest, Sebastien Ourselin, Tom Vercauteren, Shaoting Zhang(参考訳) 医療画像からの臓器や病変の分割は、診断や治療計画などの多くの臨床応用において重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)は自動セグメンテーションの最先端性能を達成したが、複雑な症例では臨床的に許容される精度と堅牢性の欠如によって制限されることが多い。 したがって、インタラクティブセグメンテーションはこれらの方法の実用的な代替手段である。 しかし,従来の対話的セグメンテーション手法では大量のユーザインタラクションが必要であり,最近提案されたCNNベースの対話的セグメンテーション手法は,これまで見つからなかったオブジェクトの性能の低下によって制限されている。 これらの問題を解決するために,ユーザ入力としてクリックを必要とするだけでなく,これまで見つからなかった範囲のオブジェクトを一般化する,ディープラーニングに基づく対話型セグメンテーション手法を提案する。 具体的には,提案する指数的測地距離によるユーザ提供の内部マージン点をエンコードし,cnnが先行および未発見のオブジェクトの良好な初期セグメンテーション結果を達成することを可能とし,その初期セグメンテーションと少数の追加ユーザクリックのみを組み合わせる新しい情報融合手法を用いて,高精度なセグメンテーションを得る。 2次元および3次元の医用画像セグメンテーションタスクについて,トレーニングセットに存在しない広範囲の未発見物体を用いて広範な実験を行い,提案手法の有効性を確認した。 実験結果から,提案したフレームワークは,現状の対話型フレームワークと比較してユーザインタラクションが小さく,時間も少なく,また,従来は見つからなかったオブジェクトに最適化できることがわかった。

Segmentation of organs or lesions from medical images plays an essential role in many clinical applications such as diagnosis and treatment planning. Though Convolutional Neural Networks (CNN) have achieved the state-of-the-art performance for automatic segmentation, they are often limited by the lack of clinically acceptable accuracy and robustness in complex cases. Therefore, interactive segmentation is a practical alternative to these methods. However, traditional interactive segmentation methods require a large amount of user interactions, and recently proposed CNN-based interactive segmentation methods are limited by poor performance on previously unseen objects. To solve these problems, we propose a novel deep learning-based interactive segmentation method that not only has high efficiency due to only requiring clicks as user inputs but also generalizes well to a range of previously unseen objects. Specifically, we first encode user-provided interior margin points via our proposed exponentialized geodesic distance that enables a CNN to achieve a good initial segmentation result of both previously seen and unseen objects, then we use a novel information fusion method that combines the initial segmentation with only few additional user clicks to efficiently obtain a refined segmentation. We validated our proposed framework through extensive experiments on 2D and 3D medical image segmentation tasks with a wide range of previous unseen objects that were not present in the training set. Experimental results showed that our proposed framework 1) achieves accurate results with fewer user interactions and less time compared with state-of-the-art interactive frameworks and 2) generalizes well to previously unseen objects.
翻訳日:2021-04-28 07:14:44 公開日:2021-04-25
# (参考訳) 3次元視線推定のための新しい統合ステレオ刺激型両眼眼眼追跡システム

A Novel Unified Stereo Stimuli based Binocular Eye-Tracking System for Accurate 3D Gaze Estimation ( http://arxiv.org/abs/2104.12167v1 )

ライセンス: CC BY 4.0
Sunjing Lin, Yu Liu, Shaochu Wang, Chang Li, Han Wang(参考訳) 高いコストと複雑なセットアップに加えて、3次元の3dディスプレイの限界の主な理由は、ユーザの現在のpog(point-of-gaze)を3d空間で正確に推定することである。 本稿では,3次元立体表示システムと視線追跡システムを統合した立体環境におけるポグ推定のための新しい非接触手法を提案する。 3D立体表示システムは、ユーザーは機器を装着することなく、親しみやすく没入感のある高精細な視聴体験を提供できる。 視界におけるユーザの3D PoGを正確に特定するために,眼球運動データとステレオ刺激映像を入力として,回帰に基づく3Dアイトラッキングモデルを構築した。 さらに,最適な回帰モデルをトレーニングするために,2つのステレオテストシーンに対応する30人のユーザの視線追跡データを含むデータセットを設計・アノテートする。 このデータセットは、視線ベクトル推定のための目領域ランドマークと、視線深度推定のための複合特徴セットの間に特徴ベクトルを導入する。 さらに、5つの従来の回帰モデルをトレーニングし、このデータセットに基づいて評価する。 実験結果から,3d pogの平均誤差はx軸で約 0.90~cm,y軸で 0.83~cm,z軸に沿って 1.48~cm$/$0.12~m,シーン深度で75~cm$/8~mであった。

In addition to the high cost and complex setup, the main reason for the limitation of the three-dimensional (3D) display is the problem of accurately estimating the user's current point-of-gaze (PoG) in a 3D space. In this paper, we present a novel noncontact technique for the PoG estimation in a stereoscopic environment, which integrates a 3D stereoscopic display system and an eye-tracking system. The 3D stereoscopic display system can provide users with a friendly and immersive high-definition viewing experience without wearing any equipment. To accurately locate the user's 3D PoG in the field of view, we build a regression-based 3D eye-tracking model with the eye movement data and stereo stimulus videos as input. Besides, to train an optimal regression model, we also design and annotate a dataset that contains 30 users' eye-tracking data corresponding to two designed stereo test scenes. Innovatively, this dataset introduces feature vectors between eye region landmarks for the gaze vector estimation and a combined feature set for the gaze depth estimation. Moreover, five traditional regression models are trained and evaluated based on this dataset. Experimental results show that the average errors of the 3D PoG are about 0.90~cm on the X-axis, 0.83~cm on the Y-axis, and 1.48~cm$/$0.12~m along the Z-axis with the scene-depth range in 75~cm$/$8~m, respectively.
翻訳日:2021-04-28 06:46:12 公開日:2021-04-25
# (参考訳) ファウショットとワンショット学習のデミスティフィケーション

Demystification of Few-shot and One-shot Learning ( http://arxiv.org/abs/2104.12174v1 )

ライセンス: CC BY 4.0
Ivan Y. Tyukin, Alexander N. Gorban, Muhammad H. Alkhudaydi, Qinghua Zhou(参考訳) 近年では、単発と単発の学習が活発で集中的な研究の対象となっており、実際に数発の学習アルゴリズムの実装と活用が成功したことを示す証拠が盛り込まれている。 古典的な統計的学習理論は、従来の一般化境界は、意味のある大規模なトレーニングとテストサンプルを必要とするため、ほとんどあるいはワンショットの学習が可能である理由を完全に説明していない。 これは、成功した単発および少数発の学習システムやアプリケーションの多くの例とは対照的である。 本研究では,単発・少数発の学習理論の数学的基礎を提示し,そのような学習スキームが成功する可能性を示す条件を明らかにする。 我々の理論は高次元空間の内在的性質に基づいている。 学習機械の環境・潜時決定空間が、この空間の大規模オブジェクトよりも十分に高次元であれば、特定のデータ非集中条件が満たされていると仮定した少数の例から容易に学習できることが示される。

Few-shot and one-shot learning have been the subject of active and intensive research in recent years, with mounting evidence pointing to successful implementation and exploitation of few-shot learning algorithms in practice. Classical statistical learning theories do not fully explain why few- or one-shot learning is at all possible since traditional generalisation bounds normally require large training and testing samples to be meaningful. This sharply contrasts with numerous examples of successful one- and few-shot learning systems and applications. In this work we present mathematical foundations for a theory of one-shot and few-shot learning and reveal conditions specifying when such learning schemes are likely to succeed. Our theory is based on intrinsic properties of high-dimensional spaces. We show that if the ambient or latent decision space of a learning machine is sufficiently high-dimensional than a large class of objects in this space can indeed be easily learned from few examples provided that certain data non-concentration conditions are met.
翻訳日:2021-04-28 06:18:52 公開日:2021-04-25
# (参考訳) シャプレー値推定のためのサンプリング順列

Sampling Permutations for Shapley Value Estimation ( http://arxiv.org/abs/2104.12199v1 )

ライセンス: CC BY 4.0
Rory Mitchell, Joshua Cooper, Eibe Frank, Geoffrey Holmes(参考訳) Shapley値に基づくゲーム理論属性技術は、ブラックボックス機械学習モデルの解釈に広く用いられているが、その正確な計算は一般にNPハードであり、非自明なモデルの近似法を必要とする。 シャプリー値の計算は置換集合上の和として表現できるので、近似のためのこれらの置換のサブセットをサンプリングする共通のアプローチである。 残念なことに、標準モンテカルロサンプリング法は緩やかな収束を示し、より洗練された準モンテカルロ法は置換空間において十分に定義されていない。 そこで本研究では,2つの近似法に基づく新しいアプローチについて検討し,経験的に比較する。 まず, 置換関数を含む rkhs において, mallows カーネルを用いて明示的な収束率である $o(1/n)$ を求め, モンテカルロの $o(1/\sqrt{n})$ を改善した。 RKHSパースペクティブはまた、擬モンテカルロ型エラー境界(英語版)を導き、置換で定義されるトラクタブルな離散測度を持つ。 次に、超球面$\mathbb{S}^{d-2}$と置換の間の接続を利用して、良好な性質を持つ置換サンプルを生成するための実用的なアルゴリズムを作成する。 実験の結果, 従来の手法に比べてシェープ値の推定精度が大幅に向上し, RMSEがより小さいモデル評価値に収束することがわかった。

Game-theoretic attribution techniques based on Shapley values are used extensively to interpret black-box machine learning models, but their exact calculation is generally NP-hard, requiring approximation methods for non-trivial models. As the computation of Shapley values can be expressed as a summation over a set of permutations, a common approach is to sample a subset of these permutations for approximation. Unfortunately, standard Monte Carlo sampling methods can exhibit slow convergence, and more sophisticated quasi Monte Carlo methods are not well defined on the space of permutations. To address this, we investigate new approaches based on two classes of approximation methods and compare them empirically. First, we demonstrate quadrature techniques in a RKHS containing functions of permutations, using the Mallows kernel to obtain explicit convergence rates of $O(1/n)$, improving on $O(1/\sqrt{n})$ for plain Monte Carlo. The RKHS perspective also leads to quasi Monte Carlo type error bounds, with a tractable discrepancy measure defined on permutations. Second, we exploit connections between the hypersphere $\mathbb{S}^{d-2}$ and permutations to create practical algorithms for generating permutation samples with good properties. Experiments show the above techniques provide significant improvements for Shapley value estimates over existing methods, converging to a smaller RMSE in the same number of model evaluations.
翻訳日:2021-04-28 05:33:51 公開日:2021-04-25
# (参考訳) 新型コロナウイルスのインフォデミックと戦うトランスフォーマー

Transformers to Fight the COVID-19 Infodemic ( http://arxiv.org/abs/2104.12201v1 )

ライセンス: CC BY 4.0
Lasitha Uyangodage, Tharindu Ranasinghe, Hansi Hettiarachchi(参考訳) ソーシャルメディア上の偽情報の大量拡散は、特に新型コロナウイルス(COVID-19)のような世界的なパンデミックの状況において、世界的なリスクとなっている。 偽情報検出はここ数カ月で増加傾向にある研究トピックとなっている。 NLP4IF-2021は、偽情報検出における研究を強化するために、ツイート中の偽情報に関する7つの異なるバイナリラベルの予測を参加者に依頼するタスクを編成した。 共有タスクはアラビア語、ブルガリア語、英語の3つの言語で構成されている。 本稿では,変圧器を用いたタスク目的への取り組みについて述べる。 全体として,アラビア語では0.707 平均 f1 得点,ブルガリア語では0.578 平均 f1 得点,英語では0.864 平均 f1 得点を達成している。

The massive spread of false information on social media has become a global risk especially in a global pandemic situation like COVID-19. False information detection has thus become a surging research topic in recent months. NLP4IF-2021 shared task on fighting the COVID-19 infodemic has been organised to strengthen the research in false information detection where the participants are asked to predict seven different binary labels regarding false information in a tweet. The shared task has been organised in three languages; Arabic, Bulgarian and English. In this paper, we present our approach to tackle the task objective using transformers. Overall, our approach achieves a 0.707 mean F1 score in Arabic, 0.578 mean F1 score in Bulgarian and 0.864 mean F1 score in English ranking 4th place in all the languages.
翻訳日:2021-04-28 05:32:43 公開日:2021-04-25
# (参考訳) より高速なR-CNNによる乳房腫瘤の検出:雑音による学習の可能性について

Breast Mass Detection with Faster R-CNN: On the Feasibility of Learning from Noisy Annotations ( http://arxiv.org/abs/2104.12218v1 )

ライセンス: CC BY 4.0
Sina Famouri, Lia Morra, Leonardo Mangia, Fabrizio Lamberti(参考訳) 本研究では,医療領域における物体検出ネットワークのトレーニングにおけるノイズの影響について検討し,トレーニング手順の改善によりその軽減を図る。 データ格納型ディープラーニングモデルのトレーニングのための大規模な医療データセットのアノテートは高価で時間がかかります。 臨床で既に収集されている情報を利用して、テキストレポート、ブックマーク、または病変の測定によって、このコストを大幅に削減する。 しかし, 自動採鉱法により, 箱を正確に拘束することは困難である。 本稿では,乳房腫瘤検出のための高速R-CNNオブジェクト検出ネットワークの性能に及ぼす境界ボックス座標ノイズの影響を定量的に評価する。 我々の実験では、境界ボックスは元のサイズの6倍まで拡大することができる。 ノイズはcbis-ddsmコレクションに注入され、正確な病変位置が確認できる、よく研究された公開マンモグラフィデータセットである。 基礎的真理とネットワーク境界箱の提案との一致が不完全であることから, 訓練中に雑音が伝播し, 病変を背景から正しく分類するネットワークの能力が低下することを示す。 標準のユニオン基準のインターセクションを使用する場合、FROC曲線の下の領域は9%まで減少する。 ノイズに対する耐性を向上させるために,新しいマッチング基準を提案する。

In this work we study the impact of noise on the training of object detection networks for the medical domain, and how it can be mitigated by improving the training procedure. Annotating large medical datasets for training data-hungry deep learning models is expensive and time consuming. Leveraging information that is already collected in clinical practice, in the form of text reports, bookmarks or lesion measurements would substantially reduce this cost. Obtaining precise lesion bounding boxes through automatic mining procedures, however, is difficult. We provide here a quantitative evaluation of the effect of bounding box coordinate noise on the performance of Faster R-CNN object detection networks for breast mass detection. Varying degrees of noise are simulated by randomly modifying the bounding boxes: in our experiments, bounding boxes could be enlarged up to six times the original size. The noise is injected in the CBIS-DDSM collection, a well curated public mammography dataset for which accurate lesion location is available. We show how, due to an imperfect matching between the ground truth and the network bounding box proposals, the noise is propagated during training and reduces the ability of the network to correctly classify lesions from background. When using the standard Intersection over Union criterion, the area under the FROC curve decreases by up to 9%. A novel matching criterion is proposed to improve tolerance to noise.
翻訳日:2021-04-28 05:24:46 公開日:2021-04-25
# (参考訳) DC3: 制約付き最適化のための学習方法

DC3: A learning method for optimization with hard constraints ( http://arxiv.org/abs/2104.12225v1 )

ライセンス: CC BY 4.0
Priya L. Donti, David Rolnick, J. Zico Kolter(参考訳) ハード制約を伴う大きな最適化問題は、多くの設定で発生するが、古典的解法はしばしば制限的に遅く、安価な「近似解法」としてディープネットワークの使用を動機付けている。 残念なことに、ナイーブなディープラーニングのアプローチは、一般的にそのような問題の厳しい制約を強制できないため、実現不可能なソリューションに繋がる。 本稿では,この問題に対処するアルゴリズムであるDeep Constraint Completion and Correction(DC3)を提案する。 具体的には、等式制約を満たすために部分解を暗黙的に完成し、不等式制約を満たすために勾配に基づく補正をアンロールする、微分可能な手順によって実現可能である。 本研究では,電気グリッドの物理をハード制約がエンコードする交流最適潮流の合成最適化タスクと実世界設定におけるdc3の有効性を実証する。 どちらの場合も、DC3は実現可能性を維持しながら、ほぼ最適の目標値を達成する。

Large optimization problems with hard constraints arise in many settings, yet classical solvers are often prohibitively slow, motivating the use of deep networks as cheap "approximate solvers." Unfortunately, naive deep learning approaches typically cannot enforce the hard constraints of such problems, leading to infeasible solutions. In this work, we present Deep Constraint Completion and Correction (DC3), an algorithm to address this challenge. Specifically, this method enforces feasibility via a differentiable procedure, which implicitly completes partial solutions to satisfy equality constraints and unrolls gradient-based corrections to satisfy inequality constraints. We demonstrate the effectiveness of DC3 in both synthetic optimization tasks and the real-world setting of AC optimal power flow, where hard constraints encode the physics of the electrical grid. In both cases, DC3 achieves near-optimal objective values while preserving feasibility.
翻訳日:2021-04-28 05:02:44 公開日:2021-04-25
# (参考訳) RP-DQN:Qラーニングの車両ルーティング問題への応用

RP-DQN: An application of Q-Learning to Vehicle Routing Problems ( http://arxiv.org/abs/2104.12226v1 )

ライセンス: CC BY-SA 4.0
Ahmad Bdeir, Simon Boeder, Tim Dernedde, Kirill Tkachuk, Jonas K. Falkner, Lars Schmidt-Thieme(参考訳) 本稿では,従来の手法よりも複雑なモデルを用いた状態表現を改良し,複雑なルーティング問題に対処する新しい手法を提案する。 これを時間差からトレーニングすることで実現します。 特にQ-Learningが採用されている。 提案手法は,CVRP上でノードを逐次挿入してソリューションを構築する自動回帰ポリシーの最先端性能を実現する。 さらに、機械学習メソッドでmdvrpに最初に取り組み、この問題タイプが、他のmlメソッドよりも我々のアプローチのメリットが大きいことを実証します。

In this paper we present a new approach to tackle complex routing problems with an improved state representation that utilizes the model complexity better than previous methods. We enable this by training from temporal differences. Specifically Q-Learning is employed. We show that our approach achieves state-of-the-art performance for autoregressive policies that sequentially insert nodes to construct solutions on the CVRP. Additionally, we are the first to tackle the MDVRP with machine learning methods and demonstrate that this problem type greatly benefits from our approach over other ML methods.
翻訳日:2021-04-28 04:42:04 公開日:2021-04-25
# (参考訳) 文脈における意見の不快表現の同定

Identifying Offensive Expressions of Opinion in Context ( http://arxiv.org/abs/2104.12227v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes(参考訳) 古典的な情報抽出技術は、事実に関する質問と回答を構築することで構成される。 実際、文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。 感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。 この重要なギャップを埋めるために、本稿では、文脈依存と文脈非依存の2つのクラスで注釈付けされた、明示的で暗黙の攻撃的かつ誓約的な意見表現からなる、新たな言語的・文脈的攻撃的語彙を提供する。 また,ヘイトスピーチを識別するためのマーカーも提供する。 アノテーションを表現レベルで評価し,高い人間間アノテータ合意を達成した。 攻撃的辞書はポルトガル語と英語で提供されている。

Classic information extraction techniques consist in building questions and answers about the facts. Indeed, it is still a challenge to subjective information extraction systems to identify opinions and feelings in context. In sentiment-based NLP tasks, there are few resources to information extraction, above all offensive or hateful opinions in context. To fill this important gap, this short paper provides a new cross-lingual and contextual offensive lexicon, which consists of explicit and implicit offensive and swearing expressions of opinion, which were annotated in two different classes: context dependent and context-independent offensive. In addition, we provide markers to identify hate speech. Annotation approach was evaluated at the expression-level and achieves high human inter-annotator agreement. The provided offensive lexicon is available in Portuguese and English languages.
翻訳日:2021-04-28 04:31:17 公開日:2021-04-25
# (参考訳) ユーザの嗜好を意識した偽ニュース検出

User Preference-aware Fake News Detection ( http://arxiv.org/abs/2104.12259v1 )

ライセンス: CC BY 4.0
Yingtong Dou, Kai Shu, Congying Xia, Philip S. Yu, Lichao Sun(参考訳) 近年、偽情報や偽ニュースは個人や社会に有害な影響を与え、偽ニュースの検出に広く注目を集めている。 既存の偽ニュース検出アルゴリズムの大部分は、偽ニュースを広めるかどうかを判断するユーザの内在的好みを無視しながら、偽ニュースコンテンツおよび/またはその周辺外在的コンテキストをマイニングすることに焦点を当てている。 確認バイアス理論は、ユーザーが既存の信念/参照を確認すると、偽ニュースを広める可能性が高いことを示している。 投稿などのユーザの歴史的ソーシャルエンゲージメントは、ニュースに対するユーザの好みに関する豊富な情報を提供し、フェイクニュースの検出を前進させる大きな可能性を秘めている。 しかし、偽ニュース検出のためのユーザの好みを探究する作業は限られている。 そこで本稿では,偽ニュース検出におけるユーザの嗜好を活かす新たな課題について検討する。 本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。 実世界のデータセットにおける実験結果は,提案フレームワークの有効性を示す。 我々は、GNNベースのフェイクニュース検出のためのベンチマークとして、コードとデータをリリースしている。

Disinformation and fake news have posed detrimental effects on individuals and society in recent years, attracting broad attention to fake news detection. The majority of existing fake news detection algorithms focus on mining news content and/or the surrounding exogenous context for discovering deceptive signals; while the endogenous preference of a user when he/she decides to spread a piece of fake news or not is ignored. The confirmation bias theory has indicated that a user is more likely to spread a piece of fake news when it confirms his/her existing beliefs/preferences. Users' historical, social engagements such as posts provide rich information about users' preferences toward news and have great potential to advance fake news detection. However, the work on exploring user preference for fake news detection is somewhat limited. Therefore, in this paper, we study the novel problem of exploiting user preference for fake news detection. We propose a new framework, UPFD, which simultaneously captures various signals from user preferences by joint content and graph modeling. Experimental results on real-world datasets demonstrate the effectiveness of the proposed framework. We release our code and data as a benchmark for GNN-based fake news detection: https://github.com/safe-graph/GNN-FakeNews.
翻訳日:2021-04-28 04:25:41 公開日:2021-04-25
# (参考訳) 文脈レキシコンに基づくヘイトスピーチと攻撃言語検出のアプローチ

Contextual Lexicon-Based Approach for Hate Speech and Offensive Language Detection ( http://arxiv.org/abs/2104.12265v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Fabiana Rodrigues de G\'oes, Isabelle Carvalho, Fabr\'icio Benevenuto, Thiago Alexandre Salgueiro Pardo(参考訳) 本稿ではソーシャルメディア上での攻撃的言語とヘイトスピーチ検出の新しいアプローチを提案する。 本手法では,暗黙的かつ明示的な攻撃表現と,二進法でアノテートされた宣言表現(文脈依存的攻撃と文脈非依存攻撃)からなる攻撃的レキシコンを組み込む。 ブラジルにおけるヘイトスピーチの深刻さと、ポルトガル語における研究の欠如により、ブラジルポルトガル語は我々の方法を検証するために使用される言語である。 しかし、この提案は他の言語やドメインにも適用できる。 得られた結果に基づいて, 提案手法は, ヨーロッパおよびブラジルのポルトガル語のベースラインを上回って, 高性能な結果を示した。

This paper presents a new approach for offensive language and hate speech detection on social media. Our approach incorporates an offensive lexicon composed by implicit and explicit offensive and swearing expressions annotated with binary classes: context-dependent offensive and context-independent offensive. Due to the severity of the hate speech and offensive comments in Brazil and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate our method. However, the proposal may be applied to any other language or domain. Based on the obtained results, the proposed approach showed high performance results overcoming the current baselines for European and Brazilian Portuguese.
翻訳日:2021-04-28 04:12:02 公開日:2021-04-25
# (参考訳) 非構造ダイアログ学習のためのバイエンコーダLSTMモデル

A Bi-Encoder LSTM Model For Learning Unstructured Dialogs ( http://arxiv.org/abs/2104.12269v1 )

ライセンス: CC BY-SA 4.0
Diwanshu Shekhar, Pooran S. Negi, Mohammad Mahoor(参考訳) 構造化されていないダイアログの大きなデータセットでトレーニングされたデータ駆動モデルを作成することは、RetrievalベースのChatbotシステムを開発する上で重要なステップである。 本稿では,非構造的マルチターンダイアログを学習するLong Short Term Memory(LSTM)アーキテクチャを提案する。 Ubuntu Dialog Corpus Version 2はトレーニング用コーパスとして使用された。 ベンチマークモデルと比較して,recall@1,recall@2,recall@5では0.8%,1.0%,0.3%の精度が得られた。 また,複数の類似度関数,モデルハイパーパラメータ,および提案アーキテクチャへの単語埋め込みを用いた実験結果を示す。

Creating a data-driven model that is trained on a large dataset of unstructured dialogs is a crucial step in developing Retrieval-based Chatbot systems. This paper presents a Long Short Term Memory (LSTM) based architecture that learns unstructured multi-turn dialogs and provides results on the task of selecting the best response from a collection of given responses. Ubuntu Dialog Corpus Version 2 was used as the corpus for training. We show that our model achieves 0.8%, 1.0% and 0.3% higher accuracy for Recall@1, Recall@2 and Recall@5 respectively than the benchmark model. We also show results on experiments performed by using several similarity functions, model hyper-parameters and word embeddings on the proposed architecture
翻訳日:2021-04-28 03:58:28 公開日:2021-04-25
# (参考訳) ラベルなしビデオによる未確認授業のセグメンテーションオブジェクトの学習

Learning to Better Segment Objects from Unseen Classes with Unlabeled Videos ( http://arxiv.org/abs/2104.12276v1 )

ライセンス: CC BY 4.0
Yuming Du, Yang Xiao, Vincent Lepetit(参考訳) 見えないクラスからオブジェクトをローカライズし、セグメンテーションする能力は、アクティブビジョンにおける自律的なオブジェクト学習のような新しいアプリケーションへの扉を開くだろう。 それでも、unseenクラスのパフォーマンス向上には、追加のトレーニングデータが必要だが、unseenクラスのオブジェクトに手動でアノテートすることは、労力とコストがかかる可能性がある。 本稿では,未確認クラスのオブジェクトに対するトレーニングデータを自動的に生成するためのラベルなしビデオシーケンスの利用について検討する。 原則として、既存のビデオセグメンテーション手法をラベルなしのビデオに適用し、オブジェクトマスクを自動的に取得し、手動ラベルのないクラスでもトレーニングセットとして使用することができる。 しかし,本実験は,これらの手法が十分な性能を発揮できないことを示す。 そこで我々は,そのようなトレーニングセットを自動生成するように特別に設計されたベイズ法を導入する: 提案手法は,対象提案の集合から始まり,すべてのフレームを同時に効率的に最適化することにより,(非現実的な)解析に頼って正しいものを選択する。 提案手法は,広範囲にわたる実験により高品質なトレーニングセットを生成でき,セグメンテーションオブジェクトの性能が著しく向上することを示す。 そこで我々は,豊富なインターネットビデオを用いたオープンワールドインスタンスセグメンテーションの扉を開くことができると考えている。

The ability to localize and segment objects from unseen classes would open the door to new applications, such as autonomous object learning in active vision. Nonetheless, improving the performance on unseen classes requires additional training data, while manually annotating the objects of the unseen classes can be labor-extensive and expensive. In this paper, we explore the use of unlabeled video sequences to automatically generate training data for objects of unseen classes. It is in principle possible to apply existing video segmentation methods to unlabeled videos and automatically obtain object masks, which can then be used as a training set even for classes with no manual labels available. However, our experiments show that these methods do not perform well enough for this purpose. We therefore introduce a Bayesian method that is specifically designed to automatically create such a training set: Our method starts from a set of object proposals and relies on (non-realistic) analysis-by-synthesis to select the correct ones by performing an efficient optimization over all the frames simultaneously. Through extensive experiments, we show that our method can generate a high-quality training set which significantly boosts the performance of segmenting objects of unseen classes. We thus believe that our method could open the door for open-world instance segmentation using abundant Internet videos.
翻訳日:2021-04-28 03:48:33 公開日:2021-04-25
# (参考訳) 社会的責任を持つAIのための因果学習

Causal Learning for Socially Responsible AI ( http://arxiv.org/abs/2104.12278v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ahmadreza Mosallanezhad, Paras Sheth, Huan Liu(参考訳) 人工知能(AI)に対する懸念が高まっている。 AIが倫理的課題に対処し、望ましくない結果に対処するために、研究者は社会的責任を持つAI(SRAI)の開発を提案した。 これらのアプローチの1つは因果学習(CL)である。 SRAIにおけるCLの最先端手法について検討する。 まず、AIの社会的責任を高めるために7つのCLツールを調べ、その上で、既存の作業がどのようにしてこれらのツールを使用して公正性などのSRAI開発に対処したかをレビューする。 この調査の目的は、SRAIのCLの可能性と約束を前倒しにすることである。

There have been increasing concerns about Artificial Intelligence (AI) due to its unfathomable potential power. To make AI address ethical challenges and shun undesirable outcomes, researchers proposed to develop socially responsible AI (SRAI). One of these approaches is causal learning (CL). We survey state-of-the-art methods of CL for SRAI. We begin by examining the seven CL tools to enhance the social responsibility of AI, then review how existing works have succeeded using these tools to tackle issues in developing SRAI such as fairness. The goal of this survey is to bring forefront the potentials and promises of CL for SRAI.
翻訳日:2021-04-28 03:22:31 公開日:2021-04-25
# (参考訳) オンラインニューラルシンセティックグラディエントを用いた計算形態形成の高速化

Speeding up Computational Morphogenesis with Online Neural Synthetic Gradients ( http://arxiv.org/abs/2104.12282v1 )

ライセンス: CC BY 4.0
Yuyu Zhang, Heng Chi, Binghong Chen, Tsz Ling Elaine Tang, Lucia Mirabella, Le Son, Glaucio H. Paulino(参考訳) 偏微分方程式系(PDE)を制約とする最適化問題として、幅広い近代科学・工学応用が定式化されている。 これらのPDE制約付き最適化問題は、通常標準的な離散化最適化アプローチで解決される。 高解像度のソリューションを必要とする多くの業界アプリケーションにおいて、離散化された制約は簡単に数百万から数十億の変数を持つことができ、標準の反復最適化器が正確な勾配を解くのは非常に遅い。 そこで本研究では,オンラインニューラルネットワーク勾配(ONSG)を用いたPDE制約最適化の高速化を目的とした,新しい2スケール最適化手法を提案する。 我々はPDE制約最適化問題の代表的なクラスである計算形態形成にONSGフレームワークをうまく適用した。 大規模な実験により,提案手法は計算形態素(トポロジー最適化とも呼ばれる)を著しく高速化し,一方,標準最適化器と比較して最終解の質を維持可能であることが示された。 設計変数が約1,400,000の大規模3次元最適設計問題に対して,本手法は最大7.5倍の高速化を実現し,目標値に匹敵する最適化設計を実現する。

A wide range of modern science and engineering applications are formulated as optimization problems with a system of partial differential equations (PDEs) as constraints. These PDE-constrained optimization problems are typically solved in a standard discretize-then-optimize approach. In many industry applications that require high-resolution solutions, the discretized constraints can easily have millions or even billions of variables, making it very slow for the standard iterative optimizer to solve the exact gradients. In this work, we propose a general framework to speed up PDE-constrained optimization using online neural synthetic gradients (ONSG) with a novel two-scale optimization scheme. We successfully apply our ONSG framework to computational morphogenesis, a representative and challenging class of PDE-constrained optimization problems. Extensive experiments have demonstrated that our method can significantly speed up computational morphogenesis (also known as topology optimization), and meanwhile maintain the quality of final solution compared to the standard optimizer. On a large-scale 3D optimal design problem with around 1,400,000 design variables, our method achieves up to 7.5x speedup while producing optimized designs with comparable objectives.
翻訳日:2021-04-28 03:07:19 公開日:2021-04-25
# (参考訳) 心電図データを用いた選択的拡張による完全畳み込みネットワークの精度向上

Accuracy Improvement for Fully Convolutional Networks via Selective Augmentation with Applications to Electrocardiogram Data ( http://arxiv.org/abs/2104.12284v1 )

ライセンス: CC BY 4.0
Lucas Cassiel Jacaruso(参考訳) 深層学習法は、健康・医療領域における時系列分類に適しており、心電図データ分類には有望な結果である。 心筋梗塞の診断に成功し、この領域の深層学習モデルに有意義な改善をもたらすことは大きな関心事である。 従来、データ解像度やサンプルサイズを改善するために、データが制限された場合、トレーニングセットにデータ拡張手法を普遍的に適用する。 本研究で提案する手法では,データ不足の文脈ではデータ拡張は適用されなかった。 代わりに、モデルが特定のクラスに強く関連しない特徴やパターンに対する感度を高めるために、信頼性の低い予測をもたらすサンプルを選択的に強化した。 このアプローチは、完全畳み込みネットワークの性能を改善するためにテストされた。 提案手法は, ベースラインの82%の精度に対して, 心筋梗塞の分類精度を90%向上させた。 さらに, 提案手法の精度は, 低信頼度試料の基準値に設定された上限付近で最適であり, 高い信頼度試料を含むように閾値を引き上げた。 これは、データ拡張のための信頼性の低いサンプルを排他的に選択することが、完全な畳み込みネットワークを用いた心電図データ分類に異なる利点をもたらすことを示唆している。

Deep learning methods have shown suitability for time series classification in the health and medical domain, with promising results for electrocardiogram data classification. Successful identification of myocardial infarction holds life saving potential and any meaningful improvement upon deep learning models in this area is of great interest. Conventionally, data augmentation methods are applied universally to the training set when data are limited in order to ameliorate data resolution or sample size. In the method proposed in this study, data augmentation was not applied in the context of data scarcity. Instead, samples that yield low confidence predictions were selectively augmented in order to bolster the model's sensitivity to features or patterns less strongly associated with a given class. This approach was tested for improving the performance of a Fully Convolutional Network. The proposed approach achieved 90 percent accuracy for classifying myocardial infarction as opposed to 82 percent accuracy for the baseline, a marked improvement. Further, the accuracy of the proposed approach was optimal near a defined upper threshold for qualifying low confidence samples and decreased as this threshold was raised to include higher confidence samples. This suggests exclusively selecting lower confidence samples for data augmentation comes with distinct benefits for electrocardiogram data classification with Fully Convolutional Networks.
翻訳日:2021-04-28 02:51:09 公開日:2021-04-25
# 効果的なシーンテキスト認識のための並列型スケールワイズアテンションネットワーク

Parallel Scale-wise Attention Network for Effective Scene Text Recognition ( http://arxiv.org/abs/2104.12076v1 )

ライセンス: Link先を確認
Usman Sajid, Michael Chow, Jin Zhang, Taejoon Kim, Guanghui Wang(参考訳) 本稿では,シーンテキスト画像のための新しいテキスト認識ネットワークを提案する。 多くの最先端の手法では、テキストアライメントのためにテキストエンコーダまたはデコーダで注意の仕組みを用いる。 エンコーダベースの注意は有望な結果をもたらすが、これらのスキームは顕著な制限を継承する。 彼らは、特徴抽出(FE)と視覚的注意(VA)を順次実行し、注意機構をFE最後の単一スケール出力のみに依存するように拘束する。 さらに,注目プロセスの利用は,単一スケールの特徴マップに直接適用することで制限される。 そこで本研究では,マルチスケールfeとvaを並列に実行する,テキスト認識のためのマルチスケールおよびエンコーダベースのアテンションネットワークを提案する。 マルチスケールチャネルは互いに定期的に融合し、協調した知識を共に開発する。 標準ベンチマークの定量的評価とロバスト性解析は,提案手法が最先端技術よりも優れていることを示す。

The paper proposes a new text recognition network for scene-text images. Many state-of-the-art methods employ the attention mechanism either in the text encoder or decoder for the text alignment. Although the encoder-based attention yields promising results, these schemes inherit noticeable limitations. They perform the feature extraction (FE) and visual attention (VA) sequentially, which bounds the attention mechanism to rely only on the FE final single-scale output. Moreover, the utilization of the attention process is limited by only applying it directly to the single scale feature-maps. To address these issues, we propose a new multi-scale and encoder-based attention network for text recognition that performs the multi-scale FE and VA in parallel. The multi-scale channels also undergo regular fusion with each other to develop the coordinated knowledge together. Quantitative evaluation and robustness analysis on the standard benchmarks demonstrate that the proposed network outperforms the state-of-the-art in most cases.
翻訳日:2021-04-27 15:00:36 公開日:2021-04-25
# 第5回AI都市チャレンジ

The 5th AI City Challenge ( http://arxiv.org/abs/2104.12233v1 )

ライセンス: Link先を確認
Milind Naphade, Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Xiaodong Yang, Yue Yao, Liang Zheng, Pranamesh Chakraborty, Anuj Sharma, Qi Feng, Vitaly Ablavsky, Stan Sclaroff(参考訳) ai city challengeは、1)スマートシティーのユースケースにおけるインテリジェントビデオ分析における研究と開発の境界を押し上げること、(2)パフォーマンスのレベルが現実世界で採用されるのに十分なタスクを評価すること、の2つの目標を念頭に置いて作成された。 交通はそのような採用のためのセグメントリップである。 第5回AIシティチャレンジでは38カ国305チームが参加し、都市規模の実交通データと高品質の合成データを活用して5つの挑戦トラックで競った。 トラック1はビデオベースの自動車両計数に対処し、アルゴリズムの有効性と計算効率の両方で評価を行う。 トラック2は、拡張合成データを用いて都市規模の車両の再識別に対処し、タスクのトレーニングセットを大幅に増加させる。 トラック3は、都市規模のマルチターゲットマルチカメラ車両追跡に対応している。 トラック4は交通異常検知に対処した。 トラック5は自然言語記述を用いた車両検索のための新しいトラックである。 評価システムは、提出された全ての結果の総合的なリーダーボードと、チームが作業で外部データを使用できないコンテスト参加ルールに限定された公開リーダーボードとを示す。 公開リーダーボードは、注釈付きデータが制限された現実世界の状況に近い結果を表示する。 結果は、スマートトランスポーテーションにおけるAIの約束を示している。 いくつかのタスクの最先端のパフォーマンスは、これらの技術が現実世界のシステムで採用される準備ができていることを示している。

The AI City Challenge was created with two goals in mind: (1) pushing the boundaries of research and development in intelligent video analysis for smarter cities use cases, and (2) assessing tasks where the level of performance is enough to cause real-world adoption. Transportation is a segment ripe for such adoption. The fifth AI City Challenge attracted 305 participating teams across 38 countries, who leveraged city-scale real traffic data and high-quality synthetic data to compete in five challenge tracks. Track 1 addressed video-based automatic vehicle counting, where the evaluation being conducted on both algorithmic effectiveness and computational efficiency. Track 2 addressed city-scale vehicle re-identification with augmented synthetic data to substantially increase the training set for the task. Track 3 addressed city-scale multi-target multi-camera vehicle tracking. Track 4 addressed traffic anomaly detection. Track 5 was a new track addressing vehicle retrieval using natural language descriptions. The evaluation system shows a general leader board of all submitted results, and a public leader board of results limited to the contest participation rules, where teams are not allowed to use external data in their work. The public leader board shows results more close to real-world situations where annotated data is limited. Results show the promise of AI in Smarter Transportation. State-of-the-art performance for some tasks shows that these technologies are ready for adoption in real-world systems.
翻訳日:2021-04-27 15:00:21 公開日:2021-04-25
# セルフ教師付き事前トレーニングは、ストリーミングデータでどのように機能するか?

How Well Self-Supervised Pre-Training Performs with Streaming Data? ( http://arxiv.org/abs/2104.12081v1 )

ライセンス: Link先を確認
Dapeng Hu, Qizhengqiu Lu, Lanqing Hong, Hailin Hu, Yifan Zhang, Zhenguo Li, Alfred Shen, Jiashi Feng(参考訳) 一般的な自己教師付き事前訓練のプラクティスでは、大量のラベルのないデータをまとめて収集し、 \textbf{joint training} と呼ばれる表現モデルをトレーニングする必要がある。 しかしながら、ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。 より効率的な代替手段は、‘textbf{sequential training}’と呼ばれるストリーミングデータでモデルを継続的にトレーニングすることだ。 それでも、逐次的自己教師付き事前学習がストリーミングデータでどのように機能するかは不明だ。 本稿では,ストリーミングデータを用いた自己教師型事前学習の徹底的な実験を行う。 具体的には,3つの下流タスクにおける4つの異なるデータ列を用いた連続自己教師事前訓練の転送性能を評価し,共同自己教師事前訓練との比較を行った。 驚くべきことに、ストリーミングデータ内の分散シフトが穏やかな場合、逐次自己教師型学習は関節トレーニングとほぼ同等のパフォーマンスを示す。 分散シフトが大きいデータシーケンスであっても、パラメータ正規化やデータリプレイといった単純なテクニックによる逐次自己教師付きトレーニングは、共同トレーニングと相性がよい。 そこで本研究では,実世界のアプリケーションに対して,逐次的自己教師型トレーニングを,より効率的かつパフォーマンスに優れた表現学習プラクティスとして用いることを推奨する。

The common self-supervised pre-training practice requires collecting massive unlabeled data together and then trains a representation model, dubbed \textbf{joint training}. However, in real-world scenarios where data are collected in a streaming fashion, the joint training scheme is usually storage-heavy and time-consuming. A more efficient alternative is to train a model continually with streaming data, dubbed \textbf{sequential training}. Nevertheless, it is unclear how well sequential self-supervised pre-training performs with streaming data. In this paper, we conduct thorough experiments to investigate self-supervised pre-training with streaming data. Specifically, we evaluate the transfer performance of sequential self-supervised pre-training with four different data sequences on three different downstream tasks and make comparisons with joint self-supervised pre-training. Surprisingly, we find sequential self-supervised learning exhibits almost the same performance as the joint training when the distribution shifts within streaming data are mild. Even for data sequences with large distribution shifts, sequential self-supervised training with simple techniques, e.g., parameter regularization or data replay, still performs comparably to joint training. Based on our findings, we recommend using sequential self-supervised training as a \textbf{more efficient yet performance-competitive} representation learning practice for real-world applications.
翻訳日:2021-04-27 14:56:20 公開日:2021-04-25
# StegaPos: 認識不能な位置エンコーディングによるクロップやスプライス防止

StegaPos: Preventing Crops and Splices with Imperceptible Positional Encodings ( http://arxiv.org/abs/2104.12290v1 )

ライセンス: Link先を確認
Gokhan Egri, Todd Zickler(参考訳) 本稿では,写真家が発行した画像の真正コピーである画像と,出版後の収穫,スプライシング,ダウンサンプリングによって操作された画像とを区別するモデルを提案する。 モデルは、写真家と居住するエンコーダと、オブザーバーが利用できる一致するデコーダで構成される。 エンコーダは、出版前に知覚不能な位置シグネチャを画像値に埋め込むことを学習する。 デコーダは、これらのステガノグラフィ位置(ステガポス)シグネチャを使用して、小さな画像パッチ毎に、パッチによって最初に公開された画像に保持された2D位置座標を決定する。 クロップ、スプライス、ダウンサンプル編集は、隠れた位置のシグネチャで生じる不整合によって検出される。 我々は,エンコーダとデコーダを組み合わせることで,位置を知覚的にエンコードするモデルが生成され,確立されたスプライス検出ベンチマークにおいて優れた性能が得られ,作物検出のための新たなベンチマークにおいて精度が向上することを示す。

We present a model for differentiating between images that are authentic copies of ones published by photographers, and images that have been manipulated by cropping, splicing or downsampling after publication. The model comprises an encoder that resides with the photographer and a matching decoder that is available to observers. The encoder learns to embed imperceptible positional signatures into image values prior to publication. The decoder learns to use these steganographic positional ("stegapos") signatures to determine, for each small image patch, the 2D positional coordinates that were held by the patch in its originally-published image. Crop, splice and downsample edits become detectable by the inconsistencies they cause in the hidden positional signatures. We find that training the encoder and decoder together produces a model that imperceptibly encodes position, and that enables superior performance on established benchmarks for splice detection and high accuracy on a new benchmark for crop detection.
翻訳日:2021-04-27 14:56:01 公開日:2021-04-25
# fedsup: コミュニケーション効率の高いfederated learning fatigue driving behaviors supervisor framework

FedSup: A Communication-Efficient Federated Learning Fatigue Driving Behaviors Supervision Framework ( http://arxiv.org/abs/2104.12086v1 )

ライセンス: Link先を確認
Chen Zhao, Zhipeng Gao, Qian Wang, Kaile Xiao, Zijia Mo, M. Jamal Deen(参考訳) エッジスマートデバイスやiot(internet of vehicles, iov)技術の普及に伴い、インテリジェントな疲労検出は日々の運転で最もよく使われている方法の1つになっています。 検出モデルの性能を向上させるため,一連の手法が開発されている。 しかし、プライバシーの開示や通信コストなど、既存の作業は依然として望ましいままである。 これらの問題に対処するために、プライバシと効率的な疲労検出のためのクライアントエッジクラウドフレームワークであるFedSupを提案する。 fedsupは、連合学習技術に触発されて、クライアント、エッジ、クラウドサーバ間のコラボレーションをインテリジェントに活用し、エッジデータプライバシを保護しながら、動的モデルの最適化を実現する。 さらに,不必要なシステム通信のオーバーヘッドを軽減するため,クライアント上でのベイズ畳み込みニューラルネットワーク(BCNN)近似と,クラウド上での不確実な重み付け集約アルゴリズムを提案し,中央モデルトレーニング効率を向上させる。 大規模な実験では、FedSupフレームワークがIoVシナリオに適していることが示され、他の主流メソッドよりも優れている。

With the proliferation of edge smart devices and the Internet of Vehicles (IoV) technologies, intelligent fatigue detection has become one of the most-used methods in our daily driving. To improve the performance of the detection model, a series of techniques have been developed. However, existing work still leaves much to be desired, such as privacy disclosure and communication cost. To address these issues, we propose FedSup, a client-edge-cloud framework for privacy and efficient fatigue detection. Inspired by the federated learning technique, FedSup intelligently utilizes the collaboration between client, edge, and cloud server to realizing dynamic model optimization while protecting edge data privacy. Moreover, to reduce the unnecessary system communication overhead, we further propose a Bayesian convolutional neural network (BCNN) approximation strategy on the clients and an uncertainty weighted aggregation algorithm on the cloud to enhance the central model training efficiency. Extensive experiments demonstrate that the FedSup framework is suitable for IoV scenarios and outperforms other mainstream methods.
翻訳日:2021-04-27 14:52:21 公開日:2021-04-25
# breiman氏の2つの文化: どちらかを選ぶ必要はありません

Breiman's two cultures: You don't have to choose sides ( http://arxiv.org/abs/2104.12219v1 )

ライセンス: Link先を確認
Andrew C. Miller, Nicholas J. Foti, Emily B. Fox(参考訳) Breiman氏の古典的な論文は、データ解析を2つの文化 – データモデラーとアルゴリズムモデラー – の選択として挙げている。 広く述べられているように、データモデラーは、データ分析のためによく理解された理論特性を持つシンプルで解釈可能なモデルを使用する。 アルゴリズムモデラーは予測精度を優先順位付けし、より柔軟な関数近似を用いてデータを分析する。 この二分法は、科学理論(ODE/SDEシミュレータなど)に由来する$$$メカニスティックモデルの第3の集合を見渡す。 メカニスティックモデルは、データに関するアプリケーション固有の科学的知識を符号化する。 これらのカテゴリはモデル空間の極端な点を表すが、現代の計算とアルゴリズムのツールはこれらの点間の補間を可能にし、柔軟で解釈可能で科学的にインフォームドなハイブリッドを生成し、正確で堅牢な予測を楽しむことができ、レイマンが記述したラショモン効果やオッカムのジレンマのようなデータ解析の問題を解決する。 モデルコンポーネントの構成方法や各コンポーネントが推論を通知する程度については、多くの選択肢がある。

Breiman's classic paper casts data analysis as a choice between two cultures: data modelers and algorithmic modelers. Stated broadly, data modelers use simple, interpretable models with well-understood theoretical properties to analyze data. Algorithmic modelers prioritize predictive accuracy and use more flexible function approximations to analyze data. This dichotomy overlooks a third set of models $-$ mechanistic models derived from scientific theories (e.g., ODE/SDE simulators). Mechanistic models encode application-specific scientific knowledge about the data. And while these categories represent extreme points in model space, modern computational and algorithmic tools enable us to interpolate between these points, producing flexible, interpretable, and scientifically-informed hybrids that can enjoy accurate and robust predictions, and resolve issues with data analysis that Breiman describes, such as the Rashomon effect and Occam's dilemma. Challenges still remain in finding an appropriate point in model space, with many choices on how to compose model components and the degree to which each component informs inferences.
翻訳日:2021-04-27 14:51:41 公開日:2021-04-25
# モデルベースメトリクス:予測モデルサブポピュレーション性能のサンプル効率推定

Model-based metrics: Sample-efficient estimates of predictive model subpopulation performance ( http://arxiv.org/abs/2104.12231v1 )

ライセンス: Link先を確認
Andrew C. Miller, Leon A. Gatys, Joseph Futoma, Emily B. Fox(参考訳) 機械学習モデル $-$は現在、様々なパフォーマンス指標を用いて、健康状態の表示、診断、予測のために一般的に開発されている。 モデルの実用性を評価するための重要な第一歩は、関心事全体の平均性能を評価することである。 多くの設定において、モデルが事前定義された部分集団内で良い予測を行うことも重要である。 例えば、モデルが公平であるか公平であることを示すには、異なる階層のサブグループでモデルのパフォーマンスを評価する必要がある。 しかしながら、サブグループのパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。 従来のサブサンプル推定よりもサンプル効率のよいサブポピュレーション性能を測定する手法を考案する。 本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。 提案手法はモデル検査と検証を取り入れ,従来の非パラメトリックブートストラップを計算効率よく近似して信頼区間を形成する手法を提案する。 本研究は,基礎的真理指標が利用できる半合成環境と,現実の病院入所予測タスクの2つのタスクについて,MBMを評価した。 MBMは小集団に対するモデル性能のより正確で低い分散推定値を生成する。

Machine learning models $-$ now commonly developed to screen, diagnose, or predict health conditions $-$ are evaluated with a variety of performance metrics. An important first step in assessing the practical utility of a model is to evaluate its average performance over an entire population of interest. In many settings, it is also critical that the model makes good predictions within predefined subpopulations. For instance, showing that a model is fair or equitable requires evaluating the model's performance in different demographic subgroups. However, subpopulation performance metrics are typically computed using only data from that subgroup, resulting in higher variance estimates for smaller groups. We devise a procedure to measure subpopulation performance that can be more sample-efficient than the typical subsample estimates. We propose using an evaluation model $-$ a model that describes the conditional distribution of the predictive model score $-$ to form model-based metric (MBM) estimates. Our procedure incorporates model checking and validation, and we propose a computationally efficient approximation of the traditional nonparametric bootstrap to form confidence intervals. We evaluate MBMs on two main tasks: a semi-synthetic setting where ground truth metrics are available and a real-world hospital readmission prediction task. We find that MBMs consistently produce more accurate and lower variance estimates of model performance for small subpopulations.
翻訳日:2021-04-27 14:51:20 公開日:2021-04-25
# Computed Tomography 画像のエッジデノナイズのためのマルチサイクル共振器ネットワーク

Multi-Cycle-Consistent Adversarial Networks for Edge Denoising of Computed Tomography Images ( http://arxiv.org/abs/2104.12044v1 )

ライセンス: Link先を確認
Xiaowe Xu, Jiawei Zhang, Jinglan Liu, Yukun Ding, Tianchen Wang, Hailong Qiu, Haiyun Yuan, Jian Zhuang, and Wen Xie, Yuhao Dong, Qianjun Jia, Meiping Huang, Yiyu Shi(参考訳) 最も一般的な画像検査の1つとして、ctスキャンは、患者に対するがんリスクを増加させる必然的な放射線被曝を伴う。 しかし、CT画像の品質は放射線線量に直接関係しているため、可能な限り少ない線量で高品質なCT画像を得ることが望ましい。 CT画像復調は、低線量低線量CT画像(ドメインY)から高線量CT画像(ドメインX)のような高線量を取得し、ソース領域X(ノイズ画像)とターゲット領域Y(クリーン画像)との変換を学習する画像画像変換タスクとして扱うことができる。 本稿では,中間ドメインを構築し,ct画像のエッジ分割に対して局所的および大域的サイクル一貫性を強制するマルチサイクル整合逆ネットワーク(mccan)を提案する。 グローバルサイクル整合性は、すべてのジェネレータを結合してデノナイジングプロセス全体をモデル化し、一方、局所サイクル整合性は隣り合うドメイン間のプロセスに効果的な監督を課す。 実験により、局所的およびグローバル的サイクル・コンシスタンスの両方がマカンの成功に重要であることが示され、これは少し少ない計算資源消費で品質の低下という点でsccadnを上回っている。

As one of the most commonly ordered imaging tests, computed tomography (CT) scan comes with inevitable radiation exposure that increases the cancer risk to patients. However, CT image quality is directly related to radiation dose, thus it is desirable to obtain high-quality CT images with as little dose as possible. CT image denoising tries to obtain high dose like high-quality CT images (domain X) from low dose low-quality CTimages (domain Y), which can be treated as an image-to-image translation task where the goal is to learn the transform between a source domain X (noisy images) and a target domain Y (clean images). In this paper, we propose a multi-cycle-consistent adversarial network (MCCAN) that builds intermediate domains and enforces both local and global cycle-consistency for edge denoising of CT images. The global cycle-consistency couples all generators together to model the whole denoising process, while the local cycle-consistency imposes effective supervision on the process between adjacent domains. Experiments show that both local and global cycle-consistency are important for the success of MCCAN, which outperformsCCADN in terms of denoising quality with slightly less computation resource consumption.
翻訳日:2021-04-27 14:49:52 公開日:2021-04-25
# 網膜画像における領域内ミス分類の学習

Learning to Address Intra-segment Misclassification in Retinal Imaging ( http://arxiv.org/abs/2104.12138v1 )

ライセンス: Link先を確認
Yukun Zhou, Moucheng Xu, Yipeng Hu, Hongxiang Lin, Joseph Jacob, Pearse Keane, Daniel Alexander(参考訳) 正確なマルチクラスセグメンテーションは、特にクラスが強い類似性を持つシナリオにおいて、医用画像における長年の課題である。 網膜写真で網膜血管を分割することは、動脈と静脈を互いに識別し、背景から区別する必要があるようなシナリオの1つである。 分節内誤分類、すなわち 動脈またはその逆の静脈は、動脈と静脈が交差するときに頻繁に発生するが、二分体網膜血管の分節では、誤差率はずっと低い。 そこで本研究では,マルチクラスセグメンテーションを複数のバイナリに分解し,次にバイナリからマルチクラスへの融合ネットワークを提案する。 このネットワークは動脈,静脈,マルチクラスの特徴マップの表現をマージし,それぞれが専門的な血管アノテーションによって教師される。 スキップ接続ベースのマージプロセスは、クラス固有の勾配を明示的に保持し、深い層で勾配が消えるのを避ける。 その結果, DRIVE-AV, LES-AV, HRF-AVの3種類の深層学習法と比較して, F1スコアを4.4 %, 5.1 %, 4.2 %改善した。

Accurate multi-class segmentation is a long-standing challenge in medical imaging, especially in scenarios where classes share strong similarity. Segmenting retinal blood vessels in retinal photographs is one such scenario, in which arteries and veins need to be identified and differentiated from each other and from the background. Intra-segment misclassification, i.e. veins classified as arteries or vice versa, frequently occurs when arteries and veins intersect, whereas in binary retinal vessel segmentation, error rates are much lower. We thus propose a new approach that decomposes multi-class segmentation into multiple binary, followed by a binary-to-multi-class fusion network. The network merges representations of artery, vein, and multi-class feature maps, each of which are supervised by expert vessel annotation in adversarial training. A skip-connection based merging process explicitly maintains class-specific gradients to avoid gradient vanishing in deep layers, to favor the discriminative features. The results show that, our model respectively improves F1-score by 4.4\%, 5.1\%, and 4.2\% compared with three state-of-the-art deep learning based methods on DRIVE-AV, LES-AV, and HRF-AV data sets.
翻訳日:2021-04-27 14:49:27 公開日:2021-04-25
# 教師なしセマンティッククラスタリングと依存性解析によるオープンインテント発見

Open Intent Discovery through Unsupervised Semantic Clustering and Dependency Parsing ( http://arxiv.org/abs/2104.12114v1 )

ライセンス: Link先を確認
Pengfei Liu, Youzhang Ning, King Keung Wu, Kun Li and Helen Meng(参考訳) インテント理解はダイアログシステムにおいて重要な役割を担い、典型的には教師付き分類問題として定式化される。 しかし、新しいドメインをサポートするためにインテントラベルを手動で設計するのは難しく、時間を要する。 本稿では,意図発見のための教師なし2段階アプローチを提案し,ラベルなし発話の集合から意味のある意図ラベルを自動的に生成する。 最初の段階では、各クラスタ内の発話が同じ意図を伝達するセマンティック・コヒーレントなクラスタの集合を生成することを目指している。 各種事前学習文の埋め込みから発話表現を取得し,K平均クラスタリングにおける最適なクラスタ数を決定するためのバランススコアの指標を示す。 第2段階では、各クラスタに対して自動的にインテントラベルを生成することが目的だ。 本稿では,各発話から依存パーサを用いてACTION-OBJECTペアを抽出し,各クラスタ内で最も頻繁なペア(例えば,ブックレストラン)を生成されたクラスタラベルとして取り出す。 提案手法は意味のある意図ラベルを自動的に生成し,発話クラスタリングや意図発見において高精度なリコールを実現する。

Intent understanding plays an important role in dialog systems, and is typically formulated as a supervised classification problem. However, it is challenging and time-consuming to design the intent labels manually to support a new domain. This paper proposes an unsupervised two-stage approach to discover intents and generate meaningful intent labels automatically from a collection of unlabeled utterances. In the first stage, we aim to generate a set of semantically coherent clusters where the utterances within each cluster convey the same intent. We obtain the utterance representation from various pre-trained sentence embeddings and present a metric of balanced score to determine the optimal number of clusters in K-means clustering. In the second stage, the objective is to generate an intent label automatically for each cluster. We extract the ACTION-OBJECT pair from each utterance using a dependency parser and take the most frequent pair within each cluster, e.g., book-restaurant, as the generated cluster label. We empirically show that the proposed unsupervised approach can generate meaningful intent labels automatically and achieves high precision and recall in utterance clustering and intent discovery.
翻訳日:2021-04-27 14:45:04 公開日:2021-04-25
# 中国語小説をベトナム語に翻訳する自動後編集

Automatic Post-Editing for Translating Chinese Novels to Vietnamese ( http://arxiv.org/abs/2104.12128v1 )

ライセンス: Link先を確認
Thanh Vu and Dai Quoc Nguyen(参考訳) 自動後編集(APE)は、機械翻訳(MT)システムやソフトウェア支援翻訳によって生成された原文の誤りを減らすための重要な手段である。 本稿ではベトナムにおけるAPE課題に取り組むための最初の試みについて述べる。 具体的には,ベトナム語訳文ペア5mの大規模データセットを構築した。 次に、構築したデータセットを用いて、APEタスクを処理するために強力なニューラルMTモデルを適用する。 ベトナムapタスクの処理における神経mtモデルの有効性を, 自動評価と人間評価の両方から実験的に示した。

Automatic post-editing (APE) is an important remedy for reducing errors of raw translated texts that are produced by machine translation (MT) systems or software-aided translation. In this paper, we present the first attempt to tackle the APE task for Vietnamese. Specifically, we construct the first large-scale dataset of 5M Vietnamese translated and corrected sentence pairs. We then apply strong neural MT models to handle the APE task, using our constructed dataset. Experimental results from both automatic and human evaluations show the effectiveness of the neural MT models in handling the Vietnamese APE task.
翻訳日:2021-04-27 14:44:44 公開日:2021-04-25
# XLM-T: Twitter用多言語言語モデルツールキット

XLM-T: A Multilingual Language Model Toolkit for Twitter ( http://arxiv.org/abs/2104.12250v1 )

ライセンス: Link先を確認
Francesco Barbieri and Luis Espinosa Anke and Jose Camacho-Collados(参考訳) 言語モデルは現在のNLPではユビキタスであり、その多言語能力は近年注目されている。 しかし、現在の分析は標準ベンチマーク(マルチリンガル変種)にのみ焦点を当てており、クリーンな事前学習やタスク固有のコーパスを多言語信号として依存している。 本稿では,Twitterにおける多言語言語モデルの利用と評価のためのフレームワークであるXLM-Tを紹介する。 このフレームワークは、(1)xlm-r(conneau et al)からなる強力な多言語ベースラインである。 2020年) 30以上の言語で何百万ものツイートを事前トレーニングしたモデルと、その後ターゲットタスクを微調整するスターターコード、2つの異なる言語による統合感情分析twitterデータセット。 これは、Twitter固有のデータセット(Barbieriら)の均質化を目的とした最近の取り組みと統合しただけでなく、追加タスクに簡単に拡張できるモジュラーフレームワークである。 2020).

Language models are ubiquitous in current NLP, and their multilingual capacity has recently attracted considerable attention. However, current analyses have almost exclusively focused on (multilingual variants of) standard benchmarks, and have relied on clean pre-training and task-specific corpora as multilingual signals. In this paper, we introduce XLM-T, a framework for using and evaluating multilingual language models in Twitter. This framework features two main assets: (1) a strong multilingual baseline consisting of an XLM-R (Conneau et al. 2020) model pre-trained on millions of tweets in over thirty languages, alongside starter code to subsequently fine-tune on a target task; and (2) a set of unified sentiment analysis Twitter datasets in eight different languages. This is a modular framework that can easily be extended to additional tasks, as well as integrated with recent efforts also aimed at the homogenization of Twitter-specific datasets (Barbieri et al. 2020).
翻訳日:2021-04-27 14:44:34 公開日:2021-04-25
# 構造化およびWebベース言語モデルを用いた機械翻訳仮説の再検討

Reranking Machine Translation Hypotheses with Structured and Web-based Language Models ( http://arxiv.org/abs/2104.12277v1 )

ライセンス: Link先を確認
Wen Wang and Andreas Stolcke and Jing Zheng(参考訳) 本稿では,統計的機械翻訳システムにおけるN-best仮説の再評価のための言語動機付けおよび計算効率の高い構造化言語モデルの利用について検討する。 これらの言語モデルはConstraint Dependency Grammar解析から開発され、単語の知識、形態的および語彙的特徴、構文的依存制約を密に統合する。 2つの構造化言語モデルがn-best rescoringに適用され、1つはほぼ並列な言語モデルであり、もう1つは単語間の構文依存を明示的にモデル化することでより構文的特徴を利用する。 また,1テラワードまでの web 文書から抽出した n-gram を用いた効率的な言語モデリング手法について検討した。 NIST と DARPA GALE プログラム 2006 と 2007 の機械翻訳評価タスクにおいて,これらの言語モデルをすべて N-best に適用し,これらの言語モデルを組み合わせることで,ブラインドテストセットにおけるBLEU のスコアが 1.6% まで向上することを確認した。

In this paper, we investigate the use of linguistically motivated and computationally efficient structured language models for reranking N-best hypotheses in a statistical machine translation system. These language models, developed from Constraint Dependency Grammar parses, tightly integrate knowledge of words, morphological and lexical features, and syntactic dependency constraints. Two structured language models are applied for N-best rescoring, one is an almost-parsing language model, and the other utilizes more syntactic features by explicitly modeling syntactic dependencies between words. We also investigate effective and efficient language modeling methods to use N-grams extracted from up to 1 teraword of web documents. We apply all these language models for N-best re-ranking on the NIST and DARPA GALE program 2006 and 2007 machine translation evaluation tasks and find that the combination of these language models increases the BLEU score up to 1.6% absolutely on blind test sets.
翻訳日:2021-04-27 14:44:19 公開日:2021-04-25
# 動的畳み込みとモット哲学による注意散布型高速トラッキング

Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy ( http://arxiv.org/abs/2104.12041v1 )

ライセンス: Link先を確認
Zikai Zhang, Bineng Zhong, Shengping Zhang, Zhenjun Tang, Xin Liu, Zhaoxiang Zhang(参考訳) 実用的な長期追跡装置は、典型的には3つの重要な特性を含む。 効率的なモデル設計、効果的なグローバル再検出戦略、堅牢なイントラクタ認識機構。 しかし、ほとんどの最先端の長期追跡装置(例えば、疑似および再検出ベース)は、3つの主要な特性をすべて考慮していないため、時間のかかるか、気晴らしになる可能性がある。 この問題に対処するために,2つのコアコンポーネント(ワンショット検出と再識別(re-id)アソシエーション)を利用して,動的畳み込み(d-conv)と複数オブジェクトトラッキング(mot)の哲学を通じて注意をそらした高速トラッキングを実現する2タスクトラッキングフレーム(dmtrack)を提案する。 高精度かつ高速なグローバル検出を実現するために,新たな動的畳み込み生成法を用いて,対象情報を探索フィールドに融合する統一的で柔軟な方法を提供する軽量なワンショット検出器を構築した。 ターゲットを邪魔者と区別するため、我々は全ての潜在的な類似点のトラックレットを維持して、注意をそらすためにmotの哲学に頼る。 高リコール検出と明示的オブジェクトアソシエーションの長所から、我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT2019LTベンチマーク上で最先端のパフォーマンスを達成し、比較より3倍高速に動作します。

A practical long-term tracker typically contains three key properties, i.e. an efficient model design, an effective global re-detection strategy and a robust distractor awareness mechanism. However, most state-of-the-art long-term trackers (e.g., Pseudo and re-detecting based ones) do not take all three key properties into account and therefore may either be time-consuming or drift to distractors. To address the issues, we propose a two-task tracking frame work (named DMTrack), which utilizes two core components (i.e., one-shot detection and re-identification (re-id) association) to achieve distractor-aware fast tracking via Dynamic convolutions (d-convs) and Multiple object tracking (MOT) philosophy. To achieve precise and fast global detection, we construct a lightweight one-shot detector using a novel dynamic convolutions generation method, which provides a unified and more flexible way for fusing target information into the search field. To distinguish the target from distractors, we resort to the philosophy of MOT to reason distractors explicitly by maintaining all potential similarities' tracklets. Benefited from the strength of high recall detection and explicit object association, our tracker achieves state-of-the-art performance on the LaSOT, OxUvA, TLP, VOT2018LT and VOT2019LT benchmarks and runs in real-time (3x faster than comparisons).
翻訳日:2021-04-27 14:40:08 公開日:2021-04-25
# エッジ計算のためのディープニューラルネットワークの量子化

Quantization of Deep Neural Networks for Accurate EdgeComputing ( http://arxiv.org/abs/2104.12046v1 )

ライセンス: Link先を確認
Wentao Chen, Hailong Qiu, Jian Zhuang, Chutong Zhang, Yu Hu, Qing Lu, Tianchen Wang, Yiyu Shi{\dag}, Meiping Huang, Xiaowe Xu(参考訳) 近年、ディープニューラルネットワーク(DNN)はその大きな可能性を実証しており、広範囲のアプリケーションでヒトの専門家のパフォーマンスを超越している。 しかし、その大きさが大きいため、重量量子化やプルーニングといった圧縮技術は通常、エッジに収まる前に適用される。 量子化は性能劣化を引き起こすと考えられており、多くの既存研究が最小精度の損失を目的とした量子化戦略を模索している。 本稿では,重み表現に本質的に正則化を課す量子化が,精度向上に役立つことがあることを論じる。 バイオメディカル画像セグメント化のためのFCN,イメージネット上の画像分類のための畳み込みニューラルネットワーク(CNN),自動音声認識のためのリカレントニューラルネットワーク(RNN)の3つの応用について総合的な実験を行い,3.5x-6.4xメモリ削減を伴う3つのアプリケーションにおいて量子化が精度を1%,1.95%,4.23%向上させることを示した。

Deep neural networks (DNNs) have demonstrated their great potential in recent years, exceeding the per-formance of human experts in a wide range of applications. Due to their large sizes, however, compressiontechniques such as weight quantization and pruning are usually applied before they can be accommodated onthe edge. It is generally believed that quantization leads to performance degradation, and plenty of existingworks have explored quantization strategies aiming at minimum accuracy loss. In this paper, we argue thatquantization, which essentially imposes regularization on weight representations, can sometimes help toimprove accuracy. We conduct comprehensive experiments on three widely used applications: fully con-nected network (FCN) for biomedical image segmentation, convolutional neural network (CNN) for imageclassification on ImageNet, and recurrent neural network (RNN) for automatic speech recognition, and experi-mental results show that quantization can improve the accuracy by 1%, 1.95%, 4.23% on the three applicationsrespectively with 3.5x-6.4x memory reduction.
翻訳日:2021-04-27 14:39:35 公開日:2021-04-25
# ASPCNet:ハイパースペクトル画像分類のための深層適応空間パターンカプセルネットワーク

ASPCNet: A Deep Adaptive Spatial Pattern Capsule Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.12085v1 )

ライセンス: Link先を確認
Jinping Wang, Xiaojun Tan, Jianhuang Lai, Jun Li, Canqun Xiang(参考訳) これまでの研究で、超スペクトル画像(HSIs)から空間的文脈特徴抽出のためのカプセルネットワークの可能性が示された。 しかし、カプセルの畳み込み核のサンプリング位置は固定されており、HSIの一貫性のない意味情報に従って適応的に変更することはできない。 そこで本稿では,aspcnet(adaptive spatial pattern capsule network)アーキテクチャを提案する。asp(adaptive spatial pattern)ユニットは,畳み込み型カーネルのサンプリング位置を,拡大した受容場に基づいて回転させることができる。 このユニットはより少ないパラメータでより識別的なHSI表現を学習できる。 具体的には,2つのASPベースの畳み込み操作(ASPConvs)を入力画像に適用し,比較的高レベルの意味的特徴を学習し,カプセル間の階層構造を最も基本的な特徴よりも正確に伝達する。 さらに、aspベースのconv-capsule operations(aspcaps)にセマンティックな特徴を与え、カプセル内の物体の形状を適応的に探索し、カプセルネットワークの可能性をさらに探究する。 最後に、試験試料を中心とした画像パッチのクラスラベルを、全連結カプセル層に応じて決定することができる。 3つのパブリックデータセットに関する実験により、aspcnetは最先端のメソッドよりも高い精度で競合性能が得られることが示されている。

Previous studies have shown the great potential of capsule networks for the spatial contextual feature extraction from {hyperspectral images (HSIs)}. However, the sampling locations of the convolutional kernels of capsules are fixed and cannot be adaptively changed according to the inconsistent semantic information of HSIs. Based on this observation, this paper proposes an adaptive spatial pattern capsule network (ASPCNet) architecture by developing an adaptive spatial pattern (ASP) unit, that can rotate the sampling location of convolutional kernels on the basis of an enlarged receptive field. Note that this unit can learn more discriminative representations of HSIs with fewer parameters. Specifically, two cascaded ASP-based convolution operations (ASPConvs) are applied to input images to learn relatively high-level semantic features, transmitting hierarchical structures among capsules more accurately than the use of the most fundamental features. Furthermore, the semantic features are fed into ASP-based conv-capsule operations (ASPCaps) to explore the shapes of objects among the capsules in an adaptive manner, further exploring the potential of capsule networks. Finally, the class labels of image patches centered on test samples can be determined according to the fully connected capsule layer. Experiments on three public datasets demonstrate that ASPCNet can yield competitive performance with higher accuracies than state-of-the-art methods.
翻訳日:2021-04-27 14:39:13 公開日:2021-04-25
# エッジ誘導学習型双方向アテンションマップによる画像表示

Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps ( http://arxiv.org/abs/2104.12087v1 )

ライセンス: Link先を確認
Dongsheng Wang, Chaohao Xie, Shaohui Liu, Zhenxing Niu, Wangmeng Zuo(参考訳) 画像インペインティングでは、従来の方法では畳み込みニューラルネットワーク(cnn)が標準的な畳み込み演算子を採用することが多い。 その結果、不規則な穴の取扱いに制限があり、色覚やぼやけた塗装結果をもたらす傾向にある。 部分畳み込み(pconv)は、有効な画素のみを条件としたマスク畳み込みと特徴再正規化を行うが、マスクアップディングは手作りで画像構造情報とは独立している。 本稿では,不規則な穴の塗装性を改善するためのエッジ誘導学習型双方向アテンションマップ(Edge-LBAM)を提案する。 ハードな0-1マスクの代わりに、学習可能なアテンションマップモジュールを導入し、特徴の正規化とマスク更新をエンドツーエンドで学習する。 学習可能な逆アテンションマップは、すべてのピクセルを再構成するのではなく、未知のピクセルを埋めることを強調するデコーダでさらに提案されている。 フィリングイン順序は,結果の反映に不可欠であり,exemplarに基づく手法では画像構造に大きく依存するため,コヒーレントエッジを予測できるマルチスケールエッジ補完ネットワークを提案する。 エッジlbam法には,特徴再正規化のためにマスクが生成する注意マップやエッジを予測した構造認識マスクアップデーティングを含む2つの手順が含まれており,エッジlbamはコヒーレントな画像構造の生成や色差やぼやかしの防止に有効であり,質的指標や視覚品質の観点からは最先端の手法に対して好適に作用することを示す。

For image inpainting, the convolutional neural networks (CNN) in previous methods often adopt standard convolutional operator, which treats valid pixels and holes indistinguishably. As a result, they are limited in handling irregular holes and tend to produce color-discrepant and blurry inpainting result. Partial convolution (PConv) copes with this issue by conducting masked convolution and feature re-normalization conditioned only on valid pixels, but the mask-updating is handcrafted and independent with image structural information. In this paper, we present an edge-guided learnable bidirectional attention map (Edge-LBAM) for improving image inpainting of irregular holes with several distinct merits. Instead of using a hard 0-1 mask, a learnable attention map module is introduced for learning feature re-normalization and mask-updating in an end-to-end manner. Learnable reverse attention maps are further proposed in the decoder for emphasizing on filling in unknown pixels instead of reconstructing all pixels. Motivated by that the filling-in order is crucial to inpainting results and largely depends on image structures in exemplar-based methods, we further suggest a multi-scale edge completion network to predict coherent edges. Our Edge-LBAM method contains dual procedures,including structure-aware mask-updating guided by predict edges and attention maps generated by masks for feature re-normalization.Extensive experiments show that our Edge-LBAM is effective in generating coherent image structures and preventing color discrepancy and blurriness, and performs favorably against the state-of-the-art methods in terms of qualitative metrics and visual quality.
翻訳日:2021-04-27 14:38:51 公開日:2021-04-25
# Visual Saliency Transformer

Visual Saliency Transformer ( http://arxiv.org/abs/2104.12099v1 )

ライセンス: Link先を確認
Nian Liu and Ni Zhang and Kaiyuan Wan and Junwei Han and Ling Shao(参考訳) 近年,CNNアーキテクチャをベースとした大規模サリエンシ検出手法が実現している。 あるいは、このタスクを畳み込みのないシーケンスツーシーケンスの観点から再考し、畳み込みでは達成できない長距離依存関係をモデル化することで、塩分を予測します。 具体的には,rgb と rgb-d salient object detection (sod) の両方に対して,純粋変圧器に基づく新しい統一モデルである visual saliency transformer (vst) を開発した。 イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。 視覚トランスフォーマー(vit)で使用される従来のトランスフォーマーアーキテクチャとは別に,マルチレベルトークンフュージョンを利用して,トランスフォーマーフレームワーク下で新しいトークンアップサンプリング手法を提案し,高分解能検出結果を得る。 また,タスク関連トークンと新しいパッチ・タスク・アテンション機構を導入することで,サリエンシと境界検出を同時に行うトークンベースのマルチタスクデコーダを開発した。 実験結果から,RGBおよびRGB-D SODベンチマークのベンチマークデータにおいて,本モデルが既存の最先端結果より優れていることが示された。 最も重要なことは、我々のフレームワーク全体がSOD分野の新しい視点を提供するだけでなく、トランスフォーマーベースの高密度予測モデルのための新しいパラダイムも示しています。

Recently, massive saliency detection methods have achieved promising results by relying on CNN-based architectures. Alternatively, we rethink this task from a convolution-free sequence-to-sequence perspective and predict saliency by modeling long-range dependencies, which can not be achieved by convolution. Specifically, we develop a novel unified model based on a pure transformer, namely, Visual Saliency Transformer (VST), for both RGB and RGB-D salient object detection (SOD). It takes image patches as inputs and leverages the transformer to propagate global contexts among image patches. Apart from the traditional transformer architecture used in Vision Transformer (ViT), we leverage multi-level token fusion and propose a new token upsampling method under the transformer framework to get high-resolution detection results. We also develop a token-based multi-task decoder to simultaneously perform saliency and boundary detection by introducing task-related tokens and a novel patch-task-attention mechanism. Experimental results show that our model outperforms existing state-of-the-art results on both RGB and RGB-D SOD benchmark datasets. Most importantly, our whole framework not only provides a new perspective for the SOD field but also shows a new paradigm for transformer-based dense prediction models.
翻訳日:2021-04-27 14:38:19 公開日:2021-04-25
# 異常検出のためのマルチレベル構造の教師なし学習

Unsupervised Learning of Multi-level Structures for Anomaly Detection ( http://arxiv.org/abs/2104.12102v1 )

ライセンス: Link先を確認
Songmin Dai, Jide Li, Lu Wang, Congcong Zhu, Yifan Wu, Xiaoqiang Li(参考訳) 高次元異常検出タスクの主な困難は、トレーニングのための異常データがないことである。 そして、単に実世界、共通分布、あるいは正規データ多様体の境界から異常データを収集するだけで、異常モードの欠如が問題となる。 本稿では,複数のレベルで正規データの局所構造を保存しながら,グローバル構造を分割して異常データを生成する手法を提案する。 様々なレベルの局所的な異常構造を効率的に露呈することができる。 露出する多レベル異常構造をフル活用するために,複数レベルのパッチベース検出器を対照的な損失で訓練することを提案する。 各検出器は、全ての位置で対応するレベルの局所的な異常構造を検出し、パッチワイズ異常スコアを出力する。 全てのレベル固有検出器の出力を集約することにより、すべての潜在的な異常を検知できるモデルを得る。 この効果は、MNIST、CIFAR10、ImageNet10データセットで評価され、その結果が最先端の手法の精度を上回る。 定性的実験は、我々のモデルが不偏に全ての異常モードを検知できることを実証する。

The main difficulty in high-dimensional anomaly detection tasks is the lack of anomalous data for training. And simply collecting anomalous data from the real world, common distributions, or the boundary of normal data manifold may face the problem of missing anomaly modes. This paper first introduces a novel method to generate anomalous data by breaking up global structures while preserving local structures of normal data at multiple levels. It can efficiently expose local abnormal structures of various levels. To fully exploit the exposed multi-level abnormal structures, we propose to train multiple level-specific patch-based detectors with contrastive losses. Each detector learns to detect local abnormal structures of corresponding level at all locations and outputs patchwise anomaly scores. By aggregating the outputs of all level-specific detectors, we obtain a model that can detect all potential anomalies. The effectiveness is evaluated on MNIST, CIFAR10, and ImageNet10 dataset, where the results surpass the accuracy of state-of-the-art methods. Qualitative experiments demonstrate our model is robust that it unbiasedly detects all anomaly modes.
翻訳日:2021-04-27 14:37:57 公開日:2021-04-25
# 時流ネット:時間融合による3次元物体検出

Temp-Frustum Net: 3D Object Detection with Temporal Fusion ( http://arxiv.org/abs/2104.12106v1 )

ライセンス: Link先を確認
Eme\c{c} Er\c{c}elik, Ekim Yurtsever and Alois Knoll(参考訳) 3dオブジェクト検出は、自動運転システムのコアコンポーネントである。 最先端の手法は、3Dバウンディングボックスの回帰のためにRGBイメージとLiDARポイントクラウドデータフレームを融合する。 しかし、フレーム・バイ・フレームの3Dオブジェクト検出はノイズ、視野の障害物、空間性に悩まされている。 本稿では,これらの問題を緩和するために,従来の時間段階の情報を利用する新しい時間融合モジュール(TFM)を提案する。 まず、最先端のフラストムネットワークは、生のRGBとLiDARポイントクラウドデータフレームをフレーム単位で抽出する。 そして、tfmモジュールは、これらの機能をリカレントニューラルネットワークと融合します。 その結果、3次元物体検出は単一フレームの故障や過渡閉塞に対して堅牢となる。 kitti object trackingデータセットにおける実験では、フレーム毎のベースラインと比較して、それぞれ車、歩行者、自転車のクラスで6%、4%、6%の改善が得られたtfmの有効性が示された。 さらに、アブレーション研究は改善の主題が時間融合であることを強化し、対象検出パイプラインにおけるTFMの異なる配置の影響を示す。 私たちのコードはオープンソースで、https://gitlab.lrz.de/emec_ercelik/temp-frustnetで利用可能です。

3D object detection is a core component of automated driving systems. State-of-the-art methods fuse RGB imagery and LiDAR point cloud data frame-by-frame for 3D bounding box regression. However, frame-by-frame 3D object detection suffers from noise, field-of-view obstruction, and sparsity. We propose a novel Temporal Fusion Module (TFM) to use information from previous time-steps to mitigate these problems. First, a state-of-the-art frustum network extracts point cloud features from raw RGB and LiDAR point cloud data frame-by-frame. Then, our TFM module fuses these features with a recurrent neural network. As a result, 3D object detection becomes robust against single frame failures and transient occlusions. Experiments on the KITTI object tracking dataset show the efficiency of the proposed TFM, where we obtain ~6%, ~4%, and ~6% improvements on Car, Pedestrian, and Cyclist classes, respectively, compared to frame-by-frame baselines. Furthermore, ablation studies reinforce that the subject of improvement is temporal fusion and show the effects of different placements of TFM in the object detection pipeline. Our code is open-source and available at https://gitlab.lrz.de/emec_ercelik/temp-frustnet.
翻訳日:2021-04-27 14:37:41 公開日:2021-04-25
# インタラクションハンドのポーズ推定のための並列メッシュ再構成ストリーム

Parallel mesh reconstruction streams for pose estimation of interacting hands ( http://arxiv.org/abs/2104.12123v1 )

ライセンス: Link先を確認
Uri Wollner and Guy Ben-Yosef(参考訳) 単一のRGB画像から手動ポーズ推定を行うマルチストリーム3Dメッシュ再構成ネットワーク(MSMR-Net)を提案する。 我々のモデルは、画像エンコーダと、連結グラフ畳み込み層からなるメッシュ畳み込みデコーダからなる。 単一のメッシュデコードパスを形成する従来のモデルとは対照的に、デコーダネットワークは並列に実行される複数のクロスレゾリューショントラジェクトリを組み込んでいる。 これにより、グローバル情報とローカル情報が共有され、単一の軌道網に比べて小さな追加パラメータコストでリッチな復号表現を形成する。 本研究では,手動・手動のインタラクションシナリオにおける手法の有効性を,様々なレベルのインタラクションで示す。 前者のシナリオを評価するために,密接に相互作用する手によるRGB画像を生成する手法を提案する。 さらに、相互作用の度合いを定量化し、手近な相互作用が特に難しいことを示す指標を提案する。 実験の結果,MSMR-NetはFreiHANDデータセットや我々の手動データセットにおいて,既存のアルゴリズムよりも優れていることがわかった。

We present a new multi-stream 3D mesh reconstruction network (MSMR-Net) for hand pose estimation from a single RGB image. Our model consists of an image encoder followed by a mesh-convolution decoder composed of connected graph convolution layers. In contrast to previous models that form a single mesh decoding path, our decoder network incorporates multiple cross-resolution trajectories that are executed in parallel. Thus, global and local information are shared to form rich decoding representations at minor additional parameter cost compared to the single trajectory network. We demonstrate the effectiveness of our method in hand-hand and hand-object interaction scenarios at various levels of interaction. To evaluate the former scenario, we propose a method to generate RGB images of closely interacting hands. Moreoever, we suggest a metric to quantify the degree of interaction and show that close hand interactions are particularly challenging. Experimental results show that the MSMR-Net outperforms existing algorithms on the hand-object FreiHAND dataset as well as on our own hand-hand dataset.
翻訳日:2021-04-27 14:37:20 公開日:2021-04-25
# transformer meets dcfam: 高解像度リモートセンシング画像のための新しい意味セグメンテーションスキーム

Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for Fine-Resolution Remote Sensing Images ( http://arxiv.org/abs/2104.12137v1 )

ライセンス: Link先を確認
Libo Wang, Rui Li, Chenxi Duan, and Shenghui Fang(参考訳) エンコーダ・デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)は,セマンティックセグメンテーションの標準パラダイムとなっている。 エンコーダ-デコーダアーキテクチャは、マルチレベル特徴マップをキャプチャするためにエンコーダを使用し、デコーダによって最終予測に組み込まれる。 正確なセグメンテーションには文脈が不可欠であるため、拡張/拡張畳み込みやアテンションモジュールの挿入など、インテリジェントな方法で情報を抽出するための多大な努力がなされている。 しかし、上記の取り組みはすべて、ルートのコンテキスト問題に対処できないResNetバックボーンを備えたFCNアーキテクチャに基づいている。 対照的に、スウィントランスをバックボーンとして、コンテキスト情報を完全に抽出し、dancely connected feature aggregation module(dcfam)という新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。 2つのデータセットに関する広範な実験により,提案手法の有効性が示された。

The fully-convolutional network (FCN) with an encoder-decoder architecture has become the standard paradigm for semantic segmentation. The encoder-decoder architecture utilizes an encoder to capture multi-level feature maps, which are then incorporated into the final prediction by a decoder. As the context is critical for precise segmentation, tremendous effort has been made to extract such information in an intelligent manner, including employing dilated/atrous convolutions or inserting attention modules. However, the aforementioned endeavors are all based on the FCN architecture with ResNet backbone which cannot tackle the context issue from the root. By contrast, we introduce the Swin Transformer as the backbone to fully extract the context information and design a novel decoder named densely connected feature aggregation module (DCFAM) to restore the resolution and generate the segmentation map. The extensive experiments on two datasets demonstrate the effectiveness of the proposed scheme.
翻訳日:2021-04-27 14:37:04 公開日:2021-04-25
# 銀行小切手の署名のための新しいセグメンテーションデータセット

A novel segmentation dataset for signatures on bank checks ( http://arxiv.org/abs/2104.12203v1 )

ライセンス: Link先を確認
Muhammad Saif Ullah Khan(参考訳) 提示されたデータセットは、さまざまな複雑な背景を含むバンクチェックと、各フィールドで手書きのテキストとシグネチャ、およびチェックのシグネチャ用のピクセルレベルとパッチレベルのセグネチャマスクの高解像度画像を提供する。 銀行のチェックの画像は、他の公開可能なチェックデータセット、インターネット上で公開されているイメージ、実際のチェックのスキャンとイメージなど、さまざまなソースから取得された。 GIMPグラフィックスソフトウェアを用いて、これらのチェックの署名のためのピクセルレベルのセグメンテーションマスクを手動でバイナリ画像として生成した。 その後、自動スクリプトを使用してパッチレベルのマスクを生成する。 データセットは、銀行小切手やその他の非常に複雑な背景を持つ類似文書から署名を抽出するためのネットワークのトレーニングとテストのために作成された。

The dataset presented provides high-resolution images of real, filled out bank checks containing various complex backgrounds, and handwritten text and signatures in the respective fields, along with both pixel-level and patch-level segmentation masks for the signatures on the checks. The images of bank checks were obtained from different sources, including other publicly available check datasets, publicly available images on the internet, as well as scans and images of real checks. Using the GIMP graphics software, pixel-level segmentation masks for signatures on these checks were manually generated as binary images. An automated script was then used to generate patch-level masks. The dataset was created to train and test networks for extracting signatures from bank checks and other similar documents with very complex backgrounds.
翻訳日:2021-04-27 14:36:47 公開日:2021-04-25
# ベクトルニューロン:SO(3)-等価ネットワークのための一般的なフレームワーク

Vector Neurons: A General Framework for SO(3)-Equivariant Networks ( http://arxiv.org/abs/2104.12229v1 )

ライセンス: Link先を確認
Congyue Deng, Or Litany, Yueqi Duan, Adrien Poulenard, Andrea Tagliasacchi, Leonidas Guibas(参考訳) 回転群に対する不変性と同分散は、pointcloudsの3dディープラーニングコミュニティで広く議論されている。 しかし、ほとんどの提案手法は、アクセシビリティを制限する複雑な数学的ツールを使うか、特定の入力データ型とネットワークアーキテクチャに結びつくかのどちらかである。 本稿では,SO(3)-同変ニューラルネットワーク作成のためのベクトルニューロン表現(Vector Neuron representations)をベースとした汎用フレームワークを提案する。 ニューロンを1Dスカラーから3Dベクターに拡張することで、我々のベクトルニューロンはSO(3)アクションを潜在空間に簡単にマッピングできるので、線形層、非線形性、プール、正規化を含む、共通の神経操作における等式を構築するためのフレームワークを提供する。 その単純さから、ベクトルニューロンは汎用性があり、我々が示すように、様々なネットワークアーキテクチャのバックボーンに組み込むことができ、任意のポーズで幾何学入力を処理できる。 その単純さにもかかわらず、この手法は他のより複雑で専門的な分類および分割タスクにおいて、精度と一般化が両立する。 また, 回転同変再構成ネットワークを初めて示す。

Invariance and equivariance to the rotation group have been widely discussed in the 3D deep learning community for pointclouds. Yet most proposed methods either use complex mathematical tools that may limit their accessibility, or are tied to specific input data types and network architectures. In this paper, we introduce a general framework built on top of what we call Vector Neuron representations for creating SO(3)-equivariant neural networks for pointcloud processing. Extending neurons from 1D scalars to 3D vectors, our vector neurons enable a simple mapping of SO(3) actions to latent spaces thereby providing a framework for building equivariance in common neural operations -- including linear layers, non-linearities, pooling, and normalizations. Due to their simplicity, vector neurons are versatile and, as we demonstrate, can be incorporated into diverse network architecture backbones, allowing them to process geometry inputs in arbitrary poses. Despite its simplicity, our method performs comparably well in accuracy and generalization with other more complex and specialized state-of-the-art methods on classification and segmentation tasks. We also show for the first time a rotation equivariant reconstruction network.
翻訳日:2021-04-27 14:36:32 公開日:2021-04-25
# Single Stage Class Agnostic Common Object Detection: A Simple Baseline

Single Stage Class Agnostic Common Object Detection: A Simple Baseline ( http://arxiv.org/abs/2104.12245v1 )

ライセンス: Link先を確認
Chuong H. Nguyen, Thuy C. Nguyen, Anh H. Vo, Yamazaki Masayuki(参考訳) 本稿では,画像の集合から類似するカテゴリのオブジェクトを検出することを目的とした,共通物体検出の問題に対処する。 標準のオブジェクト検出とコセグメンテーションといくつかの類似点があるが、最近 \cite{Jiang2019a} によって推進された共通オブジェクト検出には、いくつかのユニークな利点と課題がある。 まず、クローズドセット条件とオープンセット条件の両方で動作するように設計されている。 未知の物体です 第二に、同じカテゴリのオブジェクトとマッチングできなければならないが、同じインスタンス、テクスチャ、姿勢に限定されない。 第三に、複数のオブジェクトを区別できる。 本研究では,SSCOD(Single Stage Common Object Detection)を導入し,画像集合からクラスに依存しない共通オブジェクトを検出する。 提案手法は, 標準単段物体検出器をベースとする。 さらに、オブジェクトの表現特徴を生成するために埋め込みブランチを導入し、その類似性をコサイン距離で測定する。 PASCAL VOC 2007とCOCO 2014データセットで実験が行われた。 単純でフレキシブルであるが、ATSSNet上に構築された提案SSCODは、未知のカテゴリのオブジェクトにマッチする一方で、標準オブジェクト検出のベースラインよりも大幅に性能が向上する。 ソースコードは \href{https://github.com/cybercore-co-ltd/Single-Stage-Common-Object-Detection}{(URL)} にある。

This paper addresses the problem of common object detection, which aims to detect objects of similar categories from a set of images. Although it shares some similarities with the standard object detection and co-segmentation, common object detection, recently promoted by \cite{Jiang2019a}, has some unique advantages and challenges. First, it is designed to work on both closed-set and open-set conditions, a.k.a. known and unknown objects. Second, it must be able to match objects of the same category but not restricted to the same instance, texture, or posture. Third, it can distinguish multiple objects. In this work, we introduce the Single Stage Common Object Detection (SSCOD) to detect class-agnostic common objects from an image set. The proposed method is built upon the standard single-stage object detector. Furthermore, an embedded branch is introduced to generate the object's representation feature, and their similarity is measured by cosine distance. Experiments are conducted on PASCAL VOC 2007 and COCO 2014 datasets. While being simple and flexible, our proposed SSCOD built upon ATSSNet performs significantly better than the baseline of the standard object detection, while still be able to match objects of unknown categories. Our source code can be found at \href{https://github.com/cybercore-co-ltd/Single-Stage-Common-Object-Detection}{(URL)}
翻訳日:2021-04-27 14:36:14 公開日:2021-04-25
# クーロン法則を用いたクラス平衡

Class Equilibrium using Coulomb's Law ( http://arxiv.org/abs/2104.12287v1 )

ライセンス: Link先を確認
Saheb Chhabra, Puspita Majumdar, Mayank Vatsa, Richa Singh(参考訳) 投影アルゴリズムは、クラス間距離を増加させるために、入力空間から特徴空間へデータを投影するために変換関数を学習する。 しかし,クラス間距離の増加はクラス間距離に影響を与える可能性がある。 データ分散のクラス間距離に影響を与えることなく、クラス間の最適なクラス間分離を維持することは難しい課題である。 本稿では、クーロンの静電気の法則に着想を得て、クラス間の分離が最適である任意のデータ分布の平衡空間を計算する新しいアルゴリズムを提案する。 このアルゴリズムはさらに、入力空間と平衡空間の間の変換を学習し、平衡空間の分類を行う。 提案アルゴリズムの性能を3つの異なる解像度で4つの公開データセットで評価する。 提案アルゴリズムは低解像度画像に対して良好に動作する。

Projection algorithms learn a transformation function to project the data from input space to the feature space, with the objective of increasing the inter-class distance. However, increasing the inter-class distance can affect the intra-class distance. Maintaining an optimal inter-class separation among the classes without affecting the intra-class distance of the data distribution is a challenging task. In this paper, inspired by the Coulomb's law of Electrostatics, we propose a new algorithm to compute the equilibrium space of any data distribution where the separation among the classes is optimal. The algorithm further learns the transformation between the input space and equilibrium space to perform classification in the equilibrium space. The performance of the proposed algorithm is evaluated on four publicly available datasets at three different resolutions. It is observed that the proposed algorithm performs well for low-resolution images.
翻訳日:2021-04-27 14:35:51 公開日:2021-04-25
# 非パラメトリックノイズモデルを用いたベイズニューラルネットワークを用いたシステム同定

System identification using Bayesian neural networks with nonparametric noise models ( http://arxiv.org/abs/2104.12119v1 )

ライセンス: Link先を確認
Christos Merkatas and Simo S\"arkk\"a(参考訳) システム識別は科学と工学に特に関心がある。 本論は, 確率力学系において発生するシステム同定問題に関するもので, 未知の雑音過程とともにシステムのパラメータを推定することを目的としている。 特に,マルコフ過程の順序のみを仮定した離散時間非線形ランダム力学系におけるシステム同定のためのベイズ的非パラメトリック手法を提案する。 提案手法は, ガウス分布誤差成分の仮定をベイズ非パラメトリック事前値に基づく高柔軟性確率密度関数群に置き換えるものである。 さらに、システムの機能形式はベイズニューラルネットワークを利用して推定され、柔軟性のある不確かさの定量化につながる。 隠れニューロンの数に漸近して、提案モデルは完全な非パラメトリックベイズ回帰モデルに収束する。 後部推論用ギブスサンプリング器を提案し,シミュレーションおよび実時間時系列でその有効性を示した。

System identification is of special interest in science and engineering. This article is concerned with a system identification problem arising in stochastic dynamic systems, where the aim is to estimating the parameters of a system along with its unknown noise processes. In particular, we propose a Bayesian nonparametric approach for system identification in discrete time nonlinear random dynamical systems assuming only the order of the Markov process is known. The proposed method replaces the assumption of Gaussian distributed error components with a highly flexible family of probability density functions based on Bayesian nonparametric priors. Additionally, the functional form of the system is estimated by leveraging Bayesian neural networks which also leads to flexible uncertainty quantification. Asymptotically on the number of hidden neurons, the proposed model converges to full nonparametric Bayesian regression model. A Gibbs sampler for posterior inference is proposed and its effectiveness is illustrated in simulated and real time series.
翻訳日:2021-04-27 14:27:20 公開日:2021-04-25
# 3D-TalkEmo: 3D Emotional Talking Headの合成学習

3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head ( http://arxiv.org/abs/2104.12051v1 )

ライセンス: Link先を確認
Qianyun Wang, Zhenfeng Fan, Shihong Xia(参考訳) 最近、音声駆動の3D顔アニメーションで印象的な進歩が見られたが、豊かな感情で3Dトーキングヘッドを合成することは、まだ未解決である。 これは、3d生成モデルと、同期オーディオを備えた3d感情データセットが欠如しているためである。 そこで我々は3D-TalkEmoというディープニューラルネットワークを導入し,様々な感情を持つ3Dトーキングヘッドアニメーションを生成する。 また,高度な3d顔再構成手法を用いて,音声と映像の同期化,コーパスの充実,さまざまな感情状態を備えた大規模3dデータセットを作成する。 感情生成ネットワークにおいて,従来の多次元スケーリング解析による3次元顔表現構造図を提案する。 3次元面上の頂点の座標を正準像平面にマッピングし、頂点から頂点への測地距離を最小二乗意味で保持する。 これは各頂点の隣接関係を維持し、3次元顔表面の効果的な畳み込み構造を保持する。 中立的な3Dメッシュと音声信号を入力として、この3D-TalkEmoは鮮やかな顔アニメーションを生成することができる。 さらに、アニメーションスピーカの感情状態を変更するためのアクセスも提供する。 提案手法の定量的,定性的な評価を行い,ユーザ研究に加えて,従来の最先端手法に比べて高い品質の音声ヘッドを生成する。

Impressive progress has been made in audio-driven 3D facial animation recently, but synthesizing 3D talking-head with rich emotion is still unsolved. This is due to the lack of 3D generative models and available 3D emotional dataset with synchronized audios. To address this, we introduce 3D-TalkEmo, a deep neural network that generates 3D talking head animation with various emotions. We also create a large 3D dataset with synchronized audios and videos, rich corpus, as well as various emotion states of different persons with the sophisticated 3D face reconstruction methods. In the emotion generation network, we propose a novel 3D face representation structure - geometry map by classical multi-dimensional scaling analysis. It maps the coordinates of vertices on a 3D face to a canonical image plane, while preserving the vertex-to-vertex geodesic distance metric in a least-square sense. This maintains the adjacency relationship of each vertex and holds the effective convolutional structure for the 3D facial surface. Taking a neutral 3D mesh and a speech signal as inputs, the 3D-TalkEmo is able to generate vivid facial animations. Moreover, it provides access to change the emotion state of the animated speaker. We present extensive quantitative and qualitative evaluation of our method, in addition to user studies, demonstrating the generated talking-heads of significantly higher quality compared to previous state-of-the-art methods.
翻訳日:2021-04-27 14:25:37 公開日:2021-04-25
# マルチスケール時間ガラス階層型核融合ネットワークによる画像評価

Multi-Scale Hourglass Hierarchical Fusion Network for Single Image Deraining ( http://arxiv.org/abs/2104.12100v1 )

ライセンス: Link先を確認
Xiang Chen, Yufeng Huang, Lei Xu(参考訳) 雨のストリークは、しばしばサイズ、方向、密度によって大きくぼやけ、視覚的品質の劣化をもたらす。 現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。 これらの課題に対処するため,マルチスケールのHH2F-Net (MH2F-Net) をエンドツーエンドに提示し,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握する。 特徴をよりよく抽出するために, ダウンサンプル・アップサンプル・プロセスを通じて, 局所的・グローバルな特徴を多スケール抽出ブロック(MHEB)として提案する。 さらに、階層的注意蒸留ブロック(hadb)は、二重注意機能応答を使用して階層的特徴を適応的に再調整し、冗長な特徴を取り除く。 さらに,機能学習を段階的に判別し,特徴の結合や付加ではなく,特徴の集約を行う残余投影型特徴融合(rpff)戦略を導入する。 人工雨天データセットと実雨天データセットの大規模な実験は、最近の最先端のデラミニングアルゴリズムと比較して設計されたMH2F-Netの有効性を示す。 ソースコードはGitHubで入手できる。 https://github.com/cxtalk/MH2F-Net。

Rain streaks bring serious blurring and visual quality degradation, which often vary in size, direction and density. Current CNN-based methods achieve encouraging performance, while are limited to depict rain characteristics and recover image details in the poor visibility environment. To address these issues, we present a Multi-scale Hourglass Hierarchical Fusion Network (MH2F-Net) in end-to-end manner, to exactly captures rain streak features with multi-scale extraction, hierarchical distillation and information aggregation. For better extracting the features, a novel Multi-scale Hourglass Extraction Block (MHEB) is proposed to get local and global features across different scales through down- and up-sample process. Besides, a Hierarchical Attentive Distillation Block (HADB) then employs the dual attention feature responses to adaptively recalibrate the hierarchical features and eliminate the redundant ones. Further, we introduce a Residual Projected Feature Fusion (RPFF) strategy to progressively discriminate feature learning and aggregate different features instead of directly concatenating or adding. Extensive experiments on both synthetic and real rainy datasets demonstrate the effectiveness of the designed MH2F-Net by comparing with recent state-of-the-art deraining algorithms. Our source code will be available on the GitHub: https://github.com/cxtalk/MH2F-Net.
翻訳日:2021-04-27 14:25:16 公開日:2021-04-25
# 高次元線形回帰における変分推論

Variational Inference in high-dimensional linear regression ( http://arxiv.org/abs/2104.12232v1 )

ライセンス: Link先を確認
Sumit Mukherjee and Subhabrata Sen(参考訳) 高次元ベイズ線形回帰を積優先で研究する。 非線形大偏差の新生理論(chatterjee and dembo,2016)を用いて,後方分布の対数正規化定数に対するナイーブ平均場近似の先行的正しさについて十分条件を導出する。 その後、観測データに対する真の線形モデルと仮定すると、後部の対数正規化定数に対する無限次元の変動式を導出する。 さらに,追加の「分離」条件下では,変分問題は一意なオプティマイザを持ち,このオプティマイザは後方分布の確率的性質を制御する。 この「分離」条件の有効性について,直感的に十分な条件を提供する。 最後に,具体的設計行列を用いた具体例について述べる。

We study high-dimensional Bayesian linear regression with product priors. Using the nascent theory of non-linear large deviations (Chatterjee and Dembo,2016), we derive sufficient conditions for the leading-order correctness of the naive mean-field approximation to the log-normalizing constant of the posterior distribution. Subsequently, assuming a true linear model for the observed data, we derive a limiting infinite dimensional variational formula for the log normalizing constant of the posterior. Furthermore, we establish that under an additional "separation" condition, the variational problem has a unique optimizer, and this optimizer governs the probabilistic properties of the posterior distribution. We provide intuitive sufficient conditions for the validity of this "separation" condition. Finally, we illustrate our results on concrete examples with specific design matrices.
翻訳日:2021-04-27 14:23:21 公開日:2021-04-25
# 循環サンプリングとランダム再シャッフルの比較について

On the Comparison between Cyclic Sampling and Random Reshuffling ( http://arxiv.org/abs/2104.12112v1 )

ライセンス: Link先を確認
Xinmeng Huang, Kun Yuan, Xianghui Mao, Wotao Yin(参考訳) 確率/増分アルゴリズムを適用する場合、サンプルを描く順序を選択する必要がある。 最も一般的なアプローチは循環サンプリングとランダムリシャッフルであり、一様イドサンプリングよりも経験的に高速でキャッシュフレンドリーである。 周期的なサンプリングは、サンプルを周期的に再シャッフルするよりも頑丈でない、固定された循環的な順序でサンプルを引き出す。 実際、既存の研究は循環サンプリングにおける最悪のケース収束率を確立しており、これは一般にランダムリシャフリングよりも悪い。 しかし,本論文では,ある周期順序はリシャッフルよりもはるかに高速であり,低コストで発見できることがわかった。 異なるサンプリング順序の研究と比較は、通常、新しい分析技術を必要とする。 本稿では, 解までの距離を測定するために, サンプリング順序に基づいて定義されるノルムを提案する。 この手法を近似Finito/MISOアルゴリズムに適用することにより、最適な固定順序付けを特定できる。 また,最適な固定順序を数値的に発見する戦略を提案する。 定価は前作に比べて最先端である。

When applying a stochastic/incremental algorithm, one must choose the order to draw samples. Among the most popular approaches are cyclic sampling and random reshuffling, which are empirically faster and more cache-friendly than uniform-iid-sampling. Cyclic sampling draws the samples in a fixed, cyclic order, which is less robust than reshuffling the samples periodically. Indeed, existing works have established worst case convergence rates for cyclic sampling, which are generally worse than that of random reshuffling. In this paper, however, we found a certain cyclic order can be much faster than reshuffling and one can discover it at a low cost! Studying and comparing different sampling orders typically require new analytic techniques. In this paper, we introduce a norm, which is defined based on the sampling order, to measure the distance to solution. Applying this technique on proximal Finito/MISO algorithm allows us to identify the optimal fixed ordering, which can beat random reshuffling by a factor up to log(n)/n in terms of the best-known upper bounds. We also propose a strategy to discover the optimal fixed ordering numerically. The established rates are state-of-the-art compared to previous works.
翻訳日:2021-04-27 14:22:00 公開日:2021-04-25
# 生成的対立ネットワーク:分析的視点

Generative Adversarial Network: Some Analytical Perspectives ( http://arxiv.org/abs/2104.12210v1 )

ライセンス: Link先を確認
Haoyang Cao and Xin Guo(参考訳) デビュー以来、gans(generative adversarial networks)は膨大な注目を集めてきた。 過去数年間、様々な種類のGANモデルが開発され、実際に異なる用途に適合している。 一方,gansの性能と訓練に関するいくつかの問題は,様々な理論的観点から指摘され,検討されている。 このサブチャプタは、分析的な観点からのGANの導入から始まり、SDE近似を通してGANのトレーニングを進め、最終的に高次元MFGの計算や数学的財政問題の解決にGANの応用について議論する。

Ever since its debut, generative adversarial networks (GANs) have attracted tremendous amount of attention. Over the past years, different variations of GANs models have been developed and tailored to different applications in practice. Meanwhile, some issues regarding the performance and training of GANs have been noticed and investigated from various theoretical perspectives. This subchapter will start from an introduction of GANs from an analytical perspective, then move on the training of GANs via SDE approximations and finally discuss some applications of GANs in computing high dimensional MFGs as well as tackling mathematical finance problems.
翻訳日:2021-04-27 14:21:41 公開日:2021-04-25
# 直交非負行列因子分解に基づく空間コヒーレントクラスタリング

Spatially Coherent Clustering Based on Orthogonal Nonnegative Matrix Factorization ( http://arxiv.org/abs/2104.12289v1 )

ライセンス: Link先を確認
Pascal Fernsel(参考訳) クラスター分析における古典的なアプローチは、典型的には特徴空間分析に基づいている。 しかし、多くのアプリケーションは空間情報と空間的に整合したクラスを持つ基底真理を持つデータセットに導かれるため、標準的なクラスタリング手法によって必ずしもうまく再構築されるとは限らない。 超スペクトルイメージングの応用に動機づけられた本研究では,クラスタメンバシップマトリックスに付加的な総変動(tv)正則化手順を含む直交非負行列分解に基づくクラスタリングモデルを導入し,クラスタ内の空間的コヒーレンスを強制する。 本研究では,後処理ステップとしてtv正規化を行うか,クラスタリングアルゴリズムに組み込むか,異なる最適化手法を用いた複数の手法を提案する。 最後に,マトリクス支援レーザー脱離イオン化イメージング測定から得られたハイパースペクトルデータセットのすべての提案手法を数値的に評価し,従来のクラスタリングモデルと比較して有意に優れたクラスタリング結果が得られることを示す。

Classical approaches in cluster analysis are typically based on a feature space analysis. However, many applications lead to datasets with additional spatial information and a ground truth with spatially coherent classes, which will not necessarily be reconstructed well by standard clustering methods. Motivated by applications in hyperspectral imaging, we introduce in this work clustering models based on orthogonal nonnegative matrix factorization, which include an additional total variation (TV) regularization procedure on the cluster membership matrix to enforce the needed spatial coherence in the clusters. We propose several approaches with different optimization techniques, where the TV regularization is either performed as a subsequent postprocessing step or included into the clustering algorithm. Finally, we provide a numerical evaluation of all proposed methods on a hyperspectral dataset obtained from a matrix-assisted laser desorption/ionisation imaging measurement, which leads to significantly better clustering results compared to classical clustering models.
翻訳日:2021-04-27 14:19:25 公開日:2021-04-25