このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210403となっている論文です。

PDF登録状況(公開日: 20210403)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子チャネル推定の漸近理論

Asymptotic theory of quantum channel estimation ( http://arxiv.org/abs/2003.10559v3 )

ライセンス: Link先を確認
Sisi Zhou and Liang Jiang(参考訳) 量子フィッシャー情報(quantum fisher information, qfi)は、量子状態の関数として、量子状態が未知のパラメータに持つ情報量を測定する。 量子チャネルの(絡み付き)QFIは、単一のプローブとアンシラ上の絡み合った入力状態を想定した出力状態の最大QFIと定義される。 量子メソロジーにおいて、人々は、漸近qfiと呼ばれる$n \rightarrow \infty$ のとき、量子チャネルの同じコピー n$ のqfiを計算することに興味がある。 長年にわたり、研究者は漸近qfiの様々な上限を発見したが、それらはいくつかの特定の状況でしか達成できないことが証明された。 任意の量子チャネルの漸近QFIは、$N$で線形または二次的に成長することが知られている。 ここでは、単純な基準でスケーリングが線型か二次であるかを決定できることを示す。 どちらの場合も、漸近qfiとそれを達成する量子誤差補正プロトコルは半定値プログラムを介して計算可能である。 スケーリングが二次的であれば、ノイズのない量子チャネルの特徴であるハイゼンベルク限界が回復される。 スケーリングが線形である場合、漸近的QFIは一般にシングルチャネルQFIの$N$よりも大きいことを示し、さらに、逐次推定戦略は並列性に勝らないことを示す。

The quantum Fisher information (QFI), as a function of quantum states, measures the amount of information that a quantum state carries about an unknown parameter. The (entanglement-assisted) QFI of a quantum channel is defined to be the maximum QFI of the output state assuming an entangled input state over a single probe and an ancilla. In quantum metrology, people are interested in calculating the QFI of $N$ identical copies of a quantum channel when $N \rightarrow \infty$, which is called the asymptotic QFI. Over the years, researchers found various types of upper bounds of the asymptotic QFI, but they were proven achievable only in several specific situations. It was known that the asymptotic QFI of an arbitrary quantum channel grows either linearly or quadratically with $N$. Here we show that a simple criterion can determine whether the scaling is linear or quadratic. In both cases, the asymptotic QFI and a quantum error correction protocol to achieve it are computable via a semidefinite program. When the scaling is quadratic, the Heisenberg limit, a feature of noiseless quantum channels, is recovered. When the scaling is linear, we show the asymptotic QFI is still in general larger than $N$ times the single-channel QFI and furthermore, sequential estimation strategies provide no advantage over parallel ones.
翻訳日:2023-05-28 07:28:03 公開日:2021-04-03
# テキストの簡易化が不十分な場合:グラフベースの可視化は消費者の食事補助情報の理解を促進するか?

When Text Simplification Is Not Enough: Could a Graph-Based Visualization Facilitate Consumers' Comprehension of Dietary Supplement Information? ( http://arxiv.org/abs/2007.02333v2 )

ライセンス: Link先を確認
Xing He, Rui Zhang, Jordan Alpert, Sicheng Zhou, Terrence J Adam, Aantaki Raisa, Yifan Peng, Hansi Zhang, Yi Guo, Jiang Bian(参考訳) サプリメントは広く使われているが、必ずしも安全ではない。 インターネットの急速な発展に伴い、消費者は通常、オンラインの栄養補助情報を含む健康情報を求める。 消費者が品質の高いオンライン食事サプリメント情報にアクセスするのを助けるため、信頼できる食事サプリメント情報ソースを特定し、これらの異なるソース間で食事サプリメント関連情報を統合・標準化する統合食サプリメント知識ベース(iDISK)のエビデンスベースの知識ベースを構築した。 しかし、iDISKの情報は科学資料から収集されるため、複雑な医療用用語は消費者の理解の障壁となる。 クラウドソーシングプラットフォームを用いて,iDISKからの食事サプリメント情報の簡素化と表現方法の違いが,一般消費者の理解にどのように影響するかを評価するため,iDISKから4つの異なる表現(原文,構文,語彙テキストの簡略化,手動テキストの簡略化,グラフベースの可視化)で食事サプリメント情報を読み取るように参加者を募集した。 そこで,本研究では,異なる要約・表現戦略が,消費者の食事補助情報理解に与えた影響を,一連の理解質問に対する正確性と応答時間の観点から評価した。 690名の有資格者から回答を得た結果,この手動アプローチは解答質問に対する精度と応答時間の両方に最適であり,グラフベースの手法では他の表現よりも優れていた。 場合によっては、グラフベースの表現は応答時間の観点から手動のアプローチよりも優れていた。 テキストとグラフベースの表現を組み合わせたハイブリッドアプローチは、消費者の異なる情報ニーズと情報探索行動に対応するために必要かもしれない。

Dietary supplements are widely used but not always safe. With the rapid development of the Internet, consumers usually seek health information including dietary supplement information online. To help consumers access quality online dietary supplement information, we have identified trustworthy dietary supplement information sources and built an evidence-based knowledge base of dietary supplement information-the integrated DIetary Supplement Knowledge base (iDISK) that integrates and standardizes dietary supplement related information across these different sources. However, as information in iDISK was collected from scientific sources, the complex medical jargon is a barrier for consumers' comprehension. To assess how different approaches to simplify and represent dietary supplement information from iDISK will affect lay consumers' comprehension, using a crowdsourcing platform, we recruited participants to read dietary supplement information in four different representations from iDISK: original text, syntactic and lexical text simplification, manual text simplification, and a graph-based visualization. We then assessed how the different simplification and representation strategies affected consumers' comprehension of dietary supplement information in terms of accuracy and response time to a set of comprehension questions. With responses from 690 qualified participants, our experiments confirmed that the manual approach had the best performance for both accuracy and response time to the comprehension questions, while the graph-based approach ranked the second outperforming other representations. In some cases, the graph-based representation outperformed the manual approach in terms of response time. A hybrid approach that combines text and graph-based representations might be needed to accommodate consumers' different information needs and information seeking behavior.
翻訳日:2023-05-11 06:11:35 公開日:2021-04-03
# 脱局在化触媒を用いた量子断熱アルゴリズムの高速化

Speedup of the Quantum Adiabatic Algorithm using Delocalization Catalysis ( http://arxiv.org/abs/2007.11212v4 )

ライセンス: Link先を確認
Chenfeng Cao, Jian Xue, Nic Shannon, Robert Joynt(参考訳) 本稿では,多体非局在化による触媒を用いた量子断熱アルゴリズムの高速化手法を提案する。 これはランダム場反強磁性イジングスピンモデルに適用される。 このアルゴリズムは、進化がコースの中央でハイゼンベルクモデルに近似するように触媒され、モデルは非局在化フェーズにある。 この手法を用いてランダム場イジングモデルの基底状態を求めるための標準アルゴリズムを高速化できることを数値的に示す。 また,フラストレーションのないモデルであっても,スピードアップはギャップ増幅によるものであることを示す。 スピードアップへのクロスオーバーは、非局在化遷移にとって重要な相互作用として知られている相互作用の値で起こる。 また、時間の関数としての参加比と絡み合いエントロピーを計算し、それらの時間依存性は、システムがより多くの状態を探しており、触媒が存在しない場合よりも絡み合っていることを示している。 これらすべての証拠は、スピードアップが非局在化と関連していることを示している。 比較的小さなシステムのみを調査できるが、その証拠は、その方法のスケールがシステムサイズに有利であることを示唆している。 本手法は,小型のオンラインibm量子コンピュータによる実験結果によって示され,このようなマシンが改善するにつれて,今後の検証方法を示す。 触媒法を標準アルゴリズムと比較した場合, 触媒法のコストは一定である。

We propose a method to speed up the quantum adiabatic algorithm using catalysis by many-body delocalization. This is applied to random-field antiferromagnetic Ising spin models. The algorithm is catalyzed in such a way that the evolution approximates a Heisenberg model in the middle of its course, and the model is in a delocalized phase. We show numerically that we can speed up the standard algorithm for finding the ground state of the random-field Ising model using this idea. We also demonstrate that the speedup is due to gap amplification, even though the underlying model is not frustration-free. The crossover to speedup occurs at roughly the value of the interaction which is known to be the critical one for the delocalization transition. We also calculate the participation ratio and entanglement entropy as a function of time: their time dependencies indicate that the system is exploring more states and that they are more entangled than when there is no catalyst. Together, all these pieces of evidence demonstrate that the speedup is related to delocalization. Even though only relatively small systems can be investigated, the evidence suggests that the scaling of the method with system size is favorable. Our method is illustrated by experimental results from a small online IBM quantum computer, showing how to verify the method in future as such machines improve. The cost of the catalytic method compared to the standard algorithm is only a constant factor.
翻訳日:2023-05-08 18:49:56 公開日:2021-04-03
# 超低温リドバーグガス中における黒体放射増強超放射の観測

Observation of Blackbody Radiation Enhanced Superradiance in ultracold Rydberg Gases ( http://arxiv.org/abs/2009.12860v2 )

ライセンス: Link先を確認
Liping Hao, Zhengyang Bai, Jingxu Bai, Suying Bai, Yuechun Jiao, Guoxiang Huang, Jianming Zhao, Weibin Li, Suotang Jia(参考訳) 励起原子のアンサンブルは、その特性サイズが発光光子の波長よりも小さいとき、超放射と呼ばれるプロセスにおいて、光の放射を集合的に同期させることができる。 基底の超放射は、原子アンサンブルを取り囲む電磁場(光子)に強く依存する。 300,$Kの黒体放射(BBR)からのマイクロ波光子の高モード密度は、隣り合う状態へのリドベルク状態の崩壊率を著しく向上させ、真空誘起自然崩壊では不可能な超輝度を可能にした。 ここでは、常温光子の浴槽に埋め込まれた超低温リドベルグ原子の超高輝度を観察する。 rydberg $|nd\rangle$ to $|(n+1)p\rangle$ superradiant decay of cs atoms ($n$ the principal quantum number) の時間発展は自由空間で直接測定される。 理論シミュレーションにより、BBRは大きなRydbergアンサンブルの超放射能を増強した。 ライドベルク原子間のファンデルワールス相互作用は超ラジアントダイナミクスを変化させ、超ラジアンのスケーリングを変化させる。 静電場の存在下では,多体相互作用による消長により超放射が遅くなる可能性がある。 本研究は、熱bbrに結合した相互作用原子の多体ダイナミクスに関する知見を提供し、集合的、散逸的な光子-原子相互作用によるマイクロ波周波数でのブラックボディ温度測定の設計への道を開く。

An ensemble of excited atoms can synchronize emission of light collectively in a process known as superradiance when its characteristic size is smaller than the wavelength of emitted photons. The underlying superradiance depends strongly on electromagnetic (photon) fields surrounding the atomic ensemble. High mode densities of microwave photons from $300\,$K blackbody radiation (BBR) significantly enhance decay rates of Rydberg states to neighbouring states, enabling superradiance that is not possible with bare vacuum induced spontaneous decay. Here we report observations of the superradiance of ultracold Rydberg atoms embedded in a bath of room-temperature photons. The temporal evolution of the Rydberg $|nD\rangle$ to $|(n+1)P\rangle$ superradiant decay of Cs atoms ($n$ the principal quantum number) is measured directly in free space. Theoretical simulations confirm the BBR enhanced superradiance in large Rydberg ensembles. We demonstrate that the van der Waals interactions between Rydberg atoms change the superradiant dynamics and modify the scaling of the superradiance. In the presence of static electric fields, we find that the superradiance becomes slow, potentially due to many-body interaction induced dephasing. Our study provides insights into many-body dynamics of interacting atoms coupled to thermal BBR, and might open a route to the design of blackbody thermometry at microwave frequencies via collective, dissipative photon-atom interactions.
翻訳日:2023-04-30 20:40:22 公開日:2021-04-03
# 量子情報マスキングのフォトニック実装

Photonic implementation of quantum information masking ( http://arxiv.org/abs/2011.04963v2 )

ライセンス: Link先を確認
Zheng-Hao Liu, Xiao-Bin Liang, Kai Sun, Qiang Li, Yu Meng, Mu Yang, Bo Li, Jing-Ling Chen, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) 量子情報のマスキングは非局所相関に拡散し、サブシステムから隠蔽する。 すべての純粋な状態 [phys. rev. lett. 120, 230501 (2018)] を同時にマスクすることはできないことが知られている。 ここでは、量子情報マスキングの定義を一般的な混合状態にまで拡張し、マスク可能な量子状態の資源がノーゴー定理よりはるかに豊富であることを示す。 幾何学的には、同時にマスク可能な状態は、状態超球のハイパーディスク上に置かれ、放送可能な状態を含む。 本稿では,時間相関光子を用いたフォトニック量子情報マスキングマシンを考案し,量子マスキングの特性を実験的に検証し,量子情報の2成分相関への移動とその忠実な検索を実証する。 汎用マスキングマシンは十分に拡張性があり、量子秘密共有やフォールトトレラント量子通信にも適用可能である。 本研究は,量子情報マスキングの理解と応用に関する知見を提供する。

Masking of quantum information spreads it over nonlocal correlations and hides it from the subsystems. It is known that no operation can simultaneously mask all pure states [Phys. Rev. Lett. 120, 230501 (2018)], so in what sense is quantum information masking useful? Here, we extend the definition of quantum information masking to general mixed states, and show that the resource of maskable quantum states are far more abundant than the no-go theorem seemingly suggests. Geometrically, the simultaneously maskable states lays on hyperdisks in the state hypersphere, and strictly contain the broadcastable states. We devise a photonic quantum information masking machine using time-correlated photons to experimentally investigate the properties of qubit masking, and demonstrate the transfer of quantum information into bipartite correlations and its faithful retrieval. The versatile masking machine has decent extensibility, and may be applicable to quantum secret sharing and fault-tolerant quantum communication. Our results provide some insights on the comprehension and potential application of quantum information masking.
翻訳日:2023-04-24 19:15:13 公開日:2021-04-03
# ピグーネットワークにおける絡み合いと量子戦略による混雑コストの低減

Entanglement and quantum strategies reduce congestion costs in Pigou networks ( http://arxiv.org/abs/2012.02465v2 )

ライセンス: Link先を確認
Naini Dudhe, Colin Benjamin(参考訳) Pigouの問題は、トラフィックネットワーク、グラフ理論、インターネットネットワークのデータ転送など、現実のシナリオにおいて多くの応用がある。 2人のプレイヤーのクラシック・ピゴウのネットワークは、安定性とアナーキーの価格が互いに一致するユニークなナッシュ均衡を持つ。 k-$person classic pigou's networkの状況は変わり、n$は総人数である。 もし$(n-2)$の振る舞いを修正し、$k-$persons take path $P_2$ where $k<(n-2)$と残りのTake path $P_1$を仮定すると、Nash平衡の最小コストは$k$依存となり、コストが絶対最小となる特定の$k$が見つかる。 2人の古典的ピグーのネットワークとは対照的に、最大エンタングルメントを持つ量子2量子ビットピグーのネットワークはナッシュ均衡のコストを下げる一方、$kの古典的ピグーのネットワークとは対照的に、量子バージョンはナッシュ均衡戦略のコストを下げる。 これは、古典的および量子データネットワークの両方における情報転送に大きな意味を持つ。 絡み合いと量子戦略を用いることで、量子データネットワークにおける混雑コストを大幅に削減することができる。

Pigou's problem has many applications in real life scenarios like traffic networks, graph theory, data transfer in internet networks, etc. The two player classical Pigou's network has an unique Nash equilibrium with the Price of Stability and Price of Anarchy agreeing with each other. The situation changes for the $k-$person classical Pigou's network with $n$ being the total number of people. If we fix the behaviour of $(n-2)$ people and assume that $k-$persons take path $P_2$ where $k<(n-2)$ and the remaining take path $P_1$, the minimum cost of Nash equilibrium becomes $k$ dependent and we find a particular $k$ for which the cost is an absolute minimum. In contrast to the two person classical Pigou's network, the quantum two qubit Pigou's network with maximal entanglement gives a lower cost for the Nash equilibrium, while in contrast to $k-$person classical Pigou's network, it's quantum version gives reduced cost for the Nash equilibrium strategy. This has major implications for information transfer in both classical as well as quantum data networks. By employing entanglement and quantum strategies, one can significantly reduce congestion costs in quantum data networks.
翻訳日:2023-04-22 03:14:59 公開日:2021-04-03
# 新型コロナウイルスのインフォデミック:Twitter対Facebook

The COVID-19 Infodemic: Twitter versus Facebook ( http://arxiv.org/abs/2012.09353v2 )

ライセンス: Link先を確認
Kai-Cheng Yang, Francesco Pierri, Pik-Mai Hui, David Axelrod, Christopher Torres-Lugo, John Bryden, Filippo Menczer(参考訳) 新型コロナウイルスの世界的な感染拡大は、新型コロナウイルス(COVID-19)のインフォデミック(インフォデミック)と呼ばれる関連情報の拡散の影響を受けている。 ここでは,twitter と facebook の2つの主要ソーシャルメディアプラットフォームにおけるパンデミックに関する信頼性の低いコンテンツに対するリンクの普及と拡散について分析する。 我々は、一般的なソース、拡散パターン、インフルエンサー、調整、自動化におけるクロスプラットフォームの類似性と相違を特徴付ける。 両プラットフォームを比較すると,人気の高い低視聴率ソースと疑わしいビデオの出現率に違いが見られる。 少数のアカウントとページが各プラットフォームに強い影響を与えている。 これらの誤報 "superspreader" は、しばしば低信頼度ソースと関連付けられ、プラットフォームによって検証される傾向がある。 両プラットフォームにはInfodemicコンテンツの協調的な共有の証拠がある。 この操作の過度な性質は、プラットフォーム内の緩和戦略に加えて、社会レベルのソリューションの必要性を示している。 しかし、情報エコシステムの有害な操作を研究する能力について、一貫性のないデータアクセスポリシーによって課される制限を強調する。

The global spread of the novel coronavirus is affected by the spread of related misinformation -- the so-called COVID-19 Infodemic -- that makes populations more vulnerable to the disease through resistance to mitigation efforts. Here we analyze the prevalence and diffusion of links to low-credibility content about the pandemic across two major social media platforms, Twitter and Facebook. We characterize cross-platform similarities and differences in popular sources, diffusion patterns, influencers, coordination, and automation. Comparing the two platforms, we find divergence among the prevalence of popular low-credibility sources and suspicious videos. A minority of accounts and pages exert a strong influence on each platform. These misinformation "superspreaders" are often associated with the low-credibility sources and tend to be verified by the platforms. On both platforms, there is evidence of coordinated sharing of Infodemic content. The overt nature of this manipulation points to the need for societal-level solutions in addition to mitigation strategies within the platforms. However, we highlight limits imposed by inconsistent data-access policies on our capability to study harmful manipulations of information ecosystems.
翻訳日:2023-04-20 08:44:09 公開日:2021-04-03
# 量子多重アクセスチャネルの絡み合い支援容量領域とプロトコル設計

Entanglement-assisted capacity regions and protocol designs for quantum multiple-access channels ( http://arxiv.org/abs/2101.12173v2 )

ライセンス: Link先を確認
Haowei Shi, Min-Hsiu Hsieh, Saikat Guha, Zheshen Zhang and Quntao Zhuang(参考訳) 我々は、任意の数の送信者を持つ量子多重アクセスチャネルのエンタングルメント支援(EA)古典容量領域を解く。 一例として、ボソニック熱損失マルチアクセスチャネルを考察し、送受信機対方向の2モード圧縮真空状態からなる絡み合い源によって実現されるワンショット容量領域を解決した。 EA容量領域は、絡み合いのない容量領域よりも厳密に大きい。 また、2モード圧縮真空状態を符号化のソースおよび位相変調とし、絡み合いの利点を実現するための実用的な受信プロトコルを設計する。 光パラメトリック増幅器を用いた4つの実用的な受信機の設計と解析を行った。 大きなノイズ背景のパラメータ領域では、受信機は送信者毎の82.0%の同時利得を実現できる。 テレポーテーションと超高密度符号化により、EA古典的通信の結果はEA量子通信に半分の速度で直接拡張できる。 私たちの仕事は、絡み合いが有益な、ユニークで実用的なネットワーク通信シナリオを提供します。

We solve the entanglement-assisted (EA) classical capacity region of quantum multiple-access channels with an arbitrary number of senders. As an example, we consider the bosonic thermal-loss multiple-access channel and solve the one-shot capacity region enabled by an entanglement source composed of sender-receiver pairwise two-mode squeezed vacuum states. The EA capacity region is strictly larger than the capacity region without entanglement-assistance. With two-mode squeezed vacuum states as the source and phase modulation as the encoding, we also design practical receiver protocols to realize the entanglement advantages. Four practical receiver designs, based on optical parametric amplifiers, are given and analyzed. In the parameter region of a large noise background, the receivers can enable a simultaneous rate advantage of 82.0% for each sender. Due to teleportation and superdense coding, our results for EA classical communication can be directly extended to EA quantum communication at half of the rates. Our work provides a unique and practical network communication scenario where entanglement can be beneficial.
翻訳日:2023-04-13 11:31:44 公開日:2021-04-03
# マイクロ波から光変換へのer$^{3+}$:yvo$_{4}$のキャラクタリゼーション

Characterization of Er$^{3+}$:YVO$_{4}$ for microwave to optical transduction ( http://arxiv.org/abs/2104.01501v1 )

ライセンス: Link先を確認
Tian Xie, Jake Rochman, John G. Bartholomew, Andrei Ruskuc, Jonathan M. Kindem, Ioana Craiciu, Charles Thiel, Rufus Cone, Andrei Faraon(参考訳) マイクロ波と光周波数の量子変換は、量子ネットワーク内の超伝導量子プラットフォームを接続するために重要である。 希土類イオンのアンサンブルは、マイクロ波と光周波数における集合的コヒーレント性のため、この変換を実現する候補として有望である。 エルビウムイオンは、ファイバー通信ネットワークと互換性のあるテレコム波長の光遷移のために特に興味深い。 本稿では,高分解能光分光,電子常磁性共鳴研究,マイクロ波から古典場の光変換に関する初期の実証などを含む,erbiumをドープしたyttrium orthovanadate(er$^{3+}$:yvo$_{4}$)の光スピン特性と電子スピン特性について報告する。 吸収性の高い光遷移と狭いアンサンブル線幅は、磁気光学量子変換に有望であるer$^{3+}$:yvo$_{4}$を与える。

Quantum transduction between microwave and optical frequencies is important for connecting superconducting quantum platforms in a quantum network. Ensembles of rare-earth ions are promising candidates to achieve this conversion due to their collective coherent properties at microwave and optical frequencies. Erbium ions are of particular interest because of their telecom wavelength optical transitions that are compatible with fiber communication networks. Here, we report the optical and electron spin properties of erbium doped yttrium orthovanadate (Er$^{3+}$:YVO$_{4}$), including high-resolution optical spectroscopy, electron paramagnetic resonance studies and an initial demonstration of microwave to optical conversion of classical fields. The highly absorptive optical transitions and narrow ensemble linewidths make Er$^{3+}$:YVO$_{4}$ promising for magneto-optic quantum transduction.
翻訳日:2023-04-05 10:57:54 公開日:2021-04-03
# Casimir PuzzleとCasimir Conundrum:解決のための発見と探索

Casimir Puzzle and Casimir Conundrum: Discovery and Search for Resolution ( http://arxiv.org/abs/2104.01460v1 )

ライセンス: Link先を確認
V. M. Mostepanenko(参考訳) 我々は、金属と誘電体からなる実材料板間のカシミール力を記述するリフシッツ理論の複雑な問題を、その分解に対する異なるアプローチを含むレビューする。 完全な結晶格子を持つ金属板と任意の誘電体板については、リフシッツ理論の枠組みで計算されたカシミールエントロピーが、よく認められた誘電関数が計算に使用されるときにネルンスト熱定理に反することを示した。 各理論カシミール力は、多数の精密実験の測定データによって除外される。 文学において、この状況はそれぞれ金属板と誘電板の場合にカシミールパズルとカシミールコンダンラムの名前が与えられた。 本論では, 理論的・実験的両面において, 本論の主な事実を概説する。 次に、リフシッツ理論を測定データや熱力学の法則と一致させるため、文献で提案されている主なアプローチについて論じる。 最近提案された空間的に非局所的なドルーデ様応答関数は、標準的なドルーデモデルと同様に伝導電子の緩和特性を考慮したものであるが、熱力学と質量殻の量子揺らぎに対する代替反応による測定データの両方に一致する理論的な結果をもたらす。 この研究分野のさらなる進歩と動向について論じる。

We review complicated problems in the Lifshitz theory describing the Casimir force between real material plates made of metals and dielectrics including different approaches to their resolution. It has been shown that both for metallic plates with perfect crystal lattices and for any dielectric plates the Casimir entropy calculated in the framework of the Lifshitz theory violates the Nernst heat theorem when the well approved dielectric functions are used in computations. The respective theoretical Casimir forces are excluded by the measurement data of numerous precision experiments. In the literature this situation received the names of the Casimir puzzle and the Casimir conundrum for the cases of metallic and dielectric plates, respectively. The review presents a summary of the main facts on this subject on both theoretical and experimental sides. Next, we discuss the main approaches proposed in the literature in order to bring the Lifshitz theory in agreement with the measurement data and with the laws of thermodynamics. Special attention is paid to the recently suggested spatially nonlocal Drude-like response functions which take into account the relaxation properties of conduction electrons, as does the standard Drude model, but lead to the theoretical results in agreement with both thermodynamics and the measurement data through the alternative response to quantum fluctuations off the mass shell. Further advances and trends in this field of research are discussed.
翻訳日:2023-04-05 10:56:41 公開日:2021-04-03
# 原子ガス中に埋め込まれた非エルミタンアレイ光導波路の非線形位相エッジ状態

Nonlinear Topological Edge States in a non-Hermitian Array of Optical Waveguides Embedded in an Atomic Gas ( http://arxiv.org/abs/2104.01380v1 )

ライセンス: Link先を確認
Chao Hang, Dmitry A. Zezyulin, Guoxiang Huang, and Vladimir V. Konotop(参考訳) 本稿では,冷原子の気体に埋もれた異方性光導波路の配列からなる方式を提案し,制御と補助レーザーフィールドの操作により,エルミアンから奇数pt -- 対称配置に調整可能とした。本方式は,内部結合係数とセル間結合係数を調整することにより制御可能であることを示し,位相的に異なる位相と線形位相エッジ状態の生成を可能にする。 導波管アレイは4次原始セルを特徴とし、エルミート型と奇数のPT対称な構成、破断されたPT対称相、位相的自明かつ非自明な位相、および線形および非線形状態間の遷移を実装できる。 導入されたスキームは、奇数-pt対称性を特徴とする非線形非エルミート二次行列に対するライス-ミールハミルトニアンを一般化し、非エルミート性、トポロジー、非線形性の相互作用から生じるアクセス可能なユニークな現象と機能を与える。 また,非線形性の存在下では,線形トポロジカルエッジ状態と線形極限のないモードから分岐する非線形トポロジカルエッジ状態が維持されることを示す。 それぞれの非線形モードは奇PT共役状態の二重項を表す。 破壊されたPT相では、システムに追加吸収が導入されると、非線形エッジ状態が効果的に安定化される。

We propose a scheme comprising an array of anisotropic optical waveguides, embedded in a gas of cold atoms, which can be tuned from a Hermitian to an odd-PT -- symmetric configuration through the manipulation of control and assistant laser fields. We show that the system can be controlled by tuning intra -- and inter-cell coupling coefficients, enabling the creation of topologically distinct phases and linear topological edge states. The waveguide array, characterized by a quadrimer primitive cell, allows for implementing transitions between Hermitian and odd-PT -symmetric configurations, broken and unbroken PT -symmetric phases, topologically trivial and nontrivial phases, as well as transitions between linear and nonlinear regimes. The introduced scheme generalizes the Rice-Mele Hamiltonian for a nonlinear non-Hermitian quadrimer array featuring odd-PT symmetry and makes accessible unique phenomena and functionalities that emerge from the interplay of non-Hermiticity, topology, and nonlinearity. We also show that in the presence of nonlinearity the system sustains nonlinear topological edge states bifurcating from the linear topological edge states and the modes without linear limit. Each nonlinear mode represents a doublet of odd-PT -conjugate states. In the broken PT phase, the nonlinear edge states may be effectively stabilized when an additional absorption is introduced into the system.
翻訳日:2023-04-05 10:56:00 公開日:2021-04-03
# ロバスト量子制御のためのリスクセンシティブ最適化

Risk-sensitive Optimization for Robust Quantum Controls ( http://arxiv.org/abs/2104.01323v1 )

ライセンス: Link先を確認
Xiaozhen Ge and Re-Bing Wu(参考訳) 量子演算の高精度でロバストな制御は、誤り訂正量子計算の実現に不可欠である。 本稿では,リスク感受性損失関数のサンプリングに基づく確率的最適化により,高精度制御の堅牢性を著しく向上できることを示す。 この損失関数の確率的勾配-発光方向に従って、最適化は、低性能の不確かさサンプルを可変的にペナルティ化するように導かれる。 本稿では,リスク感度GRAPEと適応リスク感度GRAPEの2つのアルゴリズムを提案する。 その効果は数値シミュレーションによって実証され、高い忠実性を維持しながら高い制御性を達成できることが示されている。

Highly accurate and robust control of quantum operations is vital for the realization of error-correctible quantum computation. In this paper, we show that the robustness of high-precision controls can be remarkably enhanced through sampling-based stochastic optimization of a risk-sensitive loss function. Following the stochastic gradient-descent direction of this loss function, the optimization is guided to penalize poor-performance uncertainty samples in a tunable manner. We propose two algorithms, which are termed as the risk-sensitive GRAPE and the adaptive risk-sensitive GRAPE. Their effectiveness is demonstrated by numerical simulations, which is shown to be able to achieve high control robustness while maintaining high fidelity.
翻訳日:2023-04-05 10:55:33 公開日:2021-04-03
# データ駆動サブサンプリングを用いたグラディエントベース逆深度変調分類

Gradient-based Adversarial Deep Modulation Classification with Data-driven Subsampling ( http://arxiv.org/abs/2104.06375v1 )

ライセンス: Link先を確認
Jinho Yi and Aly El Gamal(参考訳) 自動変調分類は、インテリジェントなスペクトル効率の高い無線通信ネットワークのコアコンポーネントであり、深層学習技術は、特に多数の変調タイプを区別する場合に、従来のモデルベースの戦略よりも優れた性能をもたらすことが最近示されている。 しかし、このような深層学習技術は、微妙な入力摂動に依存する勾配に基づく敵攻撃にも脆弱であることが最近示されている。 そのような強力な攻撃の1つはカルリーニ・ワグナー攻撃(Carini-Wagner attack)として知られるもので、我々はこの研究で検討している。 さらに,最近導入されたディープラーニングに基づくアルゴリズムを用いて,最終分類器のトレーニング時間を最小の精度で短縮するデータ駆動サブサンプル設定についても検討する。 この設定では、攻撃者は損失勾配を計算するために、採用したサブサンプリング戦略について仮定する必要がある。 攻撃者と守備者の両方が利用可能な技術技術状況に基づいて、相手の戦略に関する知識に関する様々な仮定の下で最善の戦略を評価する。 興味深いことに、知識のある攻撃者の存在下では、防御者に対する計算コスト削減の機会を、パフォーマンスの損失を最小限に抑えることなく特定する。

Automatic modulation classification can be a core component for intelligent spectrally efficient wireless communication networks, and deep learning techniques have recently been shown to deliver superior performance to conventional model-based strategies, particularly when distinguishing between a large number of modulation types. However, such deep learning techniques have also been recently shown to be vulnerable to gradient-based adversarial attacks that rely on subtle input perturbations, which would be particularly feasible in a wireless setting via jamming. One such potent attack is the one known as the Carlini-Wagner attack, which we consider in this work. We further consider a data-driven subsampling setting, where several recently introduced deep-learning-based algorithms are employed to select a subset of samples that lead to reducing the final classifier's training time with minimal loss in accuracy. In this setting, the attacker has to make an assumption about the employed subsampling strategy, in order to calculate the loss gradient. Based on state of the art techniques available to both the attacker and defender, we evaluate best strategies under various assumptions on the knowledge of the other party's strategy. Interestingly, in presence of knowledgeable attackers, we identify computational cost reduction opportunities for the defender with no or minimal loss in performance.
翻訳日:2023-04-05 10:47:54 公開日:2021-04-03
# 無線エッジ学習のための知識蒸留

Knowledge Distillation For Wireless Edge Learning ( http://arxiv.org/abs/2104.06374v1 )

ライセンス: Link先を確認
Ahmed P. Mohamed, Abu Shafin Mohammad Mahdee Jameel, Aly El Gamal(参考訳) 本稿では,最近収集されたデータセットを用いて,DARPA Spectrum Collaboration Challenge (SC2) の協調的スペクトル集束無線環境におけるフレームエラーの予測フレームワークを提案する。 エッジノードと中央クラウド間で共有される分散エッジ学習を採用しています。 この近くから実践的なデータセットを使うことで、広く使われているフェデレーション学習アプローチ、特にプライバシ保護のアプローチは、幅広い設定のためのローカルトレーニングよりも悪いことが分かりました。 そこで我々は,クラウドへのローカルデータの転送を回避してプライバシを維持するために,合成的マイノリティオーバーサンプリング技術を利用し,高クラウドコンピューティングとストレージ機能の恩恵を受ける目的で知識蒸留を利用する。 提案フレームワークは,局地的および連合的なトレーニングアプローチよりも全体的な性能向上を実現し,破滅的な障害に対して頑健であり,フレームエラー率の高いチャネル条件にも耐えうる。

In this paper, we propose a framework for predicting frame errors in the collaborative spectrally congested wireless environments of the DARPA Spectrum Collaboration Challenge (SC2) via a recently collected dataset. We employ distributed deep edge learning that is shared among edge nodes and a central cloud. Using this close-to-practice dataset, we find that widely used federated learning approaches, specially those that are privacy preserving, are worse than local training for a wide range of settings. We hence utilize the synthetic minority oversampling technique to maintain privacy via avoiding the transfer of local data to the cloud, and utilize knowledge distillation with an aim to benefit from high cloud computing and storage capabilities. The proposed framework achieves overall better performance than both local and federated training approaches, while being robust against catastrophic failures as well as challenging channel conditions that result in high frame error rates.
翻訳日:2023-04-05 10:47:33 公開日:2021-04-03
# SetConv: 不均衡データから学ぶための新しいアプローチ

SetConv: A New Approach for Learning from Imbalanced Data ( http://arxiv.org/abs/2104.06313v1 )

ライセンス: Link先を確認
Yang Gao, Yi-Fan Li, Yu Lin, Charu Aggarwal, Latifur Khan(参考訳) 感情分類などの現実世界の多くの分類問題に対して、既存の機械学習手法は、Im Balance Ratio (IR) が高い場合、多数派に偏っている。 この問題に対処するために,各クラスの単一代表を抽出する集合畳み込み(SetConv)演算とエピソディックトレーニング戦略を提案する。 提案アルゴリズムは入力順序にかかわらず置換不変であることが証明され,複数の大規模ベンチマークテキストデータセットを用いた実験により,他のSOTA手法と比較して,提案手法の優位性を示した。

For many real-world classification problems, e.g., sentiment classification, most existing machine learning methods are biased towards the majority class when the Imbalance Ratio (IR) is high. To address this problem, we propose a set convolution (SetConv) operation and an episodic training strategy to extract a single representative for each class, so that classifiers can later be trained on a balanced class distribution. We prove that our proposed algorithm is permutation-invariant despite the order of inputs, and experiments on multiple large-scale benchmark text datasets show the superiority of our proposed framework when compared to other SOTA methods.
翻訳日:2023-04-05 10:47:18 公開日:2021-04-03
# オートエンコーダ

Autoencoders ( http://arxiv.org/abs/2003.05991v2 )

ライセンス: Link先を確認
Dor Bank, Noam Koenigstein, Raja Giryes(参考訳) オートエンコーダ(autoencoder)は、主に入力を圧縮された意味のある表現にエンコードし、再構成された入力が元の入力と可能な限り類似するように復号するように設計されたニューラルネットワークの一種である。 この章は、現在主に使われている様々な種類のオートエンコーダを調査している。 また、オートエンコーダの様々なアプリケーションやユースケースも記述している。

An autoencoder is a specific type of a neural network, which is mainly designed to encode the input into a compressed and meaningful representation, and then decode it back such that the reconstructed input is similar as possible to the original one. This chapter surveys the different types of autoencoders that are mainly used today. It also describes various applications and use-cases of autoencoders.
翻訳日:2022-12-24 13:18:42 公開日:2021-04-03
# PTP: グラフニューラルネットワークと多様性サンプリングによる並列追跡と予測

PTP: Parallelized Tracking and Prediction with Graph Neural Networks and Diversity Sampling ( http://arxiv.org/abs/2003.07847v2 )

ライセンス: Link先を確認
Xinshuo Weng and Ye Yuan and Kris Kitani(参考訳) マルチオブジェクトトラッキング(mot)と軌道予測は、マルチエージェントインタラクションの正確なモデリングを必要とする現代の3次元知覚システムにおいて2つの重要な要素である。 エージェントインタラクションの共有機能表現を学ぶために、両方のタスクを1つのフレームワークで統一することが有益であると仮定する。 さらに,追跡から予測へエラーを伝達する追跡と予測を逐次実行する代わりに,問題を緩和するための並列化フレームワークを提案する。 また、並列トラック予測フレームワークには、2つの新しい計算ユニットが組み込まれている。 まず,グラフニューラルネットワーク(gnns)を導入することで,エージェントが相互に相互作用する方法を捉えた特徴インタラクション手法を提案する。 GNNはMOTアソシエーションの差別的特徴学習を改善し、軌道予測のための社会的に認識されたコンテキストを提供する。 第2に、予測された軌道の品質と多様性を改善するために、ダイバーシティサンプリング関数を使用する。 学習されたサンプリング関数は、生成軌跡分布から様々な結果を効率的に抽出し、重複軌跡サンプルの生成の問題を回避するために訓練される。 我々は、KITTIとnuScenesのデータセットを用いて、社会的に認識された特徴学習と多様性サンプリングの手法が、3D MOTにおける新しい最先端性能と軌道予測を実現することを示す。 プロジェクトWebサイトは以下の通り。

Multi-object tracking (MOT) and trajectory prediction are two critical components in modern 3D perception systems that require accurate modeling of multi-agent interaction. We hypothesize that it is beneficial to unify both tasks under one framework in order to learn a shared feature representation of agent interaction. Furthermore, instead of performing tracking and prediction sequentially which can propagate errors from tracking to prediction, we propose a parallelized framework to mitigate the issue. Also, our parallel track-forecast framework incorporates two additional novel computational units. First, we use a feature interaction technique by introducing Graph Neural Networks (GNNs) to capture the way in which agents interact with one another. The GNN is able to improve discriminative feature learning for MOT association and provide socially-aware contexts for trajectory prediction. Second, we use a diversity sampling function to improve the quality and diversity of our forecasted trajectories. The learned sampling function is trained to efficiently extract a variety of outcomes from a generative trajectory distribution and helps avoid the problem of generating duplicate trajectory samples. We evaluate on KITTI and nuScenes datasets showing that our method with socially-aware feature learning and diversity sampling achieves new state-of-the-art performance on 3D MOT and trajectory prediction. Project website is: https://www.xinshuoweng.com/projects/PTP
翻訳日:2022-12-22 21:02:38 公開日:2021-04-03
# aredsum:適応冗長性-抽出文書要約のための反復文ランキング

AREDSUM: Adaptive Redundancy-Aware Iterative Sentence Ranking for Extractive Document Summarization ( http://arxiv.org/abs/2004.06176v2 )

ライセンス: Link先を確認
Keping Bi, Rahul Jha, W. Bruce Croft, Asli Celikyilmaz(参考訳) 冗長性対応抽出要約システムは、要約に含まれる文の冗長性を、そのサリエンス情報と併用するか、追加の文採点ステップとして別々にスコアする。 従来の研究は、ニューラルシーケンス生成モデルを用いた共同採点と文の選択の有効性を示している。 しかし、より優れた符号化技術やより良い冗長性削減アプローチによって得られる場合、十分に理解されていない。 同様に、生成した要約に対するサリエンスと多様性成分の寄与はよく研究されていない。 要約のための最先端の符号化法を基礎として,文選択時にサルデンスとノベルティを共同で考慮した aredsum-seq と,まずサルナンスを得点し,その後サルナンスと冗長性のバランスをとる 2段階の aredsum-ctx という2つの適応学習モデルを提案する。 cnn/dailymailとnyt50データセットでの実証結果は、aredsum-ctxがaredsum-seqや最先端の抽出要約ベースラインよりも大幅に優れたパフォーマンスを達成していることを示している。

Redundancy-aware extractive summarization systems score the redundancy of the sentences to be included in a summary either jointly with their salience information or separately as an additional sentence scoring step. Previous work shows the efficacy of jointly scoring and selecting sentences with neural sequence generation models. It is, however, not well-understood if the gain is due to better encoding techniques or better redundancy reduction approaches. Similarly, the contribution of salience versus diversity components on the created summary is not studied well. Building on the state-of-the-art encoding methods for summarization, we present two adaptive learning models: AREDSUM-SEQ that jointly considers salience and novelty during sentence selection; and a two-step AREDSUM-CTX that scores salience first, then learns to balance salience and redundancy, enabling the measurement of the impact of each aspect. Empirical results on CNN/DailyMail and NYT50 datasets show that by modeling diversity explicitly in a separate step, AREDSUM-CTX achieves significantly better performance than AREDSUM-SEQ as well as state-of-the-art extractive summarization baselines.
翻訳日:2022-12-14 00:03:42 公開日:2021-04-03
# 画像記述からの意味情報を用いた視覚的質問応答

Visual Question Answering Using Semantic Information from Image Descriptions ( http://arxiv.org/abs/2004.10966v2 )

ライセンス: Link先を確認
Tasmia Tasrin, Md Sultan Al Nahian and Brent Harrison(参考訳) 本研究では,視覚質問応答(vqa)タスクで質問された質問に対して,画像の領域から抽出した,領域ベースの画像特徴や自然言語質問,意味的知識を活用した注意機構を用いたディープニューラルアーキテクチャを提案する。 領域ベースの特徴と領域ベースの画像に関するテキスト情報を組み合わせることで、より正確に質問に応答し、より少ないトレーニングデータでそれを行うモデルが強化される。 本稿では,VQAタスクに対して提案したアーキテクチャを高いベースラインに対して評価し,本手法が優れた結果をもたらすことを示す。

In this work, we propose a deep neural architecture that uses an attention mechanism which utilizes region based image features, the natural language question asked, and semantic knowledge extracted from the regions of an image to produce open-ended answers for questions asked in a visual question answering (VQA) task. The combination of both region based features and region based textual information about the image bolsters a model to more accurately respond to questions and potentially do so with less required training data. We evaluate our proposed architecture on a VQA task against a strong baseline and show that our method achieves excellent results on this task.
翻訳日:2022-12-10 08:44:08 公開日:2021-04-03
# ssimに基づくctuレベルジョイント最適ビット割り当てとレート歪み最適化

SSIM-Based CTU-Level Joint Optimal Bit Allocation and Rate Distortion Optimization ( http://arxiv.org/abs/2004.13369v2 )

ライセンス: Link先を確認
Yang Li and Xuanqin Mou(参考訳) 構造的類似性(SSIM)ベースの歪み$D_\text{SSIM}$は、従来の平均2乗誤差$D_\text{MSE}$よりも人間の知覚に一貫性がある。 ビデオ品質を改善するために、最適なビット割り当て(OBA)とレート歪み最適化(RDO)の研究は、歪み測定として$D_\text{SSIM}$を使用した。 しかし、その多くがSSIMをベースとしたOBAとRDOの最適化に失敗したため、最適化されていないR-$D_\text{SSIM}$パフォーマンスが生じた。 この問題は、OBAとRDOの両方で一様に使用できる正確なR-$D_\text{SSIM}$モデルがないためである。 この問題を解決するために、まずD_\text{SSIM}$-$D_\text{MSE}$モデルを提案する。 このモデルに基づいて、複雑なR-$D_\text{SSIM}$コストを、新しいSSIM関連ラグランジュ乗算器でより単純なR-$D_\text{MSE}$コストとして計算することができる。 これにより、SSIMベースのRDOの計算負担を軽減するだけでなく、R-$D_\text{SSIM}$モデルがOBAやRDOで一様に使用できる。 さらに、新しいSSIM関連ラグランジュ乗算器では、R-$D_\text{SSIM}$-$\lambda_\text{SSIM}$(R-$D_\text{SSIM}$の負微分)の結合関係を構築することができ、R-$D_\text{SSIM}$モデルのパラメータを正確に計算することができる。 正確で統一されたR-$D_\text{SSIM}$モデルにより、SSIMベースのOBAとSSIMベースのRDOは、SOSRと呼ばれる我々のスキームにおいて統合される。 HEVCの参照エンコーダHM16.20と比較して、SOSRは全イントラ、階層的、非階層的な低遅延B構成において同じSSIMの下で4%、10%、および14%のビットレートを節約する。

Structural similarity (SSIM)-based distortion $D_\text{SSIM}$ is more consistent with human perception than the traditional mean squared error $D_\text{MSE}$. To achieve better video quality, many studies on optimal bit allocation (OBA) and rate-distortion optimization (RDO) used $D_\text{SSIM}$ as the distortion metric. However, many of them failed to optimize OBA and RDO jointly based on SSIM, thus causing a non-optimal R-$D_\text{SSIM}$ performance. This problem is due to the lack of an accurate R-$D_\text{SSIM}$ model that can be used uniformly in both OBA and RDO. To solve this problem, we propose a $D_\text{SSIM}$-$D_\text{MSE}$ model first. Based on this model, the complex R-$D_\text{SSIM}$ cost in RDO can be calculated as simpler R-$D_\text{MSE}$ cost with a new SSIM-related Lagrange multiplier. This not only reduces the computation burden of SSIM-based RDO, but also enables the R-$D_\text{SSIM}$ model to be uniformly used in OBA and RDO. Moreover, with the new SSIM-related Lagrange multiplier in hand, the joint relationship of R-$D_\text{SSIM}$-$\lambda_\text{SSIM}$ (the negative derivative of R-$D_\text{SSIM}$) can be built, based on which the R-$D_\text{SSIM}$ model parameters can be calculated accurately. With accurate and unified R-$D_\text{SSIM}$ model, SSIM-based OBA and SSIM-based RDO are unified together in our scheme, called SOSR. Compared with the HEVC reference encoder HM16.20, SOSR saves 4%, 10%, and 14% bitrate under the same SSIM in all-intra, hierarchical and non-hierarchical low-delay-B configurations, which is superior to other state-of-the-art schemes.
翻訳日:2022-12-08 23:37:28 公開日:2021-04-03
# bs-net:大きな胸部x線データからcovid-19肺炎の重症度を学ぶ

BS-Net: learning COVID-19 pneumonia severity on a large Chest X-Ray dataset ( http://arxiv.org/abs/2006.04603v3 )

ライセンス: Link先を確認
Alberto Signoroni, Mattia Savardi, Sergio Benini, Nicola Adami, Riccardo Leonardi, Paolo Gibellini, Filippo Vaccher, Marco Ravanelli, Andrea Borghesi, Roberto Maroldi, Davide Farina (University of Brescia)(参考訳) 本研究では, 胸部x線画像(cxr)を用いて, 肺障害の程度を示す多地域スコアを予測するための, エンド・ツー・エンドのディープラーニングアーキテクチャを設計した。 このような半量的スコアリングシステム(brixia~score)は、イタリアで最もパンデミックのピークを経験した病院の1つで、そのような患者の連続的なモニタリングに応用され、有意な予後を示す。 このような難解な視覚的課題を解決するために,我々は,異なる課題(セグメンテーション,空間的アライメント,スコア推定)を扱うように構成された弱い教師付き学習戦略を採用する。 特に,同病院で収集された約5,000個のCXR注釈画像の臨床的データセットを利用する。 我々のBS-Netは、全ての処理段階で自己注意行動と高い精度を示す。 本手法は,レータ間合意テストとゴールド標準比較により,評価精度と整合性において1人のアノテータよりも優れており,コンピュータ支援モニタリングの文脈において,このツールを使用することが可能であることを示す。 また、高分解能(超ピクセルレベル)な説明可能性マップも作成され、肺領域のネットワーク活動の理解を視覚的に支援する。 また、文献で提案される他のスコアについても検討し、最近提案された非特異なアプローチと比較する。 最終的に、私たちは、Bexia〜scoreアノテーションも提供し、BS-Netの他の臨床環境におけるポータビリティを強調した、優れた直接的な一般化と微調整機能を観察します。 CXRデータセットとソースコードとトレーニングされたモデルが研究目的で公開されている。

In this work we design an end-to-end deep learning architecture for predicting, on Chest X-rays images (CXR), a multi-regional score conveying the degree of lung compromise in COVID-19 patients. Such semi-quantitative scoring system, namely Brixia~score, is applied in serial monitoring of such patients, showing significant prognostic value, in one of the hospitals that experienced one of the highest pandemic peaks in Italy. To solve such a challenging visual task, we adopt a weakly supervised learning strategy structured to handle different tasks (segmentation, spatial alignment, and score estimation) trained with a "from-the-part-to-the-whole" procedure involving different datasets. In particular, we exploit a clinical dataset of almost 5,000 CXR annotated images collected in the same hospital. Our BS-Net demonstrates self-attentive behavior and a high degree of accuracy in all processing stages. Through inter-rater agreement tests and a gold standard comparison, we show that our solution outperforms single human annotators in rating accuracy and consistency, thus supporting the possibility of using this tool in contexts of computer-assisted monitoring. Highly resolved (super-pixel level) explainability maps are also generated, with an original technique, to visually help the understanding of the network activity on the lung areas. We also consider other scores proposed in literature and provide a comparison with a recently proposed non-specific approach. We eventually test the performance robustness of our model on an assorted public COVID-19 dataset, for which we also provide Brixia~score annotations, observing good direct generalization and fine-tuning capabilities that highlight the portability of BS-Net in other clinical settings. The CXR dataset along with the source code and the trained model are publicly released for research purposes.
翻訳日:2022-11-24 01:45:29 公開日:2021-04-03
# グラフニューラルネットワークを用いた共同物体検出と多物体追跡

Joint Object Detection and Multi-Object Tracking with Graph Neural Networks ( http://arxiv.org/abs/2006.13164v3 )

ライセンス: Link先を確認
Yongxin Wang and Kris Kitani and Xinshuo Weng(参考訳) オブジェクト検出とデータアソシエーションは、マルチオブジェクトトラッキング(MOT)システムにおいて重要なコンポーネントである。 2つのコンポーネントが互いに依存しているにもかかわらず、以前の作業はしばしば、別々の目的でトレーニングされた別個の検出とデータ関連モジュールを設計する。 結果として、勾配をバックプロパゲートしてMOTシステム全体を最適化することはできず、それによって準最適性能が得られる。 この問題に対処するため、最近の研究は共同MOTフレームワークの下で検出モジュールとデータアソシエーションモジュールを同時に最適化し、両方のモジュールのパフォーマンスを改善した。 本稿では,グラフニューラルネットワーク(gnns)に基づく統合motアプローチの新たな例を提案する。 鍵となる考え方は、GNNは空間領域と時間領域の両方における可変サイズのオブジェクト間の関係をモデル化できるということだ。 我々はMOT15/16/17/20データセットの広範な実験を通じて、GNNベースの共同MOTアプローチの有効性を実証し、検出タスクとMOTタスクの両方において最先端のパフォーマンスを示す。 私たちのコードは、https://github.com/yongxinw/GSDTで利用可能です。

Object detection and data association are critical components in multi-object tracking (MOT) systems. Despite the fact that the two components are dependent on each other, prior works often design detection and data association modules separately which are trained with separate objectives. As a result, one cannot back-propagate the gradients and optimize the entire MOT system, which leads to sub-optimal performance. To address this issue, recent works simultaneously optimize detection and data association modules under a joint MOT framework, which has shown improved performance in both modules. In this work, we propose a new instance of joint MOT approach based on Graph Neural Networks (GNNs). The key idea is that GNNs can model relations between variable-sized objects in both the spatial and temporal domains, which is essential for learning discriminative features for detection and data association. Through extensive experiments on the MOT15/16/17/20 datasets, we demonstrate the effectiveness of our GNN-based joint MOT approach and show state-of-the-art performance for both detection and MOT tasks. Our code is available at: https://github.com/yongxinw/GSDT
翻訳日:2022-11-17 22:53:28 公開日:2021-04-03
# INT: 定理証明の一般化を評価するための不等式ベンチマーク

INT: An Inequality Benchmark for Evaluating Generalization in Theorem Proving ( http://arxiv.org/abs/2007.02924v2 )

ライセンス: Link先を確認
Yuhuai Wu, Albert Qiaochu Jiang, Jimmy Ba, Roger Grosse(参考訳) 学習支援定理証明において、最も重要な課題の1つは、訓練時に見られるものとは異なり、定理に一般化することである。 本稿では,エージェントの一般化能力をテストするために特別に設計されたINequality Theorem Proving benchmarkであるINTを紹介する。 INT は定理と証明を生成する手順に基づいており、この手順のノブは6つの異なる種類の一般化を測ることができる。 さらに、学習支援定理証明の以前のベンチマークとは異なり、INTは高速なシミュレーションを備えた軽量でユーザフレンドリな定理証明環境を提供する。 学習ベースラインを導入し、6次元の一般化をベンチマークで評価する。 次に,モンテカルロ木探索(MCTS)で拡張したエージェントを試験時に評価し,MCTSが新たな定理を証明できることを示す。

In learning-assisted theorem proving, one of the most critical challenges is to generalize to theorems unlike those seen at training time. In this paper, we introduce INT, an INequality Theorem proving benchmark, specifically designed to test agents' generalization ability. INT is based on a procedure for generating theorems and proofs; this procedure's knobs allow us to measure 6 different types of generalization, each reflecting a distinct challenge characteristic to automated theorem proving. In addition, unlike prior benchmarks for learning-assisted theorem proving, INT provides a lightweight and user-friendly theorem proving environment with fast simulations, conducive to performing learning-based and search-based research. We introduce learning-based baselines and evaluate them across 6 dimensions of generalization with the benchmark. We then evaluate the same agents augmented with Monte Carlo Tree Search (MCTS) at test time, and show that MCTS can help to prove new theorems.
翻訳日:2022-11-13 01:06:59 公開日:2021-04-03
# M-Evolve: グラフ分類のための構造マッピングに基づくデータ拡張

M-Evolve: Structural-Mapping-Based Data Augmentation for Graph Classification ( http://arxiv.org/abs/2007.05700v4 )

ライセンス: Link先を確認
Jiajun Zhou, Jie Shen, Shanqing Yu, Guanrong Chen, Qi Xuan(参考訳) グラフ分類は、グラフのカテゴリラベルを識別することを目的としており、薬物分類、毒性検出、タンパク質分析などにおいて重要な役割を果たす。 しかし、ベンチマークデータセットにおけるスケールの制限により、グラフ分類モデルは過度に適合し、過度に一般化される。 これを改善するために,グラフ上のデータ拡張(グラフ拡張)を導入し,グラフ構造のヒューリスティック変換による小規模ベンチマークデータセットに対するより弱いラベル付きデータを生成するために,ランダムマッピング,頂点相似マッピング,モチーフ相似マッピング,モチーフ相似マッピングという4つの方法を提案する。 さらに,事前学習されたグラフ分類器を最適化するために,グラフ拡張,データフィルタリング,モデルリトレーニングを組み合わせた汎用モデル進化フレームワークm-evolveを提案する。 6つのベンチマークデータセットの実験では、既存のグラフ分類モデルにより、小規模ベンチマークデータセットのトレーニングにおける過度な適合と過度な一般化が軽減され、グラフ分類タスクにおける平均3~13%の精度向上が達成された。

Graph classification, which aims to identify the category labels of graphs, plays a significant role in drug classification, toxicity detection, protein analysis etc. However, the limitation of scale in the benchmark datasets makes it easy for graph classification models to fall into over-fitting and undergeneralization. To improve this, we introduce data augmentation on graphs (i.e. graph augmentation) and present four methods:random mapping, vertex-similarity mapping, motif-random mapping and motif-similarity mapping, to generate more weakly labeled data for small-scale benchmark datasets via heuristic transformation of graph structures. Furthermore, we propose a generic model evolution framework, named M-Evolve, which combines graph augmentation, data filtration and model retraining to optimize pre-trained graph classifiers. Experiments on six benchmark datasets demonstrate that the proposed framework helps existing graph classification models alleviate over-fitting and undergeneralization in the training on small-scale benchmark datasets, which successfully yields an average improvement of 3 - 13% accuracy on graph classification tasks.
翻訳日:2022-11-11 13:15:40 公開日:2021-04-03
# GANにおける潜在意味論のクローズドフォーム因子化

Closed-Form Factorization of Latent Semantics in GANs ( http://arxiv.org/abs/2007.06600v4 )

ライセンス: Link先を確認
Yujun Shen, Bolei Zhou(参考訳) 画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。 画像編集の潜在次元を特定するために、従来の手法は一般的に合成されたサンプルの集合に注釈を付け、潜在空間の線形分類器を訓練する。 しかし、それらはターゲット属性と対応する手動アノテーションを明確に定義し、実際にアプリケーションを制限する必要がある。 本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。 特に,GANの生成機構を詳しく検討し,事前学習した重みを直接分解することにより,潜在意味発見のためのクローズドフォーム分解アルゴリズムを提案する。 ライトファストな実装により、我々のアプローチは、最先端の教師付き手法と互換性のある意味論的意味のある次元を見つけるだけでなく、幅広いデータセットで訓練された複数のGANモデルにまたがる、はるかに汎用的な概念を導き出すことができる。

A rich set of interpretable dimensions has been shown to emerge in the latent space of the Generative Adversarial Networks (GANs) trained for synthesizing images. In order to identify such latent dimensions for image editing, previous methods typically annotate a collection of synthesized samples and train linear classifiers in the latent space. However, they require a clear definition of the target attribute as well as the corresponding manual annotations, limiting their applications in practice. In this work, we examine the internal representation learned by GANs to reveal the underlying variation factors in an unsupervised manner. In particular, we take a closer look into the generation mechanism of GANs and further propose a closed-form factorization algorithm for latent semantic discovery by directly decomposing the pre-trained weights. With a lightning-fast implementation, our approach is capable of not only finding semantically meaningful dimensions comparably to the state-of-the-art supervised methods, but also resulting in far more versatile concepts across multiple GAN models trained on a wide range of datasets.
翻訳日:2022-11-11 00:15:32 公開日:2021-04-03
# 合成画像から生成した階層的特徴

Generative Hierarchical Features from Synthesizing Images ( http://arxiv.org/abs/2007.10379v2 )

ライセンス: Link先を確認
Yinghao Xu, Yujun Shen, Jiapeng Zhu, Ceyuan Yang, Bolei Zhou(参考訳) generative adversarial networks (gans) は最近、観測データの基盤となる分布を学習することで画像合成を進歩させた。 しかし、画像生成の課題から学んだ特徴が、他の視覚タスクにどのように当てはまるかは、いまだに調査されていない。 本研究では,画像合成の学習が,広範囲のアプリケーションにまたがって一般化可能な,驚くべき階層的な視覚的特徴をもたらすことを示す。 具体的には、事前学習したStyleGANジェネレータを学習損失関数とみなし、その階層表現を利用して新しい階層エンコーダを訓練する。 生成的階層的特徴(GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、画像編集、画像調和、画像分類、顔認証、ランドマーク検出、レイアウト予測など、生成的タスクと識別的タスクの両方に強い伝達性を有する。 GH-Featの誘引性能は, 定性的, 定量的に評価された。

Generative Adversarial Networks (GANs) have recently advanced image synthesis by learning the underlying distribution of the observed data. However, how the features learned from solving the task of image generation are applicable to other vision tasks remains seldom explored. In this work, we show that learning to synthesize images can bring remarkable hierarchical visual features that are generalizable across a wide range of applications. Specifically, we consider the pre-trained StyleGAN generator as a learned loss function and utilize its layer-wise representation to train a novel hierarchical encoder. The visual feature produced by our encoder, termed as Generative Hierarchical Feature (GH-Feat), has strong transferability to both generative and discriminative tasks, including image editing, image harmonization, image classification, face verification, landmark detection, and layout prediction. Extensive qualitative and quantitative experimental results demonstrate the appealing performance of GH-Feat.
翻訳日:2022-11-08 14:15:58 公開日:2021-04-03
# 決定論的・分解可能なブール回路におけるSHAPスコアベース説明のトラクタビリティ

The Tractability of SHAP-Score-Based Explanations over Deterministic and Decomposable Boolean Circuits ( http://arxiv.org/abs/2007.14045v3 )

ライセンス: Link先を確認
Marcelo Arenas, Pablo Barcel\'o Leopoldo Bertossi, Mika\"el Monet(参考訳) Shapley値に基づくスコアは、機械学習モデルよりも分類結果の説明に広く使用されている。 影響のあるshap-scoreは、shapley値のバージョンで、各機能にスコアを割り当てることで、特定のエンティティにおける学習モデルの結果を説明するのに役立つ。 一般に、Shapley値は計算的に難解な問題であるが、近年、SHAPスコアは決定木のクラスよりも多項式時間で計算できると主張している。 本稿では,booleanモデルよりも強い結果の証明を提供する。shap-scoreは決定論的かつ分解可能なboolean回路よりも多項式時間で計算できる。 このような回路は、抽出可能なブール回路としても知られ、二分決定木、順序付き二分決定図(OBDD)、自由二分決定図(FBDD)を含む幅広いブール回路と二分決定図を一般化する。 また, SHAPスコアの概念の計算限界は, 穏やかな条件下では, ブールモデルのクラス上での計算が, そのクラスのモデルカウント問題と同じくらい多項式的に難しいことを観察することによって確立する。 これは、決定論と分解可能性の両方が、どちらか一方を取り除くことによって、SHAPスコアの難解性(つまり#P-hard)を計算する問題を引き起こすと考える回路にとって不可欠な性質であることを意味する。

Scores based on Shapley values are widely used for providing explanations to classification results over machine learning models. A prime example of this is the influential SHAP-score, a version of the Shapley value that can help explain the result of a learned model on a specific entity by assigning a score to every feature. While in general computing Shapley values is a computationally intractable problem, it has recently been claimed that the SHAP-score can be computed in polynomial time over the class of decision trees. In this paper, we provide a proof of a stronger result over Boolean models: the SHAP-score can be computed in polynomial time over deterministic and decomposable Boolean circuits. Such circuits, also known as tractable Boolean circuits, generalize a wide range of Boolean circuits and binary decision diagrams classes, including binary decision trees, Ordered Binary Decision Diagrams (OBDDs) and Free Binary Decision Diagrams (FBDDs). We also establish the computational limits of the notion of SHAP-score by observing that, under a mild condition, computing it over a class of Boolean models is always polynomially as hard as the model counting problem for that class. This implies that both determinism and decomposability are essential properties for the circuits that we consider, as removing one or the other renders the problem of computing the SHAP-score intractable (namely, #P-hard).
翻訳日:2022-11-06 02:37:06 公開日:2021-04-03
# DyStaB:動的静的ブートストラップによる教師なしオブジェクトセグメンテーション

DyStaB: Unsupervised Object Segmentation via Dynamic-Static Bootstrapping ( http://arxiv.org/abs/2008.07012v2 )

ライセンス: Link先を確認
Yanchao Yang, Brian Lai and Stefano Soatto(参考訳) そこで本研究では,ある時点で移動をコヒーレントな全体と見なすライブシーンの画像の一部を検出し,切り離すための教師なし手法について述べる。 提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。 次に、セグメントを使用して、静的な画像の検出に使用できるオブジェクトモデルを学ぶ。 静的モデルと動的モデルは、ブートストラップ戦略で共同でトレーニングされたディープニューラルネットワークによって表現される。 トレーニングプロセスは動作を必要とするが、結果として得られるオブジェクトセグメンテーションネットワークは、推論時に静的画像またはビデオで使用できる。 ビデオのボリュームが大きくなるにつれて、ますます多くのオブジェクトが動き、検出がプリミティブになり、新しいオブジェクトのレギュレータとして機能し、私たちのメソッドを教師なし連続学習に変換してオブジェクトをセグメント化する。 私たちのモデルは、ビデオオブジェクトのセグメンテーションとサルエントオブジェクト検出の両方の技術の状況と比較されます。 テストされた6つのベンチマークデータセットでは、手作業によるアノテーションは必要とせずとも、ピクセルレベルの監視を使用しても好適な比較を行いました。

We describe an unsupervised method to detect and segment portions of images of live scenes that, at some point in time, are seen moving as a coherent whole, which we refer to as objects. Our method first partitions the motion field by minimizing the mutual information between segments. Then, it uses the segments to learn object models that can be used for detection in a static image. Static and dynamic models are represented by deep neural networks trained jointly in a bootstrapping strategy, which enables extrapolation to previously unseen objects. While the training process requires motion, the resulting object segmentation network can be used on either static images or videos at inference time. As the volume of seen videos grows, more and more objects are seen moving, priming their detection, which then serves as a regularizer for new objects, turning our method into unsupervised continual learning to segment objects. Our models are compared to the state of the art in both video object segmentation and salient object detection. In the six benchmark datasets tested, our models compare favorably even to those using pixel-level supervision, despite requiring no manual annotation.
翻訳日:2022-10-28 11:49:48 公開日:2021-04-03
# Aperture Disparity と Warping Confidence Map による光界ビューの合成

Light Field View Synthesis via Aperture Disparity and Warping Confidence Map ( http://arxiv.org/abs/2009.02978v2 )

ライセンス: Link先を確認
Nan Meng, Kai Li, Jianzhuang Liu, Edmund Y. Lam(参考訳) 本稿では,スパース画像の集合から任意のカメラ位置からビューを合成するための学習的アプローチを提案する。 この新たなビュー合成の鍵となる課題は、異なる入力画像からのビューが光路の障害物のために一貫性がない場合の再構成プロセスから生じる。 畳み込みニューラルネットワークの設計において,エピポーラ特性とオクルージョンを共同でモデル化することで,この問題を克服した。 まず、視差を近似し、2つのビュー間のピクセルワイドシフトを測定する開口不均等写像を定義し、計算する。 これは自由空間のレンダリングに関係し、オブジェクトの境界付近で失敗する可能性があるが、これらの挑戦領域における画素の排除に対処するワープ信頼マップをさらに発展させる。 提案手法は,様々な実空間および合成光場シーンで評価され,最先端技術よりも優れた性能を示す。

This paper presents a learning-based approach to synthesize the view from an arbitrary camera position given a sparse set of images. A key challenge for this novel view synthesis arises from the reconstruction process, when the views from different input images may not be consistent due to obstruction in the light path. We overcome this by jointly modeling the epipolar property and occlusion in designing a convolutional neural network. We start by defining and computing the aperture disparity map, which approximates the parallax and measures the pixel-wise shift between two views. While this relates to free-space rendering and can fail near the object boundaries, we further develop a warping confidence map to address pixel occlusion in these challenging regions. The proposed method is evaluated on diverse real-world and synthetic light field scenes, and it shows better performance over several state-of-the-art techniques.
翻訳日:2022-10-21 03:06:28 公開日:2021-04-03
# あなたをどれだけ信用できるの? 深層ニューラルネットワークのためのシンプルで解釈可能な信頼定量化メトリクスに向けて

How Much Can We Really Trust You? Towards Simple, Interpretable Trust Quantification Metrics for Deep Neural Networks ( http://arxiv.org/abs/2009.05835v3 )

ライセンス: Link先を確認
Alexander Wong, Xiao Yu Wang, and Andrew Hryniowski(参考訳) 信頼できるディープニューラルネットワークを構築するための重要なステップは、信頼定量化である。 本研究では,一連の質問に回答する際の,ディープニューラルネットワークの信頼性を評価するための一連の指標を導入することにより,信頼度定量化のための簡易かつ解釈可能なメトリクスへの一歩を踏み出した。 我々は思考実験を行い、信頼と信頼に関する2つの重要な疑問を探求する。 1)自信を持って間違った回答を下す俳優には、どの程度の信頼があるのか。 そして 2)正しい回答をためらう俳優には、どの程度の信頼があるのか。 得られた知見に基づいて、正解シナリオと誤解シナリオの信頼行動に基づいて、個別回答の信頼性を定量化する質問応答信頼の概念と、個別回答シナリオに対する総合信頼の分布を特徴付ける信頼密度の概念を導入する。 さらに,信頼スペクトルの概念を導入して,質問に正しく,不正確に回答できる回答シナリオのスペクトルについて,信頼全体を表現する。 最後に、全体的な信頼性を要約したスカラー計量であるNetTrustScoreを紹介する。 一連の指標は、信頼と信頼の関係を研究する過去の社会心理学研究と一致している。 これらのメトリクスを活用することで、画像認識のための有名なディープニューラルネットワークアーキテクチャの信頼性を定量化し、信頼が崩壊する場所をより深く理解します。 提案されたメトリクスは必ずしも完璧ではありませんが、現実のミッションクリティカルなシナリオで運用を信頼できるディープラーニングソリューションの生成、デプロイ、認定において、実践者や規制当局の指導を支援するために、よりよいメトリクスに向かって会話を推し進めることが目標です。

A critical step to building trustworthy deep neural networks is trust quantification, where we ask the question: How much can we trust a deep neural network? In this study, we take a step towards simple, interpretable metrics for trust quantification by introducing a suite of metrics for assessing the overall trustworthiness of deep neural networks based on their behaviour when answering a set of questions. We conduct a thought experiment and explore two key questions about trust in relation to confidence: 1) How much trust do we have in actors who give wrong answers with great confidence? and 2) How much trust do we have in actors who give right answers hesitantly? Based on insights gained, we introduce the concept of question-answer trust to quantify trustworthiness of an individual answer based on confident behaviour under correct and incorrect answer scenarios, and the concept of trust density to characterize the distribution of overall trust for an individual answer scenario. We further introduce the concept of trust spectrum for representing overall trust with respect to the spectrum of possible answer scenarios across correctly and incorrectly answered questions. Finally, we introduce NetTrustScore, a scalar metric summarizing overall trustworthiness. The suite of metrics aligns with past social psychology studies that study the relationship between trust and confidence. Leveraging these metrics, we quantify the trustworthiness of several well-known deep neural network architectures for image recognition to get a deeper understanding of where trust breaks down. The proposed metrics are by no means perfect, but the hope is to push the conversation towards better metrics to help guide practitioners and regulators in producing, deploying, and certifying deep learning solutions that can be trusted to operate in real-world, mission-critical scenarios.
翻訳日:2022-10-19 07:41:07 公開日:2021-04-03
# bargainnet: 画像調和のための背景ガイド付きドメイン翻訳

BargainNet: Background-Guided Domain Translation for Image Harmonization ( http://arxiv.org/abs/2009.09169v2 )

ライセンス: Link先を確認
Wenyan Cong, Li Niu, Jianfu Zhang, Jing Liang, Liqing Zhang(参考訳) 画像合成は画像編集分野における基本的な操作である。 しかし、不調和な前景と背景は合成画像の品質を低下させる。 整合性を改善するために前景を調整した画像調和は、不可欠だが難しい課題である。 従来のディープラーニングベースの方法は、主に複合画像から実画像へのマッピングを直接学習することにフォーカスしているが、背景が果たす重要なガイダンスの役割を無視している。 本研究は,前景を背景と同じ領域に翻訳する必要があると仮定して,画像調和タスクを背景誘導ドメイン翻訳として定式化する。 そこで本研究では,新しいドメインコード抽出器と高度に調整されたトリプレットロスを備えた画像調和ネットワークを提案し,背景領域情報をキャプチャしてフォアグラウンド調和を誘導する。 既存の画像調和ベンチマークにおいて,提案手法の有効性を示す実験を行った。 コードはhttps://github.com/bcmi/bargainnetで入手できる。

Image composition is a fundamental operation in image editing field. However, unharmonious foreground and background downgrade the quality of composite image. Image harmonization, which adjusts the foreground to improve the consistency, is an essential yet challenging task. Previous deep learning based methods mainly focus on directly learning the mapping from composite image to real image, while ignoring the crucial guidance role that background plays. In this work, with the assumption that the foreground needs to be translated to the same domain as background, we formulate image harmonization task as background-guided domain translation. Therefore, we propose an image harmonization network with a novel domain code extractor and well-tailored triplet losses, which could capture the background domain information to guide the foreground harmonization. Extensive experiments on the existing image harmonization benchmark demonstrate the effectiveness of our proposed method. Code is available at https://github.com/bcmi/BargainNet.
翻訳日:2022-10-16 21:29:36 公開日:2021-04-03
# ディープニューラルネットワークの隠れユニット間のラベルに基づく多様性測定:正規化法

Label-Based Diversity Measure Among Hidden Units of Deep Neural Networks: A Regularization Method ( http://arxiv.org/abs/2009.09161v2 )

ライセンス: Link先を確認
Chenguang Zhang and Yuexian Hou and Dawei Song and Liangzhu Ge and Yaoshuai Yao(参考訳) 深い構造はディープネットワーク(DNN)の強力な表現性を保証するが、深刻なオーバーフィッティング問題を引き起こす。 DNNの一般化能力を向上させるため、隠れユニット間の多様性を改善するために多くの戦略が開発された。 しかしながら、これらの戦略の多くは、多様性測度の理論的な導出や、多様性から一般化能力への明確な関連がない経験的かつヒューリスティックである。 本稿では,情報理論の観点から,隠蔽層が一般化能力に与える影響を相互情報として形式化し,教師付き学習環境下での隠蔽単位の多様性を記述するための冗長性の定義を導入する。 我々は, 一般化能力と一般化能力との間には逆関係があることを証明し, 一般に一般化能力が向上する冗長性の減少を証明した。 実験の結果,冗長性を正規化器として用いたdnnは,過剰フィッティングを効果的に低減し,一般化誤差を低減できることがわかった。

Although the deep structure guarantees the powerful expressivity of deep networks (DNNs), it also triggers serious overfitting problem. To improve the generalization capacity of DNNs, many strategies were developed to improve the diversity among hidden units. However, most of these strategies are empirical and heuristic in absence of either a theoretical derivation of the diversity measure or a clear connection from the diversity to the generalization capacity. In this paper, from an information theoretic perspective, we introduce a new definition of redundancy to describe the diversity of hidden units under supervised learning settings by formalizing the effect of hidden layers on the generalization capacity as the mutual information. We prove an opposite relationship existing between the defined redundancy and the generalization capacity, i.e., the decrease of redundancy generally improving the generalization capacity. The experiments show that the DNNs using the redundancy as the regularizer can effectively reduce the overfitting and decrease the generalization error, which well supports above points.
翻訳日:2022-10-16 20:43:16 公開日:2021-04-03
# f‐divergence variation

f-Divergence Variational Inference ( http://arxiv.org/abs/2009.13093v4 )

ライセンス: Link先を確認
Neng Wan, Dapeng Li, and Naira Hovakimyan(参考訳) 本稿では、すべての$f$-divergencesに対して変分推論を一般化する$f$-divergence variational inference(f$-VI)を紹介する。 統計的一貫性を$f$-divergenceと共有するクラフトサロゲート$f$-divergenceの最小化から始まり、$f$-VIフレームワークは、Kullback-Leibler VI、R\'{e}nyi's $\alpha$-VI、$\chi$-VIなど、既存のVIメソッドを統一するだけでなく、$f$-divergenceファミリから任意の発散するVIの標準ツールキットを提供する。 一般の$f$-変数境界が導出され、限界確率(または証拠)のサンドイッチ推定を提供する。 再パラメータ化トリック、重要度重み付け、モンテカルロ近似を利用した確率的最適化スキームによる$f$-viの展開、よく知られた座標上昇変分推論(cavi)を一般化する平均場近似スキームも$f$-viとして提案されている。 例えば、変分オートエンコーダやベイズニューラルネットワークは、$f$-viの有効性と幅広い適用性を示すために提供されている。

This paper introduces the $f$-divergence variational inference ($f$-VI) that generalizes variational inference to all $f$-divergences. Initiated from minimizing a crafty surrogate $f$-divergence that shares the statistical consistency with the $f$-divergence, the $f$-VI framework not only unifies a number of existing VI methods, e.g. Kullback-Leibler VI, R\'{e}nyi's $\alpha$-VI, and $\chi$-VI, but offers a standardized toolkit for VI subject to arbitrary divergences from $f$-divergence family. A general $f$-variational bound is derived and provides a sandwich estimate of marginal likelihood (or evidence). The development of the $f$-VI unfolds with a stochastic optimization scheme that utilizes the reparameterization trick, importance weighting and Monte Carlo approximation; a mean-field approximation scheme that generalizes the well-known coordinate ascent variational inference (CAVI) is also proposed for $f$-VI. Empirical examples, including variational autoencoders and Bayesian neural networks, are provided to demonstrate the effectiveness and the wide applicability of $f$-VI.
翻訳日:2022-10-13 21:33:06 公開日:2021-04-03
# 経験リプレイを夢見るlucid - 現在のポリシーで過去の状態をリフレッシュする

Lucid Dreaming for Experience Replay: Refreshing Past States with the Current Policy ( http://arxiv.org/abs/2009.13736v3 )

ライセンス: Link先を確認
Yunshu Du, Garrett Warnell, Assefaw Gebremedhin, Peter Stone, Matthew E. Taylor(参考訳) experience replay (er)は、エージェントが過去の経験をリプレイバッファに保存し再利用することで、オフポリシー強化学習(rl)アルゴリズムのデータ効率を向上させる。 バッファから経験をサンプリングする方法をバイアスすることでerを強化するために多くのテクニックが提案されているが、これまでのところバッファ内の経験をリフレッシュするための戦略を検討していない。 本稿では、エージェントの現在のポリシーを活用することで、リプレイ体験をリフレッシュできる概念的に新しいフレームワークであるLucid Dreaming for Experience Replay(LiDER)を紹介する。 LiDERは3つのステップから構成される: まず、LiDERはエージェントを過去の状態に戻す。 次に、その状態から、liderはエージェントが現在のポリシーに従って一連のアクションを実行するようにします。 第3に、liderは、エージェントが以前経験したもの、すなわち記憶をリフレッシュするために、新しいエクスペリエンスを格納し再利用する。 LiDER は ER を使用する外部のマルチワーカー RL アルゴリズムに容易に組み込めるように設計されており,本研究では,アクター批判に基づくアルゴリズムに LiDER を適用するケーススタディを提案する。 結果、ライダーは6つのatari 2600ゲームでベースラインのパフォーマンスを一貫して向上させた。 当社のLiDERのオープンソース実装と,この作業におけるすべてのプロットを生成するデータについては,github.com/duyunshu/lucid-dreaming-for-exp-replayで公開しています。

Experience replay (ER) improves the data efficiency of off-policy reinforcement learning (RL) algorithms by allowing an agent to store and reuse its past experiences in a replay buffer. While many techniques have been proposed to enhance ER by biasing how experiences are sampled from the buffer, thus far they have not considered strategies for refreshing experiences inside the buffer. In this work, we introduce Lucid Dreaming for Experience Replay (LiDER), a conceptually new framework that allows replay experiences to be refreshed by leveraging the agent's current policy. LiDER consists of three steps: First, LiDER moves an agent back to a past state. Second, from that state, LiDER then lets the agent execute a sequence of actions by following its current policy -- as if the agent were "dreaming" about the past and can try out different behaviors to encounter new experiences in the dream. Third, LiDER stores and reuses the new experience if it turned out better than what the agent previously experienced, i.e., to refresh its memories. LiDER is designed to be easily incorporated into off-policy, multi-worker RL algorithms that use ER; we present in this work a case study of applying LiDER to an actor-critic based algorithm. Results show LiDER consistently improves performance over the baseline in six Atari 2600 games. Our open-source implementation of LiDER and the data used to generate all plots in this work are available at github.com/duyunshu/lucid-dreaming-for-exp-replay.
翻訳日:2022-10-13 04:58:26 公開日:2021-04-03
# 球状畳み込みニューラルネットワーク:SOにおける摂動の安定性(3)

Spherical Convolutional Neural Networks: Stability to Perturbations in SO(3) ( http://arxiv.org/abs/2010.05865v2 )

ライセンス: Link先を確認
Zhan Gao, Fernando Gama, Alejandro Ribeiro(参考訳) 球面畳み込みニューラルネットワーク(球面CNN)は,データ構造を利用して3次元データから非線形表現を学習し,形状解析,対象分類,計画において有望な性能を示した。 本稿では,球面cnnが球面信号に内在する回転構造に関連する性質について検討する。 我々は球面畳み込みの回転同分散に基づいて、球面cnnが一般構造摂動に対して安定であることを示す。 特に、任意の構造摂動を微分同相摂動としてモデル化し、これらの摂動の回転からの距離を測定する回転距離を定義する。 微分同相摂動によって誘導される球状CNNの出力変化は、回転距離の下での摂動サイズに比例して有界であることを示す。 この回転同分散と結合した安定性は、球面cnnが回転構造を活用し、回転に近い構造摂動下での性能を維持し、優れた一般化とより高速な学習をもたらす理論的な保証を与える。

Spherical convolutional neural networks (Spherical CNNs) learn nonlinear representations from 3D data by exploiting the data structure and have shown promising performance in shape analysis, object classification, and planning among others. This paper investigates the properties that Spherical CNNs exhibit as they pertain to the rotational structure inherent in spherical signals. We build upon the rotation equivariance of spherical convolutions to show that Spherical CNNs are stable to general structure perturbations. In particular, we model arbitrary structure perturbations as diffeomorphism perturbations, and define the rotation distance that measures how far from rotations these perturbations are. We prove that the output change of a Spherical CNN induced by the diffeomorphism perturbation is bounded proportionally by the perturbation size under the rotation distance. This stability property coupled with the rotation equivariance provide theoretical guarantees that underpin the practical observations that Spherical CNNs exploit the rotational structure, maintain performance under structure perturbations that are close to rotations, and offer good generalization and faster learning.
翻訳日:2022-10-08 08:00:49 公開日:2021-04-03
# グラフ注意ネットワークを用いた全二重RIS支援HAPSバックホールのチャネル推定

Channel Estimation for Full-Duplex RIS-assisted HAPS Backhauling with Graph Attention Networks ( http://arxiv.org/abs/2010.12004v2 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, G\"une\c{s} Karabulut Kurt, Chongwen Huang, Ali R{\i}za Ekti, Halim Yanikomeroglu(参考訳) 本稿では,まずグラフアテンションネットワーク(gat)を用いてチャネル推定を行う。 6gの期待に応えて,高高度プラットフォームステーション (haps) の構成変更可能な知的面支援双方向通信を検討し,低オーバーヘッド,高正規化平均2乗誤差性能を得た。 提案手法の性能は, ris統合haps上の双方向バックホールリンクについて検討した。 シミュレーションの結果,GAT推定器は全二重チャネル推定において最小2乗を上回っていることがわかった。 以前に導入された手法とは対照的に、ノードの1つのGATはカスケードチャネル係数を別々に推定することができる。 したがって、全二重通信におけるパイロット信号処理中に時間分割二重モードを使用する必要はない。 さらに,GAT推定器はハードウェアの不完全性に対して頑健であり,トレーニングデータにこれらすべてのバリエーションが含まれていなくても,小型のフェーディング特性の変化が認められる。

In this paper, graph attention network (GAT) is firstly utilized for the channel estimation. In accordance with the 6G expectations, we consider a high-altitude platform station (HAPS) mounted reconfigurable intelligent surface-assisted two-way communications and obtain a low overhead and a high normalized mean square error performance. The performance of the proposed method is investigated on the two-way backhauling link over the RIS-integrated HAPS. The simulation results denote that the GAT estimator overperforms the least square in full-duplex channel estimation. Contrary to the previously introduced methods, GAT at one of the nodes can separately estimate the cascaded channel coefficients. Thus, there is no need to use time-division duplex mode during pilot signaling in full-duplex communication. Moreover, it is shown that the GAT estimator is robust to hardware imperfections and changes in small-scale fading characteristics even if the training data do not include all these variations.
翻訳日:2022-10-04 08:44:27 公開日:2021-04-03
# 拡張によるグラフコントラスト学習

Graph Contrastive Learning with Augmentations ( http://arxiv.org/abs/2010.13902v3 )

ライセンス: Link先を確認
Yuning You, Tianlong Chen, Yongduo Sui, Ting Chen, Zhangyang Wang, Yang Shen(参考訳) グラフ構造化データに対する一般化可能、転送可能、堅牢な表現学習は、現在のグラフニューラルネットワーク(GNN)の課題である。 画像データのための畳み込みニューラルネットワーク(CNN)のために開発されたものとは異なり、自己教師付き学習や事前学習は、GNNでは研究されていない。 本稿では,グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。 まず、4種類のグラフ拡張を設計し、様々な先行を組み込む。 次に,グラフ強化の様々な組み合わせが複数のデータセットに与える影響を,半教師なし,教師なし,移動学習の4つの異なる設定で体系的に研究する。 その結果、拡張範囲の調整や高度なGNNアーキテクチャの使用なしにも、GraphCLフレームワークは、最先端の手法と比較して、同様のあるいはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることがわかった。 また,パラメータ化グラフ拡張度とパターンの影響を調査し,予備実験におけるさらなる性能向上を観察する。 私たちのコードはhttps://github.com/Shen-Lab/GraphCLで公開されています。

Generalizable, transferrable, and robust representation learning on graph-structured data remains a challenge for current graph neural networks (GNNs). Unlike what has been developed for convolutional neural networks (CNNs) for image data, self-supervised learning and pre-training are less explored for GNNs. In this paper, we propose a graph contrastive learning (GraphCL) framework for learning unsupervised representations of graph data. We first design four types of graph augmentations to incorporate various priors. We then systematically study the impact of various combinations of graph augmentations on multiple datasets, in four different settings: semi-supervised, unsupervised, and transfer learning as well as adversarial attacks. The results show that, even without tuning augmentation extents nor using sophisticated GNN architectures, our GraphCL framework can produce graph representations of similar or better generalizability, transferrability, and robustness compared to state-of-the-art methods. We also investigate the impact of parameterized graph augmentation extents and patterns, and observe further performance gains in preliminary experiments. Our codes are available at https://github.com/Shen-Lab/GraphCL.
翻訳日:2022-10-04 05:31:14 公開日:2021-04-03
# 構造ネットワークにおけるノード分類のためのディープカーネル教師付きハッシュ

Deep Kernel Supervised Hashing for Node Classification in Structural Networks ( http://arxiv.org/abs/2010.13582v2 )

ライセンス: Link先を確認
Jia-Nan Guo, Xian-Ling Mao, Shu-Yang Lin, Wei Wei and Heyan Huang(参考訳) 構造ネットワークのノード分類は多くの実世界のアプリケーションで有用であることが証明されている。 ネットワーク埋め込みの開発により,ノード分類の性能が大幅に向上した。 しかし、ネットワーク構造情報とノードラベル情報を同時にネットワーク埋め込みに組み込むことはできないため、既存のネットワーク埋め込み方式のほとんど全ては、低次元空間において線形に分離できない問題のため、ノードの実際のカテゴリ特徴を捉えるのは難しい。 本稿では,ノード分類のためのノードのハッシュ表現を学習するための新しいディープカーネル教師付きハッシュ(dksh)手法を提案する。 具体的には、線形に分離不能な問題に対処するために、ノードを適切なヒルベルト空間にマッピングするディープ多重カーネル学習を提案する。 そして、2つのノード間の構造的類似性のみを考慮する代わりに、ネットワーク構造情報とノードラベル情報の両方をマージする新しい類似性行列を設計する。 類似性行列によって監督されたノードの学習ハッシュ表現は、学習されたヒルベルト空間から2種類の情報を十分に保存する。 広範な実験により、提案手法は3つの実世界のベンチマークデータセットで最先端のベースラインを大きく上回っていることが示された。

Node classification in structural networks has been proven to be useful in many real world applications. With the development of network embedding, the performance of node classification has been greatly improved. However, nearly all the existing network embedding based methods are hard to capture the actual category features of a node because of the linearly inseparable problem in low-dimensional space; meanwhile they cannot incorporate simultaneously network structure information and node label information into network embedding. To address the above problems, in this paper, we propose a novel Deep Kernel Supervised Hashing (DKSH) method to learn the hashing representations of nodes for node classification. Specifically, a deep multiple kernel learning is first proposed to map nodes into suitable Hilbert space to deal with linearly inseparable problem. Then, instead of only considering structural similarity between two nodes, a novel similarity matrix is designed to merge both network structure information and node label information. Supervised by the similarity matrix, the learned hashing representations of nodes simultaneously preserve the two kinds of information well from the learned Hilbert space. Extensive experiments show that the proposed method significantly outperforms the state-of-the-art baselines over three real world benchmark datasets.
翻訳日:2022-10-02 20:07:08 公開日:2021-04-03
# ディープネットワークのためのメモリ最適化

Memory Optimization for Deep Networks ( http://arxiv.org/abs/2010.14501v3 )

ライセンス: Link先を確認
Aashaka Shah, Chao-Yuan Wu, Jayashree Mohan, Vijay Chidambaram, Philipp Kr\"ahenb\"uhl(参考訳) ディープラーニングはゆっくりと、しかし着実に、メモリボトルネックにぶつかる。 トップ・オブ・ザ・ラインGPUのテンソル計算は過去5年間で32倍に増加したが、利用可能なメモリは2.5倍にしか成長しなかった。 これにより、大規模ネットワークのトレーニングには中間出力を保存するためにより多くのメモリが必要になるため、研究者はより大きなアーキテクチャを探索できない。 本稿では,ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークmonetを提案する。 MONeTはチェックポイントスケジュールと各種演算子の実装を共同で最適化する。 MONeTは、すべての手動操作と自動チェックポイントを上回ります。 MONeTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。 同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。 私たちのコードはhttps://github.com/utsaslab/MONeT.comで利用可能です。

Deep learning is slowly, but steadily, hitting a memory bottleneck. While the tensor computation in top-of-the-line GPUs increased by 32x over the last five years, the total available memory only grew by 2.5x. This prevents researchers from exploring larger architectures, as training large networks requires more memory for storing intermediate outputs. In this paper, we present MONeT, an automatic framework that minimizes both the memory footprint and computational overhead of deep networks. MONeT jointly optimizes the checkpointing schedule and the implementation of various operators. MONeT is able to outperform all prior hand-tuned operations as well as automated checkpointing. MONeT reduces the overall memory requirement by 3x for various PyTorch models, with a 9-16% overhead in computation. For the same computation cost, MONeT requires 1.2-1.8x less memory than current state-of-the-art automated checkpointing frameworks. Our code is available at https://github.com/utsaslab/MONeT.
翻訳日:2022-10-02 11:41:10 公開日:2021-04-03
# パンオプティカルセグメンテーションのための完全畳み込みネットワーク

Fully Convolutional Networks for Panoptic Segmentation ( http://arxiv.org/abs/2012.00720v2 )

ライセンス: Link先を確認
Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本稿では,Panoptic FCNという概念的,シンプルで,強力で,効率的な汎視セグメンテーションフレームワークを提案する。 我々のアプローチは、完全な畳み込みパイプラインで前景や背景を表現し、予測することを目的としています。 特に、Panoptic FCNは、提案したカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードし、高分解能機能を直接変換することによって予測を生成する。 このアプローチでは、インスタンス認識と、物や物のセマンティクス的に一貫した特性は、単純な生成-カーネル-セグメンテーションワークフローでそれぞれ満足できます。 ローカライゼーションやインスタンス分離のための追加のボックスがなければ、提案手法は、COCO、Cityscapes、Mapillary Vistasデータセットを単一スケールの入力で高効率で、従来のボックスベースおよびフリーモデルより優れている。 私たちのコードはhttps://github.com/Jia-Research-Lab/PanopticFCN.comで公開されています。

In this paper, we present a conceptually simple, strong, and efficient framework for panoptic segmentation, called Panoptic FCN. Our approach aims to represent and predict foreground things and background stuff in a unified fully convolutional pipeline. In particular, Panoptic FCN encodes each object instance or stuff category into a specific kernel weight with the proposed kernel generator and produces the prediction by convolving the high-resolution feature directly. With this approach, instance-aware and semantically consistent properties for things and stuff can be respectively satisfied in a simple generate-kernel-then-segment workflow. Without extra boxes for localization or instance separation, the proposed approach outperforms previous box-based and -free models with high efficiency on COCO, Cityscapes, and Mapillary Vistas datasets with single scale input. Our code is made publicly available at https://github.com/Jia-Research-Lab/PanopticFCN.
翻訳日:2021-05-30 19:45:20 公開日:2021-04-03
# 非地上ネットワークのための再構成可能なインテリジェントサーフェス

Reconfigurable Intelligent Surfaces in Action for Non-Terrestrial Networks ( http://arxiv.org/abs/2012.00968v2 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, G\"une\c{s} Karabulut Kurt, Ali R{\i}za Ekti, Halim Yanikomeroglu(参考訳) 次世代の通信技術は、高高度プラットフォームステーションと低地球軌道衛星のメガコンステレーションを含む地上ネットワークと地球外ネットワーク(NTN)の協力によって実現される。 一方、人類は他の惑星に新しい生息地を確立するために長い道のりを歩み始めた。 これにより、NTNと深宇宙ネットワーク(DSN)の連携が求められる。 本稿では,空間の運用環境の大きさ,重量,電力制限に完全に適合していることから,この協調性を改善し,エスカレートするための再構成可能なインテリジェントサーフェス(ris)の利用を提案する。 RISが支援する地球外・惑星間通信の包括的枠組みは、課題の特定、ユースケース、オープンな課題によって提示される。 さらに,太陽シンチレーションや衛星ドラッグなどの環境影響下でのRIS支援NTNの性能をシミュレーションにより検討した。

Next-generation communication technology will be fueled on the cooperation of terrestrial networks with nonterrestrial networks (NTNs) that contain mega-constellations of high-altitude platform stations and low-Earth orbit satellites. On the other hand, humanity has embarked on a long road to establish new habitats on other planets. This deems the cooperation of NTNs with deep space networks (DSNs) necessary. In this regard, we propose the use of reconfigurable intelligent surfaces (RISs) to improve and escalate this collaboration owing to the fact that they perfectly match with the size, weight, and power restrictions of the operational environment of space. A comprehensive framework of RIS-assisted non-terrestrial and interplanetary communications is presented by pinpointing challenges, use cases, and open issues. Furthermore, the performance of RIS-assisted NTNs under environmental effects such as solar scintillation and satellite drag is discussed through simulation results.
翻訳日:2021-05-25 03:40:39 公開日:2021-04-03
# XCloud-MoDern:加速NMR分光のための人工知能クラウド

XCloud-MoDern: An Artificial Intelligence Cloud for Accelerated NMR Spectroscopy ( http://arxiv.org/abs/2012.14830v4 )

ライセンス: Link先を確認
Zi Wang, Di Guo, Zhangren Tu, Yihui Huang, Yirong Zhou, Jian Wang, Liubin Feng, Donghai Lin, Yongfu You, Tatiana Agback, Vladislav Orekhov, Xiaobo Qu(参考訳) 高速な多次元NMR分光法では、非一様サンプリングは強力なアプローチであるが、アンダーサンプルデータの再構成には洗練されたアルゴリズムが必要である。 そこで,我々はまず,高性能な深層学習フレームワーク (MoDern) を考案し,挑戦的な多次元NMRスペクトルの堅牢かつ高品質な再構成とメタボライト混合物の信頼性定量化に驚くべき性能を示した。 注目すべきなのは、MoDernのトレーニング可能なパラメータによって、ニューラルネットワークを単なる合成データでトレーニングし、さまざまなシナリオにおける実験的なアンダーサンプルデータにうまく一般化することができたことだ。 そこで我々は,高速NMRのための信頼性,広く利用可能な,超高速かつ使いやすい技術として,新しい人工知能クラウドコンピューティングプラットフォーム(XCloud-MoDern)を開発した。 これらの結果は,XCloud-MoDernがスペクトル分析のさらなる発展に寄与していることを示している。

For accelerated multi-dimensional NMR spectroscopy, non-uniform sampling is a powerful approach but requires sophisticated algorithms to reconstruct undersampled data. Here, we first devise a high-performance deep learning framework (MoDern), which shows astonishing performance in robust and high-quality reconstruction of challenging multi-dimensional protein NMR spectra and reliable quantitative measure of the metabolite mixture. Remarkably, the few trainable parameters of MoDern allowed the neural network to be trained on solely synthetic data while generalizing well to experimental undersampled data in various scenarios. Then, we develop a novel artificial intelligence cloud computing platform (XCloud-MoDern), as a reliable, widely-available, ultra-fast, and easy-to-use technique for highly accelerated NMR. All results demonstrate that XCloud-MoDern contributes a promising platform for further development of spectra analysis.
翻訳日:2021-04-18 20:26:52 公開日:2021-04-03
# (参考訳) 教師なしドメイン適応のためのインスタンスレベル親和性に基づく転送

Instance Level Affinity-Based Transfer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2104.01286v1 )

ライセンス: CC BY 4.0
Astuti Sharma, Tarun Kalluri, Manmohan Chandraker(参考訳) ドメイン適応は、特定のソースドメインからの大規模ラベル付きデータを使用してトレーニングモデルを扱う。 多くの先行研究は、ソースドメインとターゲットドメインのより細かいクラス固有の構造を考慮していないグローバル分散アライメントの目的を用いて、この目的のためにドメインに依存しない特徴表現を学ぶ。 我々は,本研究でこの問題に対処し,適応中のソースからターゲットへの移動に対するインスタンス親和性に基づく基準であるira-daを提案する。 まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。 ila-daはクラス内クラスタリングとカテゴリ間のクラス間分離を同時に考慮し、ノイズの少ない分類器境界、転送性の向上、精度の向上を実現している。 ILA-DAの有効性は、様々なベンチマークデータセット上での一般的なドメイン適応手法よりも精度が一貫した改善を観察することで検証し、提案したアライメントアプローチに対する洞察を提供する。 コードはhttps://github.com/astuti/ILA-DAで公開される。

Domain adaptation deals with training models using large scale labeled data from a specific source domain and then adapting the knowledge to certain target domains that have few or no labels. Many prior works learn domain agnostic feature representations for this purpose using a global distribution alignment objective which does not take into account the finer class specific structure in the source and target domains. We address this issue in our work and propose an instance affinity based criterion for source to target transfer during adaptation, called ILA-DA. We first propose a reliable and efficient method to extract similar and dissimilar samples across source and target, and utilize a multi-sample contrastive loss to drive the domain alignment process. ILA-DA simultaneously accounts for intra-class clustering as well as inter-class separation among the categories, resulting in less noisy classifier boundaries, improved transferability and increased accuracy. We verify the effectiveness of ILA-DA by observing consistent improvements in accuracy over popular domain adaptation approaches on a variety of benchmark datasets and provide insights into the proposed alignment approach. Code will be made publicly available at https://github.com/astuti/ILA-DA.
翻訳日:2021-04-08 03:38:23 公開日:2021-04-03
# (参考訳) グラフニューラルネットワーク拡張のためのトポロジカル正則化

Topological Regularization for Graph Neural Networks Augmentation ( http://arxiv.org/abs/2104.02478v1 )

ライセンス: CC BY 4.0
Rui Song and Fausto Giunchiglia and Ke Zhao and Hao Xu(参考訳) グラフデータの複雑さと非ユークリッド構造は、コンピュータビジョンに類似したデータ拡張手法の開発を妨げる。 本稿では,位相構造情報をエンド・ツー・エンドモデルに導入するトポロジカル正則化に基づくグラフノードの特徴拡張手法を提案する。 具体的には,ランダムウォークに基づく教師なし表現学習手法により,ノードのトポロジー埋め込みを得る。 そして、追加特徴としてのトポロジカル埋め込みと、元のノード特徴を2つのグラフニューラルネットワークに入力して伝搬させ、2つの異なるノードの高次近傍表現を得る。 そこで本研究では,2つの異なるノード間の差異を橋渡しし,直接使用するグラフの位相的特徴による悪影響を排除し,性能を大幅に向上させる正則化手法を提案する。 我々は,モデルの有効性を証明するために,多数のデータセットについて広範な実験を行った。

The complexity and non-Euclidean structure of graph data hinder the development of data augmentation methods similar to those in computer vision. In this paper, we propose a feature augmentation method for graph nodes based on topological regularization, in which topological structure information is introduced into end-to-end model. Specifically, we first obtain topology embedding of nodes through unsupervised representation learning method based on random walk. Then, the topological embedding as additional features and the original node features are input into a dual graph neural network for propagation, and two different high-order neighborhood representations of nodes are obtained. On this basis, we propose a regularization technique to bridge the differences between the two different node representations, eliminate the adverse effects caused by the topological features of graphs directly used, and greatly improve the performance. We have carried out extensive experiments on a large number of datasets to prove the effectiveness of our model.
翻訳日:2021-04-08 03:21:42 公開日:2021-04-03
# (参考訳) 低資源音声対話システムのための意図認識と教師なしスロット識別

Intent Recognition and Unsupervised Slot Identification for Low Resourced Spoken Dialog Systems ( http://arxiv.org/abs/2104.01287v1 )

ライセンス: CC BY 4.0
Akshat Gupta, Sai Krishna Rallabandi, Alan W Black(参考訳) 音声認識とスロット識別は、音声言語理解(SLU)システムにおいて重要な要素である。 本稿では,低リソース言語と未記述言語の文脈において,これら2つのタスクに対する新しいアプローチを提案する。 音声認識システムを用いて音声を音素の書き起こしに変換する音響ベースのSLUシステムを提案する。 我々はこれらの音素転写から意図認識とスロット識別を行う単語自由自然言語理解モジュールを構築した。 提案するSLUシステムは,資源の豊富なシナリオに対して競合的に動作し,利用可能なデータ量が減少するにつれて既存の手法よりも大幅に優れる。 タミルではインテント分類が10%以上改善され,シンハラではインテント分類が5%以上向上した。 また,正規化アテンションスコアを用いた非教師なしスロット識別への新しいアプローチを提案する。 このアプローチは、教師なしスロットラベリング、データ拡張、ワンショット方式で1つの音声記録のみで新しいスロットのデータを生成するために使用することができる。

Intent Recognition and Slot Identification are crucial components in spoken language understanding (SLU) systems. In this paper, we present a novel approach towards both these tasks in the context of low resourced and unwritten languages. We present an acoustic based SLU system that converts speech to its phonetic transcription using a universal phone recognition system. We build a word-free natural language understanding module that does intent recognition and slot identification from these phonetic transcription. Our proposed SLU system performs competitively for resource rich scenarios and significantly outperforms existing approaches as the amount of available data reduces. We observe more than 10% improvement for intent classification in Tamil and more than 5% improvement for intent classification in Sinhala. We also present a novel approach towards unsupervised slot identification using normalized attention scores. This approach can be used for unsupervised slot labelling, data augmentation and to generate data for a new slot in a one-shot way with only one speech recording
翻訳日:2021-04-08 03:14:18 公開日:2021-04-03
# (参考訳) 新型コロナウイルスによる言語多様性の測定

Measuring Linguistic Diversity During COVID-19 ( http://arxiv.org/abs/2104.01290v1 )

ライセンス: CC BY 4.0
Jonathan Dunn and Tom Coupe and Benjamin Adams(参考訳) 言語多様性の計算指標は、デジタル言語データを用いて言語景観を理解するのに役立つ。 本論文は、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の指標を校正することを目的とする。 これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。 しかし、その目標は、根底にある個体群を推測するのではなく、これらのコーパス自身を説明することである。 本稿では,Herfindahl-Hirschman Indexに基づく差分差分法により,非地域住民が導入するディジタルコーパスの偏りを同定できることを示す。 これらの手法は、重要な変化がどこで起きたか、それが多様性の増大または減少につながるかを示す。 これはソーシャルメディアのようなデジタルコーポラを、それらを生んだ現実世界の人口と結びつける上で重要なステップだ。

Computational measures of linguistic diversity help us understand the linguistic landscape using digital language data. The contribution of this paper is to calibrate measures of linguistic diversity using restrictions on international travel resulting from the COVID-19 pandemic. Previous work has mapped the distribution of languages using geo-referenced social media and web data. The goal, however, has been to describe these corpora themselves rather than to make inferences about underlying populations. This paper shows that a difference-in-differences method based on the Herfindahl-Hirschman Index can identify the bias in digital corpora that is introduced by non-local populations. These methods tell us where significant changes have taken place and whether this leads to increased or decreased diversity. This is an important step in aligning digital corpora like social media with the real-world populations that have produced them.
翻訳日:2021-04-08 03:05:49 公開日:2021-04-03
# (参考訳) 非定常時系列データにおける瞬時周波数と振幅の抽出

Extraction of instantaneous frequencies and amplitudes in nonstationary time-series data ( http://arxiv.org/abs/2104.01293v1 )

ライセンス: CC BY 4.0
Daniel E. Shea, Rajiv Giridharagopal, David S. Ginger, Steven L. Brunton, J. Nathan Kutz(参考訳) 時系列分析は科学と工学の多様な応用に不可欠である。 現代の勾配降下アルゴリズム,フーリエ変換,マルチレゾリューション解析,ベイズスペクトル解析の強みを活用することで,非定常信号の非連続性抽出を含む古典的手法の欠点の多くを回避できる,時間周波数解析へのデータ駆動アプローチを提案する。 提案手法は、非定常および非線形時間信号に対する非定常フーリエモード分解(NFMD)と等価であり、即時周波数とその振幅の正確な同定を可能にする。 ナノスケールでの帯電ダイナミクスの時間依存進化を定量化するために、カンチレバー型静電力顕微鏡のデータを含む時系列データの多様性を実証した。

Time-series analysis is critical for a diversity of applications in science and engineering. By leveraging the strengths of modern gradient descent algorithms, the Fourier transform, multi-resolution analysis, and Bayesian spectral analysis, we propose a data-driven approach to time-frequency analysis that circumvents many of the shortcomings of classic approaches, including the extraction of nonstationary signals with discontinuities in their behavior. The method introduced is equivalent to a {\em nonstationary Fourier mode decomposition} (NFMD) for nonstationary and nonlinear temporal signals, allowing for the accurate identification of instantaneous frequencies and their amplitudes. The method is demonstrated on a diversity of time-series data, including on data from cantilever-based electrostatic force microscopy to quantify the time-dependent evolution of charging dynamics at the nanoscale.
翻訳日:2021-04-08 02:55:55 公開日:2021-04-03
# (参考訳) コーパス類似度を考慮した言語品種の表現

Representations of Language Varieties Are Reliable Given Corpus Similarity Measures ( http://arxiv.org/abs/2104.01294v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本論文は,9言語にわたる84の言語品種間の類似度を測定した。 これらのコーパスは、デジタルソース(ウェブとツイート)から引き出され、そのような地理的参照コーパスが言語変化のモデリングに信頼できるかどうかを評価することができる。 基本的な考え方は、それぞれのソースが単一の言語を適切に表現しているならば、これらのソース間の類似性は、すべての言語と国で安定するべきであるということである。 本論文は、周波数ベースのコーパス類似度尺度を用いて、これらのソース間に一貫した合意が存在することを示す。 これは、デジタル地理参照コーパスが一貫して地方言語を表現していることのさらなる証拠となる。

This paper measures similarity both within and between 84 language varieties across nine languages. These corpora are drawn from digital sources (the web and tweets), allowing us to evaluate whether such geo-referenced corpora are reliable for modelling linguistic variation. The basic idea is that, if each source adequately represents a single underlying language variety, then the similarity between these sources should be stable across all languages and countries. The paper shows that there is a consistent agreement between these sources using frequency-based corpus similarity measures. This provides further evidence that digital geo-referenced corpora consistently represent local language varieties.
翻訳日:2021-04-08 02:41:34 公開日:2021-04-03
# (参考訳) 連想の多単位方向尺度--単語の対を超えて

Multi-Unit Directional Measures of Association: Moving Beyond Pairs of Words ( http://arxiv.org/abs/2104.01297v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本稿では,方向関係の一連の多単位測度を定式化・評価し,長さと表現のタイプが変化する列の関連を定量化できるペアワイズ・デルタ測度に基づいて評価する。 ペアワイズ測度の暗黙的長さ制約が放棄されると、アソシエーション測度はまた有意義なシーケンスの境界を識別しなければならない。 本稿では,18個の一意な尺度を用いて複数単位関係の異なる側面を記述することにより,セグメンテーション問題に対するベクトルベースアプローチを提案する。 これらの測度を8つの言語で調べると、それらは言語間で安定であり、それぞれが関連するシーケンスのユニークなランクを提供することを示している。 これらの測度は、様々な長さと表現のタイプにまたがって一般化することで、コーパスに基づく関連性へのアプローチを拡張する。

This paper formulates and evaluates a series of multi-unit measures of directional association, building on the pairwise {\Delta}P measure, that are able to quantify association in sequences of varying length and type of representation. Multi-unit measures face an additional segmentation problem: once the implicit length constraint of pairwise measures is abandoned, association measures must also identify the borders of meaningful sequences. This paper takes a vector-based approach to the segmentation problem by using 18 unique measures to describe different aspects of multi-unit association. An examination of these measures across eight languages shows that they are stable across languages and that each provides a unique rank of associated sequences. Taken together, these measures expand corpus-based approaches to association by generalizing across varying lengths and types of representation.
翻訳日:2021-04-08 02:31:30 公開日:2021-04-03
# (参考訳) 構造に基づく弁証法における変種探索--コーパスに基づく地域cxgsへのアプローチ

Finding Variants for Construction-Based Dialectometry: A Corpus-Based Approach to Regional CxGs ( http://arxiv.org/abs/2104.01299v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本稿では, 既知構造を同定し, 所定の構成が局所的変動の対象となる程度を計測できる構築型弁証法を開発した。 中心となる考え方は、構成文法帰納法を用いて構成文法(CxG)を学習し、これらの構成を弁証法の特徴として利用することである。 これにより, 局所的なCxG間の集合類似度を, 変動を受ける構成の集合を予め制限することなく測定することができる。 学習したCxGはホールドアウトテストコーパスをどの程度うまく記述するかを評価する一方、弁証法は地域英語の多様性をいかにモデル化できるかを評価する。 Themethodは2つの異なるデータセットを用いてテストされている: まず、国際英語コーパスは8つの外円の変種を表す。 その結果,(1) は, 単一コーパスのサブセットにまたがる安定な品質の文法を生成し, (2) 高度に精度の高い地域英語の変種を識別できるため, (3) 英語の変種間の類似性を推定するための弁証法, (4) それぞれの構成が地域的変動の対象となる度合いを計測する。 これは認知社会言語学にとって重要である。なぜなら、構造間の競合は機能レベルで組織化され、弁証法が利用可能な機能空間をできるだけ多く表現する必要がある、という考えを運用するからである。

This paper develops a construction-based dialectometry capable of identifying previously unknown constructions and measuring the degree to which a given construction is subject to regional variation. The central idea is to learn a grammar of constructions (a CxG) using construction grammar induction and then to use these constructions as features for dialectometry. This offers a method for measuring the aggregate similarity between regional CxGs without limiting in advance the set of constructions subject to variation. The learned CxG is evaluated on how well it describes held-out test corpora while dialectometry is evaluated on how well it can model regional varieties of English. Themethod is tested using two distinct datasets: First, the International Corpus of English representing eight outer circle varieties; Second, a web-crawled corpus representing five inner circle varieties. Results show that themethod (1) produces a grammar with stable quality across sub-sets of a single corpus that is (2) capable of distinguishing between regional varieties of Englishwith a high degree of accuracy, thus (3) supporting dialectometricmethods formeasuring the similarity between varieties of English and (4) measuring the degree to which each construction is subject to regional variation. This is important for cognitive sociolinguistics because it operationalizes the idea that competition between constructions is organized at the functional level so that dialectometry needs to represent as much of the available functional space as possible.
翻訳日:2021-04-08 02:30:38 公開日:2021-04-03
# (参考訳) 7言語におけるグローバル・シンタクティックな変化--計算辞書を目指して

Global Syntactic Variation in Seven Languages: Towards a Computational Dialectology ( http://arxiv.org/abs/2104.01306v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本研究の目的は,グローバルスケールでの地域言語変化の完全な表現を提供することである。 そこで本研究では,これまで方言・方言学に限られていた3つの制約を取り除くことに焦点を当てた。 まず,固定的かつ不完全な変種集合を仮定する代わりに,計算構成文法を用いて,構文特徴の複製可能かつ偽造可能な集合を提供する。 第2に、特定の関心領域を仮定するのではなく、Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて、国産品種の選択を決定する。 第3に、一つの言語を単独で見るのではなく、アラビア語、英語、フランス語、ドイツ語、ポルトガル語、ロシア語、スペイン語の7つの主要言語を同じ手法でモデル化する。 その結果,各言語のモデルは,より単純な構文的特徴を用いることよりも,コンストラクション文法を用いて保留サンプルの領域を確実に予測できることがわかった。 これらのグローバルスケールの実験は、計算社会言語学の新しい手法は、言語の変化や大規模変化を理解するのに不可欠な、より一般化された地域的変動モデルを提供することができると主張している。

The goal of this paper is to provide a complete representation of regional linguistic variation on a global scale. To this end, the paper focuses on removing three constraints that have previously limited work within dialectology/dialectometry. First, rather than assuming a fixed and incomplete set of variants, we use Computational Construction Grammar to provide a replicable and falsifiable set of syntactic features. Second, rather than assuming a specific area of interest, we use global language mapping based on web-crawled and social media datasets to determine the selection of national varieties. Third, rather than looking at a single language in isolation, we model seven major languages together using the same methods: Arabic, English, French, German, Portuguese, Russian, and Spanish. Results show that models for each language are able to robustly predict the region-of-origin of held-out samples better using Construction Grammars than using simpler syntactic features. These global-scale experiments are used to argue that new methods in computational sociolinguistics are able to provide more generalized models of regional variation that are essential for understanding language variation and change at scale.
翻訳日:2021-04-08 02:29:28 公開日:2021-04-03
# (参考訳) ニューラルタンジェントカーネルのランダム特性

Random Features for the Neural Tangent Kernel ( http://arxiv.org/abs/2104.01351v1 )

ライセンス: CC BY 4.0
Insu Han, Haim Avron, Neta Shoham, Chaewon Kim, Jinwoo Shin(参考訳) neural tangent kernel (ntk) は、最適化と一般化の洞察を持つディープニューラルネットワークとカーネルメソッドの間の接続を発見した。 これに触発された最近の研究報告では、NTKは小規模データセットでのニューラルネットワークのトレーニングよりもパフォーマンスが向上している。 しかし,カーネル手法の計算量制限により,大規模環境下での結果はほとんど研究されていない。 本研究では,完全接続型ReLUネットワークのNTKの効率的な特徴マップ構築を提案し,大規模データセットに適用する。 本研究では,arc-cosineカーネルのランダムな特徴と,データ点数と入力次元の両方について線形に動作可能なスケッチベースアルゴリズムを組み合わせる。 その結果得られた特徴の次元は他の基本機能マップ構成よりもはるかに小さく、理論と実践の両方において同等の誤差境界を達成することが示されている。 また、2層ニューラルネットワークのNTK行列に対する提案した特徴写像のスペクトル近似を保証するために、レバレッジスコアに基づくサンプリングを改良したアークコサインランダム特徴量に適用する。 提案手法の優位性を示すため,様々な機械学習タスクをベンチマークする。 特に,我々のアルゴリズムは,性能損失のない大規模設定において,正確なカーネル手法よりも数十倍高速に動作可能である。

The Neural Tangent Kernel (NTK) has discovered connections between deep neural networks and kernel methods with insights of optimization and generalization. Motivated by this, recent works report that NTK can achieve better performances compared to training neural networks on small-scale datasets. However, results under large-scale settings are hardly studied due to the computational limitation of kernel methods. In this work, we propose an efficient feature map construction of the NTK of fully-connected ReLU network which enables us to apply it to large-scale datasets. We combine random features of the arc-cosine kernels with a sketching-based algorithm which can run in linear with respect to both the number of data points and input dimension. We show that dimension of the resulting features is much smaller than other baseline feature map constructions to achieve comparable error bounds both in theory and practice. We additionally utilize the leverage score based sampling for improved bounds of arc-cosine random features and prove a spectral approximation guarantee of the proposed feature map to the NTK matrix of two-layer neural network. We benchmark a variety of machine learning tasks to demonstrate the superiority of the proposed scheme. In particular, our algorithm can run tens of magnitude faster than the exact kernel methods for large-scale settings without performance loss.
翻訳日:2021-04-08 02:28:30 公開日:2021-04-03
# (参考訳) n-gramからlindenmayerシステム内の木へ

From n-grams to trees in Lindenmayer systems ( http://arxiv.org/abs/2104.01363v1 )

ライセンス: CC BY 4.0
Diego Gabriel Krivochen(参考訳) 本稿では,Lindenmayerシステムに対する2つのアプローチを提案する。ルールベース(もしくは生成的)アプローチは,Thue書き換えシステムとしてのLシステムに焦点をあて,制約ベース(またはモデル理論)アプローチは言語における許容表現よりも条件を優先してルールを放棄する(Pullum,2019)。 我々は、L-システムの少なくとも一部とそれらが生成する言語に対して、弦の許容条件(3つの法則)を局所木許容条件(cf)にマッピングすることは可能であると論じる。 ロジャース、1997年)。 これはこれらの言語のモデルを定義することと等価である。 我々は,表層的な表現制約のみを仮定した構造の構築方法について検討し,特定のl言語の表現が満足すべき制約の集合を定義する。 他の方法が区別するL-系が同じモデルを満たすことが分かる。

In this paper we present two approaches to Lindenmayer systems: the rule-based (or generative) approach, which focuses on L-systems as Thue rewriting systems and a constraint-based (or model-theoretic) approach, in which rules are abandoned in favour of conditions over allowable expressions in the language (Pullum, 2019). We will argue that it is possible, for at least a subset of L-systems and the languages they generate, to map string admissibility conditions (the 'Three Laws') to local tree admissibility conditions (cf. Rogers, 1997). This is equivalent to defining a model for those languages. We will work out how to construct structure assuming only superficial constraints on expressions, and define a set of constraints that well-formed expressions of specific L-languages must satisfy. We will see that L-systems that other methods distinguish turn out to satisfy the same model.
翻訳日:2021-04-08 01:40:55 公開日:2021-04-03
# (参考訳) ベイズフレームワークによるブラックボックスモデル最適化のためのニューラルプロセス

Neural Process for Black-Box Model Optimization Under Bayesian Framework ( http://arxiv.org/abs/2104.02487v1 )

ライセンス: CC0 1.0
Zhongkai Shangguan and Lei Lin and Wencheng Wu and Beilei Xu(参考訳) 物理モデルには、モデルパラメータと出力の関係が未知あるいは追跡が難しい、多くの最適化問題が存在する。 これらのモデルは一般にブラックボックスモデルと名付けられ、内部動作の知識なしに入力や出力の観点でしか見ることができない。 ブラックボックスモデルのパラメータの最適化はますます高価になり、複雑になるにつれて時間がかかります。 そのため,効率的なブラックボックスモデル最適化アルゴリズムの開発が重要な課題となっている。 そのような問題を解決する強力なアルゴリズムの1つはベイズ最適化であり、最高の性能をもたらすモデルパラメータを効果的に推定し、ガウス過程(GP)はベイズ最適化において最も広く使われている代理モデルの一つである。 しかし、GPの時間的複雑さは観測されたモデル出力の数に対して立方的にスケールし、GPも大きなパラメータ次元でうまくスケールしない。 その結果、gpが多くの観測やパラメータをクエリする必要があるブラックボックスモデルを最適化することは困難である。 本研究では,GPの欠点を克服するため,NP(Neural Process for Bayesian Optimization)と呼ばれるブラックボックスモデル最適化を行うために,NP(Neural Process)をサロゲートモデルとして用いた一般ベイズ最適化アルゴリズムを提案する。 npboの利点を検証するために,電力系統パラメータ最適化問題と7つのベンチマークベイズ最適化問題に関して,npboを4つのベンチマーク手法と比較した。 その結果,提案するnpboは,電力系統パラメータ最適化問題や7つのベンチマーク問題において,他の4つのベンチマーク手法よりも優れた性能を示すことがわかった。

There are a large number of optimization problems in physical models where the relationships between model parameters and outputs are unknown or hard to track. These models are named as black-box models in general because they can only be viewed in terms of inputs and outputs, without knowledge of the internal workings. Optimizing the black-box model parameters has become increasingly expensive and time consuming as they have become more complex. Hence, developing effective and efficient black-box model optimization algorithms has become an important task. One powerful algorithm to solve such problem is Bayesian optimization, which can effectively estimates the model parameters that lead to the best performance, and Gaussian Process (GP) has been one of the most widely used surrogate model in Bayesian optimization. However, the time complexity of GP scales cubically with respect to the number of observed model outputs, and GP does not scale well with large parameter dimension either. Consequently, it has been challenging for GP to optimize black-box models that need to query many observations and/or have many parameters. To overcome the drawbacks of GP, in this study, we propose a general Bayesian optimization algorithm that employs a Neural Process (NP) as the surrogate model to perform black-box model optimization, namely, Neural Process for Bayesian Optimization (NPBO). In order to validate the benefits of NPBO, we compare NPBO with four benchmark approaches on a power system parameter optimization problem and a series of seven benchmark Bayesian optimization problems. The results show that the proposed NPBO performs better than the other four benchmark approaches on the power system parameter optimization problem and competitively on the seven benchmark problems.
翻訳日:2021-04-08 01:22:37 公開日:2021-04-03
# カモフラージュ物体検出のための相互グラフ学習

Mutual Graph Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2104.02613v1 )

ライセンス: Link先を確認
Qiang Zhai, Xin Li, Fan Yang, Chenglizhao Chen, Hong Cheng, Deng-Ping Fan(参考訳) 現在のモデルでは、周囲とブレンドするオブジェクトを自動的に検出/segmentingするのは難しい。 主な課題は、これらの前景オブジェクトと背景環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。 この課題を克服するために、理想的なモデルは、与えられたシーンから価値ある余分な手がかりを探し出し、それらを共同学習フレームワークに組み込むことができるべきである。 この着想を得て、正規格子からグラフ領域への従来の相互学習のアイデアを一般化した、新しい相互グラフ学習(mgl)モデルを設計する。 具体的には、MGLはイメージを2つのタスク固有の特徴マップ(ターゲットを大まかに特定するマップと境界の詳細を正確に把握するマップ)に分離し、グラフを通じて高次関係を連続的に推論することで相互利益を完全に活用する。 重要なことは、すべてのタスク間相互作用をモデル化するために共有関数を使用するほとんどの相互学習アプローチとは対照的に、MGLは情報相互作用を最大化するために異なる補完関係を扱うための型付き関数を備えている。 CHAMELEON、CAMO、COD10Kといった挑戦的なデータセットの実験は、既存の最先端手法よりも優れたパフォーマンスでMGLの有効性を実証している。

Automatically detecting/segmenting object(s) that blend in with their surroundings is difficult for current models. A major challenge is that the intrinsic similarities between such foreground objects and background surroundings make the features extracted by deep model indistinguishable. To overcome this challenge, an ideal model should be able to seek valuable, extra clues from the given scene and incorporate them into a joint learning framework for representation co-enhancement. With this inspiration, we design a novel Mutual Graph Learning (MGL) model, which generalizes the idea of conventional mutual learning from regular grids to the graph domain. Specifically, MGL decouples an image into two task-specific feature maps -- one for roughly locating the target and the other for accurately capturing its boundary details -- and fully exploits the mutual benefits by recurrently reasoning their high-order relations through graphs. Importantly, in contrast to most mutual learning approaches that use a shared function to model all between-task interactions, MGL is equipped with typed functions for handling different complementary relations to maximize information interactions. Experiments on challenging datasets, including CHAMELEON, CAMO and COD10K, demonstrate the effectiveness of our MGL with superior performance to existing state-of-the-art methods.
翻訳日:2021-04-07 14:02:19 公開日:2021-04-03
# (参考訳) 世代差分法による画素ノイズと空間アーチファクトの除去

Removing Pixel Noises and Spatial Artifacts with Generative Diversity Denoising Methods ( http://arxiv.org/abs/2104.01374v1 )

ライセンス: CC BY 4.0
Mangal Prakash, Mauricio Delbracio, Peyman Milanfar, Florian Jug(参考訳) 画像のデノゲーションとアーティファクトの除去は多くの潜在的な解決策を認める複雑な逆問題である。 変分オートエンコーダ (VAEs) は、有効な解全体の分布を学習するために使用することができ、そこから効率的にサンプリングすることができる。 しかし、このような画像復元に対する生成的アプローチは、画素単位のノイズ除去(例えば)の文脈でのみ研究されている。 Poisson または Gaussian noise)。 重要ではあるが、多くのアプリケーションドメインは、関連づけられた方法でピクセルのグループを変更するアーティファクト(構造化ノイズ)のイメージングに苦しむ。 本研究は,GDD(Generative diversity denoising)アプローチが,教師なしの構造化ノイズの除去を学習できることを初めて示す。 この目的のために,既存の2つのgddアーキテクチャを調査し,階層的vaesに基づく新しい手法を導入し,その性能を構造的ノイズ(トモグラフィ再構成や顕微鏡的人工物など)の5つの音源における7つの最先端ベースライン法と比較する。 GDD法はすべての教師なしベースラインより優れており、多くの場合、監督された結果よりもはるかに遅れていない(時にはその代わりになることもある)。 構造的ノイズ除去に加えて,新しいGDD法により,画素ノイズ除去のための8つのベンチマークデータセットのうち7つに対して,新たなSOTA(State-of-the-art)結果が得られた。 最後に、GDD法が取り除くような構造的ノイズを、保持したい画像信号とどのように区別するかという、恐ろしい疑問について、洞察を提供する。

Image denoising and artefact removal are complex inverse problems admitting many potential solutions. Variational Autoencoders (VAEs) can be used to learn a whole distribution of sensible solutions, from which one can sample efficiently. However, such a generative approach to image restoration is only studied in the context of pixel-wise noise removal (e.g. Poisson or Gaussian noise). While important, a plethora of application domains suffer from imaging artefacts (structured noises) that alter groups of pixels in correlated ways. In this work we show, for the first time, that generative diversity denoising (GDD) approaches can learn to remove structured noises without supervision. To this end, we investigate two existing GDD architectures, introduce a new one based on hierarchical VAEs, and compare their performances against a total of seven state-of-the-art baseline methods on five sources of structured noise (including tomography reconstruction artefacts and microscopy artefacts). We find that GDD methods outperform all unsupervised baselines and in many cases not lagging far behind supervised results (in some occasions even superseding them). In addition to structured noise removal, we also show that our new GDD method produces new state-of-the-art (SOTA) results on seven out of eight benchmark datasets for pixel-noise removal. Finally, we offer insights into the daunting question of how GDD methods distinguish structured noise, which we like to see removed, from image signals, which we want to see retained.
翻訳日:2021-04-07 13:38:57 公開日:2021-04-03
# (参考訳) 遠隔センシングにおけるマルチラベルディープラーニング分類タスクのための説明可能な人工知能手法の評価

Evaluating Explainable Artificial Intelligence Methods for Multi-label Deep Learning Classification Tasks in Remote Sensing ( http://arxiv.org/abs/2104.01375v1 )

ライセンス: CC BY 4.0
Ioannis Kakogeorgiou and Konstantinos Karantzalos(参考訳) 深層ニューラルネットワークは、いくつかのリモートセンシングタスクにおいて最先端を保っているが、そのブラックボックス操作は、その決定の理解を妨げ、データセットやモデルパフォーマンスにおけるバイアスやその他の欠点を隠蔽する。 この目的のために,遠隔操作型多ラベル分類タスクに説明可能な人工知能(XAI)手法を適用し,人間の解釈可能な説明を作成し,透明性を向上させる。 特に、ベンチマークbigearthnetとsen12msデータセットで最先端のパフォーマンスを持つディープラーニングモデルを開発した。 モデル予測の理解と解釈に10のXAI手法が用いられ,その性能評価と比較のための定量的指標が得られた。 XAI手法の総合的な性能を評価するために,複数ラベルの競合,誤分類など,数多くの実験を行った。 以上より,Occlusion,Grad-CAM,Limeは最も理解し,信頼性の高いXAI法であった。 しかし、Grad-CAMとは別に、LimeとOcclusionはどちらも計算的に高価である。 また、XAIパフォーマンスのさまざまな側面を強調し、透明性を改善し、その振る舞いを理解し、データセットの特異性を明らかにするために、ブラックボックスの決定に関する洞察を精査しています。

Although deep neural networks hold the state-of-the-art in several remote sensing tasks, their black-box operation hinders the understanding of their decisions, concealing any bias and other shortcomings in datasets and model performance. To this end, we have applied explainable artificial intelligence (XAI) methods in remote sensing multi-label classification tasks towards producing human-interpretable explanations and improve transparency. In particular, we developed deep learning models with state-of-the-art performance in the benchmark BigEarthNet and SEN12MS datasets. Ten XAI methods were employed towards understanding and interpreting models' predictions, along with quantitative metrics to assess and compare their performance. Numerous experiments were performed to assess the overall performance of XAI methods for straightforward prediction cases, competing multiple labels, as well as misclassification cases. According to our findings, Occlusion, Grad-CAM and Lime were the most interpretable and reliable XAI methods. However, none delivers high-resolution outputs, while apart from Grad-CAM, both Lime and Occlusion are computationally expensive. We also highlight different aspects of XAI performance and elaborate with insights on black-box decisions in order to improve transparency, understand their behavior and reveal, as well, datasets' particularities.
翻訳日:2021-04-07 13:15:59 公開日:2021-04-03
# (参考訳) speechocean762: 発音評価のためのオープンソースの非ネイティブ音声コーパス

speechocean762: An Open-Source Non-native English Speech Corpus For Pronunciation Assessment ( http://arxiv.org/abs/2104.01378v1 )

ライセンス: CC BY 4.0
Junbo Zhang, Zhiwen Zhang, Yongqing Wang, Zhiyong Yan, Qiong Song, Yukai Huang, Ke Li, Daniel Povey and Yujun Wang(参考訳) 本稿では, 話者の半数が子供である250人の非母語話者から5,000人の英語を話すことで, 発音評価のためのオープンソースの音声コーパス「speechocean762」を提案する。 5名の専門家が各発話を文レベル,単語レベル,音素レベルで注釈した。 ベースラインシステムはオープンソースでリリースされ、このコーパスの音素レベルの発音評価ワークフローを説明する。 このコーパスは、商業および非商業目的で自由に使用することができる。 OpenSLRから無料でダウンロードでき、対応するベースラインシステムはKaldi音声認識ツールキットで公開されている。

This paper introduces a new open-source speech corpus named "speechocean762" designed for pronunciation assessment use, consisting of 5000 English utterances from 250 non-native speakers, where half of the speakers are children. Five experts annotated each of the utterances at sentence-level, word-level and phoneme-level. A baseline system is released in open source to illustrate the phoneme-level pronunciation assessment workflow on this corpus. This corpus is allowed to be used freely for commercial and non-commercial purposes. It is available for free download from OpenSLR, and the corresponding baseline system is published in the Kaldi speech recognition toolkit.
翻訳日:2021-04-07 13:14:45 公開日:2021-04-03
# (参考訳) MMBERT:Multimodal BERT Pretraining for Improved Medical VQA

MMBERT: Multimodal BERT Pretraining for Improved Medical VQA ( http://arxiv.org/abs/2104.01394v1 )

ライセンス: CC BY 4.0
Yash Khare, Viraj Bagal, Minesh Mathew, Adithi Devi, U Deva Priyakumar, CV Jawahar(参考訳) 医療領域の画像は、一般的なドメイン画像と根本的に異なる。 したがって、医学領域に一般ドメイン視覚質問応答(vqa)モデルを直接採用することは不可能である。 さらに、医用画像アノテーションはコストと時間を要するプロセスである。 これらの制約を克服するために,NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習にヒントを得たソリューションを提案する。 本手法は,大規模医用画像+キャプチャデータセットのプリテキストタスクとして画像特徴を用いたマスク言語モデリング(mlm)を用いて,よりリッチな医用画像とテキスト意味表現を学習する。 提案されたソリューションは、放射線画像用の2つのVQAデータセット(VQA-Med 2019とVQA-RAD)に対して、最先端のパフォーマンスを新たに達成し、以前のベストソリューションのアンサンブルモデルよりも優れています。 さらに,本手法はモデル解釈の助けとなる注意マップを提供する。 コードはhttps://github.com/VirajBagal/MMBERTで入手できる。

Images in the medical domain are fundamentally different from the general domain images. Consequently, it is infeasible to directly employ general domain Visual Question Answering (VQA) models for the medical domain. Additionally, medical images annotation is a costly and time-consuming process. To overcome these limitations, we propose a solution inspired by self-supervised pretraining of Transformer-style architectures for NLP, Vision and Language tasks. Our method involves learning richer medical image and text semantic representations using Masked Language Modeling (MLM) with image features as the pretext task on a large medical image+caption dataset. The proposed solution achieves new state-of-the-art performance on two VQA datasets for radiology images -- VQA-Med 2019 and VQA-RAD, outperforming even the ensemble models of previous best solutions. Moreover, our solution provides attention maps which help in model interpretability. The code is available at https://github.com/VirajBagal/MMBERT
翻訳日:2021-04-07 13:06:23 公開日:2021-04-03
# (参考訳) 非ホモフィラスグラフの学習のための新しいベンチマーク

New Benchmarks for Learning on Non-Homophilous Graphs ( http://arxiv.org/abs/2104.01404v1 )

ライセンス: CC BY 4.0
Derek Lim, Xiuyu Li, Felix Hohne, Ser-Nam Lim(参考訳) グラフ構造を持つ多くのデータはホモフィリーの原理を満たすため、連結ノードは特定の属性に関して類似する傾向がある。 このように、グラフ機械学習タスクのためのユビキタスデータセットは一般的に非常にホモフィル性が高く、帰納的バイアスとしてホモフィリーを利用する報奨方法である。 近年の研究では、新しい非ホモフィル性データセットが導入され、低ホモフィル環境に適したグラフ表現学習モデルが開発されている。 しかし、これらのデータセットは小さく、好ましくない設定で新しい手法の有効性を真にテストするのに不適である。 ホモフィリー原理を満たさないノードラベル関係を持つ改良されたグラフデータセットを多数提示する。 これに加えて, 異なる体制における既存の措置よりも適したホモフィリーの有無について, 新たな尺度を提案する。 提案するデータセットにまたがる単純な手法とグラフニューラルネットワークをベンチマークし、さらなる研究のための新たな洞察を導き出した。 データとコードはhttps://github.com/CUAI/Non-Homophily-Benchmarksで見ることができる。

Much data with graph structures satisfy the principle of homophily, meaning that connected nodes tend to be similar with respect to a specific attribute. As such, ubiquitous datasets for graph machine learning tasks have generally been highly homophilous, rewarding methods that leverage homophily as an inductive bias. Recent work has pointed out this particular focus, as new non-homophilous datasets have been introduced and graph representation learning models better suited for low-homophily settings have been developed. However, these datasets are small and poorly suited to truly testing the effectiveness of new methods in non-homophilous settings. We present a series of improved graph datasets with node label relationships that do not satisfy the homophily principle. Along with this, we introduce a new measure of the presence or absence of homophily that is better suited than existing measures in different regimes. We benchmark a range of simple methods and graph neural networks across our proposed datasets, drawing new insights for further research. Data and codes can be found at https://github.com/CUAI/Non-Homophily-Benchmarks.
翻訳日:2021-04-07 13:00:34 公開日:2021-04-03
# (参考訳) IDOL-Net:CT金属アーチファクト低減のための対話型デュアルドメイン並列ネットワーク

IDOL-Net: An Interactive Dual-Domain Parallel Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2104.01405v1 )

ライセンス: CC BY 4.0
Tao Wang, Wenjun Xia, Zexin Lu, Huaiqiang Sun, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) 金属インプラントの存在によりCT(Computerd tomography)の画質は著しく低下した。 ディープラーニングの急速な発展に伴い、金属人工物削減(MAR)のためのネットワークモデルがいくつか提案されている。 デュアルドメインのmar法はsinogramとimage domainの両方のハイブリッド情報を活用できるため、単一ドメインのメソッドに比べて性能が大幅に向上している。 しかし、現在の二重ドメインメソッドは通常、特定の順序で両方のドメイン上で動作し、MARに特定の優先順位を暗黙的に課し、両方のドメイン間の潜む情報相互作用を無視する。 そこで本稿では,この問題を解決するために,idolnetと呼ばれる,インタラクティブなct mar用デュアルドメイン並列ネットワークを提案する。 既存のデュアルドメインメソッドとは異なり、提案したIDOL-Netは2つのモジュールから構成される。 不等角化モジュールを用いて、補足入力として高品質の先行シンノグラム及び画像を生成する。 フォローアップリファインメントモジュールは、2つの並列およびインタラクティブなブランチで構成され、イメージドメインとシングラムドメインを同時に操作し、両方のドメイン間の潜在情報インタラクションを完全に活用する。 シミュレーションおよび臨床実験の結果,提案したIDOL-Netは質的,定量的両面においていくつかの最先端モデルを上回る性能を示した。

Due to the presence of metallic implants, the imaging quality of computed tomography (CT) would be heavily degraded. With the rapid development of deep learning, several network models have been proposed for metal artifact reduction (MAR). Since the dual-domain MAR methods can leverage the hybrid information from both sinogram and image domains, they have significantly improved the performance compared to single-domain methods. However,current dual-domain methods usually operate on both domains in a specific order, which implicitly imposes a certain priority prior into MAR and may ignore the latent information interaction between both domains. To address this problem, in this paper, we propose a novel interactive dualdomain parallel network for CT MAR, dubbed as IDOLNet. Different from existing dual-domain methods, the proposed IDOL-Net is composed of two modules. The disentanglement module is utilized to generate high-quality prior sinogram and image as the complementary inputs. The follow-up refinement module consists of two parallel and interactive branches that simultaneously operate on image and sinogram domain, fully exploiting the latent information interaction between both domains. The simulated and clinical results demonstrate that the proposed IDOL-Net outperforms several state-of-the-art models in both qualitative and quantitative aspects.
翻訳日:2021-04-07 12:45:50 公開日:2021-04-03
# (参考訳) Diff-TTS:テキストから音声への拡散モデル

Diff-TTS: A Denoising Diffusion Model for Text-to-Speech ( http://arxiv.org/abs/2104.01409v1 )

ライセンス: CC BY 4.0
Myeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, and Nam Soo Kim(参考訳) ニューラルテキスト音声(TTS)モデルは、多くの注目を集め、人間のような音声を生成することに成功したが、その自然性とアーキテクチャ効率を改善する余地はまだ残っている。 本研究では,高自然かつ効率的な音声合成を実現する非自己回帰型TSモデルDiff-TTSを提案する。 テキストからDiff-TTSは、拡散時間ステップを介してノイズ信号をメルスペクトルに変換するために、ノイズ拡散フレームワークを利用する。 テキスト上で条件付きメル-スペクトログラム分布を学習するために,TSの確率に基づく最適化手法を提案する。 さらに, 推定速度を高めるために, diff-ttsが知覚品質を著しく低下させることなく, 生波形を高速に生成できる高速化サンプリング法を応用した。 実験により、Diff-TTSはNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを確認した。

Although neural text-to-speech (TTS) models have attracted a lot of attention and succeeded in generating human-like speech, there is still room for improvements to its naturalness and architectural efficiency. In this work, we propose a novel non-autoregressive TTS model, namely Diff-TTS, which achieves highly natural and efficient speech synthesis. Given the text, Diff-TTS exploits a denoising diffusion framework to transform the noise signal into a mel-spectrogram via diffusion time steps. In order to learn the mel-spectrogram distribution conditioned on the text, we present a likelihood-based optimization method for TTS. Furthermore, to boost up the inference speed, we leverage the accelerated sampling method that allows Diff-TTS to generate raw waveforms much faster without significantly degrading perceptual quality. Through experiments, we verified that Diff-TTS generates 28 times faster than the real-time with a single NVIDIA 2080Ti GPU.
翻訳日:2021-04-07 12:34:23 公開日:2021-04-03
# (参考訳) 深部強化学習型IRS支援ダウンリンクNOMA

Deep Reinforcement Learning Powered IRS-Assisted Downlink NOMA ( http://arxiv.org/abs/2104.01414v1 )

ライセンス: CC BY 4.0
Muhammad Shehab, Bekir S. Ciftler, Tamer Khattab, Mohamed Abdallah, and Daniele Trinchero(参考訳) 本研究では、ユーザの総和率を最大化するために、インテリジェント反射面(IRS)を利用したダウンリンク非直交多重アクセス(NOMA)シナリオを検討する。 IRSにおける最適化問題は、位相シフト反射行列のチューニングを必要とするため、非常に複雑で非凸である。 非凸最適化問題に対処可能な深部強化学習(DRL)技術の展開が増加する中で,我々はDRLを用いてIRS位相シフト行列の予測と最適調整を行う。 シミュレーションの結果,我々の利用したDRL方式に基づくIRS支援NOMAはOMA方式に比べて高い総和率を実現し,送信電力の増加に伴い,より多くのユーザに提供する能力が向上することがわかった。 さらに、不完全な逐次干渉キャンセル(SIC)がSICを行うユーザのデータレートに悪影響を及ぼすことを示す。 不完全性が10倍に増加すると、その率は10%以上減少する。

In this work, we examine an intelligent reflecting surface (IRS) assisted downlink non-orthogonal multiple access (NOMA) scenario with the aim of maximizing the sum rate of users. The optimization problem at the IRS is quite complicated, and non-convex, since it requires the tuning of the phase shift reflection matrix. Driven by the rising deployment of deep reinforcement learning (DRL) techniques that are capable of coping with solving non-convex optimization problems, we employ DRL to predict and optimally tune the IRS phase shift matrices. Simulation results reveal that IRS assisted NOMA based on our utilized DRL scheme achieves high sum rate compared to OMA based one, and as the transmit power increases, the capability of serving more users increases. Furthermore, results show that imperfect successive interference cancellation (SIC) has a deleterious impact on the data rate of users performing SIC. As the imperfection increases by ten times, the rate decreases by more than 10%.
翻訳日:2021-04-07 12:24:26 公開日:2021-04-03
# (参考訳) 教師なし外乱モデル選択に関する大規模研究:内部モデル評価戦略の評価

A Large-scale Study on Unsupervised Outlier Model Selection: Evaluating the Internal Model Evaluation Strategies ( http://arxiv.org/abs/2104.01422v1 )

ライセンス: CC BY 4.0
Martin Q. Ma, Yue Zhao, Xiaorong Zhang, Leman Akoglu(参考訳) 教師なしの外れ値検出タスクが与えられたら、どうやって検出アルゴリズムとハイパーパラメータ(共同でモデルと呼ぶ)を選択するべきか? 非教師なしモデル選択は、接地トラスラベルによるホールドアウト検証データがないことで悪名高い。 そのため、この問題は非常に未解決である。 本研究では,外乱検出のためのモデル選択のための内部モデル評価戦略の適用可能性について検討する。 これらのいわゆる内部戦略は、(ラベルなしで)入力データと候補モデルの出力(外部スコア)にのみ依存する。 39の検知タスクと8つの検出器と様々なハイパーパラメータ構成からなる297の候補モデルを備えた大規模なテストベッドをセットアップ(およびオープンソース化)する。 モデルw.r.tの識別能力に関する7つの異なる戦略を評価する。 ラベルを使わずに 性能を検出する 我々の研究は進歩の余地を明らかにします -- 彼らは(ランダムな構成で)最先端の検出器に匹敵するモデルを選択するので、実際は役に立ちません。

Given an unsupervised outlier detection task, how should one select a detection algorithm as well as its hyperparameters (jointly called a model)? Unsupervised model selection is notoriously difficult, in the absence of hold-out validation data with ground-truth labels. Therefore, the problem is vastly understudied. In this work, we study the feasibility of employing internal model evaluation strategies for selecting a model for outlier detection. These so-called internal strategies solely rely on the input data (without labels) and the output (outlier scores) of the candidate models. We setup (and open-source) a large testbed with 39 detection tasks and 297 candidate models comprised of 8 detectors and various hyperparameter configurations. We evaluate 7 different strategies on their ability to discriminate between models w.r.t. detection performance, without using any labels. Our study reveals room for progress -- we find that none would be practically useful, as they select models only comparable to a state-of-the-art detector (with random configuration).
翻訳日:2021-04-07 12:13:01 公開日:2021-04-03
# (参考訳) GANを用いたSDEのモンテカルロシミュレーション

Monte Carlo Simulation of SDEs using GANs ( http://arxiv.org/abs/2104.01437v1 )

ライセンス: CC BY 4.0
Jorino van Rhijn, Cornelis W. Oosterlee, Lech A. Grzelak, Shuaiqiang Liu(参考訳) generative adversarial networks (gans) は偏微分方程式や金融時系列生成に適用すると有望な結果が得られる。 GANが一次元伊藤確率微分方程式(SDE)の近似にも使えるかどうかを検討する。 本研究では,SDEの経路的条件分布を大規模ステップで近似する手法を提案する。 標準GANは分布の過程を近似できるだけであり、SDEに弱い近似をもたらす。 強い近似を可能にする条件付きGANアーキテクチャを提案する。 生成元への事前入力と対応する出力サンプルのマップを用いて、このGANの判別器に通知する。 教師付き GAN を導入します。 入力出力マップを標準GANと比較し、標準GANがパスワイズ近似を得られないことを実験的に示す。 GANは、正確なシミュレーションで得られたデータセットに基づいて訓練される。 このアーキテクチャは幾何ブラウン運動 (gbm) と cox-ingersoll-ross (cir) プロセスでテストされた。 監督されたGANは、大きな時間ステップの離散化において、オイラーとミルスタインのスキームを強い誤差で上回った。 また、条件分布を近似する際の標準条件GANよりも優れていた。 また、標準GANが摂動に敏感な非同調な入力出力マップを生み出し、GANジェネレータの制約や正規化の必要性を動機付けていることを示す。

Generative adversarial networks (GANs) have shown promising results when applied on partial differential equations and financial time series generation. We investigate if GANs can also be used to approximate one-dimensional Ito stochastic differential equations (SDEs). We propose a scheme that approximates the path-wise conditional distribution of SDEs for large time steps. Standard GANs are only able to approximate processes in distribution, yielding a weak approximation to the SDE. A conditional GAN architecture is proposed that enables strong approximation. We inform the discriminator of this GAN with the map between the prior input to the generator and the corresponding output samples, i.e. we introduce a `supervised GAN'. We compare the input-output map obtained with the standard GAN and supervised GAN and show experimentally that the standard GAN may fail to provide a path-wise approximation. The GAN is trained on a dataset obtained with exact simulation. The architecture was tested on geometric Brownian motion (GBM) and the Cox-Ingersoll-Ross (CIR) process. The supervised GAN outperformed the Euler and Milstein schemes in strong error on a discretisation with large time steps. It also outperformed the standard conditional GAN when approximating the conditional distribution. We also demonstrate how standard GANs may give rise to non-parsimonious input-output maps that are sensitive to perturbations, which motivates the need for constraints and regularisation on GAN generators.
翻訳日:2021-04-07 11:49:25 公開日:2021-04-03
# (参考訳) 不均衡データを用いた二分分類における$f_\beta$スコアの最適化のためのサーロゲート損失関数

A surrogate loss function for optimization of $F_\beta$ score in binary classification with imbalanced data ( http://arxiv.org/abs/2104.01459v1 )

ライセンス: CC BY 4.0
Namgil Lee, Heejung Yang, Hojin Yoo(参考訳) f_\beta$スコアは、不均衡なデータセットを持つ分類タスクにおいて重要な役割を果たす分類性能の指標である。 しかし、F_\beta$スコアは、その非微分性のためにニューラルネットワークパラメータを最適化するための勾配に基づく学習アルゴリズムによる損失関数として使用することはできない。 一方、二項クロスエントロピー(BCE)損失のような一般的に用いられる損失関数は、$F_\beta$スコアのようなパフォーマンス指標に直接関連しないため、損失関数を用いて最適化されたニューラルネットワークは最適な性能測定を得られない。 本研究では,モデルパラメータに関する勾配の観点から,分類性能尺度と損失関数の関係について検討した。 次に,$f_\beta$スコアの最適化のための微分可能サーロゲート損失関数を提案する。 提案したサロゲートである$F_\beta$損失関数の勾配経路は,$F_\beta$スコアの大きなサンプル極限の勾配経路に近似することを示した。 ResNets とベンチマーク画像データセットを用いた数値実験により,提案したサロゲート $F_\beta$損失関数が,他の損失関数と比較した場合のクラス不均衡条件下でのF_\beta$損失関数の最適化に有効であることが実証された。

The $F_\beta$ score is a commonly used measure of classification performance, which plays crucial roles in classification tasks with imbalanced data sets. However, the $F_\beta$ score cannot be used as a loss function by gradient-based learning algorithms for optimizing neural network parameters due to its non-differentiability. On the other hand, commonly used loss functions such as the binary cross-entropy (BCE) loss are not directly related to performance measures such as the $F_\beta$ score, so that neural networks optimized by using the loss functions may not yield optimal performance measures. In this study, we investigate a relationship between classification performance measures and loss functions in terms of the gradients with respect to the model parameters. Then, we propose a differentiable surrogate loss function for the optimization of the $F_\beta$ score. We show that the gradient paths of the proposed surrogate $F_\beta$ loss function approximate the gradient paths of the large sample limit of the $F_\beta$ score. Through numerical experiments using ResNets and benchmark image data sets, it is demonstrated that the proposed surrogate $F_\beta$ loss function is effective for optimizing $F_\beta$ scores under class imbalances in binary classification tasks compared with other loss functions.
翻訳日:2021-04-07 10:57:50 公開日:2021-04-03
# (参考訳) 効率的なグラフ畳み込みのための適応フィルタとアグリゲータ融合

Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions ( http://arxiv.org/abs/2104.01481v1 )

ライセンス: CC BY 4.0
Shyam A. Tailor, Felix L. Opolka, Pietro Li\`o, Nicholas D. Lane(参考訳) グラフニューラルネットワーク(GNN)のトレーニングとデプロイは、高いメモリ消費と推論遅延のため、依然として困難である。 そこで本研究では,メモリ消費とレイテンシを低減した最新性能を実現するGNNアーキテクチャと,アクセラレーション実装に適した特徴について述べる。 提案手法は,エッジ数に比例するメモリを必要とする競合する手法とは対照的に,グラフ内の頂点数に比例するメモリを使用する。 我々は,信号処理に触発された新しい適応フィルタリング手法を用いて,それぞれの頂点が独自の重み行列を持つことができるように解釈し,注意力とは無関係であることを示す。 ハードウェアの効率的な利用に追従して,GNNの表現力を大幅に向上させる手法であるアグリゲータ融合を提案し,標準スパース行列乗算よりも19%のレイテンシの増加しか得られなかった。 コードと事前トレーニングされたモデルは、このURLで見ることができる。

Training and deploying graph neural networks (GNNs) remains difficult due to their high memory consumption and inference latency. In this work we present a new type of GNN architecture that achieves state-of-the-art performance with lower memory consumption and latency, along with characteristics suited to accelerator implementation. Our proposal uses memory proportional to the number of vertices in the graph, in contrast to competing methods which require memory proportional to the number of edges; we find our efficient approach actually achieves higher accuracy than competing approaches across 5 large and varied datasets against strong baselines. We achieve our results by using a novel adaptive filtering approach inspired by signal processing; it can be interpreted as enabling each vertex to have its own weight matrix, and is not related to attention. Following our focus on efficient hardware usage, we propose aggregator fusion, a technique to enable GNNs to significantly boost their representational power, with only a small increase in latency of 19% over standard sparse matrix multiplication. Code and pretrained models can be found at this URL: https://github.com/shyam196/egc.
翻訳日:2021-04-07 10:43:30 公開日:2021-04-03
# (参考訳) ラベル雑音下でのロバストトレーニングのための拡張勾配重み付け

Exponentiated Gradient Reweighting for Robust Training Under Label Noise and Beyond ( http://arxiv.org/abs/2104.01493v1 )

ライセンス: CC BY 4.0
Negin Majidi, Ehsan Amid, Hossein Talebi, and Manfred K. Warmuth(参考訳) 機械学習における多くの学習タスクは、各トレーニングイテレーションにおけるサンプルのバッチの平均損失を最小化するための勾配ステップをとることができる。 データにノイズが広まると、この一様な例の処理は、損失値が大きいノイズの例に過度に適合し、一般化が不十分になる可能性がある。 オンライン学習のエキスパート設定に触発されて,ノイズの多い事例から学ぶための柔軟なアプローチを提案する。 具体的には、各トレーニング例を専門家として扱い、すべての例に分散を維持します。 我々は,勾配降下を用いたモデルのパラメータの更新と,指数勾配更新を用いたサンプル重みの更新を交互に行う。 他の関連する手法とは異なり、このアプローチは損失関数の一般的なクラスを扱い、幅広いノイズタイプやアプリケーションに適用できる。 提案手法は,複数の学習環境,すなわち騒音の主成分分析と様々な雑音分類問題に対して有効であることを示す。

Many learning tasks in machine learning can be viewed as taking a gradient step towards minimizing the average loss of a batch of examples in each training iteration. When noise is prevalent in the data, this uniform treatment of examples can lead to overfitting to noisy examples with larger loss values and result in poor generalization. Inspired by the expert setting in on-line learning, we present a flexible approach to learning from noisy examples. Specifically, we treat each training example as an expert and maintain a distribution over all examples. We alternate between updating the parameters of the model using gradient descent and updating the example weights using the exponentiated gradient update. Unlike other related methods, our approach handles a general class of loss functions and can be applied to a wide range of noise types and applications. We show the efficacy of our approach for multiple learning settings, namely noisy principal component analysis and a variety of noisy classification problems.
翻訳日:2021-04-07 10:25:24 公開日:2021-04-03
# 視覚物体検出におけるオープンセット誤り同定の不確かさ

Uncertainty for Identifying Open-Set Errors in Visual Object Detection ( http://arxiv.org/abs/2104.01328v1 )

ライセンス: Link先を確認
Dimity Miller, Niko S\"underhauf, Michael Milford and Feras Dayoub(参考訳) オープンワールドに展開されるオブジェクト検出器は、オープンセットエラーと呼ばれる偽陽性検出のタイプになりがちである。 本稿では,対象検出器からの認識の不確かさをリアルタイムに抽出し,オープンセットエラーを識別・拒否する手法であるgmm-detを提案する。 GMM-Detは検出器を訓練し、クラス固有のガウス混合モデルでモデル化された構造化ロジット空間を生成する。 テスト時に、オープンセットエラーは全てのガウス混合モデルの下でそれらの低いログ確率によって識別される。 r-cnnとretinanetという2つの一般的な検出器アーキテクチャを、ロボティクスとコンピュータビジョンにまたがる3つの異なるデータセットでテストした。 以上の結果から,GMM-Detは,特に安全クリティカルなアプリケーションに必要な低エラーレート動作点において,オープンセット検出の特定と拒否のための既存の不確実性技術よりも優れていた。 GMM-Detはオブジェクト検出性能を維持し、最小限の計算オーバーヘッドしか導入しない。 また、既存のオブジェクト検出データセットを特定のオープンセットデータセットに変換する手法を導入し、オブジェクト検出におけるオープンセット性能を一貫して評価する。 GMM-Detのコードとデータセットの方法論が公開されている。

Deployed into an open world, object detectors are prone to a type of false positive detection termed open-set errors. We propose GMM-Det, a real-time method for extracting epistemic uncertainty from object detectors to identify and reject open-set errors. GMM-Det trains the detector to produce a structured logit space that is modelled with class-specific Gaussian Mixture Models. At test time, open-set errors are identified by their low log-probability under all Gaussian Mixture Models. We test two common detector architectures, Faster R-CNN and RetinaNet, across three varied datasets spanning robotics and computer vision. Our results show that GMM-Det consistently outperforms existing uncertainty techniques for identifying and rejecting open-set detections, especially at the low-error-rate operating point required for safety-critical applications. GMM-Det maintains object detection performance, and introduces only minimal computational overhead. We also introduce a methodology for converting existing object detection datasets into specific open-set datasets to consistently evaluate open-set performance in object detection. Code for GMM-Det and the dataset methodology will be made publicly available.
翻訳日:2021-04-06 14:55:22 公開日:2021-04-03
# アメリカ手話における指節検出

Fingerspelling Detection in American Sign Language ( http://arxiv.org/abs/2104.01291v1 )

ライセンス: Link先を確認
Bowen Shi, Diane Brentari, Greg Shakhnarovich, Karen Livescu(参考訳) 単語が文字で署名される指音は、アメリカの手話の重要な要素である。 指先自動認識に関するこれまでのほとんどの研究は、署名ビデオにおける指先領域の境界が事前に知られていると仮定している。 本稿では,生手話ビデオにおける指先検出の課題について考察する。 これは、現実世界の指先認識システムを構築するための重要なステップである。 そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。 さらに,マルチタスク学習による指の指のスペル検出を学習し,ポーズ推定と指のスペル認識(書き起こし)を併用し,このモデルをいくつかの代替手法と比較するモデルを提案する。 モデルはすべてのメトリクスの代替アプローチを上回り、ベンチマークで最先端の技術を確立します。

Fingerspelling, in which words are signed letter by letter, is an important component of American Sign Language. Most previous work on automatic fingerspelling recognition has assumed that the boundaries of fingerspelling regions in signing videos are known beforehand. In this paper, we consider the task of fingerspelling detection in raw, untrimmed sign language videos. This is an important step towards building real-world fingerspelling recognition systems. We propose a benchmark and a suite of evaluation metrics, some of which reflect the effect of detection on the downstream fingerspelling recognition task. In addition, we propose a new model that learns to detect fingerspelling via multi-task training, incorporating pose estimation and fingerspelling recognition (transcription) along with detection, and compare this model to several alternatives. The model outperforms all alternative approaches across all metrics, establishing a state of the art on the benchmark.
翻訳日:2021-04-06 14:54:44 公開日:2021-04-03
# 視覚変換器と蒸留に基づくディープフェイク検出方式

Deepfake Detection Scheme Based on Vision Transformer and Distillation ( http://arxiv.org/abs/2104.01353v1 )

ライセンス: Link先を確認
Young-Jin Heo, Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) Deepfakeは、誰でも利用できるGAN(Generative Adversarial Networks)やAuto Encoderのような生成的なディープラーニング技術で作られた、操作されたビデオである。 近年、Deepfakeビデオの増加に伴い、フェイクビデオとディープフェイクデータセットを区別できる畳み込みニューラルネットワークからなる分類器が積極的に作成されている。 しかし、cnnの構造に基づく以前の研究は、過剰フィッティングだけでなく、偽のビデオを本物と誤認する問題も抱えていた。 本稿では,偽ビデオ検出のための蒸留手法を用いた視覚変換器モデルを提案する。 cnnの機能とパッチベースのポジショニングモデルがすべての位置と対話し、偽陰性問題を解決するアーティファクト領域を見つけることを学ぶように設計する。 ディープフェイク検出(dfdc)データセットの比較分析により,cnnの複合機能を用いて,入力としてパッチ埋め込み方式が最先端技術よりも優れていることを検証した。 アンサンブル技術がなければ,本モデルはAUCの0.978,f1の91.9,以前のSOTAモデルはAUCの0.972,f1の90.6を得る。

Deepfake is the manipulated video made with a generative deep learning technique such as Generative Adversarial Networks (GANs) or Auto Encoder that anyone can utilize. Recently, with the increase of Deepfake videos, some classifiers consisting of the convolutional neural network that can distinguish fake videos as well as deepfake datasets have been actively created. However, the previous studies based on the CNN structure have the problem of not only overfitting, but also considerable misjudging fake video as real ones. In this paper, we propose a Vision Transformer model with distillation methodology for detecting fake videos. We design that a CNN features and patch-based positioning model learns to interact with all positions to find the artifact region for solving false negative problem. Through comparative analysis on Deepfake Detection (DFDC) Dataset, we verify that the proposed scheme with patch embedding as input outperforms the state-of-the-art using the combined CNN features. Without ensemble technique, our model obtains 0.978 of AUC and 91.9 of f1 score, while previous SOTA model yields 0.972 of AUC and 90.6 of f1 score on the same condition.
翻訳日:2021-04-06 14:54:30 公開日:2021-04-03
# 限定ラベルデータシナリオにおけるグローバルおよびローカルグラフニューラルネットワークによる教師なしドメイン適応:災害管理への応用

Unsupervised Domain Adaptation with Global and Local Graph Neural Networks in Limited Labeled Data Scenario: Application to Disaster Management ( http://arxiv.org/abs/2104.01436v1 )

ライセンス: Link先を確認
Samujjwal Ghosh, Subhadeep Maji, Maunendra Sankar Desarkar(参考訳) 災害時に発生したソーシャルメディア投稿の同定と分類は,被災者の苦痛を軽減する上で重要である。 しかしながら、ラベル付きデータの欠如は、災害の効果的な分類システムを学ぶ上で重要なボトルネックである。 このことは、ラベル付きデータ(ソース)と現在の災害(ターゲット)との間の非教師なしドメイン適応(UDA)としてこの問題を研究する動機となっている。 しかし、利用可能なラベル付きデータの量が限られている場合、モデルの学習能力は制限される。 この課題に対処するために,限られたラベル付きデータと,情報源災害時に発生する豊富なラベル付きデータを用いて,新たな2部グラフニューラルネットワークを提案する。 第1部はドメイン間のトークンレベルグラフを構築し、第2部はローカルインスタンスレベルのセマンティクスを保存することで、ドメインに依存しないグローバル情報を抽出する。 本実験では,災害管理分野の2つの標準データセットにおいて,提案手法が平均2.74\%$重み付きf$_1$スコアで最先端技術を上回ることを示す。 また,災害領域における粒度対応可能な多ラベル分類データセットの実験結果を報告し,平均重量値F$_1$でBERTを3.00\%以上上回る結果を得た。 さらに,ラベル付きデータが非常に限定された場合に,本手法が性能を維持することを示す。

Identification and categorization of social media posts generated during disasters are crucial to reduce the sufferings of the affected people. However, lack of labeled data is a significant bottleneck in learning an effective categorization system for a disaster. This motivates us to study the problem as unsupervised domain adaptation (UDA) between a previous disaster with labeled data (source) and a current disaster (target). However, if the amount of labeled data available is limited, it restricts the learning capabilities of the model. To handle this challenge, we utilize limited labeled data along with abundantly available unlabeled data, generated during a source disaster to propose a novel two-part graph neural network. The first-part extracts domain-agnostic global information by constructing a token level graph across domains and the second-part preserves local instance-level semantics. In our experiments, we show that the proposed method outperforms state-of-the-art techniques by $2.74\%$ weighted F$_1$ score on average on two standard public dataset in the area of disaster management. We also report experimental results for granular actionable multi-label classification datasets in disaster domain for the first time, on which we outperform BERT by $3.00\%$ on average w.r.t weighted F$_1$. Additionally, we show that our approach can retain performance when very limited labeled data is available.
翻訳日:2021-04-06 14:53:49 公開日:2021-04-03
# プロパティ駆動トレーニング:あなた(N)が知りたかったことすべて

Property-driven Training: All You (N)Ever Wanted to Know About ( http://arxiv.org/abs/2104.01396v1 )

ライセンス: Link先を確認
Marco Casadio, Matthew Daggitt, Ekaterina Komendantskaya, Wen Kokke, Daniel Kienitz, Rob Stewart(参考訳) ニューラルネットワークは、ノイズデータ中の一般的なパターンを検出する能力で知られている。 これにより、複雑なAIシステムにおける知覚コンポーネントの一般的なツールとなる。 逆説的に、敵の攻撃に弱いことでも知られている。 これに対し, 対人訓練, データ強化, リプシッツ頑健性訓練など様々な手法が提案されている。 しかし,本稿では,それぞれ異なるロバスト性の定義を最適化する手法について検討する。 学習後,それらの関係,仮定,解釈可能性,検証可能性など,これらの定義を詳細に比較した。 制約駆動トレーニングは、任意の制約をエンコードするように設計された一般的なアプローチであり、これらすべての定義が直接エンコード可能ではないことを示している。 最後に,ネットワークがこれら異なる定義に従うことを保証するためのトレーニング手法の適用可能性と有効性を比較する実験を行う。 これらの結果は、ニューラルネットワークトレーニングにおける堅牢性などの単純な知識のエンコーディングでさえ、難しい選択と落とし穴に満ちていることを示している。

Neural networks are known for their ability to detect general patterns in noisy data. This makes them a popular tool for perception components in complex AI systems. Paradoxically, they are also known for being vulnerable to adversarial attacks. In response, various methods such as adversarial training, data-augmentation and Lipschitz robustness training have been proposed as means of improving their robustness. However, as this paper explores, these training methods each optimise for a different definition of robustness. We perform an in-depth comparison of these different definitions, including their relationship, assumptions, interpretability and verifiability after training. We also look at constraint-driven training, a general approach designed to encode arbitrary constraints, and show that not all of these definitions are directly encodable. Finally we perform experiments to compare the applicability and efficacy of the training methods at ensuring the network obeys these different definitions. These results highlight that even the encoding of such a simple piece of knowledge such as robustness in neural network training is fraught with difficult choices and pitfalls.
翻訳日:2021-04-06 14:52:58 公開日:2021-04-03
# 階層的データセットの連成幾何学的・トポロジカル解析

Joint Geometric and Topological Analysis of Hierarchical Datasets ( http://arxiv.org/abs/2104.01395v1 )

ライセンス: Link先を確認
Lior Aloni, Omer Bobrowski, Ronen Talmon(参考訳) 複雑な取得技術から生じる多様なデータに富む世界では、新たなデータ分析手法の必要性が高まっている。 本稿では,複数の階層的データセットに分類した高次元データに着目した。 各データセットは複雑なサンプルで構成されており、各サンプルはグラフによってモデル化された異なる不規則構造を持つと仮定する。 この研究の主な特徴は、トポロジカルデータ解析(TDA)と幾何多様体学習という、2つの補完的なデータ分析アプローチの組み合わせにある。 幾何学は主に局所的な情報を含むが、トポロジーは本質的にグローバルな記述子を提供する。 この組み合わせに基づいて,階層的データセットの情報表現を構築する手法を提案する。 より細かい(サンプル)レベルでは、定量的構造解析を容易にする多様体学習に基づくサンプル間の新しい計量を考案する。 粗い(データセット)レベルでは、データセットから定性的構造情報を抽出するためにTDAを使用します。 本研究では,シミュレーションデータとハイパースペクトル画像のコーパスに対して,提案手法の適用性と利点を示す。 ハイパースペクトル画像のアンサンブルは階層構造を呈し,考察した設定によく適合することを示す。 さらに,本手法は,最先端手法と比較して,より優れた分類結果をもたらすことを示す。

In a world abundant with diverse data arising from complex acquisition techniques, there is a growing need for new data analysis methods. In this paper we focus on high-dimensional data that are organized into several hierarchical datasets. We assume that each dataset consists of complex samples, and every sample has a distinct irregular structure modeled by a graph. The main novelty in this work lies in the combination of two complementing powerful data-analytic approaches: topological data analysis (TDA) and geometric manifold learning. Geometry primarily contains local information, while topology inherently provides global descriptors. Based on this combination, we present a method for building an informative representation of hierarchical datasets. At the finer (sample) level, we devise a new metric between samples based on manifold learning that facilitates quantitative structural analysis. At the coarser (dataset) level, we employ TDA to extract qualitative structural information from the datasets. We showcase the applicability and advantages of our method on simulated data and on a corpus of hyper-spectral images. We show that an ensemble of hyper-spectral images exhibits a hierarchical structure that fits well the considered setting. In addition, we show that our new method gives rise to superior classification results compared to state-of-the-art methods.
翻訳日:2021-04-06 14:51:32 公開日:2021-04-03
# cohortney: 不均一なイベントシーケンスに対する深いクラスタリング

COHORTNEY: Deep Clustering for Heterogeneous Event Sequences ( http://arxiv.org/abs/2104.01440v1 )

ライセンス: Link先を確認
Vladislav Zhuzhel, Rodrigo Rivera-Castro, Nina Kaploukhaya, Liliya Mironova, Alexey Zaytsev, Evgeny Burnaev(参考訳) イベントシーケンスを扱うことに注目が集まっている。 特に、イベントシーケンスのクラスタリングは、医療、マーケティング、金融といった分野に広く適用されています。 利用例としては、ウェブサイト、病院、銀行取引への訪問者の分析がある。 従来の時系列とは異なり、イベントシーケンスはスパースであり、時間的間隔が等しくない傾向がある。 その結果、それらは異なる性質を示し、最先端の手法を開発する際に考慮する必要がある。 コミュニティは異種イベントシーケンスの特異性にはほとんど注意を払っていない。 クラスタリングにおける既存の研究は主に古典的な時系列データに焦点を当てている。 文献中の提案手法がイベントシーケンスにうまく一般化するかどうかは明らかでない。 本稿では,異種事象列をクラスタリングするための新しい深層学習手法としてCOHORTNEYを提案する。 i) lstmとemアルゴリズムとコード実装の組み合わせを用いた新しい手法、(ii)時系列とイベントシーケンスクラスタリングに関する以前の研究との比較、(iii)金融業界からの新たなデータセットに対する異なるアプローチのパフォーマンスベンチマーク、および14の追加データセットを含む。 その結果,cohortneyは,イベントシーケンスをクラスタリングする最先端アルゴリズムの速度とクラスタ品質を大きく上回っていることがわかった。

There is emerging attention towards working with event sequences. In particular, clustering of event sequences is widely applicable in domains such as healthcare, marketing, and finance. Use cases include analysis of visitors to websites, hospitals, or bank transactions. Unlike traditional time series, event sequences tend to be sparse and not equally spaced in time. As a result, they exhibit different properties, which are essential to account for when developing state-of-the-art methods. The community has paid little attention to the specifics of heterogeneous event sequences. Existing research in clustering primarily focuses on classic times series data. It is unclear if proposed methods in the literature generalize well to event sequences. Here we propose COHORTNEY as a novel deep learning method for clustering heterogeneous event sequences. Our contributions include (i) a novel method using a combination of LSTM and the EM algorithm and code implementation; (ii) a comparison of this method to previous research on time series and event sequence clustering; (iii) a performance benchmark of different approaches on a new dataset from the finance industry and fourteen additional datasets. Our results show that COHORTNEY vastly outperforms in speed and cluster quality the state-of-the-art algorithm for clustering event sequences.
翻訳日:2021-04-06 14:51:16 公開日:2021-04-03
# 事前正規化を伴う不完全データシナリオにおける深い正規化フローモデルの訓練

Training Deep Normalizing Flow Models in Highly Incomplete Data Scenarios with Prior Regularization ( http://arxiv.org/abs/2104.01482v1 )

ライセンス: Link先を確認
Edgar A. Bernal(参考訳) GANや正規化フローモデルを含む深い生成フレームワークは、部分的に観察されたデータサンプルの欠落した値を、明示的にも暗黙的にも、複雑で高次元の統計分布を効果的に学習することで埋めることに成功した。 しかし、学習に利用可能なデータが部分的にのみ観測されるタスクでは、その性能はデータ不足率の関数として単調に低下する。 高機能なデータレート(60%以上)では、最先端のモデルが分解され、非現実的で意味的に不正確なデータを生成する傾向が観察されている。 本研究では,問題に対する従来のソリューションの定式化にインスパイアされた,高明度シナリオにおけるデータ分散の学習を容易にする新しいフレームワークを提案する。 提案手法は,学習対象モデルのパラメータと欠落したデータ値の同時最適化タスクとして,不完全データから学習するプロセスを構成することに由来する。 この手法は、深い正規化フローモデルのような明示的で牽引可能な深い生成フレームワークを訓練するために使用される目的とシームレスに統合する事前正規化項を強制する。 本稿では,提案フレームワークが競合する手法,特にデータポーシティがユニティに近づく速度を上回っていることを実験的検証により実証する。

Deep generative frameworks including GANs and normalizing flow models have proven successful at filling in missing values in partially observed data samples by effectively learning -- either explicitly or implicitly -- complex, high-dimensional statistical distributions. In tasks where the data available for learning is only partially observed, however, their performance decays monotonically as a function of the data missingness rate. In high missing data rate regimes (e.g., 60% and above), it has been observed that state-of-the-art models tend to break down and produce unrealistic and/or semantically inaccurate data. We propose a novel framework to facilitate the learning of data distributions in high paucity scenarios that is inspired by traditional formulations of solutions to ill-posed problems. The proposed framework naturally stems from posing the process of learning from incomplete data as a joint optimization task of the parameters of the model being learned and the missing data values. The method involves enforcing a prior regularization term that seamlessly integrates with objectives used to train explicit and tractable deep generative frameworks such as deep normalizing flow models. We demonstrate via extensive experimental validation that the proposed framework outperforms competing techniques, particularly as the rate of data paucity approaches unity.
翻訳日:2021-04-06 14:50:50 公開日:2021-04-03
# Denoising と Compression によるグラディエントベースの敵攻撃の軽減

Mitigating Gradient-based Adversarial Attacks via Denoising and Compression ( http://arxiv.org/abs/2104.01494v1 )

ライセンス: Link先を確認
Rehana Mahfuz, Rajeev Sahay, Aly El Gamal(参考訳) 深層ニューラルネットワークに対する勾配ベースの逆攻撃は、任意のネットワークのテストデータに知覚不能な摂動を追加してデプロイできるため、深刻な脅威となる。 デノイジング(denoising)と次元還元(dimensionality reduction)は、そのような攻撃と戦うために独立に研究された2つの方法である。 デノージングは防御を攻撃の特定の性質に合わせて調整する能力を提供するが、次元的縮小は、それまで認識されていなかった摂動を取り除き、防御されるネットワークのトレーニング時間を短縮するという利点をもたらす。 これら2つの防御機構の利点を組み合わせるための戦略を提案する。 まず, ディノワ化と次元減少を伴うカスケード防御を提案する。 性能の小さなトレードオフに対する防御の訓練時間を短縮するために,デノイジングオートエンコーダのエンコーダの出力をネットワークに供給する隠れ層防御を提案する。 さらに,これらの防御に対する適応攻撃が,代替防御が使用される場合や防御が使用されない場合において,著しく弱くなる可能性についても検討した。 そこで本研究では,防御の修正に対する適応攻撃の感度を測定する防衛評価のための新しい指標を提案する。 最後に、防衛の命令されたレパートリーを構築するためのガイドラインを提示する。 攻撃戦略の不確実性がある場合に限られた計算資源に適応する防衛インフラ。

Gradient-based adversarial attacks on deep neural networks pose a serious threat, since they can be deployed by adding imperceptible perturbations to the test data of any network, and the risk they introduce cannot be assessed through the network's original training performance. Denoising and dimensionality reduction are two distinct methods that have been independently investigated to combat such attacks. While denoising offers the ability to tailor the defense to the specific nature of the attack, dimensionality reduction offers the advantage of potentially removing previously unseen perturbations, along with reducing the training time of the network being defended. We propose strategies to combine the advantages of these two defense mechanisms. First, we propose the cascaded defense, which involves denoising followed by dimensionality reduction. To reduce the training time of the defense for a small trade-off in performance, we propose the hidden layer defense, which involves feeding the output of the encoder of a denoising autoencoder into the network. Further, we discuss how adaptive attacks against these defenses could become significantly weak when an alternative defense is used, or when no defense is used. In this light, we propose a new metric to evaluate a defense which measures the sensitivity of the adaptive attack to modifications in the defense. Finally, we present a guideline for building an ordered repertoire of defenses, a.k.a. a defense infrastructure, that adjusts to limited computational resources in presence of uncertainty about the attack strategy.
翻訳日:2021-04-06 14:49:16 公開日:2021-04-03
# ビジュアルオブジェクト追跡の高速化を目指したモバイルCNN特徴抽出学習

Learning Mobile CNN Feature Extraction Toward Fast Computation of Visual Object Tracking ( http://arxiv.org/abs/2104.01381v1 )

ライセンス: Link先を確認
Tsubasa Murate, Takashi Watanabe, Masaki Yamada(参考訳) 本稿では,訓練されたCNNを用いて,軽量で高精度で高速な物体追跡を行う。 訓練されたCNNを使った従来の方法は、強力な計算資源を必要とするVGG16ネットワークを使用する。 したがって、低計算資源環境では適用が難しいという問題がある。 この問題を解決するために,モバイル端末用CNNであるMobileNetV3を用い,特徴マップ選択追跡に基づいて,オブジェクト追跡に有効なMobileNetの特徴を抽出するアーキテクチャを提案する。 オンライン学習は必要ありませんが、オフライン学習のみです。 また、追跡対象以外の対象物の特徴を用いて、追跡対象物の特徴をより効率的に抽出する。 追従精度をVisual Tracker Benchmarkで測定し,提案手法が低計算資源環境においても高精度かつ高速に計算できることを確認する。

In this paper, we construct a lightweight, high-precision and high-speed object tracking using a trained CNN. Conventional methods with trained CNNs use VGG16 network which requires powerful computational resources. Therefore, there is a problem that it is difficult to apply in low computation resources environments. To solve this problem, we use MobileNetV3, which is a CNN for mobile terminals.Based on Feature Map Selection Tracking, we propose a new architecture that extracts effective features of MobileNet for object tracking. The architecture requires no online learning but only offline learning. In addition, by using features of objects other than tracking target, the features of tracking target are extracted more efficiently. We measure the tracking accuracy with Visual Tracker Benchmark and confirm that the proposed method can perform high-precision and high-speed calculation even in low computation resource environments.
翻訳日:2021-04-06 14:48:03 公開日:2021-04-03
# 自己適応型メトリクス学習を目指して

Towards Self-Adaptive Metric Learning On the Fly ( http://arxiv.org/abs/2104.01495v1 )

ライセンス: Link先を確認
Yang Gao, Yi-Fan Li, Swarup Chandra, Latifur Khan, Bhavani Thuraisingham(参考訳) 高品質な類似度メトリクスは、多くの大規模な実世界のアプリケーションのパフォーマンスを著しく向上させる。 既存の研究では、類似(異種)のペア間の距離を与えられた下限(上限)よりも小さい(大きい)ように制限するか、類似のインスタンスを与えられたマージンを持つ異種(異種)のインスタンスから切り離すかで、マハラノビスまたは双線型計量をオンライン的に学習する様々な方法が提案されている。 しかし、固定境界やマージンを利用して学んだこれらの線形メトリクスは、現実のアプリケーション、特にデータ分布が複雑である場合にはうまく機能しない。 適応メトリック関数をオンザフライで学習する上で,オンライン適応メトリック学習(OAML)のオープンな課題に対処することを目指している。 従来のオンラインメトリック学習法とは異なり、OAMLは学習されたメトリックが非線形であり、より多くのインスタンスが観察されるにつれてモデルが自己適応的である必要があるため、かなり難しい。 本稿では,制約の流れから適応的なモデル複雑性を持つANNベースのメトリクスを学習することで,課題に対処する新しいオンラインメトリック学習フレームワークを提案する。 特に,入力制約を効果的に活用するための新しいAdaptive-Bound Triplet Loss (ABTL) を提案し,モデルパラメータをオンライン更新するための新しいAdaptive Hedge Update (AHU) 手法を提案する。 実世界の画像分類,顔認証,画像検索など,様々なアプリケーションにおけるフレームワークの有効性と有効性を実証的に検証した。

Good quality similarity metrics can significantly facilitate the performance of many large-scale, real-world applications. Existing studies have proposed various solutions to learn a Mahalanobis or bilinear metric in an online fashion by either restricting distances between similar (dissimilar) pairs to be smaller (larger) than a given lower (upper) bound or requiring similar instances to be separated from dissimilar instances with a given margin. However, these linear metrics learned by leveraging fixed bounds or margins may not perform well in real-world applications, especially when data distributions are complex. We aim to address the open challenge of "Online Adaptive Metric Learning" (OAML) for learning adaptive metric functions on the fly. Unlike traditional online metric learning methods, OAML is significantly more challenging since the learned metric could be non-linear and the model has to be self-adaptive as more instances are observed. In this paper, we present a new online metric learning framework that attempts to tackle the challenge by learning an ANN-based metric with adaptive model complexity from a stream of constraints. In particular, we propose a novel Adaptive-Bound Triplet Loss (ABTL) to effectively utilize the input constraints and present a novel Adaptive Hedge Update (AHU) method for online updating the model parameters. We empirically validate the effectiveness and efficacy of our framework on various applications such as real-world image classification, facial verification, and image retrieval.
翻訳日:2021-04-06 14:47:50 公開日:2021-04-03
# Counts@IITK at SemEval-2021 Task 8: SciBERT based Entity and Semantic Relation extract for Scientific Data

Counts@IITK at SemEval-2021 Task 8: SciBERT Based Entity And Semantic Relation Extraction For Scientific Data ( http://arxiv.org/abs/2104.01364v1 )

ライセンス: Link先を確認
Akash Gangwar, Sabhay Jain, Shubham Sourav, Ashutosh Modi(参考訳) 本稿では,SemEval 2021 Task 8(MeasEval)を提案する。 MeasEvalは、量、それらの量の特徴、および関連する測定対象、特性、測定コンテキストを含む追加情報を見つけることに焦点を当てた、新しいスパン抽出、分類、関係抽出タスクである。 SciBERTには[CLS]トークンが埋め込まれ, CRF層が上部に配置されていた。 また、Quantity (tied) と Unit subtasks も第2位、 MeasuredEntity, Modifier and Qualify subtasks は第3位、Qualifier subtask も第3位に位置づけました。

This paper presents the system for SemEval 2021 Task 8 (MeasEval). MeasEval is a novel span extraction, classification, and relation extraction task focused on finding quantities, attributes of these quantities, and additional information, including the related measured entities, properties, and measurement contexts. Our submitted system, which placed fifth (team rank) on the leaderboard, consisted of SciBERT with [CLS] token embedding and CRF layer on top. We were also placed first in Quantity (tied) and Unit subtasks, second in MeasuredEntity, Modifier and Qualifies subtasks, and third in Qualifier subtask.
翻訳日:2021-04-06 14:45:24 公開日:2021-04-03
# 意見要約のための凸アグリゲーション

Convex Aggregation for Opinion Summarization ( http://arxiv.org/abs/2104.01371v1 )

ライセンス: Link先を確認
Hayate Iso, Xiaolan Wang, Yoshihiko Suhara, Stefanos Angelidis, Wang-Chiew Tan(参考訳) 非教師なしの意見要約に対する最近のアプローチは、主にレビューレコンストラクショントレーニングパラダイムを使用している。 エンコーダデコーダモデルは、単一レビューを再構築するために訓練され、潜在レビューエンコーディング空間を学ぶ。 要約時には、潜在レビューベクトルの未重み付き平均を要約に復号する。 本稿では,遅延ベクトル集合を単に平均化するという慣行に挑戦し,この単純化手法は入力レビューの品質やデコーダの慣用性の違いを考慮できないと主張している。 本稿では,意見要約のためのconvexベクトル集約フレームワークであるcoopを提案する。 coopはさらなる監督を必要とせず、単純な単語重なり目標を使用して、モデルが入力レビューと一貫性のある要約を生成するのを助ける。 実験結果によると、意見要約器をCoopで拡張すると最先端のパフォーマンスが向上し、YelpとAmazonのベンチマークデータセットではROUGE-1が3.7%と2.9%改善した。

Recent approaches for unsupervised opinion summarization have predominantly used the review reconstruction training paradigm. An encoder-decoder model is trained to reconstruct single reviews and learns a latent review encoding space. At summarization time, the unweighted average of latent review vectors is decoded into a summary. In this paper, we challenge the convention of simply averaging the latent vector set, and claim that this simplistic approach fails to consider variations in the quality of input reviews or the idiosyncrasies of the decoder. We propose Coop, a convex vector aggregation framework for opinion summarization, that searches for better combinations of input reviews. Coop requires no further supervision and uses a simple word overlap objective to help the model generate summaries that are more consistent with input reviews. Experimental results show that extending opinion summarizers with Coop results in state-of-the-art performance, with ROUGE-1 improvements of 3.7% and 2.9% on the Yelp and Amazon benchmark datasets, respectively.
翻訳日:2021-04-06 14:45:08 公開日:2021-04-03
# 感情識別性を改善した感情音声合成のための強化学習

Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability ( http://arxiv.org/abs/2104.01408v1 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Haizhou Li(参考訳) 感情的テキスト音声合成(ETTS)は近年大きく進歩している。 しかし、生成された音声は意図する感情カテゴリーによって知覚的に識別できないことが多い。 この問題に対処するために,音声感情認識(SER)モデルと対話することで,感情の識別性を直接的に改善するETTSの新しい対話型トレーニングパラダイムを提案する。 さらに,i-ETTS最適化の品質を確保するため,強化学習による反復的学習戦略を定式化する。 実験の結果,提案したi-ETTSは,より正確な感情スタイルで音声を描画することで,最先端のベースラインよりも優れていた。 私たちの知る限りでは、感情的テキスト音声合成における強化学習の最初の研究である。

Emotional text-to-speech synthesis (ETTS) has seen much progress in recent years. However, the generated voice is often not perceptually identifiable by its intended emotion category. To address this problem, we propose a new interactive training paradigm for ETTS, denoted as i-ETTS, which seeks to directly improve the emotion discriminability by interacting with a speech emotion recognition (SER) model. Moreover, we formulate an iterative training strategy with reinforcement learning to ensure the quality of i-ETTS optimization. Experimental results demonstrate that the proposed i-ETTS outperforms the state-of-the-art baselines by rendering speech with more accurate emotion style. To our best knowledge, this is the first study of reinforcement learning in emotional text-to-speech synthesis.
翻訳日:2021-04-06 14:44:50 公開日:2021-04-03
# 性差別検出:アラビア語/フランス語と英語でコードスイッチングを施したアルジェ方言における最初のコーパス

Sexism detection: The first corpus in Algerian dialect with a code-switching in Arabic/ French and English ( http://arxiv.org/abs/2104.01443v1 )

ライセンス: Link先を確認
Imane Guellil and Ahsan Adeel and Faical Azouaou and Mohamed Boubred and Yousra Houichi and Akram Abdelhaq Moumna(参考訳) 本稿では,ソーシャルメディア上でのアラビア語コミュニティの女性に対するヘイトスピーチ検出手法について述べる。 Youtube)が提案されている。 文学では、英語など他の言語にも同様の作品が提示されている。 しかし、我々の知る限り、アラビア語での作業はあまり行われていない。 3種類のアノテーションを用いて新しいヘイトスピーチコーパス(アラビア語\_fr\_en)を開発する。 コーパス検証には、深層畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、双方向LSTM(Bi-directional LSTM)ネットワークを含む3つの異なる機械学習アルゴリズムが使用される。 シミュレーションの結果, LSTM や Bi-LSTM と比較してF1スコアを最大 86% まで達成した CNN モデルでは, 最高の性能を示した。

In this paper, an approach for hate speech detection against women in Arabic community on social media (e.g. Youtube) is proposed. In the literature, similar works have been presented for other languages such as English. However, to the best of our knowledge, not much work has been conducted in the Arabic language. A new hate speech corpus (Arabic\_fr\_en) is developed using three different annotators. For corpus validation, three different machine learning algorithms are used, including deep Convolutional Neural Network (CNN), long short-term memory (LSTM) network and Bi-directional LSTM (Bi-LSTM) network. Simulation results demonstrate the best performance of the CNN model, which achieved F1-score up to 86\% for the unbalanced corpus as compared to LSTM and Bi-LSTM.
翻訳日:2021-04-06 14:44:39 公開日:2021-04-03
# 説明文探索結果におけるBERTトークン表現の役割を探る

Exploring the Role of BERT Token Representations to Explain Sentence Probing Results ( http://arxiv.org/abs/2104.01477v1 )

ライセンス: Link先を確認
Hosein Mohebbi, Ali Modarressi, Mohammad Taher Pilehvar(参考訳) バートが捉えた言語的特徴を明らかにする研究がいくつか行われている。 これは通常、BERTの異なる層から得られた表現について診断分類器を訓練することで達成される。 その後の分類精度は、対応する言語特性を符号化するモデルの能力として解釈される。 洞察を提供するにもかかわらず、これらの研究はトークン表現の潜在的な役割を排除した。 本稿では,探索結果を説明するための特異かつ有意義な部分空間を求めて,bert の表現空間の解析を行う。 探索タスクのセットと帰属手法の助けを借りて、BERTは特定のトークン表現(標準分類設定では無視されることが多い)において意味のある知識を符号化し、モデルが構文的および意味的異常を検知し、文法的数とテンソル部分空間を区別する傾向があることを示す。

Several studies have been carried out on revealing linguistic features captured by BERT. This is usually achieved by training a diagnostic classifier on the representations obtained from different layers of BERT. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this paper, we provide an analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations (which are often ignored in standard classification setups), allowing the model to detect syntactic and semantic abnormalities, and to distinctively separate grammatical number and tense subspaces.
翻訳日:2021-04-06 14:44:25 公開日:2021-04-03
# 効率的なDETR:Dense Priorによるエンドツーエンドオブジェクト検出器の改善

Efficient DETR: Improving End-to-End Object Detector with Dense Prior ( http://arxiv.org/abs/2104.01318v1 )

ライセンス: Link先を確認
Zhuyu Yao, Jiangbo Ai, Boxun Li, Chi Zhang(参考訳) DETRやDeformable DETRのような最近提案されたエンドツーエンドのトランスフォーマー検出器は、6つのデコーダ層を積み重ねてオブジェクトクエリを反復的に更新するカスケード構造を持つ。 本稿では、オブジェクトクエリや参照ポイントを含むオブジェクトコンテナのランダム初期化が、主に複数のイテレーションの要求に対するものであることを示す。 そこで本研究では,エンドツーエンドオブジェクト検出のための簡易かつ効率的なパイプラインであるEfficient DETRを提案する。 密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナの初期化の前に密度を活用し、1デコーダ構造と6デコーダ構造のギャップをもたらす。 MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。 効率的なDETRは、混雑したシーンでも堅牢である。 これは、CrowdHumanデータセット上の現代の検出器を大きなマージンで上回る。

The recently proposed end-to-end transformer detectors, such as DETR and Deformable DETR, have a cascade structure of stacking 6 decoder layers to update object queries iteratively, without which their performance degrades seriously. In this paper, we investigate that the random initialization of object containers, which include object queries and reference points, is mainly responsible for the requirement of multiple iterations. Based on our findings, we propose Efficient DETR, a simple and efficient pipeline for end-to-end object detection. By taking advantage of both dense detection and sparse set detection, Efficient DETR leverages dense prior to initialize the object containers and brings the gap of the 1-decoder structure and 6-decoder structure. Experiments conducted on MS COCO show that our method, with only 3 encoder layers and 1 decoder layer, achieves competitive performance with state-of-the-art object detection methods. Efficient DETR is also robust in crowded scenes. It outperforms modern detectors on CrowdHuman dataset by a large margin.
翻訳日:2021-04-06 14:40:23 公開日:2021-04-03
# darcnn: 生体画像における教師なしインスタンスセグメンテーションのための領域適応型畳み込みニューラルネットワーク

DARCNN: Domain Adaptive Region-based Convolutional Neural Network for Unsupervised Instance Segmentation in Biomedical Images ( http://arxiv.org/abs/2104.01325v1 )

ライセンス: Link先を確認
Joy Hsu, Wah Chiu, Serena Yeung(参考訳) 生物医学領域では、興味の対象が人間の知識の限界によって検出または制限されることが困難であるような、密度の高い複雑なデータが豊富に存在する。 教師付きタスクのためのラベル付きドメイン固有データセットは、しばしば取得に費用がかかり、さらに新しい異なるオブジェクトの発見は、偏りのない科学的発見に望ましいかもしれない。 そこで我々は,ベンチマークコンピュータビジョンデータセットの豊富なアノテーションを活用し,多様なバイオメディカルデータセットに対する教師なしインスタンスセグメンテーションを行う。 鍵となる障害は、一般的な画像から生物医学画像への大きな領域シフトを克服することである。 本研究では,大規模なラベル付きビジョンデータセットであるCOCOから複数のバイオメディカルデータセットへのオブジェクト定義の知識を適応させるドメイン適応型領域ベース畳み込みニューラルネットワーク(DARCNN)を提案する。 ドメイン分離モジュール,自己教師付き表現一貫性損失,darcnn内の拡張擬似ラベルステージを導入し,このような大きなドメインシフトに対して効果的にドメイン適応を行う。 多数のバイオメディカルデータセット上での教師なしインスタンスセグメンテーションにおけるDARCNNの性能を示す。

In the biomedical domain, there is an abundance of dense, complex data where objects of interest may be challenging to detect or constrained by limits of human knowledge. Labelled domain specific datasets for supervised tasks are often expensive to obtain, and furthermore discovery of novel distinct objects may be desirable for unbiased scientific discovery. Therefore, we propose leveraging the wealth of annotations in benchmark computer vision datasets to conduct unsupervised instance segmentation for diverse biomedical datasets. The key obstacle is thus overcoming the large domain shift from common to biomedical images. We propose a Domain Adaptive Region-based Convolutional Neural Network (DARCNN), that adapts knowledge of object definition from COCO, a large labelled vision dataset, to multiple biomedical datasets. We introduce a domain separation module, a self-supervised representation consistency loss, and an augmented pseudo-labelling stage within DARCNN to effectively perform domain adaptation across such large domain shifts. We showcase DARCNN's performance for unsupervised instance segmentation on numerous biomedical datasets.
翻訳日:2021-04-06 14:40:04 公開日:2021-04-03
# Recursly Refined R-CNN:Self-RoI Rebalancingによるインスタンスセグメンテーション

Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing ( http://arxiv.org/abs/2104.01329v1 )

ライセンス: Link先を確認
Leonardo Rossi, Akbar Karimi, Andrea Prati(参考訳) インスタンスセグメンテーションの分野において、最先端のディープラーニングネットワークのほとんどは、現在カスケードアーキテクチャに依存しており、複数のオブジェクト検出器が順次トレーニングされ、各ステップで基底真理を再サンプリングしている。 これにより、指数関数的に正のサンプルを消滅する問題の解が得られる。 しかし、パラメータの数の観点からするとネットワークの複雑さも増大する。 この問題に対処するため,ループ機構を導入して重複を回避するRecursively Refined R-CNN(R^3$-CNN)を提案する。 同時に、再帰的再サンプリング技術を用いて、各再帰において特定のIoU品質を利用して、最終的に正のスペクトルを均等にカバーする品質向上を実現する。 実験では,重みのループ機構の特定のエンコーディングに注目し,推論時に使用する必要がある。 R^3$-CNNアーキテクチャは、最近提案されたHTCモデルを超えることができ、パラメータの数を著しく削減できる。 COCO Minival 2017データセットの実験では、使用済みベースラインモデルとは独立してパフォーマンスが向上した。 コードはhttps://github.com/implabunipr/mmdetection/tree/r3_cnnで入手できる。

Within the field of instance segmentation, most of the state-of-the-art deep learning networks rely nowadays on cascade architectures, where multiple object detectors are trained sequentially, re-sampling the ground truth at each step. This offers a solution to the problem of exponentially vanishing positive samples. However, it also translates into an increase in network complexity in terms of the number of parameters. To address this issue, we propose Recursively Refined R-CNN ($R^3$-CNN) which avoids duplicates by introducing a loop mechanism instead. At the same time, it achieves a quality boost using a recursive re-sampling technique, where a specific IoU quality is utilized in each recursion to eventually equally cover the positive spectrum. Our experiments highlight the specific encoding of the loop mechanism in the weights, requiring its usage at inference time. The $R^3$-CNN architecture is able to surpass the recently proposed HTC model, while reducing the number of parameters significantly. Experiments on COCO minival 2017 dataset show performance boost independently from the utilized baseline model. The code is available online at https://github.com/IMPLabUniPr/mmdetection/tree/r3_cnn.
翻訳日:2021-04-06 14:39:47 公開日:2021-04-03
# HOG特徴抽出が可能な勾配保存画像の生成

Generation of Gradient-Preserving Images allowing HOG Feature Extraction ( http://arxiv.org/abs/2104.01350v1 )

ライセンス: Link先を確認
Masaki Kitayama, Hitoshi Kiya(参考訳) 本稿では,勾配保存画像と呼ばれる視覚的に保護された画像を生成する手法を提案する。 保護された画像は、プライバシー保護機械学習のためのHistogram-of-Oriented-Gradients(HOG)機能を直接抽出することができる。 実験では,勾配保存画像から抽出したHOG特徴を顔認識アルゴリズムに適用し,提案手法の有効性を実証した。

In this paper, we propose a method for generating visually protected images, referred to as gradient-preserving images. The protected images allow us to directly extract Histogram-of-Oriented-Gradients (HOG) features for privacy-preserving machine learning. In an experiment, HOG features extracted from gradient-preserving images are applied to a face recognition algorithm to demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-06 14:39:28 公開日:2021-04-03
# グラフコントラストクラスタリング

Graph Contrastive Clustering ( http://arxiv.org/abs/2104.01429v1 )

ライセンス: Link先を確認
Huasong Zhong, Jianlong Wu, Chong Chen, Jianqiang Huang, Minghua Deng, Liqiang Nie, Zhouchen Lin, Xian-Sheng Hua(参考訳) 近年,表現とクラスタリングの課題を同時に学習し,大幅な改善を達成するためのコントラスト学習手法が提案されている。 しかし、これらの手法はカテゴリ情報やクラスタリングの目的を考慮していないため、学習された表現はクラスタリングに最適ではなく、性能が制限される可能性がある。 そこで我々はまず,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,GCC(Graph Constrastive Clustering)法を提案する。 イメージと拡張のみを仮定した基本的なコントラストクラスタリングとは異なり、インスタンスレベルの一貫性をクラスタレベルの一貫性に引き上げ、ひとつのクラスタ内のサンプルとその拡張がすべて同じであるべきだと仮定します。 特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。 一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。 どちらも潜在カテゴリ情報を取り込んでクラスタ内分散を削減し、クラスタ間分散を増加させる。 6つの一般的なデータセットの実験は、最先端の手法よりも提案手法の方が優れていることを示す。

Recently, some contrastive learning methods have been proposed to simultaneously learn representations and clustering assignments, achieving significant improvements. However, these methods do not take the category information and clustering objective into consideration, thus the learned representations are not optimal for clustering and the performance might be limited. Towards this issue, we first propose a novel graph contrastive learning framework, which is then applied to the clustering task and we come up with the Graph Constrastive Clustering~(GCC) method. Different from basic contrastive clustering that only assumes an image and its augmentation should share similar representation and clustering assignments, we lift the instance-level consistency to the cluster-level consistency with the assumption that samples in one cluster and their augmentations should all be similar. Specifically, on the one hand, the graph Laplacian based contrastive loss is proposed to learn more discriminative and clustering-friendly features. On the other hand, a novel graph-based contrastive learning strategy is proposed to learn more compact clustering assignments. Both of them incorporate the latent category information to reduce the intra-cluster variance while increasing the inter-cluster variance. Experiments on six commonly used datasets demonstrate the superiority of our proposed approach over the state-of-the-art methods.
翻訳日:2021-04-06 14:39:19 公開日:2021-04-03
# 高分解能画像処理のための集合的文脈変換

Aggregated Contextual Transformations for High-Resolution Image Inpainting ( http://arxiv.org/abs/2104.01431v1 )

ライセンス: Link先を確認
Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo(参考訳) 最先端のイメージインペインティングアプローチは、高解像度画像(例えば512x512)で歪んだ構造やぼやけたテクスチャの生成に苦しむ可能性がある。 課題は,(1)遠い文脈から推定した画像の内容から,(2)大きな欠損領域に対するきめ細かいテクスチャ合成へと導かれる。 これら2つの課題を克服するために,高解像度画像インペイントのためのAggregated Contextual-Transformation GAN (AOT-GAN) と呼ばれる拡張GANモデルを提案する。 具体的には、コンテキスト推論を強化するために、提案するAOTブロックの複数のレイヤを積み重ねることで、AOT-GANのジェネレータを構築する。 AOTは、様々な受容領域からのコンテキスト変換をブロックし、情報的な遠方の画像コンテキストと、コンテキスト推論のための豊富な関心パターンの両方をキャプチャする。 テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。 このような訓練対象は、判別器に実際のパッチと合成パッチの詳細な外観を区別させ、その結果、生成元が透明なテクスチャを合成するのを促進させる。 最も難しい365の複雑なシーンの高解像度画像とのベンチマークであるPlaces2の大規模な比較では、我々のモデルは38.60%の相対的な改善によるFIDの差で最先端よりも優れていた。 30人以上の被験者を含むユーザスタディは、AOT-GANの優位性をさらに検証する。 さらに,提案するaot-ganを,ロゴ除去,顔編集,オブジェクト除去など,実用的な用途で評価する。 その結果,本モデルは実世界で有望な完成を達成できた。 コードとモデルをhttps://github.com/researchmm/AOT-GAN-for-Inpaintingでリリースします。

State-of-the-art image inpainting approaches can suffer from generating distorted structures and blurry textures in high-resolution images (e.g., 512x512). The challenges mainly drive from (1) image content reasoning from distant contexts, and (2) fine-grained texture synthesis for a large missing region. To overcome these two challenges, we propose an enhanced GAN-based model, named Aggregated COntextual-Transformation GAN (AOT-GAN), for high-resolution image inpainting. Specifically, to enhance context reasoning, we construct the generator of AOT-GAN by stacking multiple layers of a proposed AOT block. The AOT blocks aggregate contextual transformations from various receptive fields, allowing to capture both informative distant image contexts and rich patterns of interest for context reasoning. For improving texture synthesis, we enhance the discriminator of AOT-GAN by training it with a tailored mask-prediction task. Such a training objective forces the discriminator to distinguish the detailed appearances of real and synthesized patches, and in turn, facilitates the generator to synthesize clear textures. Extensive comparisons on Places2, the most challenging benchmark with 1.8 million high-resolution images of 365 complex scenes, show that our model outperforms the state-of-the-art by a significant margin in terms of FID with 38.60% relative improvement. A user study including more than 30 subjects further validates the superiority of AOT-GAN. We further evaluate the proposed AOT-GAN in practical applications, e.g., logo removal, face editing, and object removal. Results show that our model achieves promising completions in the real world. We release code and models in https://github.com/researchmm/AOT-GAN-for-Inpainting.
翻訳日:2021-04-06 14:39:02 公開日:2021-04-03
# forget" the forget gate:自己完結型長期記憶ネットワークを用いたビデオの異常推定

"Forget" the Forget Gate: Estimating Anomalies in Videos using Self-contained Long Short-Term Memory Networks ( http://arxiv.org/abs/2104.01478v1 )

ライセンス: Link先を確認
Habtamu Fanta, Zhiwen Shao, Lizhuang Ma(参考訳) 異常事象検出は、外観と動きの複雑な特徴を効果的に扱うことを必要とする課題である。 本稿では,新しいlstmベース自己完結型ネットワークを正規密集光流で学習し,映像中の異常を検出する手法を提案する。 シグモイドの実装により、標準のLSTMのリザーブゲートは、異常検出のような長いシーケンスタスクにおいて関連コンテンツを見落とし、取り除くことができる。 忘れゲートは、電流入力を優先するセル状態の計算のために、以前の隠れ状態の参加を緩和する。 さらに、標準LSTMの双曲的タンジェントアクティベーションは、ネットワークが深まると性能を犠牲にする。 これら2つの制限に対処するため,両ゲート型軽量LSTM細胞をリザーブゲートを破棄し,シグモイド活性化を導入する。 具体的には、私たちが思いついたLSTMアーキテクチャは、以前の隠れ状態から完全に持続するコンテントを持ち、トレーニングされたモデルが堅牢で、評価中に文脈に依存しない決定をすることができる。 取り外しゲートを除去するとLSTMセルが簡素化され、性能効率と計算効率が向上する。 実証評価の結果,提案した二ゲートLSTMネットワークは,CUHK Avenue および UCSD データセットにおける異常検出および一般化タスクの有効性を検証するLSTMモデルよりも優れていた。

Abnormal event detection is a challenging task that requires effectively handling intricate features of appearance and motion. In this paper, we present an approach of detecting anomalies in videos by learning a novel LSTM based self-contained network on normal dense optical flow. Due to their sigmoid implementations, standard LSTM's forget gate is susceptible to overlooking and dismissing relevant content in long sequence tasks like abnormality detection. The forget gate mitigates participation of previous hidden state for computation of cell state prioritizing current input. In addition, the hyperbolic tangent activation of standard LSTMs sacrifices performance when a network gets deeper. To tackle these two limitations, we introduce a bi-gated, light LSTM cell by discarding the forget gate and introducing sigmoid activation. Specifically, the LSTM architecture we come up with fully sustains content from previous hidden state thereby enabling the trained model to be robust and make context-independent decision during evaluation. Removing the forget gate results in a simplified and undemanding LSTM cell with improved performance effectiveness and computational efficiency. Empirical evaluations show that the proposed bi-gated LSTM based network outperforms various LSTM based models verifying its effectiveness for abnormality detection and generalization tasks on CUHK Avenue and UCSD datasets.
翻訳日:2021-04-06 14:38:31 公開日:2021-04-03
# ExKaldi-RT:Kaldiのリアルタイム音声認識拡張ツールキット

ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi ( http://arxiv.org/abs/2104.01384v1 )

ライセンス: Link先を確認
Yu Wang, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki(参考訳) オープンソースソフトウェアの可用性は、自動音声認識(ASR)において顕著な役割を担っている。 例えば、kaldiは最先端のオフラインおよびオンラインasrシステムの開発に広く使われている。 本稿では,Kaldi と Python 言語をベースとしたオンライン ASR ツールキット "ExKaldi-RT" について述べる。 ExKaldi-RTは、リアルタイムオーディオストリームパイプラインの提供、音響的特徴の抽出、リモート接続によるパケット送信、ニューラルネットワークによる音響確率の推定、オンラインデコーディングのためのツールを提供する。 同様の機能はkaldi上に構築されているが、exkaldi-rtの重要な機能はpython言語に完全に組み込まれている。これはオンラインasrシステム開発者が、例えばニューラルネットワークベースの信号処理とディープラーニングフレームワークでトレーニングされた音響モデルを適用することで、独自の研究を活用できるような、使いやすいインターフェイスを備えている。 We performed benchmark experiment on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could achieved competitive ASR performance in real-time。

The availability of open-source software is playing a remarkable role in automatic speech recognition (ASR). Kaldi, for instance, is widely used to develop state-of-the-art offline and online ASR systems. This paper describes the "ExKaldi-RT," online ASR toolkit implemented based on Kaldi and Python language. ExKaldi-RT provides tools for providing a real-time audio stream pipeline, extracting acoustic features, transmitting packets with a remote connection, estimating acoustic probabilities with a neural network, and online decoding. While similar functions are available built on Kaldi, a key feature of ExKaldi-RT is completely working on Python language, which has an easy-to-use interface for online ASR system developers to exploit original research, for example, by applying neural network-based signal processing and acoustic model trained with deep learning frameworks. We performed benchmark experiments on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could achieve competitive ASR performance in real-time.
翻訳日:2021-04-06 14:31:26 公開日:2021-04-03
# シーケンス対シーケンスASRのためのオンザフライアライメントデータ拡張

On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR ( http://arxiv.org/abs/2104.01393v1 )

ライセンス: Link先を確認
Tsz Kin Lam, Mayumi Ohta, Shigehiko Schamoni, Stefan Riezler(参考訳) 本稿では,アライメント情報を用いて効果的な学習サンプルを生成する自動音声認識(asr)のためのオンザフライデータ拡張手法を提案する。 ASRのためのアラインドデータ拡張(ADA)と呼ばれるこの手法は、書き起こされたトークンと音声表現を整列的に置き換えて、それまで目に見えないトレーニングペアを生成する。 音声表現は、トレーニングコーパスから抽出された音声辞書からサンプリングされ、トレーニング例に話者変動を注入する。 転写されたトークンは言語モデルによって予測され、拡張されたデータペアが元のデータに意味的に近いか、ランダムにサンプリングされる。 どちらの戦略も、asrトレーニングのロバスト性を改善するトレーニングペアをもたらす。 Seq-to-Seqアーキテクチャの実験により、ADAはSpecAugmentの上に適用でき、それぞれLibriSpeech 100h と LibriSpeech 960h のテストデータセット上で、SpecAugment よりも約 9-23% と 4-15% の改善が達成された。

We propose an on-the-fly data augmentation method for automatic speech recognition (ASR) that uses alignment information to generate effective training samples. Our method, called Aligned Data Augmentation (ADA) for ASR, replaces transcribed tokens and the speech representations in an aligned manner to generate previously unseen training pairs. The speech representations are sampled from an audio dictionary that has been extracted from the training corpus and inject speaker variations into the training examples. The transcribed tokens are either predicted by a language model such that the augmented data pairs are semantically close to the original data, or randomly sampled. Both strategies result in training pairs that improve robustness in ASR training. Our experiments on a Seq-to-Seq architecture show that ADA can be applied on top of SpecAugment, and achieves about 9-23% and 4-15% relative improvements in WER over SpecAugment alone on LibriSpeech 100h and LibriSpeech 960h test datasets, respectively.
翻訳日:2021-04-06 14:31:10 公開日:2021-04-03
# どんな言語でもキーワードスポッティング

Few-Shot Keyword Spotting in Any Language ( http://arxiv.org/abs/2104.01454v1 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Josh Meyer, Pete Warden, Vijay Janapa Reddi(参考訳) 任意の言語でキーワードスポッティングを行うための,数発の転送学習手法を提案する。 オープン音声コーパスを9言語で活用し,大規模多言語キーワードバンクの抽出を自動化し,組込みモデルの学習に利用する。 5つのトレーニング例で,キーワードスポッティングの埋め込みモデルを微調整し,これら9つの言語における埋め込みモデルでは見当たらない180の新しいキーワードのキーワード分類において,平均0.75のf1スコアを達成する。 この埋め込みモデルは、新しい言語にも一般化する。 埋め込みモデルでは見つからない13の言語にまたがる260のキーワードに対する5ショットモデルの平均F1スコアは0.65である。 キーワードスポッティングとキーワード検索の2つの文脈で5ショットモデルのストリーミング精度を検討する。 22の言語で440のキーワードにまたがって、平均85.2%のストリーミングキーワードスポッティング精度と1.2%の誤受率を達成し、キーワード検索における有望な初期結果を観察した。

We introduce a few-shot transfer learning method for keyword spotting in any language. Leveraging open speech corpora in nine languages, we automate the extraction of a large multilingual keyword bank and use it to train an embedding model. With just five training examples, we fine-tune the embedding model for keyword spotting and achieve an average F1 score of 0.75 on keyword classification for 180 new keywords unseen by the embedding model in these nine languages. This embedding model also generalizes to new languages. We achieve an average F1 score of 0.65 on 5-shot models for 260 keywords sampled across 13 new languages unseen by the embedding model. We investigate streaming accuracy for our 5-shot models in two contexts: keyword spotting and keyword search. Across 440 keywords in 22 languages, we achieve an average streaming keyword spotting accuracy of 85.2% with a false acceptance rate of 1.2%, and observe promising initial results on keyword search.
翻訳日:2021-04-06 14:30:50 公開日:2021-04-03
# きつい圧縮:きめ細かい刈り取りと重量変化によるcnn圧縮による効率的な実装

Tight Compression: Compressing CNN Through Fine-Grained Pruning and Weight Permutation for Efficient Implementation ( http://arxiv.org/abs/2104.01303v1 )

ライセンス: Link先を確認
Xizi Chen, Jingyang Zhu, Jingbo Jiang, Chi-Ying Tsui(参考訳) プルーニング後の非構造化空間は、サイストリック配列のような既存の正規アーキテクチャにおけるディープラーニングモデルの効率的な実装に挑戦する。 一方,粗粒構造プルーニングは正規アーキテクチャの実装に適しているが,プルーニングモデルのサイズが同じである場合,非構造化プルーニングよりも精度が低下する傾向がある。 本研究では,ハードウェア設計における微粒化重み空間を完全に活用するために,新しい重み置換方式に基づくモデル圧縮手法を提案する。 置換により、重み行列の最適配置を求め、スパース重み行列をさらに小さく密度の高いフォーマットに圧縮し、ハードウェア資源をフル活用する。 刈り取った2つの粒状物が探索される。 また,非構造的な重みプルーニングに加えて,より細粒度のサブワードレベルのプルーニングを提案し,圧縮性能をさらに向上させる。 最新技術と比較すると、行列圧縮速度は5.88xから14.13xに大幅に改善されている。 その結果、スループットとエネルギー効率がそれぞれ2.75倍と1.86倍に向上する。

The unstructured sparsity after pruning poses a challenge to the efficient implementation of deep learning models in existing regular architectures like systolic arrays. On the other hand, coarse-grained structured pruning is suitable for implementation in regular architectures but tends to have higher accuracy loss than unstructured pruning when the pruned models are of the same size. In this work, we propose a model compression method based on a novel weight permutation scheme to fully exploit the fine-grained weight sparsity in the hardware design. Through permutation, the optimal arrangement of the weight matrix is obtained, and the sparse weight matrix is further compressed to a small and dense format to make full use of the hardware resources. Two pruning granularities are explored. In addition to the unstructured weight pruning, we also propose a more fine-grained subword-level pruning to further improve the compression performance. Compared to the state-of-the-art works, the matrix compression rate is significantly improved from 5.88x to 14.13x. As a result, the throughput and energy efficiency are improved by 2.75 and 1.86 times, respectively.
翻訳日:2021-04-06 14:29:24 公開日:2021-04-03
# グラフニューラルネットワークを用いた医療エンティティの曖昧化

Medical Entity Disambiguation Using Graph Neural Networks ( http://arxiv.org/abs/2104.01488v1 )

ライセンス: Link先を確認
Alina Vretinaris, Chuan Lei, Vasilis Efthymiou, Xiao Qin, Fatma \"Ozcan(参考訳) バイオメディカル文献や規制行動から抽出した医療知識ベース (KB) は, 臨床意思決定を容易にするための高品質な情報の提供が期待されている。 エンティティの曖昧さ(エンティティリンクとも呼ばれる)は、このような医療kbの富を解き放つ上で不可欠なタスクであると考えられている。 しかし、既存の医療機関の曖昧さ解消方法は、kbのエンティティとソース文書のテキストスニペットとの間の単語の相違のため、不十分である。 近年、グラフニューラルネットワーク(GNN)は非常に有効であることが証明され、グラフ構造化データを持つ多くの実世界のアプリケーションに最先端の結果を提供する。 本稿では,3つの代表的GNN(GraphSAGE, R-GCN, MAGNN)に基づくED-GNNを紹介する。 ED-GNNの改良と微調整のための2つの最適化手法を開発した。 まず,テキストスニペットに記述されたエンティティをクエリグラフとして表現するための新しい戦略を提案する。 第2に,モデルの曖昧さを解消するために,硬い負のサンプルを識別する効果的な負のサンプリング戦略を設計する。 最先端のソリューションと比較して、ED-GNNは5つの実世界のデータセットにおけるF1スコアの平均7.3%の改善を提供します。

Medical knowledge bases (KBs), distilled from biomedical literature and regulatory actions, are expected to provide high-quality information to facilitate clinical decision making. Entity disambiguation (also referred to as entity linking) is considered as an essential task in unlocking the wealth of such medical KBs. However, existing medical entity disambiguation methods are not adequate due to word discrepancies between the entities in the KB and the text snippets in the source documents. Recently, graph neural networks (GNNs) have proven to be very effective and provide state-of-the-art results for many real-world applications with graph-structured data. In this paper, we introduce ED-GNN based on three representative GNNs (GraphSAGE, R-GCN, and MAGNN) for medical entity disambiguation. We develop two optimization techniques to fine-tune and improve ED-GNN. First, we introduce a novel strategy to represent entities that are mentioned in text snippets as a query graph. Second, we design an effective negative sampling strategy that identifies hard negative samples to improve the model's disambiguation capability. Compared to the best performing state-of-the-art solutions, our ED-GNN offers an average improvement of 7.3% in terms of F1 score on five real-world datasets.
翻訳日:2021-04-06 14:27:14 公開日:2021-04-03
# マルチメディア技術の応用とアルゴリズム:調査

Multimedia Technology Applications and Algorithms: A Survey ( http://arxiv.org/abs/2104.01301v1 )

ライセンス: Link先を確認
Palak Tiwary and Sanjida Ahmed(参考訳) マルチメディア関連の研究と開発はここ数年で急速に進化し、ハードウェア、ソフトウェア、ネットワークインフラが進歩した。 その結果、マルチメディアは、ヘルスケアや医療、人間の顔の特徴抽出と追跡、ポーズ認識、不一致推定などの分野に統合された。 本調査では,先述の領域で開発されたマルチメディア技術とアルゴリズムについて概説する。

Multimedia related research and development has evolved rapidly in the last few years with advancements in hardware, software and network infrastructures. As a result, multimedia has been integrated into domains like Healthcare and Medicine, Human facial feature extraction and tracking, pose recognition, disparity estimation, etc. This survey gives an overview of the various multimedia technologies and algorithms developed in the domains mentioned.
翻訳日:2021-04-06 14:23:50 公開日:2021-04-03
# MR-Contrast-Aware Image-to-Image Translations with Generative Adversarial Networks

MR-Contrast-Aware Image-to-Image Translations with Generative Adversarial Networks ( http://arxiv.org/abs/2104.01449v1 )

ライセンス: Link先を確認
Jonas Denck, Jens Guehring, Andreas Maier, Eva Rothgang(参考訳) 目的 磁気共鳴画像検査(mri)は、画像のコントラストが異なる複数の配列から構成される。 各シーケンスは、画像コントラスト、信号対雑音比、取得時間、および/または解像度に影響を与える複数の取得パラメータによってパラメータ化される。 臨床所見によっては、放射線医が診断するために異なるコントラストが必要である。 MRシークエンス取得は時間を要するため、運動により取得した画像を劣化させる可能性があるため、調整可能なコントラスト特性を持つMR画像の合成方法が必要である。 そこで,mr取得パラメータの繰り返し時間とエコー時間に基づいて,画像対画像生成逆ネットワークを訓練した。 画像の「スタイル」は我々のネットワークが条件付けしているmr取得パラメータによって決定されるため、我々のアプローチはスタイル転送ネットワークに動機づけられているが、画像の「スタイル」は我々の場合明示的に与えられる。 画像のコントラストの調整が可能なMR画像の合成が可能となる。 提案手法は, 市販のmr膝画像の大規模セットであるfastmriデータセットのアプローチを評価し, 非脂肪飽和mr画像から脂肪飽和画像への変換において, pix2pixのベンチマーク手法よりも優れていることを示した。 提案手法はピーク信号対雑音比と24.48と0.66の構造的類似性を示し,ピクセルベンチマークモデルを大幅に上回っている。 結論 我々のモデルは、MRIにおけるAIトレーニングのためのデータ拡張技術として、欠けているMRコントラストを合成するために使用できる、微調整コントラスト合成を可能にする最初のモデルである。

Purpose A Magnetic Resonance Imaging (MRI) exam typically consists of several sequences that yield different image contrasts. Each sequence is parameterized through multiple acquisition parameters that influence image contrast, signal-to-noise ratio, acquisition time, and/or resolution. Depending on the clinical indication, different contrasts are required by the radiologist to make a diagnosis. As MR sequence acquisition is time consuming and acquired images may be corrupted due to motion, a method to synthesize MR images with adjustable contrast properties is required. Methods Therefore, we trained an image-to-image generative adversarial network conditioned on the MR acquisition parameters repetition time and echo time. Our approach is motivated by style transfer networks, whereas the "style" for an image is explicitly given in our case, as it is determined by the MR acquisition parameters our network is conditioned on. Results This enables us to synthesize MR images with adjustable image contrast. We evaluated our approach on the fastMRI dataset, a large set of publicly available MR knee images, and show that our method outperforms a benchmark pix2pix approach in the translation of non-fat-saturated MR images to fat-saturated images. Our approach yields a peak signal-to-noise ratio and structural similarity of 24.48 and 0.66, surpassing the pix2pix benchmark model significantly. Conclusion Our model is the first that enables fine-tuned contrast synthesis, which can be used to synthesize missing MR contrasts or as a data augmentation technique for AI training in MRI.
翻訳日:2021-04-06 14:23:45 公開日:2021-04-03
# マイクロ波動インダクタンス検出器(MKID)共振器同定とチューニングのためのエンドツーエンドディープラーニングパイプライン

End-to-end Deep Learning Pipeline for Microwave Kinetic Inductance Detector (MKID) Resonator Identification and Tuning ( http://arxiv.org/abs/2104.01282v1 )

ライセンス: Link先を確認
Neelay Fruitwala and Alex B Walter and John I Bailey III and Rupert Dodkins and Benjamin A Mazin(参考訳) 我々は、光/赤外線マイクロ波動インダクタンス検出器(MKID)アレイを読み取るのに使用される周波数コムの校正を完全に自動化する機械学習ベースのパイプラインを開発した。 このプロセスでは、各ピクセル(すなわち)の共振周波数と最適駆動力を決定する。 共振器) 配列は、通常手動で行われる。 DARKNESS (DARK-speckle Near-infrared Energy-resolving Superconducting Spectrometer) やMEC (MKID Exoplanet Camera) のような現代の光学/赤外線MKIDアレイは10-20,000ピクセルを含み、キャリブレーション処理には非常に時間がかかる。 本稿では、単一畳み込みニューラルネットワーク(CNN)を用いて共振器識別とチューニングを同時に行うパイプラインを提案する。 我々のパイプラインは手動のチューニングプロセスと同等の性能を持ち、フィードラインあたりの計算時間はわずか12分であることがわかった。

We present the development of a machine learning based pipeline to fully automate the calibration of the frequency comb used to read out optical/IR Microwave Kinetic Inductance Detector (MKID) arrays. This process involves determining the resonant frequency and optimal drive power of every pixel (i.e. resonator) in the array, which is typically done manually. Modern optical/IR MKID arrays, such as DARKNESS (DARK-speckle Near-infrared Energy-resolving Superconducting Spectrophotometer) and MEC (MKID Exoplanet Camera), contain 10-20,000 pixels, making the calibration process extremely time consuming; each 2000 pixel feedline requires 4-6 hours of manual tuning. Here we present a pipeline which uses a single convolutional neural network (CNN) to perform both resonator identification and tuning simultaneously. We find that our pipeline has performance equal to that of the manual tuning process, and requires just twelve minutes of computational time per feedline.
翻訳日:2021-04-06 14:21:24 公開日:2021-04-03
# 2値分類のためのスパース大学2次表面支援ベクトルマシンモデル

Sparse Universum Quadratic Surface Support Vector Machine Models for Binary Classification ( http://arxiv.org/abs/2104.01331v1 )

ライセンス: Link先を確認
Hossein Moosaei, Ahmad Mousavi, Milan Hlad\'ik, Zheming Gao(参考訳) バイナリ分類では、カーネルフリーな線形または二次サポートベクターマシンが提案されており、適切なカーネル関数の発見やハイパーパラメータのチューニングといった困難に対処する。 さらに、いかなるクラスにも属さないユニバースデータポイントを利用して、対応するモデルに事前知識を埋め込むことで、一般化性能を向上させることができる。 本稿では,新しいカーネルフリーな2次曲面支持ベクトルマシンモデルを設計する。 さらに,2次曲面のヘシアンにおける潜在空間パターンの検出と,データポイントが(ほぼ)線形分離可能である場合の標準線形モデルへの還元に有効であるL1正規正規化版を提案する。 提案したモデルは、標準数値解法を用いて解くことができる凸である。 それにもかかわらず、我々はl1ノルム正規化モデルの最小二乗形を定式化し、次に1つの線形系のみを解く効果的な調整アルゴリズムを設計する。 これらのモデルのいくつかの理論的性質も報告/証明される。 最終的に,提案モデルの有効性と有効性を示すために,人工ベンチマークデータセットと公開ベンチマークデータセットの数値実験を行った。

In binary classification, kernel-free linear or quadratic support vector machines are proposed to avoid dealing with difficulties such as finding appropriate kernel functions or tuning their hyper-parameters. Furthermore, Universum data points, which do not belong to any class, can be exploited to embed prior knowledge into the corresponding models so that the generalization performance is improved. In this paper, we design novel kernel-free Universum quadratic surface support vector machine models. Further, we propose the L1 norm regularized version that is beneficial for detecting potential sparsity patterns in the Hessian of the quadratic surface and reducing to the standard linear models if the data points are (almost) linearly separable. The proposed models are convex such that standard numerical solvers can be utilized for solving them. Nonetheless, we formulate a least squares version of the L1 norm regularized model and next, design an effective tailored algorithm that only requires solving one linear system. Several theoretical properties of these models are then reported/proved as well. We finally conduct numerical experiments on both artificial and public benchmark data sets to demonstrate the feasibility and effectiveness of the proposed models.
翻訳日:2021-04-06 14:21:04 公開日:2021-04-03
# インタラクション不要:neural odeを用いたロバストなモデルベース模倣学習

No Need for Interactions: Robust Model-Based Imitation Learning using Neural ODE ( http://arxiv.org/abs/2104.01390v1 )

ライセンス: Link先を確認
HaoChih Lin, Baopu Li, Xin Zhou, Jiankun Wang, Max Q.-H. Meng(参考訳) 現在の模倣学習(il)アルゴリズムのほとんどでは、トレーニング中の環境や専門家ポリシーとのインタラクションが必要である。 相互作用のないil問題に対して、典型的なアプローチはビヘイビアクローニング(bc)である。 しかし、BC様の手法は分布シフトの影響を受けやすい。 この問題を軽減するため、我々はモデルベース模倣学習(rmbil)フレームワークを考案し、模倣学習をエンドツーエンドの微分可能非線形閉ループ追跡問題としてキャストする。 RMBILは、非線形ダイナミクスインバージョン(NDI)アルゴリズムを用いて、正確なマルチステップダイナミクスと堅牢なトラッキングコントローラを学ぶためにNeural ODEを適用している。 学習したNDIコントローラは、専門家の行動を模倣するために、軌道生成器、条件付きVAEと結合される。 理論的導出は、ニューラルODEのトレーニング損失を最小限に抑えるために、コントローラネットワークがNDIを近似できることを示している。 Mujoco タスクの実験では、RMBIL は最先端の生成逆数法 (GAIL) と競合し、不均一表面における BC よりも少なくとも30%の性能向上を達成している。

Interactions with either environments or expert policies during training are needed for most of the current imitation learning (IL) algorithms. For IL problems with no interactions, a typical approach is Behavior Cloning (BC). However, BC-like methods tend to be affected by distribution shift. To mitigate this problem, we come up with a Robust Model-Based Imitation Learning (RMBIL) framework that casts imitation learning as an end-to-end differentiable nonlinear closed-loop tracking problem. RMBIL applies Neural ODE to learn a precise multi-step dynamics and a robust tracking controller via Nonlinear Dynamics Inversion (NDI) algorithm. Then, the learned NDI controller will be combined with a trajectory generator, a conditional VAE, to imitate an expert's behavior. Theoretical derivation shows that the controller network can approximate an NDI when minimizing the training loss of Neural ODE. Experiments on Mujoco tasks also demonstrate that RMBIL is competitive to the state-of-the-art generative adversarial method (GAIL) and achieves at least 30% performance gain over BC in uneven surfaces.
翻訳日:2021-04-06 14:15:19 公開日:2021-04-03
# 離散時間確率過程におけるstlロバスト性リスク

STL Robustness Risk over Discrete-Time Stochastic Processes ( http://arxiv.org/abs/2104.01503v1 )

ライセンス: Link先を確認
Lars Lindemann, Nikolai Matni, and George J. Pappas(参考訳) 本稿では,離散時間確率過程上の信号時相論理(stl)公式を誘導リスクの観点から解釈する枠組みを提案する。 確率過程のそれぞれの実現は、stl公式を満たすか、違反する。 実際、この実現がいかに強固にstl公式を満たすかを示す各実現にロバスト性値を割り当てることができる。 次に,STL式を頑健に満たさない確率過程のリスクを定義し,これを「STL頑健性リスク」と呼ぶ。 私たちの定義では、リスクアットリスクのようなリスク対策の一般的なクラスを許可します。 一般に計算は困難であるが,STLのロバスト性リスクの近似法を提案する。 この近似は、選択されたリスク尺度がモノトンである場合、STLロバスト性リスクの上限となることが望ましい性質を持つ。 データ駆動型アプローチに関心を抱き、高い確率で保持される値付きリスクに対する近似STLロバスト性リスクの上界を計算するサンプリングベース手法を提案する。 リスク価値の事例を考察する一方で,このようなサンプリングベースの手法は,他のリスク対策にも有効であることを強調する。

We present a framework to interpret signal temporal logic (STL) formulas over discrete-time stochastic processes in terms of the induced risk. Each realization of a stochastic process either satisfies or violates an STL formula. In fact, we can assign a robustness value to each realization that indicates how robustly this realization satisfies an STL formula. We then define the risk of a stochastic process not satisfying an STL formula robustly, referred to as the "STL robustness risk". In our definition, we permit general classes of risk measures such as, but not limited to, the value-at-risk. While in general hard to compute, we propose an approximation of the STL robustness risk. This approximation has the desirable property of being an upper bound of the STL robustness risk when the chosen risk measure is monotone, a property satisfied by most risk measures. Motivated by the interest in data-driven approaches, we present a sampling-based method for calculating an upper bound of the approximate STL robustness risk for the value-at-risk that holds with high probability. While we consider the case of the value-at-risk, we highlight that such sampling-based methods are viable for other risk measures.
翻訳日:2021-04-06 14:13:07 公開日:2021-04-03
# (参考訳) TransMOT:複数物体追跡のための空間時間グラフ変換器

TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking ( http://arxiv.org/abs/2104.00194v2 )

ライセンス: CC BY 4.0
Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, Zicheng Liu(参考訳) ビデオ内の複数のオブジェクトの追跡は、オブジェクトの空間的-時間的相互作用のモデル化に依存している。 本稿では,強力なグラフ変換器を用いてオブジェクト間の空間的・時間的相互作用を効率的にモデル化するTransMOTという手法を提案する。 transmotは、トラックされたオブジェクトの軌道を疎重み付きグラフの集合として配置し、空間グラフトランスフォーマエンコーダ層、時間的トランスフォーマエンコーダ層、およびそれらのグラフに基づいて空間グラフトランスフォーマデコーダ層を構築することにより、多数のオブジェクトの相互作用を効果的にモデル化する。 TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。 追跡速度と精度をさらに高めるために,トランスモートでモデル化する計算資源を必要とする低スコア検出と長期閉塞を扱うカスケードアソシエーションフレームワークを提案する。 提案手法は,MOT15,MOT16,MOT17,MOT20を含む複数のベンチマークデータセットを用いて評価し,すべてのデータセットに対して最先端のパフォーマンスを実現する。

Tracking multiple objects in videos relies on modeling the spatial-temporal interactions of the objects. In this paper, we propose a solution named TransMOT, which leverages powerful graph transformers to efficiently model the spatial and temporal interactions among the objects. TransMOT effectively models the interactions of a large number of objects by arranging the trajectories of the tracked objects as a set of sparse weighted graphs, and constructing a spatial graph transformer encoder layer, a temporal transformer encoder layer, and a spatial graph transformer decoder layer based on the graphs. TransMOT is not only more computationally efficient than the traditional Transformer, but it also achieves better tracking accuracy. To further improve the tracking speed and accuracy, we propose a cascade association framework to handle low-score detections and long-term occlusions that require large computational resources to model in TransMOT. The proposed method is evaluated on multiple benchmark datasets including MOT15, MOT16, MOT17, and MOT20, and it achieves state-of-the-art performance on all the datasets.
翻訳日:2021-04-06 12:52:00 公開日:2021-04-03
# Blur Kernel Spaceによる画像劣化の探索

Explore Image Deblurring via Blur Kernel Space ( http://arxiv.org/abs/2104.00317v2 )

ライセンス: Link先を確認
Phong Tran and Anh Tran and Quynh Phung and Minh Hoai(参考訳) 本稿では,鮮明な画像対の任意のデータセットのぼやけた演算子を,ぼやけたカーネル空間に符号化する手法を提案する。 In-the-wild blur operator にエンコードされたカーネル空間が十分近いと仮定し、ブラインド画像の劣化に対する交互最適化アルゴリズムを提案する。 符号化された空間内のカーネルによって見えないぼかし演算子を近似し、対応するシャープイメージを検索する。 最近のディープラーニングベースの手法と異なり、システムは目に見えないぼかしのカーネルを処理できるが、古典的な手法でよく見られるぼかし演算子の複雑な手作りの事前処理は回避できる。 この手法の設計のため、符号化されたカーネル空間は完全に微分可能であり、ディープニューラルネットワークモデルに容易に適用できる。 さらに、任意のデータセットから既存のぼかし演算子を新しいドメインに転送することで、ぼかし合成に使用できる。 最後に,提案手法の有効性を確認する実験結果を提供する。

This paper introduces a method to encode the blur operators of an arbitrary dataset of sharp-blur image pairs into a blur kernel space. Assuming the encoded kernel space is close enough to in-the-wild blur operators, we propose an alternating optimization algorithm for blind image deblurring. It approximates an unseen blur operator by a kernel in the encoded space and searches for the corresponding sharp image. Unlike recent deep-learning-based methods, our system can handle unseen blur kernel, while avoiding using complicated handcrafted priors on the blur operator often found in classical methods. Due to the method's design, the encoded kernel space is fully differentiable, thus can be easily adopted in deep neural network models. Moreover, our method can be used for blur synthesis by transferring existing blur operators from a given dataset into a new domain. Finally, we provide experimental results to confirm the effectiveness of the proposed method.
翻訳日:2021-04-06 12:09:24 公開日:2021-04-03
# 南アフリカ言語のための低リソースニューラルマシン翻訳

Low-Resource Neural Machine Translation for Southern African Languages ( http://arxiv.org/abs/2104.00366v2 )

ライセンス: Link先を確認
Evander Nyoni and Bruce A. Bassett(参考訳) 低リソースのアフリカの言語は、データ不足のため、ニューラルマシン翻訳の進歩から完全には恩恵を受けていない。 この課題に動機づけられて、3つのバントゥー語(shona、isixhosa、isizulu)と英語でゼロショット学習、転送学習、多言語学習を比較した。 私たちの主なターゲットは英語からイシズル語への翻訳で、たった3万文のペアで、私たちの他のコーパスの平均サイズの28%です。 BLEUスコアが5.2の英語-isi-Xhosaと英語-isi-Shona親モデルに基づく英-isi-Zulu変換学習における言語類似性の重要性を示す。 次に,多言語学習がデータ集合の転送学習とゼロショット学習の両方を上回っており,ベースラインである9.9,6.1,2.0に比べてbleuスコアが向上していることを示す。 我々の最良のモデルは、以前のSOTA BLEUスコアも10以上改善します。

Low-resource African languages have not fully benefited from the progress in neural machine translation because of a lack of data. Motivated by this challenge we compare zero-shot learning, transfer learning and multilingual learning on three Bantu languages (Shona, isiXhosa and isiZulu) and English. Our main target is English-to-isiZulu translation for which we have just 30,000 sentence pairs, 28% of the average size of our other corpora. We show the importance of language similarity on the performance of English-to-isiZulu transfer learning based on English-to-isiXhosa and English-to-Shona parent models whose BLEU scores differ by 5.2. We then demonstrate that multilingual learning surpasses both transfer learning and zero-shot learning on our dataset, with BLEU score improvements relative to the baseline English-to-isiZulu model of 9.9, 6.1 and 2.0 respectively. Our best model also improves the previous SOTA BLEU score by more than 10.
翻訳日:2021-04-06 12:09:10 公開日:2021-04-03
# LED2-Net:微分深度レンダリングによる単眼360度レイアウト推定

LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth Rendering ( http://arxiv.org/abs/2104.00568v2 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 部屋配置推定では大きな進歩があったが、ほとんどの手法は3次元空間の部屋構造を利用するよりも2次元画素座標の損失を減らすことを目的としている。 部屋のレイアウトを3Dで再構築するために,パノラマの水平線の深さを予測する問題として,360度レイアウト推定のタスクを定式化する。 具体的には、レイアウトから深度予測への変換を微分可能とし、3次元の幾何情報を活用しながらエンド・ツー・エンドのトレーニングを可能にするための微分可能な深度レンダリング手法を提案する。 提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。 さらに,本定式化により,深度データセットの事前学習が可能となり,レイアウト推定モデルの一般化性が向上する。

Although significant progress has been made in room layout estimation, most methods aim to reduce the loss in the 2D pixel coordinate rather than exploiting the room structure in the 3D space. Towards reconstructing the room layout in 3D, we formulate the task of 360 layout estimation as a problem of predicting depth on the horizon line of a panorama. Specifically, we propose the Differentiable Depth Rendering procedure to make the conversion from layout to depth prediction differentiable, thus making our proposed model end-to-end trainable while leveraging the 3D geometric information, without the need of providing the ground truth depth. Our method achieves state-of-the-art performance on numerous 360 layout benchmark datasets. Moreover, our formulation enables a pre-training step on the depth dataset, which further improves the generalizability of our layout estimation model.
翻訳日:2021-04-06 12:08:52 公開日:2021-04-03