このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210109となっている論文です。

PDF登録状況(公開日: 20210109)

TitleAuthorsAbstract論文公表日・翻訳日
# 2次非線形性による室温フォトニック論理量子ビット

Room-Temperature Photonic Logical Qubits via Second-Order Nonlinearities ( http://arxiv.org/abs/2002.07193v2 )

ライセンス: Link先を確認
Stefan Krastanov, Mikkel Heuck, Jeffrey H. Shapiro, Prineha Narang, Dirk R. Englund, Kurt Jacobs(参考訳) 非線形光学材料とマイクロ共振器の最近の進歩は、バルク光学非線形性を持つ量子コンピューティングを可能性領域にもたらした。 このプラットフォームは、フォトニクスが量子ネットワークにとって明らかな選択であるだけでなく、室温での量子情報処理への唯一の実現可能なルートでもあるため、非常に興味深い。 本稿では,様々な量子回路,特に誤り訂正の実現を大幅に単純化する,室温フォトニック量子論理のパラダイムを提案する。 これは最も強力なバルク非線形性、すなわち$\chi^{(2)}$非線形感受性のみを用いる。 鍵となる要素は、プログラム可能なボソニック量子論理ゲートを実装する3モード共振器である。 これらの要素のうち2つだけが、測定やフィードフォワード制御を必要とせず、ボソニックコード上の完全でコンパクトな誤り訂正回路に十分であることを示す。 非線形光学材料およびフォトニック回路における電流の進行の補間は、次の10年以内にそのような回路が実現可能であることを示している。

Recent progress in nonlinear optical materials and microresonators has brought quantum computing with bulk optical nonlinearities into the realm of possibility. This platform is of great interest, not only because photonics is an obvious choice for quantum networks, but also because it may be the only feasible route to quantum information processing at room temperature. We introduce a paradigm for room-temperature photonic quantum logic that significantly simplifies the realization of various quantum circuits, and in particular, of error correction. It uses only the strongest available bulk nonlinearity, namely the $\chi^{(2)}$ nonlinear susceptibility. The key element is a three-mode resonator that implements programmable bosonic quantum logic gates. We show that just two of these elements suffice for a complete, compact error-correction circuit on a bosonic code, without the need for measurement or feed-forward control. An extrapolation of current progress in nonlinear optical materials and photonic circuits indicates that such circuitry should be achievable within the next decade.
翻訳日:2023-06-03 09:16:27 公開日:2021-01-09
# 開境界条件を持つ非相互Su-Schrieffer-Heegerモデルにおける位相的端状態の動的ロバスト性

Dynamical robustness of topological end states in nonreciprocal Su-Schrieffer-Heeger models with open boundary conditions ( http://arxiv.org/abs/2008.12489v2 )

ライセンス: Link先を確認
Li-Jun Lang, Yijiao Weng, Yunhui Zhang, Enhong Cheng, Qixia Liang(参考訳) 非エルミート量子モデルの場合、力学は、右固有ベクトルの非直交性、時間発展の非ユニタリ性、断熱理論の崩壊などにより、複素エネルギースペクトルのような静的な性質に明らかに反映されないが、実験では初期状態の時間発展が一般的に用いられる。 ここでは,非相互性Su-Schrieffer-Heegerモデルの開境界条件下での初期状態のダイナミクスに注目し,非エルミートスキン効果がバルクサイトへ流出する部分を抑制できるため,Hermitianモデルよりも動的に頑健であることを示す。 これを観測するために,数個の受動インダクタとコンデンサしか持たない古典電気回路を提案し,量子モデルへのマッピングを確立する。 本研究は、非エルミート的皮膚効果が位相的エンド状態のロバスト性をどのように強化するかを説明し、古典電気回路を介して非エルミート的量子力学を研究する簡単な方法を提供し、他のプラットフォームにおける非エルミート的モデルのよりダイナミックな研究を刺激する。

For non-Hermitian quantum models, the dynamics is apparently not reflected by the static properties, e.g., the complex energy spectrum, because of the nonorthogonality of the right eigenvectors, the nonunitarity of the time evolution, the breakdown of the adiabatic theory, etc., but in experiments the time evolution of an initial state is commonly used. Here, we pay attention to the dynamics of an initial end state in nonreciprocal Su-Schrieffer-Heeger models under open boundary conditions, and we find that it is dynamically more robust than its Hermitian counterpart, because the non-Hermitian skin effect can suppress the part leaking to the bulk sites. To observe this, we propose a classical electric circuit with only a few passive inductors and capacitors, the mapping of which to the quantum model is established. This work explains how the non-Hermitian skin effect enhances the robustness of the topological end state, and it offers an easy way, via the classical electric circuit, of studying the nonreciprocal quantum dynamics, which may stimulate more dynamical studies of non-Hermitian models in other platforms.
翻訳日:2023-05-04 11:50:03 公開日:2021-01-09
# 半導体量子ドットの電荷移動に基づく過渡スペクトルの研究

Study on Transient Spectrum Based on Charge Transfer of Semiconductor Quantum Dots ( http://arxiv.org/abs/2011.14972v2 )

ライセンス: Link先を確認
Zhexu Xi, Hui Zhao(参考訳) エネルギー危機の増加とグリーンサステナビリティの一般的な概念により、量子ドット材料は化学の学術分野や産業分野においてホットスポットとなっている。 量子圧電効果を特徴とするユニークなテーラー式太陽電池特性のため、qdベースの電荷移動過程を励起励起子の寿命と結びつける必要がある。 さらに、電子状態の連続体を持つ無機ナノ粒子は、電子力学とQDとの錯体による機能との整合性に寄与する。 超高速分光法は、特にフェムト秒またはピコ秒の時間スケールにおいて、時間分解過渡吸収分光法が最も典型的なシステムである。 本稿では,znse/cdsコアシェル量子ドットをドナーとして,tio2膜を金属酸化物分子として定常的および過渡的吸収技術を用いた。 さらに, 電子移動速度定数 (kBET) と粒子径, QDコアサイズとの関係について検討した。 本論文では, 量子ドット感応装置の材料として, より制御可能な材料を提供することが期待されている。

With the increasing energy crisis and the prevalent concept of green sustainability, quantum dot materials have become a hot spot in the academic and industrial fields of chemistry. Due to unique, tailor-made photovoltaic properties based on marked quantum-confined effects, it's necessary to identify the QD-based charge transfer process connected with a lifetime of stimulated excitons. Additionally, inorganic nanoparticles with a continuum of electron states contribute to the consistency between electron dynamics and their function through complexation with QDs. Ultrafast spectroscopy can be widely used in this system, the most typical of which is the time-resolved transient absorption spectroscopy, especially on a femtosecond or picosecond timescale. In this paper, we used the ZnSe/CdS core-shell quantum dot as the donor, and the TiO2 film as the metal oxide molecule as the acceptor, through steady-state and transient absorption techniques. Within, the electron transfer and related processes between the two composite systems were explored, and the relationship between the electron transfer rate constant (kBET) and particle size and QD core size was further studied. Through the research content of this paper, it is hoped to provide materials for quantum dot sensitization devices with more controllable features.
翻訳日:2023-04-22 14:30:54 公開日:2021-01-09
# 非マルコフ環境における補助系による量子加速

Quantum acceleration by an ancillary system in non-Markovian environments ( http://arxiv.org/abs/2012.02964v2 )

ライセンス: Link先を確認
Jinna Fan, Shaoxiong Wu, and Chang-shui Yu(参考訳) 異なる非マルコフ環境における量子速度制限時間に対する補助系の効果について検討する。 Through employing an ancillary system coupled with the quantum system of interest via hopping interaction and investigating the cases that both the quantum system and ancillary system interact with their independent/common environment, and the case that only the system of interest interacts with the environment, we find that the quantum speed limit time will become shorter with enhancing the interaction between the system and environment and show periodic oscillation phenomena along with the hopping interaction between the quantum system and ancillary system increasing. その結果,アシラリー系と環境構造とのホッピング相互作用によって,量子系の進化が加速される程度が決定されることがわかった。

We study the effect of an ancillary system on the quantum speed limit time in different non-Markovian environments. Through employing an ancillary system coupled with the quantum system of interest via hopping interaction and investigating the cases that both the quantum system and ancillary system interact with their independent/common environment, and the case that only the system of interest interacts with the environment, we find that the quantum speed limit time will become shorter with enhancing the interaction between the system and environment and show periodic oscillation phenomena along with the hopping interaction between the quantum system and ancillary system increasing. The results indicate that the hopping interaction with the ancillary system and the structure of environment determine the degree of which the evolution of the quantum system can be accelerated.
翻訳日:2023-04-22 00:53:58 公開日:2021-01-09
# データサイエンスを使って1つの数字でパンデミックをモニタリングするSynthetic COVID Index

Using Data Science to monitor the pandemic with a single number: the Synthetic COVID Index ( http://arxiv.org/abs/2101.02013v3 )

ライセンス: Link先を確認
Raffaele Zenti(参考訳) SARSCoV-2の影響を受けた地域において、新型コロナウイルスの感染拡大に対処している保健当局や政策立案者にとって、迅速かつ手ごろなデータ要約方法が有用である。 これは、計測エラーを含むデータに存在する潜伏変数の識別に焦点を当てた、教師なし機械学習技術のアンサンブルに基づくインデックスであるSynthetic COVID Indexの目標である。 この推定潜在変数は「パンデミックの強さ」と解釈できる。 イタリアのケースへのアプリケーションは、インデックスが状況の簡潔な表現を提供する方法を示しています。

Rapid and affordable methods of summarizing the multitude of data relating to the pandemic can be useful to health authorities and policy makers who are dealing with the COVID-19 pandemic at various levels in the territories affected by SARSCoV-2. This is the goal of the Synthetic COVID Index, an index based on an ensemble of Unsupervised Machine Learning techniques which focuses on the identification of a latent variable present in data that contains measurement errors. This estimated latent variable can be interpreted as "the strength of the pandemic". An application to the Italian case shows how the index is able to provide a concise representation of the situation.
翻訳日:2023-04-20 02:28:20 公開日:2021-01-09
# 分数フーリエ変換によるディラック方程式、マクスウェル方程式、ワイル方程式の新しい解法

New solutions of the Dirac, Maxwell and Weyl equations from the fractional Fourier transform ( http://arxiv.org/abs/2101.03325v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula(参考訳) 相対論的波動方程式の新しい解はスピノリアル変数の生成関数から統一的に得られる。 ガウス型として関数を生成する選択は、一般化された分数フーリエ変換の形で表現をもたらす。 ディラック、マクスウェル、ワイル方程式を満たす波動関数は、スピノリアル引数に対する単純な微分によって構成される。 最も単純な場合、マクスウェルとディラックのホップフィオン解が得られる。

New solutions of relativistic wave equations are obtained in a unified manner from generating functions of spinorial variables. The choice of generating functions as Gaussians leads to representations in the form of generalized fractional Fourier transforms. Wave functions satisfying the Dirac, Maxwell, and Weyl equations are constructed by simple differentiations with respect to spinorial arguments. In the simplest case, one obtains Maxwell and Dirac hopfion solutions.
翻訳日:2023-04-17 06:33:49 公開日:2021-01-09
# ジョセフソン接合回路における循環器機能とマヨラナ零モードのブレイディング

Circulator function in a Josephson junction circuit and braiding of Majorana zero modes ( http://arxiv.org/abs/2101.03315v1 )

ライセンス: Link先を確認
Mun Dae Kim(参考訳) 本稿では,3-ジョセフソン接合ループと三接合からなる超伝導回路における循環器関数のスキームを提案する。 本研究では,基本境界条件から有効ポテンシャルを導出することにより,システムの正確なラグランジアンを求める。 次いで, サーキュレータ関数を実行する三接合で接続された枝を流れる電流の方向を選択的に選択できることを示す。 さらに、この循環関数をマヨラナゼロモード(MZM)の非アベリアブレイディングに使用する。 系の分岐では、三接合の相を介して相互に相互作用するMZMのペアを導入する。 循環器関数は三接合の位相を決定するため、MZMs間の結合がブレイディング動作を引き起こす。 我々は、スケーラブルな設計でキュービット演算を行うために、MZMを外部のものと結合するようにシステムを変更する。

We propose a scheme for the circulator function in a superconducting circuit consisting of a three-Josephson junction loop and a trijunction. In this study we obtain the exact Lagrangian of the system by deriving the effective potential from the fundamental boundary conditions. We subsequently show that we can selectively choose the direction of current flowing through the branches connected at the trijunction, which performs a circulator function. Further, we use this circulator function for a non-Abelian braiding of Majorana zero modes (MZMs). In the branches of the system we introduce pairs of MZMs which interact with each other through the phases of trijunction. The circulator function determines the phases of the trijunction and thus the coupling between the MZMs to gives rise to the braiding operation. We modify the system so that MZMs might be coupled to the external ones to perform qubit operations in a scalable design.
翻訳日:2023-04-17 06:33:43 公開日:2021-01-09
# 安全監視・評価・改善のための連結・自動化車両によるビッグデータ生成(第3報)

Big Data Generated by Connected and Automated Vehicles for Safety Monitoring, Assessment and Improvement, Final Report (Year 3) ( http://arxiv.org/abs/2101.06106v1 )

ライセンス: Link先を確認
Asad J. Khattak, Iman Mahdinia, Sevin Mohammadi, Amin Mohammadnazar, Behram Wali(参考訳) 本報告では、コネクテッド・アンド・オートマチック・カー(CAV)の安全性について述べる。 根本的な疑問は、CAVが道路利用者の安全をどのように改善できるかである。 高度なデータマイニングとセマンティックテキスト分析ツールを使用することで、ビッグデータに関する研究を体系的に合成し、安全性の監視と改善を目指している。 この領域内で、報告書は輸送イニシアティブに関連するビッグデータイニシアティブを全国的および国際的に比較し、cavに関連するビッグデータサイエンスアプリケーションの進化と新たな課題に関する洞察を提供する。 The objectives addressed are: 1-Creating a database of Big Data efforts by acquiring reports, white papers, and journal publications; 2-Applying text analytics tools to extract key concepts, and spot patterns and trends in Big Data initiatives; 3-Understanding the evolution of CAV Big Data in the context of safety by quantifying granular taxonomies and modeling entity relations among contents in CAV Big Data research initiatives, and 4-Developing a foundation for exploring new approaches to tracking and analyzing CAV Big Data and related innovations. この研究は、ビッグデータイニシアチブを通じて、様々な研究機関による革新的な研究活動から高品質な情報を合成し、導き出す。 その結果は、ビッグデータとその関連イノベーションの安全性への影響をガイドし、追跡するための新しいアプローチを開発するための概念的基盤を提供することができる。

This report focuses on safety aspects of connected and automated vehicles (CAVs). The fundamental question to be answered is how can CAVs improve road users' safety? Using advanced data mining and thematic text analytics tools, the goal is to systematically synthesize studies related to Big Data for safety monitoring and improvement. Within this domain, the report systematically compares Big Data initiatives related to transportation initiatives nationally and internationally and provides insights regarding the evolution of Big Data science applications related to CAVs and new challenges. The objectives addressed are: 1-Creating a database of Big Data efforts by acquiring reports, white papers, and journal publications; 2-Applying text analytics tools to extract key concepts, and spot patterns and trends in Big Data initiatives; 3-Understanding the evolution of CAV Big Data in the context of safety by quantifying granular taxonomies and modeling entity relations among contents in CAV Big Data research initiatives, and 4-Developing a foundation for exploring new approaches to tracking and analyzing CAV Big Data and related innovations. The study synthesizes and derives high-quality information from innovative research activities undertaken by various research entities through Big Data initiatives. The results can provide a conceptual foundation for developing new approaches for guiding and tracking the safety implications of Big Data and related innovations.
翻訳日:2023-04-17 06:31:47 公開日:2021-01-09
# デジタル不死と仮想人類の科学的関連性と未来

Scientific Relevance and Future of Digital Immortality and Virtual Humans ( http://arxiv.org/abs/2101.06105v1 )

ライセンス: Link先を確認
Daniel Cebo(参考訳) 我々はデジタル生活の見方に大きな変化のしきい値に達しており、物理的な世界に大きな影響を与えるだろう」と述べた。 コンピューターは、人工知能、ビッグデータ、機械学習の分野への認識を高めて、死んだ人間をエミュレートし、テクノロジーの助けを借りて死を克服した。 しかし、一つはっきりしているのは、人間の不死について適切な、正当な議論が起きている今、未来が我々にかかっていることは確かだ。 この記事では、デジタル不死が、特にその姿を示す方法を説明し、挑戦する。 本稿では、デジタル人間分野における鍵となる技術と一般的な技術体系をレビューすることで、主要な研究者の技術的解決、研究成果、技術的課題を要約する。 デジタル人類の展望が研究されている。

We are on the threshold of a significant change in the way we view digital life, which will have a major effect on the physical world. Computers have increasingly emulated deceased human beings through growing awareness in the fields of artificial intelligence, big data, and machine learning, and have symbolically managed to overcome death with the help of technology. One thing is clear, though: now that there are proper and legitimate discussions happening about human immortality, we can be certain that the future is upon us. This article attempts to explain and challenge the ways in which digital immortality, in particular, has manifested itself. This paper summarizes the technological solutions, research findings and technical challenges of major researchers by reviewing the key technologies and general technical schemes in the field of digital human beings. The prospects of digital human beings are being investigated.
翻訳日:2023-04-17 06:31:27 公開日:2021-01-09
# ショートカットにおける逆工学と最適制御の関連性

Connection between inverse engineering and optimal control in shortcuts to adiabaticity ( http://arxiv.org/abs/2101.03387v1 )

ライセンス: Link先を確認
Qi Zhang, Xi Chen, David Gu\'ery-Odelin(参考訳) 我々は, adiabaticity (sta) 手法と最適制御理論 (oct) への近道を用いて高速高精度量子制御を考える。 ハーモニックトラップからの低温原子の膨張、移動中のハーモニックトラップによる原子輸送、散逸の存在下でのスピンダイナミクスを含む3つの具体的な例が明確に述べられている。 質的ガイドとしてoctを用いることで,補間関数の適度な選択と調整可能なパラメータ数の低減によって,物理的制約を前提とした極めて高精度な最適解を,逆工学法から設計したstaプロトコルがいかにアプローチできるかを実証する。

We consider fast high-fidelity quantum control by using a shortcut to adiabaticity (STA) technique and optimal control theory (OCT). Three specific examples, including expansion of cold atoms from the harmonic trap, atomic transport by moving harmonic trap, and spin dynamics in the presence of dissipation, are explicitly detailed. Using OCT as a qualitative guide, we demonstrate how STA protocols designed from inverse engineering method, can approach with very high precision optimal solutions built about physical constraints, by a proper choice of the interpolation function and with a very reduced number of adjustable parameters.
翻訳日:2023-04-17 06:31:00 公開日:2021-01-09
# 四元イオン量子高調波発振器

Quaternionic quantum harmonic oscillator ( http://arxiv.org/abs/2101.03379v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 本稿では、実ヒルベルト空間における四元数量子力学の調和振動子解(\mathbbm{h}$qm)を解析的手法と代数的手法の両方において求めた。 四元数解は、複素量子力学($\mathbbm{C}$QM)と比較して多くの可能性を持ち、将来の研究においてこれらの結果に多くの応用が期待できる。

In this article we obtained the harmonic oscillator solution for quaternionic quantum mechanics ($\mathbbm{H}$QM) in the real Hilbert space, both in the analytic method and in the algebraic method. The quaternionic solutions have many additional possibilities if compared to complex quantum mechanics ($\mathbbm{C}$QM), and thus there are many possible applications to these results in future research.
翻訳日:2023-04-17 06:30:48 公開日:2021-01-09
# 遅延チョース量子消去器の古典モデル

Classical model of delayed-choice quantum eraser ( http://arxiv.org/abs/2101.03371v1 )

ライセンス: Link先を確認
Brian R. La Cour and Thomas W. Yudichak(参考訳) ウィーラーの遅延選択実験は、量子力学における波動粒子双対性のパラドックス的な性質を説明するために考案された。 実験では、量子光は、実験者の選択(おそらく遅延)によって、波状の干渉パターンまたは粒子のような反相関を示すことができる。 量子消去器(quantum eraser)として知られる変種は、絡み合った光を使って失われた干渉を非局所的かつ遡及的に回復する。 この挙動は古典物理学とは相容れないと考えられているが、ここでは単純な決定論的検出器モデルを採用し、ランダムな零点電磁場の存在を仮定することで観測された量子現象を再現できることを示す。

Wheeler's delayed-choice experiment was conceived to illustrate the paradoxical nature of wave-particle duality in quantum mechanics. In the experiment, quantum light can exhibit either wave-like interference patterns or particle-like anti-correlations, depending upon the (possibly delayed) choice of the experimenter. A variant known as the quantum eraser uses entangled light to recover the lost interference in a seemingly nonlocal and retrocausal manner. Although it is believed that this behavior is incompatible with classical physics, here we show that the observed quantum phenomena can be reproduced by adopting a simple deterministic detector model and supposing the existence of a random zero-point electromagnetic field.
翻訳日:2023-04-17 06:29:53 公開日:2021-01-09
# トロッター・スズキ分解の最適化のためのグローバル感度解析

Global sensitivity analysis for optimization of the Trotter-Suzuki decomposition ( http://arxiv.org/abs/2101.03349v1 )

ライセンス: Link先を確認
Alexey N. Pyrkov, Yurii Zotov, Jiangyu Cui, Manhong Yung(参考訳) トロッタースズキ分解は、デジタル量子コンピュータ上での量子シミュレーションを実現するための主要なアプローチの1つである。 変量に基づく大域的感度解析(英語版)(Sobol法)は、数学モデルの出力分散を、入力や入力の集合において異なる不確実性源に割り当てられた分数に分解できる広範囲な方法である。 そこで我々は,大域感度解析のトロッタスズキ分解の最適化への応用法を開発した。 概念実証の例を用いて,この手法は分解の指数数を減少させ,ハミルトニアン系において「重要でない」項を発見・廃止する定量的な方法を提供する。

The Trotter-Suzuki decomposition is one of the main approaches for realization of quantum simulations on digital quantum computers. Variance-based global sensitivity analysis (the Sobol method) is a wide used method which allows to decompose output variance of mathematical model into fractions allocated to different sources of uncertainty in inputs or sets of inputs of the model. Here we developed a method for application of the global sensitivity analysis to the optimization of Trotter-Suzuki decomposition. We show with a proof-of-concept example that this approach allows to reduce the number of exponentiations in the decomposition and provides a quantitative method for finding and truncation 'unimportant' terms in the system Hamiltonian.
翻訳日:2023-04-17 06:29:39 公開日:2021-01-09
# 摂動量子多体系の典型的緩和

Typical relaxation of perturbed quantum many-body systems ( http://arxiv.org/abs/2101.03345v1 )

ライセンス: Link先を確認
Lennart Dabelow and Peter Reimann(参考訳) 我々は,摂動作用素の2つの特性パラメータのみに依存する時間依存観測可能期待値の解析的予測を確立し,多体量子系 [phys. rev. lett. 124, 120602 (2020)] からの摂動多体量子系に対する緩和理論を実質的に拡張した。 以前の理論に比べ、摂動強度ははるかに広い範囲をカバーしている。 結果は、ある帯域状摂動のクラスに対して正確に関連するランダム行列問題を解くことと、これらの解の(近似的な)普遍性を証明することによって、より一般的な摂動のクラスにそれらを適用することができる。 また,いくつかの数値例との比較により予測を検証した。

We substantially extend our relaxation theory for perturbed many-body quantum systems from [Phys. Rev. Lett. 124, 120602 (2020)] by establishing an analytical prediction for the time-dependent observable expectation values which depends on only two characteristic parameters of the perturbation operator: its overall strength and its range or band width. Compared to the previous theory, a significantly larger range of perturbation strengths is covered. The results are obtained within a typicality framework by solving the pertinent random matrix problem exactly for a certain class of banded perturbations and by demonstrating the (approximative) universality of these solutions, which allows us to adopt them to considerably more general classes of perturbations. We also verify the prediction by comparison with several numerical examples.
翻訳日:2023-04-17 06:29:21 公開日:2021-01-09
# 遅延空間規則化による画像超解像のための生成逆ネットワークの最適化

Optimizing Generative Adversarial Networks for Image Super Resolution via Latent Space Regularization ( http://arxiv.org/abs/2001.08126v2 )

ライセンス: Link先を確認
Sheng Zhong and Shifu Zhou (Agora.io)(参考訳) 自然画像は、高次元ユークリッド空間に埋め込まれた多様体に存在すると見なすことができる。 GAN(Generative Adversarial Networks)は、多様体内の実画像の分布を学習し、実際のように見えるサンプルを生成する。 しかし,既存の手法では,単一画像超解像 (SISR) のような教師あり学習において,所望の真理目標画像が利用可能である場合でも,多くの不快な成果や歪みが見られる。 本稿では,これらの問題を教師付きGANに対して緩和する方法を探究する。 我々はGANを正規化するためにLipschitz Continuity Condition (LCC) を明示的に適用する。 画像空間を新たな最適潜在空間にマッピングする符号化ネットワークは、LCCから導出され、GANを結合成分として拡張するために使用される。 lccはまた、局所不変性を強制するためにジェネレータ損失関数の新しい正規化項に変換される。 GANは符号化ネットワークと共に最適化されており、ジェネレータをより理想的で不整合なマッピングに収束させ、ターゲット画像に忠実なサンプルを生成する。 提案したモデルが単一画像の超解像問題に適用された場合、その結果は芸術の状態を上回ります。

Natural images can be regarded as residing in a manifold that is embedded in a higher dimensional Euclidean space. Generative Adversarial Networks (GANs) try to learn the distribution of the real images in the manifold to generate samples that look real. But the results of existing methods still exhibit many unpleasant artifacts and distortions even for the cases where the desired ground truth target images are available for supervised learning such as in single image super resolution (SISR). We probe for ways to alleviate these problems for supervised GANs in this paper. We explicitly apply the Lipschitz Continuity Condition (LCC) to regularize the GAN. An encoding network that maps the image space to a new optimal latent space is derived from the LCC, and it is used to augment the GAN as a coupling component. The LCC is also converted to new regularization terms in the generator loss function to enforce local invariance. The GAN is optimized together with the encoding network in an attempt to make the generator converge to a more ideal and disentangled mapping that can generate samples more faithful to the target images. When the proposed models are applied to the single image super resolution problem, the results outperform the state of the art.
翻訳日:2023-01-07 18:32:48 公開日:2021-01-09
# t-net: 生体画像解析のためのタスク固有の監督を伴う学習特徴表現

T-Net: Learning Feature Representation with Task-specific Supervision for Biomedical Image Analysis ( http://arxiv.org/abs/2002.08406v2 )

ライセンス: Link先を確認
Weinan Song, Yuan Liang, Jiawei Yang, Kun Wang, Lei He(参考訳) エンコーダ-デコーダネットワークは、生物医学的画像解析においてピクセル毎のアノテーションから深い特徴表現を学ぶために広く使われている。 この構造下での性能は、エンコーディングネットワークによって達成された特徴抽出の有効性に大きく依存する。 しかし,様々なタスクにおいて,特徴抽出器の注意を適応させるモデルはほとんどない。 本稿では,特徴抽出器の注意を異なるタスクに適応させ,効果的な表現学習を実現する新しい学習戦略を提案する。 具体的には、タスク固有の注意マップによって教師される符号化ネットワークと、学習した特徴を取り入れて対応する結果を予測する後続ネットワークから構成される。 注目マップは、特定のタスクに応じて画素単位のアノテーションから変換され、特徴抽出器を正規化して認識対象の異なる位置に集中させる監督に使用される。 提案手法の有効性を示すため,T-Netを2つのタスク,すなわちセグメンテーションとローカライゼーションで評価した。 3つの公開データセット(BraTS-17, MoNuSeg, IDRiD)の広範な結果から,提案手法の有効性と効果が示唆された。

The encoder-decoder network is widely used to learn deep feature representations from pixel-wise annotations in biomedical image analysis. Under this structure, the performance profoundly relies on the effectiveness of feature extraction achieved by the encoding network. However, few models have considered adapting the attention of the feature extractor even in different kinds of tasks. In this paper, we propose a novel training strategy by adapting the attention of the feature extractor according to different tasks for effective representation learning. Specifically, the framework, named T-Net, consists of an encoding network supervised by task-specific attention maps and a posterior network that takes in the learned features to predict the corresponding results. The attention map is obtained by the transformation from pixel-wise annotations according to the specific task, which is used as the supervision to regularize the feature extractor to focus on different locations of the recognition object. To show the effectiveness of our method, we evaluate T-Net on two different tasks, i.e. , segmentation and localization. Extensive results on three public datasets (BraTS-17, MoNuSeg and IDRiD) have indicated the effectiveness and efficiency of our proposed supervision method, especially over the conventional encoding-decoding network.
翻訳日:2022-12-30 14:29:51 公開日:2021-01-09
# 口腔3D:2次元パノラマX線による口腔3次元骨構造再構築

Oral-3D: Reconstructing the 3D Bone Structure of Oral Cavity from 2D Panoramic X-ray ( http://arxiv.org/abs/2003.08413v4 )

ライセンス: Link先を確認
Weinan Song, Yuan Liang, Jiawei Yang, Kun Wang, and Lei He(参考訳) パノラマx線(px)は、歯茎内の見えない疾患を歯科医が観察するために、パノラマビューで患者の口の2d画像を提供する。 しかし、口腔の3D画像を生成する別のデンタルイメージング法である、コーンビームCT(CBCT)と比較して2D情報が少ないが、放射線線量が多く、より安価である。 その結果、2次元X線画像から3次元構造を再構築し、歯科手術におけるX線画像の応用を深く研究することが大きな関心事となった。 本稿では,1枚のPX画像と歯科用アーチの先行情報から3次元口腔を再構築するOral-3Dという枠組みを提案する。 具体的には、まず生成モデルを訓練し、2Dから3Dへのクロス次元変換を学習する。 次に, 口腔の形状を歯列曲線を伴う変形モジュールで復元し, 患者の口腔の写真を撮るだけで得られるようにした。 注目すべきは、Oral-3Dは骨組織の密度と湾曲した下顎骨の表面の両方を復元することができる。 実験の結果,口腔3Dは3Dの口腔構造を効率的にかつ効果的に再構築し,臨床応用,例えば抜歯やインプラントにおいて重要な情報を提示できることがわかった。 我々の知る限りでは、我々はこの2つのイメージング手法間の領域変換問題を初めて探求している。

Panoramic X-ray (PX) provides a 2D picture of the patient's mouth in a panoramic view to help dentists observe the invisible disease inside the gum. However, it provides limited 2D information compared with cone-beam computed tomography (CBCT), another dental imaging method that generates a 3D picture of the oral cavity but with more radiation dose and a higher price. Consequently, it is of great interest to reconstruct the 3D structure from a 2D X-ray image, which can greatly explore the application of X-ray imaging in dental surgeries. In this paper, we propose a framework, named Oral-3D, to reconstruct the 3D oral cavity from a single PX image and prior information of the dental arch. Specifically, we first train a generative model to learn the cross-dimension transformation from 2D to 3D. Then we restore the shape of the oral cavity with a deformation module with the dental arch curve, which can be obtained simply by taking a photo of the patient's mouth. To be noted, Oral-3D can restore both the density of bony tissues and the curved mandible surface. Experimental results show that Oral-3D can efficiently and effectively reconstruct the 3D oral structure and show critical information in clinical applications, e.g., tooth pulling and dental implants. To the best of our knowledge, we are the first to explore this domain transformation problem between these two imaging methods.
翻訳日:2022-12-22 13:07:44 公開日:2021-01-09
# C3VQG: カテゴリー一貫性の周期的視覚的質問生成

C3VQG: Category Consistent Cyclic Visual Question Generation ( http://arxiv.org/abs/2005.07771v5 )

ライセンス: Link先を確認
Shagun Uppal, Anish Madan, Sarthak Bhagat, Yi Yu, Rajiv Ratn Shah(参考訳) 視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。 過去のポピュラーな手法は、画像とその関連する接地真実の答えを有意義に生成した質問を示す最大可能性で訓練されたイメージ・ツー・シーケンスアーキテクチャを探索してきた。 VQGは、画像にその異なるセマンティックカテゴリを記述するリッチなコンテキスト情報が含まれていると、さらに困難になる。 本稿では,画像中の異なる視覚的な手がかりと概念を活用し,接地正答のない変分オートエンコーダ(vae)を用いて質問を生成する。 我々のアプローチは、既存のVQGシステムの2つの大きな欠点を解決する。 (i)監督のレベルを最小化し、 (ii)一般的な質問をカテゴリ関連世代に置き換える。 最も重要なことは、高価な応答アノテーションを削除することで、必要な監視が弱まることです。 異なるカテゴリを使用することで、推論は画像とカテゴリのみを必要とするため、異なる概念を活用できる。 VAEの潜伏空間における画像,質問,回答のカテゴリ間で相互情報を最大化する。 モデルが解答カテゴリに対して一貫した予測を生成できるように、新しいカテゴリー一貫した循環損失を提案し、冗長性と不規則性を低減した。 さらに,生成モデルの潜在空間に補足的制約を課し,カテゴリに基づく構造を提供し,各次元における非相関特徴をカプセル化することによって一般化を強化する。 提案したモデルであるC3VQGは、広範囲にわたる実験により、最先端のVQG法よりも低い監督力を持つ。

Visual Question Generation (VQG) is the task of generating natural questions based on an image. Popular methods in the past have explored image-to-sequence architectures trained with maximum likelihood which have demonstrated meaningful generated questions given an image and its associated ground-truth answer. VQG becomes more challenging if the image contains rich contextual information describing its different semantic categories. In this paper, we try to exploit the different visual cues and concepts in an image to generate questions using a variational autoencoder (VAE) without ground-truth answers. Our approach solves two major shortcomings of existing VQG systems: (i) minimize the level of supervision and (ii) replace generic questions with category relevant generations. Most importantly, by eliminating expensive answer annotations, the required supervision is weakened. Using different categories enables us to exploit different concepts as the inference requires only the image and the category. Mutual information is maximized between the image, question, and answer category in the latent space of our VAE. A novel category consistent cyclic loss is proposed to enable the model to generate consistent predictions with respect to the answer category, reducing redundancies and irregularities. Additionally, we also impose supplementary constraints on the latent space of our generative model to provide structure based on categories and enhance generalization by encapsulating decorrelated features within each dimension. Through extensive experiments, the proposed model, C3VQG outperforms state-of-the-art VQG methods with weak supervision.
翻訳日:2022-12-02 23:18:06 公開日:2021-01-09
# 対戦型実演ゲーム

Adversarial Example Games ( http://arxiv.org/abs/2007.00720v6 )

ライセンス: Link先を確認
Avishek Joey Bose, Gauthier Gidel, Hugo Berard, Andre Cianflone, Pascal Vincent, Simon Lacoste-Julien and William L. Hamilton(参考訳) 訓練されたニューラルネットワーク分類器を騙すことができる敵の例の存在は、それらに対する安全策の開発を導くために考えられる攻撃をよりよく理解することを要求する。 これには、ターゲットモデルへのクエリを含むいかなるアクセスもなしに逆攻撃が生成される、非インタラクティブなブラックボックス設定における攻撃メソッドが含まれている。 この設定での先行攻撃は、主に経験的観察(例えば、運動量が役に立つ)に由来するアルゴリズム的な革新に依存しており、原理的な伝達可能性の保証を欠いている。 本研究は,仮説クラス全体への移動可能な逆例を作成するための理論的基礎を提供する。 我々は,攻撃生成器と分類器の間のミニマックスゲームとして,攻撃例の作成をモデル化するフレームワークであるadversarial example games(aeg)を紹介する。 AEGは、ある仮説クラス(アーキテクチャなど)からジェネレータと分類器を敵対的に訓練することで、敵の例を設計する新しい方法を提供する。 このゲームに平衡性があることを証明し、最適生成器は対応する仮説クラスから任意の分類子を攻撃できる逆例を作成できることを示した。 MNIST と CIFAR-10 データセットにおける AEG の有効性を実証し、平均相対改善率29.9 %$ と 47.2 %$ をそれぞれ無防備モデルとロバストモデル (Table 2 と 3) と比較した。

The existence of adversarial examples capable of fooling trained neural network classifiers calls for a much better understanding of possible attacks to guide the development of safeguards against them. This includes attack methods in the challenging non-interactive blackbox setting, where adversarial attacks are generated without any access, including queries, to the target model. Prior attacks in this setting have relied mainly on algorithmic innovations derived from empirical observations (e.g., that momentum helps), lacking principled transferability guarantees. In this work, we provide a theoretical foundation for crafting transferable adversarial examples to entire hypothesis classes. We introduce Adversarial Example Games (AEG), a framework that models the crafting of adversarial examples as a min-max game between a generator of attacks and a classifier. AEG provides a new way to design adversarial examples by adversarially training a generator and a classifier from a given hypothesis class (e.g., architecture). We prove that this game has an equilibrium, and that the optimal generator is able to craft adversarial examples that can attack any classifier from the corresponding hypothesis class. We demonstrate the efficacy of AEG on the MNIST and CIFAR-10 datasets, outperforming prior state-of-the-art approaches with an average relative improvement of $29.9\%$ and $47.2\%$ against undefended and robust models (Table 2 & 3) respectively.
翻訳日:2022-11-14 21:43:53 公開日:2021-01-09
# ベイズ学習への分散的アプローチ

A Decentralized Approach to Bayesian Learning ( http://arxiv.org/abs/2007.06799v4 )

ライセンス: Link先を確認
Anjaly Parayil, He Bai, Jemin George, and Prudhvi Gurram(参考訳) 機械学習への分散型アプローチに動機づけられ,非凸環境における分散ランジュバンダイナミクスを形作る協調ベイズ学習アルゴリズムを提案する。 解析の結果,マルコフ連鎖の初期KL偏差は指数関数的に減少し,加法雑音から全体のKL偏差への誤差寄与は多項式時間で減少していることがわかった。 さらに, 多項式項がエージェント数で高速化し, 所望の分布への収束を保証するために, 時間変化ステップサイズに十分な条件を与えることを示した。 提案アルゴリズムの性能は,多種多様な機械学習タスクで評価される。 実験結果から, 局所的に利用可能なデータを持つ個々のエージェントの性能は集中的な設定と同等であり, 収束速度は大幅に向上した。

Motivated by decentralized approaches to machine learning, we propose a collaborative Bayesian learning algorithm taking the form of decentralized Langevin dynamics in a non-convex setting. Our analysis show that the initial KL-divergence between the Markov Chain and the target posterior distribution is exponentially decreasing while the error contributions to the overall KL-divergence from the additive noise is decreasing in polynomial time. We further show that the polynomial-term experiences speed-up with number of agents and provide sufficient conditions on the time-varying step-sizes to guarantee convergence to the desired distribution. The performance of the proposed algorithm is evaluated on a wide variety of machine learning tasks. The empirical results show that the performance of individual agents with locally available data is on par with the centralized setting with considerable improvement in the convergence rate.
翻訳日:2022-11-10 14:17:35 公開日:2021-01-09
# 畳み込みニューラルネットワークにおける近似乗算の効果

The Effects of Approximate Multiplication on Convolutional Neural Networks ( http://arxiv.org/abs/2007.10500v2 )

ライセンス: Link先を確認
Min Soo Kim, Alberto A. Del Barrio, HyunJin Kim, Nader Bagherzadeh(参考訳) 本稿では,深部畳み込みニューラルネットワーク(CNN)の推論における近似乗法の効果を解析する。 この近似乗算により、ハードウェアアクセラレーターにおいてCNN推論をより効率的に行えるように、基盤回路のコストを削減できる。 本研究は,畳み込み層,完全連結層,バッチ正規化層において,近似乗算による誤差にもかかわらず,より正確なcnn予測を可能にする重要な要因を明らかにする。 同じ要因は、bfloat16の乗算がcnnでうまく機能する理由の算術的説明にもなっている。 実験は認識されたネットワークアーキテクチャを用いて行われ、近似乗算器が追加のトレーニングなしでFP32参照とほぼ同じ精度の予測を生成できることを示す。 例えば、Mitch-$w$6の乗算を持つResNetとInception-v4モデルは、FP32参照と比較して0.2%以内のTop-5エラーを生成する。 Mitch-$w$6のbfloat16に対する短いコスト比較を行い、MAC演算はbfloat16算術と比較して最大80%のエネルギーを節約する。 この論文の最も大きな貢献は、乗法を近似できるという解析的正当化であり、cnn mac操作では加法が正確である必要がある。

This paper analyzes the effects of approximate multiplication when performing inferences on deep convolutional neural networks (CNNs). The approximate multiplication can reduce the cost of the underlying circuits so that CNN inferences can be performed more efficiently in hardware accelerators. The study identifies the critical factors in the convolution, fully-connected, and batch normalization layers that allow more accurate CNN predictions despite the errors from approximate multiplication. The same factors also provide an arithmetic explanation of why bfloat16 multiplication performs well on CNNs. The experiments are performed with recognized network architectures to show that the approximate multipliers can produce predictions that are nearly as accurate as the FP32 references, without additional training. For example, the ResNet and Inception-v4 models with Mitch-$w$6 multiplication produces Top-5 errors that are within 0.2% compared to the FP32 references. A brief cost comparison of Mitch-$w$6 against bfloat16 is presented, where a MAC operation saves up to 80% of energy compared to the bfloat16 arithmetic. The most far-reaching contribution of this paper is the analytical justification that multiplications can be approximated while additions need to be exact in CNN MAC operations.
翻訳日:2022-11-08 13:32:01 公開日:2021-01-09
# 時間適応型マルチフレーム補間と高度な運動モデル

All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced Motion Modeling ( http://arxiv.org/abs/2007.11762v2 )

ライセンス: Link先を確認
Zhixiang Chi, Rasoul Mohammadi Nasiri, Zheng Liu, Juwei Lu, Jin Tang, Konstantinos N Plataniotis(参考訳) 近年の高リフレッシュレートディスプレイの進歩と高速度スローモーションやフレームアップコンバージョンへの関心の高まりにより、高効率で費用対効果の高いマルチフレームビデオ補間ソリューションの需要が高まった。 そのために、連続するビデオフレーム間で複数のフレームを挿入することが、家電産業にとって最重要課題である。 最先端の手法は、一度に一つのフレームを補間する反復解である。 時間的不整合と明らかな視覚的アーティファクトを導入している。 最先端から脱却したこの作品は、真のマルチフレーム補間器を導入している。 時間領域内のピラミッド型ネットワークを使用して、ワンショットでマルチフレーム補間タスクを完了する。 また, 複雑な動作セグメントに遭遇した場合の補間精度を高めるために, 緩和損失関数と高度立方体モデルを用いた新しい流れ推定手法を用いた。 Adobe240データセットの結果は、提案手法が視覚的に快適で時間的に一貫したフレームを生成し、PSNRにおいて8倍のモデルと7.7倍の速度で現在の最高のオフ・ザ・シェルフ法を1.57db上回ることを示した。 提案手法は, 多数の新しいフレームを補間するために容易に拡張できるが, ワンショット機構により効率がよい。

Recent advances in high refresh rate displays as well as the increased interest in high rate of slow motion and frame up-conversion fuel the demand for efficient and cost-effective multi-frame video interpolation solutions. To that regard, inserting multiple frames between consecutive video frames are of paramount importance for the consumer electronics industry. State-of-the-art methods are iterative solutions interpolating one frame at the time. They introduce temporal inconsistencies and clearly noticeable visual artifacts. Departing from the state-of-the-art, this work introduces a true multi-frame interpolator. It utilizes a pyramidal style network in the temporal domain to complete the multi-frame interpolation task in one-shot. A novel flow estimation procedure using a relaxed loss function, and an advanced, cubic-based, motion model is also used to further boost interpolation accuracy when complex motion segments are encountered. Results on the Adobe240 dataset show that the proposed method generates visually pleasing, temporally consistent frames, outperforms the current best off-the-shelf method by 1.57db in PSNR with 8 times smaller model and 7.7 times faster. The proposed method can be easily extended to interpolate a large number of new frames while remaining efficient because of the one-shot mechanism.
翻訳日:2022-11-07 12:29:52 公開日:2021-01-09
# 補助照明付き逆像組成物

Adversarial Image Composition with Auxiliary Illumination ( http://arxiv.org/abs/2009.08255v2 )

ライセンス: Link先を確認
Fangneng Zhan, Shijian Lu, Changgong Zhang, Feiying Ma, Xuansong Xie(参考訳) 前景オブジェクトと背景画像との矛盾に対処することは、高忠実度画像合成において難しい課題である。 最先端の手法では,前景オブジェクトのスタイルを背景画像に適合させることで合成画像の調和を図るが,構成リアリズムに不可欠な構成画像内の前景オブジェクトの潜在的な影は無視される。 本稿では,前景オブジェクトが合成画像に投影する潜在的な影を考慮し,現実的な画像合成を実現するAIC-Netを提案する。 2つのタスクを同時に最適に達成するために,影の発生と前景スタイルの移動を両立させる新しい分岐生成機構を提案する。 局所的調和と大域的調和を橋渡しして, 共同最適化を効果的に実現する, 微分可能な空間変換モジュールを設計する。 歩行者および自動車構成課題に関する広範な実験により, aic-netは, 質的, 定量的に優れた構成性能を実現することが示された。

Dealing with the inconsistency between a foreground object and a background image is a challenging task in high-fidelity image composition. State-of-the-art methods strive to harmonize the composed image by adapting the style of foreground objects to be compatible with the background image, whereas the potential shadow of foreground objects within the composed image which is critical to the composition realism is largely neglected. In this paper, we propose an Adversarial Image Composition Net (AIC-Net) that achieves realistic image composition by considering potential shadows that the foreground object projects in the composed image. A novel branched generation mechanism is proposed, which disentangles the generation of shadows and the transfer of foreground styles for optimal accomplishment of the two tasks simultaneously. A differentiable spatial transformation module is designed which bridges the local harmonization and the global harmonization to achieve their joint optimization effectively. Extensive experiments on pedestrian and car composition tasks show that the proposed AIC-Net achieves superior composition performance qualitatively and quantitatively.
翻訳日:2022-10-17 11:48:56 公開日:2021-01-09
# 連続意味セグメンテーションのための教師なしモデル適応

Unsupervised Model Adaptation for Continual Semantic Segmentation ( http://arxiv.org/abs/2009.12518v2 )

ライセンス: Link先を確認
Serban Stan, Mohammad Rostami(参考訳) 我々は,ラベル付きソースドメインを用いて学習した意味セグメンテーションモデルを適用し,ラベルなしターゲットドメインでよく一般化するアルゴリズムを開発した。 同様の問題はunsupervised domain adaptation (uda)の文献で広く研究されているが、既存のudaアルゴリズムでは、ソースドメインラベル付きデータとターゲットドメインラベルなしデータの両方にアクセスして、ドメインに依存しないセマンティクスセグメンテーションモデルをトレーニングする必要がある。 この制約を緩和することで、ソースデータへのアクセスを必要とせずに、事前訓練されたモデルをターゲットドメインに一般化することができる。 この目的のために、中間埋め込み空間におけるソースドメインの原型分布を学習する。 この分布は、ソースドメインから学んだ抽象的な知識を符号化する。 次に、この分布を用いて、対象領域分布を埋め込み空間内のソース領域分布と整合させる。 我々は,アルゴリズムが有効である条件を理論的に分析し,説明する。 ベンチマーク適応タスクの実験では, 共同UDA手法と比較して, 競争性能が向上することを示した。

We develop an algorithm for adapting a semantic segmentation model that is trained using a labeled source domain to generalize well in an unlabeled target domain. A similar problem has been studied extensively in the unsupervised domain adaptation (UDA) literature, but existing UDA algorithms require access to both the source domain labeled data and the target domain unlabeled data for training a domain agnostic semantic segmentation model. Relaxing this constraint enables a user to adapt pretrained models to generalize in a target domain, without requiring access to source data. To this end, we learn a prototypical distribution for the source domain in an intermediate embedding space. This distribution encodes the abstract knowledge that is learned from the source domain. We then use this distribution for aligning the target domain distribution with the source domain distribution in the embedding space. We provide theoretical analysis and explain conditions under which our algorithm is effective. Experiments on benchmark adaptation task demonstrate our method achieves competitive performance even compared with joint UDA approaches.
翻訳日:2022-10-14 08:18:01 公開日:2021-01-09
# UniNet: Metropolis-Hastings サンプリングによるスケーラブルなネットワーク表現学習

UniNet: Scalable Network Representation Learning with Metropolis-Hastings Sampling ( http://arxiv.org/abs/2010.04895v2 )

ライセンス: Link先を確認
Xingyu Yao, Yingxia Shao, Bin Cui, Lei Chen(参考訳) ネットワーク表現学習(NRL)技術は、様々なデータマイニングや機械学習アプリケーションで成功している。 ランダムウォークに基づくNRLは、ランダムウォークを用いてネットワーク構造情報をキャプチャし、ワード2vecモデルを用いて低次元表現を学習する一般的なパラダイムである。 しかし、これまでは、既存のランダムウォークベースのNRLモデルを統一し、大規模ネットワークから効率的に学習するフレームワークが欠如している。 主な障害は多様なランダムウォークモデルとランダムウォーク生成のための非効率的なサンプリング法である。 本稿では,まず,メトロポリス・ハスティングスサンプリング法に基づく新しい効率的なエッジサンプリング手法を導入し,任意の離散確率分布に対するエッジサンプリング器の収束特性を理論的に示す。 次に,動的エッジ重みとランダムウォーク状態を指定することにより,異なる遷移確率を容易に定義できるランダムウォークモデル抽象化を提案する。 この抽象化は,非正規化確率分布のサンプルを一定時間で描画できるため,エッジサンプリングによって効率的に支持される。 最後に、新しいエッジサンプリングとランダムウォークモデル抽象化により、UniNetと呼ばれるスケーラブルNRLフレームワークを慎重に実装する。 実世界の11のデータセット上で5つのランダムウォークベースNRLモデルによる総合的な実験を行い、その結果から、数十億のエッジネットワーク上でのUniNetの有効性が明らかとなった。

Network representation learning (NRL) technique has been successfully adopted in various data mining and machine learning applications. Random walk based NRL is one popular paradigm, which uses a set of random walks to capture the network structural information, and then employs word2vec models to learn the low-dimensional representations. However, until now there is lack of a framework, which unifies existing random walk based NRL models and supports to efficiently learn from large networks. The main obstacle comes from the diverse random walk models and the inefficient sampling method for the random walk generation. In this paper, we first introduce a new and efficient edge sampler based on Metropolis-Hastings sampling technique, and theoretically show the convergence property of the edge sampler to arbitrary discrete probability distributions. Then we propose a random walk model abstraction, in which users can easily define different transition probability by specifying dynamic edge weights and random walk states. The abstraction is efficiently supported by our edge sampler, since our sampler can draw samples from unnormalized probability distribution in constant time complexity. Finally, with the new edge sampler and random walk model abstraction, we carefully implement a scalable NRL framework called UniNet. We conduct comprehensive experiments with five random walk based NRL models over eleven real-world datasets, and the results clearly demonstrate the efficiency of UniNet over billion-edge networks.
翻訳日:2022-10-08 22:54:06 公開日:2021-01-09
# 最適境界を持つ一般確率的分離定理

General stochastic separation theorems with optimal bounds ( http://arxiv.org/abs/2010.05241v2 )

ライセンス: Link先を確認
Bogdan Grechuk, Alexander N. Gorban, Ivan Y. Tyukin(参考訳) 確率分離性の現象を明らかにし、機械学習を用いて人工知能(AI)システムのエラーを修正し、AI不安定性を分析する。 広い仮定の下での高次元データセットでは、単純でロバストなフィッシャーの判別によって、各点をセットの残りの部分から分離することができる(フィッシャーは分離可能である)。 エラーやエラーのクラスタは、残りのデータから分離することができる。 AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、高次元のデータ駆動型AIの堅牢性と適応性の基本を理解する鍵を保持する同じ確率的分離性によって引き起こされる脆弱性を誘発する。 誤差を管理し、脆弱性を分析するために、確率的分離定理は、データセットが与えられた次元と与えられた分布のクラスで分離可能である確率を評価するべきである。 これらの分離確率の明示的および最適推定が必要であり,本研究でこの問題を解決した。 確率推定を最適とする一般確率分離定理は、対数凹分布、凸結合、積分布といった重要な分布のクラスに対して得られる。 標準 i.d. 仮定は著しく緩和された。 これらの定理と推定は、高次元のデータ駆動型aiシステムの修正と脆弱性の分析の両方に使用できる。 第3の応用分野は、神経細胞のアンサンブルにおける記憶の出現、祖母の細胞の現象、脳内のスパースコーディング、高次元脳における小さなニューラルアンサンブルの予期せぬ有効性の説明である。

Phenomenon of stochastic separability was revealed and used in machine learning to correct errors of Artificial Intelligence (AI) systems and analyze AI instabilities. In high-dimensional datasets under broad assumptions each point can be separated from the rest of the set by simple and robust Fisher's discriminant (is Fisher separable). Errors or clusters of errors can be separated from the rest of the data. The ability to correct an AI system also opens up the possibility of an attack on it, and the high dimensionality induces vulnerabilities caused by the same stochastic separability that holds the keys to understanding the fundamentals of robustness and adaptivity in high-dimensional data-driven AI. To manage errors and analyze vulnerabilities, the stochastic separation theorems should evaluate the probability that the dataset will be Fisher separable in given dimensionality and for a given class of distributions. Explicit and optimal estimates of these separation probabilities are required, and this problem is solved in present work. The general stochastic separation theorems with optimal probability estimates are obtained for important classes of distributions: log-concave distribution, their convex combinations and product distributions. The standard i.i.d. assumption was significantly relaxed. These theorems and estimates can be used both for correction of high-dimensional data driven AI systems and for analysis of their vulnerabilities. The third area of application is the emergence of memories in ensembles of neurons, the phenomena of grandmother's cells and sparse coding in the brain, and explanation of unexpected effectiveness of small neural ensembles in high-dimensional brain.
翻訳日:2022-10-08 12:48:07 公開日:2021-01-09
# シャッフルプール層を用いた高分解能U-net

Dense U-net for super-resolution with shuffle pooling layer ( http://arxiv.org/abs/2011.05490v2 )

ライセンス: Link先を確認
Zhengyang Lu and Ying Chen(参考訳) 近年の研究では、コンピュータビジョンの分野での深層学習の発展により、単一画像超解像(SISR)に大きな進歩を遂げている。 この方法では、高分解能入力画像は、特徴抽出の前に単一のフィルタ、通常最大プーリングを用いて、低分解能空間にダウンスケールされる。 つまり、特徴抽出はバイアス付きフィルタ特徴空間で行われる。 これは準最適であり、情報損失を引き起こすことを示す。 本研究では,シャッフルプールを用いたDense U-netという最先端の畳み込みニューラルネットワーク手法を提案する。 これを実現するため、SISRでは密度の高いU-netと呼ばれる高密度ブロックを持つ修正U-netを提案する。 次に, シャッフルプールと呼ばれる新しいプール方式を設計し, より高密度なU-Netをダウンスケール操作に置き換えることを目的とした。 これにより、SISRパイプラインのハンドクラフトフィルタを、各特徴マップに特化して訓練されたより損失の多いダウンサンプリングフィルタに置き換えると同時に、SISR全体の情報損失を低減することができる。 さらに、平均二乗誤差(mse)、構造類似度指数(ssim)、平均勾配誤差(mge)を組み合わせた混合損失関数によって、知覚損失と高レベル情報損失を低減することができる。 提案手法は,SET14,BSD300,ICDAR2003の3つのベンチマークデータセットにおいて,先行技術よりも精度が高い。 コードはオンラインで入手できる。

Recent researches have achieved great progress on single image super-resolution(SISR) due to the development of deep learning in the field of computer vision. In these method, the high resolution input image is down-scaled to low resolution space using a single filter, commonly max-pooling, before feature extraction. This means that the feature extraction is performed in biased filtered feature space. We demonstrate that this is sub-optimal and causes information loss. In this work, we proposed a state-of-the-art convolutional neural network method called Dense U-net with shuffle pooling. To achieve this, a modified U-net with dense blocks, called dense U-net, is proposed for SISR. Then, a new pooling strategy called shuffle pooling is designed, which is aimed to replace the dense U-Net for down-scale operation. By doing so, we effectively replace the handcrafted filter in the SISR pipeline with more lossy down-sampling filters specifically trained for each feature map, whilst also reducing the information loss of the overall SISR operation. In addition, a mix loss function, which combined with Mean Square Error(MSE), Structural Similarity Index(SSIM) and Mean Gradient Error (MGE), comes up to reduce the perception loss and high-level information loss. Our proposed method achieves superior accuracy over previous state-of-the-art on the three benchmark datasets: SET14, BSD300, ICDAR2003. Code is available online.
翻訳日:2022-09-27 00:41:50 公開日:2021-01-09
# virufy:covid-19検出のためのクラウドソーシングおよび臨床データセットのグローバル適用可能性

Virufy: Global Applicability of Crowdsourced and Clinical Datasets for AI Detection of COVID-19 from Cough ( http://arxiv.org/abs/2011.13320v4 )

ライセンス: Link先を確認
Gunvant Chaudhari, Xinyi Jiang, Ahmed Fakhry, Asriel Han, Jaclyn Xiao, Sabrina Shen, Amil Khanzada(参考訳) 新型コロナウイルス感染症の迅速かつ安価な検査方法は、感染率を下げ、医療施設が圧倒されるのを防ぐために不可欠である。 新型コロナウイルス(COVID-19)を検知する現在のアプローチは、必ずしも容易にアクセスできない高価なキットで直接検査する必要がある。 この研究は、世界中のスマートフォンで記録され、取得されたクラウドソースされた音声サンプルが、ROC-AUCの77.1%(75.2%-78.3%)で、新型コロナウイルスの感染を正確に予測するAIベースの方法の開発に利用できることを示した。 さらに,本手法は,ラテンアメリカからクラウドソースされたオーディオサンプルと南アジアからの臨床サンプルを,これらの地域から得られた特定のサンプルを用いてさらなるトレーニングをすることなく,一般化できることが示唆された。 より多くのクラウドソースされたデータが収集されるにつれて、さまざまな呼吸オーディオサンプルを使用してさらなる開発を実施することで、新型コロナウイルス(COVID-19)検出のための粗い分析ベースの機械学習(ML)ソリューションを作成することができる。

Rapid and affordable methods of testing for COVID-19 infections are essential to reduce infection rates and prevent medical facilities from becoming overwhelmed. Current approaches of detecting COVID-19 require in-person testing with expensive kits that are not always easily accessible. This study demonstrates that crowdsourced cough audio samples recorded and acquired on smartphones from around the world can be used to develop an AI-based method that accurately predicts COVID-19 infection with an ROC-AUC of 77.1% (75.2%-78.3%). Furthermore, we show that our method is able to generalize to crowdsourced audio samples from Latin America and clinical samples from South Asia, without further training using the specific samples from those regions. As more crowdsourced data is collected, further development can be implemented using various respiratory audio samples to create a cough analysis-based machine learning (ML) solution for COVID-19 detection that can likely generalize globally to all demographic groups in both clinical and non-clinical settings.
翻訳日:2022-09-20 12:43:13 公開日:2021-01-09
# ニューラルネットワークの表現力:次元の呪いを破る

The Representation Power of Neural Networks: Breaking the Curse of Dimensionality ( http://arxiv.org/abs/2012.05451v3 )

ライセンス: Link先を確認
Moise Blanchard and M. Amine Bennouna(参考訳) 本稿では,ニューラルネットワークが有界2次混合導関数-コロボフ関数の多変量関数を近似するために必要なニューロンの数とトレーニングパラメータを解析する。 浅層および深層ニューラルネットワークにおけるこれらの量に対する上限を証明し、次元の呪いを破る。 我々の境界は、ReLUを含む一般活性化関数を保っている。 さらに、これらの境界がコロボフ関数を近似するために必要となる連続関数近似器の最小パラメータとほぼ一致することを証明し、ニューラルネットワークが近似器に近い最適関数であることが示される。

In this paper, we analyze the number of neurons and training parameters that a neural networks needs to approximate multivariate functions of bounded second mixed derivatives -- Korobov functions. We prove upper bounds on these quantities for shallow and deep neural networks, breaking the curse of dimensionality. Our bounds hold for general activation functions, including ReLU. We further prove that these bounds nearly match the minimal number of parameters any continuous function approximator needs to approximate Korobov functions, showing that neural networks are near-optimal function approximators.
翻訳日:2021-05-15 06:06:13 公開日:2021-01-09
# マンガ翻訳の完全自動化に向けて

Towards Fully Automated Manga Translation ( http://arxiv.org/abs/2012.14271v3 )

ライセンス: Link先を確認
Ryota Hinami, Shonosuke Ishiwatari, Kazuhiko Yasuda, and Yusuke Matsui(参考訳) マンガや日本の漫画の機械翻訳問題に取り組む。 マンガ翻訳には、文脈認識とマルチモーダル翻訳の2つの重要な問題がある。 マンガではテキストと画像が非構造的に混ざり合っているため、マンガの翻訳には画像から文脈を取得することが不可欠である。 しかし、画像からコンテキストを抽出してmtモデルに統合する方法はまだ未解決の問題である。 さらに、これらのモデルのトレーニングと評価のためのコーパスとベンチマークは、現在利用できない。 本稿では,マンガ翻訳研究の基礎となる4つの貢献について述べる。 まず,マルチモーダルな文脈認識翻訳フレームワークを提案する。 マンガ画像から得られた文脈情報を最初に組み込んだ。 これにより、文脈情報(例えば、他の音声バブルのテキスト、話者の性別など)を使わずに翻訳できない音声バブルのテキストを翻訳することができる。 第2に,モデル学習のために,手作業によるラベリングを行わずに大規模並列コーパスを構築できるマンガと翻訳のペアからの自動コーパス構築手法を提案する。 第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。 最後に,提案手法に加えて,完全自動マンガ翻訳のための最初の総合的なシステムを考案した。

We tackle the problem of machine translation of manga, Japanese comics. Manga translation involves two important problems in machine translation: context-aware and multimodal translation. Since text and images are mixed up in an unstructured fashion in Manga, obtaining context from the image is essential for manga translation. However, it is still an open problem how to extract context from image and integrate into MT models. In addition, corpus and benchmarks to train and evaluate such model is currently unavailable. In this paper, we make the following four contributions that establishes the foundation of manga translation research. First, we propose multimodal context-aware translation framework. We are the first to incorporate context information obtained from manga image. It enables us to translate texts in speech bubbles that cannot be translated without using context information (e.g., texts in other speech bubbles, gender of speakers, etc.). Second, for training the model, we propose the approach to automatic corpus construction from pairs of original manga and their translations, by which large parallel corpus can be constructed without any manual labeling. Third, we created a new benchmark to evaluate manga translation. Finally, on top of our proposed methods, we devised a first comprehensive system for fully automated manga translation.
翻訳日:2021-04-19 11:06:26 公開日:2021-01-09
# HAVANA: 人物再識別のための階層的・変分正規化オートエンコーダ

HAVANA: Hierarchical and Variation-Normalized Autoencoder for Person Re-identification ( http://arxiv.org/abs/2101.02568v2 )

ライセンス: Link先を確認
Jiawei Ren, Xiao Ma, Chen Xu, Haiyu Zhao, Shuai Yi(参考訳) 人物再識別(Re-ID)は多くのビデオ監視システムにおいて非常に重要である。 Re-IDの識別的特徴の学習は、画像空間の大きなバリエーション、例えば、人間のポーズ、照明、視点の連続的な変化のために、依然として課題である。 本稿では,クラス内変動にロバストな特徴を学習する拡張性,軽量階層性,変分正規化オートエンコーダであるhavanaを提案する。 ハバナは、過剰な教師付き信号で変種を損なう既存の生成的アプローチとは対照的に、変種正規化オートエンコーダでクラス内変種を抑制する。 また,Re-IDにおけるコントラスト分布学習のための新しいJensen-Shannon三重項損失を導入する。 さらに,階層的変動ディシラ(hierarchical Variation Distiller)という階層的変動ディシラ(hierarchical Variation Distiller)を提案する。 我々の知る限りでは、HAVANAは個人ReIDのための最初のVAEベースのフレームワークです。

Person Re-Identification (Re-ID) is of great importance to the many video surveillance systems. Learning discriminative features for Re-ID remains a challenge due to the large variations in the image space, e.g., continuously changing human poses, illuminations and point of views. In this paper, we propose HAVANA, a novel extensible, light-weight HierArchical and VAriation-Normalized Autoencoder that learns features robust to intra-class variations. In contrast to existing generative approaches that prune the variations with heavy extra supervised signals, HAVANA suppresses the intra-class variations with a Variation-Normalized Autoencoder trained with no additional supervision. We also introduce a novel Jensen-Shannon triplet loss for contrastive distribution learning in Re-ID. In addition, we present Hierarchical Variation Distiller, a hierarchical VAE to factorize the latent representation and explicitly model the variations. To the best of our knowledge, HAVANA is the first VAE-based framework for person ReID.
翻訳日:2021-04-11 00:13:07 公開日:2021-01-09
# (参考訳) 日本語依存構文解析のゲーム化

A Gamification of Japanese Dependency Parsing ( http://arxiv.org/abs/2101.03269v1 )

ライセンス: CC BY 4.0
Masayuki Asahara(参考訳) ゲーミフィケーションアプローチは、NLPのための言語リソースを作成する方法として使われてきた。 また、NLPや言語現象のアルゴリズムを提示し、教えるためにも用いられる。 本稿では,日本語構文依存構文解析のためのゲーミフィケーションの設計について論じる。 ユーザインタフェース設計は、日本の依存関係構造におけるShiFT(アタッチ)とREDUCE(アタッチ)の2つのアクションのみを必要とする、遷移ベースの依存性解析に基づく。 ゲームパッドや他のデバイス上での双方向制御に2つのアクションを割り当てる。 また,心理言語学研究の目標文も設計する。

Gamification approaches have been used as a way for creating language resources for NLP. It is also used for presenting and teaching the algorithms in NLP and linguistic phenomena. This paper argues about a design of gamification for Japanese syntactic dependendency parsing for the latter objective. The user interface design is based on a transition-based shift reduce dependency parsing which needs only two actions of SHIFT (not attach) and REDUCE (attach) in Japanese dependency structure. We assign the two actions for two-way directional control on a gamepad or other devices. We also design the target sentences from psycholinguistics researches.
翻訳日:2021-04-09 12:41:36 公開日:2021-01-09
# (参考訳) 顔マニフォールド上の逆向きフェイク画像の探索

Exploring Adversarial Fake Images on Face Manifold ( http://arxiv.org/abs/2101.03272v1 )

ライセンス: CC BY 4.0
Dongze Li, Wei Wang, Hongxing Fan, Jing Dong(参考訳) 強力な生成的敵ネットワーク(GAN)に基づく画像は、道徳的・プライバシー的な懸念を招いている。 画像鑑識モデルは実際の画像から偽画像を検出することで大きな成果を上げているが、これらのモデルは単純な敵の攻撃で簡単に騙すことができる。 しかし、反対のサンプルを付加するノイズも疑念を呼んでいる。 本稿では, 対向雑音を付加する代わりに, 顔多様体上の対向点を最適に探索し, 反forensic fake face imageを生成する。 我々は、生成モデルの潜在空間において、各小さなステップで勾配線を反復的に行う。 スタイルGANは、ノルムベースの逆数攻撃に似ているが潜時空間にある逆数ベクトルを見つける。 そして、GANの助けを借りて、逆潜伏ベクトルによって駆動される偽画像は、メインストリームの法医学モデルに打ち勝つことができる。 例えば、xception や efficientnet に基づくディープフェイク検出モデルの精度は、90% 以上から 0% 近くまで低下し、一方で高い視覚品質を維持している。 さらに、異なるレベルのノイズベクトル$n$が攻撃成功率に影響を与えるような、スタイルベクトル$z$を操作していることも分かりました。 生成した対向画像は、主に顔のテクスチャや顔の属性が変化する。

Images synthesized by powerful generative adversarial network (GAN) based methods have drawn moral and privacy concerns. Although image forensic models have reached great performance in detecting fake images from real ones, these models can be easily fooled with a simple adversarial attack. But, the noise adding adversarial samples are also arousing suspicion. In this paper, instead of adding adversarial noise, we optimally search adversarial points on face manifold to generate anti-forensic fake face images. We iteratively do a gradient-descent with each small step in the latent space of a generative model, e.g. Style-GAN, to find an adversarial latent vector, which is similar to norm-based adversarial attack but in latent space. Then, the generated fake images driven by the adversarial latent vectors with the help of GANs can defeat main-stream forensic models. For examples, they make the accuracy of deepfake detection models based on Xception or EfficientNet drop from over 90% to nearly 0%, meanwhile maintaining high visual quality. In addition, we find manipulating style vector $z$ or noise vectors $n$ at different levels have impacts on attack success rate. The generated adversarial images mainly have facial texture or face attributes changing.
翻訳日:2021-04-09 12:36:04 公開日:2021-01-09
# (参考訳) CNNを用いた人間の編集画像の同定

Identifying Human Edited Images using a CNN ( http://arxiv.org/abs/2101.03275v1 )

ライセンス: CC BY 4.0
Jordan Lee, Willy Lin, Konstantinos Ntalis, Anirudh Shah, William Tung, Maxwell Wulff(参考訳) プロでない写真操作のほとんどは、adobe photoshopのようなプロプライエタリなソフトウェアを使っていない。 代わりに、これらの個人はFaceTuneやPixlrのようなユーザーフレンドリーなモバイルアプリを選択し、人間の顔の編集や修正を行う。 残念ながら、これらのタイプの操作を分類するモデルをトレーニングする既存のデータセットはありません。 本稿では、人間の顔編集の分布を近似する生成モデルと、顔の顔に対する顔とピクサーの操作を検出する方法を提案する。

Most non-professional photo manipulations are not made using propriety software like Adobe Photoshop, which is expensive and complicated to use for the average consumer selfie-taker or meme-maker. Instead, these individuals opt for user friendly mobile applications like FaceTune and Pixlr to make human face edits and alterations. Unfortunately, there is no existing dataset to train a model to classify these type of manipulations. In this paper, we present a generative model that approximates the distribution of human face edits and a method for detecting Facetune and Pixlr manipulations to human faces.
翻訳日:2021-04-09 12:23:28 公開日:2021-01-09
# (参考訳) インテリジェントトランスポートシステムにおける欠落データの推定

Estimation of Missing Data in Intelligent Transportation System ( http://arxiv.org/abs/2101.03295v1 )

ライセンス: CC BY 4.0
Bahareh Najafi, Saeedeh Parsaeefard, Alberto Leon-Garcia(参考訳) データ不足は、インテリジェントトランスポートシステム(ITS)を含む多くのアプリケーションにおいて課題である。 本稿では,センサの不安定性や収集点における通信エラーにより収集データの一部が欠落している交通速度と走行時間の推定について検討する。 これらの実践的な問題は、主に統計学または機械学習(ml)ベースのアプローチに分類されるデータ分析の欠如によって再媒介することができる。 統計的手法では, 応用で未知なデータの事前確率分布が必要となる。 そこで我々はMLに基づくMulti-Directional Recurrent Neural Network (M-RNN)に焦点を当てた。 M-RNNは、データの時間的特性と空間的特性の両方を利用する。 トロント大都市圏(GTA)における車両の平均速度と走行時間の時空間計測を含むTomTomデータセットに対するこのアプローチの有効性を評価する。 本研究では,M-RNNが既存の解,例えばスプライン補間や行列の完備性を最大58%向上する根平均正方形誤差(RMSE)を,様々な条件下で評価した。

Missing data is a challenge in many applications, including intelligent transportation systems (ITS). In this paper, we study traffic speed and travel time estimations in ITS, where portions of the collected data are missing due to sensor instability and communication errors at collection points. These practical issues can be remediated by missing data analysis, which are mainly categorized as either statistical or machine learning(ML)-based approaches. Statistical methods require the prior probability distribution of the data which is unknown in our application. Therefore, we focus on an ML-based approach, Multi-Directional Recurrent Neural Network (M-RNN). M-RNN utilizes both temporal and spatial characteristics of the data. We evaluate the effectiveness of this approach on a TomTom dataset containing spatio-temporal measurements of average vehicle speed and travel time in the Greater Toronto Area (GTA). We evaluate the method under various conditions, where the results demonstrate that M-RNN outperforms existing solutions,e.g., spline interpolation and matrix completion, by up to 58% decreases in Root Mean Square Error (RMSE).
翻訳日:2021-04-09 11:57:35 公開日:2021-01-09
# (参考訳) 低血圧治療における安全かつ解釈可能な強化学習のための決定点の同定

Identifying Decision Points for Safe and Interpretable Reinforcement Learning in Hypotension Treatment ( http://arxiv.org/abs/2101.03309v1 )

ライセンス: CC BY 4.0
Kristine Zhang, Yuanheng Wang, Jianzhun Du, Brian Chu, Leo Anthony Celi, Ryan Kindle, Finale Doshi-Velez(参考訳) 多くのバッチRLヘルスアプリケーションは、まず時間を一定間隔に区別する。 しかし、この離散化はどちらも分解能を失い、各(潜在的に細かい)間隔でポリシー計算を強制する。 本研究では,連続的トラジェクタを,バッチデータが複数の代替手段をサポートするような,解釈可能な決定ポイント --places に圧縮する,新たなフレームワークを開発した。 我々は,高血圧患者データセットのコホートからレコメンデーションを作成するためのアプローチを適用した。 我々の状態空間の縮小はより高速な計画をもたらし、臨床専門家による簡単な検査を可能にします。

Many batch RL health applications first discretize time into fixed intervals. However, this discretization both loses resolution and forces a policy computation at each (potentially fine) interval. In this work, we develop a novel framework to compress continuous trajectories into a few, interpretable decision points --places where the batch data support multiple alternatives. We apply our approach to create recommendations from a cohort of hypotensive patients dataset. Our reduced state space results in faster planning and allows easy inspection by a clinical expert.
翻訳日:2021-04-09 10:08:51 公開日:2021-01-09
# (参考訳) 薄いき裂検出のエンベロープを押す

Pushing the Envelope of Thin Crack Detection ( http://arxiv.org/abs/2101.03326v1 )

ライセンス: CC BY 4.0
Liang Xu, Taro Hatsutani, Xing Liu, Engkarat Techapanurak, Han Zou and Takayuki Okatani(参考訳) 本研究では,橋梁などのインフラストラクチャの自動検査において,コンクリート表面の画像から亀裂を検出する問題について考察する。 その全体的な精度は、サブピクセル幅の細い亀裂をどの程度正確に検出できるかによって決定される。 私たちの関心は、それが定義できる限り薄さの限界に近い亀裂を検出できるようにすることです。 そこで本研究では,まずcnnを人間よりも正確な亀裂検出を行うための訓練法を提案する。 この目的を達成するために、CNNのトレーニング中にラベルの解像度を維持しながら、意図的に入力画像の空間解像度を下げる。 これにより、人間が検出できないほど薄いクラックに注釈を付けることが可能になります。 これにより、アノテーションに使用される画像の3分の1の解像度の画像から、ほぼ同じ精度で亀裂を検出できることを実験的に示す。 さらに, 微細き裂の検出精度を向上させるための3つの手法を提案する。i) ダウンサンプリング操作中に小さな画像構造を維持するためのPプール,i) VAE-GANフレームワークを用いて学習した亀裂形状を利用した後処理工程におけるショートセグメントクラックの除去, 3) CNNの検出能力の限界を超えてハードラベルを処理できる予測の不確実性のモデル化。 これらの手法の有効性を実験的に検討する。

In this study, we consider the problem of detecting cracks from the image of a concrete surface for automated inspection of infrastructure, such as bridges. Its overall accuracy is determined by how accurately thin cracks with sub-pixel widths can be detected. Our interest is in making it possible to detect cracks close to the limit of thinness if it can be defined. Toward this end, we first propose a method for training a CNN to make it detect cracks more accurately than humans while training them on human-annotated labels. To achieve this seemingly impossible goal, we intentionally lower the spatial resolution of input images while maintaining that of their labels when training a CNN. This makes it possible to annotate cracks that are too thin for humans to detect, which we call super-human labels. We experimentally show that this makes it possible to detect cracks from an image of one-third the resolution of images used for annotation with about the same accuracy. We additionally propose three methods for further improving the detection accuracy of thin cracks: i) P-pooling to maintain small image structures during downsampling operations; ii) Removal of short-segment cracks in a post-processing step utilizing a prior of crack shapes learned using the VAE-GAN framework; iii) Modeling uncertainty of the prediction to better handle hard labels beyond the limit of CNNs' detection ability, which technically work as noisy labels. We experimentally examine the effectiveness of these methods.
翻訳日:2021-04-09 09:59:47 公開日:2021-01-09
# (参考訳) ジオタグ付きつぶやきを用いた土地利用検知・識別

Land Use Detection & Identification using Geo-tagged Tweets ( http://arxiv.org/abs/2101.03337v1 )

ライセンス: CC0 1.0
Saeed Khan and Md Shahzamal(参考訳) ジオタグ付きツイートは、周囲の環境とのインタラクションを検知するのに役立つ可能性がある。 この仮説に基づき,地理タグ付きつぶやきを用いて,都市・都市計画支援のための広い目的の土地利用を確認する。 提案手法は,Twitterの行動シグネチャを利用して,都市内の空間的土地利用を明らかにする。 具体的には、オーストラリアのブリスベン、メルボルン、シドニーの3都市からのツイートを利用する。 各市議会が提供したゾーニングデータに対して分析結果をチェックし、市議会が予測した土地利用と既存の土地ゾーニングとの間に良い一致が観察される。 ジオタグ付きつぶやきには,土地利用識別に有用な機能が含まれていることを示す。

Geo-tagged tweets can potentially help with sensing the interaction of people with their surrounding environment. Based on this hypothesis, this paper makes use of geotagged tweets in order to ascertain various land uses with a broader goal to help with urban/city planning. The proposed method utilises supervised learning to reveal spatial land use within cities with the help of Twitter activity signatures. Specifically, the technique involves using tweets from three cities of Australia namely Brisbane, Melbourne and Sydney. Analytical results are checked against the zoning data provided by respective city councils and a good match is observed between the predicted land use and existing land zoning by the city councils. We show that geo-tagged tweets contain features that can be useful for land use identification.
翻訳日:2021-04-09 09:44:54 公開日:2021-01-09
# (参考訳) 敵意検出のための変圧器のタスク適応プリトレーニング

Task Adaptive Pretraining of Transformers for Hostility Detection ( http://arxiv.org/abs/2101.03382v1 )

ライセンス: CC BY 4.0
Tathagata Raha, Sayar Ghosh Roy, Ujwal Narayan, Zubair Abid, Vasudeva Varma(参考訳) web上の悪質で敵対的なコンテンツや、特にソーシャルメディア上のコンテンツの特定は、近年では重要な関心事となっている。 ますます人気が高まっている中、トランスフォーマーベースのエンコーダモデルの分類器ヘッドによる微調整が、徐々に自然言語分類タスクの新たなベースラインになりつつある。 本稿では、Transformerベースのアーキテクチャを微調整する前に、タスク適応事前学習(TAPT)に起因する利得について検討する。 具体的には、(a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、(b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アサルト、デマネーション)に分類する。 絵文字とセグメント化されたハッシュタグを分類に取り入れたアーキテクチャを構築すれば,TAPTによるパフォーマンス向上を実験的に示すことができる。 本システム(チーム名「iREL IIIT」)は, 粗粒度検出用F1スコア97.16%, 重み付きF1スコア62.96%で, 得られたブラインドテストコーパス上での細粒度多ラベル分類用F1スコアで第1位となった。

Identifying adverse and hostile content on the web and more particularly, on social media, has become a problem of paramount interest in recent years. With their ever increasing popularity, fine-tuning of pretrained Transformer-based encoder models with a classifier head are gradually becoming the new baseline for natural language classification tasks. In our work, we explore the gains attributed to Task Adaptive Pretraining (TAPT) prior to fine-tuning of Transformer-based architectures. We specifically study two problems, namely, (a) Coarse binary classification of Hindi Tweets into Hostile or Not, and (b) Fine-grained multi-label classification of Tweets into four categories: hate, fake, offensive, and defamation. Building up on an architecture which takes emojis and segmented hashtags into consideration for classification, we are able to experimentally showcase the performance upgrades due to TAPT. Our system (with team name 'iREL IIIT') ranked first in the 'Hostile Post Detection in Hindi' shared task with an F1 score of 97.16% for coarse-grained detection and a weighted F1 score of 62.96% for fine-grained multi-label classification on the provided blind test corpora.
翻訳日:2021-04-09 09:23:55 公開日:2021-01-09
# (参考訳) 推薦のための自然言語記述の生成

Generate Natural Language Explanations for Recommendation ( http://arxiv.org/abs/2101.03392v1 )

ライセンス: CC BY 4.0
Hanxiong Chen, Xu Chen, Shaoyun Shi, Yongfeng Zhang(参考訳) レコメンデーションにパーソナライズされた説明を提供することは、レコメンデーション結果の基盤となる洞察を理解するのに役立ち、レコメンデーションシステムの有効性、透明性、説得力、信頼性に役立ちます。 現在の説明可能なレコメンデーションモデルは、主に定義済みの文テンプレートに基づいてテキストの説明を生成する。 しかし、テンプレートに基づく説明文の表現力は予め定義された表現に限られており、手動で表現を定義するにはかなりの努力が必要である。 この問題に動機づけられて,パーソナライズドレコメンデーションのための自由テキスト自然言語説明の作成を提案する。 特に、パーソナライズされた説明生成のための階層列列列モデル(HSS)を提案する。 nlp研究における従来の文生成とは異なり、電子商取引推奨における説明生成の大きな課題は、ユーザーレビューのすべての文が説明目的であるとは限らないことである。 そこで本研究では,文生成のための話題項目特徴語に基づく自動復号化機構を提案する。 各種電子商取引製品ドメインの実験から,提案手法は推奨精度の向上だけでなく,オフライン対策や特徴語カバレッジの観点からも説明品質の向上が期待できる。 この研究は、知的エージェントに自然言語文に基づいて自己を説明する能力を与える最初のステップの1つである。

Providing personalized explanations for recommendations can help users to understand the underlying insight of the recommendation results, which is helpful to the effectiveness, transparency, persuasiveness and trustworthiness of recommender systems. Current explainable recommendation models mostly generate textual explanations based on pre-defined sentence templates. However, the expressiveness power of template-based explanation sentences are limited to the pre-defined expressions, and manually defining the expressions require significant human efforts. Motivated by this problem, we propose to generate free-text natural language explanations for personalized recommendation. In particular, we propose a hierarchical sequence-to-sequence model (HSS) for personalized explanation generation. Different from conventional sentence generation in NLP research, a great challenge of explanation generation in e-commerce recommendation is that not all sentences in user reviews are of explanation purpose. To solve the problem, we further propose an auto-denoising mechanism based on topical item feature words for sentence generation. Experiments on various e-commerce product domains show that our approach can not only improve the recommendation accuracy, but also the explanation quality in terms of the offline measures and feature words coverage. This research is one of the initial steps to grant intelligent agents with the ability to explain itself based on natural language sentences.
翻訳日:2021-04-09 09:16:49 公開日:2021-01-09
# (参考訳) 小分子創薬のための量子生成モデル

Quantum Generative Models for Small Molecule Drug Discovery ( http://arxiv.org/abs/2101.03438v1 )

ライセンス: CC BY 4.0
Junde Li, Rasit Topaloglu, Swaroop Ghosh(参考訳) 既存の医薬品発見パイプラインには5~10年かかり、数十億ドルの費用がかかる。 計算的アプローチは、化学空間と呼ばれる分子および固体化合物全体の領域から1060の順にサンプリングすることを目的としている。 深い生成モデルは、薬物の物理的構造と性質の両方の基盤となる確率分布をモデル化し、それらを非線形に関連付けることができる。 大量のデータセットのパターンを活用することで、これらのモデルは分子を特徴づける健全な特徴を抽出することができる。 GAN(Generative Adversarial Networks)は、化学的および物理的性質に従う分子構造を生成し、標的疾患の受容体との結合に親和性を示すことによって、薬物候補を発見する。 しかし、古典的なガンは化学空間の特定の領域を探索することはできず、次元の呪いに苦しむ。 完全な量子GANは、QM9のような小さな分子を生成するのに90量子ビット以上を必要とする。 本稿では、量子ビット効率の高い量子GANとハイブリッドジェネレータ(QGAN-HG)を併用した量子GANを提案し、古典的なGANよりも効率の良い量子ビット数が少ない指数的に大きな化学空間を探索することで分子のより豊かな表現を学習する。 QGANHGモデルは、様々な量子ビットと量子回路層をサポートするハイブリッド量子発生器と、古典的な判別器で構成されている。 14.93%しか保持されていないQGAN-HGは、古典的なパラメータと同様に効率的に分子分布を学習することができる。 パッチ回路によるQGAN-HGの変動は、私たちの標準的なQGANHGトレーニングプロセスを大幅に加速し、ディープニューラルネットワークの潜在的な勾配の消滅を回避する。 コードはgithub https://github.com/jundeli/quantum-ganで入手できる。

Existing drug discovery pipelines take 5-10 years and cost billions of dollars. Computational approaches aim to sample from regions of the whole molecular and solid-state compounds called chemical space which could be on the order of 1060 . Deep generative models can model the underlying probability distribution of both the physical structures and property of drugs and relate them nonlinearly. By exploiting patterns in massive datasets, these models can distill salient features that characterize the molecules. Generative Adversarial Networks (GANs) discover drug candidates by generating molecular structures that obey chemical and physical properties and show affinity towards binding with the receptor for a target disease. However, classical GANs cannot explore certain regions of the chemical space and suffer from curse-of-dimensionality. A full quantum GAN may require more than 90 qubits even to generate QM9-like small molecules. We propose a qubit-efficient quantum GAN with a hybrid generator (QGAN-HG) to learn richer representation of molecules via searching exponentially large chemical space with few qubits more efficiently than classical GAN. The QGANHG model is composed of a hybrid quantum generator that supports various number of qubits and quantum circuit layers, and, a classical discriminator. QGAN-HG with only 14.93% retained parameters can learn molecular distribution as efficiently as classical counterpart. The QGAN-HG variation with patched circuits considerably accelerates our standard QGANHG training process and avoids potential gradient vanishing issue of deep neural networks. Code is available on GitHub https://github.com/jundeli/quantum-gan.
翻訳日:2021-04-09 08:43:54 公開日:2021-01-09
# (参考訳) ニンニクを食べると新型コロナウイルス感染が防げる―twitterのアラビア語コンテンツの誤情報検出

Eating Garlic Prevents COVID-19 Infection: Detecting Misinformation on the Arabic Content of Twitter ( http://arxiv.org/abs/2101.05626v1 )

ライセンス: CC BY 4.0
Sarah Alqurashi, Btool Hamoui, Abdulaziz Alashaikh, Ahmad Alhindi, Eisa Alanazi(参考訳) 現在のパンデミックにおけるソーシャルメディアコンテンツの急速な成長は、誤報の根源となった情報を広めるための有用なツールを提供する。 そのため,ソーシャルメディアにおける誤情報検出には,ファクトチェックや効果的な手法が必要である。 本研究では,twitterのアラビア語コンテンツにおける誤情報について検討する。 私たちは、covid-19の誤った情報に関連する大きなアラビア語データセットを構築し、そのツイートを2つのカテゴリに分類します。 次に、単語埋め込みや単語頻度など、さまざまな機能を備えた8つの伝統的および深層機械学習モデルを適用する。 単語埋め込みモデル(\textsc{fasttext} と word2vec)は、covid-19に関連する200万以上のアラビア語ツイートを活用している。 実験により、曲線(AUC)下の領域を最適化することでモデルの性能が向上し、エクストリーム・グラディエント・ブースティング(XGBoost)は、オンラインで新型コロナウイルスの誤報を検出する上で最も正確であることが示されている。

The rapid growth of social media content during the current pandemic provides useful tools for disseminating information which has also become a root for misinformation. Therefore, there is an urgent need for fact-checking and effective techniques for detecting misinformation in social media. In this work, we study the misinformation in the Arabic content of Twitter. We construct a large Arabic dataset related to COVID-19 misinformation and gold-annotate the tweets into two categories: misinformation or not. Then, we apply eight different traditional and deep machine learning models, with different features including word embeddings and word frequency. The word embedding models (\textsc{FastText} and word2vec) exploit more than two million Arabic tweets related to COVID-19. Experiments show that optimizing the area under the curve (AUC) improves the models' performance and the Extreme Gradient Boosting (XGBoost) presents the highest accuracy in detecting COVID-19 misinformation online.
翻訳日:2021-04-09 08:27:50 公開日:2021-01-09
# (参考訳) CORD-19コーパスにおける候補治療の短期的言語動態の追跡

Tracking Short-Term Temporal Linguistic Dynamics to Characterize Candidate Therapeutics for COVID-19 in the CORD-19 Corpus ( http://arxiv.org/abs/2101.11710v1 )

ライセンス: CC BY 4.0
James Powell and Kari Sentz(参考訳) 科学文献は、特定の分野への資金提供や興味の関数として成長しがちである。 そのような文献の採掘は、すぐには明らかでない傾向を明らかにすることができる。 cord-19コーパスは、covid-19に関連する科学文献の集合体である。 本研究は,CORD-19コーパスの経時的症例と薬物補充試験で同定された一連の治療薬の交叉について検討し,経時的変化の発見と測定が可能かを検討した。 研究の早い段階で新規候補治療法の事前スクリーニングを行うためのツールの基礎となる手法を提案する。

Scientific literature tends to grow as a function of funding and interest in a given field. Mining such literature can reveal trends that may not be immediately apparent. The CORD-19 corpus represents a growing corpus of scientific literature associated with COVID-19. We examined the intersection of a set of candidate therapeutics identified in a drug-repurposing study with temporal instances of the CORD-19 corpus to determine if it was possible to find and measure changes associated with them over time. We propose that the techniques we used could form the basis of a tool to pre-screen new candidate therapeutics early in the research process.
翻訳日:2021-04-09 07:37:15 公開日:2021-01-09
# まだいるのか? 具体的指導追従における局所化の学習

Are We There Yet? Learning to Localize in Embodied Instruction Following ( http://arxiv.org/abs/2101.03431v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Govind Thattai, Gokhan Tur(参考訳) 具体化命令の追従は、エージェントが複雑な言語と視覚入力から目標環境状態を達成するために一連の原始的なアクションを推測する必要がある難しい問題である。 リアル環境とディレクティブ(alfred)からのアクション学習(action learning from real environments and directives)は、この問題の最近提案されたベンチマークであり、究極のハイレベルな目標を達成するための、ステップバイステップの自然言語命令からなる。 このタスクの主な課題は、ターゲット位置のローカライズ、視覚入力によるナビゲーション、オブジェクトの視覚的外観に対する言語命令の接地である。 これらの課題に対処するため、本研究では、複数の視角を持つナビゲーションサブゴールにおいて、エージェントの視野を拡大し、各時刻における目標位置との相対空間関係を予測するようエージェントに訓練する。 また,モデルパイプラインに事前学習されたオブジェクト検出モジュールを導入することで,言語グランド化を改善する。 実験により,本手法がベースラインモデル性能を上回ることが示された。

Embodied instruction following is a challenging problem requiring an agent to infer a sequence of primitive actions to achieve a goal environment state from complex language and visual inputs. Action Learning From Realistic Environments and Directives (ALFRED) is a recently proposed benchmark for this problem consisting of step-by-step natural language instructions to achieve subgoals which compose to an ultimate high-level goal. Key challenges for this task include localizing target locations and navigating to them through visual inputs, and grounding language instructions to visual appearance of objects. To address these challenges, in this study, we augment the agent's field of view during navigation subgoals with multiple viewing angles, and train the agent to predict its relative spatial relation to the target location at each timestep. We also improve language grounding by introducing a pre-trained object detection module to the model pipeline. Empirical studies show that our approach exceeds the baseline model performance.
翻訳日:2021-04-09 07:28:25 公開日:2021-01-09
# 雑音テキストの教師なし正規化アルゴリズム:情報検索とスタンス検出を事例として

An Unsupervised Normalization Algorithm for Noisy Text: A Case Study for Information Retrieval and Stance Detection ( http://arxiv.org/abs/2101.03303v1 )

ライセンス: Link先を確認
Anurag Roy, Shalmoli Ghosh, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) 現在利用可能なテキストデータの多くは、デジタル化された文書のOCRノイズ、マイクロブログサイトのユーザによる非公式な書き込みスタイルによるノイズなど、様々な種類の「ノイズ」を含んでいる。 検索/検索やすべての利用可能なデータの分類などのタスクを可能にするためには、テキストの正規化、すなわちテキスト内の様々な種類のノイズを浄化するための堅牢なアルゴリズムが必要である。 ノイズの多いテキストのクリーニングや正規化への取り組みはいくつかあるが、既存のテキスト正規化手法の多くは、言語に依存したリソースや、入手が困難な大量のトレーニングデータを必要とする。 訓練データや人間の介入を必要としないテキスト正規化のための教師なしアルゴリズムを提案する。 提案アルゴリズムは、異なる言語上のテキストに適用でき、機械生成ノイズと人生成ノイズの両方を処理できる。 いくつかの標準データセットに対する実験により、提案アルゴリズムによるテキスト正規化は、複数のベースラインテキスト正規化手法と比較して、より良い検索と姿勢検出を可能にすることが示された。 アルゴリズムの実装はhttps://github.com/ranarag/unsupcleanで確認できます。

A large fraction of textual data available today contains various types of 'noise', such as OCR noise in digitized documents, noise due to informal writing style of users on microblogging sites, and so on. To enable tasks such as search/retrieval and classification over all the available data, we need robust algorithms for text normalization, i.e., for cleaning different kinds of noise in the text. There have been several efforts towards cleaning or normalizing noisy text; however, many of the existing text normalization methods are supervised and require language-dependent resources or large amounts of training data that is difficult to obtain. We propose an unsupervised algorithm for text normalization that does not need any training data / human intervention. The proposed algorithm is applicable to text over different languages, and can handle both machine-generated and human-generated noise. Experiments over several standard datasets show that text normalization through the proposed algorithm enables better retrieval and stance detection, as compared to that using several baseline text normalization methods. Implementation of our algorithm can be found at https://github.com/ranarag/UnsupClean.
翻訳日:2021-04-09 07:28:06 公開日:2021-01-09
# 医用画像レポート作成のための関係文の統一と検索

Unifying Relational Sentence Generation and Retrieval for Medical Image Report Composition ( http://arxiv.org/abs/2101.03287v1 )

ライセンス: Link先を確認
Fuyu Wang and Xiaodan Liang and Lin Xu and Liang Lin(参考訳) 従来のキャプションタスクにおける長文・トピックコヒーレントな段落の生成に加えて、医用画像レポート作成タスクは、高精度な医療用語診断と、印象や発見を含む多種多様な情報の両方を必要とすることにより、タスク指向の課題を提起する。 現在の手法では、各ケースのデータセットバイアスによって、キーエンティティや関係性を適切に捉えているかどうかに関わらず、最も一般的な文を生成することが多い。 このような制限は、比較的稀な異常な疾患の記述に最も批判的な文がある医療報告組成物における適用性と一般化能力を著しく阻害する。 さらに、ある報告に現れるいくつかの医療用語は、しばしば互いに絡み合っており、例えば、共起している。 特定の疾患に関連する症状。 最終報告に組み込む医療用語のセマンティック一貫性を強制し、稀な記述のための文生成を促進するために、検出された医療用語間のセマンティックコヒーレンシーを確保しつつ、一般的かつ稀な異常の両方を扱うテンプレート検索と文生成を統合する新しい枠組みを提案する。 具体的には,すべての異常な医学用語間の明示的な関係を生かして,視覚的注意学習とトピック表現のエンコーディングを誘導し,トピック指向の症状記述を改善すること,および,文脈的トピックエンコーダに従ってテンプレート検索と文生成の間に変化する適応生成モードを提案する。 2つの医療報告ベンチマークの実験結果は、人的・計量的評価の両面で提案された枠組みの優位性を示している。

Beyond generating long and topic-coherent paragraphs in traditional captioning tasks, the medical image report composition task poses more task-oriented challenges by requiring both the highly-accurate medical term diagnosis and multiple heterogeneous forms of information including impression and findings. Current methods often generate the most common sentences due to dataset bias for individual case, regardless of whether the sentences properly capture key entities and relationships. Such limitations severely hinder their applicability and generalization capability in medical report composition where the most critical sentences lie in the descriptions of abnormal diseases that are relatively rare. Moreover, some medical terms appearing in one report are often entangled with each other and co-occurred, e.g. symptoms associated with a specific disease. To enforce the semantic consistency of medical terms to be incorporated into the final reports and encourage the sentence generation for rare abnormal descriptions, we propose a novel framework that unifies template retrieval and sentence generation to handle both common and rare abnormality while ensuring the semantic-coherency among the detected medical terms. Specifically, our approach exploits hybrid-knowledge co-reasoning: i) explicit relationships among all abnormal medical terms to induce the visual attention learning and topic representation encoding for better topic-oriented symptoms descriptions; ii) adaptive generation mode that changes between the template retrieval and sentence generation according to a contextual topic encoder. Experimental results on two medical report benchmarks demonstrate the superiority of the proposed framework in terms of both human and metrics evaluation.
翻訳日:2021-04-09 07:27:47 公開日:2021-01-09
# LightXML: ハイパフォーマンスなマルチラベルテキスト分類のための動的負サンプリング付きトランス

LightXML: Transformer with Dynamic Negative Sampling for High-Performance Extreme Multi-label Text Classification ( http://arxiv.org/abs/2101.03305v1 )

ライセンス: Link先を確認
Ting Jiang, Deqing Wang, Leilei Sun, Huayi Yang, Zhengyang Zhao, Fuzhen Zhuang(参考訳) Extreme Multi-label text Classification (XMC)は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。 近年、深層学習に基づく手法はXMCにおいて大きな成功を収めている。 しかし、既存の方法(例えば attentionxml や x-transformer など)では、1つのデータセットのトレーニングと予測のために複数のモデルを組み合わせたり、ラベルのランク付けモデルのトレーニング中に負のラベルを静的にサンプリングしたりするなど、モデルの効率と精度を低下させる。 上記の問題に対処するため、私たちはエンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案しました。 lightxmlでは、ラベルリコール部が負のラベルと正のラベルを生成し、ラベルランキング部がこれらのラベルと正のラベルを区別する、ラベルのリコールとランク付けにジェネレーティブ協調ネットワークを使用する。 これらのネットワークを通じて、同じテキスト表現を供給してラベルランキングパートトレーニング中に、負のラベルを動的にサンプリングする。 広範な実験により、lightxmlは5つの極端なマルチラベルデータセットで最先端のメソッドよりもずっと小さいモデルサイズと計算の複雑さで優れています。 特に670Kラベルを持つAmazonデータセットでは、LightXMLはAttentionXMLと比較してモデルサイズを最大72%削減できる。

Extreme Multi-label text Classification (XMC) is a task of finding the most relevant labels from a large label set. Nowadays deep learning-based methods have shown significant success in XMC. However, the existing methods (e.g., AttentionXML and X-Transformer etc) still suffer from 1) combining several models to train and predict for one dataset, and 2) sampling negative labels statically during the process of training label ranking model, which reduces both the efficiency and accuracy of the model. To address the above problems, we proposed LightXML, which adopts end-to-end training and dynamic negative labels sampling. In LightXML, we use generative cooperative networks to recall and rank labels, in which label recalling part generates negative and positive labels, and label ranking part distinguishes positive labels from these labels. Through these networks, negative labels are sampled dynamically during label ranking part training by feeding with the same text representation. Extensive experiments show that LightXML outperforms state-of-the-art methods in five extreme multi-label datasets with much smaller model size and lower computational complexity. In particular, on the Amazon dataset with 670K labels, LightXML can reduce the model size up to 72% compared to AttentionXML.
翻訳日:2021-04-09 07:27:18 公開日:2021-01-09
# 深層学習による大腸内視鏡ビデオからのポリープの検出・局在化・分類

Detecting, Localising and Classifying Polyps from Colonoscopy Videos using Deep Learning ( http://arxiv.org/abs/2101.03285v1 )

ライセンス: Link先を確認
Yu Tian, Leonardo Zorron Cheng Tao Pu, Yuyuan Liu, Gabriel Maicas, Johan W. Verjans, Alastair D. Burt, Seon Ho Shin, Rajvinder Singh, Gustavo Carneiro(参考訳) 本稿では,大腸内視鏡画像からポリープを自動的に検出し,ローカライズし,分類するシステムを提案する。 ポリープを用いたフレームの検出は、トレーニングセットが通常画像を含むフレームとポリプを有するフレームからなる少数派フレームの大多数と高度にバランスのとれた、少数ショットの異常分類問題として定式化されている。 大腸内視鏡ビデオには、大腸をきれいにするために便と水ジェットスプレーを表示するぼやけた画像やフレームが含まれており、そのようなフレームは誤って異常として検出できるため、ポリプ検出が行われる前にこれらの2種類のフレームを拒否する分類器を実装した。 次に、ポリプを含むフレームが与えられると、このメソッドは(ポリプの周りのバウンディングボックスで)ローカライズし、それを5つの異なるクラスに分類する。 さらに,不確実性推定と分類校正を用いた分類結果の信頼性と解釈性を向上させる手法について検討した。 分類の不確実性と校正は、低い信頼度と高い判定結果を拒否して分類精度を向上させるだけでなく、医師がポリプの分類を決定する方法を決定するのに使うことができる。 提案手法は, 大規模データセットを用いて検出, 局所化, 分類を行い, 関連するベースライン手法と比較した。

In this paper, we propose and analyse a system that can automatically detect, localise and classify polyps from colonoscopy videos. The detection of frames with polyps is formulated as a few-shot anomaly classification problem, where the training set is highly imbalanced with the large majority of frames consisting of normal images and a small minority comprising frames with polyps. Colonoscopy videos may contain blurry images and frames displaying feces and water jet sprays to clean the colon -- such frames can mistakenly be detected as anomalies, so we have implemented a classifier to reject these two types of frames before polyp detection takes place. Next, given a frame containing a polyp, our method localises (with a bounding box around the polyp) and classifies it into five different classes. Furthermore, we study a method to improve the reliability and interpretability of the classification result using uncertainty estimation and classification calibration. Classification uncertainty and calibration not only help improve classification accuracy by rejecting low-confidence and high-uncertain results, but can be used by doctors to decide how to decide on the classification of a polyp. All the proposed detection, localisation and classification methods are tested using large data sets and compared with relevant baseline approaches.
翻訳日:2021-04-09 07:26:37 公開日:2021-01-09
# ランドサット8画像におけるアクティブ火災検知:大規模データセットと深層学習研究

Active Fire Detection in Landsat-8 Imagery: a Large-Scale Dataset and a Deep-Learning Study ( http://arxiv.org/abs/2101.03409v1 )

ライセンス: Link先を確認
Gabriel Henrique de Almeida Pereira and Andr\'e Minoro Fusioka and Bogdan Tomoyuki Nassu and Rodrigo Minetto(参考訳) 衛星画像におけるアクティブ火災検知は, 環境保全政策の管理, 意思決定, 法執行を支援する上で重要である。 これはよく確立された分野であり、多くの技術が長年にわたって提案され、通常はセンサー固有の閾値と近傍統計を含むピクセルや領域レベルの比較に基づいている。 本稿では,ディープラーニング技術を用いたアクティブ火災検知の問題点に対処する。 近年、ディープラーニング技術は多くの分野で大きな成功を収めているが、アクティブな火災検知には比較的新しく、オープンな質問や評価のためのデータセットやアーキテクチャの需要がある。 本稿は,2020年8月から9月にかけて世界中で撮影されたランドサット8号の画像から15万枚以上の画像パッチ(200GB以上のデータ)を抽出し,いくつかの場所での山火事を含む大規模火災検出データセットを導入することで,これらの課題に対処する。 データセットは2つの部分に分けられ、関連する出力を持つ10バンドのスペクトル画像を含み、第1部でアクティブな火災検知のための3つのよく知られた手作りアルゴリズムと第2部で手動でアノテートされたマスクによって生成される。 また、これらの手作りアルゴリズムを近似するために、異なる畳み込みニューラルネットワークアーキテクチャをどのように利用するか、そして、自動セグメント化されたパッチでトレーニングされたモデルを組み合わせることで、元のアルゴリズムよりも優れたパフォーマンスを達成する方法についての研究も行っています。 提案されたデータセット、ソースコード、トレーニングされたモデルはgithubで入手できる(https://github.com/pereira-gha/activefire)。

Active fire detection in satellite imagery is of critical importance to the management of environmental conservation policies, supporting decision-making and law enforcement. This is a well established field, with many techniques being proposed over the years, usually based on pixel or region-level comparisons involving sensor-specific thresholds and neighborhood statistics. In this paper, we address the problem of active fire detection using deep learning techniques. In recent years, deep learning techniques have been enjoying an enormous success in many fields, but their use for active fire detection is relatively new, with open questions and demand for datasets and architectures for evaluation. This paper addresses these issues by introducing a new large-scale dataset for active fire detection, with over 150,000 image patches (more than 200 GB of data) extracted from Landsat-8 images captured around the world in August and September 2020, containing wildfires in several locations. The dataset was split in two parts, and contains 10-band spectral images with associated outputs, produced by three well known handcrafted algorithms for active fire detection in the first part, and manually annotated masks in the second part. We also present a study on how different convolutional neural network architectures can be used to approximate these handcrafted algorithms, and how models trained on automatically segmented patches can be combined to achieve better performance than the original algorithms - with the best combination having 87.2% precision and 92.4% recall on our manually annotated dataset. The proposed dataset, source codes and trained models are available on Github (https://github.com/pereira-gha/activefire), creating opportunities for further advances in the field
翻訳日:2021-04-09 07:26:13 公開日:2021-01-09
# エンドツーエンドのバックプロパゲーションのないディープラーニングのトレーニング: 簡単な調査

Training Deep Architectures Without End-to-End Backpropagation: A Brief Survey ( http://arxiv.org/abs/2101.03419v1 )

ライセンス: Link先を確認
Shiyu Duan and Jose C. Principe(参考訳) このチュートリアルでは、ディープラーニングをトレーニングするためのデファクトスタンダードであるエンドツーエンドのバックプロパゲーション(E2EBP)に代わるトレーニング方法について調査する。 モジュールトレーニング(Modular training)とは、深層アーキテクチャを複数の非重複モジュールに分割し、エンド・ツー・エンド操作なしで個別にトレーニングすることである。 完全にグローバルなE2EBPと厳密なローカルなモジュラートレーニングの間には、後方パスのみなしでトレーニングを行う"弱いモジュラー"ハイブリッドが存在する。 これらの代替手段は、ImageNetのような挑戦的なデータセットでE2EBPのパフォーマンスに匹敵するか、上回る可能性がある。 特に、ディープラーニングワークフローにおけるモジュール化と透明性の向上を可能にし、ディープラーニングをスケーラビリティのためにモジュール化を大いに活用する主流のコンピュータサイエンスエンジニアリングと整合させる。 モジュールトレーニングはまた、学習に関する新しい洞察を明らかにし、他の重要な研究領域にさらに影響を及ぼす可能性がある。 具体的には、データ効率や転送可能性推定など、いくつかの重要な実用的な問題に対して、自然かつ効果的なソリューションを誘導する。

This tutorial paper surveys training alternatives to end-to-end backpropagation (E2EBP) -- the de facto standard for training deep architectures. Modular training refers to strictly local training without both the forward and the backward pass, i.e., dividing a deep architecture into several nonoverlapping modules and training them separately without any end-to-end operation. Between the fully global E2EBP and the strictly local modular training, there are "weakly modular" hybrids performing training without the backward pass only. These alternatives can match or surpass the performance of E2EBP on challenging datasets such as ImageNet, and are gaining increased attention primarily because they offer practical advantages over E2EBP, which will be enumerated herein. In particular, they allow for greater modularity and transparency in deep learning workflows, aligning deep learning with the mainstream computer science engineering that heavily exploits modularization for scalability. Modular training has also revealed novel insights about learning and may have further implications on other important research domains. Specifically, it induces natural and effective solutions to some important practical problems such as data efficiency and transferability estimation.
翻訳日:2021-04-09 07:25:16 公開日:2021-01-09
# マルチセンサ検出予測モデルにおけるセンサモードの影響の検討

Investigating the Effect of Sensor Modalities in Multi-Sensor Detection-Prediction Models ( http://arxiv.org/abs/2101.03279v1 )

ライセンス: Link先を確認
Abhishek Mohta, Fang-Chieh Chou, Brian C. Becker, Carlos Vallespi-Gonzalez, Nemanja Djuric(参考訳) 周囲物体の検出とその運動予測は、自動運転システムの重要な構成要素である。 最近提案された、これらのタスクを共同で処理するモデルは、最先端のパフォーマンスを達成するために多くのセンサーに依存している。 しかし、これによってシステムの複雑さが増大し、単一のセンサーのモダリティに過度に適合する不安定なモデルが得られ、一般化は減少する。 この重要な問題に焦点をあて、モデル性能に対するセンサモードの寄与を分析する。 さらに,センサドロップアウトを用いて上記の問題を緩和し,実世界の運転データに対してより堅牢で優れた性能のモデルを実現する。

Detection of surrounding objects and their motion prediction are critical components of a self-driving system. Recently proposed models that jointly address these tasks rely on a number of sensors to achieve state-of-the-art performance. However, this increases system complexity and may result in a brittle model that overfits to any single sensor modality while ignoring others, leading to reduced generalization. We focus on this important problem and analyze the contribution of sensor modalities towards the model performance. In addition, we investigate the use of sensor dropout to mitigate the above-mentioned issues, leading to a more robust, better-performing model on real-world driving data.
翻訳日:2021-04-09 07:24:57 公開日:2021-01-09
# モデル検証とプルーフオブステイクインスパイアコンセンサスを用いたロバストなブロックチェーン型フェデレーション学習

Robust Blockchained Federated Learning with Model Validation and Proof-of-Stake Inspired Consensus ( http://arxiv.org/abs/2101.03300v1 )

ライセンス: Link先を確認
Hang Chen, Syed Ali Asif, Jihong Park, Chien-Chung Shen, Mehdi Bennis(参考訳) フェデレーション学習(federated learning, fl)は,生データを明かすことなくモデルパラメータのみを交換する,有望な分散学習ソリューションである。 しかしながら、flの集中型アーキテクチャは単一障害点に対して脆弱である。 加えて、FLはローカルモデルの正当性を検証していないため、少数の悪意のあるデバイスでさえ、世界的なトレーニングを妨害する可能性がある。 本稿では、これらのFLの堅牢性問題を解決するために、ブロックチェーンアーキテクチャにおける2つのメカニズムを活用することにより、VBFLと呼ばれるブロックチェーンベースの分散FLフレームワークを提案する。 まず,ローカルモデル更新の正当性を個別の検証者によって検証できるように,分散検証機構を新たに導入した。 第2に,ブロックチェーンに付加されるブロックを判断する可能性を高めて,正当性のあるローカルモデル更新を保護する,ストレートなデバイスに対する利害関係をより頻繁に報奨する,専用の概念実証コンセンサス機構を設計した。 これらのソリューションは、正当性のあるデバイス内でのさらなるフェデレーションを促進し、堅牢なFLを可能にする。 MNIST分類のエミュレーション結果は、悪意のあるデバイスの15%で、VBFLは87%の精度で、Vanilla FLより7.4倍高い。

Federated learning (FL) is a promising distributed learning solution that only exchanges model parameters without revealing raw data. However, the centralized architecture of FL is vulnerable to the single point of failure. In addition, FL does not examine the legitimacy of local models, so even a small fraction of malicious devices can disrupt global training. To resolve these robustness issues of FL, in this paper, we propose a blockchain-based decentralized FL framework, termed VBFL, by exploiting two mechanisms in a blockchained architecture. First, we introduced a novel decentralized validation mechanism such that the legitimacy of local model updates is examined by individual validators. Second, we designed a dedicated proof-of-stake consensus mechanism where stake is more frequently rewarded to honest devices, which protects the legitimate local model updates by increasing their chances of dictating the blocks appended to the blockchain. Together, these solutions promote more federation within legitimate devices, enabling robust FL. Our emulation results of the MNIST classification corroborate that with 15% of malicious devices, VBFL achieves 87% accuracy, which is 7.4x higher than Vanilla FL.
翻訳日:2021-04-09 07:24:45 公開日:2021-01-09
# Covid-19のフェイクニュースとソーシャルメディアにおける敵対的ポスト検出

Combating Hostility: Covid-19 Fake News and Hostile Post Detection in Social Media ( http://arxiv.org/abs/2101.03291v1 )

ライセンス: Link先を確認
Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque(参考訳) 本稿では,AAAI-2021におけるConSTRAINT共有タスクへの参加の一環として開発されたシステムとその成果について詳述する。 共有タスクは2つのタスクから構成される: a) COVID19 フェイクニュース検出 (英語 b) ヒンディー語での敵対的ポスト検出。 Task-Aは偽クラスと実クラスのバイナリ分類問題であり、Task-Bは5つの敵対クラス(すなわち)を持つマルチラベルのマルチクラス分類問題である。 deame, fake, hate, offense, non-hostile) SVM, CNN, BiLSTM, CNN+BiLSTM など, tf-idf と Word2Vec を組み込んだ様々な手法を用いて分類処理を行う。 その結果、tf-idf機能を持つSVMは、タスクAにおけるテストセットで94.39%の重み付き$f_1$スコアを達成した。 n-gram の特徴を持つラベルパワーセット SVM は、タスク-B テストセットでそれぞれ86.03% と 50.98% の粗い粒度と細かい粒度の $f_1$ スコアを得た。

This paper illustrates a detail description of the system and its results that developed as a part of the participation at CONSTRAINT shared task in AAAI-2021. The shared task comprises two tasks: a) COVID19 fake news detection in English b) Hostile post detection in Hindi. Task-A is a binary classification problem with fake and real class, while task-B is a multi-label multi-class classification task with five hostile classes (i.e. defame, fake, hate, offense, non-hostile). Various techniques are used to perform the classification task, including SVM, CNN, BiLSTM, and CNN+BiLSTM with tf-idf and Word2Vec embedding techniques. Results indicate that SVM with tf-idf features achieved the highest 94.39% weighted $f_1$ score on the test set in task-A. Label powerset SVM with n-gram features obtained the maximum coarse-grained and fine-grained $f_1$ score of 86.03% and 50.98% on the task-B test set respectively.
翻訳日:2021-04-09 07:24:24 公開日:2021-01-09
# 構文情報を用いた文表現の学習

Learning Better Sentence Representation with Syntax Information ( http://arxiv.org/abs/2101.03343v1 )

ライセンス: Link先を確認
Chen Yang (University of Science and Technology of China)(参考訳) 文の意味理解は自然言語処理の分野で重要なトピックである。 近年,ELMO や BERT などの事前訓練された言語モデルから派生した文脈的単語表現は,幅広い意味的タスクにおいて顕著に改善されている。 質問応答、テキスト分類、感情分析。 しかし、モデルのセマンティックモデリング能力をさらに改善するために外部知識を追加するには、検討する価値がある。 本稿では,構文情報と事前学習された言語モデルを組み合わせた新しい手法を提案する。 まず, 事前学習モデルの効果を評価するために, rnnとtransformerを用いた事前学習言語モデルを導入し, 第二に, 事前学習モデルと統合した構文情報など, 外部知識の統合性を向上させるため, 依存性構文拡張(dse)モデルを提案する。 評価のために,文完成タスクと生物関係抽出タスクの2つのサブタスクを選択した。 実験の結果,本モデルは91.2\%の精度を達成し,文補完タスクでは37.8\%の精度でベースラインモデルを上回った。 また、関係抽出タスクにおいて75.1\%$f_{1}$スコアの競合性能を得る。

Sentence semantic understanding is a key topic in the field of natural language processing. Recently, contextualized word representations derived from pre-trained language models such as ELMO and BERT have shown significant improvements for a wide range of semantic tasks, e.g. question answering, text classification and sentiment analysis. However, how to add external knowledge to further improve the semantic modeling capability of model is worth probing. In this paper, we propose a novel approach to combining syntax information with a pre-trained language model. In order to evaluate the effect of the pre-training model, first, we introduce RNN-based and Transformer-based pre-trained language models; secondly, to better integrate external knowledge, such as syntactic information integrate with the pre-training model, we propose a dependency syntax expansion (DSE) model. For evaluation, we have selected two subtasks: sentence completion task and biological relation extraction task. The experimental results show that our model achieves 91.2\% accuracy, outperforming the baseline model by 37.8\% on sentence completion task. And it also gets competitive performance by 75.1\% $F_{1}$ score on relation extraction task.
翻訳日:2021-04-09 07:24:03 公開日:2021-01-09
# 一般化ゼロショット学習のためのエントロピーに基づく不確かさ校正

Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2101.03292v1 )

ライセンス: Link先を確認
Zhi Chen, Zi Huang, Jingjing Li, Zheng Zhang(参考訳) 一般ゼロショット学習 (gzsl) は, 既定のゼロショット学習 (zsl) が主目的あるいは唯一の目的であるのに対し, 一般ゼロショット学習 (gzsl) の目標は, 視認クラスと視認クラスの両方を認識することである。 ほとんどのGZSLメソッドは、通常、目に見えないクラスのセマンティック情報から視覚表現を合成することを学ぶ。 しかし、これらのタイプのモデルは見掛けられたクラスを過度に満たす傾向にあり、見掛けられたクラスと見当たらないクラスの生成されたフィーチャの間で分布の重なりが生じる。 重なり合う領域は、モデルが重なり合う部分からテストケースが見えるか見えないかを決定するのに苦労するため不確実性に満ちている。 さらに、これらの生成方法はスパーストレーニングサンプルのシナリオに苦しむ。 モデルは高次元の視覚的特徴の分布を学習するのに苦労し、したがって最も差別的なクラス間特徴を捉えられなかった。 本稿では,二変分オートエンコーダと三重項損失を利用して識別潜在特徴を学習し,エントロピーに基づくキャリブレーションを適用し,両クラス間の重複領域の不確実性を最小化する手法を提案する。 特に、三重項損失合成を持つ双対生成モデルは、視覚空間または意味空間からマッピングできるクラス間の判別的潜在性特徴を持つ。 授業の不確実性を校正するために,一般分類器からソフトマックス確率分布のエントロピーを計算する。 このアプローチでは、目に見えないクラス内のサンプルを認識することは比較的簡単であり、見ないサンプルが重複した領域の見えないクラスに誤分類されるリスクは低い。 6つのベンチマークデータセットに関する広範な実験は、提案手法が最先端のアプローチよりも優れていることを示している。

Compared to conventional zero-shot learning (ZSL) where recognising unseen classes is the primary or only aim, the goal of generalized zero-shot learning (GZSL) is to recognise both seen and unseen classes. Most GZSL methods typically learn to synthesise visual representations from semantic information on the unseen classes. However, these types of models are prone to overfitting the seen classes, resulting in distribution overlap between the generated features of the seen and unseen classes. The overlapping region is filled with uncertainty as the model struggles to determine whether a test case from within the overlap is seen or unseen. Further, these generative methods suffer in scenarios with sparse training samples. The models struggle to learn the distribution of high dimensional visual features and, therefore, fail to capture the most discriminative inter-class features. To address these issues, in this paper, we propose a novel framework that leverages dual variational autoencoders with a triplet loss to learn discriminative latent features and applies the entropy-based calibration to minimize the uncertainty in the overlapped area between the seen and unseen classes. Specifically, the dual generative model with the triplet loss synthesises inter-class discriminative latent features that can be mapped from either visual or semantic space. To calibrate the uncertainty for seen classes, we calculate the entropy over the softmax probability distribution from a general classifier. With this approach, recognising the seen samples within the seen classes is relatively straightforward, and there is less risk that a seen sample will be misclassified into an unseen class in the overlapped region. Extensive experiments on six benchmark datasets demonstrate that the proposed method outperforms state-of-the-art approaches.
翻訳日:2021-04-09 07:23:45 公開日:2021-01-09
# FakeBuster:ビデオ会議シナリオのためのDeepFakes検出ツール

FakeBuster: A DeepFakes Detection Tool for Video Conferencing Scenarios ( http://arxiv.org/abs/2101.03321v1 )

ライセンス: Link先を確認
Vineet Mehta, Parul Gupta, Ramanathan Subramanian, and Abhinav Dhall(参考訳) 本稿では,ソーシャルメディア上での映像会議および顔操作におけるインポスタ検出のための新しいDeepFake検出器FakeBusterを提案する。 FakeBusterはスタンドアロンのディープラーニングベースのソリューションで、ビデオ会議ベースのミーティング中に、他人のビデオが操作されるか、偽造されるかを検出することができる。 このツールはビデオ会議ソリューションとは独立しており、ZoomやSkypeアプリケーションでテストされている。 3D畳み込みニューラルネットワークを使用して、ビデオセグメントワイドのフェイクネススコアを予測する。 ネットワークは、deepforensics、dfdc、voxceleb、deepfake videoなどのデータセットの組み合わせでトレーニングされ、ローカルにキャプチャされた(ビデオ会議シナリオのための)イメージを使って作成された。 これによりデータセットのさまざまな環境や摂動が発生し、ディープフェイクネットワークの一般化が向上する。

This paper proposes a new DeepFake detector FakeBuster for detecting impostors during video conferencing and manipulated faces on social media. FakeBuster is a standalone deep learning based solution, which enables a user to detect if another person's video is manipulated or spoofed during a video conferencing based meeting. This tool is independent of video conferencing solutions and has been tested with Zoom and Skype applications. It uses a 3D convolutional neural network for predicting video segment-wise fakeness scores. The network is trained on a combination of datasets such as Deeperforensics, DFDC, VoxCeleb, and deepfake videos created using locally captured (for video conferencing scenarios) images. This leads to different environments and perturbations in the dataset, which improves the generalization of the deepfake network.
翻訳日:2021-04-09 07:23:10 公開日:2021-01-09
# 識別ノイズロバストな直交ラベル回帰に基づくドメイン適応

Discriminative Noise Robust Sparse Orthogonal Label Regression-based Domain Adaptation ( http://arxiv.org/abs/2101.04563v1 )

ライセンス: Link先を確認
Lingkun Luo, Liming Chen, Shiqiang Hu(参考訳) ドメイン適応(DA)は、2つのドメイン間のデータ分散のミスマッチにもかかわらず、ソースドメインからトレーニングされた学習モデルがターゲットドメインで適切に一般化できるようにすることを目的としている。 最先端のDA手法は、ソースとターゲットのドメインデータを統計的または幾何学的に整列できる潜在共有特徴空間の探索に焦点を当てている。 本稿では,新しい教師なしda法,すなわち不明瞭なノイズロバストな正規直交ラベル回帰に基づくドメイン適応法(doll-da)を提案する。 提案するDOLL-DAは、ソースとターゲットのドメインデータがある共有特徴部分空間を、いくつかの反発力項の最適化により、統計的に識別的に整合すると同時に、ラベル埋め込みトリックを用いて、その直交データラベルを復元する新しい統合モデルから導かれる。 さらに,NRS_OLR(Noss Robust Sparse Orthogonal Label Regression)という用語を最小化する際には,負の転送を避けるためにデータアウトレーヤを明示的に考慮し,データラベルの回帰時に空間特性を導入する。 キャラクタ制限のためです。 詳細な要約は私たちの論文で読んでください。

Domain adaptation (DA) aims to enable a learning model trained from a source domain to generalize well on a target domain, despite the mismatch of data distributions between the two domains. State-of-the-art DA methods have so far focused on the search of a latent shared feature space where source and target domain data can be aligned either statistically and/or geometrically. In this paper, we propose a novel unsupervised DA method, namely Discriminative Noise Robust Sparse Orthogonal Label Regression-based Domain Adaptation (DOLL-DA). The proposed DOLL-DA derives from a novel integrated model which searches a shared feature subspace where source and target domain data are, through optimization of some repulse force terms, discriminatively aligned statistically, while at same time regresses orthogonally data labels thereof using a label embedding trick. Furthermore, in minimizing a novel Noise Robust Sparse Orthogonal Label Regression(NRS_OLR) term, the proposed model explicitly accounts for data outliers to avoid negative transfer and introduces the property of sparsity when regressing data labels. Due to the character restriction. Please read our detailed abstract in our paper.
翻訳日:2021-04-09 07:22:56 公開日:2021-01-09
# ドメイン不変の単一画像デハージングを目指して

Towards Domain Invariant Single Image Dehazing ( http://arxiv.org/abs/2101.10449v1 )

ライセンス: Link先を確認
Pranjay Shyam, Kuk-Jin Yoon and Kyung-Soo Kim(参考訳) 画像中のヘイズの存在は、正確な環境情報を必要とするアプリケーションでは望ましくない基礎となる情報を隠蔽する。 このような画像の復元には,回復領域と隣接領域との一貫性を確保しつつ,対象領域の局所化と復元を行う必要がある。 しかし、畳み込みカーネルの固定受容場や非均一なヘイズ分布のため、領域間の一貫性の確保は困難である。 本稿では,エンコーダ・デコーダをベースとしたネットワークアーキテクチャを用いて,従来のカーネルの受容領域を超えて,関心事の特徴を高めるために,空間的に認識されたチャネルアテンション機構を統合した。 様々なhaze密度におけるパフォーマンスの一貫性を確保するために,局所的なデータ拡張機構を用いた。 合成データセットは、通常、大量のペアトレーニングサンプルを確保するために使用されるが、そのようなサンプルを生成する手法は、均一なヘイズ分布のみを考慮し、非均一なヘイズ分布のより現実的なシナリオを見越しながら、それらと実際のイメージのギャップを導入する。 それにもかかわらず、合成データセット内のペアサンプルの豊富さは無視できない。 したがって、多様なデータセット間で性能の整合性を確保するため、生成した画像と低周波成分に依存した逆方向の事前誘導フレームワーク内で提案するネットワークをトレーニングし、デハズド画像の特性が地上の真実と一致するかどうかを判断する。 提案するフレームワークが多様なドメインにまたがるデハージングとドメイン不変性を検証するために,広範囲にわたる実験を行い,その成果を報告する。

Presence of haze in images obscures underlying information, which is undesirable in applications requiring accurate environment information. To recover such an image, a dehazing algorithm should localize and recover affected regions while ensuring consistency between recovered and its neighboring regions. However owing to fixed receptive field of convolutional kernels and non uniform haze distribution, assuring consistency between regions is difficult. In this paper, we utilize an encoder-decoder based network architecture to perform the task of dehazing and integrate an spatially aware channel attention mechanism to enhance features of interest beyond the receptive field of traditional conventional kernels. To ensure performance consistency across diverse range of haze densities, we utilize greedy localized data augmentation mechanism. Synthetic datasets are typically used to ensure a large amount of paired training samples, however the methodology to generate such samples introduces a gap between them and real images while accounting for only uniform haze distribution and overlooking more realistic scenario of non-uniform haze distribution resulting in inferior dehazing performance when evaluated on real datasets. Despite this, the abundance of paired samples within synthetic datasets cannot be ignored. Thus to ensure performance consistency across diverse datasets, we train the proposed network within an adversarial prior-guided framework that relies on a generated image along with its low and high frequency components to determine if properties of dehazed images matches those of ground truth. We preform extensive experiments to validate the dehazing and domain invariance performance of proposed framework across diverse domains and report state-of-the-art (SoTA) results.
翻訳日:2021-04-09 07:22:34 公開日:2021-01-09
# 解釈可能な多重治療歳入上昇モデル

Interpretable Multiple Treatment Revenue Uplift Modeling ( http://arxiv.org/abs/2101.03336v1 )

ライセンス: Link先を確認
Robin M. Gubela and Stefan Lessmann(参考訳) ビッグデータとビジネス分析は、ビジネスと社会変革の重要な要因である。 昇降モデルは、治療による顧客の行動の変化を予測することによって、企業の意思決定を支援する。 先行研究では、単一治療とバイナリ顧客の応答のモデルを調べます。 本稿は,複数の治療と連続的な結果に対する上昇モデルを開発することにより,対応するアプローチを拡張する。 これにより、一連の選択肢から最適な治療を選択し、継続的なスケールのビジネス成果の形で治療効果を見積もることができる。 もう一つの貢献は、昇降モデルの解釈可能性の評価から生じるが、先行研究は予測性能にのみ焦点をあてている。 これらの目標を達成するために,最近導入された因果学習アルゴリズムである因果林に基づいて,複数の治療に対する収益引き上げモデルを構築した。 2つの実世界のマーケティングデータセットを用いた実証実験は、ベンチマークや標準的なマーケティングプラクティスよりも提案されたモデリングアプローチの利点を示している。

Big data and business analytics are critical drivers of business and societal transformations. Uplift models support a firm's decision-making by predicting the change of a customer's behavior due to a treatment. Prior work examines models for single treatments and binary customer responses. The paper extends corresponding approaches by developing uplift models for multiple treatments and continuous outcomes. This facilitates selecting an optimal treatment from a set of alternatives and estimating treatment effects in the form of business outcomes of continuous scale. Another contribution emerges from an evaluation of an uplift model's interpretability, whereas prior studies focus almost exclusively on predictive performance. To achieve these goals, the paper develops revenue uplift models for multiple treatments based on a recently introduced algorithm for causal machine learning, the causal forest. Empirical experimentation using two real-world marketing data sets demonstrates the advantages of the proposed modeling approach over benchmarks and standard marketing practices.
翻訳日:2021-04-09 07:22:03 公開日:2021-01-09
# パーソナルモバイルアシスタントを支援するためのコンテキスト認識型アプリ選択と推奨

Context-Aware Target Apps Selection and Recommendation for Enhancing Personal Mobile Assistants ( http://arxiv.org/abs/2101.03394v1 )

ライセンス: Link先を確認
Mohammad Aliannejadi and Hamed Zamani and Fabio Crestani and W. Bruce Croft(参考訳) ユーザーは多くのアプリをスマートフォンにインストールし、ユーザーの情報過負荷やデバイスのリソース管理に関する問題を提起する。 さらに、最近のパーソナルアシスタントの利用の増加により、モバイルデバイスはユーザーの生活にさらに浸透している。 本稿では,アプリ選択とレコメンデーションという,効果的なパーソナル・モバイル・アシスタントの開発に不可欠な2つの研究課題に対処する。 前者は統合されたモバイル検索システムの主要なコンポーネントであり、統一されたアクセスモードでデバイスにインストールされたすべてのアプリに必要なユーザー情報を扱うシステムである。 後者は、ユーザーが起動したいであろう次のアプリを予測する。 ここでは,モバイルデバイスで利用可能なリッチなコンテキスト情報を活用するために,コンテキスト認識モデルに注目する。 我々は、モバイルセンサーデータ(現在研究目的で公開されている)に富んだ何千ものモバイルクエリを収集するために、in situ研究を設計する。 このデータセットを用いて,これらのタスクのコンテキストにおけるユーザの行動を調査し,ユーザの逐次的,時間的,個人的行動を考慮したコンテキスト認識型ニューラルモデル群を提案する。 最先端モデルをいくつか検討し,提案モデルがベースラインを大きく上回ることを示した。

Users install many apps on their smartphones, raising issues related to information overload for users and resource management for devices. Moreover, the recent increase in the use of personal assistants has made mobile devices even more pervasive in users' lives. This paper addresses two research problems that are vital for developing effective personal mobile assistants: target apps selection and recommendation. The former is the key component of a unified mobile search system: a system that addresses the users' information needs for all the apps installed on their devices with a unified mode of access. The latter, instead, predicts the next apps that the users would want to launch. Here we focus on context-aware models to leverage the rich contextual information available to mobile devices. We design an in situ study to collect thousands of mobile queries enriched with mobile sensor data (now publicly available for research purposes). With the aid of this dataset, we study the user behavior in the context of these tasks and propose a family of context-aware neural models that take into account the sequential, temporal, and personal behavior of users. We study several state-of-the-art models and show that the proposed models significantly outperform the baselines.
翻訳日:2021-04-09 07:21:50 公開日:2021-01-09
# GnetSeg: 224mW CNN加速器チップ上で318FPSの速度で最適化されたセマンティックセグメンテーションモデル

GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN Accelerator Chip at the Speed of 318FPS ( http://arxiv.org/abs/2101.10444v1 )

ライセンス: Link先を確認
Baohua Sun, Weixiong Lin, Hao Sha, Jiapeng Su(参考訳) セマンティックセグメンテーションは、同じクラスに属する画像上にピクセルをクラスタ化するタスクである。 自動運転、医用画像分析、産業検査、パーソンセグメンテーション用のスマートフォンカメラなど、現実世界のアプリケーションで広く使われている。 モバイルとエッジデバイスにおけるセマンティクスセグメンテーションモデルを加速することは、業界にとって実用的なニーズである。 近年、CNN(Convolutional Neural Networks)アクセラレータが広く利用できるようになった。 それらは、エッジデバイス上のセマンティックセグメンテーションモデルを加速するのに理想的な電力効率、推論速度に利点がある。 しかし、CNNアクセラレータチップは、柔軟性とメモリにも制限がある。 さらに、CNNアクセラレータチップがホストCPUとのコプロセッサとして機能するため、CPU負荷は非常に重要である。 本稿では,CNNアクセラレータチップ上のメモリとサポート対象演算子を完全に活用するためにセマンティックセグメンテーションモデルを最適化し,同時にCNNモデルのCPU負荷をゼロにする。 結果として得られるモデルはGnetSegと呼ばれる。 さらに,cnnアクセラレータとホストcpu間のデータ転送のレイテンシを最小化するgnetsegモデルのマスクの整数符号化を提案する。 実験結果から,224mWチップ上で動作したモデルでは318FPSの高速化を実現し,人体セグメンテーションなどの応用に優れた精度が得られた。

Semantic segmentation is the task to cluster pixels on an image belonging to the same class. It is widely used in the real-world applications including autonomous driving, medical imaging analysis, industrial inspection, smartphone camera for person segmentation and so on. Accelerating the semantic segmentation models on the mobile and edge devices are practical needs for the industry. Recent years have witnessed the wide availability of CNN (Convolutional Neural Networks) accelerators. They have the advantages on power efficiency, inference speed, which are ideal for accelerating the semantic segmentation models on the edge devices. However, the CNN accelerator chips also have the limitations on flexibility and memory. In addition, the CPU load is very critical because the CNN accelerator chip works as a co-processor with a host CPU. In this paper, we optimize the semantic segmentation model in order to fully utilize the limited memory and the supported operators on the CNN accelerator chips, and at the same time reduce the CPU load of the CNN model to zero. The resulting model is called GnetSeg. Furthermore, we propose the integer encoding for the mask of the GnetSeg model, which minimizes the latency of data transfer between the CNN accelerator and the host CPU. The experimental result shows that the model running on the 224mW chip achieves the speed of 318FPS with excellent accuracy for applications such as person segmentation.
翻訳日:2021-04-09 07:21:31 公開日:2021-01-09
# SyReNN: ディープニューラルネットワークの分析ツール

SyReNN: A Tool for Analyzing Deep Neural Networks ( http://arxiv.org/abs/2101.03263v1 )

ライセンス: Link先を確認
Matthew Sotoudeh and Aditya V. Thakur(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな重要なドメインで急速に人気を集めています。 形式的には、DNNは様々なサイズと応用の複雑なベクトル値関数である。 残念なことに、現代のDNNは様々な攻撃やバギーな振る舞いに弱いことが示されている。 これは、そのようなDNNの特性を公式に分析する最近の研究の動機となった。 本稿では,そのシンボル表現を計算してDNNの理解と分析を行うSyReNNを紹介する。 重要な洞察は、DNNを線形関数に分解することである。 本ツールはDNN解析ツールの空間におけるユニークな設計点である入力空間の低次元部分集合を用いて解析するために設計されている。 ツールとその基礎となる理論を記述し、その使用と性能を3つのケーススタディで評価する: 計算統合グラディエント、DNNの決定境界の可視化、DNNのパッチング。

Deep Neural Networks (DNNs) are rapidly gaining popularity in a variety of important domains. Formally, DNNs are complicated vector-valued functions which come in a variety of sizes and applications. Unfortunately, modern DNNs have been shown to be vulnerable to a variety of attacks and buggy behavior. This has motivated recent work in formally analyzing the properties of such DNNs. This paper introduces SyReNN, a tool for understanding and analyzing a DNN by computing its symbolic representation. The key insight is to decompose the DNN into linear functions. Our tool is designed for analyses using low-dimensional subsets of the input space, a unique design point in the space of DNN analysis tools. We describe the tool and the underlying theory, then evaluate its use and performance on three case studies: computing Integrated Gradients, visualizing a DNN's decision boundaries, and patching a DNN.
翻訳日:2021-04-09 07:21:07 公開日:2021-01-09
# 画素レベル演算を用いた超高速低電力畳み込みニューラルネットワークイメージセンサ

An Ultra Fast Low Power Convolutional Neural Network Image Sensor with Pixel-level Computing ( http://arxiv.org/abs/2101.03308v1 )

ライセンス: Link先を確認
Ruibing Song, Kejie Huang, Zongsheng Wang, Haibin Shen(参考訳) 現代のビジョンシステムにおけるデータキャプチャーと分析の分離は、エンドデバイスとクラウドコンピュータの間で大量のデータ転送をもたらし、長いレイテンシ、遅い応答、高い消費電力をもたらす。 効率的なハードウェアアーキテクチャは、リソース制限されたエンドセンシングデバイスで人工知能(AI)を実現するために開発が進められている。 本稿では,カラム読み出し回路前の畳み込み動作が可能なpip( processing-in-pixel) cmosセンサアーキテクチャを提案する。 シミュレーションの結果,提案アーキテクチャは1080Pイメージセンサアレイにおける畳み込み操作(カーネルサイズ=3*3,ストライド=2,入力チャネル=3,出力チャネル=64)が可能であり,消費電力は22.62mWであることがわかった。 言い換えれば、計算効率は4.75 TOPS/wであり、最先端の約3.6倍である。

The separation of the data capture and analysis in modern vision systems has led to a massive amount of data transfer between the end devices and cloud computers, resulting in long latency, slow response, and high power consumption. Efficient hardware architectures are under focused development to enable Artificial Intelligence (AI) at the resource-limited end sensing devices. This paper proposes a Processing-In-Pixel (PIP) CMOS sensor architecture, which allows convolution operation before the column readout circuit to significantly improve the image reading speed with much lower power consumption. The simulation results show that the proposed architecture enables convolution operation (kernel size=3*3, stride=2, input channel=3, output channel=64) in a 1080P image sensor array with only 22.62 mW power consumption. In other words, the computational efficiency is 4.75 TOPS/w, which is about 3.6 times as higher as the state-of-the-art.
翻訳日:2021-04-09 07:20:44 公開日:2021-01-09
# SARS-Cov-2領域情報に基づくRNA配列分類

SARS-Cov-2 RNA Sequence Classification Based on Territory Information ( http://arxiv.org/abs/2101.03323v1 )

ライセンス: Link先を確認
Jingwei Liu(参考訳) CovID-19遺伝子解析はウイルスの種類、ウイルスの変異、ワクチンの評価に重要である。 本稿では,SARS-Cov-2 RNA配列の解析を行った。 SARS-Cov-2RNA配列を異なる次元空間に投影し,SARS-Cov-2の領域や起源情報を探索するために事前学習したSVMモデルの出力確率に応じて評価することにより,短・長・混合塩基間の遺伝的長の均一な配列SVMモデルを構築する。 データ分析では、トレーニングセットとテストセットの異なるサンプルサイズ比についても論じる。 2つのSARS-Cov-2RNA分類タスクは、GISAIDデータベースに基づいて構築されており、1つは本土、香港、台湾で、もう1つは7大陸の6クラス分類タスク(アフリカ、アジア、ヨーロッパ、北アメリカ、南アメリカ、中央アメリカ、海洋)である。 中国の3級分類では、Top-1精度率は82.45 %(列車60 %、試験=40 %)、中国の2級分類では97.35 %(列車80 %、試験20 %)、世界の6級分類では、トレーニングセットとテストセットの比率が20 %:80 %である場合、Top-1精度は30.30 %に達する。 また、Top-Nの結果もある。

CovID-19 genetics analysis is critical to determine virus type,virus variant and evaluate vaccines. In this paper, SARS-Cov-2 RNA sequence analysis relative to region or territory is investigated. A uniform framework of sequence SVM model with various genetics length from short to long and mixed-bases is developed by projecting SARS-Cov-2 RNA sequence to different dimensional space, then scoring it according to the output probability of pre-trained SVM models to explore the territory or origin information of SARS-Cov-2. Different sample size ratio of training set and test set is also discussed in the data analysis. Two SARS-Cov-2 RNA classification tasks are constructed based on GISAID database, one is for mainland, Hongkong and Taiwan of China, and the other is a 6-class classification task (Africa, Asia, Europe, North American, South American\& Central American, Ocean) of 7 continents. For 3-class classification of China, the Top-1 accuracy rate can reach 82.45\% (train 60\%, test=40\%); For 2-class classification of China, the Top-1 accuracy rate can reach 97.35\% (train 80\%, test 20\%); For 6-class classification task of world, when the ratio of training set and test set is 20\% : 80\% , the Top-1 accuracy rate can achieve 30.30\%. And, some Top-N results are also given.
翻訳日:2021-04-09 07:20:25 公開日:2021-01-09