このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210523となっている論文です。

PDF登録状況(公開日: 20210523)

TitleAuthorsAbstract論文公表日・翻訳日
# 準エルミート量子論における可観測性の非局所性

Nonlocality of Observables in Quasi-Hermitian Quantum Theory ( http://arxiv.org/abs/2002.04703v2 )

ライセンス: Link先を確認
Jacob Barnett(参考訳) 準エルミート量子論における局所可観測代数の明示的な構成は、局所性のテンソル積モデルと自由フェルミオンのモデルの両方で導かれる。 後者の構成は、1次元格子上の粒子保存自由フェルミオンの$\mathcal{pt}$-symmetric toyモデルのいくつかの場合に適用され、近傍相互作用と開境界条件を持つ。 ハミルトニアンの局所性にもかかわらず、局所可観測物は格子内の点の一般の集合には存在しない。 非自明な可観測物を含むサイトの集合は複素ポテンシャルに強く依存する。

Explicit construction of local observable algebras in quasi-Hermitian quantum theories is derived in both the tensor product model of locality and in models of free fermions. The latter construction is applied to several cases of a $\mathcal{PT}$-symmetric toy model of particle-conserving free fermions on a 1-dimensional lattice, with nearest neighbour interactions and open boundary conditions. Despite the locality of the Hamiltonian, local observables do not exist in generic collections of sites in the lattice. The collections of sites which do contain nontrivial observables strongly depends on the complex potential.
翻訳日:2023-06-03 23:22:59 公開日:2021-05-23
# ボゴロボフ・ヴァンホーブ極限における量子マスター方程式の補正における非摂動効果

Non-perturbative effects in corrections to quantum master equation arising in Bogolubov-van Hove limit ( http://arxiv.org/abs/2008.02820v6 )

ライセンス: Link先を確認
A. E. Teretenkov(参考訳) 弱結合極限に生じるgorini-kossakowski-sudarshan-lindblad方程式の摂動補正について検討する。 零温度での回転波近似におけるスピンボーソンモデルについて考察する。 密度行列の摂動部分は、摂動理論の任意の順序に対して時間非依存のゴリーニ-コサコフスキー-スダルシャン-リンド方程式を満たす(貯水池相関関数のすべてのモーメントが有限であれば)。 しかし、長い時間で正しい漸近的精度を再現するためには、正確な動力学のために、最初の条件が異なるものを使う必要がある。 さらに, このマスター方程式の初期条件は, ある種の共鳴条件下では密度行列に成り立たないことを示した。

We study the perturbative corrections to the { Gorini-Kossakowski-Sudarshan-Lindblad equation which arises in the weak coupling limit}. The spin-boson model in the rotating wave approximation at zero temperature is considered. We show that the perturbative part of the density matrix satisfies the time-independent Gorini-Kossakowski-Sudarshan-Lindblad equation for arbitrary order of the perturbation theory (if all the moments of the reservoir correlation function are finite). But to reproduce the right asymptotic precision at long times, one should use { an initial condition different} from the one for exact dynamics. Moreover, we show that the initial condition for this master equation even fails to be a density matrix under certain resonance conditions.
翻訳日:2023-05-06 23:48:39 公開日:2021-05-23
# 量子センシングのための光物質系の相転移

Phase Transitions in Light-Matter Systems for Quantum Sensing ( http://arxiv.org/abs/2011.01995v2 )

ライセンス: Link先を確認
Louis Garbe(参考訳) 光と物質が弱い結合の場合、それらはエネルギーの量子を交換する2つの特徴的な系として記述できる。 対照的に、結合強度が非常に大きいため、システムは光や物質だけでは説明できない化合物をハイブリダイゼーションし形成する。 この論文では、この体制で生じるエキゾチックな性質について研究する。 特に、これらのシステムにおいて量子相転移を設計できる可能性に関心がある。 2光子カップリング(two-photon coupling)とは、物質が光子をペアで生成または吸収するメカニズムである。 この機構は、相転移と不安定の両方を含むリッチな相図を作成する。 第2のトピックは、アプリケーションセンシングにこれらのトランジションを使用することである。 実際、臨界点近くでは、システムは外部の摂動に非常に敏感になる。 一つの量子ビットをボソニック場に結合するセットアップについて検討する。 この有限サイズシステムでさえ位相遷移を示し、量子ビットとフィールドの周波数を精度良く測定できることを示す。 このプロトコルは小型センサーの開発に利用できる。 最後に, 資源理論の形式的手法を用いて, 非古典性を特徴付け, 定量化するために, メトロジカルタスクを行うシステムの能力について検討した。 最初の3章は超強光子カップリング、超ラジアント相転移、量子メトロロジーの分野における主要な概念と重要な結果を示している。 私はこれらの章を教育的に書こうと努力してきました。これらのドメインの紹介として、非専門主義者や学生が使用することができます。 他の3章は私の研究成果である。 それらの多くは既に他所で刊行されているが、この写本には追加の結果、論評、視点が含まれており、原本の改良版と見なすべきものである。

When light and matter are weakly coupled, they can be described as two distinctive systems exchanging quanta of energy. By contrast, for very large coupling strength, the systems hybridize and form compounds that cannot be described in terms of light or matter only. In this Thesis, we study some exotic properties which arise in this regime. In particular, we are interested in the possibility to engineer quantum phase transitions in these systems. One direction we explore is the study of two-photon coupling, a mechanism in which matter creates or absorb photons by pairs. This mechanism creates a rich phase diagram containing both phase transitions and instabilities. A second topic is the use of these transitions for sensing applications. Indeed, near the critical point, the system becomes extremely sensitive to external perturbations. We study a setup in which a single qubit is coupled to a bosonic field. We show that even this finite-size system displays a phase transition, which can be used to measure the frequency of the qubit and the field with improved accuracy. This protocol could be used to develop small-scale sensors. Finally, we study how the ability of a system to perform certain metrological tasks could be used to characterize and quantify nonclassicality, by using the formalism of resource theories. The first three chapters present the main concepts and key results in the fields of ultrastrong light-matter coupling, superradiant phase transitions, and quantum metrology. I have strived to write these chapters pedagogically; they can be used by non-specialists or students as an introduction to these domains. The three other chapters present my own research contributions. Although most of those have already been published elsewhere, this manuscript contains additional results, remarks, and perspectives, and should be considered as an improved version of the original papers.
翻訳日:2023-04-25 11:41:22 公開日:2021-05-23
# より小さい公開鍵を用いた量子デジタル署名

Quantum digital signatures with smaller public keys ( http://arxiv.org/abs/2012.15493v2 )

ライセンス: Link先を確認
Boris Skoric(参考訳) ビットの代わりに非二項記号が署名される量子シグネチャの変種を導入する。 公開鍵は指紋認証状態であり、gottesmanとchuangのスキームと同様だが、複数の方法でプライベートキーを部分的に公開することができる。 この修正の効果は、メッセージビット毎に拡張されたキュービット数の削減である。 セキュリティ証明を行い,公開鍵サイズの改善がメッセージ長に依存することを示す数値結果を示す。

We introduce a variant of quantum signatures in which nonbinary symbols are signed instead of bits. The public keys are fingerprinting states, just as in the scheme of Gottesman and Chuang, but we allow for multiple ways to reveal the private key partially. The effect of this modification is a reduction of the number of qubits expended per message bit. We give a security proof and we present numerical results that show how the improvement in public key size depends on the message length.
翻訳日:2023-04-18 05:49:50 公開日:2021-05-23
# 応用磁場下における北エフ磁石のトポロジカルネマティック相転移

Topological Nematic Phase Transition in Kitaev Magnets Under Applied Magnetic Fields ( http://arxiv.org/abs/2101.05959v3 )

ライセンス: Link先を確認
Masahiro O. Takahashi, Masahiko G. Yamada, Daichi Takikawa, Takeshi Mizushima, and Satoshi Fujimoto(参考訳) 我々は,キタエフ磁石の候補材料において,フォールトトレラント量子計算に使用可能なトーリック符号位相を実現するシナリオを提案する。 非キタエフ型交換相互作用と同様に印加された磁場によって誘起されるキタエフスピン液体状態におけるマヨルダナのフェルミオン間の4体相互作用は、マヨルダナ結合の磁気秩序のないネマティック相転移を引き起こし、チャーン数を$\pm 1$ から 0 に変化させることが示されている。 チャーン数ゼロのこのギャップなスピン液体状態は、トーリック符号位相にすぎません。 以上の結果から, 熱容量測定(O. Tanaka et al., arXiv:2007.06757]により, 最近, $\alpha$-RuCl$_3$で観測されたトポロジカルネマティックな遷移が説明できる可能性が示唆された。

We propose a scenario of realizing the toric code phase, which can be potentially utilized for fault-tolerant quantum computation, in candidate materials of Kitaev magnets. It is demonstrated that four-body interactions among Majorana fermions in the Kitaev spin liquid state, which are induced by applied magnetic fields as well as non-Kitaev-type exchange interactions, trigger a nematic phase transition of Majorana bonds without magnetic orders, accompanying the change of the Chern number from $\pm 1$ to zero. This gapful spin liquid state with zero Chern number is nothing but the toric code phase. Our result potentially explains the topological nematic transition recently observed in $\alpha$-RuCl$_3$ via heat capacity measurements [O. Tanaka et al., arXiv:2007.06757].
翻訳日:2023-04-15 03:02:48 公開日:2021-05-23
# サブ波長原子雲の選択的励起

Selective Excitation of Subwavelength Atomic Clouds ( http://arxiv.org/abs/2102.11366v2 )

ライセンス: Link先を確認
Rasoul Alaee, Akbar Safari, and Robert W. Boyd(参考訳) ランダムに変化する位置を持つ原子の密度の高い雲は、コヒーレントで非コヒーレントな散乱を示す。 散乱光子のコヒーレント成分と非コヒーレント成分の両方を有効多極子モーメントに基づいて完全に説明できる単一散乱体として、サブ波長次元の原子雲をモデル化できることを示す。 このモデルにより、エネルギーの保存に基づく散乱のコヒーレント成分と非コヒーレント成分の関係に到達することができる。 さらに, 4つの平面波の重ね合わせを用いて, 異なる多重極モーメントを選択的に励起し, 原子雲の散乱を調整し, 協調シフト, 共鳴線幅, 放射パターンを制御できることを示した。 提案手法は,原子アンサンブルにおける散乱現象の新たな洞察を与え,単一光子状態の生成や操作などの用途において散乱を制御するための経路を開く。

A dense cloud of atoms with randomly changing positions exhibits coherent and incoherent scattering. We show that an atomic cloud of subwavelength dimensions can be modeled as a single scatterer where both coherent and incoherent components of the scattered photons can be fully explained based on effective multipole moments. This model allows us to arrive at a relation between the coherent and incoherent components of scattering based on the conservation of energy. Furthermore, using superposition of four plane waves, we show that one can selectively excite different multipole moments and thus tailor the scattering of the atomic cloud to control the cooperative shift, resonance linewidth, and the radiation pattern. Our approach provides a new insight into the scattering phenomena in atomic ensembles and opens a pathway towards controlling scattering for applications such as generation and manipulation of single-photon states.
翻訳日:2023-04-10 05:32:26 公開日:2021-05-23
# 有限温度における拡張角膜電位に対する境界状態解 Schr\"{o}dinger 方程式

Bound State Solution Schr\"{o}dinger Equation for Extended Cornell Potential at Finite Temperature ( http://arxiv.org/abs/2104.04526v2 )

ライセンス: Link先を確認
A.I. Ahmadov, K.H. Abasova, M.Sh. Orucova(参考訳) 本稿では,nikiforov-uvarov法を用いた有限温度依存性schr\"{o}dinger方程式について検討する。 我々は、コーネル、逆二次ポテンシャル、調和型ポテンシャルの和を放射状schr\"{o}dinger方程式のポテンシャル部分と考える。 エネルギー固有値と放射波関数の解析式を提示する。 重いクォーコニアと$b_c$中間子質量に対する結果の応用は、角運動量ゼロの量子数を除く現在の実験データとよく一致している。 温度依存性に関する数値結果は、異なる量子数に対する異なる挙動を示す。 温度依存性の結果は基底状態のQCD和則と一致している。

In this paper, we study the finite temperature-dependent Schr\"{o}dinger equation by using the Nikiforov-Uvarov method. We consider the sum of the Cornell, inverse quadratic, and harmonic-type potential as the potential part of the radial Schr\"{o}dinger equation. Analytical expressions for the energy eigenvalues and the radial wave function are presented. Application of the results for the heavy quarkonia and $B_c$ meson masses are good agreement with the current experimental data except for zero angular momentum quantum numbers. Numerical results for the temperature dependence indicates a different behaviour for different quantum numbers. Temperature-dependent results are in agreement with some QCD sum rule results from the ground states.
翻訳日:2023-04-04 07:35:52 公開日:2021-05-23
# 周期駆動非エルミート系における非フローク工学

Non-Floquet engineering in periodically driven non-Hermitian systems ( http://arxiv.org/abs/2105.10980v1 )

ライセンス: Link先を確認
Huan-Yu Wang, Xiao-Ming Zhao, Lin Zhuang, Wu-Ming Liu(参考訳) 量子系を周期的に変調するフローケット工学は、新しい位相力学状態を実現するために中心に位置する。 フロッケ工学のおかげで、実験的なトポロジカル材料に関する様々な新しい領域が出現した。 しかし、従来のフロッケ工学は時間周期非散逸エルミート系にのみ適用され、実際の量子系では散逸を伴う非エルミート過程は通常起こる。 今のところ、周波数空間 Floquet Hamiltonian を通して周期的に駆動される非エルミート系の位相位相をどのように特徴付けるかは定かではない。 本稿では,周波数空間におけるフロッケバンドギャップの生成を通じて時間周期非エルミティアン系の異なるフロッケ位相相を同定する非フロッケ理論を提案する。 非フロケット理論では、非エルミートフロケットハミルトニアンの固有状態は、ワニエ・スターク局在の時間的変形である。 注目すべきことに, 駆動周期の開始点の異なる選択は, 異なる局所化挙動を生じさせる可能性があり, その効果は消散振動場における量子位相検出器の設計に逆利用することができる。 提案プロトコルは,非エルミート力学系におけるトポロジカルな特徴を記述するための基本ルールを確立し,その新しいタイプのフロケトポロジカルな材料構築への応用を見出すことができる。

Floquet engineering, modulating quantum systems in a time periodic way, lies at the central part for realizing novel topological dynamical states. Thanks to the Floquet engineering, various new realms on experimentally simulating topological materials have emerged. Conventional Floquet engineering, however, only applies to time periodic non-dissipative Hermitian systems, and for the quantum systems in reality, non-Hermitian process with dissipation usually occurs. So far, it remains unclear how to characterize topological phases of periodically driven non-Hermitian systems via the frequency space Floquet Hamiltonian. Here, we propose the non-Floquet theory to identify different Floquet topological phases of time periodic non-Hermitian systems via the generation of Floquet band gaps in frequency space. In non-Floquet theory, the eigenstates of non-Hermitian Floquet Hamiltonian are temporally deformed to be of Wannier-Stark localization. Remarkably, we show that different choices of starting points of driving period can result to different localization behavior, which effect can reversely be utilized to design detectors of quantum phases in dissipative oscillating fields. Our protocols establish a fundamental rule for describing topological features in non-Hermitian dynamical systems and can find its applications to construct new types of Floquet topological materials.
翻訳日:2023-03-30 01:21:21 公開日:2021-05-23
# 非エルミタンモード相互作用がキャビティ間光伝達に及ぼす影響

Impact of non-Hermitian Mode interaction on Inter-cavity Light transfer ( http://arxiv.org/abs/2105.10936v1 )

ライセンス: Link先を確認
Hyeon-Hye Yu, Sunjae Gwak, Jinhyeok Ryu, Ji-Hwan Kim, Jung-Wan Ryu, Chil-Min Kim, Chang-Hwan Yi(参考訳) 結合物理系におけるサイト間相互モード相互作用を理解することは、この局所相互作用が連続する複数のサイト間エネルギー伝達効率を決定するため、大きな化合物系を理解するために不可欠である。 非エルミート結合のみが2つの結合した光学キャビティ間の光伝達を正しく説明できることを示す。 また,システム次元が小さくなるにつれて,非エルミート結合効果が極めて重要であることも明らかにした。 この結果は、量子状態における一般的な結合デバイスに対処するための重要な洞察を与える。

Understanding inter-site mutual mode interaction in coupled physical systems is essential to comprehend large compound systems as this local interaction determines the successive multiple inter-site energy transfer efficiency. We demonstrate that only the non-Hermitian coupling can correctly account for the light transfer between two coupled optical cavities. We also reveal that the non-Hermitian coupling effect becomes much crucial as the system dimension gets smaller. Our results provide an important insight to deal with general coupled-devices in the quantum regime.
翻訳日:2023-03-30 01:20:08 公開日:2021-05-23
# Wikipediaにおける集合予測と応答のモデル化

Modeling Collective Anticipation and Response on Wikipedia ( http://arxiv.org/abs/2105.10900v1 )

ライセンス: Link先を確認
Ryota Kobayashi, Patrick Gildersleve, Takeaki Uno and Renaud Lambiotte(参考訳) オンラインメディアの人気のダイナミクスは、内因性拡散機構と、ニュースやイベントを含む外因性ショックに対する反応の組み合わせによって引き起こされる。 しかし、イベント関連情報(例えば、どのイベントが長期活動を引き起こすかなど)に対する人気パターンの時間的依存についてはほとんど分かっていない。 本稿では, 概日リズムとともに, 予測的成長と集団的注意の減衰という重要な特徴を取り入れ, 人気のピーク前後のダイナミクスを記述する簡易モデルを提案する。 提案モデルにより,将来のページビューアクティビティやクラスタリング時系列を予測できる新しい手法の開発が可能となった。 提案手法を検証するために,wikipediaのページビューデータのコーパスを収集し,今後の選挙やスポーツイベントなど,事前に分かっているイベントが一定の日程を持つようにした。 我々の方法論は予測とクラスタリングの両方において既存のモデルよりも優れている。 さらに,アソシエーションフットボールに関連するウィキペディアのページに制限を加えることで,このイベントの具体的実現が,試合に勝つチームや試合のタイプにおいて,イベント後の反応ダイナミクスに大きな影響を及ぼすことが明らかとなった。 我々の研究は、注意の時間的パターンとそれらが表す事象の特徴的基盤情報との関連性だけでなく、集合的注意のすべてのフェーズを適切にモデル化することの重要性を示す。

The dynamics of popularity in online media are driven by a combination of endogenous spreading mechanisms and response to exogenous shocks including news and events. However, little is known about the dependence of temporal patterns of popularity on event-related information, e.g. which types of events trigger long-lasting activity. Here we propose a simple model that describes the dynamics around peaks of popularity by incorporating key features, i.e., the anticipatory growth and the decay of collective attention together with circadian rhythms. The proposed model allows us to develop a new method for predicting the future page view activity and for clustering time series. To validate our methodology, we collect a corpus of page view data from Wikipedia associated to a range of planned events, that are events which we know in advance will have a fixed date in the future, such as elections and sport events. Our methodology is superior to existing models in both prediction and clustering tasks. Furthermore, restricting to Wikipedia pages associated to association football, we observe that the specific realization of the event, in our case which team wins a match or the type of the match, has a significant effect on the response dynamics after the event. Our work demonstrates the importance of appropriately modeling all phases of collective attention, as well as the connection between temporal patterns of attention and characteristic underlying information of the events they represent.
翻訳日:2023-03-30 01:19:40 公開日:2021-05-23
# ループ量子重力とアフィン量子重力がお互いを調べる

Let Loop Quantum Gravity and Affine Quantum Gravity Examine Each Other ( http://arxiv.org/abs/2107.07879v1 )

ライセンス: Link先を確認
John R. Klauder(参考訳) ループ量子重力は、重力の正しい量子化を見つけるために正準量子化を用いて広く開発されている。 アフィン量子化(アフィン量子化、英: Affine Quantization)とは、一方向の有界な正の座標である。 2つの単純な問題に対して,正準およびアフィン量子化を用いた議論を行い,各手続きを理解する。 この分析は、アインシュタインの重力の量子的処理を求める面の深い違いを示すいくつかの典型的な特徴から、控えめな量子重力の扱いを開放する。

Loop Quantum Gravity is widely developed using canonical quantization in an effort to find the correct quantization for gravity. Affine quantization, which is like canonical quantization augmented bounded in one orientation, e.g., a strictly positive coordinate. We open discussion using canonical and affine quantizations for two simple problems so each procedure can be understood. That analysis opens a modest treatment of quantum gravity gleaned from some typical features that exhibit the profound differences between aspects of seeking the quantum treatment of Einstein's gravity.
翻訳日:2023-03-30 01:15:09 公開日:2021-05-23
# 実験環境における自律運転の実現

Autonomous Driving Implementation in an Experimental Environment ( http://arxiv.org/abs/2106.15274v1 )

ライセンス: Link先を確認
Namig Aliyev, Oguzhan Sezer, Mehmet Turan Guzel(参考訳) 自律システムは環境を識別する必要があるため、安全に実施するには長い道のりが必要です。 自律運転システムでは、車線追跡と同様に障害物や信号機の検出が重要である。 本研究では,この目的のために設計された実験環境において,自律走行システムを開発した。 本システムでは、カメラを有するモデル車両を用いて車線を追跡し、障害物を避け、自律運転行動を実験的に研究する。 畳み込みニューラルネットワークモデルはレーン追跡のために訓練された。 障害物を避けるために, コーナー検出, 光流, 展開焦点, 衝突時間, バランス計算, 決定機構をそれぞれ作成した。

Autonomous systems require identifying the environment and it has a long way to go before putting it safely into practice. In autonomous driving systems, the detection of obstacles and traffic lights are of importance as well as lane tracking. In this study, an autonomous driving system is developed and tested in the experimental environment designed for this purpose. In this system, a model vehicle having a camera is used to trace the lanes and avoid obstacles to experimentally study autonomous driving behavior. Convolutional Neural Network models were trained for Lane tracking. For the vehicle to avoid obstacles, corner detection, optical flow, focus of expansion, time to collision, balance calculation, and decision mechanism were created, respectively.
翻訳日:2023-03-30 01:14:57 公開日:2021-05-23
# 量子力学における部分計測における崩壊と崩壊

Collapse-in and Collapse-out in Partial Measurement in Quantum Mechanics and its WISE Interpretation ( http://arxiv.org/abs/2106.00466v1 )

ライセンス: Link先を確認
Gui-Lu Long(参考訳) この短い通信では、量子力学における測定の仮定を一般化した。 これは、部分的な測定、すなわち波動関数の一部のみの測定の場合に関するものである。 部分的な測定を行うと、波動関数は測定された部分波動関数によって覆われた固有状態の一方で崩壊するか、測定された部分から崩壊し、測定されていない部分に移る。 ワイズ(波動関数はシステムエンティティ)の解釈における説明が与えられる。

In this short communication, I gave a generalization of measurement postulate in quantum mechanics. It is regarding the case with partial measurement, namely, measurement on only part of a wave function. Upon a partial measurement, the wavefunction will either collapse in one of the eigenstate covered by the measured partial wavefunction; or collapses out of the measured part and shifts to the unmeasured part. An explanation in the WISE (Wavefunction Is System Entity) interpretation is given.
翻訳日:2023-03-30 01:14:47 公開日:2021-05-23
# ゲームAIの社会的責任

The Social Responsibility of Game AI ( http://arxiv.org/abs/2105.15122v1 )

ライセンス: Link先を確認
Michael Cook(参考訳) 過去10年間で、人工知能が私たちの時代における最も重要な問題の一つに変身し、ゲームは最大のエンタテインメント産業へと成長してきました。 その結果、フィールドとしてのゲームAIの研究は、資金へのアクセスの増加、報道機関への露出、そして政府や世界最大のテクノロジー企業の影響を享受している。 この分野の歴史におけるこの重要な瞬間において、この特権的な立場は、私たちがほとんど達成できなかった重要な責任のセットをもたらすと論じます。 責任を負う人を示し、これらの責任のいくつかを特定し、コミュニティとしてこの力を活用するための行動を提案する。

Over the last decade we have watched as artificial intelligence has been transformed into one of the most important issues of our time, and games have grown into the biggest entertainment industry. As a result, game AI research as a field has enjoyed increased access to funding, exposure in the press, and influence with governments and some of the largest technology firms in the world. At this pivotal moment in the history of our field, this paper argues that this privileged position brings with it an important set of responsibilities which we have largely failed to meet. We show to whom we are responsible, identify some of these responsibilities, and suggest actions we can take as a community to leverage this power for good.
翻訳日:2023-03-30 01:14:39 公開日:2021-05-23
# 妊娠損失と非倫理アルゴリズム--ターゲット広告における倫理的問題

Pregnancy loss and unethical algorithms: Ethical issues in targeted advertising ( http://arxiv.org/abs/2105.15121v1 )

ライセンス: Link先を確認
Fatemeh Golpayegani(参考訳) 本稿では,ターゲット広告における倫理的問題と倫理的アルゴリズム設計の重要性について論じる。

In this paper, the ethical issues and the importance of ethical algorithm design for target ads were briefly discussed.
翻訳日:2023-03-30 01:14:28 公開日:2021-05-23
# 回転対称ボソニック状態に対する全光量子状態工学

All-optical Quantum State Engineering for Rotation-symmetric Bosonic States ( http://arxiv.org/abs/2105.11035v1 )

ライセンス: Link先を確認
Rajveer Nehra, Miller Eaton, Olivier Pfister, and Alireza Marandi(参考訳) 量子光学による連続可変量子情報処理は、次世代のスケーラブルなフォールトトレラント情報プロセッサを構築するための有望なプラットフォームを提供する。 量子計算の優位性とフォールトトレランスを達成するためには、非ガウス的資源が不可欠である。 本研究では, 2モードのスクイズド状態からコヒーレント光子を減算し, 光子数分解測定を行い, 種々の非ガウス状態を生成する手法を提案し, 解析する。 提案手法は、従来の二項符号と切り刻まれたシュル「{o}dinger cat codesによる量子誤り訂正に使用される回転対称状態を生成する有望な方法である。 状態工学プロトコルにおける非効率性の検出や損失などの実験的不完全性による有害な影響を考察する。 提案手法は,現在の量子フォトニクス技術で容易に実装できる。

Continuous-variable quantum information processing through quantum optics offers a promising platform for building the next generation of scalable fault-tolerant information processors. To achieve quantum computational advantages and fault tolerance, non-Gaussian resources are essential. In this work, we propose and analyze a method to generate a variety of non-Gaussian states using coherent photon subtraction from a two-mode squeezed state followed by photon-number-resolving measurements. The proposed method offers a promising way to generate rotation-symmetric states conventionally used for quantum error correction with binomial codes and truncated Schr\"{o}dinger cat codes. We consider the deleterious effects of experimental imperfections such as detection inefficiencies and losses in the state engineering protocol. Our method can be readily implemented with current quantum photonic technologies.
翻訳日:2023-03-30 01:14:09 公開日:2021-05-23
# 単層遷移金属ジバルコゲナイドのアンチサイト欠陥量子ビット

Antisite defect qubits in monolayer transition metal dichalcogenides ( http://arxiv.org/abs/2105.11019v1 )

ライセンス: Link先を確認
Jeng-Yuan Tsai, Jinbo Pan, Hsin Lin, Arun Bansil, Qimin Yan(参考訳) 2次元(2次元)材料は、原子的に薄くて外部制御に適しており、量子情報科学への応用のために、パターン付き量子ビット製造と室温での操作を実現するための新しいパラダイムを提供する。 ここでは2次元遷移金属ジアルコゲナイド(TMD)の抗サイト欠陥が制御可能な固体スピン量子ビット系を提供することを示す。 高出力原子構造シミュレーションを用いて、バルクバンドギャップの奥深くに位置し、常磁性三重項基底状態を持つTMDのいくつかの中性アンチサイト欠陥を同定する。 我々は,これらの欠陥量子ビットをフィンガープリントするための光学的遷移と三重項回路間交差プロセスの存在を詳細に分析した。 例えば、ws2 におけるアンチサイト qubit の初期化と読み出しの原則について論じ、これは将来の qubit ベースのデバイスにおける qubit の分離と保護のための多層構造における層間相互作用に対して安定することが期待されている。 本研究は,2次元TMDにおいて,スケーラブルで室温のスピン量子ビットを作成するための新しい経路を開く。

Being atomically thin and amenable to external controls, two-dimensional (2D) materials offer a new paradigm for the realization of patterned qubit fabrication and operation at room temperature for quantum information sciences applications. Here we show that the antisite defect in 2D transition metal dichalcogenides (TMDs) can provide a controllable solid-state spin qubit system. Using high-throughput atomistic simulations, we identify several neutral antisite defects in TMDs that lie deep in the bulk band gap and host a paramagnetic triplet ground state. Our in-depth analysis reveals the presence of optical transitions and triplet-singlet intersystem crossing processes for fingerprinting these defect qubits. As an illustrative example, we discuss the initialization and readout principles of an antisite qubit in WS2, which is expected to be stable against interlayer interactions in a multilayer structure for qubit isolation and protection in future qubit-based devices. Our study opens a new pathway for creating scalable, room-temperature spin qubits in 2D TMDs.
翻訳日:2023-03-30 01:13:44 公開日:2021-05-23
# Coupling Power Lawsは、生物多様性や新型コロナウイルスの死亡率予測といった問題に対する強力な方法を提供する

Coupling Power Laws Offers a Powerful Method for Problems such as Biodiversity and COVID-19 Fatality Predictions ( http://arxiv.org/abs/2105.11002v1 )

ライセンス: Link先を確認
Sam Ma(参考訳) 電力法則は、様々な種類の自然現象(物理、生物学的、天文学、気象学、地質学)と人為現象(社会、財政、計算)を幅広い範囲にわたって記述することが知られているが、その基盤となるメカニズムは必ずしも明確ではない。 統計学において、電力法分布は正規(ガウス)分布が失敗する場合に非常によく適合する。 それでも、パワーロー現象を予測することは、その慣用的性質のいくつかは、明確に定義された平均値の欠如や、潜在的に有界な分散など、非常に難しい。 TPL (Taylor's Power Law) は、生物集団の空間的および/または時間的分布を特徴付けるために初めて発見され、最近、ヒトのマイクロバイオームと、コンピュータ(人工)知能におけるフィットネス分布のような他の自然および人工系の時空間的均一性(分布)を記述するために拡張された。 指数的カットオフ(PLEC)によるパワーロー関数の変種は、最終的にパワーロー関数の指数的成長を阻害し、バイオ多様性の推定や新型コロナウイルス感染症の発症/死亡のターンポイント予測といった特定の予測問題に特に有用である。 本稿では,TPL と PLEC の結合(積分)を提案する。 この結合は、TPLを用いた分散予測とPLECを用いた漸近的推定の利点を生かし、漸近的信頼区間を提供する。 我々は、潜在的な(暗)生物多様性と、COVID-19死亡の転換点を推定するための統合的なアプローチを実証する。 この積分アプローチは、電力法則と正規統計分布とのデュエル関係を考えると、幅広い応用を期待する。

Power laws have been found to describe a wide variety of natural (physical, biological, astronomic, meteorological, geological) and man-made (social, financial, computational) phenomena over a wide range of magnitudes, although their underlying mechanisms are not always clear. In statistics, power law distribution is often found to fit data exceptionally well when the normal (Gaussian) distribution fails. Nevertheless, predicting power law phenomena is notoriously difficult because some of its idiosyncratic properties such as lack of well-defined average value, and potentially unbounded variance. TPL (Taylor's power law), a power law first discovered to characterize the spatial and/or temporal distribution of biological populations and recently extended to describe the spatiotemporal heterogeneities (distributions) of human microbiomes and other natural and artificial systems such as fitness distribution in computational (artificial) intelligence. The power law with exponential cutoff (PLEC) is a variant of power-law function that tapers off the exponential growth of power-law function ultimately and can be particularly useful for certain predictive problems such as biodiversity estimation and turning-point prediction for COVID-19 infection/fatality. Here, we propose coupling (integration) of TPL and PLEC to offer improved prediction quality of certain power-law phenomena. The coupling takes advantages of variance prediction using TPL and the asymptote estimation using PLEC and delivers confidence interval for the asymptote. We demonstrate the integrated approach to the estimation of potential (dark) biodiversity and turning point of COVID-19 fatality. We expect this integrative approach should have wide applications given the duel relationship between power law and normal statistical distributions.
翻訳日:2023-03-30 01:13:26 公開日:2021-05-23
# 高性能キーポイント検出に向けて

Towards High Performance Human Keypoint Detection ( http://arxiv.org/abs/2002.00537v2 )

ライセンス: Link先を確認
Jing Zhang and Zhe Chen and Dacheng Tao(参考訳) 一つの画像からの人間のキーポイント検出は、閉塞、ぼやけ、照明、スケールのばらつきのために非常に困難である。 本稿では、効率的なネットワーク構造を考案し、3つの効果的なトレーニング戦略を提案し、4つの有用な後処理技術を活用することで、この問題に対処する。 まず、人体構成や見えないキーポイントを推論する上で、コンテキスト情報が重要な役割を担っていることに気付く。 そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合し,それらを段階的に洗練するカスケードコンテキストミキサー(CCM)を提案する。 そして, ccmの表現能力を最大化するために, 豊富なラベルなしデータを活用し, 人検出マイニング戦略と共同学習戦略を開発する。 ccmは多様なポーズから識別的特徴を学ぶことができる。 第3に,ポストプロセッシングキーポイント予測のためのサブピクセル補正技術をいくつか提示し,検出精度を向上させる。 MS COCOキーポイント検出ベンチマークの大規模な実験は、提案手法が代表的最先端(SOTA)法よりも優れていることを示す。 我々の単一モデルは、2018年のCOCOキーポイント検出チャレンジの勝者と同等のパフォーマンスを達成する。 最後のアンサンブルモデルは、このベンチマークに新しいSOTAを設定する。

Human keypoint detection from a single image is very challenging due to occlusion, blur, illumination and scale variance. In this paper, we address this problem from three aspects by devising an efficient network structure, proposing three effective training strategies, and exploiting four useful postprocessing techniques. First, we find that context information plays an important role in reasoning human body configuration and invisible keypoints. Inspired by this, we propose a cascaded context mixer (CCM), which efficiently integrates spatial and channel context information and progressively refines them. Then, to maximize CCM's representation capability, we develop a hard-negative person detection mining strategy and a joint-training strategy by exploiting abundant unlabeled data. It enables CCM to learn discriminative features from massive diverse poses. Third, we present several sub-pixel refinement techniques for postprocessing keypoint predictions to improve detection accuracy. Extensive experiments on the MS COCO keypoint detection benchmark demonstrate the superiority of the proposed method over representative state-of-the-art (SOTA) methods. Our single model achieves comparable performance with the winner of the 2018 COCO Keypoint Detection Challenge. The final ensemble model sets a new SOTA on this benchmark.
翻訳日:2023-01-04 08:47:24 公開日:2021-05-23
# 四角形多腕バンディット:最適最良腕識別と微分プライベートスキーム

Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a Differentially Private Scheme ( http://arxiv.org/abs/2006.06792v3 )

ライセンス: Link先を確認
Kontantinos E. Nikolakakis, Dionysios S. Kalogerias, Or Sheffet and Anand D. Sarwate(参考訳) 確率的,潜在的に私的な報奨を有する多腕包帯において,最も高い定量値を持つ腕を一定かつ所定のレベルで同定することを目的としたベストアーム識別問題について検討する。 まず,厳密な最適最良アーム識別のための(非プライベート)逐次除去アルゴリズムを提案し,本アルゴリズムが$\delta$-pacであることを示し,そのサンプル複雑性を特徴付ける。 さらに,提案アルゴリズムは対数的因子に対して本質的に最適であることを示す。 上側と下側の両方の複雑性境界は、関連する部分最適化ギャップの特別な定義に依存しており、特に分位性バンディット問題のために設計されており、ギャップがゼロに近づくと最良のアーム識別は不可能である。 第二に,報奨がプライベートなアプリケーションによって動機づけられた,無限の支持サイズを持つ分布に対してもサンプル複雑性が有限である微分プライベートな逐次除去アルゴリズムを提供し,そのサンプル複雑性を特徴付ける。 我々のアルゴリズムは、最適以下のギャップや、手前のバンディット問題に関連する統計情報の事前知識を必要としない。

We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.
翻訳日:2022-11-22 12:38:14 公開日:2021-05-23
# 汎用ゼロショット物体認識のための冗長性のない特徴の学習

Learning the Redundancy-free Features for Generalized Zero-Shot Object Recognition ( http://arxiv.org/abs/2006.08939v2 )

ライセンス: Link先を確認
Zongyan Han, Zhenyong Fu and Jian Yang(参考訳) ゼロショット物体認識(zero-shot object recognition)またはゼロショット学習(zero-shot learning)は、細粒度動物や鳥種といった意味的に関連したカテゴリー間で物体認識能力を伝達することを目的としている。 しかし、異なる微細な物体の画像は外観の微妙な違いを呈しがちであり、ゼロショット物体認識を著しく悪化させる。 本稿では,粒度の細かい物体の超流動情報を削減するため,汎用ゼロショット学習のための冗長性フリーな特徴を学習することを提案する。 我々は、元の視覚的特徴を新しい(冗長のない)特徴空間に投影し、これらの2つの特徴空間間の統計的依存を制限することで、モチベーションを達成する。 さらに、冗長性のない機能空間におけるカテゴリ関係を維持し、強化するために、投影された機能が必要です。 このようにして、識別情報を失うことなく、視覚特徴から冗長情報を除去することができる。 4つのベンチマークデータセットの性能を広範囲に評価した。 その結果,我々の冗長性のない特徴に基づく一般化ゼロショット学習(RFF-GZSL)アプローチは,最先端技術と比較して競争力のある結果が得られることがわかった。

Zero-shot object recognition or zero-shot learning aims to transfer the object recognition ability among the semantically related categories, such as fine-grained animal or bird species. However, the images of different fine-grained objects tend to merely exhibit subtle differences in appearance, which will severely deteriorate zero-shot object recognition. To reduce the superfluous information in the fine-grained objects, in this paper, we propose to learn the redundancy-free features for generalized zero-shot learning. We achieve our motivation by projecting the original visual features into a new (redundancy-free) feature space and then restricting the statistical dependence between these two feature spaces. Furthermore, we require the projected features to keep and even strengthen the category relationship in the redundancy-free feature space. In this way, we can remove the redundant information from the visual features without losing the discriminative information. We extensively evaluate the performance on four benchmark datasets. The results show that our redundancy-free feature based generalized zero-shot learning (RFF-GZSL) approach can achieve competitive results compared with the state-of-the-arts.
翻訳日:2022-11-20 18:53:02 公開日:2021-05-23
# 異質性仮説:層別分化ネットワークアーキテクチャの探索

The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network Architectures ( http://arxiv.org/abs/2006.16242v2 )

ライセンス: Link先を確認
Yawei Li, Wen Li, Martin Danelljan, Kai Zhang, Shuhang Gu, Luc Van Gool, Radu Timofte(参考訳) 本稿では,畳み込みニューラルネットワーク設計の問題に取り組む。 アーキテクチャ全体の設計に焦点をあてるのではなく、通常見落としている設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。 この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。 同一のトレーニングプロトコルでは、階層的に区別されたネットワークアーキテクチャ(LW-DNA)が存在し、通常のチャネル構成で元のネットワークを上回るが、モデルの複雑さは低い。 LW-DNAモデルは、元のネットワークと比較して、余分な計算コストやトレーニング時間なしで識別される。 この制約は、層単位でのチャネル構成の重要性に焦点をあてる制御実験につながる。 LW-DNAモデルには、オーバーフィッティング(モデル複雑性とデータセットサイズとの相対関係)に関する利点がある。 画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。 その結果、LW-DNAモデルはベースラインモデルより一貫して優れている。 コードはhttps://github.com/ofsoundof/heterogeneity_hypothesisで入手できる。

In this paper, we tackle the problem of convolutional neural network design. Instead of focusing on the design of the overall architecture, we investigate a design space that is usually overlooked, i.e. adjusting the channel configurations of predefined networks. We find that this adjustment can be achieved by shrinking widened baseline networks and leads to superior performance. Based on that, we articulate the heterogeneity hypothesis: with the same training protocol, there exists a layer-wise differentiated network architecture (LW-DNA) that can outperform the original network with regular channel configurations but with a lower level of model complexity. The LW-DNA models are identified without extra computational cost or training time compared with the original network. This constraint leads to controlled experiments which direct the focus to the importance of layer-wise specific channel configurations. LW-DNA models come with advantages related to overfitting, i.e. the relative relationship between model complexity and dataset size. Experiments are conducted on various networks and datasets for image classification, visual tracking and image restoration. The resultant LW-DNA models consistently outperform the baseline models. Code is available at https://github.com/ofsoundof/Heterogeneity_Hypothesis.
翻訳日:2022-11-15 14:58:36 公開日:2021-05-23
# 深層学習を用いた被験者意図分類のための適切な脳波チャネルの選択

Selection of Proper EEG Channels for Subject Intention Classification Using Deep Learning ( http://arxiv.org/abs/2007.12764v2 )

ライセンス: Link先を確認
Ghazale Ghorbanzade, Zahra Nabizadeh-ShahreBabak, Shadrokh Samavi, Nader Karimi, Ali Emami, Pejman Khadivi(参考訳) 脳信号は、障害のある個人を支援するデバイスを制御するために使用できる。 脳波などの信号は複雑で解釈が難しい。 一連の信号は収集され、対象の意図を特定するために分類されるべきである。 異なるアプローチは、チャネルを分類器に送る前にチャネル数を減らすことを試みた。 我々は,高い分類精度を持つチャネルの有用なサブセットを選択するための深層学習に基づく手法を提案する。 提案するネットワークは、適切なチャネルセットを選択するために、個々の対象に対してトレーニングすることができる。 チャネル数の減少は、脳-コンピュータ-インターフェースデバイスの複雑さを減少させる可能性がある。 この手法はチャネルのサブセットを見つけることができる。 このアプローチの精度は、すべてのチャネルでトレーニングされたモデルと同等です。 したがって、我々のモデルの時間的・電力コストは低く、精度は高く保たれている。

Brain signals could be used to control devices to assist individuals with disabilities. Signals such as electroencephalograms are complicated and hard to interpret. A set of signals are collected and should be classified to identify the intention of the subject. Different approaches have tried to reduce the number of channels before sending them to a classifier. We are proposing a deep learning-based method for selecting an informative subset of channels that produce high classification accuracy. The proposed network could be trained for an individual subject for the selection of an appropriate set of channels. Reduction of the number of channels could reduce the complexity of brain-computer-interface devices. Our method could find a subset of channels. The accuracy of our approach is comparable with a model trained on all channels. Hence, our model's temporal and power costs are low, while its accuracy is kept high.
翻訳日:2022-11-07 07:15:16 公開日:2021-05-23
# 高注意感光リアリスティック合成データを用いたカスタムオブジェクトの検出とセグメンテーション

Detection and Segmentation of Custom Objects using High Distraction Photorealistic Synthetic Data ( http://arxiv.org/abs/2007.14354v2 )

ライセンス: Link先を確認
Roey Ron, Gil Elbaz(参考訳) 合成データを用いてインスタンスセグメンテーションを行うための簡便で有用な手法を示す。 本手法を基本事例に適用し,定量的解析による考察を導出する。 私たちは、検出とセグメンテーションタスクを目的とした、新しいパブリックデータセット、Expo Markers Datasetを作成しました。 このデータセットは、5000個の合成フォトリアリスティック画像と対応する画素完全セグメンテーション基底真理を含む。 目標は、カスタムオブジェクトの実際のデータを手動で収集し、注釈付けすることで、高いパフォーマンスを達成することである。 対象のオブジェクトの3Dモデルと、他の可能性のある乱れオブジェクトを作成し、それらをシミュレーション環境に配置する。 expoマーカーが選択され、正確なテクスチャ、サイズ、および3d形状のため、カスタムオブジェクトの要件に適合しました。 もう1つの利点は、このオブジェクトが世界中のオフィスで簡単にテストでき、結果の検証ができることです。 我々は、シーン内の他の写実的オブジェクトをシミュレートする領域ランダム化手法を用いて、データを生成する。 これらのオブジェクトは、モデルのトレーニングにおける堅牢性を得るために、視覚的な複雑性、オクルージョン、照明上の課題を提供します。 私たちはまた、合成データセットの比較と評価に使用される手作業で収集したデータセットもリリースしています。 このホワイトペーパーは、フォトリアリスティックなシミュレーションデータが、手作業で収集したデータよりもスケーラブルで柔軟なソリューションとして現実のアプリケーションで使用できるという強い証拠を提供する。 コードは以下のアドレスで利用できる。 https://github.com/datagenresearchteam/expo_markers

We show a straightforward and useful methodology for performing instance segmentation using synthetic data. We apply this methodology on a basic case and derived insights through quantitative analysis. We created a new public dataset: The Expo Markers Dataset intended for detection and segmentation tasks. This dataset contains 5,000 synthetic photorealistic images with their corresponding pixel-perfect segmentation ground truth. The goal is to achieve high performance on manually-gathered and annotated real-world data of custom objects. We do that by creating 3D models of the target objects and other possible distraction objects and place them within a simulated environment. Expo Markers were chosen for this task, fitting our requirements of a custom object due to the exact texture, size and 3D shape. An additional advantage is the availability of this object in offices around the world for easy testing and validation of our results. We generate the data using a domain randomization technique that also simulates other photorealistic objects in the scene, known as distraction objects. These objects provide visual complexity, occlusions, and lighting challenges to help our model gain robustness in training. We are also releasing our manually-gathered datasets used for comparison and evaluation of our synthetic dataset. This white-paper provides strong evidence that photorealistic simulated data can be used in practical real world applications as a more scalable and flexible solution than manually-captured data. Code is available at the following address: https://github.com/DataGenResearchTeam/expo_markers
翻訳日:2022-11-06 02:27:46 公開日:2021-05-23
# 機械指導による強化学習者の人的消費調査

Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners ( http://arxiv.org/abs/2009.02476v2 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Xuezhou Zhang, Yuzhe Ma, Mark K. Ho, Joseph L. Austerweil, Xiaojin Zhu(参考訳) 成功する教育には、学習者がどのように学習するか - 学習者が世界から経験を使って内部状態を更新するか - を仮定する必要がある。 報奨と罰則を用いて学習者がオンラインで教えるとき、学習者に期待するものについて検討する。 我々は,共通強化学習法,q-learningに着目し,行動実験を用いてどのような仮定を持つかを検討する。 そこで我々はまず,機械教育最適化問題として問題を定式化し,規範的基準を確立する。 機械教育最適化問題を解くために,環境学習者をシミュレートし,フィードバックが学習者の内的状態に与える影響を予測する深層学習近似法を用いる。 理想的な探索探索タスクを教えるとき、学習者の学習と割引率についてどう考えるか? 行動実験では,学習者が割引率の小さい値と学習率の大きい値を使用すれば,比較的効率的かつ効果的にQ学習者にタスクを教えることができることがわかった。 しかし、それらは依然として準最適である。 また、フィードバックがQ-Learnerの内部状態にどのように影響するかをリアルタイムに更新することで、教える上で弱く役立ちます。 この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。

Successful teaching requires an assumption of how the learner learns - how the learner uses experiences from the world to update their internal states. We investigate what expectations people have about a learner when they teach them in an online manner using rewards and punishment. We focus on a common reinforcement learning method, Q-learning, and examine what assumptions people have using a behavioral experiment. To do so, we first establish a normative standard, by formulating the problem as a machine teaching optimization problem. To solve the machine teaching optimization problem, we use a deep learning approximation method which simulates learners in the environment and learns to predict how feedback affects the learner's internal states. What do people assume about a learner's learning and discount rates when they teach them an idealized exploration-exploitation task? In a behavioral experiment, we find that people can teach the task to Q-learners in a relatively efficient and effective manner when the learner uses a small value for its discounting rate and a large value for its learning rate. However, they still are suboptimal. We also find that providing people with real-time updates of how possible feedback would affect the Q-learner's internal states weakly helps them teach. Our results reveal how people teach using evaluative feedback and provide guidance for how engineers should design machine agents in a manner that is intuitive for people.
翻訳日:2022-10-21 20:43:21 公開日:2021-05-23
# 位置関係列列列モデルを用いた音声変換

Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling ( http://arxiv.org/abs/2009.02725v3 )

ライセンス: Link先を確認
Songxiang Liu, Yuewen Cao, Disong Wang, Xixin Wu, Xunying Liu, Helen Meng(参考訳) 本稿では,訓練中にテキストの監督を行う非並列音声変換手法であるseq2seq(any-to-many location-relative sequence-to-sequence)を提案する。 このアプローチでは、ボトルネック特徴抽出器(bne)とseq2seq合成モジュールを組み合わせる。 訓練段階では、エンコーダ-デコーダをベースとしたハイブリッドコネクショニスト-時間分類アテンション(CTC-attention)音素認識装置が訓練され、そのエンコーダはボトルネック層を有する。 音素認識器からBNEを取得し、スペクトル特徴から話者に依存しない、密度が高く、リッチな音声コンテンツ表現を抽出する。 次に, 発声音声における話者識別制御のための話者表現を条件に, ボトルネックの特徴からスペクトル特徴を再構成するために, 複数話者位置対応型セク2セック合成モデルを訓練する。 seq2seqモデルを用いて長い列を整列することの難しさを軽減するため、入力スペクトル特徴を時間次元に沿ってダウンサンプリングし、ロジスティック(mol)注意機構の離散混合物を合成モデルに装備する。 音素認識装置は大規模音声認識データコーパスで訓練されているため,提案手法は音声変換を行うことができる。 主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。 提案手法における特徴選択とモデル設計戦略の有効性を検証するためのアブレーション研究を行った。 提案したVCアプローチは、任意のVC(ワンショットVCとも呼ばれる)をサポートし、客観的かつ主観的な評価に従って高いパフォーマンスを達成するために、容易に拡張できる。

This paper proposes an any-to-many location-relative, sequence-to-sequence (seq2seq), non-parallel voice conversion approach, which utilizes text supervision during training. In this approach, we combine a bottle-neck feature extractor (BNE) with a seq2seq synthesis module. During the training stage, an encoder-decoder-based hybrid connectionist-temporal-classification-attention (CTC-attention) phoneme recognizer is trained, whose encoder has a bottle-neck layer. A BNE is obtained from the phoneme recognizer and is utilized to extract speaker-independent, dense and rich spoken content representations from spectral features. Then a multi-speaker location-relative attention based seq2seq synthesis model is trained to reconstruct spectral features from the bottle-neck features, conditioning on speaker representations for speaker identity control in the generated speech. To mitigate the difficulties of using seq2seq models to align long sequences, we down-sample the input spectral feature along the temporal dimension and equip the synthesis model with a discretized mixture of logistic (MoL) attention mechanism. Since the phoneme recognizer is trained with large speech recognition data corpus, the proposed approach can conduct any-to-many voice conversion. Objective and subjective evaluations show that the proposed any-to-many approach has superior voice conversion performance in terms of both naturalness and speaker similarity. Ablation studies are conducted to confirm the effectiveness of feature selection and model design strategies in the proposed approach. The proposed VC approach can readily be extended to support any-to-any VC (also known as one/few-shot VC), and achieve high performance according to objective and subjective evaluations.
翻訳日:2022-10-21 08:30:25 公開日:2021-05-23
# 意味保存変換によるコード検索と要約のための自己教師ありコントラスト学習

Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations ( http://arxiv.org/abs/2009.02731v8 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang(参考訳) ソースコードモデルのための自己教師型コントラスト学習フレームワークであるCorderを提案する。 Corderは、コード検索とコード要約タスクのためのラベル付きデータの必要性を軽減するように設計されている。 プリトレーニングされたコーダのモデルは、(1)ラベル付きデータを持たないコード検索タスクに適用可能なコードのベクトル表現を生成できる、(2)コード要約のようなラベルデータを必要とする可能性のあるタスクの微調整プロセスで使用できる、の2つの方法で使用できる。 重要なイノベーションは、対照的な学習目標を通じて、類似した異なるコードスニペットを認識するように依頼することで、ソースコードモデルをトレーニングすることだ。 そのためには、意味保存変換演算子のセットを使用して、構文的に多様だが意味的に等価なコードスニペットを生成します。 広範な実験を通じて,コーダが事前学習したコードモデルは,コード間検索,テキスト間検索,コード間要約タスクにおいて,他のベースラインを大きく上回ることを示した。

We propose Corder, a self-supervised contrastive learning framework for source code model. Corder is designed to alleviate the need of labeled data for code retrieval and code summarization tasks. The pre-trained model of Corder can be used in two ways: (1) it can produce vector representation of code which can be applied to code retrieval tasks that do not have labeled data; (2) it can be used in a fine-tuning process for tasks that might still require label data such as code summarization. The key innovation is that we train the source code model by asking it to recognize similar and dissimilar code snippets through a contrastive learning objective. To do so, we use a set of semantic-preserving transformation operators to generate code snippets that are syntactically diverse but semantically equivalent. Through extensive experiments, we have shown that the code models pretrained by Corder substantially outperform the other baselines for code-to-code retrieval, text-to-code retrieval, and code-to-text summarization tasks.
翻訳日:2022-10-21 08:13:55 公開日:2021-05-23
# 3Dポイントクラウド理解のためのディープラーニング: サーベイ

Deep Learning for 3D Point Cloud Understanding: A Survey ( http://arxiv.org/abs/2009.08920v2 )

ライセンス: Link先を確認
Haoming Lu, Humphrey Shi(参考訳) 自動運転やロボティクスといった実用的なアプリケーションの開発は、3dポイントのクラウド理解に注目を集めている。 ディープラーニングは、画像ベースのタスクで顕著に成功したが、大規模で非構造的でノイズの多い3Dポイントを処理する際に、ディープニューラルネットワークが直面する多くのユニークな課題がある。 本稿では3Dポイントクラウド理解のためのディープラーニングの最新の進歩を示すために、この領域における最近の注目すべき研究成果(分類、セグメント化、検出、追跡、フロー推定、登録、拡張、完了)を、一般的なデータセット、メトリクス、最先端のパフォーマンスとともにまとめる。 この調査に関する詳細は、https://github.com/SHI-Labs/3D-Point-Cloud-Learningを参照してください。

The development of practical applications, such as autonomous driving and robotics, has brought increasing attention to 3D point cloud understanding. While deep learning has achieved remarkable success on image-based tasks, there are many unique challenges faced by deep neural networks in processing massive, unstructured and noisy 3D points. To demonstrate the latest progress of deep learning for 3D point cloud understanding, this paper summarizes recent remarkable research contributions in this area from several different directions (classification, segmentation, detection, tracking, flow estimation, registration, augmentation and completion), together with commonly used datasets, metrics and state-of-the-art performances. More information regarding this survey can be found at: https://github.com/SHI-Labs/3D-Point-Cloud-Learning.
翻訳日:2022-10-17 02:32:18 公開日:2021-05-23
# 残留ネットワークのカーネルに基づく平滑性解析

Kernel-Based Smoothness Analysis of Residual Networks ( http://arxiv.org/abs/2009.10008v2 )

ライセンス: Link先を確認
Tom Tirer, Joan Bruna, Raja Giryes(参考訳) ディープニューラルネットワークの成功の大きな要因は、古典的な多層パーセプトロン(MLP)ではなく高度なアーキテクチャを使うことである。 ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。 以前の研究は、ディープmlpよりもディープリネットの最適化の利点に焦点を当てていた。 本稿では,この2つのモデル,すなわち,mlpよりもスムースな補間を促進するためのresnetの傾向について述べる。 我々はこの現象をニューラル・タンジェント・カーネル(NTK)アプローチで解析する。 まず、考慮されたresnetモデルのntkを計算し、勾配降下訓練中の安定性を証明する。 そこで,様々な評価手法により,reluはresnetのntkを活性化し,そのカーネル回帰の結果はmlpのそれよりも滑らかであることを示した。 分析の結果,ResNetsのより優れた一般化能力と,残留ブロックを適度に減衰させる手法が説明できた。

A major factor in the success of deep neural networks is the use of sophisticated architectures rather than the classical multilayer perceptron (MLP). Residual networks (ResNets) stand out among these powerful modern architectures. Previous works focused on the optimization advantages of deep ResNets over deep MLPs. In this paper, we show another distinction between the two models, namely, a tendency of ResNets to promote smoother interpolations than MLPs. We analyze this phenomenon via the neural tangent kernel (NTK) approach. First, we compute the NTK for a considered ResNet model and prove its stability during gradient descent training. Then, we show by various evaluation methodologies that for ReLU activations the NTK of ResNet, and its kernel regression results, are smoother than the ones of MLP. The better smoothness observed in our analysis may explain the better generalization ability of ResNets and the practice of moderately attenuating the residual blocks.
翻訳日:2022-10-16 04:24:05 公開日:2021-05-23
# BoMuDANet:非構造化運転環境における視覚シーン理解のための教師なし適応

BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in Unstructured Driving Environments ( http://arxiv.org/abs/2010.03523v3 )

ライセンス: Link先を確認
Divya Kothandaraman, Rohan Chandra, Dinesh Manocha(参考訳) 非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。 本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。 本稿では,rgb画像やビデオ中の各領域のクラスやカテゴリを識別可能な,教師なしドメイン適応(da)に基づく新しい意味セグメンテーション手法について述べる。 また,マルチソースDAのための新たな自己学習アルゴリズム(Alt-Inc)を提案する。 私たちのアプローチ全体はディープラーニングベースのテクニックで、インド運転データセットの課題に対して87.18%の精度を達成する教師なしニューラルネットワークで構成されています。 本手法は, 未舗装の道路や, 未確認の破片, ポットホールなどを含む道路で有効に機能する。 私たちのアプローチの重要な側面は、テストフェーズ中にモデルが遭遇するオブジェクトをfistタイムで識別できることです。 本手法を最先端手法と比較し,5.17%から42.9%の改善を示した。 さらに,非構造化運転環境における視覚環境理解の改善を定性的に検証するユーザ研究も行う。

We present an unsupervised adaptation approach for visual scene understanding in unstructured traffic environments. Our method is designed for unstructured real-world scenarios with dense and heterogeneous traffic consisting of cars, trucks, two-and three-wheelers, and pedestrians. We describe a new semantic segmentation technique based on unsupervised domain adaptation (DA), that can identify the class or category of each region in RGB images or videos. We also present a novel self-training algorithm (Alt-Inc) for multi-source DA that improves the accuracy. Our overall approach is a deep learning-based technique and consists of an unsupervised neural network that achieves 87.18% accuracy on the challenging India Driving Dataset. Our method works well on roads that may not be well-marked or may include dirt, unidentifiable debris, potholes, etc. A key aspect of our approach is that it can also identify objects that are encountered by the model for the fist time during the testing phase. We compare our method against the state-of-the-art methods and show an improvement of 5.17% - 42.9%. Furthermore, we also conduct user studies that qualitatively validate the improvements in visual scene understanding of unstructured driving environments.
翻訳日:2022-10-15 23:08:17 公開日:2021-05-23
# ロボット軌道計画のためのDense Rewardの段階的インセンティブメカニズムによる深層強化学習

Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense Reward for Robotic Trajectory Planning ( http://arxiv.org/abs/2009.12068v2 )

ライセンス: Link先を確認
Gang Peng, Jin Yang, Xinde Lia, Mohammad Omar Khyam(参考訳) (本研究は, IEEEに提出される可能性があり, 著作権は無通知で伝達され, その後, このバージョンはもはやアクセスできない。) ランダムな作業環境下でのロボットマニピュレータ軌道計画のための深部強化学習法(DRL)の効率化を図るため, 3つの高密度報酬関数を提示する。 これらの報酬は従来のスパース報酬とは異なる。 まず,距離と方向の制約をモデル化することにより,学習過程をより合理的な軌道で高速化し,探索の盲点を低減できる姿勢報酬関数を提案する。 次に,協調制約の距離と移動距離をモデル化し,学習プロセスの安定性を向上させるためのストライド報酬関数を提案する。 最後に、学習効率をさらに向上させるために、人間の行動の認知過程に着想を得て、ハードステージインセンティブ報酬機能とソフトステージインセンティブ報酬機能を含むステージインセンティブメカニズムを提案する。 大規模な実験により、ソフトステージインセンティブ報酬関数は最先端のDRL法で最大46.9%の収束率を向上できることが示された。 収束平均報酬の比率は4.4-15.5%であり、標準偏差に対する割合は21.9-63.2%である。 評価実験では、ロボットマニピュレータの軌道計画の成功率は99.6%に達した。

(This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible.) To improve the efficiency of deep reinforcement learning (DRL)-based methods for robot manipulator trajectory planning in random working environments, we present three dense reward functions. These rewards differ from the traditional sparse reward. First, a posture reward function is proposed to speed up the learning process with a more reasonable trajectory by modeling the distance and direction constraints, which can reduce the blindness of exploration. Second, a stride reward function is proposed to improve the stability of the learning process by modeling the distance and movement distance of joint constraints. Finally, in order to further improve learning efficiency, we are inspired by the cognitive process of human behavior and propose a stage incentive mechanism, including a hard stage incentive reward function and a soft stage incentive reward function. Extensive experiments show that the soft stage incentive reward function is able to improve the convergence rate by up to 46.9% with the state-of-the-art DRL methods. The percentage increase in the convergence mean reward was 4.4-15.5% and the percentage decreases with respect to standard deviation were 21.9-63.2%. In the evaluation experiments, the success rate of trajectory planning for a robot manipulator reached 99.6%.
翻訳日:2022-10-14 22:40:35 公開日:2021-05-23
# soe-net:ポイントクラウドに基づく位置認識のためのセルフアテンションと方向エンコーディングネットワーク

SOE-Net: A Self-Attention and Orientation Encoding Network for Point Cloud based Place Recognition ( http://arxiv.org/abs/2011.12430v2 )

ライセンス: Link先を確認
Yan Xia, Yusheng Xu, Shuang Li, Rui Wang, Juan Du, Daniel Cremers, Uwe Stilla(参考訳) 本稿では,ポイントクラウドデータからの位置認識の問題に取り組み,ポイント間の関係を完全に探究し,長距離コンテキストをポイント毎の局所記述子に組み込むセルフアテンション・オリエンテーション符号化ネットワーク(soe-net)を導入する。 8つの方向からの各点の局所情報はpointoeモジュールでキャプチャされ、一方、ローカルディスクリプタ間の長距離特徴依存性はセルフアテンションユニットでキャプチャされる。 さらに,一般に使用されるメトリック学習の損失よりも優れた性能を実現する,ハード・ポジティブ・ハード・負四重項損失 (hphn quadruplet) と呼ばれる新しい損失関数を提案する。 様々なベンチマークデータセットにおける実験は、現在の最先端のアプローチよりも優れたネットワーク性能を示している。 私たちのコードはhttps://github.com/Yan-Xia/SOE-Net.comで公開されています。

We tackle the problem of place recognition from point cloud data and introduce a self-attention and orientation encoding network (SOE-Net) that fully explores the relationship between points and incorporates long-range context into point-wise local descriptors. Local information of each point from eight orientations is captured in a PointOE module, whereas long-range feature dependencies among local descriptors are captured with a self-attention unit. Moreover, we propose a novel loss function called Hard Positive Hard Negative quadruplet loss (HPHN quadruplet), that achieves better performance than the commonly used metric learning loss. Experiments on various benchmark datasets demonstrate superior performance of the proposed network over the current state-of-the-art approaches. Our code is released publicly at https://github.com/Yan-Xia/SOE-Net.
翻訳日:2022-09-21 13:36:40 公開日:2021-05-23
# neural-pull:空間を表面に引き込む学習による点雲からの符号付き距離関数の学習

Neural-Pull: Learning Signed Distance Functions from Point Clouds by Learning to Pull Space onto Surfaces ( http://arxiv.org/abs/2011.13495v2 )

ライセンス: Link先を確認
Baorui Ma and Zhizhong Han and Yu-Shen Liu and Matthias Zwicker(参考訳) 3次元点雲からの連続面の再構成は3次元幾何処理の基本的な操作である。 近年の最先端手法では、ニューラルネットワークを用いて符号付き距離関数(SDF)を学習している。 本稿では, 単純で高品質な SDF を実現する新しいアプローチである \textit{Neural-Pull} を紹介する。 具体的には、ニューラルネットワークをトレーニングして、予測された符号付き距離値と、ネットワーク自体によって計算されるクエリ位置の勾配を用いて、表面上の最も近い点にクエリ3D位置をプルする。 プル操作は、ネットワークによって予測される距離によって与えられるストライドで各クエリロケーションを移動させる。 距離の符号に基づいて、これはSDFの勾配の方向に沿ってまたは反対にクエリ位置を移動させる。 これは、トレーニング中に符号付き距離値と勾配を同時に更新できる、微分可能な操作である。 その結果,SDFは現状の手法よりも表面再構成や単一画像再構成において,より正確かつ柔軟に学習できることが示唆された。

Reconstructing continuous surfaces from 3D point clouds is a fundamental operation in 3D geometry processing. Several recent state-of-the-art methods address this problem using neural networks to learn signed distance functions (SDFs). In this paper, we introduce \textit{Neural-Pull}, a new approach that is simple and leads to high quality SDFs. Specifically, we train a neural network to pull query 3D locations to their closest points on the surface using the predicted signed distance values and the gradient at the query locations, both of which are computed by the network itself. The pulling operation moves each query location with a stride given by the distance predicted by the network. Based on the sign of the distance, this may move the query location along or against the direction of the gradient of the SDF. This is a differentiable operation that allows us to update the signed distance value and the gradient simultaneously during training. Our outperforming results under widely used benchmarks demonstrate that we can learn SDFs more accurately and flexibly for surface reconstruction and single image reconstruction than the state-of-the-art methods.
翻訳日:2022-09-20 09:13:04 公開日:2021-05-23
# ウナブリッジデータ(TMUD)の透明モデル

Transparent Model of Unabridged Data (TMUD) ( http://arxiv.org/abs/2106.07558v1 )

ライセンス: Link先を確認
Jie Xu and Min Ding(参考訳) 近年の計算能力とアルゴリズムの進歩により、いくつかのモデル(ディープラーニングなど)の入力として非ブリッジデータ(生画像やオーディオなど)が使用できるようになった。 しかし、こうしたモデルのブラックボックスの性質は、マーケティング学者が採用する可能性を減らす。 我々の分析パラダイムであるtmud(transparent model of unabridged data)は,ex ante filtration moduleとex post experimentation moduleを組み合わせることで,ブラックボックスモデルの内部動作を調べることができる。 We empirically demonstrate the TMUD by investigating the role of facial components and sexual dimorphism in face perceptions, which have implications for four marketing contexts: advertisement (perceptions of approachability, trustworthiness, and competence), brand (perceptions of whether a face represents a brand's typical customer), category (perceptions of whether a face represents a category's typical customer), and customer persona (perceptions of whether a face represents the persona of a brand's customer segment). 以上の結果から,顔の知覚に関する既存の文献を豊かにし,そのほとんどがブリッジされた属性(口幅など)に基づいていることが明らかとなった。 tmudは理論的洞察を生み出す有用なパラダイムとなる可能性があり、より多くのマーケティング研究者や実践者が無橋のデータを使うよう促す可能性がある。

Recent advancements in computational power and algorithms have enabled unabridged data (e.g., raw images or audio) to be used as input in some models (e.g., deep learning). However, the black box nature of such models reduces their likelihood of adoption by marketing scholars. Our paradigm of analysis, the Transparent Model of Unabridged Data (TMUD), enables researchers to investigate the inner workings of such black box models by incorporating an ex ante filtration module and an ex post experimentation module. We empirically demonstrate the TMUD by investigating the role of facial components and sexual dimorphism in face perceptions, which have implications for four marketing contexts: advertisement (perceptions of approachability, trustworthiness, and competence), brand (perceptions of whether a face represents a brand's typical customer), category (perceptions of whether a face represents a category's typical customer), and customer persona (perceptions of whether a face represents the persona of a brand's customer segment). Our results reveal new and useful findings that enrich the existing literature on face perception, most of which is based on abridged attributes (e.g., width of mouth). The TMUD has great potential to be a useful paradigm for generating theoretical insights and may encourage more marketing researchers and practitioners to use unabridged data.
翻訳日:2021-06-20 16:04:13 公開日:2021-05-23
# 複数の実験材料分野におけるベイズ最適化性能のベンチマーク

Benchmarking the Performance of Bayesian Optimization across Multiple Experimental Materials Science Domains ( http://arxiv.org/abs/2106.01309v1 )

ライセンス: Link先を確認
Qiaohao Liang, Aldair E. Gongora, Zekun Ren, Armi Tiihonen, Zhe Liu, Shijing Sun, James R. Deneault, Daniil Bash, Flore Mekki-Berrada, Saif A. Khan, Kedar Hippalgaonkar, Benji Maruyama, Keith A. Brown, John Fisher III, and Tonio Buonassisi(参考訳) 材料最適化のための機械学習(ML)の分野では、ベイズ最適化(BO)のようなアクティブな学習アルゴリズムが、自律的かつ高スループットな実験システムを導くために利用されてきた。 しかし、boの汎用最適化アルゴリズムとしての効率を幅広い実験材料科学領域で評価した研究はごくわずかである。 本研究では, 炭素ナノチューブポリマーブレンド, 銀ナノ粒子, 鉛-ハロゲン化物ペロブスカイト, および添加性高分子構造および形状の5種類の実験材料システムにおいて, サロゲートモデルと獲得関数ペアの集合体を用いてBOアルゴリズムの性能を評価する。 一般的な材料最適化目標に対する加速と拡張の指標を定義することにより、サロゲートモデル選択において、異方性カーネル(オートマチック関連検出、ARD)とランダムフォレスト(RF)は同等の性能を有し、共にARDなしで一般的に使用されるGPより優れていることが分かる。 本稿では、RFおよびGPの暗黙的な分布仮定と、異方性カーネルを用いたGPの利点について論じる。 材料最適化キャンペーンにおけるboのモデル選択に関する実験家への実践的洞察を提供する。

In the field of machine learning (ML) for materials optimization, active learning algorithms, such as Bayesian Optimization (BO), have been leveraged for guiding autonomous and high-throughput experimentation systems. However, very few studies have evaluated the efficiency of BO as a general optimization algorithm across a broad range of experimental materials science domains. In this work, we evaluate the performance of BO algorithms with a collection of surrogate model and acquisition function pairs across five diverse experimental materials systems, namely carbon nanotube polymer blends, silver nanoparticles, lead-halide perovskites, as well as additively manufactured polymer structures and shapes. By defining acceleration and enhancement metrics for general materials optimization objectives, we find that for surrogate model selection, Gaussian Process (GP) with anisotropic kernels (automatic relevance detection, ARD) and Random Forests (RF) have comparable performance and both outperform the commonly used GP without ARD. We discuss the implicit distributional assumptions of RF and GP, and the benefits of using GP with anisotropic kernels in detail. We provide practical insights for experimentalists on surrogate model selection of BO during materials optimization campaigns.
翻訳日:2021-06-06 08:51:56 公開日:2021-05-23
# 遅延エネルギー輸送による画像間変換

Unpaired Image-to-Image Translation via Latent Energy Transport ( http://arxiv.org/abs/2012.00649v3 )

ライセンス: Link先を確認
Yang Zhao, Changyou Chen(参考訳) 画像から画像への変換は、2つの視覚的ドメイン間の識別対象スタイルに翻訳しながら、ソースコンテンツを保存することを目的としている。 ほとんどの作品は、周囲の画像空間に敵対的な学習を適用しており、これは計算コストが高く、訓練が難しい可能性がある。 本稿では,この課題に対する事前学習オートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。 予め訓練されたオートエンコーダは、潜伏コード抽出器および画像再構成作業員の両方として機能する。 LETITは2つのドメインが同じ潜在空間を共有しているという仮定に基づいており、潜在表現はコンテンツコードとドメイン固有のスタイルコードとして暗黙的に分解される。 2つのコードを明示的に抽出し、それらを統合するために適応型インスタンス正規化を適用する代わりに、潜在ebmは、コンテンツコードを維持しながら、ソーススタイルのコードをターゲットのスタイルコードにトランスポートすることを暗黙的に学習することができる。 この単純化されたソリューションは、一方の未ペア画像翻訳設定においてより効率的である。 質的および定量的比較は、コンテンツ保存に優れた翻訳品質と忠実さを示す。 私たちのモデルは1024$\times$1024の解像度の未ペア画像翻訳に適用できる最初のモデルです。

Image-to-image translation aims to preserve source contents while translating to discriminative target styles between two visual domains. Most works apply adversarial learning in the ambient image space, which could be computationally expensive and challenging to train. In this paper, we propose to deploy an energy-based model (EBM) in the latent space of a pretrained autoencoder for this task. The pretrained autoencoder serves as both a latent code extractor and an image reconstruction worker. Our model, LETIT, is based on the assumption that two domains share the same latent space, where latent representation is implicitly decomposed as a content code and a domain-specific style code. Instead of explicitly extracting the two codes and applying adaptive instance normalization to combine them, our latent EBM can implicitly learn to transport the source style code to the target style code while preserving the content code, an advantage over existing image translation methods. This simplified solution is also more efficient in the one-sided unpaired image translation setting. Qualitative and quantitative comparisons demonstrate superior translation quality and faithfulness for content preservation. Our model is the first to be applicable to 1024$\times$1024-resolution unpaired image translation to the best of our knowledge.
翻訳日:2021-05-30 20:10:47 公開日:2021-05-23
# (参考訳) 粗大から微細なマルチレゾリューション時相畳み込みネットワーク

Coarse to Fine Multi-Resolution Temporal Convolutional Network ( http://arxiv.org/abs/2105.10859v1 )

ライセンス: CC BY 4.0
Dipika Singhania, Rahul Rahaman, Angela Yao(参考訳) 時間的畳み込みネットワーク(TCN)は、時間的ビデオセグメンテーションのための一般的なアーキテクチャである。 しかし、TCNは過分割エラーに悩まされ、スムーズさと時間的一貫性を確保するために追加の改良モジュールを必要とする。 本研究では,シーケンスフラグメンテーション問題に取り組むための,新しい時間エンコーダ・デコーダを提案する。 特にデコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。 センセーブリングはより正確でより正確なセグメンテーションを生成し、追加のリファインメントモジュールの必要性を回避します。 さらに,様々な時間分解能に対するロバスト性を促進するため,マルチレゾリューション機能拡張戦略によりトレーニングを強化した。 最後に、我々のアーキテクチャをサポートし、さらにシーケンスコヒーレンシーを促進するために、ビデオレベルでの誤分類を罰するアクション損失を提案する。 実験によると、我々のスタンドアロンアーキテクチャは、新しい特徴提示戦略と新しい損失と共に、3つのテンポラルビデオセグメンテーションベンチマークの最先端を上回っている。

Temporal convolutional networks (TCNs) are a commonly used architecture for temporal video segmentation. TCNs however, tend to suffer from over-segmentation errors and require additional refinement modules to ensure smoothness and temporal coherency. In this work, we propose a novel temporal encoder-decoder to tackle the problem of sequence fragmentation. In particular, the decoder follows a coarse-to-fine structure with an implicit ensemble of multiple temporal resolutions. The ensembling produces smoother segmentations that are more accurate and better-calibrated, bypassing the need for additional refinement modules. In addition, we enhance our training with a multi-resolution feature-augmentation strategy to promote robustness to varying temporal resolutions. Finally, to support our architecture and encourage further sequence coherency, we propose an action loss that penalizes misclassifications at the video level. Experiments show that our stand-alone architecture, together with our novel feature-augmentation strategy and new loss, outperforms the state-of-the-art on three temporal video segmentation benchmarks.
翻訳日:2021-05-26 12:02:09 公開日:2021-05-23
# (参考訳) EXoN: 説明可能なエンコーダネットワーク

EXoN: EXplainable encoder Network ( http://arxiv.org/abs/2105.10867v1 )

ライセンス: CC BY 4.0
SeungHwan An, Jong-June Jeon, Hosik Choi(参考訳) 提案手法は,EXoN(Explainable Encoder Network)によって説明可能な潜在空間を生成する変分オートエンコーダ(VAE)の半教師付き学習手法を提案する。 EXoNは、VAEを実装するための2つの便利なツールを提供する。 まず、特定のラベルに対する潜在分布の概念的中心を自由に割り当てることができる。 我々は, ガウス混合分布の多モード特性を観測ラベルに従って, VAEの潜伏空間を分離する。 次に、 EXoN から得られる$F$-statistics と呼ばれる単純な統計量により、潜伏部分空間を簡単に調べることができる。 その結果、負のクロスエントロピーとクルバック・リーブラーの発散は、説明可能な潜在空間の構築において重要な役割を担い、提案モデルから生成されたサンプルの変動は、「活性化潜在部分空間」と呼ばれる特定の部分空間に依存することがわかった。 MNISTとCIFAR-10データセットを用いて、EXoNは画像のラベルと特徴を効果的に表現する説明可能な潜在空間を生成可能であることを示す。

We propose a new semi-supervised learning method of Variational AutoEncoder (VAE) which yields explainable latent space by EXplainable encoder Network (EXoN). The EXoN provides two useful tools for implementing VAE. First, we can freely assign a conceptual center of latent distribution for a specific label. We separate the latent space of VAE with multi-modal property of the Gaussian mixture distribution according to labels of observations. Next, we can easily investigate the latent subspace by a simple statistics, known as $F$-statistics, obtained from the EXoN. We found that both negative cross-entropy and Kullback-Leibler divergence play a crucial role in constructing explainable latent space and the variability of the generated samples from our proposed model depends on a specific subspace, called `activated latent subspace'. With MNIST and CIFAR-10 dataset, we show that the EXoN can produce explainable latent space which effectively represents labels and characteristics of the images.
翻訳日:2021-05-26 11:34:14 公開日:2021-05-23
# (参考訳) CMUA-Watermark: ディープフェイクのクロスモデルユニバーサルな対角線透かし

CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Combating Deepfakes ( http://arxiv.org/abs/2105.10872v1 )

ライセンス: CC0 1.0
Hao Huang, Yongtao Wang, Zhaoyu Chen, Yuheng Li, Zhi Tang, Wei Chu, Jingdong Chen, Weisi Lin, Kai-Kuang Ma(参考訳) ディープフェイクの悪意ある応用(すなわち、テクノロジーはターゲットの顔や顔の特徴を生成できる)は、我々の社会に大きな脅威をもたらした。 ディープフェイクモデルによって生成された偽のマルチメディアコンテンツは、評判を傷つけ、偽装された人の財産を脅かすことさえある。 幸いなことに、逆向きの透かしはディープフェイクモデルと戦うために使われ、歪んだ画像を生成する。 既存の手法では、特定のディープフェイクモデルに対する敵対的な透かしを生成するために、顔画像ごとに個別のトレーニングプロセスが必要である。 この問題に対処するために,複数のディープフェイクモデルから数千の顔画像を保護するクロスモデルユニバーサル・ディバイザリー・ウォーターマーク(CMUA-Watermark)を生成するために,ディープフェイクモデルに対するユニバーサル・ディバイザ・アタック手法を提案する。 具体的には,複数のディープフェイクモデルを攻撃し,これらのモデルの勾配を反復的に組み合わせ,クロスモデルユニバーサルアタックパイプラインを提案する。 そこで本研究では,異なる顔画像から発生する逆透かしの競合を緩和するバッチベース手法を提案する。 最後に,より合理的で総合的な評価手法を考案し,その効果を評価した。 実験の結果,cmua-watermarkは,ディープフェイクモデルが生成する偽顔画像を効果的に歪め,実際のシーンにおけるディープフェイクから顔画像を保護することができた。

Malicious application of deepfakes (i.e., technologies can generate target faces or face attributes) has posed a huge threat to our society. The fake multimedia content generated by deepfake models can harm the reputation and even threaten the property of the person who has been impersonated. Fortunately, the adversarial watermark could be used for combating deepfake models, leading them to generate distorted images. The existing methods require an individual training process for every facial image, to generate the adversarial watermark against a specific deepfake model, which are extremely inefficient. To address this problem, we propose a universal adversarial attack method on deepfake models, to generate a Cross-Model Universal Adversarial Watermark (CMUA-Watermark) that can protect thousands of facial images from multiple deepfake models. Specifically, we first propose a cross-model universal attack pipeline by attacking multiple deepfake models and combining gradients from these models iteratively. Then we introduce a batch-based method to alleviate the conflict of adversarial watermarks generated by different facial images. Finally, we design a more reasonable and comprehensive evaluation method for evaluating the effectiveness of the adversarial watermark. Experimental results demonstrate that the proposed CMUA-Watermark can effectively distort the fake facial images generated by deepfake models and successfully protect facial images from deepfakes in real scenes.
翻訳日:2021-05-26 11:06:40 公開日:2021-05-23
# (参考訳) 弱教師付きクロスビュー3次元ポーズ推定

Weakly-supervised Cross-view 3D Human Pose Estimation ( http://arxiv.org/abs/2105.10882v1 )

ライセンス: CC BY 4.0
Guoliang Hua, Wenhao Li, Qian Zhang, Runwei Ding, Hong Liu(参考訳) 単眼的3次元人物ポーズ推定手法は有意な進歩を遂げているが,本質的な奥行きあいまいさのため解決には至っていない。 代わりに、マルチビュー情報を活用することは、絶対的な3d人間のポーズ推定を実現する実用的な方法である。 本稿では,弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。 2つのカメラビューのみを使用することで,2次元アノテーションのみを必要とせず,弱い教師付きで最先端のパフォーマンスを実現することができる。 具体的には,三角法と微細化の2段階を含む。 まず,従来の2D検出手法で得られる2Dキーポイントを考慮し,2Dキーポイントを粗い3Dポーズに上げるために2つのビューにわたって三角測量を行い,さらに,空間構成や相互相関を探索できる新しいU字グラフ畳み込みネットワーク(CV-UGCN)を設計し,粗い3Dポーズを洗練させる。 特に、幾何的および構造認識の整合性チェックを行う弱教師付き学習により、洗練の進行が達成される。 本手法を標準ベンチマークデータセットHuman3.6Mで評価する。 ベンチマークデータセットの平均的な関節位置誤差は27.4mmであり、最先端(27.4mm対30.2mm)を著しく上回っている。

Although monocular 3D human pose estimation methods have made significant progress, it's far from being solved due to the inherent depth ambiguity. Instead, exploiting multi-view information is a practical way to achieve absolute 3D human pose estimation. In this paper, we propose a simple yet effective pipeline for weakly-supervised cross-view 3D human pose estimation. By only using two camera views, our method can achieve state-of-the-art performance in a weakly-supervised manner, requiring no 3D ground truth but only 2D annotations. Specifically, our method contains two steps: triangulation and refinement. First, given the 2D keypoints that can be obtained through any classic 2D detection methods, triangulation is performed across two views to lift the 2D keypoints into coarse 3D poses.Then, a novel cross-view U-shaped graph convolutional network (CV-UGCN), which can explore the spatial configurations and cross-view correlations, is designed to refine the coarse 3D poses. In particular, the refinement progress is achieved through weakly-supervised learning, in which geometric and structure-aware consistency checks are performed. We evaluate our method on the standard benchmark dataset, Human3.6M. The Mean Per Joint Position Error on the benchmark dataset is 27.4 mm, which outperforms the state-of-the-arts remarkably (27.4 mm vs 30.2 mm).
翻訳日:2021-05-26 10:45:11 公開日:2021-05-23
# (参考訳) THP: 事象系列に基づくグランガー因果学習のためのトポロジカルホークプロセス

THP: Topological Hawkes Processes for Learning Granger Causality on Event Sequences ( http://arxiv.org/abs/2105.10884v1 )

ライセンス: CC BY 4.0
Ruichu Cai, Siyu Wu, Jie Qiao, Zhifeng Hao, Keli Zhang, Xi Zhang(参考訳) 多型イベントシーケンスにおけるイベントタイプ間のグランガー因果関係の学習は重要だが難しい課題である。 既存の方法、例えば多変量ホークス過程は、各シーケンスが独立で同一に分散していると仮定している。 しかし、多くの実世界のアプリケーションでは、事象は歴史だけでなく、その位相近傍によっても興奮または抑制されるような、事象列の背後にあるトポロジカルネットワークに遭遇することが一般的である。 従って、イベントシーケンス間のトポロジー依存性を記述できないことは、因果構造のエラー検出につながる。 時間的畳み込みの観点からホークス過程を考慮し、トポロジー領域におけるグラフ畳み込みと時間領域における時間的畳み込みを関連付けるトポロジー・ホークス過程(THP)を提案する。 さらに, 確率フレームワークにおいて, thpのグランジャー因果関係学習法を提案する。 提案手法は, thp のグラフ畳み込みに基づく度数関数と, 度数関数の期待最大化を伴うスパース最適化スキームを特徴とする。 合成および実世界のデータの理論的解析と実験により,提案手法の有効性が示された。

Learning Granger causality among event types on multi-type event sequences is an important but challenging task. Existing methods, such as the Multivariate Hawkes processes, mostly assumed that each sequence is independent and identically distributed. However, in many real-world applications, it is commonplace to encounter a topological network behind the event sequences such that an event is excited or inhibited not only by its history but also by its topological neighbors. Consequently, the failure in describing the topological dependency among the event sequences leads to the error detection of the causal structure. By considering the Hawkes processes from the view of temporal convolution, we propose a Topological Hawkes processes (THP) to draw a connection between the graph convolution in topology domain and the temporal convolution in time domains. We further propose a Granger causality learning method on THP in a likelihood framework. The proposed method is featured with the graph convolution-based likelihood function of THP and a sparse optimization scheme with an Expectation-Maximization of the likelihood function. Theoretical analysis and experiments on both synthetic and real-world data demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-26 10:09:44 公開日:2021-05-23
# (参考訳) 競合型マルチエージェント学習における神経進化の効果的利用

An Efficient Application of Neuroevolution for Competitive Multiagent Learning ( http://arxiv.org/abs/2105.10907v1 )

ライセンス: CC BY 4.0
Unnikrishnan Rajendran Menon and Anirudh Rajiv Menon(参考訳) マルチエージェントシステムは強化学習アルゴリズムを用いた実世界の問題の評価と分析に理想的な環境を提供する。 従来のマルチエージェント学習のアプローチは、長い訓練期間と高い計算複雑性の影響を受けている。 NEAT(NeuroEvolution of Augmenting Topologies)は、人工知能の分野で最適化問題に取り組むためにしばしば使用される、最高のニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。 本稿では,改良pongゲーム環境における競争的マルチエージェント学習を効率良く実現するアルゴリズムを提案する。 競合するエージェントは、同様の観測空間パラメータを持ちながら異なる規則に従う。 提案アルゴリズムは, 環境のこの特性を利用して, 全てのエージェントに対して最適なポリシーを求める特異な神経進化過程を定義する。 その結果,提案手法は,既存のマルチエージェント強化学習モデルと比較して,非常に短い訓練期間で理想的な動作を実現することが示された。

Multiagent systems provide an ideal environment for the evaluation and analysis of real-world problems using reinforcement learning algorithms. Most traditional approaches to multiagent learning are affected by long training periods as well as high computational complexity. NEAT (NeuroEvolution of Augmenting Topologies) is a popular evolutionary strategy used to obtain the best performing neural network architecture often used to tackle optimization problems in the field of artificial intelligence. This paper utilizes the NEAT algorithm to achieve competitive multiagent learning on a modified pong game environment in an efficient manner. The competing agents abide by different rules while having similar observation space parameters. The proposed algorithm utilizes this property of the environment to define a singular neuroevolutionary procedure that obtains the optimal policy for all the agents. The compiled results indicate that the proposed implementation achieves ideal behaviour in a very short training period when compared to existing multiagent reinforcement learning models.
翻訳日:2021-05-26 09:29:37 公開日:2021-05-23
# (参考訳) 時空間変換器を用いたエンドツーエンドビデオ物体検出

End-to-End Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2105.10920v1 )

ライセンス: CC BY 4.0
Lu He, Qianyu Zhou, Xiangtai Li, Li Niu, Guangliang Cheng, Xiao Li, Wenxuan Liu, Yunhai Tong, Lizhuang Ma, Liqing Zhang(参考訳) 近年、DeTRとDeformable DETRは、従来の複雑な手作り検出器として優れた性能を示しながら、オブジェクト検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,時空間変換器アーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。 本稿の目的は,VODのパイプラインの合理化であり,光学的フローやリカレントニューラルネットワーク,関係ネットワークなど,多数の手作りのコンポーネントの必要性を効果的に除去することである。 さらに,detrのオブジェクトクエリ設計の利点から,seq-nms や tubelet rescoring などの複雑な後処理メソッドは不要であり,パイプラインをシンプルかつクリーンに保つ。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約するために,時間的トランスフォーマティブを提案する。 本方式では,複数フレームの空間的詳細をエンコードするtemporal deformable transformer encoder (tdte),オブジェクトクエリをヒューズするtemporal query encoder (tqe),現在のフレーム検出結果を得るためにtemporal deformable transformer decoderの3つのコンポーネントからなる。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 TransVODはImageNet VIDのベンチマークで同等の結果を得る。 われわれのTransVODがビデオオブジェクト検出の新しい視点を提供することを期待している。 コードはhttps://github.com/SJTU-LuHe/TransVOD.comで公開される。

Recently, DETR and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, an end-to-end video object detection model based on a spatial-temporal Transformer architecture. The goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow, recurrent neural networks, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS or Tubelet rescoring, which keeps the pipeline simple and clean. In particular, we present temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal Transformer consists of three components: Temporal Deformable Transformer Encoder (TDTE) to encode the multiple frame spatial details, Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. TransVOD yields comparable results performance on the benchmark of ImageNet VID. We hope our TransVOD can provide a new perspective for video object detection. Code will be made publicly available at https://github.com/SJTU-LuHe/TransVOD.
翻訳日:2021-05-26 09:15:51 公開日:2021-05-23
# (参考訳) 正規化は、正しいハイパーパラメーターで 中毒攻撃を緩和するのに役立つ

Regularization Can Help Mitigate Poisoning Attacks... with the Right Hyperparameters ( http://arxiv.org/abs/2105.10948v1 )

ライセンス: CC BY 4.0
Javier Carnerero-Cano, Luis Mu\~noz-Gonz\'alez, Phillippa Spencer, Emil C. Lupu(参考訳) 機械学習アルゴリズムは、アルゴリズムのパフォーマンスを低下させるためにトレーニングデータの一部が操作される中毒攻撃に対して脆弱である。 正規化ハイパーパラメータが一定であると考える現在のアプローチは、アルゴリズムの頑健さと正規化の影響を過度に悲観的に捉えていることを示している。 本稿では,攻撃が過度パラメータに与える影響を考慮に入れた新たな最適攻撃定式化を提案し,攻撃を「emph{minimax bilevel optimization problem}」としてモデル化する。 これにより、最適な攻撃を定式化し、ハイパーパラメータを選択し、最悪のケース条件下で堅牢性を評価することができる。 この定式化を,$l_2$正規化を用いたロジスティック回帰に適用し,従来の戦略の限界を実証的に示し,$l_2$正規化を用いた中毒攻撃の効果を弱める効果を証明した。

Machine learning algorithms are vulnerable to poisoning attacks, where a fraction of the training data is manipulated to degrade the algorithms' performance. We show that current approaches, which typically assume that regularization hyperparameters remain constant, lead to an overly pessimistic view of the algorithms' robustness and of the impact of regularization. We propose a novel optimal attack formulation that considers the effect of the attack on the hyperparameters, modelling the attack as a \emph{minimax bilevel optimization problem}. This allows to formulate optimal attacks, select hyperparameters and evaluate robustness under worst case conditions. We apply this formulation to logistic regression using $L_2$ regularization, empirically show the limitations of previous strategies and evidence the benefits of using $L_2$ regularization to dampen the effect of poisoning attacks.
翻訳日:2021-05-26 08:50:26 公開日:2021-05-23
# (参考訳) sscan : ハイパースペクトル画像デノージングのための空間スペクトルクロスアテンションネットワーク

SSCAN: A Spatial-spectral Cross Attention Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2105.10949v1 )

ライセンス: CC BY 4.0
Zhiqiang Wang, Zhenfeng Shao, Xiao Huang, Jiaming Wang, Tao Lu, Sihang Zhang(参考訳) ハイパースペクトル画像(hsis)は、それらが提供できる豊富なスペクトル情報のおかげで、様々なアプリケーションで広く使われている。 すべてのhsi処理タスクの中で、hsiデノイジングは重要なステップである。 近年,深層学習に基づく画像復号化手法が大きく進歩し,性能も向上している。 しかし、既存の手法では隣接するスペクトルバンド間の相関を無視する傾向があり、分断結果のスペクトル歪みやぼやけたエッジといった問題を引き起こす。 本研究では,グループ畳み込みとアテンションモジュールを組み合わせた新しいhsiデノージングネットワークであるsscanを提案する。 具体的には,空間的注意モジュールを用いたグループ畳み込みを用いて,モデルの注意を帯域毎の重要な特徴に向けることで特徴抽出を容易にする。 ハイパースペクトル画像における空間情報とスペクトル情報を有効利用するためのスペクトル空間アテンションブロック(SSAB)を提案する。 さらに、トレーニング安定性を確保するために、スキップ接続による残差学習操作を採用する。 実験の結果,提案したSSCANは最先端のHSI復調アルゴリズムよりも優れていた。

Hyperspectral images (HSIs) have been widely used in a variety of applications thanks to the rich spectral information they are able to provide. Among all HSI processing tasks, HSI denoising is a crucial step. Recently, deep learning-based image denoising methods have made great progress and achieved great performance. However, existing methods tend to ignore the correlations between adjacent spectral bands, leading to problems such as spectral distortion and blurred edges in denoised results. In this study, we propose a novel HSI denoising network, termed SSCAN, that combines group convolutions and attention modules. Specifically, we use a group convolution with a spatial attention module to facilitate feature extraction by directing models' attention to band-wise important features. We propose a spectral-spatial attention block (SSAB) to exploit the spatial and spectral information in hyperspectral images in an effective manner. In addition, we adopt residual learning operations with skip connections to ensure training stability. The experimental results indicate that the proposed SSCAN outperforms several state-of-the-art HSI denoising algorithms.
翻訳日:2021-05-26 08:26:18 公開日:2021-05-23
# (参考訳) 応用車両経路問題のモデル化に関する一検討

A review of approaches to modeling applied vehicle routing problems ( http://arxiv.org/abs/2105.10950v1 )

ライセンス: CC BY 4.0
Konstantin Sidorov, Alexander Morozov(参考訳) 車両ルーティング問題 (VRP) の実践的重要性のため、アルゴリズムや(メタ)ヒューリスティックスにおいて、そのような問題を解決するための研究が絶え間なく進んでいる。 しかし、vrpドメインの多様性は、ドメインエンティティ(特に計画決定)、有効な計画決定のセット、異なる計画間の選好を記述するという、そのような問題をモデル化する別の問題を生み出します。 本稿では,車両経路問題のモデル化手法について概説する。 比較をより容易にするために,このような問題に対する最適化アルゴリズム開発の実践的要件を反映したモデリング手法の評価基準を定式化する。 最後に,本比較の結果,vrpドメインのモデリング分野における今後の研究動向について考察する。

Due to the practical importance of vehicle routing problems (VRP), there exists an ever-growing body of research in algorithms and (meta)heuristics for solving such problems. However, the diversity of VRP domains creates the separate problem of modeling such problems -- describing the domain entities (and, in particular, the planning decisions), the set of valid planning decisions, and the preferences between different plans. In this paper, we review the approaches for modeling vehicle routing problems. To make the comparison more straightforward, we formulate several criteria for evaluating modeling methods reflecting the practical requirements of the development of optimization algorithms for such problems. Finally, as a result of this comparison, we discuss several future research avenues in the field of modeling VRP domains.
翻訳日:2021-05-26 08:10:13 公開日:2021-05-23
# (参考訳) サーベイランスシステムのための資源制約付きUAVの分散CNN推論:設計と最適化

Distributed CNN Inference on Resource-Constrained UAVs for Surveillance Systems: Design and Optimization ( http://arxiv.org/abs/2105.11013v1 )

ライセンス: CC BY 4.0
Mohammed Jouhari, Abdulla Al-Ali, Emna Baccour, Amr Mohamed, Aiman Erbad, Mohsen Guizani, Mounir Hamdi(参考訳) 無人航空機(UAV)は、大規模な地域をカバーし、困難で危険なターゲットゾーンにアクセスできることから、ここ数年で大きな関心を集めている。 さらに、コンピュータビジョンと機械学習の進歩により、UAVは幅広いソリューションやアプリケーションに採用されている。 しかし、ディープニューラルネットワーク(DNN)は、それらがオンボードで実行されるのを防ぐ、より深く複雑なモデルに向かって進んでいる。 本稿では,UAV内のDNN分散手法を提案し,資源制約されたデバイスにおけるデータ分類を可能にし,空対地リンク上のデータ通信によるサーバベースのソリューションによる追加遅延を回避する。 提案手法は,空対空通信の一環として,UAVの移動モデルと資源制約を考慮して,データ収集と意思決定の遅延を最小化する最適化問題として定式化されている。 また,我々のシステムをuavのダイナミクスやネットワークの変動に適応させるために,モビリティ予測を導入する。 提案手法であるOULD(Optimal UAV-based Layer Distribution)とOULD with Mobility Prediction(OULD-MP)をHPCクラスタで実行した。 その結果,提案手法は既存およびヒューリスティックなアプローチよりも優れていることがわかった。

Unmanned Aerial Vehicles (UAVs) have attracted great interest in the last few years owing to their ability to cover large areas and access difficult and hazardous target zones, which is not the case of traditional systems relying on direct observations obtained from fixed cameras and sensors. Furthermore, thanks to the advancements in computer vision and machine learning, UAVs are being adopted for a broad range of solutions and applications. However, Deep Neural Networks (DNNs) are progressing toward deeper and complex models that prevent them from being executed on-board. In this paper, we propose a DNN distribution methodology within UAVs to enable data classification in resource-constrained devices and avoid extra delays introduced by the server-based solutions due to data communication over air-to-ground links. The proposed method is formulated as an optimization problem that aims to minimize the latency between data collection and decision-making while considering the mobility model and the resource constraints of the UAVs as part of the air-to-air communication. We also introduce the mobility prediction to adapt our system to the dynamics of UAVs and the network variation. The simulation conducted to evaluate the performance and benchmark the proposed methods, namely Optimal UAV-based Layer Distribution (OULD) and OULD with Mobility Prediction (OULD-MP), were run in an HPC cluster. The obtained results show that our optimization solution outperforms the existing and heuristic-based approaches.
翻訳日:2021-05-26 07:47:03 公開日:2021-05-23
# (参考訳) グラフベースアプリケーションのための2次元畳み込みニューラルネットワークの再検討

Revisiting 2D Convolutional Neural Networks for Graph-based Applications ( http://arxiv.org/abs/2105.11016v1 )

ライセンス: CC BY 4.0
Yecheng Lyu, Xinming Huang, Ziming Zhang(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ分類やセグメンテーションといったグラフベースのアプリケーションで広く使われている。 しかし、現在のGCNは不規則な入力のためにネットワークアーキテクチャのような実装に制限がある。 対照的に、畳み込みニューラルネットワーク(CNN)は大規模な入力データから豊富な特徴を抽出することができるが、一般的なグラフ入力をサポートしない。 本稿では,GCNとCNNのギャップを埋めるため,グラフトポロジを極力保存しつつ,CNNが直接適用可能な2次元グリッドに対して,汎用グラフを効果的かつ効率的にマップする方法の課題について検討する。 そこで我々は2つの新しいグラフ-グリッドマッピングスキーム,すなわち,計算効率向上のためのグラフ保存グリッドレイアウト(GPGL)とその拡張(H-GPGL)を提案する。 GPGL問題を整数計画法として定式化し、さらに2次元グラフ描画におけるよく知られた最適化アルゴリズムであるPenalized Kamada-Kawai法に基づく近似的かつ効率的な解法を提案する。 本稿では,グラフ頂点が重なり合うことなくグリッド上に配置することを奨励する新たな頂点分離ペナルティを提案する。 この画像表現に加えて、余分な2D最大値層も、広く応用されたポイントベースニューラルネットワークであるPointNetに寄与する。 本稿では,VGG16,ResNet50,Multi-scale maxout (MSM) CNNなどの2次元CNNをベースとした3次元点群クラウドセグメンテーションにおけるGPGLとH-GPGLの一般グラフ分類における実験的な成功例を示す。

Graph convolutional networks (GCNs) are widely used in graph-based applications such as graph classification and segmentation. However, current GCNs have limitations on implementation such as network architectures due to their irregular inputs. In contrast, convolutional neural networks (CNNs) are capable of extracting rich features from large-scale input data, but they do not support general graph inputs. To bridge the gap between GCNs and CNNs, in this paper we study the problem of how to effectively and efficiently map general graphs to 2D grids that CNNs can be directly applied to, while preserving graph topology as much as possible. We therefore propose two novel graph-to-grid mapping schemes, namely, {\em graph-preserving grid layout (GPGL)} and its extension {\em Hierarchical GPGL (H-GPGL)} for computational efficiency. We formulate the GPGL problem as integer programming and further propose an approximate yet efficient solver based on a penalized Kamada-Kawai method, a well-known optimization algorithm in 2D graph drawing. We propose a novel vertex separation penalty that encourages graph vertices to lay on the grid without any overlap. Along with this image representation, even extra 2D maxpooling layers contribute to the PointNet, a widely applied point-based neural network. We demonstrate the empirical success of GPGL on general graph classification with small graphs and H-GPGL on 3D point cloud segmentation with large graphs, based on 2D CNNs including VGG16, ResNet50 and multi-scale maxout (MSM) CNN.
翻訳日:2021-05-26 07:06:04 公開日:2021-05-23
# (参考訳) Multi-Type-TD-TSR -- テーブル検出とテーブル構造認識のための多段階パイプラインを用いた文書画像からのテーブル抽出:OCRから構造化テーブル表現へ

Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations ( http://arxiv.org/abs/2105.11021v1 )

ライセンス: CC BY 4.0
Pascal Fischer, Alen Smajic, Alexander Mehler, Giuseppe Abrami(参考訳) 世界的トレンドがデータ駆動産業にシフトする中、スキャンされた文書のデジタル画像を機械可読情報に変換する自動アルゴリズムの需要は急速に増加している。 データ分析ツールの適用のためのデータデジタル化の機会に加えて、以前は手動で文書を検査する必要があったプロセスの自動化にも大きな改善が加えられている。 光文字認識技術の導入により、画像から可読文字を機械可読文字に変換する作業はほとんど解決されたが、テーブル意味論の抽出作業は長年にわたってあまり注目されていない。 テーブルの認識は、テーブル検出とテーブル構造認識という2つの主なタスクで構成される。 この問題に関するほとんどの以前の研究は、エンドツーエンドのソリューションを提供することなく、あるいはドキュメントイメージ内の回転画像やノイズアーティファクトのような実際のアプリケーション条件に注意を払うことなく、タスクにフォーカスする。 最近の研究は、十分に大規模なデータセットが不足しているため、テーブル構造認識のタスクに転送学習を用いることで、ディープラーニングアプローチへの明確な傾向を示している。 本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。 最先端のディープラーニングモデルを使用してテーブルの検出を行い、テーブルの境界に基づいて3種類のテーブルを区別する。 テーブル構造認識には、すべてのテーブルタイプで動作する決定論的非データ駆動アルゴリズムを使用します。 さらに2つのアルゴリズムを提示する。 境界付きテーブル用と境界付きテーブル用があり、これは使用済みテーブル構造認識アルゴリズムの基礎となっている。 ICDAR 2019テーブル構造認識データセット上でMulti-Type-TD-TSRを評価し,新しい最先端を実現する。

As global trends are shifting towards data-driven industries, the demand for automated algorithms that can convert digital images of scanned documents into machine readable information is rapidly growing. Besides the opportunity of data digitization for the application of data analytic tools, there is also a massive improvement towards automation of processes, which previously would require manual inspection of the documents. Although the introduction of optical character recognition technologies mostly solved the task of converting human-readable characters from images into machine-readable characters, the task of extracting table semantics has been less focused on over the years. The recognition of tables consists of two main tasks, namely table detection and table structure recognition. Most prior work on this problem focuses on either task without offering an end-to-end solution or paying attention to real application conditions like rotated images or noise artefacts inside the document image. Recent work shows a clear trend towards deep learning approaches coupled with the use of transfer learning for the task of table structure recognition due to the lack of sufficiently large datasets. In this paper we present a multistage pipeline named Multi-Type-TD-TSR, which offers an end-to-end solution for the problem of table recognition. It utilizes state-of-the-art deep learning models for table detection and differentiates between 3 different types of tables based on the tables' borders. For the table structure recognition we use a deterministic non-data driven algorithm, which works on all table types. We additionally present two algorithms. One for unbordered tables and one for bordered tables, which are the base of the used table structure recognition algorithm. We evaluate Multi-Type-TD-TSR on the ICDAR 2019 table structure recognition dataset and achieve a new state-of-the-art.
翻訳日:2021-05-26 06:23:51 公開日:2021-05-23
# (参考訳) コミュニケーションのトレードオフによるファストフェデレーション学習

Fast Federated Learning by Balancing Communication Trade-Offs ( http://arxiv.org/abs/2105.11028v1 )

ライセンス: CC BY 4.0
Milad Khademi Nori, Sangseok Yun, and Il-Min Kim(参考訳) federated learning(fl)は最近、大規模なプライバシ保存機械学習で多くの注目を集めている。 しかし、頻繁な勾配伝達による通信オーバーヘッドはflを減速させる。 通信オーバーヘッドを軽減するために, (i) 通信と計算のトレードオフを特徴とする重み付けの局所更新と (ii) 通信と精度のトレードオフを特徴付ける勾配圧縮の2つの手法が研究されている。 私たちの知る限りでは、これら2つのトレードオフを共同かつ動的に研究し、バランスをとると同時に、収束性への影響を考慮することは、flを大幅に高速化することを約束しながらも、未解決のままです。 本稿では,まず,通信と計算/精度のトレードオフを特徴付ける局所更新係数と勾配圧縮のスパーシティ予算という2つの変数について,学習誤差を最小化する問題を定式化する。 次に,2変数間の相互依存を考慮した壁面時間における学習誤差の上限を導出する。 この理論解析に基づいて,Fast FL(Fast FL)と呼ばれる拡張FLスキームを提案し,この2変数を協調的かつ動的に調整し,学習誤差を最小限に抑える。 FFLは文献上に存在する類似のスキームよりも高い精度を確実に達成できることを示す。

Federated Learning (FL) has recently received a lot of attention for large-scale privacy-preserving machine learning. However, high communication overheads due to frequent gradient transmissions decelerate FL. To mitigate the communication overheads, two main techniques have been studied: (i) local update of weights characterizing the trade-off between communication and computation and (ii) gradient compression characterizing the trade-off between communication and precision. To the best of our knowledge, studying and balancing those two trade-offs jointly and dynamically while considering their impacts on convergence has remained unresolved even though it promises significantly faster FL. In this paper, we first formulate our problem to minimize learning error with respect to two variables: local update coefficients and sparsity budgets of gradient compression who characterize trade-offs between communication and computation/precision, respectively. We then derive an upper bound of the learning error in a given wall-clock time considering the interdependency between the two variables. Based on this theoretical analysis, we propose an enhanced FL scheme, namely Fast FL (FFL), that jointly and dynamically adjusts the two variables to minimize the learning error. We demonstrate that FFL consistently achieves higher accuracies faster than similar schemes existing in the literature.
翻訳日:2021-05-26 06:08:06 公開日:2021-05-23
# 特定の質問に対する回答の変更によるテキストの編集制御

Controlling Text Edition by Changing Answers of Specific Questions ( http://arxiv.org/abs/2105.11018v1 )

ライセンス: Link先を確認
Lei Sha, Patrick Hohenecker, Thomas Lukasiewicz(参考訳) 本稿では,長文,質問文,対象回答を入力とし,出力を最小限に修正したテキストとし,対象回答に適合させる,制御可能なテキストエディションの新たなタスクを提案する。 このタスクは、法律文書の条件や結果、プロパティを変更したり、ニューステキストでイベントの重要な情報を変更したりするなど、多くの状況において非常に重要である。 トレーニングのための並列コーパスを得るのは非常に難しく、まず変更すべきすべてのテキスト位置を見つけ、それから変更方法を決定する必要があるため、これは非常に難しいことです。 我々は,既存のデータセット WikiBio (もともとはテーブル・ツー・テキスト生成用に作成された) に基づいて,このタスクのための新しいデータセット WikiBioCTE を構築した。 トレーニングにはWikiBioCTEを使用し、手動でテストセットをラベル付けしています。 また,新しい課題を解くための新しい評価指標と新しい方法を提案する。 実験結果から,提案手法は新たなNLPタスクに適していることがわかった。

In this paper, we introduce the new task of controllable text edition, in which we take as input a long text, a question, and a target answer, and the output is a minimally modified text, so that it fits the target answer. This task is very important in many situations, such as changing some conditions, consequences, or properties in a legal document, or changing some key information of an event in a news text. This is very challenging, as it is hard to obtain a parallel corpus for training, and we need to first find all text positions that should be changed and then decide how to change them. We constructed the new dataset WikiBioCTE for this task based on the existing dataset WikiBio (originally created for table-to-text generation). We use WikiBioCTE for training, and manually labeled a test set for testing. We also propose novel evaluation metrics and a novel method for solving the new task. Experimental results on the test set show that our proposed method is a good fit for this novel NLP task.
翻訳日:2021-05-25 15:33:35 公開日:2021-05-23
# スクラッチからのrst構文解析

RST Parsing from Scratch ( http://arxiv.org/abs/2105.10861v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li(参考訳) 本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析をエンド・ツー・エンドで新たに定義する。 本稿では,トークン境界での分割決定のシーケンスとして談話解析を検討し,seq2seqネットワークを用いて分割決定をモデル化する。 本フレームワークは,対話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。 統一解析モデルは,高被覆木の空間を探索することで最良木構造をデコードするためにビーム探索を採用する。 標準的な英語RST談話木バンクに関する広範な実験により, パーサは, エンド・ツー・エンドのパースとゴールドセグメンテーションの双方において, 既存の手法よりも優れた性能を示すことを示した。 さらに重要なのは、手作りの機能を一切使わずに、新しい言語やドメインに素早く簡単に適応できることです。

We introduce a novel top-down end-to-end formulation of document-level discourse parsing in the Rhetorical Structure Theory (RST) framework. In this formulation, we consider discourse parsing as a sequence of splitting decisions at token boundaries and use a seq2seq network to model the splitting decisions. Our framework facilitates discourse parsing from scratch without requiring discourse segmentation as a prerequisite; rather, it yields segmentation as part of the parsing process. Our unified parsing model adopts a beam search to decode the best tree structure by searching through a space of high-scoring trees. With extensive experiments on the standard English RST discourse treebank, we demonstrate that our parser outperforms existing methods by a good margin in both end-to-end parsing and parsing with gold segmentation. More importantly, it does so without using any handcrafted features, making it faster and easily adaptable to new languages and domains.
翻訳日:2021-05-25 15:32:22 公開日:2021-05-23
# 対話理解のための構造事前学習

Structural Pre-training for Dialogue Comprehension ( http://arxiv.org/abs/2105.10956v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao(参考訳) 事前学習型言語モデル(PrLM)は、自己指導型事前学習から普遍言語表現を学習する能力が強いため、優れた性能を示した。 しかし、強力なPrLMの助けを借りても、話者認識発話間の相関によって強化された対話文からタスク関連知識を効果的に捉えることは依然として困難である。 本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。 対話のような特徴をシミュレートするために,1) 発話の順序を予測する発話順序復元,2) 要約された主語・主語・主語三重項の事実的正当性を改善するためにモデルを正規化する文のバックボーン正規化,の2つの訓練目標を提案する。 広範に使用される対話ベンチマークにおける実験結果から,新しく導入された自己監督タスクの有効性が検証された。

Pre-trained language models (PrLMs) have demonstrated superior performance due to their strong ability to learn universal language representations from self-supervised pre-training. However, even with the help of the powerful PrLMs, it is still challenging to effectively capture task-related knowledge from dialogue texts which are enriched by correlations among speaker-aware utterances. In this work, we present SPIDER, Structural Pre-traIned DialoguE Reader, to capture dialogue exclusive features. To simulate the dialogue-like features, we propose two training objectives in addition to the original LM objectives: 1) utterance order restoration, which predicts the order of the permuted utterances in dialogue context; 2) sentence backbone regularization, which regularizes the model to improve the factual correctness of summarized subject-verb-object triplets. Experimental results on widely used dialogue benchmarks verify the effectiveness of the newly introduced self-supervised tasks.
翻訳日:2021-05-25 15:32:04 公開日:2021-05-23
# グラフ畳み込みネットワークを用いた3次元ハンドポーズ推定のためのハイブリッド分類回帰手法

A hybrid classification-regression approach for 3D hand pose estimation using graph convolutional networks ( http://arxiv.org/abs/2105.10902v1 )

ライセンス: Link先を確認
Ikram Kourbane, Yakup Genc(参考訳) ハンドポーズ推定は、幅広い拡張現実および人間とコンピュータのインタラクションアプリケーションにおいて重要な部分である。 1枚のRGB画像から3Dハンドポーズを予測することは、閉塞と深さの曖昧さのために難しい。 GCN(Graph Convolutional Networks)法は、グラフと手関節の構造的類似性を利用して関節間の運動的依存関係をモデル化する。 これらのテクニックは事前に定義された、あるいはグローバルに学習された共同関係を使用し、ポーズ依存の制約を捕捉できない可能性がある。 そこで本稿では,関係制約を学習する2段階gcnベースのフレームワークを提案する。 具体的には、第1フェーズは2D/3D空間を定量化し、その局所性に基づいて関節を2D/3Dブロックに分類する。 この空間依存情報は、このフェーズを導いて信頼できる2dおよび3dポーズを推定する。 第2段階は、適応的近接アルゴリズムを用いて関節関係を決定するGCNベースのモジュールによる3次元推定をさらに改善する。 多段階のgcnアプローチは、正確な2d/3dハンドポーズを生成し、2つのパブリックデータセットの最先端技術を上回る効率的なモデルをもたらすことが、広範な実験で示されています。

Hand pose estimation is a crucial part of a wide range of augmented reality and human-computer interaction applications. Predicting the 3D hand pose from a single RGB image is challenging due to occlusion and depth ambiguities. GCN-based (Graph Convolutional Networks) methods exploit the structural relationship similarity between graphs and hand joints to model kinematic dependencies between joints. These techniques use predefined or globally learned joint relationships, which may fail to capture pose-dependent constraints. To address this problem, we propose a two-stage GCN-based framework that learns per-pose relationship constraints. Specifically, the first phase quantizes the 2D/3D space to classify the joints into 2D/3D blocks based on their locality. This spatial dependency information guides this phase to estimate reliable 2D and 3D poses. The second stage further improves the 3D estimation through a GCN-based module that uses an adaptative nearest neighbor algorithm to determine joint relationships. Extensive experiments show that our multi-stage GCN approach yields an efficient model that produces accurate 2D/3D hand poses and outperforms the state-of-the-art on two public datasets.
翻訳日:2021-05-25 15:30:19 公開日:2021-05-23
# 2次元ポーズ推定のためのスケルトン対応マルチスケールヒートマップ回帰

Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation ( http://arxiv.org/abs/2105.10904v1 )

ライセンス: Link先を確認
Ikram Kourbane, Yakup Genc(参考訳) 既存のRGBベースの2次元手ポーズ推定法では,手の大きさの異なる単一の解像度から関節位置を学習する。 そこで本研究では,2つのモジュールからなるディープラーニングベースのフレームワークを提案する。 前者は、手骨を検知し、手の境界ボックスをローカライズするセグメンテーションベースのアプローチを提案する。 第2のモジュールは、予測ハンドスケルトンをモデルガイドの制約として利用する、マルチスケールのヒートマップ回帰アプローチを通じて、2D関節位置を回帰する。 さらに,手動検出とポーズ推定の両方に適した新しいデータセットを構築した。 2つのデータセット上で定性的かつ定量的に手法を検証する。 その結果,提案手法が最先端を上回り,乱雑な画像や複雑なポーズでもポーズを回復できることがわかった。

Existing RGB-based 2D hand pose estimation methods learn the joint locations from a single resolution, which is not suitable for different hand sizes. To tackle this problem, we propose a new deep learning-based framework that consists of two main modules. The former presents a segmentation-based approach to detect the hand skeleton and localize the hand bounding box. The second module regresses the 2D joint locations through a multi-scale heatmap regression approach that exploits the predicted hand skeleton as a constraint to guide the model. Furthermore, we construct a new dataset that is suitable for both hand detection and pose estimation. We qualitatively and quantitatively validate our method on two datasets. Results demonstrate that the proposed method outperforms state-of-the-art and can recover the pose even in cluttered images and complex poses.
翻訳日:2021-05-25 15:29:58 公開日:2021-05-23
# リカレントニューラルネットワークのためのスペクトルプルーニング

Spectral Pruning for Recurrent Neural Networks ( http://arxiv.org/abs/2105.10832v1 )

ライセンス: Link先を確認
Takashi Furuya, Kazuma Suetake, Koichi Taniguchi, Hiroyuki Kusumoto, Ryuji Saiin, Tomohiro Daimon(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)などのリカレントアーキテクチャを持つニューラルネットワークのプルーニング技術は、エッジコンピューティングデバイスへの応用に強く望まれている。 しかし、再帰的なアーキテクチャは、小さなプルーニングでさえ蓄積エラーを引き起こし、全体のエラーが時間とともに大幅に増加するため、一般的にプルーニングに対して堅牢ではない。 本稿では、「スペクトルプルーニング」に着想を得たRNNに対する適切なプルーニングアルゴリズムを提案し、圧縮されたRNNに対する一般化誤差境界を提供する。 また, 実験結果を示す数値実験を行い, 従来の方法と比較し, プルーニング法の有効性を示す。

Pruning techniques for neural networks with a recurrent architecture, such as the recurrent neural network (RNN), are strongly desired for their application to edge-computing devices. However, the recurrent architecture is generally not robust to pruning because even small pruning causes accumulation error and the total error increases significantly over time. In this paper, we propose an appropriate pruning algorithm for RNNs inspired by "spectral pruning", and provide the generalization error bounds for compressed RNNs. We also provide numerical experiments to demonstrate our theoretical results and show the effectiveness of our pruning method compared with existing methods.
翻訳日:2021-05-25 15:28:42 公開日:2021-05-23
# 目標:深層ニューラルネットワークのロバストかつ一貫性のあるトレーニングに向けた線探索のための勾配のみ近似

GOALS: Gradient-Only Approximations for Line Searches Towards Robust and Consistent Training of Deep Neural Networks ( http://arxiv.org/abs/2105.10915v1 )

ライセンス: Link先を確認
Younghwan Chae, Daniel N. Wilke, Dominic Kafka(参考訳) ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。 それでも、固有のサンプリングエラーが導入され、適切な学習率の選択が難しくなる。 サンプリングエラーは、線探索においてバイアスまたはばらつきとして現れる。 動的MBSSは機能評価毎にミニバッチを再サンプリングする。 したがって、動的mbssは、静的サンプル損失関数よりもバイアスが小さいが分散が大きい点的不連続損失関数をもたらす。 しかし、動的MBSSはトレーニング中にデータスループットが大きくなるという利点があるが、不連続性に関する複雑さが解決される必要がある。 本研究は,方向微分情報のみを用いた2次近似モデルを用いたラインサーチ手法である勾配専用サロゲート(GOS)を動的MBSS損失関数に拡張する。 最適性基準を定め,強い収束特性を持つ勾配のみ近似線探索(goals)を提案する。 本稿では,SGD,RMSprop,Adam on ResNet-18,EfficientNetB0などの最適化器にGOALSの性能を適用して検討する。 また,GOALSを既存の学習率法と比較した。 最高のパフォーマンスと最も堅牢なアルゴリズムの両方を定量化します。 後者については,与えられた問題に対するアルゴリズムと最適なアルゴリズムの違いを定量化する相対的ロバストな基準を導入する。 その結果、探索方向のクラスに対して推奨学習率でモデルをトレーニングすることは、マルチモーダルケースにおけるモデルエラーを低減するのに役立つことがわかった。

Mini-batch sub-sampling (MBSS) is favored in deep neural network training to reduce the computational cost. Still, it introduces an inherent sampling error, making the selection of appropriate learning rates challenging. The sampling errors can manifest either as a bias or variances in a line search. Dynamic MBSS re-samples a mini-batch at every function evaluation. Hence, dynamic MBSS results in point-wise discontinuous loss functions with smaller bias but larger variance than static sampled loss functions. However, dynamic MBSS has the advantage of having larger data throughput during training but requires the complexity regarding discontinuities to be resolved. This study extends the gradient-only surrogate (GOS), a line search method using quadratic approximation models built with only directional derivative information, for dynamic MBSS loss functions. We propose a gradient-only approximation line search (GOALS) with strong convergence characteristics with defined optimality criterion. We investigate GOALS's performance by applying it on various optimizers that include SGD, RMSprop and Adam on ResNet-18 and EfficientNetB0. We also compare GOALS's against the other existing learning rate methods. We quantify both the best performing and most robust algorithms. For the latter, we introduce a relative robust criterion that allows us to quantify the difference between an algorithm and the best performing algorithm for a given problem. The results show that training a model with the recommended learning rate for a class of search directions helps to reduce the model errors in multimodal cases.
翻訳日:2021-05-25 15:28:32 公開日:2021-05-23
# 非粘性一般化境界に対する圧縮重厚行列

Compressing Heavy-Tailed Weight Matrices for Non-Vacuous Generalization Bounds ( http://arxiv.org/abs/2105.11025v1 )

ライセンス: Link先を確認
John Y. Shin(参考訳) 重み付き分布は統計学、ランダム行列理論、物理学、計量学において相関系のモデルとして研究されている。 さらに、ニューラルネットワークにおける重み行列の共分散行列の重み分布固有値は、いくつかの研究(例)においてテストセット精度と経験的に相関することが示されている。 arXiv:1901.08276) だが、ヘビーテール分布パラメータと一般化境界との形式的関係はまだ証明されていない。 本研究では,arxiv:1802.05296の圧縮フレームワークを用いて,重み分散行列要素を持つ行列を圧縮できることを示す。 パラメータカウントはスパース行列のゼロでない要素の和に減らされているため、圧縮フレームワークは圧縮されたネットワークの一般化ギャップを非空の一般化境界で結ぶことができる。 さらに, ベクトルに対するこれらの行列の作用を考察し, 圧縮・回復性分類との関連性について考察した。

Heavy-tailed distributions have been studied in statistics, random matrix theory, physics, and econometrics as models of correlated systems, among other domains. Further, heavy-tail distributed eigenvalues of the covariance matrix of the weight matrices in neural networks have been shown to empirically correlate with test set accuracy in several works (e.g. arXiv:1901.08276), but a formal relationship between heavy-tail distributed parameters and generalization bounds was yet to be demonstrated. In this work, the compression framework of arXiv:1802.05296 is utilized to show that matrices with heavy-tail distributed matrix elements can be compressed, resulting in networks with sparse weight matrices. Since the parameter count has been reduced to a sum of the non-zero elements of sparse matrices, the compression framework allows us to bound the generalization gap of the resulting compressed network with a non-vacuous generalization bound. Further, the action of these matrices on a vector is discussed, and how they may relate to compression and resilient classification is analyzed.
翻訳日:2021-05-25 15:28:05 公開日:2021-05-23
# DepressionNet: ソーシャルメディア上でのデプレッション検出のためのDeep Frameworkの新たな要約

DepressionNet: A Novel Summarization Boosted Deep Framework for Depression Detection on Social Media ( http://arxiv.org/abs/2105.10878v1 )

ライセンス: Link先を確認
Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu(参考訳) Twitterは現在、ユーザーが生成したコンテンツを共有できるオンラインソーシャルメディアプラットフォームとして人気がある。 この公開されたユーザーデータは、検出されたパターンがいくつかの方法でそれらに大きな利益をもたらすため、医療技術にも不可欠です。 応用の1つは、うつ病などの精神疾患を自動的に発見することである。 オンラインソーシャルメディア上で落ち込んだユーザーを自動的に検出する以前の研究は、ユーザの行動とユーザの社会的相互作用を含む言語パターンに大きく依存している。 欠点は、これらのモデルがいくつかの無関係なコンテンツに基づいてトレーニングされていることだ。 さらに、これらのコンテンツはモデル全体の効率と有効性に悪影響を及ぼす。 既存の自動抑うつ検出手法の欠点を克服するために,まず,よりきめ細かな関連コンテンツにつながる全ユーザツイートのシーケンス上で,ハイブリッド抽出および抽象的要約戦略により関連コンテンツを選択する,自動抑うつ検出のための新しい計算フレームワークを提案する。 その内容は、コンボリューションニューラルネットワーク(cnn)と注意強化ゲートリカレントユニット(gru)モデルを組み合わせた統合学習機構で構成され、既存の強力なベースラインよりも優れた経験的パフォーマンスを実現する、新たなディープラーニングフレームワークに移行します。

Twitter is currently a popular online social media platform which allows users to share their user-generated content. This publicly-generated user data is also crucial to healthcare technologies because the discovered patterns would hugely benefit them in several ways. One of the applications is in automatically discovering mental health problems, e.g., depression. Previous studies to automatically detect a depressed user on online social media have largely relied upon the user behaviour and their linguistic patterns including user's social interactions. The downside is that these models are trained on several irrelevant content which might not be crucial towards detecting a depressed user. Besides, these content have a negative impact on the overall efficiency and effectiveness of the model. To overcome the shortcomings in the existing automatic depression detection methods, we propose a novel computational framework for automatic depression detection that initially selects relevant content through a hybrid extractive and abstractive summarization strategy on the sequence of all user tweets leading to a more fine-grained and relevant content. The content then goes to our novel deep learning framework comprising of a unified learning machinery comprising of Convolutional Neural Network (CNN) coupled with attention-enhanced Gated Recurrent Units (GRU) models leading to better empirical performance than existing strong baselines.
翻訳日:2021-05-25 15:26:55 公開日:2021-05-23
# 1つの石で2羽の鳥を殺す:BERTベースのAPIからステアリングモデルと属性の推測

Killing Two Birds with One Stone: Stealing Model and Inferring Attribute from BERT-based APIs ( http://arxiv.org/abs/2105.10909v1 )

ライセンス: Link先を確認
Lingjuan Lyu, Xuanli He, Fangzhao Wu, Lichao Sun(参考訳) 事前訓練されたモデル(BERT、XLNETなど)の進歩は、様々な現代の自然言語処理タスクの予測性能に大きな革命をもたらした。 これにより、細調整されたBERTベースのモデルを商用APIとしてカプセル化することで、マシンラーニング・アズ・ア・サービス(MLaaS)を提供することが可能になる。 しかし、以前の研究でBERTベースのAPIに一連の脆弱性が見つかった。 例えば、BERTベースのAPIは、モデル抽出攻撃と逆転可能性攻撃の両方に対して脆弱である。 しかし、BERTベースのAPIの容量が高いため、微調整されたモデルは簡単に習得でき、抽出されたモデルからどのような情報が漏れるかは分かっておらず、不明である。 このギャップを埋めるために,本研究では,限られた数のクエリのみをクエリすることで,敵がBERTベースのAPI(ターゲット/ビットモデル)を実質的に盗むことができる効果的なモデル抽出攻撃を提案する。 さらに,BERTベースのAPIで使用されるトレーニングデータのセンシティブな属性を明らかにするために,効果的な属性推論攻撃を開発する。 さまざまな現実的な設定下でのベンチマークデータセットに関する広範な実験は、BERTベースのAPIの潜在的な脆弱性を示しています。

The advances in pre-trained models (e.g., BERT, XLNET and etc) have largely revolutionized the predictive performance of various modern natural language processing tasks. This allows corporations to provide machine learning as a service (MLaaS) by encapsulating fine-tuned BERT-based models as commercial APIs. However, previous works have discovered a series of vulnerabilities in BERT- based APIs. For example, BERT-based APIs are vulnerable to both model extraction attack and adversarial example transferrability attack. However, due to the high capacity of BERT-based APIs, the fine-tuned model is easy to be overlearned, what kind of information can be leaked from the extracted model remains unknown and is lacking. To bridge this gap, in this work, we first present an effective model extraction attack, where the adversary can practically steal a BERT-based API (the target/victim model) by only querying a limited number of queries. We further develop an effective attribute inference attack to expose the sensitive attribute of the training data used by the BERT-based APIs. Our extensive experiments on benchmark datasets under various realistic settings demonstrate the potential vulnerabilities of BERT-based APIs.
翻訳日:2021-05-25 15:26:37 公開日:2021-05-23
# CiteWorth:Cite-Worthiness Detection for Improved Scientific Document Understanding

CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding ( http://arxiv.org/abs/2105.10912v1 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) データは極めてドメイン固有で多様であるため、科学的文書理解は困難である。 しかし、科学的なテキストを持つタスクのデータセットは、高価な手作業のアノテーションを必要とし、1つまたは少数のフィールドに限られる傾向がある。 同時に、科学文書には、大きなラベル付きデータセットを構築するために使用できる引用など、潜在的なトレーニング信号が多数含まれている。 そこで,本研究では,文が外部ソースを引用するか否かをラベル付けした,英語における引用適性検出に関する詳細な研究を行う。 これを実現するために,抽出された平文科学文書の膨大なコーパスから構築された引用価値検出のための,大きく,文脈化され,厳格に整理されたラベル付きデータセットであるciteworthを紹介する。 我々は、CiteWorthが高品質で、挑戦的で、ドメイン適応のような問題の研究に適していることを示す。 提案手法はLongformerに基づく段落レベルの文ラベル付けモデルであり,個々の文のみを考慮したSciBERTよりも5F1ポイント改善されている。 最後に,第2タスクとしての引用性を考慮した言語モデルの微調整が,下流の科学的文書理解タスクの性能向上につながることを示す。

Scientific document understanding is challenging as the data is highly domain specific and diverse. However, datasets for tasks with scientific text require expensive manual annotation and tend to be small and limited to only one or a few fields. At the same time, scientific documents contain many potential training signals, such as citations, which can be used to build large labelled datasets. Given this, we present an in-depth study of cite-worthiness detection in English, where a sentence is labelled for whether or not it cites an external source. To accomplish this, we introduce CiteWorth, a large, contextualized, rigorously cleaned labelled dataset for cite-worthiness detection built from a massive corpus of extracted plain-text scientific documents. We show that CiteWorth is high-quality, challenging, and suitable for studying problems such as domain adaptation. Our best performing cite-worthiness detection model is a paragraph-level contextualized sentence labelling model based on Longformer, exhibiting a 5 F1 point improvement over SciBERT which considers only individual sentences. Finally, we demonstrate that language model fine-tuning with cite-worthiness as a secondary task leads to improved performance on downstream scientific document understanding tasks.
翻訳日:2021-05-25 15:26:19 公開日:2021-05-23
# Continual World: 継続的強化学習のためのロボットベンチマーク

Continual World: A Robotic Benchmark For Continual Reinforcement Learning ( http://arxiv.org/abs/2105.10919v1 )

ライセンス: Link先を確認
Maciej Wo{\l}czyk, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) 継続的な学習(CL) - 以前から獲得した知識に基づいて継続的に学習する能力 - は、長期的な自律強化学習(RL)エージェントの自然な要件である。 そのようなエージェントを構築している間、キャパシティと計算の制約、壊滅的に忘れない能力、新しいタスクにポジティブな転送を示すなど、対向するデシデラタのバランスをとる必要がある。 正しいトレードオフを理解することは概念的にも計算的にも困難である。 これらの問題に対して,我々は,Meta-World上にテストベッドとして構築された現実的で有意義に多様なロボットタスクからなるベンチマークであるContinuous Worldを提案し,転送を優先する必要性を主張した。 既存のCL手法の詳細な実験的な評価の後、これらの制限を指摘し、RL設定におけるユニークなアルゴリズム上の課題を強調する。 我々のベンチマークは,コミュニティに有意義で計算コストのかかる課題を提供することを目標とし,既存のソリューションと将来のソリューションのパフォーマンスをよりよく理解することを目的としている。

Continual learning (CL) -- the ability to continuously learn, building on previously acquired knowledge -- is a natural requirement for long-lived autonomous reinforcement learning (RL) agents. While building such agents, one needs to balance opposing desiderata, such as constraints on capacity and compute, the ability to not catastrophically forget, and to exhibit positive transfer on new tasks. Understanding the right trade-off is conceptually and computationally challenging, which we argue has led the community to overly focus on catastrophic forgetting. In response to these issues, we advocate for the need to prioritize forward transfer and propose Continual World, a benchmark consisting of realistic and meaningfully diverse robotic tasks built on top of Meta-World as a testbed. Following an in-depth empirical evaluation of existing CL methods, we pinpoint their limitations and highlight unique algorithmic challenges in the RL setting. Our benchmark aims to provide a meaningful and computationally inexpensive challenge for the community and thus help better understand the performance of existing and future solutions.
翻訳日:2021-05-25 15:24:45 公開日:2021-05-23
# 線形反応拡散方程式のグリーン関数の学習と高速数値解法への応用

Learning Green's Functions of Linear Reaction-Diffusion Equations with Application to Fast Numerical Solver ( http://arxiv.org/abs/2105.11045v1 )

ライセンス: Link先を確認
Yuankai Teng, Xiaoping Zhang, Zhu Wang, Lili Ju(参考訳) 偏微分方程式は、熱拡散、波動伝播、流体力学、弾性、電気力学、画像処理などの様々な物理現象をモデル化するためにしばしば用いられ、多くの解析的手法や伝統的な数値法が、その解法に広く用いられている。 本稿では, 深層学習が科学・工学研究に急速に与える影響に着想を得て, 線形反応拡散方程式のグリーン関数を教師なしで学習するための新しいニューラルネットワークGF-Netを提案する。 提案手法は, 物理インフォームドアプローチとグリーン関数の対称性を利用して, 任意の領域上の方程式のグリーン関数を求める際の課題を克服する。 結果として、これは特に、異なる境界条件とソースの下でターゲット方程式を解く効率的な方法につながる。 また,提案手法の有効性を正方形,環状型,l型領域で実証した。

Partial differential equations are often used to model various physical phenomena, such as heat diffusion, wave propagation, fluid dynamics, elasticity, electrodynamics and image processing, and many analytic approaches or traditional numerical methods have been developed and widely used for their solutions. Inspired by rapidly growing impact of deep learning on scientific and engineering research, in this paper we propose a novel neural network, GF-Net, for learning the Green's functions of linear reaction-diffusion equations in an unsupervised fashion. The proposed method overcomes the challenges for finding the Green's functions of the equations on arbitrary domains by utilizing physics-informed approach and the symmetry of the Green's function. As a consequence, it particularly leads to an efficient way for solving the target equations under different boundary conditions and sources. We also demonstrate the effectiveness of the proposed approach by experiments in square, annular and L-shape domains.
翻訳日:2021-05-25 15:23:48 公開日:2021-05-23
# 非構造環境における移動ロボットの深層学習トラバーサビリティ推定

Deep Learning Traversability Estimator for Mobile Robots in Unstructured Environments ( http://arxiv.org/abs/2105.10937v1 )

ライセンス: Link先を確認
Marco Visca, Sampo Kuutti, Roger Powell, Yang Gao and Saber Fallah(参考訳) 地形トラバーサビリティ解析は、非構造環境における安全なロボットナビゲーションを確保する上で重要な役割を果たす。 しかし、リアルタイムな制約はしばしばオンラインテストの精度を制限し、特に現実的なロボットとテランの相互作用がモデル化に複雑であるシナリオでは特にそうだ。 そこで本研究では,高度図や軌道図からエンドツーエンドで学習し,故障発生を推定する深層学習フレームワークを提案する。 ネットワークはOpenSimplexアルゴリズムによって生成された合成マップのシミュレーションで最初に訓練され、テストされる。 Deep Learningフレームワークの予測性能は、計算時間の30%で元のシミュレータの94%以上をリコールすることができる。 最後に、このネットワークはチリのアタカマ砂漠での火星探査試験中にSEEKERコンソーシアムが収集した実際の標高マップに転送されテストされる。 アプリケーションに依存しない事前学習モデルの転送と微調整は、ほとんど利用可能な実データに基づいてトレーニングするよりも優れた性能を保っていることを示す。

Terrain traversability analysis plays a major role in ensuring safe robotic navigation in unstructured environments. However, real-time constraints frequently limit the accuracy of online tests, especially in scenarios where realistic robot-terrain interactions are complex to model. In this context, we propose a deep learning framework, trained in an end-to-end fashion from elevation maps and trajectories, to estimate the occurrence of failure events. The network is first trained and tested in simulation over synthetic maps generated by the OpenSimplex algorithm. The prediction performance of the Deep Learning framework is illustrated by being able to retain over 94% recall of the original simulator at 30% of the computational time. Finally, the network is transferred and tested on real elevation maps collected by the SEEKER consortium during the Martian rover test trial in the Atacama desert in Chile. We show that transferring and fine-tuning of an application-independent pre-trained model retains better performance than training uniquely on scarcely available real data.
翻訳日:2021-05-25 15:23:33 公開日:2021-05-23
# トレーニング後のスパーシリティ-量子化

Post-Training Sparsity-Aware Quantization ( http://arxiv.org/abs/2105.11010v1 )

ライセンス: Link先を確認
Gil Shomron, Freddy Gabbay, Samer Kurzum, Uri Weiser(参考訳) 量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。 ハードウェアで効率的に実装でき、広範なハードウェアリソースやトレーニングセットを必要としないため、一様後トレーニング量子化(ptq)メソッドは一般的である。 均一なPTQを用いてFP32モデルをINT8にマッピングすると、無視できる精度劣化を伴うモデルが得られるが、量子化ノイズの増加により精度劣化が顕著になるため、PTQで8ビット未満の精度低下は困難である。 本稿では,非構造的および動的活性化スパーシティを異なる表現粒度で活用するスパーシティ・アウェア量子化(sparq)法を提案する。 例えば、4ビット量子化は、8ビットの値のビットを動的に調べ、4ビットのウィンドウを選択し、まずゼロ値のビットをスキップする。 さらに、アクティベーション・バイ・アクティベーションを4ビットに量子化する代わりに、8ビットのアクティベーションのペアに着目し、そのうちの1つが0に等しいかどうかを調べる。 1 が 0 に等しい場合、2 は他方の 4 ビットの予算を対数的に使うことができ、両方が 0 に等しい場合は、それぞれが 4 ビットに動的に量子化される。 SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。 コードはhttps://github.com/gilshm/sparqで入手できる。

Quantization is a technique used in deep neural networks (DNNs) to increase execution performance and hardware efficiency. Uniform post-training quantization (PTQ) methods are common, since they can be implemented efficiently in hardware and do not require extensive hardware resources or a training set. Mapping FP32 models to INT8 using uniform PTQ yields models with negligible accuracy degradation; however, reducing precision below 8 bits with PTQ is challenging, as accuracy degradation becomes noticeable, due to the increase in quantization noise. In this paper, we propose a sparsity-aware quantization (SPARQ) method, in which the unstructured and dynamic activation sparsity is leveraged in different representation granularities. 4-bit quantization, for example, is employed by dynamically examining the bits of 8-bit values and choosing a window of 4 bits, while first skipping zero-value bits. Moreover, instead of quantizing activation-by-activation to 4 bits, we focus on pairs of 8-bit activations and examine whether one of the two is equal to zero. If one is equal to zero, the second can opportunistically use the other's 4-bit budget; if both do not equal zero, then each is dynamically quantized to 4 bits, as described. SPARQ achieves minor accuracy degradation, 2x speedup over widely used hardware architectures, and a practical hardware implementation. The code is available at https://github.com/gilshm/sparq.
翻訳日:2021-05-25 15:23:16 公開日:2021-05-23
# ランク抽出法とランダム化によるレバレッジスコアの推定

Estimating leverage scores via rank revealing methods and randomization ( http://arxiv.org/abs/2105.11004v1 )

ライセンス: Link先を確認
Aleksandros Sobczyk (1) and Efstratios Gallopoulos (2) ((1) IBM Research Europe, Zurich, Switzerland (2) Computer Engineering and Informatics Department, University of Patras, Greece)(参考訳) 任意のランクの直方体あるいは疎行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。 提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。 まず,ランク推定,列部分集合選択,最小二乗プリコンディショニングのための一組の高速新規アルゴリズムを開発した。 次に,これらのプリミティブに基づくスコア推定器の設計と実装について述べる。 これらの推定器は、ランク不足入力にも有効であり、データ分析アプリケーションではよく使われる。 すべてのアルゴリズムの詳細な複雑性解析と有意義な近似境界と最先端との比較を提供する。 アルゴリズムを評価し,その特性と性能を合成データと実世界データを用いて説明するために,広範な数値実験を行った。

We study algorithms for estimating the statistical leverage scores of rectangular dense or sparse matrices of arbitrary rank. Our approach is based on combining rank revealing methods with compositions of dense and sparse randomized dimensionality reduction transforms. We first develop a set of fast novel algorithms for rank estimation, column subset selection and least squares preconditioning. We then describe the design and implementation of leverage score estimators based on these primitives. These estimators are also effective for rank deficient input, which is frequently the case in data analytics applications. We provide detailed complexity analyses for all algorithms as well as meaningful approximation bounds and comparisons with the state-of-the-art. We conduct extensive numerical experiments to evaluate our algorithms and to illustrate their properties and performance using synthetic and real world data sets.
翻訳日:2021-05-25 15:22:02 公開日:2021-05-23
# テキストレビューからの製品オントロジーの自動抽出

Automatic Product Ontology Extraction from Textual Reviews ( http://arxiv.org/abs/2105.10966v1 )

ライセンス: Link先を確認
Joel Oksanen, Oana Cocarascu, Francesca Toni(参考訳) オントロジはテキストレビューを利用する異なる設定で有益であることが証明されている。 しかし、手動でオントロジーを構築するのは、自動化が必要な手間と時間がかかるプロセスです。 そこで本研究では,手書きのトレーニングデータを用いて,製品レビューからメロノミーの形でオントロジを自動的に抽出する手法を提案する。 提案手法が生成するオントロジーは,既存の手法(Text2Onto と COMET)によって抽出された,手作りオントロジー(WordNet)やオントロジーよりも優れていた。 具体的には、生成したオントロジーは、Amazonの既存のQ&Aデータセットと同様に、人間のアノテーションによって評価された場合、他よりも優れています。 さらに,本手法は,目に見えない製品に関する知識の収集において,より一般化することができる。 最後に,本手法は,amazonの標準的なスコアアグリゲーションに代えて,レビューに基づいて推奨製品を決定することができることを示す,実世界の設定を検討する。

Ontologies have proven beneficial in different settings that make use of textual reviews. However, manually constructing ontologies is a laborious and time-consuming process in need of automation. We propose a novel methodology for automatically extracting ontologies, in the form of meronomies, from product reviews, using a very limited amount of hand-annotated training data. We show that the ontologies generated by our method outperform hand-crafted ontologies (WordNet) and ontologies extracted by existing methods (Text2Onto and COMET) in several, diverse settings. Specifically, our generated ontologies outperform the others when evaluated by human annotators as well as on an existing Q&A dataset from Amazon. Moreover, our method is better able to generalise, in capturing knowledge about unseen products. Finally, we consider a real-world setting, showing that our method is better able to determine recommended products based on their reviews, in alternative to using Amazon's standard score aggregations.
翻訳日:2021-05-25 15:21:21 公開日:2021-05-23
# ブラックボックス状態から計画のための一階表現を学ぶ:新しい結果

Learning First-Order Representations for Planning from Black-Box States: New Results ( http://arxiv.org/abs/2105.10830v1 )

ライセンス: Link先を確認
Ivan D. Rodriguez, Blai Bonet, Javier Romero, Hector Geffner(参考訳) 最近、boint氏とgeffner氏は、計画ドメインのための一階表現は、アクションスキーマやドメイン述語について事前の知識なしに、状態空間の構造から学べることを示した。 このために、学習問題は、インスタンスi_i(オブジェクト数と初期状態)に関する情報と共に、観察された状態グラフg_iと一致する状態空間グラフg(p_i)を決定する最も単純な一階のドメイン記述dの探索として定式化される。 探索は、可能なアクションスキーマとドメイン述語の数、それらのアーティリティ、およびオブジェクトの数を符号化するパラメータだけが異なる命題理論の大規模なファミリー上で呼び出されるsatソルバによって、ほぼキャストされ、解決される。 本研究では,これらの学習者の限界を,ClingOシステムを用いた解集合プログラミング(ASP)エンコーディングに移行することによって押し上げる。 新しいエンコーディングはより透明で簡潔で、可能なモデルの範囲を広げつつ、探索を容易にする。 ボネットとゲフナーによって導入された領域は、新しいアプローチでより効率的に解くことができ、さらに、状態グラフに関する部分的な情報や、いくつかの状態の区別を妨げるノイズを扱うために容易に拡張できることを示した。

Recently Bonet and Geffner have shown that first-order representations for planning domains can be learned from the structure of the state space without any prior knowledge about the action schemas or domain predicates. For this, the learning problem is formulated as the search for a simplest first-order domain description D that along with information about instances I_i (number of objects and initial state) determine state space graphs G(P_i) that match the observed state graphs G_i where P_i = (D, I_i). The search is cast and solved approximately by means of a SAT solver that is called over a large family of propositional theories that differ just in the parameters encoding the possible number of action schemas and domain predicates, their arities, and the number of objects. In this work, we push the limits of these learners by moving to an answer set programming (ASP) encoding using the CLINGO system. The new encodings are more transparent and concise, extending the range of possible models while facilitating their exploration. We show that the domains introduced by Bonet and Geffner can be solved more efficiently in the new approach, often optimally, and furthermore, that the approach can be easily extended to handle partial information about the state graphs as well as noise that prevents some states from being distinguished.
翻訳日:2021-05-25 15:19:27 公開日:2021-05-23
# 視覚センシティブ情報に基づくステレオマッチング

Stereo Matching Based on Visual Sensitive Information ( http://arxiv.org/abs/2105.10831v1 )

ライセンス: Link先を確認
Hewei Wang, Muhammad Salman Pathan, and Soumyabrata Dev(参考訳) コンピュータビジョンの領域は多くの学者の間で最も議論されているトピックの1つであり、ステレオマッチングは最も重要なサブ分野である。 パララックス写像が深度写像に変換されると、多くの知的場に適用することができる。 本稿では,ミドルベリーデータセットの標準画像を用いて,視覚センシティブな情報に基づくステレオマッチングアルゴリズムを提案する。 コストウィンドウに関する従来のステレオマッチングアルゴリズムの限界を目指して、動的ウィンドウに基づくコスト集約アルゴリズムを提案し、左右の一貫性検出を用いて不一致画像を最適化し、エラーマッチング率をさらに低減する。 実験の結果,本アルゴリズムは,従来の国勢調査アルゴリズムと比較して精度が大幅に向上する画像のステレオマッチング効果を効果的に向上できることがわかった。 提案されたモデルコード、データセット、実験結果はhttps://github.com/WangHewei16/Stereo-Matching.comで公開されている。

The area of computer vision is one of the most discussed topics amongst many scholars, and stereo matching is its most important sub fields. After the parallax map is transformed into a depth map, it can be applied to many intelligent fields. In this paper, a stereo matching algorithm based on visual sensitive information is proposed by using standard images from Middlebury dataset. Aiming at the limitation of traditional stereo matching algorithms regarding the cost window, a cost aggregation algorithm based on the dynamic window is proposed, and the disparity image is optimized by using left and right consistency detection to further reduce the error matching rate. The experimental results show that the proposed algorithm can effectively enhance the stereo matching effect of the image providing significant improvement in accuracy as compared with the classical census algorithm. The proposed model code, dataset, and experimental results are available at https://github.com/WangHewei16/Stereo-Matching.
翻訳日:2021-05-25 15:16:16 公開日:2021-05-23
# 適応型人間詩:ゼロリアル3次元データを用いた単眼的人間詩推定

Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D Pose Data ( http://arxiv.org/abs/2105.10837v1 )

ライセンス: Link先を確認
Shuangjun Liu, Naveen Sehgal, Sarah Ostadabbas(参考訳) 推論モデルの最終的な目標は、実生活のアプリケーションで堅牢で機能することである。 しかし、トレーニングとテストデータドメインのギャップはしばしばモデルの性能に悪影響を及ぼします。 この問題は、制御された実験室でしばしば3次元の人間のデータが収集される単眼的3次元人物ポーズ推定問題において特に重要である。 本稿では,出現空間とポーズ空間の両方における適応問題に対処するhup(adapted human pose)アプローチを提案することで,ドメインシフトの悪影響を緩和することに焦点を当てる。 AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。 AHuPの3次元ポーズ推定性能を2つのシナリオで説明する。 まず、ソースとターゲットのデータが外観とポーズ空間の両方で著しく異なる場合、合成された3d人間データ(実際の3d人間データはゼロ)から学び、トレーニングのために実際の3d人間ポーズベンチマークに完全にアクセスできる最先端の3dポーズ推定モデルと同等のパフォーマンスを示す。 第二に、ソースとターゲットのデータセットが主にポーズ空間で異なる場合、トレーニングデータセットとは異なるデータセットでテストした場合の最先端モデルのパフォーマンスをさらに向上するためにAHuPアプローチを適用することができる。

The ultimate goal for an inference model is to be robust and functional in real life applications. However, training vs. test data domain gaps often negatively affect model performance. This issue is especially critical for the monocular 3D human pose estimation problem, in which 3D human data is often collected in a controlled lab setting. In this paper, we focus on alleviating the negative effect of domain shift by presenting our adapted human pose (AHuP) approach that addresses adaptation problems in both appearance and pose spaces. AHuP is built around a practical assumption that in real applications, data from target domain could be inaccessible or only limited information can be acquired. We illustrate the 3D pose estimation performance of AHuP in two scenarios. First, when source and target data differ significantly in both appearance and pose spaces, in which we learn from synthetic 3D human data (with zero real 3D human data) and show comparable performance with the state-of-the-art 3D pose estimation models that have full access to the real 3D human pose benchmarks for training. Second, when source and target datasets differ mainly in the pose space, in which AHuP approach can be applied to further improve the performance of the state-of-the-art models when tested on the datasets different from their training dataset.
翻訳日:2021-05-25 15:16:04 公開日:2021-05-23
# セマンティックセグメンテーションにおける教師なしドメイン適応のロバスト性探索

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2105.10843v1 )

ライセンス: Link先を確認
Jinyu Yang, Chunyuan Li, Weizhi An, Hehuan Ma, Yuzhi Guo, Yu Rong, Peilin Zhao, Junzhou Huang(参考訳) 最近の研究は、深層ニューラルネットワークが敵の例に弱いことを示唆している。わずかながら意図的な摂動を持つ入力は、ネットワークによって誤って分類される。 このような脆弱性は、セキュリティ関連のアプリケーション(自動運転車におけるセマンティクスセグメンテーションなど)にリスクをもたらし、モデルの信頼性に重大な懸念を引き起こす。 まず,既存のUDA手法の堅牢性を総合的に評価し,堅牢なUDA手法を提案する。 i) セマンティックセグメンテーションにおけるUDA手法の堅牢性は、この分野でのセキュリティ上の懸念を生じさせる未発見のままであり、(ii) 一般的に自己スーパービジョン(回転やジグソーなど)は、分類や認識などのイメージタスクに有効であるが、セグメンテーションタスクの識別的表現を学習できる重要な監視信号の提供には失敗している。 これらの観察結果から, クリーンイメージと敵対例との一致を最大化し, 出力空間の相対的損失を最大化する, 対向自己超越UDA (ASSUDA) を提案する。 一般的なベンチマークに関する大規模な実証研究は、ASSUDAが敵の攻撃に耐性があることを実証している。

Recent studies imply that deep neural networks are vulnerable to adversarial examples -- inputs with a slight but intentional perturbation are incorrectly classified by the network. Such vulnerability makes it risky for some security-related applications (e.g., semantic segmentation in autonomous cars) and triggers tremendous concerns on the model reliability. For the first time, we comprehensively evaluate the robustness of existing UDA methods and propose a robust UDA approach. It is rooted in two observations: (i) the robustness of UDA methods in semantic segmentation remains unexplored, which pose a security concern in this field; and (ii) although commonly used self-supervision (e.g., rotation and jigsaw) benefits image tasks such as classification and recognition, they fail to provide the critical supervision signals that could learn discriminative representation for segmentation tasks. These observations motivate us to propose adversarial self-supervision UDA (or ASSUDA) that maximizes the agreement between clean images and their adversarial examples by a contrastive loss in the output space. Extensive empirical studies on commonly used benchmarks demonstrate that ASSUDA is resistant to adversarial attacks.
翻訳日:2021-05-25 15:15:41 公開日:2021-05-23
# FCCDN:VHR画像変化検出のための機能制約ネットワーク

FCCDN: Feature Constraint Network for VHR Image Change Detection ( http://arxiv.org/abs/2105.10860v1 )

ライセンス: Link先を確認
Pan Chen, Danfeng Hong, Zhengchao Chen, Xuan Yang, Baipeng Li, Bing Zhang(参考訳) 変化検出は、両時間同時登録画像の画素単位の差を識別するプロセスである。 これは地球観測にとって非常に重要である。 近年、深層学習(dl)の出現に伴い、深層畳み込みニューラルネットワーク(cnns)ベースの手法が変化検出の分野でその能力と実現可能性を示している。 しかし、変更機能の学習には効果的な監督がまだ欠けている。 本研究では,特徴制約変化検出ネットワーク(FCCDN)を提案する。 我々は,双時間特徴抽出と特徴融合の両方に特徴を制約する。 具体的には、変更検出タスクのためのデュアルエンコーダ-デコーダネットワークバックボーンを提案する。 バックボーンの中心として,マルチスケール機能を抽出・融合する非ローカル機能ピラミッドネットワークを設計した。 両時間的特徴を堅牢に融合させるため,高密度接続型特徴融合モジュールを構築した。 さらに,特徴学習を制約する自己教師型学習戦略を提案する。 FCCDNに基づいて、2つのビルディング変更検出データセット(LEVIR-CDとWHU)の最先端性能を実現する。 LEVIR-CDデータセットでは、0.8569のIoUと0.9229のF1スコアを達成する。 WHUデータセットでは、IoUが0.8820、F1が0.9373である。 さらに, 意味的セグメンテーションラベルを使わずに, 正確な両時間的セグメンテーション結果の取得を初めて達成した。 ラベル付けのコストが削減されるため、変更検出の適用には不可欠である。

Change detection is the process of identifying pixel-wise differences of bi-temporal co-registered images. It is of great significance to Earth observation. Recently, with the emerging of deep learning (DL), deep convolutional neural networks (CNNs) based methods have shown their power and feasibility in the field of change detection. However, there is still a lack of effective supervision for change feature learning. In this work, a feature constraint change detection network (FCCDN) is proposed. We constrain features both on bi-temporal feature extraction and feature fusion. More specifically, we propose a dual encoder-decoder network backbone for the change detection task. At the center of the backbone, we design a non-local feature pyramid network to extract and fuse multi-scale features. To fuse bi-temporal features in a robust way, we build a dense connection-based feature fusion module. Moreover, a self-supervised learning-based strategy is proposed to constrain feature learning. Based on FCCDN, we achieve state-of-the-art performance on two building change detection datasets (LEVIR-CD and WHU). On the LEVIR-CD dataset, we achieve IoU of 0.8569 and F1 score of 0.9229. On the WHU dataset, we achieve IoU of 0.8820 and F1 score of 0.9373. Moreover, we, for the first time, achieve the acquire of accurate bi-temporal semantic segmentation results without using semantic segmentation labels. It is vital for the application of change detection because it saves the cost of labeling.
翻訳日:2021-05-25 15:15:16 公開日:2021-05-23
# VS-Net: ビジュアルローカライゼーションのためのセグメンテーションによる投票

VS-Net: Voting with Segmentation for Visual Localization ( http://arxiv.org/abs/2105.10886v1 )

ライセンス: Link先を確認
Zhaoyang Huang, Han Zhou, Yijin Li, Bangbang Yang, Yan Xu, Xiaowei Zhou, Hujun Bao, Guofeng Zhang, Hongsheng Li(参考訳) 視覚的ローカライゼーションはロボット工学とコンピュータビジョンにおいて非常に重要である。 近年,シーン座標回帰に基づく手法が,小さな静的シーンにおける視覚的局所化において良好な性能を示している。 しかし、多くの劣ったシーン座標からカメラのポーズを推定する。 そこで本研究では,クエリ画像と3次元マップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。 ランドマーク生成段階において、ターゲットシーンの3d表面は、シーン特有のランドマークとみなされるモザイクパッチに過剰に区切られる。 シーン固有のランドマークを頑健かつ正確に復元するために、Voting with Segmentation Network (VS-Net) を提案し、セグメント化ブランチで画素を異なるランドマークパッチに分割し、各パッチ内のランドマーク位置をランドマーク位置投票ブランチで推定する。 シーン内のランドマークの数は最大5000に達する可能性があるため、多くのクラスでセグメンテーションネットワークを訓練することは、一般的に使用されるクロスエントロピー損失の計算とメモリコストがかかる。 本稿では,多くのラベルを持つセマンティックセグメンテーションネットワークを効率的にトレーニングできる,強負のマイニングによる新しいプロトタイプベースの三重項損失を提案する。 提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。 コードとモデルは \href{https://github.com/zju3dv/VS-Net}{https://github.com/zju3dv/VS-Net} で公開されている。

Visual localization is of great importance in robotics and computer vision. Recently, scene coordinate regression based methods have shown good performance in visual localization in small static scenes. However, it still estimates camera poses from many inferior scene coordinates. To address this problem, we propose a novel visual localization framework that establishes 2D-to-3D correspondences between the query image and the 3D map with a series of learnable scene-specific landmarks. In the landmark generation stage, the 3D surfaces of the target scene are over-segmented into mosaic patches whose centers are regarded as the scene-specific landmarks. To robustly and accurately recover the scene-specific landmarks, we propose the Voting with Segmentation Network (VS-Net) to segment the pixels into different landmark patches with a segmentation branch and estimate the landmark locations within each patch with a landmark location voting branch. Since the number of landmarks in a scene may reach up to 5000, training a segmentation network with such a large number of classes is both computation and memory costly for the commonly used cross-entropy loss. We propose a novel prototype-based triplet loss with hard negative mining, which is able to train semantic segmentation networks with a large number of labels efficiently. Our proposed VS-Net is extensively tested on multiple public benchmarks and can outperform state-of-the-art visual localization methods. Code and models are available at \href{https://github.com/zju3dv/VS-Net}{https://github.com/zju3dv/VS-Net}.
翻訳日:2021-05-25 15:14:59 公開日:2021-05-23
# COTR: Convolution in Transformer Network for End to End Polyp Detection

COTR: Convolution in Transformer Network for End to End Polyp Detection ( http://arxiv.org/abs/2105.10925v1 )

ライセンス: Link先を確認
Zhiqiang Shen, Chaonan Lin, Shaohua Zheng(参考訳) 目的:大腸癌(CRC)は世界で2番目に多いがん死亡の原因である。 大腸内視鏡は大腸スクリーニングやポリープ病変の診断に広く用いられている。 それでも大腸内視鏡による手動検診はポリープのかなりのミス率に悩まされており、内視鏡医にとって圧倒的な負担となっている。 ポリープ検出のためのコンピュータ支援診断(CAD)は、人的ミスや人的負担を軽減する可能性がある。 しかし、オブジェクト検出フレームワークに基づく現在のポリプ検出方法は、多くの手作り前処理と後処理操作、ドメイン固有の知識を必要とするユーザーガイダンスを必要とする。 方法: 本論文では, 終端ポリプ検出のための変換器ネットワーク(COTR)の畳み込みを提案する。 検出変換器(DETR)によりモチベーションされたCOTRは、特徴抽出用CNN、特徴符号化および再校正用畳み込み層にインターリーブされたトランスフォーマー層、オブジェクトクエリ用トランスフォーマー層、および検出予測用フィードフォワードネットワークによって構成される。 DETRの緩やかな収束を考えると、COTRはコンボリューション層をトランスフォーマーエンコーダに埋め込み、特徴再構成と収束加速を行う。 結果: 2つのポリープデータセットにおける実験結果から, cotr は 91.49\% 精度, 82.69% 感度, 86.87% score を etis-larib で達成し, 91.67% 精度, 93.54% 感度, 92.60% f1-score を cvc-colondb で達成した。 結論:本研究では,大腸ポリープ検出のための検出トランスを用いたエンドツーエンド検出手法を提案する。 ETIS-LARIBとCVC-ColonDBデータセットの実験結果から,提案モデルが最先端手法と同等の性能を示した。

Purpose: Colorectal cancer (CRC) is the second most common cause of cancer mortality worldwide. Colonoscopy is a widely used technique for colon screening and polyp lesions diagnosis. Nevertheless, manual screening using colonoscopy suffers from a substantial miss rate of polyps and is an overwhelming burden for endoscopists. Computer-aided diagnosis (CAD) for polyp detection has the potential to reduce human error and human burden. However, current polyp detection methods based on object detection framework need many handcrafted pre-processing and post-processing operations or user guidance that require domain-specific knowledge. Methods: In this paper, we propose a convolution in transformer (COTR) network for end-to-end polyp detection. Motivated by the detection transformer (DETR), COTR is constituted by a CNN for feature extraction, transformer encoder layers interleaved with convolutional layers for feature encoding and recalibration, transformer decoder layers for object querying, and a feed-forward network for detection prediction. Considering the slow convergence of DETR, COTR embeds convolution layers into transformer encoder for feature reconstruction and convergence acceleration. Results: Experimental results on two public polyp datasets show that COTR achieved 91.49\% precision, 82.69% sensitivity, and 86.87% F1-score on the ETIS-LARIB, and 91.67% precision, 93.54% sensitivity, and 92.60% F1-score on the CVC-ColonDB. Conclusion: This study proposed an end to end detection method based on detection transformer for colorectal polyp detection. Experimental results on ETIS-LARIB and CVC-ColonDB dataset demonstrated that the proposed model achieved comparable performance against state-of-the-art methods.
翻訳日:2021-05-25 15:14:32 公開日:2021-05-23
# トランスフォーマーによる群衆の数え上げ

Boosting Crowd Counting with Transformers ( http://arxiv.org/abs/2105.10926v1 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic, Luc Van Gool(参考訳) 大規模なコンテキストを畳み込みニューラルネットワーク(CNN)に統合することで、群衆カウント問題に関する重要な進歩が達成されている。 これは、一見ボトムアップな問題にもかかわらず、グローバルなシーンコンテキストが不可欠であることを示している。 これは、コンテキストの知識が所定のシーンに局所的な特徴抽出を適応させ、改善できるという事実によって説明できる。 そこで本稿では,群衆数におけるグローバルコンテキストの役割について検討する。 具体的には、重なり合う画像パッチからグローバル情報で特徴を抽出するために純粋変換器を用いる。 分類により、入力シーケンスにコンテキストトークンを追加し、トランスフォーマー層全体にわたる画像パッチに対応するトークンとの情報交換を容易にする。 トランスフォーマーは、試行錯誤のチャネルワイドインタラクションを明示的にモデル化していないため、コンテクストトークンによって通知されるチャネルワイドアテンションを通じて符号化された特徴を再検討するトークンアテンションモジュール(TAM)を提案する。 さらに、回帰分岐モジュール(rtm)によって画像の総人物数を予測するために採用されている。 大規模な実験により,上海技術,UCF-QNRF,JHU-CROWD++,NWPUなどの各種データセット上での最先端性能が得られた。 大規模jhu-crowd++データセットでは、前回のベストを26.9%、maeとmseで29.9%改善した。

Significant progress on the crowd counting problem has been achieved by integrating larger context into convolutional neural networks (CNNs). This indicates that global scene context is essential, despite the seemingly bottom-up nature of the problem. This may be explained by the fact that context knowledge can adapt and improve local feature extraction to a given scene. In this paper, we therefore investigate the role of global context for crowd counting. Specifically, a pure transformer is used to extract features with global information from overlapping image patches. Inspired by classification, we add a context token to the input sequence, to facilitate information exchange with tokens corresponding to image patches throughout transformer layers. Due to the fact that transformers do not explicitly model the tried-and-true channel-wise interactions, we propose a token-attention module (TAM) to recalibrate encoded features through channel-wise attention informed by the context token. Beyond that, it is adopted to predict the total person count of the image through regression-token module (RTM). Extensive experiments demonstrate that our method achieves state-of-the-art performance on various datasets, including ShanghaiTech, UCF-QNRF, JHU-CROWD++ and NWPU. On the large-scale JHU-CROWD++ dataset, our method improves over the previous best results by 26.9% and 29.9% in terms of MAE and MSE, respectively.
翻訳日:2021-05-25 15:14:02 公開日:2021-05-23
# マルチソースファイングラインド物体認識のための弱教師付きインスタンスアテンション

Weakly Supervised Instance Attention for Multisource Fine-Grained Object Recognition ( http://arxiv.org/abs/2105.10983v1 )

ライセンス: Link先を確認
Bulut Aygunes, Ramazan Gokberk Cinbis, Selim Aksoy(参考訳) 補完スペクトル、空間、構造情報を利用するマルチソース画像解析は、オブジェクトを多くの類似したサブカテゴリの1つに分類することを目的とした、きめ細かいオブジェクト認識の恩恵を受ける。 しかし、比較的小さなオブジェクトを含むマルチソースタスクでは、最小の登録エラーでさえ分類プロセスに高い不確実性をもたらす可能性がある。 入力画像は,与えられたクラスラベルを持つオブジェクトが近傍に存在し,その正確な位置を知らずに,期待される対象位置周辺の大きな近傍に対応するという,弱い教師付き学習視点からこの問題にアプローチする。 提案手法では,オブジェクトの同時配置と分類に並列分岐を持つ単一ソースのディープインスタンスアテンションモデルを使用し,このモデルを複数ソースに拡張することで,位置不確実性のないと仮定された参照ソースを用いて,確率レベル,ロジットレベル,特徴レベル,画素レベルという4つのレベルにおける複数のソースの融合を支援する。 その結果,RGB,マルチスペクトル,LiDARデータを用いた場合の最高性能ベースラインよりも5.7%向上し,40種類の木を認識した場合の精度が53%向上した。 また,様々なパラメータの複雑性設定において,各モデルを評価することで,モデルのキャパシティが増加すると,デフォルトキャパシティ設定よりも6.3%向上する。

Multisource image analysis that leverages complementary spectral, spatial, and structural information benefits fine-grained object recognition that aims to classify an object into one of many similar subcategories. However, for multisource tasks that involve relatively small objects, even the smallest registration errors can introduce high uncertainty in the classification process. We approach this problem from a weakly supervised learning perspective in which the input images correspond to larger neighborhoods around the expected object locations where an object with a given class label is present in the neighborhood without any knowledge of its exact location. The proposed method uses a single-source deep instance attention model with parallel branches for joint localization and classification of objects, and extends this model into a multisource setting where a reference source that is assumed to have no location uncertainty is used to aid the fusion of multiple sources in four different levels: probability level, logit level, feature level, and pixel level. We show that all levels of fusion provide higher accuracies compared to the state-of-the-art, with the best performing method of feature-level fusion resulting in 53% accuracy for the recognition of 40 different types of trees, corresponding to an improvement of 5.7% over the best performing baseline when RGB, multispectral, and LiDAR data are used. We also provide an in-depth comparison by evaluating each model at various parameter complexity settings, where the increased model capacity results in a further improvement of 6.3% over the default capacity setting.
翻訳日:2021-05-25 15:13:38 公開日:2021-05-23
# ヒューリスティックな弱教師付き3次元人間のポーズ推定 : 3次元ポーズ基底真理を伴わない新しい文脈

Heuristic Weakly Supervised 3D Human Pose Estimation in Novel Contexts without Any 3D Pose Ground Truth ( http://arxiv.org/abs/2105.10996v1 )

ライセンス: Link先を確認
Shuangjun Liu, Xiaofei Huang, Nihang Fu, and Sarah Ostadabbas(参考訳) 単一のRGB画像からの単眼的な3Dポーズ推定は、ここ数年で多くの注目を集めている。 しかし、競合性能を持つポーズ推論モデルは、3Dポーズの真理データや、ターゲットドメインにおける少なくとも既知のポーズ前のデータを監督する必要がある。 しかし、データ収集制約のある多くの実世界のアプリケーションにおけるこれらのデータ要求は達成できないかもしれない。 本稿では,基礎的真理の3dデータにアクセスできない状況において,微調整であっても3dのポーズを推定するためのhw-hupと呼ばれるヒューリスティックな弱教師付き解を提案する。 HW-HuPは、パブリックな3Dヒューマンポーズデータセットから部分的なポーズ先行を学習し、ターゲットドメインから容易にアクセス可能な観察を使用して、3Dヒューマンポーズと形状を最適化および回帰ハイブリッドサイクルで反復的に推定する。 本設計では, 補助情報としての深度データは, トレーニング中に弱い監督力として利用されるが, 推論には必要ではない。 我々は,HW-HuPの性能を,被写体と幼児の両ポーズのデータセットで定性的に評価した。 また,HW-HuPの性能を3次元地上真実に対して公開可能なモーションキャプチャーデータセット上で定量的に検証した。 HW-HuPは、特に閉塞や全暗視といった悪視条件下でのポーズ推定タスクのために、他の入力モードにも拡張することができる。 Human3.6Mベンチマークでは、HW-HuPは、MPJPEが104.1mm、PA MPJPEが50.4mmである。

Monocular 3D human pose estimation from a single RGB image has received a lot attentions in the past few year. Pose inference models with competitive performance however require supervision with 3D pose ground truth data or at least known pose priors in their target domain. Yet, these data requirements in many real-world applications with data collection constraints may not be achievable. In this paper, we present a heuristic weakly supervised solution, called HW-HuP to estimate 3D human pose in contexts that no ground truth 3D data is accessible, even for fine-tuning. HW-HuP learns partial pose priors from public 3D human pose datasets and uses easy-to-access observations from the target domain to iteratively estimate 3D human pose and shape in an optimization and regression hybrid cycle. In our design, depth data as an auxiliary information is employed as weak supervision during training, yet it is not needed for the inference. We evaluate HW-HuP performance qualitatively on datasets of both in-bed human and infant poses, where no ground truth 3D pose is provided neither any target prior. We also test HW-HuP performance quantitatively on a publicly available motion capture dataset against the 3D ground truth. HW-HuP is also able to be extended to other input modalities for pose estimation tasks especially under adverse vision conditions, such as occlusion or full darkness. On the Human3.6M benchmark, HW-HuP shows 104.1mm in MPJPE and 50.4mm in PA MPJPE, comparable to the existing state-of-the-art approaches that benefit from full 3D pose supervision.
翻訳日:2021-05-25 15:13:12 公開日:2021-05-23
# グラフニューラルネットワークによるハイパーグラフ事前学習

Hypergraph Pre-training with Graph Neural Networks ( http://arxiv.org/abs/2105.10862v1 )

ライセンス: Link先を確認
Boxin Du, Changhe Yuan, Robert Barton, Tal Neiman, Hanghang Tong(参考訳) 様々なハイインパクトアプリケーションでハイパーグラフが普及しているにもかかわらず、ハイパーグラフ表現学習に関する著作は少なく、その大半はハイパーリンク予測に重点を置いており、しばしばトランスダクティブ学習の設定に制限されている。 中でも、効果的なハイパーグラフ表現学習の大きなハードルは、ノードやハイパーエッジのラベル不足にある。 本稿では,ハイパーグラフのためのグラフニューラルネットワークを用いたエンドツーエンドの双方向事前学習戦略を提案する。 HyperGeneという名前のフレームワークには3つの特長がある。 まず、利用可能なラベル情報を取得することができるが、より重要なのは、主に自己管理方式で設計されており、適用性を大幅に拡大する。 第二に、提案されたHyperGeneの中心には、ノードレベルとハイパーエッジレベルの2つの慎重に設計されたプリテキストがあり、これにより、ローカルとグローバル両方のコンテキストを相互に補完的にエンコードすることができます。 第三に、提案されたフレームワークは、トランスダクティブとインダクティブの両方で機能する。 提案した2つの前提文をタンデムで適用すると,提案手法のバイレベル特性により,事前学習されたモデルから下流アプリケーションへの知識の適応が促進される。 1)HyperGeneは、ハイパーエッジ分類において最大5.69%の改善を実現し、(2)トレーニング前の効率を平均で42.80%改善する。

Despite the prevalence of hypergraphs in a variety of high-impact applications, there are relatively few works on hypergraph representation learning, most of which primarily focus on hyperlink prediction, often restricted to the transductive learning setting. Among others, a major hurdle for effective hypergraph representation learning lies in the label scarcity of nodes and/or hyperedges. To address this issue, this paper presents an end-to-end, bi-level pre-training strategy with Graph Neural Networks for hypergraphs. The proposed framework named HyperGene bears three distinctive advantages. First, it is capable of ingesting the labeling information when available, but more importantly, it is mainly designed in the self-supervised fashion which significantly broadens its applicability. Second, at the heart of the proposed HyperGene are two carefully designed pretexts, one on the node level and the other on the hyperedge level, which enable us to encode both the local and the global context in a mutually complementary way. Third, the proposed framework can work in both transductive and inductive settings. When applying the two proposed pretexts in tandem, it can accelerate the adaptation of the knowledge from the pre-trained model to downstream applications in the transductive setting, thanks to the bi-level nature of the proposed method. The extensive experimental results demonstrate that: (1) HyperGene achieves up to 5.69% improvements in hyperedge classification, and (2) improves pre-training efficiency by up to 42.80% on average.
翻訳日:2021-05-25 15:06:37 公開日:2021-05-23
# 二元分類における各種データサンプリング手法による不均衡処理に関する研究

A Study imbalance handling by various data sampling methods in binary classification ( http://arxiv.org/abs/2105.10959v1 )

ライセンス: Link先を確認
Mohamed Hamama(参考訳) The purpose of this research report is to present the our learning curve and the exposure to the Machine Learning life cycle, with the use of a Kaggle binary classification data set and taking to explore various techniques from pre-processing to the final optimization and model evaluation, also we highlight on the data imbalance issue and we discuss the different methods of handling that imbalance on the data level by over-sampling and under sampling not only to reach a balanced class representation but to improve the overall performance. この作業は、将来の作業のギャップも開きます。

The purpose of this research report is to present the our learning curve and the exposure to the Machine Learning life cycle, with the use of a Kaggle binary classification data set and taking to explore various techniques from pre-processing to the final optimization and model evaluation, also we highlight on the data imbalance issue and we discuss the different methods of handling that imbalance on the data level by over-sampling and under sampling not only to reach a balanced class representation but to improve the overall performance. This work also opens some gaps for future work.
翻訳日:2021-05-25 15:06:12 公開日:2021-05-23
# 知識組織エコシステムに向けて

Towards Knowledge Organization Ecosystems ( http://arxiv.org/abs/2105.10923v1 )

ライセンス: Link先を確認
Mayukh Bagchi(参考訳) すでに確立された)知識組織の重要性と、知識ベース人工知能(AI)システムにおける試行錯誤された高品質なスキームに言及する必要はない。 しかし同様に、ドメインの連続的な顔化や漂流を捉えることができないため、スタンドアローンのKOSが機能的に非効率なコンポーネントになりつつあることも無視するのは難しい。 The paper proposes a radical re-conceptualization of KOSs as a first step to solve such an inability, and, accordingly, contributes in the form of the following dimensions: (i) an explicit characterization of Knowledge Organization Ecosystems (KOEs) (possibly for the first time) and their positioning as pivotal components in realizing sustainable knowledge-based AI solutions, (ii) as a consequence of such a novel characterization, a first examination and characterization of KOEs as Socio-Technical Systems (STSs), thus opening up an entirely new stream of research in knowledge-based AI, and (iii) motivating KOEs not to be mere STSs but STSs which are grounded in Ethics and Responsible Artificial Intelligence cardinals from their very genesis. 論文は, 論文全体に分散した研究文献の貢献を根拠とし, 今後の研究の可能性について概説する。

It is needless to mention the (already established) overarching importance of knowledge organization and its tried-and-tested high-quality schemes in knowledge-based Artificial Intelligence (AI) systems. But equally, it is also hard to ignore that, increasingly, standalone KOSs are becoming functionally ineffective components for such systems, given their inability to capture the continuous facetization and drift of domains. The paper proposes a radical re-conceptualization of KOSs as a first step to solve such an inability, and, accordingly, contributes in the form of the following dimensions: (i) an explicit characterization of Knowledge Organization Ecosystems (KOEs) (possibly for the first time) and their positioning as pivotal components in realizing sustainable knowledge-based AI solutions, (ii) as a consequence of such a novel characterization, a first examination and characterization of KOEs as Socio-Technical Systems (STSs), thus opening up an entirely new stream of research in knowledge-based AI, and (iii) motivating KOEs not to be mere STSs but STSs which are grounded in Ethics and Responsible Artificial Intelligence cardinals from their very genesis. The paper grounds the above contributions in relevant research literature in a distributed fashion throughout the paper, and finally concludes by outlining the future research possibilities.
翻訳日:2021-05-25 15:04:15 公開日:2021-05-23
# チームメイトとは何か? 人間-AIチームにおけるチーム構成の考察

Who/What is My Teammate? Team Composition Considerations in Human-AI Teaming ( http://arxiv.org/abs/2105.11000v1 )

ライセンス: Link先を確認
Nathan J. McNeese, Beau G. Schelble, Lorenzo Barberis Canonico, Mustafa Demir(参考訳) 人間のAIチームの特徴とダイナミクスについては、特定の人間と人間のチームの概念がどのように人間のAIチームに適用されるか、この構成がチームのパフォーマンスにどのように影響するか、といった理解の欠如など、不明な点が多い。 本稿では, チームパフォーマンス, チーム状況認識, チーム認知など, さまざまな複合構成チーム(人間のみ, 人間のみ, 人間のみ, AIのみ, AIのみ)における人間とAIのコラボレーションの本質的側面を, シミュレーションされた緊急対応管理シナリオを通じて検討する実験研究を概説する。 結果から,チーム認知の認知はパフォーマンスを予測できないため,チームの認知とパフォーマンスの指標に関する二分法の結果が示唆された。 チームの状況認識やチームスコアといったパフォーマンス指標は、人間とaiの混成チームよりも低いレベルで実行されたすべての参加者で構成されるチームが、aiのみのチームが最高のパフォーマンスを達成していることを示している。 認識されたチームの認知は、人間のみのチームで最も高く、混合構成チームは、全チームの58%以下で認識されたチームの認知を報告した。 これらの結果は、将来の混合チームに対して、特定のアプリケーションにおいて人間のみのチームよりも混合チームのパフォーマンスが向上する可能性があることを知らせると同時に、混合チームの認識に対する悪影響を強調します。

There are many unknowns regarding the characteristics and dynamics of human-AI teams, including a lack of understanding of how certain human-human teaming concepts may or may not apply to human-AI teams and how this composition affects team performance. This paper outlines an experimental research study that investigates essential aspects of human-AI teaming such as team performance, team situation awareness, and perceived team cognition in various mixed composition teams (human-only, human-human-AI, human-AI-AI, and AI-only) through a simulated emergency response management scenario. Results indicate dichotomous outcomes regarding perceived team cognition and performance metrics, as perceived team cognition was not predictive of performance. Performance metrics like team situational awareness and team score showed that teams composed of all human participants performed at a lower level than mixed human-AI teams, with the AI-only teams attaining the highest performance. Perceived team cognition was highest in human-only teams, with mixed composition teams reporting perceived team cognition 58% below the all-human teams. These results inform future mixed teams of the potential performance gains in utilizing mixed teams' over human-only teams in certain applications, while also highlighting mixed teams' adverse effects on perceived team cognition.
翻訳日:2021-05-25 15:03:57 公開日:2021-05-23
# ランダムグラフにおける潜在位置の等式に関する仮説検証

Hypothesis Testing for Equality of Latent Positions in Random Graphs ( http://arxiv.org/abs/2105.10838v1 )

ライセンス: Link先を確認
Xinjie Du, Minh Tang(参考訳) 一般化されたランダムドット積グラフの2つの頂点$i$と$j$が、おそらくスケーリングまで、同じ潜在位置を持つという仮説テスト問題を考える。 この仮説テストの特別な例は、確率ブロックモデルと次数補正確率ブロックモデルグラフの2つの頂点が同じブロックメンバシップベクトルを持つかどうかをテストすることである。 グラフの隣接性または正規化ラプラシアンスペクトル埋め込みのいずれかのi$th行とj$th行の間の経験的マハラノビス距離に基づくいくつかのテスト統計について提案する。 軽度条件下では、これらのテスト統計は、ヌルおよび局所的な代替仮説の下でのカイ二乗分布を制限することを示し、局所的な代替条件の下で非中央性パラメータの明示的な表現を導出した。 これらの極限結果を用いて, 標準確率ブロックモデルとその次数補正型を選択できるモデル選択問題に対処する。 提案実験の有効性はシミュレーション研究と実データ応用の両方を通して示される。

We consider the hypothesis testing problem that two vertices $i$ and $j$ of a generalized random dot product graph have the same latent positions, possibly up to scaling. Special cases of this hypotheses test include testing whether two vertices in a stochastic block model or degree-corrected stochastic block model graph have the same block membership vectors. We propose several test statistics based on the empirical Mahalanobis distances between the $i$th and $j$th rows of either the adjacency or the normalized Laplacian spectral embedding of the graph. We show that, under mild conditions, these test statistics have limiting chi-square distributions under both the null and local alternative hypothesis, and we derived explicit expressions for the non-centrality parameters under the local alternative. Using these limit results, we address the model selection problem of choosing between the standard stochastic block model and its degree-corrected variant. The effectiveness of our proposed tests are illustrated via both simulation studies and real data applications.
翻訳日:2021-05-25 15:02:40 公開日:2021-05-23
# 協調的マルチエージェントパス発見 : 経路計画と衝突回避を超えて

Cooperative Multi-Agent Path Finding: Beyond Path Planning and Collision Avoidance ( http://arxiv.org/abs/2105.10993v1 )

ライセンス: Link先を確認
Nir Greshler, Ofir Gordon, Oren Salzman, and Nahum Shimkin(参考訳) 本稿では,協調行動が組み込まれた従来のMAPF問題の拡張であるCooperative Multi-Agent Path Finding (Co-MAPF)問題を紹介する。 この設定では、自律的なエージェントのグループは共有環境で動作し、グループ内の他のエージェントとの衝突を避けながら協調的なタスクを完了しなければならない。 この拡張は、与えられたタスクを完了するために、エージェントのグループが協力する必要がある多くの現実世界のアプリケーションを自然にモデル化する。 この目的のために、我々はCo-MAPF問題を定式化し、幅広いCo-MAPF問題に対して最適なCBSベースのアルゴリズムであるCo-CBSを導入する。 co-cbsはcbsに統合された協調計画モジュールを使用しており、協調計画が経路計画から切り離されている。 最後に,本アルゴリズムの特性を示すいくつかのmapfベンチマークで実験結果を示す。

We introduce the Cooperative Multi-Agent Path Finding (Co-MAPF) problem, an extension to the classical MAPF problem, where cooperative behavior is incorporated. In this setting, a group of autonomous agents operate in a shared environment and have to complete cooperative tasks while avoiding collisions with the other agents in the group. This extension naturally models many real-world applications, where groups of agents are required to collaborate in order to complete a given task. To this end, we formalize the Co-MAPF problem and introduce Cooperative Conflict-Based Search (Co-CBS), a CBS-based algorithm for solving the problem optimally for a wide set of Co-MAPF problems. Co-CBS uses a cooperation-planning module integrated into CBS such that cooperation planning is decoupled from path planning. Finally, we present empirical results on several MAPF benchmarks demonstrating our algorithm's properties.
翻訳日:2021-05-25 15:02:07 公開日:2021-05-23
# ディジタルトウィンによるほぼ自律型管理・制御システムにおける診断・予後・戦略評価・不一致チェックの改善

Digital-Twin-Based Improvements to Diagnosis, Prognosis, Strategy Assessment, and Discrepancy Checking in a Nearly Autonomous Management and Control System ( http://arxiv.org/abs/2105.11039v1 )

ライセンス: Link先を確認
Linyu Lin, Paridhi Athe, Pascal Rouxelin, Maria Avramova, Abhinav Gupta, Robert Youngblood, Nam Dinh(参考訳) ほぼ自律型管理制御システム(英語版)(namac)は、幅広い状況において運転者に制御勧告を提供することでプラント運用を支援する総合的な制御システムである。 本研究では,検証型実験ブレイダリアクターiiシミュレータ,機械学習アルゴリズムによるデジタル双生児,マルチ属性意思決定方式,予期せぬ推奨効果を識別する判別チェッカーを用いて,複雑なフロー損失シナリオにおいて合理的な推奨を行うnamacシステムの改良を行った。 我々は,各NAMACコンポーネントの性能評価を行い,フローの損失シナリオのクラスにおけるNAMACの能力を実証し,評価した。

The Nearly Autonomous Management and Control System (NAMAC) is a comprehensive control system that assists plant operations by furnishing control recommendations to operators in a broad class of situations. This study refines a NAMAC system for making reasonable recommendations during complex loss-of-flow scenarios with a validated Experimental Breeder Reactor II simulator, digital twins improved by machine-learning algorithms, a multi-attribute decision-making scheme, and a discrepancy checker for identifying unexpected recommendation effects. We assessed the performance of each NAMAC component, while we demonstrated and evaluated the capability of NAMAC in a class of loss-of-flow scenarios.
翻訳日:2021-05-25 15:01:53 公開日:2021-05-23
# fbi-denoiser: poisson-gaussian noiseの高速ブラインド画像デノイザー

FBI-Denoiser: Fast Blind Image Denoiser for Poisson-Gaussian Noise ( http://arxiv.org/abs/2105.10967v1 )

ライセンス: Link先を確認
Jaeseok Byun, Sungmin Cha, and Taesup Moon(参考訳) 我々は, クリーン画像やノイズレベルパラメータに関する情報が得られないポアソン・ガウシアンノイズに対する難解なブラインド・デノジング問題を考える。 特にデノイザーの訓練に「単一の」ノイズ画像しか利用できない場合、既存の手法のノイズ除去性能は満足できなかった。 近年, ブラインドピクセルワイドアフィン画像デノイザ (BP-AIDE) が提案され, 付加情報を利用したデノイザと競合する程度に性能が向上した。 しかし,bp-aideは,ノイズレベル推定手法の非効率性やbsn(ブラインドスポットネットワーク)アーキテクチャの非効率性により,推定時間の遅さに苦しめられた。 そこで本研究では,Poisson-Gaussianノイズパラメータを従来の手法よりも2000倍高速に推定するPGE-Netと,パラメータ数と推論速度の点で,より効率的なBSNを実現するFBI-Netの2つのニューラルネットワークモデルからなるPoisson-Gaussianノイズに対するFast Blind Image Denoiser(FBI-Denoiser)を提案する。 その結果、我々のFBI-Denoiserは、BP-AIDEと比較して、より高速な推測時間(x10)を持つ複数の実世界のノイズ画像ベンチマークデータセットにおいて、最先端のパフォーマンスを達成できることを示した。 私たちのメソッドの公式コードはhttps://github.com/csm9493/FBI-Denoiser.comで公開されている。

We consider the challenging blind denoising problem for Poisson-Gaussian noise, in which no additional information about clean images or noise level parameters is available. Particularly, when only "single" noisy images are available for training a denoiser, the denoising performance of existing methods was not satisfactory. Recently, the blind pixelwise affine image denoiser (BP-AIDE) was proposed and significantly improved the performance in the above setting, to the extent that it is competitive with denoisers which utilized additional information. However, BP-AIDE seriously suffered from slow inference time due to the inefficiency of noise level estimation procedure and that of the blind-spot network (BSN) architecture it used. To that end, we propose Fast Blind Image Denoiser (FBI-Denoiser) for Poisson-Gaussian noise, which consists of two neural network models; 1) PGE-Net that estimates Poisson-Gaussian noise parameters 2000 times faster than the conventional methods and 2) FBI-Net that realizes a much more efficient BSN for pixelwise affine denoiser in terms of the number of parameters and inference speed. Consequently, we show that our FBI-Denoiser blindly trained solely based on single noisy images can achieve the state-of-the-art performance on several real-world noisy image benchmark datasets with much faster inference time (x 10), compared to BP-AIDE. The official code of our method is available at https://github.com/csm9493/FBI-Denoiser.
翻訳日:2021-05-25 15:00:01 公開日:2021-05-23
# HOME:将来の動き推定のためのヒートマップ出力

HOME: Heatmap Output for future Motion Estimation ( http://arxiv.org/abs/2105.10968v1 )

ライセンス: Link先を確認
Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou, Bogdan Stanciulescu, Fabien Moutarde(参考訳) 本稿では,エージェントの将来の位置の確率分布を表す画像出力を用いて,動き予測問題に対処するフレームワークであるHOMEを提案する。 この方法では,従来の畳み込みネットワークとエージェントインタラクションのアテンション機構を結合したシンプルなアーキテクチャが実現され,エージェントの将来性に関する制約のない2次元トップビュー表現が出力される。 この出力に基づいて,エージェントの将来位置の有限集合をサンプリングする2つの手法を設計する。 これらの手法により,モデルの一部を再トレーニングすることなく,複数モードのミスレートと最終変位誤差の最適化トレードオフを制御できる。 提案手法をArgoverse Motion Forecasting Benchmarkに適用し,オンラインリーダーボード上で1位を獲得した。

In this paper, we propose HOME, a framework tackling the motion forecasting problem with an image output representing the probability distribution of the agent's future location. This method allows for a simple architecture with classic convolution networks coupled with attention mechanism for agent interactions, and outputs an unconstrained 2D top-view representation of the agent's possible future. Based on this output, we design two methods to sample a finite set of agent's future locations. These methods allow us to control the optimization trade-off between miss rate and final displacement error for multiple modalities without having to retrain any part of the model. We apply our method to the Argoverse Motion Forecasting Benchmark and achieve 1st place on the online leaderboard.
翻訳日:2021-05-25 14:59:29 公開日:2021-05-23
# 群衆の知恵:コンピュータビジョンのためのアノテーション指導における反抗力

Wisdom for the Crowd: Discoursive Power in Annotation Instructions for Computer Vision ( http://arxiv.org/abs/2105.10990v1 )

ライセンス: Link先を確認
Milagros Miceli and Julian Posada(参考訳) コンピュータビジョンアルゴリズムの開発者は、ビジネスプロセスのアウトソーシング企業やクラウドソーシングプラットフォームを通じて、トレーニングデータをアノテートする作業の一部をアウトソーシングする。 多くのデータアノテータはグローバル・サウスにあり、独立した請負業者と見なされている。 本稿では,アルゼンチンとベネズエラのアノテーションワーカーの経験について述べる。 質的手法を通して,これらの作業者がコンピュータビジョンデータセットにアノテートするタスク命令にエンコードされた談話を調べる。 予備的な知見から, 注記指示は, 労働者に対する世界観を反映し, 労働力を通して, データセットを反映することが示唆された。 さらに,営利目的がタスク命令を駆動し,管理者やアルゴリズムが要求者の指示に従ってアノテーションを確実に実行することを観察する。 この構成は、社会的不平等を補強しながらパワー非対称性を持続させ、それらをデータセットに再生し、その後コンピュータビジョンシステムで再現するコモディファイド・ワークの形式である。

Developers of computer vision algorithms outsource some of the labor involved in annotating training data through business process outsourcing companies and crowdsourcing platforms. Many data annotators are situated in the Global South and are considered independent contractors. This paper focuses on the experiences of Argentinian and Venezuelan annotation workers. Through qualitative methods, we explore the discourses encoded in the task instructions that these workers follow to annotate computer vision datasets. Our preliminary findings indicate that annotation instructions reflect worldviews imposed on workers and, through their labor, on datasets. Moreover, we observe that for-profit goals drive task instructions and that managers and algorithms make sure annotations are done according to requesters' commands. This configuration presents a form of commodified labor that perpetuates power asymmetries while reinforcing social inequalities and is compelled to reproduce them into datasets and, subsequently, in computer vision systems.
翻訳日:2021-05-25 14:59:19 公開日:2021-05-23
# ビジネスプロセスデータの要約と分析のためのクエリ言語

A Query Language for Summarizing and Analyzing Business Process Data ( http://arxiv.org/abs/2105.10911v1 )

ライセンス: Link先を確認
Amin Beheshti, Boualem Benatallah, Hamid Reza Motahari-Nezhad, Samira Ghodratnama, Farhad Amouzgar(参考訳) 現代の企業では、ビジネスプロセス(BP)はワークフロー、ITシステム、Webサービス、人々の直接的なコラボレーションによって実現されます。 したがって、プロセスデータ(例えば、イベント、対話メッセージ、その他のプロセスアーティファクトを含むログなどのBP実行データ)は、複数のシステムやデータソースに分散し、ビッグデータの典型的な特性をすべて示すようになっている。 ほとんどのオブジェクトは相互接続され、複雑で不均一だが、しばしば半構造化されたネットワークを形成します。 ビジネスプロセスの文脈では、ビッグデータ問題は個人データ、共有データ、ビジネスデータから大量の相互接続されたデータ島であると考えている。 本稿では,プロセスをグラフ,すなわちプロセスグラフとしてモデル化し,プロセスグラフを要約し,データオブジェクトとそのプロセスグラフにおける相互作用に基づくエンティティの概念階層を探索するフレームワークを提案する。 本稿では,プロセスグラフの爆発的クエリと理解のために,BP-SPARQLという言語を提案する。 プロセスグラフのクエリ、探索、分析のためのスケーラブルなアーキテクチャを実装しました。 提案手法の有効性と有効性を示す合成および実世界のデータセットを用いて実験を行った。

In modern enterprises, Business Processes (BPs) are realized over a mix of workflows, IT systems, Web services and direct collaborations of people. Accordingly, process data (i.e., BP execution data such as logs containing events, interaction messages and other process artifacts) is scattered across several systems and data sources, and increasingly show all typical properties of the Big Data. Understanding the execution of process data is challenging as key business insights remain hidden in the interactions among process entities: most objects are interconnected, forming complex, heterogeneous but often semi-structured networks. In the context of business processes, we consider the Big Data problem as a massive number of interconnected data islands from personal, shared and business data. We present a framework to model process data as graphs, i.e., Process Graph, and present abstractions to summarize the process graph and to discover concept hierarchies for entities based on both data objects and their interactions in process graphs. We present a language, namely BP-SPARQL, for the explorative querying and understanding of process graphs from various user perspectives. We have implemented a scalable architecture for querying, exploration and analysis of process graphs. We report on experiments performed on both synthetic and real-world datasets that show the viability and efficiency of the approach.
翻訳日:2021-05-25 14:54:47 公開日:2021-05-23
# sleeptransformer: 解釈性と不確実性定量化による自動睡眠ステージング

SleepTransformer: Automatic Sleep Staging with Interpretability and Uncertainty Quantification ( http://arxiv.org/abs/2105.11043v1 )

ライセンス: Link先を確認
Huy Phan, Kaare Mikkelsen, Oliver Y. Ch\'en, Philipp Koch, Alfred Mertins, Maarten De Vos(参考訳) ブラックボックス懐疑論は、深層学習に基づく自動睡眠スコアが臨床環境で使用されることを妨げる主要な障害の1つである。 解釈可能性に向けて、この研究はシーケンシャル・ツー・シークエンス・スリープ・ステーティングモデル、すなわちSleepTransformerを提案する。 これは、自己アテンションスコアがエポックとシーケンスレベルでのモデルの決定の解釈可能性を提供するトランスフォーマーバックボーンに基づいている。 エポックレベルでは、注目スコアをヒートマップとしてエンコードして、入力された脳波信号から取得した睡眠関連特徴をハイライトすることができる。 シーケンスレベルでは、アテンションスコアを入力シーケンス内の異なる隣接エポックの影響として可視化する(すなわち、アテンションスコア)。 対象のエポックを認識するための文脈) 人間の専門家による手動スコアの方法の模倣。 さらに,モデル決定の不確かさを定量化する簡易かつ効率的な手法を提案する。 エントロピーに基づくこの方法は、人間の専門家に低信頼のエポックを延期する指標として機能し、さらなる検査を行うことができる。 さらに,提案したSleepTransformerは計算コストの低い既存手法よりも優れており,異なるサイズの2つの実験データベース上での最先端性能を実現していることを示す。

Black-box skepticism is one of the main hindrances impeding deep-learning-based automatic sleep scoring from being used in clinical environments. Towards interpretability, this work proposes a sequence-to-sequence sleep-staging model, namely SleepTransformer. It is based on the transformer backbone whose self-attention scores offer interpretability of the model's decisions at both the epoch and sequence level. At the epoch level, the attention scores can be encoded as a heat map to highlight sleep-relevant features captured from the input EEG signal. At the sequence level, the attention scores are visualized as the influence of different neighboring epochs in an input sequence (i.e. the context) to recognition of a target epoch, mimicking the way manual scoring is done by human experts. We further propose a simple yet efficient method to quantify uncertainty in the model's decisions. The method, which is based on entropy, can serve as a metric for deferring low-confidence epochs to a human expert for further inspection. Additionally, we demonstrate that the proposed SleepTransformer outperforms existing methods at a lower computational cost and achieves state-of-the-art performance on two experimental databases of different sizes.
翻訳日:2021-05-25 14:54:29 公開日:2021-05-23
# 金融犯罪検出を可能にする人工知能

Towards Artificial Intelligence Enabled Financial Crime Detection ( http://arxiv.org/abs/2105.10866v1 )

ライセンス: Link先を確認
Zeinab Rouhollahi(参考訳) 近年,金融機関は金融犯罪の増加に対応している。 この文脈で、金融サービス会社は警戒を改善し、金融詐欺や犯罪の可能性を特定し予測するために新しい技術とアプローチを使い始めた。 このタスクは、人工知能(AI)などの新しい技術が金融犯罪を予測し、検出できるようにするために、データと分析機能をアップグレードする必要があるため、難しい。 本稿では,AIによる金融犯罪の一般的な検出とマネーロンダリングの検知に向けての一歩を踏み出した。 金融犯罪検出における最近の研究成果を調査し分析し,人的介入が最小のマネーロンダリング事例を検出するための新しいモデルを提案する。

Recently, financial institutes have been dealing with an increase in financial crimes. In this context, financial services firms started to improve their vigilance and use new technologies and approaches to identify and predict financial fraud and crime possibilities. This task is challenging as institutions need to upgrade their data and analytics capabilities to enable new technologies such as Artificial Intelligence (AI) to predict and detect financial crimes. In this paper, we put a step towards AI-enabled financial crime detection in general and money laundering detection in particular to address this challenge. We study and analyse the recent works done in financial crime detection and present a novel model to detect money laundering cases with minimum human intervention needs.
翻訳日:2021-05-25 14:49:37 公開日:2021-05-23
# RtFPS:米国の山火事を視覚化して予測するインタラクティブマップ

RtFPS: An Interactive Map that Visualizes and Predicts Wildfires in the US ( http://arxiv.org/abs/2105.10880v1 )

ライセンス: Link先を確認
Yang Li, Hermawan Mulyono, Ying Chen, Zhiyin Lu, Desmond Chan(参考訳) 気候変動は私たちの日常生活に大きな影響を与えた。 その結果として、より多くの山火事が発生しています。 2020年、アメリカ合衆国では8,888,297エーカーの山火事が発生した。 気候変動に対する人々の注意を喚起し、現在の山火事のリスクを可視化するために、RtFPS"Real-Time Fire Prediction System"を開発した。 機械学習モデルに基づいて、特定の場所におけるワイルドファイアリスクのリアルタイム予測を可視化する。 また、環境情報と共に歴史的なワイルドファイアイベントを表示するインタラクティブマップ機能も提供する。

Climate change has largely impacted our daily lives. As one of its consequences, we are experiencing more wildfires. In the year 2020, wildfires burned a record number of 8,888,297 acres in the US. To awaken people's attention to climate change, and to visualize the current risk of wildfires, We developed RtFPS, "Real-Time Fire Prediction System". It provides a real-time prediction visualization of wildfire risk at specific locations base on a Machine Learning model. It also provides interactive map features that show the historical wildfire events with environmental info.
翻訳日:2021-05-25 14:49:24 公開日:2021-05-23
# MLBiNet: クロス文集合イベント検出ネットワーク

MLBiNet: A Cross-Sentence Collective Event Detection Network ( http://arxiv.org/abs/2105.09458v2 )

ライセンス: Link先を確認
Dongfang Lou, Zhilin Liao, Shumin Deng, Ningyu Zhang, Huajun Chen(参考訳) 特にクロスセンテンス設定において,複数のイベントを集合的に検出する問題を考える。 問題に対処する鍵は、意味情報をエンコードし、ドキュメントレベルでイベント間の依存性をモデル化することである。 本稿では,Seq2Seqタスクとして再編成し,イベントとセマンティック情報の文書レベルの関連を同時に捉えるマルチ階層双方向ネットワーク(MLBiNet)を提案する。 特に、双方向デコーダは、まず、イベントタグベクターシーケンスをデコードする際に、文内のイベント相互依存をモデル化するために考案される。 次に、情報集約モジュールを用いて文レベルの意味情報とイベントタグ情報を集約する。 最後に,複数の双方向デコーダを積み重ねて,文間で情報を反復的に伝達する多層双方向タギングアーキテクチャを形成する。 提案手法は,現状の成果に比べて性能が大幅に向上していることを示す。

We consider the problem of collectively detecting multiple events, particularly in cross-sentence settings. The key to dealing with the problem is to encode semantic information and model event inter-dependency at a document-level. In this paper, we reformulate it as a Seq2Seq task and propose a Multi-Layer Bidirectional Network (MLBiNet) to capture the document-level association of events and semantic information simultaneously. Specifically, a bidirectional decoder is firstly devised to model event inter-dependency within a sentence when decoding the event tag vector sequence. Secondly, an information aggregation module is employed to aggregate sentence-level semantic and event tag information. Finally, we stack multiple bidirectional decoders and feed cross-sentence information, forming a multi-layer bidirectional tagging architecture to iteratively propagate information across sentences. We show that our approach provides significant improvement in performance compared to the current state-of-the-art results.
翻訳日:2021-05-25 11:09:22 公開日:2021-05-23
# Squeeze-and-Expansion Transformer を用いた医用画像分割

Medical Image Segmentation using Squeeze-and-Expansion Transformers ( http://arxiv.org/abs/2105.09511v2 )

ライセンス: Link先を確認
Shaohua Li, Xiuchao Sui, Xiangde Luo, Xinxing Xu, Yong Liu, Rick Siow Mong Goh(参考訳) 医用画像分割はコンピュータ診断において重要である。 良いセグメンテーションは、大きな画像と細部を同時に見ること、すなわち空間解像度を維持しながら大きなコンテキストを含む画像の特徴を学習することを要求する。 この目標を達成するために、最も広く使われているメソッド -- U-Net と variants, extract and fuse multi-scale features である。 しかし、融合された特徴は、局所的な画像手がかりに焦点を当てた小さな「効果的な受容野」を持ち、性能を制限している。 本研究では,高機能解像度でも無制限に「効果的な受容場」を持つトランスフォーマに基づく代替セグメンテーションフレームワークであるsegtranを提案する。 segtranのコアは、新しいスクイーズ・アンド・エクステンショントランスであり、スクイーズド・アテンション・ブロックはトランスフォーマーの自己注意を規則化し、拡張ブロックは多様化した表現を学習する。 さらに,画像に対して連続性帰納バイアスを与えるトランスフォーマーの新たな位置符号化方式を提案する。 2次元および3次元の医用画像分割課題(眼底画像における乳頭/カップセグメンテーション(refuge'20 challenge)、大腸内視鏡画像におけるポリープセグメンテーション(polyp segmentation)、mriスキャンでの脳腫瘍セグメンテーション(brats'19 challenge))について実験を行った。 既存の一般的な手法と比較して、Segtranは高いセグメンテーション精度を獲得し、優れたクロスドメイン一般化能力を示した。 Segtranのソースコードはhttps://github.com/askerlee/segtranで公開されている。

Medical image segmentation is important for computer-aided diagnosis. Good segmentation demands the model to see the big picture and fine details simultaneously, i.e., to learn image features that incorporate large context while keep high spatial resolutions. To approach this goal, the most widely used methods -- U-Net and variants, extract and fuse multi-scale features. However, the fused features still have small "effective receptive fields" with a focus on local image cues, limiting their performance. In this work, we propose Segtran, an alternative segmentation framework based on transformers, which have unlimited "effective receptive fields" even at high feature resolutions. The core of Segtran is a novel Squeeze-and-Expansion transformer: a squeezed attention block regularizes the self attention of transformers, and an expansion block learns diversified representations. Additionally, we propose a new positional encoding scheme for transformers, imposing a continuity inductive bias for images. Experiments were performed on 2D and 3D medical image segmentation tasks: optic disc/cup segmentation in fundus images (REFUGE'20 challenge), polyp segmentation in colonoscopy images, and brain tumor segmentation in MRI scans (BraTS'19 challenge). Compared with representative existing methods, Segtran consistently achieved the highest segmentation accuracy, and exhibited good cross-domain generalization capabilities. The source code of Segtran is released at https://github.com/askerlee/segtran.
翻訳日:2021-05-25 11:07:52 公開日:2021-05-23