このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210801となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 共変量子誤り訂正の新しい視点 New perspectives on covariant quantum error correction ( http://arxiv.org/abs/2005.11918v3 ) ライセンス: Link先を確認 | Sisi Zhou, Zi-Wen Liu and Liang Jiang | (参考訳) 共変符号は、論理系上の対称性変換が物理系上の対称性変換によって実現されるような量子符号であり、通常は量子誤差補正を行う能力に制限がある(イージン・クニルの定理による重要な場合)。
共変量子誤差補正の限界を理解する必要性は、フォールトトレラント量子計算、凝縮物質物理学、量子重力など様々な分野において生じる。
ここでは,共変量子誤差補正を,量子メトロロジーと量子資源理論の観点から検討し,これら従来異種体間の固相接続を確立する。
我々は、共変量子誤差補正の不確かさに関する新しい強力な下限を証明し、これは以前のno-go結果の範囲を広げるだけでなく、既存の境界を大きく改善する。
明示的な下界はノイズの消去と非分極の両方に対して導かれる。
また、これらの下界をほぼ飽和させる共変符号の型も提示する。 Covariant codes are quantum codes such that a symmetry transformation on the logical system could be realized by a symmetry transformation on the physical system, usually with limited capability of performing quantum error correction (an important case being the Eastin--Knill theorem). The need for understanding the limits of covariant quantum error correction arises in various realms of physics including fault-tolerant quantum computation, condensed matter physics and quantum gravity. Here, we explore covariant quantum error correction with respect to continuous symmetries from the perspectives of quantum metrology and quantum resource theory, establishing solid connections between these formerly disparate fields. We prove new and powerful lower bounds on the infidelity of covariant quantum error correction, which not only extend the scope of previous no-go results but also provide a substantial improvement over existing bounds. Explicit lower bounds are derived for both erasure and depolarizing noises. We also present a type of covariant codes which nearly saturates these lower bounds. | 翻訳日:2023-05-18 12:34:23 公開日:2021-08-01 |
# 曲面時空幾何学におけるコミュニケーションに向けて Towards Communication in a Curved Spacetime Geometry ( http://arxiv.org/abs/2009.04217v2 ) ライセンス: Link先を確認 | Qasem Exirifard, Eric Culf, Ebrahim Karimi | (参考訳) 量子通信における現在の競争 - グローバル量子ネットワークの確立に尽力する -- は、特殊で一般的な相対論的効果を考慮しなければならない。
一般的な相対論的効果としては、シャピロ時間分解、重力レンズ、フレームドラッグなどがあり、これらは質量分布が測地線をどのように変化させるかによるものである。
本稿では,時空幾何学の曲率が任意の測地線に沿った情報キャリアの伝播に与える影響を報告する。
リーマン曲率の観点からキャリア波動関数への歪みの明示的な表現を得る。
さらに,この歪みを反ド・ジッターおよびシュワルツシルト測地線に対して検討する。
例えば、時空曲率は、単色レーザービームで地球と国際宇宙ステーション間の通信に0.10〜ラジアン位相シフトを引き起こし、四極子乱視は太陽系を横断する構造化モード間の12.2 %のクロストークを引き起こす。
我々の発見は、この重力的歪みが重要であり、情報を取得するには送信側または受信側で事前または後修正が必要であることを示している。 The current race in quantum communication -- endeavouring to establish a global quantum network -- must account for special and general relativistic effects. The well-studied general relativistic effects include Shapiro time-delay, gravitational lensing, and frame dragging which all are due to how a mass distribution alters geodesics. Here, we report how the curvature of spacetime geometry affects the propagation of information carriers along an arbitrary geodesic. An explicit expression for the distortion onto the carrier wavefunction in terms of the Riemann curvature is obtained. Furthermore, we investigate this distortion for anti-de Sitter and Schwarzschild geometries. For instance, the spacetime curvature causes a 0.10~radian phase-shift for communication between Earth and the International Space Station on a monochromatic laser beam and quadrupole astigmatism can cause a 12.2 % cross-talk between structured modes traversing through the solar system. Our finding shows that this gravitational distortion is significant, and it needs to be either pre- or post-corrected at the sender or receiver to retrieve the information. | 翻訳日:2023-05-03 04:57:20 公開日:2021-08-01 |
# 量子セルオートマトンによる量子-古典遷移 Quantum-to-classical transition via quantum cellular automata ( http://arxiv.org/abs/2012.04237v4 ) ライセンス: Link先を確認 | Pedro C.S. Costa | (参考訳) 量子セルオートマトン (QCA) は、局所的なユニタリ演算によって離散時間で進化する有限次元量子系の配列からなる抽象モデルである。
本稿では,QCAの空間構造を効果的に結合した簡易な粗粒度マップを提案する。
ディラック方程式をシミュレートするqcaから始め、この粗粒地図を再帰的に適用し、古典的なセルオートマトンによって記述できる半古典的極限における効果的なダイナミクスを得る。
その結果,従来の微視的離散モデルの創発的効果は拡散方程式に収束し,特定の初期条件下では古典輸送方程式に収束することがわかった。
したがって、QCAは量子-古典遷移を検証する良いモデルである。 A quantum cellular automaton (QCA) is an abstract model consisting of an array of finite-dimensional quantum systems that evolves in discrete time by local unitary operations. Here we propose a simple coarse-graining map, where the spatial structure of the QCA is merged into effective ones. Starting with a QCA that simulates the Dirac equation, we apply this coarse-graining map recursively until we get its effective dynamics in the semiclassical limit, which can be described by a classical cellular automaton. We show that the emergent-effective result of the former microscopic discrete model converges to the diffusion equation and to a classical transport equation under a specific initial condition. Therefore, QCA is a good model to validate the quantum-to-classical transition. | 翻訳日:2023-04-21 18:32:04 公開日:2021-08-01 |
# 反射境界の存在下での絡み合い収穫 Entanglement harvesting in the presence of a reflecting boundary ( http://arxiv.org/abs/2101.00114v2 ) ライセンス: Link先を確認 | Zhihong Liu, Jialin Zhang and Hongwei Yu | (参考訳) 本研究は, エンタングルメント収穫プロトコルの枠組みとして, 完全に反射する平面境界を受ける真空質量非スカラー場と局所的に相互作用する一対の慣性および均一に加速された検出器の絡み合い収穫について検討する。
2つの検出器が境界に非常に近い場合、境界の存在は一般に収穫された絡み合いを低下させる。
しかし、検出器と境界の間の距離が相互作用の持続時間パラメータに匹敵するようになると、収穫された絡み合いの量はピークに近づく。
注目すべきことに、検出器の分離のパラメータ空間と、絡み合いの収穫を可能にする加速度の大きさは、境界の存在により増大する。
この意味では、この境界は、エンタングルメントの収穫において二重刃の役割を担い、一般的には、エンタングルメントの収穫可能パラメータ空間を拡大しながら、エンタングルメントを分解する。
境界に関する検出器の3つの異なる加速シナリオの比較、すなわち、平行、反平行、相互垂直加速度は、絡み合いの収穫現象が、加速度、二つの検出器間の分離、および境界からの検出器の距離に大きく依存していることを示している。 We study, in the framework of the entanglement harvesting protocol, the entanglement harvesting of both a pair of inertial and uniformly accelerated detectors locally interacting with vacuum massless scalar fields subjected to a perfectly reflecting plane boundary. We find that the presence of the boundary generally degrades the harvested entanglement when two detectors are very close to the boundary. However, when the distance between detectors and the boundary becomes comparable to the interaction duration parameter, the amount of the harvested entanglement approaches a peak, which even goes beyond that without a boundary. Remarkably, the parameter space of the detectors' separation and the magnitude of acceleration that allows entanglement harvesting to occur is enlarged due to the presence of the boundary. In this sense, the boundary plays a double-edged role on entanglement harvesting, degrading in general the harvested entanglement while enlarging the entanglement harvesting-achievable parameter space. A comparison of three different acceleration scenarios of the detectors with respect to the boundary, i.e., parallel, anti-parallel and mutually perpendicular acceleration, shows that the phenomenon of entanglement harvesting crucially depends on the acceleration, the separation between two detectors and the detectors' distance from the boundary. | 翻訳日:2023-04-18 03:47:55 公開日:2021-08-01 |
# ワームホール内部における衝突の診断 Diagnosing collisions in the interior of a wormhole ( http://arxiv.org/abs/2104.02736v3 ) ライセンス: Link先を確認 | Felix M. Haehl and Ying Zhao | (参考訳) 2つの遠いブラックホールはワームホールを通して内部に接続することができる。
このようなワームホールは、2つの外部領域間で共有される絡み合った状態として解釈されている。
アリスとボブがそれぞれのブラックホールに信号を送ると、彼らは内部で出会うことができる。
この手紙では、この会合を、絡み合った状態を準備する量子回路の観点で解釈する: アリスとボブの送信信号は、ワームホール内の会議の重なりを表す回路内の摂動を増加させる。
このような回路の重なりは、特定の6点相関関数によって定量化される。
したがって、エンタングル量子ビットを持つ外部観察者は、この相関関数を使用して、内部衝突を自己にジャンプすることなく診断することができる。 Two distant black holes can be connected in the interior through a wormhole. Such a wormhole has been interpreted as an entangled state shared between two exterior regions. If Alice and Bob send signals into each of the black holes, they can meet in the interior. In this letter, we interpret this meeting in terms of the quantum circuit that prepares the entangled state: Alice and Bob sending signals creates growing perturbations in the circuit, whose overlap represents their meeting inside the wormhole. We argue that such overlap in the circuit is quantified by a particular six-point correlation function. Therefore, exterior observers in possession of the entangled qubits can use this correlation function to diagnose the collision in the interior without having to jump in themselves. | 翻訳日:2023-04-05 06:09:43 公開日:2021-08-01 |
# ヒルベルト空間における強連続表現 : 遠値の概念 Strongly continuous representations in the Hilbert space: a far-reaching concept ( http://arxiv.org/abs/2105.01717v2 ) ライセンス: Link先を確認 | J. M. Hoff da Silva, G. M. Caires da Rocha | (参考訳) 表現論における連続性の基本概念を再検討し、特に量子物理学の研究に注目する。
表現論の文脈で主定理を研究した後、ウィグナーの著作の分析的基礎における連続性の重要な側面に注目する。
本稿では,連続性,特定の局所群を定義する可能性,および射影表現との関係を考察して,論文をまとめる。 We revisit the fundamental notion of continuity in representation theory, with special attention to the study of quantum physics. After studying the main theorem in the context of representation theory, we draw attention to the significant aspect of continuity in the analytic foundations of Wigner work. We conclude the paper by reviewing the connection between continuity, the possibility of defining certain local groups, and their relation to projective representations. | 翻訳日:2023-04-01 15:14:30 公開日:2021-08-01 |
# 冷却による量子コンピューティング Quantum Computing by Cooling ( http://arxiv.org/abs/2106.07522v3 ) ライセンス: Link先を確認 | Jiajin Feng and Biao Wu and Frank Wilczek | (参考訳) 量子計算における興味深い問題は、問題データをエンコードするエンジニアド・ハミルトニアン(英語版)による(pseudo)スピン系の低エネルギー状態を見つける形式を取る。
超低温スピンシステムの実現可能性に動機づけられ、計算スピンをヒートシンクとして働く非マルコフのスピン浴に結合して計算する可能性を提案し、その例を示す。
解析的および数値的にこの戦略がグロバー探索問題において量子優位性を実現することを実証する。 Interesting problems in quantum computation take the form of finding low-energy states of (pseudo)spin systems with engineered Hamiltonians that encode the problem data. Motivated by the practical possibility of producing very low-temperature spin systems, we propose and exemplify the possibility to compute by coupling the computational spins to a non-Markovian bath of spins that serve as a heat sink. We demonstrate both analytically and numerically that this strategy can achieve quantum advantage in the Grover search problem. | 翻訳日:2023-03-26 17:38:40 公開日:2021-08-01 |
# ハロゲン化セシウム鉛ペロブスカイトナノ結晶の単粒子分光法によるバイエクシトン結合エネルギーの論争の解決 Resolving the controversy in biexciton binding energy of cesium lead halide perovskite nanocrystals through heralded single-particle spectroscopy ( http://arxiv.org/abs/2108.00347v1 ) ライセンス: Link先を確認 | Gur Lubin, Gili Yaniv, Miri Kazes, Arin Can Ulku, Ivan Michel Antolovic, Samuel Burri, Claudio Bruschini, Edoardo Charbon, Venkata Jayasurya Yallapragada and Dan Oron | (参考訳) 多重励起ナノ結晶におけるエキシトン-エキシトン相互作用の理解は機能材料としての利用に不可欠である。
しかし, ナノ結晶技術への候補である鉛ハロゲン化ペロブスカイトナノ結晶は, 励起子-励起子相互作用の強さとサインに多くの矛盾する値が報告されている。
本研究では, 単一セシウム鉛ハロブスカイトナノ結晶の室温でのバイエクシトン結合エネルギーを不明瞭に決定する。
これは最近導入されたSPADアレイ分光計によって実現され、スペクトル分解能を維持しながらバイエキシトン・エキシトン放出カスケードを時間的に分離することができる。
CsPbBr$_3$ナノ結晶は, 励起子-励起子相互作用に優れ, 平均二励起子結合エネルギーは10MeVである。
CsPbI$_3$ナノ結晶では、ゼロに近い平均バイエクシトン結合エネルギーが観測され、個々のナノ結晶は弱い誘電性または弱い反発性エクシトン相互作用を示す。
さらに, 両材料のアンサンブル内では, 単ナノ結晶二エクシトン結合エネルギーが電荷-キャリア閉じ込めの程度と相関することを示した。 Understanding exciton-exciton interaction in multiply-excited nanocrystals is crucial to their utilization as functional materials. Yet, for lead halide perovskite nanocrystals, which are promising candidates for nanocrystal-based technologies, numerous contradicting values have been reported for the strength and sign of their exciton-exciton interaction. In this work we unambiguously determine the biexciton binding energy in single cesium lead halide perovskite nanocrystals at room temperature. This is enabled by the recently introduced SPAD array spectrometer, capable of temporally isolating biexciton-exciton emission cascades while retaining spectral resolution. We demonstrate that CsPbBr$_3$ nanocrystals feature an attractive exciton-exciton interaction, with a mean biexciton binding energy of 10 meV. For CsPbI$_3$ nanocrystals we observe a mean biexciton binding energy that is close to zero, and individual nanocrystals show either weakly attractive or weakly repulsive exciton-exciton interaction. We further show that within ensembles of both materials, single-nanocrystal biexciton binding energies are correlated with the degree of charge-carrier confinement. | 翻訳日:2023-03-20 05:20:14 公開日:2021-08-01 |
# ヘラルド分光法によるコロイド量子ドットの励起子-励起子相関の解明 Heralded spectroscopy reveals exciton-exciton correlations in single colloidal quantum dots ( http://arxiv.org/abs/2108.00345v1 ) ライセンス: Link先を確認 | Gur Lubin, Ron Tenne, Arin Can Ulku, Ivan Michel Antolovic, Samuel Burri, Sean Karg, Venkata Jayasurya Yallapragada, Claudio Bruschini, Edoardo Charbon and Dan Oron | (参考訳) 半導体量子ドットにおける多重励起状態は興味深い物理学を特徴とし、ナノ結晶ベースの技術において重要な役割を果たす。
光ルミネッセンスは、これらの状態を調べるための自然なプローブを提供するが、その放出の室温単粒子分光は、単励起状態および荷電状態からの放出と時間的およびスペクトルの重なりによって、これまで解明されてきた。
ここでは、単一光子アバランシェダイオードアレイを用いた分光計により、バイエクシトンヘラルド分光法を導入する。
これにより、熱拡散やスペクトル拡散のスケールをかなり下回っているにもかかわらず、ビエクシトン放出カスケードを直接観測し、室温で単一量子ドットのビエクシトン結合エネルギーを測定することができる。
さらに,荷電-キャリアの閉じ込めと局所静電ポテンシャルのゆらぎをともなうバイエクシトン結合エネルギーのアンサンブルでマスクされたヒヘルト相関を明らかにする。
ヘラルド分光法は、多電子系における電荷キャリアダイナミクスと量子光学プロトコルの並列化の理解を大きく広げる可能性を秘めている。 Multiply-excited states in semiconductor quantum dots feature intriguing physics and play a crucial role in nanocrystal-based technologies. While photoluminescence provides a natural probe to investigate these states, room temperature single-particle spectroscopy of their emission has so far proved elusive due to the temporal and spectral overlap with emission from the singly-excited and charged states. Here we introduce biexciton heralded spectroscopy, enabled by a single-photon avalanche diode array based spectrometer. This allows us to directly observe biexciton-exciton emission cascades and measure the biexciton binding energy of single quantum dots at room temperature, even though it is well below the scale of thermal broadening and spectral diffusion. Furthermore, we uncover correlations hitherto masked in ensembles, of the biexciton binding energy with both charge-carrier confinement and fluctuations of the local electrostatic potential. Heralded spectroscopy has the potential of greatly extending our understanding of charge-carrier dynamics in multielectron systems and of parallelization of quantum optics protocols. | 翻訳日:2023-03-20 05:19:51 公開日:2021-08-01 |
# 非ポアソン超短パルス, ナノスケール電子パルス Non-Poissonian ultrashort, nanoscale electron pulses ( http://arxiv.org/abs/2108.00517v1 ) ライセンス: Link先を確認 | Sam Keramati, Will Brunner, T. J. Gay, Herman Batelaan | (参考訳) 現在の技術で用いられる電子ビームの統計特性は、粒子の流れによって説明されるように、自然界においてランダムである。
フェムト秒パルス電子対の同時測定を用いて,2電子クーロン相互作用による非ランダムな準ポアソン電子統計の観測を行い,その反バンチ信号が4。
この進歩は多くの用途、特に電子相関分光法に必要な強い量子退化電子ビームを実現するための基本的なステップである。 The statistical character of electron beams used in current technologies, as described by a stream of particles, is random in nature. Using coincidence measurements of femtosecond pulsed electron pairs, we report the observation of sub-Poissonian electron statistics that are non-random due to two-electron Coulomb interactions, and that exhibit an anti-bunching signal of 1 part in 4. This advancement is a fundamental step towards realizing a strongly quantum degenerate electron beam needed for many applications, and in particular electron correlation spectroscopy. | 翻訳日:2023-03-20 05:16:55 公開日:2021-08-01 |
# 進化ゲーム理論による生物ウイルスとコンピュータウイルスの相関 Correlation of biological and computer viruses through evolutionary game theory ( http://arxiv.org/abs/2108.00508v1 ) ライセンス: Link先を確認 | Dimitris Kostadimas, Kalliopi Kastampolidou and Theodore Andronikos | (参考訳) コンピュータウイルスは生物学的ウイルスと多くの類似点があり、それらの関連は新しい視点とそれらに取り組み、根絶する新たな機会を提供するかもしれない。
進化ゲーム理論はウイルスの行動をモデル化するための有用なツールとして確立されている。
この研究は、有名なウイルス、すなわちVirlockとバクテリオファージ$\phi6$の相関を試みている。
さらに本研究は, ウイルス感染を減少させる有効な戦略と実用的な方法を提案する。 Computer viruses have many similarities to biological viruses, and their association may offer new perspectives and new opportunities in the effort to tackle and even eradicate them. Evolutionary game theory has been established as a useful tool for modeling viral behaviors. This work attempts to correlate a well-known virus, namely Virlock, with the bacteriophage $\phi6$. Furthermore, the paper suggests certain efficient strategies and practical ways that may reduce infection by Virlock and similar such viruses. | 翻訳日:2023-03-20 05:16:44 公開日:2021-08-01 |
# 量子宇宙論における予測 Prediction in Quantum Cosmology ( http://arxiv.org/abs/2108.00494v1 ) ライセンス: Link先を確認 | James B. Hartle (University of California, Santa Barbara) | (参考訳) 1986年のカージェス・サマースクールの著者による講義は、よりアクセシビリティを高めるために控えめに修正され、アップロードされた。
宇宙論の量子力学に関する著者の見解は、ここで提示されたものから変わったが、それでも歴史的に興味深い。
ホイーラー・デウィット方程式を解くボルン・オッペンハイマー近似の材料と古典幾何学の極限と曲線時空における場の量子論の近似に関する研究は、いまだ興味深く使われている。 Lectures by the author at the 1986 Cargese summer school modestly corrected and uploaded for greater accessibility. Some of the author's views on the quantum mechanics of cosmology have changed from those presented here but may still be of historical interest. The material on the Born-Oppenheimer approximation for solving the Wheeler-DeWitt equation and the work on the classical geometry limit and the approximation of quantum field theory in curved spacetime are still of interest and of use. | 翻訳日:2023-03-20 05:16:14 公開日:2021-08-01 |
# 物理的拘束不能関数を持つエンティティのリモート量子セーフ認証 Remote quantum-safe authentication of entities with physical unclonable functions ( http://arxiv.org/abs/2108.00468v1 ) ライセンス: Link先を確認 | Georgios M. Nikolopoulos | (参考訳) 物理的拘束不能な関数は、エンティティ認証を含む様々な暗号処理を実装するのに、ランダム性の有用なリソースであることが示されている。
これまで文献で議論されてきたすべての関連エンティティ認証プロトコルは、エミュレーション攻撃に弱いか、短距離に限定されているかのいずれかである。
したがって、広範囲にわたる量子セーフなリモートエンティティ認証は未解決の問題である。
この作業の第1部では、実際の遠隔エンティティ認証に有用であるために、エンティティ認証プロトコルが提供しなければならない要件について論じる。
その後,大距離で動作可能で,古典的および量子的な敵に対するセキュリティを提供するプロトコルを提案する。
提案プロトコルは標準技術に依存しており、既存のフォトニックネットワークや将来のフォトニックネットワークのインフラと完全に互換性があり、QKDプロトコルを含む他の量子プロトコルと並行して動作する。 Physical unclonable functions have been shown a useful resource of randomness for implementing various cryptographic tasks including entity authentication. All of the related entity authentication protocols that have been discussed in the literature so far, either they are vulnerable to an emulation attack, or they are limited to short distances. Hence, quantum-safe remote entity authentication over large distances remains an open question. In the first part of this work we discuss the requirements that an entity authentication protocol has to offer in order to be useful for remote entity authentication in practice. Subsequently, we propose a protocol, which can operate over large distances, and offers security against both classical and quantum adversaries. The proposed protocol relies on standard techniques, it is fully compatible with the infrastructure of existing and future photonic networks, and it can operate in parallel with other quantum protocols, including QKD protocols. | 翻訳日:2023-03-20 05:16:03 公開日:2021-08-01 |
# SignalGP-Lite:大規模人工生命用イベント駆動型遺伝的プログラミングライブラリ SignalGP-Lite: Event Driven Genetic Programming Library for Large-Scale Artificial Life Applications ( http://arxiv.org/abs/2108.00382v1 ) ライセンス: Link先を確認 | Matthew Andres Moreno, Santiago Rodriguez Papa, Alexander Lalejini, Charles Ofria | (参考訳) イベント駆動型遺伝的プログラミング表現は、相互作用集約問題における従来の命令的表現よりも優れていることが示されている。
イベント駆動アプローチは、ゲノムコンテンツを環境信号に応答してトリガーされるモジュールに整理し、シミュレーションの設計と実装を単純化する。
イベント駆動型遺伝的プログラミング手法の開発には、従来のプログラム合成アプリケーションに合わせたSignalGPライブラリが広く使用されている。
SignalGP-Liteライブラリは、制御フローのオーバーヘッドを減らし、コンパイル時の設定によるパフォーマンス向上のために実行時の柔軟性を交換することにより、合理化エージェントによる大規模な人工生命実験を可能にする。
ここでは8倍から30倍のスピードアップを示すベンチマーク実験を報告する。
また,多くの信号に応答し,コンテキストに基づいて信号応答を変調する,発展プログラムの能力をテストするために当初開発された2つのベンチマーク問題に対して,signalgpと同等のソリューション品質を報告した。 Event-driven genetic programming representations have been shown to outperform traditional imperative representations on interaction-intensive problems. The event-driven approach organizes genome content into modules that are triggered in response to environmental signals, simplifying simulation design and implementation. Existing work developing event-driven genetic programming methodology has largely used the SignalGP library, which caters to traditional program synthesis applications. The SignalGP-Lite library enables larger-scale artificial life experiments with streamlined agents by reducing control flow overhead and trading run-time flexibility for better performance due to compile-time configuration. Here, we report benchmarking experiments that show an 8x to 30x speedup. We also report solution quality equivalent to SignalGP on two benchmark problems originally developed to test the ability of evolved programs to respond to a large number of signals and to modulate signal response based on context. | 翻訳日:2023-03-20 05:15:04 公開日:2021-08-01 |
# 3結合調和振動子相互作用における固有デコヒーレンスダイナミクス Intrinsic decoherence dynamics in the three-coupled harmonic oscillators interaction ( http://arxiv.org/abs/2108.00353v1 ) ライセンス: Link先を確認 | Alejandro R. Urz\'ua and H\'ector M. Moya-Cessa | (参考訳) 固有デコヒーレンスを記述するためにミルバーン方程式を適用することで、3結合量子調和振動子や量子場との相互作用を研究する。
完備方程式、すなわちリンドブラッド形式にたどり着くのに使われた通常の二階近似を超えた明示的な解を与える。
次に、初期コヒーレントで与えられるモードの1つについて、各発振器の数値演算子の期待値を算出する。 Applying the Milburn equation to describe intrinsic decoherence, we study the interaction of three-coupled quantum harmonic oscillators or quantized fields. We give an explicit solution for the complete equation, i.e., beyond the usual second order approximation used to arrive to the Lindblad form. Then we calculate the expectation value of the number operator of each oscillator or mode for one of the modes given in an initial coherent | 翻訳日:2023-03-20 05:14:48 公開日:2021-08-01 |
# 説明と改善:画像キャプションモデルのためのLPP推論ファインチューニング Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models ( http://arxiv.org/abs/2001.01037v5 ) ライセンス: Link先を確認 | Jiamei Sun, Sebastian Lapuschkin, Wojciech Samek, Alexander Binder | (参考訳) 本稿では,注意自体を可視化する以上の注意機構を持つ画像キャプションモデルの予測について解析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
LRP, Grad-CAM, Guided Grad-CAMなどの説明手法を用いて, 注意熱マップの解釈可能性を体系的に比較した。
予測されたキャプション内の各単語に対して、画素単位の画像説明(入力画像の画素のサポートと反対)と言語説明(前のシーケンスの単語のサポートと反対)を同時に提供することを示す。
説明法に関する広範な実験で実証する
1) モデルが注意に対して決定を下すために使用する追加の証拠を明らかにすることができる。
2) 被写体の位置と高精度に相関する。
3) 幻覚的対象単語の理由を解析することにより,モデルを"デバッグ"する上で有用である。
説明の観察特性から,画像キャプションモデルにおける物体幻覚の問題を低減し,文章の流布を抑えるLRP-inference fine-tuning戦略をさらに設計する。
本研究では, 適応的注意機構を付加的注意機構で計算し, 多頭部的注意機構をスケールしたドット積で計算した。 This paper analyzes the predictions of image captioning models with attention mechanisms beyond visualizing the attention itself. We develop variants of layer-wise relevance propagation (LRP) and gradient-based explanation methods, tailored to image captioning models with attention mechanisms. We compare the interpretability of attention heatmaps systematically against the explanations provided by explanation methods such as LRP, Grad-CAM, and Guided Grad-CAM. We show that explanation methods provide simultaneously pixel-wise image explanations (supporting and opposing pixels of the input image) and linguistic explanations (supporting and opposing words of the preceding sequence) for each word in the predicted captions. We demonstrate with extensive experiments that explanation methods 1) can reveal additional evidence used by the model to make decisions compared to attention; 2) correlate to object locations with high precision; 3) are helpful to "debug" the model, e.g. by analyzing the reasons for hallucinated object words. With the observed properties of explanations, we further design an LRP-inference fine-tuning strategy that reduces the issue of object hallucination in image captioning models, and meanwhile, maintains the sentence fluency. We conduct experiments with two widely used attention mechanisms: the adaptive attention mechanism calculated with the additive attention and the multi-head attention mechanism calculated with the scaled dot product. | 翻訳日:2023-01-14 12:30:54 公開日:2021-08-01 |
# 文脈対応ピッチ韻律表現の自己教師付き学習 Self-Supervised Learning of Context-Aware Pitch Prosody Representations ( http://arxiv.org/abs/2007.09060v4 ) ライセンス: Link先を確認 | Camille Noufi and Prateek Verma | (参考訳) 音楽や音声において、意味は複数の文脈で導き出される。
例えば、影響は短いサウンドトークンと、録音全体のようなより長い時間窓上の音素パターンの両方によって推測することができる。
本文では、文脈のこの二分法から意味を推測することに焦点を当てる。
短い歌唱音声の文脈表現を基本周波数(f_0$)から暗黙的に学習し、下流の音楽情報検索(mir)タスクにおいて有意義な特徴空間として利用できることを示す。
本稿では,これらの2段階の文脈の擬似タスク学習を活用して潜在表現空間を生成する3つの自己教師型深層学習パラダイムを提案する。
各空間にピッチ輪郭を埋め込み,下流分類作業を行うことで,これらの表現の有用性を評価する。
その結果,コンテクスト表現は,従来の統計的輪郭特徴と比較して,下流分類を最大15%向上できることがわかった。 In music and speech, meaning is derived at multiple levels of context. Affect, for example, can be inferred both by a short sound token and by sonic patterns over a longer temporal window such as an entire recording. In this letter, we focus on inferring meaning from this dichotomy of contexts. We show how contextual representations of short sung vocal lines can be implicitly learned from fundamental frequency ($F_0$) and thus be used as a meaningful feature space for downstream Music Information Retrieval (MIR) tasks. We propose three self-supervised deep learning paradigms which leverage pseudotask learning of these two levels of context to produce latent representation spaces. We evaluate the usefulness of these representations by embedding unseen pitch contours into each space and conducting downstream classification tasks. Our results show that contextual representation can enhance downstream classification by as much as 15\% as compared to using traditional statistical contour features. | 翻訳日:2022-11-09 13:49:04 公開日:2021-08-01 |
# 透明オブジェクト追跡ベンチマーク Transparent Object Tracking Benchmark ( http://arxiv.org/abs/2011.10875v2 ) ライセンス: Link先を確認 | Heng Fan, Halady Akhilesha Miththanthaya, Harshit, Siranjiv Ramana Rajan, Xiaoqiong Liu, Zhilin Zou, Yuewei Lin, Haibin Ling | (参考訳) 近年、視覚追跡は大きな進歩を遂げている。
しかし、この分野における現在の研究は主に不透明物体の追跡に焦点を当てているが、透明物体の追跡にはほとんど注目されていない。
本稿では,TOTB(Transparent Object Tracking Benchmark)を提案することにより,この問題を初めて解明する。
具体的には、TOTBは15の異なる透明なオブジェクトカテゴリから225のビデオ(86Kフレーム)で構成されている。
各シーケンスは、軸方向のバウンディングボックスで手動でラベル付けされる。
私たちの知る限り、totbは透明なオブジェクトトラッキングに特化した最初のベンチマークです。
既存のトラッカの動作を把握し,今後のtotb研究に比較するために,25の最先端トラッキングアルゴリズムを広範囲に評価した。
評価の結果,透明物体追跡の改善にはさらなる努力が必要であることが示された。
さらに,不透明物体追跡における一般的な信念と相反する評価から,いくつかの非自明な発見を観察する。
例えば、より深い機能は必ずしも改善に向いていないことが分かります。
さらに,将来的な研究を促進するために,トランスATOMという新しいトラッカーを導入する。これは透明性機能を活用し,評価された25のアプローチをすべて大きなマージンで追い越す。
TOTBのリリースにより、学術と産業の両方における透明物体追跡の今後の研究と応用が促進されることを期待する。
TOTBおよび評価結果およびTransATOMは、https://hengfan2010.github.io/projects/TOTBで入手できる。 Visual tracking has achieved considerable progress in recent years. However, current research in the field mainly focuses on tracking of opaque objects, while little attention is paid to transparent object tracking. In this paper, we make the first attempt in exploring this problem by proposing a Transparent Object Tracking Benchmark (TOTB). Specifically, TOTB consists of 225 videos (86K frames) from 15 diverse transparent object categories. Each sequence is manually labeled with axis-aligned bounding boxes. To the best of our knowledge, TOTB is the first benchmark dedicated to transparent object tracking. In order to understand how existing trackers perform and to provide comparison for future research on TOTB, we extensively evaluate 25 state-of-the-art tracking algorithms. The evaluation results exhibit that more efforts are needed to improve transparent object tracking. Besides, we observe some nontrivial findings from the evaluation that are discrepant with some common beliefs in opaque object tracking. For example, we find that deeper features are not always good for improvements. Moreover, to encourage future research, we introduce a novel tracker, named TransATOM, which leverages transparency features for tracking and surpasses all 25 evaluated approaches by a large margin. By releasing TOTB, we expect to facilitate future research and application of transparent object tracking in both the academia and industry. The TOTB and evaluation results as well as TransATOM are available at https://hengfan2010.github.io/projects/TOTB. | 翻訳日:2022-09-22 23:35:11 公開日:2021-08-01 |
# ホログラム光輸送の学習 Learned holographic light transport ( http://arxiv.org/abs/2108.08253v1 ) ライセンス: Link先を確認 | Koray Kavakl{\i}, Hakan Urey, Kaan Ak\c{s}it | (参考訳) コンピュータ生成ホログラフィー(CGH)アルゴリズムは、物理ホログラフィーディスプレイの結果と一致しないことが多い。
我々の研究はホログラフィックディスプレイのホログラフィック光輸送を学習することで、このミスマッチに対処する。
カメラとホログラムディスプレイを用いて、理想的なシミュレーションに頼ってデータセットを生成する最適化ホログラムの画像再構成をキャプチャする。
理想的なシミュレーションにインスパイアされた私たちは、データセットで撮影した写真に与えられたホログラムを伝播できる複雑な値の畳み込みカーネルを学習します。
ホログラフィックディスプレイのシミュレーション精度と画質を劇的に向上させるとともに,物理情報を用いた学習手法の確立にも寄与する。 Computer-Generated Holography (CGH) algorithms often fall short in matching simulations with results from a physical holographic display. Our work addresses this mismatch by learning the holographic light transport in holographic displays. Using a camera and a holographic display, we capture the image reconstructions of optimized holograms that rely on ideal simulations to generate a dataset. Inspired by the ideal simulations, we learn a complex-valued convolution kernel that can propagate given holograms to captured photographs in our dataset. Our method can dramatically improve simulation accuracy and image quality in holographic displays while paving the way for physically informed learning approaches. | 翻訳日:2021-08-22 14:36:15 公開日:2021-08-01 |
# (参考訳) NoC-based CNN Accelerator のギャザサポートによる性能向上 Improving the Performance of a NoC-based CNN Accelerator with Gather Support ( http://arxiv.org/abs/2108.02567v1 ) ライセンス: CC BY 4.0 | Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang, Venkatesan Muthukumar | (参考訳) 深層学習技術の応用が増え、畳み込みニューラルネットワーク(cnns)のための効率的な並列コンピューティングアーキテクチャの必要性が高まっている。
マルチコアCNNアクセラレータを設計する際の大きな課題は、処理要素間のデータ移動を処理することだ。
cnn workloadは1対1のトラフィックに加えて1対1のトラフィックも導入している。
オンチップ通信のデファクトスタンダードとして、network-on-chip (noc) は様々なユニキャストおよびマルチキャストトラフィックをサポートできる。
多対一のトラフィックでは、効率的な方法ではない繰り返しユニキャストが使用される。
本稿では,複数対1のトラフィックをサポートするために,出力定常シストリックアレイを用いたメッシュベースのNoC上での集合パケットの利用を提案する。
収集パケットは中間ノードからデータを収集し、最終的には効率よく目的地に導く。
この手法は,AlexNet と VGG-16 の畳み込み層から発生するトラヒックトレースを用いて,繰り返しユニキャスト法よりも遅延と電力を改善する。 The increasing application of deep learning technology drives the need for an efficient parallel computing architecture for Convolutional Neural Networks (CNNs). A significant challenge faced when designing a many-core CNN accelerator is to handle the data movement between the processing elements. The CNN workload introduces many-to-one traffic in addition to one-to-one and one-to-many traffic. As the de-facto standard for on-chip communication, Network-on-Chip (NoC) can support various unicast and multicast traffic. For many-to-one traffic, repetitive unicast is employed which is not an efficient way. In this paper, we propose to use the gather packet on mesh-based NoCs employing output stationary systolic array in support of many-to-one traffic. The gather packet will collect the data from the intermediate nodes eventually leading to the destination efficiently. This method is evaluated using the traffic traces generated from the convolution layer of AlexNet and VGG-16 with improvement in the latency and power than the repetitive unicast method. | 翻訳日:2021-08-07 04:34:11 公開日:2021-08-01 |
# (参考訳) 深層ニューラルネットワークのためのメッシュ型nocにおけるデータストリーミングとトラヒック収集 Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural Network Acceleration ( http://arxiv.org/abs/2108.02569v1 ) ライセンス: CC BY 4.0 | Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang | (参考訳) ディープニューラルネットワーク(dnn)アプリケーションの人気が高まっているため、高いコンピューティング能力と効率的なハードウェアアクセラレーターアーキテクチャが要求される。
dnnアクセラレータは、重みやその他のパラメータを格納するために多数の処理要素(pe)とオンチップメモリを使用する。
DNNアクセラレーターの通信バックボーンとして、ネットワークオンチップ(NoC)は様々なデータフローパターンをサポートし、DNNアクセラレーターにおける通信並列処理を可能にする上で重要な役割を果たす。
しかし、広く使用されているメッシュベースのNoCアーキテクチャは本質的には、DNNワークロードに多く存在する効率的な1対1のトラフィックをサポートできない。
本稿では,1対1(マルチキャスト)トラフィックを高速化する1対2のストリーミングバスと,多対1(ガザ)トラフィックをサポートするために収集パケットを使用するメッシュアーキテクチャを提案する。
畳み込み層のランタイムレイテンシの解析により、双方向ストリーミングアーキテクチャは、出力定常(os)データフローアーキテクチャの片方向ストリーミングアーキテクチャよりも優れた改善を達成できることが示された。
シミュレーション結果は,2方向ストリーミングをサポートする修正メッシュアーキテクチャの繰り返しユニキャスト法と比較して,収集パケットがランタイム遅延を最大1.8倍,ネットワーク消費電力を最大1.7倍削減できることを示した。 The increasing popularity of deep neural network (DNN) applications demands high computing power and efficient hardware accelerator architecture. DNN accelerators use a large number of processing elements (PEs) and on-chip memory for storing weights and other parameters. As the communication backbone of a DNN accelerator, networks-on-chip (NoC) play an important role in supporting various dataflow patterns and enabling processing with communication parallelism in a DNN accelerator. However, the widely used mesh-based NoC architectures inherently cannot support the efficient one-to-many and many-to-one traffic largely existing in DNN workloads. In this paper, we propose a modified mesh architecture with a one-way/two-way streaming bus to speedup one-to-many (multicast) traffic, and the use of gather packets to support many-to-one (gather) traffic. The analysis of the runtime latency of a convolutional layer shows that the two-way streaming architecture achieves better improvement than the one-way streaming architecture for an Output Stationary (OS) dataflow architecture. The simulation results demonstrate that the gather packets can help to reduce the runtime latency up to 1.8 times and network power consumption up to 1.7 times, compared with the repetitive unicast method on modified mesh architectures supporting two-way streaming. | 翻訳日:2021-08-07 04:23:24 公開日:2021-08-01 |
# (参考訳) ネットワーク化プロセスの予測、最適化、制御のための純粋データ駆動フレームワーク:ネットワーク化sis流行モデルへの応用 A purely data-driven framework for prediction, optimization, and control of networked processes: application to networked SIS epidemic model ( http://arxiv.org/abs/2108.02005v1 ) ライセンス: CC BY 4.0 | Ali Tavasoli, Teague Henry, Heman Shakeri | (参考訳) ネットワークは、異なるエージェント間の相互作用が単純な局所規則セットを非線形創発的行動に変換する多くの複雑な現象のランドマークである。
近年の研究では、ネットワーク構造と基礎となる力学過程の関連が明らかにされているが、確率的非線形力学過程の同定は未解決の問題である。
本稿では,大規模ネットワーク上で発生する確率的非線形ダイナミクスを識別・制御するための演算子理論に基づく単純なデータ駆動フレームワークを開発した。
提案手法では,ネットワーク構造の事前知識を必要とせず,状態の2段階スナップショットの収集のみを用いて基盤となるダイナミクスを識別する。
このデータ駆動システム同定は、koopman演算子を使用して線形に進化する動的パターンの低次元表現を見つけることによって達成される。
さらに,大局的な線形クープマンモデルを用いて,予測制御(MPC)モデルに適用することで,重要な制御問題を解く。
提案手法は, 従来の非線形プログラミングを, 凸およびはるかに少ない変数を持つより扱いやすい最適化問題に変換することで, この問題に対処できることを示す。 Networks are landmarks of many complex phenomena where interweaving interactions between different agents transform simple local rule-sets into nonlinear emergent behaviors. While some recent studies unveil associations between the network structure and the underlying dynamical process, identifying stochastic nonlinear dynamical processes continues to be an outstanding problem. Here we develop a simple data-driven framework based on operator-theoretic techniques to identify and control stochastic nonlinear dynamics taking place over large-scale networks. The proposed approach requires no prior knowledge of the network structure and identifies the underlying dynamics solely using a collection of two-step snapshots of the states. This data-driven system identification is achieved by using the Koopman operator to find a low dimensional representation of the dynamical patterns that evolve linearly. Further, we use the global linear Koopman model to solve critical control problems by applying to model predictive control (MPC)--typically, a challenging proposition when applied to large networks. We show that our proposed approach tackles this by converting the original nonlinear programming into a more tractable optimization problem that is both convex and with far fewer variables. | 翻訳日:2021-08-06 02:25:32 公開日:2021-08-01 |
# (参考訳) 境界知識翻訳に基づく参照意味セグメンテーション Boundary Knowledge Translation based Reference Semantic Segmentation ( http://arxiv.org/abs/2108.01075v1 ) ライセンス: CC BY 4.0 | Lechao Cheng, Zunlei Feng, Xinchao Wang, Ya Jie Liu, Jie Lei, Mingli Song | (参考訳) 画像中の未知のタイプの参照オブジェクトが与えられた場合、人間の観察者は、他の画像で同じカテゴリのオブジェクトを見つけ、その視覚的境界を正確に判断することができる。
このような人間の視覚認知能力は、現在のコンピュータビジョンの研究スペクトルに欠如しているように見える。
例えば、既存のセグメンテーションネットワークは、膨大な量のラベル付きデータを頼りにしており、収集や注釈に手間がかかり、またセグメンテーションネットワークのパフォーマンスはカテゴリの数が増えるにつれて低下する傾向にある。
本稿では,視覚境界知識翻訳を行うための参照セマンティックセマンティックネットワーク(Ref-Net)を提案する。
Ref-Netには参照セグメンテーションモジュール(RSM)と境界知識翻訳モジュール(BKTM)が含まれている。
人間の認識機構にインスパイアされたrsmは、参照オブジェクトの特徴に基づいて同じカテゴリオブジェクトをセグメンテーションするためにのみ考案された。
一方、BKTMでは、2つの境界識別器の分岐を導入し、対象オブジェクトの内部および外部の境界セグメンテーションを対角的に行い、オープンソースデータセットの注釈付き境界知識をセグメンテーションネットワークに変換する。
発掘実験では、数十の細かい注釈付きサンプルをガイダンスとして、Ref-Netは6つのデータセットの完全な教師付きメソッドと同等の結果を得ることを示した。 Given a reference object of an unknown type in an image, human observers can effortlessly find the objects of the same category in another image and precisely tell their visual boundaries. Such visual cognition capability of humans seems absent from the current research spectrum of computer vision. Existing segmentation networks, for example, rely on a humongous amount of labeled data, which is laborious and costly to collect and annotate; besides, the performance of segmentation networks tend to downgrade as the number of the category increases. In this paper, we introduce a novel Reference semantic segmentation Network (Ref-Net) to conduct visual boundary knowledge translation. Ref-Net contains a Reference Segmentation Module (RSM) and a Boundary Knowledge Translation Module (BKTM). Inspired by the human recognition mechanism, RSM is devised only to segment the same category objects based on the features of the reference objects. BKTM, on the other hand, introduces two boundary discriminator branches to conduct inner and outer boundary segmentation of the target objectin an adversarial manner, and translate the annotated boundary knowledge of open-source datasets into the segmentation network. Exhaustive experiments demonstrate that, with tens of finely-grained annotated samples as guidance, Ref-Net achieves results on par with fully supervised methods on six datasets. | 翻訳日:2021-08-05 01:07:19 公開日:2021-08-01 |
# (参考訳) $\textrm{WeaSuL}^{\pi}$:Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue $\textrm{WeaSuL}^{\pi}$: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue ( http://arxiv.org/abs/2108.01487v1 ) ライセンス: CC BY-SA 4.0 | Anant Khandelwal | (参考訳) マルチターン設定におけるインテリジェントな対話システムは,高品質な応答を生成するだけでなく,対話の長期的成功につながる可能性のある応答を生成する必要がある。
しかし,現在のアプローチでは応答品質は向上したが,対話データに現れる訓練信号は見過ごされている。
これらの信号を利用して、弱い教師付きトレーニングデータを生成し、ダイアログポリシーと報奨推定器を学習し、成功(リワード)会話の今後の方向性を予測するためのアクション(応答の生成)を行う。
エージェントとユーザとの対話(教師付き学習目的のエージェントに似てモデル化された)をシミュレートし、互いに対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
それぞれの擬似状態-作用対は、セマンティック関連、セマンティックコヒーレンス、一貫性フローの3つの品質モジュールで評価される(弱いアノテーションとして機能する)。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、自動評価と人的判断の両方で会話を成功させることを示す。 An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches improved the response quality, but they over-look the training signals present in the dialogue data. We can leverage these signals to generate the weakly supervised training data for learning dialog policy and reward estimator, and make the policy take actions (generates responses) which can foresee the future direction for a successful (rewarding) conversation. We simulate the dialogue between an agent and a user (modelled similar to an agent with supervised learning objective) to interact with each other. The agent uses dynamic blocking to generate ranked diverse responses and exploration-exploitation to select among the Top-K responses. Each simulated state-action pair is evaluated (works as a weak annotation) with three quality modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical studies with two benchmarks indicate that our model can significantly out-perform the response quality and lead to a successful conversation on both automatic evaluation and human judgement. | 翻訳日:2021-08-05 00:53:06 公開日:2021-08-01 |
# (参考訳) ネットワーク支援潜在空間進化による辞書攻撃のためのマスタフェイス生成 Generating Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution ( http://arxiv.org/abs/2108.01077v1 ) ライセンス: CC BY 4.0 | Ron Shmelkin, Tomer Friedlander, Lior Wolf | (参考訳) マスターフェイス(master face)は、人口の大部分に顔認証を渡す顔画像である。
これらの顔は、ユーザー情報にアクセスせずに、成功の可能性の高いユーザーを偽装するのに使うことができる。
StyleGANフェイスジェネレータの潜伏埋め込み空間における進化的アルゴリズムを用いて,これらの顔の最適化を行う。
複数の進化戦略を比較し,適応度評価を加えることなく,有望なサンプルの方向に探索を指示するためにニューラルネットワークを用いた新しいアプローチを提案する。
以上の結果から,3つの主要な深部顔認識システムにおいて,マスタフェイスが10未満の人口(40%以上)を高い範囲でカバーすることが可能であることが判明した。 A master face is a face image that passes face-based identity-authentication for a large portion of the population. These faces can be used to impersonate, with a high probability of success, any user, without having access to any user information. We optimize these faces, by using an evolutionary algorithm in the latent embedding space of the StyleGAN face generator. Multiple evolutionary strategies are compared, and we propose a novel approach that employs a neural network in order to direct the search in the direction of promising samples, without adding fitness evaluations. The results we present demonstrate that it is possible to obtain a high coverage of the population (over 40%) with less than 10 master faces, for three leading deep face recognition systems. | 翻訳日:2021-08-05 00:36:19 公開日:2021-08-01 |
# (参考訳) 絡み合いは十分か?
制御可能な音楽生成のための潜在表現について Is Disentanglement enough? On Latent Representations for Controllable Music Generation ( http://arxiv.org/abs/2108.01450v1 ) ライセンス: CC BY 4.0 | Ashis Pati, Alexander Lerch | (参考訳) 制御性の向上や、生成したデータの1つ以上の属性を操作する能力は、音楽の深い生成モデルという文脈における関心の対象となっている。
この方向の最近の試みは、変動の基盤となる要因が明確に分離されるように、データから絡み合った表現を学習することに依存している。
本稿では,変分オートエンコーダ(vae)アーキテクチャに基づく異なる教師付き異方性学習アルゴリズムを用いて系統的な学習を行い,異方性と制御性の関係に注目した。
実験により,強い識別エンコーダを訓練するために異なる形態の監督を用いることにより,高いディエンタグルメントを実現することができた。
しかし、強い生成デコーダが存在しない場合、絡み合いは必ずしも制御性を意味するとは限らない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
この目的のために我々は,許容範囲の制御性に関して,潜在空間の品質を評価するための方法や指標も提案する。 Improving controllability or the ability to manipulate one or more attributes of the generated data has become a topic of interest in the context of deep generative models of music. Recent attempts in this direction have relied on learning disentangled representations from data such that the underlying factors of variation are well separated. In this paper, we focus on the relationship between disentanglement and controllability by conducting a systematic study using different supervised disentanglement learning algorithms based on the Variational Auto-Encoder (VAE) architecture. Our experiments show that a high degree of disentanglement can be achieved by using different forms of supervision to train a strong discriminative encoder. However, in the absence of a strong generative decoder, disentanglement does not necessarily imply controllability. The structure of the latent space with respect to the VAE-decoder plays an important role in boosting the ability of a generative model to manipulate different attributes. To this end, we also propose methods and metrics to help evaluate the quality of a latent space with respect to the afforded degree of controllability. | 翻訳日:2021-08-05 00:21:14 公開日:2021-08-01 |
# (参考訳) LASOR: 正確な3D画像と形状を学習する : 合成オクルージョンデータとニューラルネットワークレンダリング LASOR: Learning Accurate 3D Human Pose and Shape Via Synthetic Occlusion-Aware Data and Neural Mesh Rendering ( http://arxiv.org/abs/2108.00351v1 ) ライセンス: CC BY 4.0 | Kaibing Yang, Renshu Gu, Masahiro Toyoura and Gang Xu | (参考訳) 人間のポーズと形状推定のタスクにおける重要な課題は、自己閉塞、対人閉塞、対人閉塞を含む閉塞である。
多様な正確なポーズや形状のトレーニングデータの欠如は、特に野生のオクルージョンのあるシーンにおいて、大きなボトルネックとなっている。
本稿では, 対人咬合の場合のポーズと形状の推定に焦点をあてるとともに, 対人咬合や自己閉塞も扱う。
咬合対応シルエットと2dキーポイントデータを合成し,smplポーズと形状パラメータを直接回帰する枠組みを提案する。
ニューラル3dメッシュレンダラは、シルエットをオンザフライで監視可能にするために活用され、形状推定の大幅な改善に寄与する。
さらに、パノラマ視点におけるキーポイントとシルエット駆動のトレーニングデータを合成し、既存のデータセットにおける視点の多様性の欠如を補う。
実験の結果,3DPWデータセットのポーズ精度では最先端であり,形状精度ではランク1法よりも明らかに優れていた。
また,SSP-3Dでは形状予測精度が向上した。 A key challenge in the task of human pose and shape estimation is occlusion, including self-occlusions, object-human occlusions, and inter-person occlusions. The lack of diverse and accurate pose and shape training data becomes a major bottleneck, especially for scenes with occlusions in the wild. In this paper, we focus on the estimation of human pose and shape in the case of inter-person occlusions, while also handling object-human occlusions and self-occlusion. We propose a framework that synthesizes occlusion-aware silhouette and 2D keypoints data and directly regress to the SMPL pose and shape parameters. A neural 3D mesh renderer is exploited to enable silhouette supervision on the fly, which contributes to great improvements in shape estimation. In addition, keypoints-and-silhouette-driven training data in panoramic viewpoints are synthesized to compensate for the lack of viewpoint diversity in any existing dataset. Experimental results show that we are among state-of-the-art on the 3DPW dataset in terms of pose accuracy and evidently outperform the rank-1 method in terms of shape accuracy. Top performance is also achieved on SSP-3D in terms of shape prediction accuracy. | 翻訳日:2021-08-04 10:27:50 公開日:2021-08-01 |
# (参考訳) badencoder: 自己教師付き学習における事前学習エンコーダに対するバックドア攻撃 BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning ( http://arxiv.org/abs/2108.00352v1 ) ライセンス: CC BY 4.0 | Jinyuan Jia and Yupei Liu and Neil Zhenqiang Gong | (参考訳) コンピュータビジョンにおける自己教師あり学習は、大量のラベルのない画像または(画像、テキスト)ペアを使用して画像エンコーダを事前学習することを目的としている。
事前トレーニングされたイメージエンコーダは、少数のラベル付きトレーニングデータで下流タスクのための下流分類器を構築する機能抽出器として使用できる。
本研究では,自己教師型学習の最初のバックドア攻撃であるBadEncoderを提案する。
特に我々のbadencoderは、バックドアを事前学習したイメージエンコーダに注入し、ダウンストリームタスク用のバックドアイメージエンコーダに基づいて構築された下流の分類器が同時にバックドアの動作を継承するようにします。
我々は,BadEncoderを最適化問題として定式化し,それを解決するための勾配降下法を提案し,クリーンな画像エンコーダからバックドア画像エンコーダを生成する。
複数のデータセットに対する実験結果から,BadEncoderは下流分類器の精度を保ちながら高い攻撃成功率を達成することが示された。
また,実世界の画像エンコーダであるgoogleのイメージエンコーダをimagenetで事前学習し,openaiのコントラスト型言語画像前訓練(clip)画像エンコーダをインターネットから4億組(画像,テキスト)のペアで事前学習して,badencoderの有効性を示す。
さらに,神経洗浄やmntdなどの防御,パッチガード(証明可能な防御)についても検討した。
以上の結果から,BadEncoderに対する防衛は不十分であり,BadEncoderに対する新たな防衛の必要性を強調している。
私たちのコードは、https://github.com/jjy 1994/BadEncoder.comで公開されています。 Self-supervised learning in computer vision aims to pre-train an image encoder using a large amount of unlabeled images or (image, text) pairs. The pre-trained image encoder can then be used as a feature extractor to build downstream classifiers for many downstream tasks with a small amount of or no labeled training data. In this work, we propose BadEncoder, the first backdoor attack to self-supervised learning. In particular, our BadEncoder injects backdoors into a pre-trained image encoder such that the downstream classifiers built based on the backdoored image encoder for different downstream tasks simultaneously inherit the backdoor behavior. We formulate our BadEncoder as an optimization problem and we propose a gradient descent based method to solve it, which produces a backdoored image encoder from a clean one. Our extensive empirical evaluation results on multiple datasets show that our BadEncoder achieves high attack success rates while preserving the accuracy of the downstream classifiers. We also show the effectiveness of BadEncoder using two publicly available, real-world image encoders, i.e., Google's image encoder pre-trained on ImageNet and OpenAI's Contrastive Language-Image Pre-training (CLIP) image encoder pre-trained on 400 million (image, text) pairs collected from the Internet. Moreover, we consider defenses including Neural Cleanse and MNTD (empirical defenses) as well as PatchGuard (a provable defense). Our results show that these defenses are insufficient to defend against BadEncoder, highlighting the needs for new defenses against our BadEncoder. Our code is publicly available at: https://github.com/jjy1994/BadEncoder. | 翻訳日:2021-08-04 10:09:30 公開日:2021-08-01 |
# (参考訳) ellipsdf:バイレベル楕円と符号付き距離関数記述による関節物体のポーズと形状最適化 ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level Ellipsoid and Signed Distance Function Description ( http://arxiv.org/abs/2108.00355v1 ) ライセンス: CC BY 4.0 | Mo Shan, Qiaojun Feng, You-Yi Jau, Nikolay Atanasov | (参考訳) 自律システムは、オブジェクトレベルのタスク仕様を理解し安全に実行するために、環境の意味と幾何学を理解する必要がある。
本稿では,複数視点のRGB-Dカメラ観測からオブジェクトレベルマップを推定するための,共同オブジェクトポーズと形状最適化のための表現的かつコンパクトなモデルを提案する。
モデルは、環境中の物体のアイデンティティ、位置、方向、形状をキャプチャするので、表現力がある。
これは、暗黙のオブジェクト形状の低次元潜在表現に依存しており、大きなマルチカテゴリオブジェクトマップのオンボード保存を可能にするためコンパクトである。
単一オブジェクト表現フォーマットに依存する他の作品とは異なり、我々のアプローチは粗いレベルのスケールと細かいレベルの形状の詳細の両方をキャプチャする双レベルオブジェクトモデルを持っています。
本手法は大規模実世界のscannetデータセット上で評価し,最先端手法と比較した。 Autonomous systems need to understand the semantics and geometry of their surroundings in order to comprehend and safely execute object-level task specifications. This paper proposes an expressive yet compact model for joint object pose and shape optimization, and an associated optimization algorithm to infer an object-level map from multi-view RGB-D camera observations. The model is expressive because it captures the identities, positions, orientations, and shapes of objects in the environment. It is compact because it relies on a low-dimensional latent representation of implicit object shape, allowing onboard storage of large multi-category object maps. Different from other works that rely on a single object representation format, our approach has a bi-level object model that captures both the coarse level scale as well as the fine level shape details. Our approach is evaluated on the large-scale real-world ScanNet dataset and compared against state-of-the-art methods. | 翻訳日:2021-08-04 09:36:55 公開日:2021-08-01 |
# (参考訳) 実用的マスキングによる社会的意味検出の改善とサロゲートファインチューニング Improving Social Meaning Detection with Pragmatic Masking and Surrogate Fine-Tuning ( http://arxiv.org/abs/2108.00356v1 ) ライセンス: CC BY 4.0 | Chiyu Zhang, Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi | (参考訳) Masked Language Model (MLM) は、たとえ有用であっても下流の微調整の目的とミスマッチしているとして、事前に訓練されている。
本研究では,社会的な意味のタスクに有用な幅広い概念のセットに向けて,事前学習された表現を促進するための2つの戦略として,実用的なマスキングと微調整を提案する。
提案手法をテストするため,ソーシャルな意味検出のための15種類のTwitterデータセットのベンチマークを新たに導入した。
提案手法は,マルチタスク学習や大規模データセットで事前学習したドメイン固有言語モデルといった他のトランスファー学習手法よりも優れながら,競合ベースラインよりも2.34%のf1を達成している。
トレーニングデータのわずか5%(ごく少数)で、我々の手法は68.74%の平均的なF1を印象的に実現し、3つの異なる言語の6つのデータセットを含むゼロショット設定で有望な結果を観察する。 Masked language models (MLMs) are pretrained with a denoising objective that, while useful, is in a mismatch with the objective of downstream fine-tuning. We propose pragmatic masking and surrogate fine-tuning as two strategies that exploit social cues to drive pre-trained representations toward a broad set of concepts useful for a wide class of social meaning tasks. To test our methods, we introduce a new benchmark of 15 different Twitter datasets for social meaning detection. Our methods achieve 2.34% F1 over a competitive baseline, while outperforming other transfer learning methods such as multi-task learning and domain-specific language models pretrained on large datasets. With only 5% of training data (severely few-shot), our methods enable an impressive 68.74% average F1, and we observe promising results in a zero-shot setting involving six datasets from three different languages. | 翻訳日:2021-08-04 09:15:07 公開日:2021-08-01 |
# (参考訳) 自律走行車におけるエージェントアウェア状態推定 Agent-aware State Estimation in Autonomous Vehicles ( http://arxiv.org/abs/2108.00366v1 ) ライセンス: CC BY 4.0 | Shane Parr, Ishan Khatri, Justin Svegliato, and Shlomo Zilberstein | (参考訳) 自律システムは、複数のエージェントの動作が共有グローバル状態によって協調される環境で動作することが多い。
したがって、グローバル状態の信頼性の高い推定は、マルチエージェント環境での運用に成功するために重要である。
エージェントアウェア状態推定 - 環境における他のエージェントの振る舞いを観察した状態の間接的推定を計算するためのフレームワークである。
また、遷移非依存のエージェント認識状態推定(エージェント認識状態推定の抽出可能なクラス)を導入し、推論の速度が環境内のエージェントの数と線形にスケール可能であることを示す。
一例として、直接観測の完全な損失の場合の交通信号分類をモデル化する。
本手法は,複数方向からの車両の挙動の観測を考慮し,様々な擬似閉塞シナリオで設定した実世界の自動運転車データに対して,既存の交通専用HMM法よりも精度が高いことを示す。 Autonomous systems often operate in environments where the behavior of multiple agents is coordinated by a shared global state. Reliable estimation of the global state is thus critical for successfully operating in a multi-agent setting. We introduce agent-aware state estimation -- a framework for calculating indirect estimations of state given observations of the behavior of other agents in the environment. We also introduce transition-independent agent-aware state estimation -- a tractable class of agent-aware state estimation -- and show that it allows the speed of inference to scale linearly with the number of agents in the environment. As an example, we model traffic light classification in instances of complete loss of direct observation. By taking into account observations of vehicular behavior from multiple directions of traffic, our approach exhibits accuracy higher than that of existing traffic light-only HMM methods on a real-world autonomous vehicle data set under a variety of simulated occlusion scenarios. | 翻訳日:2021-08-04 08:52:10 公開日:2021-08-01 |
# (参考訳) ミリ波質量MIMOシステムにおけるNOMAを用いたCNNチャネル推定 CNN based Channel Estimation using NOMA for mmWave Massive MIMO System ( http://arxiv.org/abs/2108.00367v1 ) ライセンス: CC BY 4.0 | Anu T S and Tara Raveendran | (参考訳) 非直交多重アクセス(NOMA)方式は、第5世代(5G)無線通信における主要な課題に対処するために積極的に検討されている。
チャネル推定は、NOMAスキームがミリ波(mmWave)の大規模マルチインプットマルチアウトプット(MIMO)システムと統合されるシナリオにおいて非常に難しい。
チャネルの正確な推定は、Duo-NOMAとmmWaveのペアリングの利点を利用するために不可欠である。
本稿では,ハイブリッドアーキテクチャ上に構築されたMIMO(Multiple-input multiple-output)システムのチャネルを推定するために,畳み込みニューラルネットワーク(CNN)に基づくアプローチを提案する。
まず、ユーザはチャネルゲインに基づいて異なるクラスタにグループ化され、ビームフォーミング技術により、所望のクラスタの方向の信号を最大化する。
まず、受信した信号からチャネルの粗い推定を行い、この推定をCNNへの入力として与え、チャネル係数を詳細に推定する。
数値図は,提案手法が最小二乗推定,最小平均二乗誤差(MMSE)推定を上回り,クラマー・ラオ境界(CRB)に近いことを示している。 Non-Orthogonal Multiple Access (NOMA) schemes are being actively explored to address some of the major challenges in 5th Generation (5G) Wireless communications. Channel estimation is exceptionally challenging in scenarios where NOMA schemes are integrated with millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems. An accurate estimation of the channel is essential in exploiting the benefits of the pairing of the duo-NOMA and mmWave. This paper proposes a convolutional neural network (CNN) based approach to estimate the channel for NOMA based millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems built on a hybrid architecture. Initially, users are grouped into different clusters based on their channel gains and beamforming technique is performed to maximize the signal in the direction of desired cluster. A coarse estimation of the channel is first made from the received signal and this estimate is given as the input to CNN to fine estimate the channel coefficients. Numerical illustrations show that the proposed method outperforms least square (LS) estimate, minimum mean square error (MMSE) estimate and are close to the Cramer-Rao Bound (CRB). | 翻訳日:2021-08-04 08:39:12 公開日:2021-08-01 |
# (参考訳) いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰 Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment ( http://arxiv.org/abs/2108.00377v1 ) ライセンス: CC0 1.0 | Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek | (参考訳) 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。
本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。
私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。
中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。
サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。
現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。
また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。
アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。
本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。
我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。 Facial landmarks (FLM) estimation is a critical component in many face-related applications. In this work, we aim to optimize for both accuracy and speed and explore the trade-off between them. Our key observation is that not all faces are created equal. Frontal faces with neutral expressions converge faster than faces with extreme poses or expressions. To differentiate among samples, we train our model to predict the regression error after each iteration. If the current iteration is accurate enough, we stop iterating, saving redundant iterations while keeping the accuracy in check. We also observe that as neighboring patches overlap, we can infer all facial landmarks (FLMs) with only a small number of patches without a major accuracy sacrifice. Architecturally, we offer a multi-scale, patch-based, lightweight feature extractor with a fine-grained local patch attention module, which computes a patch weighting according to the information in the patch itself and enhances the expressive power of the patch features. We analyze the patch attention data to infer where the model is attending when regressing facial landmarks and compare it to face attention in humans. Our model runs in real-time on a mobile device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16 on the 300W challenging dataset. | 翻訳日:2021-08-04 08:31:03 公開日:2021-08-01 |
# (参考訳) 前景セグメンテーションのための視覚境界知識翻訳 Visual Boundary Knowledge Translation for Foreground Segmentation ( http://arxiv.org/abs/2108.00379v1 ) ライセンス: CC BY 4.0 | Zunlei Feng, Lechao Cheng, Xinchao Wang, Xiang Wang, Yajie Liu, Xiangtong Du, Mingli Song | (参考訳) 画像の中の未知のタイプのオブジェクトと向き合うと、人間は視覚の境界を無力かつ正確に伝えることができる。
この認識機構と基礎となる一般化能力は、大規模カテゴリアノテートトレーニングサンプルに依存する最先端の画像セグメンテーションネットワークとは対照的である。
本稿では,視覚境界知識を明示的に考慮したモデルの構築を試みた。
具体的には,境界知識翻訳(BKT)と呼ばれる新しいタスクについて検討する。
完全なラベル付きカテゴリのセットを与えられたBKTは、ラベル付きカテゴリから学んだ視覚境界知識を、ラベル付きサンプルのみを提供する新しいカテゴリのセットに変換することを目的としている。
そこで本研究では,セグメンテーションネットワークと2つの境界識別器からなる翻訳セグメンテーションネットワーク(Trans-Net)を提案する。
境界認識自己監視機構と組み合わされたセグメンテーションネットワークは、前景セグメンテーションを行うように考案され、一方2つの判別器は、光監督下で新しいカテゴリの正確なセグメンテーションを保証するために、逆向きに協調して動作する。
探索実験では、数十のラベル付きサンプルのみをガイダンスとして、Trans-Netは完全な教師付き手法と同等に密接な結果が得られることを示した。 When confronted with objects of unknown types in an image, humans can effortlessly and precisely tell their visual boundaries. This recognition mechanism and underlying generalization capability seem to contrast to state-of-the-art image segmentation networks that rely on large-scale category-aware annotated training samples. In this paper, we make an attempt towards building models that explicitly account for visual boundary knowledge, in hope to reduce the training effort on segmenting unseen categories. Specifically, we investigate a new task termed as Boundary Knowledge Translation (BKT). Given a set of fully labeled categories, BKT aims to translate the visual boundary knowledge learned from the labeled categories, to a set of novel categories, each of which is provided only a few labeled samples. To this end, we propose a Translation Segmentation Network (Trans-Net), which comprises a segmentation network and two boundary discriminators. The segmentation network, combined with a boundary-aware self-supervised mechanism, is devised to conduct foreground segmentation, while the two discriminators work together in an adversarial manner to ensure an accurate segmentation of the novel categories under light supervision. Exhaustive experiments demonstrate that, with only tens of labeled samples as guidance, Trans-Net achieves close results on par with fully supervised methods. | 翻訳日:2021-08-04 08:18:10 公開日:2021-08-01 |
# (参考訳) 限定ラベルを用いたエッジ競合病的肝血管分画 Edge-competing Pathological Liver Vessel Segmentation with Limited Labels ( http://arxiv.org/abs/2108.00384v1 ) ライセンス: CC BY 4.0 | Zunlei Feng, Zhonghua Wang, Xinchao Wang, Xiuming Zhang, Lechao Cheng, Jie Lei, Yuexuan Wang, Mingli Song | (参考訳) 微小血管浸潤(MVI)は肝細胞癌の主要な予後因子であり,最も死亡率の高い悪性腫瘍の1つである。
MVIの診断には、肝細胞癌細胞を含む血管を発見し、医師の経験に大きく依存する各血管の数をカウントする必要があるが、主に主観的で時間を要する。
しかし,病理像からのMVI検出に適したアルゴリズムは存在しない。
本稿では,血管,mvi,肝細胞癌を分類した522個のスライド画像を含む最初の病理肝画像データセットを収集した。
MVIを自動診断する第1のステップは、正確な血管分割である。
超大サイズ、マルチスケール血管、ぼやけた血管縁などの病的肝臓画像の特異な特徴は、正確な血管分割を困難にする。
収集したデータセットに基づいて,セグメント化ネットワークと2つのエッジセグメント判別器を含むエッジ競合容器セグメンテーションネットワーク(evs-net)を提案する。
エッジアウェアの自己スーパービジョン機構と組み合わされたセグメンテーションネットワークは、制限されたラベル付きパッチで容器セグメンテーションを行うために考案された。
一方,2つの判別器を導入して,分断された容器と背景が相反的に残存した特徴を含むか否かを判別する。
訓練段階では、エッジの予測位置を比較できる2つの判別器が考案される。
徹底的な実験により、ラベル付きパッチのみを伴って、evs-netは完全に監督された方法の密接な性能を実現し、病的肝血管分画に便利なツールを提供することが示されている。
コードはhttps://github.com/zju-vipa/EVS-Netで公開されている。 The microvascular invasion (MVI) is a major prognostic factor in hepatocellular carcinoma, which is one of the malignant tumors with the highest mortality rate. The diagnosis of MVI needs discovering the vessels that contain hepatocellular carcinoma cells and counting their number in each vessel, which depends heavily on experiences of the doctor, is largely subjective and time-consuming. However, there is no algorithm as yet tailored for the MVI detection from pathological images. This paper collects the first pathological liver image dataset containing 522 whole slide images with labels of vessels, MVI, and hepatocellular carcinoma grades. The first and essential step for the automatic diagnosis of MVI is the accurate segmentation of vessels. The unique characteristics of pathological liver images, such as super-large size, multi-scale vessel, and blurred vessel edges, make the accurate vessel segmentation challenging. Based on the collected dataset, we propose an Edge-competing Vessel Segmentation Network (EVS-Net), which contains a segmentation network and two edge segmentation discriminators. The segmentation network, combined with an edge-aware self-supervision mechanism, is devised to conduct vessel segmentation with limited labeled patches. Meanwhile, two discriminators are introduced to distinguish whether the segmented vessel and background contain residual features in an adversarial manner. In the training stage, two discriminators are devised tocompete for the predicted position of edges. Exhaustive experiments demonstrate that, with only limited labeled patches, EVS-Net achieves a close performance of fully supervised methods, which provides a convenient tool for the pathological liver vessel segmentation. Code is publicly available at https://github.com/zju-vipa/EVS-Net. | 翻訳日:2021-08-04 08:00:38 公開日:2021-08-01 |
# (参考訳) 文字レベル情報を用いたトークンベースのエンコーダの強化 Learning to Look Inside: Augmenting Token-Based Encoders with Character-Level Information ( http://arxiv.org/abs/2108.00391v1 ) ライセンス: CC BY-SA 4.0 | Yuval Pinter, Amanda Stent, Mark Dredze, Jacob Eisenstein | (参考訳) 一般的に使用されるトランスフォーマー言語モデルは、事前トレーニングの前に変更不能なサブワード語彙を設定するトークン化スキーマに依存しており、ドメインシフト、新規な単語形成、その他の語彙ミスマッチのソースに関係なく、すべての下流タスクに適用される。
近年の研究では、"token-free"モデルは文字やバイトで直接トレーニングできることが示されているが、これらのモデルをスクラッチからトレーニングするにはかなりの計算資源が必要である。
本稿では,既存のトークンベースモデルに文字レベルの情報を加える手法であるXRayEmbを提案する。
xrayembは、文字列のベクトル表現を計算する文字レベルの「エンコーダ」と、その内部表現から文字配列へ復号する生成成分から構成されている。
我々は,XRayEmbの学習ベクトルを事前学習したトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習型トランスフォーマーアーキテクチャ,およびシーケンシャルレベルおよびシーケンスタグタスク,特に非標準英語テキストの性能向上に役立つことを示す。 Commonly-used transformer language models depend on a tokenization schema which sets an unchangeable subword vocabulary prior to pre-training, destined to be applied to all downstream tasks regardless of domain shift, novel word formations, or other sources of vocabulary mismatch. Recent work has shown that "token-free" models can be trained directly on characters or bytes, but training these models from scratch requires substantial computational resources, and this implies discarding the many domain-specific models that were trained on tokens. In this paper, we present XRayEmb, a method for retrofitting existing token-based models with character-level information. XRayEmb is composed of a character-level "encoder" that computes vector representations of character sequences, and a generative component that decodes from the internal representation to a character sequence. We show that incorporating XRayEmb's learned vectors into sequences of pre-trained token embeddings helps performance on both autoregressive and masked pre-trained transformer architectures and on both sequence-level and sequence tagging tasks, particularly on non-standard English text. | 翻訳日:2021-08-04 07:43:51 公開日:2021-08-01 |
# (参考訳) 自律システム組み込みGPUプラットフォームへの展開のためのYOLOv4に基づく圧縮対象検出モデルの開発 Developing a Compressed Object Detection Model based on YOLOv4 for Deployment on Embedded GPU Platform of Autonomous System ( http://arxiv.org/abs/2108.00392v1 ) ライセンス: CC BY 4.0 | Issac Sim, Ju-Hyung Lim, Young-Wan Jang, JiHwan You, SeonTaek Oh, and Young-Keun Kim | (参考訳) 最新のCNNベースのオブジェクト検出モデルは極めて正確だが、リアルタイムに実行するには高性能GPUが必要である。
メモリ容量が限られている組み込みシステムでは、メモリサイズと速度の面で依然として重い。
自律システムの物体検出は組み込みプロセッサ上で実行されるため、検出精度を維持しつつ、検出ネットワークをできるだけ光として圧縮することが好ましい。
一般的な軽量検出モデルがいくつかあるが、安全運転アプリケーションには精度が低すぎる。
そこで本研究では,自律システム上でのリアルタイムかつ安全な運転用アプリケーションの精度損失を最小限に抑えつつ,高い比で圧縮されたYOffleNetと呼ばれる新しい物体検出モデルを提案する。
バックボーンネットワークアーキテクチャはYOLOv4に基づいているが、高計算負荷のCSP DenseNetをShuffleNetの軽量モジュールに置き換えることで、ネットワークを大幅に圧縮できる。
kittiデータセットを用いた実験では、組込みgpuシステム(nvidia jetson agx xavier)上で46fpsの高速化が可能なyolov4-sよりも4.7倍圧縮された。
高圧縮比と比較して、精度は85.8% mAPにわずかに低下し、YOLOv4-sよりわずか2.6%低い。
そこで提案したネットワークは,リアルタイムかつ高精度な物体検出アプリケーションのために,自律システムの組み込みシステムに展開する可能性が高いことを示した。 Latest CNN-based object detection models are quite accurate but require a high-performance GPU to run in real-time. They still are heavy in terms of memory size and speed for an embedded system with limited memory space. Since the object detection for autonomous system is run on an embedded processor, it is preferable to compress the detection network as light as possible while preserving the detection accuracy. There are several popular lightweight detection models but their accuracy is too low for safe driving applications. Therefore, this paper proposes a new object detection model, referred as YOffleNet, which is compressed at a high ratio while minimizing the accuracy loss for real-time and safe driving application on an autonomous system. The backbone network architecture is based on YOLOv4, but we could compress the network greatly by replacing the high-calculation-load CSP DenseNet with the lighter modules of ShuffleNet. Experiments with KITTI dataset showed that the proposed YOffleNet is compressed by 4.7 times than the YOLOv4-s that could achieve as fast as 46 FPS on an embedded GPU system(NVIDIA Jetson AGX Xavier). Compared to the high compression ratio, the accuracy is reduced slightly to 85.8% mAP, that is only 2.6% lower than YOLOv4-s. Thus, the proposed network showed a high potential to be deployed on the embedded system of the autonomous system for the real-time and accurate object detection applications. | 翻訳日:2021-08-04 07:25:11 公開日:2021-08-01 |
# (参考訳) ディープグラフマッチングは、混合整数線形プログラミングと合致する - 自分のリスクでリラックスするか? Deep graph matching meets mixed-integer linear programming: Relax at your own risk ? ( http://arxiv.org/abs/2108.00394v1 ) ライセンス: CC BY 4.0 | Zhoubo Xu, Puqing Chen, Romain Raveaux, Xin Yang, Huadong Liu | (参考訳) グラフマッチングは、特にコンピュータビジョンの分野で広く注目を集めている重要な問題である。
近年,最先端の手法が深層学習にグラフマッチングを取り入れようとしている。
しかし、グラフマッチングアルゴリズムがモデルでどのような役割を果たすのかを説明する研究はない。
そこで本研究では,グラフマッチング問題のMILP定式化を統合するアプローチを提案する。
この定式化は最適に解かれ、固有のベースラインを提供する。
一方、グラフマッチングソルバの最適保証を解放し、品質レベルを導入することにより、同様のアプローチが導出される。
この品質レベルは、グラフマッチング解決器によって提供されるソリューションの品質を制御する。
さらに、グラフマッチング問題のいくつかの緩和をテストに適用する。
実験により,いくつかの理論的知見が得られ,深部グラフマッチング手法の方向性を導出する。 Graph matching is an important problem that has received widespread attention, especially in the field of computer vision. Recently, state-of-the-art methods seek to incorporate graph matching with deep learning. However, there is no research to explain what role the graph matching algorithm plays in the model. Therefore, we propose an approach integrating a MILP formulation of the graph matching problem. This formulation is solved to optimal and it provides inherent baseline. Meanwhile, similar approaches are derived by releasing the optimal guarantee of the graph matching solver and by introducing a quality level. This quality level controls the quality of the solutions provided by the graph matching solver. In addition, several relaxations of the graph matching problem are put to the test. Our experimental evaluation gives several theoretical insights and guides the direction of deep graph matching methods. | 翻訳日:2021-08-04 06:49:33 公開日:2021-08-01 |
# (参考訳) BORM:屋内シーン認識のためのベイズオブジェクト関係モデル BORM: Bayesian Object Relation Model for Indoor Scene Recognition ( http://arxiv.org/abs/2108.00397v1 ) ライセンス: CC BY 4.0 | Liguang Zhou, Jun Cen, Xingchao Wang, Zhenglong Sun, Tin Lun Lam, Yangsheng Xu | (参考訳) シーン認識はロボット知覚の基本的なタスクである。
人間にとって、シーン認識は、現実世界のオブジェクト知識が豊富にあるため合理的である。
事前のオブジェクト知識を人間からシーン認識に転送するというアイデアは重要であるが、それでもあまり役に立たない。
本稿では,室内シーン表現に有意義なオブジェクト表現を用いることを提案する。
まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入する。
対象の共起や対関係を解析するために,ベイズ的対象関係モデル(BORM)としてベイズ的視点からIOMを定式化する。
一方,提案手法はシーン認識のためのベイズ対象関係モデル (cborm) としてplacescnnモデルに組み込まれ, 削減されたplaces365データセット, sun rgb-dデータセットにおいて, 再トレーニングを行わず, 最先端の手法を著しく上回っている。
コードはhttps://github.com/hszhoushen/borm.orgにある。 Scene recognition is a fundamental task in robotic perception. For human beings, scene recognition is reasonable because they have abundant object knowledge of the real world. The idea of transferring prior object knowledge from humans to scene recognition is significant but still less exploited. In this paper, we propose to utilize meaningful object representations for indoor scene representation. First, we utilize an improved object model (IOM) as a baseline that enriches the object knowledge by introducing a scene parsing algorithm pretrained on the ADE20K dataset with rich object categories related to the indoor scene. To analyze the object co-occurrences and pairwise object relations, we formulate the IOM from a Bayesian perspective as the Bayesian object relation model (BORM). Meanwhile, we incorporate the proposed BORM with the PlacesCNN model as the combined Bayesian object relation model (CBORM) for scene recognition and significantly outperforms the state-of-the-art methods on the reduced Places365 dataset, and SUN RGB-D dataset without retraining, showing the excellent generalization ability of the proposed method. Code can be found at https://github.com/hszhoushen/borm. | 翻訳日:2021-08-04 06:48:40 公開日:2021-08-01 |
# (参考訳) 中国語注釈文の感性分析のためのトランスフォーマーエンコーダGRU(T-E-GRU) Transformer-Encoder-GRU (T-E-GRU) for Chinese Sentiment Analysis on Chinese Comment Text ( http://arxiv.org/abs/2108.00400v1 ) ライセンス: CC BY 4.0 | Binlong Zhang, Wei Zhou | (参考訳) 中国語感情分析(csa)は、その複雑さと不確実性から、自然言語処理における課題の1つである。
トランスフォーマは意味的特徴をキャプチャすることに成功しているが、シーケンス特徴をキャプチャするために位置符号化を使用するため、リカレントモデルに比べて大きな欠点がある。
本稿では, トランスフォーマーエンコーダとGRUを組み合わせた中国語感情分析のためのT-E-GRUを提案する。
我々は中国の3つのコメントデータセットの実験を行った。
中国語のコメントテキストにおける句読点の混同を考慮し,文節化能力のある句読点を選択的に保持する。
実験結果から,T-E-GRUは古典的再帰モデルおよび再帰モデルよりも注目度が高いことがわかった。 Chinese sentiment analysis (CSA) has always been one of the challenges in natural language processing due to its complexity and uncertainty. Transformer has succeeded in capturing semantic features, but it uses position encoding to capture sequence features, which has great shortcomings compared with the recurrent model. In this paper, we propose T-E-GRU for Chinese sentiment analysis, which combine transformer encoder and GRU. We conducted experiments on three Chinese comment datasets. In view of the confusion of punctuation marks in Chinese comment texts, we selectively retain some punctuation marks with sentence segmentation ability. The experimental results show that T-E-GRU outperforms classic recurrent model and recurrent model with attention. | 翻訳日:2021-08-04 06:30:42 公開日:2021-08-01 |
# (参考訳) 基本セルオートマタの計算階層 Computational Hierarchy of Elementary Cellular Automata ( http://arxiv.org/abs/2108.00415v1 ) ライセンス: CC BY 4.0 | Barbora Hudcov\'a and Tom\'a\v{s} Mikolov | (参考訳) セルオートマタの複雑さは、伝統的に計算能力によって測定される。
しかし、そのようなシステムの並列性に適した難解な計算タスクを選択することは困難である。
私たちはオートマトンが互いにエミュレートする能力を研究し、この概念を使って自然に出現するタスクの集合を定義します。
本研究は,基本的なセルオートマトンについて述べるが,コアアイデアは他の計算システムにも拡張できる。
我々は,どのセルオートマトンをエミュレートできるかを示すグラフを計算し,カオスオートマトンだけが非自明にオートマトンをエミュレートできないことを示す。
最後に,エミュレーションの概念を用いて,離散計算システムに適したカオスの定義を提案する。
我々の研究は、チューリング完全かつ計算効率のよい並列計算システムの設計に役立つと信じている。 The complexity of cellular automata is traditionally measured by their computational capacity. However, it is difficult to choose a challenging set of computational tasks suitable for the parallel nature of such systems. We study the ability of automata to emulate one another, and we use this notion to define such a set of naturally emerging tasks. We present the results for elementary cellular automata, although the core ideas can be extended to other computational systems. We compute a graph showing which elementary cellular automata can be emulated by which and show that certain chaotic automata are the only ones that cannot emulate any automata non-trivially. Finally, we use the emulation notion to suggest a novel definition of chaos that we believe is suitable for discrete computational systems. We believe our work can help design parallel computational systems that are Turing-complete and also computationally efficient. | 翻訳日:2021-08-04 06:18:24 公開日:2021-08-01 |
# (参考訳) 精密農業用エッジ上のDNNによる害虫の自動検出 Automated Pest Detection with DNN on the Edge for Precision Agriculture ( http://arxiv.org/abs/2108.00421v1 ) ライセンス: CC BY-SA 4.0 | Andrea Albanese, Matteo Nardello, and Davide Brunelli | (参考訳) 人工知能は、農業分野を含むいくつかの経済活動、特にアプリケーションの監視と制御をスムーズに推進してきた。
しかし、完全に機能する機械学習(ML)を搭載した低消費電力センシングデバイスの研究は、スマート農業において依然として断片化され、制限されている。
生物ストレスは作物の収量減少の主な原因の1つである。
コンピュータビジョン技術におけるディープラーニングの開発により、画像による害虫感染の自律的検出は、タイムリーな作物病診断の重要な研究方向となっている。
本稿では,果実果樹園内の害虫感染を連続的に検出し,ml機能を強化した組込みシステムを提案する。
組み込みソリューションは低消費電力の組み込みセンシングシステムとNeural Acceleratorを使って、一般的なフェロモンベースのトラップ内で画像をキャプチャして処理することができる。
3つの異なるMLアルゴリズムがトレーニングされ、デプロイされ、プラットフォームの能力を強調している。
さらに, エネルギー収穫機能の統合により, 電池寿命の延長が図られている。
その結果,農夫の介入なしに無期限に害虫感染処理を自動化できることが示唆された。 Artificial intelligence has smoothly penetrated several economic activities, especially monitoring and control applications, including the agriculture sector. However, research efforts toward low-power sensing devices with fully functional machine learning (ML) on-board are still fragmented and limited in smart farming. Biotic stress is one of the primary causes of crop yield reduction. With the development of deep learning in computer vision technology, autonomous detection of pest infestation through images has become an important research direction for timely crop disease diagnosis. This paper presents an embedded system enhanced with ML functionalities, ensuring continuous detection of pest infestation inside fruit orchards. The embedded solution is based on a low-power embedded sensing system along with a Neural Accelerator able to capture and process images inside common pheromone-based traps. Three different ML algorithms have been trained and deployed, highlighting the capabilities of the platform. Moreover, the proposed approach guarantees an extended battery life thanks to the integration of energy harvesting functionalities. Results show how it is possible to automate the task of pest infestation for unlimited time without the farmer's intervention. | 翻訳日:2021-08-04 06:06:15 公開日:2021-08-01 |
# (参考訳) 逆注意と条件層正規化を用いたテキストスタイル転送におけるコンテンツ保存の強化 Enhancing Content Preservation in Text Style Transfer Using Reverse Attention and Conditional Layer Normalization ( http://arxiv.org/abs/2108.00449v1 ) ライセンス: CC0 1.0 | Dongkyu Lee, Zhiliang Tian, Lanqing Xue, Nevin L. Zhang | (参考訳) テキストスタイル転送は、文章の内容を維持しながら文のスタイル(例えば感情)を変更することを目的としている。
一般的なアプローチは、与えられた文をスタイルのないコンテンツ表現にマッピングすることであり、コンテンツ表現はターゲットスタイルを持つデコーダに供給される。
従来のフィルタリング方式では、トークンレベルでのスタイルによるトークンを完全に取り除いたため、コンテンツ情報が失われる。
本稿では,各トークンのスタイル情報を逆注意で暗黙的に削除することにより,コンテンツの保存性を高めることを提案する。
さらに、対象のスタイル表現を構築する際にコンテンツ情報を融合し、コンテンツに関して動的にする。
本手法は,スタイル非依存のコンテンツ表現だけでなく,転送スタイルにおけるコンテンツ依存のスタイル表現も生成する。
実験の結果,本手法はコンテンツ保存の点で最先端のベースラインよりも高いマージンを示した。
加えて、スタイル転送の正確さとフラレンシーの面でも競争力がある。 Text style transfer aims to alter the style (e.g., sentiment) of a sentence while preserving its content. A common approach is to map a given sentence to content representation that is free of style, and the content representation is fed to a decoder with a target style. Previous methods in filtering style completely remove tokens with style at the token level, which incurs the loss of content information. In this paper, we propose to enhance content preservation by implicitly removing the style information of each token with reverse attention, and thereby retain the content. Furthermore, we fuse content information when building the target style representation, making it dynamic with respect to the content. Our method creates not only style-independent content representation, but also content-dependent style representation in transferring style. Empirical results show that our method outperforms the state-of-the-art baselines by a large margin in terms of content preservation. In addition, it is also competitive in terms of style transfer accuracy and fluency. | 翻訳日:2021-08-04 05:45:12 公開日:2021-08-01 |
# (参考訳) 局所注意認識機能を用いた自己教師付き学習 Self-supervised Learning with Local Attention-Aware Feature ( http://arxiv.org/abs/2108.00475v1 ) ライセンス: CC BY 4.0 | Trung X. Pham, Rusty John Lloyd Mina, Dias Issa, Chang D. Yoo | (参考訳) 本研究では,グローバル・ローカル・アウェアな視覚特徴を生成するための自己教師型学習手法を提案する。
我々のアプローチは、入力サンプルの特定の画像変換とパッチ画像との区別をモデルで訓練することに基づいている。
このアプローチを利用して、提案手法は、tiny-imagenetデータセットで1.03%、stl-10データセットで2.32%、以前のベストコンペティタを上回ることができる。
さらに,本手法は,STL-10データセットの完全教師付き学習法よりも優れている。
実験結果と可視化は,グローバルおよびローカルな注意認識型視覚表現の学習に成功していることを示す。 In this work, we propose a novel methodology for self-supervised learning for generating global and local attention-aware visual features. Our approach is based on training a model to differentiate between specific image transformations of an input sample and the patched images. Utilizing this approach, the proposed method is able to outperform the previous best competitor by 1.03% on the Tiny-ImageNet dataset and by 2.32% on the STL-10 dataset. Furthermore, our approach outperforms the fully-supervised learning method on the STL-10 dataset. Experimental results and visualizations show the capability of successfully learning global and local attention-aware visual representations. | 翻訳日:2021-08-04 05:32:25 公開日:2021-08-01 |
# (参考訳) 実現されたボラティリティ予測:金融用語埋め込みによる機械学習 Realised Volatility Forecasting: Machine Learning via Financial Word Embedding ( http://arxiv.org/abs/2108.00480v1 ) ライセンス: CC BY 4.0 | Eghbal Rahimikia, Stefan Zohren, Ser-Huang Poon | (参考訳) 我々は、dow jones newswiresのテキストニュースフィードデータベースから、最新の金融用語を埋め込んだfintextを開発した。
この単語を機械学習モデルに組み込むことで、2007年7月27日から2016年11月18日までの23株のボラティリティー上昇日におけるボラティリティ予測性能が大幅に向上した。
単語埋め込みとリミットオーダーブックデータを用いた別の機械学習モデルを組み合わせた単純なアンサンブルモデルにより、通常とジャンプの変動日の両方で最高の予測性能が得られる。
最後に,統合勾配とshap(shapley additive descriptions)を用いて,結果をより説明しやすくし,モデル比較をより透明にする。 We develop FinText, a novel, state-of-the-art, financial word embedding from Dow Jones Newswires Text News Feed Database. Incorporating this word embedding in a machine learning model produces a substantial increase in volatility forecasting performance on days with volatility jumps for 23 NASDAQ stocks from 27 July 2007 to 18 November 2016. A simple ensemble model, combining our word embedding and another machine learning model that uses limit order book data, provides the best forecasting performance for both normal and jump volatility days. Finally, we use Integrated Gradients and SHAP (SHapley Additive exPlanations) to make the results more 'explainable' and the model comparisons more transparent. | 翻訳日:2021-08-04 05:24:48 公開日:2021-08-01 |
# (参考訳) BundleTrack: インスタンスやカテゴリレベルの3Dモデルのない新しいオブジェクトのための6D Pose Tracking BundleTrack: 6D Pose Tracking for Novel Objects without Instance or Category-Level 3D Models ( http://arxiv.org/abs/2108.00516v1 ) ライセンス: CC BY 4.0 | Bowen Wen and Kostas Bekris | (参考訳) ビデオシーケンス中の物体の6Dポーズを追跡することはロボット操作にとって重要である。
しかしながら、ほとんどの以前の取り組みは、ターゲットオブジェクトのCADモデル(少なくともカテゴリレベル)がオフライントレーニングやオンラインテンプレートマッチングで利用できるとしばしば想定している。
この研究は、3dモデルに依存しない新しいオブジェクトの6dポーズトラッキングのための一般的なフレームワークである bundletrack を提案している。
セグメンテーションとロバストな特徴抽出のためのディープラーニングの最近の進歩の補完的属性と、時空間的一貫性のためのメモリによるポーズグラフ最適化を活用する。
これにより、大きな閉塞や物体の動きなど、様々な困難なシナリオ下での長期の低ドリフト追跡が可能になる。
2つの公開ベンチマークによる総合的な実験により、提案手法は最先端のカテゴリーレベルの6D追跡法や動的SLAM法よりも大幅に優れていることが示された。
オブジェクトインスタンスCADモデルに依存する最先端の手法と比較すると,提案手法では情報要求が減っているにもかかわらず,同等の性能が得られる。
CUDAの効率的な実装は、フレームワーク全体に対して10Hzのリアルタイムパフォーマンスを提供する。
https://github.com/wenbowen123/bundletrack Tracking the 6D pose of objects in video sequences is important for robot manipulation. Most prior efforts, however, often assume that the target object's CAD model, at least at a category-level, is available for offline training or during online template matching. This work proposes BundleTrack, a general framework for 6D pose tracking of novel objects, which does not depend upon 3D models, either at the instance or category-level. It leverages the complementary attributes of recent advances in deep learning for segmentation and robust feature extraction, as well as memory-augmented pose graph optimization for spatiotemporal consistency. This enables long-term, low-drift tracking under various challenging scenarios, including significant occlusions and object motions. Comprehensive experiments given two public benchmarks demonstrate that the proposed approach significantly outperforms state-of-art, category-level 6D tracking or dynamic SLAM methods. When compared against state-of-art methods that rely on an object instance CAD model, comparable performance is achieved, despite the proposed method's reduced information requirements. An efficient implementation in CUDA provides a real-time performance of 10Hz for the entire framework. Code is available at: https://github.com/wenbowen123/BundleTrack | 翻訳日:2021-08-04 05:23:25 公開日:2021-08-01 |
# (参考訳) RNNで必要なのはゲートではない Gates are not what you need in RNNs ( http://arxiv.org/abs/2108.00527v1 ) ライセンス: CC BY 4.0 | Ronalds Zakovskis, Andis Draguns, Eliza Gaile, Emils Ozolins, Karlis Freivalds | (参考訳) リカレントニューラルネットワークは多くの領域で盛んである。
その結果、新しいRNN細胞は、通常、新しいオリジナルな方法でゲートを作成したり使用したりすることで、継続的に開発される。
しかし、もしRNNのゲートが冗長であると言ったらどうでしょう?
本稿では,従来のセルに勝って1つのゲートを使わないResidual Recurrent Unit(RRU)と呼ばれる新しいリカレントセルを提案する。
これは、線形変換、ReLU、正規化と共に、残りのショートカット接続に基づいている。
このセルの有効性を評価するために,多声楽曲のモデル化,言語モデル,感情分析など,最近提案されたモグラファイタlstmとの比較を行った。
実験の結果,RRUは従来のゲートユニットよりも優れていることがわかった。
また、パラメータ選択に対する堅牢性も向上し、チューニングをあまり行わずに、新しいタスクに即座に適用できる。
TensorFlowでRRUを実装しており、コードはhttps://github.com/LUMII-Syslab/RRUで公開されている。 Recurrent neural networks have flourished in many areas. Consequently, we can see new RNN cells being developed continuously, usually by creating or using gates in a new, original way. But what if we told you that gates in RNNs are redundant? In this paper, we propose a new recurrent cell called Residual Recurrent Unit (RRU) which beats traditional cells and does not employ a single gate. It is based on the residual shortcut connection together with linear transformations, ReLU, and normalization. To evaluate our cell's effectiveness, we compare its performance against the widely-used GRU and LSTM cells and the recently proposed Mogrifier LSTM on several tasks including, polyphonic music modeling, language modeling, and sentiment analysis. Our experiments show that RRU outperforms the traditional gated units on most of these tasks. Also, it has better robustness to parameter selection, allowing immediate application in new tasks without much tuning. We have implemented the RRU in TensorFlow, and the code is made available at https://github.com/LUMII-Syslab/RRU . | 翻訳日:2021-08-04 05:06:11 公開日:2021-08-01 |
# (参考訳) mmWaveネットワークにおけるスケジューリングのための強化学習手法 A Reinforcement Learning Approach for Scheduling in mmWave Networks ( http://arxiv.org/abs/2108.00548v1 ) ライセンス: CC BY 4.0 | Mine Gokce Dogan, Yahya H. Ezzeldin, Christina Fragouli, Addison W. Bohannon | (参考訳) 我々は、リンクがブロックされ、ノードが故障する(例えば、敵対的な軍事環境において)mmWaveネットワーク上で、所望の速度で通信したいソースを考察する。
本稿では,リンク容量やネットワークトポロジの知識を使わずに,ネットワーク内の情報フローに適応する,最先端のsoft actor-critic (sac) 深層強化学習アルゴリズムについて検討する。
数値評価の結果,本アルゴリズムは動的環境においても所望の速度を達成でき,ブロッキングに対して頑健であることがわかった。 We consider a source that wishes to communicate with a destination at a desired rate, over a mmWave network where links are subject to blockage and nodes to failure (e.g., in a hostile military environment). To achieve resilience to link and node failures, we here explore a state-of-the-art Soft Actor-Critic (SAC) deep reinforcement learning algorithm, that adapts the information flow through the network, without using knowledge of the link capacities or network topology. Numerical evaluations show that our algorithm can achieve the desired rate even in dynamic environments and it is robust against blockage. | 翻訳日:2021-08-04 04:52:28 公開日:2021-08-01 |
# (参考訳) cybonto: サイバーセキュリティのための人間認知デジタル双子を目指して Cybonto: Towards Human Cognitive Digital Twins for Cybersecurity ( http://arxiv.org/abs/2108.00551v1 ) ライセンス: CC BY 4.0 | Tam N. Nguyen | (参考訳) サイバー防御は反応し、遅い。
平均して、time-to-remedyはtime-to-compromiseの数百倍大きい。
ますます複雑化する脅威の状況に対して、Digital Twins(DT)や、特にHuman Digital Twins(HDT)は、複数の知識ドメインにわたって大規模なシミュレーションを実行する機能を提供する。
シミュレートされた結果は、敵の行動や戦術についての洞察を与え、より積極的なサイバー防衛戦略をもたらす。
本稿では,Cybonto概念フレームワークの提案を通じて,サイバーセキュリティのためのDTとHDTのビジョンを初めて固める。
この論文はシボントオントロジーにも貢献し、20のタイムテスト心理学理論に基づく108の構成要素と数千の認知関連パスを公式に文書化している。
最後に,108構造体の解析に20のネットワーク集中アルゴリズムを適用した。
識別されたトップ10の構成物は、dtの未来に向けて現在のデジタル認知アーキテクチャの拡張を要求する。 Cyber defense is reactive and slow. On average, the time-to-remedy is hundreds of times larger than the time-to-compromise. In response to the expanding ever-more-complex threat landscape, Digital Twins (DTs) and particularly Human Digital Twins (HDTs) offer the capability of running massive simulations across multiple knowledge domains. Simulated results may offer insights into adversaries' behaviors and tactics, resulting in better proactive cyber-defense strategies. For the first time, this paper solidifies the vision of DTs and HDTs for cybersecurity via the Cybonto conceptual framework proposal. The paper also contributes the Cybonto ontology, formally documenting 108 constructs and thousands of cognitive-related paths based on 20 time-tested psychology theories. Finally, the paper applied 20 network centrality algorithms in analyzing the 108 constructs. The identified top 10 constructs call for extensions of current digital cognitive architectures in preparation for the DT future. | 翻訳日:2021-08-04 04:38:31 公開日:2021-08-01 |
# (参考訳) PSE-Match:並列セマンティック埋め込みを用いた視点のない位置認識手法 PSE-Match: A Viewpoint-free Place Recognition Method with Parallel Semantic Embedding ( http://arxiv.org/abs/2108.00552v1 ) ライセンス: CC0 1.0 | Peng Yin, Lingyun Xu, Anton Egorov and Bing Li | (参考訳) 自動運転車の正確なローカライゼーションは、特に複雑な都市部や、高精度GPSが利用できない地下環境において、自律性と運転安全のために不可欠である。
しかし、現在のオドメトリ推定は、ロバストなグローバルローカライゼーションを必要とせず、長期航法におけるドリフト問題を引き起こす可能性がある。
主な課題は、動的環境の干渉下でのシーンのばらつきと、異なる視点からの観察とオブジェクトレイアウトの効果的な知覚である。
これらの課題に対処するため、PSE-Matchは、3次元ポイントクラウドモデルから分離されたセマンティック属性の並列意味解析に基づく視点自由な位置認識手法である。
元々のポイントクラウドと比較すると、セマンティクス属性の観測されたばらつきは小さい。
PSE-Matchは、分岐場所学習ネットワークを組み込んで、球面調和領域を通じて異なる意味的属性を並列にキャプチャする。
既存のベンチマークデータセットとフィールド内の2つのデータセットを用いて,提案手法は,上位1検索で平均70%以上,上位10検索で平均95%以上のリコールを達成した。
PSE-Matchはまた、限られたトレーニングデータセットで明らかな一般化能力を示した。 Accurate localization on autonomous driving cars is essential for autonomy and driving safety, especially for complex urban streets and search-and-rescue subterranean environments where high-accurate GPS is not available. However current odometry estimation may introduce the drifting problems in long-term navigation without robust global localization. The main challenges involve scene divergence under the interference of dynamic environments and effective perception of observation and object layout variance from different viewpoints. To tackle these challenges, we present PSE-Match, a viewpoint-free place recognition method based on parallel semantic analysis of isolated semantic attributes from 3D point-cloud models. Compared with the original point cloud, the observed variance of semantic attributes is smaller. PSE-Match incorporates a divergence place learning network to capture different semantic attributes parallelly through the spherical harmonics domain. Using both existing benchmark datasets and two in-field collected datasets, our experiments show that the proposed method achieves above 70% average recall with top one retrieval and above 95% average recall with top ten retrieval cases. And PSE-Match has also demonstrated an obvious generalization ability with a limited training dataset. | 翻訳日:2021-08-04 04:29:17 公開日:2021-08-01 |
# (参考訳) FLASH: ハードウェア最適化による高速ニューラルネットワーク検索 FLASH: Fast Neural Architecture Search with Hardware Optimization ( http://arxiv.org/abs/2108.00568v1 ) ライセンス: CC0 1.0 | Guihong Li, Sumit K. Mandal, Umit Y. Ogras, Radu Marculescu | (参考訳) neural architecture search(nas)は、効率的で高性能なディープニューラルネットワーク(dnn)を設計するための有望な技術である。
MLアプリケーションのパフォーマンス要件が継続的に増加するにつれて、ハードウェアアクセラレータはDNN設計において中心的な役割を果たすようになる。
この傾向により、ほとんどの実際のアプリケーションではNASはさらに複雑で時間がかかります。
本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を最適化する非常に高速なNAS手法であるFLASHを提案する。
まず,DNNのトポロジ的特性をスキップ接続(例えばDenseNets,ResNets,Wide-ResNets,MobileNets)で定量化する解析指標であるNN-Degreeを提案する。
新たに提案されたNN-Degreeでは、トレーニング不要なNASを1秒以内に実行し、63億以上の構成を持つ巨大な検索スペースから25のサンプルをトレーニングして精度予測器を構築することができます。
第二に、ターゲットハードウェア上で推論を行うことにより、分析モデルを微調整し、標準のMLデータセットを実行しながら、各種DNNアーキテクチャのレイテンシ、面積、エネルギー消費量を推定する。
第三に,対象ハードウェアの面積,レイテンシ,エネルギー消費を考慮しつつ,モデルアーキテクチャの協調設計プロセスを最適化するために,単純化ホモロジーグローバル最適化(SHGO)に基づく階層的アルゴリズムを構築した。
最先端のnasアプローチと比較して,提案する階層型shgoベースのアルゴリズムは4桁以上の高速化を実現する(具体的には,提案アルゴリズムの実行時間は約0.1秒である)。
最後に、実験により、FLASHは異なるハードウェアアーキテクチャに容易に転送可能であることを示し、3秒未満でRaspberry Pi-3Bプロセッサ上でNASを実行できることを示した。 Neural architecture search (NAS) is a promising technique to design efficient and high-performance deep neural networks (DNNs). As the performance requirements of ML applications grow continuously, the hardware accelerators start playing a central role in DNN design. This trend makes NAS even more complicated and time-consuming for most real applications. This paper proposes FLASH, a very fast NAS methodology that co-optimizes the DNN accuracy and performance on a real hardware platform. As the main theoretical contribution, we first propose the NN-Degree, an analytical metric to quantify the topological characteristics of DNNs with skip connections (e.g., DenseNets, ResNets, Wide-ResNets, and MobileNets). The newly proposed NN-Degree allows us to do training-free NAS within one second and build an accuracy predictor by training as few as 25 samples out of a vast search space with more than 63 billion configurations. Second, by performing inference on the target hardware, we fine-tune and validate our analytical models to estimate the latency, area, and energy consumption of various DNN architectures while executing standard ML datasets. Third, we construct a hierarchical algorithm based on simplicial homology global optimization (SHGO) to optimize the model-architecture co-design process, while considering the area, latency, and energy consumption of the target hardware. We demonstrate that, compared to the state-of-the-art NAS approaches, our proposed hierarchical SHGO-based algorithm enables more than four orders of magnitude speedup (specifically, the execution time of the proposed algorithm is about 0.1 seconds). Finally, our experimental evaluations show that FLASH is easily transferable to different hardware architectures, thus enabling us to do NAS on a Raspberry Pi-3B processor in less than 3 seconds. | 翻訳日:2021-08-04 04:08:10 公開日:2021-08-01 |
# CSC-Unet: セマンティックセグメンテーションのための新しい畳み込みスパース符号化戦略に基づくニューラルネットワーク CSC-Unet: A Novel Convolutional Sparse Coding Strategy based Neural Network for Semantic Segmentation ( http://arxiv.org/abs/2108.00408v1 ) ライセンス: Link先を確認 | Haitong Tang, Shuang He, Xia Lu, Qin Yu, Kaiyue Liu, Hongjie Yan and Nizhuan Wang | (参考訳) 実写シーンの複雑さのため,セマンティックセグメンテーションを正確に行うことは難しい課題である。
従来の深層学習に基づく多くのセマンティックセグメンテーション手法では画像のセマンティックな情報や外観が不十分であり、様々な場面においてその汎用性と堅牢性に限界が生じた。
本稿では, 一般的な畳み込み操作を多層畳み込み符号化ブロックに再構成し, 上記の欠陥を緩和する新しい戦略を提案する。
この戦略は、畳み込み操作を含むセマンティックセグメンテーションモデルのセグメンテーション性能を著しく改善するために使用することができる。
提案手法の有効性を証明するため,実証目的で広く使用されているU-Netモデルを選択し,U-Netに基づくCSC-Unetモデルシリーズを設計した。
広汎な解析と実験により,多層畳み込みスパース符号化ブロックはセマンティックセグメンテーションモデルをより高速に収束させ,画像のより微細なセマンティックおよび外観情報を抽出し,空間的詳細情報を復元する能力を向上させることができることを示す。
最高のCSC-Unetモデルは、異なるシナリオを持つ3つのパブリックデータセット、すなわちDeepCrackデータセットで87.14%対84.71%、Nucleiデータセットで68.91%対67.09%、CamVidデータセットで53.68%対48.82%の3つの公開データセットで、元のU-Netの結果を大きく上回っている。 It is a challenging task to accurately perform semantic segmentation due to the complexity of real picture scenes. Many semantic segmentation methods based on traditional deep learning insufficiently captured the semantic and appearance information of images, which put limit on their generality and robustness for various application scenes. In this paper, we proposed a novel strategy that reformulated the popularly-used convolution operation to multi-layer convolutional sparse coding block to ease the aforementioned deficiency. This strategy can be possibly used to significantly improve the segmentation performance of any semantic segmentation model that involves convolutional operations. To prove the effectiveness of our idea, we chose the widely-used U-Net model for the demonstration purpose, and we designed CSC-Unet model series based on U-Net. Through extensive analysis and experiments, we provided credible evidence showing that the multi-layer convolutional sparse coding block enables semantic segmentation model to converge faster, can extract finer semantic and appearance information of images, and improve the ability to recover spatial detail information. The best CSC-Unet model significantly outperforms the results of the original U-Net on three public datasets with different scenarios, i.e., 87.14% vs. 84.71% on DeepCrack dataset, 68.91% vs. 67.09% on Nuclei dataset, and 53.68% vs. 48.82% on CamVid dataset, respectively. | 翻訳日:2021-08-03 15:41:23 公開日:2021-08-01 |
# 偏差ネットワークを用いた説明可能な深部撮影異常検出 Explainable Deep Few-shot Anomaly Detection with Deviation Networks ( http://arxiv.org/abs/2108.00462v1 ) ライセンス: Link先を確認 | Guansong Pang, Choubo Ding, Chunhua Shen, Anton van den Hengel | (参考訳) 既存の異常検出パラダイムは、通常データまたはラベルなしデータ(主に通常のサンプル)を使用したトレーニング検出モデルに圧倒的に重点を置いている。
これらのアプローチの悪名高い問題は、異常に関する知識が不足しているため、正常なサンプルから異常を識別する能力が弱いことである。
そこで本研究では,いくつかのラベル付き異常例を用いて,サンプル効率のよい識別検出モデルを訓練することを目的とする。
この問題に対処するために,本研究では,検出モデルのトレーニングを行うために,可能な全てのクラスを例に挙げることなく,より弱い教師付き異常検出フレームワークを導入する。
具体的には、ラベル付き異常と事前確率を利用して識別正規性(正規性)を学習し、正規性の表現表現と非有界な非有界な異常表現を強制する。
これは神経偏差学習による異常スコアのエンドツーエンド最適化により達成され、通常のサンプルの異常スコアを前者から引き出されたスカラースコアに近似させ、異常サンプルの異常スコアを上尾部のこれらの標本スコアから統計的に有意な偏差を有するように強制する。
さらに,トップKマルチインスタンス学習に基づく特徴空間偏差学習により,詳細な正規性と異常を学習し,より一般化された表現を可能にする。
9つの実世界の画像異常検出ベンチマークに関する包括的実験により、このモデルはかなりサンプル効率が高く、ロバストであり、クローズドセットとオープンセットのどちらにおいても最先端の競合メソッドよりも優れた性能を示している。
我々のモデルは、事前駆動の異常スコア学習の結果、説明能力を提供することもできる。
コードとデータセットは、https://git.io/devnet。 Existing anomaly detection paradigms overwhelmingly focus on training detection models using exclusively normal data or unlabeled data (mostly normal samples). One notorious issue with these approaches is that they are weak in discriminating anomalies from normal samples due to the lack of the knowledge about the anomalies. Here, we study the problem of few-shot anomaly detection, in which we aim at using a few labeled anomaly examples to train sample-efficient discriminative detection models. To address this problem, we introduce a novel weakly-supervised anomaly detection framework to train detection models without assuming the examples illustrating all possible classes of anomaly. Specifically, the proposed approach learns discriminative normality (regularity) by leveraging the labeled anomalies and a prior probability to enforce expressive representations of normality and unbounded deviated representations of abnormality. This is achieved by an end-to-end optimization of anomaly scores with a neural deviation learning, in which the anomaly scores of normal samples are imposed to approximate scalar scores drawn from the prior while that of anomaly examples is enforced to have statistically significant deviations from these sampled scores in the upper tail. Furthermore, our model is optimized to learn fine-grained normality and abnormality by top-K multiple-instance-learning-based feature subspace deviation learning, allowing more generalized representations. Comprehensive experiments on nine real-world image anomaly detection benchmarks show that our model is substantially more sample-efficient and robust, and performs significantly better than state-of-the-art competing methods in both closed-set and open-set settings. Our model can also offer explanation capability as a result of its prior-driven anomaly score learning. Code and datasets are available at: https://git.io/DevNet. | 翻訳日:2021-08-03 15:40:50 公開日:2021-08-01 |
# 微生物画像解析におけるニューラルネットワークの応用:従来の多層パーセプトロンから一般の畳み込みニューラルネットワークと視覚トランスフォーマへの包括的考察 Applications of Artificial Neural Networks in Microorganism Image Analysis: A Comprehensive Review from Conventional Multilayer Perceptron to Popular Convolutional Neural Network and Potential Visual Transformer ( http://arxiv.org/abs/2108.00358v1 ) ライセンス: Link先を確認 | Jinghua Zhang, Chen Li, Marcin Grzegorzek | (参考訳) 微生物はヒトの生活環境に広く分布している。
環境汚染対策、疾病予防・治療、食品・医薬品生産において重要な役割を担っている。
識別、計数、検出は、異なる微生物をフルに利用するための基本的なステップである。
しかし、従来の分析手法は高価で、手間がかかり、時間がかかる。
これらの限界を克服するために、人工ニューラルネットワークを微生物画像解析に適用する。
本稿では,ニューラルネットワークに基づく微生物画像解析の展開過程を理解するため,本研究のレビューを行う。
このレビューでは、まず背景とモチベーションを紹介します。
次に、ニューラルネットワークおよび代表ネットワークの開発について紹介する。
その後、従来のニューラルネットワークと深層ニューラルネットワークに基づく微生物画像解析に関する論文を、様々なタスクの観点からレビューする。
最後に,方法論分析と潜在的方向性について考察する。 Microorganisms are widely distributed in the human daily living environment. They play an essential role in environmental pollution control, disease prevention and treatment, and food and drug production. The identification, counting, and detection are the basic steps for making full use of different microorganisms. However, the conventional analysis methods are expensive, laborious, and time-consuming. To overcome these limitations, artificial neural networks are applied for microorganism image analysis. We conduct this review to understand the development process of microorganism image analysis based on artificial neural networks. In this review, the background and motivation are introduced first. Then, the development of artificial neural networks and representative networks are introduced. After that, the papers related to microorganism image analysis based on classical and deep neural networks are reviewed from the perspectives of different tasks. In the end, the methodology analysis and potential direction are discussed. | 翻訳日:2021-08-03 15:37:43 公開日:2021-08-01 |
# 足場による弱アノテーションによる海上障害物検出の学習 Learning Maritime Obstacle Detection from Weak Annotations by Scaffolding ( http://arxiv.org/abs/2108.00564v1 ) ライセンス: Link先を確認 | Lojze \v{Z}ust, Matej Kristan | (参考訳) 沿岸の自律ボートは障害物検出と時間的衝突回避のための頑健な認識手法に依存している。
現在の最先端は、大規模なデータセットでトレーニングされたディープセグメンテーションネットワークに基づいている。
しかし、そのようなデータセットの1ピクセルあたりの真実ラベル付けは、労働集約的で高価である。
実際の障害物回避に必要となる情報が少ないこと,すなわち,岸などの静的障害物における水辺の位置や,水中の動的障害物の近似位置や境界は,反応を計画するのに十分である。
本研究では,このような弱いアノテーションのみから障害物検出セグメンテーションネットワークを訓練できる新しいスキャフォールディング学習レジーム(slr)を提案する。
実験により、SLRを用いて訓練された海上障害物セグメンテーションネットワークは、密度の高い地上の真理ラベルで訓練された同じネットワークよりも大幅に優れていた。
したがって、単純さのラベル付けには正確さが犠牲にならないが、実際は改善されている。 Coastal water autonomous boats rely on robust perception methods for obstacle detection and timely collision avoidance. The current state-of-the-art is based on deep segmentation networks trained on large datasets. Per-pixel ground truth labeling of such datasets, however, is labor-intensive and expensive. We observe that far less information is required for practical obstacle avoidance - the location of water edge on static obstacles like shore and approximate location and bounds of dynamic obstacles in the water is sufficient to plan a reaction. We propose a new scaffolding learning regime (SLR) that allows training obstacle detection segmentation networks only from such weak annotations, thus significantly reducing the cost of ground-truth labeling. Experiments show that maritime obstacle segmentation networks trained using SLR substantially outperform the same networks trained with dense ground truth labels. Thus accuracy is not sacrificed for labelling simplicity but is in fact improved, which is a remarkable result. | 翻訳日:2021-08-03 15:37:32 公開日:2021-08-01 |
# 複雑なHuman-Object相互作用下におけるニューラルな自由視点性能レンダリング Neural Free-Viewpoint Performance Rendering under ComplexHuman-object Interactions ( http://arxiv.org/abs/2108.00362v1 ) ライセンス: Link先を確認 | Guoxing Sun, Xin Chen, Yizhang Chen, Anqi Pang, Pei Lin, Yuheng Jiang, Lan Xu, Jingya Wang, Jingyi Yu | (参考訳) 人間と物体のインタラクションの4次元再構築は没入型vr/ar体験と人間の活動理解に不可欠である。
近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。
本稿では,粗いRGBストリームのみから,任意の斬新な視点での対話シナリオにおいて,人間と物体の高画質な形状と写真リアルなテクスチャの両方を生成するニューラルヒューマンパフォーマンスキャプチャ・レンダリングシステムを提案する。
人間とオブジェクトの相互作用によって引き起こされる複雑なオクルージョンに対処するために、階層的なシーン分離戦略を採用し、人間とオブジェクトのボリュームリコンストラクションとニューラルレンダリングを行う。
具体的には、幾何学的再構成のために、人間の再構成とオブジェクトの再構成を相関関係と共同で検討する、対話型オブジェクトキャプチャー方式を提案する。
4次元オブジェクトダイナミックリコンストラクションのために, 咬合認識型ヒューマンリコンストラクションとロバストなヒューマンアウェアオブジェクトトラッキングを提案する。
ニューラルネットワークのテクスチャレンダリングのために,方向認識型ニューラルブレンディング重み学習と時空間テクスチャ補完を組み合わせた階層的ヒューマンオブジェクトレンダリング手法を提案する。
大規模な実験により,人間と物体の相互作用に挑戦する自由視点で高品質な幾何学とテクスチャ再構築を実現する手法の有効性が示された。 4D reconstruction of human-object interaction is critical for immersive VR/AR experience and human activity understanding. Recent advances still fail to recover fine geometry and texture results from sparse RGB inputs, especially under challenging human-object interactions scenarios. In this paper, we propose a neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of both human and objects under challenging interaction scenarios in arbitrary novel views, from only sparse RGB streams. To deal with complex occlusions raised by human-object interactions, we adopt a layer-wise scene decoupling strategy and perform volumetric reconstruction and neural rendering of the human and object. Specifically, for geometry reconstruction, we propose an interaction-aware human-object capture scheme that jointly considers the human reconstruction and object reconstruction with their correlations. Occlusion-aware human reconstruction and robust human-aware object tracking are proposed for consistent 4D human-object dynamic reconstruction. For neural texture rendering, we propose a layer-wise human-object rendering scheme, which combines direction-aware neural blending weight learning and spatial-temporal texture completion to provide high-resolution and photo-realistic texture results in the occluded scenarios. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and texture reconstruction in free viewpoints for challenging human-object interactions. | 翻訳日:2021-08-03 15:32:46 公開日:2021-08-01 |
# DECAF:ラベル機能を備えたディープエクストリーム分類 DECAF: Deep Extreme Classification with Label Features ( http://arxiv.org/abs/2108.00368v1 ) ライセンス: Link先を確認 | Anshul Mittal, Kunal Dahiya, Sheshansh Agrawal, Deepak Saini, Sumeet Agarwal, Purushottam Kar, Manik Varma | (参考訳) 極端な多重ラベル分類(xml)は、非常に大きなラベルセットから最も関連するラベルのサブセットでデータポイントをタグ付けすることを含み、何百万もの製品で製品間リコメンデーション(product-to-product recommendation)などいくつかのアプリケーションがある。
主要なXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視している。
一方、ディープネットワークを用いた表現学習によってラベルメタデータを活用できる古典的手法では、極端な設定が困難である。
本稿では,ディープネットワークを用いてモデルパラメータと特徴表現を共同で学習し,数百万のラベルの規模で正確な分類を行うラベルメタデータにより,これらの課題に対処するDECAFアルゴリズムを開発した。
DECAFは、モデルアーキテクチャ設計、初期化、トレーニングに特定の貢献をしており、LF-AmazonTitles-1.3Mのような、一般公開されている製品間推奨データセットにおいて、極端な分類器を導くよりも最大2-6%正確な予測を提供することができる。
同時に、DeCAFは深い極端分類器よりも最大22倍高速な推論が可能であり、数ミリ秒以内の予測を必要とするリアルタイムアプリケーションに適していることが判明した。
DECAFのコードは以下のURL https://github.com/Extreme-classification/DECAFで利用可能である。 Extreme multi-label classification (XML) involves tagging a data point with its most relevant subset of labels from an extremely large label set, with several applications such as product-to-product recommendation with millions of products. Although leading XML algorithms scale to millions of labels, they largely ignore label meta-data such as textual descriptions of the labels. On the other hand, classical techniques that can utilize label metadata via representation learning using deep networks struggle in extreme settings. This paper develops the DECAF algorithm that addresses these challenges by learning models enriched by label metadata that jointly learn model parameters and feature representations using deep networks and offer accurate classification at the scale of millions of labels. DECAF makes specific contributions to model architecture design, initialization, and training, enabling it to offer up to 2-6% more accurate prediction than leading extreme classifiers on publicly available benchmark product-to-product recommendation datasets, such as LF-AmazonTitles-1.3M. At the same time, DECAF was found to be up to 22x faster at inference than leading deep extreme classifiers, which makes it suitable for real-time applications that require predictions within a few milliseconds. The code for DECAF is available at the following URL https://github.com/Extreme-classification/DECAF. | 翻訳日:2021-08-03 15:32:03 公開日:2021-08-01 |
# あなたもブルータス!
ソーシャルメディアにおける有害ユーザ追跡 - 課題、解決策、洞察 You too Brutus! Trapping Hateful Users in Social Media: Challenges, Solutions & Insights ( http://arxiv.org/abs/2108.00524v1 ) ライセンス: Link先を確認 | Mithun Das, Punyajoy Saha, Ritam Dutt, Pawan Goyal, Animesh Mukherjee and Binny Mathew | (参考訳) ヘイトスピーチは、オンラインソーシャルメディアを悩ませる重要な問題の1つと見なされている。
ヘイトスピーチ検出に関する現在の文献は、主にテキストコンテンツを利用してヘイトな投稿を見つけ、その後にヘイトなユーザーを特定する。
しかし,この手法はユーザ間の社会的つながりを無視している。
本稿では,問題空間の詳細な探索を行い,テキスト的特徴とグラフ的特徴を両立したグラフニューラルネットワーク(gnn)を用いた,純粋にテキスト的からグラフ的なモデルから,最終的に半教師付き手法まで多岐にわたるモデルについて検討する。
Gabは緩やかに中和され、Twitterは厳格に中和されています。
全体としてagnnモデルはgabデータセット上では0.791マクロf1-score、twitterデータセット上では0.780マクロf1-scoreを達成している。
本稿では,テキストとグラフをベースとした最良のモデルに対して詳細なエラー解析を行い,憎しみのあるユーザが独自のネットワーク近傍シグネチャとAGNNモデルを持つことを観察する。
この性質は、観測したように、ゼロショット設定でプラットフォーム間でモデルをうまく一般化することを可能にする。
最後に,ベストパフォーマンスGNNモデルを用いて,ガブにおけるヘイトフルユーザとそのターゲットの進化を時間とともに分析する。 Hate speech is regarded as one of the crucial issues plaguing the online social media. The current literature on hate speech detection leverages primarily the textual content to find hateful posts and subsequently identify hateful users. However, this methodology disregards the social connections between users. In this paper, we run a detailed exploration of the problem space and investigate an array of models ranging from purely textual to graph based to finally semi-supervised techniques using Graph Neural Networks (GNN) that utilize both textual and graph-based features. We run exhaustive experiments on two datasets -- Gab, which is loosely moderated and Twitter, which is strictly moderated. Overall the AGNN model achieves 0.791 macro F1-score on the Gab dataset and 0.780 macro F1-score on the Twitter dataset using only 5% of the labeled instances, considerably outperforming all the other models including the fully supervised ones. We perform detailed error analysis on the best performing text and graph based models and observe that hateful users have unique network neighborhood signatures and the AGNN model benefits by paying attention to these signatures. This property, as we observe, also allows the model to generalize well across platforms in a zero-shot setting. Lastly, we utilize the best performing GNN model to analyze the evolution of hateful users and their targets over time in Gab. | 翻訳日:2021-08-03 15:31:40 公開日:2021-08-01 |
# 一般非凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影アルゴリズム Zeroth-Order Alternating Randomized Gradient Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v1 ) ライセンス: Link先を確認 | Zi Xu, Jingjing Shen, Ziqi Wang, Yuhong Dai | (参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。
本研究では,滑らかな非凸凸型ミニマックス問題に対するゼロ次交互ランダム勾配投影 (zo-agp) アルゴリズムを提案し,その反復複雑性から$\varepsilon$-stationary pointを得るには$\mathcal{o}(\varepsilon^{-4})$,関数値推定の回数は$\mathcal{o}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$である。
さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stationary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$で制限する。
我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。
データ中毒攻撃問題の数値結果は,提案アルゴリズムの有効性を検証する。 In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem validate the efficiency of the proposed algorithms. | 翻訳日:2021-08-03 15:29:20 公開日:2021-08-01 |
# モンテカルロ法による高密度・高密度化と強化学習への応用に関する研究 A survey of Monte Carlo methods for noisy and costly densities with application to reinforcement learning ( http://arxiv.org/abs/2108.00490v1 ) ライセンス: Link先を確認 | F. Llorente, L. Martino, J. Read, D. Delgado | (参考訳) 本調査は,モンテカルロ法について,耐え難い,費用がかかる,あるいはうるさい密度を扱うためのサロゲートモデルを用いて概説する。
このような問題は、確率的最適化や強化学習など、多くの実世界のシナリオで見出され、密度関数のそれぞれの評価は、計算的または物理的(実世界の活動)なコストを発生させ、毎回異なる結果を与える可能性がある。
代理モデルは、このコストを伴わないが、そのような方法論の選択と設計に関わる重要なトレードオフと考慮がある。
異なる方法論を3つの主要なクラスに分類し、統一表記法の下で特定のアルゴリズムのインスタンスを記述する。
考慮されたメソッドを包含するモジュラースキームも提示する。
可能性のない設定と強化学習に特に注意を払って、様々な応用シナリオについて論じる。
数値的な比較もいくつかある。 This survey gives an overview of Monte Carlo methodologies using surrogate models, for dealing with densities which are intractable, costly, and/or noisy. This type of problem can be found in numerous real-world scenarios, including stochastic optimization and reinforcement learning, where each evaluation of a density function may incur some computationally-expensive or even physical (real-world activity) cost, likely to give different results each time. The surrogate model does not incur this cost, but there are important trade-offs and considerations involved in the choice and design of such methodologies. We classify the different methodologies into three main classes and describe specific instances of algorithms under a unified notation. A modular scheme which encompasses the considered methods is also presented. A range of application scenarios is discussed, with special attention to the likelihood-free setting and reinforcement learning. Several numerical comparisons are also provided. | 翻訳日:2021-08-03 15:28:42 公開日:2021-08-01 |
# コンピュータビジョンにおけるディープラーニングに対する敵対的攻撃の脅威:調査II Threat of Adversarial Attacks on Deep Learning in Computer Vision: Survey II ( http://arxiv.org/abs/2108.00401v1 ) ライセンス: Link先を確認 | Naveed Akhtar, Ajmal Mian, Navid Kardan, Mubarak Shah | (参考訳) ディープラーニング(Deep Learning, DL)は、コンピュータビジョンにおいて最も広く使われているツールである。
複雑な問題を正確に解く能力は、セキュリティクリティカルなアプリケーションを含む様々なタスクの深いニューラルモデルを学ぶために、視覚研究で採用されている。
しかし、現在、DLは画像やビデオに視覚的に知覚できない摂動を導入することで予測を操作できる敵攻撃に弱いことが知られている。
2013~[1]年にこの現象が発見されて以来、機械知能の複数のサブ分野の研究者が注目している。
[2]では、深層学習(とその防御)に対する敵対的な攻撃において、コンピュータビジョンコミュニティが2018年まで行った貢献をレビューした。
これらの貢献の多くはこの地域の新しい方向性に刺激を与えており、これは初代の方法を見てから著しく成熟している。
したがって、この文献は[2]の遺産として、2018年以降のこの分野の進歩に焦点を当てている。
真正性を確保するために、コンピュータビジョンと機械学習研究の権威ある情報源で公表されたピアレビュードコントリビューションを主に検討する。
この論文は総合的な文献レビューの他に、この分野の非専門家に対する技術的用語の簡潔な定義も提供している。
最後に、本稿でレビューした文献をもとに、この方向性の課題と今後の展望について論じる。 Deep Learning (DL) is the most widely used tool in the contemporary field of computer vision. Its ability to accurately solve complex problems is employed in vision research to learn deep neural models for a variety of tasks, including security critical applications. However, it is now known that DL is vulnerable to adversarial attacks that can manipulate its predictions by introducing visually imperceptible perturbations in images and videos. Since the discovery of this phenomenon in 2013~[1], it has attracted significant attention of researchers from multiple sub-fields of machine intelligence. In [2], we reviewed the contributions made by the computer vision community in adversarial attacks on deep learning (and their defenses) until the advent of year 2018. Many of those contributions have inspired new directions in this area, which has matured significantly since witnessing the first generation methods. Hence, as a legacy sequel of [2], this literature review focuses on the advances in this area since 2018. To ensure authenticity, we mainly consider peer-reviewed contributions published in the prestigious sources of computer vision and machine learning research. Besides a comprehensive literature review, the article also provides concise definitions of technical terminologies for non-experts in this domain. Finally, this article discusses challenges and future outlook of this direction based on the literature reviewed herein and [2]. | 翻訳日:2021-08-03 15:27:18 公開日:2021-08-01 |
# 臨床ノートに対する知識ベース質問に対する注意に基づくアスペクト推論 Attention-based Aspect Reasoning for Knowledge Base Question Answering on Clinical Notes ( http://arxiv.org/abs/2108.00513v1 ) ライセンス: Link先を確認 | Ping Wang, Tian Shi, Khushbu Agarwal, Sutanay Choudhury, Chandan K. Reddy | (参考訳) 臨床ノートにおける質問応答 (QA) はここ数年で注目されている。
既存の臨床領域における機械読解アプローチは、臨床テキストの1ブロックに関する質問にのみ対応でき、異なる患者や臨床ノートに関する情報を検索できない。
より複雑な質問に対処するため,臨床ノートから知識ベースを作成し,異なる患者と臨床ノートをリンクし,知識ベース質問応答(KBQA)を実行することを目的とした。
n2c2のエキスパートアノテーションに基づいて、まず8,952のQAペアを含む臨床KBQAデータセットを作成し、322の質問テンプレートを通じて7つの医療トピックに関する質問をカバーした。
そこで我々は,KBQAの注意に基づくアスペクト推論(AAR)手法を提案し,回答のさまざまな側面(エンティティ,タイプ,パス,コンテキストなど)が予測に与える影響を検討した。
AAR法は、よく設計されたエンコーダとアテンション機構により、より良い性能を実現する。
実験では、型とパスの両方の側面によって、モデルが一般的な条件を満たす答えを識別でき、より正確で高いリコールが得られることを発見した。
一方、エンティティとコンテキストという側面は、ノード固有の情報によって答えを制限し、より高い精度と低いリコールにつながる。 Question Answering (QA) in clinical notes has gained a lot of attention in the past few years. Existing machine reading comprehension approaches in clinical domain can only handle questions about a single block of clinical texts and fail to retrieve information about different patients and clinical notes. To handle more complex questions, we aim at creating knowledge base from clinical notes to link different patients and clinical notes, and performing knowledge base question answering (KBQA). Based on the expert annotations in n2c2, we first created the ClinicalKBQA dataset that includes 8,952 QA pairs and covers questions about seven medical topics through 322 question templates. Then, we proposed an attention-based aspect reasoning (AAR) method for KBQA and investigated the impact of different aspects of answers (e.g., entity, type, path, and context) for prediction. The AAR method achieves better performance due to the well-designed encoder and attention mechanism. In the experiments, we find that both aspects, type and path, enable the model to identify answers satisfying the general conditions and produce lower precision and higher recall. On the other hand, the aspects, entity and context, limit the answers by node-specific information and lead to higher precision and lower recall. | 翻訳日:2021-08-03 15:24:12 公開日:2021-08-01 |
# 都市部における言語利用の地域差 Geolocation differences of language use in urban areas ( http://arxiv.org/abs/2108.00533v1 ) ライセンス: Link先を確認 | Olga Kellert and Nicholas H. Matlis | (参考訳) ソーシャルメディア時代における自然言語データの利用が爆発的に増加し、感情分析や意見マイニングといった様々な応用がもたらされた。
同時に、正確な位置情報の可用性が高まり、環境変化や病気の伝播といった大域的な現象の可視化が可能になる。
しかし、言語使用の空間的変化を追跡する機会は、特に小さな空間規模で見過ごされている。
ここでは,都市規模から都市単位までの言語利用の空間的変動を解決するために,正確な位置情報を用いたtwitterデータの利用について検討する。
言語トークンのいくつかのカテゴリを識別し,これらのパターンに関連する空間分布を定量的に可視化する手法を開発した。
分析では、同じカテゴリから、それぞれがトークンの集合によって定義されるツイートのコントラスト対の比較に集中する。
本研究は, 言語科学, 商業広告, ソーシャルサービスなど, 幅広い分野において, 言語利用と社会的文脈の相関関係に関する一意的な情報を提供することができることを示す。 The explosion in the availability of natural language data in the era of social media has given rise to a host of applications such as sentiment analysis and opinion mining. Simultaneously, the growing availability of precise geolocation information is enabling visualization of global phenomena such as environmental changes and disease propagation. Opportunities for tracking spatial variations in language use, however, have largely been overlooked, especially on small spatial scales. Here we explore the use of Twitter data with precise geolocation information to resolve spatial variations in language use on an urban scale down to single city blocks. We identify several categories of language tokens likely to show distinctive patterns of use and develop quantitative methods to visualize the spatial distributions associated with these patterns. Our analysis concentrates on comparison of contrasting pairs of Tweet distributions from the same category, each defined by a set of tokens. Our work shows that analysis of small-scale variations can provide unique information on correlations between language use and social context which are highly valuable to a wide range of fields from linguistic science and commercial advertising to social services. | 翻訳日:2021-08-03 15:23:52 公開日:2021-08-01 |
# WAS-VTON:仮想トライオンネットワークのアーキテクチャ探索 WAS-VTON: Warping Architecture Search for Virtual Try-on Network ( http://arxiv.org/abs/2108.00386v1 ) ライセンス: Link先を確認 | Zhenyu Xie, Xujie Zhang, Fuwei Zhao, Haoye Dong, Michael C. Kampffmeyer, Haonan Yan, Xiaodan Liang | (参考訳) 画像ベースの仮想トライオンの進歩にもかかわらず、現在の手法は共有ワープネットワークによって制約されるため、異なるワープ操作を必要とする衣服カテゴリーに直面した場合に、自然な試行結果の合成に失敗する。
本稿では,ニューラルネットワークサーチ(NAS)を用いて,仮想試行作業のための衣服カテゴリー別ワープネットワークを見つけることで,この問題に対処する。
我々は,nas-warpingモジュールを導入し,ネットワークレベルと運用レベルのフロー推定アーキテクチャを同定するために,二段階階層探索空間を精巧に設計する。
異なる数のワープブロックを含むネットワークレベルのサーチスペースと異なる畳み込み操作を持つ操作レベルのサーチスペースを考慮し、反復可能なワープセルと着衣者アライメントのための畳み込み操作の組み合わせを共同で学習する。
さらに,NAS-Fusion Moduleはより自然な最終試行結果を合成するために提案され,特定のスキップ接続を利用して,乱れた衣服と変人部分とをシームレスに融合させるのに必要な,より複雑な特徴を創出する。
我々は,上述の2つのモジュールを探索するために,効率的かつ安定なワンショット探索戦略を採用する。
我々のWAS-VTONは、より自然なワープ結果と仮想試行結果で従来の固定構造試行法よりも大幅に優れていた。 Despite recent progress on image-based virtual try-on, current methods are constraint by shared warping networks and thus fail to synthesize natural try-on results when faced with clothing categories that require different warping operations. In this paper, we address this problem by finding clothing category-specific warping networks for the virtual try-on task via Neural Architecture Search (NAS). We introduce a NAS-Warping Module and elaborately design a bilevel hierarchical search space to identify the optimal network-level and operation-level flow estimation architecture. Given the network-level search space, containing different numbers of warping blocks, and the operation-level search space with different convolution operations, we jointly learn a combination of repeatable warping cells and convolution operations specifically for the clothing-person alignment. Moreover, a NAS-Fusion Module is proposed to synthesize more natural final try-on results, which is realized by leveraging particular skip connections to produce better-fused features that are required for seamlessly fusing the warped clothing and the unchanged person part. We adopt an efficient and stable one-shot searching strategy to search the above two modules. Extensive experiments demonstrate that our WAS-VTON significantly outperforms the previous fixed-architecture try-on methods with more natural warping results and virtual try-on results. | 翻訳日:2021-08-03 15:19:24 公開日:2021-08-01 |
# object-to-scene: オブジェクト知識を屋内シーン認識に移すための学習 Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene Recognition ( http://arxiv.org/abs/2108.00399v1 ) ライセンス: Link先を確認 | Bo Miao, Liguang Zhou, Ajmal Mian, Tin Lun Lam, Yangsheng Xu | (参考訳) 周囲のシーンの正確な認識は、ロボットが合理的な判断と行動を行うのに役立つ。
したがって,効果的なシーン表現・認識手法の開発はロボット工学において重要である。
現在、屋内シーン認識能力を向上させるために、新しい補助機能やネットワークの開発に重点が置かれている。
しかし,オブジェクトの特徴と屋内シーン認識の関係を直接構築することに焦点を当てているものはほとんどない。
本稿では,現在の手法の弱点を分析し,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
提案するOTSは,まず,分割ネットワークとオブジェクト特徴集約モジュール(OFAM)に基づいてオブジェクト特徴を抽出する。
その後、オブジェクト関係を計算し、提案したオブジェクト注意モジュール(OAM)とグローバル関係集約モジュール(GRAM)に基づいてシーン表現を構築する。
この研究の最終結果は、OTSがオブジェクトの特徴を抽出し、セグメンテーションネットワークからオブジェクトの関係を学習できることを示します。
さらに、OTSは、追加のストリームを使わずに、屋内シーン認識において2倍以上の精度で最先端の手法より優れている。
コードはhttps://github.com/FreeformRobotics/OTS.comで公開されている。 Accurate perception of the surrounding scene is helpful for robots to make reasonable judgments and behaviours. Therefore, developing effective scene representation and recognition methods are of significant importance in robotics. Currently, a large body of research focuses on developing novel auxiliary features and networks to improve indoor scene recognition ability. However, few of them focus on directly constructing object features and relations for indoor scene recognition. In this paper, we analyze the weaknesses of current methods and propose an Object-to-Scene (OTS) method, which extracts object features and learns object relations to recognize indoor scenes. The proposed OTS first extracts object features based on the segmentation network and the proposed object feature aggregation module (OFAM). Afterwards, the object relations are calculated and the scene representation is constructed based on the proposed object attention module (OAM) and global relation aggregation module (GRAM). The final results in this work show that OTS successfully extracts object features and learns object relations from the segmentation network. Moreover, OTS outperforms the state-of-the-art methods by more than 2\% on indoor scene recognition without using any additional streams. Code is publicly available at: https://github.com/FreeformRobotics/OTS. | 翻訳日:2021-08-03 15:19:01 公開日:2021-08-01 |
# 超解法ネットワークにおける「セマンティックス」の発見 Discovering "Semantics" in Super-Resolution Networks ( http://arxiv.org/abs/2108.00406v1 ) ライセンス: Link先を確認 | Yihao Liu, Anran Liu, Jinjin Gu, Zhipeng Zhang, Wenhao Wu, Yu Qiao, Chao Dong | (参考訳) スーパーレゾリューション(sr)は低レベルの視覚領域の基本かつ代表的なタスクである。
srネットワークから抽出された特徴は特定の意味情報を持たないと考えられ、ネットワークは入力から出力への複雑な非線形マッピングを単に学習する。
srネットワークで "semantics" を見つけることはできますか?
本稿では,この問題に対する肯定的な回答を示す。
特徴表現を次元的縮小と可視化を用いて分析することにより,srネットワークにおける深い意味的表現,すなわち \textit{i.e。
深部劣化表現(ddr)は,画像劣化の種類や程度に関連がある。
また,分類とsrネットワーク間の表現意味の違いも明らかにした。
低レベルCNNネットワークの本質的なメカニズムの解釈やブラインドSRの新たな評価手法の開発など,今後の研究にとって重要な一連の観測と結論を描いている。 Super-resolution (SR) is a fundamental and representative task of low-level vision area. It is generally thought that the features extracted from the SR network have no specific semantic information, and the network simply learns complex non-linear mappings from input to output. Can we find any "semantics" in SR networks? In this paper, we give affirmative answers to this question. By analyzing the feature representations with dimensionality reduction and visualization, we successfully discover the deep semantic representations in SR networks, \textit{i.e.}, deep degradation representations (DDR), which relate to the image degradation types and degrees. We also reveal the differences in representation semantics between classification and SR networks. Through extensive experiments and analysis, we draw a series of observations and conclusions, which are of great significance for future work, such as interpreting the intrinsic mechanisms of low-level CNN networks and developing new evaluation approaches for blind SR. | 翻訳日:2021-08-03 15:18:41 公開日:2021-08-01 |
# ロゴ検出のための有効でロバストな検出器 An Effective and Robust Detector for Logo Detection ( http://arxiv.org/abs/2108.00422v1 ) ライセンス: Link先を確認 | Xiaojun Jia, Huanqian Yan, Yonglin Wu, Xingxing Wei, Xiaochun Cao, Yong Zhang | (参考訳) 近年では、文学、発明、芸術作品などを代表する知的財産(IP)が次第に人々の注目を集めている。
特にeコマースの普及に伴い、IPは製品デザインやブランドだけでなく、Eコマースプラットフォームに表示される画像やビデオも表現している。
残念なことに、一部の攻撃者は、よく訓練されたロゴ検出モデルを騙すためにいくつかの敵対的手法を採用している。
そこで本稿では,2回目視・思考機構に基づく新しいロゴ検出手法を提案し,ロバストなロゴ検出法を提案する。
提案する検出器は他の主流検出器と異なり、小型の物体、ロングテールの物体を効果的に検出し、逆向きの画像に頑健である。
より詳しくは、デテクトRSアルゴリズムを、等化損失関数、マルチスケール変換、および逆データ拡張を備えたカスケードスキーマに拡張する。
実験の結果,提案手法は検出モデルのロバスト性を効果的に向上できることが示された。
さらに,提案手法を,アリババがTianchiプラットフォーム上で編成したACM MM2021ロバストローゴ検出に応用し,36489チームで2位となった。
コードはhttps://github.com/jiaxiaojunQAQ/Robust-Logo-Detectionで入手できる。 In recent years, intellectual property (IP), which represents literary, inventions, artistic works, etc, gradually attract more and more people's attention. Particularly, with the rise of e-commerce, the IP not only represents the product design and brands, but also represents the images/videos displayed on e-commerce platforms. Unfortunately, some attackers adopt some adversarial methods to fool the well-trained logo detection model for infringement. To overcome this problem, a novel logo detector based on the mechanism of looking and thinking twice is proposed in this paper for robust logo detection. The proposed detector is different from other mainstream detectors, which can effectively detect small objects, long-tail objects, and is robust to adversarial images. In detail, we extend detectoRS algorithm to a cascade schema with an equalization loss function, multi-scale transformations, and adversarial data augmentation. A series of experimental results have shown that the proposed method can effectively improve the robustness of the detection model. Moreover, we have applied the proposed methods to competition ACM MM2021 Robust Logo Detection that is organized by Alibaba on the Tianchi platform and won top 2 in 36489 teams. Code is available at https://github.com/jiaxiaojunQAQ/Robust-Logo-Detection. | 翻訳日:2021-08-03 15:18:27 公開日:2021-08-01 |
# Hyper360 - 没入型メディアのための次世代ツールセット Hyper360 -- a Next Generation Toolset for Immersive Media ( http://arxiv.org/abs/2108.00430v1 ) ライセンス: Link先を確認 | Hannes Fassold, Antonis Karakottas, Dorothea Tsatsou, Dimitrios Zarpalas, Barnabas Takacs, Christian Fuhrhop, Angelo Manfredi, Nicolas Patz, Simona Tonoli, Iana Dulskaia | (参考訳) sphere 360{\deg} ビデオは新しいメディアフォーマットであり、没入型メディアの制作と消費に急速に採用されている。
その斬新さのために、様々なプラットフォームで消費される高機能な360{\deg}ビデオを作るためのツールが不足している。
本稿では,360度ビデオと3dコンテンツの混合のためのツールであるhyper360のプロジェクトについて述べる。
また、hyper360ツールを用いて製作された最初のパイロットと、製作されたパイロットのオーディエンス評価の結果を紹介する。 Spherical 360{\deg} video is a novel media format, rapidly becoming adopted in media production and consumption of immersive media. Due to its novelty, there is a lack of tools for producing highly engaging interactive 360{\deg} video for consumption on a multitude of platforms. In this work, we describe the work done so far in the Hyper360 project on tools for mixed 360{\deg} video and 3D content. Furthermore, the first pilots which have been produced with the Hyper360 tools and results of the audience assessment of the produced pilots are presented. | 翻訳日:2021-08-03 15:18:04 公開日:2021-08-01 |
# SSPU-Net: 微分レンダリングによる自己監視ポイントクラウドアップサンプリング SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable Rendering ( http://arxiv.org/abs/2108.00454v1 ) ライセンス: Link先を確認 | Yifan Zhao, Le Hui, Jin Xie | (参考訳) 3dセンサーから得られる点雲は通常は希薄である。
既存の手法は主に、密度の高い真理点雲を用いて監督された方法でスパース点雲をサンプリングすることに焦点を当てている。
本稿では,地中真理を使わずに高密度の点雲を生成する自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。
そこで我々は,入力スパース点雲と高密度点雲との整合性を利用して形状と描画画像を生成する。
具体的には、まず、スパース点雲の局所的な幾何学的構造を利用して点補間のための重みを学習する、スパース点雲を増幅する隣の膨張ユニット(NEU)を提案する。
そこで我々は,DRU(Dariable Point Cloud rendering Unit)をネットワークのエンドツーエンドモジュールとして開発し,ポイントクラウドをマルチビュー画像にレンダリングする。
最後に, 形状不連続損失と画像不一致損失を定式化してネットワークをトレーニングし, スパースと高密度点雲の形状が可能な限り一貫するようにした。
CADおよびスキャンしたデータセットの大規模な結果から,本手法が自己教師型で優れた結果を得られることを示す。
コードはhttps://github.com/Avlon/SSPU-Netで入手できる。 Point clouds obtained from 3D sensors are usually sparse. Existing methods mainly focus on upsampling sparse point clouds in a supervised manner by using dense ground truth point clouds. In this paper, we propose a self-supervised point cloud upsampling network (SSPU-Net) to generate dense point clouds without using ground truth. To achieve this, we exploit the consistency between the input sparse point cloud and generated dense point cloud for the shapes and rendered images. Specifically, we first propose a neighbor expansion unit (NEU) to upsample the sparse point clouds, where the local geometric structures of the sparse point clouds are exploited to learn weights for point interpolation. Then, we develop a differentiable point cloud rendering unit (DRU) as an end-to-end module in our network to render the point cloud into multi-view images. Finally, we formulate a shape-consistent loss and an image-consistent loss to train the network so that the shapes of the sparse and dense point clouds are as consistent as possible. Extensive results on the CAD and scanned datasets demonstrate that our method can achieve impressive results in a self-supervised manner. Code is available at https://github.com/Avlon/SSPU-Net. | 翻訳日:2021-08-03 15:17:56 公開日:2021-08-01 |
# IPOF: 無限の伝播による極端にシンプルなアウトリーチ検出ブースター IPOF: An Extremely and Excitingly Simple Outlier Detection Booster via Infinite Propagation ( http://arxiv.org/abs/2108.00360v1 ) ライセンス: Link先を確認 | Sibo Zhu, Handong Zhao, Hongfu Liu | (参考訳) アウトリエ検出は、重要な学術的価値と広範な産業応用のために、データマイニング分野で最も人気があり、継続的なトピックの1つである。
さまざまな設定の中で、教師なしの外れ値検出は最も困難で実用的であり、多様な視点から大きな努力を惹きつける。
本稿では,スコアに基づく外れ値検出カテゴリを考察し,現在の外れ値検出アルゴリズムの性能がスコア伝搬によってさらに向上する可能性を指摘した。
具体的には, 無限伝播による極端かつエキサイティングな異常検出ブースターである, 無限伝播外乱因子(ipof)アルゴリズムを提案する。
初期化にスコアベースのアウトラヤ検出器を用いることで、iPOFは各データポイントのアウトラヤスコアを更新する。
様々な領域における多数のデータセットに対する大規模な実験結果から、いくつかの古典的および最近の最先端手法に対して、iPOFの有効性と効率が顕著に示されている。
また,一般検証のために,近傍の数,ipofにおける一意なパラメータ,異なる初期異常検出器のパラメータ解析も提供する。
iPOFは平均レベルで2%から46%のポジティブな改善をもたらしており、多くの場合、iPOFは元の外れ値検出アルゴリズムよりも3000%以上のパフォーマンスを向上する。 Outlier detection is one of the most popular and continuously rising topics in the data mining field due to its crucial academic value and extensive industrial applications. Among different settings, unsupervised outlier detection is the most challenging and practical one, which attracts tremendous efforts from diverse perspectives. In this paper, we consider the score-based outlier detection category and point out that the performance of current outlier detection algorithms might be further boosted by score propagation. Specifically, we propose Infinite Propagation of Outlier Factor (iPOF) algorithm, an extremely and excitingly simple outlier detection booster via infinite propagation. By employing score-based outlier detectors for initialization, iPOF updates each data point's outlier score by averaging the outlier factors of its nearest common neighbors. Extensive experimental results on numerous datasets in various domains demonstrate the effectiveness and efficiency of iPOF significantly over several classical and recent state-of-the-art methods. We also provide the parameter analysis on the number of neighbors, the unique parameter in iPOF, and different initial outlier detectors for general validation. It is worthy to note that iPOF brings in positive improvements ranging from 2% to 46% on the average level, and in some cases, iPOF boosts the performance over 3000% over the original outlier detection algorithm. | 翻訳日:2021-08-03 15:12:39 公開日:2021-08-01 |
# SPEAR : Pythonにおける半教師付きデータプログラミング SPEAR : Semi-supervised Data Programming in Python ( http://arxiv.org/abs/2108.00373v1 ) ライセンス: Link先を確認 | Guttu Sai Abhishek, Harshad Ingole, Parth Laturia, Vineeth Dorna, Ayush Maheshwari, Ganesh Ramakrishnan and Rishabh Iyer | (参考訳) 半監督型データプログラミングのためのオープンソースのpythonライブラリであるSPEARについて述べる。
このパッケージは、トレーニングデータをプログラム的にラベル付けし構築する機能を含む、最近のデータプログラミングアプローチを実装している。
SPEARはヒューリスティックス(またはルール)の形での弱い監督と、ノイズラベルのトレーニングデータセットへの関連を促進する。
これらのノイズラベルを集約して、ダウンストリームタスクのラベルなしデータにラベルを割り当てる。
我々は,ノイズラベルを集約したラベルアグリゲーション手法を複数実装し,ノイズラベル集合を逐次的に学習した。
当社の実装には、モデルを集約し、トレーニングする他のアプローチも含まれています。
そこで,本パッケージでは,複数のカスケードとジョイントなデータプログラミングアプローチを統合するとともに,ユーザがラベル付け機能やルールを定義することで,データプログラミングの機能も提供する。
コードとチュートリアルノートブックは \url{https://github.com/decile-team/spear} で入手できる。 We present SPEAR, an open-source python library for data programming with semi supervision. The package implements several recent data programming approaches including facility to programmatically label and build training data. SPEAR facilitates weak supervision in the form of heuristics (or rules) and association of noisy labels to the training dataset. These noisy labels are aggregated to assign labels to the unlabeled data for downstream tasks. We have implemented several label aggregation approaches that aggregate the noisy labels and then train using the noisily labeled set in a cascaded manner. Our implementation also includes other approaches that jointly aggregate and train the model. Thus, in our python package, we integrate several cascade and joint data-programming approaches while also providing the facility of data programming by letting the user define labeling functions or rules. The code and tutorial notebooks are available at \url{https://github.com/decile-team/spear}. | 翻訳日:2021-08-03 15:12:18 公開日:2021-08-01 |
# 到達可能性グラフを用いたマスキングニューラルネットワークによるプロセスイベント予測 Masking Neural Networks Using Reachability Graphs to Predict Process Events ( http://arxiv.org/abs/2108.00404v1 ) ライセンス: Link先を確認 | Julian Theis and Houshang Darabi | (参考訳) Decay Replay Miningは、プロセスモデル表記を使って次のイベントを予測するディープラーニング手法である。
しかし、この手法は、プロセスモデルの構造を全面的にニューラルネットワークに織り込むものではない。
本稿では,次のイベント予測のために,Decay Replay Miningのプロセスモデルとニューラルネットワークを連動させるアプローチを提案する。
このアプローチでは、プロセスモデルの到達可能性グラフに基づいて初期化されるマスキング層を使用する。
さらに、予測性能を高めるため、ニューラルネットワークアーキテクチャの変更も提案されている。
実験結果は、アプローチの価値を示し、正確で一般化されたプロセスモデルを発見することの重要性を強調している。 Decay Replay Mining is a deep learning method that utilizes process model notations to predict the next event. However, this method does not intertwine the neural network with the structure of the process model to its full extent. This paper proposes an approach to further interlock the process model of Decay Replay Mining with its neural network for next event prediction. The approach uses a masking layer which is initialized based on the reachability graph of the process model. Additionally, modifications to the neural network architecture are proposed to increase the predictive performance. Experimental results demonstrate the value of the approach and underscore the importance of discovering precise and generalized process models. | 翻訳日:2021-08-03 15:12:06 公開日:2021-08-01 |
# トランスファーラーニングによるモデル制限接地データを用いた変圧器型地図マッチング Transformer-based Map Matching with Model Limited Ground-Truth Data using Transfer-Learning Approach ( http://arxiv.org/abs/2108.00439v1 ) ライセンス: Link先を確認 | Zhixiong Jin, Seongjin Choi, Hwasoo Yeo | (参考訳) 多くの軌道ベースのアプリケーションでは、生のgpsトラジェクタをデジタルマップの道路網にマッピングする必要がある。
従来のマップマッチング手法では,マップマッチング問題に対処するためにルールベースのアルゴリズムが用いられてきたが,本論文ではデータの観点からマップマッチングの課題を考察し,深層学習に基づくマップマッチングモデルを提案する。
トランスフォーマーを用いた地図マッチングモデルを構築し,トランスファー学習手法を提案する。
合成軌道データを生成して変圧器モデルの事前学習を行い, モデル開発コストを最小化し, 実物間ギャップを低減した。
3つの指標(平均ハミング距離、f-score、bleu)を2つのレベル(ポイントとセグメントレベル)で測定し、モデルの性能を評価する。
その結果,提案モデルが既存モデルを上回ることがわかった。
さらに、マップマッチングプロセスをプロットするためにトランスの注意重みを使用し、モデルがどのように道路セグメントと正しく一致しているかを見出す。 In many trajectory-based applications, it is necessary to map raw GPS trajectories onto road networks in digital maps, which is commonly referred to as a map-matching process. While most previous map-matching methods have focused on using rule-based algorithms to deal with the map-matching problems, in this paper, we consider the map-matching task from the data perspective, proposing a deep learning-based map-matching model. We build a Transformer-based map-matching model with a transfer learning approach. We generate synthetic trajectory data to pre-train the Transformer model and then fine-tune the model with a limited number of ground-truth data to minimize the model development cost and reduce the real-to-virtual gap. Three metrics (Average Hamming Distance, F-score, and BLEU) at two levels (point and segment level) are used to evaluate the model performance. The results indicate that the proposed model outperforms existing models. Furthermore, we use the attention weights of the Transformer to plot the map-matching process and find how the model matches the road segments correctly. | 翻訳日:2021-08-03 15:11:57 公開日:2021-08-01 |
# 両腕ロボット操作のためのトランスフォーマーを用いた深部模倣学習 Transformer-based deep imitation learning for dual-arm robot manipulation ( http://arxiv.org/abs/2108.00385v1 ) ライセンス: Link先を確認 | Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi | (参考訳) 深層模倣学習は環境モデルや事前にプログラムされたロボットの動作を必要としないため、巧妙な操作タスクの解決に有望である。
しかし、デュアルアーム操作タスクへの応用は依然として困難である。
デュアルアーム操作のセットアップでは、追加のロボットマニピュレータによって引き起こされる状態次元の増大が障害を引き起こし、結果としてニューラルネットワークの性能が低下する。
我々は,シーケンシャル入力における要素間の依存関係を計算し,重要な要素に焦点を当てたセルフアテンション機構を用いてこの問題に対処する。
自己注意型アーキテクチャの変種であるTransformerは、実世界のデュアルアーム操作タスクを解決するために、深層模倣学習に適用される。
提案手法は実ロボットを用いた双腕操作タスクでテストされている。
実験結果から,トランスフォーマベースの深層模倣学習アーキテクチャは,感覚入力中の重要な特徴に適応できるため,自己着脱機構を伴わないベースラインアーキテクチャと比較して,邪魔や操作性能の向上が期待できることがわかった。 Deep imitation learning is promising for solving dexterous manipulation tasks because it does not require an environment model and pre-programmed robot behavior. However, its application to dual-arm manipulation tasks remains challenging. In a dual-arm manipulation setup, the increased number of state dimensions caused by the additional robot manipulators causes distractions and results in poor performance of the neural networks. We address this issue using a self-attention mechanism that computes dependencies between elements in a sequential input and focuses on important elements. A Transformer, a variant of self-attention architecture, is applied to deep imitation learning to solve dual-arm manipulation tasks in the real world. The proposed method has been tested on dual-arm manipulation tasks using a real robot. The experimental results demonstrated that the Transformer-based deep imitation learning architecture can attend to the important features among the sensory inputs, therefore reducing distractions and improving manipulation performance when compared with the baseline architecture without the self-attention mechanisms. | 翻訳日:2021-08-03 15:09:37 公開日:2021-08-01 |
# ロバストな医用画像セグメンテーションのためのスタイル学習 Style Curriculum Learning for Robust Medical Image Segmentation ( http://arxiv.org/abs/2108.00402v1 ) ライセンス: Link先を確認 | Zhendong Liu, Van Manh, Xin Yang, Xiaoqiong Huang, Karim Lekadir, V\'ictor Campello, Nishant Ravikumar, Alejandro F Frangi, Dong Ni | (参考訳) 深部セグメンテーションモデルの性能は、トレーニングデータセットとテストデータセット間の画像強度の分散シフトによって劣化することが多い。
これは、マルチベンダースキャナーを用いて取得したデータを含むマルチ中心研究において特に顕著であり、取得プロトコルのバリエーションがある。
シフトはしばしばtextit{a priori} として知られておらず、モデル化が難しいため、この分解に対処することは困難である。
このような分布シフトが存在する場合にロバストなセグメンテーションを確保するための新しい枠組みを提案する。
私たちの貢献は3倍です。
まず, カリキュラム学習の精神に触発されて, セグメンテーションモデルの訓練を行うための新しいスタイルカリキュラムを, 簡単なハードモードを用いて設計する。
カリキュラムサンプルの生成にはスタイル融合を用いたスタイル転送モデルが用いられる。
複雑で敵対的なスタイルのサンプルに徐々に焦点を合わせれば、モデルのロバスト性が大幅に向上する。
第二に, カリキュラムの複雑さを主観的に定義するのではなく, 難解なサンプル生成プロセスを制御するために, 自動勾配操作手法を採用する。
第3に,局所的に勾配を集約し,勾配操作時のスタビリッシュトレーニングを行う局所勾配符号戦略を提案する。
提案フレームワークは,対象データを用いることなく未知の分布に一般化することができる。
公開m\&msチャレンジデータセットに関する広範囲な実験により,提案手法が未知の分布によく適用でき,セグメンテーション精度が大幅に向上することを実証した。 The performance of deep segmentation models often degrades due to distribution shifts in image intensities between the training and test data sets. This is particularly pronounced in multi-centre studies involving data acquired using multi-vendor scanners, with variations in acquisition protocols. It is challenging to address this degradation because the shift is often not known \textit{a priori} and hence difficult to model. We propose a novel framework to ensure robust segmentation in the presence of such distribution shifts. Our contribution is three-fold. First, inspired by the spirit of curriculum learning, we design a novel style curriculum to train the segmentation models using an easy-to-hard mode. A style transfer model with style fusion is employed to generate the curriculum samples. Gradually focusing on complex and adversarial style samples can significantly boost the robustness of the models. Second, instead of subjectively defining the curriculum complexity, we adopt an automated gradient manipulation method to control the hard and adversarial sample generation process. Third, we propose the Local Gradient Sign strategy to aggregate the gradient locally and stabilise training during gradient manipulation. The proposed framework can generalise to unknown distribution without using any target data. Extensive experiments on the public M\&Ms Challenge dataset demonstrate that our proposed framework can generalise deep models well to unknown distributions and achieve significant improvements in segmentation accuracy. | 翻訳日:2021-08-03 15:07:22 公開日:2021-08-01 |
# CERL: 現実雑音による光強調のための統一最適化フレームワーク CERL: A Unified Optimization Framework for Light Enhancement with Realistic Noise ( http://arxiv.org/abs/2108.00478v1 ) ライセンス: Link先を確認 | Zeyuan Chen, Yifan Jiang, Dong Liu, Zhangyang Wang | (参考訳) 現実世界で撮影された低照度画像は、センサーノイズによって必然的に破損する。
このようなノイズは空間的に変化しており、下層のピクセル強度に強く依存しており、従来のデノナイジングでは過度に単純化された仮定から逸脱している。
既存の光強調法は、拡張中の現実世界のノイズの重要な影響を見落とし、ノイズ除去を別の前処理または後処理のステップとして扱う。
実世界の低照度雑音画像(CERL)のコーディネート・エンハンスメントについて,光強調部と雑音抑圧部を統一的・物理的最適化フレームワークにシームレスに統合する。
実際の低照度ノイズ除去部では、クリーンな地味画像を参照することなく容易に適応できる自己教師付き遮音モデルをカスタマイズする。
ライトエンハンスメント部分については、最先端のバックボーンの設計も改善しています。
2つの部品は1つの原理のプラグ・アンド・プレイ最適化で構成される。
本手法は,定性的かつ定量的に,最先端の低照度化手法と比較した。
標準ベンチマークの他に、我々はRLMP(Rally Low-light Mobile photo data data)という、高品質のカメラで撮影されたものよりもはるかにリアルなノイズを撮影するモバイル写真データセットの収集とテストを行っている。
cerlは一貫して、すべての実験で最も視覚的に快適でアーティファクトフリーな結果を生み出す。
我々のRLMPデータセットとコードは以下の通りである。 Low-light images captured in the real world are inevitably corrupted by sensor noise. Such noise is spatially variant and highly dependent on the underlying pixel intensity, deviating from the oversimplified assumptions in conventional denoising. Existing light enhancement methods either overlook the important impact of real-world noise during enhancement, or treat noise removal as a separate pre- or post-processing step. We present Coordinated Enhancement for Real-world Low-light Noisy Images (CERL), that seamlessly integrates light enhancement and noise suppression parts into a unified and physics-grounded optimization framework. For the real low-light noise removal part, we customize a self-supervised denoising model that can easily be adapted without referring to clean ground-truth images. For the light enhancement part, we also improve the design of a state-of-the-art backbone. The two parts are then joint formulated into one principled plug-and-play optimization. Our approach is compared against state-of-the-art low-light enhancement methods both qualitatively and quantitatively. Besides standard benchmarks, we further collect and test on a new realistic low-light mobile photography dataset (RLMP), whose mobile-captured photos display heavier realistic noise than those taken by high-quality cameras. CERL consistently produces the most visually pleasing and artifact-free results across all experiments. Our RLMP dataset and codes are available at: https://github.com/VITA-Group/CERL. | 翻訳日:2021-08-03 15:06:59 公開日:2021-08-01 |
# ソーシャルネットワークにおけるオークションデザインの創発的手法 Emerging Methods of Auction Design in Social Networks ( http://arxiv.org/abs/2108.00381v1 ) ライセンス: Link先を確認 | Yuhang Guo, Dong Hao | (参考訳) 近年,拡散オークションと呼ばれる新しいオークションモデルが,従来のオークションをソーシャルネットワークのシナリオに拡張している。
拡散オークションは、ノードが潜在顧客であり、エッジが顧客間の関係であるネットワーク市場としてオークションをモデル化する。
拡散オークション機構は、購入者に真正な入札を申し込むだけでなく、近隣の住民を招いてオークションに参加するようにインセンティブを与えることができる。
従来のオークションメカニズムよりも多くの参加者が集まり、社会福祉、販売者収入、再分配金の量など、さまざまな重要な側面の最適化に繋がる。
拡散オークションは、最近、アルゴリズムゲーム理論と市場デザインコミュニティに独特な関心を集めている。
本調査は拡散オークションの現状をまとめたものである。 In recent years, a new branch of auction models called diffusion auction has extended the traditional auction into social network scenarios. The diffusion auction models the auction as a networked market whose nodes are potential customers and whose edges are the relations between these customers. The diffusion auction mechanism can incentivize buyers to not only submit a truthful bid, but also further invite their surrounding neighbors to participate into the auction. It can convene more participants than traditional auction mechanisms, which leads to better optimizations of different key aspects, such as social welfare, seller's revenue, amount of redistributed money and so on. The diffusion auctions have recently attracted a discrete interest in the algorithmic game theory and market design communities. This survey summarizes the current progress of diffusion auctions. | 翻訳日:2021-08-03 15:04:09 公開日:2021-08-01 |
# 希薄気体力学のためのクヌーゼン数に関するデータ駆動マクロモデリングとレイリー散乱への応用 Data Driven Macroscopic Modeling across Knudsen Numbers for Rarefied Gas Dynamics and Application to Rayleigh Scattering ( http://arxiv.org/abs/2108.00413v1 ) ライセンス: Link先を確認 | Candi Zheng, Yang Wang, Shiyi Chen | (参考訳) 密度ガス領域から希薄ガス領域までのクヌーゼン数にわたっての気体力学のマクロモデリングは大きな課題である。
理由は、マクロモデルは異なるクヌーゼン数に対して妥当な正確な構成関係を欠いているからである。
この問題に対処するため,データ駆動のKnUdsen数適応線形構成関係モデルDUALを提案した。
デュアルモデルは、濃厚から希薄まで、観測データからクヌーズン数の変化に適応する学習を通じて、クヌーズン数の範囲にわたって正確である。
これは、制約付きニューラルネットワークを利用することで、流体力学的限界の下でのnavier-stokes方程式と一致する。
加えて、熱力学の第二の法則を自然に満たし、ノイズに強いデータである。
我々は、レイリー散乱スペクトルの計算において、DUALモデルをテストする。
DUALモデルは様々なクヌーゼン数に対して正確なスペクトルを与え、従来の摂動法やモーメント展開法よりも優れている。 Macroscopic modeling of the gas dynamics across Knudsen numbers from dense gas region to rarefied gas region remains a great challenge. The reason is macroscopic models lack accurate constitutive relations valid across different Knudsen numbers. To address this problem, we proposed a Data-driven, KnUdsen number Adaptive Linear constitutive relation model named DUAL. The DUAL model is accurate across a range of Knudsen numbers, from dense to rarefied, through learning to adapt Knudsen number change from observed data. It is consistent with the Navier-Stokes equation under the hydrodynamic limit, by utilizing a constrained neural network. In addition, it naturally satisfies the second law of thermodynamics and is robust to noisy data. We test the DUAL model on the calculation of Rayleigh scattering spectra. The DUAL model gives accurate spectra for various Knudsen numbers and is superior to traditional perturbation and moment expansion methods. | 翻訳日:2021-08-03 15:00:42 公開日:2021-08-01 |
# 直交エンコーダを用いた潜時空間ランダム化平滑化による認証防御 Certified Defense via Latent Space Randomized Smoothing with Orthogonal Encoders ( http://arxiv.org/abs/2108.00491v1 ) ライセンス: Link先を確認 | Huimin Zeng, Jiahao Su, Furong Huang | (参考訳) ランダム化平滑化(英語版)(rs)は証明可能な数少ない防御の1つであり、$\ell_2$-norm の敵対的摂動に対する防御に関して大きな効果と拡張性を示している。
しかしながら、評価にrsで必要となるmcサンプリングのコストは高く計算コストが高い。
この問題に対処するために,ネットワークの潜在空間においてランダムな平滑化を行い,ロバストな認証を確立する可能性を検証し,計算に関わるテンソルの全体次元を劇的に削減できることを示す。
この目的のために、Latent Space Randomized Smoothingを提案する。
もう一つの重要な側面は、リプシッツ特性が設計によって自由であることが知られている直交加群を用いて、潜在空間で推定される認定半径を入力空間に伝播させ、入力空間におけるテストサンプルに対して有効な証明可能な領域を提供することである。
CIFAR10 と ImageNet を用いた実験により,本手法は競争力のある堅牢性を実現するが,試験段階における効率の大幅な向上を図っている。 Randomized Smoothing (RS), being one of few provable defenses, has been showing great effectiveness and scalability in terms of defending against $\ell_2$-norm adversarial perturbations. However, the cost of MC sampling needed in RS for evaluation is high and computationally expensive. To address this issue, we investigate the possibility of performing randomized smoothing and establishing the robust certification in the latent space of a network, so that the overall dimensionality of tensors involved in computation could be drastically reduced. To this end, we propose Latent Space Randomized Smoothing. Another important aspect is that we use orthogonal modules, whose Lipschitz property is known for free by design, to propagate the certified radius estimated in the latent space back to the input space, providing valid certifiable regions for the test samples in the input space. Experiments on CIFAR10 and ImageNet show that our method achieves competitive certified robustness but with a significant improvement of efficiency during the test phase. | 翻訳日:2021-08-03 15:00:27 公開日:2021-08-01 |
# DeepTrack: 高速道路における車両経路予測のための軽量ディープラーニング DeepTrack: Lightweight Deep Learning for Vehicle Path Prediction in Highways ( http://arxiv.org/abs/2108.00505v1 ) ライセンス: Link先を確認 | Mohammadreza Baharani, Vinit Katariya, Nichole Morris, Omidreza Shoghli, Hamed Tabkhi | (参考訳) 車両軌道予測は多くのインテリジェント交通システムの実現に不可欠である。
この分野にはいくつかの有望な進歩があったが、より小さなモデルサイズと低い計算要求を持つ新しいアジャイルアルゴリズムが必要である。
本稿では、高速道路におけるリアルタイム車両軌道予測用にカスタマイズされた新しいディープラーニングアルゴリズムであるDeepTrackについて述べる。
以前の方法とは対照的に、車両のダイナミクスはagile temporal convolutional network (atcns)を使って符号化され、少ない計算でよりロバストな時間予測を提供する。
ATCNは奥行きの畳み込み(deepwise convolution)も使用しており、モデルのサイズや操作の点で既存のアプローチと比較して、モデルの複雑さを低減する。
実験の結果,DeepTrackの精度は最先端の軌道予測モデルに匹敵するが,モデルサイズが小さく,計算量も小さく,現実の展開に適していることがわかった。 Vehicle trajectory prediction is an essential task for enabling many intelligent transportation systems. While there have been some promising advances in the field, there is a need for new agile algorithms with smaller model sizes and lower computational requirements. This article presents DeepTrack, a novel deep learning algorithm customized for real-time vehicle trajectory prediction in highways. In contrast to previous methods, the vehicle dynamics are encoded using Agile Temporal Convolutional Networks (ATCNs) to provide more robust time prediction with less computation. ATCN also uses depthwise convolution, which reduces the complexity of models compared to existing approaches in terms of model size and operations. Overall, our experimental results demonstrate that DeepTrack achieves comparable accuracy to state-of-the-art trajectory prediction models but with smaller model sizes and lower computational complexity, making it more suitable for real-world deployment. | 翻訳日:2021-08-03 15:00:07 公開日:2021-08-01 |
# 深層強化学習によるエネルギー消費最小化のための無線センサネットワークのuav軌道計画 UAV Trajectory Planning in Wireless Sensor Networks for Energy Consumption Minimization by Deep Reinforcement Learning ( http://arxiv.org/abs/2108.00354v1 ) ライセンス: Link先を確認 | Botao Zhu, Ebrahim Bedeer, Ha H. Nguyen, Robert Barton, Jerome Henry | (参考訳) 無人航空機(UAV)は、大規模無線センサネットワーク(WSN)のデータ収集の候補として期待されている。
本稿では、クラスタヘッド(CH)が各ノードからデータを受信するUAV支援WSNを調査し、UAVを送信して、計画された軌道に沿ってCHからデータを収集する。
データ収集の全ラウンドでUAV-WSNシステムの総エネルギー消費を最小化することを目的としている。
この目的に向けて,クラスタ内のノードから ch を選択し,選択した ch に対して uav の訪問順序を計画することで,エネルギー消費最小化問題を制約付き組合せ最適化問題として定式化する。
定式化エネルギー消費最小化問題はNPハードであり、最適に解くのは難しい。
この課題に取り組むため,我々は,エネルギー消費を最小化するためのuav軌道政策の経験から効率的に学習できる新しい深層強化学習(drl)手法であるpointer network-a*(ptr-a*)を提案する。
UAVの開始点と事前決定されたクラスタからなるWSNはPtr-A*に供給され、Ptr-A*はCHのグループとこれらのCH、すなわちUAVの軌道に対して訪問順序を出力する。
Ptr-A*のパラメータは、Actor-criticアルゴリズムを教師なしの方法で使用することにより、より高速なトレーニングのために、小規模クラスタ問題インスタンスでトレーニングされる。
推論では,ソリューションの品質向上のための3つの探索戦略も提案されている。
シミュレーションの結果,20クラスタと40クラスタをベースとしたトレーニングモデルでは,異なる数のクラスタを持つWSNにおいて,UAVの軌道計画問題をモデルを再学習することなく解くことができる。
さらに,提案したDRLアルゴリズムは2つのベースライン手法より優れていることを示す。 Unmanned aerial vehicles (UAVs) have emerged as a promising candidate solution for data collection of large-scale wireless sensor networks (WSNs). In this paper, we investigate a UAV-aided WSN, where cluster heads (CHs) receive data from their member nodes, and a UAV is dispatched to collect data from CHs along the planned trajectory. We aim to minimize the total energy consumption of the UAV-WSN system in a complete round of data collection. Toward this end, we formulate the energy consumption minimization problem as a constrained combinatorial optimization problem by jointly selecting CHs from nodes within clusters and planning the UAV's visiting order to the selected CHs. The formulated energy consumption minimization problem is NP-hard, and hence, hard to solve optimally. In order to tackle this challenge, we propose a novel deep reinforcement learning (DRL) technique, pointer network-A* (Ptr-A*), which can efficiently learn from experiences the UAV trajectory policy for minimizing the energy consumption. The UAV's start point and the WSN with a set of pre-determined clusters are fed into the Ptr-A*, and the Ptr-A* outputs a group of CHs and the visiting order to these CHs, i.e., the UAV's trajectory. The parameters of the Ptr-A* are trained on small-scale clusters problem instances for faster training by using the actor-critic algorithm in an unsupervised manner. At inference, three search strategies are also proposed to improve the quality of solutions. Simulation results show that the trained models based on 20-clusters and 40-clusters have a good generalization ability to solve the UAV's trajectory planning problem in WSNs with different numbers of clusters, without the need to retrain the models. Furthermore, the results show that our proposed DRL algorithm outperforms two baseline techniques. | 翻訳日:2021-08-03 14:55:12 公開日:2021-08-01 |
# 収束保証を伴う委員会機構による分散フェデレーション学習フレームワーク A Decentralized Federated Learning Framework via Committee Mechanism with Convergence Guarantee ( http://arxiv.org/abs/2108.00365v1 ) ライセンス: Link先を確認 | Chunjiang Che, Xiaoli Li, Chuan Chen, Xiaoyu He, Zibin Zheng | (参考訳) フェデレーション学習は、複数の参加者がデータプライバシを公開することなく、効率的にモデルをトレーニングすることを可能にする。
しかしながら、この分散機械学習トレーニング方法は、モデルの変更や誤った勾配のアップロードによってグローバルモデルのトレーニングを妨げるビザンチンクライアントからの攻撃に起因している。
本稿では,コンバージェンス保証によるアルゴリズムのロバスト性を保証するための,新しいサーバレスフェデレーション学習フレームワーク委員会機構に基づくフェデレーション学習(cmfl)を提案する。
CMFLでは、アップロードされた局所勾配を表示するために委員会システムが設置される。
委員会システムは、選考戦略を通じて、選出された委員が集計手続きのために評価した地域勾配を選択し、選挙戦略を通じて委員を置き換える。
モデル性能と防御の異なる考察に基づき、精度と堅牢性の両方のために2つの反対選択戦略を設計する。
広範囲にわたる実験は、CMFLが一般的なフェデレートラーニングよりも早く収束と精度の向上を実現し、一方、非集中的なアプローチで従来のビザンチン耐性アルゴリズムよりも優れた堅牢性を得ることを示した。
さらに,実験結果と一致する選挙戦略と選択戦略の異なるCMFLの収束を理論的に解析し,実証する。 Federated learning allows multiple participants to collaboratively train an efficient model without exposing data privacy. However, this distributed machine learning training method is prone to attacks from Byzantine clients, which interfere with the training of the global model by modifying the model or uploading the false gradient. In this paper, we propose a novel serverless federated learning framework Committee Mechanism based Federated Learning (CMFL), which can ensure the robustness of the algorithm with convergence guarantee. In CMFL, a committee system is set up to screen the uploaded local gradients. The committee system selects the local gradients rated by the elected members for the aggregation procedure through the selection strategy, and replaces the committee member through the election strategy. Based on the different considerations of model performance and defense, two opposite selection strategies are designed for the sake of both accuracy and robustness. Extensive experiments illustrate that CMFL achieves faster convergence and better accuracy than the typical Federated Learning, in the meanwhile obtaining better robustness than the traditional Byzantine-tolerant algorithms, in the manner of a decentralized approach. In addition, we theoretically analyze and prove the convergence of CMFL under different election and selection strategies, which coincides with the experimental results. | 翻訳日:2021-08-03 14:54:41 公開日:2021-08-01 |
# (参考訳) 理論的コンピュータ科学の観点からの意識の理論:意識チューリングマシンからの考察 A Theory of Consciousness from a Theoretical Computer Science Perspective: Insights from the Conscious Turing Machine ( http://arxiv.org/abs/2107.13704v2 ) ライセンス: CC BY 4.0 | Lenore Blum, Manuel Blum | (参考訳) かつて哲学者や神学者の観念であった意識理解の探求は、現在では多くの分野の科学者によって活発に追求されている。
計算と複雑性の根底にある原理を理解することに関わる数学の分野である理論計算機科学(tcs)の視点から、資源制限の影響や驚くべき結果を含む意識を考察する。
アラン・チューリングのコンピュータの単純かつ強力な定義、チューリングマシン(TM)、および計算複雑性理論の観点から、認知神経科学者バーナード・バールズ(Bernard Baars)による意識のグローバルワークスペース理論(GWT)の修正版を形式化し、スタニスラス・デヘーネ(Stanislas Dehaene)、ジャン=ピエール・チェンドー(Jean-Pierre Changeaux)らによってさらに発展させた。
脳の複雑なモデルや認知のモデルを探すのではなく、(明らかに複雑な)意識の単純な計算モデルを探すのです。
我々は意識的チューリングマシン(CTM)、別名意識AIを定義し、その上で意識と関連する概念をCTMで定義する。
これらは数学的な(TCS)定義に過ぎないが、なぜCTMが意識を持っているのかを示唆する。
tcsパースペクティブは、計算複雑性理論と機械学習のツールを使用して、意識と関連する概念を理解するためのシンプルな形式的フレームワークを提供する。
これまで我々は,CTMにおける痛みと快楽の感情の高レベルな説明について検討した。
ここでは、視覚に関する3つの例(盲目、盲目、盲目の変化)を考察し、次に夢、自由意志、意識の変化について論じる。 The quest to understand consciousness, once the purview of philosophers and theologians, is now actively pursued by scientists of many stripes. We examine consciousness from the perspective of theoretical computer science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations. In the spirit of Alan Turing's simple yet powerful definition of a computer, the Turing Machine (TM), and perspective of computational complexity theory, we formalize a modified version of the Global Workspace Theory (GWT) of consciousness originated by cognitive neuroscientist Bernard Baars and further developed by him, Stanislas Dehaene, Jean-Pierre Changeaux and others. We are not looking for a complex model of the brain nor of cognition, but for a simple computational model of (the admittedly complex concept of) consciousness. We do this by defining the Conscious Turing Machine (CTM), also called a conscious AI, and then we define consciousness and related notions in the CTM. While these are only mathematical (TCS) definitions, we suggest why the CTM has the feeling of consciousness. The TCS perspective provides a simple formal framework to employ tools from computational complexity theory and machine learning to help us understand consciousness and related concepts. Previously we explored high level explanations for the feelings of pain and pleasure in the CTM. Here we consider three examples related to vision (blindsight, inattentional blindness, and change blindness), followed by discussions of dreams, free will, and altered states of consciousness. | 翻訳日:2021-08-03 12:02:01 公開日:2021-08-01 |